JP6783339B2 - 音声を処理する方法及び装置 - Google Patents

音声を処理する方法及び装置 Download PDF

Info

Publication number
JP6783339B2
JP6783339B2 JP2019047290A JP2019047290A JP6783339B2 JP 6783339 B2 JP6783339 B2 JP 6783339B2 JP 2019047290 A JP2019047290 A JP 2019047290A JP 2019047290 A JP2019047290 A JP 2019047290A JP 6783339 B2 JP6783339 B2 JP 6783339B2
Authority
JP
Japan
Prior art keywords
voice
voice dialogue
dialogue device
input
received
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019047290A
Other languages
English (en)
Other versions
JP2020003774A (ja
Inventor
ウー,ヤー
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2020003774A publication Critical patent/JP2020003774A/ja
Application granted granted Critical
Publication of JP6783339B2 publication Critical patent/JP6783339B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本願の実施例は、コンピュータ技術分野に関し、具体的に音声を処理する方法及び装置に関する。
現在、スマートホームの研究及び普及に従い、スマートホームデバイスが我々の生活に入っている。マルチスペースシーンにおいて、ベッドルーム、居間、台所とトイレに音声対話機能を持つスマートホームデバイスを設置することができる。例えば、ベッドルームにスマートスピーカを設置し、居間にスマートテレビを設置し、台所にスマート冷蔵庫を設置し、トイレにスマート洗濯機を設置することができる。従来の音声対話装置に用いられる音声処理方式においては、一般的に、ユーザが音声指令を言い出した後に、音声指令を受信した少なくとも一つの音声対話装置が音声指令を処理することにより、ユーザとの音声対話を実現させる。
本願の実施例は、音声を処理する方法及び装置を提供した。
第一局面として、本願の実施例は、音声を処理する方法であって、目標音声対話装置のセットのうち少なくとも一つの音声対話装置が入力音声を受信したと確定されたことに応答して、少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置が受信した入力音声の音声特徴を取得するステップと、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から、音声対話装置を選択し、選択された音声対話装置に入力音声を処理させるステップと、を含む方法を提供した。
幾つかの実施例において、音声特徴は、ボリュームを含み、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から、音声対話装置を選択し、選択された音声対話装置に入力音声を処理させるステップは、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声のボリュームの大きい順で、少なくとも一つの音声対話装置から、所定の第1の数の音声対話装置を選択し、選択された音声対話装置に入力音声を処理させるステップを含む。
幾つかの実施例において、音声特徴は音圧を含み、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に入力音声を処理させるステップは、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音圧の大きい順で、少なくとも一つの音声対話装置から所定の第2の数の音声対話装置を選択し、選択された音声対話装置に入力音声を処理させるステップを含む。
幾つかの実施例において、の少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を選択し、された音声対話装置に入力音声を処理させるステップは、入力音声に所定のウェークアップワードが含まれると確定されたことに応答して、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を選択してウェークアップすることにより、ウェークアップされた音声対話装置に入力音声を処理させるステップを含む。
幾つかの実施例において、少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に入力音声を処理させるステップの前に、該方法は、更に、入力音声を解析して解析結果を取得するステップを含み、少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に入力音声を処理させるステップは、少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置が解析結果により指示された操作を実行するように、選択された音声対話装置へ解析結果を送信することを含む。
第二局面として、本願実施例は、音声を処理する装置であって、目標音声対話装置のセットのうち少なくとも一つの音声対話装置が入力音声を受信したと確定されたことに応答して、少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置により受信された入力音声の音声特徴を取得するように配置される取得ユニットと、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に入力音声を処理させるように配置される選択ユニットと、を備える装置を提供した。
幾つかの実施例において、音声特徴はボリュームを含み、選択ユニットは、更に、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に入力音声を処理させる時、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声のボリュームの大きい順で少なくとも一つの音声対話装置から、所定の第1の数の音声対話装置を選択し、選択された音声対話装置に入力音声を処理させるように配置される。
幾つかの実施例において、音声特徴は音圧を含み、選択ユニットは、更に、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に入力音声を処理させる時、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音圧の大きい順で少なくとも一つの音声対話装置から所定の第二数の音声対話装置を選択し、選択された音声対話装置に入力音声を処理させるように配置される。
幾つかの実施例において、選択ユニットは、更に、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置により入力音声を処理させる時、入力音声に所定のウェークアップワードが含まれると確定されたことに応答して、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を選択してウェークアップすることにより、ウェークアップされた音声対話装置に入力音声を処理させるように配置される。
幾つかの実施例において、該装置は、入力音声を解析して解析結果を取得するように配置される解析ユニットを更に備え、選択ユニットは、更に、少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に入力音声を処理させる時、少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置が解析結果により指示された操作を実行するように、選択された音声対話装置へ解析結果を送信するように配置される。
第三局面として、本願の実施例は一つ又は複数のプロセッサと、一つ又は複数のプログラムが記憶される記憶装置と、を備え、一つ又は複数のプログラムが一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに第一局面の何れかの実施形態に記載の方法を実現させる電子装置を提供した。
第四局面として、本願の実施例は、コンピュータプログラムが記憶されており、当該プログラムがプロセッサにより実行されると、第一局面の何れかの実施形態に記載の方法を実現させるコンピュータに読取可能な媒体を提供した。
本願により提供された音声を処理する方法及び装置は、目標音声対話装置のセットに入力音声が受信された音声対話装置があると確定されたことに応答して、入力音声が受信された少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置により受信された入力音声の音声特徴を取得する。そして、前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基いて、前記少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に前記入力音声を処理させるようにすることができる。これにより、音声対話装置により受信された入力音声の音声特徴を効果的に利用して音声対話装置の選択を行い、対応性に優れた音声対話装置の選択を実現した。
以下の図面と合わせてなされた非制限な実施例に対する詳細説明を閲覧することにより、本願の他の特徴、目的及び利点がより明確になる。
本願の一実施例を適用可能な例示的なシステムアーキテクチャである。 本願の音声を処理する方法による一実施例のフローチャートである。 本願の音声を処理する方法による一つの応用場面の模式図である。 本願の音声を処理する方法による他の実施例のフローチャートである。 本願の音声を処理する方法によるもう一つの実施例のフローチャートである。 本願の音声を処理する装置による一実施例の構成模式図である。 本願実施例を実現可能な電子装置のコンピュータシステムの構成模式図である。
以下に図面と実施例を合わせて本願に対して具体的に説明する。理解すべきなのは、ここで説明された具体的な実施例は、関連発明に対する解釈に過ぎず、当該発明に対する限定ではない。また、説明すべきなのは、説明の便宜上、図面に関連発明に関する部分しか示されていない。
説明すべきなのは、矛盾しない限り、本願における実施例及び実施例における特徴を互いに組み合わせても良い。以下に図面を参照し実施例と合わせて本願を詳しく説明する。
図1は、本願の音声を処理する方法又は音声を処理する装置が適用可能な実施例の例示的なシステムアーキテクチャ100を示した。
図1に示されたように、システムアーキテクチャ100には、音声対話装置101、102、103、制御端末104及びネットワーク1051、1052、1053、1054、1055、1056が備えられても良い。なお、ネットワーク1051は、音声対話装置101と音声対話装置102との間に通信リンク的媒体を提供する。ネットワーク1052は、音声対話装置101と音声対話装置103との間に通信リンクの媒体を提供する。ネットワーク1053は、音声対話装置102と音声対話装置103との間に通信リンクの媒体を提供する。ネットワーク1054は、音声対話装置101と制御端末104との間に通信リンクの媒体を提供する。ネットワーク1055は、音声対話装置102と制御端末104との間に通信リンクの媒体を提供する。ネットワーク1056は、音声対話装置103と制御端末104との間に通信リンクの媒体を提供する。
制御端末104は、ネットワーク1054、1055、1056を介して音声対話装置101、102、103のそれぞれと対話を行ってメッセージなどを送受信することができる。例示として、音声対話装置101、102、103のうち少なくとも一つの音声対話装置が入力音声を受信したと確定された場合に、制御端末104は、前記少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置により受信された入力音声の音声特徴を取得し、その後に、制御端末104は、前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基いて、前記少なくとも一つの音声対話装置から選択し、選択された音声対話装置に前記入力音声を処理させるようにすることができる。
制御端末104は、ハードウェアであっても良く、ソフトウェアであっても良い。制御端末104はハードウェアである場合に、情報対話と情報処理をサポートする各種の電子装置であっても良く、スマートフォーン、スマートウォッチ、電子書籍リーダ、MP3(Moving Picture Experts Group Audio Layer III、ムービング・ピクチャー・エクスパーシ・グループ・オーディオ・レイヤー3)、MP4(Moving Picture Experts Group Audio Layer IV、ムービング・ピクチャー・エクスパーシ・グループ・オーディオ・レイヤー4)プレーヤ、ノードパソコンなどを含むが、それらに限定されない。制御端末104はソフトウェアである場合に、前記列挙された電子装置にインストールされても良い。それは、複数のソフトウェア又はソフトウェアモジュール(例えば分散的なサービスを提供するために)として実現されても良く、単一のソフトウェア又はソフトウェアモジュールとして実現されても良い。ここでは具体的に限定されない。
音声対話装置101、102、103は、音声対話をサポートする各種の電子装置であっても良く、スマートスピーカ、スマートホームデバイス(例えば、スマートテレビ、スマート洗濯機、スマート冷蔵庫など)が含まれるが、それらに限定されない。音声対話装置101、102、103は、ネットワーク1051、1052、1053を介して他の音声対話装置と対話を行うことができる。例示として、音声対話装置101、102、103のうち少なくとも一つの音声対話装置が入力音声を受信したと確定された場合に、音声対話装置101は前記少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置により受信された入力音声の音声特徴を取得し、その後に、音声対話装置101は、前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基いて、前記少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に前記入力音声を処理させるようにすることができる。
説明すべきなのは、本願の実施例により提供された音声を処理する方法は、制御端末104により実行可能である。それに応じて、音声を処理する装置は、制御端末104に設置されても良い。音声を処理する方法は、音声対話装置101、102、103のうちの何れか一つにより実行されても良い。それに応じて、音声を処理する装置は、対応する音声対話装置に設置されても良い。
なお、音声を処理する方法が音声対話装置101、102、103のうちの何れか一つに実行される場合に、例示的なシステムアーキテクチャ100にネットワーク1054、1055、1056及び制御端末104が備えられなくても良い。
なお、音声対話装置101、102、103は、ハードウェアであっても良く、ソフトウェアであっても良い。音声対話装置101、102、103はハードウェアである場合に、複数の音声対話装置からなる分散的な音声対話装置グループとして実現されても良く、単一の音声対話装置として実現されても良い。音声対話装置はソフトウェアである場合に、複数のソフトウェア又はソフトウェアモジュール(例えば分散的なサービスを提供するために)として実現されても良く、単一のソフトウェア又はソフトウェアモジュールとして実現されても良い。ここでは具体的に限定されない。
理解すべきなのは、図1における音声対話装置、制御端末及びネットワークの数は例示的なものに過ぎない。実際の必要に応じて、任意の数の音声対話装置、制御端末及びネットワークを備えても良い。
続いて図2を参照する。図2は、本願の音声を処理する方法による一実施例のフロー200を示した。当該音声を処理する方法は、以下のステップを含む。
ステップ201において、目標音声対話装置のセットに入力音声が受信された音声対話装置があるか否かを判定する。
本実施例において、音声を処理する方法の実行主体(例えば図1に示された制御端末104、又は音声対話装置101、102と103の何れか一つ)は、目標音声対話装置のセットに入力音声が受信された音声対話装置があるか否かを判定することができる。音声対話装置は、ユーザの入力音声に基いてユーザと対話を行う装置であっても良く、入力音声に対して解析などの処理を行って音声処理の結果をフィードバックすることができる。音声対話装置は、スマートスピーカ、音声対話機能を持つスマートホームデバイス(例えば、スマートテレビ、スマート冷蔵庫とスマート洗濯機など)の少なくとも一つを含んでも良いが、それらに限定されない。
本実施例において、目標音声対話装置のセットは、同一のローカルエリアネットワーク(例えば、ホームローカルエリアネットワーク)に位置し、情報の対話を行うように互いに通信可能な音声対話装置からなるセットであっても良い。例示として、目標音声対話装置のセットは、一つのホームにおいて、ベッドルームのスマートスピーカと、居間のスマートテレビと、台所のスマート冷蔵庫と、トイレのスマート洗濯機とからなる音声対話装置のセットであっても良い。目標音声対話装置のセットは、更に、一つのホームにおいて、マスターベッドルームのスマートスピーカと、セカンドベッドルームのスマートスピーカと、居間のスマートスピーカと、台所のスマートスピーカとからなるスピーカセットであっても良い。
本実施例において、前記実行主体は、前記目標音声対話装置のセットに対して音声処理を行う制御端末、例えば、携帯、パソコンなどの端末装置であっても良い。前記実行主体は、更に、目標音声対話装置のセットのうちの何れか一つの音声対話装置であっても良い。例示として、目標音声対話装置のセットがベッドルームのスマートスピーカと、居間のスマートテレビと、台所のスマート冷蔵庫と、トイレのスマート洗濯機とからなる音声対話装置のセットである場合に、実行主体が居間のスマートテレビであっても良く、ベッドルームのスマートスピーカであっても良く、台所のスマート冷蔵庫又はトイレのスマート洗濯機であっても良い。
本実施例において、入力音声は入力音とも呼ばれても良い。前記目標音声対話装置のセットにおける音声対話装置は入力音声を受信すると、入力音声が受信されたことを示す情報を前記実行主体へ送信することができる。前記実行主体は、前記目標音声対話装置のセットにおける音声対話装置をモニタリングして、入力音声が受信された音声対話装置があるか否かを判定することもできる。
ステップ202において、目標音声対話装置のセットに入力音声が受信された音声対話装置があると確定されたことに応答して、入力音声が受信された少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置により受信された入力音声の音声特徴を取得する。
本実施例において、ステップ201において前記目標音声対話装置のセットに入力音声が受信された音声対話装置があると確定されると、前記実行主体は、入力音声が受信された少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置により受信された入力音声の音声特徴を取得することができる。音声特徴は、音声を描画するものであっても良く、音色情報を含んでも良い。音色情報は、音色標識を含んでも良く、音色に指示されるユーザのユーザ標識を含んでも良い。一般的に、人によっては音が一般的に異なるので、音色が異なり、音色でユーザを唯一に標識することが可能である。
本実施例の幾つかの選択可能な実現方式において、前記音声特徴は、ボリュームと音圧の少なくとも一つを含んでも良いが、それらに限定されない。ボリュームは、音量とも呼ばれても良い。ボリュームの大きさは、主に音が受信された箇所における音波の幅に依存する。同一の音源は、音波の幅が遠く伝送されるほど、ボリュームが小さくなる。音圧は、大気圧が音波からの干渉を受けた時に発生した変化、即ち大気の圧力の残圧であり、大気の圧力に音波の干渉が重なることに起因した圧力の変化に相当する。ここでは、音圧は、音声対話装置が入力音声を受信した時に音波の振動に起因した音声対話装置のマイクにおける振動膜上の圧力の変化量であっても良い。
本実施例において、前記少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置が受信された入力音声から音声特徴を抽出することができる。その後に、前記実行主体は、当該音声対話装置から抽出された音声特徴を取得することができる。前記実行主体は、当該音声対話装置から受信された入力音声を取得した後に、取得された入力音声から音声特徴を抽出して当該音声対話装置により受信された入力音声の音声特徴としても良い。
なお、前記実行主体は、一般的に入力音声が受信された少なくとも一つの音声対話装置のそれぞれについて音声特徴の取得を行うことができる。
ステップ203において、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を入力音声を処理するように選択する。
本実施例において、前記実行主体は、前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、前記少なくとも一つの音声対話装置から音声対話装置を入力音声を処理するように選択することができる。
本実施例において、前記実行主体には、音色情報と音声対話装置標識との間の対応関係の対応関係テーブルが記憶されても良い。取得された音声特徴が音色情報であれば、前記実行主体は前記対応関係テーブルにより、前記少なくとも一つの音声対話装置から、取得された音色情報に対応する音声対話装置標識に指示された音声対話装置を選択し、選択された音声対話装置に前記入力音声を処理させることができる。
本実施例において、選択された音声対話装置は、前記入力音声に対して音声認識と語義解析を行って解析結果を取得することができる。音声認識において、前記選択された音声対話装置は、前記入力音声に対して特徴抽出、音声デコード及びテキスト変換などのステップを実行することができる。語義解析において、前記選択された音声対話装置は、音声認識により得られたテキスト情報に対して自然言語理解(Natural Language Understanding、NLU)、キーワード抽出、及び人工知能(Artificial Intelligence、AI)アルゴリズムによるユーザ意図の解析を行うことができる。ユーザ意図は、ユーザが実現しようとする一つ又は複数の目的であっても良い。
本実施例において、前記解析結果にユーザ指令が含まれている場合に、選択された音声対話装置はユーザ指令に指示された操作を実行することができる。一般的に、ユーザ指令には、実行すべき操作の操作情報と、実行すべき操作の実行される対象の対象情報との少なくとも一つが含まれても良い。実行すべき操作は、音楽の再生、問題の解答、カウントダウンを含んでも良いが、それらに限定されない。実行すべき操作が音楽の再生であれば、実行すべき操作の実行される対象が音楽の名称であっても良い。
なお、前記音声特徴の抽出、音声デコード技術、テキスト変換、キーワード抽出及び人工知能アルゴリズムは、いままでよく研究、適用されている周知技術であるため、ここでは詳しく説明しない。
本実施例において、前記実行主体は、音声対話装置が選択された後に、選択された音声対話装置へ音声処理の指示を送信することができる。音声処理の指示が受信された音声対話装置は前記入力音声を処理することができる。
本実施例の幾つかの選択可能な実現方式において、取得された音声特徴に音圧が含まれている場合に、前記実行主体は、前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声に起因した、音声対話装置におけるマイクの振動膜上に生成された音圧の大きい順で前記少なくとも一つの音声対話装置から所定の第2の数の(例えば、一つ、三つなど)音声対話装置を選択し、選択された音声対話装置に前記入力音声を処理させることができる。例示として、入力音声が受信された音声対話装置にベッドルームのスマートスピーカ、居間のスマートテレビ及び台所のスマート冷蔵庫が含まれている場合に、前記実行主体は、ベッドルームのスマートスピーカにより入力音声が受信された音圧が0.002パスカル(Pa)、居間のスマートテレビにより入力音声が受信された音圧が0.02パスカル、台所のスマート冷蔵庫により入力音声が受信された音圧が0.0012パスカルであることを取得した。前記実行主体は、入力音声の受信された音圧が最も大きい居間のスマートテレビを選択して、該スマートテレビに前記入力音声を処理させることができる。
本実施例の幾つかの選択可能な実現方式において、前記実行主体は、前記入力音声を解析して解析結果を取得することができる。前記実行主体は、前記入力音声に対して音声認識及び語義解析を行って解析結果を取得することができる。音声認識において、前記実行主体は前記入力音声に対して特徴抽出、音声デコード及びテキスト変換などのステップを実行することができる。語義解析において、前記実行主体は、音声認識により得られたテキスト情報に対して自然言語理解、キーワード抽出及び人工知能アルゴリズムによるユーザ意図の解析を行うことができる。ユーザ意図は、ユーザが実現しようとする一つ又は複数の目的であっても良い。そして、前記実行主体は、前記少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置へ前記解析結果を送信して選択された音声対話装置に前記解析結果に指示された操作を実行させることができる。前記解析結果にユーザ指令が含まれている場合に、選択された音声対話装置はユーザ指令に指示された操作を実行することができる。一般的に、ユーザ指令には、実行すべき操作の操作情報と実行すべき操作の実行される対象の対象情報との少なくとも一つが含まれても良い。実行すべき操作は、音楽の再生、問題の解答、カウントダウンを含んでも良いが、それらに限定されない。実行すべき操作が音楽の再生であれば、実行すべき操作の実行される対象が音楽の名称であっても良い。
続いて図3を参照する。図3は、本実施例の音声を処理する方法による応用場面の一つの模式図である。図3の応用場面において、居間のスマートテレビ302、ベッドルームのスマートスピーカ303と台所のスマート冷蔵庫304により目標音声対話装置のセットを構成する。ユーザが居間に「「ようこそ北京へ」という歌を再生する」の入力音声305を言い出した。スマートテレビ302、スマートスピーカ303とスマート冷蔵庫304は何れも入力音声305を受信すると、スマートテレビ302、スマートスピーカ303とスマート冷蔵庫304から音声を処理する方法の実行主体301へ入力音声が受信されたことを示す情報を送信することができる。そして、実行主体301は、スマートテレビ302、スマートスピーカ303とスマート冷蔵庫304により受信された入力音声の第一音声特徴306、第二音声特徴307と第三音声特徴308をそれぞれ取得することができる。例示として、第一音声特徴306、第二音声特徴307と第三音声特徴308は何れも音色標識2であっても良い。そして、実行主体301には、音色標識と音声対話装置標識との間の対応関係の対応関係テーブルが記憶されても良い。実行主体301は、前記対応関係テーブルにおいて音色標識2に対応する音声対話装置標識としてスマートテレビを検索することができる。この場合に、実行主体301は、スマートテレビ302を入力音声305として「「ようこそ北京へ」という歌を再生する」を処理するように選択することができる(符号309に示されたように)。スマートテレビ302は、「ようこそ北京へ」という歌を再生する。
本願の前記実施例により提供された方法は、音声対話装置により受信された入力音声の音声特徴を利用して音声対話装置を選択することにより、対応性に優れた音声対話装置の選択を実現した。
続いて図4を参照する。図4は、音声を処理する方法の他の実施例のフロー400を示した。当該音声を処理する方法のフロー400には、以下のステップが含まれる。
ステップ401において、目標音声対話装置のセットに入力音声が受信された音声対話装置があるか否かを判定する。
ステップ402において、目標音声対話装置のセットに入力音声が受信された音声対話装置があると確定されたことに応答して、入力音声が受信された少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置により受信された入力音声の音声特徴を取得する。
本実施例において、ステップ401〜402の操作はステップ201〜202の操作と基本的に同じであるため、ここでは詳しく説明しない。
ステップ403において、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声のボリュームの大きい順で少なくとも一つの音声対話装置から所定の第1の数の音声対話装置を選択し、選択された音声対話装置に入力音声を処理させる。
本実施例において、取得された音声特徴にはボリュームが含まれても良い。ボリュームは音量とも呼ばれても良い。ボリュームの大きさは、主に音が受信された箇所における音波の幅に依存する。同一の音源は、音波の幅が遠く伝送されるほど、ボリュームが小さくなる。前記実行主体は、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声のボリュームの大きい順で少なくとも一つの音声対話装置から所定の第1の数の(例えば、一つ、二つなど)音声対話装置を選択し、選択された音声対話装置に入力音声を処理させることができる。
例示として、入力音声が受信された音声対話装置にベッドルームのスマートスピーカ、居間のスマートテレビと台所のスマート冷蔵庫が含まれている場合に、前記実行主体は、ベッドルームのスマートスピーカにより受信された入力音声のボリュームが6、居間のスマートテレビにより受信された入力音声のボリュームが8、台所のスマート冷蔵庫により受信された入力音声のボリュームが2であることを取得した。前記実行主体は、受信された入力音声のボリュームが最も大きい居間のスマートテレビを選択し、該スマートテレビに前記入力音声を処理させることができる。
図4からわかるように、図2に対応する実施例と比べ、本実施例における音声を処理する方法のフロー400には、各音声対話装置により受信された入力音声のボリュームの大きい順で少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に入力音声を処理させるステップが追加された。従って、本実施例に説明された技術案は、音源に近い音声対話装置を選択して入力音声を処理できるため、音声処理の正確率が向上した。
続いて図5を参照する。図5は、音声を処理する方法のもう一つの実施例のフロー500を示した。当該音声を処理する方法のフロー500は、以下のステップを含む。
ステップ501において、目標音声対話装置のセットに入力音声が受信された音声対話装置があるか否かを判定する。
ステップ502において、目標音声対話装置のセットに入力音声が受信された音声対話装置があると確定されたことに応答して、入力音声が受信された少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置により受信された入力音声の音声特徴を取得する。
本実施例において、ステップ501〜502の操作はステップ201〜202の操作と基本的に同じであるため、ここでは詳しく説明しない。
ステップ503において、入力音声に所定のウェークアップワードが含まれているか否かを判定する。
本実施例において、前記実行主体は前記入力音声に所定のウェークアップワードが含まれているか否かを判定することができる。具体的に、前記実行主体は、前記入力音声に対してデコードを行って音素シーケンスを取得した後に、予め記憶されたウェークアップワードの音素シーケンスとマッチングし、デコードされた因素シーケンスに記憶されたウェークアップワードの音素シーケンスとマッチした音素シーケンスがある場合に、前記音声入力情報に所定のウェークアップワードがあると確定することができる。前記ウェークアップワードは、予め設置された命令ワード、例えば、オープン、どうも、ハーローなどであっても良い。なお、前記ウェークアップワードは、デフォールドであっても良く、ユーザに設置されるものであっても良い。
ステップ504において、入力音声に所定のウェークアップワードが含まれていると確定されたことに応答して、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を選択してウェークアップすることにより、ウェークアップされた音声対話装置に入力音声を処理させる。
本実施例において、ステップ503において前記入力音声に所定のウェークアップワードが含まれていると確定されると、前記実行主体は、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、前記少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置をウェークアップすることにより、ウェークアップされた音声対話装置に入力音声を処理させることができる。ウェークアップされた音声対話装置は、前記入力音声に対して音声認識、語義解析などの処理を行ってユーザ意図、及びユーザ意図に指示される操作を認識することができる。例示として、ユーザ意図が「ようこそ北京へ」という歌を再生することであれば、選択された音声対話装置が「ようこそ北京へ」という歌を再生することができる。
図5からわかるように、図2に対応する実施例と比べ、本実施例における音声を処理する方法のフロー500には、入力音声に所定のウェークアップワードが含まれている場合に、選択された音声対話装置をウェークアップしてウェークアップされた音声対話装置に入力音声を処理させることができるステップが追加された。従って、本実施例に説明された技術案は、毎回に音声対話装置を改めて選択して音声処理を行う必要がなく、ウェークアップされた音声対話装置を利用してその後に受信された入力音声を処理することができる。このような方式により、音声処理の過程が簡単になり、音声処理の効率を向上させることができる。
続いて図6を参照する。前記の各図に示された方法の実現として、本願は音声を処理する装置の一実施例を提供した。当該装置の実施例は図2に示された方法の実施例に対応する。当該装置は具体的に各種の電子装置に適用可能である。
図6に示されたように、本実施例における音声を処理する装置600には、取得ユニット601と、選択ユニット602とが備えられる。なお、取得ユニット601は、目標音声対話装置のセットのうち少なくとも一つの音声対話装置が入力音声を受信したと確定されたことに応答して、少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置により受信された入力音声の音声特徴を取得するように配置される。選択ユニット602は、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置に入力音声を処理させるように配置される。
本実施例において、音声を処理する装置600において、取得ユニット601の具体的な処理は図2の対応の実施例におけるステップ201とステップ202を参照し、選択ユニット602の具体的な処理は図2の対応の実施例におけるステップ203を参照することができる。
本実施例の幾つかの選択可能な実現方式において、前記音声特徴には、ボリュームが含まれても良い。ボリュームは音量とも呼ばれても良い。ボリュームの大きさは、主に音が受信された箇所における音波の幅に依存する。同一の音源は、音波の幅が遠く伝送されるほど、ボリュームが小さくなる。前記選択ユニット602は、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声のボリュームの大きい順で少なくとも一つの音声対話装置から所定の第1の数の音声対話装置を選択し、選択された音声対話装置に入力音声を処理させることができる。
本実施例の幾つかの選択可能な実現方式において、前記音声特徴には、音圧が含まれても良い。音圧は、音波からの干渉を受けると大気圧に発生した変化、即ち大気の圧力の残圧であり、大気の圧力に音波の干渉が重なることに起因した圧力の変化に相当する。ここでは、音圧は、音声対話装置が入力音声を受信した時に音波の振動に起因した音声対話装置のマイクにおける振動膜上の圧力の変化量であっても良い。取得された音声特徴に音圧が含まれている場合に、前記選択ユニット602は、前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声により音声対話装置のマイクの振動膜において発生された音圧の大きい順で前記少なくとも一つの音声対話装置から所定の第2の数の音声対話装置を選択し、選択された音声対話装置に前記入力音声を処理させることができる。
本実施例の幾つかの選択可能な実現方式において、前記選択ユニット602は前記入力音声に所定のウェークアップワードが含まれているか否かを判定することができる。具体的に、前記選択ユニット602は、前記入力音声に対してデコードを行って音素シーケンスを取得した後に、予め記憶されたウェークアップワードの音素シーケンスとマッチングし、デコードされた因素シーケンスに記憶されたウェークアップワードの音素シーケンスとマッチした音素シーケンスがある場合に、前記音声入力情報に所定のウェークアップワードがあると確定することができる。前記ウェークアップワードは、予め設置された命令ワード、例えば、オープン、どうも、ハーローなどであっても良い。前記入力音声に所定のウェークアップワードが含まれていると確定されると、前記選択ユニット602は、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、前記少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置をウェークアップしてウェークアップされた音声対話装置に入力音声を処理させることができる。ウェークアップされた音声対話装置は、前記入力音声に対して音声認識、語義解析などの処理を行ってユーザ意図、及びユーザ意図に指示された操作を認識することができる。
本実施例の幾つかの選択可能な実現方式において、前記音声を処理する装置600は、解析ユニット(未図示)を備えても良い。前記解析ユニットは、前記入力音声を解析して解析結果を取得することができる。前記解析ユニットは、前記入力音声に対して音声認識及び語義解析を行って解析結果を取得することができる。音声認識において、前記解析ユニットは、前記入力音声に対して特徴抽出、音声デコード及びテキスト変換などのステップを実行することができる。語義解析において、前記解析ユニットは、音声認識により得られたテキスト情報に対して自然言語理解、キーワード抽出及び人工知能アルゴリズムによるユーザ意図の解析を行うことができる。ユーザ意図は、ユーザが実現しようとする一つ又は複数の目的であっても良い。そして、前記選択ユニット602は、前記少なくとも一つの音声対話装置から音声対話装置を選択し、選択された音声対話装置へ前記解析結果を送信して、選択された音声対話装置に前記解析結果に指示された操作を実行させることができる。前記解析結果にユーザ指令が含まれている場合に、選択された音声対話装置はユーザ指令に指示された操作を実行することができる。一般的に、ユーザ指令には、実行すべき操作の操作情報と実行すべき操作の実行される対象の対象情報との少なくとも一つが含まれても良い。実行すべき操作は、音楽の再生、問題の解答、カウントダウンを含んでも良いが、それらに限定されない。実行すべき操作が音楽の再生であれば、実行すべき操作の実行される対象が音楽の名称であっても良い。
以下に図7を参照する。図7は、本発明の実施例を実現可能な電子装置(例えば図1における制御端末104)のコンピュータシステム700の構成模式図を示した。図7に示された電子装置は、一つの例示に過ぎず、本願の実施例の機能及び使用範囲を制限するものではない。
図7に示されたように、電子装置700には、中央処理ユニット(CPU)701と、メモリ702と、入力ユニット703と、出力ユニット704とが備えられる。なお、CPU 701、メモリ702、入力ユニット703及び出力ユニット704は、バス705を介して互いに接続される。ここでは、本願の実施例による方法は、コンピュータプログラムとして実現され、且つメモリ702に記憶されても良い。電子装置700におけるCPU701は、メモリ702に記憶されている前記コンピュータプログラムを呼び出すことにより、本願の実施例の方法に限定された音声処理機能を具体的に実現する。
特に、本開示の実施例によれば、上記のフローチャートに参照して説明された過程はコンピュータソフトウェアプログラムに実現されても良い。例えば、本開示の実施例はコンピュータ読取可能な媒体にロードされるコンピュータプログラムを含むコンピュータプログラム製品を備える。当該コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。当該コンピュータプログラムは、中央処理ユニット(CPU)701により実行される場合に、本願の方法に限定される前記機能を実行する。説明すべきなのは、本願のコンピュータ読取可能な媒体は、コンピュータ読取可能な信号媒体、コンピュータ読取可能な記憶媒体、或いは前記両者の任意の組み合わせであっても良い。コンピュータ読取可能な記憶媒体は、例えば電気、磁気、光、電磁気、赤外線、半導体のシステム、サーバ又は部品、或いはこれらの任意の組み合わせであっても良いが、それらに限定されない。コンピュータ読取可能な記憶媒体についてのより具体的な例は、一つ又は複数の導線を含む電気的な接続、携帯可能なコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、消去可能なプログラミング読取専用メモリ(EPROM又はフラッシュ)、光ファイバ、携帯可能なコンパクト磁気ディスク読取専用メモリ(CD−ROM)、光学記憶素子、磁気記憶素子、或いは前記の任意の適当の組み合わせを含むが、それらに限定されない。本願において、コンピュータ読取可能な記憶媒体は、プログラムを含むか記憶する任意の有形の媒体であっても良い。当該プログラムは、コマンド実行システム、装置又は部品に使用され、或いはそれらに組み合わせて使用されても良い。本願において、コンピュータ読取可能な信号媒体は、ベースバンドに伝送され或いはキャリアの一部として伝送され、コンピュータ読取可能なプログラムコードがロードされるデータ信号を含んでも良い。このような伝送されるデータ信号は、各種の形式を採用しても良く、電磁気信号、光信号又は前記の任意の適当の組み合わせを含むが、それらに限定されない。コンピュータ読取可能な信号媒体は、コンピュータ読取可能な記憶媒体以外の任意のコンピュータ読取可能な媒体であっても良い。当該コンピュータ読取可能な媒体は、コマンド実行システム、装置又は部品に使用され又はそれらと組み合わせて使用されるプログラムを送信し、伝播し又は伝送することができる。コンピュータ読取可能な媒体に含まれるプログラムコードは、任意の適当の媒体で伝送されても良く、無線、電線、光ケーブル、RFなど、或いは前記の任意の適当の組み合わせを含むが、それらに限定されない。
図面におけるフローチャート及びブロック図は、本願の各実施例によるシステム、方法及びコンピュータプログラム製品により実現可能なシステム構造、機能及び操作を示した。この点において、フローチャート又はブロック図における各ブロックは、一つのモジュール、プログラムセグメント、又はコードの一部を表すことができる。当該モジュール、プログラムセグメント、コードの一部には、一つ又は複数の所定のロジック機能を実現するための実行可能なコマンドが含まれる。注意すべきなのは、幾つかの置換としての実現において、ブロックに示される機能は図面に示される順序と異なって発生されても良い。例えば、二つの接続的に表示されるブロックは実際に基本的に併行に実行されても良く、場合によっては逆な順序で実行されても良く、関連の機能に従って決定される。注意すべきなのは、ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行する専用のハードウェアによるシステムで実現されても良く、或いは専用のハードウェアとコンピュータコードの組み合わせで実現されても良い。
本発明の実施例の説明に係わるユニットは、ソフトウェアで実現されても良く、ハードウェアで実現されても良い。説明されたユニットはプロセッサに設置されても良い。例えば、取得ユニットと選択ユニットを備えるプロセッサとして説明されても良い。なお、これらのユニットの名称は、ある場合に当該ユニットの自身に対する限定とされない。例えば、選択ユニットは、「少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を入力音声を処理するように選択するユニット」と説明されても良い。
他の局面として、本願は更にコンピュータ読取可能な媒体を提供した。当該コンピュータ読取可能な媒体は、前記実施形態に説明された装置に含まれたものであっても良く、当該装置に実装されずに別途に存在するものであっても良い。前記コンピュータ読取可能な媒体に一つ又は複数のプログラムがロードされる。前記一つ又は複数のプログラムが当該装置により実行されると、当該装置に、目標音声対話装置のセットのうち少なくとも一つの音声対話装置が入力音声を受信したと確定されたことに応答して、少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置により受信された入力音声の音声特徴を取得し、少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、少なくとも一つの音声対話装置から音声対話装置を入力音声を処理するように選択するように実行させる。
以上の記載は、ただ本発明の好適な実施例及び運用される技術原理に対する説明である。当業者であればわかるように、本発明にかかる発明範囲は、前記技術特徴の特定の組み合わせからなる技術案に限定されず、前記の発明構想から逸脱されない場合に前記技術特徴又は均等の特徴による任意の組み合わせで形成される他の技術案も同時に含まれるべきである。例えば前記特徴と本発明に開示された(それらに限定されない)類似の機能を具備する技術特徴が互いに置換されて得られる技術案は該当する。

Claims (10)

  1. 音声を処理する方法であって、
    目標音声対話装置のセットのうち少なくとも一つの音声対話装置が入力音声を受信したと確定されたことに応答して、前記少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置が受信した入力音声の音声特徴を取得するステップと、
    前記入力音声に所定のウェークアップワードが含まれると確定されたことに応答して、前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基いて、前記少なくとも一つの音声対話装置から、音声対話装置を選択してウェークアップするステップと
    ウェークアップされた音声対話装置に前記入力音声を処理させるステップと、
    を含む方法。
  2. 前記音声特徴は、ボリュームを含み、
    前記少なくとも一つの音声対話装置から、音声対話装置を選択してウェークアップするステップは、
    前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声のボリュームの大きい順で、前記少なくとも一つの音声対話装置から、所定の第1の数の音声対話装置を選択してウェークアップする、請求項1に記載の方法。
  3. 前記音声特徴は音圧を含み、
    前記少なくとも一つの音声対話装置から音声対話装置を選択してウェークアップするステップは、
    前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音圧の大きい順で、前記少なくとも一つの音声対話装置から所定の第2の数の音声対話装置を選択してウェークアップするステップを含む、請求項1に記載の方法。
  4. 前記の前記少なくとも一つの音声対話装置から音声対話装置を選択してウェークアップするステップの前に、前記方法は、更に、
    前記入力音声を解析して解析結果を取得するステップを含み、
    ウェークアップされた音声対話装置に前記入力音声を処理させるステップは、選択された音声対話装置が前記解析結果により指示された操作を実行するように、選択された音声対話装置へ前記解析結果を送信することを含む請求項1から3の何れか一つに記載の方法。
  5. 音声を処理する装置であって、
    目標音声対話装置のセットのうち少なくとも一つの音声対話装置が入力音声を受信したと確定されたことに応答して、前記少なくとも一つの音声対話装置のそれぞれについて、当該音声対話装置により受信された入力音声の音声特徴を取得するように構成される取得ユニットと、
    前記入力音声に所定のウェークアップワードが含まれると確定されたことに応答して、前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音声特徴に基づいて、前記少なくとも一つの音声対話装置から音声対話装置を選択してウェークアップし、ウェークアップされた音声対話装置に前記入力音声を処理させるように構成される選択ユニットと、を備える装置。
  6. 前記音声特徴はボリュームを含み、
    前記選択ユニットは、更に、
    前記少なくとも一つの音声対話装置から音声対話装置を選択してウェークアップする時、
    前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声のボリュームの大きい順で前記少なくとも一つの音声対話装置から、所定の第1の数の音声対話装置を選択してウェークアップするように構成される、請求項5に記載の装置。
  7. 前記音声特徴は音圧を含み、
    前記選択ユニットは、更に、
    前記少なくとも一つの音声対話装置から音声対話装置を選択してウェークアップする時、
    前記少なくとも一つの音声対話装置のそれぞれにより受信された入力音声の音圧の大きい順で前記少なくとも一つの音声対話装置から所定の第2の数の音声対話装置を選択してウェークアップするように構成される、請求項5に記載の装置。
  8. 前記装置は、
    前記入力音声を解析して解析結果を取得するように構成される解析ユニットを更に備え、
    前記選択ユニットは、更に、
    ウェークアップされた音声対話装置に前記入力音声を処理させることは、選択された音声対話装置が前記解析結果により指示された操作を実行するように、選択された音声対話装置へ前記解析結果を送信することを含むように構成される、請求項5から7の何れか一つに記載の装置。
  9. 一つ又は複数のプロセッサと、
    一つ又は複数のプログラムが記憶される記憶装置と、を備え、
    前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに請求項1から4の何れか一つに記載の方法を実現させる電子装置。
  10. コンピュータプログラムが記憶されており、当該プログラムがプロセッサにより実行されると、請求項1から4の何れか一つに記載の方法を実現させるコンピュータに読取可能な媒体。
JP2019047290A 2018-06-29 2019-03-14 音声を処理する方法及び装置 Active JP6783339B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810718087.4A CN108922528B (zh) 2018-06-29 2018-06-29 用于处理语音的方法和装置
CN201810718087.4 2018-06-29

Publications (2)

Publication Number Publication Date
JP2020003774A JP2020003774A (ja) 2020-01-09
JP6783339B2 true JP6783339B2 (ja) 2020-11-11

Family

ID=64423452

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019047290A Active JP6783339B2 (ja) 2018-06-29 2019-03-14 音声を処理する方法及び装置

Country Status (3)

Country Link
US (1) US11244686B2 (ja)
JP (1) JP6783339B2 (ja)
CN (1) CN108922528B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354336B (zh) * 2018-12-20 2023-12-19 美的集团股份有限公司 分布式语音交互方法、装置、系统及家电设备
CN109841214B (zh) 2018-12-25 2021-06-01 百度在线网络技术(北京)有限公司 语音唤醒处理方法、装置和存储介质
CN111653284B (zh) * 2019-02-18 2023-08-11 阿里巴巴集团控股有限公司 交互以及识别方法、装置、终端设备及计算机存储介质
CN109841207A (zh) * 2019-03-01 2019-06-04 深圳前海达闼云端智能科技有限公司 一种交互方法及机器人、服务器和存储介质
WO2021002493A1 (ko) * 2019-07-01 2021-01-07 엘지전자 주식회사 지능형 게이트웨이 장치 및 그를 포함하는 제어 시스템
CN110610720B (zh) * 2019-09-19 2022-02-25 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
JPWO2023286775A1 (ja) * 2021-07-13 2023-01-19

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9342516B2 (en) * 2011-05-18 2016-05-17 Microsoft Technology Licensing, Llc Media presentation playback annotation
JP2013153307A (ja) * 2012-01-25 2013-08-08 Sony Corp 音声処理装置および方法、並びにプログラム
US20130238326A1 (en) * 2012-03-08 2013-09-12 Lg Electronics Inc. Apparatus and method for multiple device voice control
US9892729B2 (en) * 2013-05-07 2018-02-13 Qualcomm Incorporated Method and apparatus for controlling voice activation
US10789041B2 (en) * 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
KR102371770B1 (ko) * 2015-01-19 2022-03-07 삼성전자주식회사 음성 인식 장지 및 방법
WO2016152007A1 (ja) * 2015-03-25 2016-09-29 パナソニックIpマネジメント株式会社 画像処理装置およびこれを備えた監視システムならびに画像処理方法
US9911416B2 (en) * 2015-03-27 2018-03-06 Qualcomm Incorporated Controlling electronic device based on direction of speech
US11587559B2 (en) * 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US20170221336A1 (en) * 2016-01-28 2017-08-03 Flex Ltd. Human voice feedback system
CN106452987B (zh) * 2016-07-01 2019-07-30 广东美的制冷设备有限公司 一种语音控制方法及装置、设备
CN107622767B (zh) * 2016-07-15 2020-10-02 青岛海尔智能技术研发有限公司 家电系统的语音控制方法与家电控制系统
US10134399B2 (en) * 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
KR102575634B1 (ko) * 2016-07-26 2023-09-06 삼성전자주식회사 전자 장치 및 전자 장치의 동작 방법
US10832684B2 (en) * 2016-08-31 2020-11-10 Microsoft Technology Licensing, Llc Personalization of experiences with digital assistants in communal settings through voice and query processing
US10390096B2 (en) * 2016-09-16 2019-08-20 DISH Technologies L.L.C. Collecting media consumer data
US10347256B2 (en) * 2016-09-19 2019-07-09 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
CN107016993A (zh) * 2017-05-15 2017-08-04 成都铅笔科技有限公司 一种智能家居的语音交互系统及方法
US20180336892A1 (en) * 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
CN107195305B (zh) * 2017-07-21 2021-01-19 合肥联宝信息技术有限公司 一种信息处理方法及电子设备
CN107610700A (zh) * 2017-09-07 2018-01-19 唐冬香 一种基于mems麦克风的终端控制方法和系统
CN107680591A (zh) * 2017-09-21 2018-02-09 百度在线网络技术(北京)有限公司 基于车载终端的语音交互方法、装置及其设备
US10466962B2 (en) * 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
CN107895578B (zh) * 2017-11-15 2021-07-20 百度在线网络技术(北京)有限公司 语音交互方法和装置
JP6977169B2 (ja) * 2017-12-08 2021-12-08 グーグル エルエルシーGoogle LLC デジタル音声アシスタントコンピューティングデバイスの間の信号処理の調整
CN108461084A (zh) * 2018-03-01 2018-08-28 广东美的制冷设备有限公司 语音识别系统控制方法、控制装置及计算机可读存储介质
JPWO2019171732A1 (ja) * 2018-03-08 2021-02-18 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び情報処理システム
US11145299B2 (en) * 2018-04-19 2021-10-12 X Development Llc Managing voice interface devices
US11488590B2 (en) * 2018-05-09 2022-11-01 Staton Techiya Llc Methods and systems for processing, storing, and publishing data collected by an in-ear device
JP7014072B2 (ja) * 2018-07-17 2022-02-01 日本電信電話株式会社 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム

Also Published As

Publication number Publication date
JP2020003774A (ja) 2020-01-09
US20200005793A1 (en) 2020-01-02
CN108922528B (zh) 2020-10-23
US11244686B2 (en) 2022-02-08
CN108922528A (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
JP6783339B2 (ja) 音声を処理する方法及び装置
EP3234945B1 (en) Application focus in speech-based systems
US11961519B2 (en) Localized wakeword verification
CN107423364B (zh) 基于人工智能的回答话术播报方法、装置及存储介质
JP2021516790A (ja) ニューラルネットワークモデルを用いた選択的ウェイクワード検出のシステム及び方法
US20190355354A1 (en) Method, apparatus and system for speech interaction
JP2020526789A (ja) ラストマイル等化
US11457061B2 (en) Creating a cinematic storytelling experience using network-addressable devices
US9799329B1 (en) Removing recurring environmental sounds
US20120198339A1 (en) Audio-Based Application Architecture
US11862153B1 (en) System for recognizing and responding to environmental noises
CN104123938A (zh) 语音控制系统、电子装置及语音控制方法
JP6619488B2 (ja) 人工知能機器における連続会話機能
US12062364B2 (en) Memory allocation for keyword spotting engines
US20240203416A1 (en) Combining Device or Assistant-Specific Hotwords in a Single Utterance
US10693944B1 (en) Media-player initialization optimization
CN104317404A (zh) 一种声纹控制音频播放设备、控制系统及方法
CN112017662A (zh) 控制指令确定方法、装置、电子设备和存储介质
TW202418138A (zh) 語言資料處理系統及方法與電腦程式產品
CN108053825A (zh) 一种基于音频信号的批处理方法和装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190411

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190411

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200828

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201021

R150 Certificate of patent or registration of utility model

Ref document number: 6783339

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250