JP6171617B2 - 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム - Google Patents

応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム Download PDF

Info

Publication number
JP6171617B2
JP6171617B2 JP2013131650A JP2013131650A JP6171617B2 JP 6171617 B2 JP6171617 B2 JP 6171617B2 JP 2013131650 A JP2013131650 A JP 2013131650A JP 2013131650 A JP2013131650 A JP 2013131650A JP 6171617 B2 JP6171617 B2 JP 6171617B2
Authority
JP
Japan
Prior art keywords
silence
voice
silence interval
utterance
duration threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013131650A
Other languages
English (en)
Other versions
JP2015004928A (ja
Inventor
隆行 荒川
隆行 荒川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2013131650A priority Critical patent/JP6171617B2/ja
Publication of JP2015004928A publication Critical patent/JP2015004928A/ja
Application granted granted Critical
Publication of JP6171617B2 publication Critical patent/JP6171617B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Description

本発明は、音声対話システムにおいて、システムに対してなされた発声を検出し、応答の対象とするか否かを判定する応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラムに関する。
音声認識技術を用いた人間とロボットの会話を実現するシステムや、ユーザが発声した音声コマンドを認識し、内容に応じた情報提供などを行うシステムでは、応答対象外の音による誤動作が問題となる。以下、これらのシステムを単にシステムという。また、ユーザがロボットや機器に対し入力の意図を持って発声する音声を、応答対象音声という。
特許文献1には、顔認識を行い、ユーザの顔が向いている方向を判定し、顔がシステムの方を向いている時になされた発声のみを応答の対象とする音声妥当性判定装置(apparatus and method for determining relevance of input speech)が開示されている。
非特許文献1には、人間同士の会話中に、システムに対する音声コマンドの入力を可能とする技術(音声スポッタ)が記載されている。音声スポッタを用いることにより、ユーザは、有声休止で言いよどんだ後に故意的に高い声で発声するといった、通常の発声ではない特殊な発声を行うことで、明示的に処理対象音声をシステムに通知することができる。
米国特許出願公開第2012/0259638号明細書
後藤真孝、北山広治、伊藤克亘、小林哲則、「音声スポッタ:人間同士の会話中に音声認識が利用可能な音声入力インターフェース」、情報処理学会論文誌、Mar 2007、Vol.48、No.3、pp.1274
特許文献1に記載された技術は、システムを注視しながら人間同士が会話するような場合に、顔方向だけでは必ずしも正確な判定が行えないという問題がある。特に、システムが何らかの情報をディスプレイなどに表示し、その内容についてユーザが話し合うことが想定される場合には、顔方向による音声妥当性判定は信頼性が低い。また、非特許文献1に記載された技術は、ユーザが処理対象音声をシステムに通知する際に特殊な発話を行う必要があり、ユーザビリティが損なわれるという問題がある。
そこで、本発明は、ユーザがロボットや機器に対し入力の意図を持って発声した音声を、精度良くかつユーザビリティを損なうことなく判定することができる応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラムを提供することを目的とする。
本発明による応答対象音声判定装置は、ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、沈黙区間継続長が沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定する応答対象発声判定部を備えることを特徴とする。
本発明による応答対象音声判定方法は、ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、沈黙区間継続長が沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定することを特徴とする。
本発明による応答対象音声判定プログラムは、コンピュータに、ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、沈黙区間継続長が沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定する処理を実行させることを特徴とする。
本発明によれば、ユーザがロボットや機器に対し入力の意図を持って発声した音声を、精度良くかつユーザビリティを損なうことなく判定することができる。
本発明による応答対象音声判定装置の第1の実施形態の構成を示すブロック図である。 応答対象音声判定装置の第1の実施形態の動作を示すフローチャートである。 人間同士の会話における沈黙区間継続長の頻度分布を示す説明図である。 本発明による応答対象音声判定装置の第2の実施形態の構成を示すブロック図である。 応答対象音声判定装置の第2の実施形態の動作を示すフローチャートである。 システムに対しなされた発声から抽出された音声特徴量と、システム外に対してなされた発声から抽出された音声特徴量の頻度分布を示す説明図である。 本発明による応答対象音声判定装置の第3の実施形態の構成を示すブロック図である。 本発明による応答対象音声判定装置の第4の実施形態の構成を示すブロック図である。 本発明による応答対象音声判定装置の第5の実施形態の構成を示すブロック図である。 本発明による応答対象音声判定装置の第6の実施形態の構成を示すブロック図である。 本発明による応答対象音声判定装置の最小構成を示すブロック図である。 本発明による応答対象音声判定装置の他の最小構成を示すブロック図である。
実施形態1.
以下、本発明の第1の実施形態を図面を参照して説明する。
図1は、本発明による応答対象音声判定装置の第1の実施形態の構成を示すブロック図である。
図1に示すように、応答対象音声判定装置は、入力音信号取得部101と、入力音信号切り出し部102と、音声区間判定閾値格納部103と、音声区間判定部104と、音声区間音信号保存部105と、沈黙区間継続長閾値格納部106と、応答対象発声判定部107とを備える。
入力音信号取得部101は、入力音信号の時系列(time series of input sound signal)を取得する。入力音信号取得部101は、音声入力装置、例えばマイクロホンを用いて入力音信号の時系列を取得する。
入力音信号切り出し部102は、入力音信号を入力とし、フレームごとに切り出した音信号を出力する。
音声区間判定閾値格納部103は、予め定められた音声区間判定に係わる閾値(pre-determined threshold for voice activity detection)を格納する。
音声区間判定部104は、フレームごとに切り出された音信号と、音声区間判定に係わる閾値を入力とし、当該フレームが音声区間(active voice segment)に含まれるか、音声が存在しない沈黙区間(silence segment)に含まれるか、を判定する。
音声区間音信号保存部105は、音声区間判定部104で音声区間と判定された音信号を保存する。
沈黙区間継続長閾値格納部106は、予め定められた沈黙区間継続長閾値(pre-determined threshold of duration of silence segment)を格納する。
応答対象発声判定部107は、音声区間判定部104で沈黙区間と判定された区間の継続長と沈黙区間継続長閾値とを比較し、当該沈黙区間以前の音声区間を応答対象とし応答するか、応答を保留するかを判定する。
なお、入力音信号取得部101、入力音信号切り出し部102、音声区間判定部104および応答対象発声判定部107は、例えば、応答対象音声判定プログラムに従って動作するコンピュータによって実現される。この場合、CPUが応答対象音声判定プログラムを読み込み、そのプログラムに従って、入力音信号取得部101、入力音信号切り出し部102、音声区間判定部104および応答対象発声判定部107として動作する。また、入力音信号取得部101、入力音信号切り出し部102、音声区間判定部104および応答対象発声判定部107が別々のハードウェアで実現されていてもよい。
また、音声区間判定閾値格納部103、音声区間音信号保存部105および沈黙区間継続長閾値格納部106は、具体的には、応答対象音声判定装置が備える光ディスク装置や磁気ディスク装置、メモリ等の記憶装置によって実現される。
次に、本実施形態の動作を説明する。
図2は、応答対象音声判定装置の第1の実施形態の動作を示すフローチャートである。図3は、人間同士の会話における沈黙区間継続長の頻度分布を示す説明図である。
図2に示すように、まず、入力音信号切り出し部102は、入力音信号取得部101が取得した入力音の時系列(time series of input sound signal)を入力する。そして、入力音信号切り出し部102は、入力音の時系列から単位時間のフレーム分の波形データを切り出す(ステップS101)。
例えば、入力音信号切り出し部102は、マイクロホンなどによって取得されたアナログデータを、サンプリング周波数8000Hz、量子化ビット16ビット、Linear-PCMのデジタルデータとして取得し、10ミリ秒毎に256点分の波形データを切り出す。なお、入力音信号切り出し部102は、他のサンプリング周波数、量子化ビット、切り出しの間隔、切り出す点数などによって、波形データを切り出すようにしてもよい。
応答対象音声判定装置は、以下に示すステップS102〜S104の処理をフレーム単位で行う。
ステップS102において、音声区間判定部104は、ステップS101でフレームごとに切り出された入力音に対して音声区間判定を行う。音声区間の判定方法として、例えば、振幅パワーなどを求め、音声区間判定閾値格納部103に格納されている閾値と大小を比較する方法が考えられる。振幅パワーPtは、以下に示す式(1)で算出される。
Figure 0006171617
Nは、1フレームに含まれるサンプル点数である。xtは、時刻tの入力音データ(波形データ)の値である。音声区間判定部104は、振幅パワーが閾値より大きければ音声状態と判定し、振幅パワーが閾値より小さければ沈黙状態と判定する。なお、ここでは振幅パワーを用いたが、ゼロ交差数や、音声モデルと非音声モデルとの尤度比、ピッチ周波数、SN比など他の特徴量を用いてもよい。単位時間ごとに判定された音声状態のうち同じ状態が連続する区間を音声区間とする。また、単位時間ごとに判定された沈黙状態のうち同じ状態が連続する区間を沈黙区間とする。
音声区間の始端は、連続した沈黙状態が途切れ音声状態に変化した時点である。この時点は、同時に沈黙区間の終端である。音声区間の終端は、連続した音声状態が途切れ沈黙状態に変化した時点である。この時点は、同時に沈黙区間の始端である。このように音声区間および沈黙区間が確定するのは、連続した状態が途切れた時点である。
ここで、短い音声区間が発生しないように、沈黙状態から音声状態に変化した後、一定の長さ音声状態と判定されなければ音声区間の始端(沈黙区間の終端)として認めない、といったハングオーバー処理を行うようにしてもよい。また、短い沈黙区間が発生しないように、音声状態から沈黙状態に変化した後、一定の長さ沈黙状態と判定されなければ音声区間の終端(沈黙区間の始端)として認めない、といったハングオーバー処理を行うようにしてもよい。
以降の処理は、着目するフレーム、つまり処理対象のフレームが音声区間に含まれるか、沈黙区間に含まれるかによって、分岐する。
音声区間判定部104が着目するフレームが音声区間に含まれると判定した場合、音声区間判定部104は、当該フレームの音信号を音声区間音信号保存部105に保存する(ステップS103)。この後、ステップS101の処理から、次のフレームに対する処理が行われる。
音声区間判定部104が着目するフレームが沈黙区間に含まれると判定した場合、応答対象発声判定部107は、直前の音声区間から当該フレームまで継続する沈黙区間の継続長と、沈黙区間継続長閾値とを比較する。沈黙区間の継続長が沈黙区間継続長閾値より大きい場合には、応答対象発声判定部107は、直前の音声区間を応答対象と判定する。それ以外の場合には、応答対象発声判定部107は、応答保留と判定する(ステップS104)。
応答対象発声判定部107は、直前の音声区間を応答対象音声と判定した場合、対応する音声区間の音信号を音声区間音信号保存部105より取得し、出力する(ステップS105)。つまり、応答対象発声判定部107は、応答対象音声を出力する。
応答対象発声判定部107が応答保留と判定した場合、ステップS101の処理から、次のフレームに対する処理が行われる。
応答対象と判定するか応答保留と判定するかは、継続する沈黙の長さをLとし、沈黙区間継続長閾値をThとするとき、以下に示す式(2)および式(3)を用いて判定される。
L > Th 直前の音声区間を応答対象音声と判定し応答 ・・・式(2)
L ≦ Th 応答を保留 ・・・式(3)
応答対象発声判定部107は、応答保留の継続中に音声区間が開始したとき、一つ前の音声区間を応答対象外発声とみなし棄却する。なお、最初の沈黙区間には直前の音声区間が存在しないため、式(1)を満たしたとしても応答対象音声は判定されない。
沈黙区間継続長閾値は、ユーザ等が予め実験によって求めることが考えられる。例えば、ユーザは、図3に示すような、システム外への発声、例えば人間同士の会話における沈黙区間継続長とその頻度から、人間同士の会話が誤って応答対象音声と判定されることが少なくなるように沈黙区間継続長閾値を決定する。
システムは、応答対象音声判定装置が出力した応答対象音声に対し、処理を実行する。例えば、システムが、応答対象音声に対し、音声認識を行い、音声認識より出力されたテキストに応じた応答をユーザに返すことが考えられる。また、システムが、応答保留とされている音声区間に対しても音声認識を行い、仮の音声認識出力テキストとして保持しておき、応答対象音声判定装置が応答対象音声と判定したときに、保持された仮の音声認識出力テキストを有効にすることも考えられる。
以上に説明したように、本実施形態では、発声後の沈黙区間の継続長を用いて応答対象音声か否かを判定する。そのため、ユーザは発声後、システムの応答を待つだけでよい。従って、本実施形態によれば、ユーザビリティの高い音声対話ユーザインターフェースを提供することができる。
実施形態2.
以下、本発明の第2の実施形態を図面を参照して説明する。
図4は、本発明による応答対象音声判定装置の第2の実施形態の構成を示すブロック図である。
図4に示すように、第2の実施形態における応答対象音声判定装置は、第1の実施形態の構成に加えて、音声特徴量算出部201と、音声特徴量閾値・重み格納部202と、第二の沈黙区間継続長閾値算出部203とを備える。
音声特徴量算出部201は、音声区間判定部104で音声区間と判定された音信号を入力とし、音声特徴量を算出し出力する。
音声特徴量閾値・重み格納部202は、予め定められた音声特徴量の閾値および重み(pre-determined threshold and weight for prosody features)を格納する。
第二の沈黙区間継続長閾値算出部203は、音声特徴量と、音声特徴量の閾値および重みと、沈黙区間継続長閾値を入力とし、第二の沈黙区間継続長を算出し出力する。
なお、音声特徴量算出部201および第二の沈黙区間継続長閾値算出部203は、例えば、応答対象音声判定プログラムに従って動作するコンピュータによって実現される。この場合、CPUが応答対象音声判定プログラムを読み込み、そのプログラムに従って、音声特徴量算出部201および第二の沈黙区間継続長閾値算出部203として動作する。また、音声特徴量算出部201および第二の沈黙区間継続長閾値算出部203が別々のハードウェアで実現されていてもよい。
また、音声特徴量閾値・重み格納部202、は、具体的には、応答対象音声判定装置が備える光ディスク装置や磁気ディスク装置、メモリ等の記憶装置によって実現される。
次に、本実施形態の動作を説明する。
図5は、応答対象音声判定装置の第2の実施形態の動作を示すフローチャートである。図6は、システムに対しなされた発声から抽出された音声特徴量と、システム外に対してなされた発声から抽出された音声特徴量の頻度分布を示す説明図である。
ステップS201〜S203の処理は、第1の実施形態におけるステップS101〜S103の処理と同様である。
音声区間判定部104が、着目するフレームが音声区間に含まれると判定し、ステップS203の処理を実行した後、音声特徴量算出部201は、着目するフレームの音信号から音声特徴量を算出する(ステップS204)。音声特徴量は、音信号から抽出される特徴量である。音声特徴量は、例えば、音声区間における振幅パワーや、その平均値、分散値、最大値、最小値や、フォルマント周波数や、ケプストラム、といった音声認識で広く用いられている特徴量である。また、音声特徴量として、音声区間の継続長を用いることも考えられる。
次に、第二の沈黙区間継続長閾値算出部203が、ステップS204で算出された音声特徴量と、音声特徴量閾値・重み格納部202に格納されている音声特徴量の閾値および重みと、沈黙区間継続長閾値格納部106に格納されている沈黙区間継続長閾値とから、第二の沈黙区間継続長閾値を算出する(ステップS205)。具体的には、沈黙区間継続長閾値をTh1、音声特徴量をF、音声特徴量閾値をThF、音声特徴量重みをwFとすると、第二の沈黙区間継続長閾値算出部203は、以下に示す式(4)により、第二の沈黙区間継続長閾値Th2を算出する。
Th2 = Th1 ― sgn × wF ×(F − ThF) ・・・式(4)
ここで、sgnは+1または-1の値をとる。システムに対する発声に対し値が大きくなる特徴量を用いる場合にはsgnを+1とし、システムに対する発声に対し値が小さくなる特徴量を用いる場合にはsgnを-1とする。例えば、ユーザがシステムに対して話すときは声が大きくなる傾向があると考えられるため、声の大きさを特徴量として用いる場合には、sgnは+1となる。また、ユーザはシステムに対してはゆっくり話す傾向があると考えられるため、話す速度を特徴量として用いる場合には、sgnは-1となる。
なお、応答対象音声判定装置は、ステップS203からステップS205までの処理を、フレームごとに行ってもよいし、音声区間の終端(沈黙区間の始端)において一括で行ってもよい。
第二の沈黙区間継続長閾値算出部203がステップS205の処理を実行した後、ステップS101の処理から、次のフレームに対する処理が行われる。
ステップS202で音声区間判定部104が着目するフレームが沈黙区間に含まれると判定した場合、応答対象発声判定部107は、沈黙区間の継続長と沈黙区間継続長閾値を比較する代わりに、沈黙区間の継続長と第二の沈黙区間継続長閾値を比較し、直前の音声区間を応答対象とし応答するか、応答を保留するか判定する(ステップS206)。
応答対象発声判定部107は、直前の音声区間を応答対象音声と判定した場合、対応する音声区間の音信号を音声区間音信号保存部105より取得し、出力する(ステップS207)。つまり、応答対象発声判定部107は、応答対象音声を出力する。
応答対象発声判定部107が応答保留と判定した場合、ステップS201の処理から、次のフレームに対する処理が行われる。
音声特徴量閾値は、ユーザ等が予め実験によって求めることが考えられる。例えば、図6に示すように、ユーザは、システムに対してなされた発声から抽出された音声特徴量の頻度と、システム以外に対してなされた発声から抽出された音声特徴量の頻度とから、これらをできるだけ分離するように音声特徴量閾値を決定する。
以上に説明したように、本実施形態では、音声特徴量と音声特徴量閾値との比較により、ユーザによる発声がシステムに対してなされた可能性が高いと判断した際には、第二の沈黙区間継続長閾値を沈黙区間継続長閾値よりも短くする。それにより、遅延が少なく応答対象音声の判定を行うことができる。反対に、音声特徴量と音声特徴量閾値との比較により、ユーザによる発声がシステムに対してなされた可能性が低いと判断した際には、第二の沈黙区間継続長閾値を沈黙区間継続長閾値よりも長くする。それにより、応答保留の時間が長くなり、応答保留をしている間にユーザが次の発声を行うことにより、応答が棄却される可能性が高くなる。
このように、本実施形態では、第二の沈黙区間継続長閾値と発声後の沈黙区間の継続長とをもとに応答対象音声か否かを判定する。従って、本実施形態によれば、ユーザがシステムに対して話すときの声の大きさや話す速度などを考慮した、応答対象音声の判定を行うことができ、よりユーザビリティの高い音声対話ユーザインターフェースを提供することできる。
実施形態3.
以下、本発明の第3の実施形態を図面を参照して説明する。
図7は、本発明による応答対象音声判定装置の第3の実施形態の構成を示すブロック図である。
図7に示すように、第3の実施形態における応答対象音声判定装置は、第1の実施形態の構成に加えて、映像信号取得部301と、映像特徴量算出部302と、映像特徴量閾値・重み格納部303と、第二の沈黙区間継続長閾値算出部304とを備える。
映像信号取得部301は、カメラなどを用いて映像信号を取得する。
映像特徴量算出部302は、映像信号と、音声区間判定部104で判定された区間に関する情報(以下、区間情報という。)とを入力とし、音声区間、沈黙区間、またはその両方の区間の映像特徴量を算出し出力する。区間情報は、音声区間継続長などを含む。
映像特徴量閾値・重み格納部303は、予め定められた映像特徴量の閾値および重みを格納する。
第二の沈黙区間継続長閾値算出部304は、映像特徴量と沈黙区間継続長閾値と映像特徴量閾値と映像特徴量重みとを入力とし、第二の沈黙区間継続長閾値を算出し出力する。
なお、映像信号取得部301、映像特徴量算出部302および第二の沈黙区間継続長閾値算出部304は、例えば、応答対象音声判定プログラムに従って動作するコンピュータによって実現される。この場合、CPUが応答対象音声判定プログラムを読み込み、そのプログラムに従って、映像信号取得部301、映像特徴量算出部302および第二の沈黙区間継続長閾値算出部304として動作する。また、映像信号取得部301、映像特徴量算出部302および第二の沈黙区間継続長閾値算出部304が別々のハードウェアで実現されていてもよい。
また、映像特徴量閾値・重み格納部303は、具体的には、応答対象音声判定装置が備える光ディスク装置や磁気ディスク装置、メモリ等の記憶装置によって実現される。
次に、本実施形態の動作を説明する。
映像特徴量算出部302は、映像信号取得部301で得られた映像信号から映像特徴量を算出する。映像特徴量としては、顔や視線、体の向きなどが考えられる。なお、映像特徴量算出部302は、映像特徴量に対して音声区間で平均を求めるようにしてもよい。また、映像特徴量算出部302は、映像特徴量をもとに、ユーザがシステムの方向を向いている時間や、ユーザがシステムに向いている時間と音声区間継続長との比を求めるようにしてもよい。
第二の沈黙区間継続長閾値算出部304は、沈黙区間継続長閾値と映像特徴量閾値とから、第二の沈黙区間継続長閾値を算出する。沈黙区間継続長閾値をTh0、映像特徴量をF、映像特徴量閾値をThF、映像特徴量重みをwFとすると、第二の沈黙区間継続長閾値Th2は、以下に示す式(5)で算出される。
Th2 = Th1 ― wF×(F−ThF) ・・・式(5)
応答対象発声判定部107は、算出した第二の沈黙区間継続長閾値Th2を用いて、第1の実施形態と同様の方法により、直前の音声区間を応答対象とし応答するか、応答を保留するか判定する。
映像特徴量は、沈黙区間でも算出可能である。映像特徴量算出部302が音声区間と沈黙区間と別々に特徴量を算出する場合、式(5)は、式(6)のように変形される。
Th2 = Th1 ― wFv×(Fv−ThFv) ― wFs×(Fs−ThFs) ・・・式(6)
ここで、Fvは音声区間の映像特徴量を示す。ThFvは音声区間の映像特徴量閾値を示す。wFvは音声区間の映像特徴量重みを示す。Fsは沈黙区間の映像特徴量を示す。ThFsは沈黙区間の映像特徴量閾値を示す。wFsは沈黙区間の映像特徴量の重みを示す。
なお、音声区間判定部104において、音信号のみから音声区間、沈黙区間を判定することに加えて、映像を用いて音声区間、沈黙区間を判定するようにしてもよい。例えば、映像を用いて口の大きさや動きなどを解析し、口が小さいとき、または口が動いていないときには、沈黙区間と判定するといったことが考えられる。
以上に説明したように、本実施形態では、映像特徴量をもとに算出した第二の沈黙区間継続長閾値を用いて、直前の音声区間を応答対象とし応答するか、応答を保留するかを判定する。従って、ユーザの顔や視線、体の向きなどを考慮した応答対象音声の判定を行うことができる。それにより、ユーザは、システムに対して応答を望む場合に、発声中および発声後にシステム方向を注視し、しばらく沈黙するだけでよい。従って、本実施形態によれば、よりユーザビリティの高い音声対話ユーザインターフェースを提供できる。
実施形態4.
以下、本発明の第4の実施形態を図面を参照して説明する。
図8は、本発明による応答対象音声判定装置の第4の実施形態の構成を示すブロック図である。
図8に示すように、第4の実施形態における応答対象音声判定装置は、第1の実施形態の構成に加えて、対話活性度算出部401と、対話活性度閾値・重み格納部402と、第二の沈黙区間継続長閾値算出部403とを備える。
対話活性度算出部401は、音声区間判定部104で求まった複数の音声区間と沈黙区間の時間的関係性から対話活性度(conversation activity)を算出する。本実施形態では、対話活性度算出部401は、複数の音声区間と沈黙区間の時間的関係性として、音声区間と沈黙区間の切り替わる頻度を用いる。対話活性度算出部401が算出に用いる音声区間と沈黙区間の範囲は、例えば、着目するフレームから過去に遡り、ある一定時間に存在する音声区間と沈黙区間を対象とする。
対話活性度閾値・重み格納部402は、予め定められた対話活性度の閾値および重みを格納する。
第二の沈黙区間継続長閾値算出部403は、沈黙区間継続長閾値格納部106に格納されている沈黙区間継続長閾値と、対話活性度と、対話活性度の閾値および重みとを入力とし、第二の沈黙区間継続長閾値を算出し出力する。
なお、対話活性度算出部401および第二の沈黙区間継続長閾値算出部403は、例えば、応答対象音声判定プログラムに従って動作するコンピュータによって実現される。この場合、CPUが応答対象音声判定プログラムを読み込み、そのプログラムに従って、対話活性度算出部401および第二の沈黙区間継続長閾値算出部403として動作する。また、対話活性度算出部401および第二の沈黙区間継続長閾値算出部403が別々のハードウェアで実現されていてもよい。
また、対話活性度閾値・重み格納部402は、具体的には、応答対象音声判定装置が備える光ディスク装置や磁気ディスク装置、メモリ等の記憶装置によって実現される。
実施形態5.
以下、本発明の第5の実施形態を図面を参照して説明する。
図9は、本発明による応答対象音声判定装置の第5の実施形態の構成を示すブロック図である。
図9に示すように、第5の実施形態における応答対象音声判定装置は、第1の実施形態の構成に加えて、複数音信号取得部501と、入力音信号切り出し部502と、音声区間判定部503と、対話活性度算出部504と、対話活性度閾値・重み格納部505と、第二の沈黙区間継続長閾値算出部506とを備える。
複数音信号取得部501は、複数の音声入力装置、例えばマイクロホンを用いて、話者や方向ごとに複数チャネルの入力音信号を取得する。
入力音信号切り出し部502は、複数チャネルの入力音信号を入力とし、それぞれフレームごとに切り出した音信号を出力する。
音声区間判定部503は、複数の音声区間検出部(VAD(voice activity detection)1〜VADN)を含む。音声区間判定部503は、VAD1〜VADNを用いて、フレームごとに切り出された複数チャネルの音信号と、音声区間判定閾値格納部103に格納されている音声区間判定に係わる閾値を入力とし、当該フレームが音声区間(active voice segment)に含まれるか、音声が存在しない沈黙区間(silence segment)に含まれるか、をチャネルごとに判定する。
対話活性度算出部504は、音声区間判定部503で求まった音声区間と沈黙区間の時間的関係性から、対話活性度(conversation activity)を算出する。
対話活性度閾値・重み格納部505は、予め定められた対話活性度の閾値および重みを格納する。
第二の沈黙区間継続長閾値算出部506は、沈黙区間継続長閾値格納部106に格納されている沈黙区間継続長閾値と、対話活性度と、対話活性度閾値・重みとを入力とし、第二の沈黙区間継続長閾値を算出し出力する。
本実施形態では、対話活性度算出部504は、対話活性度を、複数チャンネルに対し求められた複数の音声区間と沈黙区間の時間的関係性を用いて算出する。対話活性度算出部504が算出に用いる時間的関係性として、例えば音声区間と沈黙区間の切り替わる頻度、複数チャンネルの音声区間オーバーラップの頻度、発話の占有率から算出される発話者エントロピーなどが考えられる。
発話の占有率は、話者を問わず音声区間と判定した区間のうち、特定の話者が発声している音声区間の長さの割合である。発話者エントロピーSは、以下に示す式(7)を用いて算出される。
S = ― Σ_i P_i log P_i ・・・式(7)
ここで、P_iはi番目の発話者の発話の占有率を示す。例えば3人の話者がいて、1番目の話者(話者A)の音声区間継続長が5秒、2番目の話者(話者B)の音声区間継続長が2秒、3番目の話者(話者C)の音声区間継続長が1秒であったとき、P_1、P_2、P_3は、式(8)から式(10)に示す値となる。また、発話者エントロピーSは、式(11)で算出される。
P_1 = 5/8 ・・・式(8)
P_2 = 2/8 ・・・式(9)
P_3 = 1/8 ・・・式(10)
S = − P_1 log(P_1) − P_2 log(P_2) − P_3 log(P_3)・・・式(11)
なお、複数音信号取得部501、入力音信号切り出し部502、音声区間判定部503、対話活性度算出部504および第二の沈黙区間継続長閾値算出部506は、例えば、応答対象音声判定プログラムに従って動作するコンピュータによって実現される。この場合、CPUが応答対象音声判定プログラムを読み込み、そのプログラムに従って、複数音信号取得部501、入力音信号切り出し部502、音声区間判定部503、対話活性度算出部504および第二の沈黙区間継続長閾値算出部506として動作する。また、複数音信号取得部501、入力音信号切り出し部502、音声区間判定部503、対話活性度算出部504および第二の沈黙区間継続長閾値算出部506が別々のハードウェアで実現されていてもよい。
また、対話活性度閾値・重み格納部505は、具体的には、応答対象音声判定装置が備える光ディスク装置や磁気ディスク装置、メモリ等の記憶装置によって実現される。
実施形態6.
以下、本発明の第6の実施形態を図面を参照して説明する。
図10は、本発明による応答対象音声判定装置の第6の実施形態の構成を示すブロック図である。
図10に示すように、第6の実施形態における応答対象音声判定装置は、第2の実施形態の構成に加えて、最大遅延時間格納部601を備える。
なお、最大遅延時間格納部601は、具体的には、応答対象音声判定装置が備える光ディスク装置や磁気ディスク装置、メモリ等の記憶装置によって実現される。
本実施形態では、応答対象発声判定部107が、第二の沈黙区間継続長閾値算出部203において算出された第二の沈黙区間継続長閾値と最大遅延時間とを比較する。最大遅延時間は、本実施形態では、システムがユーザに応答するまでの遅延時間の最大値である。そして、応答対象発声判定部107は、第二の沈黙区間継続長閾値が最大遅延時間より長い場合に直前の音声区間を応答の対象外として棄却する。具体的には、継続する沈黙の長さをLとし、第二の沈黙区間継続長閾値をTh、最大遅延時間をDとするとき、応答対象発声判定部107は、以下に示す式(12)から式(14)を用いて直前の音声区間が応答対象音声であるか否かを判定する。
D<Th 直前の音声区間を応答対象音声外と判定し棄却 ・・・式(12)
D≧Th かつ L≦Th 応答保留 ・・・式(13)
D≧Th かつ L>Th 直前の音声区間を応答対象音声と判定し応答 ・・・式(14)
応答対象発声判定部107が直前の音声区間を応答対象音声外と判定し棄却した場合、応答対象音声判定装置またはシステムが、ユーザに通知することが考えられる。例えば、「発声が聞き取れませんでした」というメッセージを通知することが考えられる。
なお、上記の各実施形態は複数組み合わせて用いることもできる。
次に、本発明の概要を説明する。図11は、本発明による応答対象音声判定装置の最小構成を示すブロック図である。図12は、本発明による応答対象音声判定装置の他の最小構成を示すブロック図である。
図11に示すように、本発明による応答対象音声判定装置は、ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、沈黙区間継続長が沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定する応答対象発声判定部11(図1に示す応答対象発声判定部107に相当。)を備える。
そのような構成によれば、発声後の沈黙区間の継続長を用いて応答対象音声か否かを判定するため、ユーザは発声後、システムの応答を待つだけでよい。従って、ユーザビリティの高い音声対話ユーザインターフェースを提供することができる。
また、音声入力装置が集音した音信号の時系列に対し、音声区間および沈黙区間を判定する音声区間判定部12(図4または図7に示す音声区間判定部104に相当。)と、音声区間、沈黙区間、またはその両方の区間に対応する特徴量を抽出する特徴量算出部13(図4に示す音声特徴量算出部201、または図7に示す映像特徴量算出部302に相当。)と、特徴量と、予め定められた特徴量の閾値および重みと、予め定められた第一の沈黙区間継続長閾値(沈黙区間継続長閾値に相当。)から、第二の沈黙区間継続長閾値を求める第二の沈黙区間継続長閾値算出部14(図4に示す第二の沈黙区間継続長閾値算出部203、または図7に示す第二の沈黙区間継続長閾値算出部304に相当。)とを備え、応答対象発声判定部11が、第二の沈黙区間継続長閾値を用いて判定を行ってもよい。そのような構成によれば、応答対象音声の判定の精度を劣化させることなく、遅延が少ない応答対象音声の判定を行うことができ、よりユーザビリティの高い音声対話ユーザインターフェースを提供することできる。
また、特徴量算出部13が、音声区間に対応する音信号から音声特徴量を1つ以上抽出し、第二の沈黙区間継続長閾値算出部14が、音声特徴量を用いてもよい。そのような構成によれば、ユーザがシステムに対して話すときの声の大きさや話す速度などを考慮した応答対象音声の判定を行うことができ、よりユーザビリティの高い音声対話ユーザインターフェースを提供することできる。
また、特徴量算出部13が、音声区間に対応する映像から映像特徴量を抽出し、または沈黙区間に対応する映像から映像特徴量を抽出し、または両方の区間に対応する映像から映像特徴量を抽出し、第二の沈黙区間継続長閾値算出部14が、映像特徴量を1つ以上用いてもよい。そのような構成によれば、ユーザの顔や視線、体の向きなどを考慮した応答対象音声の判定を行うことができる。それにより、ユーザは、システムに対して応答を望む場合に、発声中および発声後にシステム方向を注視し、しばらく沈黙するだけでよい。従って、よりユーザビリティの高い音声対話ユーザインターフェースを提供できる。
また、図12に示すように、対話活性度算出部15(図9に示す対話活性度算出部504に相当。)を備え、音声区間判定部12(図9に示す音声区間判定部503に相当。)が、複数の音声入力装置が集音した複数チャネルの音信号の時系列それぞれに対し、音声区間および沈黙区間を判定し、対話活性度算出部15が、複数チャネルの音声区間および沈黙区間の時間的関係性から対話活性度を算出し、第二の沈黙区間継続長閾値算出部14(図9に示す第二の沈黙区間継続長閾値算出部506に相当。)が、対話活性度と、予め定められた対話活性度の閾値および重みと、予め定められた第一の沈黙区間継続長閾値とから、第二の沈黙区間継続長閾値を算出してもよい。そのような構成によれば、複数の音声区間と沈黙区間の時間的関係性から算出した対話活性度を考慮した応答対象音声の判定を行うことができる。
また、システムがユーザに応答するまでの遅延時間の最大値である最大遅延時間を予め格納する最大遅延時間格納部16(図10に示す最大遅延時間格納部601に相当。)を備え、応答対象発声判定部11が、第二の沈黙区間継続長閾値が最大遅延時間よりも長くなることを検知し、ユーザによる発声を応答対象外発声として棄却してもよい。そのような構成によれば、例えば、ユーザの声が聞き取りづらい場合、つまり音声区間を正しく認識できなかった場合に、ユーザにその旨を通知することができる。
11 応答対象発声判定部
12 音声区間判定部
13 特徴量算出部
14 第二の沈黙区間継続長閾値算出部
15 対話活性度算出部
16 最大遅延時間格納部
101 入力音信号取得部
102 入力音信号切り出し部
103 音声区間判定閾値格納部
104 音声区間判定部
105 音声区間音信号保存部
106 沈黙区間継続長閾値格納部
107 応答対象発声判定部
201 音声特徴量算出部
202 音声特徴量閾値・重み格納部
203 第二の沈黙区間継続長閾値算出部
301 映像信号取得部
302 映像特徴量算出部
303 映像特徴量閾値・重み格納部
304 第二の沈黙区間継続長閾値算出部
401 対話活性度算出部
402 対話活性度閾値・重み格納部
403 第二の沈黙区間継続長閾値算出部
501 複数音信号取得部
502 入力音信号切り出し部
503 音声区間判定部
504 対話活性度算出部
505 対話活性度閾値・重み格納部
506 第二の沈黙区間継続長閾値算出部
601 最大遅延時間格納部

Claims (10)

  1. ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、前記沈黙区間継続長が前記沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定する応答対象発声判定部を備える
    ことを特徴とする応答対象音声判定装置。
  2. 音声入力装置が集音した音信号の時系列に対し、音声区間および沈黙区間を判定する音声区間判定部と、
    前記音声区間、前記沈黙区間、またはその両方の区間に対応する特徴量を抽出する特徴量算出部と、
    前記特徴量と、予め定められた特徴量の閾値および重みと、予め定められた第一の沈黙区間継続長閾値から、第二の沈黙区間継続長閾値を求める第二の沈黙区間継続長閾値算出部とを備え、
    応答対象発声判定部が、前記第二の沈黙区間継続長閾値を用いて判定を行う
    請求項1に記載の応答対象音声判定装置。
  3. 特徴量算出部が、音声区間に対応する音信号から音声特徴量を1つ以上抽出し、
    第二の沈黙区間継続長閾値算出部が、前記音声特徴量を用いる
    請求項2に記載の応答対象音声判定装置。
  4. 特徴量算出部が、音声区間に対応する映像から映像特徴量を抽出し、または沈黙区間に対応する映像から映像特徴量を抽出し、または両方の区間に対応する映像から映像特徴量を抽出し、
    第二の沈黙区間継続長閾値算出部が、前記映像特徴量を1つ以上用いる
    請求項2に記載の応答対象音声判定装置。
  5. 対話活性度算出部を備え、
    音声区間判定部が、複数の音声入力装置が集音した複数チャネルの音信号の時系列それぞれに対し、音声区間および沈黙区間を判定し、
    前記対話活性度算出部が、前記複数チャネルの音声区間および沈黙区間の時間的関係性から対話活性度を算出し、
    第二の沈黙区間継続長閾値算出部が、前記対話活性度と、予め定められた対話活性度の閾値および重みと、予め定められた第一の沈黙区間継続長閾値とから、第二の沈黙区間継続長閾値を算出する
    請求項2に記載の応答対象音声判定装置。
  6. システムがユーザに応答するまでの遅延時間の最大値である最大遅延時間を予め格納する最大遅延時間格納部を備え、
    応答対象発声判定部が、第二の沈黙区間継続長閾値が前記最大遅延時間よりも長くなることを検知し、ユーザによる発声を応答対象外発声として棄却する
    請求項2から請求項5のうちのいずれか1項に記載の応答対象音声判定装置。
  7. ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、前記沈黙区間継続長が前記沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定する
    ことを特徴とする応答対象音声判定方法。
  8. 音声入力装置が集音した音信号の時系列に対し、音声区間および沈黙区間を判定し、
    前記音声区間、前記沈黙区間、またはその両方の区間に対応する特徴量を抽出し、
    前記特徴量と、予め定められた特徴量の閾値および重みと、予め定められた第一の沈黙区間継続長閾値から、第二の沈黙区間継続長閾値を求め、
    前記第二の沈黙区間継続長閾値を用いて、ユーザによる発声の判定処理を行う
    請求項7に記載の応答対象音声判定方法。
  9. コンピュータに、
    ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、前記沈黙区間継続長が前記沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定する処理を実行させる
    ための応答対象音声判定プログラム。
  10. コンピュータに、
    音声入力装置が集音した音信号の時系列に対し、音声区間および沈黙区間を判定する処理と、
    前記音声区間、前記沈黙区間、またはその両方の区間に対応する特徴量を抽出する処理と、
    前記特徴量と、予め定められた特徴量の閾値および重みと、予め定められた第一の沈黙区間継続長閾値から、第二の沈黙区間継続長閾値を求める処理と、
    前記第二の沈黙区間継続長閾値を用いて、ユーザによる発声の判定処理を行う
    処理とを実行させる
    請求項9に記載の応答対象音声判定プログラム。
JP2013131650A 2013-06-24 2013-06-24 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム Active JP6171617B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013131650A JP6171617B2 (ja) 2013-06-24 2013-06-24 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013131650A JP6171617B2 (ja) 2013-06-24 2013-06-24 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム

Publications (2)

Publication Number Publication Date
JP2015004928A JP2015004928A (ja) 2015-01-08
JP6171617B2 true JP6171617B2 (ja) 2017-08-02

Family

ID=52300849

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013131650A Active JP6171617B2 (ja) 2013-06-24 2013-06-24 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム

Country Status (1)

Country Link
JP (1) JP6171617B2 (ja)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US11236192B2 (en) 2015-09-30 2022-02-01 Sekisui Chemical Co., Ltd. Flame-retardant rigid polyurethane foam
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
JP2017117371A (ja) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御方法、制御装置およびプログラム
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
EP3486900A1 (en) * 2017-11-16 2019-05-22 Softbank Robotics Europe System and method for dialog session management
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
JP7172120B2 (ja) * 2018-04-27 2022-11-16 日産自動車株式会社 音声認識装置及び音声認識方法
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN111739506B (zh) * 2019-11-21 2023-08-04 北京汇钧科技有限公司 一种应答方法、终端及存储介质
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3378595B2 (ja) * 1992-09-30 2003-02-17 株式会社日立製作所 音声対話システムおよびその対話進行制御方法
JP2003308079A (ja) * 2002-04-15 2003-10-31 Nissan Motor Co Ltd 音声入力装置
JP4433704B2 (ja) * 2003-06-27 2010-03-17 日産自動車株式会社 音声認識装置および音声認識用プログラム
US7860718B2 (en) * 2005-12-08 2010-12-28 Electronics And Telecommunications Research Institute Apparatus and method for speech segment detection and system for speech recognition
JP5607627B2 (ja) * 2010-02-25 2014-10-15 パナソニック株式会社 信号処理装置及び信号処理方法

Also Published As

Publication number Publication date
JP2015004928A (ja) 2015-01-08

Similar Documents

Publication Publication Date Title
JP6171617B2 (ja) 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
US10269374B2 (en) Rating speech effectiveness based on speaking mode
CN108346425B (zh) 一种语音活动检测的方法和装置、语音识别的方法和装置
US9293133B2 (en) Improving voice communication over a network
JP5381988B2 (ja) 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム
WO2008069187A1 (ja) プレゼンテーション支援装置および方法並びにプログラム
JP5387416B2 (ja) 発話分割システム、発話分割方法および発話分割プログラム
WO2017085992A1 (ja) 情報処理装置
JP4587854B2 (ja) 感情解析装置、感情解析プログラム、プログラム格納媒体
CN109994129B (zh) 语音处理系统、方法和设备
JP5385876B2 (ja) 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
JP4791857B2 (ja) 発話区間検出装置及び発話区間検出プログラム
JP2015169827A (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP5375423B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
JP2008052178A (ja) 音声認識装置と音声認識方法
JP5988077B2 (ja) 発話区間検出装置及び発話区間検出のためのコンピュータプログラム
Arsikere et al. Computationally-efficient endpointing features for natural spoken interaction with personal-assistant systems
Zelenák et al. Speaker overlap detection with prosodic features for speaker diarisation
CN110661923A (zh) 一种在会议中记录发言信息的方法和装置
WO2017085815A1 (ja) 困惑状態判定装置、困惑状態判定方法、及びプログラム
JP6183147B2 (ja) 情報処理装置、プログラム、及び方法
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
JP7113719B2 (ja) 発話末タイミング予測装置およびプログラム
Hjalmarsson et al. Measuring final lengthening for speaker-change prediction
CN111354358B (zh) 控制方法、语音交互装置、语音识别服务器、存储介质和控制系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160512

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170619

R150 Certificate of patent or registration of utility model

Ref document number: 6171617

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150