JP6171617B2

JP6171617B2 - 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム

Info

Publication number: JP6171617B2
Application number: JP2013131650A
Authority: JP
Inventors: 隆行荒川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2013-06-24
Filing date: 2013-06-24
Publication date: 2017-08-02
Anticipated expiration: 2033-06-24
Also published as: JP2015004928A

Description

本発明は、音声対話システムにおいて、システムに対してなされた発声を検出し、応答の対象とするか否かを判定する応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラムに関する。

音声認識技術を用いた人間とロボットの会話を実現するシステムや、ユーザが発声した音声コマンドを認識し、内容に応じた情報提供などを行うシステムでは、応答対象外の音による誤動作が問題となる。以下、これらのシステムを単にシステムという。また、ユーザがロボットや機器に対し入力の意図を持って発声する音声を、応答対象音声という。

特許文献１には、顔認識を行い、ユーザの顔が向いている方向を判定し、顔がシステムの方を向いている時になされた発声のみを応答の対象とする音声妥当性判定装置（apparatus and method for determining relevance of input speech）が開示されている。

非特許文献１には、人間同士の会話中に、システムに対する音声コマンドの入力を可能とする技術（音声スポッタ）が記載されている。音声スポッタを用いることにより、ユーザは、有声休止で言いよどんだ後に故意的に高い声で発声するといった、通常の発声ではない特殊な発声を行うことで、明示的に処理対象音声をシステムに通知することができる。

米国特許出願公開第２０１２／０２５９６３８号明細書

後藤真孝、北山広治、伊藤克亘、小林哲則、「音声スポッタ：人間同士の会話中に音声認識が利用可能な音声入力インターフェース」、情報処理学会論文誌、Ｍａｒ２００７、Ｖｏｌ．４８、Ｎｏ．３、ｐｐ．１２７４

特許文献１に記載された技術は、システムを注視しながら人間同士が会話するような場合に、顔方向だけでは必ずしも正確な判定が行えないという問題がある。特に、システムが何らかの情報をディスプレイなどに表示し、その内容についてユーザが話し合うことが想定される場合には、顔方向による音声妥当性判定は信頼性が低い。また、非特許文献１に記載された技術は、ユーザが処理対象音声をシステムに通知する際に特殊な発話を行う必要があり、ユーザビリティが損なわれるという問題がある。

そこで、本発明は、ユーザがロボットや機器に対し入力の意図を持って発声した音声を、精度良くかつユーザビリティを損なうことなく判定することができる応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラムを提供することを目的とする。

本発明による応答対象音声判定装置は、ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、沈黙区間継続長が沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定する応答対象発声判定部を備えることを特徴とする。

本発明による応答対象音声判定方法は、ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、沈黙区間継続長が沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定することを特徴とする。

本発明による応答対象音声判定プログラムは、コンピュータに、ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、沈黙区間継続長が沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定する処理を実行させることを特徴とする。

本発明によれば、ユーザがロボットや機器に対し入力の意図を持って発声した音声を、精度良くかつユーザビリティを損なうことなく判定することができる。

本発明による応答対象音声判定装置の第１の実施形態の構成を示すブロック図である。応答対象音声判定装置の第１の実施形態の動作を示すフローチャートである。人間同士の会話における沈黙区間継続長の頻度分布を示す説明図である。本発明による応答対象音声判定装置の第２の実施形態の構成を示すブロック図である。応答対象音声判定装置の第２の実施形態の動作を示すフローチャートである。システムに対しなされた発声から抽出された音声特徴量と、システム外に対してなされた発声から抽出された音声特徴量の頻度分布を示す説明図である。本発明による応答対象音声判定装置の第３の実施形態の構成を示すブロック図である。本発明による応答対象音声判定装置の第４の実施形態の構成を示すブロック図である。本発明による応答対象音声判定装置の第５の実施形態の構成を示すブロック図である。本発明による応答対象音声判定装置の第６の実施形態の構成を示すブロック図である。本発明による応答対象音声判定装置の最小構成を示すブロック図である。本発明による応答対象音声判定装置の他の最小構成を示すブロック図である。

実施形態１．
以下、本発明の第１の実施形態を図面を参照して説明する。

図１は、本発明による応答対象音声判定装置の第１の実施形態の構成を示すブロック図である。

図１に示すように、応答対象音声判定装置は、入力音信号取得部１０１と、入力音信号切り出し部１０２と、音声区間判定閾値格納部１０３と、音声区間判定部１０４と、音声区間音信号保存部１０５と、沈黙区間継続長閾値格納部１０６と、応答対象発声判定部１０７とを備える。

入力音信号取得部１０１は、入力音信号の時系列（time series of input sound signal）を取得する。入力音信号取得部１０１は、音声入力装置、例えばマイクロホンを用いて入力音信号の時系列を取得する。

入力音信号切り出し部１０２は、入力音信号を入力とし、フレームごとに切り出した音信号を出力する。

音声区間判定閾値格納部１０３は、予め定められた音声区間判定に係わる閾値（pre-determined threshold for voice activity detection）を格納する。

音声区間判定部１０４は、フレームごとに切り出された音信号と、音声区間判定に係わる閾値を入力とし、当該フレームが音声区間（active voice segment）に含まれるか、音声が存在しない沈黙区間（silence segment）に含まれるか、を判定する。

音声区間音信号保存部１０５は、音声区間判定部１０４で音声区間と判定された音信号を保存する。

沈黙区間継続長閾値格納部１０６は、予め定められた沈黙区間継続長閾値（pre-determined threshold of duration of silence segment）を格納する。

応答対象発声判定部１０７は、音声区間判定部１０４で沈黙区間と判定された区間の継続長と沈黙区間継続長閾値とを比較し、当該沈黙区間以前の音声区間を応答対象とし応答するか、応答を保留するかを判定する。

なお、入力音信号取得部１０１、入力音信号切り出し部１０２、音声区間判定部１０４および応答対象発声判定部１０７は、例えば、応答対象音声判定プログラムに従って動作するコンピュータによって実現される。この場合、ＣＰＵが応答対象音声判定プログラムを読み込み、そのプログラムに従って、入力音信号取得部１０１、入力音信号切り出し部１０２、音声区間判定部１０４および応答対象発声判定部１０７として動作する。また、入力音信号取得部１０１、入力音信号切り出し部１０２、音声区間判定部１０４および応答対象発声判定部１０７が別々のハードウェアで実現されていてもよい。

また、音声区間判定閾値格納部１０３、音声区間音信号保存部１０５および沈黙区間継続長閾値格納部１０６は、具体的には、応答対象音声判定装置が備える光ディスク装置や磁気ディスク装置、メモリ等の記憶装置によって実現される。

次に、本実施形態の動作を説明する。

図２は、応答対象音声判定装置の第１の実施形態の動作を示すフローチャートである。図３は、人間同士の会話における沈黙区間継続長の頻度分布を示す説明図である。

図２に示すように、まず、入力音信号切り出し部１０２は、入力音信号取得部１０１が取得した入力音の時系列（time series of input sound signal）を入力する。そして、入力音信号切り出し部１０２は、入力音の時系列から単位時間のフレーム分の波形データを切り出す（ステップＳ１０１）。

例えば、入力音信号切り出し部１０２は、マイクロホンなどによって取得されたアナログデータを、サンプリング周波数８０００Ｈｚ、量子化ビット１６ビット、Linear-PCMのデジタルデータとして取得し、１０ミリ秒毎に２５６点分の波形データを切り出す。なお、入力音信号切り出し部１０２は、他のサンプリング周波数、量子化ビット、切り出しの間隔、切り出す点数などによって、波形データを切り出すようにしてもよい。

応答対象音声判定装置は、以下に示すステップＳ１０２〜Ｓ１０４の処理をフレーム単位で行う。

ステップＳ１０２において、音声区間判定部１０４は、ステップＳ１０１でフレームごとに切り出された入力音に対して音声区間判定を行う。音声区間の判定方法として、例えば、振幅パワーなどを求め、音声区間判定閾値格納部１０３に格納されている閾値と大小を比較する方法が考えられる。振幅パワーＰｔは、以下に示す式（１）で算出される。

Ｎは、１フレームに含まれるサンプル点数である。xtは、時刻ｔの入力音データ（波形データ）の値である。音声区間判定部１０４は、振幅パワーが閾値より大きければ音声状態と判定し、振幅パワーが閾値より小さければ沈黙状態と判定する。なお、ここでは振幅パワーを用いたが、ゼロ交差数や、音声モデルと非音声モデルとの尤度比、ピッチ周波数、ＳＮ比など他の特徴量を用いてもよい。単位時間ごとに判定された音声状態のうち同じ状態が連続する区間を音声区間とする。また、単位時間ごとに判定された沈黙状態のうち同じ状態が連続する区間を沈黙区間とする。

音声区間の始端は、連続した沈黙状態が途切れ音声状態に変化した時点である。この時点は、同時に沈黙区間の終端である。音声区間の終端は、連続した音声状態が途切れ沈黙状態に変化した時点である。この時点は、同時に沈黙区間の始端である。このように音声区間および沈黙区間が確定するのは、連続した状態が途切れた時点である。

ここで、短い音声区間が発生しないように、沈黙状態から音声状態に変化した後、一定の長さ音声状態と判定されなければ音声区間の始端（沈黙区間の終端）として認めない、といったハングオーバー処理を行うようにしてもよい。また、短い沈黙区間が発生しないように、音声状態から沈黙状態に変化した後、一定の長さ沈黙状態と判定されなければ音声区間の終端（沈黙区間の始端）として認めない、といったハングオーバー処理を行うようにしてもよい。

以降の処理は、着目するフレーム、つまり処理対象のフレームが音声区間に含まれるか、沈黙区間に含まれるかによって、分岐する。

音声区間判定部１０４が着目するフレームが音声区間に含まれると判定した場合、音声区間判定部１０４は、当該フレームの音信号を音声区間音信号保存部１０５に保存する（ステップＳ１０３）。この後、ステップＳ１０１の処理から、次のフレームに対する処理が行われる。

音声区間判定部１０４が着目するフレームが沈黙区間に含まれると判定した場合、応答対象発声判定部１０７は、直前の音声区間から当該フレームまで継続する沈黙区間の継続長と、沈黙区間継続長閾値とを比較する。沈黙区間の継続長が沈黙区間継続長閾値より大きい場合には、応答対象発声判定部１０７は、直前の音声区間を応答対象と判定する。それ以外の場合には、応答対象発声判定部１０７は、応答保留と判定する（ステップＳ１０４）。

応答対象発声判定部１０７は、直前の音声区間を応答対象音声と判定した場合、対応する音声区間の音信号を音声区間音信号保存部１０５より取得し、出力する（ステップＳ１０５）。つまり、応答対象発声判定部１０７は、応答対象音声を出力する。

応答対象発声判定部１０７が応答保留と判定した場合、ステップＳ１０１の処理から、次のフレームに対する処理が行われる。

応答対象と判定するか応答保留と判定するかは、継続する沈黙の長さをＬとし、沈黙区間継続長閾値をＴｈとするとき、以下に示す式（２）および式（３）を用いて判定される。

Ｌ＞Ｔｈ直前の音声区間を応答対象音声と判定し応答・・・式（２）
Ｌ ≦ Ｔｈ応答を保留・・・式（３）

応答対象発声判定部１０７は、応答保留の継続中に音声区間が開始したとき、一つ前の音声区間を応答対象外発声とみなし棄却する。なお、最初の沈黙区間には直前の音声区間が存在しないため、式（１）を満たしたとしても応答対象音声は判定されない。

沈黙区間継続長閾値は、ユーザ等が予め実験によって求めることが考えられる。例えば、ユーザは、図３に示すような、システム外への発声、例えば人間同士の会話における沈黙区間継続長とその頻度から、人間同士の会話が誤って応答対象音声と判定されることが少なくなるように沈黙区間継続長閾値を決定する。

システムは、応答対象音声判定装置が出力した応答対象音声に対し、処理を実行する。例えば、システムが、応答対象音声に対し、音声認識を行い、音声認識より出力されたテキストに応じた応答をユーザに返すことが考えられる。また、システムが、応答保留とされている音声区間に対しても音声認識を行い、仮の音声認識出力テキストとして保持しておき、応答対象音声判定装置が応答対象音声と判定したときに、保持された仮の音声認識出力テキストを有効にすることも考えられる。

以上に説明したように、本実施形態では、発声後の沈黙区間の継続長を用いて応答対象音声か否かを判定する。そのため、ユーザは発声後、システムの応答を待つだけでよい。従って、本実施形態によれば、ユーザビリティの高い音声対話ユーザインターフェースを提供することができる。

実施形態２．
以下、本発明の第２の実施形態を図面を参照して説明する。

図４は、本発明による応答対象音声判定装置の第２の実施形態の構成を示すブロック図である。

図４に示すように、第２の実施形態における応答対象音声判定装置は、第１の実施形態の構成に加えて、音声特徴量算出部２０１と、音声特徴量閾値・重み格納部２０２と、第二の沈黙区間継続長閾値算出部２０３とを備える。

音声特徴量算出部２０１は、音声区間判定部１０４で音声区間と判定された音信号を入力とし、音声特徴量を算出し出力する。

音声特徴量閾値・重み格納部２０２は、予め定められた音声特徴量の閾値および重み（pre-determined threshold and weight for prosody features）を格納する。

第二の沈黙区間継続長閾値算出部２０３は、音声特徴量と、音声特徴量の閾値および重みと、沈黙区間継続長閾値を入力とし、第二の沈黙区間継続長を算出し出力する。

なお、音声特徴量算出部２０１および第二の沈黙区間継続長閾値算出部２０３は、例えば、応答対象音声判定プログラムに従って動作するコンピュータによって実現される。この場合、ＣＰＵが応答対象音声判定プログラムを読み込み、そのプログラムに従って、音声特徴量算出部２０１および第二の沈黙区間継続長閾値算出部２０３として動作する。また、音声特徴量算出部２０１および第二の沈黙区間継続長閾値算出部２０３が別々のハードウェアで実現されていてもよい。

また、音声特徴量閾値・重み格納部２０２、は、具体的には、応答対象音声判定装置が備える光ディスク装置や磁気ディスク装置、メモリ等の記憶装置によって実現される。

次に、本実施形態の動作を説明する。

図５は、応答対象音声判定装置の第２の実施形態の動作を示すフローチャートである。図６は、システムに対しなされた発声から抽出された音声特徴量と、システム外に対してなされた発声から抽出された音声特徴量の頻度分布を示す説明図である。

ステップＳ２０１〜Ｓ２０３の処理は、第１の実施形態におけるステップＳ１０１〜Ｓ１０３の処理と同様である。

音声区間判定部１０４が、着目するフレームが音声区間に含まれると判定し、ステップＳ２０３の処理を実行した後、音声特徴量算出部２０１は、着目するフレームの音信号から音声特徴量を算出する（ステップＳ２０４）。音声特徴量は、音信号から抽出される特徴量である。音声特徴量は、例えば、音声区間における振幅パワーや、その平均値、分散値、最大値、最小値や、フォルマント周波数や、ケプストラム、といった音声認識で広く用いられている特徴量である。また、音声特徴量として、音声区間の継続長を用いることも考えられる。

次に、第二の沈黙区間継続長閾値算出部２０３が、ステップＳ２０４で算出された音声特徴量と、音声特徴量閾値・重み格納部２０２に格納されている音声特徴量の閾値および重みと、沈黙区間継続長閾値格納部１０６に格納されている沈黙区間継続長閾値とから、第二の沈黙区間継続長閾値を算出する（ステップＳ２０５）。具体的には、沈黙区間継続長閾値をＴｈ１、音声特徴量をＦ、音声特徴量閾値をＴｈＦ、音声特徴量重みをｗＦとすると、第二の沈黙区間継続長閾値算出部２０３は、以下に示す式（４）により、第二の沈黙区間継続長閾値Ｔｈ２を算出する。

Th２＝ Th１ ― sgn × wF ×（F − ThF）・・・式（４）

ここで、sgnは+１または-１の値をとる。システムに対する発声に対し値が大きくなる特徴量を用いる場合にはsgnを+1とし、システムに対する発声に対し値が小さくなる特徴量を用いる場合にはsgnを-1とする。例えば、ユーザがシステムに対して話すときは声が大きくなる傾向があると考えられるため、声の大きさを特徴量として用いる場合には、sgnは+1となる。また、ユーザはシステムに対してはゆっくり話す傾向があると考えられるため、話す速度を特徴量として用いる場合には、sgnは-1となる。

なお、応答対象音声判定装置は、ステップＳ２０３からステップＳ２０５までの処理を、フレームごとに行ってもよいし、音声区間の終端（沈黙区間の始端）において一括で行ってもよい。

第二の沈黙区間継続長閾値算出部２０３がステップＳ２０５の処理を実行した後、ステップＳ１０１の処理から、次のフレームに対する処理が行われる。

ステップＳ２０２で音声区間判定部１０４が着目するフレームが沈黙区間に含まれると判定した場合、応答対象発声判定部１０７は、沈黙区間の継続長と沈黙区間継続長閾値を比較する代わりに、沈黙区間の継続長と第二の沈黙区間継続長閾値を比較し、直前の音声区間を応答対象とし応答するか、応答を保留するか判定する（ステップＳ２０６）。

応答対象発声判定部１０７は、直前の音声区間を応答対象音声と判定した場合、対応する音声区間の音信号を音声区間音信号保存部１０５より取得し、出力する（ステップＳ２０７）。つまり、応答対象発声判定部１０７は、応答対象音声を出力する。

応答対象発声判定部１０７が応答保留と判定した場合、ステップＳ２０１の処理から、次のフレームに対する処理が行われる。

音声特徴量閾値は、ユーザ等が予め実験によって求めることが考えられる。例えば、図６に示すように、ユーザは、システムに対してなされた発声から抽出された音声特徴量の頻度と、システム以外に対してなされた発声から抽出された音声特徴量の頻度とから、これらをできるだけ分離するように音声特徴量閾値を決定する。

以上に説明したように、本実施形態では、音声特徴量と音声特徴量閾値との比較により、ユーザによる発声がシステムに対してなされた可能性が高いと判断した際には、第二の沈黙区間継続長閾値を沈黙区間継続長閾値よりも短くする。それにより、遅延が少なく応答対象音声の判定を行うことができる。反対に、音声特徴量と音声特徴量閾値との比較により、ユーザによる発声がシステムに対してなされた可能性が低いと判断した際には、第二の沈黙区間継続長閾値を沈黙区間継続長閾値よりも長くする。それにより、応答保留の時間が長くなり、応答保留をしている間にユーザが次の発声を行うことにより、応答が棄却される可能性が高くなる。

このように、本実施形態では、第二の沈黙区間継続長閾値と発声後の沈黙区間の継続長とをもとに応答対象音声か否かを判定する。従って、本実施形態によれば、ユーザがシステムに対して話すときの声の大きさや話す速度などを考慮した、応答対象音声の判定を行うことができ、よりユーザビリティの高い音声対話ユーザインターフェースを提供することできる。

実施形態３．
以下、本発明の第３の実施形態を図面を参照して説明する。

図７は、本発明による応答対象音声判定装置の第３の実施形態の構成を示すブロック図である。

図７に示すように、第３の実施形態における応答対象音声判定装置は、第１の実施形態の構成に加えて、映像信号取得部３０１と、映像特徴量算出部３０２と、映像特徴量閾値・重み格納部３０３と、第二の沈黙区間継続長閾値算出部３０４とを備える。

映像信号取得部３０１は、カメラなどを用いて映像信号を取得する。

映像特徴量算出部３０２は、映像信号と、音声区間判定部１０４で判定された区間に関する情報（以下、区間情報という。）とを入力とし、音声区間、沈黙区間、またはその両方の区間の映像特徴量を算出し出力する。区間情報は、音声区間継続長などを含む。

映像特徴量閾値・重み格納部３０３は、予め定められた映像特徴量の閾値および重みを格納する。

第二の沈黙区間継続長閾値算出部３０４は、映像特徴量と沈黙区間継続長閾値と映像特徴量閾値と映像特徴量重みとを入力とし、第二の沈黙区間継続長閾値を算出し出力する。

なお、映像信号取得部３０１、映像特徴量算出部３０２および第二の沈黙区間継続長閾値算出部３０４は、例えば、応答対象音声判定プログラムに従って動作するコンピュータによって実現される。この場合、ＣＰＵが応答対象音声判定プログラムを読み込み、そのプログラムに従って、映像信号取得部３０１、映像特徴量算出部３０２および第二の沈黙区間継続長閾値算出部３０４として動作する。また、映像信号取得部３０１、映像特徴量算出部３０２および第二の沈黙区間継続長閾値算出部３０４が別々のハードウェアで実現されていてもよい。

また、映像特徴量閾値・重み格納部３０３は、具体的には、応答対象音声判定装置が備える光ディスク装置や磁気ディスク装置、メモリ等の記憶装置によって実現される。

次に、本実施形態の動作を説明する。

映像特徴量算出部３０２は、映像信号取得部３０１で得られた映像信号から映像特徴量を算出する。映像特徴量としては、顔や視線、体の向きなどが考えられる。なお、映像特徴量算出部３０２は、映像特徴量に対して音声区間で平均を求めるようにしてもよい。また、映像特徴量算出部３０２は、映像特徴量をもとに、ユーザがシステムの方向を向いている時間や、ユーザがシステムに向いている時間と音声区間継続長との比を求めるようにしてもよい。

第二の沈黙区間継続長閾値算出部３０４は、沈黙区間継続長閾値と映像特徴量閾値とから、第二の沈黙区間継続長閾値を算出する。沈黙区間継続長閾値をＴｈ０、映像特徴量をＦ、映像特徴量閾値をＴｈＦ、映像特徴量重みをｗＦとすると、第二の沈黙区間継続長閾値Ｔｈ２は、以下に示す式（５）で算出される。

Ｔｈ２＝Ｔｈ１ ― ｗＦ×（Ｆ−ＴｈＦ）・・・式（５）

応答対象発声判定部１０７は、算出した第二の沈黙区間継続長閾値Ｔｈ２を用いて、第１の実施形態と同様の方法により、直前の音声区間を応答対象とし応答するか、応答を保留するか判定する。

映像特徴量は、沈黙区間でも算出可能である。映像特徴量算出部３０２が音声区間と沈黙区間と別々に特徴量を算出する場合、式（５）は、式（６）のように変形される。

Ｔｈ２＝Ｔｈ１ ― ｗＦｖ×（Ｆｖ−ＴｈＦｖ） ― ｗＦｓ×（Ｆｓ−ＴｈＦｓ）・・・式（６）

ここで、Ｆｖは音声区間の映像特徴量を示す。ＴｈＦｖは音声区間の映像特徴量閾値を示す。ｗＦｖは音声区間の映像特徴量重みを示す。Ｆｓは沈黙区間の映像特徴量を示す。ＴｈＦｓは沈黙区間の映像特徴量閾値を示す。ｗＦｓは沈黙区間の映像特徴量の重みを示す。

なお、音声区間判定部１０４において、音信号のみから音声区間、沈黙区間を判定することに加えて、映像を用いて音声区間、沈黙区間を判定するようにしてもよい。例えば、映像を用いて口の大きさや動きなどを解析し、口が小さいとき、または口が動いていないときには、沈黙区間と判定するといったことが考えられる。

以上に説明したように、本実施形態では、映像特徴量をもとに算出した第二の沈黙区間継続長閾値を用いて、直前の音声区間を応答対象とし応答するか、応答を保留するかを判定する。従って、ユーザの顔や視線、体の向きなどを考慮した応答対象音声の判定を行うことができる。それにより、ユーザは、システムに対して応答を望む場合に、発声中および発声後にシステム方向を注視し、しばらく沈黙するだけでよい。従って、本実施形態によれば、よりユーザビリティの高い音声対話ユーザインターフェースを提供できる。

実施形態４．
以下、本発明の第４の実施形態を図面を参照して説明する。

図８は、本発明による応答対象音声判定装置の第４の実施形態の構成を示すブロック図である。

図８に示すように、第４の実施形態における応答対象音声判定装置は、第１の実施形態の構成に加えて、対話活性度算出部４０１と、対話活性度閾値・重み格納部４０２と、第二の沈黙区間継続長閾値算出部４０３とを備える。

対話活性度算出部４０１は、音声区間判定部１０４で求まった複数の音声区間と沈黙区間の時間的関係性から対話活性度（conversation activity）を算出する。本実施形態では、対話活性度算出部４０１は、複数の音声区間と沈黙区間の時間的関係性として、音声区間と沈黙区間の切り替わる頻度を用いる。対話活性度算出部４０１が算出に用いる音声区間と沈黙区間の範囲は、例えば、着目するフレームから過去に遡り、ある一定時間に存在する音声区間と沈黙区間を対象とする。

対話活性度閾値・重み格納部４０２は、予め定められた対話活性度の閾値および重みを格納する。

第二の沈黙区間継続長閾値算出部４０３は、沈黙区間継続長閾値格納部１０６に格納されている沈黙区間継続長閾値と、対話活性度と、対話活性度の閾値および重みとを入力とし、第二の沈黙区間継続長閾値を算出し出力する。

なお、対話活性度算出部４０１および第二の沈黙区間継続長閾値算出部４０３は、例えば、応答対象音声判定プログラムに従って動作するコンピュータによって実現される。この場合、ＣＰＵが応答対象音声判定プログラムを読み込み、そのプログラムに従って、対話活性度算出部４０１および第二の沈黙区間継続長閾値算出部４０３として動作する。また、対話活性度算出部４０１および第二の沈黙区間継続長閾値算出部４０３が別々のハードウェアで実現されていてもよい。

また、対話活性度閾値・重み格納部４０２は、具体的には、応答対象音声判定装置が備える光ディスク装置や磁気ディスク装置、メモリ等の記憶装置によって実現される。

実施形態５．
以下、本発明の第５の実施形態を図面を参照して説明する。

図９は、本発明による応答対象音声判定装置の第５の実施形態の構成を示すブロック図である。

図９に示すように、第５の実施形態における応答対象音声判定装置は、第１の実施形態の構成に加えて、複数音信号取得部５０１と、入力音信号切り出し部５０２と、音声区間判定部５０３と、対話活性度算出部５０４と、対話活性度閾値・重み格納部５０５と、第二の沈黙区間継続長閾値算出部５０６とを備える。

複数音信号取得部５０１は、複数の音声入力装置、例えばマイクロホンを用いて、話者や方向ごとに複数チャネルの入力音信号を取得する。

入力音信号切り出し部５０２は、複数チャネルの入力音信号を入力とし、それぞれフレームごとに切り出した音信号を出力する。

音声区間判定部５０３は、複数の音声区間検出部（ＶＡＤ（voice activity detection）１〜ＶＡＤＮ）を含む。音声区間判定部５０３は、ＶＡＤ１〜ＶＡＤＮを用いて、フレームごとに切り出された複数チャネルの音信号と、音声区間判定閾値格納部１０３に格納されている音声区間判定に係わる閾値を入力とし、当該フレームが音声区間（active voice segment）に含まれるか、音声が存在しない沈黙区間（silence segment）に含まれるか、をチャネルごとに判定する。

対話活性度算出部５０４は、音声区間判定部５０３で求まった音声区間と沈黙区間の時間的関係性から、対話活性度（conversation activity）を算出する。

対話活性度閾値・重み格納部５０５は、予め定められた対話活性度の閾値および重みを格納する。

第二の沈黙区間継続長閾値算出部５０６は、沈黙区間継続長閾値格納部１０６に格納されている沈黙区間継続長閾値と、対話活性度と、対話活性度閾値・重みとを入力とし、第二の沈黙区間継続長閾値を算出し出力する。

本実施形態では、対話活性度算出部５０４は、対話活性度を、複数チャンネルに対し求められた複数の音声区間と沈黙区間の時間的関係性を用いて算出する。対話活性度算出部５０４が算出に用いる時間的関係性として、例えば音声区間と沈黙区間の切り替わる頻度、複数チャンネルの音声区間オーバーラップの頻度、発話の占有率から算出される発話者エントロピーなどが考えられる。

発話の占有率は、話者を問わず音声区間と判定した区間のうち、特定の話者が発声している音声区間の長さの割合である。発話者エントロピーSは、以下に示す式（７）を用いて算出される。

S = ― Σ_i P_i log P_i ・・・式（７）

ここで、P_iはi番目の発話者の発話の占有率を示す。例えば３人の話者がいて、１番目の話者（話者Ａ）の音声区間継続長が５秒、２番目の話者（話者Ｂ）の音声区間継続長が２秒、３番目の話者（話者Ｃ）の音声区間継続長が１秒であったとき、P_1、P_2、P_3は、式（８）から式（１０）に示す値となる。また、発話者エントロピーSは、式（１１）で算出される。

P_1 = 5/8 ・・・式（８）
P_2 = 2/8 ・・・式（９）
P_3 = 1/8 ・・・式（１０）
S = − P_1 log（P_1） − P_2 log（P_2） − P_3 log（P_3）・・・式（１１）

なお、複数音信号取得部５０１、入力音信号切り出し部５０２、音声区間判定部５０３、対話活性度算出部５０４および第二の沈黙区間継続長閾値算出部５０６は、例えば、応答対象音声判定プログラムに従って動作するコンピュータによって実現される。この場合、ＣＰＵが応答対象音声判定プログラムを読み込み、そのプログラムに従って、複数音信号取得部５０１、入力音信号切り出し部５０２、音声区間判定部５０３、対話活性度算出部５０４および第二の沈黙区間継続長閾値算出部５０６として動作する。また、複数音信号取得部５０１、入力音信号切り出し部５０２、音声区間判定部５０３、対話活性度算出部５０４および第二の沈黙区間継続長閾値算出部５０６が別々のハードウェアで実現されていてもよい。

また、対話活性度閾値・重み格納部５０５は、具体的には、応答対象音声判定装置が備える光ディスク装置や磁気ディスク装置、メモリ等の記憶装置によって実現される。

実施形態６．
以下、本発明の第６の実施形態を図面を参照して説明する。

図１０は、本発明による応答対象音声判定装置の第６の実施形態の構成を示すブロック図である。

図１０に示すように、第６の実施形態における応答対象音声判定装置は、第２の実施形態の構成に加えて、最大遅延時間格納部６０１を備える。

なお、最大遅延時間格納部６０１は、具体的には、応答対象音声判定装置が備える光ディスク装置や磁気ディスク装置、メモリ等の記憶装置によって実現される。

本実施形態では、応答対象発声判定部１０７が、第二の沈黙区間継続長閾値算出部２０３において算出された第二の沈黙区間継続長閾値と最大遅延時間とを比較する。最大遅延時間は、本実施形態では、システムがユーザに応答するまでの遅延時間の最大値である。そして、応答対象発声判定部１０７は、第二の沈黙区間継続長閾値が最大遅延時間より長い場合に直前の音声区間を応答の対象外として棄却する。具体的には、継続する沈黙の長さをＬとし、第二の沈黙区間継続長閾値をＴｈ、最大遅延時間をＤとするとき、応答対象発声判定部１０７は、以下に示す式（１２）から式（１４）を用いて直前の音声区間が応答対象音声であるか否かを判定する。

Ｄ＜Ｔｈ直前の音声区間を応答対象音声外と判定し棄却・・・式（１２）
Ｄ≧ＴｈかつＬ≦Ｔｈ応答保留・・・式（１３）
Ｄ≧ＴｈかつＬ＞Ｔｈ直前の音声区間を応答対象音声と判定し応答・・・式（１４）

応答対象発声判定部１０７が直前の音声区間を応答対象音声外と判定し棄却した場合、応答対象音声判定装置またはシステムが、ユーザに通知することが考えられる。例えば、「発声が聞き取れませんでした」というメッセージを通知することが考えられる。

なお、上記の各実施形態は複数組み合わせて用いることもできる。

次に、本発明の概要を説明する。図１１は、本発明による応答対象音声判定装置の最小構成を示すブロック図である。図１２は、本発明による応答対象音声判定装置の他の最小構成を示すブロック図である。

図１１に示すように、本発明による応答対象音声判定装置は、ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、沈黙区間継続長が沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定する応答対象発声判定部１１（図１に示す応答対象発声判定部１０７に相当。）を備える。

そのような構成によれば、発声後の沈黙区間の継続長を用いて応答対象音声か否かを判定するため、ユーザは発声後、システムの応答を待つだけでよい。従って、ユーザビリティの高い音声対話ユーザインターフェースを提供することができる。

また、音声入力装置が集音した音信号の時系列に対し、音声区間および沈黙区間を判定する音声区間判定部１２（図４または図７に示す音声区間判定部１０４に相当。）と、音声区間、沈黙区間、またはその両方の区間に対応する特徴量を抽出する特徴量算出部１３（図４に示す音声特徴量算出部２０１、または図７に示す映像特徴量算出部３０２に相当。）と、特徴量と、予め定められた特徴量の閾値および重みと、予め定められた第一の沈黙区間継続長閾値（沈黙区間継続長閾値に相当。）から、第二の沈黙区間継続長閾値を求める第二の沈黙区間継続長閾値算出部１４（図４に示す第二の沈黙区間継続長閾値算出部２０３、または図７に示す第二の沈黙区間継続長閾値算出部３０４に相当。）とを備え、応答対象発声判定部１１が、第二の沈黙区間継続長閾値を用いて判定を行ってもよい。そのような構成によれば、応答対象音声の判定の精度を劣化させることなく、遅延が少ない応答対象音声の判定を行うことができ、よりユーザビリティの高い音声対話ユーザインターフェースを提供することできる。

また、特徴量算出部１３が、音声区間に対応する音信号から音声特徴量を１つ以上抽出し、第二の沈黙区間継続長閾値算出部１４が、音声特徴量を用いてもよい。そのような構成によれば、ユーザがシステムに対して話すときの声の大きさや話す速度などを考慮した応答対象音声の判定を行うことができ、よりユーザビリティの高い音声対話ユーザインターフェースを提供することできる。

また、特徴量算出部１３が、音声区間に対応する映像から映像特徴量を抽出し、または沈黙区間に対応する映像から映像特徴量を抽出し、または両方の区間に対応する映像から映像特徴量を抽出し、第二の沈黙区間継続長閾値算出部１４が、映像特徴量を１つ以上用いてもよい。そのような構成によれば、ユーザの顔や視線、体の向きなどを考慮した応答対象音声の判定を行うことができる。それにより、ユーザは、システムに対して応答を望む場合に、発声中および発声後にシステム方向を注視し、しばらく沈黙するだけでよい。従って、よりユーザビリティの高い音声対話ユーザインターフェースを提供できる。

また、図１２に示すように、対話活性度算出部１５（図９に示す対話活性度算出部５０４に相当。）を備え、音声区間判定部１２（図９に示す音声区間判定部５０３に相当。）が、複数の音声入力装置が集音した複数チャネルの音信号の時系列それぞれに対し、音声区間および沈黙区間を判定し、対話活性度算出部１５が、複数チャネルの音声区間および沈黙区間の時間的関係性から対話活性度を算出し、第二の沈黙区間継続長閾値算出部１４（図９に示す第二の沈黙区間継続長閾値算出部５０６に相当。）が、対話活性度と、予め定められた対話活性度の閾値および重みと、予め定められた第一の沈黙区間継続長閾値とから、第二の沈黙区間継続長閾値を算出してもよい。そのような構成によれば、複数の音声区間と沈黙区間の時間的関係性から算出した対話活性度を考慮した応答対象音声の判定を行うことができる。

また、システムがユーザに応答するまでの遅延時間の最大値である最大遅延時間を予め格納する最大遅延時間格納部１６（図１０に示す最大遅延時間格納部６０１に相当。）を備え、応答対象発声判定部１１が、第二の沈黙区間継続長閾値が最大遅延時間よりも長くなることを検知し、ユーザによる発声を応答対象外発声として棄却してもよい。そのような構成によれば、例えば、ユーザの声が聞き取りづらい場合、つまり音声区間を正しく認識できなかった場合に、ユーザにその旨を通知することができる。

１１応答対象発声判定部
１２音声区間判定部
１３特徴量算出部
１４第二の沈黙区間継続長閾値算出部
１５対話活性度算出部
１６最大遅延時間格納部
１０１入力音信号取得部
１０２入力音信号切り出し部
１０３音声区間判定閾値格納部
１０４音声区間判定部
１０５音声区間音信号保存部
１０６沈黙区間継続長閾値格納部
１０７応答対象発声判定部
２０１音声特徴量算出部
２０２音声特徴量閾値・重み格納部
２０３第二の沈黙区間継続長閾値算出部
３０１映像信号取得部
３０２映像特徴量算出部
３０３映像特徴量閾値・重み格納部
３０４第二の沈黙区間継続長閾値算出部
４０１対話活性度算出部
４０２対話活性度閾値・重み格納部
４０３第二の沈黙区間継続長閾値算出部
５０１複数音信号取得部
５０２入力音信号切り出し部
５０３音声区間判定部
５０４対話活性度算出部
５０５対話活性度閾値・重み格納部
５０６第二の沈黙区間継続長閾値算出部
６０１最大遅延時間格納部

Claims

ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、前記沈黙区間継続長が前記沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定する応答対象発声判定部を備える
ことを特徴とする応答対象音声判定装置。
音声入力装置が集音した音信号の時系列に対し、音声区間および沈黙区間を判定する音声区間判定部と、
前記音声区間、前記沈黙区間、またはその両方の区間に対応する特徴量を抽出する特徴量算出部と、
前記特徴量と、予め定められた特徴量の閾値および重みと、予め定められた第一の沈黙区間継続長閾値から、第二の沈黙区間継続長閾値を求める第二の沈黙区間継続長閾値算出部とを備え、
応答対象発声判定部が、前記第二の沈黙区間継続長閾値を用いて判定を行う
請求項１に記載の応答対象音声判定装置。
特徴量算出部が、音声区間に対応する音信号から音声特徴量を１つ以上抽出し、
第二の沈黙区間継続長閾値算出部が、前記音声特徴量を用いる
請求項２に記載の応答対象音声判定装置。
特徴量算出部が、音声区間に対応する映像から映像特徴量を抽出し、または沈黙区間に対応する映像から映像特徴量を抽出し、または両方の区間に対応する映像から映像特徴量を抽出し、
第二の沈黙区間継続長閾値算出部が、前記映像特徴量を１つ以上用いる
請求項２に記載の応答対象音声判定装置。
対話活性度算出部を備え、
音声区間判定部が、複数の音声入力装置が集音した複数チャネルの音信号の時系列それぞれに対し、音声区間および沈黙区間を判定し、
前記対話活性度算出部が、前記複数チャネルの音声区間および沈黙区間の時間的関係性から対話活性度を算出し、
第二の沈黙区間継続長閾値算出部が、前記対話活性度と、予め定められた対話活性度の閾値および重みと、予め定められた第一の沈黙区間継続長閾値とから、第二の沈黙区間継続長閾値を算出する
請求項２に記載の応答対象音声判定装置。
システムがユーザに応答するまでの遅延時間の最大値である最大遅延時間を予め格納する最大遅延時間格納部を備え、
応答対象発声判定部が、第二の沈黙区間継続長閾値が前記最大遅延時間よりも長くなることを検知し、ユーザによる発声を応答対象外発声として棄却する
請求項２から請求項５のうちのいずれか１項に記載の応答対象音声判定装置。
ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、前記沈黙区間継続長が前記沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定する
ことを特徴とする応答対象音声判定方法。
音声入力装置が集音した音信号の時系列に対し、音声区間および沈黙区間を判定し、
前記音声区間、前記沈黙区間、またはその両方の区間に対応する特徴量を抽出し、
前記特徴量と、予め定められた特徴量の閾値および重みと、予め定められた第一の沈黙区間継続長閾値から、第二の沈黙区間継続長閾値を求め、
前記第二の沈黙区間継続長閾値を用いて、ユーザによる発声の判定処理を行う
請求項７に記載の応答対象音声判定方法。
コンピュータに、
ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、前記沈黙区間継続長が前記沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定する処理を実行させる
ための応答対象音声判定プログラム。
コンピュータに、
音声入力装置が集音した音信号の時系列に対し、音声区間および沈黙区間を判定する処理と、
前記音声区間、前記沈黙区間、またはその両方の区間に対応する特徴量を抽出する処理と、
前記特徴量と、予め定められた特徴量の閾値および重みと、予め定められた第一の沈黙区間継続長閾値から、第二の沈黙区間継続長閾値を求める処理と、
前記第二の沈黙区間継続長閾値を用いて、ユーザによる発声の判定処理を行う
処理とを実行させる
請求項９に記載の応答対象音声判定プログラム。