JP7113719B2

JP7113719B2 - 発話末タイミング予測装置およびプログラム

Info

Publication number: JP7113719B2
Application number: JP2018197605A
Authority: JP
Inventors: 麻乃一木; 徹都木; 正熊野; 篤今井
Original assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2022-08-05
Anticipated expiration: 2038-10-19
Also published as: JP2020064248A

Description

本発明は、発話末タイミング予測装置およびプログラムに関する。

入力される音声を基に、人の発話の有無を判定したり、人の発話の終了を検出したりする技術が研究されている。音声認識の分野では発話区間推定の技術が研究されている。また、音声対話の分野では、話者交代について研究されている。

発話区間推定の技術では、入力される音声における音声らしさの特徴量を算出し、区間ごとの音声らしさを判定する方法を用いている。発話区間推定の研究は広く行われている。

特許文献１には、入力された音声に基づいて、入力された音声に対応した応答を行う応答タイミングを予測する技術が記載されている（例えば、請求項１に記載されている「予測手段」）。同文献に記載された技術では、予測手段は、単語数、形態素数、品詞数、音素数、単語列、形態素列、品詞列、音素列の少なくとも１つを取得し、これと、算出された話速とに基づいて、応答タイミングになるまでの応答タイミング到達時間を算出する。
つまり、特許文献１に記載された技術では、応答タイミングを予測するために、少なくとも音声認識処理を行い、また、音声認識処理の結果である音素列（文字列）に対して必要に応じて形態素解析を行っている。

非特許文献１には、日本語話し言葉コーパスを分析した結果として、韻律の情報、即ち基本周波数Ｆ０の変化の情報と、自発発話の継続・終了との関係が記載されている。また、同文献の第４節には、「Ｆ０値から発話長の予測は困難であることがわかった。」と記載されている。

非特許文献２では、「相手の発話の終わりを人間がどうやって知ることができるのかを音声の特徴を基に調べ，人間が自然に行っている会話の仕組みを明らかにする」ための研究について記載されている。また、同文献では、アクセント句と声の特徴との関係として、「最終アクセント句付近で声が低く，速度が遅く，大きさが急激に小さくなる」ことが記載されている。また、同文献では、聞き手（人）は、「話し手の声の高さが落ち着く先を予測することで，発話の終わりがいつ来るのかを判断している」可能性を示唆している。

特開２０１１－１７５３０４号公報

石本祐一，小磯花絵，"日本語話し言葉コーパスに基づく自発発話の継続・終了に関わる韻律情報の分析"，日本音響学会講演論文集，２０１６年３月，１－Ｒ－４３，ｐ．３４５－３４６石本祐一，"発話末の到来を告げる韻律情報"，［online］，国立情報学研究所，［平成３０年（西暦２０１８年）９月７日検索］，インターネット＜ＵＲＬ：https://www.nii.ac.jp/userimg/openhouse/2012/214.pdf＞

しかしながら、上で説明した従来技術では、いずれも、簡単な計算処理でリアルタイムに発話末を予測することができないという問題がある。

例えば、発話区間推定の技術では、音声における音声らしさの特徴量を算出し、区間ごとの音声らしさを判定する。つまり、発話末を検出するためには、上記の特徴量に基づき、音声らしくない区間を特定する必要がある。即ち、発話末の後の区間の特徴量を分析する必要がある。したがって、発話区間推定の技術を用いても、発話末が到来する前に発話末のタイミングを予測することはできない。

また、特許文献１に記載された技術では、応答タイミングを予測するためには、少なくとも音声認識処理を行う必要があり、複雑な計算（計算量の多い計算）を実行する必要がある。また、さらに、形態素解析処理を必要とする場合もある。つまり、特許文献１の技術を用いて応答タイミングを予測するためには、多くの計算資源を要する。また、その理由により、応答タイミングを予測するためのリアルタイム性が損なわれるという問題もある。

また、非特許文献１によれば、基本周波数Ｆ０の変化の情報を基に発話長の予測をすることは困難であるとされている。

また、非特許文献２によれば、人の脳の処理として、声の高さや、発話速度や、声の大きさ等といった要素の変化に基づいて発話の終わりを予測していることが示唆されているものの、機械（コンピューター等）の処理・動作として、発話の終わりを予測するための具体的な手法等は一切記載されていない。

一方で、例えば、コンテンツ（音声を含むコンテンツ）の制作や、人の音声に反応する自動応答システム等において、簡単な計算処理で発話末を予測することができれば、そのメリットは大きく、そういった技術の確立が望まれる。

本発明は、上記のような事情を考慮して為されたものであり、入力される音声を基にした簡単な計算処理で、未到来の発話末のタイミングを予測することのできる発話末タイミング予測装置およびプログラムを提供しようとするものである。

［１］上記の課題を解決するため、本発明の一態様による発話末タイミング予測装置は、外部から取得した音声の特徴を表す特徴量を算出する要素算出部と、前記要素算出部が算出した前記特徴量に基づいて前記音声に含まれる声の発話末を予測するための量である発話末評価値を算出する発話末評価値算出部と、算出された前記発話末評価値の時間推移に基づいて発話末の到来を予測するとともに発話末が到来すると予測したときに当該予測のタイミングを示す出力信号を出力する判定部と、を具備する。

［２］また、本発明の一態様は、上記の発話末タイミング予測装置において、前記特徴量は、前記音声に含まれる声の基本周波数とパワーとの少なくともいずれか一方を含む、ものである。

［３］また、本発明の一態様は、上記の発話末タイミング予測装置において、前記発話末評価値は、前記基本周波数の所定期間長の移動平均値と前記パワーの前記所定期間長の移動平均値とのそれぞれに対して広義単調増加関数値である第１関数値として算出される長期移動平均から、前記基本周波数の前記所定期間長よりは短い期間長である第２期間長の移動平均値と前記パワーの前記第２期間長の移動平均値とのそれぞれに対して広義単調増加関数値である第２関数値として算出される短期移動平均を減じた値であり、前記判定部は、前記発話末評価値が所定の第１閾値より小さい状態から前記第１閾値より大きい状態に移ったときに発話末が到来すると予測する、ものである。

［４］また、本発明の一態様は、上記の発話末タイミング予測装置において、前記発話末評価値は、前記基本周波数の所定期間長の移動平均値と前記パワーの前記所定期間長の移動平均値とのそれぞれに対して広義単調増加関数値である第１関数値として算出される長期移動平均から、前記基本周波数の前記所定期間長よりは短い期間長である第２期間長の移動平均値と前記パワーの前記第２期間長の移動平均値とのそれぞれに対して広義単調増加関数値である第２関数値として算出される短期移動平均を減じた値であり、前記判定部は、前記発話末評価値が所定の第３閾値より小さい状態から、所定の第２閾値（ただし、第２閾値は前記第３閾値よりも大きい）より大きい状態に移ったときに発話末が到来すると予測する、ものである。

［５］また、本発明の一態様は、コンピューターを、外部から取得した音声の特徴を表す特徴量を算出する要素算出部と、前記要素算出部が算出した前記特徴量に基づいて前記音声に含まれる声の発話末を予測するための量である発話末評価値を算出する発話末評価値算出部と、算出された前記発話末評価値の時間推移に基づいて発話末の到来を予測するとともに発話末が到来すると予測したときに当該予測のタイミングを示す出力信号を出力する判定部と、を具備する発話末タイミング予測装置、として機能させるためのプログラムである。

本発明によれば、音声認識処理などといった複雑な計算を行わず、音声に基づいて発話末のタイミングを予測することができる。

本発明の一実施形態による発話末タイミング予測装置の概略機能構成を示すブロック図である。同実施形態による発話末タイミング予測装置内のデータ記憶部が記憶するデータの構成を示す概略図である。同実施形態による発話末評価値算出部が算出した長期移動平均値Ｌｎと短期移動平均値Ｓｎの時間的推移の一例を示すグラフである。同実施形態による発話末評価値算出部が算出した発話末評価値Ｃｎの時間的推移の一例を示すグラフである。同実施形態による発話末評価値算出部が算出した発話末評価値Ｃｎの時間的推移の一例を示すグラフ（変形例による判定方法のための閾値の設定を含む）である。同実施形態による発話末タイミング予測装置の処理手順を示すフローチャートである。同実施形態による発話末タイミング予測装置の応用例として構成された第１応用システムの構成を示すブロック図である。同実施形態による発話末タイミング予測装置の応用例として構成された第２応用システムの構成を示すブロック図である。

［第１実施形態］

次に、本発明の一実施形態について、図面を参照しながら説明する。
図１は、本実施形態による発話末タイミング予測装置の概略機能構成を示すブロック図である。図示するように、発話末タイミング予測装置１は、入力部２１と、要素算出部２２と、発話末評価値算出部２３と、判定部２４とを含んで構成される。上記の各部は、例えば電子回路を用いて実現される。また、その一形態として、上記の各部が、コンピューターとプログラムとを用いて実現されてもよい。また、発話末タイミング予測装置１は、データを記憶するためのデータ記憶部（不図示）を備える。データ記憶部の構成および使い方についても、後で説明する。

入力部２１は、外部から音声を取得する。入力部２１は、例えば、音声のアナログ波形データを取得し、適切なサンプリング周波数により波形のサンプリングを行い、その音声を表すデジタルデータを保存する。あるいは、入力部２１は、外部からデジタルデータの形式で音声のデータを取得し保存してもよい。

要素算出部２２は、外部から取得した音声の特徴を表す特徴量を算出する。言い換えれば、要素算出部２２は、入力部２１が取得した音声に基づき、発話末評価値算出部２３が発話末評価値を算出するために用いる要素の数値を算出する。具体的には、要素算出部２２は、所定の長さのフレームごとにピッチ周波数ＰｎおよびパワーＷｎを算出する。ここで，第n番目のフレームにおいて、既存技術による方法で求めた基本周期の逆数をピッチ周波数Ｐｎとする。基本周期を求める方法の一例は、次の通りである。即ち、取り込んだ入力音声波形から、複数の異なる分析窓幅により自己相関関数Ｒ（τ）を求め、各々の自己相関関数について、τ＞０における最大値をＲ（τ）max として、Ｖ＝Ｒ（τ）max ／Ｒ(０) とその時の時間遅れτの値を求めていき、Ｖの大きさとτの値のばらつきを考慮して、最も信頼できるτの値をピッチ周期τｐとする。特許第３，２１９，８６８号公報には、この技術の詳細が記載されている。なお、フレーム長は、１０ミリ秒以下であることが望ましく、例えば５ミリ秒とする。なお、後述する発話末評価値算出部２３が発話末評価値を算出するために、ピッチ周波数ＰｎとパワーＷｎのいずれか一方のみしか使用しない場合には、要素算出部２２は、そのいずれか一方のみを算出するようにしてもよい。つまり、要素算出部２２が算出する特徴量は、入力される音声に含まれる声の基本周波数とパワーとの少なくともいずれか一方を含むものである。

また、要素算出部２２は、入力された音声データに含まれる声の属性を判定する機能を有する。声の属性とは、声の音響的特徴に基づいて区別される属性であり、例えば、Ｖ／Ｂ／Ｆ／Ｓ／Ｐの５種類である。ここで、「Ｖ」は母音（有声音）を表し、「Ｂ」は破裂音を表し、「Ｆ」は摩擦音を表し、「Ｓ」はサイレンス（silence）を表し、「Ｐ」はポーズ（pause）を表す。サイレンスおよびポーズは、入力された音声内に発話による声が含まれない状態である。声が含まれない状態が４５０ミリ秒以上続く場合には、要素算出部２２は、属性がサイレンスであると判定する。声が含まれない状態の継続時間が４５０ミリ秒未満である場合には、要素算出部２２は、属性がポーズであると判定する。なお、要素算出部２２は、既存技術を用いて声の属性を判定する。

発話末評価値算出部２３は、要素算出部２２が算出した前記特徴量に基づいて前記音声に含まれる声の発話末を予測するための量である発話末評価値を算出する。つまり、発話末評価値算出部２３は、要素算出部２２が算出した特徴量に基づいて、発話末を予測するための量（数値）である発話末評価値（Ｃｎ）を算出する。具体的には、発話末評価値Ｃｎは、音声のピッチ周波数ＰｎとパワーＷｎとに基づいて計算されるものであり、下に説明する長期移動平均値Ｌｎと短期移動平均値Ｓｎとの差分である。即ち、Ｃｎ＝Ｌｎ－Ｓｎである。

つまり、下にも説明するように、発話末評価値算出部２３が算出する発話末評価値は、前記基本周波数の所定期間長の移動平均値と前記パワーの前記所定期間長の移動平均値とのそれぞれに対して広義単調増加関数値である第１関数値として算出される長期移動平均から、前記基本周波数の前記所定期間長よりは短い期間長である第２期間長の移動平均値と前記パワーの前記第２期間長の移動平均値とのそれぞれに対して広義単調増加関数値である第２関数値として算出される短期移動平均を減じた値である。
なお、広義単調増加関数の定義は次の通りである。即ち、実関数ｆ（・・・，ｘ，・・・）に関して、定義域に属する任意のｘ１，ｘ２に関して、ｘ１＜ｘ２ならばｆ（・・・，ｘ１，・・・）≦ｆ（・・・，ｘ２，・・・）である場合に、且つその場合にのみ、関数ｆ（）は、ｘに対して広義単調増加関数である。

ここで、ピッチ周波数とパワーの各々の長期移動平均値をＰｌ，Ｗｌとし、短期移動平均値をＰｓ，Ｗｓとする。ｌおよびｓは、第ｎ番目のフレームを終端とし、それぞれあらかじめ定められた所定の長さを有する期間である。期間ｌの長さは、期間ｓの長さよりも長い。なお、ｌおよびｓは、第ｎ番目のフレームを終端とする期間とする代わりに、第ｎ番目のフレームを含む期間としてもよい。

より具体的には、発話末評価値算出部２３は、（ａ・ｌｏｇ（Ｐｌ）＋ｂ・Ｗｌ）の値（第１関数値）を長期移動平均の値として算出し、Ｌｎとする。ここで、長期とは、例えば４．０秒である。４．０秒は、概ね、平均的な１センテンス分の長さに相当する。例えば１フレームの長さが５ミリ秒である場合、４．０秒は８００フレーム分である。つまり、発話末評価値算出部２３は、直近の８００フレーム分のピッチ周波数ＰｎおよびパワーＷｎの値に基づいて、長期移動平均値Ｌｎを求める。発話末評価値算出部２３は、（ｃ・ｌｏｇ（Ｐｓ）＋ｄ・Ｗｓ）の値（第２関数値）を短期移動平均の値として算出し、Ｓｎとする。ここで、短期とは、例えば１．０秒である。１．０秒は、概ね、平均的な１ワード（語）程度の長さに相当する。例えば１フレームの長さが５ミリ秒である場合、１．０秒は２００フレーム分である。つまり、発話末評価値算出部２３は、直近の２００フレーム分のピッチ周波数ＰｎおよびパワーＷｎの値に基づいて、短期移動平均値Ｓｎを求める。

ここで、ａ，ｂ，ｃ，ｄは、それぞれゼロ以上の実数である。ただし、ａ，ｂの少なくともいずれか一方は非零である。また、ｄ，ｃの少なくともいずれか一方は非零である。
例えば、ａ＝０の場合、発話末評価値算出部２３は、ピッチ周波数Ｐｌに依らず、パワーＷｌのみに基づいて長期移動平均Ｌｎを算出する。また、ｂ＝０の場合、発話末評価値算出部２３は、パワーＷｌに依らず、ピッチ周波数Ｐｌのみに基づいて長期移動平均Ｌｎを算出する。ａもｂも非零である場合には、発話末評価値算出部２３は、ピッチ周波数ＰｌとパワーＷｌの両方に基づいて長期移動平均Ｌｎを算出する。また、ｃ＝０の場合、発話末評価値算出部２３は、ピッチ周波数Ｐｓに依らず、パワーＷｓのみに基づいて短期移動平均Ｓｎを算出する。また、ｄ＝０の場合、発話末評価値算出部２３は、パワーＷｓに依らず、ピッチ周波数Ｐｓのみに基づいて短期移動平均Ｓｎを算出する。ｃもｄも非零である場合には、発話末評価値算出部２３は、ピッチ周波数ＰｓとパワーＷｓの両方に基づいて短期移動平均Ｓｎを算出する。
また、発話末評価値算出部２３は、長期移動平均Ｌｎや短期移動平均Ｓｎを計算する際に、Ｌｏｇ（Ｐｌ）やＷｌ，Ｌｏｇ（Ｐｓ）やＷｓの値が０．０以上且つ１．０以下になるように正規化する。

ピッチ周波数は発話末予測の主要な要素であるが、ピッチ周期抽出時に誤検出が生じることがあり、発話末予測の誤りにつながる場合があるため、有声音・無声音に関係なく正確な値を得ることができ、また時間的な変動の仕方が、ピッチ周波数と相関が高いパワーにより補間する。
ここでパラメーターは、主要な要素であるピッチ周波数の係数ａ，ｃの値を大きく、パワーの係数ｂ，ｄは小さい値とする。割合の一例としては、ピッチ周波数：パワーで８：２とする。例えば、ピッチ周波数の最小値が２０Ｈｚ（ｌｏｇ２０＝１．３）、最大値は６００Ｈｚ（ｌｏｇ６００＝２．８）とし、入力音声の平均値が８０Ｈｚ（ｌｏｇ８０＝１．９）とすると、入力音声の平均値を正規化した場合は、０．４となる。一方で、パワーの最小値を－８０、最大値を－２０、入力音声の平均値を－３０とし、正規化した場合、０．８３となる。このように通常パワーの方の値が大きくなる傾向も加味して、ａ，ｂ，ｃ，ｄを調整する。
また、ピッチ周波数とパワーの比率は影響があるが、長期移動平均、短期移動平均について一方に重みをつける必要はない。

なお、上で説明したように、ａ，ｂ，ｃ，ｄは、それぞれゼロ以上の実数であるので、次のことが言える。
即ち、（ａ・ｌｏｇ（Ｐｌ）＋ｂ・Ｗｌ）の値（第１関数値）は、基本周波数の長期移動平均値Ｐｌとパワーの長期移動平均値Ｗｌのそれぞれに対して広義単調増加関数値である。
また、（ｃ・ｌｏｇ（Ｐｓ）＋ｄ・Ｗｓ）の値（第２関数値）は、基本周波数の短期移動平均値Ｐｓとパワーの短期移動平均値Ｗｓのそれぞれに対して広義単調増加関数値である。

判定部２４は、発話末評価値算出部２３が算出した発話末評価値Ｃｎの時間推移に基づいて、発話末の到来を予測する。判定部２４は、予測結果に基づき、発話末が到来する状態であるか否かを表す信号を出力する。この出力信号は、発話末が到来すると判定部２４が予測したときに当該予測のタイミングを示すものである。また、発話末が到来すると判定部２４が予測しないときには、その出力信号は、発話末が到来しないことを示す。

具体的には、判定部２４は、発話末評価値Ｃｎが所定の第１閾値より小さい状態からその第１閾値より大きい状態に移ったときに発話末が到来すると予測する。
または、変形例として、判定部２４は、発話末評価値Ｃｎが所定の第３閾値より小さい状態から、所定の第２閾値（ただし、第２閾値は前記第３閾値よりも大きい）より大きい状態に移ったときに発話末が到来すると予測する。
これら２つの場合について、判定部２４による具体的な判定方法については、それぞれ、図４および図５を参照しながら、後で詳しく説明する。

図２は、発話末タイミング予測装置１内のデータ記憶部が記憶するデータの構成を示す概略図である。発話末タイミング予測装置１は、内部の記憶装置（例えば、磁気ハードディスク装置や、半導体メモリー装置等）にこのデータを記憶し、適切なタイミングで更新する。図示するように、このデータは表形式の時系列データである。このデータは、時刻（Ｔｎ）、声属性（Ａｎ）、ピッチ周波数（Ｐｎ）、パワー（Ｗｎ）、長期移動平均値（Ｌｎ）、短期移動平均値（Ｓｎ）、評価値（Ｃｎ）の各項目を有する。この表の各行はフレームに対応する。フレームは、例えば１ミリ秒（ｍｓ）以上１０ミリ秒以下程度の長さを有する。同図に示す例では、１フレームの長さは５ミリ秒である。

時刻（Ｔｎ）は、そのフレームを表す時刻である。例えば、時刻は、所定の時点を起点とした相対時刻（単位は、ミリ秒（ｍｓ））で表される。
声属性（Ａｎ）は、その時点における声属性である。前述の通り、要素算出部２２が声属性を判定し、その判定結果を当欄に書き込む。
ピッチ周波数（Ｐｎ）は、その時点における声のピッチ周波数である。要素算出部２２が入力される音声を基にピッチ周波数を算出し、その値を当欄に書き込む。
パワー（Ｗｎ）は、その時点における声のパワーである。要素算出部２２が入力される音声を基にパワーを算出し、その値を当欄に書き込む。
長期移動平均（Ｌｎ）は、その時点から遡った所定期間長の移動平均値である。発話末評価値算出部２３が要素算出部２２により出力されるピッチ周波数ＰｎおよびパワーＷｎに基づいて算出し、その値を当欄に書き込む。
短期移動平均（Ｓｎ）は、その時点から遡った、長期移動平均よりは短い所定期間長の移動平均値である。発話末評価値算出部２３が要素算出部２２により出力されるピッチ周波数ＰｎおよびパワーＷｎに基づいて算出し、その値を当欄に書き込む。
発話末評価値（Ｃｎ）は、その時点における発話末評価値である。前述の通り、発話末評価値算出部２３が長期移動平均Ｌｎと短期移動平均Ｓｎに基づいて算出し発話末評価値を当欄に書き込む。

次に、判定部２４が発話末の到来を予測する際の判定方法について説明する。
図３は、発話末評価値算出部２３が算出した長期移動平均値Ｌｎと短期移動平均値Ｓｎの時間的推移の一例を示すグラフである。このグラフにおける横軸は時刻（フレーム）に対応する。図示するように、長期移動平均値Ｌｎと短期移動平均値Ｓｎは、時間の経過とともに変化する。Ｌｎ＜Ｓｎとなる区間もあり、Ｌｎ＞Ｓｎとなる区間もあり、Ｌｎ＝Ｓｎとなるときもある。

図４は、発話末評価値算出部２３が算出した発話末評価値Ｃｎの時間的推移の一例を示すグラフである。本実施形態における発話末評価値Ｃｎは、前述の通り、（Ｌｎ－Ｓｎ）として算出される。このグラフにおける横軸は時刻（フレーム）に対応する。

判定部２４は、発話末評価値Ｃｎの推移により、発話末の到来を予測する。具体的には、Ｃｎの値が、負から正に移るときに、判定部２４は発話末が到来することを予測する。つまり、図示する例では、時刻Ｔ_Ａ，Ｔ_Ｂ，Ｔ_Ｃのそれぞれのタイミングで、判定部２４は発話末の到来があることを予測し、発話末の到来を表す信号を出力する。その他のタイミングにおいては、判定部２４は、発話末の到来がないと判定する。

つまり、判定部２４による判定方法を一般化すると、次の通りである。
発話末評価値Ｃｎに関する所定の第１閾値をＴＨ_１とする。Ｃｎ＜ＴＨ_１の状態からＣｎ＞ＴＨ_１の状態に移るタイミングで、判定部２４は、発話末の到来があることを予測し、発話末の到来を表す信号を出力する。その他のタイミングにおいては、判定部２４は、発話末の到来がないと判定する。
例えば、ＴＨ_１＝０としてよい。また、第１閾値ＴＨ_１を０以外の値としてもよい。

このように、判定部２４は、発話末のタイミングを予測してそのタイミングを表す信号を出力する。つまり、判定部２４は、入力音声内の発話末を検出することができる。但し、判定部２４は、偽の発話末のタイミングを検出する場合もある。例えば、判定部２４は、図４に示した時刻Ｔ_Ａ，Ｔ_Ｂ，Ｔ_Ｃのそれぞれを発話末として検出し、それらの発話末に応じたタイミング信号を出力する。しかしながら、これらのタイミングのうち、時刻Ｔ_Ａ，Ｔ_Ｂは、偽の発話末のタイミングである場合がある。つまり、判定部２４は、発話末を過検出する場合がある。こういった時刻Ｔ_Ａ，Ｔ_Ｂのようなタイミングの過検出は、例えば、発話長（時間長）が比較的長くなった場合に起こり得る。このような場合でも、判定部２４が検出する発話末のうちのいずれかは真の発話末であり、本実施形態のように簡単な計算でそのタイミングを自動的に検出できることは有用である。
なお、判定部２４は、実際の発話末が到来する前に、発話末の到来を検出（予測）する。

判定部２４による判定方法として、次に説明する変形例を用いてもよい。
図５は、発話末評価値算出部２３が算出した発話末評価値Ｃｎの時間的推移の一例を示すグラフである。このグラフにおける横軸は時刻（フレーム）に対応する。また、同図では、第２閾値および第３閾値の、２つの閾値を示している。第２閾値をＴＨ_２とし、第３閾値をＴＨ_３とする。ただし、ＴＨ_２＞ＴＨ_３である。この変形例において、判定部２４は、これら２つの閾値に基づく判定を行う。図示するグラフでは、時刻Ｔ_Ｄが到来する前において、Ｃｎ＜ＴＨ_３である。時刻Ｔ_Ｄにおいて、Ｃｎ＝ＴＨ_３となる。また、時刻Ｔ_Ｄより後では、Ｃｎ＞ＴＨ_３である。このように、発話末評価値Ｃｎは、時刻Ｔ_Ｄを境として、第３閾値ＴＨ_３よりも小さい状態から、第３閾値ＴＨ_３よりも大きい状態に移る。また、時刻Ｔ_Ｅが到来する前において、Ｃｎ＜ＴＨ_２である。時刻Ｔ_Ｅにおいて、Ｃｎ＝ＴＨ_２となる。また、時刻Ｔ_Ｅより後では、Ｃｎ＞ＴＨ_２である。このように、発話末評価値Ｃｎは、時刻Ｔ_Ｅを境として、第２閾値ＴＨ_２よりも小さい状態から、第２閾値ＴＨ_２よりも大きい状態に移る。

本変形例では、判定部２４は、発話末評価値Ｃｎが、まず第３閾値ＴＨ_３よりも小さい状態から第３閾値ＴＨ_３よりも大きい状態に移行し、且つ、その後に、第２閾値ＴＨ_２よりも小さい状態から第２閾値ＴＨ_２よりも大きい状態に移行する事象が生じたか否かを判定する。そのような事象が生じたとき、発話末評価値Ｃｎが第２閾値ＴＨ_２よりも小さい状態から第２閾値ＴＨ_２よりも大きい状態に移行したタイミングにおいて、判定部２４は、発話末の到来があることを予測し、発話末の到来を表す信号を出力する。その他のタイミングにおいては、判定部２４は、発話末の到来がないと判定する。具体例として、図５における時刻Ｔ_Ｅにおいて、判定部２４は、発話末の到来があることを予測し、発話末の到来を表す信号を出力する。

なお、例えば、ＴＨ_２＝ｄとし、ＴＨ_３＝－ｄとする。ただし、ｄは所定の正定数である。ただし、ＴＨ_２やＴＨ_３を、その他の値としてもよい。

この変形例によれば、発話末評価値Ｃｎが、第３閾値よりも小さい領域から、第２閾値よりも大きい領域まで変化したときに、発話末のタイミングを検出（予測）する。つまり、図４に示した例においける過検出（図４における時刻Ｔ_Ａ，Ｔ_Ｂ）を防止することができる。このように本変形例による判定部２４は、より精度よく、発話末を検出（予測）する。

次に、発話末タイミング予測装置１の処理手順について説明する。
図６は、発話末タイミング予測装置１による処理の手順を示すフローチャートである。発話末タイミング予測装置１は、フレームごとに、ステップＳ１１からＳ１９までの処理を行う。
ステップＳ１１において、発話末タイミング予測装置１は、処理を継続するか否かを判断する。処理を継続する場合（ステップＳ１１：ＹＥＳ）には次のステップＳ１２に進む。処理を継続しない場合（ステップＳ１１：ＮＯ）にはステップＳ１１からＳ１９までの処理のループを抜け出し、本フローチャート全体の処理を終了する。

次にステップＳ１２において、入力部２１は、外部から音声を取得する。具体的には、入力部２１は、１フレーム分の音声データを取得する。
次にステップＳ１３において、要素算出部２２は、ステップＳ１２で取得された音声データと、蓄積されていた前のフレームまでのデータとを用いて、音響特徴量を算出する。ここで算出される音響特徴量は、ピッチ周波数（Ｐｎ）とパワー（Ｗｎ）とを含む。要素算出部２２は、算出したピッチ周波数ＰｎおよびパワーＷｎの値を、前述のデータ記憶部に書き込む。

次にステップＳ１４において、要素算出部２２は、当該フレームにおける声の属性（Ａｎ）を判定する。ここでは、要素算出部２２は、声の属性がＶ／Ｂ／Ｆ／Ｓ／Ｐのいずれであるかを判定する。要素算出部２２が求める声の属性については、既に述べた通りである。
次にステップＳ１５において、要素算出部２２は、ステップＳ１４で判定した声属性がＶ／Ｂ／Ｆのいずれかであるか否かにより、処理を分岐する。声の属性がＶ／Ｂ／Ｆのいずれかである場合（ステップＳ１４：ＹＥＳ）には、ステップＳ１７に飛ぶ。声の属性がＶ／Ｂ／Ｆのいずれでもない（即ち、ＳまたはＰである）場合（ステップＳ１４：ＮＯ）には、ステップＳ１６の処理に移る。

ステップＳ１６に移った場合、同ステップにおいて、要素算出部２２は、ピッチ周波数Ｐｎの値を固定値（例えば、５０Ｈｚ）で置き換える。つまり、声の属性がＳ（サイレンス）またはＰ（ポーズ）である場合に、要素算出部２２は、当該フレームにおけるピッチ周波数Ｐｎの欄に上記固定値を書き込む。本ステップの処理の終了後は、ステップＳ１７に移る。

ステップＳ１７において、発話末評価値算出部２３は、ピッチ周波数ＰｎおよびパワーＷｎの両者を加味した値の、長期移動平均値Ｌｎおよび短期移動平均値Ｓｎを求める。長期移動平均値Ｌｎおよび短期移動平均値Ｓｎの算出の仕方は、既に説明した通りである。
次にステップＳ１８において、発話末評価値算出部２３は、上記の長期移動平均値Ｌｎと短期移動平均値Ｓｎとに基づいて、発話末評価値Ｃｎを算出する。発話末評価値算出部２３は、長期移動平均値Ｌｎ、短期移動平均値Ｓｎ、および算出した発話末評価値Ｃｎを、前述のデータ記憶部に書き込む。
次に、ステップＳ１９において、発話末評価値算出部２３は、当該フレームまでの発話末評価値Ｃｎの時系列に基づき、発話末の到来を予測する。この予測の方法については、すでに説明した。発話末評価値算出部２３は、予測結果に対応する信号を外部に出力する。出力される信号は、発話末の到来が予測される状況であるか否かを表す信号である。本ステップの処理を終了すると、次のフレームを処理するために、ステップＳ１１に戻る。

以上説明したように、本実施形態（変形例を含む）によれば、発話末タイミング予測装置１は、発話末が生じそうなタイミングを予測できる。
また、本実施形態によれば、音声認識処理や形態素解析処理といった複雑で計算量の多い処理を行うことなく、比較的単純な計算（音声の音響的な特徴量の抽出と、それらの特徴量の数値の和積の算出と、数値（閾値を含む）同士の単純な比較等）で、発話末タイミングを予測することができる。
実際に人が発話する声においては、文法的に発話の終了とみなせる箇所であってもその直後に発話が開始されることがあるが、本実施形態による発話末のタイミングの予測方法を用いる場合には、発話が連続しそうな特徴量を有する限りは、発話末タイミング予測装置１は、発話末が到来するという判定をくださない。
図５を用いて説明した判定方法（複数の閾値を用いて、閾値間の幅を持たせる判定方法）を用いる場合には、発話末の過検出を防止ないしは軽減することができる。

［応用例］
次に、発話末タイミング予測装置１の応用例について説明する。
図７は、発話末タイミング予測装置１を応用して構築された第１応用システムの構成を示すブロック図である。図示するように、第１応用システムは、発話末タイミング予測装置１と、コンテンツ合成装置３１とを含んで構成される。発話末タイミング予測装置１の機能および動作は、既に説明した通りである。コンテンツ合成装置３１は、タイミングに関する入力信号に基づき、複数の音声コンテンツを合成する機能を有する。本システムにおいて、発話末タイミング予測装置１は、第１音声を入力音声として取得し、この第１音声の発話末のタイミングを予測する。発話末タイミング予測装置１は、予測結果を出力信号として出力する。コンテンツ合成装置３１は、第１音声を受け、そのまま出力するとともに、発話末タイミング予測装置１から出力される信号に基づいて、第１音声内の発話末のタイミングで、別に供給される第２音声の信号を合成し、第１音声と、第１音声の発話末の箇所に挿入された第２音声とからなるコンテンツを外部に出力する。一例として、第１音声はテレビ番組（例えば、スポーツ中継番組）等の映像コンテンツ（映像および音声とで構成される）の音声であり、第２音声は当該映像コンテンツに含まれる映像の解説音声である。なお、この解説音声は、元のコンテンツ（映像等）に基づいて自動的に生成されるものであってもよい。本システムによると、コンテンツ合成装置３１は、第２音声を、第１音声の発話末のタイミングで挿入し出力する。これにより、コンテンツ合成装置３１は、第１音声と第２音声との間で時間的な重なりのない（または少ない）合成コンテンツを出力することができる。また、第１音声、第２音声のそれぞれは、人の声に限らず合成音声も含めた組み合わせも考えられる。一例として、人々が集まり、あるいは行き交う場所等（例えば、公共スペースや、店舗内や、施設内等。より具体的には、鉄道の駅や、バスターミナルや、空港や、乗船場や、観光案内所や、美術館あるいは博物館や、ホールや、スポーツ競技施設や、トイレや、喫煙所等。ただし、ここに例示した場所に限定されない。）において、人の肉声による案内と合成音声による案内との両方が行われる場合が多く見られる。そういった状況において、肉声による音声情報（第１音声）の発話末を予測して、比較的緊急度の低い音声情報（第２音声）を発するようにすることもできる。これにより、第１音声と第２音声との時間的な被りを抑制することも可能となる。

図８は、発話末タイミング予測装置１を応用して構築された第２応用システムの構成を示すブロック図である。図示するように、第２応用システムは、発話末タイミング予測装置１と、応答装置３２とを含んで構成される。発話末タイミング予測装置１の機能および動作は、既に説明した通りである。応答装置３２は、外部から入力音声を取得するとともに、入力音声に応じた応答を出力する。この応答は、例えば音声であってもよいし、画像あるいは映像であってもよい。あるいはこの応答は、任意の電気信号等であってもよい。応答装置３２は、入力音声の内容に応じて可変の応答、あるいは入力音声の内容に関わらず一定の応答を出力する。このとき、応答装置３２は、発話末タイミング予測装置１から供給される出力信号が示すタイミングに応じて、応答を出力する。発話末タイミング予測装置１は、入力音声を取得するとともに、すでに説明した動作により、当該入力音声に含まれる声の発話末のタイミングを予測し、そのタイミングを示す出力信号を出力する。つまり、応答装置３２は、発話末タイミング予測装置１と協調動作することにより、入力音声の発話末のタイミングに基づいて、応答を出力することができる。これにより、本システムは、入力音声に含まれる声の発話末のタイミングで応答（音声による応答、またはその他の形態の応答）を返す自動応答システムとして機能することができる。

なお、上述した実施形態における発話末タイミング予測装置やコンテンツ合成装置や応答装置等の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

上記実施形態では、要素算出部２２は、音声の特徴量として、ピッチ周波数ＰｎおよびパワーＷｎを算出したが、音声の他の要素を特徴量として用いてもよい。その場合も、発話末評価値算出部２３は、要素算出部２２によって算出された数値に基づき、発話末評価値を算出する。

以上、この発明の実施形態および変形例について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明は、例えば、音声を含むコンテンツの制作や、音声入力に対する応答システムとして利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。

１発話末タイミング予測装置
２１入力部
２２要素算出部
２３発話末評価値算出部
２４判定部
３１コンテンツ合成装置
３２応答装置

Claims

外部から取得した音声の特徴を表す特徴量を算出する要素算出部と、
前記要素算出部が算出した前記特徴量に基づいて前記音声に含まれる声の発話末を予測するための量である発話末評価値を算出する発話末評価値算出部と、
算出された前記発話末評価値の時間推移に基づいて発話末の到来を予測するとともに発話末が到来すると予測したときに当該予測のタイミングを示す出力信号を出力する判定部と、
を具備する発話末タイミング予測装置。
前記特徴量は、前記音声に含まれる声の基本周波数とパワーとの少なくともいずれか一方を含む、
請求項１に記載の発話末タイミング予測装置。
前記発話末評価値は、前記基本周波数の所定期間長の移動平均値と前記パワーの前記所定期間長の移動平均値とのそれぞれに対して広義単調増加関数値である第１関数値として算出される長期移動平均から、前記基本周波数の前記所定期間長よりは短い期間長である第２期間長の移動平均値と前記パワーの前記第２期間長の移動平均値とのそれぞれに対して広義単調増加関数値である第２関数値として算出される短期移動平均を減じた値であり、
前記判定部は、前記発話末評価値が所定の第１閾値より小さい状態から前記第１閾値より大きい状態に移ったときに発話末が到来すると予測する、
請求項２に記載の発話末タイミング予測装置。
前記発話末評価値は、前記基本周波数の所定期間長の移動平均値と前記パワーの前記所定期間長の移動平均値とのそれぞれに対して広義単調増加関数値である第１関数値として算出される長期移動平均から、前記基本周波数の前記所定期間長よりは短い期間長である第２期間長の移動平均値と前記パワーの前記第２期間長の移動平均値とのそれぞれに対して広義単調増加関数値である第２関数値として算出される短期移動平均を減じた値であり、
前記判定部は、前記発話末評価値が所定の第３閾値より小さい状態から、所定の第２閾値（ただし、第２閾値は前記第３閾値よりも大きい）より大きい状態に移ったときに発話末が到来すると予測する、
請求項２に記載の発話末タイミング予測装置。
コンピューターを、
外部から取得した音声の特徴を表す特徴量を算出する要素算出部と、
前記要素算出部が算出した前記特徴量に基づいて前記音声に含まれる声の発話末を予測するための量である発話末評価値を算出する発話末評価値算出部と、
算出された前記発話末評価値の時間推移に基づいて発話末の到来を予測するとともに発話末が到来すると予測したときに当該予測のタイミングを示す出力信号を出力する判定部と、
を具備する発話末タイミング予測装置、として機能させるためのプログラム。