JP7113719B2 - 発話末タイミング予測装置およびプログラム - Google Patents
発話末タイミング予測装置およびプログラム Download PDFInfo
- Publication number
- JP7113719B2 JP7113719B2 JP2018197605A JP2018197605A JP7113719B2 JP 7113719 B2 JP7113719 B2 JP 7113719B2 JP 2018197605 A JP2018197605 A JP 2018197605A JP 2018197605 A JP2018197605 A JP 2018197605A JP 7113719 B2 JP7113719 B2 JP 7113719B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- utterance
- moving average
- value
- evaluation value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Telephonic Communication Services (AREA)
Description
つまり、特許文献1に記載された技術では、応答タイミングを予測するために、少なくとも音声認識処理を行い、また、音声認識処理の結果である音素列(文字列)に対して必要に応じて形態素解析を行っている。
図1は、本実施形態による発話末タイミング予測装置の概略機能構成を示すブロック図である。図示するように、発話末タイミング予測装置1は、入力部21と、要素算出部22と、発話末評価値算出部23と、判定部24とを含んで構成される。上記の各部は、例えば電子回路を用いて実現される。また、その一形態として、上記の各部が、コンピューターとプログラムとを用いて実現されてもよい。また、発話末タイミング予測装置1は、データを記憶するためのデータ記憶部(不図示)を備える。データ記憶部の構成および使い方についても、後で説明する。
なお、広義単調増加関数の定義は次の通りである。即ち、実関数f(・・・,x,・・・)に関して、定義域に属する任意のx1,x2に関して、x1<x2ならばf(・・・,x1,・・・)≦f(・・・,x2,・・・)である場合に、且つその場合にのみ、関数f()は、xに対して広義単調増加関数である。
例えば、a=0の場合、発話末評価値算出部23は、ピッチ周波数Plに依らず、パワーWlのみに基づいて長期移動平均Lnを算出する。また、b=0の場合、発話末評価値算出部23は、パワーWlに依らず、ピッチ周波数Plのみに基づいて長期移動平均Lnを算出する。aもbも非零である場合には、発話末評価値算出部23は、ピッチ周波数PlとパワーWlの両方に基づいて長期移動平均Lnを算出する。また、c=0の場合、発話末評価値算出部23は、ピッチ周波数Psに依らず、パワーWsのみに基づいて短期移動平均Snを算出する。また、d=0の場合、発話末評価値算出部23は、パワーWsに依らず、ピッチ周波数Psのみに基づいて短期移動平均Snを算出する。cもdも非零である場合には、発話末評価値算出部23は、ピッチ周波数PsとパワーWsの両方に基づいて短期移動平均Snを算出する。
また、発話末評価値算出部23は、長期移動平均Lnや短期移動平均Snを計算する際に、Log(Pl)やWl,Log(Ps)やWsの値が0.0以上且つ1.0以下になるように正規化する。
ここでパラメーターは、主要な要素であるピッチ周波数の係数a,cの値を大きく、パワーの係数b,dは小さい値とする。割合の一例としては、ピッチ周波数:パワーで8:2とする。例えば、ピッチ周波数の最小値が20Hz(log20=1.3)、最大値は600Hz(log600=2.8)とし、入力音声の平均値が80Hz(log80=1.9)とすると、入力音声の平均値を正規化した場合は、0.4となる。一方で、パワーの最小値を-80、最大値を-20、入力音声の平均値を-30とし、正規化した場合、0.83となる。このように通常パワーの方の値が大きくなる傾向も加味して、a,b,c,dを調整する。
また、ピッチ周波数とパワーの比率は影響があるが、長期移動平均、短期移動平均について一方に重みをつける必要はない。
即ち、(a・log(Pl)+b・Wl)の値(第1関数値)は、基本周波数の長期移動平均値Plとパワーの長期移動平均値Wlのそれぞれに対して広義単調増加関数値である。
また、(c・log(Ps)+d・Ws)の値(第2関数値)は、基本周波数の短期移動平均値Psとパワーの短期移動平均値Wsのそれぞれに対して広義単調増加関数値である。
または、変形例として、判定部24は、発話末評価値Cnが所定の第3閾値より小さい状態から、所定の第2閾値(ただし、第2閾値は前記第3閾値よりも大きい)より大きい状態に移ったときに発話末が到来すると予測する。
これら2つの場合について、判定部24による具体的な判定方法については、それぞれ、図4および図5を参照しながら、後で詳しく説明する。
声属性(An)は、その時点における声属性である。前述の通り、要素算出部22が声属性を判定し、その判定結果を当欄に書き込む。
ピッチ周波数(Pn)は、その時点における声のピッチ周波数である。要素算出部22が入力される音声を基にピッチ周波数を算出し、その値を当欄に書き込む。
パワー(Wn)は、その時点における声のパワーである。要素算出部22が入力される音声を基にパワーを算出し、その値を当欄に書き込む。
長期移動平均(Ln)は、その時点から遡った所定期間長の移動平均値である。発話末評価値算出部23が要素算出部22により出力されるピッチ周波数PnおよびパワーWnに基づいて算出し、その値を当欄に書き込む。
短期移動平均(Sn)は、その時点から遡った、長期移動平均よりは短い所定期間長の移動平均値である。発話末評価値算出部23が要素算出部22により出力されるピッチ周波数PnおよびパワーWnに基づいて算出し、その値を当欄に書き込む。
発話末評価値(Cn)は、その時点における発話末評価値である。前述の通り、発話末評価値算出部23が長期移動平均Lnと短期移動平均Snに基づいて算出し発話末評価値を当欄に書き込む。
図3は、発話末評価値算出部23が算出した長期移動平均値Lnと短期移動平均値Snの時間的推移の一例を示すグラフである。このグラフにおける横軸は時刻(フレーム)に対応する。図示するように、長期移動平均値Lnと短期移動平均値Snは、時間の経過とともに変化する。Ln<Snとなる区間もあり、Ln>Snとなる区間もあり、Ln=Snとなるときもある。
発話末評価値Cnに関する所定の第1閾値をTH1とする。Cn<TH1の状態からCn>TH1の状態に移るタイミングで、判定部24は、発話末の到来があることを予測し、発話末の到来を表す信号を出力する。その他のタイミングにおいては、判定部24は、発話末の到来がないと判定する。
例えば、TH1=0としてよい。また、第1閾値TH1を0以外の値としてもよい。
なお、判定部24は、実際の発話末が到来する前に、発話末の到来を検出(予測)する。
図5は、発話末評価値算出部23が算出した発話末評価値Cnの時間的推移の一例を示すグラフである。このグラフにおける横軸は時刻(フレーム)に対応する。また、同図では、第2閾値および第3閾値の、2つの閾値を示している。第2閾値をTH2とし、第3閾値をTH3とする。ただし、TH2>TH3である。この変形例において、判定部24は、これら2つの閾値に基づく判定を行う。図示するグラフでは、時刻TDが到来する前において、Cn<TH3である。時刻TDにおいて、Cn=TH3となる。また、時刻TDより後では、Cn>TH3である。このように、発話末評価値Cnは、時刻TDを境として、第3閾値TH3よりも小さい状態から、第3閾値TH3よりも大きい状態に移る。また、時刻TEが到来する前において、Cn<TH2である。時刻TEにおいて、Cn=TH2となる。また、時刻TEより後では、Cn>TH2である。このように、発話末評価値Cnは、時刻TEを境として、第2閾値TH2よりも小さい状態から、第2閾値TH2よりも大きい状態に移る。
図6は、発話末タイミング予測装置1による処理の手順を示すフローチャートである。発話末タイミング予測装置1は、フレームごとに、ステップS11からS19までの処理を行う。
ステップS11において、発話末タイミング予測装置1は、処理を継続するか否かを判断する。処理を継続する場合(ステップS11:YES)には次のステップS12に進む。処理を継続しない場合(ステップS11:NO)にはステップS11からS19までの処理のループを抜け出し、本フローチャート全体の処理を終了する。
次にステップS13において、要素算出部22は、ステップS12で取得された音声データと、蓄積されていた前のフレームまでのデータとを用いて、音響特徴量を算出する。ここで算出される音響特徴量は、ピッチ周波数(Pn)とパワー(Wn)とを含む。要素算出部22は、算出したピッチ周波数PnおよびパワーWnの値を、前述のデータ記憶部に書き込む。
次にステップS15において、要素算出部22は、ステップS14で判定した声属性がV/B/Fのいずれかであるか否かにより、処理を分岐する。声の属性がV/B/Fのいずれかである場合(ステップS14:YES)には、ステップS17に飛ぶ。声の属性がV/B/Fのいずれでもない(即ち、SまたはPである)場合(ステップS14:NO)には、ステップS16の処理に移る。
次にステップS18において、発話末評価値算出部23は、上記の長期移動平均値Lnと短期移動平均値Snとに基づいて、発話末評価値Cnを算出する。発話末評価値算出部23は、長期移動平均値Ln、短期移動平均値Sn、および算出した発話末評価値Cnを、前述のデータ記憶部に書き込む。
次に、ステップS19において、発話末評価値算出部23は、当該フレームまでの発話末評価値Cnの時系列に基づき、発話末の到来を予測する。この予測の方法については、すでに説明した。発話末評価値算出部23は、予測結果に対応する信号を外部に出力する。出力される信号は、発話末の到来が予測される状況であるか否かを表す信号である。本ステップの処理を終了すると、次のフレームを処理するために、ステップS11に戻る。
また、本実施形態によれば、音声認識処理や形態素解析処理といった複雑で計算量の多い処理を行うことなく、比較的単純な計算(音声の音響的な特徴量の抽出と、それらの特徴量の数値の和積の算出と、数値(閾値を含む)同士の単純な比較等)で、発話末タイミングを予測することができる。
実際に人が発話する声においては、文法的に発話の終了とみなせる箇所であってもその直後に発話が開始されることがあるが、本実施形態による発話末のタイミングの予測方法を用いる場合には、発話が連続しそうな特徴量を有する限りは、発話末タイミング予測装置1は、発話末が到来するという判定をくださない。
図5を用いて説明した判定方法(複数の閾値を用いて、閾値間の幅を持たせる判定方法)を用いる場合には、発話末の過検出を防止ないしは軽減することができる。
次に、発話末タイミング予測装置1の応用例について説明する。
図7は、発話末タイミング予測装置1を応用して構築された第1応用システムの構成を示すブロック図である。図示するように、第1応用システムは、発話末タイミング予測装置1と、コンテンツ合成装置31とを含んで構成される。発話末タイミング予測装置1の機能および動作は、既に説明した通りである。コンテンツ合成装置31は、タイミングに関する入力信号に基づき、複数の音声コンテンツを合成する機能を有する。本システムにおいて、発話末タイミング予測装置1は、第1音声を入力音声として取得し、この第1音声の発話末のタイミングを予測する。発話末タイミング予測装置1は、予測結果を出力信号として出力する。コンテンツ合成装置31は、第1音声を受け、そのまま出力するとともに、発話末タイミング予測装置1から出力される信号に基づいて、第1音声内の発話末のタイミングで、別に供給される第2音声の信号を合成し、第1音声と、第1音声の発話末の箇所に挿入された第2音声とからなるコンテンツを外部に出力する。一例として、第1音声はテレビ番組(例えば、スポーツ中継番組)等の映像コンテンツ(映像および音声とで構成される)の音声であり、第2音声は当該映像コンテンツに含まれる映像の解説音声である。なお、この解説音声は、元のコンテンツ(映像等)に基づいて自動的に生成されるものであってもよい。本システムによると、コンテンツ合成装置31は、第2音声を、第1音声の発話末のタイミングで挿入し出力する。これにより、コンテンツ合成装置31は、第1音声と第2音声との間で時間的な重なりのない(または少ない)合成コンテンツを出力することができる。また、第1音声、第2音声のそれぞれは、人の声に限らず合成音声も含めた組み合わせも考えられる。一例として、人々が集まり、あるいは行き交う場所等(例えば、公共スペースや、店舗内や、施設内等。より具体的には、鉄道の駅や、バスターミナルや、空港や、乗船場や、観光案内所や、美術館あるいは博物館や、ホールや、スポーツ競技施設や、トイレや、喫煙所等。ただし、ここに例示した場所に限定されない。)において、人の肉声による案内と合成音声による案内との両方が行われる場合が多く見られる。そういった状況において、肉声による音声情報(第1音声)の発話末を予測して、比較的緊急度の低い音声情報(第2音声)を発するようにすることもできる。これにより、第1音声と第2音声との時間的な被りを抑制することも可能となる。
21 入力部
22 要素算出部
23 発話末評価値算出部
24 判定部
31 コンテンツ合成装置
32 応答装置
Claims (5)
- 外部から取得した音声の特徴を表す特徴量を算出する要素算出部と、
前記要素算出部が算出した前記特徴量に基づいて前記音声に含まれる声の発話末を予測するための量である発話末評価値を算出する発話末評価値算出部と、
算出された前記発話末評価値の時間推移に基づいて発話末の到来を予測するとともに発話末が到来すると予測したときに当該予測のタイミングを示す出力信号を出力する判定部と、
を具備する発話末タイミング予測装置。 - 前記特徴量は、前記音声に含まれる声の基本周波数とパワーとの少なくともいずれか一方を含む、
請求項1に記載の発話末タイミング予測装置。 - 前記発話末評価値は、前記基本周波数の所定期間長の移動平均値と前記パワーの前記所定期間長の移動平均値とのそれぞれに対して広義単調増加関数値である第1関数値として算出される長期移動平均から、前記基本周波数の前記所定期間長よりは短い期間長である第2期間長の移動平均値と前記パワーの前記第2期間長の移動平均値とのそれぞれに対して広義単調増加関数値である第2関数値として算出される短期移動平均を減じた値であり、
前記判定部は、前記発話末評価値が所定の第1閾値より小さい状態から前記第1閾値より大きい状態に移ったときに発話末が到来すると予測する、
請求項2に記載の発話末タイミング予測装置。 - 前記発話末評価値は、前記基本周波数の所定期間長の移動平均値と前記パワーの前記所定期間長の移動平均値とのそれぞれに対して広義単調増加関数値である第1関数値として算出される長期移動平均から、前記基本周波数の前記所定期間長よりは短い期間長である第2期間長の移動平均値と前記パワーの前記第2期間長の移動平均値とのそれぞれに対して広義単調増加関数値である第2関数値として算出される短期移動平均を減じた値であり、
前記判定部は、前記発話末評価値が所定の第3閾値より小さい状態から、所定の第2閾値(ただし、第2閾値は前記第3閾値よりも大きい)より大きい状態に移ったときに発話末が到来すると予測する、
請求項2に記載の発話末タイミング予測装置。 - コンピューターを、
外部から取得した音声の特徴を表す特徴量を算出する要素算出部と、
前記要素算出部が算出した前記特徴量に基づいて前記音声に含まれる声の発話末を予測するための量である発話末評価値を算出する発話末評価値算出部と、
算出された前記発話末評価値の時間推移に基づいて発話末の到来を予測するとともに発話末が到来すると予測したときに当該予測のタイミングを示す出力信号を出力する判定部と、
を具備する発話末タイミング予測装置、として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018197605A JP7113719B2 (ja) | 2018-10-19 | 2018-10-19 | 発話末タイミング予測装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018197605A JP7113719B2 (ja) | 2018-10-19 | 2018-10-19 | 発話末タイミング予測装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020064248A JP2020064248A (ja) | 2020-04-23 |
JP7113719B2 true JP7113719B2 (ja) | 2022-08-05 |
Family
ID=70387205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018197605A Active JP7113719B2 (ja) | 2018-10-19 | 2018-10-19 | 発話末タイミング予測装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7113719B2 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000250568A (ja) | 1999-02-26 | 2000-09-14 | Kobe Steel Ltd | 音声区間検出装置 |
JP2000330581A (ja) | 1999-05-18 | 2000-11-30 | Hyundai Electronics Ind Co Ltd | 音声のピッチ差値を利用した音声ファイルの終点検出方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3789503B2 (ja) * | 1994-12-22 | 2006-06-28 | ソニー株式会社 | 音声処理装置 |
-
2018
- 2018-10-19 JP JP2018197605A patent/JP7113719B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000250568A (ja) | 1999-02-26 | 2000-09-14 | Kobe Steel Ltd | 音声区間検出装置 |
JP2000330581A (ja) | 1999-05-18 | 2000-11-30 | Hyundai Electronics Ind Co Ltd | 音声のピッチ差値を利用した音声ファイルの終点検出方法 |
Non-Patent Citations (1)
Title |
---|
藤江 真也 他,音声対話システムのためのユーザ発話終了タイミングの逐次予測,日本音響学会 2018年 春季研究発表会,2018年03月15日,p. 167-168 |
Also Published As
Publication number | Publication date |
---|---|
JP2020064248A (ja) | 2020-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6171617B2 (ja) | 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム | |
KR101942521B1 (ko) | 음성 엔드포인팅 | |
CN107810529B (zh) | 语言模型语音端点确定 | |
JP5381988B2 (ja) | 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム | |
JP2018120212A (ja) | 音声認識方法及び装置 | |
JP6759898B2 (ja) | 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム | |
JPH06332492A (ja) | 音声検出方法および検出装置 | |
Bahat et al. | Self-content-based audio inpainting | |
US7120575B2 (en) | Method and system for the automatic segmentation of an audio stream into semantic or syntactic units | |
EP3739583B1 (en) | Dialog device, dialog method, and dialog computer program | |
JP2015068897A (ja) | 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム | |
JP6028556B2 (ja) | 対話制御方法及び対話制御用コンピュータプログラム | |
JP2009251199A (ja) | 音声合成装置、方法及びプログラム | |
US10446173B2 (en) | Apparatus, method for detecting speech production interval, and non-transitory computer-readable storage medium for storing speech production interval detection computer program | |
Gowda et al. | Quasi-closed phase forward-backward linear prediction analysis of speech for accurate formant detection and estimation | |
JP6487650B2 (ja) | 音声認識装置及びプログラム | |
JP7113719B2 (ja) | 発話末タイミング予測装置およびプログラム | |
JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
JP6183147B2 (ja) | 情報処理装置、プログラム、及び方法 | |
WO2017085815A1 (ja) | 困惑状態判定装置、困惑状態判定方法、及びプログラム | |
JP2014186347A (ja) | 話者速度変換システムおよびその方法ならびに速度変換装置 | |
KR101959080B1 (ko) | 어학 따라말하기의 묵음구간 기반의 어학 퍼포먼스 평가 장치 및 방법 | |
KR20210081166A (ko) | 다국어 음성 환경에서의 언어 식별 장치 및 방법 | |
Hjalmarsson et al. | Measuring final lengthening for speaker-change prediction | |
JP6790851B2 (ja) | 音声処理プログラム、音声処理方法、及び音声処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181115 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210916 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220613 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220628 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220726 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7113719 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |