JP6759927B2

JP6759927B2 - 発話評価装置、発話評価方法、および発話評価プログラム

Info

Publication number: JP6759927B2
Application number: JP2016186324A
Authority: JP
Inventors: 猛大谷; 太郎外川; 紗友梨香村
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-09-23
Filing date: 2016-09-23
Publication date: 2020-09-23
Anticipated expiration: 2036-09-23
Also published as: EP3300079A1; JP2018049246A; US20180090156A1; US10381023B2

Description

本発明は、発話評価装置、発話評価方法、および発話評価プログラムに関する。

電話でのオペレーション業務や銀行等での窓口業務など、発話内容が企業のイメージに大きく影響する場合、発話内容の品質向上のため、定量的な発話評価が重要となる。

発話評価を定量的に行うための指標の一つに、発話音声の抑揚がある。発話音声の抑揚の大きさは、音声の高さの時間変化として定量化することが出来る。

音声の高さの時間変化を抽出する技術として、ピッチ推定技術がある。ピッチ推定技術は、音声波形における１つの区間と他の区間との相関関係に基づき、音声波形を周波数領域に変換した場合の音声スペクトルのピークを検出する技術である。ピッチ推定技術として、例えば非特許文献１が開示されている。

特開２００２−９１４８２号公報特開２０１３−１５７６６６号公報特開２００７−２８６３７７号公報特開２００８−１５２１２号公報特開２００７−４００１号公報

森勢将雅著「知識ベース」電子情報通信学会、2010年、p.1-5

しかしながら、発話者からマイクまでの音声伝搬経路の影響やマイクの周波数利得の影響等により、マイクで受信される音声波形に歪が生じる場合がある。音声波形に歪が生じると、ピッチ推定技術により区間ごとの相関関係を比較した際に、基本ピッチ周波数ではなく、基本ピッチ周波数の整数倍の周波数での相関が高くなる場合がある。相関が高い整数倍の周波数を基本ピッチ周波数と誤判定することにより、実際には抑揚の小さい音声を抑揚の大きい音声と誤認定する。

開示の技術は、音声波形に歪が生じた場合であっても、基本ピッチ周波数の変化量を精度良く判定することを目的とする。

上述した課題を解決し、目的を達成するため、発話評価装置は、第１音声信号を周波数変換した第１入力スペクトルを生成すると共に第１音声信号を受信する前の第２音声信号を周波数変換した第２入力スペクトルを生成する周波数変換部と、第２入力スペクトルの周波数をあらかじめ設定した変化率に基づき変換した、加工スペクトルを生成するスペクトル変換部と、第１入力スペクトルと加工スペクトルとの相関値を算出する相関算出部と、変化率および相関値に基づき、第１音声信号から第２音声信号へのピッチ周波数の変化量を判定する制御部とを有する。

本件の開示する発話評価装置および発話評価方法の一つの態様によれば、音声波形に歪が生じた場合であっても、基本ピッチ周波数の変化量を精度良く判定することができるという効果を奏する。

図１は、第１の実施形態における、発話評価装置の利用形態の一例を示す機能ブロック図である。図２は、第２の実施形態における、発話評価装置の利用形態の一例を示す機能ブロック図である。図３は、発話評価装置２０ａの発話評価処理フローである。図４は、発話評価装置の実装例である。図５は、第３の実施形態における、発話評価装置の利用形態の一例を示す機能ブロック図である。図６は、発話評価装置２０ｂの発話評価処理フローである。図７は、発話評価処理を実行するためのコンピュータのハードウェアブロック図である。図８は、発話評価処理を視覚的に説明するための図である。

以下、本発明の実施形態について具体的に説明する。

（第１の実施形態）
図１は、第１の実施形態における、発話評価装置の利用形態の一例を示す機能ブロック図である。図１の機能ブロック図において、発話評価装置１０は、周波数分析部１１、スペクトル変換部１２、相関算出部１３、制御部１４を有する。発話評価装置１０は、入力音声を分析し、分析結果を変化量として出力する。

周波数分析部１１は、入力音声を周波数分析し、入力スペクトルを算出する。スペクトル変換部１２は、算出された入力スペクトルの周波数をあらかじめ設定した暫定変化量に基づいて変換し、加工スペクトルを算出する。暫定変化量は、後述する制御部１４により設定される。発話評価は、入力音声をフレームと呼ぶ一定区間に区切り、フレームごとに行う。スペクトル変換部１２は、周波数分析部１１から出力される入力スペクトルに対応するフレームよりも前のフレームに対応する加工スペクトルを出力する。スペクトル変換部１２は変換前の入力スペクトルを一定期間保持するための記憶部を有してもよい。

相関算出部１３は、周波数分析部１１から出力された入力スペクトルと、スペクトル変換部１２から出力された加工スペクトルとの相関を算出する。相関算出部１３は、算出した相関値を制御部１４に出力する。制御部１４は、暫定変化量および相関値に基づいて変化量を判定する。制御部１４は、算出された相関値および入力スペクトルに基づき修正した暫定変化量をスペクトル変換部１２に出力する。また制御部１４は、相関算出部１３から受信した相関値を一定期間保持する記憶部を有する。

スペクトル変換部１２は、記憶部に保持した入力スペクトルに対し、修正後の暫定変化量に基づいて加工スペクトルを算出する。相関算出部１３は、入力スペクトルと修正後の加工スペクトルとの相関値を算出し、制御部１４へ出力する。制御部１４は、算出された相関値を記憶すると共に暫定変化量を修正し、スペクトル変換部１２へ出力する。

制御部１４は、暫定変化量を修正しながら算出された複数の相関値を参照し、最も相関値の大きい場合に対応する暫定変化量を変化量として出力する。

以上の通り発明評価装置１０は、暫定変化量を修正しながら入力スペクトルと加工スペクトルとの相関値に基づき、変化量を判定することが出来る。これにより本実施形態によれば、音声の基本ピッチ周波数そのものを求めることなく、基本ピッチの変化量を直接的に求めることが可能となる。したがって、本実施形態によれば、音声波形に歪みが生じる場合であっても、基本ピッチの変化量を精度良く求めることが可能となる。

（第２の実施形態）
図２は、第２の実施形態における、発話評価装置の利用形態の一例を示す機能ブロック図である。図２の機能ブロック図において発話評価装置２０ａは、線形予測分析部２１、周波数分析部２２、自己相関算出部２３、スペクトル保持部２４、スペクトル変換部２５、相関算出部２６、制御部２７、評価部２８を有する。発話評価装置２０ａはFPGA(field-programmable gate array)などのプログラマブルロジックデバイスを用いて実現してもよいし、発話評価装置２０ａの各機能を処理するための発話評価プログラムをCPU(Central Processing Unit)で実行することにより実現してもよい。

自己相関算出部２３は、入力信号の自己相関を算出し、自己相関があらかじめ設定した閾値以上の場合に、自己相関を算出したフレームでの変化量の推定処理を制御部２７に実行させるためのイネーブル信号を出力する。発話評価装置２０ａは、自己相関算出部２３から出力されるイネーブル信号を線形予測分析部２１に入力することにより、イネーブル信号が出力された場合にのみ発話評価処理を実行するようにしてもよい。

（数１）は、入力信号の自己相関Arを算出するための式である。（数１）において、xn(t)は入力信号、nはフレーム番号、tは時刻、Nは自己相関の次数、iはカウンタ、Mは自己相関の探索範囲を示す。自己相関算出部２３は、（数１）に基づきフレームごとの自己相関Arを算出し、Arがあらかじめ設定した閾値以上の場合に、イネーブル信号を出力する。
（数１）

線形予測分析部２１は、入力音声について線形予測分析を行い、予測係数を求めることにより残差信号を算出する。線形予測分析部２１は、算出した残差信号を出力する。（数２）は、残差信号x'n(t)の算出式である。（数２）においてαiは予測係数を示す。線形予測分析部２１は線形予測分析により予測係数αiを算出し、（数２）に基づき算出した残差信号x'n(t)を出力する。
（数２）

周波数分析部２２は、線形予測分析部２１から受信した残差信号x'n(t)に対してFFT(Fast Fourier Transform)等の周波数変換処理を行い、入力スペクトルXn(f)を求める。周波数分析部２２は、算出した入力スペクトルXn(f)を出力する。

スペクトル保持部２４は、周波数分析部２２から受信した1フレーム前の入力スペクトルXn-1(f)を一時保持し出力する。スペクトル変換部２５は、スペクトル保持部２４から受信した入力スペクトルXn-1(f)をスペクトル変換処理する。スペクトル変換部２５は、スペクトル変換のために設定した暫定変化量ratioを（数３）とすると、暫定変化量に基づく加工スペクトルを（数４）により算出する。暫定変化量は、制御部２７から受信する。スペクトル変換部２５は、暫定変化量に基づき算出した加工スペクトルを出力する。（数３）においてjはループカウンタであり、jの値をインクリメントしながら、加工スペクトルの算出および以下の相関係数算出処理を繰り返す。また（数３）において２の累乗根としているのは、入力音声の1オクターブ程度の変化量を検出するためである。ここで、暫定変化量は変換前のスペクトルと変換後のスペクトルの周波数比率を示しているため、暫定変化率と表現してもよい。
（数３）

（数４）

相関算出部２６は、周波数分析部２２から受信したnフレーム目の入力スペクトルと、n-1フレーム目の入力スペクトルを暫定変化量に基づき変換した加工スペクトルとの相関係数Rを（数５）に基づき算出する。（数５）において、変数kは入力スペクトルおよび加工スペクトルにおける各周波数成分である。
（数５）

制御部２７は相関算出部２６から受信した相関係数Rを記憶する。制御部２７は受信した相関係数と、記憶する相関係数Rとを比較する。制御部２７は、受信した相関係数が大きい場合には、当該受信した相関係数により既に記憶されている相関係数Rを上書きすると共に、暫定変化量を更新し、スペクトル変換部２５へ出力する。スペクトル変換部２５は、受信した更新後の暫定変化量に基づき加工スペクトルを算出する。相関算出部２６は、新たに算出した加工スペクトルと入力スペクトルとの相関係数を算出し、制御部２７へ出力する。制御部２７は、暫定変化量ratioが2よりも大きくなった場合に上記相関係数算出処理を終了し、記憶する相関係数Rおよび記憶する相関係数Rに対応する暫定変化量を確定変化量として出力する。なお制御部２７は、記憶する相関係数および暫定変化量の初期値をそれぞれ0とする。

評価部２８は、制御部２７により確定された確定変化量に基づき、発話印象を定量的に評価する。評価部２８は、nフレーム分の確定変化量を受信し、（数６）に基づき確定変化量の平均値Anを算出する。
（数６）

評価部２８にはあらかじめ発話印象を評価するための閾値TH1およびTH2が設定されている。評価部２８は（数６）により算出した確定変化量の平均値および閾値を用いて、（数７）に基づき発話印象を評価する。（数７）において、例えば"good"を1、"bad"を-1、"mid"を0と定義する。評価部２８は（数７）に基づく評価結果を発話評価装置２０ａの外部へ出力する。
（数７）

以上の通り発話評価装置２０ａは、入力音声に対し、音声波形に歪が生じた場合であっても、相関係数を算出することにより基本ピッチ周波数の変化量を高い精度で正確に判定することができる。また発話評価装置２０ａは、精度の高い変化量の判定結果に基づき、より正確な発話評価結果を出力することが出来る。

図３は、発話評価装置２０ａの発話評価処理フローである。図３の発話評価処理フローを実現するための発話評価プログラムは例えばPC(Personal Computer)の記憶装置に記憶されており、PCに実装されたCPUが記憶装置から発話評価プログラムを読み出して実行してもよい。

発話評価装置２０ａは入力信号の自己相関を算出する（ステップＳ１１）。発話評価装置２０ａは、算出した自己相関があらかじめ設定した閾値以上の場合に（ステップＳ１２：ＹＥＳ）、ステップＳ１３以降の処理フローを実行する。一方、発話評価装置２０ａは、算出した自己相関があらかじめ設定した閾値よりも小さい場合（ステップＳ１２：ＮＯ）、ステップＳ２１のフレーム修了判定処理を実行する。

発話評価装置２０ａは、入力信号に対し線形予測分析を行う（ステップＳ１３）。発話評価装置２０ａは、入力信号をフーリエ変換等により周波数変換し、入力スペクトルを得る（ステップＳ１４）。

発話評価装置２０ａは、変化量を探索するための暫定変化量を設定する（ステップＳ１５）。発話評価装置２０ａは、設定した暫定変化量に基づき、変化前の入力スペクトルをスペクトル変換し、加工スペクトルを算出する（ステップＳ１６）。発話評価装置２０ａは、変化後の入力信号に基づく入力スペクトルと、加工スペクトルの相関を算出する（ステップＳ１７）。発話評価装置２０ａは、設定した暫定変化量を更新する（ステップＳ１８）。発話評価装置２０ａは、更新した暫定変化量が、あらかじめ設定した探索範囲内にあれば（ステップＳ１９：ＹＥＳ）、ステップＳ１５以降の処理を繰り返す。一方、発話評価装置２０ａは、更新した暫定変化量が探索範囲内に無ければ（ステップＳ１９：ＮＯ）、探索した変化量に基づき発話印象評価を行う（ステップＳ２０）。発話評価装置２０ａは、入力音声のすべてのフレームについて自己相関演算が終了していなければ（ステップＳ２１：ＮＯ）、ステップＳ１１の自己相関算出処理を行う。一方、発話評価装置２０ａは、すべてのフレームについて自己相関演算が終了した場合には（ステップＳ２１：ＹＥＳ）、演算処理を終了する。

以上の通り発話評価装置２０ａは、自己相関が一定値以上の場合に、暫定変化量を更新しながら入力スペクトルと加工スペクトルの相関値を算出することにより、基本ピッチ周波数の変化量を精度よく算出することが出来る。また発話評価装置２０ａは、フレームごとに発話印象評価を行うことにより、発話評価結果をリアルタイムに出力することが出来る。

図４は、発話評価装置の実装例である。図４において、発話評価装置２０ａは通信端末３０に実装されている。通信端末３０は、公衆網３６を介して他の通信端末３７と音声通信を行っている。

通信端末３０は、受信部３１、送信部３４、復号化部３２、符号化部３５、演算処理装置１５、記憶部１６、ディスプレイ３３、スピーカー３８、マイク３９を有する。

受信部３１は、他の通信端末３７から送信された信号を受信しデジタル信号を出力する。復号化部３２は、受信部３１から出力されたデジタル信号を復号化し、音声信号を出力する。ディスプレイ３３は、演算処理装置１５から受信した信号に基づき情報を画面に表示する。スピーカー３８は、演算処理装置１５から受信した音声信号を増幅し出力する。マイク３９は発話音声を電気信号に変換し、演算処理装置１５に出力する。

演算処理装置１５は、記憶部１６に記憶された発話評価処理を実行するためのプログラムを読出し、発話評価装置としての機能を実現する。演算処理装置１５は、復号化部３２から出力された音声信号に対し、発話評価処理を実行する。演算処理装置１５は、発話評価結果をディスプレイ３３に送信する。演算処理装置１５は、復号化部３２から受信した音声信号をスピーカー３８へ出力する。演算処理装置１５は、マイク３９から受信した音声信号を符号化部３５へ出力する。演算処理装置１５は、マイク３９から受信した音声信号に対し、発話評価処理を実行してもよい。演算処理装置１５は、発話評価結果を記憶部１６に記録してもよい。

符号化部３５は、演算処理装置１５から受信した音声信号を符号化し出力する。送信部３４は、符号化部３５から受信した符号化された音声信号を通信端末３７へ送信する。

以上の通り通信端末３０は、発話評価処理を実装することにより、他の通信端末から受信した音声信号や自身の発話した音声信号について発話評価を行うことが出来る。

（第３の実施形態）
図５は、第３の実施形態における、発話評価装置の利用形態の一例を示す機能ブロック図である。図５の機能ブロック図において発話評価装置２０ｂは、ＦＦＴ部５１、判定部５２、スペクトル保持部５３、スペクトル変換部５４、相関算出部５５、制御部５６、評価部５７を有する。発話評価装置２０ｂはFPGA(field-programmable gate array)などのプログラマブルロジックデバイスを用いて実現してもよいし、発話評価装置２０ｂの各機能を処理するための発話評価プログラムをCPU(Central Processing Unit)で実行することにより実現してもよい。

ＦＦＴ部５１は、入力音声xn(t)に対しFFT等の周波数変換処理を行い、音声スペクトルXn(f)を求める。判定部５２は、音声スペクトルXn(f)に対し（数８）に基づきパワースペクトルPn(f)を算出する。
（数８）

さらに判定部５２は、算出したパワースペクトルPn(f)を用いて、（数９）に基づきパワースペクトルの凹凸度Dnを算出する。なお（数９）においてNは、FFTポイント数を２で割った値である。（数９）より、凹凸度Dnの値は、周波数ごとに隣接するパワースペクトルの値P(i)とP(i-1)との差分が大きいほど、大きな値となる。
（数９）

判定部５２は、あらかじめ設定された閾値を有している。判定部５２は、算出した凹凸度Dnと閾値との大小関係を比較し、凹凸度Dnが閾値よりも大きい場合に音声スペクトルを算出したフレームでの変化量の推定処理を制御部５６に実行させるためのイネーブル信号を出力する。発話評価装置２０ｂは、判定部５２から出力されるイネーブル信号を相関算出部５５およびスペクトル保持部５３に入力することにより、イネーブル信号が出力された場合にのみ、発話評価処理に必要な演算を実行するようにしてもよい。

スペクトル保持部５３は、FFT部５１により算出された音声スペクトルを保持すると共に、保持した音声スペクトルを出力する。スペクトル変換部５４は、制御部５６から受信した暫定変化量に基づきスペクトル保持部５３から受信した音声スペクトルを変換し、加工スペクトルを出力する。音声スペクトルから加工スペクトルへの変換は、第２の実施形態における（数４）を用いて行う。また、暫定変化量も第２の実施形態と同様に（数３）を用いて算出する。

相関算出部５５は、FFT部５１から出力された音声スペクトルと、スペクトル変換部５４から出力された加工スペクトルとの相関係数Rを算出する。相関算出部５５は、第２の実施形態における（数５）を用いて相関係数Rを算出する。

制御部５６は相関算出部５５から受信した相関係数Rを記憶する。制御部５６は受信した相関係数と、記憶する相関係数Rとを比較する。制御部５６は、受信した相関係数が大きい場合には、当該受信した相関係数により既に記憶されている相関係数Rを上書きすると共に、暫定変化量を更新し、スペクトル変換部５４へ出力する。スペクトル変換部５４は、受信した更新後の暫定変化量に基づき加工スペクトルを算出する。相関算出部５５は、新たに算出した加工スペクトルと入力スペクトルとの相関係数を算出し、制御部５６へ出力する。制御部５６は、暫定変化量ratioが2よりも大きくなった場合に上記相関係数算出処理を終了し、記憶する相関係数Rおよび記憶する相関係数Rに対応する暫定変化量を確定変化量として出力する。なお制御部５６は、記憶する相関係数および暫定変化量の初期値をそれぞれ0とする。暫定変化量Ynの算出および更新は、（数１０）に基づき行う。
（数１０）

評価部５７は、制御部５６により確定された確定変化量に基づき、発話印象を定量的に評価する。評価部５７は、nフレーム分の確定変化量を受信し、（数１１）に基づき確定変化量の絶対値の時間平均値Ｓを算出する。評価部５７は、算出したＳおよび（数１２）に基づき発話印象IMを算出する。評価部５７は例えば、複数フレーム分の確定変化量を記録することが出来る記憶部を有する。
（数１１）

（数１２）

以上の通り発話評価装置２０ｂは、入力音声に対し、音声波形に歪が生じた場合であっても、相関係数を算出することにより基本ピッチ周波数の変化量を高い精度で正確に判定することができる。また発話評価装置２０ｂは、精度の高い変化量の判定結果に基づき、より正確な発話評価結果を出力することが出来る。

図６は、発話評価装置２０ｂの発話評価処理フローである。図３の発話評価処理フローを実現するための発話評価プログラムは例えばPC(Personal Computer)の記憶装置に記憶されており、PCに実装されたCPUが記憶装置から発話評価プログラムを読み出して実行してもよい。

発話評価装置２０ｂは入力信号に対しFFT等の周波数変換処理を行い、入力スペクトルを算出する（ステップＳ３１）。発話評価装置２０ｂは、算出した入力スペクトルに基づきパワースペクトルを算出し、算出したパワースペクトルの凹凸度を算出する（ステップＳ３２）。発話評価装置２０ｂは、算出した凹凸度があらかじめ設定した閾値以上の場合（ステップＳ３３：ＹＥＳ）、ステップＳ３４以降の処理フローを実行する。一方、発話評価装置２０ｂは、算出した凹凸度があらかじめ設定した閾値よりも小さい場合（ステップＳ３３：ＮＯ）、ステップＳ３９の処理に移行する。

発話評価装置２０ｂは、変化量を探索するための暫定変化量を設定する（ステップＳ３４）。発話評価装置２０ｂは、設定した暫定変化量に基づき、変化前の入力スペクトルをスペクトル変換し、加工スペクトルを算出する（ステップＳ３５）。発話評価装置２０ｂは、変化後の入力信号に基づく入力スペクトルと、加工スペクトルの相関を算出する（ステップＳ３６）。発話評価装置２０ｂは、設定した暫定変化量を更新する（ステップＳ３７）。発話評価装置２０ｂは、更新した暫定変化量が、あらかじめ設定した探索範囲内にあれば（ステップＳ３８：ＹＥＳ）、ステップＳ３４以降の処理を繰り返す。一方、発話評価装置２０ｂは、更新した暫定変化量が探索範囲内に無ければ（ステップＳ３８：ＮＯ）、次のフレームの有無の判定に移行する（ステップＳ３９）。発話評価装置２０ｂは、入力音声のすべてのフレームについて凹凸度算出が終了していなければ（ステップＳ３９：ＮＯ）、ステップＳ３１のＦＦＴ等の周波数変換処理を行う。一方、発話評価装置２０ｂは、すべてのフレームについて凹凸度算出が終了した場合には（ステップＳ３９：ＹＥＳ）、次のフレームの有無の判定処理を終了する。

発話評価装置２０ｂは、複数時刻の変化量の統計量に基づいて発話印象評価を実行する（ステップＳ４０）。本実施例において、発話評価装置２０ｂは、（数１０）および（数１１）に示す通り、複数フレームにおける変化量の平均値に基づいて、発話印象評価を実行する。複数フレームにおける変化量の平均値を求めることにより、発話評価装置２０ｂは、一定時間内における発話印象を統計的に評価することが出来る。

以上の通り発話評価装置２０ｂは、凹凸度が一定値以上の場合に、暫定変化量を更新しながら入力スペクトルと加工スペクトルの相関値を算出することにより、変化量を精度よく算出することが出来る。

図７は、発話評価処理を実行するためのコンピュータのハードウェアブロック図である。図７において、コンピュータ６０は、表示装置６１、ＣＰＵ６２、記憶装置６３を有する。

表示装置６１は、例えばディスプレイであり、発話評価結果を表示する。ＣＰＵ６２は、記憶装置６３に記憶されたプログラムを実行するための演算処理装置である。記憶装置６３はHDD(Hard Disk Drive)、ROM(Read Only Memory)、RAM(Random Access Memory)等のデータやプログラム等を記憶するための装置である。

記憶装置６３は、発話評価プログラム６４、音声データ６５、評価データ６６を有する。発話評価プログラム６４は、ＣＰＵ６２に発話評価処理を実行させるためのプログラムである。ＣＰＵ６２は記憶部６３から発話評価プログラム６４を読出し実行することで、発話評価処理を実現する。音声データ６５は、発話評価処理対象の音声データである。評価データ６６は音声データ６５を発話評価処理した評価結果を記録したデータである。

ＣＰＵ６２は記憶装置６３から発話評価プログラム６４を読出し実行することで、発話評価装置として機能する。ＣＰＵ６２は、記憶装置６３から音声データ６５を読出し、発話評価処理を実行する。ＣＰＵ６２は、音声データ６５に対し実行した発話評価処理結果を評価データ６６として記憶装置６３に書き込む。ＣＰＵ６２は、記憶装置６３に書き込んだ評価データ６６を読出し、表示装置６１に表示させる。

以上の通りコンピュータ６０は、ＣＰＵ６２で発話評価プログラム６４を実行することにより、発話評価装置として機能することが出来る。また、発話評価装置として図６における発話評価装置２０ｂを実装することにより、図７のように記憶装置６３に記録された音声データ６５を総括的に評価することが出来る。

図８は、発話評価処理を視覚的に説明するための図である。図８において、入力スペクトル７０は、評価対象となる入力音声の、ピッチが変化する前の音声を周波数変換した周波数スペクトルである。発話評価装置は、暫定変化量に基づき、入力スペクトル７０の周波数をα倍し、加工スペクトル７１を生成する。

入力スペクトル７２は、評価対象となる入力音声の、ピッチが変化したあとの音声を周波数変換した周波数スペクトルである。発話評価装置は、暫定変化量αの値を変えながら、加工スペクトル７１と入力スペクトル７２の相関値を算出し、相関値が最も大きい場合の暫定変化量を評価対象となる入力音声の変化量として記憶する。

以上の通り発話評価装置は、暫定変化量を更新しながら入力スペクトルと加工スペクトルの相関値を算出することにより、変化量を精度よく算出することが出来る。

なお、前述した発話評価処理をコンピュータに実行させるコンピュータプログラム、およびそのプログラムを記録した、非一時的なコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここで、非一時的なコンピュータ読み取り可能な記録媒体は、例えばＳＤメモリカードなどのメモリカードである。なお、前記コンピュータプログラムは、前記記録媒体に記録されたものに限られず、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。

１０、２０ａ、２０ｂ：発話評価装置
１１：周波数分析部
１２：スペクトル変換部
１３：相関算出部
１４：制御部
３０、３７：通信端末
３６：公衆網
１５：演算処理装置
６０：コンピュータ
６１：表示装置
６２：ＣＰＵ
６３：記憶装置
６４：発話評価プログラム
６５：音声データ
６６：評価データ

Claims

第１期間の音声信号である第１音声信号を周波数変換した第１入力スペクトルを生成すると共に、前記第１期間より前の第２期間の前記音声信号である第２音声信号を周波数変換した第２入力スペクトルを生成する周波数変換部と、
前記第２入力スペクトルの周波数をあらかじめ設定した変化率に基づき変換した、加工スペクトルを生成するスペクトル変換部と、
前記第１入力スペクトルと前記加工スペクトルとの相関値を算出する相関算出部と、
前記第１入力スペクトルに基づき、パワースペクトルの凹凸度を算出する算出部と、
前記変化率および前記相関値に基づき、前記第１音声信号から前記第２音声信号へのピッチ周波数の変化量を判定する制御部とを有し、
前記制御部は、前記凹凸度が予め設定した閾値以上の場合に、前記変化量を判定する、
発話評価装置。
前記スペクトル変換部は、複数の前記変化率に基づき複数の加工スペクトルを生成し、
前記相関算出部は、前記第１入力スペクトルと前記複数の加工スペクトルとの相関値をそれぞれ算出し、
前記制御部は、複数の前記変化率のうち前記相関値が最も大きい前記変化率に基づき前記変化量を判定する、請求項１に記載の発話評価装置。
前記スペクトル変換部は、前記変化率を０．５倍から２倍までの間で設定する、請求項１に記載の発話評価装置。
前記第１音声信号を線形予測分析し第１残差信号を生成すると共に前記第２音声信号を線形予測分析し第２残差信号を生成する線形予測分析部をさらに有し、
前記周波数変換部は、前記第１残差信号および前記第２残差信号を周波数分析し、前記第１入力スペクトルおよび前記第２入力スペクトルを算出する、
請求項１に記載の発話評価装置。
前記変化量に基づき発話印象を判定する評価部をさらに有する、請求項１に記載の発話評価装置。
前記評価部は、複数時刻における前記変化量の統計量に基づき発話印象を評価する、請求項５に記載の発話評価装置。
発話評価処理を実行する発話評価装置の発話評価方法であって、前記発話評価装置が、
第１音声信号を周波数変換した第１入力スペクトルを生成すると共に前記第１音声信号を受信する前の第２音声信号を周波数変換した第２入力スペクトルを生成し、
前記第２入力スペクトルの周波数をあらかじめ設定した変化率に基づき変換した、加工スペクトルを生成し、
前記第１入力スペクトルと前記加工スペクトルとの相関値を算出し、
前記第１入力スペクトルに基づき、パワースペクトルの凹凸度を算出し、
前記凹凸度が予め設定した閾値以上の場合に、前記変化率および前記相関値に基づき、前記第１音声信号から前記第２音声信号への変化量を判定する
処理を実行する、発話評価装置の発話評価方法。
発話評価処理を実行する発話評価装置の発話評価プログラムであって、前記発話評価装置に、
第１音声信号を周波数変換した第１入力スペクトルを生成すると共に前記第１音声信号を受信する前の第２音声信号を周波数変換した第２入力スペクトルを生成し、
前記第２入力スペクトルの周波数をあらかじめ設定した変化率に基づき変換した、加工スペクトルを生成し、
前記第１入力スペクトルと前記加工スペクトルとの相関値を算出し、
前記第１入力スペクトルに基づき、パワースペクトルの凹凸度を算出し、
前記凹凸度が予め設定した閾値以上の場合に、前記変化率および前記相関値に基づき、前記第１音声信号から前記第２音声信号への変化量を判定する
処理を実行させる、発話評価装置の発話評価プログラム。