JP6759927B2 - 発話評価装置、発話評価方法、および発話評価プログラム - Google Patents

発話評価装置、発話評価方法、および発話評価プログラム Download PDF

Info

Publication number
JP6759927B2
JP6759927B2 JP2016186324A JP2016186324A JP6759927B2 JP 6759927 B2 JP6759927 B2 JP 6759927B2 JP 2016186324 A JP2016186324 A JP 2016186324A JP 2016186324 A JP2016186324 A JP 2016186324A JP 6759927 B2 JP6759927 B2 JP 6759927B2
Authority
JP
Japan
Prior art keywords
spectrum
utterance evaluation
utterance
audio signal
change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016186324A
Other languages
English (en)
Other versions
JP2018049246A (ja
Inventor
猛 大谷
猛 大谷
太郎 外川
太郎 外川
紗友梨 香村
紗友梨 香村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016186324A priority Critical patent/JP6759927B2/ja
Priority to US15/703,249 priority patent/US10381023B2/en
Priority to EP17191059.9A priority patent/EP3300079A1/en
Publication of JP2018049246A publication Critical patent/JP2018049246A/ja
Application granted granted Critical
Publication of JP6759927B2 publication Critical patent/JP6759927B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • G10L2025/906Pitch tracking

Description

本発明は、発話評価装置、発話評価方法、および発話評価プログラムに関する。
電話でのオペレーション業務や銀行等での窓口業務など、発話内容が企業のイメージに大きく影響する場合、発話内容の品質向上のため、定量的な発話評価が重要となる。
発話評価を定量的に行うための指標の一つに、発話音声の抑揚がある。発話音声の抑揚の大きさは、音声の高さの時間変化として定量化することが出来る。
音声の高さの時間変化を抽出する技術として、ピッチ推定技術がある。ピッチ推定技術は、音声波形における1つの区間と他の区間との相関関係に基づき、音声波形を周波数領域に変換した場合の音声スペクトルのピークを検出する技術である。ピッチ推定技術として、例えば非特許文献1が開示されている。
特開2002−91482号公報 特開2013−157666号公報 特開2007−286377号公報 特開2008−15212号公報 特開2007−4001号公報
森勢将雅著「知識ベース」電子情報通信学会、2010年、p.1-5
しかしながら、発話者からマイクまでの音声伝搬経路の影響やマイクの周波数利得の影響等により、マイクで受信される音声波形に歪が生じる場合がある。音声波形に歪が生じると、ピッチ推定技術により区間ごとの相関関係を比較した際に、基本ピッチ周波数ではなく、基本ピッチ周波数の整数倍の周波数での相関が高くなる場合がある。相関が高い整数倍の周波数を基本ピッチ周波数と誤判定することにより、実際には抑揚の小さい音声を抑揚の大きい音声と誤認定する。
開示の技術は、音声波形に歪が生じた場合であっても、基本ピッチ周波数の変化量を精度良く判定することを目的とする。
上述した課題を解決し、目的を達成するため、発話評価装置は、第1音声信号を周波数変換した第1入力スペクトルを生成すると共に第1音声信号を受信する前の第2音声信号を周波数変換した第2入力スペクトルを生成する周波数変換部と、第2入力スペクトルの周波数をあらかじめ設定した変化率に基づき変換した、加工スペクトルを生成するスペクトル変換部と、第1入力スペクトルと加工スペクトルとの相関値を算出する相関算出部と、変化率および相関値に基づき、第1音声信号から第2音声信号へのピッチ周波数の変化量を判定する制御部とを有する。
本件の開示する発話評価装置および発話評価方法の一つの態様によれば、音声波形に歪が生じた場合であっても、基本ピッチ周波数の変化量を精度良く判定することができるという効果を奏する。
図1は、第1の実施形態における、発話評価装置の利用形態の一例を示す機能ブロック図である。 図2は、第2の実施形態における、発話評価装置の利用形態の一例を示す機能ブロック図である。 図3は、発話評価装置20aの発話評価処理フローである。 図4は、発話評価装置の実装例である。 図5は、第3の実施形態における、発話評価装置の利用形態の一例を示す機能ブロック図である。 図6は、発話評価装置20bの発話評価処理フローである。 図7は、発話評価処理を実行するためのコンピュータのハードウェアブロック図である。 図8は、発話評価処理を視覚的に説明するための図である。
以下、本発明の実施形態について具体的に説明する。
(第1の実施形態)
図1は、第1の実施形態における、発話評価装置の利用形態の一例を示す機能ブロック図である。図1の機能ブロック図において、発話評価装置10は、周波数分析部11、スペクトル変換部12、相関算出部13、制御部14を有する。発話評価装置10は、入力音声を分析し、分析結果を変化量として出力する。
周波数分析部11は、入力音声を周波数分析し、入力スペクトルを算出する。スペクトル変換部12は、算出された入力スペクトルの周波数をあらかじめ設定した暫定変化量に基づいて変換し、加工スペクトルを算出する。暫定変化量は、後述する制御部14により設定される。発話評価は、入力音声をフレームと呼ぶ一定区間に区切り、フレームごとに行う。スペクトル変換部12は、周波数分析部11から出力される入力スペクトルに対応するフレームよりも前のフレームに対応する加工スペクトルを出力する。スペクトル変換部12は変換前の入力スペクトルを一定期間保持するための記憶部を有してもよい。
相関算出部13は、周波数分析部11から出力された入力スペクトルと、スペクトル変換部12から出力された加工スペクトルとの相関を算出する。相関算出部13は、算出した相関値を制御部14に出力する。制御部14は、暫定変化量および相関値に基づいて変化量を判定する。制御部14は、算出された相関値および入力スペクトルに基づき修正した暫定変化量をスペクトル変換部12に出力する。また制御部14は、相関算出部13から受信した相関値を一定期間保持する記憶部を有する。
スペクトル変換部12は、記憶部に保持した入力スペクトルに対し、修正後の暫定変化量に基づいて加工スペクトルを算出する。相関算出部13は、入力スペクトルと修正後の加工スペクトルとの相関値を算出し、制御部14へ出力する。制御部14は、算出された相関値を記憶すると共に暫定変化量を修正し、スペクトル変換部12へ出力する。
制御部14は、暫定変化量を修正しながら算出された複数の相関値を参照し、最も相関値の大きい場合に対応する暫定変化量を変化量として出力する。
以上の通り発明評価装置10は、暫定変化量を修正しながら入力スペクトルと加工スペクトルとの相関値に基づき、変化量を判定することが出来る。これにより本実施形態によれば、音声の基本ピッチ周波数そのものを求めることなく、基本ピッチの変化量を直接的に求めることが可能となる。したがって、本実施形態によれば、音声波形に歪みが生じる場合であっても、基本ピッチの変化量を精度良く求めることが可能となる。
(第2の実施形態)
図2は、第2の実施形態における、発話評価装置の利用形態の一例を示す機能ブロック図である。図2の機能ブロック図において発話評価装置20aは、線形予測分析部21、周波数分析部22、自己相関算出部23、スペクトル保持部24、スペクトル変換部25、相関算出部26、制御部27、評価部28を有する。発話評価装置20aはFPGA(field-programmable gate array)などのプログラマブルロジックデバイスを用いて実現してもよいし、発話評価装置20aの各機能を処理するための発話評価プログラムをCPU(Central Processing Unit)で実行することにより実現してもよい。
自己相関算出部23は、入力信号の自己相関を算出し、自己相関があらかじめ設定した閾値以上の場合に、自己相関を算出したフレームでの変化量の推定処理を制御部27に実行させるためのイネーブル信号を出力する。発話評価装置20aは、自己相関算出部23から出力されるイネーブル信号を線形予測分析部21に入力することにより、イネーブル信号が出力された場合にのみ発話評価処理を実行するようにしてもよい。
(数1)は、入力信号の自己相関Arを算出するための式である。(数1)において、xn(t)は入力信号、nはフレーム番号、tは時刻、Nは自己相関の次数、iはカウンタ、Mは自己相関の探索範囲を示す。自己相関算出部23は、(数1)に基づきフレームごとの自己相関Arを算出し、Arがあらかじめ設定した閾値以上の場合に、イネーブル信号を出力する。
(数1)
Figure 0006759927
線形予測分析部21は、入力音声について線形予測分析を行い、予測係数を求めることにより残差信号を算出する。線形予測分析部21は、算出した残差信号を出力する。(数2)は、残差信号x'n(t)の算出式である。(数2)においてαiは予測係数を示す。線形予測分析部21は線形予測分析により予測係数αiを算出し、(数2)に基づき算出した残差信号x'n(t)を出力する。
(数2)
Figure 0006759927
周波数分析部22は、線形予測分析部21から受信した残差信号x'n(t)に対してFFT(Fast Fourier Transform)等の周波数変換処理を行い、入力スペクトルXn(f)を求める。周波数分析部22は、算出した入力スペクトルXn(f)を出力する。
スペクトル保持部24は、周波数分析部22から受信した1フレーム前の入力スペクトルXn-1(f)を一時保持し出力する。スペクトル変換部25は、スペクトル保持部24から受信した入力スペクトルXn-1(f)をスペクトル変換処理する。スペクトル変換部25は、スペクトル変換のために設定した暫定変化量ratioを(数3)とすると、暫定変化量に基づく加工スペクトルを(数4)により算出する。暫定変化量は、制御部27から受信する。スペクトル変換部25は、暫定変化量に基づき算出した加工スペクトルを出力する。(数3)においてjはループカウンタであり、jの値をインクリメントしながら、加工スペクトルの算出および以下の相関係数算出処理を繰り返す。また(数3)において2の累乗根としているのは、入力音声の1オクターブ程度の変化量を検出するためである。ここで、暫定変化量は変換前のスペクトルと変換後のスペクトルの周波数比率を示しているため、暫定変化率と表現してもよい。
(数3)
Figure 0006759927
(数4)
Figure 0006759927
相関算出部26は、周波数分析部22から受信したnフレーム目の入力スペクトルと、n-1フレーム目の入力スペクトルを暫定変化量に基づき変換した加工スペクトルとの相関係数Rを(数5)に基づき算出する。(数5)において、変数kは入力スペクトルおよび加工スペクトルにおける各周波数成分である。
(数5)
Figure 0006759927
制御部27は相関算出部26から受信した相関係数Rを記憶する。制御部27は受信した相関係数と、記憶する相関係数Rとを比較する。制御部27は、受信した相関係数が大きい場合には、当該受信した相関係数により既に記憶されている相関係数Rを上書きすると共に、暫定変化量を更新し、スペクトル変換部25へ出力する。スペクトル変換部25は、受信した更新後の暫定変化量に基づき加工スペクトルを算出する。相関算出部26は、新たに算出した加工スペクトルと入力スペクトルとの相関係数を算出し、制御部27へ出力する。制御部27は、暫定変化量ratioが2よりも大きくなった場合に上記相関係数算出処理を終了し、記憶する相関係数Rおよび記憶する相関係数Rに対応する暫定変化量を確定変化量として出力する。なお制御部27は、記憶する相関係数および暫定変化量の初期値をそれぞれ0とする。
評価部28は、制御部27により確定された確定変化量に基づき、発話印象を定量的に評価する。評価部28は、nフレーム分の確定変化量を受信し、(数6)に基づき確定変化量の平均値Anを算出する。
(数6)
Figure 0006759927
評価部28にはあらかじめ発話印象を評価するための閾値TH1およびTH2が設定されている。評価部28は(数6)により算出した確定変化量の平均値および閾値を用いて、(数7)に基づき発話印象を評価する。(数7)において、例えば"good"を1、"bad"を-1、"mid"を0と定義する。評価部28は(数7)に基づく評価結果を発話評価装置20aの外部へ出力する。
(数7)
Figure 0006759927
以上の通り発話評価装置20aは、入力音声に対し、音声波形に歪が生じた場合であっても、相関係数を算出することにより基本ピッチ周波数の変化量を高い精度で正確に判定することができる。また発話評価装置20aは、精度の高い変化量の判定結果に基づき、より正確な発話評価結果を出力することが出来る。
図3は、発話評価装置20aの発話評価処理フローである。図3の発話評価処理フローを実現するための発話評価プログラムは例えばPC(Personal Computer)の記憶装置に記憶されており、PCに実装されたCPUが記憶装置から発話評価プログラムを読み出して実行してもよい。
発話評価装置20aは入力信号の自己相関を算出する(ステップS11)。発話評価装置20aは、算出した自己相関があらかじめ設定した閾値以上の場合に(ステップS12:YES)、ステップS13以降の処理フローを実行する。一方、発話評価装置20aは、算出した自己相関があらかじめ設定した閾値よりも小さい場合(ステップS12:NO)、ステップS21のフレーム修了判定処理を実行する。
発話評価装置20aは、入力信号に対し線形予測分析を行う(ステップS13)。発話評価装置20aは、入力信号をフーリエ変換等により周波数変換し、入力スペクトルを得る(ステップS14)。
発話評価装置20aは、変化量を探索するための暫定変化量を設定する(ステップS15)。発話評価装置20aは、設定した暫定変化量に基づき、変化前の入力スペクトルをスペクトル変換し、加工スペクトルを算出する(ステップS16)。発話評価装置20aは、変化後の入力信号に基づく入力スペクトルと、加工スペクトルの相関を算出する(ステップS17)。発話評価装置20aは、設定した暫定変化量を更新する(ステップS18)。発話評価装置20aは、更新した暫定変化量が、あらかじめ設定した探索範囲内にあれば(ステップS19:YES)、ステップS15以降の処理を繰り返す。一方、発話評価装置20aは、更新した暫定変化量が探索範囲内に無ければ(ステップS19:NO)、探索した変化量に基づき発話印象評価を行う(ステップS20)。発話評価装置20aは、入力音声のすべてのフレームについて自己相関演算が終了していなければ(ステップS21:NO)、ステップS11の自己相関算出処理を行う。一方、発話評価装置20aは、すべてのフレームについて自己相関演算が終了した場合には(ステップS21:YES)、演算処理を終了する。
以上の通り発話評価装置20aは、自己相関が一定値以上の場合に、暫定変化量を更新しながら入力スペクトルと加工スペクトルの相関値を算出することにより、基本ピッチ周波数の変化量を精度よく算出することが出来る。また発話評価装置20aは、フレームごとに発話印象評価を行うことにより、発話評価結果をリアルタイムに出力することが出来る。
図4は、発話評価装置の実装例である。図4において、発話評価装置20aは通信端末30に実装されている。通信端末30は、公衆網36を介して他の通信端末37と音声通信を行っている。
通信端末30は、受信部31、送信部34、復号化部32、符号化部35、演算処理装置15、記憶部16、ディスプレイ33、スピーカー38、マイク39を有する。
受信部31は、他の通信端末37から送信された信号を受信しデジタル信号を出力する。復号化部32は、受信部31から出力されたデジタル信号を復号化し、音声信号を出力する。ディスプレイ33は、演算処理装置15から受信した信号に基づき情報を画面に表示する。スピーカー38は、演算処理装置15から受信した音声信号を増幅し出力する。マイク39は発話音声を電気信号に変換し、演算処理装置15に出力する。
演算処理装置15は、記憶部16に記憶された発話評価処理を実行するためのプログラムを読出し、発話評価装置としての機能を実現する。演算処理装置15は、復号化部32から出力された音声信号に対し、発話評価処理を実行する。演算処理装置15は、発話評価結果をディスプレイ33に送信する。演算処理装置15は、復号化部32から受信した音声信号をスピーカー38へ出力する。演算処理装置15は、マイク39から受信した音声信号を符号化部35へ出力する。演算処理装置15は、マイク39から受信した音声信号に対し、発話評価処理を実行してもよい。演算処理装置15は、発話評価結果を記憶部16に記録してもよい。
符号化部35は、演算処理装置15から受信した音声信号を符号化し出力する。送信部34は、符号化部35から受信した符号化された音声信号を通信端末37へ送信する。
以上の通り通信端末30は、発話評価処理を実装することにより、他の通信端末から受信した音声信号や自身の発話した音声信号について発話評価を行うことが出来る。
(第3の実施形態)
図5は、第3の実施形態における、発話評価装置の利用形態の一例を示す機能ブロック図である。図5の機能ブロック図において発話評価装置20bは、FFT部51、判定部52、スペクトル保持部53、スペクトル変換部54、相関算出部55、制御部56、評価部57を有する。発話評価装置20bはFPGA(field-programmable gate array)などのプログラマブルロジックデバイスを用いて実現してもよいし、発話評価装置20bの各機能を処理するための発話評価プログラムをCPU(Central Processing Unit)で実行することにより実現してもよい。
FFT部51は、入力音声xn(t)に対しFFT等の周波数変換処理を行い、音声スペクトルXn(f)を求める。判定部52は、音声スペクトルXn(f)に対し(数8)に基づきパワースペクトルPn(f)を算出する。
(数8)
Figure 0006759927
さらに判定部52は、算出したパワースペクトルPn(f)を用いて、(数9)に基づきパワースペクトルの凹凸度Dnを算出する。なお(数9)においてNは、FFTポイント数を2で割った値である。(数9)より、凹凸度Dnの値は、周波数ごとに隣接するパワースペクトルの値P(i)とP(i-1)との差分が大きいほど、大きな値となる。
(数9)
Figure 0006759927
判定部52は、あらかじめ設定された閾値を有している。判定部52は、算出した凹凸度Dnと閾値との大小関係を比較し、凹凸度Dnが閾値よりも大きい場合に音声スペクトルを算出したフレームでの変化量の推定処理を制御部56に実行させるためのイネーブル信号を出力する。発話評価装置20bは、判定部52から出力されるイネーブル信号を相関算出部55およびスペクトル保持部53に入力することにより、イネーブル信号が出力された場合にのみ、発話評価処理に必要な演算を実行するようにしてもよい。
スペクトル保持部53は、FFT部51により算出された音声スペクトルを保持すると共に、保持した音声スペクトルを出力する。スペクトル変換部54は、制御部56から受信した暫定変化量に基づきスペクトル保持部53から受信した音声スペクトルを変換し、加工スペクトルを出力する。音声スペクトルから加工スペクトルへの変換は、第2の実施形態における(数4)を用いて行う。また、暫定変化量も第2の実施形態と同様に(数3)を用いて算出する。
相関算出部55は、FFT部51から出力された音声スペクトルと、スペクトル変換部54から出力された加工スペクトルとの相関係数Rを算出する。相関算出部55は、第2の実施形態における(数5)を用いて相関係数Rを算出する。
制御部56は相関算出部55から受信した相関係数Rを記憶する。制御部56は受信した相関係数と、記憶する相関係数Rとを比較する。制御部56は、受信した相関係数が大きい場合には、当該受信した相関係数により既に記憶されている相関係数Rを上書きすると共に、暫定変化量を更新し、スペクトル変換部54へ出力する。スペクトル変換部54は、受信した更新後の暫定変化量に基づき加工スペクトルを算出する。相関算出部55は、新たに算出した加工スペクトルと入力スペクトルとの相関係数を算出し、制御部56へ出力する。制御部56は、暫定変化量ratioが2よりも大きくなった場合に上記相関係数算出処理を終了し、記憶する相関係数Rおよび記憶する相関係数Rに対応する暫定変化量を確定変化量として出力する。なお制御部56は、記憶する相関係数および暫定変化量の初期値をそれぞれ0とする。暫定変化量Ynの算出および更新は、(数10)に基づき行う。
(数10)
Figure 0006759927
評価部57は、制御部56により確定された確定変化量に基づき、発話印象を定量的に評価する。評価部57は、nフレーム分の確定変化量を受信し、(数11)に基づき確定変化量の絶対値の時間平均値Sを算出する。評価部57は、算出したSおよび(数12)に基づき発話印象IMを算出する。評価部57は例えば、複数フレーム分の確定変化量を記録することが出来る記憶部を有する。
(数11)
Figure 0006759927
(数12)
Figure 0006759927
以上の通り発話評価装置20bは、入力音声に対し、音声波形に歪が生じた場合であっても、相関係数を算出することにより基本ピッチ周波数の変化量を高い精度で正確に判定することができる。また発話評価装置20bは、精度の高い変化量の判定結果に基づき、より正確な発話評価結果を出力することが出来る。
図6は、発話評価装置20bの発話評価処理フローである。図3の発話評価処理フローを実現するための発話評価プログラムは例えばPC(Personal Computer)の記憶装置に記憶されており、PCに実装されたCPUが記憶装置から発話評価プログラムを読み出して実行してもよい。
発話評価装置20bは入力信号に対しFFT等の周波数変換処理を行い、入力スペクトルを算出する(ステップS31)。発話評価装置20bは、算出した入力スペクトルに基づきパワースペクトルを算出し、算出したパワースペクトルの凹凸度を算出する(ステップS32)。発話評価装置20bは、算出した凹凸度があらかじめ設定した閾値以上の場合(ステップS33:YES)、ステップS34以降の処理フローを実行する。一方、発話評価装置20bは、算出した凹凸度があらかじめ設定した閾値よりも小さい場合(ステップS33:NO)、ステップS39の処理に移行する。
発話評価装置20bは、変化量を探索するための暫定変化量を設定する(ステップS34)。発話評価装置20bは、設定した暫定変化量に基づき、変化前の入力スペクトルをスペクトル変換し、加工スペクトルを算出する(ステップS35)。発話評価装置20bは、変化後の入力信号に基づく入力スペクトルと、加工スペクトルの相関を算出する(ステップS36)。発話評価装置20bは、設定した暫定変化量を更新する(ステップS37)。発話評価装置20bは、更新した暫定変化量が、あらかじめ設定した探索範囲内にあれば(ステップS38:YES)、ステップS34以降の処理を繰り返す。一方、発話評価装置20bは、更新した暫定変化量が探索範囲内に無ければ(ステップS38:NO)、次のフレームの有無の判定に移行する(ステップS39)。発話評価装置20bは、入力音声のすべてのフレームについて凹凸度算出が終了していなければ(ステップS39:NO)、ステップS31のFFT等の周波数変換処理を行う。一方、発話評価装置20bは、すべてのフレームについて凹凸度算出が終了した場合には(ステップS39:YES)、次のフレームの有無の判定処理を終了する。
発話評価装置20bは、複数時刻の変化量の統計量に基づいて発話印象評価を実行する(ステップS40)。本実施例において、発話評価装置20bは、(数10)および(数11)に示す通り、複数フレームにおける変化量の平均値に基づいて、発話印象評価を実行する。複数フレームにおける変化量の平均値を求めることにより、発話評価装置20bは、一定時間内における発話印象を統計的に評価することが出来る。
以上の通り発話評価装置20bは、凹凸度が一定値以上の場合に、暫定変化量を更新しながら入力スペクトルと加工スペクトルの相関値を算出することにより、変化量を精度よく算出することが出来る。
図7は、発話評価処理を実行するためのコンピュータのハードウェアブロック図である。図7において、コンピュータ60は、表示装置61、CPU62、記憶装置63を有する。
表示装置61は、例えばディスプレイであり、発話評価結果を表示する。CPU62は、記憶装置63に記憶されたプログラムを実行するための演算処理装置である。記憶装置63はHDD(Hard Disk Drive)、ROM(Read Only Memory)、RAM(Random Access Memory)等のデータやプログラム等を記憶するための装置である。
記憶装置63は、発話評価プログラム64、音声データ65、評価データ66を有する。発話評価プログラム64は、CPU62に発話評価処理を実行させるためのプログラムである。CPU62は記憶部63から発話評価プログラム64を読出し実行することで、発話評価処理を実現する。音声データ65は、発話評価処理対象の音声データである。評価データ66は音声データ65を発話評価処理した評価結果を記録したデータである。
CPU62は記憶装置63から発話評価プログラム64を読出し実行することで、発話評価装置として機能する。CPU62は、記憶装置63から音声データ65を読出し、発話評価処理を実行する。CPU62は、音声データ65に対し実行した発話評価処理結果を評価データ66として記憶装置63に書き込む。CPU62は、記憶装置63に書き込んだ評価データ66を読出し、表示装置61に表示させる。
以上の通りコンピュータ60は、CPU62で発話評価プログラム64を実行することにより、発話評価装置として機能することが出来る。また、発話評価装置として図6における発話評価装置20bを実装することにより、図7のように記憶装置63に記録された音声データ65を総括的に評価することが出来る。
図8は、発話評価処理を視覚的に説明するための図である。図8において、入力スペクトル70は、評価対象となる入力音声の、ピッチが変化する前の音声を周波数変換した周波数スペクトルである。発話評価装置は、暫定変化量に基づき、入力スペクトル70の周波数をα倍し、加工スペクトル71を生成する。
入力スペクトル72は、評価対象となる入力音声の、ピッチが変化したあとの音声を周波数変換した周波数スペクトルである。発話評価装置は、暫定変化量αの値を変えながら、加工スペクトル71と入力スペクトル72の相関値を算出し、相関値が最も大きい場合の暫定変化量を評価対象となる入力音声の変化量として記憶する。
以上の通り発話評価装置は、暫定変化量を更新しながら入力スペクトルと加工スペクトルの相関値を算出することにより、変化量を精度よく算出することが出来る。
なお、前述した発話評価処理をコンピュータに実行させるコンピュータプログラム、およびそのプログラムを記録した、非一時的なコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここで、非一時的なコンピュータ読み取り可能な記録媒体は、例えばSDメモリカードなどのメモリカードである。なお、前記コンピュータプログラムは、前記記録媒体に記録されたものに限られず、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。
10、20a、20b:発話評価装置
11:周波数分析部
12:スペクトル変換部
13:相関算出部
14:制御部
30、37:通信端末
36:公衆網
15:演算処理装置
60:コンピュータ
61:表示装置
62:CPU
63:記憶装置
64:発話評価プログラム
65:音声データ
66:評価データ

Claims (8)

  1. 第1期間の音声信号である第1音声信号を周波数変換した第1入力スペクトルを生成すると共に、前記第1期間より前の第2期間の前記音声信号である第2音声信号を周波数変換した第2入力スペクトルを生成する周波数変換部と、
    前記第2入力スペクトルの周波数をあらかじめ設定した変化率に基づき変換した、加工スペクトルを生成するスペクトル変換部と、
    前記第1入力スペクトルと前記加工スペクトルとの相関値を算出する相関算出部と、
    前記第1入力スペクトルに基づき、パワースペクトルの凹凸度を算出する算出部と、
    前記変化率および前記相関値に基づき、前記第1音声信号から前記第2音声信号へのピッチ周波数の変化量を判定する制御部とを有し、
    前記制御部は、前記凹凸度が予め設定した閾値以上の場合に、前記変化量を判定する、
    発話評価装置。
  2. 前記スペクトル変換部は、複数の前記変化率に基づき複数の加工スペクトルを生成し、
    前記相関算出部は、前記第1入力スペクトルと前記複数の加工スペクトルとの相関値をそれぞれ算出し、
    前記制御部は、複数の前記変化率のうち前記相関値が最も大きい前記変化率に基づき前記変化量を判定する、請求項1に記載の発話評価装置。
  3. 前記スペクトル変換部は、前記変化率を0.5倍から2倍までの間で設定する、請求項1に記載の発話評価装置。
  4. 前記第1音声信号を線形予測分析し第1残差信号を生成すると共に前記第2音声信号を線形予測分析し第2残差信号を生成する線形予測分析部をさらに有し、
    前記周波数変換部は、前記第1残差信号および前記第2残差信号を周波数分析し、前記第1入力スペクトルおよび前記第2入力スペクトルを算出する、
    請求項1に記載の発話評価装置。
  5. 前記変化量に基づき発話印象を判定する評価部をさらに有する、請求項1に記載の発話評価装置。
  6. 前記評価部は、複数時刻における前記変化量の統計量に基づき発話印象を評価する、請求項5に記載の発話評価装置
  7. 発話評価処理を実行する発話評価装置の発話評価方法であって、前記発話評価装置が、
    第1音声信号を周波数変換した第1入力スペクトルを生成すると共に前記第1音声信号を受信する前の第2音声信号を周波数変換した第2入力スペクトルを生成し、
    前記第2入力スペクトルの周波数をあらかじめ設定した変化率に基づき変換した、加工スペクトルを生成し、
    前記第1入力スペクトルと前記加工スペクトルとの相関値を算出し、
    前記第1入力スペクトルに基づき、パワースペクトルの凹凸度を算出し、
    前記凹凸度が予め設定した閾値以上の場合に、前記変化率および前記相関値に基づき、前記第1音声信号から前記第2音声信号への変化量を判定する
    処理を実行する、発話評価装置の発話評価方法。
  8. 発話評価処理を実行する発話評価装置の発話評価プログラムであって、前記発話評価装置に、
    第1音声信号を周波数変換した第1入力スペクトルを生成すると共に前記第1音声信号を受信する前の第2音声信号を周波数変換した第2入力スペクトルを生成し、
    前記第2入力スペクトルの周波数をあらかじめ設定した変化率に基づき変換した、加工スペクトルを生成し、
    前記第1入力スペクトルと前記加工スペクトルとの相関値を算出し、
    前記第1入力スペクトルに基づき、パワースペクトルの凹凸度を算出し、
    前記凹凸度が予め設定した閾値以上の場合に、前記変化率および前記相関値に基づき、前記第1音声信号から前記第2音声信号への変化量を判定する
    処理を実行させる、発話評価装置の発話評価プログラム。
JP2016186324A 2016-09-23 2016-09-23 発話評価装置、発話評価方法、および発話評価プログラム Active JP6759927B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2016186324A JP6759927B2 (ja) 2016-09-23 2016-09-23 発話評価装置、発話評価方法、および発話評価プログラム
US15/703,249 US10381023B2 (en) 2016-09-23 2017-09-13 Speech evaluation apparatus and speech evaluation method
EP17191059.9A EP3300079A1 (en) 2016-09-23 2017-09-14 Speech evaluation apparatus and speech evaluation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016186324A JP6759927B2 (ja) 2016-09-23 2016-09-23 発話評価装置、発話評価方法、および発話評価プログラム

Publications (2)

Publication Number Publication Date
JP2018049246A JP2018049246A (ja) 2018-03-29
JP6759927B2 true JP6759927B2 (ja) 2020-09-23

Family

ID=59887064

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016186324A Active JP6759927B2 (ja) 2016-09-23 2016-09-23 発話評価装置、発話評価方法、および発話評価プログラム

Country Status (3)

Country Link
US (1) US10381023B2 (ja)
EP (1) EP3300079A1 (ja)
JP (1) JP6759927B2 (ja)

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0636158B2 (ja) * 1986-12-04 1994-05-11 沖電気工業株式会社 音声分析合成方法及び装置
US5729658A (en) * 1994-06-17 1998-03-17 Massachusetts Eye And Ear Infirmary Evaluating intelligibility of speech reproduction and transmission across multiple listening conditions
JP4121578B2 (ja) * 1996-10-18 2008-07-23 ソニー株式会社 音声分析方法、音声符号化方法および装置
CN1192358C (zh) * 1997-12-08 2005-03-09 三菱电机株式会社 声音信号加工方法和声音信号加工装置
CN1143268C (zh) * 1997-12-24 2004-03-24 三菱电机株式会社 声音编码方法、声音译码方法、声音编码装置和声音译码装置
TWI221574B (en) 2000-09-13 2004-10-01 Agi Inc Sentiment sensing method, perception generation method and device thereof and software
JP3676969B2 (ja) 2000-09-13 2005-07-27 株式会社エイ・ジー・アイ 感情検出方法及び感情検出装置ならびに記録媒体
JP3963850B2 (ja) * 2003-03-11 2007-08-22 富士通株式会社 音声区間検出装置
JP3744934B2 (ja) * 2003-06-11 2006-02-15 松下電器産業株式会社 音響区間検出方法および装置
JP2007004001A (ja) 2005-06-27 2007-01-11 Tokyo Electric Power Co Inc:The オペレータ応対能力診断装置、オペレータ応対能力診断プログラム、プログラム格納媒体
JP4728868B2 (ja) 2006-04-18 2011-07-20 日本電信電話株式会社 応対評価装置、その方法、プログラムおよびその記録媒体
JP2008015212A (ja) 2006-07-06 2008-01-24 Dds:Kk 音程変化量抽出方法、ピッチの信頼性算出方法、ビブラート検出方法、歌唱訓練プログラム及びカラオケ装置
JP4294724B2 (ja) * 2007-08-10 2009-07-15 パナソニック株式会社 音声分離装置、音声合成装置および声質変換装置
JP5293329B2 (ja) * 2009-03-26 2013-09-18 富士通株式会社 音声信号評価プログラム、音声信号評価装置、音声信号評価方法
FR2943875A1 (fr) * 2009-03-31 2010-10-01 France Telecom Procede et dispositif de classification du bruit de fond contenu dans un signal audio.
JP5923994B2 (ja) * 2012-01-23 2016-05-25 富士通株式会社 音声処理装置及び音声処理方法
JP5864285B2 (ja) 2012-01-26 2016-02-17 株式会社三井住友銀行 電話応対業務支援システムおよびその方法
US8949118B2 (en) * 2012-03-19 2015-02-03 Vocalzoom Systems Ltd. System and method for robust estimation and tracking the fundamental frequency of pseudo periodic signals in the presence of noise

Also Published As

Publication number Publication date
EP3300079A1 (en) 2018-03-28
JP2018049246A (ja) 2018-03-29
US20180090156A1 (en) 2018-03-29
US10381023B2 (en) 2019-08-13

Similar Documents

Publication Publication Date Title
JP5732976B2 (ja) 音声区間判定装置、音声区間判定方法、及びプログラム
US11532315B2 (en) Linear prediction analysis device, method, program, and storage medium
EP1995723B1 (en) Neuroevolution training system
JP5542206B2 (ja) オーディオ・システムの知覚品質を判定する方法およびシステム
WO2022012195A1 (zh) 音频信号处理方法和相关装置
JP4769673B2 (ja) オーディオ信号補間方法及びオーディオ信号補間装置
KR20160023767A (ko) 스피치 신호 품질을 측정하기 위한 시스템들 및 방법들
JP6182895B2 (ja) 処理装置、処理方法、プログラム及び処理システム
WO2019000178A1 (zh) 一种丢帧补偿方法及设备
RU2682851C2 (ru) Усовершенствованная коррекция потери кадров с помощью речевой информации
CN110415714B (zh) 线性预测分析装置、线性预测分析方法以及记录介质
RU2621003C2 (ru) Адаптивное к тональности квантование низкой сложности аудиосигналов
JP2013205831A (ja) 音声品質客観評価装置及び方法
JP6759927B2 (ja) 発話評価装置、発話評価方法、および発話評価プログラム
JP2017134197A (ja) パラメータ調整システム、パラメータ調整方法、プログラム
US9165561B2 (en) Apparatus and method for processing voice signal
JP6229576B2 (ja) サンプリング周波数推定装置
KR100931487B1 (ko) 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치
Gan et al. Audio quality evaluation using frequency structural similarity measure
JP2020190606A (ja) 音声雑音除去装置及びプログラム
JP2019045527A (ja) 音声処理プログラム、音声処理方法および音声処理装置
JP2019060976A (ja) 音声処理プログラム、音声処理方法および音声処理装置
WO2016203753A1 (ja) 雑音検出装置、雑音抑圧装置、雑音検出方法、雑音抑圧方法、および、記録媒体
US8644346B2 (en) Signal demultiplexing device, signal demultiplexing method and non-transitory computer readable medium storing a signal demultiplexing program
US20130304462A1 (en) Signal processing apparatus and method and program

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20180528

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190611

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200331

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200817

R150 Certificate of patent or registration of utility model

Ref document number: 6759927

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150