JP6373621B2 - 話し方評価装置、話し方評価方法、プログラム - Google Patents

話し方評価装置、話し方評価方法、プログラム Download PDF

Info

Publication number
JP6373621B2
JP6373621B2 JP2014076062A JP2014076062A JP6373621B2 JP 6373621 B2 JP6373621 B2 JP 6373621B2 JP 2014076062 A JP2014076062 A JP 2014076062A JP 2014076062 A JP2014076062 A JP 2014076062A JP 6373621 B2 JP6373621 B2 JP 6373621B2
Authority
JP
Japan
Prior art keywords
evaluation value
speech
evaluation
value
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014076062A
Other languages
English (en)
Other versions
JP2015197621A (ja
Inventor
賢昭 佐藤
賢昭 佐藤
隆伸 大庭
隆伸 大庭
阪内 澄宇
澄宇 阪内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014076062A priority Critical patent/JP6373621B2/ja
Publication of JP2015197621A publication Critical patent/JP2015197621A/ja
Application granted granted Critical
Publication of JP6373621B2 publication Critical patent/JP6373621B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Description

本発明は、入力音声信号に基づいて発話の聞き取りやすさを評価する話し方評価装置、話し方評価方法、プログラムに関する。
特許文献1には、応対業務のオペレータの応対を自動的に評点し、オペレータ教育の負担を軽減する応対評価装置が開示されている。特許文献1の応対評価装置は、入力された顧客の音声信号から音声特徴量を検出し予め定義された複数の感情のそれぞれをモデル化した感情モデル集合と上記特徴量の時系列的なマッチングを取ることで、1コールごとの感情系列を生成し、上記複数の感情のそれぞれと感情点数を対応させた感情点数リストを用いて、感情系列の各感情を感情点数に変換し、この感情点数の系列を基に応対終了時の感情点数から応対開始時の感情点数を減算した値や、1コールにおける感情点数の平均値などを応対評点として算出する。
特開2007−286377号公報
特許文献1のように、顧客の発話から顧客の感情を推定することで、オペレータの応対を評価する技術は知られているが、例えば講義やプレゼンテーションなど、人前で話をする場面において、講義を行う者、プレゼンテーションを行う者(発表者)の話し方の聞き取りやすさを評価する技術は知られていなかった。そこで本発明では、入力音声信号に基づいて発話(話し方)の聞き取りやすさを評価することができる話し方評価装置を提供することを目的とする。
本発明の話し方評価装置は、音声評価値計算部と、得点計算部を含む。
音声評価値計算部は、入力音声信号に基づいて、発話速度の緩急を評価した緩急評価値と、発話の抑揚を評価した抑揚評価値と、発話の明瞭度を評価した明瞭度評価値のうちいずれか一つ以上を計算して、計算した値を音声評価値として出力する。得点計算部は、緩急評価値と、抑揚評価値と、明瞭度評価値のうち、いずれか二つ以上が計算された場合に、音声評価値に基づいて、入力音声信号の総合得点を計算する。
本発明の話し方評価装置によれば、入力音声信号に基づいて発話の聞き取りやすさを評価することができる。
実施例1およびその変形例の話し方評価装置の構成を示すブロック図。 実施例1の話し方評価装置の動作を示すフローチャート。 実施例1の話し方評価装置の音声評価値計算部の構成を示すブロック図。 実施例1の話し方評価装置の音声評価値計算部の動作を示すフローチャート。 実施例1の話し方評価装置の抑揚評価部の具体的な動作を説明する図。 実施例1の話し方評価装置の得点計算部の構成を示すブロック図。 実施例1の話し方評価装置の得点計算部の動作を示すフローチャート。 変形例1の話し方評価装置の音声評価値計算部の構成を示すブロック図。 変形例1の話し方評価装置の音声評価値計算部の動作を示すフローチャート。 実施例2の話し方評価装置の構成を示すブロック図。 実施例2の話し方評価装置の音声評価値計算部の構成を示すブロック図。 実施例2の話し方評価装置の音声評価値計算部の動作を示すフローチャート。 実施例3の話し方評価装置の構成を示すブロック図。 実施例3の話し方評価装置の音声評価値計算部の構成を示すブロック図。 実施例3の話し方評価装置の音声評価値計算部の動作を示すフローチャート。 実施例4の話し方評価装置の構成を示すブロック図。 実施例4の話し方評価装置の音声評価値計算部の構成を示すブロック図。 実施例4の話し方評価装置の音声評価値計算部の動作を示すフローチャート。 声道特性(スペクトル包絡曲線)を例示する図。 F1−F2座標平面における各音素の母音の分布特性を示す図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
本発明の話し方評価装置1は、発話を録音して得た入力音声信号と、当該入力音声信号の音声認識結果に基づいて、話の緩急の付け方、話すスピードが適正か、抑揚の有無、発話の明瞭さ、発話の音量が適正であるか、フィラーの出現頻度などといった、話し方の上手さに関わる各要因を各得点としてそれぞれ数値化する。これに加え、上述の各要因を総合した総合得点も算出する。
以下、図1、図2を参照して本発明の実施例1の話し方評価装置1について説明する。図1は、本実施例およびその変形例の話し方評価装置1(1a)の構成を示すブロック図である。図2は本実施例の話し方評価装置1の動作を示すフローチャートである。図1に示すように、本実施例の話し方評価装置1は、音声評価値計算部11と、言語評価値計算部12と、得点計算部13を含む。なお、言語評価値計算部12は、必須の構成要件ではなく、適宜省略することもできる。
音声評価値計算部11は、入力音声信号に基づいて、発話速度の緩急を評価した緩急評価値と、発話の抑揚を評価した抑揚評価値と、発話の明瞭度を評価した明瞭度評価値のうちいずれか一つ以上を計算して、計算した値を音声評価値として出力する(S11)。次に、言語評価値計算部12は、入力音声信号の音声認識結果に含まれる全認識単語に対する予め定めたフィラーに該当する認識単語の割合に基づいて言語評価値を計算し、当該言語評価値を出力する(S12)。前述したように、言語評価値計算部12は、適宜省略することもできる。例えば、言語評価値計算部12が存在しない場合、得点計算部13は、緩急評価値と、抑揚評価値と、明瞭度評価値のうち、何れか二つ以上が計算された場合に、音声評価値に基づいて、入力音声信号の総合得点を計算して出力し、緩急評価値と、抑揚評価値と、明瞭度評価値のうち、何れか一つのみが計算された場合には、その評価値をそのまま、あるいは評価値を正規化して得点として出力する(S13)。一方、言語評価値計算部12が存在する場合には、得点計算部13は、ステップS11において計算された音声評価値に加え、言語評価値に基づいて、入力音声信号の総合得点を計算して出力する(S13)。この得点、または、総合得点を発話の聞き取りやすさの評価値とする。
なお、前述の音声評価値計算部11はステップS11において、前述の緩急評価値、抑揚評価値、明瞭度評価値のうちいずれか一つ以上の値に加え、発話速度が所定範囲にある適正速度で発話された認識単語の全認識単語に対する割合である適正速度割合評価値と、発話音量が所定範囲にある適正音量で発話された認識単語の全認識単語に対する割合である適正音量割合評価値の何れか1つ以上を計算し、計算した値を音声評価値として出力してもよい。
以降の説明では、音声評価値計算部11が、緩急評価値、抑揚評価値、明瞭度評価値、適正速度割合評価値、適正音量割合評価値の全てを計算する場合について説明する。
<音声評価値計算部11の処理の詳細>
以下、図3、図4を参照して、音声評価値計算部11の処理の詳細について説明する。図3は、本実施例の話し方評価装置1の音声評価値計算部11の構成を示すブロック図である。図4は、本実施例の話し方評価装置1の音声評価値計算部11の動作を示すフローチャートである。図3に示すように、本実施例の音声評価値計算部11は、音声認識部111と、速度計算部112と、緩急評価部113と、適正速度割合評価部114と、抑揚評価部115と、明瞭度評価部116と、適正音量割合評価部117を含む。
音声認識部111は、入力音声信号を音声認識して、認識単語、各認識単語に対応する時刻情報、各認識単語に対応する音声認識スコアを出力する(S111)。なお、各認識単語に対応する時刻情報は、各認識単語の開始時刻と、終了時刻とからなる情報である。ある認識単語の開始時刻から終了時刻までの時間区間を当該認識単語の発話区間ともいう。音声認識部111は、例えば発話「ここは横須賀通信…」に対して、以下のように、認識単語(単語とその読み)、各認識単語に対応する時刻情報、各認識単語に対応する音声認識スコア(1位のみ表示)を出力する。
Figure 0006373621
なお、音声認識結果は、Nbestと呼ばれる正解らしさが1位からN位の候補の単語として得られる。Nbestのなかでスコア値が1位のものを認識単語として採用する。NbestのNは認識器を使う人があらかじめ指定する数である。例えば発話「ここは横須賀通信…」という発話の「ここは」の区間を音声認識した場合、Nbestとして1位「ここは」2位「そこは」3位「ココア」などが得られる。これらのうち1位のものを認識単語とするため、この例では「ここは」が認識単語として選択される。
以下では、認識結果内の単語と、その読みを認識単語、認識結果の開始・終了時刻を時刻情報、音声認識スコア(確率)をスコア情報とも呼ぶ。スコア情報としては、音声情報(MFCCなど)を入力とするスコア情報と、音声情報と言語情報(単語そのもの)の両方を入力とするスコア情報が存在する。
速度計算部112は、予め定めた直近T分(Tは正の実数)における認識単語と、時刻情報を入力とし、直近T分における認識単語、時刻情報から、単語ごとの発話速度を計算する。まず、速度計算部112は、認識単語からモーラ数を計算する。速度計算部112は、認識単語の読みの部分から母音部分などを見て各認識単語のモーラ数を計算することができる。次に速度計算部112は、時刻情報から各認識単語の発話時間を計算する。速度計算部112は、各認識単語の終了時刻から開始時刻を差し引くことで、各認識単語の発話時間を計算することができる。速度計算部112は、(注目単語のモーラ数)/(注目単語の発話時間[s])を、発話速度として計算する。この発話速度の定義は、広く使われている一般的なものである。速度計算部112は、これを直近T分において、すべての認識単語について計算する。なお、直近T分間とは、T分(60×T秒)ごとにこの処理を行うことを示している。例えばT=5とすることができ、この場合は、60×5=300秒ごとに処理が行われる。ただし、このT分間は単語単位に収まるように切り捨てするものとする。例えばT=5(300秒)とした場合に、音声認識部111が、以下のような認識結果を出力したものとする。
Figure 0006373621
この場合、直近T分(=5分)は、認識単語「ここは」から認識単語「で」までの299.850秒間を指す。次のT分間は、時刻299.85から開始される。以下、「直近T分」の処理は全く同様の方法で行う。発言の終わりにつながる区間においては、直近T分ではなく、残り時間をT分で割った余りの時間とする。
以下、速度計算部112の発話速度計算例について説明する。再度、上述の発話「ここは横須賀通信…」を例として説明する。発話「ここは横須賀通信…」の認識単語と時刻情報は以下のようになっている。
Figure 0006373621
次に、速度計算部112は、認識単語からモーラ数を算出する。モーラ数とは、基本的には単語の母音の部分の数である。ただし、拗音を構成する捨て仮名、例えば「ぁ、ぃ、ぅ、ぇ、ぉ、ゃ、ゅ、ょ」は1モーラとは数えない。ただし拗音は1モーラとなる。例えば「ちゃ」は1モーラである。また、長音「ー」、促音「っ」、撥音「ん」も1モーラと数える。これにより、速度計算部112は、発話「ここは横須賀通信…」のモーラを以下のようにカウントする。
Figure 0006373621
速度計算部112は、各認識単語の終了時刻から開始時刻を差し引くことで、各認識単語の発話時間を計算する。具体的には、速度計算部112は、各認識単語の発話時間を
Figure 0006373621
と計算する。最後に、速度計算部112は、各認識単語の発話速度を以下のように計算する。
Figure 0006373621
このように、速度計算部112は、各認識単語のモーラ数を対応する各認識単語の発話時間で除算して、各認識単語の発話速度を計算する(S112)。
一般に、話速に緩急のない単調な話し方は聞き取りにくい。そこで本実施例の緩急評価部113は、話の緩急を、次式の発話速度の標本標準偏差(データから計算される標準偏差)によって独自に定義する。まず、緩急評価部113は発話速度の標本平均 ̄vを、
Figure 0006373621
として計算する。ただし、Nは、直近T分間の認識単語における全単語数で、vは、n番目の認識単語の発話速度である。ただしn=1,2,…,Nである。このようにして計算した標本平均 ̄vを用いて、発話速度の標本標準偏差σを、
Figure 0006373621
として計算する。緩急評価部113は、各認識単語の発話速度の標本標準偏差σを緩急評価値として出力する(S113)。
適正速度割合評価部114は、各認識単語の発話速度の適切さを、予め定めた適正速度の範囲に収まっている時間の全発話時間に対する割合を計算する独自の方法によって算出する。適正速度の下限閾値をA、上限閾値をBと定め、適正速度割合評価部114は、例えば、各認識単語の中から発話速度がA以上かつB以下となった認識単語の数を計算し、発話速度がA以上かつB以下となった認識単語の数の全単語数に対する割合を適正速度割合評価値として算出する。適正速度を定義する閾値A、Bは人手で与えることができる。
<閾値A、Bの決め方の具体例>
参考非特許文献1によれば、話し言葉の発話速度は400[字/s]程度である。これから、通常の発話速度は400[モーラ/s]程度であると仮定できる。また、発明者が実施した音声聞き取りの主観評価実験において、通常の発話速度の1/3倍以下もしくは2倍以上になると発話が極端に聞き取りづらくなるという知見が得られている。そこで、適正速度を定義する下限閾値Aを通常の発話速度として仮定した400[モーラ/s]の1/3倍の133.3[モーラ/s]とし、適正速度を定義する上限閾値Bを通常の発話速度として仮定した400[モーラ/s]の2倍の800[モーラ/s]と設定することができる。
(参考非特許文献1:隠田亮介、真貝晃平、多田千里、明神学、平井佑樹、金子敬一、「2者間におけるコミュニケーションデータを利用した会話支援システムの試作」、情報処理学会シンポジウム論文集、一般社団法人情報処理学会、平成25年8月11日、第2013巻、第2号、pp.169-172)
このように、適正速度割合評価部114は、各認識単語の発話速度が所定の下限閾値以上かつ所定の上限閾値以下となる適正速度に対応する認識単語の全認識単語に対する割合に基づいて、適正速度割合評価値を計算する(S114)。
次に、抑揚評価部115は、韻律(音の調子)に関わる特徴量として一般に広く使用されている音声の第0フォルマント(F0、基本周波数成分)に対して、その標準偏差を考えることによって抑揚評価値を独自に定義する。F0は、音声の韻律的な情報を決める基本周波数のことであり、具体的な計算は、例えば以下の(1)や(2)の方法により実行できる。(2)の方法については、図5を参照して説明する。図5は、本実施例の話し方評価装置1の抑揚評価部115の具体的な動作を説明する図であって、図5Aは、入力音声信号をケフレンシー領域で表現した例、図5Bは、図5Aの入力音声信号に対してリフタリングを実行した例、図5Cは、図5Aのリフタリング前の入力音声信号から図5Bのリフタリング後の入力音声信号を引き算した入力音声信号の例、図5Dは、図5Cのケプストラムが現実にはデジタル値(離散値)として取得されることを表現する図である。
(1)抑揚評価部115は、例えば参考非特許文献2に開示されているF0抽出法を用いて、F0(基本周波数成分)を算出することができる。
(参考非特許文献2:鵜木祐史、石本祐一、赤木正人、「残響音声からの基本周波数推定に関する検討」、北陸先端科学技術大学院大学情報科学研究科リサーチレポート、北陸先端科学技術大学院大学情報科学研究科、平成17年3月28日、第IS-RR-2005-007巻、pp.1-27)
(2)抑揚評価部115は、例えば図5Aのような音声信号のケプストラムに、低次ケプストラムのみをケフレンシー領域で切り出す窓関数(ケプストラム窓、リフターともいう)をかけてリフタリング(右側の高周波成分を取り除く方法)を行ったケプストラム(図5B)と、もとの音声信号のケプストラム(図5A)との差分を取った結果のケプストラム(図5C)から、縦軸の最大値(図5Dの太線で表現した値)に該当する周波数をF0として算出する。
上述のように計算したF0を、認識単語ごとの発話区間について標本平均を取ったものを、その発話区間でのF0とする。抑揚評価部115は、T分ごとの入力音声信号に含まれる全認識単語についてF0を計算し、その標本標準偏差を抑揚評価値とする。
このように、抑揚評価部115は、各認識単語に対応する各時刻情報と、入力音声信号とに基づいて、各認識単語の基本周波数を計算し、計算された基本周波数の標本標準偏差を抑揚評価値として出力する(S115)。
次に、明瞭度評価部116は、発音の明瞭さ(明瞭度評価値)を、音声認識結果のスコアを用いた独自の定義によって算出する。音声認識結果のスコアとは、直感的には音声認識結果の確からしさの得点のことであり、音声認識器の確率モデルの確率関数に入力音声の特徴量ベクトルの数値かまたは特徴量ベクトルの数値と単語の両方を代入し、計算される。一般的には、音声認識結果のスコアには、尤度、事後確率などが使われている。例えば、音響モデルの対数尤度と言語モデルの対数尤度の和を取ったものを発音の明瞭さのスコア(明瞭度評価値)とすることができる。これ以外にも、例えば、直近T分の全認識単語についての音声認識スコアそのものの平均を明瞭度評価値とすることができる。また、音声認識スコアが最も高い(1位の)認識結果の対数尤度を、認識結果のNbest候補全ての対数尤度の総和で除算した事後確率を明瞭度評価値とすることもできる。本実施例においては、この方法で明瞭度評価値を計算するものとする。
従って、明瞭度評価部116は、各認識単語に対応する音声認識スコアに基づいて、1位の認識結果の対数尤度を、認識結果のNbest候補全ての対数尤度の総和で除算した事後確率から明瞭度評価値を計算して出力する(S116)。
一般に、話す音量が大きすぎたり小さすぎる話は聞き取りづらい。そこで、適正音量割合評価部117は、入力音声信号の音圧(単位[dB])が小さすぎも大きすぎもしない適正音量となる区間の全発話区間に対する割合を適正音量割合評価値として算出する。例えば、予め音圧の下限閾値C、上限閾値Dを設定しておき、適正音量割合評価部117は、入力音声信号のうち、音圧がC以上かつD以下となる発話区間の合計時間を算出し、直近T分の全発話区間における割合を算出する。具体的には、適正音量割合評価部117は、
(音圧がC以上かつD以下となる発話区間の合計時間)/(直近T分に相当する時間)
として適正音量割合評価値を計算する。閾値C、Dは人手で与えることができる。
<閾値C、Dの決め方の具体例>
人間が聞き取れる最低音圧である「最小可聴レベル」が周波数ごとに存在する。800[Hz]以下では周波数が低いほど最小可聴レベルが大きい、すなわち低い音ほど音が大きくないと聞こえない。人間の声の周波数は300〜700[Hz]の範囲に含まれる。最低周波数の300[Hz]の音声が聞こえる程度の音圧があれば、それ以上の周波数の音声も聞こえることになる。そこで、例えば音圧の下限閾値Cを300[Hz]における最小可聴レベル値である10[dB]程度に設定することができる。一方、音圧の上限閾値Dは、例えば、大声による独唱、騒々しい工場内での音圧など、多くの人間が「騒々しい」と感じる音圧である90[dB]と設定することができる。
このように、適正音量割合評価部117は、入力音声信号に基づいて入力音声信号の音圧を計算し、音圧が所定の下限閾値以上かつ所定の上限閾値以下となる適正音量に対応する発話区間の全発話区間に対する割合に基づいて、適正音量割合評価値を計算する(S117)。
本実施例では、上述のステップS113〜S117において計算された緩急評価値、適正速度割合評価値、抑揚評価値、明瞭度評価値、適正音量割合評価値の全てを音声評価値として出力する。なお、前述したように音声評価値としては、緩急評価値、抑揚評価値、明瞭度評価値のみを出力することとしてもよいし、少なくとも緩急評価値、抑揚評価値、明瞭度評価値のうちの一つ以上が音声評価値に含まれるようにしてもよい。
<言語評価値計算部12の処理の詳細>
前述した言語評価値計算部12が実行するステップS12について、その処理の詳細を説明する。発話中に「えー」や「あー」などの不要語(フィラーという)が多く含まれる話し方は聞き取りづらいことが知られている。そこで、言語評価値計算部12は、直近T分間の全認識単語中のフィラーに該当する認識単語の数を数え、直近T分間の全認識単語数で割ることによって、全体に対するフィラーの割合を算出し、当該割合を言語評価値として出力する。フィラーは予め定めておく必要がある。例えばフィラーを「あっ、あのー、い、う、えー、えーと、お、そのー、ま、ん、このー、で」の12個と設定することができる。フィラーの数え方は、全認識単語について、その文字列が上の12個にマッチするかどうかで判定させる。
<得点計算部13の処理の詳細>
以下、図6、図7を参照して得点計算部13の処理の詳細について説明する。図6は、本実施例の話し方評価装置1の得点計算部13の構成を示すブロック図である。図7は、本実施例の話し方評価装置1の得点計算部13の動作を示すフローチャートである。図6に示すように、本実施例の話し方評価装置1の得点計算部13は、正規化部131と、重みづけ加算部132を含む。正規化部131は、上述のステップS113〜S117、およびS12において計算された緩急評価値、適正速度割合評価値、抑揚評価値、明瞭度評価値、適正音量割合評価値、言語評価値を、それぞれのスコアの最大値が100点になるように補正する。評価値のうち、抑揚評価値、緩急評価値は標本標準偏差であるため理論上の数値の上限は存在しない。また、明瞭度評価値を確率密度関数の対数尤度として計算する場合、同様に理論上の数値の上限は存在しない。このため、これらの評価値に対しては、適切な上限閾値を人手で設定しておく。各スコアが上限閾値ぴったりの値の時に100点となり、0の時に0点となるように適切な係数を乗算することによって、正規化することができる。なおスコアが閾値以上になった場合は100点で固定する。また、評価値のうち、適正速度割合評価値、適正音量割合評価値、言語評価値については比率(割合)として計算されるため、これらの評価値は0以上1以下の値になる。よって、これらの評価値については100倍することによって正規化することができる。
このように、正規化部131は、緩急評価値、適正速度割合評価値、抑揚評価値、明瞭度評価値、適正音量割合評価値、言語評価値のそれぞれを100点で正規化し、各得点を出力する(S131)。
次に、重みづけ加算部132は、正規化された6種類の評価値に、適当な重みづけを施して、総和を取ることによって、100点満点の合計点(総合得点)を算出する。重みづけに用いる重み係数は、例えば主観評価実験により決定することができる。
例えば、緩急評価値、適正速度割合評価値、抑揚評価値、明瞭度評価値、適正音量割合評価値、言語評価値が話の聞き取りやすさにどれだけ関わったかを、被験者数名に0〜100点のスコアで評価させる。評価値それぞれに対するスコアの被験者平均を取り、全ての評価値におけるスコアの被験者平均値の合計が1となるように、各評価値のスコアの被験者平均値を正規化したものを重み係数として使用することができる。
このように、重みづけ加算部132は、正規化された各得点を重みづけして足し合わせ、総合得点を計算して出力する(S132)。なお、本実施例においては、ステップS132において6つの評価項目すべての評価値を重みづけ加算して総合得点を計算することとしたが、これに限らず、例えば本発明の話し方評価装置を使用するユーザが、いずれの評価項目で総合得点を計算したいかを入力し、図示しない評価項目選択部がユーザの入力に基づいてユーザにより選択された評価項目を特定し、重みづけ加算部132が、ユーザにより選択された項目についてのみ重みづけ加算を行って評価を実行することとしてもよい。この場合、前述の重み係数は、選択された項目について加算した場合に1となるように正規化されてもよい。
また、本実施例の話し方評価装置1は、ステップS132で重みづけされた総合得点のみを出力してもよいし、ステップS131で正規化された各得点を総合得点と同時に出力してもよい。ステップS131で正規化された各得点を総合得点と併せて出力することで、ユーザは自身の話し方の改善点をより明確に把握することができるため、利便性が向上する。
<評価に用いる音声の区間について>
前述したように、評価値の計算に用いる音声の区間については、直近T分間とすることができ、例えばT=5(300秒)とすることができる。これ以外にも、例えば、プレゼンテーションなどを評価する場合に、事前に設定した時間区間を重複させながらずらしていくことで、(例えば、T=5とした場合に、2分間は重複)設定した時間区間より短い時間単位(例えば3分ごと)で得点を出力してもよいし、プレゼンテーションなどの最初から最後までを対象として一回のみ評価を行うこととしてもよい。これまで、すべての評価値を使う場合で説明したが、請求項1に記載した3つの評価値のうちいずれか1つ以上を使うことで、従来は用いられなかった尺度を使って発話の聞き取りやすさのより適切な評価ができる。
本実施例の話し方評価装置1によれば、入力音声信号に基づいて発話の聞き取りやすさを評価することができる。なお、得点計算部は複数の評価値を統合した総合得点を計算する部分であるので、1つの評価値しか求めない場合は不要となる。
[変形例1]
以下、図8、図9を参照して、実施例1の変形例である変形例1の話し方評価装置1aについて説明する。図8は、本変形例の話し方評価装置1aの音声評価値計算部11aの構成を示すブロック図である。図9は、本変形例の話し方評価装置1aの音声評価値計算部11aの動作を示すフローチャートである。図1に示したように、本変形例の話し方評価装置1aは、音声評価値計算部11aと、言語評価値計算部12と、得点計算部13を含み、実施例1との相違点は、実施例1における音声評価値計算部11が本変形例において音声評価値計算部11aに変更されている点のみである。図8に示すように、本変形例の音声評価値計算部11aは、音声認識部111と、速度計算部112と、緩急評価部113aと、適正速度割合評価部114と、抑揚評価部115と、明瞭度評価部116と、適正音量割合評価部117を含み、実施例1との相違点は、実施例1における緩急評価部113が本変形例において緩急評価部113aに変更されている点のみである。以下、実施例1との相違点についてのみ説明する。緩急評価部113aは、直近T分間の全認識単語の発話速度のうち最大値と最小値の差を取る方法で緩急評価値を計算する。緩急は、どれだけ速度が変動するかで評価できるためである。より具体的には、緩急評価部113aは、所定の発話区間内(直近T分)における各認識単語の発話速度の最大値と最小値の差分を緩急評価値として出力する(S113a)。
本変形例の話し方評価装置1aによれば、実施例1と同様に、入力音声信号に基づいて発話の聞き取りやすさを評価することができる。標準偏差ではなくこの最大値と最小値の差を取る方法を用いれば、変動しやすく質の悪い値になってしまうが、計算量を削減することができる。
以下、図10、図11、図12を参照して本発明の実施例2の話し方評価装置2について説明する。図10は、本実施例の話し方評価装置2の構成を示すブロック図である。図11は、本実施例の話し方評価装置2の音声評価値計算部21の構成を示すブロック図である。図12は、本実施例の話し方評価装置2の音声評価値計算部21の動作を示すフローチャートである。図10に示すように、本実施例の話し方評価装置2は、音声評価値計算部21と、言語評価値計算部12と、得点計算部13を含み、実施例1との相違点は、実施例1における音声評価値計算部11が本実施例において音声評価値計算部21に変更されている点のみである。図11に示すように、本実施例の音声評価値計算部21は、音声認識部111と、速度計算部112と、緩急評価部113と、適正速度割合評価部114と、抑揚評価部215と、明瞭度評価部116と、適正音量割合評価部117を含み、実施例1との相違点は、実施例1における抑揚評価部115が本実施例において抑揚評価部215に変更されている点のみである。以下、実施例1との相違点についてのみ説明する。抑揚評価部215は、F0ではなく音圧から計算されるパワーを使って、抑揚評価値を計算する。より具体的には、抑揚評価部215は、各認識単語に対応する各時刻情報と、入力音声信号とに基づいて、各認識単語のパワーを計算し、計算されたパワーの標本標準偏差を抑揚評価値として出力する(S215)。
本実施例の話し方評価装置2によれば、実施例1と同様に、入力音声信号に基づいて発話の聞き取りやすさを評価することができる。
以下、図13、図14、図15を参照して本発明の実施例3の話し方評価装置3について説明する。図13は、本実施例の話し方評価装置3の構成を示すブロック図である。図14は、本実施例の話し方評価装置3の音声評価値計算部31の構成を示すブロック図である。図15は、本実施例の話し方評価装置3の音声評価値計算部31の動作を示すフローチャートである。図13に示すように、本実施例の話し方評価装置3は、音声評価値計算部31と、言語評価値計算部12と、得点計算部13を含み、実施例1との相違点は、実施例1における音声評価値計算部11が本実施例において音声評価値計算部31に変更されている点のみである。図14に示すように、本実施例の音声評価値計算部31は、音声認識部111と、速度計算部112と、緩急評価部113と、適正速度割合評価部114と、抑揚評価部115と、明瞭度評価部316と、適正音量割合評価部117を含み、実施例1との相違点は、実施例1における明瞭度評価部116が本実施例において明瞭度評価部316に変更されている点のみである。以下、実施例1との相違点についてのみ説明する。明瞭度評価部316は、認識結果の1位と2位の対数尤度の差を明瞭度評価値とする(S316)。これは、認識結果の1位と2位をはっきりと区別できる場合は、発音が明瞭といえる、という考えからなる。より具体的には、明瞭度評価部316は、各認識単語に対応する音声認識スコアに基づいて、音声認識スコアが1位と2位の音声認識結果の対数尤度の差に基づいて明瞭度評価値を計算して出力する(S316)。
本実施例の話し方評価装置3によれば、実施例1と同様に、入力音声信号に基づいて発話の聞き取りやすさを評価することができる。
以下、図16、図17、図18を参照して本発明の実施例4の話し方評価装置4について説明する。図16は、本実施例の話し方評価装置4の構成を示すブロック図である。図17は、本実施例の話し方評価装置4の音声評価値計算部41の構成を示すブロック図である。図18は、本実施例の話し方評価装置4の音声評価値計算部41の動作を示すフローチャートである。図16に示すように、本実施例の話し方評価装置4は、音声評価値計算部41と、言語評価値計算部12と、得点計算部13を含み、実施例1との相違点は、実施例1における音声評価値計算部11が本実施例において音声評価値計算部41に変更されている点のみである。図17に示すように、本実施例の音声評価値計算部41は、音声認識部111と、速度計算部112と、緩急評価部113と、適正速度割合評価部114と、抑揚評価部115と、明瞭度評価部416と、適正音量割合評価部117を含み、実施例1との相違点は、実施例1における明瞭度評価部116が本実施例において明瞭度評価部416に変更されている点のみである。以下、実施例1との相違点についてのみ説明する。明瞭度評価部416は、認識単語と、各認識単語の時刻情報と、入力音声信号とを入力とし、各認識単語の音声信号の音素の母音についてF1、F2平面上の座標を計算し、各音素の母音についての標本標準偏差の逆数の総和を明瞭度評価値として出力する。以下、詳しい仕組みについて、図19、図20を参照して説明する。図19は、声道特性(スペクトル包絡曲線)を例示する図である。図20は、F1−F2座標平面における各母音の分布特性を示す図である。
F1、F2とは、それぞれ第1フォルマント、第2フォルマントのことである。人の声を収音した音声信号に、所定の前処理を施した後、フーリエ変換を行うことで、図19に示すような声道特性を得ることができる。図19に示すように、人間の声道特性においては、大まかに4つの山(ピーク)の形状が認められる。この4つの山の大まかな形が音声の言語情報に関わる音素の母音(a,i,uなど)を決定する要因であることが知られている。この大まかな山の頂点の周波数を左の山から順にF1、F2、F3、F4と決めている。入力音声信号をフーリエ変換して取得したスペクトラムをみてF1、F2がどこにあたるのかを判断し、横軸をF1、縦軸をF2とした座標平面上にプロットすると、音素の母音ごとに図20に示すような位置に分布することが一般に知られている。
発音が明瞭な人ほど、例えば認識単語中の/a/に該当する音声信号については、/a/に該当する座標領域内に狭く分布する。反対に、発音が不明瞭なほど、例えば認識単語中の/a/に該当する音声信号については、/a/に該当する座標領域内に広がり(ばらつき)を持って分布する。そこで、入力音声に対し音響モデルによって/a/などの各音素と判断されたすべての音素に対して標本標準偏差を計算し、これを分布の広さの度合いとする独自の方法により、発音の明瞭さを数値化する。この値は上限がないため、得点にするときの適切な上限閾値を人手で設定する。従って、明瞭度評価部416は、各認識単語と、各認識単語に対応する時間情報と、入力音声信号に基づいて、F1、F2を軸とする座標平面上における各認識単語中の母音毎の座標の標本標準偏差(の逆数)に基づいて明瞭度評価値を計算して出力する(S416)。
本実施例の話し方評価装置4によれば、実施例1と同様に、入力音声信号に基づいて発話の聞き取りやすさを評価することができる。
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (9)

  1. 入力音声信号に基づいて、発話速度の緩急を評価した緩急評価値と、発話の抑揚を評価した抑揚評価値と、発話の明瞭度を評価した明瞭度評価値のうちいずれか一つ以上を計算し、前記緩急評価値、前記抑揚評価値、前記明瞭度評価値のうちいずれか一つ以上の値に加え、発話速度が所定範囲にある適正速度で発話された認識単語の全認識単語に対する割合である適正速度割合評価値と、発話音量が所定範囲にある適正音量で発話された認識単語の全認識単語に対する割合である適正音量割合評価値の何れか1つ以上を計算し、計算した値を音声評価値として出力する音声評価値計算部と、
    前記入力音声信号の音声認識結果に含まれる全認識単語に対する予め定めたフィラーに該当する認識単語の割合に基づいて言語評価値を計算し、当該言語評価値を出力する言語評価値計算部と、
    記計算された音声評価値に加え、前記言語評価値に基づいて、前記入力音声信号の総合得点を計算する得点計算部と、
    を含む話し方評価装置。
  2. 入力音声信号に基づいて、発話速度の緩急を評価した緩急評価値と、発話の抑揚を評価した抑揚評価値と、発話の明瞭度を評価した明瞭度評価値のうち、少なくとも前記緩急評価値を含む一つ以上の評価値を計算して、計算した値を音声評価値として出力する音声評価値計算部と、
    二つ以上の前記評価値が計算された場合に、前記音声評価値に基づいて、前記入力音声信号の総合得点を計算する得点計算部を含み、
    前記音声評価値計算部が、
    前記入力音声信号の音声認識結果である各認識単語のモーラ数を対応する前記各認識単語の発話時間で除算して、前記各認識単語の発話速度を計算する速度計算部と、
    前記各認識単語の発話速度の標本標準偏差を緩急評価値として出力する緩急評価部を含む
    話し方評価装置。
  3. 入力音声信号に基づいて、発話速度の緩急を評価した緩急評価値と、発話の抑揚を評価した抑揚評価値と、発話の明瞭度を評価した明瞭度評価値のうち、少なくとも前記緩急評価値を含む一つ以上の評価値を計算して、計算した値を音声評価値として出力する音声評価値計算部と、
    二つ以上の前記評価値が計算された場合に、前記音声評価値に基づいて、前記入力音声信号の総合得点を計算する得点計算部を含み、
    前記音声評価値計算部が、
    前記入力音声信号の音声認識結果である各認識単語のモーラ数を対応する前記各認識単語の発話時間で除算して、前記各認識単語の発話速度を計算する速度計算部と、
    所定の発話区間内における前記各認識単語の発話速度の最大値と最小値の差分を緩急評価値として出力する緩急評価部を含む
    話し方評価装置。
  4. 請求項1から3の何れかに記載の話し方評価装置であって、
    前記音声評価値計算部が、
    前記入力音声信号の音声認識結果である各認識単語に対応する各時刻情報と、前記入力音声信号とに基づいて、前記各認識単語の基本周波数、又はパワーを計算し、前記計算された基本周波数、又はパワーの標本標準偏差を前記抑揚評価値として出力する抑揚評価部を含む
    話し方評価装置。
  5. 請求項1から4の何れかに記載の話し方評価装置であって、
    前記音声評価値計算部が、
    前記入力音声信号の音声認識結果である各認識単語に対応する音声認識スコアに基づい
    て、1位の認識結果の対数尤度を、認識結果のNbest候補全ての対数尤度の総和で除算した事後確率に基づいて明瞭度評価値を計算して出力する明瞭度評価部を含む
    話し方評価装置。
  6. 請求項1から4の何れかに記載の話し方評価装置であって、
    前記音声評価値計算部が、
    前記入力音声信号の音声認識結果である各認識単語に対応する音声認識スコアに基づいて、音声認識スコアが1位と2位の音声認識結果の対数尤度の差に基づいて明瞭度評価値を計算して出力する明瞭度評価部を含む
    話し方評価装置。
  7. 入力音声信号に基づいて、発話速度の緩急を評価した緩急評価値と、発話の抑揚を評価した抑揚評価値と、発話の明瞭度を評価した明瞭度評価値のうちいずれか一つ以上を計算して、計算した値を音声評価値として出力する音声評価値計算部と、
    前記緩急評価値と、前記抑揚評価値と、前記明瞭度評価値のうち、何れか二つ以上が計算された場合に、前記音声評価値に基づいて、前記入力音声信号の総合得点を計算する得点計算部と、
    前記入力音声信号の音声認識結果である各認識単語と、前記各認識単語に対応する時間情報と、前記入力音声信号に基づいて、第1フォルマントと第2フォルマントを軸とする座標平面上における前記各認識単語中の音素毎の座標の標本標準偏差に基づいて明瞭度評価値を計算して出力する明瞭度評価部を含む
    話し方評価装置。
  8. 入力音声信号に基づいて、発話速度の緩急を評価した緩急評価値と、発話の抑揚を評価した抑揚評価値と、発話の明瞭度を評価した明瞭度評価値のうちいずれか一つ以上を計算し、前記緩急評価値、前記抑揚評価値、前記明瞭度評価値のうちいずれか一つ以上の値に加え、発話速度が所定範囲にある適正速度で発話された認識単語の全認識単語に対する割合である適正速度割合評価値と、発話音量が所定範囲にある適正音量で発話された認識単語の全認識単語に対する割合である適正音量割合評価値の何れか1つ以上を計算し、計算した値を音声評価値として出力する音声評価値計算ステップと、
    前記入力音声信号の音声認識結果に含まれる全認識単語に対する予め定めたフィラーに該当する認識単語の割合に基づいて言語評価値を計算し、当該言語評価値を出力する言語評価値計算ステップと、
    前記計算された音声評価値に加え、前記言語評価値に基づいて、前記入力音声信号の総合得点を計算する得点計算ステップと
    含む話し方評価方法。
  9. コンピュータを、請求項1から7の何れかに記載の話し方評価装置として機能させるためのプログラム。
JP2014076062A 2014-04-02 2014-04-02 話し方評価装置、話し方評価方法、プログラム Active JP6373621B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014076062A JP6373621B2 (ja) 2014-04-02 2014-04-02 話し方評価装置、話し方評価方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014076062A JP6373621B2 (ja) 2014-04-02 2014-04-02 話し方評価装置、話し方評価方法、プログラム

Publications (2)

Publication Number Publication Date
JP2015197621A JP2015197621A (ja) 2015-11-09
JP6373621B2 true JP6373621B2 (ja) 2018-08-15

Family

ID=54547313

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014076062A Active JP6373621B2 (ja) 2014-04-02 2014-04-02 話し方評価装置、話し方評価方法、プログラム

Country Status (1)

Country Link
JP (1) JP6373621B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7306626B2 (ja) * 2019-08-13 2023-07-11 日本電信電話株式会社 予測装置、予測方法及び予測プログラム
US11848025B2 (en) 2020-01-17 2023-12-19 ELSA, Corp. Methods for measuring speech intelligibility, and related systems and apparatus
US20240013798A1 (en) * 2020-11-13 2024-01-11 Nippon Telegraph And Telephone Corporation Conversion device, conversion method, and conversion program
JP2022082049A (ja) * 2020-11-20 2022-06-01 パナソニックIpマネジメント株式会社 発話評価方法および発話評価装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143488A (ja) * 1997-11-10 1999-05-28 Hitachi Ltd 音声認識装置
JP4635743B2 (ja) * 2005-06-27 2011-02-23 日産自動車株式会社 音声対話装置及び音声理解結果生成方法

Also Published As

Publication number Publication date
JP2015197621A (ja) 2015-11-09

Similar Documents

Publication Publication Date Title
KR102509464B1 (ko) 발언 분류기
US9536525B2 (en) Speaker indexing device and speaker indexing method
US8825479B2 (en) System and method for recognizing emotional state from a speech signal
EP2363852B1 (en) Computer-based method and system of assessing intelligibility of speech represented by a speech signal
US12027165B2 (en) Computer program, server, terminal, and speech signal processing method
US20060253285A1 (en) Method and apparatus using spectral addition for speaker recognition
JP6373621B2 (ja) 話し方評価装置、話し方評価方法、プログラム
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
CN112802456A (zh) 一种语音评测打分方法、装置、电子设备及存储介质
Eringis et al. Improving speech recognition rate through analysis parameters
Přibil et al. GMM-based speaker gender and age classification after voice conversion
Revathy et al. Performance comparison of speaker and emotion recognition
Hämäläinen et al. Improving speech recognition through automatic selection of age group–specific acoustic models
JP5091202B2 (ja) サンプルを用いずあらゆる言語を識別可能な識別方法
JP2021099454A (ja) 音声合成装置、音声合成プログラム及び音声合成方法
Kurian et al. Connected digit speech recognition system for Malayalam language
KR102274751B1 (ko) 평가정보를 제공하는 사용자 맞춤형 발음 평가 시스템
JP2016102860A (ja) 音声加工装置、及びプログラム
Islam et al. Bangla dataset and MMFCC in text-dependent speaker identification.
Dutta et al. A comparative study on feature dependency of the Manipuri language based phonetic engine
Marković et al. Recognition of normal and whispered speech based on RASTA filtering and DTW algorithm
Jeyalakshmi et al. Integrated models and features-based speaker independent emotion recognition
Medhi et al. Different acoustic feature parameters ZCR, STE, LPC and MFCC analysis of Assamese vowel phonemes
KR101250051B1 (ko) 발음 교정을 위한 음성 신호 분석 방법 및 장치
Islam Frequency domain linear prediction-based robust text-dependent speaker identification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160714

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170704

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170807

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180206

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180717

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180718

R150 Certificate of patent or registration of utility model

Ref document number: 6373621

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150