JP6373621B2 - 話し方評価装置、話し方評価方法、プログラム - Google Patents
話し方評価装置、話し方評価方法、プログラム Download PDFInfo
- Publication number
- JP6373621B2 JP6373621B2 JP2014076062A JP2014076062A JP6373621B2 JP 6373621 B2 JP6373621 B2 JP 6373621B2 JP 2014076062 A JP2014076062 A JP 2014076062A JP 2014076062 A JP2014076062 A JP 2014076062A JP 6373621 B2 JP6373621 B2 JP 6373621B2
- Authority
- JP
- Japan
- Prior art keywords
- evaluation value
- speech
- evaluation
- value
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Description
参考非特許文献1によれば、話し言葉の発話速度は400[字/s]程度である。これから、通常の発話速度は400[モーラ/s]程度であると仮定できる。また、発明者が実施した音声聞き取りの主観評価実験において、通常の発話速度の1/3倍以下もしくは2倍以上になると発話が極端に聞き取りづらくなるという知見が得られている。そこで、適正速度を定義する下限閾値Aを通常の発話速度として仮定した400[モーラ/s]の1/3倍の133.3[モーラ/s]とし、適正速度を定義する上限閾値Bを通常の発話速度として仮定した400[モーラ/s]の2倍の800[モーラ/s]と設定することができる。
(参考非特許文献1:隠田亮介、真貝晃平、多田千里、明神学、平井佑樹、金子敬一、「2者間におけるコミュニケーションデータを利用した会話支援システムの試作」、情報処理学会シンポジウム論文集、一般社団法人情報処理学会、平成25年8月11日、第2013巻、第2号、pp.169-172)
(参考非特許文献2:鵜木祐史、石本祐一、赤木正人、「残響音声からの基本周波数推定に関する検討」、北陸先端科学技術大学院大学情報科学研究科リサーチレポート、北陸先端科学技術大学院大学情報科学研究科、平成17年3月28日、第IS-RR-2005-007巻、pp.1-27)
(音圧がC以上かつD以下となる発話区間の合計時間)/(直近T分に相当する時間)
として適正音量割合評価値を計算する。閾値C、Dは人手で与えることができる。
人間が聞き取れる最低音圧である「最小可聴レベル」が周波数ごとに存在する。800[Hz]以下では周波数が低いほど最小可聴レベルが大きい、すなわち低い音ほど音が大きくないと聞こえない。人間の声の周波数は300〜700[Hz]の範囲に含まれる。最低周波数の300[Hz]の音声が聞こえる程度の音圧があれば、それ以上の周波数の音声も聞こえることになる。そこで、例えば音圧の下限閾値Cを300[Hz]における最小可聴レベル値である10[dB]程度に設定することができる。一方、音圧の上限閾値Dは、例えば、大声による独唱、騒々しい工場内での音圧など、多くの人間が「騒々しい」と感じる音圧である90[dB]と設定することができる。
前述した言語評価値計算部12が実行するステップS12について、その処理の詳細を説明する。発話中に「えー」や「あー」などの不要語(フィラーという)が多く含まれる話し方は聞き取りづらいことが知られている。そこで、言語評価値計算部12は、直近T分間の全認識単語中のフィラーに該当する認識単語の数を数え、直近T分間の全認識単語数で割ることによって、全体に対するフィラーの割合を算出し、当該割合を言語評価値として出力する。フィラーは予め定めておく必要がある。例えばフィラーを「あっ、あのー、い、う、えー、えーと、お、そのー、ま、ん、このー、で」の12個と設定することができる。フィラーの数え方は、全認識単語について、その文字列が上の12個にマッチするかどうかで判定させる。
以下、図6、図7を参照して得点計算部13の処理の詳細について説明する。図6は、本実施例の話し方評価装置1の得点計算部13の構成を示すブロック図である。図7は、本実施例の話し方評価装置1の得点計算部13の動作を示すフローチャートである。図6に示すように、本実施例の話し方評価装置1の得点計算部13は、正規化部131と、重みづけ加算部132を含む。正規化部131は、上述のステップS113〜S117、およびS12において計算された緩急評価値、適正速度割合評価値、抑揚評価値、明瞭度評価値、適正音量割合評価値、言語評価値を、それぞれのスコアの最大値が100点になるように補正する。評価値のうち、抑揚評価値、緩急評価値は標本標準偏差であるため理論上の数値の上限は存在しない。また、明瞭度評価値を確率密度関数の対数尤度として計算する場合、同様に理論上の数値の上限は存在しない。このため、これらの評価値に対しては、適切な上限閾値を人手で設定しておく。各スコアが上限閾値ぴったりの値の時に100点となり、0の時に0点となるように適切な係数を乗算することによって、正規化することができる。なおスコアが閾値以上になった場合は100点で固定する。また、評価値のうち、適正速度割合評価値、適正音量割合評価値、言語評価値については比率(割合)として計算されるため、これらの評価値は0以上1以下の値になる。よって、これらの評価値については100倍することによって正規化することができる。
前述したように、評価値の計算に用いる音声の区間については、直近T分間とすることができ、例えばT=5(300秒)とすることができる。これ以外にも、例えば、プレゼンテーションなどを評価する場合に、事前に設定した時間区間を重複させながらずらしていくことで、(例えば、T=5とした場合に、2分間は重複)設定した時間区間より短い時間単位(例えば3分ごと)で得点を出力してもよいし、プレゼンテーションなどの最初から最後までを対象として一回のみ評価を行うこととしてもよい。これまで、すべての評価値を使う場合で説明したが、請求項1に記載した3つの評価値のうちいずれか1つ以上を使うことで、従来は用いられなかった尺度を使って発話の聞き取りやすさのより適切な評価ができる。
以下、図8、図9を参照して、実施例1の変形例である変形例1の話し方評価装置1aについて説明する。図8は、本変形例の話し方評価装置1aの音声評価値計算部11aの構成を示すブロック図である。図9は、本変形例の話し方評価装置1aの音声評価値計算部11aの動作を示すフローチャートである。図1に示したように、本変形例の話し方評価装置1aは、音声評価値計算部11aと、言語評価値計算部12と、得点計算部13を含み、実施例1との相違点は、実施例1における音声評価値計算部11が本変形例において音声評価値計算部11aに変更されている点のみである。図8に示すように、本変形例の音声評価値計算部11aは、音声認識部111と、速度計算部112と、緩急評価部113aと、適正速度割合評価部114と、抑揚評価部115と、明瞭度評価部116と、適正音量割合評価部117を含み、実施例1との相違点は、実施例1における緩急評価部113が本変形例において緩急評価部113aに変更されている点のみである。以下、実施例1との相違点についてのみ説明する。緩急評価部113aは、直近T分間の全認識単語の発話速度のうち最大値と最小値の差を取る方法で緩急評価値を計算する。緩急は、どれだけ速度が変動するかで評価できるためである。より具体的には、緩急評価部113aは、所定の発話区間内(直近T分)における各認識単語の発話速度の最大値と最小値の差分を緩急評価値として出力する(S113a)。
Claims (9)
- 入力音声信号に基づいて、発話速度の緩急を評価した緩急評価値と、発話の抑揚を評価した抑揚評価値と、発話の明瞭度を評価した明瞭度評価値のうちいずれか一つ以上を計算し、前記緩急評価値、前記抑揚評価値、前記明瞭度評価値のうちいずれか一つ以上の値に加え、発話速度が所定範囲にある適正速度で発話された認識単語の全認識単語に対する割合である適正速度割合評価値と、発話音量が所定範囲にある適正音量で発話された認識単語の全認識単語に対する割合である適正音量割合評価値の何れか1つ以上を計算し、計算した値を音声評価値として出力する音声評価値計算部と、
前記入力音声信号の音声認識結果に含まれる全認識単語に対する予め定めたフィラーに該当する認識単語の割合に基づいて言語評価値を計算し、当該言語評価値を出力する言語評価値計算部と、
前記計算された音声評価値に加え、前記言語評価値に基づいて、前記入力音声信号の総合得点を計算する得点計算部と、
を含む話し方評価装置。 - 入力音声信号に基づいて、発話速度の緩急を評価した緩急評価値と、発話の抑揚を評価した抑揚評価値と、発話の明瞭度を評価した明瞭度評価値のうち、少なくとも前記緩急評価値を含む一つ以上の評価値を計算して、計算した値を音声評価値として出力する音声評価値計算部と、
二つ以上の前記評価値が計算された場合に、前記音声評価値に基づいて、前記入力音声信号の総合得点を計算する得点計算部を含み、
前記音声評価値計算部が、
前記入力音声信号の音声認識結果である各認識単語のモーラ数を対応する前記各認識単語の発話時間で除算して、前記各認識単語の発話速度を計算する速度計算部と、
前記各認識単語の発話速度の標本標準偏差を緩急評価値として出力する緩急評価部を含む
話し方評価装置。 - 入力音声信号に基づいて、発話速度の緩急を評価した緩急評価値と、発話の抑揚を評価した抑揚評価値と、発話の明瞭度を評価した明瞭度評価値のうち、少なくとも前記緩急評価値を含む一つ以上の評価値を計算して、計算した値を音声評価値として出力する音声評価値計算部と、
二つ以上の前記評価値が計算された場合に、前記音声評価値に基づいて、前記入力音声信号の総合得点を計算する得点計算部を含み、
前記音声評価値計算部が、
前記入力音声信号の音声認識結果である各認識単語のモーラ数を対応する前記各認識単語の発話時間で除算して、前記各認識単語の発話速度を計算する速度計算部と、
所定の発話区間内における前記各認識単語の発話速度の最大値と最小値の差分を緩急評価値として出力する緩急評価部を含む
話し方評価装置。 - 請求項1から3の何れかに記載の話し方評価装置であって、
前記音声評価値計算部が、
前記入力音声信号の音声認識結果である各認識単語に対応する各時刻情報と、前記入力音声信号とに基づいて、前記各認識単語の基本周波数、又はパワーを計算し、前記計算された基本周波数、又はパワーの標本標準偏差を前記抑揚評価値として出力する抑揚評価部を含む
話し方評価装置。 - 請求項1から4の何れかに記載の話し方評価装置であって、
前記音声評価値計算部が、
前記入力音声信号の音声認識結果である各認識単語に対応する音声認識スコアに基づい
て、1位の認識結果の対数尤度を、認識結果のNbest候補全ての対数尤度の総和で除算した事後確率に基づいて明瞭度評価値を計算して出力する明瞭度評価部を含む
話し方評価装置。 - 請求項1から4の何れかに記載の話し方評価装置であって、
前記音声評価値計算部が、
前記入力音声信号の音声認識結果である各認識単語に対応する音声認識スコアに基づいて、音声認識スコアが1位と2位の音声認識結果の対数尤度の差に基づいて明瞭度評価値を計算して出力する明瞭度評価部を含む
話し方評価装置。 - 入力音声信号に基づいて、発話速度の緩急を評価した緩急評価値と、発話の抑揚を評価した抑揚評価値と、発話の明瞭度を評価した明瞭度評価値のうちいずれか一つ以上を計算して、計算した値を音声評価値として出力する音声評価値計算部と、
前記緩急評価値と、前記抑揚評価値と、前記明瞭度評価値のうち、何れか二つ以上が計算された場合に、前記音声評価値に基づいて、前記入力音声信号の総合得点を計算する得点計算部と、
前記入力音声信号の音声認識結果である各認識単語と、前記各認識単語に対応する時間情報と、前記入力音声信号に基づいて、第1フォルマントと第2フォルマントを軸とする座標平面上における前記各認識単語中の音素毎の座標の標本標準偏差に基づいて明瞭度評価値を計算して出力する明瞭度評価部を含む
話し方評価装置。 - 入力音声信号に基づいて、発話速度の緩急を評価した緩急評価値と、発話の抑揚を評価した抑揚評価値と、発話の明瞭度を評価した明瞭度評価値のうちいずれか一つ以上を計算し、前記緩急評価値、前記抑揚評価値、前記明瞭度評価値のうちいずれか一つ以上の値に加え、発話速度が所定範囲にある適正速度で発話された認識単語の全認識単語に対する割合である適正速度割合評価値と、発話音量が所定範囲にある適正音量で発話された認識単語の全認識単語に対する割合である適正音量割合評価値の何れか1つ以上を計算し、計算した値を音声評価値として出力する音声評価値計算ステップと、
前記入力音声信号の音声認識結果に含まれる全認識単語に対する予め定めたフィラーに該当する認識単語の割合に基づいて言語評価値を計算し、当該言語評価値を出力する言語評価値計算ステップと、
前記計算された音声評価値に加え、前記言語評価値に基づいて、前記入力音声信号の総合得点を計算する得点計算ステップと、
を含む話し方評価方法。 - コンピュータを、請求項1から7の何れかに記載の話し方評価装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014076062A JP6373621B2 (ja) | 2014-04-02 | 2014-04-02 | 話し方評価装置、話し方評価方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014076062A JP6373621B2 (ja) | 2014-04-02 | 2014-04-02 | 話し方評価装置、話し方評価方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015197621A JP2015197621A (ja) | 2015-11-09 |
JP6373621B2 true JP6373621B2 (ja) | 2018-08-15 |
Family
ID=54547313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014076062A Active JP6373621B2 (ja) | 2014-04-02 | 2014-04-02 | 話し方評価装置、話し方評価方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6373621B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7306626B2 (ja) * | 2019-08-13 | 2023-07-11 | 日本電信電話株式会社 | 予測装置、予測方法及び予測プログラム |
US11848025B2 (en) | 2020-01-17 | 2023-12-19 | ELSA, Corp. | Methods for measuring speech intelligibility, and related systems and apparatus |
US20240013798A1 (en) * | 2020-11-13 | 2024-01-11 | Nippon Telegraph And Telephone Corporation | Conversion device, conversion method, and conversion program |
JP2022082049A (ja) * | 2020-11-20 | 2022-06-01 | パナソニックIpマネジメント株式会社 | 発話評価方法および発話評価装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11143488A (ja) * | 1997-11-10 | 1999-05-28 | Hitachi Ltd | 音声認識装置 |
JP4635743B2 (ja) * | 2005-06-27 | 2011-02-23 | 日産自動車株式会社 | 音声対話装置及び音声理解結果生成方法 |
-
2014
- 2014-04-02 JP JP2014076062A patent/JP6373621B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015197621A (ja) | 2015-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102509464B1 (ko) | 발언 분류기 | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
US8825479B2 (en) | System and method for recognizing emotional state from a speech signal | |
EP2363852B1 (en) | Computer-based method and system of assessing intelligibility of speech represented by a speech signal | |
US12027165B2 (en) | Computer program, server, terminal, and speech signal processing method | |
US20060253285A1 (en) | Method and apparatus using spectral addition for speaker recognition | |
JP6373621B2 (ja) | 話し方評価装置、話し方評価方法、プログラム | |
JP2001166789A (ja) | 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置 | |
CN112802456A (zh) | 一种语音评测打分方法、装置、电子设备及存储介质 | |
Eringis et al. | Improving speech recognition rate through analysis parameters | |
Přibil et al. | GMM-based speaker gender and age classification after voice conversion | |
Revathy et al. | Performance comparison of speaker and emotion recognition | |
Hämäläinen et al. | Improving speech recognition through automatic selection of age group–specific acoustic models | |
JP5091202B2 (ja) | サンプルを用いずあらゆる言語を識別可能な識別方法 | |
JP2021099454A (ja) | 音声合成装置、音声合成プログラム及び音声合成方法 | |
Kurian et al. | Connected digit speech recognition system for Malayalam language | |
KR102274751B1 (ko) | 평가정보를 제공하는 사용자 맞춤형 발음 평가 시스템 | |
JP2016102860A (ja) | 音声加工装置、及びプログラム | |
Islam et al. | Bangla dataset and MMFCC in text-dependent speaker identification. | |
Dutta et al. | A comparative study on feature dependency of the Manipuri language based phonetic engine | |
Marković et al. | Recognition of normal and whispered speech based on RASTA filtering and DTW algorithm | |
Jeyalakshmi et al. | Integrated models and features-based speaker independent emotion recognition | |
Medhi et al. | Different acoustic feature parameters ZCR, STE, LPC and MFCC analysis of Assamese vowel phonemes | |
KR101250051B1 (ko) | 발음 교정을 위한 음성 신호 분석 방법 및 장치 | |
Islam | Frequency domain linear prediction-based robust text-dependent speaker identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160714 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170616 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170704 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170807 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170809 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180206 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180322 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180717 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180718 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6373621 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |