JP2006267465A - 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体 - Google Patents

発話状態評価装置、発話状態評価プログラム、プログラム格納媒体 Download PDF

Info

Publication number
JP2006267465A
JP2006267465A JP2005084639A JP2005084639A JP2006267465A JP 2006267465 A JP2006267465 A JP 2006267465A JP 2005084639 A JP2005084639 A JP 2005084639A JP 2005084639 A JP2005084639 A JP 2005084639A JP 2006267465 A JP2006267465 A JP 2006267465A
Authority
JP
Japan
Prior art keywords
utterance
sound pressure
score
speech
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005084639A
Other languages
English (en)
Inventor
Toshiaki Ishii
利明 石井
Eiji Hirata
英二 平田
Matsumi Suzuki
松美 鈴木
So Suzuki
創 鈴木
Yasushi Yoshida
靖 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NIPPON ONKYO KENKYUSHO KK
Tokyo Electric Power Company Holdings Inc
Original Assignee
NIPPON ONKYO KENKYUSHO KK
Tokyo Electric Power Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NIPPON ONKYO KENKYUSHO KK, Tokyo Electric Power Co Inc filed Critical NIPPON ONKYO KENKYUSHO KK
Priority to JP2005084639A priority Critical patent/JP2006267465A/ja
Publication of JP2006267465A publication Critical patent/JP2006267465A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】発話の適正さを定量評価する。
【解決手段】人の発話音声のデジタル音声データから音圧と基本周波数と単位時間当たりの周波数分析結果を示す特徴パラメータとを取得する手段と、所定の時間間隔ごとに測定期間を設定する手段と、測定期間における平均音圧を求める手段と、測定期間における平均基本周波数を求める手段と、音圧レベルに応じて発話状態と無音状態とを認識するとともに、無音状態によって区切られる複数の発話状態の発現時間間隔に基づいて発話速度を測定期間毎に求める手段と、音声特徴取得手段が随時抽出する音圧レベルが基準値以下となっている状態が所定時間以上継続した状態を間(ま)として認識し、当該間以外の状態を発話状態として認識する手段と、前記測定期間に占める前記間の時間割合を求める手段と、を備えた発話状態評価装置とした。
【選択図】 図1

Description

この発明は人が発話したときの音声信号に基づいて、発話の適正さを評価する発話状態評価装置に関する。
例えば、コールセンターのオペレータは、顧客と電話で会話しながら、顧客の意見やクレーム聴き、適切に回答する。しかし、オペレータに要求される最も重要な事項は、顧客との信頼関係を築くことにある。オペレータが顧客との信頼関係を構築するためには、適切な言葉遣いをすることはもちろん、顧客に好印象を与えるような発話状態で会話をすることが必要である。例えば、適切な言葉使いで適切な回答を顧客に与えたとしても、その話し方に誠意や熱意、あるいは知性などが感じられなければ、信頼関係は築けず、却って不信感を募らせる。
話者の発話の特徴を抽出する音声分析技術は、周知の音声認識などに応用されている(例えば、特許文献1参照)。音声に含まれる種々の特性を分析するための専用の音声分析システムもある(例えば、Kay Elemetrics Crp.製、CSL Computerized Speech Lab Model 4500など)。この音声分析装置によれば、入力した音声信号から音の特徴情報を抽出し、基本周波数(ピッチ)や音圧レベルの時間遷移、周知の音声信号をフーリエ変換して得られる単位時間当たりの周波数分析結果を示す特徴パラメータなどをグラフにして音声に含まれる種々の特性を可視化して表示出力することができる。
特開平4−264598号公報
周知の音声分析技術によれば、話者の音声の特徴や時間的変化を具体的なデータとして取り出せる。音圧や基本周波数の時間変位や、特徴パラメータなどを可視化することができる。しかし、音声分析技術により取り出した個々のデータのみに基づいて「発話の適正さ」自体を客観的に検証・評価することはできない。
従来、発話の適正さは、発話状態を人が聞いて、話し方に熱意がある、間の取り方が適切、発音が明瞭、などの評価項目ごとに評価していた。例えば、コールセンターのオペレータの適正や顧客対応能力を評価する場合、企業のコールセンター業務における責任者など、オペレータ教育や顧客対応技能に秀でた専門家が、オペレータとの面接や実際のオペレータ業務(顧客との通話状況)を観察し、上記評価項目毎にあらかじめ設けられた評価基準に基づいて「発話の適正さ」を「主観的」に評価している。
しかしコールセンターでは、個々のオペレータだけでなく、顧客対応技能をコールセンター全体で高いレベルで均一化する必要があり、発話の適正さを人間が評価していては、個々のオペレータのスキルのばらつきを正確に把握することが難しい。また、オペレータに対し、技能向上のための努力目標を提示したり、達成感を実感させたりする上でも、具体的に「発話の仕方がどのようなもので、それが、どのくらい劣っているのか、あるいは優れているのか」など、客観的な指標となり得る情報がない。オペレータは、自身のスキルの程度を確実に実感できる客観的データが無ければ、効果的にスキルを向上させることはできない。
本発明者らは、発明の適正さの機械評価を試みた。そして、この試みのために用意されたコールセンターにおけるオペレータと顧客との電話による会話の録音音声を企業におけるコールセンター部門の責任者など、顧客との応対技術に秀でた複数の人間に何度もその録音音声を試聴してもらい、オペレータの発話の適正さを複数の評価項目について評価してもらった。その一方で、録音音声のサンプリングデータから抽出される音の特徴情報(音圧レベル、周波数、特徴パラメータなど)を詳細かつ多角的に解析した。そして、上記評価項目毎に特徴情報の時間変化や強度分布などに所定の規則性(パターン)らしきものがあることを見出した。
さらに、発話の適正さとは、上記各評価項目毎に、複数の特徴情報やその特徴情報から2次的に抽出・算出される情報を適宜に組み合わせたり、各評価項目毎に各情報の基準値を個別に設定したりするなど、複雑な評価手法を採用する必要があることも知見できた。そして、上記パターンや評価手法に基づいて、発話の適正さを機械評価するアルゴリズムを開発し、機械による評価結果と複数の専門家による主観評価とを比較した結果、双方の一致を見た。
本発明は、上記知見に基づきなされたもので、その目的は、音声分析技術によりえられた発話音声における様々な情報から「発話の適正さ」を定量評価する発話状態評価装置を提供することにある。
上記目的を達成するための本発明は、発話の適正さを評価する発話状態評価装置であって、その基本発明は、
マイクロホンから採取した人の発話音声をサンプリングして得たデジタル音声データから、音圧と、基本周波数とを抽出するとともに、デジタル音声データをフーリエ変換して得た単位時間当たりの周波数分析結果を特徴パラメータとして取得する音声特徴取得手段と、
所定の時間間隔ごとに測定期間を設定する測定期間設定手段と、
測定期間における平均音圧を求める平均音圧取得手段と、
測定期間における平均基本周波数を求める平均基本周波数取得手段と、
音声特徴取得手段が随時抽出する音圧レベルに応じて発話状態と無音状態とを認識するとともに、無音状態によって区切られる複数の発話状態の発現時間間隔に基づいて発話速度を測定期間毎に求める話速取得手段と、
音声特徴取得手段が随時抽出する音圧レベルが基準値以下となっている状態が所定時間以上継続した状態を間(ま)として認識し、当該間以外の状態を発話状態として認識する間認識手段と、
前記測定期間に占める前記間の時間割合を求める間割合取得手段と、
を備え発話状態評価装置としている。
また、本発明は上記基本発明において、さらに、以下の要件(1)〜(6)のいずれかを備えた発話状態評価装置とすることもできる。
(1)発話速度の数値範囲に応じて発話速度の適正さを段階的に評価し、その評価結果を適宜に出力する。
(2)発話速度の数値範囲に応じた点数と、間の割合の数値範囲に応じた点数とを取得するとともに、これら点数の合計点に基づいて、発話の間の適正さを段階的に評価し、その評価結果を適宜に出力する。
(3)基本周波数の上下幅の数値範囲に応じた点数と、音圧の上下幅に数値範囲に応じた点数と、特徴パラメータの数値範囲に応じた点数とを取得するとともに、これら点数の合計点に基づいて、発話の明瞭さを段階的に評価し、その評価結果を適宜に出力する。
(4)前記間認識手段が認識した発話状態の期間について、当該発話状態期間が終了するまでの所定時間を語尾とするとともに、語尾における音声レベルの平均値と基本周波数の平均値と特徴パラメータの平均値とを取得し、複数の語尾の特徴のそれぞれについて個別に定義されている複数の前記平均値の数値範囲と点数との対応関係に基づいて、各語尾の特徴毎に各平均値に対応する点数を合計し、その合計点が最も高い語尾の特徴を評価結果として適宜に出力する。
(5)測定期間における間認識手段が認識した発話状態にある期間について、音圧レベルの平均値に応じた点数と、基本周波数の平均に応じた点数と、特徴パラメータ値の平均値に応じた点数とを取得するとともに、これらの点数の合計点に応じて段階的に語気の適正さを評価し、その評価結果を適宜に出力する。
(6)基本周波数の上下幅の数値範囲に応じた点数を取得するとともに、この点数に基づいて抑揚の適正さを段階的に評価し、その評価結果を適宜に出力する。
また本発明は、コンピュータプログラムにも及んでおり、当該プログラムは、コンピュータにインストールされて実行されることで、当該コンピュータを上記基本発明の発話状態評価装置、あるいは基本発明にさらに上記要件(1)〜(6)のいずれかを備えた発話状態評価装置として機能させる発話状態評価プログラムとしている。また、この発話状態評価プログラムを記録したプログラム格納媒体も本発明の範囲とした。
本発明の発話状態評価装置によれば、発話の適正さを定量評価することができる。
===「発話の適正さ」の定量評価について===
発話の適正さは、音響出力された人の発話状態を学識経験者や専門家が試聴することで判断することができる。しかし、その判断結果を実際に数値として出力しない限り、コールセンター業務におけるオペレータのスキルを客観的に評価したり、技能向上のための目標を具体的に提示したりすることができない。
そこで本発明者らは、コールセンターのオペレータが顧客と電話で会話したときの発話音声を音響出力しながら、音声分析装置が出力する音の特性に関する各種グラフのパターンの傾向を検討した。学識経験者や専門家が、所定の特徴情報の時間変位状態との相関関係を求め、感情や発話の適正さを定量化した。本発明の発話状態評価装置は、上記方法により知見した相関関係に基づいて発話音声から複数の項目について発話の適正さを評価し、その評価結果を数値化して出力するものである。
===発話状態評価装置の構成===
本発明の発話状態評価装置は、例えば、オーディオカードが実装されたパーソナルコンピュータをハードウエアとし、そのコンピュータにインストールされた音声分析技術を適用して発話の適正さを評価するための専用アプリケーションプログラム(以下、分析ソフト)を実行することで実現される。
図1に本発明の本実施例における発話状態評価装置の機能ブロック構成を示した。オーディオ信号処理部10は、上記ハードウエア構成では、コンピュータに実装されたサウンドカードに相当する。オーディオ信号処理部10は、マイクロホン11から入力した発話者の音声信号をA/D変換してデジタル音声データを出力する。具体的には、サンプリング周波数8kHz、量子化数16bit、1チャンネル(モノラル)でサンプリングしたデジタル音声データに変換する。
音声分析部20は、分析ソフトによるデジタル音声データ処理に相当し、オーディオ信号処理部10から順次転送されてくるデジタル音声データから基本周波数(ピッチ)、音圧レベルなどの音の特徴情報を抽出する機能21と、その特徴情報と特徴情報に基づいて求められる発話や間(ま)の持続時間、間の時間割合、特徴パラメータなどの2次情報とを音声分析パラメータとして取得する機能22などを含んでいる。本実施例では、各音声分析パラメータのそれぞれについての重み付けや限定条件などを初期設定パラメータとし、その初期設定パラメータがユーザインタフェース40におけるキーボードやマウスなどの操作入力部41を介して入力されると、そのパラメータを所定形式のファイル(初期設定ファイル)52としてコンピュータの外部記憶50に記憶する。
そして、音声分析部20は、特定の音声分析パラメータと対応する初期設定パラメータとに基づいて、音声分析パラメータを抽出/取得するとともに、その音声分析パラメータに基づいて各種発話状態(発話の適正さ:発話速度、間の時間割合、明瞭さ、語尾の発音特徴など、感情:怒りや困惑など)を抽出する機能23と、抽出した各種発話状態についての程度や評価結果を求める機能24とを備えている。音声分析部20から出力される評価結果は、評価結果出力部30により、評価結果に相当するデータを適宜な形式のデータ(テキストや数値など)に変換し、例えば、ユーザインタフェース40の出力装置(表示装置、印刷装置など)42や外部記憶50に評価結果ファイル53として出力する。もちろん、音声信号出力や評価結果に相当するデータを他のコンピュータへ転送するなど、評価結果は、適宜な装置に、あるいは適宜な形式で出力することもできる。
なお、音声分析部20は、オーディオ信号処理部10にてリアルタイムでサンプリングされたデジタル音声データの他に、外部記憶50に記録されているWAV形式などの所定形式の録音済み音声データファイル51も処理対象とすることができる。また、マイクロホン11から採取された発話音声を音声データファイル50に作成して記録する機能25も備えている。
===音声分析パラメータ===
音声分析部20は、サンプリング周期毎に採取されるデジタル音声データの時間変位から、特徴情報を抽出する。本実施例では、デジタル音声データの時系列をサンプリング周期より充分い長い期間(例えば、数秒間)を測定期間として区切り、各測定期間におけるデジタル音声データの時系列から、平均ピッチA、平均音圧レベルB、発話持続時間C、間の持続時間D、間の全体割合E、特徴パラメータF、発話速度Gを音声分析パラメータとして取得する。図2に測定期間の概念を示した。ある測定期間の終了時点と次の測定期間の開始時点とを時系列上で重複させることで、判定を均一化させている。また本実施例では、発話を開始した当初は、話者の感情や話し方が安定していると見なし、デジタル音声データにおける上記時系列において、最初あるいは初期の所定の測定期間、あるいは初期の所定回数分の測定期間に相当分を基準音声としている。そして、基準音声から取得される上記各分析パラメータの値を基準値として採用している。以下に各音声分析パラメータについて説明する。
<ピッチ(A)>
音声の基本周波数(Hz)で、声の第1 倍音である。基準音声の平均ピッチをASとする。測定期間あるいは所定の期間におけるピッチの平均値(平均ピッチ)をAとする。
<音圧レベル(B)>
基準音声の平均音圧レベル(基準音圧レベル)をBSとする。単位はdB(デシベル)であり、基準となる音圧を20μPaとし、音圧レベル値は、基準音圧レベルBSに対する倍数で示される。測定期間あるいは所定の期間における音圧レベルの平均値(平均音圧レベル)をBとする。
<持続時間(C)>
一連の発話が続いている時間、音声群の持続時間を音圧の閾値より算出する。デジタル音声データから抽出される音圧レベルの時間変位より求める。単語、音節、文章のそれぞれの会話終了後、所定時間(例えば、0.3 秒間)閾値以下の音圧レベルであれば、無音と判断する。なお、音圧レベルの閾値はユーザ入力により設定可能となっている。
<間の持続時間(D)>
会話において発話していない時間。すなわち、音圧レベルが上記ユーザ入力された音圧レベルの閾値以下で上記所定時間以上継続した状態を「間(ま)」とし、その間の持続時間を求める。
一般に、どんなに「通る声」でリズミカルに話をしたとしても、この「間」がとれない人はコミュニケーションを円滑に進めることができないと考えられている。コミュニケーションは本来双方向的なものであるから、相手の話を聞くことは当然、反応を確認することも重要である。「間」は、会話中の相づちに相当し、適切な間がとれてこそ、相手に安心感や話者への信頼感を高めることができる。
また、「間」は話者の精神的なゆとりも反映している。したがって、「間」を駆使できる人とは、精神的に強靱で、余裕のある人といえる。本実施例の発話状態評価装置は、本来会話の中で感覚的に認識されていた「間」を定量的なパラメータとして規定することができる。
<間の全体割合(E)>
間の割合基準値をESとする。会話の持続時間Cと間の持続時間Dから間の全体割合をE=D/(C+D)により算出する。
「会話」と「間」のバランスは、リズミカルに話しているかどうかの指標となり得る。話し手がリズムのない話し方をすると、聞き手は話の流れに乗りづらい。話の内容が興味深いものでなかぎり、会話が苦痛なものになってくる。逆に話し方にリズムがあると、少々難しい話であっても耳を傾けられる。リズミカルに話すためには、音節のひとつひとつを一定のリズムに乗って発声することが必要となる。発声状態評価装置は、このリズミカルに話しているかどうかを、間の割合という音声分析パラメータによって定量評価している。
<特徴パラメータ(F)>
単位時間あたりの周波数を分析したものであり、話者のデジタル音声データをフーリエ変換することにより算出する。なお、特徴パラメータ基準値をFSとする。周知の通り、人間の声に含まれる周波数は、60Hz〜1 万数千Hz まで広がっている。また、人の声の周波数を分析することで、話者の性別、年齢、身長、職業意識、体調等を読みとることができる。コールセンターのオペレータの適正を判断する際には、周波数分析を利用することにより、「通る声」かどうかを判定することが可能となる。
図3に人間の聴覚特性を示した。「通る声」は、腹式発声ができていることが前提となり、腹式発声ができていると、声の周波数は2500Hz〜3000Hz周辺に集まってくる。これは腹式発声の場合、肺からの空気が一定に声帯を振動させるので不安定要素が少なくなり、その結果、声帯の振動がスムーズに行われるため周波数が安定してくるからである。この「通る声」の周波数帯は、人間の聴覚特性上、最も感度が高く、情報伝達にとっての第一条件ともいうべき「相手に聞こえる」という点で非常に有効である。逆に充分な肺活量なしに発声した場合では、空気の流れが乱れるため声帯の振動が一定にならず、周波数も不規則に乱れるという現象が起こる。なお、本実施例では、サンプリング周波数が8kHzであることから、分析可能な周波数の上限は4000Hzとなる。
<発話速度(G)>
図4に発話速度の計測概念を示した。発話速度は、音圧レベルが上記音圧レベルの閾値以下になった時点60を境界とし、次の境界までを「発語の要素」61と定義する。そして、単位時間当たりの発語の要素61の数を発話速度としている。なお、発話速度基準値をGSとする。
===発話の適正さ===
発話装置評価装置1は、発話の適正さとして、発話速度の適正さ、発話の間の適正さ、発話の明瞭さ、語尾の発音の特徴、語気の適正さ、抑揚の適正さの6項目について、それぞれ個別に評価し、その評価結果を出力する。本実施例では、上記6項目のそれぞれについて、評価基準として採用する音声分析パラメータとその音声分析パラメータの値に応じた点数とが設定されており、音声分析パラメータの値の範囲に応じ点数の合計点に基づいて評価点を求めている。そして、その評価点に応じた評価結果を適宜に出力する。
具体的には、音声分析部20が、上記各項目の発話の適正さを評価するのに採用される上記各音声分析パラメータについて、測定期間における値が初期値に対してどの程度の比であるのかに応じ、段階的に点数(point)を出力するとともに、各音声分析パラメータに対する点数の合計値を算出する。そして、合計点の範囲に応じて各項目の発話の適正さの程度を5段階程度で段階評価している。そして、その評価段階や段階に応じたコメントなど、適宜な情報を表示や印刷にて出力したり、ファイルに作成して出力したりする。なお発話状態評価装置1は、各分析パラメータの値とポイントとの対応関係や合計点と評価点との対応関係を上述の初期設定パラメータとしてユーザ入力により受け付ける。
<発話速度の適正さ>
本実施例では、発話速度Gがある範囲以内に収まっているかどうかを評価する。図5に話速の値と発話速度の適正さの段階評価点との対応関係の一例を示した。
<発話の間の適正さ>
本実施例では、間の全体割合Eと発話速度Gとにより間の適正さを評価している。図6(a)〜(c)に、同一の文章を、発話速度と間の割合を変えて読み上げたときの発話状態を音圧レベルの時間変位グラフにして示した。発話の間62について、適正(a)、多い(b)、ほとんど無い(c)のそれぞれの状態でのグラフが示されている。図7に発話の間の全体割合Eの値の範囲と点数との対応関係と、発話速度Gの値の範囲と点数との対応関係と、これらの音声分析パラメータの点数の合計点と間の適正さの評価点との対応関係を例示した。
<発話の明瞭さ>
発話が「明瞭」であると、「不明瞭」に比べ、音声のピッチの変化が多くなるとともに、音圧も大きくなることが知見できた。図8は、声のピッチの時間変化を示すグラフであり、ある同一の言葉を発したときの「明瞭」「不明瞭」についてのグラフを示した。このグラフでは、音声に含まれる周波数毎の相対信号強度を濃度変化により示している。図中にピッチの時間変化を曲線63で示した。「不明瞭」では、ピッチの変化はほとんどない。「明瞭」では、ピッチ変化がはっきりと現れている。
図9に上記の言葉を発した際の音圧の変化を示す。発話が「明瞭」であると、「不明瞭」に比べ平均で20dB 、声のエネルギーにして100 倍程度の差が現れる。図10に上記の言葉を発した際の音声の各周波数における特徴パラメータの分布状況を示した。声のエネルギーの強い成分が分布している箇所が楕円64で示されている。明瞭な発話状態では、2500Hz〜3500Hz 付近に声のエネルギーの強い成分が分布していることがわかる。これは、腹式発声ができているときに特徴として現れるものである。ここに成分が分布していると、人間の聴覚感度特性上、音声は伝わりやすい。
発話状態評価装置1は、ピッチの上下幅、音圧レベルの上下幅、特徴パラメータの分布状況に基づいて発話の明瞭さを評価している。図11にピッチの上下幅A1の値の範囲と点数との対応関係と、音圧レベルの上下幅B1の値の範囲と点数との対応関係と、特徴パラメータF値の範囲と点数との対応関係と、これらの音声分析パラメータの点数の合計点と発話の明瞭さの評価点との対応関係の例を示した。なお、ここでは、ピッチの上下幅A1=(最大ピッチ −最小ピッチ)、音圧レベルの上下幅B1=(最大音圧レベル−最小音圧レベル)とし、基準音声についてのピッチの上下幅と音圧レベルの上下幅を、それぞれ、A1S、B1Sとしている。
<語尾の発音の特徴>
語尾の発音は、話し手がいつも通りに話しているつもりでも、聞き手側には癖のある話し方であると受け取られてしまう場合がある。そして、聞き手がその癖を気にし出すと、会話本来の内容に注意が払えず、会話内容に対する理解力が減退する。したがって、音声分析により、語尾の発音の特徴が適正であるか否かを確認する。本実施例では、間の直前の2秒間の発話部分を「語尾」として解析している。そして、語尾の発音の特徴として「問題なし(通常)」「幼稚」「事務的」「暗い」「その他」を定義している。
図12は、ある言葉を発したときの語尾のピッチ変化の特徴を、「その他」を除く4つの語尾の発音の特徴について示したものであり、図中ではピッチの変化を白線65で示した。「問題なし」をピッチの適正な上下動とすると、「幼稚」は、「問題なし」と同様に上下動があるが、「事務的」ではほとんど変化がない。
図13に、同じ言葉の音声で音圧の変化を示した。ピッチ分析では「問題なし」と「幼稚」の差に大きな変化はなかったが、音圧にははっきりとした差異が確認できる。図14に同一の音声を周波数分析したものを示した。「暗い」は、音圧レベルもなく、また周波数分析でも2500Hz〜3500Hz付近に成分がほとんどなく、会話の明瞭性にかけ、情報伝達性が悪くなることがわかる。「事務的」と「暗い」は、ピッチの上下動だけでは、判断できないが、周波数分析を行うことにより、腹式発声の成分があるか否かが判定のポイントとなる。「暗い」は大切な情報が伝わりづらいという大きな問題点があることが知見できた。本実施例の発話状態評価装置1は、このような音声の特徴に基づいて「語尾の発音の特徴」を定量評価する。
図15に、各発音の特徴のそれぞれについての音声分析パラメータの値と点数との対応関係の例を示した。なお、発音の特徴は「問題なし(通常)」であれば、全てにおいて適性範囲内であり、「幼稚」であれば、音圧レベルの低下やピッチの上下動が認められる。「事務的」は、音圧レベル一定でピッチの上下動が無い。「暗い」は、特徴パラメータにおける周波数分布が狭い。すなわち複式発声ができておらず「通る声」になっていない。「その他」は前記いずれの特徴にも該当しない場合である。
具体的な評価手順としては、それぞれの発音の特徴ごとに、各音声分析パラメータの値に応じた点数を組にして設定しておく。そして、各発音の特徴毎に各音声分析パラメータに応じた点数を合計し、最も高い合計点となった発音の特徴を評価結果とする。図15に示した発音の特徴毎の音声分析パラメータの値と点数との対応関係に従って評価する場合、例えば、語尾の平均ピッチA、語尾の平均音圧レベルB、語尾の平均特徴パラメータ値Fがそれぞれの基準値AS、BS、FSに対する割合として、それぞれ80%、50%、20%であったとする。「幼稚」では、ピッチAと音圧Bの数値が点数との対応関係に示された数値範囲に該当し、ピッチAに対する点数40点と音圧Bに対する点数50点を合計した90点が「幼稚」の点数となる。
以下「事務的」「暗い」「問題なし」について同様に計算すると、それぞれの合計点は0点、120点、50点となり、評価結果は「暗い」となる。なお、全ての発音の特徴について合計点が0〜70点であった場合には「その他」となる。また、この例では「問題なし」「幼稚」「事務的」「暗い」「その他」の発音の特徴に対し、それぞれ0、1、2、3、4の評価点を出力することとしている。
<語気の適正さ>
語気の適正さは、上記発話の特徴を評価する際に採用した音声分析パラメータと同じパラメータに基づいて評価している。上記発話の特徴では、語尾部分を解析したのに対し、語気は「間」以外の全て会話部分を解析する。そして、ピッチの上下動変化、音圧レベルの適正さ、周波数分析による腹式発声の有無を総合的に判定し、評価点として出力するものである。図16に、本実施例における、ピッチA、音圧レベルB、特徴パラメータFのそれぞれの音声分析パラメータの各数値範囲と点数との対応関係、および合計点と評価点との対応関係を示した。
<抑揚の適正さ>
ピッチの上下幅によって抑揚の適正さを評価する。本実施例のおけるピッチの上下幅A1の値の範囲と点数と対応関係と、点数と抑揚の適正さの評価点との対応関係とを図17に示した。基本的に日本人は感情を表現するのが苦手なため、言葉の抑揚も非常に少ないといえる。しかし、コールセンター業務などのビジネスの世界では、抑揚ある欧米流の「話し方」が求められているのが実情である。コールセンタービジネスに限定した場合、この変化量を適正範囲内に抑えることが必要となる。図18は、抑揚のピッチの変化の特徴を示したものである。抑揚が少ない、適正、過剰のそれぞれに対応している。図中では、ピッチの変化を曲線66で示した。
===感情解析===
本実施例の発話状態評価装置1は、上記発話の適正さに加え、怒りや困惑など、発話者の感情を抽出し、その感情の程度を定量評価する機能も備えている。
<怒り>
怒りの感情を含んだ発話状態には、ピッチAの上昇、音圧レベルBの上昇、発話速度Gの上昇が見られる。図19にこれらの音声分析パラメータの数値範囲に応じた点数の対応関係と、その点数の合計である怒りの点数に応じた段階評価点の対応関係とを例示した。
<困惑>
発話状態評価装置1は「困惑」という感情も定量解析する。「困惑状態」は「通常状態」と比べ、音圧レベルと発話速度が低下し、間の割合が増加することが知見できた。本実施例では、測定期間における音圧レベルB、発話速度E、間の全体割合Gの各音声分析パラメータの値について、その値の範囲に応じて所定の点数を付与する。そして、各音声分析パラメータについて付与された点数の合計点に応じた評価結果を出力する。上記各音声分析パラメータの値と点数との対応関係と、合計点数と困惑度との対応関係とを図20に例示した。
===ユーザインタフェース===
発話状態評価装置1は、発話状態の評価基準をユーザ入力により受け付ける設定パラメータ入力機能と、入力した設定パラメータとデジタル音声データとに基づいて各種感情や発話状態の評価結果を出力する結果提示機能とをGUIにより提供している。図21にデジタル音声データから特徴情報を抽出するなど基本的な初期設定パラメータを入力するための画面概略を示した。この画面70には、ピッチを抽出する際に必要な各種設定パラメータを入力するための複数のテキストボックス群71や、その他の設定パラメータを入力欄するためのテキストボックス群72などが配設されている。この例では、ピッチを抽出するために、サンプリング周波数、窓関数の指定やその窓関数に適用するフレーム長、フレーム周期などを設定する。また、その他の設定パラメータとして、発話速度を測定する際に無音と判断すべき音圧レベルの閾値、間を検出する際に無音と判断すべき音圧レベルの閾値、間として判断するための閾値の継続期間の閾値、測定期間(ピリオド)の長さや、ピリオドにおける重複期間、あるいは、特徴パラメータを算出する際のフーリエ変換(FFT)のフレーム長などの指定入力を受け付ける。
図22〜図24に発話の適正さについて各種設定パラメータを受け付けるための画面概略を例示した。図22は「発話速度の適正さ」に関する各種設定パラメータを入力するための画面概略を示している。「発話速度の適正さ」を評価するために採用される音声分析パラメータは、その発話速度Gそのものである。そのため、この画面80では基準の発話速度GSに対する測定発話速度Gの比の数値範囲(閾値:%)81に応じて評価点82を直接対応付けする。この例では、設定パラメータを入力する際、数値範囲と評価点との対応関係が直感的に把握できるように、評価点と数値範囲の記載位置がずれて表示されている。例えば、閾値の範囲が30〜50%であれば評価点が−2となり、300%以上であれば3となる。なお、単一の音声分析パラメータの数値範囲に応じて評価点を付与する項目としては「抑揚の適正さ」がある。
図23は、「発話の間の適正さ」を評価するための設定パラメータ入力画面を示した。この「発話の間の適正さ」は、間の割合E、発話速度Gのそれぞれの各音声分析パラメータについて、閾値と重み値(point)との対応付けを設定するためのテキストボックス群(91,92)、および合計点と評価点との対応関係を指定するためのテキストボックス群93などが含まれている。なお、「発話の間の適正さ」と同様に、複数の音声分析パラメータのそれぞれの数値範囲に応じて点数を付与し、各音声分析パラメータに対応して付与された点数の合計点の数値範囲に応じて評価点を求めている項目としては、「発話の明瞭さ」「語気の適正さ」がある。また、「怒り」「困惑」の各感情についても同様にして評価点を求めている。
図24は「語尾の発音の特徴」の項目に関する各種設定パラメータを入力するための画面概略を示している。この項目については、評価の仕方が他の項目とは異なる。評価点0〜4に対し、あらかじめ、問題なし、幼稚、事務的、暗い、その他の各語尾の特徴を直接対応付けしておき。各語尾の特徴について、それぞれ、ピッチA、音圧レベルB、特徴パラメータFの閾値と重み値との対応関係を一組にして設定する。
本発明の実施例における発話状態評価装置の機能ブロック図である。 上記発話状態評価装置における音声データの測定期間の概念図である。 人間の聴覚感度特性図である。 上記発話状態評価装置における発話速度の測定概念図である。 発話速度の適正さを評価するときの採点方法の概略図である。 発話の間を変えて発声したときの音圧レベルの時間変位特性図である。 発話の間の適正さを評価するときの採点方法の概略図である。 発話が明瞭なときと不明瞭なときのピッチの時間変位特性図である。 発話が明瞭なときと不明瞭なときの音圧レベルの時間変位特性図である。 発話が明瞭なときと不明瞭なときの周波数分析結果を示す特性図である。 発話の明瞭さを評価するときの採点方法の概略図である。 語尾の発音の特徴に応じたピッチの時間変位特性図である。 語尾の発音の特徴に応じた音圧レベルの時間変位特性図である。 語尾の発音の特徴に応じた周波数分析結果を示す特性図である。 語尾の発音の特徴を評価するときの採点方法の概略図である。 語気の適正さを評価するときの採点方法の概略図である。 抑揚の適正さを評価するときの採点方法の概略図である。 抑揚の程度に応じたピッチの時間変位特性図である。 怒りを評価するときの採点方法の概略図である。 困惑状態を評価するときの採点方法の概略図である。 上記発話状態評価装置のGUIにおいて全般的な設定パラメータを入力するための画面概略図ある。 上記発話状態評価装置のGUIにおいて発話の速度に関する設定パラメータを入力するための画面概略図である。 上記発話状態評価装置のGUIにおいて発話の間の適正さに関する設定パラメータを入力するための画面概略図である。 上記発話状態評価装置のGUIにおいて語尾の発音の適正さに関する設定パラメータを入力するための画面概略図である。
符号の説明
1 発話状態評価装置
10 オーディオ信号処理部
11 マイクロホン
20 音声分析部
30 分析結果出力部
40 ユーザインタフェース

Claims (9)

  1. 発話の適正さを評価する発話状態評価装置であって、
    マイクロホンから採取した人の発話音声をサンプリングして得たデジタル音声データから、音圧と、基本周波数とを抽出するとともに、デジタル音声データをフーリエ変換して得た単位時間当たりの周波数分析結果を特徴パラメータとして取得する音声特徴取得手段と、
    所定の時間間隔ごとに測定期間を設定する測定期間設定手段と、
    測定期間における平均音圧を求める平均音圧取得手段と、
    測定期間における平均基本周波数を求める平均基本周波数取得手段と、
    音声特徴取得手段が随時抽出する音圧レベルに応じて発話状態と無音状態とを認識するとともに、無音状態によって区切られる複数の発話状態の発現時間間隔に基づいて発話速度を測定期間毎に求める話速取得手段と、
    音声特徴取得手段が随時抽出する音圧レベルが基準値以下となっている状態が所定時間以上継続した状態を間(ま)として認識し、当該間以外の状態を発話状態として認識する間認識手段と、
    前記測定期間に占める前記間の時間割合を求める間割合取得手段と、
    を備えた発話状態評価装置。
  2. 請求項1において、発話速度の数値範囲に応じて発話速度の適正さを段階的に評価し、その評価結果を適宜に出力する発話状態評価装置。
  3. 請求項1において、発話速度の数値範囲に応じた点数と、間の割合の数値範囲に応じた点数とを取得するとともに、これら点数の合計点に基づいて、発話の間の適正さを段階的に評価し、その評価結果を適宜に出力する発話状態評価装置。
  4. 請求項1において、基本周波数の上下幅の数値範囲に応じた点数と、音圧の上下幅に数値範囲に応じた点数と、特徴パラメータの数値範囲に応じた点数とを取得するとともに、これら点数の合計点に基づいて、発話の明瞭さを段階的に評価し、その評価結果を適宜に出力する発話状態評価装置。
  5. 請求項1において、前記間認識手段が認識した発話状態の期間について、当該発話状態期間が終了するまでの所定時間を語尾とするとともに、語尾における音声レベルの平均値と基本周波数の平均値と特徴パラメータの平均値とを取得し、複数の語尾の特徴のそれぞれについて個別に定義されている複数の前記平均値の数値範囲と点数との対応関係に基づいて、各語尾の特徴毎に各平均値に対応する点数を合計し、その合計点が最も高い語尾の特徴を評価結果として適宜に出力する発話状態評価装置。
  6. 請求項1において、測定期間における間認識手段が認識した発話状態にある期間について、音圧レベルの平均値に応じた点数と、基本周波数の平均に応じた点数と、特徴パラメータ値の平均値に応じた点数とを取得するとともに、これらの点数の合計点に応じて段階的に語気の適正さを評価し、その評価結果を適宜に出力する発話状態評価装置。
  7. 請求項1において、基本周波数の上下幅の数値範囲に応じた点数を取得するとともに、この点数に基づいて抑揚の適正さを段階的に評価し、その評価結果を適宜に出力する発話状態評価装置。
  8. コンピュータにインストールされて実行されることで、当該コンピュータを請求項1〜7のいずれかに記載の発話状態評価装置として機能させる発話状態評価プログラム。
  9. 請求項8に記載の発話状態評価プログラムを記録したプログラム格納媒体。
JP2005084639A 2005-03-23 2005-03-23 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体 Pending JP2006267465A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005084639A JP2006267465A (ja) 2005-03-23 2005-03-23 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005084639A JP2006267465A (ja) 2005-03-23 2005-03-23 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体

Publications (1)

Publication Number Publication Date
JP2006267465A true JP2006267465A (ja) 2006-10-05

Family

ID=37203534

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005084639A Pending JP2006267465A (ja) 2005-03-23 2005-03-23 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体

Country Status (1)

Country Link
JP (1) JP2006267465A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010266522A (ja) * 2009-05-12 2010-11-25 Nippon Telegr & Teleph Corp <Ntt> 対話状態分割装置とその方法、そのプログラムと記録媒体
JP2011215643A (ja) * 2011-07-19 2011-10-27 Yamaha Corp 音声特徴量算出装置
US8165874B2 (en) 2008-03-07 2012-04-24 International Business Machines Corporation System, method, and program product for processing speech ratio difference data variations in a conversation between two persons
JP2013254022A (ja) * 2012-06-05 2013-12-19 Nippon Telegr & Teleph Corp <Ntt> 音声明瞭度推定装置、音声明瞭度推定方法及びそのプログラム
JP2014123813A (ja) * 2012-12-20 2014-07-03 Ntt Comware Corp オペレータ対顧客会話自動採点装置およびその動作方法
WO2016051693A1 (ja) * 2014-09-30 2016-04-07 パナソニックIpマネジメント株式会社 接客モニタリングシステム及び接客モニタリング方法
JP2016071867A (ja) * 2014-09-30 2016-05-09 パナソニックIpマネジメント株式会社 接客モニタリングシステム及び接客モニタリング方法
JP6042015B1 (ja) * 2016-06-07 2016-12-14 株式会社採用と育成研究社 オンライン面接評価装置、方法およびプログラム
WO2017168663A1 (ja) * 2016-03-30 2017-10-05 富士通株式会社 発話印象判定プログラム、発話印象判定方法及び発話印象判定装置
WO2018235380A1 (ja) * 2017-06-23 2018-12-27 富士通株式会社 音声評価プログラム、音声評価方法および音声評価装置
US10885931B2 (en) 2017-09-27 2021-01-05 Fujitsu Limited Voice processing method, voice processing apparatus, and non-transitory computer-readable storage medium for storing voice processing computer program
WO2023144915A1 (ja) * 2022-01-26 2023-08-03 日本電信電話株式会社 情報提示装置、情報提示方法、および情報提示プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02223983A (ja) * 1989-02-27 1990-09-06 Toshiba Corp プレゼンテーション支援システム
JPH11143346A (ja) * 1997-11-05 1999-05-28 Seiko Epson Corp 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体
JPH11249690A (ja) * 1998-03-06 1999-09-17 Mitsubishi Electric Corp 音声認識装置及び音声認識方法
JP2002287973A (ja) * 2001-03-27 2002-10-04 Seiko Epson Corp 確信度入力およびエキスパートシステムの構築
JP2003316378A (ja) * 2001-08-08 2003-11-07 Nippon Telegr & Teleph Corp <Ntt> 音声処理方法及びその方法を使用した装置及びそのプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02223983A (ja) * 1989-02-27 1990-09-06 Toshiba Corp プレゼンテーション支援システム
JPH11143346A (ja) * 1997-11-05 1999-05-28 Seiko Epson Corp 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体
JPH11249690A (ja) * 1998-03-06 1999-09-17 Mitsubishi Electric Corp 音声認識装置及び音声認識方法
JP2002287973A (ja) * 2001-03-27 2002-10-04 Seiko Epson Corp 確信度入力およびエキスパートシステムの構築
JP2003316378A (ja) * 2001-08-08 2003-11-07 Nippon Telegr & Teleph Corp <Ntt> 音声処理方法及びその方法を使用した装置及びそのプログラム

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8165874B2 (en) 2008-03-07 2012-04-24 International Business Machines Corporation System, method, and program product for processing speech ratio difference data variations in a conversation between two persons
JP2010266522A (ja) * 2009-05-12 2010-11-25 Nippon Telegr & Teleph Corp <Ntt> 対話状態分割装置とその方法、そのプログラムと記録媒体
JP2011215643A (ja) * 2011-07-19 2011-10-27 Yamaha Corp 音声特徴量算出装置
JP2013254022A (ja) * 2012-06-05 2013-12-19 Nippon Telegr & Teleph Corp <Ntt> 音声明瞭度推定装置、音声明瞭度推定方法及びそのプログラム
JP2014123813A (ja) * 2012-12-20 2014-07-03 Ntt Comware Corp オペレータ対顧客会話自動採点装置およびその動作方法
US10706448B2 (en) 2014-09-30 2020-07-07 Panasonic Intellectual Property Management Co., Ltd. Service monitoring system and service monitoring method
JP2016071867A (ja) * 2014-09-30 2016-05-09 パナソニックIpマネジメント株式会社 接客モニタリングシステム及び接客モニタリング方法
WO2016051693A1 (ja) * 2014-09-30 2016-04-07 パナソニックIpマネジメント株式会社 接客モニタリングシステム及び接客モニタリング方法
WO2017168663A1 (ja) * 2016-03-30 2017-10-05 富士通株式会社 発話印象判定プログラム、発話印象判定方法及び発話印象判定装置
EP3438980A4 (en) * 2016-03-30 2019-04-10 Fujitsu Limited OBSERVATION PRINCIPLE PROGRAM, OBSERVATION PRESENTATION PROCEDURE AND OBSERVATION PRESENTATION DEVICE
US10861477B2 (en) 2016-03-30 2020-12-08 Fujitsu Limited Recording medium recording utterance impression determination program by changing fundamental frequency of voice signal, utterance impression determination method by changing fundamental frequency of voice signal, and information processing apparatus for utterance impression determination by changing fundamental frequency of voice signal
JP6042015B1 (ja) * 2016-06-07 2016-12-14 株式会社採用と育成研究社 オンライン面接評価装置、方法およびプログラム
WO2018235380A1 (ja) * 2017-06-23 2018-12-27 富士通株式会社 音声評価プログラム、音声評価方法および音声評価装置
JP2019008130A (ja) * 2017-06-23 2019-01-17 富士通株式会社 音声評価プログラム、音声評価方法および音声評価装置
US11232810B2 (en) 2017-06-23 2022-01-25 Fujitsu Limited Voice evaluation method, voice evaluation apparatus, and recording medium for evaluating an impression correlated to pitch
US10885931B2 (en) 2017-09-27 2021-01-05 Fujitsu Limited Voice processing method, voice processing apparatus, and non-transitory computer-readable storage medium for storing voice processing computer program
WO2023144915A1 (ja) * 2022-01-26 2023-08-03 日本電信電話株式会社 情報提示装置、情報提示方法、および情報提示プログラム

Similar Documents

Publication Publication Date Title
JP2006267465A (ja) 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体
EP1423846B1 (en) Method and apparatus for speech analysis
Eyben et al. The Geneva minimalistic acoustic parameter set (GeMAPS) for voice research and affective computing
KR101683310B1 (ko) 화법분석을 통한 화자의 특성분석 방법
JP4456537B2 (ja) 情報伝達装置
US8825479B2 (en) System and method for recognizing emotional state from a speech signal
JP4851447B2 (ja) ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム
JP4587854B2 (ja) 感情解析装置、感情解析プログラム、プログラム格納媒体
CN101346758A (zh) 感情识别装置
Hansen et al. On the issues of intra-speaker variability and realism in speech, speaker, and language recognition tasks
Liu et al. Acoustical assessment of voice disorder with continuous speech using ASR posterior features
Mary et al. Analysis and detection of mimicked speech based on prosodic features
JP2014123813A (ja) オペレータ対顧客会話自動採点装置およびその動作方法
Kane et al. On the Use of Creak in Hungarian Spontaneous Speech.
Martens et al. Automated speech rate measurement in dysarthria
Niebuhr et al. A digital “flat affect”? Popular speech compression codecs and their effects on emotional prosody
Abdelwahab et al. Evaluation of syllable rate estimation in expressive speech and its contribution to emotion recognition
Grigorev et al. An Electroglottographic Method for Assessing the Emotional State of the Speaker
Rabiei et al. A methodology for recognition of emotions based on speech analysis, for applications to human-robot interaction. An exploratory study
Pattnaik et al. A study on prosody analysis
Manasa et al. Speech Quality Assessment and Control in Indian Languages
Yawatkar et al. Automatic Temporal Analysis of Speech: A Quick and Objective Pipeline for the Assessment of Overt Stuttering
Niebuhr et al. OPEN ACCESS EDITED BY
Bharadwaj et al. A Critical Study of the relation of Emotion and Stress from the Suprasegmental Features of an Assamese Emotional Spontaneous Speech
Tomar et al. NITK-KLESC: Kannada Language Emotional Speech Corpus for Speaker Recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080319

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100914

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110125