まず、本願が対象とする「力み」音声について、説明する。本願では、怒鳴ったり、興奮したりする際の発声中に生じる「力み」音声を対象としているが、本願が対象とする「力み」音声とは異なる定義がされた「りきみ」音声として、「きしる声」(creaky)あるいは「フライ」(vocal fry)とも呼ばれる音声の研究がなされている(石井カルロス寿憲、石黒浩および萩田紀博、「りきみの自動検出のための音響分析」電子情報通信学会技術研究報告,SP2006−07巻、pp.1−6,2006)。
そこで、本願の「力み」音声について定義する。本願の「力み」音声とは、力を入れて発話する際に、通常より発声器官に力が入るあるいは発声器官が強く緊張するために起こるもので、発声器官が「力み」の音声を生成しやすい状況が作られる場合に発声される音声であると定義する。具体的には、「力み」の音声は、力が入った発声であるため、音声の振幅はどちらかといえば大きく、当該モーラが両唇音や歯茎音でかつ鼻音や有声破裂音であり、文末や句末というよりアクセント句の先頭から3番目の間に位置するモーラである、といった実際の音声中の一部で起こる状況で発声され易い声質の音声である。また、「力み」の音声は感動詞や感嘆詞に限らず、自立語と付属語との違いを問わず様々な品詞中に見られる。
次に、本発明の基礎となる、音声中の力み音声の特徴について述べる。
感情や表情を伴った音声においては、様々な声質の音声が混在し、音声の感情や表情を特徴付け、音声の印象を形作っていることが知られている(例えば日本音響学会誌51巻11号(1995),pp869−875,粕谷英樹・楊長盛,“音源から見た声質”、特開2004−279436号公報参照。)。本願発明に先立って、同一テキストに基づいて発話された50文について無表情な音声と感情を伴う音声との調査を行った。
図1は、録音された音声における力み音声の感情種類による発生頻度を示すグラフである。図1は、4名の話者について「平静」、「怒り」、「激怒」、「朗らか」、「明るく元気」の5種類の感情表現を伴った音声中で、力み音声(harsh voice)で発声されているとしてラベルされた、モーラ数を示したものである。力み音声は「激怒」、「怒り」の感情を伴った音声に多く出現し、「平静」、「朗らか」のような穏やかな音声では出現頻度が低い。「平静」、「朗らか」のような穏やかな音声は、音声認識における音響モデルを生成する際に使用される話し方であり、このような話し方の音声に対しては音声認識の認識率が高く、誤認識が起こりにくい。力み音声を検出することにより怒りや苛立ちのような声を荒げた状況、すなわち誤認識が起こりやすい状況を検知することができる。
「激怒」および「怒り」の感情を伴った音声における力み音声の波形の調査により、力み音声の波形の多くに振幅の周期的変動が見られることが明らかになった。図2(a)は、「特売(とくばい)してますよ」の「ばい」部分について、感情を伴わず「平静」に発声した音声より切り出した通常発声の音声波形とその振幅包絡の概形を示した図である。図2(b)は、「激怒」の感情を伴って発声された、同じく「特売してますよ」中の「ばい」部分の波形とその振幅包絡の概形を示した図である。両波形とも、音素の境界を破線で示している。図2(a)の波形の/a/、/i/を発声している部分では、振幅が滑らかに変動していく様子が見える。通常の発声においては、図2(a)の波形のように母音の立ち上がりで滑らかに振幅が大きくなり、音素の中央付近で最大値となり、音素境界に向けて振幅が小さくなる。母音の立下りがある場合には滑らかに無音あるいは後続子音に向けて振幅が小さくなる。図2(a)のように母音が続く場合は、緩やかに後続の母音に向けて振幅が小さくあるいは大きくなる。通常発声においては、1つの母音内において、図2(b)のように振幅の増減を繰り返すことはほとんどなく、このような基本周波数との関係が一見してわからない振幅の変動を持つ音声についての報告はない。そこで振幅変動が力み音声の特徴であると考え、力み音声であるとラベルされた音声について、以下の処理によって振幅包絡の変動周期を求めた。
まず、音声波形を代表する正弦波成分を抽出するため、音声波形の振幅包絡曲線を求める。つまり、対象となる音声波形の基本周波数の第2高調波を中心周波数とするバンドパスフィルタを逐次求め、そのフィルタに音声波形を通過させる。フィルタを通過した波形に対してヒルベルト変換を施して解析信号を求め、その絶対値によってヒルベルト包絡曲線を求める。求められた振幅包絡曲線をさらにヒルベルト変換し、瞬時角速度をサンプル点ごとに計算し、サンプリング周期に基づいて角速度を周波数に変換する。サンプル点ごとに求められた瞬時周波数について音韻ごとにヒストグラムを作成し、最頻値をその音韻の音声波形の振幅包絡の変動周波数とみなした。
図3は、このような方法で求められた「力み」音声の音韻ごとの振幅包絡の変動周波数を、音韻ごとの平均基本周波数に対してプロットした図である。男性話者、女性話者共に基本周波数に関わらず、振幅包絡の変動周波数は80Hz−90Hzを中心として、50Hz−110Hzに分布している。力み音声の特徴の1つとして、50Hz−110Hzの周波数帯域に振幅の周期変動があることが発見された。このような周期変動は怒りや苛立ちによって発声器官に力が入った場合の生理的な反応であると考えられ、言語や個人による差は小さいことが期待される。そのため、音声中の50Hz−110Hzの振幅の周期変動を検出することで、言語差や個人差の影響を受けずに怒りや苛立ちを検出することができるはずである。
図4は、男性話者による「激怒」の感情を伴う発声を対象として、分析した力み音声の振幅包絡の変動周波数の分布をヒストグラムと累積度数とで示したものである。表1は、図4に示した力み音声の振幅包絡の変動周波数の頻度および累積度数を示す表である。
力み音声でない通常の音声では、その振幅包絡に周期的変動が無い。このため、力み音声を検出するためには周期的変動がない状態と変動がある状態とを区別する必要がある。
図4のヒストグラムにおいて、力み音声の頻度は振幅変動の周波数が10Hzから20Hzの間で立ち上がり、40Hzから50Hzの範囲で急激に増加している。周波数の下限は40Hz付近が妥当と考えられるが、より広い範囲で網羅的に力み音声を検出する際には下限を10Hzとしても良い。累積度数より力みとラベルされた音韻のうち90%は47.1Hz以上の周波数で振幅が変動している。これらより、周波数の下限として47.1Hzを用いることができる。振幅変動の周波数が高くなりすぎると人間の聴覚は振幅の変動を捉えることができなくなる特性を考えると、振幅変動によって力み音声を検出するためには上限を設けるのが望ましい。聴覚の特性としては、70Hz付近が「粗さ」を最もよく感じる周波数であり、変調を受ける元の音にもよるが、100Hzから200Hzにかけて「粗さ」の感覚は小さくなる。
図4のヒストグラムにおいて、力み音声の頻度は110Hzから120Hzの範囲で急激に減少しており、さらに130Hzから140Hzの範囲で半減している。力み音声を特徴付ける振幅変動の周波数の上限は130Hz付近に設定されるべきである。さらに下限同様により広い範囲で網羅的に力み音声を検出する際には、図4において170Hzから180Hzの範囲で一端頻度が0まで低下することに基づいて、上限を170Hzとしても良い。47.1Hzの下限とあわせて累積度数より力みとラベルされた音韻のうち80%が含まれることになる123.2Hzを上限として用いることは有効である。
図5は、力み音声の振幅包絡の変調度を説明するための図である。振幅変動の変調度(振幅変調度)については、変調される信号である音声波形にもともと振幅の変化があるため、振幅一定のキャリア信号の振幅を変調するいわゆる振幅変調とは異なる。したがって、振幅変動の変調度を以下のように定義した。図5(a)に示すように、第2高調波を中心周波数とするバンドパスフィルタを通過した波形のヒルベルト包絡曲線として求められた振幅包絡曲線を多項式近似し、多項式によるフィッティング関数を作成する。図5(a)は、振幅包絡曲線に5次関数をフィッティングさせることにより、フィッティング関数を求めている。フィッティング関数を変調前の波形の振幅包絡曲線とみなす。図5(b)に示すように、第2高調波成分の振幅包絡曲線のピークごとに、当該振幅包絡曲線の値とフィッティング関数の値との差分を求め、それを振幅変動量とみなす。振幅変動量とフィッティング関数の値とは、共に一定の値ではないため、振幅変動量とフィッティング関数の値との両者について音韻内での中央値を求め、両中央値の比を変調度とする。
図6は、このようにして求めた変調度のヒストグラムと累積度数とを示す図である。表2は、図6に示した変調度の頻度および累積度数を示す表である。
図6に示すヒストグラムは、男性話者による「激怒」の感情を伴う発声中(力み音声の発声中)に見られた振幅変動の変調度の分布を示している。聴取者が振幅変動を知覚するためには変動の大きさすなわち変調度が一定以上である必要がある。図6のヒストグラムにおいて、振幅変動の変調度の頻度が0.02から0.04の範囲で急激に頻度が高くなっており、力み音声を特徴付ける振幅変動の変調度の下限を0.02付近とすることが妥当である。また、累積度数を見ると、90%の音韻は変調度が0.038以上であるため、変調度の下限として0.038を用いることもできる。
図5に示した振幅変調の定義から変調度は最大1であることが分かる。図7は変調度1の場合の変換元波形と変換結果とを模式的に示したものである。変換元波形として、例えば、振幅が一定の波形を仮定する。図7(a)は、振幅が1である極短い周期の正弦波を模式的に示している。図7より、変調度が1を超えた場合は変換元の波形を反転させることとなり、振幅を変動させる処理から逸脱する。従って、振幅変動の変調度の定義より、振幅変動の変調度は最大1である。
図6に示すヒストグラムでは、さらに、0.038の下限とあわせて、力みとラベルされた音韻のうち80%が含まれることになる、0.276を振幅変動の変調度の上限として用いることも有効である。上記のことから、力み音声を検出するための1つの基準として、振幅包絡の周期変動が40Hz−120Hz、変調度が0.04以上という基準を用いることができる。
上記のように力み音声は言語差や個人差とかかわりのない怒りや苛立ちによる生理的反応として検出可能なものであり、力み音声の検出により話者の怒りや苛立ちを検知できる可能性を示している。
以下本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図8は本発明の実施の形態1における力み音声検出装置の構成を示す機能ブロック図である。図9は実施の形態1における力み音声検出装置の動作を示したフローチャートである。
図8に示されるように、力み音声検出装置は、入力音声より力み音声を検出する装置であり、マイクロホン1と、基本周波数分析部101と、力み音声検出部100とを備えている。マイクロホン1は、入力音声を電気信号に変換する装置である。基本周波数分析部101は、入力音声の周期性を分析し、入力音声中の有声区間を抽出すると共に、有声区間の基本周波数を求める処理部である。力み音声検出部100は、入力音声中の有声区間から力み音声の区間を検出する処理部である。表示部107は力み判定部106が判定した内容を表示する表示装置であり、例えば、LCD(Liquid Crystal Display)などである。
力み音声検出部100の構成についてより詳細に説明すると、力み音声検出部100は、第2高調波抽出部102と、振幅包絡分析部103と、振幅変調度計算部104と、変調周波数分析部105と、力み判定部106とを備えている。
第2高調波抽出部102は、基本周波数分析部101より出力された入力音声の有声区間について、同じく基本周波数分析部101より出力された有声区間の基本周波数に基づいて、有声区間の第2高調波成分を抽出する処理部である。振幅包絡分析部103は、第2高調波抽出部102より出力された有声区間の第2高調波成分波形を受付け、その振幅包絡曲線を求める処理部である。
振幅変調度計算部104は、振幅包絡分析部103より出力された第2高調波成分の振幅包絡曲線を受付け、第2高調波成分の振幅変調度を求める処理部である。変調周波数分析部105は振幅包絡分析部103より出力された第2高調波成分の振幅包絡曲線を受付け、包絡線の変動周波数すなわち第2高調波の振幅変調周波数を求める処理部である。力み判定部106は、振幅変調度計算部104より出力される第2高調波の振幅変調度と変調周波数分析部105より出力される第2高調波の振幅変調周波数とより、入力音声の有声区間が力み音声の区間であるか否かを判定する処理部である。
このように構成された力み音声検出装置の動作を図9に従って説明する。
マイクロホン1より音声が入力される(ステップS1001)。基本周波数分析部101は、入力音声の周期性の有無を分析すると同時に、周期性のある部分についてはその周波数を求める(ステップS1002)。周期性および周波数の分析は、例えば以下のようにして行われる。つまり、入力音声の自己相関係数を求め、50Hzから500Hzに相当する周期で相関係数が一定以上になる部分を周期性のある部分すなわち有声区間とみなし、相関係数が最大となる周期に対応する周波数を基本周波数とする。さらに基本周波数分析部101は、ステップS1002において音声中の有声区間とみなされた区間を抽出する(ステップS1003)。音声中に有声区間がない場合には(ステップS1004でNO)、表示部107は、音声中に力み音声がないことを表示する(ステップS1016)。
音声中に有声区間がある場合には(ステップS1004でYES)、第2高調波抽出部102は、音声中の未処理の有声区間のうち1区間についてステップS1002で求められた当該有声区間の基本周波数の2倍の周波数を中心としたバンドパスフィルタを設定し、当該有声区間の音声波形をフィルタリングして第2高調波成分を抽出する(ステップS1005)。
振幅包絡分析部103は、ステップS1005で抽出された第2高調波成分の振幅包絡を抽出する(ステップS1006)。振幅包絡は全波整流を行ってそのピーク値をスムーシングして求める方法や、ヒルベルト変換を行ってその絶対値を求める方法等を用いて抽出される。
振幅変調度計算部104は、ステップS1006で抽出した振幅包絡を多項式で近似し、振幅変調前の音声の包絡線を推定する(ステップS1007)。なお、実験的には多項式として3次式または5次式が望ましい。
振幅変調度計算部104は、ステップS1006で求めた振幅包絡のピークごとに振幅包絡の値とステップS1007で求めた多項式による近似値との差分を求め(ステップS1008)、当該分析区間中の全ピークでの差分の中央値と当該分析区間内での近似式の値の中央値との比より変調度を求める(ステップS1009)。変調度は振幅包絡の凸のピーク値の平均または中央値と、凹のピーク値の平均または中央値との比など、他の定義をすることも可能であるが、その際には変調度の基準値はその定義に基づいて設定される必要がある。
力み判定部106は、ステップS1009で求められた変調度があらかじめ定められた基準値、例えば0.04を超えているか否かを判断する(ステップS1010)。図6のヒストグラムに示すとおり、力み音声の頻度は、変調度が0.02から0.04の間で急激に増加していることから、基準値をここでは0.04とする。変調度が基準値を超えていない場合(ステップS1010でNO)、力み判定部106は、当該有声区間を力み音声でない、すなわち通常音声の区間と判断し(ステップS1011)、ステップS1004に戻り、次の有声区間の処理を行う。
変調度が基準値を超えている場合(ステップS1010でYES)、変調周波数分析部105は、ステップS1006で抽出された振幅包絡について分析フレームごとに瞬時周波数を求める。変調周波数分析部105は、さらに、当該有声区間で求められた瞬時周波数の中央値を求め、これを変調周波数とする(ステップS1012)。
力み判定部106は、ステップS1012で求められた変調周波数が、あらかじめ定められた基準範囲内(例えば40Hz以上120Hz未満)にあるか否かを判断する(ステップS1013)。図4のヒストグラムに示すとおり、力み音声の頻度が30Hzから40Hzの間で急激に増加し、70Hzから80Hzをピークに110Hzから120Hzで急激に減少していることから、基準範囲をここでは40Hz以上120Hz未満とした。変調周波数が基準範囲外である場合(ステップS1013でNO)、力み判定部106は、当該有声区間を力み音声でない、すなわち通常音声の区間と判断し(ステップS1014)、ステップS1004に戻り、次の有声区間の処理を行う。
変調周波数が基準範囲内である場合(ステップS1013でYES)、力み判定部106は、当該有声区間を力み音声の区間であると判定する(ステップS1015)。その後ステップS1004に戻り、次の有声区間の処理を行う。ステップS1004からステップS1015の動作を繰り返し、入力音声中のすべての有声区間の処理を行った後、表示部107は力み音声区間を表示する(ステップS1016)。
かかる構成によれば、入力された音声の振幅包絡の周期的変動の有無を分析することにより、入力音声中の力み音声を抽出することができる。例えば、コールセンターにおいて利用者の電話音声から力み音声を抽出することで、利用者の怒りや苛立ちをモニターして適切な対応を取ることができる。
なお、本実施の形態では、ステップS1005において第2高調波抽出部102は基本周波数の2倍の周波数を中心周波数とするバンドパスフィルタにより第2高調波を抽出するものとしたが、基本周波数を中心周波数とするバンドパスフィルタあるいは基本周波数を含むローパスフィルタによって基本波を抽出するものとしても良い。また、解析信号を求めてヒルベルト包絡を計算するために、音声信号から特定の高調波を抽出することにより正弦波の信号を取り出すものであれば何でも良く、第3高調波以上が安定して取り出せるのであればそれを用いてももちろん構わない。
なお、実施の形態1において、ステップS1010で変調度の基準値を0.04としたが、0.02以上の値であればこれ以外の値としても良い。
また、実施の形態1において、ステップS1013で変調周波数の基準範囲を40Hz以上120Hz未満としたが、10Hz以上170Hz未満の範囲であればこれ以外の範囲としても良い。
さらに、本実施の形態では、変調度および変調周波数を用いて力み音声の検出を行なったが、変調周波数のみを用いて力み音声の検出を行うものであってもよい。この場合には、図9のステップS1009〜S1011の処理が省略される。ただし、変調度および変動周波数を用いて力み音声の検出を行なう方が、ノイズを拾わずに、より安定的に力み音声の検出を行なうことができる。
(実施の形態2)
実施の形態2では、本発明に係る力み音声検出装置を音声認識装置に応用した例について説明する。
図10は、本発明の実施の形態2における力み音声検出部を含む音声認識装置の構成を示す機能ブロック図である。図11は、図10に示した音声認識装置のうち力み音声検出部の構成を示す機能ブロック図である。図12は、実施の形態2における力み音声検出部を含む音声認識装置の動作を示したフローチャートである。図13は、実施の形態2における音声認識装置の動作のうち力み音声検出部の動作を示したフローチャートである。
図11において、図8と同じ部分については説明を適宜省略し、図8と異なる部分を中心に説明する。図13においても、図9と同じ部分については説明を適宜省略し、図9と異なる部分を中心に説明する。
図10を参照して、音声認識装置の構成について説明する。音声認識装置は、入力音声を認識し、認識結果を出力する装置であり、マイクロホン1と、音声認識用特徴量抽出部201と、逆フィルタ202と、周期性分析部203と、スイッチ204と、特徴量データベース205と、音声認識部208と、表示部209とを備えている。
マイクロホン1は、入力音声を電気信号に変換する装置である。音声認識用特徴量抽出部201は、入力音声を分析し、スペクトル包絡を表すパラメータ、例えばメルケプストラム係数を抽出する処理部である。逆フィルタ202は、音声認識用特徴量抽出部201が出力するスペクトル包絡情報の逆フィルタであり、マイクロホン1より入力された音声の音源波形を出力する処理部である。
周期性分析部203は、逆フィルタより出力された音源波形の周期性を分析して有声区間を抽出する処理部である。力み音声検出部200は、周期性分析部203より出力された音源波形の有声区間より力み音声の区間を検出する処理部である。
特徴量データベース205は、音韻種類ごとの音声特徴量を音声認識用に保持する記憶装置である。特徴量データベース205は、標準音声特徴量データベース206と、力み音声特徴量データベース207とを含む。標準音声特徴量データベース206は、力み音声が見られない音声データより作成された音声特徴量を保持する記憶装置であり。力み音声特徴量データベース207は、力み音声が見られる音声データより作成された音声特徴量を保持する音声特徴量データベース207である。
音声認識部208は、特徴量データベース205を参照し、音声認識用特徴量抽出部201が出力した特徴量と特徴量データベース205に格納された特徴量とのマッチングを行って音声認識を行う処理部である。
スイッチ204は、力み音声検出部200で入力音声中に力み音声が検出されたか否かによって、標準音声特徴量データベース206および力み音声特徴量データベース207のうちのいずれかのデータベースを、音声認識部208に接続する処理部である。音声認識部208は、接続されたデータベースを用いて、音声認識を行なうことになる。表示部209は、音声認識部208での音声認識結果を表示する表示装置であり、例えば、LCDなどである。
図11を参照して、力み音声検出部200の構成について説明する。力み音声検出部200は、第2高調波抽出部102が基本波抽出部212に置き換わった以外は、図8に示した実施の形態1の力み音声検出部100と同様である。基本波抽出部212は、周期性分析部203が出力する音源波形の有声区間とその基本周波数の情報を受付け、音源波形から基本波成分を抽出する処理部である。力み音声検出部200のそれ以外の要素は実施の形態1の力み音声検出部100と同様であるので、説明を省略する。なお、基本波抽出部212の代わりに第2高調波抽出部102を用いてもよい。
このように構成された力み音声検出部を含む音声認識装置の動作について図12に従って説明する。
マイクロホン1より音声が入力される(ステップS1001)。音声認識用特徴量抽出部201は、入力音声を分析し、音声認識用の音響特徴量としてメルケプストラム係数を抽出する(ステップS2002)。逆フィルタ202は、ステップS2002で生成されたメルケプストラム係数の逆フィルタとなるようにパラメータを設定し、ステップS1001でマイクロホンより入力された音声信号を通過させ、音源波形を抽出する(ステップS2003)。周期性分析部203は、ステップS2003で抽出された音源波形の中から周期性のある区間を抽出する(ステップS2004)。例えば、周期性分析部203は、特開平10−197575号公報に開示されている方法を用いて、周期性のある区間を抽出する。つまり、周期性分析部203は、音源波形を入力とし、低周波側が緩やかで高周波側が急峻な遮断特性を有するフィルタ出力の振幅変調の大きさと周波数変調の大きさとから基本波らしさを計算し、入力音声の音源波形のうち周期性のある信号の時間領域を周期性信号区間すなわち有声区間として出力する(ステップS2004)。
力み音声検出部200は、ステップS2004で周期性分析部203により抽出された有声区間について、基本波成分の振幅包絡の周期的変動を検出することにより、力み音声の区間を検出する(ステップS2005)。スイッチ204は、入力音声の有声区間において力み音声が検出されたか否かにより、特徴量データベース205内の標準音声特徴量データベース206および力み音声特徴量データベース207のいずれかと音声認識部208とを接続する(ステップS2006)。つまり、スイッチ204は、ステップS2005において力み音声が検出された場合には、力み音声特徴量データベース207と音声認識部208とを接続する。また、スイッチ204は、ステップS2005において力み音声が検出されなかった場合には、標準音声特徴量データベース206と音声認識部208とを接続する。
音声認識部208は、特徴量データベース205のうちステップS2006においてスイッチ204によって接続された特徴量データベースを参照し、ステップS2002で抽出されたメルケプストラム係数を用いて音声認識を行なう。また、音声認識部208は、認識結果として入力音声中の時間位置情報と共に音韻列を出力する(ステップS2007)。表示部209は、音声認識部208より出力された時間位置情報および音韻列を表示する(ステップS2008)。
次に、力み音声抽出処理(ステップS2005)の詳細を、図13を参照して説明する。図13については、図9と同じ動作については説明を適宜省略し、異なる部分を中心に説明する。
音声中に有声区間がない場合には(ステップS1004でNO)、力み判定部106は、力み音声は検出されなかったと判定し、スイッチ204が、標準音声特徴量データベース206と音声認識部208とを接続する(ステップS2006)。
音声中に有声区間がある場合には(ステップS1004でYES)、基本波抽出部212は、音声中の未処理の有声区間のうちの1区間について、ステップS2004で求められた当該有声区間の基本周波数の1.5倍の周波数をカットオフ周波数とするローパスフィルタを設定し、当該有声区間の音源波形をフィルタリングして基本波成分を抽出する(ステップS2105)。振幅包絡分析部103は、ステップS2105で抽出された基本波成分の振幅包絡を抽出する(ステップS2106)。基本波成分の振幅包絡の抽出方法は、ステップS1006と同様である。
振幅変調度計算部104は、ステップS2106で抽出した振幅包絡を多項式で近似し、振幅変調前の音声の包絡線を推定する(ステップS2107)。この多項式も、実施の形態1と同様、実験的には3次式または5次式が望ましい。
振幅変調度計算部104は、ステップS2106で求めた振幅包絡のピークごとに振幅包絡の値とステップS2107で求めた多項式による近似値との差分を求め(ステップS1008)、当該分析区間中の全ピークでの差分の中央値と当該分析区間内での近似式の値の中央値との比より変調度を求める(ステップS1009)。
力み判定部106は、ステップS1009で求められた変調度があらかじめ定められた基準値、例えば0.04を超えているか否かを判断する(ステップS1010)。変調度の基準値については変調度の定義によって異なるが、ここではどちらも音声の低域のエネルギー変動を示すことになる基本波の振幅包絡の変動と第2高調波の振幅包絡の変動とに大きな差は無いとみなし、図6のヒストグラムより決定した0.04以上という基準を採用する。
変調度が基準値を超えていない場合(ステップS1010でNO)、力み判定部106は、当該有声区間を力み音声でない、すなわち通常音声の区間と判断し(ステップS1011)、ステップS1004に戻り、次の有声区間の処理を行う。
変調度が基準値を超えている場合(ステップS1010でYES)、変調周波数分析部105は、ステップS2106で抽出された振幅包絡について分析フレームごとに瞬時周波数を求める。変調周波数分析部105は、さらに、当該有声区間で求められた瞬時周波数の中央値を求め、これを変調周波数とする(ステップS1012)。
力み判定部106は、ステップS1012で求められた変調周波数が、あらかじめ定められた基準範囲内(例えば実施の形態1と同様に図4のヒストグラムより決定した40Hz以上120Hz未満)であるか否かを判断する(ステップS1013)。広帯域の波形においても振幅変動が観察されることから、帯域が変わっても変調周波数は変わらないものとみなし、実施の形態1の図4に示した第2位高調波と同様の周波数範囲を採用する。
変調周波数が基準範囲外である場合(ステップS1013でNO)、力み判定部106は当該有声区間を力み音声でない、すなわち通常音声の区間と判断し(ステップS1014)、ステップS1004に戻り、次の有声区間の処理を行う。変調周波数が基準範囲内である場合(ステップS1013でYES)、力み判定部106は当該有声区間を力み音声の区間と判定する(ステップS1015)、すなわち、入力音声中に力み音声を検出したものとし、力み音声の検出処理を終了する。続いて、スイッチ204が、力み音声特徴量データベース207と音声認識部208とを接続する(ステップS2006)。
かかる構成によれば、入力された音声より力み音声を抽出し、力み音声の有無によって、力み音声を含む特徴量データベースと力み音声を含まない特徴量データベースとを切り替えて音声認識に利用することができる。このため、音声認識精度を向上させることができる。また、音声認識結果と力み音声の出現位置との対応がつくため、本実施の形態の出力を記録することで、ユーザが発話中のどの単語やフレーズに力を入れて話していたかを解析することができる。このような解析を、コールセンターの利用者の音声や、店頭での顧客の音声に適用することにより、発話中のどの単語やフレーズに力を入れていたかを知ることができ、クレーム内容をより的確に分類してマーケティングに反映させることができる。
また、本実施の形態に示すような力み音声検出装置を含む音声認識装置を対話制御等に用いる場合には、力み音声検出部200の出力を利用することにより、ユーザである話者が対話動作過程のどのイベントに対して、語気を荒げたか、すなわち怒りや苛立ちを覚えたかを特定することができる。このように入力音声よりユーザの怒りや苛立ちを捉えることができ。このため、例えば、ユーザの怒りに対して、システム側の出力音声を「大変申し訳ございませんが・・・」という丁寧な謝罪や、「お手数ではございますが・・・」という丁寧な依頼の表現にしたりすることができる。これにより、ユーザの感情を平常な状態に導き、ユーザによる発話を誤認識の少ない通常音声での発話へ誘導し、対話インタフェースとしてスムーズに動作する環境を整えることができる。
なお、本実施の形態において音源波形はメルケプストラム係数の逆フィルタによって求めるものとしたが、声道モデルを元に声道伝達特性を求め、その逆フィルタによって音源波形を求める方法や、音源波形のモデルを元に音源波形を求める方法等、音源波形の求め方はメルケプストラム係数の逆フィルタによる方法以外の方法を用いても良い。
また、本実施の形態において、音声認識の音響特性モデルとしてメルケプストラム係数のパラメータを用いるものとしたが、それ以外のケプストラム係数など、音声の周波数特性を記述し、音声認識に用いられる特徴量であればどのような特徴量を用いて音声認識を行ってもよい。その際、音源波形はメルケプストラム係数の逆フィルタを用いて求めるものとしても、それ以外の方法で求めるものとしても良い。
さらに、本実施の形態においては、入力音声中に力み音声が1箇所検出された時点でスイッチ204を力み音声特徴量データベース207に接続するものとしたが、あらかじめ定められた数以上の箇所で力み音声が検出された場合、例えば入力音声中に2箇所(1発話20モーラ程度として10%)で力み音声が検出された場合に、スイッチ204を力み音声特徴量データベース207に接続するものとしてもよい。または、入力音声の一定時間あたりの力み音声の検出数があらかじめ定められた数以上となった場合、例えば1発話20モーラ程度が3秒前後として、3秒あたりの力み音声の検出数が2つ以上になった場合に、スイッチ204を力み音声特徴量データベース207に接続するものとしてもよい。さらには、入力音声の時間長のうち、力み音声区間の占める割合があらかじめ定められた値以上であった場合に、スイッチ204を力み音声特徴量データベース207に接続するものとしても良い。
さらにまた、入力音声の一定時間を処理単位とし、処理単位ごとにスイッチ204を切り替える判断をしてもよい。また、入力音声の1フレーズごとにスイッチ204を切り替える判断をしてもよい。また、1発話ごとにスイッチ204を切り替える判断をしてもよい。また、あらかじめ定められた一定時間以上、例えば100ms以上の無音区間によって区切られた発話単位ごとにスイッチ204を切り替える判断をしても良い。
(実施の形態3)
実施の形態3では、本発明に係る力み音声検出装置を音声認識装置に応用した例について説明する。
図14は、本発明の実施の形態3における力み音声検出部を含む音声認識装置の構成を示す機能ブロック図である。図15は、実施の形態3における力み音声検出部を含む音声認識装置の動作を示したフローチャートである。図16は、実施の形態3における音声認識装置のうち力み音声検出部の動作の部分を示したフローチャートである。図17は、実施の形態3の動作の具体例を示す図である。
図14において、図8および図10と同じ部分については説明を適宜省略し、図8および図10と異なる部分を中心に説明する。図15においても図12と同じ部分については説明を適宜省略し、図12と異なる部分を中心に説明する。図16においても図9および図13と同じ部分については説明を適宜省略し、図9および図13と異なる部分を中心に説明する。
図14において、音声認識装置の構成は、図10の機能ブロック図より逆フィルタ202、スイッチ204がなくなり、周期性分析部203が図8と同様の基本周波数分析部101に置き換わり、力み音声検出部200が図8と同様の力み音声検出部100に置き換わり、特徴量データベース205が音響特徴量データベース301と言語特徴量データベース302とに置き換わり、音声認識部208が連続単語音声認識部303に置き換わった以外は図10と同様の構成である。
音響特徴量データベース301は、音韻の種類ごとに音響特徴量を記憶している記憶装置である。言語特徴量データベース302は、少なくとも読みまたは発音記号を有する単語辞書を表す言語特徴量を記憶している記憶装置である。連続単語音声認識部303は、音韻のみではなく、言語情報も含めて音声の認識を行なう処理部である。
このように構成された力み音声検出装置を含む音声認識装置の動作について図15および図16に従って説明する。図9、図12および図13と同じ動作については説明を省略し、異なる部分についてのみ説明する。
マイクロホン1より音声が入力される(ステップS1001)。音声認識用特徴量抽出部201は、入力音声を分析し、メルケプストラム係数を抽出する(ステップS2002)。一方、基本周波数分析部101は、実施の形態1と同様にして入力音声の周期性の有無を分析するとともに、周期性のある部分についてはその周波数を求める(ステップS1002)。さらに、基本周波数分析部101は、ステップS1002において音声中の有声区間とみなされた区間を抽出する(ステップS1003)。
力み音声検出部100は、実施の形態1のステップS1004からステップS1015で力み音声を検出した処理と同様の処理を行なうことにより、ステップS1003で抽出された有声区間が力み音声の区間であるか否かを判断する(ステップS3005、図16)。
連続単語音声認識部303は、音響特徴量データベース301と言語特徴量データベース302とを参照し、ステップS2002で抽出されたメルケプストラム係数を用いて音声認識を行う(ステップS3006〜S3007)。連続単語音声認識部303による音
声認識は、例えば、音響モデルと言語モデルとからなる確率モデルを用いた音声認識方法によるものとする。音声認識は一般的に、数1に示す音響モデルと言語モデルの積が最も高くなる単語系列を選択することで行われる。
W:指定された単語系列
Y:音響的な観測値系列
P(Y/W):単語列で条件付けられた音響的な観測値系列の確率(音響モデル)
P(W):仮定された単語系列に対する確率(言語モデル)
数1は対数を取ると数2のように表現できる。
音響モデルと言語モデルのバランスが等価であるとは限らないため、両モデルへの重みをつける必要がある。一般的には両重みの比として言語モデルの重みを設定することにより、数2を数3のように表現しなおす。
α:音響モデルと言語モデルとの両モデルにおける言語モデルの重み
言語モデルの重みαは、一般的な認識処理においては、時間的に一定の値を持つものとされる。しかし、連続単語音声認識部303は、ステップS3005で検出された力み音声を含む有声区間の情報を取得し、単語ごとに言語モデル重みαを変更する。
連続単語音声認識部303は、数4のように表現されるモデルに基づき連続音声認識を行う。
w
i:i番目の単語
α
i:i番目の単語に適用する言語モデルの重み
連続単語音声認識部303は、音響特徴量データベース301と言語特徴量データベース302とを参照して音声認識を行う際に、音声認識を行うフレームが力み音声を含む場合には言語モデルの重みαを大きくし、相対的に音響モデルの重みを小さくし(ステップS3006)、音声認識を行う(ステップS3007)。言語モデルの重みを大きくし、音響モデルの重みを小さくすることにより、力み音声により音響モデルが適合しないために認識精度が低下する影響を小さくすることができる。連続単語音声認識部303は、入力音声を音声認識した結果の単語列を出力し、表示部209は認識結果を表示する(ステップS2008)。
例えば、図17(a)に示すように、入力音声の音韻列が「なまえおかくえんぴつがほしいんです」で、そのうち「えんぴつが」の部分が力み音声で発声されているものとする。この場合、連続単語音声認識部303は、ステップS3005で検出された力み音声が検出された有声区間の情報を取得し、力み音声を含まない、「なまえおかく」と「ほしいんです」の部分については、力み音声ではない通常発声の学習用データより決定された言語モデルの重みα=0.9を適用する。このとき、図17(b)に示すように従来の連続音声認識の方法すなわち言語モデルの重みαを一定として、力み音声で発声された部分についても力み音色で発声されていない場合に適用する言語モデルの重みα=0.9を適用する。力み音声で発声された「えんぴつが」の部分が、通常発声の音響モデルにおいては「えんとつ」とのマッチングが良かったものとする。この場合、
のように、言語モデルとしては、文頭から「書く」までの単語列に「えんとつ」が続く確率より「えんぴつ」が続く確率の方が大きいため
となるにもかかわらず、言語モデルの重みが小さいために相対的に音響モデルの値が大きく、数3の値は
となる。このため、認識結果としては「名前を書く煙突が欲しいんです」が採用されることになる。
しかし、本実施の形態では、連続単語音声認識部303は、ステップS3006で、力み音声が検出された入力音声中の区間を、力み音声のない通常発声の学習データより作成された音響モデルにより音声認識する場合には認識精度が低下することに対応させて、「力み」で発声された「えんぴつが」の部分については言語モデルの重みを大きくする。すなわち図17(c)に示すように力み音声の発声を含んだデータより作成した言語モデルの重みα=2.3を適用する。これにより、
となり、認識結果としては「名前を書く鉛筆が欲しいんです」が採用され、正しい認識結果を得ることができる。
なお、本実施の形態において力み音声を含まない通常発声のフレームに適用する言語モデルの重みを0.9、力み音声で発声されたフレームに適用する言語モデルの重みを2.3としたが、力み音声で発声されたフレームにおいて言語モデルの重みが相対的に大きくなる限りにおいて、これ以外の値であっても良い。
また、本実施の形態において、基本周波数分析部101がマイクロホン1から入力音声を取得して基本周波数を求めたが、実施の形態2のように逆フィルタ202を用いて音源波形を抽出し、音源波形から基本周波数を求め、以降の処理を行うものとしても良い。
さらに、本実施の形態において音声認識の音響特性モデルはメルケプストラム係数のパラメータを用いるものとしたが、それ以外のケプストラム係数等、音声の周波数特性を記述し、音声認識に用いられる特徴量であればどのような特徴量を用いても良い。
かかる構成によれば、入力された音声より怒りや苛立ちが反映された力み音声を検出し、力み音声は音響特徴量データベース内の音響モデルに合致しにくいことを考慮して言語モデルの重み係数αを大きくし、相対的に音響モデルの重みを軽くすることができる。これにより、音響モデルが合致しないことによる音韻レベルの誤認識を防ぎ、文レベルの音声認識精度を向上させることができる。さらには言語モデルの重みは、既存の言語モデルと音響モデルとのバランスを決定するものであるため、力み音声の音響モデルを生成する必要がなく、実施の形態2のように力み音声の音響モデルを使用する場合に比べ、少量のデータで音声認識処理が可能である。
本実施の形態のように音響モデルとあわせて言語モデルを使用する音声認識においては、音韻列のみでなく単語境界の判定もおこなわれる。このため、力み音声との対応によりユーザがどの単語やフレーズに力を入れて話していたかを容易に解析することができる。コールセンターの利用者の音声や、店頭での顧客の音声に本実施の形態に係る音声認識装置を適用させ、上記解析を行なうことにより、発話中のどの単語やフレーズが力んでいるかを知ることができ、クレーム内容をより的確に分類してマーケティングに反映させることができる。
また音声入力による電子メール作成等に上述の音声認識装置を用いれば、単語の後ろに怒りや苛立ちを表す絵文字を自動で挿入することができる。これにより、文字だけで伝わりにくい感情を、煩雑な手間をなしに、受信者に伝えることができる。
また、本実施の形態に示すような力み音声検出装置を含む音声認識装置を対話制御等に用いる場合には、力み音声検出部100の出力を利用することにより、ユーザである話者が対話動作過程のどのイベントに対して怒りや苛立ちを覚えたかを特定することができる。このため、例えば、ユーザの怒りに対して、システム側の出力音声を「大変申し訳ございませんが・・・」というようなより丁寧な謝罪や、「お手数ではございますが・・・」というような丁寧な依頼の表現にしたりすることができる。これにより、ユーザの感情を平常な状態に導き、ユーザによる発話を誤認識の少ない通常音声での発話へ誘導し、対話インタフェースとしてスムーズに動作する環境を整えることができる。
(実施の形態4)
実施の形態4では、本発明の力み音声検出装置を音声認識装置に応用した怒り認識機能付音声認識装置について説明する。
図18は、本発明の実施の形態4における怒り認識機能付音声認識装置の構成を示す機能ブロック図である。図19は、実施の形態4における怒り認識機能付音声認識装置の動作を示したフローチャートである。また、図20は、後述する力み音声発生指標計算規則記憶部414に記憶された計算規則の一例を示す図である。
図18において、図14と同じ部分については説明を適宜省略し、図14と異なる部分を中心に説明する。図19においても図15と同じ部分については説明を適宜省略し、図15と異なる部分を中心に説明する。
図18において、怒り認識機能付音声認識装置の構成は、図15の機能ブロック図に怒り強度判定部410が付け加わり、力み音声検出部100が力み音声検出部400に置き換わり、連続単語音声認識部303が連続単語音声認識部403に置き換わり、表示部209が表示部418に置き換わった以外は図14と同様の構成である。
力み音声検出部400は、図8に示した実施の形態1および実施の形態3における力み音声検出部100と同様に構成される。ただし、力み音声検出部400は、入力音声の有声区間と基本周波数との入力を受付け、力み音声の検出結果のみではなく、実施の形態1のステップS1007で求められた振幅包絡の多項式近似の結果を振幅パターンとして出力する。さらに、力み音声検出部400は、基本周波数分析部101より出力された基本周波数をも出力する。
連続単語音声認識部403は、実施の形態3における連続単語音声認識部303と同様に音声認識用特徴量抽出部201が出力した音響特徴量と、力み音声検出部400が出力した力み音声の検出結果とを受付け、さらに力み音声検出部400が出力する基本周波数パターンと振幅パターン情報とを受付ける。連続単語音声認識部403は、これらの入力に基づき音響特徴量データベース301と言語特徴量データベース302とを参照して連続音声認識を行い、入力音声中の時間位置情報として力み音声検出部400より出力された力み音声区間、基本周波数パターンおよび振幅パターンを、認識結果である音韻列に対してアラインメントする。連続単語音声認識部403は、認識結果である音韻列および単語列と共に、音韻単位で記述された力み音声発生位置、ならびに音韻列に対応付けられた基本周波数パターンおよび振幅パターンを出力する。
怒り強度判定部410は、言語処理辞書411と、言語処理部412と、韻律情報生成部413と、力み音声発生指標計算部415と、怒り強度決定規則記憶部416と、怒り強度決定部417とを含む。
言語処理辞書411は、単語ごとに少なくとも読み、アクセント、アクセント結合属性、品詞を記憶する記憶装置である。言語処理部412は、言語処理辞書411を参照して単語列の言語解析をし、係り受け距離に基づく単語結合度情報を出力する処理部である。韻律情報生成部413は、言語処理部412より出力された単語アクセント、アクセント結合情報および単語結合度情報と、連続単語音声認識部403より出力された音韻位置に対応付けられた基本周波数パターンおよび振幅パターンとを受付け、アクセント位置、アクセント句区切り、フレーズ区切りの情報を生成する処理部である。
力み音声発生指標計算規則記憶部414は、音韻列とアクセント等の韻律情報とから音韻ごとの力み音声の発生し易さ(あるいは発生しにくさ)である力み音声発生指標を計算するための規則を記憶する記憶装置である。力み音声発生指標計算部415は、韻律情報生成部413より出力された音韻列と対応付けられたアクセント位置、アクセント句区切り、フレーズ区切りを受付け、力み音声発生指標計算規則記憶部414を参照して音韻ごとに力み音声発生指標を計算する処理部である。
怒り強度決定規則記憶部416は、力み音声発生指標より怒り強度を決定するための規則を記憶する記憶装置である。怒り強度決定部417は、力み音声発生指標計算部415より出力された音韻ごとの力み音声発生指標と、音韻に対応付けられた入力音声中の力み音声発生位置とから、怒り強度決定規則記憶部416を参照して怒り強度を決定する処理部である。
表示部418は、連続単語音声認識部403より出力された音声認識結果と、怒り強度決定部417より出力された音韻ごとの怒り強度とを対応付けて表示する表示装置である。
このように構成された怒り認識機能付音声認識装置の動作について図19に従って説明する。図15と同じ動作については説明を省略し、異なる部分についてのみ説明する。
マイクロホン1より音声が入力される(ステップS1001)。音声認識用特徴量抽出部201は、入力音声を分析し、メルケプストラム係数を抽出する(ステップS2002)。一方、基本周波数分析部101は、入力音声の周期性の有無を分析するとともに、周期性のある部分についてはその周波数を求める(ステップS1002)。さらに、基本周波数分析部101は、ステップS1002において音声中の有声区間とみなされた区間を抽出する(ステップS1003)。
力み音声検出部400は実施の形態3と同様にしてステップS1003で抽出された有声区間において推定振幅パターンを生成して力み音声を検出する(ステップS4005)。つまり、力み音声検出部400は、音声中の各有声区間について、実施の形態3に示した図16のステップS1004からステップS1015までの処理を繰り返して、力み音声の区間を検出する。処理の概要は以下のとおりである。つまり、有声区間に対し、ステップS1005で第2高調波成分を抽出し、ステップS1006で第2高調波成分の振幅包絡を抽出する。ステップS1007において振幅包絡を多項式で近似し、振幅変調前の音声の包絡線を推定する。ステップS1008で多項式による近似値と包絡線との差分を求め、ステップS1009で変調度を求める。変調度が基準値を超える場合(ステップS1010でYES)、ステップS1012で振幅包絡の瞬時周波数の中央値を求め、これを変調周波数とする。変調周波数が基準範囲内である場合(ステップS1013でYES)、ステップS1015において当該有声区間を力み音声の区間と判定する。力み音声検出部400は、ステップS1007において多項式近似によって推定された有声区間の変調前振幅包絡すなわち振幅パターンを、すべての有声区間について力み音声区間の検出結果と共に出力する。
連続単語音声認識部403は、音響特徴量データベース301と言語特徴量データベース302とを参照し、ステップS2002で抽出されたメルケプストラム係数を用いて音声認識を行う(ステップS3006、S3007)。つまり、連続単語音声認識部403は、音響特徴量データベース301と言語特徴量データベース302とを参照して音声認識を行う際に、音声認識を行うフレームが力み音声を含む場合には言語モデルの重みの値を大きくし、相対的に音響モデルの重みを小さくすることにより(ステップS3006)、音声認識を行う(ステップS3007)。
さらに、連続単語音声認識部403は、認識結果である入力音声の時間位置に対する音韻ラベルを元に、力み音声検出部400より出力された有声区間の基本周波数パターン、振幅パターンおよび力み音声区間と音韻列中の各音韻との対応付けを行う(ステップS4008)。
言語処理部412は、連続単語音声認識部403より出力された認識結果である音韻列および単語列に基づき、言語処理辞書411を参照して言語解析を行い、単語間の係り受け情報を生成する(ステップS4009)。係り受け情報の解析方法としては、例えば、「情報処理学会研究報告、2000−NL−138、pp79−86、2000年7月」に示されるような統計学習による解析方法を用いる。言語処理部412は、単語の係り受け解析結果を元に隣り合う単語の結合度情報を生成し、音韻列とあわせて単語ごとの単語結合度、単語のアクセント、単語のアクセント結合情報、さらに連続単語音声認識部403より受付けた各音韻に対応付けられた基本周波数パターン、振幅パターンおよび力み音声検出結果を出力する。
韻律情報生成部413は、言語処理部412の出力を受付け、アクセント句区切りとフレーズ区切りとを決定し、アクセント位置を決定する(ステップS4010)。つまり、韻律情報生成部413は、単語結合度が大きいものから順に1アクセント句が9モーラを超えない範囲でアクセント句を結合し、結合度の値が無いあるいは非常に低い「節」の切れ目をフレーズの区切りとする。韻律情報生成部413は、また、生成したアクセント句内に含まれる単語のアクセント結合情報に基づき、アクセント句内で1つのアクセント位置の設定を行う。このようにして単語列の情報より作成されたアクセント位置、アクセント句区切り、フレーズ区切りの情報について、音韻に対応付けられた基本周波数パターンおよび振幅パターンの立ち上がり部分または立下り部分がアクセント句区切りと一致しない場合には、韻律情報生成部413は、アクセント句区切りが基本周波数パターンおよび振幅パターンの立ち上がり部分または立下り部分と一致するように修正し、それに伴ってアクセント位置を修正する。フレーズ区切りが基本周波数パターンおよび振幅パターンの立下りでない部分に設定されている場合には、韻律情報生成部413は、フレーズ区切りをアクセント句区切りに修正する。
力み音声発生指標計算部415は、力み音声発生指標計算規則記憶部414に記憶された、子音、母音、アクセント句中の位置、アクセント核からの相対位置等の音韻属性から力み音声の発生しやすさを求める規則を用いて力み音声発生指標を音韻ごとに計算する(ステップS4011)。力み音声発生指標の計算規則は、音韻属性から力み音声の発生しやすさを数値で表現できるモデルにより表される。このようなモデルは、例えば、力み音声を含む音声データより、音韻属性を説明変数とし、力み音声が発生したか否かの2値を従属変数とし、質的データを取り扱う統計的学習手法の1つである数量化II類を用いて統計的学習を行うことにより得られる。力み音声発生指標計算規則記憶部414は、例えば図20のように統計的学習によって得られた音韻属性に対応するモデルパラメータを記憶しているものとする。力み音声発生指標計算部415は、各音韻の属性に従って、力み音声発生指標計算規則記憶部414に記憶された統計モデルを適用し、力み音声発生指標を計算する。このような発生指標の計算方法は国際公開第2006/123539号パンフレットに詳述されている。
怒り強度決定規則記憶部416は、力み音声発生指標計算規則を統計的に学習した際に、力み音声を含む音韻で力み音声発生指標が低い傾向が見られたか、高い傾向が見られたかにより決定された怒り強度計算規則を記憶するものである。学習データにおいて、力み音声を含む音韻で力み音声発生指標が低い傾向が見られた場合には、力み音声発生指標は「力み難さ」の指標と考えられる。怒り強度決定規則は、力み音声発生指標が高い音韻すなわち力み難さが高い音韻が力んで発声されている場合には怒りの強度が大きいと判断され、力み音声発生指標が低い音韻すなわち力み難さが低い音韻が力んで発声されている場合には怒りの強度が小さいと判断されるように設定された規則である。
怒り強度決定部417は、ステップS4011において力み音声発生指標計算部415で計算された力み音声発生指標に基づき、怒り強度決定規則記憶部416に記憶された規則を参照して怒りの強度を決定する(ステップS4012)。表示部418は、ステップS3007で求められた音声認識結果と共に、怒りの強度を表示する(ステップS4013)。
かかる構成によれば、入力された音声より力み音声を抽出し、一方では力み音声が抽出された場合には音響特徴量データベース内の音響モデルに合致しにくいことを考慮して言語モデルの重み係数を大きくし、相対的に音響モデルの重みを軽くすることができる。これにより、音響モデルが合致しないことによる音韻レベルの誤認識を防ぎ、文レベルの音声認識精度を向上させることができる。他方では音声認識結果を利用して力み音声の発生しやすさあるいは発生しにくさを計算して、力み音声が発生しやすい部分で実際に力み音声が発生している場合には怒りの強度が低いと判断し、力み音声が発生しにくい部分で入力音声に力み音声が発生している場合には怒りの強度が高いと判断することができる。これにより、入力音声から、発話者の怒りや苛立ちの強度を個人差や地方差に影響されることなく正確に認識することができる。
さらに、言語モデルの重みは、既存の言語モデルと音響モデルとのバランスを決定するものであるため、力み音声の音響モデルを生成する必要がなく、実施の形態2のように力み音声の音響モデルを使用する場合に比べ、少量のデータで音声認識処理が可能である。
また、力み音声に対して無表情な音声データから作られた音響特徴量データベースを用いて音声認識を行なう場合には精度が低い。しかし、力み音声が発生している部分については音響モデルが適切でない可能性があるとして、音響モデルの重みを軽くし言語モデルの重みを大きくすることにより不適切な音響モデルを適用することの影響を小さくすることで、音声認識精度も向上する。音声認識精度の向上により、音韻列を用いて計算する力み音声の発生しやすさの計算精度も向上するため、怒り強度の計算も精度が向上する。
さらに、力み音声を音韻単位で検出し、怒り強度の判断を音韻単位で行うことで、入力音声中の感情の変化に音韻単位で追随することができる。従って本実施の形態の怒り認識機能付音声認識装置を対話制御等に用いる場合には、ユーザである話者が対話動作過程のどのイベントに対して、どのような反応をしたかを特定する場合に苛立ち出したタイミングを詳細に捉えることができる。また、怒りや苛立ちの強度も合わせて分かるため、非常に効果的である。入力音声より、ユーザの感情の変化のタイミングおよび感情の強度をともに詳細に捉えることができるため、例えば、ユーザの怒り強度に合わせて、システム側の出力音声を切り替えることができる。例えば、「大変申し訳ございませんが・・・」という丁寧な謝罪や、「お手数ではございますが・・・」という丁寧な依頼の表現のなかでも申し訳なさの程度を複数用意し、ユーザの怒りの強度に合わせて音声を出力することで、ユーザを必要以上に恐縮させてしまったり、あるいは丁寧すぎて逆効果になってしまうことがない。このため、ユーザの感情を平常な状態に導き、対話インタフェースとしてよりスムーズに動作することができる。
また、認識結果と共に怒りの強度を記録することで、コールセンター等では利用者の音声から、対話内容、発話内容および怒りの強度変化の対応関係を分析することができる。このような分析結果は、クレーム分類や、対応の良し悪しを分類する際に有効となる。コールセンター等から担当者へ電話を回す際、怒り強度データもあわせて送信し、担当者側で怒り強度を表示するようにすれば、担当者が電話を受けるときには利用者の怒りの状況が分かり、正しい対応がし易くなる。
なお、本実施の形態の音声認識処理では、実施の形態3と同様に、連続単語音声認識部403が、力み音声の有無によって重みを変えながら音響特徴量データベース301および言語特徴量データベース302を参照するものとしたが、実施の形態2のように、力み音声の有無によって標準音声特徴量データベース206と力み音声特徴量データベース207とを切り替えながら、音声認識を行うものとしてもよい。
また、本実施の形態において、基本周波数分析部101がマイクロホン1から入力音声を取得して基本周波数を求めたが、実施の形態2のように逆フィルタ202を用いて音源波形を抽出し、音源波形から基本周波数および振幅パターンを求めるものとしても良い。
さらに、本実施の形態において、韻律情報生成部413はアクセント、アクセント句区切り、フレーズ区切りを決定する際に、言語処理部412で求められた単語アクセント、アクセント結合情報および単語結合度情報と、連続単語音声認識部403で音韻と対応付けられた基本周波数パターンおよび振幅パターンとの両方の情報を用いるものとしたが、いずれか一方の情報を用いるものであってもよい。つまり、韻律情報生成部413は、言語処理部412で求められた単語アクセント、アクセント結合情報および単語結合度情報のみからアクセント、アクセント句区切り、フレーズ区切りを決定するものとしても良い。また、韻律情報生成部413は、連続単語音声認識部403で音韻と対応付けられた基本周波数パターンおよび振幅パターンのみからアクセント、アクセント句区切り、フレーズ区切りを決定しても良い。ただし、両方の情報を用いた方が、精度が向上する。なお、基本周波数パターンおよび振幅パターンのみからアクセント、アクセント句区切り、フレーズ区切りを決定する場合は、言語処理部412、言語処理辞書411は不要となり、ステップS4009は省略しても良い。
また、本実施の形態において、言語特徴量データベース302と言語処理部412と言語処理辞書411とは独立の構成としたが、言語特徴量データベース302が言語処理辞書411の内容を含み、連続単語音声認識部403が認識結果である音韻列および単語列と共に、単語アクセント、アクセント結合情報、単語結合度情報をも生成するものとしても良い。その際、言語処理部412は、連続単語音声認識部403に包含され、連続単語音声認識部403は、韻律情報生成部413へ音韻列、単語列、単語アクセント、アクセント結合情報、単語結合度情報、力み音声発生位置、基本周波数パターン、振幅パターンを出力するものとする。
なお、実施の形態4において力み音声発声指標の計算規則のモデルの学習には、統計的学習手法である数量化II類を用い、説明変数には子音、母音、アクセント句中の位置、アクセント核からの相対位置を用いたが、統計的学習手法はこれ以外の方法でも良い。また、説明変数としては、上記属性のみではなく、基本周波数やパワーとそのパターン音韻の時間長等の連続量を用いてもよい。
なお、実施の形態4においては、実施の形態3と同様に音声認識部は音響特徴量データベースと言語特徴量データベースを用いて、力み音声の検出により両データベースの重みを変更するものとしたが、実施の形態2のように、力み音声の検出により標準音声特徴量データベース206と力み音声特徴量データベース207とをスイッチで切り替えながら音声認識部が音声認識を行うものであってもよい。実施の形態2のようなデータベースを切り替える方法を採用する場合、力み音声検出部は入力音声中の当該処理フレームが力み音声であるか否かをスイッチに出力するのみでなく、音声認識部にも出力する。音声認識部は認識結果の音韻と合わせて、各音韻が力み音声であったか否かの情報を怒り強度判定部に出力する。怒り強度判定部の言語処理部は音韻列より言語処理辞書を参照し、言語モデルに従って単語境界、アクセント等の情報を生成して力み音声発生指標計算部に出力する。力み音声発生指標計算部は力み音声発生指標を求め、怒り強度決定部は指標に基づき怒り強度を決定する。
なお、本発明の実施の形態すべてにおいて、入力音声はマイクロホン1より入力されるものとしたが、あらかじめ録音、記録された音声あるいは装置外部より入力される音声信号であっても良い。
なお、本発明の実施の形態すべてにおいて、力み音声検出結果、音声認識結果、あるいは怒り強度を表示部で表示するものとしたが、記憶装置へ記録する、あるいは装置外部へ出力するものとしても良い。
また、本発明の実施の形態すべてにおいて、上述した各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。