JP4914295B2 - 力み音声検出装置 - Google Patents

力み音声検出装置 Download PDF

Info

Publication number
JP4914295B2
JP4914295B2 JP2007163676A JP2007163676A JP4914295B2 JP 4914295 B2 JP4914295 B2 JP 4914295B2 JP 2007163676 A JP2007163676 A JP 2007163676A JP 2007163676 A JP2007163676 A JP 2007163676A JP 4914295 B2 JP4914295 B2 JP 4914295B2
Authority
JP
Japan
Prior art keywords
voice
force
speech
signal
amplitude envelope
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007163676A
Other languages
English (en)
Other versions
JP2009003162A (ja
JP2009003162A5 (ja
Inventor
弓子 加藤
孝浩 釜井
良文 廣瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2007163676A priority Critical patent/JP4914295B2/ja
Publication of JP2009003162A publication Critical patent/JP2009003162A/ja
Publication of JP2009003162A5 publication Critical patent/JP2009003162A5/ja
Application granted granted Critical
Publication of JP4914295B2 publication Critical patent/JP4914295B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、発話者の発話する音声中より「力み」を検出する力み音声検出装置に関する。
自動電話応対システム、電子秘書システムおよび対話ロボット等、音声対話によるインタフェースを持つ対話システムにおいては、対話システムが、ユーザの要求により適切に対応するため、ユーザが発声した音声からユーザの感情を理解することが重要な要件となる。例えば、上記のような対話システムが、ユーザと音声による対話を行う際、対話システムの音声認識は必ずしも正確に音声を認識するとは限らない。対話システムが誤認識を起こした場合には、対話システムはユーザに対して再度音声入力を要求する。このような状況において、ユーザは少なからず怒りを覚えたり、苛立ったりする。誤認識が重なればなおさらである。怒りや苛立ちはユーザの話し方や声質を変化させ、平常時の音声とは異なるパターンとなる。このため、平常時の音声を認識用モデルとして保持する対話システムは、さらに誤認識をし易くなり、ユーザに対して同じ回答を何度も要求するなど、ユーザにとってさらに不愉快な要求をすることになる。
対話システムが上記のような悪循環に陥った場合、対話システムはそのインタフェースとしての用を成さなくなる。ユーザが発声する音声からユーザの怒りや苛立ちを検出することは、このような悪循環を断ち切り、対話システムとユーザとの間の音声対話を正常化するために必要不可欠である。すなわち、ユーザの怒りや苛立ちを理解することができれば、対話システムは誤認識したことに対してより丁寧な口調で聞き返したり、謝罪したりすることができる。これにより、ユーザの感情を平常に近づけ、平常の発話を導くことができ、対話システムは、音声認識率を回復することができる。ひいては、ユーザは、対話システムによる機器操作をスムーズに行うことができる。
従来、音声から感情を認識する方法としては、話者の発声した音声から声の高さ(基本周波数)、大きさ(パワー)、発話速度などの韻律的特徴を抽出し、入力音声全体に対して、「声が高い」「声が大きい」といった判断に基づき感情を認識する方式(例えば、特許文献1参照。)や、入力音声全体に対して、「高い周波数領域のエネルギーが大きい」といった判断をする方式(例えば、特許文献1参照。)が知られている。また、音声のパワーと基本周波数とのシーケンスより、パワーおよび基本周波数の平均値、最大値および最小値といった統計的な代表値を求めて感情を認識する方式(例えば、特許文献2参照。)が知られている。さらに、文や単語のイントネーションやアクセントといった韻律の時間パターンを用いて感情を認識する方式(例えば、特許文献3参照。)が知られている。
図21は、特許文献1に記載されている従来の音声による感情認識装置の構成を示すブロック図である。感情認識装置は、マイクロホン1と、音声コード認識手段2と、感性情報抽出手段3と、出力制御手段4と、出力装置5とを備えている。感性情報抽出手段3は、話速検出部31と、基本周波数検出部32と、音量検出部33と、音声レベル判定基準格納部34と、標準音声特徴量格納部35と、音声レベル分析部36と、感性レベル分析用知識ベース格納部37と、感性レベル分析部38と、音声スペクトル検出部39とを備えている。出力制御手段4は、主制御部41と、出力制御用知識ベース格納部42とを備えている。
マイクロホン1は、入力音声を電気信号に変換する。音声コード認識手段2は、マイクロホン1から入力された音声の音声認識を行い、認識結果を感性情報抽出手段3および出力制御手段4へ出力する。一方、感性情報抽出手段3の話速検出部31、基本周波数検出部32、音量検出部33は、マイクロホン1より入力された音声より、話速、基本周波数および音量を抽出する。音声レベル判定基準格納部34には、入力された音声の話速、基本周波数および音量を標準の話速、基本周波数および音量とそれぞれ比較して音声レベルを決定するための基準が記憶されている。標準音声特徴量格納部35には、音声レベルを判定する際の基準となる標準の発声速度、基本周波数および音量が記憶されている。音声レベル分析部36は入力された音声の特徴量と標準の音声特徴量との比に基づいて、音声レベル(すなわち、話速レベルおよび基本周波数レベル)と音量レベルとを決定する。
また、感性レベル分析用知識ベース格納部37は、音声レベル分析部36で決定された各種音声レベルによって感性レベルを判定するルールを記憶している。感性レベル分析部38は、音声レベル分析部36からの出力と音声コード認識手段2からの出力とから、感性レベル分析用知識ベース格納部37に記憶されているルールに基づき、感性レベルすなわち感性の種類とレベルとを判定する。出力制御手段4は、感性レベル分析部38が出力した感性レベルに従って、出力装置5を制御して、入力された音声の感性レベルに対応する出力を生成する。ここで音声レベルの決定に用いられている情報は、1秒当たり何モーラ話しているかで表した話速や、平均基本周波数や、発話、文またはフレーズといった単位で求められる韻律情報などである。
また、怒りや苛立ちを認識する方式としては、特に音声の振幅に注目した技術として、20〜50ミリ秒程度を分析フレームとして、隣接フレーム間で音量の差分として現れる子音と母音との振幅差を利用して、発話者の興奮を検出する方式(特許文献4参照)がある。
しかしながら、韻律情報は言語的情報を伝達するためにも使用されており、さらにその言語的情報の伝達方法が、言語の種類ごとに違うという特徴がある。たとえば日本語においては「橋」と「箸」のように基本周波数の高低によって作られるアクセントにより言葉の意味が異なる同音異義語が多くある。また、中国語においては、四声と呼ばれる基本周波数の動きにより、同じ音でもまったく異なる意味(文字)を示すことが知られている。英語ではアクセントは基本周波数よりもむしろストレスと呼ばれる音声の強度によって表現されるが、ストレスの位置は単語あるいは句の意味や、品詞を区別する手がかりとなっている。韻律による感情認識を行うためにはこのような言語による韻律パターンの差を考慮する必要があり、言語ごとに感情表現としての韻律の変化と、言語情報としての韻律の変化とを分離して、感情認識用のデータを生成する必要があった。また、同一言語内においても、韻律を用いる感情認識においては、早口の人や、声の高い(低い)人、等の個人差があり、例えば、普段から大声で早口で話す声の高い人は常に怒っていると認識されてしまうことになる。そのため、個人ごとの標準データを記憶し、個人ごとに標準データと比較することで各個人に合わせた感情認識を行い、個人差による感情の認識間違いを防ぐという方法も必要であった(例えば、特許文献3参照)。
一方、声質による感情の認識については、「息漏れ」音を検出して発話者の聴取者に対する親近感や気を使っている態度を認識する方式(特許文献5参照)や、テンションの低さや、リラックスしている状態、あるいは苦しみを表現し、日本語ではフレーズ境界の基本周波数が低めの部分に見られる「りきみ(Vocal Fry)」の検出を行う方法(非特許文献1参照)がある。また、音声認識に用いる音響特徴量を各感情の表出確率と対応付けて、分析フレームごとの感情表出確率より入力音声の一定区間に対して感情表出尤度を算出して、感情を認識する方式(特許文献6参照)が提案されている。しかし、スペクトル情報をあらわす音響特徴量については、音韻による差、言語差、地方差、個人差等の感情以外による分散が大きく、感情表出確率つきのコードブックを生成するには感情表現がラベルされた膨大なデータが必要である。このように、韻律以外の指標によって発話者の怒りや苛立ちを簡易に認識する方法については提案されていない。
特開平9−22296号公報(第6−9頁、表1−5、図2) 特開2003−99084号公報 特開2005−283647号公報 特開2004−317822号公報 特開2006−84619号公報 特開2005−345496号公報 石井カルロス寿憲、他著、「Vocal Fry発声区間の自動検出法」、電子情報通信学会論文誌D、J89−D巻12号2679頁−2687頁、2006
前述のように、韻律による感情認識では、韻律情報のうち言語情報を表すために使われている変動と感情表現としての変動とを分離するために、言語ごとに大量の音声データ、分析処理および統計処理が必要となる。さらに、同一言語であっても、地方差や年齢等による個人差も大きく、同一話者による音声であったとしても体調等により大きく変動する。このため、ユーザ個人ごとに標準データを持たない場合には、韻律による感情認識では、不特定多数の音声に対して常に安定した結果を生成することが困難であった。
さらに、不特定多数の使用を想定するコールセンターや駅などの公共の場所での案内システム等の場合には、話者ごとのデータを用意することができない。このため、個人ごとに標準データを用意する方式が採用できない。また、韻律データは1秒あたりのモーラ数、平均値もしくはダイナミックレンジのような統計的代表値、または時間パターンなど、発話、文またはフレーズといった音声としてまとまった長さで分析する必要がある。このため、音声の特徴が短時間で変化する場合には追随が困難であり、これが原因で音声による感情認識を高い精度で行うことができないという課題を有していた。
また、韻律以外の指標によって発話者の怒りや苛立ちを検出する方法はこれまでに提案されておらず、言語や個人による差にかかわらず安定して怒りや苛立ちを検出する方法がないという課題を有していた。
本発明は、前記従来の課題を解決するもので、音韻単位という短い時間単位で感情を検出可能で、かつ個人差、言語差、地方差の影響を受けずに発話者の怒りや苛立ちを検出することのできる力み音声検出装置を提供することを目的とする。
上記目的を達成するために、本発明に係る力み音声検出装置は、入力音声信号が話者が力んだ状態で発声した音声の信号であるか否かを判定する力み音声検出装置であって、入力音声信号の有声区間のうち1区間について振幅包絡を抽出する振幅包絡抽出手段と、前記振幅包絡抽出手段によって抽出された振幅包絡の周期的変動を検出し、検出された周期的変動の周波数を求める変調周波数分析手段と、前記変調周波数分析手段によって求められた前記周期的変動の周波数が10Hz以上かつ170Hz未満のあらかじめ定められた範囲内にある場合に、前記入力音声信号は話者が力んだ状態で発声した音声の信号であると判定する力み判定手段とを備える。
後述するように、力み音声の入力音声信号の振幅包絡には周期的変動が見られる。このような特徴は、発話者、発話者の喋る言語または発話者の住む地方が異なっていても共通に見られる性質である。上記した力み音声検出装置の構成によると、入力音声信号中に振幅包絡の周期的変動が見られるか否かを判断することにより、入力音声が力み音声か否かを判定している。よって、個人差、言語差、地方差の影響を受けずに発話者の怒りや苛立ちを検出することができる。また、力み音声か否かの判定を音韻単位で行なうことにより、短い時間単位で入力音声に力みが生じているか否かの判定を行なうことができる。
好ましくは、上述の力み音声検出装置は、さらに、前記入力音声信号の振幅包絡の振幅変動度合いを示す振幅変調度を計算する振幅変調度計算手段を備え、前記力み判定手段は、前記振幅変調度計算手段によって求められた前記振幅変調度があらかじめ定められた値以上であり、かつ前記変調周波数分析手段によって求められた前記周期的変動の周波数が10Hz以上かつ170Hz未満のあらかじめ定められた範囲内にある場合に入力音声が力み音声であると判定する。
後述するように、力み音声の入力音声信号の振幅包絡には振幅変動が生じる。このため、振幅変動の度合いである振幅変調度が大きい部分の入力音声信号は力みの音声信号であると判定することができる。
本発明の他の局面に係る音声認識装置は、入力音声信号に含まれる音韻の種類を特定する音声認識装置であって、上述の力み音声検出装置と、音韻の種類ごとに、発話者が力んだ状態で発声した音声の特徴量を記憶している力み音声特徴量データベースと、音韻の種類ごとに、発話者が通常状態で発声した音声の特徴量を記憶している標準音声特徴量データベースと、前記力み音声検出装置において入力音声信号が力んだ状態で発声した音声の信号であると判定された場合には、前記力み音声特徴量データベースを用いて前記入力音声信号に含まれる音韻の種類を特定し、前記力み音声検出装置において前記入力音声信号が力んだ状態で発声した音声の信号であると判定されなかった場合には、前記標準音声特徴量データベースを用いて前記入力音声信号に含まれる音韻の種類を特定する音声認識手段とを備える。
この構成によると、力み音声の発生位置において、標準的な音声の特徴量が適合しないことによる音声認識精度の低下を防ぐことができる。これにより、正確に音声認識を行なうことができる。
本発明のさらに他の局面に係る音声認識装置は、入力音声信号に含まれる音韻の種類を特定する音声認識装置であって、上述の力み音声検出装置と、音韻の種類ごとに音響特徴量を記憶している音響特徴量データベースと、少なくとも読みまたは発音記号を有する単語辞書を表す言語特徴量を含む言語特徴量データベースと、前記力み音声検出装置において入力音声信号が力んだ状態で発声した音声の信号であると判定された場合には、前記音響特徴量データベースに含まれる音響特徴量を用いた確率モデルの重みよりも前記言語特徴量データベースに含まれる言語特徴量を用いた確率モデルの重みを大きくし、重み付けされた2つの確率モデルを用いて前記入力音声信号に含まれる音韻の種類を特定する音声認識手段とを備える。
この構成によると、力み音声の発生位置において、音響特徴量を用いた確率モデルが適合しないことによる音声認識精度の低下を防ぐことができる。これにより、正確に音声認識を行なうことができる。
本発明のさらに他の局面に係る怒り認識機能付音声認識装置は、入力音声信号に含まれる音韻の種類を特定するとともに話者の怒りの強度を認識する怒り認識機能付音声認識装置であって、上述の音声認識装置と、音韻の属性情報から発話時の力みやすさを求めるための規則を用いて、前記音声認識装置で音韻の種類が認識された音韻ごとに、発話時の力みやすさを示す力み音声発声指標を計算する力み音声発生指標計算手段と、前記音声認識装置が備える力み検出装置により話者が力んだ状態で発声した音声の信号であると判定された入力音声信号について、前記力み音声発生指標が小さいほど怒りの強度が高くなる規則に基づいて、前記力み音声発生指標計算手段で計算された前記力み音声発生指標から怒りの強度を決定する怒り強度決定手段とを備える。
この構成によると、力み音声が発生しにくい部分で入力音声に力み音声が発生している場合には怒りの強度が高いと判断することができる。これにより、入力音声信号から、発話者の怒りや苛立ちの強度を個人差や地方差に影響されることなく正確に認識することができる。
なお、本発明は、このような特徴的な手段を備える力み音声検出装置として実現することができるだけでなく、力み音声検出装置に含まれる特徴的な手段をステップとする力み音声検出方法として実現したり、力み音声検出方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM(Compact Disc−Read Only Memory)等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。
本発明によれば、話者が怒りや苛立ちのために思わず喉頭を力んでしまい、生理的に発生する特徴的な声質である、力み音声を検出することができる。また、力み音声を検出することにより、言語の種類や話者の特性による個人差や地方差に影響されることなく、話者の怒りや苛立ちを音韻単位で認識することができる。このため、対話システム等において話者の怒りや苛立ちを緩和するような応対動作を行ったり、音声認識部の動作を変更したりする対応を取ることができる。よって、音声対話インタフェースにおいて誤認識がさらに誤認識を呼ぶという悪循環を断ち、快適で使い易い音声対話インタフェースを実現することができる。
まず、本願が対象とする「力み」音声について、説明する。本願では、怒鳴ったり、興奮したりする際の発声中に生じる「力み」音声を対象としているが、本願が対象とする「力み」音声とは異なる定義がされた「りきみ」音声として、「きしる声」(creaky)あるいは「フライ」(vocal fry)とも呼ばれる音声の研究がなされている(石井カルロス寿憲、石黒浩および萩田紀博、「りきみの自動検出のための音響分析」電子情報通信学会技術研究報告,SP2006−07巻、pp.1−6,2006)。
そこで、本願の「力み」音声について定義する。本願の「力み」音声とは、力を入れて発話する際に、通常より発声器官に力が入るあるいは発声器官が強く緊張するために起こるもので、発声器官が「力み」の音声を生成しやすい状況が作られる場合に発声される音声であると定義する。具体的には、「力み」の音声は、力が入った発声であるため、音声の振幅はどちらかといえば大きく、当該モーラが両唇音や歯茎音でかつ鼻音や有声破裂音であり、文末や句末というよりアクセント句の先頭から3番目の間に位置するモーラである、といった実際の音声中の一部で起こる状況で発声され易い声質の音声である。また、「力み」の音声は感動詞や感嘆詞に限らず、自立語と付属語との違いを問わず様々な品詞中に見られる。
次に、本発明の基礎となる、音声中の力み音声の特徴について述べる。
感情や表情を伴った音声においては、様々な声質の音声が混在し、音声の感情や表情を特徴付け、音声の印象を形作っていることが知られている(例えば日本音響学会誌51巻11号(1995),pp869−875,粕谷英樹・楊長盛,“音源から見た声質”、特開2004−279436号公報参照。)。本願発明に先立って、同一テキストに基づいて発話された50文について無表情な音声と感情を伴う音声との調査を行った。
図1は、録音された音声における力み音声の感情種類による発生頻度を示すグラフである。図1は、4名の話者について「平静」、「怒り」、「激怒」、「朗らか」、「明るく元気」の5種類の感情表現を伴った音声中で、力み音声(harsh voice)で発声されているとしてラベルされた、モーラ数を示したものである。力み音声は「激怒」、「怒り」の感情を伴った音声に多く出現し、「平静」、「朗らか」のような穏やかな音声では出現頻度が低い。「平静」、「朗らか」のような穏やかな音声は、音声認識における音響モデルを生成する際に使用される話し方であり、このような話し方の音声に対しては音声認識の認識率が高く、誤認識が起こりにくい。力み音声を検出することにより怒りや苛立ちのような声を荒げた状況、すなわち誤認識が起こりやすい状況を検知することができる。
「激怒」および「怒り」の感情を伴った音声における力み音声の波形の調査により、力み音声の波形の多くに振幅の周期的変動が見られることが明らかになった。図2(a)は、「特売(とくばい)してますよ」の「ばい」部分について、感情を伴わず「平静」に発声した音声より切り出した通常発声の音声波形とその振幅包絡の概形を示した図である。図2(b)は、「激怒」の感情を伴って発声された、同じく「特売してますよ」中の「ばい」部分の波形とその振幅包絡の概形を示した図である。両波形とも、音素の境界を破線で示している。図2(a)の波形の/a/、/i/を発声している部分では、振幅が滑らかに変動していく様子が見える。通常の発声においては、図2(a)の波形のように母音の立ち上がりで滑らかに振幅が大きくなり、音素の中央付近で最大値となり、音素境界に向けて振幅が小さくなる。母音の立下りがある場合には滑らかに無音あるいは後続子音に向けて振幅が小さくなる。図2(a)のように母音が続く場合は、緩やかに後続の母音に向けて振幅が小さくあるいは大きくなる。通常発声においては、1つの母音内において、図2(b)のように振幅の増減を繰り返すことはほとんどなく、このような基本周波数との関係が一見してわからない振幅の変動を持つ音声についての報告はない。そこで振幅変動が力み音声の特徴であると考え、力み音声であるとラベルされた音声について、以下の処理によって振幅包絡の変動周期を求めた。
まず、音声波形を代表する正弦波成分を抽出するため、音声波形の振幅包絡曲線を求める。つまり、対象となる音声波形の基本周波数の第2高調波を中心周波数とするバンドパスフィルタを逐次求め、そのフィルタに音声波形を通過させる。フィルタを通過した波形に対してヒルベルト変換を施して解析信号を求め、その絶対値によってヒルベルト包絡曲線を求める。求められた振幅包絡曲線をさらにヒルベルト変換し、瞬時角速度をサンプル点ごとに計算し、サンプリング周期に基づいて角速度を周波数に変換する。サンプル点ごとに求められた瞬時周波数について音韻ごとにヒストグラムを作成し、最頻値をその音韻の音声波形の振幅包絡の変動周波数とみなした。
図3は、このような方法で求められた「力み」音声の音韻ごとの振幅包絡の変動周波数を、音韻ごとの平均基本周波数に対してプロットした図である。男性話者、女性話者共に基本周波数に関わらず、振幅包絡の変動周波数は80Hz−90Hzを中心として、50Hz−110Hzに分布している。力み音声の特徴の1つとして、50Hz−110Hzの周波数帯域に振幅の周期変動があることが発見された。このような周期変動は怒りや苛立ちによって発声器官に力が入った場合の生理的な反応であると考えられ、言語や個人による差は小さいことが期待される。そのため、音声中の50Hz−110Hzの振幅の周期変動を検出することで、言語差や個人差の影響を受けずに怒りや苛立ちを検出することができるはずである。
図4は、男性話者による「激怒」の感情を伴う発声を対象として、分析した力み音声の振幅包絡の変動周波数の分布をヒストグラムと累積度数とで示したものである。表1は、図4に示した力み音声の振幅包絡の変動周波数の頻度および累積度数を示す表である。
Figure 0004914295
力み音声でない通常の音声では、その振幅包絡に周期的変動が無い。このため、力み音声を検出するためには周期的変動がない状態と変動がある状態とを区別する必要がある。
図4のヒストグラムにおいて、力み音声の頻度は振幅変動の周波数が10Hzから20Hzの間で立ち上がり、40Hzから50Hzの範囲で急激に増加している。周波数の下限は40Hz付近が妥当と考えられるが、より広い範囲で網羅的に力み音声を検出する際には下限を10Hzとしても良い。累積度数より力みとラベルされた音韻のうち90%は47.1Hz以上の周波数で振幅が変動している。これらより、周波数の下限として47.1Hzを用いることができる。振幅変動の周波数が高くなりすぎると人間の聴覚は振幅の変動を捉えることができなくなる特性を考えると、振幅変動によって力み音声を検出するためには上限を設けるのが望ましい。聴覚の特性としては、70Hz付近が「粗さ」を最もよく感じる周波数であり、変調を受ける元の音にもよるが、100Hzから200Hzにかけて「粗さ」の感覚は小さくなる。
図4のヒストグラムにおいて、力み音声の頻度は110Hzから120Hzの範囲で急激に減少しており、さらに130Hzから140Hzの範囲で半減している。力み音声を特徴付ける振幅変動の周波数の上限は130Hz付近に設定されるべきである。さらに下限同様により広い範囲で網羅的に力み音声を検出する際には、図4において170Hzから180Hzの範囲で一端頻度が0まで低下することに基づいて、上限を170Hzとしても良い。47.1Hzの下限とあわせて累積度数より力みとラベルされた音韻のうち80%が含まれることになる123.2Hzを上限として用いることは有効である。
図5は、力み音声の振幅包絡の変調度を説明するための図である。振幅変動の変調度(振幅変調度)については、変調される信号である音声波形にもともと振幅の変化があるため、振幅一定のキャリア信号の振幅を変調するいわゆる振幅変調とは異なる。したがって、振幅変動の変調度を以下のように定義した。図5(a)に示すように、第2高調波を中心周波数とするバンドパスフィルタを通過した波形のヒルベルト包絡曲線として求められた振幅包絡曲線を多項式近似し、多項式によるフィッティング関数を作成する。図5(a)は、振幅包絡曲線に5次関数をフィッティングさせることにより、フィッティング関数を求めている。フィッティング関数を変調前の波形の振幅包絡曲線とみなす。図5(b)に示すように、第2高調波成分の振幅包絡曲線のピークごとに、当該振幅包絡曲線の値とフィッティング関数の値との差分を求め、それを振幅変動量とみなす。振幅変動量とフィッティング関数の値とは、共に一定の値ではないため、振幅変動量とフィッティング関数の値との両者について音韻内での中央値を求め、両中央値の比を変調度とする。
図6は、このようにして求めた変調度のヒストグラムと累積度数とを示す図である。表2は、図6に示した変調度の頻度および累積度数を示す表である。
Figure 0004914295
図6に示すヒストグラムは、男性話者による「激怒」の感情を伴う発声中(力み音声の発声中)に見られた振幅変動の変調度の分布を示している。聴取者が振幅変動を知覚するためには変動の大きさすなわち変調度が一定以上である必要がある。図6のヒストグラムにおいて、振幅変動の変調度の頻度が0.02から0.04の範囲で急激に頻度が高くなっており、力み音声を特徴付ける振幅変動の変調度の下限を0.02付近とすることが妥当である。また、累積度数を見ると、90%の音韻は変調度が0.038以上であるため、変調度の下限として0.038を用いることもできる。
図5に示した振幅変調の定義から変調度は最大1であることが分かる。図7は変調度1の場合の変換元波形と変換結果とを模式的に示したものである。変換元波形として、例えば、振幅が一定の波形を仮定する。図7(a)は、振幅が1である極短い周期の正弦波を模式的に示している。図7より、変調度が1を超えた場合は変換元の波形を反転させることとなり、振幅を変動させる処理から逸脱する。従って、振幅変動の変調度の定義より、振幅変動の変調度は最大1である。
図6に示すヒストグラムでは、さらに、0.038の下限とあわせて、力みとラベルされた音韻のうち80%が含まれることになる、0.276を振幅変動の変調度の上限として用いることも有効である。上記のことから、力み音声を検出するための1つの基準として、振幅包絡の周期変動が40Hz−120Hz、変調度が0.04以上という基準を用いることができる。
上記のように力み音声は言語差や個人差とかかわりのない怒りや苛立ちによる生理的反応として検出可能なものであり、力み音声の検出により話者の怒りや苛立ちを検知できる可能性を示している。
以下本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図8は本発明の実施の形態1における力み音声検出装置の構成を示す機能ブロック図である。図9は実施の形態1における力み音声検出装置の動作を示したフローチャートである。
図8に示されるように、力み音声検出装置は、入力音声より力み音声を検出する装置であり、マイクロホン1と、基本周波数分析部101と、力み音声検出部100とを備えている。マイクロホン1は、入力音声を電気信号に変換する装置である。基本周波数分析部101は、入力音声の周期性を分析し、入力音声中の有声区間を抽出すると共に、有声区間の基本周波数を求める処理部である。力み音声検出部100は、入力音声中の有声区間から力み音声の区間を検出する処理部である。表示部107は力み判定部106が判定した内容を表示する表示装置であり、例えば、LCD(Liquid Crystal Display)などである。
力み音声検出部100の構成についてより詳細に説明すると、力み音声検出部100は、第2高調波抽出部102と、振幅包絡分析部103と、振幅変調度計算部104と、変調周波数分析部105と、力み判定部106とを備えている。
第2高調波抽出部102は、基本周波数分析部101より出力された入力音声の有声区間について、同じく基本周波数分析部101より出力された有声区間の基本周波数に基づいて、有声区間の第2高調波成分を抽出する処理部である。振幅包絡分析部103は、第2高調波抽出部102より出力された有声区間の第2高調波成分波形を受付け、その振幅包絡曲線を求める処理部である。
振幅変調度計算部104は、振幅包絡分析部103より出力された第2高調波成分の振幅包絡曲線を受付け、第2高調波成分の振幅変調度を求める処理部である。変調周波数分析部105は振幅包絡分析部103より出力された第2高調波成分の振幅包絡曲線を受付け、包絡線の変動周波数すなわち第2高調波の振幅変調周波数を求める処理部である。力み判定部106は、振幅変調度計算部104より出力される第2高調波の振幅変調度と変調周波数分析部105より出力される第2高調波の振幅変調周波数とより、入力音声の有声区間が力み音声の区間であるか否かを判定する処理部である。
このように構成された力み音声検出装置の動作を図9に従って説明する。
マイクロホン1より音声が入力される(ステップS1001)。基本周波数分析部101は、入力音声の周期性の有無を分析すると同時に、周期性のある部分についてはその周波数を求める(ステップS1002)。周期性および周波数の分析は、例えば以下のようにして行われる。つまり、入力音声の自己相関係数を求め、50Hzから500Hzに相当する周期で相関係数が一定以上になる部分を周期性のある部分すなわち有声区間とみなし、相関係数が最大となる周期に対応する周波数を基本周波数とする。さらに基本周波数分析部101は、ステップS1002において音声中の有声区間とみなされた区間を抽出する(ステップS1003)。音声中に有声区間がない場合には(ステップS1004でNO)、表示部107は、音声中に力み音声がないことを表示する(ステップS1016)。
音声中に有声区間がある場合には(ステップS1004でYES)、第2高調波抽出部102は、音声中の未処理の有声区間のうち1区間についてステップS1002で求められた当該有声区間の基本周波数の2倍の周波数を中心としたバンドパスフィルタを設定し、当該有声区間の音声波形をフィルタリングして第2高調波成分を抽出する(ステップS1005)。
振幅包絡分析部103は、ステップS1005で抽出された第2高調波成分の振幅包絡を抽出する(ステップS1006)。振幅包絡は全波整流を行ってそのピーク値をスムーシングして求める方法や、ヒルベルト変換を行ってその絶対値を求める方法等を用いて抽出される。
振幅変調度計算部104は、ステップS1006で抽出した振幅包絡を多項式で近似し、振幅変調前の音声の包絡線を推定する(ステップS1007)。なお、実験的には多項式として3次式または5次式が望ましい。
振幅変調度計算部104は、ステップS1006で求めた振幅包絡のピークごとに振幅包絡の値とステップS1007で求めた多項式による近似値との差分を求め(ステップS1008)、当該分析区間中の全ピークでの差分の中央値と当該分析区間内での近似式の値の中央値との比より変調度を求める(ステップS1009)。変調度は振幅包絡の凸のピーク値の平均または中央値と、凹のピーク値の平均または中央値との比など、他の定義をすることも可能であるが、その際には変調度の基準値はその定義に基づいて設定される必要がある。
力み判定部106は、ステップS1009で求められた変調度があらかじめ定められた基準値、例えば0.04を超えているか否かを判断する(ステップS1010)。図6のヒストグラムに示すとおり、力み音声の頻度は、変調度が0.02から0.04の間で急激に増加していることから、基準値をここでは0.04とする。変調度が基準値を超えていない場合(ステップS1010でNO)、力み判定部106は、当該有声区間を力み音声でない、すなわち通常音声の区間と判断し(ステップS1011)、ステップS1004に戻り、次の有声区間の処理を行う。
変調度が基準値を超えている場合(ステップS1010でYES)、変調周波数分析部105は、ステップS1006で抽出された振幅包絡について分析フレームごとに瞬時周波数を求める。変調周波数分析部105は、さらに、当該有声区間で求められた瞬時周波数の中央値を求め、これを変調周波数とする(ステップS1012)。
力み判定部106は、ステップS1012で求められた変調周波数が、あらかじめ定められた基準範囲内(例えば40Hz以上120Hz未満)にあるか否かを判断する(ステップS1013)。図4のヒストグラムに示すとおり、力み音声の頻度が30Hzから40Hzの間で急激に増加し、70Hzから80Hzをピークに110Hzから120Hzで急激に減少していることから、基準範囲をここでは40Hz以上120Hz未満とした。変調周波数が基準範囲外である場合(ステップS1013でNO)、力み判定部106は、当該有声区間を力み音声でない、すなわち通常音声の区間と判断し(ステップS1014)、ステップS1004に戻り、次の有声区間の処理を行う。
変調周波数が基準範囲内である場合(ステップS1013でYES)、力み判定部106は、当該有声区間を力み音声の区間であると判定する(ステップS1015)。その後ステップS1004に戻り、次の有声区間の処理を行う。ステップS1004からステップS1015の動作を繰り返し、入力音声中のすべての有声区間の処理を行った後、表示部107は力み音声区間を表示する(ステップS1016)。
かかる構成によれば、入力された音声の振幅包絡の周期的変動の有無を分析することにより、入力音声中の力み音声を抽出することができる。例えば、コールセンターにおいて利用者の電話音声から力み音声を抽出することで、利用者の怒りや苛立ちをモニターして適切な対応を取ることができる。
なお、本実施の形態では、ステップS1005において第2高調波抽出部102は基本周波数の2倍の周波数を中心周波数とするバンドパスフィルタにより第2高調波を抽出するものとしたが、基本周波数を中心周波数とするバンドパスフィルタあるいは基本周波数を含むローパスフィルタによって基本波を抽出するものとしても良い。また、解析信号を求めてヒルベルト包絡を計算するために、音声信号から特定の高調波を抽出することにより正弦波の信号を取り出すものであれば何でも良く、第3高調波以上が安定して取り出せるのであればそれを用いてももちろん構わない。
なお、実施の形態1において、ステップS1010で変調度の基準値を0.04としたが、0.02以上の値であればこれ以外の値としても良い。
また、実施の形態1において、ステップS1013で変調周波数の基準範囲を40Hz以上120Hz未満としたが、10Hz以上170Hz未満の範囲であればこれ以外の範囲としても良い。
さらに、本実施の形態では、変調度および変調周波数を用いて力み音声の検出を行なったが、変調周波数のみを用いて力み音声の検出を行うものであってもよい。この場合には、図9のステップS1009〜S1011の処理が省略される。ただし、変調度および変動周波数を用いて力み音声の検出を行なう方が、ノイズを拾わずに、より安定的に力み音声の検出を行なうことができる。
(実施の形態2)
実施の形態2では、本発明に係る力み音声検出装置を音声認識装置に応用した例について説明する。
図10は、本発明の実施の形態2における力み音声検出部を含む音声認識装置の構成を示す機能ブロック図である。図11は、図10に示した音声認識装置のうち力み音声検出部の構成を示す機能ブロック図である。図12は、実施の形態2における力み音声検出部を含む音声認識装置の動作を示したフローチャートである。図13は、実施の形態2における音声認識装置の動作のうち力み音声検出部の動作を示したフローチャートである。
図11において、図8と同じ部分については説明を適宜省略し、図8と異なる部分を中心に説明する。図13においても、図9と同じ部分については説明を適宜省略し、図9と異なる部分を中心に説明する。
図10を参照して、音声認識装置の構成について説明する。音声認識装置は、入力音声を認識し、認識結果を出力する装置であり、マイクロホン1と、音声認識用特徴量抽出部201と、逆フィルタ202と、周期性分析部203と、スイッチ204と、特徴量データベース205と、音声認識部208と、表示部209とを備えている。
マイクロホン1は、入力音声を電気信号に変換する装置である。音声認識用特徴量抽出部201は、入力音声を分析し、スペクトル包絡を表すパラメータ、例えばメルケプストラム係数を抽出する処理部である。逆フィルタ202は、音声認識用特徴量抽出部201が出力するスペクトル包絡情報の逆フィルタであり、マイクロホン1より入力された音声の音源波形を出力する処理部である。
周期性分析部203は、逆フィルタより出力された音源波形の周期性を分析して有声区間を抽出する処理部である。力み音声検出部200は、周期性分析部203より出力された音源波形の有声区間より力み音声の区間を検出する処理部である。
特徴量データベース205は、音韻種類ごとの音声特徴量を音声認識用に保持する記憶装置である。特徴量データベース205は、標準音声特徴量データベース206と、力み音声特徴量データベース207とを含む。標準音声特徴量データベース206は、力み音声が見られない音声データより作成された音声特徴量を保持する記憶装置であり。力み音声特徴量データベース207は、力み音声が見られる音声データより作成された音声特徴量を保持する音声特徴量データベース207である。
音声認識部208は、特徴量データベース205を参照し、音声認識用特徴量抽出部201が出力した特徴量と特徴量データベース205に格納された特徴量とのマッチングを行って音声認識を行う処理部である。
スイッチ204は、力み音声検出部200で入力音声中に力み音声が検出されたか否かによって、標準音声特徴量データベース206および力み音声特徴量データベース207のうちのいずれかのデータベースを、音声認識部208に接続する処理部である。音声認識部208は、接続されたデータベースを用いて、音声認識を行なうことになる。表示部209は、音声認識部208での音声認識結果を表示する表示装置であり、例えば、LCDなどである。
図11を参照して、力み音声検出部200の構成について説明する。力み音声検出部200は、第2高調波抽出部102が基本波抽出部212に置き換わった以外は、図8に示した実施の形態1の力み音声検出部100と同様である。基本波抽出部212は、周期性分析部203が出力する音源波形の有声区間とその基本周波数の情報を受付け、音源波形から基本波成分を抽出する処理部である。力み音声検出部200のそれ以外の要素は実施の形態1の力み音声検出部100と同様であるので、説明を省略する。なお、基本波抽出部212の代わりに第2高調波抽出部102を用いてもよい。
このように構成された力み音声検出部を含む音声認識装置の動作について図12に従って説明する。
マイクロホン1より音声が入力される(ステップS1001)。音声認識用特徴量抽出部201は、入力音声を分析し、音声認識用の音響特徴量としてメルケプストラム係数を抽出する(ステップS2002)。逆フィルタ202は、ステップS2002で生成されたメルケプストラム係数の逆フィルタとなるようにパラメータを設定し、ステップS1001でマイクロホンより入力された音声信号を通過させ、音源波形を抽出する(ステップS2003)。周期性分析部203は、ステップS2003で抽出された音源波形の中から周期性のある区間を抽出する(ステップS2004)。例えば、周期性分析部203は、特開平10−197575号公報に開示されている方法を用いて、周期性のある区間を抽出する。つまり、周期性分析部203は、音源波形を入力とし、低周波側が緩やかで高周波側が急峻な遮断特性を有するフィルタ出力の振幅変調の大きさと周波数変調の大きさとから基本波らしさを計算し、入力音声の音源波形のうち周期性のある信号の時間領域を周期性信号区間すなわち有声区間として出力する(ステップS2004)。
力み音声検出部200は、ステップS2004で周期性分析部203により抽出された有声区間について、基本波成分の振幅包絡の周期的変動を検出することにより、力み音声の区間を検出する(ステップS2005)。スイッチ204は、入力音声の有声区間において力み音声が検出されたか否かにより、特徴量データベース205内の標準音声特徴量データベース206および力み音声特徴量データベース207のいずれかと音声認識部208とを接続する(ステップS2006)。つまり、スイッチ204は、ステップS2005において力み音声が検出された場合には、力み音声特徴量データベース207と音声認識部208とを接続する。また、スイッチ204は、ステップS2005において力み音声が検出されなかった場合には、標準音声特徴量データベース206と音声認識部208とを接続する。
音声認識部208は、特徴量データベース205のうちステップS2006においてスイッチ204によって接続された特徴量データベースを参照し、ステップS2002で抽出されたメルケプストラム係数を用いて音声認識を行なう。また、音声認識部208は、認識結果として入力音声中の時間位置情報と共に音韻列を出力する(ステップS2007)。表示部209は、音声認識部208より出力された時間位置情報および音韻列を表示する(ステップS2008)。
次に、力み音声抽出処理(ステップS2005)の詳細を、図13を参照して説明する。図13については、図9と同じ動作については説明を適宜省略し、異なる部分を中心に説明する。
音声中に有声区間がない場合には(ステップS1004でNO)、力み判定部106は、力み音声は検出されなかったと判定し、スイッチ204が、標準音声特徴量データベース206と音声認識部208とを接続する(ステップS2006)。
音声中に有声区間がある場合には(ステップS1004でYES)、基本波抽出部212は、音声中の未処理の有声区間のうちの1区間について、ステップS2004で求められた当該有声区間の基本周波数の1.5倍の周波数をカットオフ周波数とするローパスフィルタを設定し、当該有声区間の音源波形をフィルタリングして基本波成分を抽出する(ステップS2105)。振幅包絡分析部103は、ステップS2105で抽出された基本波成分の振幅包絡を抽出する(ステップS2106)。基本波成分の振幅包絡の抽出方法は、ステップS1006と同様である。
振幅変調度計算部104は、ステップS2106で抽出した振幅包絡を多項式で近似し、振幅変調前の音声の包絡線を推定する(ステップS2107)。この多項式も、実施の形態1と同様、実験的には3次式または5次式が望ましい。
振幅変調度計算部104は、ステップS2106で求めた振幅包絡のピークごとに振幅包絡の値とステップS2107で求めた多項式による近似値との差分を求め(ステップS1008)、当該分析区間中の全ピークでの差分の中央値と当該分析区間内での近似式の値の中央値との比より変調度を求める(ステップS1009)。
力み判定部106は、ステップS1009で求められた変調度があらかじめ定められた基準値、例えば0.04を超えているか否かを判断する(ステップS1010)。変調度の基準値については変調度の定義によって異なるが、ここではどちらも音声の低域のエネルギー変動を示すことになる基本波の振幅包絡の変動と第2高調波の振幅包絡の変動とに大きな差は無いとみなし、図6のヒストグラムより決定した0.04以上という基準を採用する。
変調度が基準値を超えていない場合(ステップS1010でNO)、力み判定部106は、当該有声区間を力み音声でない、すなわち通常音声の区間と判断し(ステップS1011)、ステップS1004に戻り、次の有声区間の処理を行う。
変調度が基準値を超えている場合(ステップS1010でYES)、変調周波数分析部105は、ステップS2106で抽出された振幅包絡について分析フレームごとに瞬時周波数を求める。変調周波数分析部105は、さらに、当該有声区間で求められた瞬時周波数の中央値を求め、これを変調周波数とする(ステップS1012)。
力み判定部106は、ステップS1012で求められた変調周波数が、あらかじめ定められた基準範囲内(例えば実施の形態1と同様に図4のヒストグラムより決定した40Hz以上120Hz未満)であるか否かを判断する(ステップS1013)。広帯域の波形においても振幅変動が観察されることから、帯域が変わっても変調周波数は変わらないものとみなし、実施の形態1の図4に示した第2位高調波と同様の周波数範囲を採用する。
変調周波数が基準範囲外である場合(ステップS1013でNO)、力み判定部106は当該有声区間を力み音声でない、すなわち通常音声の区間と判断し(ステップS1014)、ステップS1004に戻り、次の有声区間の処理を行う。変調周波数が基準範囲内である場合(ステップS1013でYES)、力み判定部106は当該有声区間を力み音声の区間と判定する(ステップS1015)、すなわち、入力音声中に力み音声を検出したものとし、力み音声の検出処理を終了する。続いて、スイッチ204が、力み音声特徴量データベース207と音声認識部208とを接続する(ステップS2006)。
かかる構成によれば、入力された音声より力み音声を抽出し、力み音声の有無によって、力み音声を含む特徴量データベースと力み音声を含まない特徴量データベースとを切り替えて音声認識に利用することができる。このため、音声認識精度を向上させることができる。また、音声認識結果と力み音声の出現位置との対応がつくため、本実施の形態の出力を記録することで、ユーザが発話中のどの単語やフレーズに力を入れて話していたかを解析することができる。このような解析を、コールセンターの利用者の音声や、店頭での顧客の音声に適用することにより、発話中のどの単語やフレーズに力を入れていたかを知ることができ、クレーム内容をより的確に分類してマーケティングに反映させることができる。
また、本実施の形態に示すような力み音声検出装置を含む音声認識装置を対話制御等に用いる場合には、力み音声検出部200の出力を利用することにより、ユーザである話者が対話動作過程のどのイベントに対して、語気を荒げたか、すなわち怒りや苛立ちを覚えたかを特定することができる。このように入力音声よりユーザの怒りや苛立ちを捉えることができ。このため、例えば、ユーザの怒りに対して、システム側の出力音声を「大変申し訳ございませんが・・・」という丁寧な謝罪や、「お手数ではございますが・・・」という丁寧な依頼の表現にしたりすることができる。これにより、ユーザの感情を平常な状態に導き、ユーザによる発話を誤認識の少ない通常音声での発話へ誘導し、対話インタフェースとしてスムーズに動作する環境を整えることができる。
なお、本実施の形態において音源波形はメルケプストラム係数の逆フィルタによって求めるものとしたが、声道モデルを元に声道伝達特性を求め、その逆フィルタによって音源波形を求める方法や、音源波形のモデルを元に音源波形を求める方法等、音源波形の求め方はメルケプストラム係数の逆フィルタによる方法以外の方法を用いても良い。
また、本実施の形態において、音声認識の音響特性モデルとしてメルケプストラム係数のパラメータを用いるものとしたが、それ以外のケプストラム係数など、音声の周波数特性を記述し、音声認識に用いられる特徴量であればどのような特徴量を用いて音声認識を行ってもよい。その際、音源波形はメルケプストラム係数の逆フィルタを用いて求めるものとしても、それ以外の方法で求めるものとしても良い。
さらに、本実施の形態においては、入力音声中に力み音声が1箇所検出された時点でスイッチ204を力み音声特徴量データベース207に接続するものとしたが、あらかじめ定められた数以上の箇所で力み音声が検出された場合、例えば入力音声中に2箇所(1発話20モーラ程度として10%)で力み音声が検出された場合に、スイッチ204を力み音声特徴量データベース207に接続するものとしてもよい。または、入力音声の一定時間あたりの力み音声の検出数があらかじめ定められた数以上となった場合、例えば1発話20モーラ程度が3秒前後として、3秒あたりの力み音声の検出数が2つ以上になった場合に、スイッチ204を力み音声特徴量データベース207に接続するものとしてもよい。さらには、入力音声の時間長のうち、力み音声区間の占める割合があらかじめ定められた値以上であった場合に、スイッチ204を力み音声特徴量データベース207に接続するものとしても良い。
さらにまた、入力音声の一定時間を処理単位とし、処理単位ごとにスイッチ204を切り替える判断をしてもよい。また、入力音声の1フレーズごとにスイッチ204を切り替える判断をしてもよい。また、1発話ごとにスイッチ204を切り替える判断をしてもよい。また、あらかじめ定められた一定時間以上、例えば100ms以上の無音区間によって区切られた発話単位ごとにスイッチ204を切り替える判断をしても良い。
(実施の形態3)
実施の形態3では、本発明に係る力み音声検出装置を音声認識装置に応用した例について説明する。
図14は、本発明の実施の形態3における力み音声検出部を含む音声認識装置の構成を示す機能ブロック図である。図15は、実施の形態3における力み音声検出部を含む音声認識装置の動作を示したフローチャートである。図16は、実施の形態3における音声認識装置のうち力み音声検出部の動作の部分を示したフローチャートである。図17は、実施の形態3の動作の具体例を示す図である。
図14において、図8および図10と同じ部分については説明を適宜省略し、図8および図10と異なる部分を中心に説明する。図15においても図12と同じ部分については説明を適宜省略し、図12と異なる部分を中心に説明する。図16においても図9および図13と同じ部分については説明を適宜省略し、図9および図13と異なる部分を中心に説明する。
図14において、音声認識装置の構成は、図10の機能ブロック図より逆フィルタ202、スイッチ204がなくなり、周期性分析部203が図8と同様の基本周波数分析部101に置き換わり、力み音声検出部200が図8と同様の力み音声検出部100に置き換わり、特徴量データベース205が音響特徴量データベース301と言語特徴量データベース302とに置き換わり、音声認識部208が連続単語音声認識部303に置き換わった以外は図10と同様の構成である。
音響特徴量データベース301は、音韻の種類ごとに音響特徴量を記憶している記憶装置である。言語特徴量データベース302は、少なくとも読みまたは発音記号を有する単語辞書を表す言語特徴量を記憶している記憶装置である。連続単語音声認識部303は、音韻のみではなく、言語情報も含めて音声の認識を行なう処理部である。
このように構成された力み音声検出装置を含む音声認識装置の動作について図15および図16に従って説明する。図9、図12および図13と同じ動作については説明を省略し、異なる部分についてのみ説明する。
マイクロホン1より音声が入力される(ステップS1001)。音声認識用特徴量抽出部201は、入力音声を分析し、メルケプストラム係数を抽出する(ステップS2002)。一方、基本周波数分析部101は、実施の形態1と同様にして入力音声の周期性の有無を分析するとともに、周期性のある部分についてはその周波数を求める(ステップS1002)。さらに、基本周波数分析部101は、ステップS1002において音声中の有声区間とみなされた区間を抽出する(ステップS1003)。
力み音声検出部100は、実施の形態1のステップS1004からステップS1015で力み音声を検出した処理と同様の処理を行なうことにより、ステップS1003で抽出された有声区間が力み音声の区間であるか否かを判断する(ステップS3005、図16)。
連続単語音声認識部303は、音響特徴量データベース301と言語特徴量データベース302とを参照し、ステップS2002で抽出されたメルケプストラム係数を用いて音声認識を行う(ステップS3006〜S3007)。連続単語音声認識部303による音
声認識は、例えば、音響モデルと言語モデルとからなる確率モデルを用いた音声認識方法によるものとする。音声認識は一般的に、数1に示す音響モデルと言語モデルの積が最も高くなる単語系列を選択することで行われる。
Figure 0004914295
W:指定された単語系列
Y:音響的な観測値系列
P(Y/W):単語列で条件付けられた音響的な観測値系列の確率(音響モデル)
P(W):仮定された単語系列に対する確率(言語モデル)
数1は対数を取ると数2のように表現できる。
Figure 0004914295
音響モデルと言語モデルのバランスが等価であるとは限らないため、両モデルへの重みをつける必要がある。一般的には両重みの比として言語モデルの重みを設定することにより、数2を数3のように表現しなおす。
Figure 0004914295
α:音響モデルと言語モデルとの両モデルにおける言語モデルの重み
言語モデルの重みαは、一般的な認識処理においては、時間的に一定の値を持つものとされる。しかし、連続単語音声認識部303は、ステップS3005で検出された力み音声を含む有声区間の情報を取得し、単語ごとに言語モデル重みαを変更する。
連続単語音声認識部303は、数4のように表現されるモデルに基づき連続音声認識を行う。
Figure 0004914295
i:i番目の単語
αi:i番目の単語に適用する言語モデルの重み
連続単語音声認識部303は、音響特徴量データベース301と言語特徴量データベース302とを参照して音声認識を行う際に、音声認識を行うフレームが力み音声を含む場合には言語モデルの重みαを大きくし、相対的に音響モデルの重みを小さくし(ステップS3006)、音声認識を行う(ステップS3007)。言語モデルの重みを大きくし、音響モデルの重みを小さくすることにより、力み音声により音響モデルが適合しないために認識精度が低下する影響を小さくすることができる。連続単語音声認識部303は、入力音声を音声認識した結果の単語列を出力し、表示部209は認識結果を表示する(ステップS2008)。
例えば、図17(a)に示すように、入力音声の音韻列が「なまえおかくえんぴつがほしいんです」で、そのうち「えんぴつが」の部分が力み音声で発声されているものとする。この場合、連続単語音声認識部303は、ステップS3005で検出された力み音声が検出された有声区間の情報を取得し、力み音声を含まない、「なまえおかく」と「ほしいんです」の部分については、力み音声ではない通常発声の学習用データより決定された言語モデルの重みα=0.9を適用する。このとき、図17(b)に示すように従来の連続音声認識の方法すなわち言語モデルの重みαを一定として、力み音声で発声された部分についても力み音色で発声されていない場合に適用する言語モデルの重みα=0.9を適用する。力み音声で発声された「えんぴつが」の部分が、通常発声の音響モデルにおいては「えんとつ」とのマッチングが良かったものとする。この場合、
Figure 0004914295
のように、言語モデルとしては、文頭から「書く」までの単語列に「えんとつ」が続く確率より「えんぴつ」が続く確率の方が大きいため
Figure 0004914295
となるにもかかわらず、言語モデルの重みが小さいために相対的に音響モデルの値が大きく、数3の値は
Figure 0004914295
となる。このため、認識結果としては「名前を書く煙突が欲しいんです」が採用されることになる。
しかし、本実施の形態では、連続単語音声認識部303は、ステップS3006で、力み音声が検出された入力音声中の区間を、力み音声のない通常発声の学習データより作成された音響モデルにより音声認識する場合には認識精度が低下することに対応させて、「力み」で発声された「えんぴつが」の部分については言語モデルの重みを大きくする。すなわち図17(c)に示すように力み音声の発声を含んだデータより作成した言語モデルの重みα=2.3を適用する。これにより、
Figure 0004914295
となり、認識結果としては「名前を書く鉛筆が欲しいんです」が採用され、正しい認識結果を得ることができる。
なお、本実施の形態において力み音声を含まない通常発声のフレームに適用する言語モデルの重みを0.9、力み音声で発声されたフレームに適用する言語モデルの重みを2.3としたが、力み音声で発声されたフレームにおいて言語モデルの重みが相対的に大きくなる限りにおいて、これ以外の値であっても良い。
また、本実施の形態において、基本周波数分析部101がマイクロホン1から入力音声を取得して基本周波数を求めたが、実施の形態2のように逆フィルタ202を用いて音源波形を抽出し、音源波形から基本周波数を求め、以降の処理を行うものとしても良い。
さらに、本実施の形態において音声認識の音響特性モデルはメルケプストラム係数のパラメータを用いるものとしたが、それ以外のケプストラム係数等、音声の周波数特性を記述し、音声認識に用いられる特徴量であればどのような特徴量を用いても良い。
かかる構成によれば、入力された音声より怒りや苛立ちが反映された力み音声を検出し、力み音声は音響特徴量データベース内の音響モデルに合致しにくいことを考慮して言語モデルの重み係数αを大きくし、相対的に音響モデルの重みを軽くすることができる。これにより、音響モデルが合致しないことによる音韻レベルの誤認識を防ぎ、文レベルの音声認識精度を向上させることができる。さらには言語モデルの重みは、既存の言語モデルと音響モデルとのバランスを決定するものであるため、力み音声の音響モデルを生成する必要がなく、実施の形態2のように力み音声の音響モデルを使用する場合に比べ、少量のデータで音声認識処理が可能である。
本実施の形態のように音響モデルとあわせて言語モデルを使用する音声認識においては、音韻列のみでなく単語境界の判定もおこなわれる。このため、力み音声との対応によりユーザがどの単語やフレーズに力を入れて話していたかを容易に解析することができる。コールセンターの利用者の音声や、店頭での顧客の音声に本実施の形態に係る音声認識装置を適用させ、上記解析を行なうことにより、発話中のどの単語やフレーズが力んでいるかを知ることができ、クレーム内容をより的確に分類してマーケティングに反映させることができる。
また音声入力による電子メール作成等に上述の音声認識装置を用いれば、単語の後ろに怒りや苛立ちを表す絵文字を自動で挿入することができる。これにより、文字だけで伝わりにくい感情を、煩雑な手間をなしに、受信者に伝えることができる。
また、本実施の形態に示すような力み音声検出装置を含む音声認識装置を対話制御等に用いる場合には、力み音声検出部100の出力を利用することにより、ユーザである話者が対話動作過程のどのイベントに対して怒りや苛立ちを覚えたかを特定することができる。このため、例えば、ユーザの怒りに対して、システム側の出力音声を「大変申し訳ございませんが・・・」というようなより丁寧な謝罪や、「お手数ではございますが・・・」というような丁寧な依頼の表現にしたりすることができる。これにより、ユーザの感情を平常な状態に導き、ユーザによる発話を誤認識の少ない通常音声での発話へ誘導し、対話インタフェースとしてスムーズに動作する環境を整えることができる。
(実施の形態4)
実施の形態4では、本発明の力み音声検出装置を音声認識装置に応用した怒り認識機能付音声認識装置について説明する。
図18は、本発明の実施の形態4における怒り認識機能付音声認識装置の構成を示す機能ブロック図である。図19は、実施の形態4における怒り認識機能付音声認識装置の動作を示したフローチャートである。また、図20は、後述する力み音声発生指標計算規則記憶部414に記憶された計算規則の一例を示す図である。
図18において、図14と同じ部分については説明を適宜省略し、図14と異なる部分を中心に説明する。図19においても図15と同じ部分については説明を適宜省略し、図15と異なる部分を中心に説明する。
図18において、怒り認識機能付音声認識装置の構成は、図15の機能ブロック図に怒り強度判定部410が付け加わり、力み音声検出部100が力み音声検出部400に置き換わり、連続単語音声認識部303が連続単語音声認識部403に置き換わり、表示部209が表示部418に置き換わった以外は図14と同様の構成である。
力み音声検出部400は、図8に示した実施の形態1および実施の形態3における力み音声検出部100と同様に構成される。ただし、力み音声検出部400は、入力音声の有声区間と基本周波数との入力を受付け、力み音声の検出結果のみではなく、実施の形態1のステップS1007で求められた振幅包絡の多項式近似の結果を振幅パターンとして出力する。さらに、力み音声検出部400は、基本周波数分析部101より出力された基本周波数をも出力する。
連続単語音声認識部403は、実施の形態3における連続単語音声認識部303と同様に音声認識用特徴量抽出部201が出力した音響特徴量と、力み音声検出部400が出力した力み音声の検出結果とを受付け、さらに力み音声検出部400が出力する基本周波数パターンと振幅パターン情報とを受付ける。連続単語音声認識部403は、これらの入力に基づき音響特徴量データベース301と言語特徴量データベース302とを参照して連続音声認識を行い、入力音声中の時間位置情報として力み音声検出部400より出力された力み音声区間、基本周波数パターンおよび振幅パターンを、認識結果である音韻列に対してアラインメントする。連続単語音声認識部403は、認識結果である音韻列および単語列と共に、音韻単位で記述された力み音声発生位置、ならびに音韻列に対応付けられた基本周波数パターンおよび振幅パターンを出力する。
怒り強度判定部410は、言語処理辞書411と、言語処理部412と、韻律情報生成部413と、力み音声発生指標計算部415と、怒り強度決定規則記憶部416と、怒り強度決定部417とを含む。
言語処理辞書411は、単語ごとに少なくとも読み、アクセント、アクセント結合属性、品詞を記憶する記憶装置である。言語処理部412は、言語処理辞書411を参照して単語列の言語解析をし、係り受け距離に基づく単語結合度情報を出力する処理部である。韻律情報生成部413は、言語処理部412より出力された単語アクセント、アクセント結合情報および単語結合度情報と、連続単語音声認識部403より出力された音韻位置に対応付けられた基本周波数パターンおよび振幅パターンとを受付け、アクセント位置、アクセント句区切り、フレーズ区切りの情報を生成する処理部である。
力み音声発生指標計算規則記憶部414は、音韻列とアクセント等の韻律情報とから音韻ごとの力み音声の発生し易さ(あるいは発生しにくさ)である力み音声発生指標を計算するための規則を記憶する記憶装置である。力み音声発生指標計算部415は、韻律情報生成部413より出力された音韻列と対応付けられたアクセント位置、アクセント句区切り、フレーズ区切りを受付け、力み音声発生指標計算規則記憶部414を参照して音韻ごとに力み音声発生指標を計算する処理部である。
怒り強度決定規則記憶部416は、力み音声発生指標より怒り強度を決定するための規則を記憶する記憶装置である。怒り強度決定部417は、力み音声発生指標計算部415より出力された音韻ごとの力み音声発生指標と、音韻に対応付けられた入力音声中の力み音声発生位置とから、怒り強度決定規則記憶部416を参照して怒り強度を決定する処理部である。
表示部418は、連続単語音声認識部403より出力された音声認識結果と、怒り強度決定部417より出力された音韻ごとの怒り強度とを対応付けて表示する表示装置である。
このように構成された怒り認識機能付音声認識装置の動作について図19に従って説明する。図15と同じ動作については説明を省略し、異なる部分についてのみ説明する。
マイクロホン1より音声が入力される(ステップS1001)。音声認識用特徴量抽出部201は、入力音声を分析し、メルケプストラム係数を抽出する(ステップS2002)。一方、基本周波数分析部101は、入力音声の周期性の有無を分析するとともに、周期性のある部分についてはその周波数を求める(ステップS1002)。さらに、基本周波数分析部101は、ステップS1002において音声中の有声区間とみなされた区間を抽出する(ステップS1003)。
力み音声検出部400は実施の形態3と同様にしてステップS1003で抽出された有声区間において推定振幅パターンを生成して力み音声を検出する(ステップS4005)。つまり、力み音声検出部400は、音声中の各有声区間について、実施の形態3に示した図16のステップS1004からステップS1015までの処理を繰り返して、力み音声の区間を検出する。処理の概要は以下のとおりである。つまり、有声区間に対し、ステップS1005で第2高調波成分を抽出し、ステップS1006で第2高調波成分の振幅包絡を抽出する。ステップS1007において振幅包絡を多項式で近似し、振幅変調前の音声の包絡線を推定する。ステップS1008で多項式による近似値と包絡線との差分を求め、ステップS1009で変調度を求める。変調度が基準値を超える場合(ステップS1010でYES)、ステップS1012で振幅包絡の瞬時周波数の中央値を求め、これを変調周波数とする。変調周波数が基準範囲内である場合(ステップS1013でYES)、ステップS1015において当該有声区間を力み音声の区間と判定する。力み音声検出部400は、ステップS1007において多項式近似によって推定された有声区間の変調前振幅包絡すなわち振幅パターンを、すべての有声区間について力み音声区間の検出結果と共に出力する。
連続単語音声認識部403は、音響特徴量データベース301と言語特徴量データベース302とを参照し、ステップS2002で抽出されたメルケプストラム係数を用いて音声認識を行う(ステップS3006、S3007)。つまり、連続単語音声認識部403は、音響特徴量データベース301と言語特徴量データベース302とを参照して音声認識を行う際に、音声認識を行うフレームが力み音声を含む場合には言語モデルの重みの値を大きくし、相対的に音響モデルの重みを小さくすることにより(ステップS3006)、音声認識を行う(ステップS3007)。
さらに、連続単語音声認識部403は、認識結果である入力音声の時間位置に対する音韻ラベルを元に、力み音声検出部400より出力された有声区間の基本周波数パターン、振幅パターンおよび力み音声区間と音韻列中の各音韻との対応付けを行う(ステップS4008)。
言語処理部412は、連続単語音声認識部403より出力された認識結果である音韻列および単語列に基づき、言語処理辞書411を参照して言語解析を行い、単語間の係り受け情報を生成する(ステップS4009)。係り受け情報の解析方法としては、例えば、「情報処理学会研究報告、2000−NL−138、pp79−86、2000年7月」に示されるような統計学習による解析方法を用いる。言語処理部412は、単語の係り受け解析結果を元に隣り合う単語の結合度情報を生成し、音韻列とあわせて単語ごとの単語結合度、単語のアクセント、単語のアクセント結合情報、さらに連続単語音声認識部403より受付けた各音韻に対応付けられた基本周波数パターン、振幅パターンおよび力み音声検出結果を出力する。
韻律情報生成部413は、言語処理部412の出力を受付け、アクセント句区切りとフレーズ区切りとを決定し、アクセント位置を決定する(ステップS4010)。つまり、韻律情報生成部413は、単語結合度が大きいものから順に1アクセント句が9モーラを超えない範囲でアクセント句を結合し、結合度の値が無いあるいは非常に低い「節」の切れ目をフレーズの区切りとする。韻律情報生成部413は、また、生成したアクセント句内に含まれる単語のアクセント結合情報に基づき、アクセント句内で1つのアクセント位置の設定を行う。このようにして単語列の情報より作成されたアクセント位置、アクセント句区切り、フレーズ区切りの情報について、音韻に対応付けられた基本周波数パターンおよび振幅パターンの立ち上がり部分または立下り部分がアクセント句区切りと一致しない場合には、韻律情報生成部413は、アクセント句区切りが基本周波数パターンおよび振幅パターンの立ち上がり部分または立下り部分と一致するように修正し、それに伴ってアクセント位置を修正する。フレーズ区切りが基本周波数パターンおよび振幅パターンの立下りでない部分に設定されている場合には、韻律情報生成部413は、フレーズ区切りをアクセント句区切りに修正する。
力み音声発生指標計算部415は、力み音声発生指標計算規則記憶部414に記憶された、子音、母音、アクセント句中の位置、アクセント核からの相対位置等の音韻属性から力み音声の発生しやすさを求める規則を用いて力み音声発生指標を音韻ごとに計算する(ステップS4011)。力み音声発生指標の計算規則は、音韻属性から力み音声の発生しやすさを数値で表現できるモデルにより表される。このようなモデルは、例えば、力み音声を含む音声データより、音韻属性を説明変数とし、力み音声が発生したか否かの2値を従属変数とし、質的データを取り扱う統計的学習手法の1つである数量化II類を用いて統計的学習を行うことにより得られる。力み音声発生指標計算規則記憶部414は、例えば図20のように統計的学習によって得られた音韻属性に対応するモデルパラメータを記憶しているものとする。力み音声発生指標計算部415は、各音韻の属性に従って、力み音声発生指標計算規則記憶部414に記憶された統計モデルを適用し、力み音声発生指標を計算する。このような発生指標の計算方法は国際公開第2006/123539号パンフレットに詳述されている。
怒り強度決定規則記憶部416は、力み音声発生指標計算規則を統計的に学習した際に、力み音声を含む音韻で力み音声発生指標が低い傾向が見られたか、高い傾向が見られたかにより決定された怒り強度計算規則を記憶するものである。学習データにおいて、力み音声を含む音韻で力み音声発生指標が低い傾向が見られた場合には、力み音声発生指標は「力み難さ」の指標と考えられる。怒り強度決定規則は、力み音声発生指標が高い音韻すなわち力み難さが高い音韻が力んで発声されている場合には怒りの強度が大きいと判断され、力み音声発生指標が低い音韻すなわち力み難さが低い音韻が力んで発声されている場合には怒りの強度が小さいと判断されるように設定された規則である。
怒り強度決定部417は、ステップS4011において力み音声発生指標計算部415で計算された力み音声発生指標に基づき、怒り強度決定規則記憶部416に記憶された規則を参照して怒りの強度を決定する(ステップS4012)。表示部418は、ステップS3007で求められた音声認識結果と共に、怒りの強度を表示する(ステップS4013)。
かかる構成によれば、入力された音声より力み音声を抽出し、一方では力み音声が抽出された場合には音響特徴量データベース内の音響モデルに合致しにくいことを考慮して言語モデルの重み係数を大きくし、相対的に音響モデルの重みを軽くすることができる。これにより、音響モデルが合致しないことによる音韻レベルの誤認識を防ぎ、文レベルの音声認識精度を向上させることができる。他方では音声認識結果を利用して力み音声の発生しやすさあるいは発生しにくさを計算して、力み音声が発生しやすい部分で実際に力み音声が発生している場合には怒りの強度が低いと判断し、力み音声が発生しにくい部分で入力音声に力み音声が発生している場合には怒りの強度が高いと判断することができる。これにより、入力音声から、発話者の怒りや苛立ちの強度を個人差や地方差に影響されることなく正確に認識することができる。
さらに、言語モデルの重みは、既存の言語モデルと音響モデルとのバランスを決定するものであるため、力み音声の音響モデルを生成する必要がなく、実施の形態2のように力み音声の音響モデルを使用する場合に比べ、少量のデータで音声認識処理が可能である。
また、力み音声に対して無表情な音声データから作られた音響特徴量データベースを用いて音声認識を行なう場合には精度が低い。しかし、力み音声が発生している部分については音響モデルが適切でない可能性があるとして、音響モデルの重みを軽くし言語モデルの重みを大きくすることにより不適切な音響モデルを適用することの影響を小さくすることで、音声認識精度も向上する。音声認識精度の向上により、音韻列を用いて計算する力み音声の発生しやすさの計算精度も向上するため、怒り強度の計算も精度が向上する。
さらに、力み音声を音韻単位で検出し、怒り強度の判断を音韻単位で行うことで、入力音声中の感情の変化に音韻単位で追随することができる。従って本実施の形態の怒り認識機能付音声認識装置を対話制御等に用いる場合には、ユーザである話者が対話動作過程のどのイベントに対して、どのような反応をしたかを特定する場合に苛立ち出したタイミングを詳細に捉えることができる。また、怒りや苛立ちの強度も合わせて分かるため、非常に効果的である。入力音声より、ユーザの感情の変化のタイミングおよび感情の強度をともに詳細に捉えることができるため、例えば、ユーザの怒り強度に合わせて、システム側の出力音声を切り替えることができる。例えば、「大変申し訳ございませんが・・・」という丁寧な謝罪や、「お手数ではございますが・・・」という丁寧な依頼の表現のなかでも申し訳なさの程度を複数用意し、ユーザの怒りの強度に合わせて音声を出力することで、ユーザを必要以上に恐縮させてしまったり、あるいは丁寧すぎて逆効果になってしまうことがない。このため、ユーザの感情を平常な状態に導き、対話インタフェースとしてよりスムーズに動作することができる。
また、認識結果と共に怒りの強度を記録することで、コールセンター等では利用者の音声から、対話内容、発話内容および怒りの強度変化の対応関係を分析することができる。このような分析結果は、クレーム分類や、対応の良し悪しを分類する際に有効となる。コールセンター等から担当者へ電話を回す際、怒り強度データもあわせて送信し、担当者側で怒り強度を表示するようにすれば、担当者が電話を受けるときには利用者の怒りの状況が分かり、正しい対応がし易くなる。
なお、本実施の形態の音声認識処理では、実施の形態3と同様に、連続単語音声認識部403が、力み音声の有無によって重みを変えながら音響特徴量データベース301および言語特徴量データベース302を参照するものとしたが、実施の形態2のように、力み音声の有無によって標準音声特徴量データベース206と力み音声特徴量データベース207とを切り替えながら、音声認識を行うものとしてもよい。
また、本実施の形態において、基本周波数分析部101がマイクロホン1から入力音声を取得して基本周波数を求めたが、実施の形態2のように逆フィルタ202を用いて音源波形を抽出し、音源波形から基本周波数および振幅パターンを求めるものとしても良い。
さらに、本実施の形態において、韻律情報生成部413はアクセント、アクセント句区切り、フレーズ区切りを決定する際に、言語処理部412で求められた単語アクセント、アクセント結合情報および単語結合度情報と、連続単語音声認識部403で音韻と対応付けられた基本周波数パターンおよび振幅パターンとの両方の情報を用いるものとしたが、いずれか一方の情報を用いるものであってもよい。つまり、韻律情報生成部413は、言語処理部412で求められた単語アクセント、アクセント結合情報および単語結合度情報のみからアクセント、アクセント句区切り、フレーズ区切りを決定するものとしても良い。また、韻律情報生成部413は、連続単語音声認識部403で音韻と対応付けられた基本周波数パターンおよび振幅パターンのみからアクセント、アクセント句区切り、フレーズ区切りを決定しても良い。ただし、両方の情報を用いた方が、精度が向上する。なお、基本周波数パターンおよび振幅パターンのみからアクセント、アクセント句区切り、フレーズ区切りを決定する場合は、言語処理部412、言語処理辞書411は不要となり、ステップS4009は省略しても良い。
また、本実施の形態において、言語特徴量データベース302と言語処理部412と言語処理辞書411とは独立の構成としたが、言語特徴量データベース302が言語処理辞書411の内容を含み、連続単語音声認識部403が認識結果である音韻列および単語列と共に、単語アクセント、アクセント結合情報、単語結合度情報をも生成するものとしても良い。その際、言語処理部412は、連続単語音声認識部403に包含され、連続単語音声認識部403は、韻律情報生成部413へ音韻列、単語列、単語アクセント、アクセント結合情報、単語結合度情報、力み音声発生位置、基本周波数パターン、振幅パターンを出力するものとする。
なお、実施の形態4において力み音声発声指標の計算規則のモデルの学習には、統計的学習手法である数量化II類を用い、説明変数には子音、母音、アクセント句中の位置、アクセント核からの相対位置を用いたが、統計的学習手法はこれ以外の方法でも良い。また、説明変数としては、上記属性のみではなく、基本周波数やパワーとそのパターン音韻の時間長等の連続量を用いてもよい。
なお、実施の形態4においては、実施の形態3と同様に音声認識部は音響特徴量データベースと言語特徴量データベースを用いて、力み音声の検出により両データベースの重みを変更するものとしたが、実施の形態2のように、力み音声の検出により標準音声特徴量データベース206と力み音声特徴量データベース207とをスイッチで切り替えながら音声認識部が音声認識を行うものであってもよい。実施の形態2のようなデータベースを切り替える方法を採用する場合、力み音声検出部は入力音声中の当該処理フレームが力み音声であるか否かをスイッチに出力するのみでなく、音声認識部にも出力する。音声認識部は認識結果の音韻と合わせて、各音韻が力み音声であったか否かの情報を怒り強度判定部に出力する。怒り強度判定部の言語処理部は音韻列より言語処理辞書を参照し、言語モデルに従って単語境界、アクセント等の情報を生成して力み音声発生指標計算部に出力する。力み音声発生指標計算部は力み音声発生指標を求め、怒り強度決定部は指標に基づき怒り強度を決定する。
なお、本発明の実施の形態すべてにおいて、入力音声はマイクロホン1より入力されるものとしたが、あらかじめ録音、記録された音声あるいは装置外部より入力される音声信号であっても良い。
なお、本発明の実施の形態すべてにおいて、力み音声検出結果、音声認識結果、あるいは怒り強度を表示部で表示するものとしたが、記憶装置へ記録する、あるいは装置外部へ出力するものとしても良い。
また、本発明の実施の形態すべてにおいて、上述した各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
本発明にかかる音声による力み音声検出装置は、怒りや苛立ちに伴う発声器官の緊張によって発声する振幅の周期的変動を特徴とする、力み音声を検出するものであり、入力音声から力み音声を検出することで入力音声の話者の怒りや苛立ちを認識するという応用が可能である。従って、ロボット等の音声・対話インタフェース等として有用である。またコールセンターにおけるシステムや、電話交換の自動電話応対システム等の用途にも応用できる。
録音された音声における力み音声の感情種類による発生頻度を示すグラフである。 録音された音声において観察された、通常音声と力み音声の波形と振幅包絡の一例を示す図である。 録音された音声において観察された力み音声で発声されたモーラの平均基本周波数と振幅包絡の変動周波数との関係を示すグラフである。 録音された音声において観察された力み音声で発声されたモーラの振幅包絡の変動周波数分布を示すヒストグラムと累積度数グラフである。 録音された音声において観察された、力み音声の第2高調波、振幅包絡曲線、多項式によるフィッティングの一例、および振幅変動量の計算例を示す図である。 録音された音声において観察された力み音声で発生されたモーラの振幅包絡の変調度の分布を示すヒストグラムと累積度数グラフである。 変調度1の場合の変換元波形と変換結果とを模式的に示した図である。 本発明の実施の形態1における力み音声検出装置の構成を示すブロック図である。 本発明の実施の形態1における力み音声検出装置の動作を示すフローチャートである。 本発明の実施の形態2における力み音声検出装置を含む音声認識装置の構成を示すブロック図である。 図10に示した音声認識装置のうち力み音声検出部の構成を示す機能ブロック図である。 本発明の実施の形態2における力み音声検出装置を含む音声認識装置の動作を示すフローチャートである。 本発明の実施の形態2における力み音声検出装置を含む音声認識装置の動作の一部を示すフローチャートである。 本発明の実施の形態3における力み音声検出装置を含む音声認識装置の構成を示すブロック図である。 本発明の実施の形態3における力み音声検出装置を含む音声認識装置の動作を示すフローチャートである。 本発明の実施の形態3における力み音声検出装置を含む音声認識装置の動作の一部を示すフローチャートである。 本発明の実施の形態3における力み音声検出装置を含む音声認識装置の音声認識処理の具体例を示す図である。 本発明の実施の形態4における怒り認識機能付音声認識装置の構成を示すブロック図である。 本発明の実施の形態4における怒り認識機能付音声認識装置の動作を示すフローチャートである。 本発明の実施の形態4における力み音声発生指標計算規則の一例を示す図である。 従来の音声による感情認識装置の構成を示すブロック図である。
符号の説明
1 マイクロホン
2 音声コード認識手段
3 感性情報抽出手段
4 出力制御手段
5 出力装置
31 話速検出部
32 基本周波数検出部
33 音量検出部
34 音声レベル判定基準格納部
35 標準音声特徴量格納部
36 音声レベル分析部
37 感性レベル分析用知識ベース格納部
38 感性レベル分析部
39 音声スペクトル検出部
41 主制御部
42 出力制御用知識ベース格納部
100、200、400 力み音声検出部
101 基本周波数分析部
102 第2高調波抽出部
103 振幅包絡分析部
104 振幅変調度計算部
105 変調周波数分析部
106 力み判定部
107、209、418 表示部
201 音声認識用特徴量抽出部
202 逆フィルタ
203 周期性分析部
204 スイッチ
205 特徴量データベース
206 標準音声特徴量データベース
207 力み音声特徴量データベース
208 音声認識部
212 基本波抽出部
301 音響特徴量データベース
302 言語特徴量データベース
303、403 連続単語音声認識部
411 言語処理辞書
412 言語処理部
413 韻律情報生成部
414 力み音声発生指標計算規則記憶部
415 力み音声発生指標計算部
416 怒り強度決定規則記憶部
417 怒り強度決定部

Claims (12)

  1. 入力音声信号が話者が力んだ状態で発声した音声の信号であるか否かを判定する力み音声検出装置であって、
    入力音声信号の有声区間のうち1区間について振幅包絡を抽出する振幅包絡抽出手段と、
    前記振幅包絡抽出手段によって抽出された振幅包絡の周期的変動を検出し、検出された周期的変動の周波数を求める変調周波数分析手段と、
    前記変調周波数分析手段によって求められた前記周期的変動の周波数が10Hz以上かつ170Hz未満のあらかじめ定められた範囲内にある場合に、前記入力音声信号は話者が力んだ状態で発声した音声の信号であると判定する力み判定手段と
    を備える力み音声検出装置。
  2. さらに、前記入力音声信号の振幅包絡の振幅変動度合いを示す振幅変調度を計算する振幅変調度計算手段を備え、
    前記力み判定手段は、前記振幅変調度計算手段によって求められた前記振幅変調度があらかじめ定められた値以上であり、かつ前記変調周波数分析手段によって求められた前記周期的変動の周波数が10Hz以上かつ170Hz未満のあらかじめ定められた範囲内にある場合に入力音声が力み音声であると判定する
    請求項1に記載の力み音声検出装置。
  3. 前記振幅変調度計算手段は、前記振幅包絡抽出手段によって抽出された振幅包絡に対して多項式をフィッティングさせることにより発声時に変調のない振幅包絡を推定し、前記抽出された振幅包絡の値と前記推定された振幅包絡の値との差分値と前記推定された振幅包絡の値との比を前記振幅変調度として計算する
    請求項2に記載の力み音声検出装置。
  4. 前記力み判定手段は、前記振幅変調度計算手段によって求められた前記振幅変調度が0.02以上1.00以下のあらかじめ定められた値以上であり、かつ前記変調周波数分析手段によって求められた前記周期的変動の周波数が10Hz以上かつ170Hz未満のあらかじめ定められた範囲内にある場合に入力音声が力み音声であると判定する
    ことを特徴とする請求項3に記載の力み音声検出装置。
  5. 前記振幅包絡抽出手段は、
    前記入力音声信号の有声区間のうち1区間について基本波を抽出する基本波抽出手段と、
    前記入力音声信号の有声区間のうち1区間についての振幅包絡として、前記基本波抽出手段によって抽出された基本波の振幅包絡を抽出する振幅包絡分析手段とを有する
    請求項1〜4のいずれか1項に記載の力み音声検出装置。
  6. 前記振幅包絡抽出手段は、
    前記入力音声信号の有声区間のうち1区間について基本周波数の所定の整数倍の波である高調波を抽出する高調波抽出手段と、
    前記入力音声信号の有声区間のうち1区間についての振幅包絡として、前記高調波抽出手段によって抽出された高調波の振幅包絡を抽出する振幅包絡分析手段とを有する
    請求項1〜4のいずれか1項に記載の力み音声検出装置。
  7. 入力音声信号に含まれる音韻の種類を特定する音声認識装置であって、
    請求項1〜6のいずれか1項に記載の力み音声検出装置と、
    音韻の種類ごとに、発話者が力んだ状態で発声した音声の特徴量を記憶している力み音声特徴量データベースと、
    音韻の種類ごとに、発話者が通常状態で発声した音声の特徴量を記憶している標準音声特徴量データベースと、
    前記力み音声検出装置において入力音声信号が力んだ状態で発声した音声の信号であると判定された場合には、前記力み音声特徴量データベースを用いて前記入力音声信号に含まれる音韻の種類を特定し、前記力み音声検出装置において前記入力音声信号が力んだ状態で発声した音声の信号であると判定されなかった場合には、前記標準音声特徴量データベースを用いて前記入力音声信号に含まれる音韻の種類を特定する音声認識手段と
    を備える音声認識装置。
  8. 入力音声信号に含まれる音韻の種類を特定する音声認識装置であって、
    請求項1〜6のいずれか1項に記載の力み音声検出装置と、
    音韻の種類ごとに音響特徴量を記憶している音響特徴量データベースと、
    少なくとも読みまたは発音記号を有する単語辞書を表す言語特徴量を含む言語特徴量データベースと、
    前記力み音声検出装置において入力音声信号が力んだ状態で発声した音声の信号であると判定された場合には、前記音響特徴量データベースに含まれる音響特徴量を用いた確率モデルの重みよりも前記言語特徴量データベースに含まれる言語特徴量を用いた確率モデルの重みを大きくし、重み付けされた2つの確率モデルを用いて前記入力音声信号に含まれる音韻の種類を特定する音声認識手段と
    を備える音声認識装置。
  9. 入力音声信号に含まれる音韻の種類を特定するとともに話者の怒りの強度を認識する怒り認識機能付音声認識装置であって、
    請求項7または8に記載の音声認識装置と、
    音韻の属性情報から発話時の力みやすさを求めるための規則を用いて、前記音声認識装置で音韻の種類が認識された音韻ごとに、発話時の力みやすさを示す力み音声発声指標を計算する力み音声発生指標計算手段と、
    前記音声認識装置が備える力み検出装置により話者が力んだ状態で発声した音声の信号であると判定された入力音声信号について、前記力み音声発生指標が小さいほど怒りの強度が高くなる規則に基づいて、前記力み音声発生指標計算手段で計算された前記力み音声発生指標から怒りの強度を決定する怒り強度決定手段と
    を備える怒り認識機能付音声認識装置。
  10. 入力音声信号が話者が力んだ状態で発声した音声の信号であるか否かを判定する力み音声検出方法であって、
    入力音声信号の有声区間のうち1区間について振幅包絡を抽出する振幅包絡抽出ステップと、
    前記振幅包絡抽出ステップにおいて抽出された振幅包絡の周期的変動を検出し、検出された周期的変動の周波数を求める変調周波数分析ステップと、
    前記変調周波数分析ステップにおいて求められた前記周期的変動の周波数が10Hz以上かつ170Hz未満のあらかじめ定められた範囲内にある場合に、前記入力音声信号は話者が力んだ状態で発声した音声の信号であると判定する力み判定ステップと
    を含む力み音声検出方法。
  11. 入力音声信号が話者が力んだ状態で発声した音声の信号であるか否かを判定するプログラムであって、
    入力音声信号の有声区間のうち1区間について振幅包絡を抽出する振幅包絡抽出ステップと、
    前記振幅包絡抽出ステップにおいて抽出された振幅包絡の周期的変動を検出し、検出された周期的変動の周波数を求める変調周波数分析ステップと、
    前記変調周波数分析ステップにおいて求められた前記周期的変動の周波数が10Hz以上かつ170Hz未満のあらかじめ定められた範囲内にある場合に、前記入力音声信号は話者が力んだ状態で発声した音声の信号であると判定する力み判定ステップと
    をコンピュータに実行させるためのプログラム。
  12. 入力音声信号が話者が力んだ状態で発声した音声の信号であるか否かを判定する集積回路であって、
    入力音声信号の有声区間のうち1区間について振幅包絡を抽出する振幅包絡抽出手段と、
    前記振幅包絡抽出手段によって抽出された振幅包絡の周期的変動を検出し、検出された周期的変動の周波数を求める変調周波数分析手段と、
    前記変調周波数分析手段によって求められた前記周期的変動の周波数が10Hz以上かつ170Hz未満のあらかじめ定められた範囲内にある場合に、前記入力音声信号は話者が力んだ状態で発声した音声の信号であると判定する力み判定手段と
    を備える集積回路。
JP2007163676A 2007-06-21 2007-06-21 力み音声検出装置 Active JP4914295B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007163676A JP4914295B2 (ja) 2007-06-21 2007-06-21 力み音声検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007163676A JP4914295B2 (ja) 2007-06-21 2007-06-21 力み音声検出装置

Publications (3)

Publication Number Publication Date
JP2009003162A JP2009003162A (ja) 2009-01-08
JP2009003162A5 JP2009003162A5 (ja) 2009-09-03
JP4914295B2 true JP4914295B2 (ja) 2012-04-11

Family

ID=40319616

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007163676A Active JP4914295B2 (ja) 2007-06-21 2007-06-21 力み音声検出装置

Country Status (1)

Country Link
JP (1) JP4914295B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5382780B2 (ja) * 2009-03-17 2014-01-08 株式会社国際電気通信基礎技術研究所 発話意図情報検出装置及びコンピュータプログラム
JP5278263B2 (ja) * 2009-09-16 2013-09-04 ヤマハ株式会社 音声認識装置およびプログラム
KR101414278B1 (ko) 2009-11-13 2014-07-02 제일모직 주식회사 레지스트 하층막용 고분자, 이를 포함하는 레지스트 하층막 조성물 및 소자의 패턴 형성 방법
JP5834449B2 (ja) 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
CN101902677B (zh) * 2010-06-23 2015-01-28 中兴通讯股份有限公司 音频检测装置及方法
JP5803125B2 (ja) * 2011-02-10 2015-11-04 富士通株式会社 音声による抑圧状態検出装置およびプログラム
JP5664480B2 (ja) 2011-06-30 2015-02-04 富士通株式会社 異常状態検出装置、電話機、異常状態検出方法、及びプログラム
CN102623009B (zh) * 2012-03-02 2013-11-20 安徽科大讯飞信息科技股份有限公司 一种基于短时分析的异常情绪自动检测和提取方法和系统
JP6433650B2 (ja) * 2013-11-15 2018-12-05 国立大学法人佐賀大学 気分誘導装置および気分誘導プログラムならびにコンピュータの動作方法
JP6438674B2 (ja) * 2014-04-28 2018-12-19 エヌ・ティ・ティ・コミュニケーションズ株式会社 応答システム、応答方法及びコンピュータプログラム
US11630999B2 (en) * 2019-12-19 2023-04-18 Dish Network Technologies India Private Limited Method and system for analyzing customer calls by implementing a machine learning model to identify emotions
US11545143B2 (en) 2021-05-18 2023-01-03 Boris Fridman-Mintz Recognition or synthesis of human-uttered harmonic sounds
WO2023182014A1 (ja) * 2022-03-22 2023-09-28 パナソニックIpマネジメント株式会社 音声認証装置および音声認証方法
CN117113065B (zh) * 2023-10-24 2024-02-09 深圳波洛斯科技有限公司 一种基于声音检测的智能灯组数据管理系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7809572B2 (en) * 2005-07-20 2010-10-05 Panasonic Corporation Voice quality change portion locating apparatus

Also Published As

Publication number Publication date
JP2009003162A (ja) 2009-01-08

Similar Documents

Publication Publication Date Title
JP4914295B2 (ja) 力み音声検出装置
JP4085130B2 (ja) 感情認識装置
US10410623B2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
Polzin et al. Emotion-sensitive human-computer interfaces
Kane et al. Improved automatic detection of creak
GB2380380A (en) Speech synthesis method and apparatus
US20120095767A1 (en) Voice quality conversion device, method of manufacturing the voice quality conversion device, vowel information generation device, and voice quality conversion system
Mertens Polytonia: a system for the automatic transcription of tonal aspects in speech corpora
Konno et al. Whisper to normal speech conversion using pitch estimated from spectrum
Chittaragi et al. Acoustic-phonetic feature based Kannada dialect identification from vowel sounds
JP3673507B2 (ja) 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
Kanabur et al. An extensive review of feature extraction techniques, challenges and trends in automatic speech recognition
Kurian et al. Continuous speech recognition system for Malayalam language using PLP cepstral coefficient
Bosch Emotions: what is possible in the ASR framework
KR101560833B1 (ko) 음성 신호를 이용한 감정 인식 장치 및 방법
van Heuven et al. Quality evaluation of synthesized speech
US20230148275A1 (en) Speech synthesis device and speech synthesis method
Pao et al. Emotion recognition from Mandarin speech signals
Medhi et al. Different acoustic feature parameters ZCR, STE, LPC and MFCC analysis of Assamese vowel phonemes
Nanmalar et al. A Feature Engineering Approach for Literary and Colloquial Tamil Speech Classification using 1D-CNN
Kannan et al. Malayalam Isolated Digit Recognition using HMM and PLP cepstral coefficient
Patil et al. Comparison of Speech Emotion Recognition Performance with Different System Features
Deekshitha et al. Implementation of Automatic segmentation of speech signal for phonetic engine in Malayalam
Latha et al. Performance Analysis of Kannada Phonetics: Vowels, Fricatives and Stop Consonants Using LP Spectrum
Ajayi et al. Indigenuous Vocabulary Reformulation for Continuousyorùbá Speech Recognition In M-Commerce Using Acoustic Nudging-Based Gaussian Mixture Model

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090716

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111227

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120120

R150 Certificate of patent or registration of utility model

Ref document number: 4914295

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150127

Year of fee payment: 3