JP4213608B2

JP4213608B2 - 音声波形情報分析装置及びその前処理装置

Info

Publication number: JP4213608B2
Application number: JP2004064447A
Authority: JP
Inventors: 和幸芦村; ニック・キャンベル
Original assignee: Japan Science and Technology Agency; ATR Advanced Telecommunications Research Institute International; National Institute of Japan Science and Technology Agency
Current assignee: Japan Science and Technology Agency; ATR Advanced Telecommunications Research Institute International; National Institute of Japan Science and Technology Agency
Priority date: 2004-03-08
Filing date: 2004-03-08
Publication date: 2009-01-21
Anticipated expiration: 2024-03-08
Also published as: JP2005250388A

Description

この発明は対話音声データの分析技術に関し、特に、日常会話等からなる大量の音声データを分析するための前処理として、会話から同種の音声パターンを自動的に抽出するための装置、並びにそうした装置を利用して音声データの分析を行なうための装置に関する。

人は、日常会話において、文字には現れない情報（パラ言語情報）を韻律や声質等によって示すことにより、同じ言葉を意図又は態度に応じた様々な意味に使い分けている（非特許文献１を参照されたい。）。人は、そうしたパラ言語情報を容易に理解できるが、コンピュータによる自然言語処理ではそうした情報の解釈は容易ではない。そのためには、発話様式と、意図又は態度との関係を解明する必要がある。

近年、対話音声データ分析に対する音声認識技術の応用が試みられている。しかし、対話データ中には、語彙辞書や言語モデルに登録されていない音声パターンが多く含まれ、認識精度低下の一因となっている。

対策として、書き起こしテキストに基づいて語彙を辞書や言語モデルに追加することが考えられる。しかし、対話の内容は話者や状況により異なるため、収録データを単に増やすだけでは、網羅的な語彙セットを得られる保証はない。また、対話音声においては、長音や促音の混入、音素の欠落等の発話変形が多く見られ、認識に適した発音情報を書き起こしテキストにより常に表現できるとは限らない。

例えば、従来、発話テンポは一発話ごとに継続時間長をモーラ数で割ったものとして規定されてきたが、長音や促音の混入があった場合、モーラ数を規定することが困難となる。

キャンベル他、「声質、韻律の第４次元」、ＩＣＰｈＳ２００３予稿集、ｐｐ．２４１４−２４２０、２００３年（Ｃａｍｐｂｅｌｌｅｔａｌ．，"ＶｏｉｃｅＱｕａｌｉｔｙ，ｔｈｅ４th ｐｒｏｓｏｄｉｃｄｉｍｅｎｓｉｏｎ"，ＰｒｏｃＩＣＰｈＳ２００３，ｐｐ．２４１４−２４２０（２００３））デリーヌ他、「可変長シーケンスによる言語モデル化：理論的定式化及びマルチグラムの評価」、ＩＣＡＳＳＰ９５予稿集、ｐｐ．１６９−１７２、１９９５年（Ｄｅｌｉｇｎｅｅｔａｌ．，"ＬＡＮＧＵＡＧＥＭＯＤＥＬＩＮＧＢＹＶＡＲＩＡＢＬＥＬＥＮＧＴＨＳＥＱＵＥＮＣＥＳ：ＴＨＥＯＲＥＴＩＣＡＬＦＯＲＭＵＬＡＴＩＯＮＡＮＤＥＶＡＬＵＡＴＩＯＮＯＦＭＵＬＴＩＧＲＡＭＳ"，Ｐｒｏｃ．ＩＣＡＳＳＰ９５，ｐｐ．１６９−１７２（１９９５））

既に述べたように、発話のうち、韻律又は声質により表されている情報を処理するためには、発話様式と、発話者の意図又は態度との関係を解明する必要がある。そのためには、大規模自然音声対話データベースの収集と分析とが必要不可欠である。しかし、大規模自然音声対話データベースのテキスト書き起こしを全て人手で行なうのは、量的にも質的にも困難である。したがって、テキスト情報に依存せずに、大規模自然音声対話データベースを分析できる手法が望まれている。例えば、自然音声対話中に現れる同種の表現を自動的に収集する手法があれば便利である。

そうした分析は、例えば発話のテンポの検出等に利用できるであろう。また、韻律や声質等情報は、会話において最もよく利用されるが、会話以外においても利用されることがある。したがって、分析の対象は音声対話データベースには限定されない。

それゆえに本発明の目的は、テキスト情報に依存せずに、音声波形情報の分析を可能とする装置を提供することである。

この発明の他の目的は、テキスト情報に依存せずに、音声波形情報中に現れる同種の音声パターンを自動的に収集し、それらの分析を可能とする装置を提供することである。

本発明の第１の局面に係る音声波形情報分析の前処理装置は、音声波形情報を分析するに先立ち、音声波形情報に対する前処理を行なうための、音声波形情報分析の前処理装置であって、音声波形情報に対し所定の音声波形判別処理を行ない、判別後の音声波形シンボル列を出力するための音声波形判別手段と、判別後のシンボル列中に複数回現れるシンボル列パターンを抽出するためのシンボル列パターン抽出手段と、シンボル列パターン抽出手段により抽出された同一のシンボル列パターンごとに、当該シンボル列パターンに対応する音声波形の、音声波形情報中での出現個所を特定するための出現個所特定手段と、シンボル列パターン抽出手段により抽出された同一のシンボル列パターンごとに、出現個所特定手段により特定された出現個所とともにシンボル列パターン記録したパターンデータベースを作成するための手段とを含む。

好ましくは、音声波形判別手段は、前記音声波形情報に対して音声認識を行なうことにより、認識後シンボル列を出力するための音声認識手段を含む。

さらに好ましくは、音声認識手段は、音声波形情報に対して音素認識を行ない、認識後の音素文字列を出力するための音素認識手段を含む。

さらに好ましくは、シンボル列パターン抽出手段は、認識後の音素文字列中に複数回現れる可変長の音素文字列パターンを抽出するための手段を含む。

前記音声認識手段は、所定の音響モデルを用いて前記音声波形情報に対する音声認識を行なうための音響モデルによる音声認識手段を含んでもよく、音響モデルは音声波形情報の話者に対する話者適応がされたものであってもよい。

本発明の第２の局面に係る音声波形情報分析装置は、音声波形情報に対し音声波形の判別処理を行ない、判別後のシンボル列を出力するための音声波形判別手段と、判別後の音声波形シンボル列中に複数回現れる、所定の範囲のシンボル数のシンボル列パターンを抽出するためのシンボル列パターン抽出手段と、シンボル列パターン抽出手段により抽出された同一のシンボル列パターンごとに、当該シンボル列パターンに対応する音声波形の、音声波形情報中での出現個所を特定するためのシンボル列パターン出現個所特定手段と、シンボル列パターン抽出手段により抽出された同一のシンボル列パターンごとに、出現個所特定手段により特定された出現個所とともにシンボル列パターンを記録したパターンデータベースを作成するための手段と、シンボル列パターン抽出手段により抽出された同一のシンボル列パターンごとに、パターンデータベースを参照し、当該シンボル列パターンに対応する音声波形に対し、予め定める統計分析を行なうための統計分析手段とを含む。

音声波形判別手段は、音声波形情報に対して音声認識を行なうことにより、認識後シンボル列を出力するための音声認識手段を含んでもよい。

好ましくは、音声認識手段は、音声波形情報に対して音素認識を行ない、認識後の音素文字列を出力するための音素認識手段を含む。

より好ましくは、シンボル列パターン抽出手段は、認識後の音素文字列中に複数回現れる可変長の音素文字列パターンを抽出するための手段を含む。

前記音声認識手段は、所定の音響モデルを用いて前記音声波形情報に対する音声認識を行なうための音響モデルによる音声認識手段を含んでもよい。音響モデルは、音声波形情報の話者に対する話者適応がされたものであってもよい。

好ましくは、シンボル列パターン出現個所特定手段は、シンボル列パターン抽出手段により抽出されたシンボル列パターンごとに、当該シンボル列パターンの、判別後の音声波形シンボル列中での発話開始時刻と発話終了時刻とによりシンボル列パターンの出現個所を特定するための手段を含む。

さらに好ましくは、統計分析手段は、シンボル列パターン抽出手段により抽出された同一のシンボル列パターンごとに、パターンデータベースに記録された出現個所に対応する音声波形の継続時間長の偏差値を算出するための手段を含む。

以下では、本発明の一実施の形態として、大規模自然音声対話データベースの中から、テキスト情報に依存せずに同種の音声パターンを自動的に収集し、統計的処理により発話のテンポを検出する装置について述べる。なお、統計的処理は、ここで述べるテンポの算出に限らず、例えば基本周波数、音のエネルギー（パワー）、及び声質等に対するものでもよい。

図１に、本実施の形態に係る発話テンポ検出装置２０のブロック図を示す。図１を参照して、この発話テンポ検出装置２０は、予め話者非依存の音声データで学習を済ませていた基本ＨＭＭ（隠れマルコフモデル）３１に対し、特定話者の音素バランス文の読上げ音声からなる学習用音声３０を用いてＨＭＭ学習部３２により話者適応を行なうことにより得られるＨＭＭ３６を用いて、同じ話者による日常会話の音声波形情報からなる音声試料３８を分析し、特にその発話テンポを検出してテンポ情報４０を出力するための装置である。

音声試料３８としてはある特定の話者の自然対話音声からなる音声波形情報であればどのようなものでもよい。分析の目的によっては、対話の相手は、話者との関係がどのようなものであるかを特定できる者（父母、配偶者、子供、親戚、友人、他人等）であることが望ましい。音声試料３８は予め各発話に分割し、それぞれ開始時間及び終了時間を付与しておく。

発話テンポ検出装置２０は、ＨＭＭ３６を用いた音声認識により、音声試料３８の各発話の音素認識を行なって認識後音素文字列６２を出力するための音素認識部６０を含む。すなわち、図２を参照して、音素認識部６０により、音声試料３８の音声データの音響特徴量に基づいて、音声波形９０、９２、９４、９６等を認識後音素文字列６２に対応付ける。

認識後音素文字列６２はテキスト形式であるが、後に述べるようにこれらの音素文字列は音声信号パターンの特徴を反映する単なるシンボル列として取り扱い、発話内容のテキスト情報としては扱わない。したがって、認識結果文字列と書き起こしテキストとの対応関係に基づく音声認識精度についてはここではそれほど問題とはしない。したがって、ＨＭＭ３６は音声試料３８の話者に適応させたものである必要はない。もっとも、ＨＭＭ３６を音声試料３８の話者に適応させることで認識精度が高まり、発話テンポ検出装置２０の性能が向上することは分かっている。

なお、本実施の形態では音素文字列によって音声波形を音素文字列に変換しているが、本発明はそのような実施の形態には限定されない。音声波形を判別して所定のシンボルに変換するような機能を持つものであれば、どのようなものでも音素認識部６０に代えて使用することができる。

図１を参照して、発話テンポ検出装置２０はさらに、マルチグラム・パッケージを用いて認識後音素文字列６２中に含まれる同種の音素列のパターンを抽出しパターン辞書６８を作成するためのパターン抽出部６４を含む。マルチグラム・パッケージの詳細については非特許文献２を参照されたいが、簡単にいえば、入力文字列テキストに含まれる文字列パターンの中から、指定した長さより短く、指定した頻度よりも多く出現するものを可変長で抽出した上で、それらの出現確率をＥＭ（Ｅｘｐｅｃｔａｔｉｏｎ−Ｍａｘｉｍｉｚａｔｉｏｎ）アルゴリズムに基づいて計算するツールキットである。

図２を参照して、パターン抽出部６４の機能について説明する。図２に示されるように、音声試料３８中の音声データに、互いに類似した音声波形９０、９２、９４及び９６が存在したものとする。これらは、音素認識部６０により音素文字列１１０、１１２、１１４及び１１６として認識されたものとする。すると、これら音素文字列は、互いに類似したものとなり、多くの場合には互いに一致したものとなると思われる。パターン抽出部６４は、全対話分の認識後音素文字列６２にこのように繰返し現れる可変長の音素文字列パターンのうち、５音素〜１０音素の範囲の長さに相当するものを類似音声パターンとして抽出し、パターン辞書６８に書出す機能を有する。

図１を参照して、発話テンポ検出装置２０はさらに、パターン辞書６８を用い、パターン抽出部６４により抽出された類似音声パターンの中で、同じ音声パターンに対応する音声区間同士の出現個所を音声試料３８の対話データ全体にわたって特定し、統合することにより、類似音声パターンのグループを作り、各グループを代表する音素文字列と、その出現件数及び出現確率と、各グループを構成する音素文字列に対応する発話の開始・終了時刻とをまとめたパターンＤＢ（データベース）７２を作成するためのパターン統合部７０と、パターンＤＢ７２に格納された各グループを構成する発話の音声パターン継続時間に基づき、音声試料３８の対話における話者の発話テンポを算出しテンポ情報４０を出力するためのテンポ算出部７４とを含む。パターンＤＢ７２の作成までが分析の前処理に相当する。パターンＤＢ７２を作成することにより、この情報を利用した種々の音声分析を行なうことができる。

図３に、パターンＤＢ７２の構成を示す。図３を参照して、パターンＤＢ７２は、各擬似音声パターンに属する発話ごとの出現個所の記述１４０、１４２、１４４、…、１４６を含む。例えば出現個所の記述１４０は、音声試料３８内における音素文字列「○○○○○」の出現件数及び出現確率、およびそれに対応する発話ごとに、その開始時間と終了時間とをリストしたものである。パターンＤＢ７２を参照することにより、ある類似音声パターンについて、音声試料３８に現れる対応する発話の継続時間長をいずれも算出することができる。

テンポ算出部７４は、以下のようにして音声試料３８に含まれる発話のテンポを算出する。対話音声は多様な発話形式を含む。そのため、同一のテキスト情報を伝達する音声セグメントであっても、長音化等発話変形の影響により、従来のモーラ・テンポ（＝発話継続長／モーラ数）では発話テンポを規定することが困難であると考えられる。そこで、本実施の形態では、テンポ算出部７４は、同一の類似音声グループに割り振られた音声セグメント同士に着目し、発話テンポの指標として、音声パターンの継続時間長の偏差値を求める。

すなわち、テンポ算出部７４は、パターンＤＢ７２に含まれる、類似音声パターン全ての継続時間長に基づき、各音声パターンの継続時間長の、このグループにおける偏差値を求める。テンポ算出部７４は、この作業をパターンＤＢ７２に含まれる全ての類似音声パターンのグループに対して行なう。これにより、音声試料３８中に見出される全ての類似音声パターンのグループについて、各類似音声パターンの平均的継続時間長を基準としたテンポの変化を見ることができる。

図１〜図３に示す発話テンポ検出装置２０は以下のように動作する。まず、音声試料３８を準備しておく必要がある。音声試料３８については、発話ごとに分割してその開始・終了時間を付与しておく。

音声試料３８と同じ話者について、音素バランス文の読上音声からなる学習用音声３０を準備する。予め話者非依存の音声データで学習を済ませていた基本ＨＭＭ３１に対し、学習用音声３０を用いた話者適応を行なうことでＨＭＭ３６を準備する。この適応により、音素認識部６０による音声試料３８の音素認識精度が向上する。

音声試料３８及びＨＭＭ３６が準備されると、音素認識部６０が音声試料３８に対して音素認識を行ない、認識後音素文字列６２を出力する。パターン抽出部６４は、認識後音素文字列６２を、その意味を無視して単なるシンボル列として取り扱い、全対話分の認識後音素文字列６２に繰返し現れる可変長パターンのうち、５音素〜１０音素の範囲の長さに相当するものを類似音声パターンとして抽出する。検出された類似音声パターンにはその開始時刻及び終了時刻が付与されパターン統合部７０に与えられる。

パターン統合部７０は、パターン抽出部６４により抽出された類似音声パターンの中で、同じ音声パターンに対応する音声区間同士を音声試料３８の対話データ全体にわたって統合する。この処理により、類似音声パターンごとのグループが作成され、各グループを代表する音素文字列と、各グループを構成する発話の開始・終了時刻とをまとめたパターンＤＢ７２（図３参照）が作成される。

テンポ算出部７４は、パターンＤＢ７２に格納された類似音声パターンのグループごとに、そこに属する音素文字列に対応する音声パターンの継続時間長の偏差値を求め、テンポ情報４０として出力する。この偏差値は、各類似音声パターンについて、平均と比較した速さ（テンポ）を示すものとなる。すなわち、本実施の形態では、類似音声パターンについて計算された偏差値が大きいほど、その部分での発話テンポは遅いと考えられる。

実際に上記した発話テンポ検出装置２０をコンピュータ上で動作するプログラムにより実現して実験した。その結果を図４に示す。

図４において、従来の方法で算出したモーラ・テンポを線１６０により示す。本実施の形態に係る装置により算出した偏差値を「ｐ」の字で示す。なお、図４は２０分程度の対話データのうち、対話開始から４２３．１３９秒〜４２８．３６２秒の間に行なわれた発話を分析した結果を示す。

図４から明らかなように、一発話内の発話テンポの変化に着目した場合、従来のモーラ・テンポは一定値となるのに対し、本実施の形態に係る発話テンポ検出装置２０によれば、大部分のサンプルにおいて発話テンポの滑らかな推移を示す出力を得ることができた。これは、上記したように音素認識によって得た音素文字列を、発話の音響特徴量の時系列パターンをインデクシングするための単なるシンボルとして捉え、このシンボルを用いて元の音響特徴量を処理する、という方法が有効であることを示す。なお、ときおり偏差値５０以上の外れ値が見られるが、これらは句末音の引き伸ばし等に対応していると考えられる。

以上のように本実施の形態に係る発話テンポ検出装置２０によれば、テキスト情報に依存せず、対話を構成する大量の音声情報のみからその中に繰返し出現する類似音声パターンを自動抽出することができる。そのように自動抽出した類似音声パターンの発話の開始・終了時間に基づき、対話中の発話テンポの推移を検出することができる。したがって、大規模音声対話データベースから、テキスト情報に依存せずに、テキスト情報以外の韻律又は声質等の情報を抽出し処理する基本的な枠組みを提供することができる。

なお、上記した実施の形態では音素認識により得られた音素文字列を使用して、類似音声パターンの分類を行なった。しかし、本発明はそのような実施の形態には限定されず、音声認識により、同種の音声パターンをコンピュータで処理可能な同種のシンボル列に変換するようなものであれば、どのような認識方法を用いてもよい。例えば単語単位、モーラ単位等の音声認識を用いてもよい。

また、パターンＤＢ７２の形式も図３に示すものには限定されない。類似音声パターンに対応する発話ごとに、その継続時間長が算出可能な形式であれば、どのような形式のファイルを用いてもよい。

さらに、上記した実施の形態では、分析の内容をテンポの推移の検出としたが、本実施の形態に係る前処理は、他の分析の前処理として実施することもできる。すなわち、音声波形情報中の類似したパターンをまとめて処理するような場合には、上記した方法による前処理が有効である。処理対象の情報としては、基本周波数、音のエネルギー、又は声質を挙げることができる。また、同じシンボル列に対応する音声波形の出現個所を特定することで、同じ音素列からなる種々の音声を対比することができる。例えばテンポ等の推移に限らず、種々の出現個所における音声の使用方法とそれらの持つ種々の音声的特徴とを統計的に処理して、人間による発話の様式を多様な形で分析することが可能になる。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。

本発明の一実施の形態に係る発話テンポ検出装置２０のブロック図である。図１に示す音素認識部６０の機能を説明するための模式図である。図１に示すパターンＤＢ７２の構成を説明するための模式図である。本実施の形態の装置により行なった発話テンポ分析の結果を示すグラフである。

符号の説明

２０発話テンポ検出装置、３０学習用音声、３２ＨＭＭ学習部、３６ＨＭＭ，３８音声試料、４０テンポ情報、６０音素認識部、６２認識後音素文字列、６４パターン抽出部、６８パターン辞書、７０パターン統合部、７２パターンＤＢ、７４テンポ算出部

Claims

音声波形情報を分析するに先立ち、前記音声波形情報に対する前処理を行なうための、音声波形情報分析の前処理装置であって、
前記音声波形情報に対し所定の音声波形判別処理を行ない、判別後の音声波形シンボル列を出力するための音声波形判別手段と、
前記判別後のシンボル列中に複数回現れるシンボル列パターンを抽出するためのシンボル列パターン抽出手段と、
前記シンボル列パターン抽出手段により抽出された同一のシンボル列パターンごとに、当該シンボル列パターンに対応する音声波形の、前記音声波形情報中での出現個所を特定するための出現個所特定手段と、
前記シンボル列パターン抽出手段により抽出された同一のシンボル列パターンごとに、前記出現個所特定手段により特定された出現個所とともにシンボル列パターンを記録したパターンデータベースを作成するための手段とを含む、音声波形情報分析の前処理装置。
前記音声波形判別手段は、前記音声波形情報に対して音声認識を行なうことにより、認識後シンボル列を出力するための音声認識手段を含む、請求項１に記載の音声波形情報分析の前処理装置。
前記音声認識手段は、前記音声波形情報に対して音素認識を行ない、認識後の音素文字列を出力するための音素認識手段を含む、請求項２に記載の音声波形情報分析の前処理装置。
前記シンボル列パターン抽出手段は、前記認識後の音素文字列中に複数回現れる可変長の音素文字列パターンを抽出するための手段を含む、請求項３に記載の音声波形情報分析の前処理装置。
前記音声認識手段は、所定の音響モデルを用いて前記音声波形情報に対する音声認識を行なうための音響モデルによる音声認識手段を含む、請求項２に記載の音声波形情報分析の前処理装置。
前記音響モデルによる音声認識手段は、前記音声波形情報の話者に対する話者適応がされた音響モデルを用いて、前記音声波形情報に対する音声認識を行なうための手段を含む、請求項５に記載の音声波形情報分析の前処理装置。
音声波形情報に対し音声波形の判別処理を行ない、判別後の音声波形シンボル列を出力するための音声波形判別手段と、
前記判別後の音声波形シンボル列中に複数回現れるシンボル列パターンを抽出するためのシンボル列パターン抽出手段と、
前記シンボル列パターン抽出手段により抽出された同一のシンボル列パターンごとに、当該シンボル列パターンに対応する音声波形の、前記音声波形情報中での出現個所を特定するためのシンボル列パターン出現個所特定手段と、
前記シンボル列パターン抽出手段により抽出された同一のシンボル列パターンごとに、前記出現個所特定手段により特定された出現個所とともにシンボル列パターンを記録したパターンデータベースを作成するための手段と、
前記シンボル列パターン抽出手段により抽出されたシンボル列パターンごとに、前記パターンデータベースを参照し、当該シンボル列パターンに対応する音声波形に対し、予め定める統計分析を行なうための統計分析手段とを含む、音声波形情報分析装置。
前記音声波形判別手段は、前記音声波形情報に対して音声認識を行なうことにより、認識後シンボル列を出力するための音声認識手段を含む、請求項７に記載の音声波形情報分析装置。
前記音声認識手段は、前記音声波形情報に対して音素認識を行ない、認識後の音素文字列を出力するための音素認識手段を含む、請求項８に記載の音声波形情報分析装置。
前記シンボル列パターン抽出手段は、前記認識後の音素文字列中に複数回現れる可変長の音素文字列パターンを抽出するための手段を含む、請求項７に記載の音声波形情報分析装置。
前記音声認識手段は、所定の音響モデルを用いて前記音声波形情報に対する音声認識を行なうための音響モデルによる音声認識手段を含む、請求項８に記載の音声波形情報分析装置。
前記音響モデルによる音声認識手段は、前記音声波形情報の話者に対する話者適応がされた音響モデルを用いて、前記音声波形情報に対する音声認識を行なうための手段を含む、請求項１１に記載の音声波形情報分析装置。
前記シンボル列パターン出現個所特定手段は、前記シンボル列パターン抽出手段により抽出された同一のシンボル列パターンごとに、当該シンボル列パターンに対応する音声波形の、前記音声波形情報中での発話開始時刻と発話終了時刻とにより前記シンボル列パターンの出現個所を特定するための手段を含む、請求項７〜請求項１２のいずれかに記載の音声波形情報分析装置。
前記統計分析手段は、前記シンボル列パターン抽出手段により抽出された同一のシンボル列パターンごとに、前記パターンデータベースに記録された出現個所に対応する音声波形の継続時間長の偏差値を算出するための手段を含む、請求項１３に記載の音声波形情報分析装置。