JP2010277036A

JP2010277036A - 音声データ検索装置

Info

Publication number: JP2010277036A
Application number: JP2009132067A
Authority: JP
Inventors: Hirotaka Goi; 啓恭伍井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2009-06-01
Filing date: 2009-06-01
Publication date: 2010-12-09

Abstract

【課題】従来の音声データ検索は、検索対象の入力単語が比較的短い場合や、音声認識辞書に未登録な未知語の場合、十分な音声認識精度が得られず、音声データ検索も十分な精度が得られない。
【解決手段】入力された検索文字列をもとに、音声データから、検索文字列に対応した所望の音声を検索する音声データ検索装置は、検索文字列を入力する文字入力手段と、前記検索文字列の前後に接続する接続文字列を生成し、検索文字列に接続する接続文字列生成手段と、接続文字列が接続された検索文字列を音声データと照合し、音声データの検索文字列に対する尤度を算出する照合処理手段と、照合処理手段の結果、尤度の高い順に音声データの候補を出力する出力手段を備える。
【選択図】図１

Description

この発明は、音声信号を含むオーディオデータ、またはビデオデータ等のマルチメディアデータを検索する音声検索方法に関し、特に音声認識された認識結果を精度良く検索する装置に関するものである。

現在、多くの企業では、顧客との電話のやりとりにおいて、専門の部門や外部企業に電話応対専門の部門としてコールセンターを置き、業務を行っている。電話のやりとりの内容は、注文受け付けや、問い合わせ対応、及び営業業務など多岐にわたる。コールセンターを設けている多くの企業では、このような電話による業務は、通話録音装置により、通話が録音されている。通話録音された音声は、顧客とのトラブル時のチェック、応対の良い例悪い例を用いたコールセンターオペレータの教育、確認義務事項確認、及び禁忌語チェック等に使われている。

しかし、これらの応対の管理をするためには、従来、通話録音音声を人間が聴いてチェックしなくてはならず、すべての音声を聞くことはコストがかかるという問題があった。
この課題を解決するために、コールセンターにおける通話音声について音声認識技術を用いてテキスト化する技術が提案されている。この技術により、テキストと音声を紐付けし、テキスト中の文字列で、紐付けした音声の検索を容易化することができる。認識結果のテキスト中の文字列を対象として検索を実現することにより、コールセンターの応対発声の中に含まれる顧客名や品番などを検索キーワードとして絞り込み、ピンポイントにモニタリングチェックすることが可能となる。しかしながら、音声認識結果には誤認識が含まれており、検索精度の低下の原因となる。この誤認識をいかに低減するかが、音声データの検索精度を向上するための大きな課題である。
音声認識に関する方法として、従来、非特許文献１〜６にあげる方法が用いられている。以下用いる専門用語はこれらの文献に著される用語を用いるものとする。

従来の音声データ検索方法として、検索対象の音声データを、音声タイプライタにより、音素系列にタグ付けし、タグ付けした音素列をもとに連続DP(Dynamic Programming)マッチングにより検索対象となる音声データの検索を実現する方法が、非特許文献５に記載されている。この手法は、検索対象とする系列を単語等の言語制約により予め決めないため、単語等で構成される辞書を予め用意する必要が無いというメリットがある。しかし、一方、言語的な制約を用いないため、音素系列の付与精度は、単語辞書等の言語制約を用いる場合と比較して低下するという課題がある。特に検索対象が短い音素数の場合には、音素の誤りの影響が、検索精度へ大きく影響する問題がある。

また、従来の音声データ検索方法として、検索対象の音声データを、単語辞書を用いた音声認識により、単語系列にタグ付けし、タグ付けした単語をもとに検索対象となる音声データの検索を実現する方法が用いられる。しかし、前述の音声系列を用いた方法と比較した場合、音声認識精度は高いが、予め、言語制約として単語辞書を用いるため、検索対象として、辞書に無い単語が入力された場合に、著しく精度が低下するという課題がある。この課題を解決する方法の１つとして、特許文献１に記載されている方法がある。この方法は、入力された単語群から、外部データベースを参照することで関連文書集合を得る。この関連文書集合から、拡張単語群を抽出し、新たな検索対象とする単語を抽出追加する方法である。この方法は、外部データベースを知識として検査語彙の拡張を行っているので、一般的に複数の単語を入力した場合の言語制約の改善に有意義である。しかしながら、入力が短い１単語の場合で、認識誤りが及ぼす影響が大きい場合や、入力が未知語の場合に対する処理技術については記載されていない。

さらに、従来の音声データ検索方法として、検索対象の音声データを、単語辞書を持つ音声認識により、単語系列にタグ付けし、タグ付けした単語をもとに検索対象となる音声データの検索を実現する方法の他の例として、特許文献２に記載されている方法がある。この方法は、検索音響系列と音響的な距離が近い単語、または単語列を生成することにより、辞書に登録されていない単語、または単語列でも検索可能にすることで、速度性能についても向上する方法である。例えば、「かねくら」という入力に対応する「金蔵様ですね」（かねくらさまですね）のような発話がある場合に、音声認識結果が、「鎌倉様ですね」（「かね」を「かま」と誤って認識）のような場合を検索可能にする。

しかし、この方法でも、検索対象が短い単語の場合は、認識誤りの影響が大きく、音声検索に与える影響は大きい。また、この特許文献２に記載の技術では、誤り範囲が拡大してしまう場合、例えば、「えっと大船様ですね」のような発話を、「えっ豆腐朝まですね」と誤って認識した場合、単語境界が広範囲に誤るため、検索が困難で、精度は低下してしまう。特に「大船」という姓が音声認識辞書に未登録の場合は、このような現象がよく出現し問題となる。

また、特許文献２には、認識結果の前後の単語を用いて、単語接続の可否による単語テーブルを導入し、検索速度を向上する方法が開示されているが、コールセンター応対の場合には、接続不可の可能性を削除してしまうと、個々の顧客名など出現頻度が低い単語は、精度が低下してしまう課題がある。また、検索対象の入力が未知語である場合には、当然のことながら、事前に単語テーブルを作成できないため、接続の可否は判断できないという課題がある。

特開２００４−２４６８２４号公報特開２００６−０３１２７８号公報

鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著：「音声認識システム」株式会社オーム社，平成１３年５月１５日（以下教科書１）北研二、辻井潤一著：「確率的言語モデル」,東京大学出版会、1999年11月25日（以下教科書２）中川聖一著：「確率モデルによる音声認識」社団法人電子情報通信学会，昭和６３年７月１日（以下教科書３）長尾真著,「自然言語処理」,岩波書店，1996年4月26日（以下教科書４）岡隆一他著,「音素系列表現を用いた音声およびテキスト検索」,電子情報通信学会技術研究報告,2 0 0 1年,S P 2 0 0 1 - 2 9,2 9 - 3 5頁阿部他著：「認識誤り傾向の確率モデルを用いた２段階探索法による大語彙連続音声認識」，電子情報通信学会論文誌D-II, VolJ83-D-II No12 ,2000-12, 2545-2553頁

このように、検索対象の入力単語が比較的短い場合や、音声認識辞書に登録されていない未知語の場合には、十分な音声認識精度がえられないため、音声データの検索精度も十分な精度を得ることができなかった。

この発明は、このような課題を解決するためになされたものであり、検索文字列の前後に接続する接続文字列を生成する接続文字列生成手段を設けることで、単語が短単位の場合や、未知語の場合でも精度良く音声データを検索することを可能にする。

この発明に係る音声データ検索装置は、
入力された検索文字列をもとに、音声データから、検索文字列に対応した所望の音声を検索する音声データ検索装置であって、
検索文字列を入力する文字入力手段と、
前記検索文字列の前後に接続する接続文字列を生成し、検索文字列に接続する接続文字列生成手段と、
前記接続文字列が接続された検索文字列を音声データと照合し、音声データの検索文字列に対する尤度を算出する照合処理手段と、
照合処理手段の結果、尤度の高い順に音声データの候補を出力する出力手段を備える。

この発明に係る音声データ検索装置によれば、接続文字列生成手段で検索文字列の前後に接続する接続文字列を生成し、その接続文字列を検索文字列に接続して、照合処理手段で音声データと照合し、音声データの検索文字列に対する尤度を算出して、尤度の高い順に音声データの候補を出力する出力手段を備えるので、単語が短単位の場合や、未知語の場合でも精度良く音声データを検索することを可能にする。

この発明の実施の形態１における音声データ検索装置の構成図である。入力部のウィンドウインタフェースの一例を示す図である。接続表現リスト、及び音声認識辞書の生成装置の構成図である。接続表現リストの内容例を示す説明図である。音節誤りモデルの生成装置の構成図である。音節誤りモデルの内容例を示す説明図である。照合処理部の照合処理手順と尤度計算の処理過程についての概略フロー図である。照合処理部の尤度計算手順の照合サブルーチンの概略フロー図である。音声認識処理部で、音声データを認識した認識音節列の例を示す図である。実施の形態２による照合処理部の動作説明用の認識音節列例を示す図である。実施の形態３による照合処理部の動作説明用の認識音節列例を示す図である。予め計算された音節誤りモデルに対応した対数尤度その１を示す図である。予め計算された音節誤りモデルに対応した対数尤度その２を示す図である。

実施の形態１．
図１は、この発明の実施の形態１における音声データ検索装置の構成図を示し、以下に説明する。音声データ検索装置は、検索読み文字列、属性値を入力する入力部１０１と、検索読み文字列を音節系列に変換する音響系列変換部１０２と、接続表現リスト１０３を読み込み、前後接続候補を生成する前後接続候補生成部１０４と、音節の誤り傾向を統計量としてモデル化した音節誤りモデル１０５と、検索対象となる音声データ１０７を入力とし、音声認識辞書１０９を参照して、音声認識結果として認識音節列１１０を出力する音声認識処理部１０８と、音節誤りモデル１０５と、認識音節列１１０を読み込み、照合して尤度を算出する照合処理部１０６と、照合処理の結果、尤度の高い順に候補を出力する出力部１１１により検索結果を出力する構成である。

上記のように構成された音声データ検索装置の動作について説明する。
入力部１０１は、検索読み文字列と属性値を入力する装置である。図２は、入力部１０１のウィンドウインタフェースの一例について示したものである。検索入力ウィンドウに、読み文字列の入力項目と、属性値例として「顧客名」、「住所」、「その他」等のカテゴリ指定項目があり、ユーザが指定可能に構成してある。この例では、「おおふな」（姓の「大船」）の読みが、顧客名であることが指定されている。このように構成されたインタフェースから、読み文字列と、属性値を指定する。

音響系列変換部１０２は、入力された読み文字列を、音響系列である音素列や、音節列などに変換する。ここでは、入力読み文字列を、音節列に変換する。「おおふな」という読み文字列は、「o,o,hu,na」という音節列に変換される。（ここで“,”は音節のセパレータを表す。）

接続表現リスト１０３は、各カテゴリの単語に共起して接続しやすい接続表現を集めたリストである。この生成方法の詳細については図３、図４を参照して後述する。この、接続表現リストは、単語の前接続形態素列と、後接続形態素列の接続表現を記憶したものである。

前後接続候補生成部１０４は、入力された属性値から、接続表現リスト１０３を参照し、検索音節列の前後に連接する音響系列を接続生成する装置である。例えば、顧客名「大船」の後方には、後接表現として「sa,N,de,sjo,o,ka」（「さんでしょうか」の音節列）や「sa,ma,de,su,ne」（「様ですね」の音節列）が連接しやすいということを、接続表現リスト１０３から読み出して、検索音節列と接続した候補を生成する。

音節誤りモデル１０５は、後述する音声認識処理部１０８の音声認識の誤り傾向を音節単位でモデル化したものである。このモデルの生成方法の詳細については図５、図６を参照して後述する。

音声データ１０７は、検索対象となる、コールセンターの応対通話を予め収集した音声ストリームデータである。
音声認識辞書１０９は、教科書で開示されている技術を用いて生成された単語N-gramモデルを用いて生成した音声認識用の言語モデルである。この生成方法の詳細については図３を参照して後述する。
音声認識処理部１０８は、音声データ１０７を読み込み、教科書に開示されている技術を用いて音声認識辞書１０９を参照しながら、読み込んだ音声データ１０７を認識し、その結果を認識音節列として出力する。

認識音節列１１０は、音声認識処理部１０８により、音声データ１０７を認識した結果である。例えば、「えー大船様ですね」という発声の正解音節列は、「e,e,o,o,hu,na,sa,ma,de,su,ne」であるが、認識結果は、未登録語や、性能限界から誤りを含んだ「e,e,o,hu,a,sa,ma,de,su,ne」(「えーオフ朝まですね」)などといった音節列となる。この認識音節列の例を図９に示す。認識音節列は、音声データ中の一定の長さ以上の無音区間を区切りとした発話を単位として、図のように、発話の順番を示す発話番号、認識音節列を音声データの位置と紐付けるための音声データ中の発話先頭時間の位置を示す発話ＩＤ(identification)と組で記録されている。認識音節列１１０は、このような音節列である。

照合処理部１０６は、前後接続候補生成部１０４で生成された前後接続候補音節列と、音節誤りモデル１０５および認識音節列１１０と照合し、認識音節列１１０に対応した各発話ＩＤの示す音声データの位置の尤度として計算し、これを尤度順に記憶する。
出力部１１１は、尤度順に記憶された発話ＩＤの対応部分から、尤度の高い順に発話ＩＤの示す位置から音声データを候補として出力する。

図３は、接続表現リスト１０３、及び音声認識辞書１０９の生成装置の構成図を示し、以下に説明する。学習音声データ１、２０２を聞いて人手で書き起したテキストを入力する書き起し処理部２０１と、書き起し処理部２０１からの書き起しテキストを入力して、形態素解析辞書２０４を参照しつつ、書き起しテキストを形態素解析する形態素解析部２０３と、形態素解析結果の誤りを人手で修正する修正処理部２０５と、修正した結果であるタグ付コーパス１、２０６と、タグ付コーパス１、２０６を読み込み、転置索引を作成する転置索引生成部２０７と、転置索引から接続表現の尤度を計算し、尤度計算の結果、閾値以上の表現を集め、接続表現リスト１０３に出力する尤度計算部２０８を備える。
また、音声認識辞書生成部２１０を備え、音声認識辞書生成部２１０が、タグ付コーパス１、２０６を読み込み、音声認識辞書１０９を生成する。音声認識辞書１０９は、教科書に記された技術により言語モデルをとして構成する。特に、形態素タグ付きのコーパスから、n-gramモデルとして生成する。

学習音声データ１、２０２は、音声データ検索のターゲットとするコールセンターの応対通話を予め収集した音声ストリームデータである。この学習音声データ１、２０２を書き起し作業者が聞いて、テキストに書き起すインタフェースが書き起し処理部２０１である。例えば、「えっとおーふなさまですね」といった音声を「えっと、大船様ですね」といった電子化テキストデータにして入力する。

形態素解析部２０３は、教科書にあるような手法により、書き起しテキストを形態素に変換する。例えば、「大船様ですね」は、「大船+顧客名+o,o,hu,na 様+接尾辞+sa,ma です+助動詞+de,su ね+助詞+ne」という形態素列に変換される。（ここで、“ ”は形態素のセパレータ、“+”は項目のセパレータ、“,”は音節のセパレータである。）各形態素には、表記、属性、及び読み音節列の順で要素データが記憶されている。ここで、属性とは、教科書にある品詞を意味ごとに細分化したカテゴリである。

修正処理部２０５は、形態素解析の結果、誤りの部分を人手チェックにより修正を可能にする入力インタフェース部分である。形態素解析の結果、形態素の区切り誤りや、読みの付与誤りを生じた場合に、ここで修正を行い正解の形態素列を入力することができる。
タグ付コーパス１、２０６は、修正の結果、形態素に分割タグ付されたコーパスを記憶したものである。

転置索引生成部２０７は、タグ付コーパスのうちカテゴリの付与された単語の前接続形態素列と、後接続形態素列をそれぞれ抽出するものである。

尤度計算部２０８は、式１により、単語の前接続形態素列と、後接続形態素列のそれぞれの尤度L(c,p)を計算し、この尤度がある閾値以上の形態素列を出力するものである。このとき、cは検索対象のカテゴリ、pは前接、または後接の表現である。

このとき、相互情報量はM(c,p)は、式２により定義されるから、

式１は式３のように変形できる。つまり、カテゴリcが出現するときのpの条件付き接続確率が高く、かつcとpの相互情報量の高い表現を選ぶことを意味する。

接続表現リスト１０３は、このようにして、尤度計算部２０８の尤度計算により出力された単語の前接続形態素列と、後接続形態素列の接続表現と、その接続尤度（本実施の形態では、logP(p|c)）を記憶したものである。具体例を図４に示す。本実施の形態では、L(c,p)の値が３以上の場合の表記と接続なしの場合について処理することで処理を制限する。つまり「さん」「さま」「」を処理する。

図５は、音節誤りモデル１０５の生成装置の構成図を示し、以下に説明する。学習音声データ２、３０１を人間が聞いてテキストを書き起し、テキストを入力する書き起し処理部２０１と、学習音声データ２、３０１を入力して、音声認識辞書１０９を参照しつつ、学習用認識音節列３０２を出力する音声認識処理部１０８と、書き起しテキストを入力して、形態素解析辞書２０４を参照しつつ、書き起しテキストを形態素解析する形態素解析部２０３と、形態素解析結果の誤りを人手で修正する修正処理部２０５と、修正した結果であるタグ付コーパス２、３０３と、タグ付コーパス２、３０３を読み込み、正解音節列３０５を抽出する音節列抽出処理部３０４と、正解音節列３０５と、学習用認識音節列３０２から音節誤りモデル１０５を生成する照合計算処理３０６で構成される。

学習音声データ２、３０１は、音声データ検索のターゲットとするコールセンターの応対通話を予め収集した音声ストリームデータであるが、図３の学習音声データ１、２０２とは異なるオープンな音声データである。以下、書き起し処理部２０１、形態素解析部２０３、修正処理部２０５は、図３と同様の構成要素であり、説明を省略する。

学習用認識音節列３０２は、図１と同様に、音声認識処理部１０８により学習音声データ２、３０１を読み込み、教科書に開示されている技術を用いて音声認識辞書１０９を参照しながら、学習音声データ２、３０１を認識し、その結果が認識音節列として出力されたものである。

タグ付コーパス２、３０３は、修正処理部２０５で人手による修正の結果、形態素に分割タグ付されたコーパスを記憶したもので、図３のタグ付コーパス１、２０６とは、形式は同一であるが、異なるセットである。
音節列抽出処理３０４は、タグ付コーパス２、３０３から正解の音節列である正解音節列３０５を抽出する。正解音節列３０５は、音節誤りモデル１０５を作成するために抽出された、学習音声データ２、３０１の音声に対応した正解の音節列である。

照合計算処理部３０６は、正解音節列３０５と、学習用認識音節列３０２とを比較し、音節誤りモデル１０５を生成する。このとき、従来技術文献６に開示されている差分モデルを用いる。従来技術文献６と異なる点は、学習用認識音節列３０２が、言語モデルとしてn-gramモデルを適用した認識結果であり、n-gramモデルの制約を含めた誤り傾向を音節誤りモデルが学習することにある。
音節誤りモデル１０５は、このようにして、学習された音節の誤り傾向をモデル化したものである。具体例を図６に示す。

次に、図１に示す照合処理部１０６の照合処理手順と尤度計算の詳細過程について、図７の概略フローを参照し、具体例をもとに説明する。
まず、前後接続候補生成部１０４より前後接続候補音節列を読み込み、処理開始をする。例えば、「おおふな」が「顧客名」で検索入力された場合、前後接続候補音節列として、下記のような音節列が読み込まれる。ここでは、説明の簡略化のために後接の例で説明するが、実際には、前接続との組み合わせで処理される。（ＳＴ５００１）
「o,o,hu,na,sa,ma」
「o,o,hu,na,sa,N」
「o,o,hu,na」

次に、すべての前後音節候補音節列について処理したかチェックし、未処理があればＳＴ５００３へ処理を移す。未処理がなければ処理をＳＴ５００９へ移す。（ＳＴ５００２）
次に、前後音節候補音節列について未処理があれば、前後接続候補音節列を１つ選択して処理対象とする。ここでは、「o,o,hu,na,sa,ma」が処理対象となったとする。（ＳＴ５００３）
次に、認識音節列全体を最初から読み込む。認識音節列１１０は、図９に示された、一定の無音区間を区切りとした発話の単位として音節列として読み込む。各発話には、発話時間に対応した発話ID(identification)が付与されている。（ＳＴ５００４）

次に、すべての認識音節列１１０について処理したかチェックし、未処理があればＳＴ５００６へ処理を移し、未処理がなければ処理をＳＴ５００２へ移す。（ＳＴ５００５）
次に、認識音節列全体から、処理していない認識音節列を読み込む。ここでは、「e,e,o,hu,a,sa,ma,de,su,ne」(「えーオフ朝まですね」の音節列)が読み込まれたとする。（ＳＴ５００６）

次に、処理対象とした、発話ＩＤ、前後音節候補音節列と、認識音節列をRAM(random access memory)に記憶するとともに尤度を初期化（０を代入する）し、照合サブルーチンをコールする。照合サブルーチンでは、RAMに記憶された前後音節候補音節列と、認識音節列１１０を照合し、最大の照合尤度と照合位置をRAMに記憶する。サブルーチンの処理の詳細については、図８で後述する。（ＳＴ５００７）

次に、RAMに記憶された発話ＩＤ、尤度の組を取り出し、尤度順に並べて発話ＩＤごと別のRAM領域に記憶する。この例では、前後音節候補音節列「o,o,hu,na,sa,ma」と認識音節列「e,e,o,hu,a,sa,ma,de,su,ne」が、 o/ o/o hu/hu na/a sa/sa ma/maの対応のとき最大尤度となる。この尤度計算については詳細を後述する。（ＳＴ５００８）

処理を終了する。（ＳＴ５００９）

次に、照合サブルーチン（ＳＴ５００７）の尤度計算手順の詳細過程について、図８の概略フローと、具体例をもとに説明する。
まず、前後接続候補音節列と認識音節列を読み込み処理を開始する。ここでは、前後音節候補音節列「o,o,hu,na,sa,ma」と認識音節列「e,e,o,hu,a,sa,ma,de,su,ne」が読み込まれる。（ＳＴ６００１）

次に、前後接続候補音節列のすべての音節を照合したかチェックする。具体的には、前後接続候補音節列がヌルストリングであれば、処理をＳＴ６００３へ移す。ヌルストリングでなければＳＴ６００４へ処理を移す。（ＳＴ６００２）
前後接続候補音節列がヌルストリングであれば尤度を計算し、RAMに記憶した最大値と比較する。最大値よりも計算した尤度が大きい場合に、発話ＩＤと、尤度、照合位置を記憶する。ここでは、最初にo/ o/ hu/ na/ sa/ ma/のすべて削除の場合がマッチし、後述する計算により尤度は45.66となる。RAMの最大尤度値は初期化されて０であるので、新しい発話ＩＤと、尤度、照合位置を記憶する。（ＳＴ６００３）

次に、前後接続候補音節列がヌルストリングでなければ、前後接続候補音節列の先頭音節を正解音節として取り出す。ここでは、「o,o,hu,na,sa,ma」の「o」が取り出される。（ＳＴ６００４）
次に、認識音節列１１０の先頭音節列を入力音節として取り出す。入力音節は誤りのある可能性を考慮した音節列であるので、挿入や削除を考慮して音節数を変化させる。ここでは、「e,e,o,hu,a,sa,ma,de,su,ne」の先頭０音節(ヌルストリング)から２音節までを対象とする。従って、「e,e」「e」「」の３つが入力音節の対象として取り出される。（ＳＴ６００５）

次に、音節誤りモデル１０５を参照し、正解音節列３０５、及び入力音節列に対応する値があるかチェックする。ある場合は処理をＳＴ６００７に移す。無い場合には、処理をＳＴ６０１１に移す。ここでは、正解音節列「o」と入力音節列「e,e」の「o/e,e」で音節誤りモデル１０５を参照し、これがないため、処理は、ＳＴ６０１１に移る。（ＳＴ６００６）

次に、すべての入力音節を処理したかチェックし、処理した場合には、処理をＳＴ６０１２に移す。未処理の入力音節がある場合には、処理をＳＴ６００６に移す。ここでは、「e」「」の２つの音節の処理が残されているため、処理がＳＴ６００６に移される。（ＳＴ６０１１）

次に、ＳＴ６００６で「e」について前述の処理が行われ、正解音節列「o」と入力音節列「e」の「o/e」で音節誤りモデル１０５を参照し、これが存在するため、処理は、ＳＴ６００７に移る。（ＳＴ６００６）

次に、一致部分に対応した尤度を計算して、尤度に累積加算する。尤度は式４により計算される。このとき、Lp(X,Y)は一致音節部分の部分尤度、Xは入力音節列、Yは正解音節列、P(X|Y)は音節誤りモデルに記憶された混同確率、fは尤度の累積値が、単純増加関数になるように、尤度を正の値に設定してフロアリングするのための固定値12.0である。この例では、Lp(X,Y) ＝ log P(X|Y)+ f ＝log(6.03522e-05)+12.0 = -9.72 + 12.0 = 2.28となる。（ＳＴ６００７）
本実施の形態では、この音節誤りモデル１０５に対応した計算を事前に行った図１２、図１３の対数尤度表を用いて処理を行う。（以下、対数尤度は簡単のため小数点３位以下を切り捨てる。）

次に、前後接続候補音節列と認識音節列１１０の先頭から、音節誤りモデル１０５に一致した音節列を取り除き、新たな前後接続候補音節列と認識音節列１１０として設定する。（ＳＴ６００８）
次に、照合サブルーチン（このサブルーチン）を再帰コールする。（ＳＴ６００９）
次に、前後接続候補音節列と認識音節列の先頭から一時的に取り除いた、音節列を元に戻し、前後接続候補音節列と認識音節列として再設定する。（ＳＴ６０１０）

次に、ＳＴ６０１１において前述の同様の処理を繰り返す。（ＳＴ６０１１）

次に、処理を終了して呼び出しモジュールにRETURNする。（ＳＴ６０１２）
このように処理することで、前後接続候補音節列と認識音節列のうち、式５に示す累積尤度の最も高い位置を求めることができる。このとき、lは正解音節数、X_i+lはi番目音節以降のl番目の入力音節列、Y_lはl番目の正解音節列、Lp(X_i+l,Y_l)は一致音節部分の部分尤度、Lwは最大の累積尤度である。この例では、前後音節候補音節列「o,o,hu,na,sa,ma」と認識音節列「e,e,o,hu,a,sa,ma,de,su,ne」が、 o/ o/o hu/hu na/a sa/sa ma/maの対応のとき
最大尤度＝Lp(NULL,o)+Lp(o,o)+Lp(hu,hu)+Lp(a,na)+Lp(sa,sa)+Lp(ma,ma)
＝9.48+11.85+11.87+7.21+11.92+11.9 = 64.23
となる。

ＳＴ５００３で「o,o,hu,na,sa,ma」、「o,o,hu,na,sa,N」、「o,o,hu,na」がそれぞれ前後接続候補音節列の候補対象となり、さらにこの中の最大尤度が式６により求められる。このとき、cは属性カテゴリ、p_nは前接または後接表現、P(p_n|c)は前後接続候補音節列の属性カテゴリとの連接確率で、接続表現リスト１０３に対数尤度が記憶されている値である。Lw_nは前後接続候補音節列nに対応する累積尤度である。
「o,o,hu,na,sa,N」に対する最大尤度はo/ o/o hu/hu na/a sa/sa ma/Nの対応のとき57.33となり、「o,o,hu,na」の最大尤度は、o/ o/o hu/hu na/aのときに40.41となる。
同様にして図９に示す発話番号２の発話「oohunaekidesune」（「大船駅ですね」の音節列）についても同様に処理を行う。発話番号２の最大尤度は、o/o o/o hu/hu na/naのときに47.41であり、駅名である「大船駅ですね」の尤度より、音節の認識誤りを含んでいるが「えーオフ朝まですね」の尤度を高く計算でき、正しい認識音節列の尤度を高くできる。

このように検索入力を「顧客名」に共起しやすい接続リストで前後接続候補音節列に拡張するという特徴的な処理により、「おおふな」が「顧客名」で検索入力され、認識音節列が「e,e,o,hu,a,sa,ma,de,su,ne」(「えーオフ朝まですね」の音節列)であった場合に、o/ o/o hu/hu na/a sa/sa ma/maの対応のとき最大尤度となり、この発話ＩＤ、尤度が検索結果の第一候補として記憶されるという効果を奏する。

上述のように処理を構成することで、入力された所望の音節列と、属性値として顧客名に対応した検索結果として、駅名などの発話ＩＤの候補の尤度の順位を下げて発話ＩＤが検索できる。

実施の形態２．
実施の形態１では、照合処理部１０６において、前後接続候補音節列の個々の音節においてフロアリング値与えることにより、属性に合致する接続表現の長いものを優先するよう構成されていた。しかながら、このような構成であると、接続表現が著しく長い場合に、入力読み文字列の尤度が相対的に低い評価になってしまう。これを解決するために、実施の形態２においては、算出された尤度を前後接続候補音節列の音節の長さ＋１の値で除算することにより正規化するものである。

具体的な例を図１０の認識音節列で説明する。実施の形態１と異なるのは、発話番号１の認識音節列が、「eeoohunasama」(「えー大船様」)であることと、発話番号３に「gokuroosamadesune」（「ご苦労様ですね」）が加えれていること、また、後接表現として「さまですね」を採用し、前後接続候補音節列を「o,o,hu,na,sa,ma,de,su,ne」、「o,o,hu,na,sa,ma」、「o,o,hu,na,sa,N」、「o,o,hu,na」の４つを前後接続候補音節列として処理する場合とする。実施の形態１と同様に処理した場合、前後音節候補音節列「o,o,hu,na,sa,ma,de,su,ne」と認識音節列「go,ku,ro,o,sa,ma,de,su,ne」が、 o/ o/ hu/ na/ sa/sa ma/ma de/de su/su ne/neの対応のとき
最大尤度＝Lp(NULL,o)+Lp(NULL,o)+Lp(NULL,hu)+Lp(NULL,na) +Lp(sa,sa)+Lp(ma,ma)
+Lp(de,de)+Lp(su,su)+Lp(ne,ne)
＝9.48+9.48+8.61+6.86+11.92+11.9+11.82+11.83+11.86 = 93.76
となり、誤った認識音節列の尤度が高くなってしまう。

本実施の形態では、照合処理部１０６で前後接続候補音節列の音節の長さ＋１で除算して後接表現の長さによる尤度追加分を正規化することで、前後接続候補音節列「o,o,hu,na,sa,ma」と認識音節列「e,e,o,o,hu,na,sa,ma」が、 o/o o/o hu/hu na/a sa/sa ma/maの対応のとき
最大尤度＝(Lp(o,o)+Lp(o,o)+Lp(hu,hu)+Lp(na,na)+Lp(sa,sa)+Lp(ma,ma)) ÷7
＝(11.85+11.85+11.87+11.84+11.92+11.9)÷7 = 71.23÷7 = 10.17
となる。
ちなみに、前述の実施の形態１で第１位となる前後接続候補音節列は音節数９で除算されるため尤度は、93.76÷10 = 9.37 よって、「えー大船様」の尤度を高く設定できることとなる。
このようにして、前後接続候補音節列を照合処理部１０６で音節数で除算して正規化するという特徴的な処理により、接続表現が著しく長い場合でも、尤度のバランスをとることができ、正しい認識音節列の尤度を高めるという効果を奏する。具体的には式５を以下の式７で計算する。

実施の形態３．
実施の形態１では、照合処理部１０６において、前後接続候補音節列の個々の音節においてフロアリング値与えることにより、属性に合致する接続表現の長いものを優先するよう構成されていた。しかながら、このような構成であると、接続表現が短い場合に、入力読み文字列の尤度が相対的に高い評価になってしまう。また、属性を優先して捜したい場合に対応できない。これを解決するために、実施の形態３においては、前後接続候補音節列の尤度を重み付けすることにより尤度のバランスをとるものである。

具体的な例を図１１の認識音節列で説明する。実施の形態１と異なるのは、発話番号２の認識音節列が、「oohunamaci」(「大船町」)であることである。
実施の形態１と同様に処理した場合、
前後音節候補音節列「o,o,hu,na,sa,ma」と認識音節列「o,o,hu,na,ma,ci」が、 o/o o/o hu/hu na/na sa/ ma/maの対応のとき
最大尤度＝Lp(o,o)+Lp(o,o)+Lp(hu,hu)+Lp(na,na) +Lp(NULL,sa)+Lp(ma,ma)
＝11.85+11.85+11.87+11.84+5.38+11.9 = 64.69
となり、実施の形態１の正解の64.23より高くなり誤った認識音節列の尤度が高くなってしまう。

本実施の形態では、照合処理部１０６で前後接続候補音節列を前接表現、及び後接表現の部分と、それ以外の部分に分離してλで重みを尤度に加えることにより、前接表現、及び後接表現とそれ以外の部分に尤度重みを加える。
本実施の形態では、λ＝０．２５とする。すると、前後接続候補音節列「o,o,hu,na,sa,ma」と認識音節列「e,e,o,hu,a,sa,ma,de,su,ne」が、 o/ o/o hu/hu na/a sa/sa ma/maの対応のとき
最大尤度＝(Lp(NULL,o)+Lp(o,o)+Lp(hu,hu)+Lp(a,na))×0.25
+(Lp(sa,sa)+Lp(ma,ma))) × 0.75
＝ (9.48+11.85+11.87+7.21) ×0.25 +(11.92+11.9) ×0.75
＝ 40.41×0.25 + 23.82×0.75 = 10.10 + 17.86 = 27.96
となる。
ちなみに、前述の実施の形態１で第１位となる前後接続候補音節列「o,o,hu,na,ma,ci」の
尤度 = (Lp(o,o)+Lp(o,o)+Lp(hu,hu)+Lp(a,na))×0.25
+(Lp(NULL,sa)+Lp(ma,ma))) × 0.75
=（11.85+11.85+11.87+11.84）×0.25＋（5.38+11.9）×0.75
= 11.85+12.96 = 24.81
よって、正しい属性「顧客名」である「えーオフ朝まです」の尤度を高く設定できる。

このようにして、前後接続候補音節列を前接表現、及び後接表現の部分と、それ以外の部分に分離してλで重みを尤度に加えるという特徴的な処理により、接続表現が短い場合や、属性を優先したい場合でも、正しい認識音節列の尤度を高めるという効果を奏する。具体的には式５を以下の式８で計算する。このとき、l1は正解音節数、l2は後接表現に対応する音節列の音節数、λは重み係数である。

この発明は、顧客との電話のやりとりを専門に行う部門としての企業等におけるコールセンター等で、通話録音装置に録音された音声を、顧客とのトラブル時のチェック、応対の良い例悪い例を用いたコールセンターオペレータの教育、確認義務事項の確認、禁忌語チェック等に使われる際の音声データ検索に適用される可能性がある。

１０１；入力部、１０２；音響系列変換部、１０３；接続表現リスト、１０４；前後接続候補生成部、１０５；音節誤りモデル、１０６；照合処理部、１０７；音声データ、１０８；音声認識処理部、１０９；音声認識辞書、１１０；認識音節列、１１１；出力部
２０１；書き起し処理部、２０２；学習音声データ１、２０３；形態素解析部、２０４；形態素解析辞書、２０５；修正処理部、２０６；タグ付コーパス、２０７；転置索引生成部、２０８；尤度計算部、２１０；音声認識辞書生成部、３０１；学習音声データ２、３０２；学習用認識音節列、３０３；タグ付コーパス２、３０４；音節列抽出処理部、３０５；正解音節列、３０６；照合計算処理部。

Claims

入力された検索文字列をもとに、音声データから、検索文字列に対応した所望の音声を検索する音声データ検索装置であって、
検索文字列を入力する文字入力手段と、
前記検索文字列の前後に接続する接続文字列を生成し、検索文字列に接続する接続文字列生成手段と、
前記接続文字列が接続された検索文字列を音声データと照合し、音声データの検索文字列に対する尤度を算出する照合処理手段と、
照合処理手段の結果、尤度の高い順に音声データの候補を出力する出力手段を備えることを特徴とする音声データ検索装置。
音声データを音声認識し、文字化した認識文字列を出力する音声認識処理手段を備え、
前記照合処理手段は接続文字列を検索文字列に接続して、音声データと照合する際に、音声認識処理手段の文字化した認識文字列と、検索文字列を照合することで、認識文字列に対する尤度を算出する構成にされたことを特徴とする請求項１記載の音声データ検索装置。
音声認識結果における音響系列の誤り傾向が予めモデル化された誤り傾向モデルを備え、
前記照合処理手段は、接続文字列を検索文字列に接続して、音声データと照合する際に、音声認識処理手段の文字化した認識文字列と、誤り傾向モデルを用いて検索文字列を照合することを特徴とする請求項２記載の音声データ検索装置。
前記文字入力手段は、検索文字列の属性を指定する属性指定手段を備え、
前記接続文字列生成手段は、指定された属性をもとに、検索文字列の前後に接続する接続文字列を生成する構成にされたことを特徴とする請求項１記載の音声データ検索装置。
前記照合処理手段は、接続文字列を検索文字列に接続して、音声データと照合する際に、文字列の長さに応じて、尤度を正規化する構成にされたことを特徴とする請求項１記載の音声データ検索装置。
前記照合処理手段は、接続文字列を検索文字列に接続して、音声データと照合する際に、検索文字列の尤度と、接続文字列の尤度の重みを調整する構成にされたことを特徴とする請求項１記載の音声データ検索装置。