JP2010277036A - 音声データ検索装置 - Google Patents

音声データ検索装置 Download PDF

Info

Publication number
JP2010277036A
JP2010277036A JP2009132067A JP2009132067A JP2010277036A JP 2010277036 A JP2010277036 A JP 2010277036A JP 2009132067 A JP2009132067 A JP 2009132067A JP 2009132067 A JP2009132067 A JP 2009132067A JP 2010277036 A JP2010277036 A JP 2010277036A
Authority
JP
Japan
Prior art keywords
character string
likelihood
syllable
search
speech data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009132067A
Other languages
English (en)
Inventor
Hirotaka Goi
啓恭 伍井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2009132067A priority Critical patent/JP2010277036A/ja
Publication of JP2010277036A publication Critical patent/JP2010277036A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】従来の音声データ検索は、検索対象の入力単語が比較的短い場合や、音声認識辞書に未登録な未知語の場合、十分な音声認識精度が得られず、音声データ検索も十分な精度が得られない。
【解決手段】入力された検索文字列をもとに、音声データから、検索文字列に対応した所望の音声を検索する音声データ検索装置は、検索文字列を入力する文字入力手段と、前記検索文字列の前後に接続する接続文字列を生成し、検索文字列に接続する接続文字列生成手段と、接続文字列が接続された検索文字列を音声データと照合し、音声データの検索文字列に対する尤度を算出する照合処理手段と、照合処理手段の結果、尤度の高い順に音声データの候補を出力する出力手段を備える。
【選択図】図1

Description

この発明は、音声信号を含むオーディオデータ、またはビデオデータ等のマルチメディアデータを検索する音声検索方法に関し、特に音声認識された認識結果を精度良く検索する装置に関するものである。
現在、多くの企業では、顧客との電話のやりとりにおいて、専門の部門や外部企業に電話応対専門の部門としてコールセンターを置き、業務を行っている。電話のやりとりの内容は、注文受け付けや、問い合わせ対応、及び営業業務など多岐にわたる。コールセンターを設けている多くの企業では、このような電話による業務は、通話録音装置により、通話が録音されている。通話録音された音声は、顧客とのトラブル時のチェック、応対の良い例悪い例を用いたコールセンターオペレータの教育、確認義務事項確認、及び禁忌語チェック等に使われている。
しかし、これらの応対の管理をするためには、従来、通話録音音声を人間が聴いてチェックしなくてはならず、すべての音声を聞くことはコストがかかるという問題があった。
この課題を解決するために、コールセンターにおける通話音声について音声認識技術を用いてテキスト化する技術が提案されている。この技術により、テキストと音声を紐付けし、テキスト中の文字列で、紐付けした音声の検索を容易化することができる。認識結果のテキスト中の文字列を対象として検索を実現することにより、コールセンターの応対発声の中に含まれる顧客名や品番などを検索キーワードとして絞り込み、ピンポイントにモニタリングチェックすることが可能となる。しかしながら、音声認識結果には誤認識が含まれており、検索精度の低下の原因となる。この誤認識をいかに低減するかが、音声データの検索精度を向上するための大きな課題である。
音声認識に関する方法として、従来、非特許文献1〜6にあげる方法が用いられている。以下用いる専門用語はこれらの文献に著される用語を用いるものとする。
従来の音声データ検索方法として、検索対象の音声データを、音声タイプライタにより、音素系列にタグ付けし、タグ付けした音素列をもとに連続DP(Dynamic Programming)マッチングにより検索対象となる音声データの検索を実現する方法が、非特許文献5に記載されている。この手法は、検索対象とする系列を単語等の言語制約により予め決めないため、単語等で構成される辞書を予め用意する必要が無いというメリットがある。しかし、一方、言語的な制約を用いないため、音素系列の付与精度は、単語辞書等の言語制約を用いる場合と比較して低下するという課題がある。特に検索対象が短い音素数の場合には、音素の誤りの影響が、検索精度へ大きく影響する問題がある。
また、従来の音声データ検索方法として、検索対象の音声データを、単語辞書を用いた音声認識により、単語系列にタグ付けし、タグ付けした単語をもとに検索対象となる音声データの検索を実現する方法が用いられる。しかし、前述の音声系列を用いた方法と比較した場合、音声認識精度は高いが、予め、言語制約として単語辞書を用いるため、検索対象として、辞書に無い単語が入力された場合に、著しく精度が低下するという課題がある。この課題を解決する方法の1つとして、特許文献1に記載されている方法がある。この方法は、入力された単語群から、外部データベースを参照することで関連文書集合を得る。この関連文書集合から、拡張単語群を抽出し、新たな検索対象とする単語を抽出追加する方法である。この方法は、外部データベースを知識として検査語彙の拡張を行っているので、一般的に複数の単語を入力した場合の言語制約の改善に有意義である。しかしながら、入力が短い1単語の場合で、認識誤りが及ぼす影響が大きい場合や、入力が未知語の場合に対する処理技術については記載されていない。
さらに、従来の音声データ検索方法として、検索対象の音声データを、単語辞書を持つ音声認識により、単語系列にタグ付けし、タグ付けした単語をもとに検索対象となる音声データの検索を実現する方法の他の例として、特許文献2に記載されている方法がある。この方法は、検索音響系列と音響的な距離が近い単語、または単語列を生成することにより、辞書に登録されていない単語、または単語列でも検索可能にすることで、速度性能についても向上する方法である。例えば、「かねくら」という入力に対応する「金蔵 様 です ね」(かねくらさまですね)のような発話がある場合に、音声認識結果が、「鎌倉 様 です ね」(「かね」を「かま」と誤って認識)のような場合を検索可能にする。
しかし、この方法でも、検索対象が短い単語の場合は、認識誤りの影響が大きく、音声検索に与える影響は大きい。また、この特許文献2に記載の技術では、誤り範囲が拡大してしまう場合、例えば、「えっと 大船 様 です ね」のような発話を、「えっ 豆腐 朝 まで す ね」と誤って認識した場合、単語境界が広範囲に誤るため、検索が困難で、精度は低下してしまう。特に「大船」という姓が音声認識辞書に未登録の場合は、このような現象がよく出現し問題となる。
また、特許文献2には、認識結果の前後の単語を用いて、単語接続の可否による単語テーブルを導入し、検索速度を向上する方法が開示されているが、コールセンター応対の場合には、接続不可の可能性を削除してしまうと、個々の顧客名など出現頻度が低い単語は、精度が低下してしまう課題がある。また、検索対象の入力が未知語である場合には、当然のことながら、事前に単語テーブルを作成できないため、接続の可否は判断できないという課題がある。
特開2004−246824号公報 特開2006−031278号公報
鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著:「音声認識システム」株式会社オーム社,平成13年5月15日(以下教科書1) 北研二、辻井潤一著:「確率的言語モデル」,東京大学出版会、1999年11月25日(以下教科書2) 中川聖一著:「確率モデルによる音声認識」社団法人電子情報通信学会,昭和63年7月1日(以下教科書3) 長尾真著,「自然言語処理」,岩波書店,1996年4月26日(以下教科書4) 岡隆一他著,「音素系列表現を用いた音声およびテキスト検索」,電子情報通信学会技術研究報告,2 0 0 1年,S P 2 0 0 1 - 2 9,2 9 - 3 5頁 阿部他著:「認識誤り傾向の確率モデルを用いた2段階探索法による大語彙連続音声認識」,電子情報通信学会論文誌D-II, VolJ83-D-II No12 ,2000-12, 2545-2553頁
このように、検索対象の入力単語が比較的短い場合や、音声認識辞書に登録されていない未知語の場合には、十分な音声認識精度がえられないため、音声データの検索精度も十分な精度を得ることができなかった。
この発明は、このような課題を解決するためになされたものであり、検索文字列の前後に接続する接続文字列を生成する接続文字列生成手段を設けることで、単語が短単位の場合や、未知語の場合でも精度良く音声データを検索することを可能にする。
この発明に係る音声データ検索装置は、
入力された検索文字列をもとに、音声データから、検索文字列に対応した所望の音声を検索する音声データ検索装置であって、
検索文字列を入力する文字入力手段と、
前記検索文字列の前後に接続する接続文字列を生成し、検索文字列に接続する接続文字列生成手段と、
前記接続文字列が接続された検索文字列を音声データと照合し、音声データの検索文字列に対する尤度を算出する照合処理手段と、
照合処理手段の結果、尤度の高い順に音声データの候補を出力する出力手段を備える。
この発明に係る音声データ検索装置によれば、接続文字列生成手段で検索文字列の前後に接続する接続文字列を生成し、その接続文字列を検索文字列に接続して、照合処理手段で音声データと照合し、音声データの検索文字列に対する尤度を算出して、尤度の高い順に音声データの候補を出力する出力手段を備えるので、単語が短単位の場合や、未知語の場合でも精度良く音声データを検索することを可能にする。
この発明の実施の形態1における音声データ検索装置の構成図である。 入力部のウィンドウインタフェースの一例を示す図である。 接続表現リスト、及び音声認識辞書の生成装置の構成図である。 接続表現リストの内容例を示す説明図である。 音節誤りモデルの生成装置の構成図である。 音節誤りモデルの内容例を示す説明図である。 照合処理部の照合処理手順と尤度計算の処理過程についての概略フロー図である。 照合処理部の尤度計算手順の照合サブルーチンの概略フロー図である。 音声認識処理部で、音声データを認識した認識音節列の例を示す図である。 実施の形態2による照合処理部の動作説明用の認識音節列例を示す図である。 実施の形態3による照合処理部の動作説明用の認識音節列例を示す図である。 予め計算された音節誤りモデルに対応した対数尤度その1を示す図である。 予め計算された音節誤りモデルに対応した対数尤度その2を示す図である。
実施の形態1.
図1は、この発明の実施の形態1における音声データ検索装置の構成図を示し、以下に説明する。音声データ検索装置は、検索読み文字列、属性値を入力する入力部101と、検索読み文字列を音節系列に変換する音響系列変換部102と、接続表現リスト103を読み込み、前後接続候補を生成する前後接続候補生成部104と、音節の誤り傾向を統計量としてモデル化した音節誤りモデル105と、検索対象となる音声データ107を入力とし、音声認識辞書109を参照して、音声認識結果として認識音節列110を出力する音声認識処理部108と、音節誤りモデル105と、認識音節列110を読み込み、照合して尤度を算出する照合処理部106と、照合処理の結果、尤度の高い順に候補を出力する出力部111により検索結果を出力する構成である。
上記のように構成された音声データ検索装置の動作について説明する。
入力部101は、検索読み文字列と属性値を入力する装置である。図2は、入力部101のウィンドウインタフェースの一例について示したものである。検索入力ウィンドウに、読み文字列の入力項目と、属性値例として「顧客名」、「住所」、「その他」等のカテゴリ指定項目があり、ユーザが指定可能に構成してある。この例では、「おおふな」(姓の「大船」)の読みが、顧客名であることが指定されている。このように構成されたインタフェースから、読み文字列と、属性値を指定する。
音響系列変換部102は、入力された読み文字列を、音響系列である音素列や、音節列などに変換する。ここでは、入力読み文字列を、音節列に変換する。「おおふな」という読み文字列は、「o,o,hu,na」という音節列に変換される。(ここで“,”は音節のセパレータを表す。)
接続表現リスト103は、各カテゴリの単語に共起して接続しやすい接続表現を集めたリストである。この生成方法の詳細については図3、図4を参照して後述する。この、接続表現リストは、単語の前接続形態素列と、後接続形態素列の接続表現を記憶したものである。
前後接続候補生成部104は、入力された属性値から、接続表現リスト103を参照し、検索音節列の前後に連接する音響系列を接続生成する装置である。例えば、顧客名「大船」の後方には、後接表現として「sa,N,de,sjo,o,ka」(「さんでしょうか」の音節列)や「sa,ma,de,su,ne」(「様ですね」の音節列)が連接しやすいということを、接続表現リスト103から読み出して、検索音節列と接続した候補を生成する。
音節誤りモデル105は、後述する音声認識処理部108の音声認識の誤り傾向を音節単位でモデル化したものである。このモデルの生成方法の詳細については図5、図6を参照して後述する。
音声データ107は、検索対象となる、コールセンターの応対通話を予め収集した音声ストリームデータである。
音声認識辞書109は、教科書で開示されている技術を用いて生成された単語N-gramモデルを用いて生成した音声認識用の言語モデルである。この生成方法の詳細については図3を参照して後述する。
音声認識処理部108は、音声データ107を読み込み、教科書に開示されている技術を用いて音声認識辞書109を参照しながら、読み込んだ音声データ107を認識し、その結果を認識音節列として出力する。
認識音節列110は、音声認識処理部108により、音声データ107を認識した結果である。例えば、「えー大船 様 ですね」という発声の正解音節列は、「e,e,o,o,hu,na,sa,ma,de,su,ne」であるが、認識結果は、未登録語や、性能限界から誤りを含んだ「e,e,o,hu,a,sa,ma,de,su,ne」(「えー オフ 朝 まで す ね」)などといった音節列となる。この認識音節列の例を図9に示す。認識音節列は、音声データ中の一定の長さ以上の無音区間を区切りとした発話を単位として、図のように、発話の順番を示す発話番号、認識音節列を音声データの位置と紐付けるための音声データ中の発話先頭時間の位置を示す発話ID(identification)と組で記録されている。認識音節列110は、このような音節列である。
照合処理部106は、前後接続候補生成部104で生成された前後接続候補音節列と、音節誤りモデル105および認識音節列110と照合し、認識音節列110に対応した各発話IDの示す音声データの位置の尤度として計算し、これを尤度順に記憶する。
出力部111は、尤度順に記憶された発話IDの対応部分から、尤度の高い順に発話IDの示す位置から音声データを候補として出力する。
図3は、接続表現リスト103、及び音声認識辞書109の生成装置の構成図を示し、以下に説明する。学習音声データ1、202を聞いて人手で書き起したテキストを入力する書き起し処理部201と、書き起し処理部201からの書き起しテキストを入力して、形態素解析辞書204を参照しつつ、書き起しテキストを形態素解析する形態素解析部203と、形態素解析結果の誤りを人手で修正する修正処理部205と、修正した結果であるタグ付コーパス1、206と、タグ付コーパス1、206を読み込み、転置索引を作成する転置索引生成部207と、転置索引から接続表現の尤度を計算し、尤度計算の結果、閾値以上の表現を集め、接続表現リスト103に出力する尤度計算部208を備える。
また、音声認識辞書生成部210を備え、音声認識辞書生成部210が、タグ付コーパス1、206を読み込み、音声認識辞書109を生成する。音声認識辞書109は、教科書に記された技術により言語モデルをとして構成する。特に、形態素タグ付きのコーパスから、n-gramモデルとして生成する。
学習音声データ1、202は、音声データ検索のターゲットとするコールセンターの応対通話を予め収集した音声ストリームデータである。この学習音声データ1、202を書き起し作業者が聞いて、テキストに書き起すインタフェースが書き起し処理部201である。例えば、「えっとおーふなさまですね」といった音声を「えっと、大船様ですね」といった電子化テキストデータにして入力する。
形態素解析部203は、教科書にあるような手法により、書き起しテキストを形態素に変換する。例えば、「大船様ですね」は、「大船+顧客名+o,o,hu,na 様+接尾辞+sa,ma です+助動詞+de,su ね+助詞+ne」という形態素列に変換される。(ここで、“ ”は形態素のセパレータ、“+”は項目のセパレータ、“,”は音節のセパレータである。)各形態素には、表記、属性、及び読み音節列の順で要素データが記憶されている。ここで、属性とは、教科書にある品詞を意味ごとに細分化したカテゴリである。
修正処理部205は、形態素解析の結果、誤りの部分を人手チェックにより修正を可能にする入力インタフェース部分である。形態素解析の結果、形態素の区切り誤りや、読みの付与誤りを生じた場合に、ここで修正を行い正解の形態素列を入力することができる。
タグ付コーパス1、206は、修正の結果、形態素に分割タグ付されたコーパスを記憶したものである。
転置索引生成部207は、タグ付コーパスのうちカテゴリの付与された単語の前接続形態素列と、後接続形態素列をそれぞれ抽出するものである。
尤度計算部208は、式1により、単語の前接続形態素列と、後接続形態素列のそれぞれの尤度L(c,p)を計算し、この尤度がある閾値以上の形態素列を出力するものである。このとき、cは検索対象のカテゴリ、pは前接、または後接の表現である。
Figure 2010277036
このとき、相互情報量はM(c,p)は、式2により定義されるから、
Figure 2010277036
式1は式3のように変形できる。つまり、カテゴリcが出現するときのpの条件付き接続確率が高く、かつcとpの相互情報量の高い表現を選ぶことを意味する。
Figure 2010277036
接続表現リスト103は、このようにして、尤度計算部208の尤度計算により出力された単語の前接続形態素列と、後接続形態素列の接続表現と、その接続尤度(本実施の形態では、logP(p|c))を記憶したものである。具体例を図4に示す。本実施の形態では、L(c,p)の値が3以上の場合の表記と接続なしの場合について処理することで処理を制限する。つまり「さん」「さま」「」を処理する。
図5は、音節誤りモデル105の生成装置の構成図を示し、以下に説明する。学習音声データ2、301を人間が聞いてテキストを書き起し、テキストを入力する書き起し処理部201と、学習音声データ2、301を入力して、音声認識辞書109を参照しつつ、学習用認識音節列302を出力する音声認識処理部108と、書き起しテキストを入力して、形態素解析辞書204を参照しつつ、書き起しテキストを形態素解析する形態素解析部203と、形態素解析結果の誤りを人手で修正する修正処理部205と、修正した結果であるタグ付コーパス2、303と、タグ付コーパス2、303を読み込み、正解音節列305を抽出する音節列抽出処理部304と、正解音節列305と、学習用認識音節列302から音節誤りモデル105を生成する照合計算処理306で構成される。
学習音声データ2、301は、音声データ検索のターゲットとするコールセンターの応対通話を予め収集した音声ストリームデータであるが、図3の学習音声データ1、202とは異なるオープンな音声データである。以下、書き起し処理部201、形態素解析部203、修正処理部205は、図3と同様の構成要素であり、説明を省略する。
学習用認識音節列302は、図1と同様に、音声認識処理部108により学習音声データ2、301を読み込み、教科書に開示されている技術を用いて音声認識辞書109を参照しながら、学習音声データ2、301を認識し、その結果が認識音節列として出力されたものである。
タグ付コーパス2、303は、修正処理部205で人手による修正の結果、形態素に分割タグ付されたコーパスを記憶したもので、図3のタグ付コーパス1、206とは、形式は同一であるが、異なるセットである。
音節列抽出処理304は、タグ付コーパス2、303から正解の音節列である正解音節列305を抽出する。正解音節列305は、音節誤りモデル105を作成するために抽出された、学習音声データ2、301の音声に対応した正解の音節列である。
照合計算処理部306は、正解音節列305と、学習用認識音節列302とを比較し、音節誤りモデル105を生成する。このとき、従来技術文献6に開示されている差分モデルを用いる。従来技術文献6と異なる点は、学習用認識音節列302が、言語モデルとしてn-gramモデルを適用した認識結果であり、n-gramモデルの制約を含めた誤り傾向を音節誤りモデルが学習することにある。
音節誤りモデル105は、このようにして、学習された音節の誤り傾向をモデル化したものである。具体例を図6に示す。
次に、図1に示す照合処理部106の照合処理手順と尤度計算の詳細過程について、図7の概略フローを参照し、具体例をもとに説明する。
まず、前後接続候補生成部104より前後接続候補音節列を読み込み、処理開始をする。例えば、「おおふな」が「顧客名」で検索入力された場合、前後接続候補音節列として、下記のような音節列が読み込まれる。ここでは、説明の簡略化のために後接の例で説明するが、実際には、前接続との組み合わせで処理される。(ST5001)
「o,o,hu,na,sa,ma」
「o,o,hu,na,sa,N」
「o,o,hu,na」
次に、すべての前後音節候補音節列について処理したかチェックし、未処理があればST5003へ処理を移す。未処理がなければ処理をST5009へ移す。(ST5002)
次に、前後音節候補音節列について未処理があれば、前後接続候補音節列を1つ選択して処理対象とする。ここでは、「o,o,hu,na,sa,ma」が処理対象となったとする。(ST5003)
次に、認識音節列全体を最初から読み込む。認識音節列110は、図9に示された、一定の無音区間を区切りとした発話の単位として音節列として読み込む。各発話には、発話時間に対応した発話ID(identification)が付与されている。(ST5004)
次に、すべての認識音節列110について処理したかチェックし、未処理があればST5006へ処理を移し、未処理がなければ処理をST5002へ移す。(ST5005)
次に、認識音節列全体から、処理していない認識音節列を読み込む。ここでは、「e,e,o,hu,a,sa,ma,de,su,ne」(「えー オフ 朝 まで す ね」の音節列)が読み込まれたとする。(ST5006)
次に、処理対象とした、発話ID、前後音節候補音節列と、認識音節列をRAM(random access memory)に記憶するとともに尤度を初期化(0を代入する)し、照合サブルーチンをコールする。照合サブルーチンでは、RAMに記憶された前後音節候補音節列と、認識音節列110を照合し、最大の照合尤度と照合位置をRAMに記憶する。サブルーチンの処理の詳細については、図8で後述する。(ST5007)
次に、RAMに記憶された発話ID、尤度の組を取り出し、尤度順に並べて発話IDごと別のRAM領域に記憶する。この例では、前後音節候補音節列「o,o,hu,na,sa,ma」と認識音節列「e,e,o,hu,a,sa,ma,de,su,ne」が、 o/ o/o hu/hu na/a sa/sa ma/maの対応のとき最大尤度となる。この尤度計算については詳細を後述する。(ST5008)
処理を終了する。(ST5009)
次に、照合サブルーチン(ST5007)の尤度計算手順の詳細過程について、図8の概略フローと、具体例をもとに説明する。
まず、前後接続候補音節列と認識音節列を読み込み処理を開始する。ここでは、前後音節候補音節列「o,o,hu,na,sa,ma」と認識音節列「e,e,o,hu,a,sa,ma,de,su,ne」が読み込まれる。(ST6001)
次に、前後接続候補音節列のすべての音節を照合したかチェックする。具体的には、前後接続候補音節列がヌルストリングであれば、処理をST6003へ移す。ヌルストリングでなければST6004へ処理を移す。(ST6002)
前後接続候補音節列がヌルストリングであれば尤度を計算し、RAMに記憶した最大値と比較する。最大値よりも計算した尤度が大きい場合に、発話IDと、尤度、照合位置を記憶する。ここでは、最初にo/ o/ hu/ na/ sa/ ma/のすべて削除の場合がマッチし、後述する計算により尤度は45.66となる。RAMの最大尤度値は初期化されて0であるので、新しい発話IDと、尤度、照合位置を記憶する。(ST6003)
次に、前後接続候補音節列がヌルストリングでなければ、前後接続候補音節列の先頭音節を正解音節として取り出す。ここでは、「o,o,hu,na,sa,ma」の「o」が取り出される。(ST6004)
次に、認識音節列110の先頭音節列を入力音節として取り出す。入力音節は誤りのある可能性を考慮した音節列であるので、挿入や削除を考慮して音節数を変化させる。ここでは、「e,e,o,hu,a,sa,ma,de,su,ne」の先頭0音節(ヌルストリング)から2音節までを対象とする。従って、「e,e」「e」「」の3つが入力音節の対象として取り出される。(ST6005)
次に、音節誤りモデル105を参照し、正解音節列305、及び入力音節列に対応する値があるかチェックする。ある場合は処理をST6007に移す。無い場合には、処理をST6011に移す。ここでは、正解音節列「o」と入力音節列「e,e」の「o/e,e」で音節誤りモデル105を参照し、これがないため、処理は、ST6011に移る。(ST6006)
次に、すべての入力音節を処理したかチェックし、処理した場合には、処理をST6012に移す。未処理の入力音節がある場合には、処理をST6006に移す。ここでは、「e」「」の2つの音節の処理が残されているため、処理がST6006に移される。(ST6011)
次に、ST6006で「e」について前述の処理が行われ、正解音節列「o」と入力音節列「e」の「o/e」で音節誤りモデル105を参照し、これが存在するため、処理は、ST6007に移る。(ST6006)
次に、一致部分に対応した尤度を計算して、尤度に累積加算する。尤度は式4により計算される。このとき、Lp(X,Y)は一致音節部分の部分尤度、Xは入力音節列、Yは正解音節列、P(X|Y)は音節誤りモデルに記憶された混同確率、fは尤度の累積値が、単純増加関数になるように、尤度を正の値に設定してフロアリングするのための固定値12.0である。この例では、Lp(X,Y) = log P(X|Y)+ f =log(6.03522e-05)+12.0 = -9.72 + 12.0 = 2.28となる。(ST6007)
本実施の形態では、この音節誤りモデル105に対応した計算を事前に行った図12、図13の対数尤度表を用いて処理を行う。(以下、対数尤度は簡単のため小数点3位以下を切り捨てる。)
Figure 2010277036
次に、前後接続候補音節列と認識音節列110の先頭から、音節誤りモデル105に一致した音節列を取り除き、新たな前後接続候補音節列と認識音節列110として設定する。(ST6008)
次に、照合サブルーチン(このサブルーチン)を再帰コールする。(ST6009)
次に、前後接続候補音節列と認識音節列の先頭から一時的に取り除いた、音節列を元に戻し、前後接続候補音節列と認識音節列として再設定する。(ST6010)
次に、ST6011において前述の同様の処理を繰り返す。(ST6011)
次に、処理を終了して呼び出しモジュールにRETURNする。(ST6012)
このように処理することで、前後接続候補音節列と認識音節列のうち、式5に示す累積尤度の最も高い位置を求めることができる。このとき、lは正解音節数、Xi+lはi番目音節以降のl番目の入力音節列、Ylはl番目の正解音節列、Lp(Xi+l,Yl)は一致音節部分の部分尤度、Lwは最大の累積尤度である。この例では、前後音節候補音節列「o,o,hu,na,sa,ma」と認識音節列「e,e,o,hu,a,sa,ma,de,su,ne」が、 o/ o/o hu/hu na/a sa/sa ma/maの対応のとき
最大尤度=Lp(NULL,o)+Lp(o,o)+Lp(hu,hu)+Lp(a,na)+Lp(sa,sa)+Lp(ma,ma)
=9.48+11.85+11.87+7.21+11.92+11.9 = 64.23
となる。
Figure 2010277036
ST5003で「o,o,hu,na,sa,ma」、「o,o,hu,na,sa,N」、「o,o,hu,na」がそれぞれ前後接続候補音節列の候補対象となり、さらにこの中の最大尤度が式6により求められる。このとき、cは属性カテゴリ、pnは前接または後接表現、P(pn|c)は前後接続候補音節列の属性カテゴリとの連接確率で、接続表現リスト103に対数尤度が記憶されている値である。Lwnは前後接続候補音節列nに対応する累積尤度である。
「o,o,hu,na,sa,N」に対する最大尤度はo/ o/o hu/hu na/a sa/sa ma/Nの対応のとき57.33となり、「o,o,hu,na」の最大尤度は、o/ o/o hu/hu na/aのときに40.41となる。
同様にして図9に示す発話番号2の発話「oohunaekidesune」(「大船駅ですね」の音節列)についても同様に処理を行う。発話番号2の最大尤度は、o/o o/o hu/hu na/naのときに47.41であり、駅名である「大船駅ですね」の尤度より、音節の認識誤りを含んでいるが「えーオフ朝まですね」の尤度を高く計算でき、正しい認識音節列の尤度を高くできる。
Figure 2010277036
このように検索入力を「顧客名」に共起しやすい接続リストで前後接続候補音節列に拡張するという特徴的な処理により、「おおふな」が「顧客名」で検索入力され、認識音節列が「e,e,o,hu,a,sa,ma,de,su,ne」(「えー オフ 朝 まで す ね」の音節列)であった場合に、o/ o/o hu/hu na/a sa/sa ma/maの対応のとき最大尤度となり、この発話ID、尤度が検索結果の第一候補として記憶されるという効果を奏する。
上述のように処理を構成することで、入力された所望の音節列と、属性値として顧客名に対応した検索結果として、駅名などの発話IDの候補の尤度の順位を下げて発話IDが検索できる。
実施の形態2.
実施の形態1では、照合処理部106において、前後接続候補音節列の個々の音節においてフロアリング値与えることにより、属性に合致する接続表現の長いものを優先するよう構成されていた。しかながら、このような構成であると、接続表現が著しく長い場合に、入力読み文字列の尤度が相対的に低い評価になってしまう。これを解決するために、実施の形態2においては、算出された尤度を前後接続候補音節列の音節の長さ+1の値で除算することにより正規化するものである。
具体的な例を図10の認識音節列で説明する。実施の形態1と異なるのは、発話番号1の認識音節列が、「eeoohunasama」(「えー大船様」)であることと、発話番号3に「gokuroosamadesune」(「ご苦労様ですね」)が加えれていること、また、後接表現として「さまですね」を採用し、前後接続候補音節列を「o,o,hu,na,sa,ma,de,su,ne」、「o,o,hu,na,sa,ma」、「o,o,hu,na,sa,N」、「o,o,hu,na」の4つを前後接続候補音節列として処理する場合とする。実施の形態1と同様に処理した場合、前後音節候補音節列「o,o,hu,na,sa,ma,de,su,ne」と認識音節列「go,ku,ro,o,sa,ma,de,su,ne」が、 o/ o/ hu/ na/ sa/sa ma/ma de/de su/su ne/neの対応のとき
最大尤度=Lp(NULL,o)+Lp(NULL,o)+Lp(NULL,hu)+Lp(NULL,na) +Lp(sa,sa)+Lp(ma,ma)
+Lp(de,de)+Lp(su,su)+Lp(ne,ne)
=9.48+9.48+8.61+6.86+11.92+11.9+11.82+11.83+11.86 = 93.76
となり、誤った認識音節列の尤度が高くなってしまう。
本実施の形態では、照合処理部106で前後接続候補音節列の音節の長さ+1で除算して後接表現の長さによる尤度追加分を正規化することで、前後接続候補音節列「o,o,hu,na,sa,ma」と認識音節列「e,e,o,o,hu,na,sa,ma」が、 o/o o/o hu/hu na/a sa/sa ma/maの対応のとき
最大尤度=(Lp(o,o)+Lp(o,o)+Lp(hu,hu)+Lp(na,na)+Lp(sa,sa)+Lp(ma,ma)) ÷7
=(11.85+11.85+11.87+11.84+11.92+11.9)÷7 = 71.23÷7 = 10.17
となる。
ちなみに、前述の実施の形態1で第1位となる前後接続候補音節列は音節数9で除算されるため尤度は、93.76÷10 = 9.37 よって、「えー大船様」の尤度を高く設定できることとなる。
このようにして、前後接続候補音節列を照合処理部106で音節数で除算して正規化するという特徴的な処理により、接続表現が著しく長い場合でも、尤度のバランスをとることができ、正しい認識音節列の尤度を高めるという効果を奏する。具体的には式5を以下の式7で計算する。
Figure 2010277036
実施の形態3.
実施の形態1では、照合処理部106において、前後接続候補音節列の個々の音節においてフロアリング値与えることにより、属性に合致する接続表現の長いものを優先するよう構成されていた。しかながら、このような構成であると、接続表現が短い場合に、入力読み文字列の尤度が相対的に高い評価になってしまう。また、属性を優先して捜したい場合に対応できない。これを解決するために、実施の形態3においては、前後接続候補音節列の尤度を重み付けすることにより尤度のバランスをとるものである。
具体的な例を図11の認識音節列で説明する。実施の形態1と異なるのは、発話番号2の認識音節列が、「oohunamaci」(「大船町」)であることである。
実施の形態1と同様に処理した場合、
前後音節候補音節列「o,o,hu,na,sa,ma」と認識音節列「o,o,hu,na,ma,ci」が、 o/o o/o hu/hu na/na sa/ ma/maの対応のとき
最大尤度=Lp(o,o)+Lp(o,o)+Lp(hu,hu)+Lp(na,na) +Lp(NULL,sa)+Lp(ma,ma)
=11.85+11.85+11.87+11.84+5.38+11.9 = 64.69
となり、実施の形態1の正解の64.23より高くなり誤った認識音節列の尤度が高くなってしまう。
本実施の形態では、照合処理部106で前後接続候補音節列を前接表現、及び後接表現の部分と、それ以外の部分に分離してλで重みを尤度に加えることにより、前接表現、及び後接表現とそれ以外の部分に尤度重みを加える。
本実施の形態では、λ=0.25とする。すると、前後接続候補音節列「o,o,hu,na,sa,ma」と認識音節列「e,e,o,hu,a,sa,ma,de,su,ne」が、 o/ o/o hu/hu na/a sa/sa ma/maの対応のとき
最大尤度=(Lp(NULL,o)+Lp(o,o)+Lp(hu,hu)+Lp(a,na))×0.25
+(Lp(sa,sa)+Lp(ma,ma))) × 0.75
= (9.48+11.85+11.87+7.21) ×0.25 +(11.92+11.9) ×0.75
= 40.41×0.25 + 23.82×0.75 = 10.10 + 17.86 = 27.96
となる。
ちなみに、前述の実施の形態1で第1位となる前後接続候補音節列「o,o,hu,na,ma,ci」の
尤度 = (Lp(o,o)+Lp(o,o)+Lp(hu,hu)+Lp(a,na))×0.25
+(Lp(NULL,sa)+Lp(ma,ma))) × 0.75
=(11.85+11.85+11.87+11.84)×0.25+(5.38+11.9)×0.75
= 11.85+12.96 = 24.81
よって、正しい属性「顧客名」である「えーオフ朝まです」の尤度を高く設定できる。
このようにして、前後接続候補音節列を前接表現、及び後接表現の部分と、それ以外の部分に分離してλで重みを尤度に加えるという特徴的な処理により、接続表現が短い場合や、属性を優先したい場合でも、正しい認識音節列の尤度を高めるという効果を奏する。具体的には式5を以下の式8で計算する。このとき、l1は正解音節数、l2は後接表現に対応する音節列の音節数、λは重み係数である。
Figure 2010277036
この発明は、顧客との電話のやりとりを専門に行う部門としての企業等におけるコールセンター等で、通話録音装置に録音された音声を、顧客とのトラブル時のチェック、応対の良い例悪い例を用いたコールセンターオペレータの教育、確認義務事項の確認、禁忌語チェック等に使われる際の音声データ検索に適用される可能性がある。
101;入力部、102;音響系列変換部、103;接続表現リスト、104;前後接続候補生成部、105;音節誤りモデル、106;照合処理部、107;音声データ、108;音声認識処理部、109;音声認識辞書、110;認識音節列、111;出力部
201;書き起し処理部、202;学習音声データ1、203;形態素解析部、204;形態素解析辞書、205;修正処理部、206;タグ付コーパス、207;転置索引生成部、208;尤度計算部、210;音声認識辞書生成部、301;学習音声データ2、302;学習用認識音節列、303;タグ付コーパス2、304;音節列抽出処理部、305;正解音節列、306;照合計算処理部。

Claims (6)

  1. 入力された検索文字列をもとに、音声データから、検索文字列に対応した所望の音声を検索する音声データ検索装置であって、
    検索文字列を入力する文字入力手段と、
    前記検索文字列の前後に接続する接続文字列を生成し、検索文字列に接続する接続文字列生成手段と、
    前記接続文字列が接続された検索文字列を音声データと照合し、音声データの検索文字列に対する尤度を算出する照合処理手段と、
    照合処理手段の結果、尤度の高い順に音声データの候補を出力する出力手段を備えることを特徴とする音声データ検索装置。
  2. 音声データを音声認識し、文字化した認識文字列を出力する音声認識処理手段を備え、
    前記照合処理手段は接続文字列を検索文字列に接続して、音声データと照合する際に、音声認識処理手段の文字化した認識文字列と、検索文字列を照合することで、認識文字列に対する尤度を算出する構成にされたことを特徴とする請求項1記載の音声データ検索装置。
  3. 音声認識結果における音響系列の誤り傾向が予めモデル化された誤り傾向モデルを備え、
    前記照合処理手段は、接続文字列を検索文字列に接続して、音声データと照合する際に、音声認識処理手段の文字化した認識文字列と、誤り傾向モデルを用いて検索文字列を照合することを特徴とする請求項2記載の音声データ検索装置。
  4. 前記文字入力手段は、検索文字列の属性を指定する属性指定手段を備え、
    前記接続文字列生成手段は、指定された属性をもとに、検索文字列の前後に接続する接続文字列を生成する構成にされたことを特徴とする請求項1記載の音声データ検索装置。
  5. 前記照合処理手段は、接続文字列を検索文字列に接続して、音声データと照合する際に、文字列の長さに応じて、尤度を正規化する構成にされたことを特徴とする請求項1記載の音声データ検索装置。
  6. 前記照合処理手段は、接続文字列を検索文字列に接続して、音声データと照合する際に、検索文字列の尤度と、接続文字列の尤度の重みを調整する構成にされたことを特徴とする請求項1記載の音声データ検索装置。
JP2009132067A 2009-06-01 2009-06-01 音声データ検索装置 Pending JP2010277036A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009132067A JP2010277036A (ja) 2009-06-01 2009-06-01 音声データ検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009132067A JP2010277036A (ja) 2009-06-01 2009-06-01 音声データ検索装置

Publications (1)

Publication Number Publication Date
JP2010277036A true JP2010277036A (ja) 2010-12-09

Family

ID=43424022

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009132067A Pending JP2010277036A (ja) 2009-06-01 2009-06-01 音声データ検索装置

Country Status (1)

Country Link
JP (1) JP2010277036A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014033855A1 (ja) * 2012-08-29 2014-03-06 株式会社日立製作所 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
JP2015138141A (ja) * 2014-01-22 2015-07-30 富士通株式会社 頻度算出装置、方法、及びプログラム
JP2016192714A (ja) * 2015-03-31 2016-11-10 株式会社日立ハイテクフィールディング コールセンターシステム
US9824143B2 (en) 2011-07-11 2017-11-21 Sony Corporation Apparatus, method and program to facilitate retrieval of voice messages

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10240755A (ja) * 1997-02-26 1998-09-11 Matsushita Electric Ind Co Ltd 情報検索装置
JPH117292A (ja) * 1997-06-16 1999-01-12 Nec Corp 音声認識装置
JP2002149188A (ja) * 2000-11-15 2002-05-24 Sony Corp 自然言語処理装置および自然言語処理方法、並びに記録媒体
JP2004004354A (ja) * 2002-05-31 2004-01-08 Mitsubishi Electric Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2006058899A (ja) * 2004-08-23 2006-03-02 At & T Corp 発話検索のためのラティス・ベースの検索システムおよび方法
WO2008150003A1 (ja) * 2007-06-06 2008-12-11 Nec Corporation キーワード抽出モデル学習システム、方法およびプログラム
JP2009139862A (ja) * 2007-12-10 2009-06-25 Fujitsu Ltd 音声認識装置及びコンピュータプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10240755A (ja) * 1997-02-26 1998-09-11 Matsushita Electric Ind Co Ltd 情報検索装置
JPH117292A (ja) * 1997-06-16 1999-01-12 Nec Corp 音声認識装置
JP2002149188A (ja) * 2000-11-15 2002-05-24 Sony Corp 自然言語処理装置および自然言語処理方法、並びに記録媒体
JP2004004354A (ja) * 2002-05-31 2004-01-08 Mitsubishi Electric Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2006058899A (ja) * 2004-08-23 2006-03-02 At & T Corp 発話検索のためのラティス・ベースの検索システムおよび方法
WO2008150003A1 (ja) * 2007-06-06 2008-12-11 Nec Corporation キーワード抽出モデル学習システム、方法およびプログラム
JP2009139862A (ja) * 2007-12-10 2009-06-25 Fujitsu Ltd 音声認識装置及びコンピュータプログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200201355005; 阿部 芳春: '認識誤り傾向の確率モデルを用いた2段階探索法による大語彙連続音声認識' 電子情報通信学会論文誌 (J83-D-II) 第12号 , 2000, p.2545-2553, 社団法人電子情報通信学会 *
CSNG200300250004; 岡 隆一: '音素系列表現を用いた音声およびテキスト検索' 電子情報通信学会技術研究報告 Vol.101 No.155 p.29-35, 社団法人電子情報通信学会 *
JPN6013000487; 岡 隆一: '音素系列表現を用いた音声およびテキスト検索' 電子情報通信学会技術研究報告 Vol.101 No.155 p.29-35, 社団法人電子情報通信学会 *
JPN6013000488; 阿部 芳春: '認識誤り傾向の確率モデルを用いた2段階探索法による大語彙連続音声認識' 電子情報通信学会論文誌 (J83-D-II) 第12号 , 2000, p.2545-2553, 社団法人電子情報通信学会 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9824143B2 (en) 2011-07-11 2017-11-21 Sony Corporation Apparatus, method and program to facilitate retrieval of voice messages
WO2014033855A1 (ja) * 2012-08-29 2014-03-06 株式会社日立製作所 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
JP5897718B2 (ja) * 2012-08-29 2016-03-30 株式会社日立製作所 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
JP2015138141A (ja) * 2014-01-22 2015-07-30 富士通株式会社 頻度算出装置、方法、及びプログラム
JP2016192714A (ja) * 2015-03-31 2016-11-10 株式会社日立ハイテクフィールディング コールセンターシステム

Similar Documents

Publication Publication Date Title
US10176804B2 (en) Analyzing textual data
Le et al. Automatic speech recognition for under-resourced languages: application to Vietnamese language
US7289950B2 (en) Extended finite state grammar for speech recognition systems
US8954333B2 (en) Apparatus, method, and computer program product for processing input speech
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US8321218B2 (en) Searching in audio speech
JP5440177B2 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US9978364B2 (en) Pronunciation accuracy in speech recognition
JP2003036093A (ja) 音声入力検索システム
WO2019049089A1 (en) METHOD, SYSTEM AND APPARATUS FOR SEARCHING MULTILINGUAL AND MULTIMODAL KEYWORDS IN A MULTILINGUAL ORAL CORPUS
CN104750677A (zh) 语音传译装置、语音传译方法及语音传译程序
JP5073024B2 (ja) 音声対話装置
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
JP2010277036A (ja) 音声データ検索装置
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Hori et al. Deriving disambiguous queries in a spoken interactive ODQA system
KR101424496B1 (ko) 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP5590549B2 (ja) 音声検索装置および音声検索方法
JP2003308094A (ja) 音声認識における認識誤り箇所の訂正方法
Praveen et al. Phoneme based Kannada Speech Corpus for Automatic Speech Recognition System
Pranjol et al. Bengali speech recognition: An overview
JP2005208483A (ja) 音声認識装置、音声認識プログラム、言語モデル生成方法、及び言語モデル生成装置
Pandey et al. Development and suitability of indian languages speech database for building watson based asr system
JP2001188556A (ja) 音声認識方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120123

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130115

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130528