JP6019604B2

JP6019604B2 - 音声認識装置、音声認識方法、及びプログラム

Info

Publication number: JP6019604B2
Application number: JP2012029207A
Authority: JP
Inventors: 敦典坂井
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-02-14
Filing date: 2012-02-14
Publication date: 2016-11-02
Anticipated expiration: 2032-02-14
Also published as: JP2013167666A; US20130211822A1; US9142211B2

Description

本発明は、入力された音声に対して音声認識を実行するための音声認識装置及び音声認識方法に関し、更には、これらを実現するためのプログラムに関する。

従来から、音声認識においては、言語モデルと呼ばれる音声認識用の辞書が用いられる。また、音声認識の認識精度は、現状、辞書の作成に用いられる学習テキストの母数を大きくしていくと相対的に下がっていく傾向にある。従って、どんな言葉でも認識可能な汎用的な辞書はなく、辞書が適用される領域はある程度限定されており、言語モデルは、分野を絞って作成及び利用されている。

そして、このような状況下で認識精度の向上を図るため、特許文献１〜３は、複数の言語モデルを用いて音声認識を行なう技術を開示している。

例えば、特許文献１に開示された技術では、まず、言語モデルに特定の話題の例文を追加することによって複数の言語モデルが作成される。次に、複数の言語モデルを用いて音声認識が行なわれ、その後、各認識結果の中から、尤もらしい認識結果が選択される。

また、特許文献２に開示された技術では、まず、学習用テキストデータに対して木構造クラスタリングが行なわれ、学習用テキストデータは、クラスタ毎に言語的に類似した性質を持つように複数のクラスタに分割される。次に、クラスタ別に言語モデルが作成され、各言語モデルによって音声認識が行なわれ、その後、最も尤度が高い単語列（認識結果）が出力される。

更に、特許文献３に開示された技術では、まず、異なる複数の言語モデルを使用して音声認識が行なわれ、発話単位で発話単位信頼度が算出される。次に、発話単位信頼度が最も高い認識結果が選択され、選択された認識結果が出力される。

特開２００１−１００７８３号公報特開２００２−０９１４８４号公報特開２０１０−１７０１３７号公報

しかしながら、上記特許文献１に開示された技術及び上記特許文献２に開示された技術では、前もって分野が分かっている音声に対してしか有用でないという問題がある。このため、入力音声の分野が分からない場合は、人が、予め音声を聞いて分野を確認して、対応する分野の言語モデル又は学習用テキストデータを用意する必要がある。また、分野の異なる音声ファイルが大量にある場合に、これらの音声認識をバッチ処理で実施するためには、前もって分野別に音声ファイルを分類し、その後、対応する各言語モデルを用意する必要がある。

一方、特許文献３に開示された技術では、できるだけ多くの言語モデルを用意すれば、前もって分野が分かっていない音声に対しても対応できると考えられるが、言語モデルの数が増えれば増えるほど、同時に動作させる音声認識エンジンの数が増加してしまう。この結果、音声認識時にシステムにかかる処理負担が増加しすぎる可能性がある。

上述したこれらの問題は、入力音声の分野を自動的に判別し、適切な分野の言語モデルを選択すれば、解決できると考えられるが、入力音声の分野を自動的に判別する技術は存在していないのが現実である。

本発明の目的の一例は、上記問題を解消し、処理負担の増加を抑制しつつ、入力された音声に対して関連する分野の判別を実行し得る、音声認識装置、音声認識方法、及びプログラムを提供することにある。

上記目的を達成するため、本発明の一側面における音声認識装置は、複数の分野それぞれ毎の言語モデルを生成するための、前記分野毎の学習テキストの中から、前記分野毎に、出現頻度が設定条件を満たした単語を含む文を選択し、選択した前記文を用いて、入力された音声の分野を判別するための判別用言語モデルを生成する、判別用言語モデル作成部と、
前記判別用言語モデルを用いて、入力された音声に対して音声認識を実行し、認識結果として、テキストデータと、前記テキストデータに含まれる各単語の信頼度とを出力する、音声認識部と、
テキストデータと、前記各単語の信頼度と、各分野の前記学習テキストに含まれる単語とに基づいて、前記信頼度が設定値以上となる単語が最も多く存在する分野を特定し、特定した分野を前記入力された音声の分野と判定する、分野判定部と、
を備えていることを特徴とする。

また、上記目的を達成するため、本発明の一側面における音声認識方法は、
（ａ）複数の分野それぞれ毎の言語モデルを生成するための、前記分野毎の学習テキストの中から、前記分野毎に、出現頻度が設定条件を満たした単語を含む文を選択し、選択した前記文を用いて、入力された音声の分野を判別するための判別用言語モデルを生成する、ステップと、
（ｂ）前記判別用言語モデルを用いて、入力された音声に対して音声認識を実行し、認識結果として、テキストデータと、前記テキストデータに含まれる各単語の信頼度とを出力する、ステップと、
（ｃ）テキストデータと、前記各単語の信頼度と、各分野の前記学習テキストに含まれる単語とに基づいて、前記信頼度が設定値以上となる単語が最も多く存在する分野を特定し、特定した分野を前記入力された音声の分野と判定する、ステップと、
を有することを特徴とする。

更に、上記目的を達成するため、本発明の一側面におけるプログラムは、
コンピュータに、
（ａ）複数の分野それぞれ毎の言語モデルを生成するための、前記分野毎の学習テキストの中から、前記分野毎に、出現頻度が設定条件を満たした単語を含む文を選択し、選択した前記文を用いて、入力された音声の分野を判別するための判別用言語モデルを生成する、ステップと、
（ｂ）前記判別用言語モデルを用いて、入力された音声に対して音声認識を実行し、認識結果として、テキストデータと、前記テキストデータに含まれる各単語の信頼度とを出力する、ステップと、
（ｃ）テキストデータと、前記各単語の信頼度と、各分野の前記学習テキストに含まれる単語とに基づいて、前記信頼度が設定値以上となる単語が最も多く存在する分野を特定し、特定した分野を前記入力された音声の分野と判定する、ステップと、
を実行させることを特徴とする。

以上のように本発明によれば、処理負担の増加を抑制しつつ、入力された音声に対して関連する分野の判別を実行することができる。

図１は、本発明の実施の形態における音声認識装置の概略構成を示すブロック図である。図２は、本発明の実施の形態における音声認識装置の具体的構成を示すブロック図である。図３は、図２に示す分野別情報格納に格納されている情報の一例を示す図である。図４は、本発明の実施の形態における出現頻度リストの一例を示す図である。図５は、本発明の実施の形態における条件合致文リストの一例を示す図である。図６は、本発明の実施の形態における音声認識装置の判別用言語モデル作成処理時の動作を示すフロー図である。図７は、本発明の実施の形態における音声認識装置の音声認識処理時の動作を示すフロー図である。図８は、本発明の実施の形態における音声認識装置をクラウドで利用する場合の一例を示す図である。図９は、本発明の実施の形態における音声認識装置を実現するコンピュータの一例を示すブロック図である。

（用語の説明）
最初に、以下の本発明の実施の形態で用いられる主な用語について以下に説明する。まず、「言語モデル」とは、単語とその並び方の情報とを集めた統計的モデルを意味する。統計的モデルの具体例としては、Ｎグラムモデルが挙げられる。

また、言語モデルは、単語の並び方に関する制約を表したものであり、これにより、次に発声され得る単語が予測され、認識対象の語彙が絞られる。更に、言語モデルは、実際に発話された音声をテキスト化することによって得られた学習テキストに基づいて、作成される。

「出現頻度」とは、上述の言語モデルを作成するために用いられる学習テキスト（テキストデータ）において、それに出現する各単語の出現回数を意味する。

また、認識結果として出力される各単語の「信頼度」は、音の辞書である音響モデルから算出された確率（音の観点から算出された確率）と、言語モデルから算出された確率（文章における各単語の繋がりモデルから算出された確率）との統計確率である（下記文献参照）。音声認識装置は、この２つの確率のうち、最上位の確率を信頼度として出力する。
（参照文献）
・特開２００５−２７５３４８号公報
・特開２０１１−０１７８１８号公報
・李晃伸、河原達也、鹿野清宏著、「２パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法」、情報処理学会研究報告、2003-SLP-49-48、2003-12．

（実施の形態）
以下、本発明の実施の形態における、音声認識装置、音声認識方法、及びプログラムについて、図１〜図９を参照しながら説明する。

［装置構成：概略］
最初に、本実施の形態における音声認識装置の概略構成について図１を用いて説明する。図１は、本発明の実施の形態における音声認識装置の概略構成を示すブロック図である。

図１に示すように、本実施の形態における音声認識装置２０は、判別用言語モデル作成部２１と、音声認識部２２と、分野判定部２３とを備えている。本実施の形態では、音声認識装置２０は、端末１０に接続されており、ユーザ５０は、端末１０に音声を入力する。この場合、端末１０は、音声認識装置２０に音声データを送信する。

音声認識装置２０において、判別用言語モデル作成部２１は、まず、複数の分野それぞれ毎の言語モデル（以下「分野別言語モデル」）２６を生成するための、分野毎の学習テキスト（以下「分野別学習テキスト」）２７の中から、分野毎に、出現頻度が設定条件を満たした単語を含む文（以下「条件合致文」と表記する。）を選択する。そして、判別用言語モデル作成部は、分野毎に選択した条件合致文を用いて、入力された音声の分野を判別するための判別用言語モデル２５を生成する。

音声認識部２２は、音声が入力されると、判別用言語モデル２５と音響モデル３０とを用いて、入力された音声に対して音声認識を実行する。そして、音声認識部２２は、認識結果として、テキストデータ（以下「認識結果テキスト」と表記する。）と、認識結果テキストに含まれる各単語の信頼度とを出力する。

そして、分野判定部２３は、認識結果テキストと、各単語の信頼度と、各分野の学習テキスト（分野別学習テキスト２７）に含まれる単語とに基づいて、信頼度が設定値以上となる単語が最も多く存在する分野を特定し、特定した分野を入力された音声の分野と判定する。

具体的には、分野判定部２３は、認識結果テキストの各単語の中で信頼度の高い単語と、各分野言語モデルの学習テキスト内の出現頻度の高い単語とを比較し、比較結果に基づいて、一致している単語が多い分野を音声の分野と判定する。

このように、本実施の形態では、音声認識装置２０は、信頼度の高い単語がどの分野に多く含まれているのかを判断し、この判断結果から入力音声の分野を判定している。信頼度は、上述したように、入力された音声の音響モデル２９による音の確率と判別用言語モデル２５による単語の並びから算出される確率とから求められているため、判定結果は適切なものとなる。

また、分野判定用の音声認識に利用される判別用言語モデル２５は、分野別言語モデル２６に比べると、少ない学習データで作成されている。従って、分野判定用の音声認識における音声認識装置２０の処理負担は、分野別言語モデル２６のいずれかを用いる場合と比べても小さくなっている。

更に、本実施の形態では、図１に示すように、音声認識装置２０は、言語モデル再構築部２４を備えることができる。言語モデル再構築部２４は、まず、入力音声の分野として判定された分野以外の分野について、判別用言語モデル作成部２１が選択した条件合致文を取得する。

そして、言語モデル再構築部２４は、取得した条件合致文を、学習テキストとして、入力音声の分野として判定された分野における言語モデルに加え、この分野における言語モデルを再構築する。なお、再構築された言語モデルは、以下「カスタマイズ言語モデル」２９と表記する。

この場合、音声認識部２２は、言語モデル再構築部２４によって再構築されたカスタマイズ言語モデル２９を用いて、再度、入力された音声に対して音声認識を実行する。

このように、言語モデル再構築部２４によれば、入力された音声により適した理想的な言語モデル（カスタマイズ言語モデル２９）が作成されるので、この言語モデルを用いて音声認識を実行すれば、従来（特許文献１〜３参照）に比べて認識精度の向上が図られることになる。

また、本実施の形態では、音声認識部２２は、分野別言語モデル２５の中から、入力音声の分野として判定された分野の言語モデルを取得し、これを用いて、入力された音声に対して音声認識を行なうこともできる。この場合であっても、間違った分野の言語モデルが選択されてしまう事態が回避されるので、認識精度の向上が図られる。また、この場合は、処理速度の向上が図られる。

更に、本実施の形態では、上述したように音声認識は２回実行されるが、特許文献３に開示された技術と異なり、複数の音声認識エンジンを同時に動作させる必要はないため、特許文献３に開示された技術と比べて、音声認識装置２０の処理負担は低減される。

［装置構成：具体例］
続いて、本実施の形態における音声認識装置の構成について図２〜図５を用いて更に具体的に説明する。図２は、本発明の実施の形態における音声認識装置の具体的構成を示すブロック図である。

図２に示すように、本実施の形態における音声認識装置２０は、判別用言語モデル作成部２１、音声認識部２２、分野判定部２３、言語モデル作成部２４に加えて、音響モデル格納部３１と、判別用情報格納部３２と、分野別情報格納部３３と、カスタマイズ情報格納部３４とを備えている。

このうち、音響モデル格納部３１は、図１に示した音響モデル３０を格納している。カスタマイズ情報格納部３４は、図１に示したカスタマイズ言語モデル２９を格納している。また、判別用情報格納部３２は、図１に示した判別用言語モデル２５に加えて、出現頻度リスト２１４及び条件合致文リスト２１５を格納している。出現頻度リスト２１４及び条件合致文リスト２１５については後述する。

分野別情報格納部３３は、図１に示した分野別言語モデル２６及び分野別学習テキスト２７に加えて、分野別出現頻度情報２８を格納している。分野別出現頻度情報２８は、分野毎に、学習テキストに出現している各単語の出現頻度を特定する情報である。また、各単語の出現頻度は、通常、言語モデルの作成時に算出され、分野別出現頻度情報２８は、分野別言語モデル２６の作成の過程で出力される。

ここで、図３を用いて、分野別情報格納部３３が格納している各情報について説明する。図３は、図２に示す分野別情報格納に格納されている情報の一例を示す図である。図３に示すように、本実施の形態では、分野別情報格納部３３は、分野毎に、言語モデルと、学習テキストと、出現頻度情報とを格納している。

図３では、分野の例として、「医療」、「金融」、「通信」の３つが示されているが、分野の数はこれに限定されるものではない。また、ここでの「分野」は、特に限定されず、分野の設定は自由に行なわれる。例えば、分野は、上述のように、金融、医療、通信といった業界で設定されていても良いし、関西弁、博多弁といった方言で設定されていても良い。

また、図２に示すように、本実施の形態では、判別用言語モデル作成部２１は、出現頻度リスト作成部２１１と、テキスト選択部２１２と、作成処理部２１３とを備えている。このうち、出現頻度リスト作成部２１１は、分野別学習テキスト２７を用いて、分野毎に、出現頻度リスト２１４を生成し、これを判別用情報格納部３２に格納させる。

具体的には、出現頻度リスト作成部２１１は、まず、分野別情報格納部３３から、分野別出現頻度情報２８（図３参照）を取得し、分野毎に、取得した出現頻度情報で特定される各単語の出現頻度に基づいて、出現頻度リスト２１４を作成する。

より詳細には、図４に示すように、出現頻度リスト作成部２１１は、各単語について出現頻度から相対頻度を求め、分野毎に、相対頻度の高い順に単語を配列して、出現頻度リスト２１４を作成する。なお、相対頻度は、分野内での相対頻度であっても良いし、全分野の相対頻度であっても良い。相対頻度の算出方法は、特に限定されるものではない。図４は、本発明の実施の形態における出現頻度リストの一例を示す図である。

次に、出現頻度リスト作成部２１１は、作成した各出現頻度リスト２１４を各分野の特徴的な単語のみのリストとするため、各出現頻度リスト２１４の単語の中から、助詞、形容詞、副詞、動詞などの品詞の単語を省き、各出現頻度リスト２１４を名詞（固有名詞等）のみのリストとする（図４参照）。

続いて、出現頻度リスト作成部２１１は、名詞のみとなった各出現頻度リスト２１４から、更に、分野の異なる複数の学習テキストで出現している単語を除去し、この除去後の各出現頻度リスト２１４を判別用情報格納部３２に格納させる（図４参照）。なお、除去対象となる単語は、分野の異なる複数の学習テキストで出現している全ての単語でなくても良く、出現頻度リスト２１４における相対頻度が設定値以上の単語のみであっても良い。また、この場合の設定値は、後述の分野判定が適切となるように設定される。

テキスト選択部２１２は、まず、判別用情報格納部３２から出現頻度リスト２１４を取得し、更に、分野別情報格納部３３から分野別学習テキスト２７を取得する。そして、テキスト選択部２１２は、分野毎に、出現頻度リスト２１４から、出現頻度が設定条件を満たした単語、例えば、相対頻度が設定値以上となっている単語（以下「上位出現頻度単語」と表記する。）を特定する。なお、この場合の設定値も、後述の分野判定が適切となるように設定される。

続いて、テキスト選択部２１２は、分野別学習テキスト２７を探索して、その中から、分野毎に、特定した上位出現頻度単語を含む文（条件合致文）を選択する。また、テキスト選択部２１２は、図５に示すように、分野毎に、選択した条件合致文のリスト（以下「条件合致文リスト」と表記する。）２１５を作成し、これを判別用情報格納部３２に格納させる。図５は、本発明の実施の形態における条件合致文リストの一例を示す図である。

作成処理部２１３は、まず、判別用情報格納部３２から分野毎に条件合致文を取得する。続いて、作成処理部２１３は、取得した条件合致文を学習テキストとして、言語モデルを作成する。具体的には、作成処理部２１３は、取得した条件合致文を、分野毎の比率が等分となるように混ぜ合わせて、学習テキストとする。

そして、この作成された言語モデルが、判別用言語モデル２５となる。作成処理部２１３は、作成した判別用言語モデル２５を、判別用情報格納部３２に格納する。

また、図２に示すように、本実施の形態では、ユーザ５０の端末１０は、音声検出部１１と、認識結果表示部１２とを備えている。端末１０は、具体的には、パーソナルコンピュータ（ＰＣ）、スマートフォン、携帯電話といった、通話機能を備えた情報端末である。

音声検出部１１は、ユーザ５０が端末１０に向けて認識させたい文章を発話すると、発話の音声区間を検知する。そして、ユーザ５０が、認識終了ボタンを押すなどして、認識させたい文章の発話完了を指示すると、音声検出部１１は、インターネット又はＬＡＮなどのネットワーク４０を介して、検知した発話の音声データを音声認識装置２０にストリームで送信する。また、音声検出部１１は、発話の音声データから音声ファイルを生成し、生成した音声ファイルを音声認識装置２０に送信することもできる。

音声認識部２２は、端末１０から音声データが入力されると、上述したように、まず、判別用言語モデル２５を適用した音声認識エンジンで音声認識を行い、認識結果テキストと、認識結果テキストの各単語の信頼度とを取得する。また、音声認識部２２は、取得した認識結果テキストと認識結果テキストの各単語の信頼度とを分野判定部２３に渡す。

分野判定部２３は、音声認識部２２から、認識結果テキストと認識結果テキストの各単語の信頼度とを取得すると、判別用情報格納部３２にアクセスし、そこから出現頻度リスト２１４を取得する。

次に、分野判定部２３は、認識結果テキストに含まれる各単語と、各分野の出現頻度リスト２１４とを比較して、信頼度が設定値以上となる単語を最も多く含む出現頻度リスト２１４を特定し、特定した出現頻度リスト２１４の分野を、入力された音声の分野と判定する。また、分野判定部２３は、判定結果を言語モデル再構築部２４に渡す。

また、このとき、分野判定部２３は、出現頻度リスト中の単語に制限を設けても良い。例えば、分野判定部２３は、認識結果テキストの各単語うちの信頼度が設定値以上となる単語と、各分野の出現頻度リスト中の順位が設定値以上となっている単語とを照合し、一致している単語数が最も多い分野を、入力された音声の分野と判定しても良い。なお、信頼度の設定値と順位の設定値とは、判定結果が適切となるように設定される。

言語モデル再構築部２４は、分野判定部２３から判定結果を取得すると、判定結果に基づいて分野を特定し、分野別情報格納部３３から、特定した分野の言語モデルを取得する。また、言語モデル再構築部２４は、特定した分野以外の分野について、判別用情報格納部３２に格納されている条件合致文リスト２１５から、分野判定部２３による照合で一致した単語を含む条件合致文を取得する。

そして、言語モデル再構築部２４は、取得した条件合致文を、学習テキストとして、分野別情報格納部３３から取得した言語モデルに追加し、言語モデルを再構築する。これにより、入力音声の分野として判定された分野の言語モデルは、カスタマイズされ、カスタマイズ言語モデル２９として、カスタマイズ情報格納部２９に格納される。

カスタマイズ言語モデル２９が作成されると、音声認識部２２は、カスタマイズ言語モデル２９を適用した認識エンジンによって、再度音声認識を実行する。そして、音声認識部２２は、認識結果テキストを、ネットワーク４０を介して、端末１０に送信する。

この結果、端末１０においては、認識結果表示部１２が、送信されてきた認識結果テキストを表示パネル（図示せず）の画面に表示する。これにより、ユーザ５０は、音声認識の結果を確認する。

また、本実施の形態では、言語モデル再構築部２４は、音声認識部２２がカスタマイズ言語モデル２９を用いて音声認識を実行し、処理が終了すると、カスタマイズ情報格納部２９からカスタマイズ言語モデル２９を削除することができる。

［装置動作］
次に、本発明の実施の形態における音声認識装置２０の動作について図６及び図７を用いて説明する。本実施の形態では、音声認識装置２０は、事前準備としての判別用言語モデルの作成処理と、音声認識処理とを実行する。このため、以下においては、処理毎に説明を行なう。

なお、本実施の形態では、音声認識装置２０を動作させることによって、音声認識方法が実施される。よって、本実施の形態における音声認識方法の説明は、以下の音声認識装置２０の動作説明に代える。また、図２〜図５を適宜参酌する。

［判別用言語モデル作成処理］
最初に、図６を用いて、判別用言語モデル２５の作成処理について説明する。図６は、本発明の実施の形態における音声認識装置の判別用言語モデル作成処理時の動作を示すフロー図である。また、本実施の形態では、図６に示す判別用言語モデル２５の作成処理は、分野別言語モデル２６において、言語モデルの追加、削除、変更等の更新があった場合に実施される。

図６に示すように、最初に、出現頻度リスト作成部２１１は、分野別言語モデル２６の作成の過程で出力された分野別出現頻度情報２８から、各分野の学習テキスト内の単語が出現頻度に基づいて並べられた出現頻度リスト２１４を生成する（ステップＳ１）。また、出現頻度リスト作成部２１１は、作成した出現頻度リスト２１４を、判別用情報格納部３２に出力し、これに格納させる。

次に、出現頻度リスト作成部２１１は、格納されている各分野の出現頻度リスト２１４の単語のうち、名詞（固有名詞等）以外の品詞（助詞、形容詞、副詞、動詞等）の単語を、各出現頻度リスト２１１から除去する（ステップＳ２）。

続いて、出現頻度リスト作成部２１１は、格納されている各分野の出現頻度リスト２１４の単語のうち、各分野の出現頻度リストに共通に含まれており、且つ、相対頻度が設定値以上となる単語も、各分野の出現頻度リストから除去する（ステップＳ３）。

次に、テキスト選択部２１２は、各分野の出現頻度リスト２１４から、上位出現頻度単語を特定し、分野別学習テキスト２７の中から、特定した上位出現頻度単語を含む条件合致文を選択する（ステップＳ４）。また、テキスト選択部２１２は、図５に示すように、分野毎に、条件合致文リスト２１５を作成し、これを判別用情報格納部３２に格納させる。

次に、作成処理部２１３は、ステップＳ４で選択された各分野の条件合致文を取得し、取得した条件合致文を分野毎の比率が等分となるように混ぜ合わせ、混ぜ合わせた状態の条件合致文を学習テキストとして、判別用言語モデル２５を作成する（ステップＳ５）。ステップＳ５の実行後、判別用言語モデル２５の作成処理は終了する。

［音声認識処理］
続いて、図７を用いて、音声認識処理について説明する。図７は、本発明の実施の形態における音声認識装置の音声認識処理時の動作を示すフロー図である。また、本実施の形態では、図７に示す音声認識処理は、端末１０から音声が送信されてくるたびに実施される。

図７に示すように、最初に、ユーザ５０が端末１０に向けて認識させたい文章を発話すると、端末１０の音声検出部１１が、発話を検知し、検知した発話の音声データを音声認識装置２０にストリームで送信する（ステップＴ１）。なお、ステップＴ１では、端末１０は、発話の音声データから生成した音声ファイルを音声認識装置２０に送信することもできる。

次に、端末１０から音声データが入力されると、音声認識装置２０において、音声認識部２２は、音声データに対して、判別用言語モデル２５が適用された音声認識エンジンにて、音声認識を実施する（ステップＴ２）。また、ステップＴ２では、音声認識部２２は、認識結果テキストと、認識結果テキストの各単語の信頼度とを、分野判定部２３に出力する。

次に、分野判定部２３は、音声認識部２２から、認識結果テキストと認識結果テキストの各単語の信頼度とを取得すると、判別用情報格納部３２にアクセスし、そこから出現頻度リスト２１４を取得する。そして、分野判定部２３は、認識結果テキストに含まれる各単語と、各分野の出現頻度リスト２１４とを用いて、分野毎に、認識結果テキスト中の信頼度が設定値以上の単語と、出現頻度リスト２１４中の単語とを比較し、一致する単語数を分野毎に特定する（ステップＴ３）。

次に、分野判定部２３は、ステップＴ３の結果に基づいて、一致した単語数が最も多い分野が一つであるかどうかを判定する（ステップＴ４）。

ステップＴ４の判定の結果、一致した単語数が最も多い分野が一つである場合は、分野判定部２３は、一致した単語数が最も多い分野を、入力された音声の分野と判定し、この分野の言語モデルを選択する（ステップＴ５）。

一方、ステップＴ４の判定の結果、一致した単語数が最も多い分野が一つでない場合は、分野判定部２３は、一致した単語数が最も多い多い分野それぞれについて、一致した単語の中で出現頻度が最も高い単語の一致数を特定する（ステップＴ１０）。

次に、分野判定部２３は、ステップＴ１０の結果に基づいて、特定した一致数が最も多い分野が一つであるかどうかを判定する（ステップＴ１１）。

ステップＴ１１の判定の結果、特定した一致数が最も多い分野が一つである場合は、分野判定部２３は、ステップＴ５を実行し、ステップＴ１０で特定した一致数が最も多い分野を、入力された音声の分野と判定する。そして、分野判定部２３は、この分野の言語モデルを選択する。

一方、ステップＴ１１の判定の結果、特定した一致数が最も多い分野が一つでない（複数ある）場合は、分野判定部２３は、該当する複数の分野において、ステップＴ１０に準じて、基準となる出現頻度の順位を下げながら、一致した単語数が最も多い分野が一つとなるまで、単語の一致数を特定する（ステップＴ１２）。

次に、分野判定部２３は、ステップＴ１２の実行後、更に、ステップＴ５を実行し、一致した単語数が最も多い分野が一つとなったときの分野を、入力された音声の分野と判定する。そして、分野判定部２３は、この分野の言語モデルを選択する。

次に、ステップＴ５が実行されると、言語モデル再構築部２４は、ステップＴ４にて選択された言語モデルの分野以外の分野について、ステップＴ３で一致するとされた単語を特定する（ステップＴ６）。

次に、言語モデル再構築部２４は、条件合致文リスト２１５から、ステップＴ４にて選択された言語モデルの分野以外の分野について、ステップＴ６で特定された単語を含む条件合致文を取得する。そして、言語モデル再構築部２４は、取得した条件合致文を、学習テキストとして、ステップＴ４にて選択された言語モデルに追加し、言語モデルを再構築する（ステップＴ７）。

次に、音声認識部２２は、ステップＴ６で再構築されたカスタマイズ言語モデル２９を適用した音声認識エンジンで、再度音声認識を実行する（ステップＴ７）。また、ステップＴ７では、音声認識部２２は、認識結果テキストを、端末１０に送信する。

ステップＴ７によって、認識結果テキストが送信されてくると、端末１０においては、認識結果表示部１２が、送信されてきた認識結果テキストを表示パネル（図示せず）の画面に表示する（ステップＴ９）。これにより、ユーザ５０は、音声認識の結果を確認する。

以上のように本実施の形態では、入力音声の分野が分からない場合でも、入力音声の分野を自動的に判別できるので、適切な分野の言語モデルを選択することができ、認識精度の向上を図ることができる。また、本実施の形態では、選択した言語モデルをカスタマイズすることができるため、いっそう、認識精度の向上を図ることができる。更に、本実施の形態では、複数の音声認識エンジンを同時に動作させる必要はないため、音声認識装置２０の処理負担は低減される。

また、本実施の形態では、ステップＴ６〜Ｔ８の代わりに、音声認識部２２が、ステップＴ４にて選択された言語モデルを用いて、入力された音声に対して音声認識を実行する、ステップが実行されていても良い。この態様では、処理速度の向上が図られるので、処理速度及び処理量が重要視される場合に有用となる。

更に、本実施の形態における音声認識装置２０は、入力される音声の分野を判別する機能を備えていることから、入力音声の分類などに利用することも可能である。この場合、分類対象となる分野は、金融、医療などの業界別、方言別、業務別など、どのように設定されていても良く、分類の軸は自由に設定することができる。

また、本実施の形態における音声認識装置２０では、判別用言語モデルを適用させた認識エンジンと、分野別言語モデルを適用させた認識エンジンとを、並列に動作させることもできる。この場合は、判別用言語モデルを適用した認識エンジンで、ある値が一定以上の閾値になった場合に、一定以上の閾値の分野に動的に切り替えることが可能となる。

具体的には、例えば、判別用言語モデルを適用させた認識エンジンによる音声認識の実行後、ステップＴ３において、一致する単語数が閾値以上になったとする。この場合、音声認識部２０は、単語数が閾値以上となった分野を特定し、特定した分野の言語モデルを適用した認識エンジンで音声認識を実行する。

［用途例］
本実施の形態における音声認識装置２０の用途について説明する。まず、音声認識装置は、様々な話題についてお客様からの相談を受けるコールセンターでお客様側の音声を認識させる場合、複数の分野の音声ファイルを一括で認識させたい場合、及びクラウドでの利用時に入力される音声が分からない場合などにおいて利用される。

ここで、用途例を、図８を用いて説明する。図８は、本発明の実施の形態における音声認識装置をクラウドで利用する場合の一例を示す図である。図８の例では、音声認識装置２０は、クラウドで利用されており、パーソナルコンピュータ、スマートフォン、携帯電話といった様々な情報端末から、音声データを受信する。そして、音声認識装置２０は、音声データを受信すると、それに基づいて音声の分野を特定し、音声認識を実行する。その後、音声認識装置２０は、音声データの送信元の情報端末に認識結果を送信する。

［プログラム］
本実施の形態におけるプログラムは、コンピュータに、図６に示すステップＳ１〜Ｓ５、図７に示すステップＴ２〜Ｔ８、Ｔ１０〜Ｔ１２を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における音声認識装置２０と音声認識方法とを実現することができる。

また、上記の場合、コンピュータのＣＰＵ（Central Processing Unit）は、判別用言語モデル作成部２１、音声認識部２２、分野判定部２３、及び言語モデル再構築部２４として機能し、処理を行なう。更に、コンピュータに備えられたハードディスク等の記憶装置が、音響モデル格納部３１、判別用情報格納部３２、分野別情報格納部３３、及びカスタマイズ情報格納部３４として機能する。

ここで、実施の形態におけるプログラムを実行することによって、音声認識装置２０を実現するコンピュータについて図９を用いて説明する。図９は、本発明の実施の形態における音声認識装置を実現するコンピュータの一例を示すブロック図である。

図９に示すように、コンピュータ１１０は、ＣＰＵ１１１と、メインメモリ１１２と、記憶装置１１３と、入力インターフェイス１１４と、表示コントローラ１１５と、データリーダ／ライタ１１６と、通信インターフェイス１１７とを備える。これらの各部は、バス１２１を介して、互いにデータ通信可能に接続される。

ＣＰＵ１１１は、記憶装置１１３に格納された、本実施の形態におけるプログラム（コード）をメインメモリ１１２に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ１１２は、典型的には、ＤＲＡＭ（Dynamic Random Access Memory）等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体１２０に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス１１７を介して接続されたインターネット上で流通するものであっても良い。

また、記憶装置１１３の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス１１４は、ＣＰＵ１１１と、キーボード及びマウスといった入力機器１１８との間のデータ伝送を仲介する。表示コントローラ１１５は、ディスプレイ装置１１９と接続され、ディスプレイ装置１１９での表示を制御する。

データリーダ／ライタ１１６は、ＣＰＵ１１１と記録媒体１２０との間のデータ伝送を仲介し、記録媒体１２０からのプログラムの読み出し、及びコンピュータ１１０における処理結果の記録媒体１２０への書き込みを実行する。通信インターフェイス１１７は、ＣＰＵ１１１と、他のコンピュータとの間のデータ伝送を仲介する。

また、記録媒体１２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）等の汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible Disk）等の磁気記憶媒体、又はＣＤ−ＲＯＭ（Compact Disk Read Only Memory）などの光学記憶媒体が挙げられる。

上述した実施の形態の一部又は全部は、以下に記載する（付記１）〜（付記１５）によって表現することができるが、以下の記載に限定されるものではない。

（付記１）
複数の分野それぞれ毎の言語モデルを生成するための、前記分野毎の学習テキストの中から、前記分野毎に、出現頻度が設定条件を満たした単語を含む文を選択し、選択した前記文を用いて、入力された音声の分野を判別するための判別用言語モデルを生成する、判別用言語モデル作成部と、
前記判別用言語モデルを用いて、入力された音声に対して音声認識を実行し、認識結果として、テキストデータと、前記テキストデータに含まれる各単語の信頼度とを出力する、音声認識部と、
テキストデータと、前記各単語の信頼度と、各分野の前記学習テキストに含まれる単語とに基づいて、前記信頼度が設定値以上となる単語が最も多く存在する分野を特定し、特定した分野を前記入力された音声の分野と判定する、分野判定部と、
を備えていることを特徴とする、音声認識装置。

（付記２）
前記判別用言語モデル作成部が、
前記分野毎に、当該学習テキストに含まれる単語が出現頻度に基づいて配列され、且つ、名詞以外の単語、及び分野の異なる複数の学習テキストで出現している単語が除去された、出現頻度リストを生成する、出現頻度リスト作成部と、
前記分野毎に、前記出現頻度リストから、出現頻度が設定条件を満たした単語を特定し、前記学習テキストの中から、特定した単語を含む文を選択する、テキスト選択部と、
前記分野毎に選択された前記文を用いて、前記判別用言語モデルを生成する、作成処理部と、を備え、
前記分野判定部が、
前記テキストデータに含まれる各単語と、各分野の前記出現頻度リストとを比較して、前記信頼度が設定値以上となる単語を最も多く含む出現頻度リストを特定し、特定した出現頻度リストの分野を、前記入力された音声の分野と判定する、付記１に記載の音声認識装置。

（付記３）
特定された前記分野以外の分野について、前記判別用言語モデル作成部が選択した前記文を取得し、取得した前記文を、学習テキストとして、特定された前記分野における前記言語モデルに加えて、特定された前記分野における前記言語モデルを再構築する、言語モデル再構築部を更に備え、
前記音声認識部が、前記言語モデル再構築部によって再構築された前記言語モデルを用いて、再度、前記入力された音声に対して音声認識を実行する、
付記１または２に記載の音声認識装置。

（付記４）
前記複数の分野それぞれ毎に予め言語モデルが用意されており、
前記音声認識部が、予め用意されている前記言語モデルのうち、特定された前記分野の前記言語モデルを用いて、再度、前記入力された音声に対して音声認識を実行する、
付記１または２に記載の音声認識装置。

（付記５）
前記作成処理部が、前記分野毎の比率が等分となるように、前記分野毎に選択された前記文を混ぜ合わせて、前記判別用言語モデルの学習テキストとする、
付記２に記載の音声認識装置。

（付記６）
（ａ）複数の分野それぞれ毎の言語モデルを生成するための、前記分野毎の学習テキストの中から、前記分野毎に、出現頻度が設定条件を満たした単語を含む文を選択し、選択した前記文を用いて、入力された音声の分野を判別するための判別用言語モデルを生成する、ステップと、
（ｂ）前記判別用言語モデルを用いて、入力された音声に対して音声認識を実行し、認識結果として、テキストデータと、前記テキストデータに含まれる各単語の信頼度とを出力する、ステップと、
（ｃ）テキストデータと、前記各単語の信頼度と、各分野の前記学習テキストに含まれる単語とに基づいて、前記信頼度が設定値以上となる単語が最も多く存在する分野を特定し、特定した分野を前記入力された音声の分野と判定する、ステップと、
を有することを特徴とする、音声認識方法。

（付記７）
前記（ａ）のステップが、
（ａ１）前記分野毎の学習テキストを用いて、前記分野毎に、当該学習テキストに含まれる単語が出現頻度に基づいて配列され、且つ、名詞以外の単語、及び分野の異なる複数の学習テキストで出現している単語が除去された、出現頻度リストを生成する、ステップと、
（ａ２）前記分野毎に、前記出現頻度リストから、出現頻度が設定条件を満たした単語を特定し、前記学習テキストの中から、特定した単語を含む文を選択する、ステップと、
（ａ３）前記分野毎に選択された前記文を用いて、前記判別用言語モデルを生成する、ステップと、を有し、
前記（ｃ）のステップにおいて、
前記テキストデータに含まれる各単語と、各分野の前記出現頻度リストとを比較して、前記信頼度が設定値以上となる単語を最も多く含む出現頻度リストを特定し、特定した出現頻度リストの分野を、前記入力された音声の分野と判定する、
付記６に記載の音声認識方法。

（付記８）
（ｄ）特定された前記分野以外の分野について、前記（ａ）のステップで選択した前記文を取得し、取得した前記文を、学習テキストとして、特定された前記分野における前記言語モデルに加えて、特定された前記分野における前記言語モデルを再構築する、ステップと、
（ｅ）前記（ｄ）のステップによって再構築された前記言語モデルを用いて、再度、前記入力された音声に対して音声認識を実行する、ステップと、
を更に有している、付記６または７に記載の音声認識方法。

（付記９）
前記複数の分野それぞれ毎に予め言語モデルが用意されており、
（ｆ）予め用意されている前記言語モデルのうち、特定された前記分野の前記言語モデルを用いて、再度、前記入力された音声に対して音声認識を実行する、ステップを、
更に有している、付記６または７に記載の音声認識方法。

（付記１０）
前記（ａ３）のステップにおいて、前記分野毎の比率が等分となるように、前記分野毎に選択された前記文を混ぜ合わせて、前記判別用言語モデルの学習テキストとする、
付記７に記載の音声認識方法。

（付記１１）
コンピュータに、
（ａ）複数の分野それぞれ毎の言語モデルを生成するための、前記分野毎の学習テキストの中から、前記分野毎に、出現頻度が設定条件を満たした単語を含む文を選択し、選択した前記文を用いて、入力された音声の分野を判別するための判別用言語モデルを生成する、ステップと、
（ｂ）前記判別用言語モデルを用いて、入力された音声に対して音声認識を実行し、認識結果として、テキストデータと、前記テキストデータに含まれる各単語の信頼度とを出力する、ステップと、
（ｃ）テキストデータと、前記各単語の信頼度と、各分野の前記学習テキストに含まれる単語とに基づいて、前記信頼度が設定値以上となる単語が最も多く存在する分野を特定し、特定した分野を前記入力された音声の分野と判定する、ステップと、
を実行させる、プログラム。

（付記１２）
前記（ａ）のステップが、
（ａ１）前記分野毎の学習テキストを用いて、前記分野毎に、当該学習テキストに含まれる単語が出現頻度に基づいて配列され、且つ、名詞以外の単語、及び分野の異なる複数の学習テキストで出現している単語が除去された、出現頻度リストを生成する、ステップと、
（ａ２）前記分野毎に、前記出現頻度リストから、出現頻度が設定条件を満たした単語を特定し、前記学習テキストの中から、特定した単語を含む文を選択する、ステップと、
（ａ３）前記分野毎に選択された前記文を用いて、前記判別用言語モデルを生成する、ステップと、を有し、
前記（ｃ）のステップにおいて、
前記テキストデータに含まれる各単語と、各分野の前記出現頻度リストとを比較して、前記信頼度が設定値以上となる単語を最も多く含む出現頻度リストを特定し、特定した出現頻度リストの分野を、前記入力された音声の分野と判定する、
付記１１に記載のプログラム。

（付記１３）
（ｄ）特定された前記分野以外の分野について、前記（ａ）のステップで選択した前記文を取得し、取得した前記文を、学習テキストとして、特定された前記分野における前記言語モデルに加えて、特定された前記分野における前記言語モデルを再構築する、ステップと、
（ｅ）前記（ｄ）のステップによって再構築された前記言語モデルを用いて、再度、前記入力された音声に対して音声認識を実行する、ステップと、
を更に前記コンピュータに実行させる、付記１１または１２に記載のプログラム。

（付記１４）
前記複数の分野それぞれ毎に予め言語モデルが用意されており、
（ｆ）予め用意されている前記言語モデルのうち、特定された前記分野の前記言語モデルを用いて、再度、前記入力された音声に対して音声認識を実行する、ステップを、
更に前記コンピュータに実行させる、付記１１または１２に記載のプログラム。

（付記１５）
前記（ａ３）のステップにおいて、前記分野毎の比率が等分となるように、前記分野毎に選択された前記文を混ぜ合わせて、前記判別用言語モデルの学習テキストとする、
付記１２に記載のプログラム。

本発明によれば、処理負担の増加を抑制しつつ、入力された音声に対して関連する分野を判別することができる。本発明は、音声認識を実装するシステム全般に利用することができ、入力音声の分野が分からない場合に有効となる。

１０端末
１１音声検出部
１２認識結果表示部
２０音声認識装置
２１判別用言語モデル作成部
２２音声認識部
２３分野判定部
２４言語モデル再構築部
２５判別用言語モデル
２６分野別言語モデル
２７分野別学習テキスト
２８分野別出現頻度情報
２９カスタマイズ言語モデル
３０音響モデル
３１音響モデル格納部
３２判別用情報格納部
３３分野別情報格納部
３４カスタマイズ情報格納部
４０ネットワーク
５０ユーザ
１１０コンピュータ
１１１ＣＰＵ
１１２メインメモリ
１１３記憶装置
１１４入力インターフェイス
１１５表示コントローラ
１１６データリーダ／ライタ
１１７通信インターフェイス
１１８入力機器
１１９ディスプレイ装置
１２０記録媒体
１２１バス
２１１出現頻度リスト作成部
２１２テキスト選択部
２１３作成処理部
２１４出現頻度リスト
２１５条件合致文リスト

Claims

複数の分野それぞれ毎の言語モデルを生成するための、前記分野毎の学習テキストの中から、前記分野毎に、出現頻度が設定条件を満たした単語を含む文を選択し、選択した前記文を用いて、入力された音声の分野を判別するための判別用言語モデルを生成する、判別用言語モデル作成部と、
前記判別用言語モデルを用いて、入力された音声に対して音声認識を実行し、認識結果として、テキストデータと、前記テキストデータに含まれる各単語の信頼度とを出力する、音声認識部と、
テキストデータと、前記各単語の信頼度と、各分野の前記学習テキストに含まれる単語とに基づいて、前記信頼度が設定値以上となる単語が最も多く存在する分野を特定し、特定した分野を前記入力された音声の分野と判定する、分野判定部と、
を備えていることを特徴とする、音声認識装置。
前記判別用言語モデル作成部が、
前記分野毎に、当該学習テキストに含まれる単語が出現頻度に基づいて配列され、且つ、名詞以外の単語、及び分野の異なる複数の学習テキストで出現している単語が除去された、出現頻度リストを生成する、出現頻度リスト作成部と、
前記分野毎に、前記出現頻度リストから、出現頻度が設定条件を満たした単語を特定し、前記学習テキストの中から、特定した単語を含む文を選択する、テキスト選択部と、
前記分野毎に選択された前記文を用いて、前記判別用言語モデルを生成する、作成処理部と、を備え、
前記分野判定部が、
前記テキストデータに含まれる各単語と、各分野の前記出現頻度リストとを比較して、前記信頼度が設定値以上となる単語を最も多く含む出現頻度リストを特定し、特定した出現頻度リストの分野を、前記入力された音声の分野と判定する、請求項１に記載の音声認識装置。
特定された前記分野以外の分野について、前記判別用言語モデル作成部が選択した前記文を取得し、取得した前記文を、学習テキストとして、特定された前記分野における前記言語モデルに加えて、特定された前記分野における前記言語モデルを再構築する、言語モデル再構築部を更に備え、
前記音声認識部が、前記言語モデル再構築部によって再構築された前記言語モデルを用いて、再度、前記入力された音声に対して音声認識を実行する、
請求項１または２に記載の音声認識装置。
前記複数の分野それぞれ毎に予め言語モデルが用意されており、
前記音声認識部が、予め用意されている前記言語モデルのうち、特定された前記分野の前記言語モデルを用いて、再度、前記入力された音声に対して音声認識を実行する、
請求項１または２に記載の音声認識装置。
前記作成処理部が、前記分野毎の比率が等分となるように、前記分野毎に選択された前記文を混ぜ合わせて、前記判別用言語モデルの学習テキストとする、
請求項２に記載の音声認識装置。
（ａ）複数の分野それぞれ毎の言語モデルを生成するための、前記分野毎の学習テキストの中から、前記分野毎に、出現頻度が設定条件を満たした単語を含む文を選択し、選択した前記文を用いて、入力された音声の分野を判別するための判別用言語モデルを生成する、ステップと、
（ｂ）前記判別用言語モデルを用いて、入力された音声に対して音声認識を実行し、認識結果として、テキストデータと、前記テキストデータに含まれる各単語の信頼度とを出力する、ステップと、
（ｃ）テキストデータと、前記各単語の信頼度と、各分野の前記学習テキストに含まれる単語とに基づいて、前記信頼度が設定値以上となる単語が最も多く存在する分野を特定し、特定した分野を前記入力された音声の分野と判定する、ステップと、
を有することを特徴とする、音声認識方法。
コンピュータに、
（ａ）複数の分野それぞれ毎の言語モデルを生成するための、前記分野毎の学習テキストの中から、前記分野毎に、出現頻度が設定条件を満たした単語を含む文を選択し、選択した前記文を用いて、入力された音声の分野を判別するための判別用言語モデルを生成する、ステップと、
（ｂ）前記判別用言語モデルを用いて、入力された音声に対して音声認識を実行し、認識結果として、テキストデータと、前記テキストデータに含まれる各単語の信頼度とを出力する、ステップと、
（ｃ）テキストデータと、前記各単語の信頼度と、各分野の前記学習テキストに含まれる単語とに基づいて、前記信頼度が設定値以上となる単語が最も多く存在する分野を特定し、特定した分野を前記入力された音声の分野と判定する、ステップと、
を実行させる、プログラム。