JP4269625B2

JP4269625B2 - 音声認識辞書作成方法及びその装置と音声認識装置

Info

Publication number: JP4269625B2
Application number: JP2002294402A
Authority: JP
Inventors: 洋平岡登; 純石井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2002-10-08
Filing date: 2002-10-08
Publication date: 2009-05-27
Anticipated expiration: 2022-10-08
Also published as: JP2004133003A

Description

【０００１】
【発明の属する技術分野】
本発明は、言い換えを自動登録可能な音声認識のための認識辞書作成方法及びその装置とこの方式で作成した辞書を用いた音声認識装置に関するものである。
【０００２】
【従来の技術】
従来の音声認識システムは、認識辞書に登録されている語彙に基づいて認識を行うため、認識辞書に登録されていない語彙を認識することはできない。しかし、ユーザは認識辞書に登録されている語彙通りの発声を行うとは限らない。例えばユーザが発声対象となる名称を正確に知っているとは限らないし、正確な名称を知っていても省略可能と判断した部位を適宜省略して発声するのが実情である。そこで、音声認識に用いる認識辞書には、同じ単語や概念について、ユーザが異なる言い方をしても認識できるように、あらかじめ複数の言い換えが登録されている必要がある。例えば、特許文献１には、カーナビゲーションの音声による操作コマンドの言い換え表現を予め登録しておき、ユーザが複数通りの発声をしても正しく認識するための手法が開示されている。
【０００３】
ここで、例えば、認識対象語の表記が「大阪大学菅平高原実験センター」で、その音声的な表記を表す読みが（オオサカダイガクスガダイラコウゲンジッケンセンター）である場合、ユーザは、「阪大菅平実験センター」（ハンダイスガダイラジッケンセンター）や「阪大菅平実験所」（ハンダイスガダイラジッケンジョ）、「大阪大学菅平実験センター」（オオサカダイガクスガダイラジッケンセンター）、「菅平実験センター」（スガダイラジッケンセンター）、「菅平阪大実験センター」（スガダイラハンダイジッケンセンター）などと言い換えて発声することが考えられるが、従来は、想定される言い方のバリエーションを全て人手で辞書に追加していた。
【０００４】
しかし、対象の単語数が多い場合や、認識対象の語彙が逐次更新される場合、これらを全て人手で登録することは困難であり、自動処理が必須である。
【０００５】
この問題に対して、限定されたテキストを対象として言い換えを自動生成する手法として、対象範囲のテキストから形態素解析や読み付与のあいまい性、部分的な省略を考慮した言い換えを辞書へ自動追加する方法が特許文献２に開示されている。
【０００６】
図１８は、特許文献２に開示された手法による音声認識辞書作成装置の動作を説明する機能ブロック図である。図１８において、１０は言い換え表現を求める対象となる文字列情報である。１１は本文献で開示された辞書作成装置であって、１２は文字列情報１０をテキスト分割し、その読みを付与する解析処理手段である。また１３は解析処理手段１２がテキスト分割し、その読みを付与するために参照記憶する言語解析辞書であり、１００１はテキスト分割および読み付与手段１２の出力に基づいて言い換え表現を生成する語彙作成手段であって、１６は語彙作成手段１００１が生成した言い換え表現を記憶する語彙記憶手段である。
【０００７】
解析処理手段１２は、文字列情報１０で示される表記テキストを部分文字列へ分割し、それぞれの部分文字列へ読みを付与する。分割方法や読み方にあいまい性がある場合は、それらを全て含むような複数の候補へ分割することができる。言語解析辞書１３は、解析処理部がテキスト分割し読み付与するために参照する辞書である。
【０００８】
語彙作成手段１００１は、解析処理手段１２で分割されて読みを付与されたテキストを読み込み、分割した候補から任意の部分文字列の組み合わせを生成して、出力する。
【０００９】
語彙記憶手段１６は、音声認識用の辞書であり、語彙作成手段1001で作成された部分文字列の組み合わせとその読みを認識語彙として記憶する。
【００１０】
図１９は、特許文献２で開示された手法による音声認識辞書作成の例である。「大阪大学菅平実験センター」という認識対象語は、形態素解析されて形態素へ分割される。分割した形態素それぞれに読みを付与し、これらの任意の組み合わせを辞書へ登録する。さらに、形態素分割のあいまい性、読み付与のあいまい性が考慮され、組み合わせのそれぞれに出現確率を付与することも可能である。この場合であれば、図１９に示す６つの形態素がそれぞれ一通りの読みを持つため、６３通りの組み合わせが生成される。
【００１１】
また、認識対象語を、この語よりも短い言語単位の組み合わせとして表すことにより、任意の言い換えを大語彙連続音声認識の枠組みでも扱うことができる。一般的な大語彙の連続音声を対象とした音声認識方法として、大量のテキストから単語の連鎖確率を統計的に学習した言語モデルを認識辞書として用いる方法がある。例えば、特許文献３では、読みを考慮して日本語の大語彙を扱う言語モデルを作成する方法が開示されている。
【００１２】
これらの手法により認識辞書を作成することにより、音声認識を実施可能である。その典型的な手法は、非特許文献１に詳しく記されている。
【００１３】
【特許文献１】
特開２０００−０２９４９０（段落００５１）
【００１４】
【特許文献２】
特開２００２−４１０８１（第１図）
【００１５】
【特許文献３】
特開平１１−２５９０８８（段落００１１−００４６、第２図）
【００１６】
【非特許文献１】
「音声認識の基礎（上、下）」Ｌ．Ｒ．ＲＡＢＩＮＥＲ、Ｂ．Ｈ．ＪＵＡＮＧ（古井監訳）、１９９５年、１１月、ＮＴＴアドバンステクノロジ
【００１７】
【非特許文献２】
「音声認識システム」鹿野・伊藤・河原・武田・山本、２００１年、オーム社、ｐ１０８
【００１８】
【発明が解決しようとする課題】
しかし、特許文献２で開示された手法は、主に認識対象とするテキストの一部を組み合わせることにより言い換え表現を生成するものである。したがって認識対象となるテキスト表記には現れない表現を組み合わせて得られるような言い換え表現を生成することができない。また与えられたテキストの部分の順序が入れ替わる言い換え表現を生成することもできないという問題がある。
【００１９】
また、特許文献３で開示された手法は、高精度な言語モデルの学習には認識対象とするユーザ発声を大量に収集し、テキスト化する必要がある。これは、非常に高コストであり、データ収集を含めると開発に長い時間を要する。また、認識単語数が増加すると、全ての単語の十分な言い回しを集めること自体が困難という問題がある。さらに、認識結果と認識対象となる語の関係が明確でないという問題がある。
【００２０】
そこで、本発明の目的は、認識語彙を低コストかつ効率的に追加することにより、高い認識精度を得る音声認識用辞書作成装置、作成された辞書を用いた音声認識装置、および音声認識用辞書作成方法、作成された辞書を用いた音声認識方法を提供することである。
【００２１】
【課題を解決するための手段】
本発明に係る音声認識用辞書作成方法は、見出し語を入力する入力ステップと、不揮発性記憶装置に記憶され入力語と出力語との関係を表現する語置換規則に基づいて、前記見出し語を前記入力語とする前記出力語を言い換え表現として取得し、さらにその言い換え表現の読みを取得する言い換え表現作成ステップと、前記言い換え表現とその読みを音声認識用辞書に記憶させる出力ステップを有する方法であって、前記入力ステップが入力した見出し語を部分文字列に分割し、前記見出し語から分割された部分文字列ごとに言語的意味を付与する文字列分割ステップを有し、前記言い換え表現作成ステップは、前記部分文字列を前記入力語とする前記語置換規則の前記出力語に基づいて、その部分文字列の言い換え表現とその読みを取得するステップであって、前記部分文字列の言語的意味に応じてその部分文字列と前後の部分文字列との入れ替えを指示する前記語置換規則に基づいて、前記見出し語から分割された部分文字列の言語的意味を参照することにより、前記見出し語の言い換え表現とその読みを取得するものである。
【００２２】
【発明の実施の形態】
実施の形態１．
図１は、第１の実施の形態に係る音声認識用辞書の作成方法と、これを用いた音声認識方法の動作を説明するブロック図である。図１において、１０は認識対象となる文字列表記を含む文字列情報である。文字列情報１０は、ハードディスク装置が記憶するファイルやＲＡＭが記憶する文字列、インターネット上のＨＴＭＬファイルなどでよく、処理の都度キーボードより入力することで与えてもよい。１１はユーザが発声するバリエーション表現を文字列情報１０にマッチング可能とする言い換え表現を生成する辞書作成装置である。辞書作成装置１１において、１２は文字列情報１０で示される表記テキストを部分文字列へ分割し、それぞれの部分文字列へ読みを付与する解析手段である。１３は解析処理手段１２が文字列情報１０をテキスト分割し、各部分文字列に読み付与するために参照する言語解析辞書である。１４は言い換え表現を生成する言い換え生成手段であって、１５は言い換え表現手段１４が言い換え表現を生成するために参照する言い換え辞書である。また１１０は認識処理の対象となる入力音声であって、１１１は入力音声１１０の音声認識を行う音声認識装置である。音声認識装置１１１において、１１２は入力音声１１０の分析を行う音響分析手段であり、１１３は音響分析手段１１２の出力結果と音響標準パタンとの尤度を求める尤度計算手段である。１１４は尤度計算手段１１３が参照する音響標準パタンであって、１１５は語彙記憶手段１６と尤度計算手段１１３との出力を照合して音声認識を行う照合手段である。なお、上記において、言語解析辞書１３、言い換え辞書１５、音響標準パタン１１４は、主としてハードディスク装置が記憶するファイルにより構成されるが、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）や磁気カードに記憶させたものを用いてもよく、また他の情報処理装置が動的に生成する結果をプロセス間通信などにより読み込んでこれらの構成要素としてもよい。
【００２３】
本実施の形態による辞書作成装置１１の動作について説明する。文字列情報１０が入力されると、解析処理手段１２は文字列情報１０をその形態素や文字などの単位に基づいて、部分文字列に分割する。次に解析処理手段１２は部分文字列に対応する読みを言語解析辞書１３より読み込む。言語解析辞書１３は、文字列表記ごとに少なくとも読み情報を記憶している。図２は、分割単位を形態素とした場合の、言語解析辞書１３が記憶する文字列表記と読みの例を示すものである。言語解析辞書１３は、文字列表記と対応する読みの他に、解析のための言語情報として、品詞や部分文字列間の接続確率などの情報を保持していてもよい。
【００２４】
次に言い換え生成手段１４は、解析処理手段１２の出力に対して、言い換え辞書１５が記憶する規則を適用して言い換えを生成し、言い換えと入力した元のテキストとの対応付けを付与して語彙記憶手段１６へ出力する。図３は、言い換え生成手段１４が言い換え表現を生成するために参照する言い換え辞書１５の構成例である。この例では、言い換え辞書１５は入力の形態素列、その読みと、出力する言い換えの形態素列と読みの対応付けを記憶している。図において、出力側の欄内に「ＮＩＬ」と記載されている場合は、入力側に指定された表現が省略可能であることを示している。
【００２５】
言い換え生成手段１４の出力結果は、語彙記憶手段１６によって音声認識用辞書として保管される。ここに格納される内容は、認識語彙の音響標準パタンの並びを表す読みと、読みと対応する元の入力テキストである。さらに、元のテキストおよび読みに付与された、付加情報があれば、それらも保持することもできる。付加情報とは、例えば、出現尤度、認識語彙間の接続情報である。
【００２６】
次に本実施の形態における音声認識装置１１１の動作について説明する。ユーザが入力音声１１０を発声すると図示せぬマイクロフォンなどによりこれを取り込み、音響分析手段１１２は、入力音声１０を一定時間間隔で分析して、音声の特徴をよく表す音響特徴量を計算する。例えば、１６ｋＨｚで標本化された音声信号を１０ｍｓ間隔で窓長２５ｍｓのＨａｍｍｉｎｇ窓で切り出して、１４次のＬＰＣ分析から１０次のメルケプストラム、１０次のデルタメルケプストラムを求め、１次のデルタパワーと合わせた合計２１次元の音響特徴量ベクトルを計算する。
【００２７】
このようにして求められた音響特徴量に対し、尤度計算手段１１３は、音響標準パタン１１４の記憶する音響標準パタンを照合して、照合の度合いを示す尤度を求める。音響標準パタン１１４とは、音声の断片について音響特徴量の性質を表す標準モデルであって、例えば音素を単位として、ＨＭＭ（隠れマルコフモデル）等によりモデル化されたものである。また、それぞれのモデルの構造はＬｅｆｔ−ｔｏ−ｒｉｇｈｔ型３状態、出力確率密度関数が１６混合の対角共分散行列からなるガウス分布とすることができる。
【００２８】
さらに照合手段１１５は、語彙記憶部から読み込んだ認識語彙の音響標準パタン系列に従い、例えばビタビアルゴリズムを使って認識候補の尤度を加算した累積尤度を計算する。入力音声の終端に到達したら、尤度の大きさを比較して認識結果を決定する。
【００２９】
次に図４の動作フローを用いて、本実施の形態による辞書の作成手順を説明する。ここでは、例として、「大阪大学菅平実験センター」という語を形態素単位の部分文字列へ分割して言い換えを生成する処理の過程を示すこととする。
【００３０】
まずステップＳ１１において、解析処理手段１２は、文字列情報１０の表記テキストを部分文字列へ分割し、それぞれの部分文字列へ読みを付与する。部分文字列への分割は、一般的な仮名漢字変換や形態素解析と同一の手法を用いることができる。例えば、文字列の左側から辞書と一致する最長部分を逐次切り出す方法や、分割したテキストの組み合わせの中から読み付与辞書１３の部分文字列と読みに付与されたスコアが高くなる部分文字列の組み合わせを選択する方法を用いてもよい。
【００３１】
部分文字列への分割や読みの付与にあいまい性がある場合は、可能な部分文字列の組み合わせを包含した形式で出力する。出力形式は、例えば、あいまい性を展開して列挙したものや、ラティスやトレリスを用いたより効率的な表現を用いる。ラティスやトレリスによる表現方法は、非特許文献２に詳しく説明されている。図２に示した辞書は、形態素を単位とした、部分文字列と対応する読みの組み合わせを示している。「大阪大学菅平実験センター」という入力は、形態素・読み付与のあいまい性を考慮すると、図５に示す３通りの解析候補が得られる。ただし、図中、スラッシュ（／）は部分文字列区切り、括弧内はカタカナ表記で当該部分文字列の読みを示す。
【００３２】
なお、解析処理手段１２は、文字列情報１０として、表記テキストの他にその読みを受け取ってもよい。この場合には、部分文字列に付与される読みは、文字列情報１０の有する読みと整合するものとする。図５の例では読み「オオサカダイガクスガダイラコウゲンジッケンセンター」という読みが付与されていれば、［１］の候補のみを選択されることになる。
【００３３】
次にステップＳ１２において言い換え生成手段１４は、解析処理手段１２の出力を言い換え辞書１５と照合する。その結果、言い換え生成手段１４は、部分文字列のうち言い換え辞書１５との照合に成功したものを言い換え辞書中の表現に置換することで、言い換え表記とその読みを作成する。ここで、言い換え辞書１５との照合は、解析処理手段１２が出力した部分文字列の複数の部分を範囲としても良い。また照合にあいまい性が生じる場合、すなわち、照合結果として複数の候補が選択できる場合には、それらの組み合わせを全て展開する。図３に示した例では、「大阪／大学」は「阪大」、「菅平／高原」は「菅平」、「実験／センター」は「実験／場」と置き換え可能であることがわかる。この結果、図５に示した分割・読み付与候補から、図６に示す１６通りの言い換え文字列を生成する。
【００３４】
最後にステップＳ１３において、生成した言い換え文字列を語彙記憶手段１６へ追加する。
【００３５】
次に図７の動作フローを参照し、本実施の形態による音声認識の手順を説明する。まず、ステップＳ１１０１において音響分析手段１１２は、入力音声１１０を１時刻フレーム分読み込み、音響分析して音響特徴量を得る。続いてステップＳ１１０２において、その音響特徴量と各音響標準パタン間の尤度を計算する。次にステップＳ１１０３において、認識語彙ごとに読みが指定する音響標準パタンの尤度を加算し、それまでの累積尤度へ加算する。次にＳ１１０４において、入力音声が終端に到達しているか判定し、到達していなければステップＳ１１０１へ戻る。最後にステップＳ１１０５において、入力音声の終端に到達したら、累積尤度が大きい認識候補を求め認識結果として出力する。
【００３６】
以上のように、本実施の形態によれば、文字列を分割し、分割された部分文字列に読み付与辞書を用いて読みを付与して、言い換え辞書に従って言い換え表現を生成可能である。言い換え表現は、辞書を用いて生成するので、元の文字列が含まない表現を生成することができる。また、単に一部の部分文字列をスキップして言い換え表現を生成する方法に比べると、不要な言い換えの生成を少なくすることができる。
【００３７】
なお、本実施の形態による辞書作成方法は、部分文字列への分割を行っているが、言い換え辞書は部分文字列だけでなく入力文字列全体に対しても適用可能であることはいうまでもなく、したがって部分文字列への分割処理を省略しても、言い換え表現を生成することが可能である。
【００３８】
また、本実施の形態による辞書作成方法、音声認識方法は、プログラムとして記憶媒体に記憶することもできる。この場合、このプログラムは、図１の辞書作成装置１１に対応する辞書作成プログラムと、音声認識装置１１１に対応する音声認識プログラムから構成される。辞書作成プログラムは、テキスト分割および読み付与手段１２と同様の処理を行う解析処理機能、言い換え生成手段１４と同様の処理を行う言い換え生成機能、語彙記憶手段１６と同様の処理を行う語彙記憶機能から構成されるソフトウェアである。また、音声認識プログラムは、音響分析手段１１２と同様の処理を行う音響分析機能、尤度計算手段１１３と同様の処理を行う尤度計算機能、照合手段１１５と同様の処理を行う照合機能から構成されるソフトウェアである。
【００３９】
実施の形態２．
図８は、実施の形態２に係る音声認識用辞書の作成方法を説明するブロック図である。図８において、２１は本実施の形態による辞書作成装置であり、辞書作成装置２１において、２２は文字列を部分文字列に分割し、それぞれの部分文字列にその読みと読み以外の言語情報を付与する言語解析手段である。また２３は文字列についての読み情報と言語情報を記憶する言語解析辞書である。２４は言語解析手段２２の出力結果に基づいて、言い換え表現を生成する言語情報付き言い換え生成手段であって、２５は、言語情報付き言い換え生成手段２４が参照する言語情報付き言い換え辞書である。なお本実施の形態において、実施の形態１と同じ符号を付した構成要素については、実施の形態１と同様であるため説明を省略する。
【００４０】
次に図９の動作フローを用いて、本実施の形態に示す辞書の作成手順を説明する。ここでは、実施の形態１の場合と同様に、「大阪大学菅平実験センター」という入力例について、形態素単位の部分文字列へ分割して言い換えを生成する処理の過程を示す。
【００４１】
初めにステップＳ２１において、言語解析手段２２は、文字列情報１０の表記テキストを部分文字列へ分割し、それぞれの部分文字列へ読み・言語情報を付与する。典型的な言語解析部の処理は、次のようなものである。
【００４２】
入力の表記文字列を形態素解析し、分割された形態素を単位として読みと品詞情報を得る。次に、形態素に付与された情報から言い換え生成に必要な形態素ごとの意味情報を言語解析辞書２３より得る。意味情報とは、地名・人名などの固有名詞のさらに詳細な情報や、業種・職種を表す語、修飾語などの分類である。さらに形態素を単位として、表記・品詞・意味を参照して、形態素間の係り受け関係や、並列関係などの統語情報を求める。部分文字列への分割や付与する言語情報にあいまい性がある場合、言語解析手段２２は可能な組み合わせをすべて包含した形式で出力する。
【００４３】
図１０は、解析結果の一例である。分割したそれぞれの部分文字列には読み、品詞、意味の言語情報が付与されている。また、複数の部分文字列にまたがる係り受けや並列関係の統語情報が付与されている。解析の結果、入力例は6形態素からなり、さらに３つの複合名詞から構成されていること、先頭の二つの複合名詞はそれぞれ最後の複合名詞にかかる並列構造を持つことがわかる。
【００４４】
なお、言語解析手段２２の入力は、テキスト表記と部分的な言語解析結果としてもよい。部分的な言語解析結果とは、例えば、図１０で示した解析結果の一部である。あらかじめ部分的な言語解析結果を与えることにより、言語解析の誤りを防ぐ効果がある。この場合、部分文字列の分割結果と付与される言語情報は、入力の言語情報と整合するものとする。
【００４５】
次にステップＳ２２において、言語情報付き言い換え生成手段２４は、言語解析手段２２の出力を、言語情報付き言い換え辞書２３と照合する。この照合処理においては、部分文字列の表記、読みのほか、部分文字列の品詞、意味、統語情報を利用することができる。辞書との照合にあいまい性がある場合は、それらの組み合わせを全て展開する。
【００４６】
図１１は、言語情報付き言い換え辞書２５の内容の例を示したものである。本実施の形態では、言語情報付き言い換え辞書は図のように、入力値の条件とそれに対応する出力値の組み合わせを、規則という形で与え、この規則が複数集合したものとなっている。各規則には、２−１、２−２のように規則番号が付与されている。この例では、入力値の条件として、表記の他、意味・構文による構造情報が表されている。ここで、図中の「＊」は、照合の際に無視できる項目であることを示す。また、出力値に「＜ｎ＞（ｎは数字）」と記載されている場合は、照合結果のｎ番目の部分文字列を出力とすることを示す。規則番号「２−１」「２−２」は、表記のみと対応する言い換えの例である。一方、規則「２−３」は地名の接尾語が省略可能であることを示す規則である。この規則により、表記上で「菅平／高原」を「菅平」と言い換える場合があることを表している。また、規則「２−４」では、２つの項（２つの部分文字列）からなる並列関係を検出したとき、それらの順番を入れ替えた言い換えを生成する規則の例を示している。このような規則の表現を許すことにより、語順の入れ替えや、隣接する部分文字列の言語情報に依存した言い換えの生成を処理できる。複数の部分文字列の照合は、統語情報を利用する。このため、「大学／菅平」「高原／実験」のように隣接しても、直接の統語関係がない場合は照合しない。
【００４７】
ステップＳ２３において言語情報付き言い換え生成手段２４が照合に成功した場合は、該当部分を言い換え辞書の出力表現に置換した表記・読みを作成する。図３に示した辞書では、実施の形態１について図６に示した言い換えの生成のほかに、省略や語順の入れ替えを許すため、図１２に示す１６通りの言い換えが生成可能である。
【００４８】
最後にステップＳ２４において、生成した文字列を辞書へ追加する。
【００４９】
本実施の形態によれば、言語情報付き言い換え辞書２５に従って表記と読みに加えて、意味や統語情報などの言語情報を利用することにより、言い換え表現を生成できる。ここで生成する言い換え表現は、言語情報を考慮したものであるため、不適切な言い換えを廃し、実際の発声を広範囲にカバーする結果、このような認識辞書を用いることで、従来より音声認識の精度を向上することができる。
【００５０】
なお、本実施の形態における辞書作成方法は、プログラムとして記憶媒体に記憶することもできる。このプログラムは、言語解析手段２２と同様の処理を行う言語解析機能、言語情報付き言い換え生成手段２４と同様の処理を行う言語情報付き言い換え生成機能、語彙記憶手段１６と同様の処理を行う語彙記憶機能から構成されるソフトウェアである。
【００５１】
実施の形態３．
図１３は、実施の形態３に係る音声認識用辞書の作成方法を説明するブロック図である。図１３において、３０は言い換え表現の生成対象となる文字列情報である。本実施の形態においては、文字列情報３０は出現頻度情報も有するものとする。３１は本実施の形態における辞書作成装置である。辞書作成装置３１において、３２は文字列情報３０のテキスト表記を部分文字列に分割するとともに、各部分文字列に出現頻度尤度を付与する言語解析・尤度付与手段である。３３は言語解析・尤度付与手段３２が参照する言語解析用尤度付き辞書である。３４は言語解析・尤度付与手段３２の出力結果に基づいて、各部分文字列に規則を適用し、言い換え表現を生成する一方で、言い換え生成尤度を付与する言語情報・尤度付き言い換え生成手段である。３５は言語情報・尤度付き言い換え生成手段３４が参照する言語情報・尤度付き言い換え辞書である。３６は言語情報・尤度付き言い換え生成手段３４の出力結果に基づいて、各言い換え表現の発声尤度を計算する言い換え生成尤度計算手段である。なお本実施の形態において、実施の形態１と同じ符号を付した構成要素については、実施の形態１と同様の動作を行うものであるため説明を省略する。
【００５２】
本実施の形態の特徴的な部分は、辞書作成装置３１が、出現頻度情報と、テキスト分割および言語情報付与における解析の尤もらしさと、生成した言い換えが出現する確率を考慮した尤度を生成した言い換えに付与する点にある。以下、図１３の機能ブロックについて説明する。
【００５３】
言語解析・尤度付与手段３２は、文字列情報３０から表記テキストを読み込み、可能な全ての分割候補による部分文字列へ分割する一方で、言語解析用尤度付き辞書３３を参照して、それぞれの部分文字列へ言語情報、出現頻度尤度および言語解析尤度を付与する。ここで言語情報には、部分文字列の読みと、品詞、意味、統語情報などを含み、出現頻度尤度には、文字列情報３０が有する出現頻度情報から求められる出現のしやすさを表す数値を含む。また言語解析尤度とは、表記テキストから分割された各部分文字列に付与された言語情報の尤もらしさを表す数値である。言語解析・尤度付与手段３２の解析結果は、分割された各部分文字列とその言語情報、出現頻度尤度、言語解析尤度の組、あるいは等価な出力形式で出力する。例えば図５で示した３つの分割・言語情報付与候補に対して、それぞれＬ０（１）、Ｌ０（２）、Ｌ０（３）、Ｌ０（４）という出現頻度尤度と、Ｌ１（１）、Ｌ１（２）、Ｌ１（３）、Ｌ１（４）という言語解析尤度を付与する。
【００５４】
次に、言語情報・尤度付き言い換え生成手段３４は、言語解析・尤度付与手段３２の出力結果を読み込み、言語情報・尤度付き言い換え辞書３５の記憶する規則の中から適用可能なものを選択して、言い換え表現を生成する。その一方で、言語情報・尤度付き言い換え生成手段３４は、それぞれの言い換えが生成される出現確率を表す言い換え尤度を付与する。例えば、図６で示した言い換え生成結果について、それぞれＬ２（１−１）、Ｌ２（１−２）…というように、言い換え生成尤度を付与する。
【００５５】
最後に、言い換え生成尤度計算手段３６は、言語情報・尤度付き言い換え生成手段３４の出力を読み込み、上記で説明した出現頻度尤度Ｌ０、言語解析尤度Ｌ１、言い換え尤度Ｌ２と、次に説明する読み配列尤度Ｌ３のうち、少なくとも一つを用いて対象語の発声尤度を計算し、認識語彙、その読みとともに語彙記憶手段１６へ格納する。この読み配列尤度Ｌ３とは、生成した読みの発声のしやすさや一般性を考慮して算出される尤度である。例えば、生成された認識語彙の読みＹがｍ個のモーラによりＹ＝［ｙ_１．．．ｙ_ｍ］と表わすことができるとき、読み付与尤度Ｌ３を発声される確率をＰ（Ｙ）とする。さらに、Ｐ（Ｙ）は、語彙のモーラ数に関して定義される確率分布とモーラ単位のＮ−ｇｒａｍ確率Ｐ_seq（Ｙ）の重み付き線形和として、Ｐ（Ｙ）＝α₁Ｐ_len（ｍ）＋α₂Ｐ_seq（Ｙ）、あるいは両者の積であるＰ（Ｙ）＝α₁Ｐ_len（ｍ）×α₂Ｐ_seq（Ｙ）とする。ここでα₁、α₂は重み付けパラメータである。Ｐ_seq（Ｙ）は、式１に基づいて算出する。
【００５６】
【数１】

【００５７】
次に図１４を用いて参照し、実施の形態3にかかるシステムの動作フローを説明する。まずステップＳ３１において、言語解析・尤度付与手段３２は、文字列情報および出現頻度情報３０の表記テキストを部分文字列へ分割し、それぞれの部分文字列へ言語情報と言語解析尤度を付与する。言語解析尤度は、例えば、解析時に適用したそれぞれの規則にあらかじめ尤度を付与しておき、それらの重み付き加重和や積として算出する。
【００５８】
次にステップＳ３２において、言語情報・尤度付き言い換え生成手段３４は、言語情報・尤度付き言い換え辞書３５を参照し、言語解析・尤度付与手段３２の出力である表記の部分文字列あるいは付与した言語情報と照合する辞書エントリを検索する。
【００５９】
続いてステップＳ３３において、言い換え生成尤度計算手段３６は、テキスト分割および読み付与尤度Ｌ１、言い換え尤度Ｌ２、生成された認識語彙の読み配列に基づく読み配列尤度Ｌ３の少なくとも一つを用いて、例えばそれらを重み付き加算して、それぞれの言い換えごとに尤度を付与する。
【００６０】
最後にステップＳ３４において、生成した文字列と尤度を認識辞書へ追加する。
【００６１】
本実施の形態によれば、言語情報・尤度付き言い換え辞書の記憶する言語情報を参照して照合処理を行うことにより、もとの文字列表記にはない表記を用いた言い換え表現を生成可能である。このため、不要な言い換えを生成することが少なく、効率的に言い換えを自動で生成することができる。さらに、それぞれの認識語彙に言語解析の信頼性、言い換えられる表現の出現確率を考慮した尤度を付与しており、この尤度は、言い換え候補の尤もらしさを表しているため、音声認識時に計算する累積尤度と合わせて、認識結果に反映することにより、精度の高い音声認識処理を実現することができる。
【００６２】
なお、本実施の形態による辞書作成方法、音声認識方法は、プログラムとして記憶媒体に記憶することもできる。この場合、このプログラムは、言語解析・尤度付与手段３２と同様の処理を行う言語解析・尤度付与機能、言語情報・尤度付き言い換え生成手段３４と同様の処理を行う言語情報・尤度付き言い換え生成機能、語彙記憶手段１６と同様の処理を行う語彙記憶機能から構成されるソフトウェアである。
【００６３】
実施の形態４．
図１５は、実施の形態４に係る音声認識用辞書の作成方法を説明するブロック図である。本実施の形態において、４１は生成した言い換え表現のうち尤度の低いものを削除する語彙候補枝刈り手段である。なお、本実施の形態において実施の形態３と同一の符号を付した構成要素については、実施の形態３と同様の動作を行うものであるため、説明を省略する。
【００６４】
語彙候補枝刈り手段４１は、認識語彙の表記・読みと、言い換え生成尤度計算手段36にて計算された言い換え生成尤度を入力として読み込み、入力された文字列情報一つごとに生成される認識語彙とその尤度のうち、尤度値の相対順位、尤度値としきい値との比較の少なくとも一条件により選んだ認識語彙のみ語彙記録部へ登録する。
【００６５】
次に図１６を用いて、本実施の形態に係るシステムの動作フローを説明する。ただし、ステップＳ３１、Ｓ３２、Ｓ３３については実施の形態３と同様の動作を行うものであるため、同一の記号を付し、説明を省略する。
【００６６】
ステップＳ４１において、語彙候補枝狩り手段４１は、ステップＳ３３により生成された認識語彙のうち、同一の語から生成された言い換えの中の相対的な尤度差、しきい値の少なくとも一条件を用いて、尤度が小さい言い換えを認識候補から削除する。
【００６７】
次に、ステップＳ４２において、ステップＳ４１の結果残存している言い換え候補を認識語彙として語彙記憶手段１６へ記憶する。
【００６８】
本実施の形態によれば、尤度が低く、出現する見込みが少ない言い換えを認識語彙から削除するため、この結果得られる認識辞書を用いて音声認識を行うことにより、語彙候補枝刈りを実施しない場合に比べて認識辞書サイズを削減することができ、限られた計算量・メモリで言い換えを処理可能とする効果がある。
【００６９】
なお、本実施の形態における辞書作成方法、音声認識方法はプログラムとして記憶媒体に記憶することもできる。この場合、このプログラムは、言語解析・尤度付与手段３２と同様の処理を行う言語解析・尤度付与機能、言語情報・尤度付き言い換え生成手段３４と同様の処理を行う言語情報・尤度付き言い換え生成機能、語彙候補枝刈り手段４１と同様の処理を行う語彙候補枝刈り機能、語彙記憶手段１６と同様の処理を行う語彙記憶機能から構成されるソフトウェアである。
【００７０】
実施の形態５．
図１７は、実施の形態５に係る音声認識用辞書の作成方法を説明するブロック図である。図において、５１は一以上の言い換え表現から所定の制約に適合する言い換え表現を選択する言い換え検証手段である。５２は言い換え検証手段５１に対して制約条件を与えるシステム知識データベースである。なお、本実施の形態において実施の形態３と同一の符号を付した構成要素については、実施の形態３と同様の動作を行うものであるため、説明を省略する。
【００７１】
次に本実施の形態による処理について説明する。言い換え検証手段５１は、言い換え生成尤度計算手段３６の出力する登録対象語彙の言い換え表現を全て読み込む。次に、システム知識データベース５２に与えられた制約に従い、認識語彙に用いる言い換え表現を選択する。システム知識データベース５２による制約とは、例えば音声認識システムの計算速度、メモリ量など、現実に実時間処理するために課せられる制約であり、これを満たすために生成された言い換え全体から尤度の低いものを順次削除する。具体的には、認識語彙から計算量と必要なメモリ量を求め、システムの条件を超える場合は、尤度の低い言い換えから順に認識語彙から削除する。ただし、全ての語について少なくとも一つの認識語彙は残す。
【００７２】
システム知識データベース５２による別の制約は、音声認識の性質から認識困難な語彙を削除するものである。例えば、認識語彙の読みの長さが非常に短い場合、十分な認識精度が確保できないという音声認識の制約がある。これを避けて十分な精度を得るために、例えば２音節以下の短い言い換えを削除する。あるいは、言い換え表現として同音異義語が多数生成されることによる選択範囲の制約も考えられる。同音、あるいは非常に類似した認識語彙がある場合は、正しく認識できたとしても、さらに認識語彙の候補から同定する必要が生じる。この候補数が増加すると、認識しても同定の処理が困難となる。そこで、このような制約条件をシステム知識データベース５２に定義することにより、尤度が低い同音あるいは類似した言い換えを削除する。
【００７３】
またその他の制約として、対象とするユーザ目的に応じた語彙の設定を行うことが考えられる。例えば、ある施設名がユーザ発話の認識対象であっても、ユーザが施設の電話番号を尋ねる場合と、施設近辺の天気を尋ねる場合では、それぞれ言い換えの傾向が異なる。これは、電話番号を尋ねる場合は、対象施設のチェーン名など、他の施設と識別する情報が強調される一方、天気を尋ねる場合は場所の情報こそが重要と考えられるためである。このような目的を達成するためにタスク知識による言い換え型の制約を条件としてシステム知識データベースに記述する。
【００７４】
このような言い換え検証部５１による処理を通じて、システムが実用的に稼動可能な認識語彙を選択する。最後に選択された言い換えとその尤度を認識対象語彙として語彙記憶手段１６へ出力する。
【００７５】
本実施の形態によれば、システムの言い換え検証手段５１によって、システムの制約を考慮した認識語彙を設定可能となり、全体の認識精度を改善させる効果がある。また、限られた計算量・メモリでの実施のために、認識辞書サイズを削減する効果がある。この結果、音声認識に用いた場合は、コンパクトで高精度の音声認識エンジンが構築可能となる。
【００７６】
なお、本実施の形態における辞書作成方法、音声認識方法は、プログラムとして記憶媒体に記憶することもできる。この場合、このプログラムは、言語解析・尤度付与手段３２と同様の処理を行う言語解析・尤度付与機能、言語情報・尤度付き言い換え生成手段３４と同様の処理を行う言語情報・尤度付き言い換え生成機能、言い換え検証手段５１と同様の処理を行う言い換え検証機能、語彙記憶手段１６と同様の処理を行う語彙記憶機能から構成されるソフトウェアである。
【００７７】
【発明の効果】
本発明は、見出し語から分割された部分文字列を入力語とする語置換規則の出力語に基づいて、その部分文字列の言い換え表現とその読みを作成する際に、前記部分文字列の言語的意味に応じてその部分文字列と前後の部分文字列との入れ替えを指示する前記語置換規則に基づいて、前記見出し語から分割された部分文字列の言語的意味を参照することにより、前記見出し語の言い換え表現とその読みを作成することとしたので、見出し語の表記上出現しない表現を組み合わせた表現を含む音声認識用辞書を自動生成することが可能となる。
【図面の簡単な説明】
【図１】実施の形態１による辞書作成装置と音声認識装置のブロック図である。
【図２】実施の形態１における言語解析辞書の記憶内容例を示す図である。
【図３】実施の形態１における語置換規則の例を示す図である。
【図４】実施の形態１における辞書作成処理を表すフローチャートである。
【図５】実施の形態１における形態素解析を用いた文字列分割結果の例を示す図である。
【図６】実施の形態１における言い換え表現生成結果の例を示す図である。
【図７】実施の形態１における音声認識処理を表すフローチャートである。
【図８】実施の形態２における辞書作成装置のブロック図である。
【図９】実施の形態２における辞書作成処理のフローチャートである。
【図１０】実施の形態２における言語的意味の付与例を示す図である。
【図１１】実施の形態２における語置換規則の例を示す図である。
【図１２】実施の形態２における言い換え表現生成結果の例を示す図である。
【図１３】実施の形態３における辞書作成装置のブロック図である。
【図１４】実施の形態３における辞書作成処理のフローチャートである。
【図１５】実施の形態４における辞書作成装置のブロック図である。
【図１６】実施の形態４における辞書作成処理のフローチャートである。
【図１７】実施の形態５における辞書作成装置のブロック図である。
【図１８】従来技術による辞書作成装置のブロック図である。
【図１９】従来技術の動作例を示す図である。
【符号の説明】
１０：文字列情報１１：辞書作成装置１２：解析処理手段
１３：言語解析辞書１４：言い換え生成手段１５：言い換え辞書
１６：語彙記憶手段２１：辞書作成装置２２：解析処理手段
２３：言語解析辞書２４：言語情報付き言い換え生成手段
２５：言い換え辞書３１：辞書作成装置３２：言語解析・尤度付与手段
３３：言語解析用尤度付き辞書３４：言語情報・尤度付き言い換え生成手段
３５：言語情報・尤度付き言い換え辞書３６：言い換え生成尤度計算手段
４１：語彙候補枝刈り手段５１：言い換え検証手段
５２：システム知識データベース１１０：入力音声１１１：音声認識装置
１１２：音響分析手段１１３：尤度計算手段１１４：音響標準パタン
１１５：照合手段１００１：語彙作成手段

Claims

見出し語を入力する入力ステップと、
不揮発性記憶装置に記憶され入力語と出力語との関係を表現する語置換規則に基づいて、前記見出し語を前記入力語とする前記出力語を言い換え表現として取得し、さらにその言い換え表現の読みを取得する言い換え表現作成ステップと、
前記言い換え表現とその読みを音声認識用辞書に記憶させる出力ステップを有する方法であって、
前記入力ステップが入力した見出し語を部分文字列に分割し、前記見出し語から分割された部分文字列ごとに言語的意味を付与する文字列分割ステップを有し、
前記言い換え表現作成ステップは、前記部分文字列を前記入力語とする前記語置換規則の前記出力語に基づいて、その部分文字列の言い換え表現とその読みを取得するステップであって、前記部分文字列の言語的意味に応じてその部分文字列と前後の部分文字列との入れ替えを指示する前記語置換規則に基づいて、前記見出し語から分割された部分文字列の言語的意味を参照することにより、前記見出し語の言い換え表現とその読みを取得することを特徴とする音声認識用辞書作成方法。
前記言い換え表現作成ステップは、前記部分文字列の言語的意味に応じてその部分文字列の省略を指示する前記語置換規則に基づいて、前記見出し語から分割された部分文字列の言語的意味を参照することにより、前記見出し語の言い換え表現とその読みを取得することを特徴とする請求項１に記載された音声認識用辞書作成方法。
見出し語を入力する入力ステップと、
不揮発性記憶装置に記憶され入力語と出力語との関係を表現する語置換規則に基づいて、前記見出し語を前記入力語とする前記出力語を言い換え表現として取得し、さらにその言い換え表現の読みを取得する言い換え表現作成ステップと、
前記言い換え表現とその読みを音声認識用辞書に記憶させる出力ステップを有する方法であって、
前記入力ステップが入力した見出し語を部分文字列に分割し、前記部分文字列ごとに出現頻度尤度と言語解析尤度とを付与する文字列分割ステップを有し、
前記言い換え表現作成ステップは、前記部分文字列を前記入力語とする前記語置換規則の前記出力語に基づいて、その部分文字列の言い換え表現とその読みを取得するステップであって、前記部分文字列の前記出現頻度尤度と前記言語解析尤度から前記言い換え表現の発声尤度を算出し、
前記出力ステップは、この言い換え表現の発声尤度を音声認識用辞書に記憶させることを特徴とする音声認識用辞書作成方法。
前記言い換え表現作成ステップは、作成された前記言い換え表現から前記言い換え表現の発声尤度が所定の条件を満たす言い換え表現を選択し、
前記出力ステップは、前記言い換え表現作成ステップが選択した言い換え表現とその読みを音声認識用辞書に記憶させることを特徴とする請求項３に記載された音声認識用辞書作成方法。
前記言い換え表現作成ステップは、不揮発性記憶装置が記憶するシステム知識データベースに基づく所定の条件に従って、前記見出し語の言い換え表現とその読みを選択し、
前記出力ステップは、前記言い換え表現作成ステップが選択した言い換え表現とその読みを音声認識用辞書に記憶させることを特徴とする請求項４に記載された音声認識用辞書作成方法。
見出し語を入力する入力手段と、
不揮発性記憶装置が記憶し入力語と出力語との関係を表現する語置換規則に基づいて、前記見出し語を前記入力語とする前記出力語を言い換え表現として取得し、さらにその言い換え表現の読みを取得する言い換え表現作成手段と、
前記言い換え表現とその読みを音声認識用辞書に記憶させる出力手段を有するものであって、
前記入力手段が入力した見出し語を部分文字列に分割し、前記見出し語から分割された部分文字列ごとに言語的意味を付与する文字列分割手段を備え、
前記言い換え表現作成手段は、前記部分文字列を前記入力語とする前記語置換規則の前記出力語に基づいて、その部分文字列の言い換え表現とその読みを取得する構成であって、前記部分文字列の言語的意味に応じてその部分文字列と前後の部分文字列との入れ替えを指示する前記語置換規則に基づいて、前記見出し語から分割された部分文字列の言語的意味を参照することにより、前記見出し語の言い換え表現とその読みを取得する構成とされたことを特徴とする音声認識用辞書作成装置。
前記言い換え表現作成手段は、前記部分文字列の言語的意味に応じてその部分文字列の省略を指示する前記語置換規則に基づいて、前記見出し語から分割された部分文字列の言語的意味を参照することにより、前記見出し語の言い換え表現とその読みを取得する構成とされたことを特徴とする請求項６に記載された音声認識用辞書作成装置。
見出し語を入力する入力手段と、
不揮発性記憶装置が記憶し入力語と出力語との関係を表現する語置換規則に基づいて、前記見出し語を前記入力語とする前記出力語を言い換え表現として取得し、さらにその言い換え表現の読みを取得する言い換え表現作成手段と、
前記言い換え表現とその読みを音声認識用辞書に記憶させる出力手段を有するものであって、
前記入力手段が入力した見出し語を部分文字列に分割し、前記部分文字列ごとに出現頻度尤度と言語解析尤度とを付与する文字列分割手段を備え、
前記言い換え表現作成手段は、前記部分文字列を前記入力語とする前記語置換規則の前記出力語に基づいて、その部分文字列の言い換え表現とその読みを取得する構成であって、前記部分文字列の前記出現頻度尤度と前記言語解析尤度から前記言い換え表現の発声尤度を算出する構成とされ、
前記出力手段は、この言い換え表現の発声尤度を音声認識用辞書に記憶させる構成とされたことを特徴とする音声認識用辞書作成装置。
前記言い換え表現作成手段は、作成された前記言い換え表現から前記言い換え表現の発声尤度が所定の条件を満たす言い換え表現を選択し、
前記出力手段は、前記言い換え表現作成手段が選択した言い換え表現とその読みを音声認識用辞書に記憶させる構成とされたことを特徴とする請求項８に記載された音声認識用辞書作成装置。
前記言い換え表現作成手段は、不揮発性記憶装置が記憶するシステム知識データベースに基づく所定の条件に従って、前記見出し語の言い換え表現とその読みを選択し、
前記出力手段は、前記言い換え表現作成手段が選択した言い換え表現とその読みを音声認識用辞書に記憶させる構成とされたことを特徴とする請求項９に記載された音声認識用辞書作
成装置。
前記システム知識データベースは、前記音声認識用辞書作成装置についてのハードウェア資源上の制約を満たすことを前記所定の条件とする構成とされたことを特徴とする請求項１０に記載された音声認識用辞書作成装置。
前記システム知識データベースは、音声認識の性質上認識困難な語彙を棄却することを前記所定の条件とする構成とされたことを特徴とする請求項１０に記載された音声認識辞書作成装置。
前記システム知識データベースは、ユーザの使用目的に応じた語彙を優先的に選択することを前記所定の条件とする構成とされたことを特徴とする請求項１０に記載された音声認識辞書作成装置。
時系列に従い入力音声を分析して音響特徴量を算出する音響分析手段と、
前記音響特徴量と音響標準パタンとを照合し、尤度を算出する尤度計算手段と、
前記尤度から音声認識用辞書が記憶する語彙についての尤度を算出し、尤度の高い語彙を認識語彙として出力する照合手段とを有する音声認識装置において、
前記音声認識用辞書は、請求項６乃至請求項１３のいずれか一に記載された音声認識辞書作成装置により作成されたことを特徴とする音声認識装置。