JP2008051895A

JP2008051895A - 音声認識装置および音声認識処理プログラム

Info

Publication number: JP2008051895A
Application number: JP2006225678A
Authority: JP
Inventors: Takashi Yamatani; 崇史山谷; Masaaki Kikuchi; 正哲菊地
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2006-08-22
Filing date: 2006-08-22
Publication date: 2008-03-06

Abstract

【課題】音声認識装置において、音声認識結果をユーザが再確認することによる誤り部分の見つけ出しなど、煩わしい作業を要さずに、容易に誤り部分を訂正して修正する。
【解決手段】音声入力部１１に入力され音声認識部１２で入力音声の文節毎に音声認識された文字列データを未確定文保持部１３で保持して表示部１４に表示させる。誤って音声入力した文節があった場合に、その文節を含む一文を言い直して音声入力し認識させると、同一判定部１５にて前記未確定文保持部１３に保持された前回音声認識に伴う未確定文とその文節毎の一致有無および一致数に基づき同じ文であるか否か判定される。そして言い直しによる同じ文と判定された場合は、修正統合部１７で当該未確定文と今回認識文とが各文節毎に統合され、例えば一致文節についてはそのままの文節単語で、不一致文節については今回認識された文節単語で統合修正され新たな未確定文として更新表示される。
【選択図】図１

Description

本発明は、音声認識された文章の修正機能を有する音声認識装置および音声認識処理プログラムに関する。

従来、音声認識装置により認識処理された文章に誤りがある場合、認識表示された文章中の誤り部分をカーソルなどのポインタにより指定し、他の正しい文字あるいは文字列に訂正して修正するのが一般的である。

しかしながら、音声認識されて表示された文章中の文字列を確認することで、誤った文字あるいは文字列を見つけ出しこれを指定して訂正入力を行うのは、その誤り部分の見つけ出しから個々の指定作業や入力訂正作業に至るまで一々手間が掛かり面倒である。

そこで、誤って音声入力した部分を再度言い直して音声入力し再認識させることで訂正するようにした音声認識装置が考えられている（例えば、特許文献１参照。）。

この言い直しによる訂正機能を備えた音声認識装置では、一旦音声認識された文章を音声出力し、この音声出力中において誤認識されて出力される単語を聞き分け、当該誤認識単語の出力中に正しい単語を再度音声入力して再認識させることで、該当する部分的な単語の修正を行うものである。
特開２００３−３３０４８８号公報

前記従来の言い直しによる訂正機能を備えた音声認識装置では、誤って音声入力した部分を言い直して再音声認識させることで修正処理できるものの、最初に音声認識された文章の音声出力中にその単語単位で注意して正誤を聞き分け、直ぐさま言い直しの音声入力をしなければならず、常に注意力が必要であると共に素早い対応が必要となり、非常に煩わしい問題がある。

本発明は、このような課題に鑑みなされたもので、音声認識結果をユーザが再確認することによる誤り部分の見つけ出しなど、煩わしい作業を要することなく、容易に誤り部分を訂正して修正することが可能になる音声認識装置および音声認識処理プログラムを提供することを目的とする。

請求項１に記載の音声認識装置は、音声入力手段と、この音声入力手段により入力された音声を文として認識する音声認識手段と、この音声認識手段により認識された文を表示する認識文表示手段と、前記音声認識手段により今回音声認識された文が前記音声入力手段での言い直しによる音声入力に伴い音声認識された文であるか否かを判定する同一文判定手段と、この同一文判定手段により今回音声認識された文が言い直しによる音声入力に伴い音声認識された文であると判定された場合に、前記音声認識手段により前回音声認識された文と今回音声認識された文との不一致部分を修正した新たな文を生成する修正文生成手段とを備えたことを特徴としている。

請求項２に記載の音声認識装置は、前記請求項１に記載の音声認識装置において、前記同一文判定手段は、前記音声認識手段により前回音声認識された文の各文節と今回音声認識された文の各文節とを対応付けたマトリクスを生成する文節対応マトリクス生成手段と、この文節対応マトリクス生成手段により生成されたマトリクス上で、前回音声認識された文節と今回音声認識された文節とが一致する位置にマークを追加する一致マーク追加手段とを有し、この一致マーク追加手段により前記マトリクス上に追加された文節一致マークが所定数以上あるか否かに応じて、今回音声認識された文が言い直しによる音声入力に伴い音声認識された文であるか否かを判定することを特徴としている。

請求項３に記載の音声認識装置は、前記請求項１または請求項２に記載の音声認識装置において、前記同一文判定手段により今回音声認識された文が言い直しによる音声入力に伴い音声認識された文ではないと判定された場合に、前記音声認識手段により前回音声認識された文を確定文として保持する確定文保持手段をさらに備えたことを特徴としている。

本発明の請求項１（請求項４）に記載の音声認識装置（音声認識処理プログラム）によれば、音声認識手段により今回音声認識された文が音声入力手段での言い直しによる音声入力に伴い音声認識された同一文であるか否かを判定し、この同一文判定により今回音声認識された文が言い直しによる音声入力に伴い音声認識された文であると判定された場合に、前記音声認識手段により前回音声認識された文と今回音声認識された文との不一致部分を修正した新たな文を生成するので、音声認識結果をユーザが再確認することによる誤り部分の見つけ出しなど、煩わしい作業を要することなく、誤って音声入力した部分を含む一文を言い直して音声認識させるだけで、容易に誤り部分を修正した音声認識結果の文字列を得ることができる。

本発明の請求項２に記載の音声認識装置によれば、前記請求項１に記載の音声認識装置において、前記同一文判定手段では、音声認識手段により前回音声認識された文の各文節と今回音声認識された文の各文節とを対応付けたマトリクスを生成し、このマトリクス上で、前回音声認識された文節と今回音声認識された文節とが一致する位置にマークを追加する。そして、このマトリクス上に追加された文節一致マークが所定数以上あるか否かに応じて、今回音声認識された文が言い直しによる音声入力に伴い音声認識された文であるか否かを判定するので、文節毎の音声認識処理に基づき容易に言い直しの音声入力により認識された同一文であることを判定することができる。

本発明の請求項３に記載の音声認識装置によれば、前記請求項１または請求項２に記載の音声認識装置において、前記同一文判定手段により今回音声認識された文が言い直しによる音声入力に伴い音声認識された文ではないと判定された場合に、音声認識手段により前回音声認識された文を確定文として保持するので、言い直しによる音声入力に伴い音声認識された文は未確定として保持された後、言い直しによらない新たな音声入力に伴い音声認識された際に確定保持される。

よって本発明によれば、音声認識結果をユーザが再確認することによる誤り部分の見つけ出しなど、煩わしい作業を要することなく、容易に誤り部分を訂正して修正することが可能になる音声認識装置および音声認識処理プログラムを提供できる。

以下図面により本発明の実施の形態について説明する。

図１は、本発明の実施形態に係る音声認識装置の構成を示す機能ブロック図である。

この音声認識装置は、コンピュータであるＣＰＵ（図示せず）を備えている。

ＣＰＵは、ハードディスクやフラッシュメモリなどの記憶装置（図示せず）に予め記憶された装置制御プログラムに従い装置各部の動作を制御し、図１の機能ブロックに対応した動作を実行させる。

なお、前記記憶装置に記憶される装置制御プログラムは、ＣＤ−ＲＯＭなどの外部記憶媒体から読み込まれたプログラムデータでもよいし、通信ネットワーク上のプログラムサーバから通信装置を介してダウンロードされたプログラムデータでもよい。

図１に示すように、マイクを備えた音声入力部１１により入力されたユーザの音声信号は、音声認識部１２へ出力されて音声認識される。

図２は、前記音声認識装置の音声認識部１２における音声認識処理に伴い生成される認識候補単語尤度順データ１３ａを示す図である。

この音声認識部１２は、不特定話者連続単語認識が可能であり、前記音声入力部１１から入力された例えば一連の文章からなる音声信号をその単語単位など予め設定される文節毎に文字あるいは文字列データとして認識するもので、各文節（単語）毎の認識処理は、図２に示すように、当該認識された複数の候補単語とそのそれぞれの尤度（前後文節の関連性に応じた適性を示す優先度など）に基づき最高尤度の第１候補単語が選択されて認識決定される。この場合、各候補単語それぞれの尤度は、当該尤度の合計が所定値（例えば“１”）を超えないように正規化される。

この音声認識部１２により音声認識された文章などの文字列データは、ＲＡＭなどの記憶装置からなる未確定文保持部１３において保持されると共に、表示部１４に出力されて表示される。

なお、前記未確定文保持部１３にて保持される音声認識された文字列データは、その各文節についての認識処理に伴い得られた認識候補単語尤度順データ１３ａと共に記憶保持される。

一方、前記音声認識部１２において、２回目以降に音声認識された一連の文章などの文字列データは、先ず、同一判定部１５に送られる。

この同一判定部１５は、前記音声認識部１２から送られた２回目以降の音声認識に伴う一連の文章などの文字列データと、前記未確定文保持部１３にて前回の音声認識に伴い保持された未確定の文字列データとを対比し、同一の文章の文字列データであるか否（別の文章）かを判定する。

この同一判定部１５において、今回の音声認識に伴う文字列データと前回の音声認識に伴う未確定の文字列データとが同一文章の文字列データではない別の文章であると判定された場合には、その修正のための同じ文章の言い直しは行っていないと判断できるので、前記未確定文保持部１３に保持されている未確定の文字列データは、確定文保持部１６に確定保持されると共に、表示部１４に出力されて表示される。

また、前記同一判定部１５において、今回の音声認識に伴う文字列データと前回の音声認識に伴う未確定の文字列データとが同一文章の文字列データであると判定された場合には、その修正のための同じ文章の言い直しが行われたと判断できるので、当該今回音声認識に伴う文字列データと前回音声認識に伴う未確定の文字列データとは修正統合部１７に送られる。

この修正統合部１７は、前記同一であると判定された今回音声認識に伴う文字列データと前回音声認識に伴う未確定の文字列データとについて、各文節毎の音声認識候補単語をその尤度順に整理すると共に最高尤度の第１候補単語を順次並べて統合し、新たな文字列データを生成するもので、この際、前回音声認識に伴う未確定の文字列データに部分的な誤りがあった場合にはその部分が今回音声認識に伴う第１候補単語を優先として修正されることになる。

前記修正統合部１７にて統合（修正）された文字列データは、その各文節毎の認識候補単語尤度順データ１３ａと共に前記未確定文保持部１３にて保持されると共に、表示部１４に出力されて表示される。

図３は、前記音声認識装置の同一判定部１５における今回音声認識に伴う文字列データと前回音声認識に伴う未確定の文字列データとの同一判定に伴い生成される認識結果文節数対未確定文節数のマトリクスを示す図である。

同一判定部１５では、先ず図３（Ａ）に示すように、前回音声認識に伴う未確定文の文節数と今回音声認識に伴う認識結果文節数とのマトリクスを生成し、当該マトリクスにおいて、図３（Ｂ）に示すように、認識された文節が一致するところの未確定文節との組合せ位置に対応してショートカット（一致マーク）Ｓを追加する。

例えば、前記図３（Ｂ）で示した同一判定のマトリクスでは、未確定文の第１文節に対し今回認識された第１文節と第５文節が一致し、また未確定文の第２，第３文節に対しては今回認識された同第２，第３文節が一致し、また、未確定文の第６文節に対しては今回認識された第１文節と第６文節が一致したことを示している。

このマトリクスデータにおいて、第１文節から最終文節までのショートカットＳの最短経路検索を行い、そのショートカットＳの数が未確定文の文節数に対し所定数以上存在した場合には、当該未確定文と今回認識文とは同一の文章であると判定する。

次に、前記構成の音声認識装置における音声認識の修正機能について説明する。

図４は、前記音声認識装置における音声認識の修正処理を示すフローチャートである。

音声入力部１１に音声が入力されると（ステップＳ１）、この入力された音声は音声認識部１２において音声認識される（ステップＳ２）。

そして、前記音声認識部１２にて音声認識された文字列データは同一判定部１５において前回音声認識された未確定の文字列データと同一の文章か別の文章かが判定される（ステップＳ３Ａ）。

図５は、前記音声認識装置における音声認識の修正処理に伴い同一判定部１５にて行われる同一判定処理を示すフローチャートである。

この同一判定処理が起動されると、先ず、前回音声認識されて未確定文保持部１３に記憶保持されている未確定文の文節数に対し今回音声認識された文の文節数が予め設定された同一の文節数範囲内であるか否か判断される（ステップＡ１）。

ここで、前記未確定文の文節数に対し今回音声認識された文の文節数が予め設定された同一の文節数範囲内でないと判断された場合には（ステップＡ１（Ｎｏ））、今回音声認識された文は前記未確定文保持部１３に記憶保持されている前回音声認識された未確定文
と同一の文章ではないと判断される（ステップＡ８（Ｓ３Ａ（Ｎｏ）））。

すると、前記未確定文保持部１３に記憶保持されている前回音声認識された未確定文の各文節（単語）がその認識候補単語尤度順データ１３ａ（図２参照）に従いその第１項補単語を順次選択して確定され、確定文保持部１６に対し確定文として追加保持される（ステップＳ６）。

そして、前記今回音声認識された文の文字列データとその文節（単語）毎の認識候補単語尤度順データ１３ａが新たな未確定文として前記未確定文保持部１３に記憶保持される（ステップＳ７）。

一方、同一判定処理（ステップＳ３Ａ）でのステップＡ１（図５参照）において、前記未確定文の文節数に対し今回音声認識された文の文節数が予め設定された同一の文節数範囲内であると判断された場合には（ステップＡ１（Ｙｅｓ））、当該未確定文の文節数と今回音声認識された文の文節数とに対応させたマトリクス（経路図）（図３（Ａ）参照）が生成される（ステップＡ２）。

そして、この生成されたマトリクス（経路図）において、今回音声認識された文節が一致するところの未確定文節との組合せ位置に対応してショートカット（一致マーク）Ｓが追加され（ステップＡ３）、その第１文節から最終文節までのショートカットＳの最短経路検索が行われる（ステップＡ４）。

すると、この最短経路検索により得られた第１文節から最終文節までのショートカットＳの数が前記未確定文に対する今回認識文の文節一致数としてカウントされ（ステップＡ５）、当該文節一致数が所定数以上あるか否かが判断される（ステップＡ６）。

ここで、前記未確定文に対する今回認識文の文節一致数が所定数以上あると判断された場合には、当該今回音声認識された文は、前記未確定文保持部１３に記憶保持されている前回音声認識された未確定文と同一（同じ文）である繰り返し入力された文章であると判定される（ステップＡ６→Ａ７（Ｓ３Ａ（Ｙｅｓ）））。

また、前記未確定文に対する今回認識文の文節一致数が所定数以上ないと判断された場合には、当該今回音声認識された文は、前記未確定文保持部１３に記憶保持されている前回音声認識された未確定文と同一でない別の文であると判定される（ステップＡ６→Ａ８（Ｓ３Ａ（Ｎｏ）））。そしてこの場合には、前述した通り、前回音声認識された未確定文の各文節（単語）がその認識候補単語尤度順データ１３ａ（図２参照）に従いその第１項補単語を順次選択して確定され、確定文保持部１６に対し確定文として追加保持された後（ステップＳ６）、今回音声認識された文の文字列データとその文節（単語）毎の認識候補単語尤度順データ１３ａが新たな未確定文として前記未確定文保持部１３に記憶保持される（ステップＳ７）。

一方、前記ステップＡ７において、今回音声認識された文が、前記未確定文保持部１３に記憶保持されている前回音声認識された未確定文と同一（同じ文）であり、繰り返し入力された文章であると判定された場合には（ステップＳ３Ａ（Ｙｅｓ））、当該同一判定された今回音声認識に伴う文と前回音声認識に伴う未確定文とについて、修正統合部１７により、各文節毎の音声認識候補単語がその尤度順に整理されると共に最高尤度の第１候補単語が順次並べられて統合され、新たな未確定文の文字列データが生成される（ステップＳ４Ｂ）。

図６は、前記音声認識装置における音声認識の修正処理に伴い修正統合部１７にて行われる統合処理を示すフローチャートである。

すなわち、この統合処理が起動されると、今回音声認識された文と前回音声認識に伴う未確定文とについて、その最初の文節から各文節毎に、今回音声認識候補単語と未確定候補単語とがその尤度順に整理されて最高尤度の第１候補単語が選択決定され、新たな未確定文として作成される（ステップＢ１〜Ｂ４（Ｓ４Ｂ））。

この際、前記同一判定部１５にて生成された今回音声認識文節と未確定文節とのマトリクス（経路図）（図３（Ｂ）参照）において、ショートカットＳの追加された一致文節については、今回認識候補単語および未確定候補単語の全候補単語を対象に最高尤度の第１候補単語が選択決定されて統合処理され、不一致文節については、今回認識候補単語を優先させた最高尤度の第１候補単語が選択決定されて統合処理される。

そして、今回音声認識された文と前回音声認識に伴う未確定文とについて、その最終文節までの統合処理が完了したと判断されると（ステップＢ３（Ｙｅｓ））、前記一連の統合処理は終了され（ステップＢ５）、前記統合作成された新たな未確定文が未確定文保持部１３に記憶保持されて更新される（ステップＳ５）。

これにより、前回音声認識に伴う未確定文の各文節中に例えば誤った音声入力により認識された誤った文節部分があった場合には、その誤った文節部分は同一文の繰り返しの音声入力による今回音声認識に伴い第１候補単語が優先統合されて修正されるようになる。

したがって、前記構成の音声認識装置における音声認識の修正機能によれば、音声入力部１１により入力され音声認識部１２にてその入力音声の文節毎に音声認識された文字列データを未確定文保持部１３で記憶保持して表示部１４に表示させる。この後、例えば誤って音声入力した文節があった場合に、その文節を含む一文を繰り返し言い直して音声入力し音声認識させると、同一判定部１５において前記未確定文保持部１３にて記憶保持された前回の音声認識に伴う未確定文とその文節毎の一致有無および一致数に基づき同じ文であるか否かが判定される。そして前回認識の未確定文と今回認識文とが言い直し入力による同じ文と判定された場合には、修正統合部１７により当該未確定文と今回認識文とがその各文節毎に統合され、例えば一致文節についてはそのままの文節単語で、不一致文節については今回認識された文節単語で統合修正されて新たな未確定文として更新表示されるので、音声認識結果をユーザが再確認することによる誤り部分の見つけ出しなど、煩わしい作業を要することなく、誤って音声入力した文節を含む一文を言い直して繰り返し音声入力して認識させるだけで、容易に誤り部分を訂正修正した音声認識結果の文字列を得ることができる。

また、前記構成の音声認識装置における音声認識の修正機能によれば、同一判定部１５において、前回音声認識に伴う未確定文文字列に対して今回音声認識に伴う文の文字列が、言い直しにより繰り返し音声入力認識された同じ文であるか否かを判定するのは、未確定文の文節数を横軸、今回認識文の文節数を縦軸としたマトリクスにおいて、一致した文節位置に対応するマトリクス上にショートカット（一致マーク）Ｓを追加生成し、当該ショートカットＳの追加された一致文節数が所定数以上であると判断された場合に同じ文であると判定するので、文節毎の音声認識処理に基づき容易に繰り返し音声入力認識された同一文であることを判定することができる。

なお、前記実施形態において記載した手法、すなわち、図４のフローチャートに示す音声認識の修正処理、図５のフローチャートに示す前記音声認識の修正処理に伴う同一判定処理、図６のフローチャートに示す同音声認識の修正処理に伴う統合処理などの各手法は、コンピュータに実行させることができるプログラムとして、メモリカード（ＲＯＭカード、ＲＡＭカード等）、磁気ディスク（フロッピディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の外部記憶媒体（図示せず）に格納して配布することができる。そして、音声認識装置のコンピュータは、この外部記憶媒体に記憶されたプログラムを記憶装置に読み込み、この読み込んだプログラムによって動作が制御されることにより、前記実施形態において説明した音声認識の修正機能を実現し、前述した手法による同様の処理を実行することができる。

また、前記各手法を実現するためのプログラムのデータは、プログラムコードの形態として通信ネットワーク（公衆回線）上を伝送させることができ、この通信ネットワークに接続された通信装置（図示せず）によって前記プログラムデータを取り込み、前述した音声認識の修正機能を実現することもできる。

なお、本願発明は、前記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。さらに、前記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されたり、幾つかの構成要件が異なる形態にして組み合わされても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除されたり組み合わされた構成が発明として抽出され得るものである。

本発明の実施形態に係る音声認識装置の構成を示す機能ブロック図。前記音声認識装置の音声認識部１２における音声認識処理に伴い生成される認識候補単語尤度順データ１３ａを示す図。前記音声認識装置の同一判定部１５における今回音声認識に伴う文字列データと前回音声認識に伴う未確定の文字列データとの同一判定に伴い生成される認識結果文節数対未確定文節数のマトリクスを示す図。前記音声認識装置における音声認識の修正処理を示すフローチャート。前記音声認識装置における音声認識の修正処理に伴い同一判定部１５にて行われる同一判定処理を示すフローチャート。前記音声認識装置における音声認識の修正処理に伴い修正統合部１７にて行われる統合処理を示すフローチャート。

符号の説明

１１ …音声入力部
１２ …音声認識部
１３ …未確定保持部
１３ａ…認識候補単語尤度順データ
１４ …表示部
１５ …同一判定部
１６ …確定文保持部
１７ …修正統合部
Ｓ …一致文節位置対応のショートカット（一致マーク）

Claims

音声入力手段と、
この音声入力手段により入力された音声を文として認識する音声認識手段と、
この音声認識手段により認識された文を表示する認識文表示手段と、
前記音声認識手段により今回音声認識された文が前記音声入力手段での言い直しによる音声入力に伴い音声認識された文であるか否かを判定する同一文判定手段と、
この同一文判定手段により今回音声認識された文が言い直しによる音声入力に伴い音声認識された文であると判定された場合に、前記音声認識手段により前回音声認識された文と今回音声認識された文との不一致部分を修正した新たな文を生成する修正文生成手段と、
を備えたことを特徴とする音声認識装置。
前記同一文判定手段は、
前記音声認識手段により前回音声認識された文の各文節と今回音声認識された文の各文節とを対応付けたマトリクスを生成する文節対応マトリクス生成手段と、
この文節対応マトリクス生成手段により生成されたマトリクス上で、前回音声認識された文節と今回音声認識された文節とが一致する位置にマークを追加する一致マーク追加手段とを有し、
この一致マーク追加手段により前記マトリクス上に追加された文節一致マークが所定数以上あるか否かに応じて、今回音声認識された文が言い直しによる音声入力に伴い音声認識された文であるか否かを判定する、
ことを特徴とする請求項１に記載の音声認識装置。
前記同一文判定手段により今回音声認識された文が言い直しによる音声入力に伴い音声認識された文ではないと判定された場合に、前記音声認識手段により前回音声認識された文を確定文として保持する確定文保持手段をさらに備えたことを特徴とする請求項１または請求項２に記載の音声認識装置。
音声認識装置のコンピュータを制御するための音声認識処理プログラムであって、
前記コンピュータを、
音声入力部により入力された音声を文として認識する音声認識手段、
この音声認識手段により認識された文を表示部に表示させる認識文表示制御手段、
前記音声認識手段により今回音声認識された文が前記音声入力部からの言い直しによる音声入力に伴い音声認識された文であるか否かを判定する同一文判定手段、
この同一文判定手段により今回音声認識された文が言い直しによる音声入力に伴い音声認識された文であると判定された場合に、前記音声認識手段により前回音声認識された文と今回音声認識された文との不一致部分を修正した新たな文を生成する修正文生成手段、
として機能させるようにしたコンピュータ読み込み可能な音声認識処理プログラム。