JP2007256836A

JP2007256836A - 音声認識装置、音声認識方法および音声認識プログラム

Info

Publication number: JP2007256836A
Application number: JP2006083762A
Authority: JP
Inventors: Kazuo Sumita; 一男住田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-03-24
Filing date: 2006-03-24
Publication date: 2007-10-04
Anticipated expiration: 2026-03-24
Also published as: CN101042867A; US7974844B2; JP4734155B2; US20070225980A1

Abstract

【課題】音声認識の誤りの修正負担を軽減する音声認識装置を提供する。
【解決手段】単語間の意味関係と関連度とを対応づけて記憶する意味関係記憶部１２４と、音声入力を受付けるボタン入力受付部１１１と、認識候補と尤度とを生成する候補生成部１１４と、第１の音声に対する第１の認識候補から認識結果を選択する第１候補選択部１１５ａと、第１の音声の修正すべき単語と修正の手がかり語とを含む第２の音声に対する第２の認識候補から、修正すべき単語に対する単語の認識候補と手がかり語に対する単語の認識候補とを抽出し、抽出した認識候補間の意味関係に対応する関連度を取得し、関連度に基づいて認識結果を選択する第２候補選択部１１５ｂと、第１および第２の音声の認識結果を照合し、第１の音声の修正箇所を特定する修正箇所特定部１１６と、修正箇所を修正する修正部１１７と、を備えた。
【選択図】図２

Description

この発明は、音声信号を入力として文字列に変換する音声認識装置、音声認識方法および音声認識プログラムに関するものである。

近年、音声入力を用いたヒューマンインタフェースの実用化が進んでいる。例えば、ユーザが予め設定されている特定のコマンドを音声入力し、これをシステムが認識して対応する操作を実行することによって、ユーザが音声でシステムを操作することができるようにした音声操作システムが実現されている。また、ユーザが発生した任意の文章をシステムが分析し、文字列に変換することによって、音声入力による文書作成を可能とするシステムが実現されている。

さらに、ロボットとユーザとのインタラクションを音声入力によって可能するための研究開発も盛んに行われており、ロボットに対する動作指示やロボットを介しての様々な情報へのアクセスを音声入力によって行うことが試みられている。

このようなシステムでは、ユーザから発声された音声信号をデジタルデータに変換し、予め定められたパターンと比較することによって発話内容を認識する音声認識技術を利用している。

音声認識では、周囲の環境の雑音の影響や、ユーザの声質、音量、発声速度等の相違に起因して誤認識が発生しうる。また、方言が発声された場合、その方言に対応する単語が単語辞書に登録されていなければ未知語となり、方言を正しく認識することができない。さらに、標準パターンや単語ネットワーク、言語モデルなどにおける特徴量や確率値は、予め音声データやテキストコーパスを用いて構築することになるが、これらデータの不完全さに起因する誤認識も発生しうる。また、計算負荷軽減のために設けた候補数の制約により正しい認識結果が候補から外され、最終的に誤認識が発生する場合や、ユーザの言い間違え・言い直し等に起因して誤認識が発生する場合もある。

このように、音声認識では様々な原因によって誤認識が生じうるため、ユーザは何らかの手段で誤り箇所を正しい文字列に修正する必要がある。誤りの修正方法として最も確実で単純な方法として、キーボードやペンデバイスなどによって修正を行う方法が考えられるが、音声入力のハンズフリー性という特徴が失われる。また、キーボードやペンデバイスが簡単に利用できる状況であれば、当初から音声入力ではなくキーボードやペンデバイスを用いて入力を行えば十分であるため、ユーザインタフェースの観点から好ましくない。

誤認識を修正する他の方法として、ユーザが再度同じ内容の音声を発声して修正する方法が考えられるが、単に同じ内容を言い直すだけでは誤認識の再発を回避するのが困難である。また、長い文章をすべて再入力する場合等にはユーザの負担が増大する。

これに対し、特許文献１および特許文献２では、誤認識部分に対応する音声の一部のみを再度発声することにより誤りを修正する技術が提案されている。この技術では、先に入力された第１の音声の特徴量時系列データと、修正のための音声である第２の音声の特徴量時系列データを比較することにより、第１の音声内における第２の音声と類似する箇所を誤認識部分として検出する。そして、第１の音声における誤認識部分に対応する文字列を第２の音声の認識候補から削除して最も確からしい文字列を選択することにより、より精度の高い認識を実現している。

特開平１１−３３８４９３号公報特開２００３−３１６３８６号公報

しかしながら、特許文献１および特許文献２の方法では、多数の同音異義語または発音が類似する単語が存在する場合等に、再度誤認識が発生する可能性が高いという問題があった。

例えば、日本語の場合、「こうえん」という読みに対して、「講演」、「公園」、「後援」のように多くの同音異義語が存在する。また、「いちじ」という読みに対して、「１時」、「吉事」、「一字」、「７時」、「七次」というように同音異義語と共に読み方が類似する単語が多数存在する。

このように多数の同音異義語や読み方が類似する単語が存在する場合、従来の音声認識技術では、多数の同音異義語等の中から適切な単語を特定することができず、高精度に単語認識を行うことは困難であった。

このため、特許文献１および特許文献２の方法では、正しい結果が出力されるまで何度も同じ音声を発声しなければならず、修正処理の負担が増大する場合があるという問題があった。

本発明は、上記に鑑みてなされたものであって、入力音声に対する音声認識の誤りの修正負担を軽減することができる音声認識装置、音声認識方法および音声認識プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、単語間の意味関係と、意味関係の度合いを表す関連度とを対応づけて記憶する意味関係記憶手段と、音声の入力を受付ける入力受付手段と、前記入力受付手段が受付けた前記音声を音声認識し、認識候補と、当該認識候補の確からしさを示す尤度とを生成する候補生成手段と、第１の音声に対して前記候補生成手段が生成した第１の認識候補から、前記第１の認識候補の尤度に基づいて前記第１の音声の認識結果を選択する第１候補選択手段と、前記第１の音声に含まれる修正すべき単語と、修正の手がかりとなる単語である手がかり語とを含む第２の音声に対して前記候補生成手段が生成した第２の認識候補から、前記修正すべき単語に対する単語の認識候補と前記手がかり語に対する単語の認識候補とを抽出し、抽出した前記修正すべき単語に対する単語の認識候補と、抽出した前記手がかり語に対する単語の認識候補との間の意味関係に対応づけられた前記関連度を前記意味関係記憶手段から取得し、取得した前記関連度に基づいて前記第２の音声の認識結果を選択する第２候補選択手段と、前記第１の音声の認識結果と、前記第２の音声の認識結果とを照合し、前記第１の音声のうち前記修正すべき単語に対応する部分を特定する修正箇所特定手段と、特定した前記修正すべき単語に対応する部分を修正する修正手段と、を備えたことを特徴とする。

また、本発明は、上記装置を実行することができる音声認識方法および音声認識プログラムである。

本発明によれば、音声認識結果の誤りを修正する際に、修正する文字列に付加された意味的な制約情報を参照して修正発話の音声認識を行うことができる。このため、音声認識の精度が向上し、誤認識時の誤りの修正負担を軽減することができるという効果を奏する。

以下に添付図面を参照して、この発明にかかる音声認識装置、音声認識方法および音声認識プログラムの最良な実施の形態を詳細に説明する。

（第１の実施の形態）
第１の実施の形態にかかる音声認識装置は、音声認識の誤認識に対しユーザが修正して発話した音声を、ユーザが修正する文字列に付加した意味的な制約情報を参照して高精度に音声認識するものである。

図１は、第１の実施の形態にかかる音声認識装置１００の外観構成を示す説明図である。同図に示すように、音声認識装置１００は、主なハードウェア構成として、音声を入力する際にユーザが押下する音声入力ボタン１０１ａと、ユーザが音声認識結果の文字列に誤りを発見した場合に、修正のための音声を入力するためにユーザが押下する修正音声入力ボタン１０１ｂと、ユーザが発声した音声を電気信号として取り込むマイクロフォン１０２と、ユーザが入力した音声についての認識結果の単語列に対応する文字列を表示する表示部１０３とを備えている。

図２は、第１の実施の形態にかかる音声認識装置１００の構成を示すブロック図である。同図に示すように、音声認識装置１００は、主なハードウェア構成として上述の音声入力ボタン１０１ａと、修正音声入力ボタン１０１ｂと、マイクロフォン１０２と、表示部１０３とに加え、音素辞書記憶部１２１と、単語辞書記憶部１２２と、履歴記憶部１２３と、意味関係記憶部１２４と、言語モデル記憶部１２５とを備えている。

また、音声認識装置１００は、主なソフトウェア構成として、ボタン入力受付部１１１と、音声入力受付部１１２と、特徴量抽出部１１３と、候補生成部１１４と、第１候補選択部１１５ａと、第２候補選択部１１５ｂと、修正箇所特定部１１６と、修正部１１７と、出力制御部１１８とを備えている。

音素辞書記憶部１２１は、予め保持している各音素の特徴データの標準パターンを格納した音素辞書を記憶するものである。音素辞書は、従来から一般的に利用されているＨＭＭ（Hidden Markov Model）方式の音声認識処理で用いられる辞書と同様であり、後述する特徴量抽出部１１３が出力する特徴量時系列データと同等の形式で照合可能な特徴量時系列データが標準パターンとして各音素ラベルと対応づけて登録される。

図３は、音素辞書記憶部１２１に記憶された音素辞書のデータ構造の一例を示す説明図である。同図に示すように、音素辞書は、ノードと有向リンクからなる有限オートマトンで特徴量時系列データを表現する。

ノードは、照合の状態を表現しており、例えば、音素ｉに対応する各ノードの値ｉ１、ｉ２、ｉ３は、それぞれ異なる状態であることを表している。また、有効リンクには音素の部分要素となる特徴量（図示せず）が対応づけて記憶されている。

単語辞書記憶部１２２は、入力された音声と照合するための単語の情報を格納した単語辞書を記憶するものである。単語辞書は、ＨＭＭ方式の音声認識処理で用いられる辞書と同様であり、各単語に対応する音素列が予め登録され、音素辞書に基づく照合で得られる音素列から対応する単語を求めるために用いられる。

図４は、単語辞書記憶部１２２に記憶された単語辞書のデータ構造の一例を示す説明図である。同図に示すように、単語辞書は、単語と、単語を構成する音素列と、単語の出現確率とを対応づけて格納している。

単語の出現確率は、後述する第２候補選択部１１５ｂが修正入力された発話に対する認識結果を特定する際に利用するものであり、大量の音声データやテキストコーパスを用いて予め算出した値を格納する。

履歴記憶部１２３は、音声認識処理で出力される各種中間データを記憶するものである。中間データとしては、音素辞書との照合で得られる音素列の候補を表す音素列候補群、および単語辞書との照合で得られる単語列の候補を表す単語列候補群が存在する。

図５は、履歴記憶部１２３に記憶された音素列候補群のデータ形式の一例を示す説明図である。同図は、音素列候補群をラティス構造で表現した図である。なお、同図でＨはラティス構造の先頭ノード、Ｅは最終ノードを表しており、対応する音素や単語は存在しないノードである。

同図では、例えば、発話の最初の部分に対して、日本語で１時を意味する「ｉｃｈｉｊｉ」と発音される音素列と、日本語で７時を意味する「ｓｈｉｃｈｉｊｉ」と発音される音素列とが候補として出力されたことが示されている。

図６は、履歴記憶部１２３に記憶された単語列候補群のデータ形式の一例を示す説明図である。音素列候補群と同様に、単語列候補群はラティス構造で表現され、Ｈはラティス構造の先頭ノード、Ｅは最終ノードを表す。

同図では、例えば、発話の最初の部分に対して、日本語で１時を意味し「ｉｃｈｉｊｉ」と発音される単語と、日本語で一字を意味し同様に「ｉｃｈｉｊｉ」と発音される単語と、日本語で７時を意味する「ｓｈｉｃｈｉｊｉ」と発音される単語とが候補として出力されたことが示されている。

なお、図５および図６で図示した音素列候補群や単語列候補群には表示していないが、各音素に対応するノードや各単語に対応するノードには、入力音声の対応部分と間の類似度が対応づけて記憶される。すなわち、各ノードには、入力音声に対する各ノードの確からしさの度合いを示す尤度である類似度が対応づけられている。

意味関係記憶部１２４は、単語間の意味関係と、当該意味関係の関連の度合いを表す関連度とを対応づけて記憶するものであり、単語間の概念関係を階層構造で表したシソーラスなどにより表現することができる。

図７は、単語間の意味関係の一例を階層構造で表した説明図である。同図では、単語「館長」に対して、関連語として「図書館」、「美術館」等が対応づけられた例が示されている。また、同図では、「役職」と、「館長」および「艦長」とが上位下位概念の意味関係にある例が示されている。

同図に示すように、各意味関係には、関連度（ｒｅｌ）が対応づけられている。本実施の形態では、ｒｅｌは０以上１以下の値を取り、関連の度合いが大きい場合には大きい値を付与する。

なお、単語間の意味関係はこれに限られるものではなく、同義語、類義語などの従来からシソーラスとして表現される単語間の意味関係であればあらゆる関係を用いることができる。また、実際には意味関係の階層構造を表形式等で表したデータとして意味関係記憶部１２４に記憶される。

図８は、単語間の意味関係の別の一例を階層構造で表した説明図である。同図では、「時間」と、「昼」、「夕方」、および「夜」とが上位下位概念の意味関係にある例が示されている。また、同図では、「夕方」と、「４時」、「５時」、「６時」、および「７時」等の時間が上位下位概念の意味関係にある例が示されている。

言語モデル記憶部１２５は、単語間の接続関係と、接続関係の度合いを表す接続関連度とを対応づけた言語モデルを記憶するものである。言語モデルは、ＨＭＭ方式の音声認識処理で用いられるモデルと同様であり、中間データとして得られた単語列から最も確からしい単語列を求めるために参照される。

図９は、言語モデル記憶部１２５に記憶された言語モデルのデータ構造の一例を示す説明図である。同図は、２単語の連接を対象にしたｂｉ−ｇｒａｍで言語モデルを表し、２単語が連続して出現する確率を接続関連度とした例が示されている。

同図に示すように、言語モデルは、２つの単語（単語１、単語２）と、出現確率とを対応づけた形式となっている。出現確率は、予め大量のテキストコーパスを解析することによって作成しておく。言語モデルは２単語の連接を対象にしたｂｉ−ｇｒａｍに限られず、３つの単語の連接を対象にしたｔｒｉ−ｇｒａｍなどを言語モデルとしてもよい。

なお、音素辞書記憶部１２１、単語辞書記憶部１２２、履歴記憶部１２３、意味関係記憶部１２４、および言語モデル記憶部１２５は、ＨＤＤ（Hard Disk Drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。

ボタン入力受付部１１１は、音声入力ボタン１０１ａまたは修正音声入力ボタン１０１ｂの２つのボタンの操作イベント（押下、開放などのイベント）を受付けることにより、音声入力受付部１１２が受付けた音声のうち、音声認識の対象とする音声の開始位置や終了位置の指定を受付けるものである。具体的には、ボタン入力受付部１１１は、音声入力ボタン１０１ａおよび修正音声入力ボタン１０１ｂが予め定められた時間以上押下されている期間を、音声認識の対象区間として受付ける。これにより、いわゆるプッシュトーク方式の音声認識処理を実行することができる。

音声入力受付部１１２は、マイクロフォン１０２により利用者が入力した音声を受信し、受信した音声を電気信号に変換して特徴量抽出部１１３に出力するものである。具体的には、音声を取りこみ、電気信号に変換した後、Ａ／Ｄ（アナログデジタル）変換を行い、ＰＣＭ（パルスコードモジュレーション）形式などにより変換したデジタルデータを出力する。これらの処理は、従来から用いられている音声信号のデジタル化処理と同様の方法によって実現することができる。

なお、以下では音声入力ボタン１０１ａを押下中に音声入力受付部１１２が受付けた音声を第１の音声と呼ぶ。また、第１の音声に対して修正するために入力した音声であって、修正音声入力ボタン１０１ｂを押下中に音声入力受付部１１２が受付けた音声を第２の音声と呼ぶ。

特徴量抽出部１１３は、音声入力受付部１１２から出力されたデジタルデータを入力として、ＦＦＴ（高速フーリエ変換）に基づく周波数スペクトル分析などの手法により、音声を構成する音素を判別するための音響的な特徴を表す特徴量を抽出するものである。

この分析手法では、連続する音声波形の短い時間区間を切り出し処理することにより、分析対象とした時間区間における特徴量を抽出し、分析の時間区間を順じシフトさせていくことにより、特徴量の時系列データを取得することができる。なお、特徴量抽出部１１３は、上述のＦＦＴに基づく周波数スペクトル分析の他、線形予測分析、ケプストラム分析などの従来から音声認識技術で用いられているあらゆる手法により実現することができる。

候補生成部１１４は、音素辞書や単語辞書を用いて、第１の音声または第２の音声に対して確からしい音素列候補群ならびに単語列候補群を生成するものである。候補生成部１１４による候補生成処理は、従来から利用されているＨＭＭ方式の音声認識処理と同様の方式で実現できる。

具体的には、候補生成部１１４は、特徴量抽出部１１３により抽出された特徴量時系列データと音素辞書に格納された標準パターンと照合し、対応する有向リンクに従ってノードで表現される状態を遷移させることにより、類似度の高い音素候補を求める。

音素辞書に登録されている標準パターンとユーザが入力する音声とは一般に異なるものであるので、唯一の音素を求めることは困難であり、一般に後の処理で候補を絞り込むことを前提に、予め定められた個数の範囲で類似度の上位の音素が候補として生成される。

また、候補生成部１１４は、特許文献２で示されているように、第１の音声で特定された箇所の単語や文字列を第２の音声の認識結果から削除して候補を生成するように構成してもよい。

第１候補選択部１１５ａは、第１の音声に対して候補生成部１１４が出力した単語列候補群から、第１の音声に対して最も確からしい単語列を選択するものである。この処理も、従来から用いられているＨＭＭ方式の音声認識技術の処理を適用できる。ＨＭＭ方式では、最も確からしい単語列を求めるために、言語モデル記憶部１２５に記憶された言語モデルを利用する。

上述のように、言語モデルには２つの単語（単語１、単語２）と、当該２つの単語が連接して出現する確率である出現確率とを対応づけられている。従って、第１候補選択部１１５ａは、第１の音声に対して候補生成部１１４が出力した単語列候補群から２つの単語を取り出し、当該２つの単語に対応づけられた出現確率が最大の単語の組を最も確からしい単語として選択することができる。

第２候補選択部１１５ｂは、第２の音声に対して候補生成部１１４が出力した単語列候補群から、入力された第２の音声に対して最も確からしい単語列を選択するものである。第２候補選択部１１５ｂにおける単語列の選択処理では、シソーラスを用いて隣接文節のみの関係について検査する簡便な処理にすることができる。修正のための音声では、簡単な文が入力され、複雑な係り受けの文は想定する必要がないためである。この処理は、ダイナミックプログラミングの一種であるＶｉｔｅｒｂｉアルゴリズムを採用することにより実現できる。

具体的には、第２候補選択部１１５ｂは、修正発話に含まれる単語間の意味関係を、意味関係記憶部１２４を参照して取得し、意味関係の関連度が大きい単語の組を、最も確からしい単語列として選択する。この際、第２候補選択部１１５ｂは、言語モデル記憶部１２５に記憶された言語モデルの確率値、第２の音声に対する類似度、および単語辞書記憶部１２２に記憶された単語の出現確率も考慮して最も確からしい単語列を選択する。

修正箇所特定部１１６は、第２候補選択部１１５ｂが選択した単語列、および履歴記憶部１２３に記憶されている第１の音声と第２の音声とを参照し、第１の音声のうち修正すべき箇所を特定するものである。具体的には、修正箇所特定部１１６は、まず第２の音声に対する単語列候補のうち注視領域に存在する単語を取得する。注視領域とは、被修飾語が存在する部分をいい、例えば日本語では、最終単語や複数の名詞から構成される複合語が被修飾語となる場合が多いため、この部分を注視領域とする。また、例えば英語では、「of」や「at」など前置詞を伴って修飾語が被修飾語に対して後続する場合が多いため、先頭に位置する単語や複合語が存在する部分を注視領域とする。

そして、修正箇所特定部１１６は、注視領域に対応する第２の音声の音素列候補群を履歴記憶部１２３から取得し、第１の音声の音素列候補群と照合することにより、第１の音声の修正すべき箇所を特定する。

修正部１１７は、修正箇所特定部１１６が特定した修正箇所の部分単語列を修正するものである。具体的には、修正部１１７は、第１の音声の修正箇所に対応する部分を、第２の音声の注視領域に対応する文字列で置換することにより第１の音声を修正する。

なお、修正部１１７は、第１の音声の修正箇所に対応する部分を、第２の音声全体に対応する文字列で置換するように構成してもよい。

出力制御部１１８は、第１候補選択部１１５ａが出力した第１の音声の認識結果である文字列を表示部１０３に表示する処理を制御するものである。また、出力制御部１１８は、修正部１１７が修正した結果の文字列を表示部１０３に表示する。なお、出力制御部１１８の出力方式は、表示部１０３に対する文字列表示に限られるものではなく、文字列を音声合成した音声をスピーカ（図示せず）に対して出力するなど、従来から用いられているあらゆる方法を適用することができる。

次に、このように構成された第１の実施の形態にかかる音声認識装置１００による音声認識処理について説明する。図１０は、第１の実施の形態における音声認識処理の全体の流れを示すフローチャートである。

まず、ボタン入力受付部１１１が、音声入力ボタン１０１ａまたは修正音声入力ボタン１０１ｂ押下のイベントを受付ける（ステップＳ１００１）。

次に、音声入力受付部１１２が、第１の音声の入力を受付ける（ステップＳ１００２）。続いて、特徴量抽出部１１３が、音声入力受付部１１２が受付けた第１の音声の特徴量を抽出する（ステップＳ１００３）。この際、特徴量抽出部１１３は、上述したように周波数スペクトル分析などの手法で音声の特徴量を抽出する。

次に、候補生成部１１４が、音素辞書記憶部１２１に記憶された音素辞書、単語辞書記憶部１２２に記憶された単語辞書を参照し、特徴量抽出部１１３が抽出した特徴量と辞書の標準パターンとを照合することにより、第１の音声に対する単語列の候補を生成する（ステップＳ１００４）。

次に、音声入力受付部１１２が、音声入力ボタン１０１ａ押下中に入力された音声か否かを判断する（ステップＳ１００５）。すなわち、音声入力受付部１１２は、入力された音声が第１の音声か、第１の音声を修正した第２の音声かを判断する。

音声入力ボタン１０１ａ押下中に入力された音声である場合は（ステップＳ１００５：ＹＥＳ）、第１候補選択部１１５ａが、言語モデルを参照して最も確からしい単語列を、第１の音声の認識結果として選択する（ステップＳ１００６）。具体的には、第１候補選択部１１５ａは、単語列候補群から２つの単語を取り出し、当該２つの単語に対応づけられた出現確率が最大の単語の組を言語モデル記憶部１２５に記憶された言語モデルを参照して取得し、取得した単語の組を、最も確からしい単語として選択する。

次に、出力制御部１１８が、選択された単語列を表示部１０３に表示する（ステップＳ１００７）。ユーザは、表示部１０３に表示された文字列を確認し、修正が必要な場合は第１の音声を修正するために、修正音声入力ボタン１０１ｂを押下しながら第２の音声を入力する。入力された第２の音声は、音声入力受付部１１２により受付けられ、単語列の候補が生成される（ステップＳ１００１〜ステップＳ１００４）。

この場合は、ステップＳ１００５で、音声入力ボタン１０１ａ押下中に入力された音声でないと判断されるため（ステップＳ１００５：ＮＯ）、第２候補選択部１１５ｂが、候補生成部１１４により生成された単語列の候補から最も確からしい単語列を選択する修正候補選択処理を実行する（ステップＳ１００８）。修正候補選択処理の詳細については後述する。

次に、修正箇所特定部１１６が、第１の音声のうち、第２の音声で修正する部分を特定する修正箇所特定処理を実行する（ステップＳ１００９）。修正箇所特定処理の詳細については後述する。

次に、修正部１１７が、修正箇所特定処理で特定された修正箇所の修正を実行する（ステップＳ１０１０）。続いて、出力制御部１１８が、修正された単語列を表示部１０３に表示して（ステップＳ１０１１）、音声認識処理を終了する。

次に、ステップＳ１００８の修正候補選択処理の詳細について説明する。図１１は、修正候補選択処理の全体の流れを示すフローチャートである。同図は、上述したようにＶｉｔｅｒｂｉアルゴリズムを用いて単語列の候補を選択する処理の流れを示した図である。

まず、第２候補選択部１１５ｂが、単語位置のポインタ、および積算優先度（以下、ＩＰとする。）を初期化する（ステップＳ１１０１）。

単語位置のポインタとは、図６に示したようなラティス構造のノード位置を表す情報であり、ここでは先頭のノードにポインタ位置が初期化される。また、積算優先度とは、最も確からしい単語列を選択するために算出される優先度の積算値であり、ここでは積算優先度が１に初期化される。

次に、第２候補選択部１１５ｂは、ポインタ位置の直前の単語を取得する（ステップＳ１１０２）。ポインタ位置での単語の候補数をｊとすると、取得した単語はＷｅ１、Ｗｅ２、・・・Ｗｅｊ（ｊは整数）と表される。

次に、第２候補選択部１１５ｂは、ポインタ位置の単語を取得する（ステップＳ１１０３）。ポインタ位置での単語の候補数をｉとすると、取得した単語はＷｓ１、Ｗｓ２・・・、Ｗｓｉ（ｉは整数）と表される。

次に、第２候補選択部１１５ｂは、ＷｅｊとＷｓｉとの組を１つ選択し（ステップＳ１１０４）、ステップＳ１１０５からステップＳ１１０８までの処理を繰り返す。

まず、第２候補選択部１１５ｂは、ＷｅｊとＷｓｉとの意味関係連接尤度（以下、Ｓｉｍ（Ｗｓｉ、Ｗｅｊ）という。）を算出する（ステップＳ１１０５）。ここで、意味関係連接尤度とは、Ｗｅｊ以前の最近傍の自立語（以下、ｐｒｅ_k（Ｗｅｊ）という。）とＷｓｉとの間の関連度を表す値をいい、以下の（１）式により算出される。

Ｓｉｍ（Ｗｓｉ、Ｗｅｊ）＝ａｒｇｍａｘ_k（ｒｅｌ（Ｗｓｉ、ｐｒｅ_k（Ｗｅｊ）））・・・（１）

なお、ａｒｇｍａｘ（）は、括弧内の数値の最大値を求める関数を意味し、ｒｅｌ（Ｘ，Ｙ）は、単語Ｘと単語Ｙとの間の意味関係の関連度を表す。また、単語が自立語か否かは、従来から用いられている形態素解析技術などを適用し、解析用の辞書（図示せず）を参照することにより判断する。

次に、第２候補選択部１１５ｂは、ＷｅｊとＷｓｉとの連接優先度（以下、ＣＰという。）を算出する（ステップＳ１１０６）。ここで、連接優先度とは、ＷｅｊとＷｓｉとの言語モデルの確率値（以下、Ｐ（Ｗｓｉ|Ｗｅｊ）という。）と、意味関係連接尤度Ｓｉｍとの重みつき相乗平均を指し、以下の（２）式により算出される。

ＣＰ＝Ｐ（Ｗｓｉ|Ｗｅｊ）λ×Ｓｉｍ（Ｗｓｉ,Ｗｅｊ）λ^-1（λは０以上１以下）・・・（２）

次に、第２候補選択部１１５ｂは、Ｗｓｉの単語優先度（以下、ＷＰという。）を算出する（ステップＳ１１０７）。ここで、単語優先度とは、音声に対する類似度（以下、ＳＳ（Ｗｓｉ）という。）と、Ｗｓｉの出現確率（以下、ＡＰ（Ｗｓｉ）という。）との重みつき相乗平均を指し、以下の（３）式により算出される。

ＷＰ＝ＳＳ（Ｗｓｉ）μ×ＡＰ（Ｗｓｉ）μ^-1（μは０以上１以下）・・・（３）

次に、第２候補選択部１１５ｂは、以下の（４）式のように、上記各優先度（ＩＰ、ＡＰ、ＷＰ）の積（以下、ＴＰｊｉという。）を算出する（ステップＳ１１０８）。

ＴＰｊｉ＝ＩＰ×ＡＰ×ＷＰ・・・（４）

次に、第２候補選択部１１５ｂは、すべての組を処理したか否かを判断し（ステップＳ１１０９）、すべての組を処理していない場合は（ステップＳ１１０９：ＮＯ）、別の組を選択して処理を繰り返す（ステップＳ１１０４）。

すべての組を処理した場合（ステップＳ１１０９：ＹＥＳ）、第２候補選択部１１５ｂは、算出した積ＴＰｊｉのうち最大値を積算優先度ＩＰに代入し、対応するＷｅｊ、Ｗｓｉ間のリンクを選択する（ステップＳ１１１０）。

なお、Ｗｅｊより前に最近傍の自立語が存在した場合は、Ｗｓｉとの関連度ｒｅｌ（Ｗｓｉ、ｐｒｅ_k（Ｗｅｊ）が最大であった自立語とのリンクを選択する。

次に、第２候補選択部１１５ｂは、ポインタ位置を次の単語に進め（ステップＳ１１１１）、ポインタ位置が文末に達したか否かを判断する（ステップＳ１１１２）。

文末に達していない場合（ステップＳ１１１２：ＮＯ）、第２候補選択部１１５ｂは、当該ポインタ位置で処理を繰り返す（ステップＳ１１０２）。

文末に達した場合（ステップＳ１１１２：ＹＥＳ）、第２候補選択部１１５ｂは、選択したリンクをたどったパス上の単語列を最も確からしい修正単語列として選択し（ステップＳ１１１３）、修正候補選択処理を終了する。

次に、ステップＳ１００９の修正箇所特定処理の詳細について説明する。図１２は、第１の実施の形態における修正箇所特定処理の全体の流れを示すフローチャートである。

まず、修正箇所特定部１１６は、注視領域に対応する第２の音声の音素列を音素列候補から取得する（ステップＳ１２０１）。取得した音素列の集合を｛Ｓｉ｝とする。

次に、修正箇所特定部１１６は、履歴記憶部１２３から第１の音声の音素列を取得する（ステップＳ１２０２）。続いて、修正箇所特定部１１６は、取得した第１の音声の音素列のうち、音素列の集合｛Ｓｉ｝に属する音素列と最も類似する箇所を検出し、修正箇所として特定する（ステップＳ１２０３）。

次に、本実施の形態における音声認識処理の具体例について説明する。図１３は、第１の音声の認識結果の例を示す説明図である。また、図１４は、第２の音声に対する音素列候補群の一例を示した説明図であり、図１５は、第２の音声に対する単語列候補群の一例を示した説明図である。

図１３は、ユーザが「７時で予約をお願いします」を意味する日本語による第１の音声を発話し、誤って「１時で予約をお願いします」を意味する認識結果が選択された例を示している。

これに対し、ユーザが修正のための第２の音声として「夕方の７時」を意味する日本語の音声を発声したと仮定する。この場合、図１４および図１５に示すような音素列候補や単語列候補群が得られる。

ここで、言語モデルとしてｔｒｉ−ｇｒａｍを採用できる場合は、「夕方の７時」を意味する日本語であり、単語１５０１（夕方）、単語１５０４（の）、単語１５０７（７時）の３つの単語が連接した日本語に対して高い出現確率が対応づけられていることが期待できる。「浴衣」を意味する単語１５０２または地名の「ユカタン」を意味する単語１５０３が、「１時」を意味する単語１５０５、「一字」を意味する単語１５０６、または「７時」を意味する単語１５０７と共に用いられる確率は低いと考えられるからである。

従って、言語モデルとしてｔｒｉ−ｇｒａｍを採用できる場合は、従来のように言語モデルの確率値を利用して、適切な単語列候補を選択することができる。

しかし、ｔｒｉ−ｇｒａｍは組合せが膨大であり、言語モデルの構築に利用するテキストデータが膨大に必要になる問題や、言語モデルのデータサイズが大きくなるという問題がある。このため、言語モデルとして２単語の連接であるｂｉ−ｇｒａｍを採用せざるを得ない場合もある。この場合、図１５に示す単語列候補群から適切な単語列を絞り込むことはできない。

一方、本実施の形態の方法では、上述したように、任意の単語の前に出現した自立語と、当該任意の単語との間の上位下位関係、部分全体関係、同義語関係、関連語関係といった複数の単語間に存在する意味関係を表現したシソーラスを用いて、適切な単語列を選択することができる。

図１６は、このような処理により、第２候補選択部１１５ｂが選択した第２の音声の認識結果の例を示す説明図である。

同図に示すように第２の音声の認識結果を選択した後、修正箇所特定部１１６による修正箇所特定処理が実行される（ステップＳ１００９）。

図１７は、修正箇所特定処理の概要を模式的に示した説明図である。同図の上部は、第１の音声に対応する単語列と音素列を表し、同図の下部は、第２の音声に対応する修正単語列と音素列候補を表している。なお、同図では、理解を容易にするため、単語列におけるリンク情報を省略して表示しているが、単語列や修正単語列は図１３や図１６に示した内容と同等の構造であり、音素列や音素列候補群は図５に示した内容と同等の構造である。

図１７では、注視領域に対応する第２の音声の音素列候補として、「ｓｈｉｃｈｉｊｉ」と「ｉｃｈｉｊｉ」とが取得される（ステップＳ１２０１）。取得された音素列候補を、第１の音声に対応する音素列「ｉｃｈｉｊｉ−ｄｅ−ｙｏｙａｋｕ−ｗｏ−ｏｎｅｇａｉ−ｓｈｉ−ｍａｓｕ」と照合することによって、「ｉｃｈｉｊｉ」の箇所に一致することが検出できる。これにより、対応する単語１７０１（１時）が修正すべき箇所であると特定できる（ステップＳ１２０３）。

この後、修正部１１７による修正処理が実行される（ステップＳ１０１０）。第１の音声に対しては、誤って「１時で予約をお願いします」を意味する日本語が認識結果として選択された（図１３）。これに対し、図１７に示すように、修正箇所特定部１１６で特定された修正箇所の「１時」を意味する単語を、「夕方の７時」を意味する修正単語列の注視領域に存在する「７時」を意味する単語と置き換えることにより、「７時で予約をお願いします」を意味する正しい単語列を得ることができる。

なお、この例では、注視領域のみを置き換えることとしたが、修正箇所特定部１１６によって特定した修正箇所を、修正単語列全体で置き換えるように構成してもよい。すなわち、この場合、修正箇所の「１時」を意味する単語を、「夕方の７時」を意味する修正単語列で置き換え、「夕方の７時で予約をお願いします」を意味する単語列を得ることができる。

次に、本実施の形態における音声認識処理の別の具体例について説明する。図１８、図１９は、音声認識処理で扱われる入力データ、中間データ、出力データの一例を示した説明図である。

図１８では、ユーザが「館長にお会いしたい」を意味する日本語１８０１を入力し、認識結果１８０２が出力された例が示されている。この例では、「館長」を意味する単語１８１１が、誤って「艦長」を意味する単語１８１２に認識されたことが示されている。

これに対し、ユーザが「この美術館の館長」を意味する日本語１８０３を入力すると、誤認識部分の単語が正しく修正されて、修正結果１８０４が出力される。

図１９では、ユーザが「The brake was broken」を意味する英語１９０１を入力し、認識結果１９０２が出力された例が示されている。この例では、「brake」を意味する単語１９１１が、誤って「break」を意味する単語１９１２に認識されたことが示されている。

これに対し、ユーザが「This car's brake」を意味する英語１９０３を入力すると、誤認識部分の単語が正しく修正されて、修正結果１９０４が出力される。

次に、本実施の形態の変形例について説明する。上記説明では、意味関係として上位下位関係、部分全体関係、同義関係、または関連語関係を用いた例について説明した。この他、単語間の共起関係の情報（共起情報）を利用するように構成してもよい。共起情報とは、共に用いられる可能性が高い単語の組について、その可能性の高さ（以下、共起確率という）を数値化した情報である。

例えば、「おいしい」を意味する単語と「コーヒー」を意味する単語や、「熱い」を意味する単語と「コーヒー」を意味する単語は、共に用いられることが多いと考えられるため、共起確率が高い。一方、「暑い」を意味する単語と「コーヒー」を意味する単語は、共に用いられることは少ないと考えられるため、共起確率が低い。

図２０は、共起情報を用いた単語間の意味関係の一例を示した説明図である。同図では、「おいしい」を意味する単語１と「コーヒー」を意味する単語２との共起確率が０．７で他の単語間の共起確率より大きい例が示されている。

なお、同図に示すような共起情報は、大量のテキストデータを予め解析することにより取得し、意味関係記憶部１２４に記憶しておく。このようにして得られた共起情報を、第２候補選択部１１５ｂが第２の音声に対する候補を選択する際の関連度ｒｅｌの代わりに用いることができる。

このように、第１の実施の形態にかかる音声認識装置では、音声認識の誤認識に対しユーザが修正して発話した音声を、ユーザが修正する文字列に付加した意味的な制約情報を参照して音声認識することができる。このため、多数の同音異義語や読み方の似た単語を有する単語を修正入力する場合であっても、意味情報を参照して正しく単語を特定することができるため、音声認識の精度が向上する。これにより、誤認識時の誤りの修正負担を軽減することができる。

（第２の実施の形態）
第２の実施の形態にかかる音声認識装置は、ペンなどのポインティングデバイスを用いて修正すべき箇所を特定し、誤認識発生時の修正処理を行うものである。

図２１は、第２の実施の形態にかかる音声認識装置２１００の外観構成を示す説明図である。同図に示すように、音声認識装置２１００は、主なハードウェア構成として、ポインティングデバイス２２０４と、ユーザが入力した音声についての認識結果の単語列に対応する文字列を表示する表示部２２０３とを備えている。

ポインティングデバイス２２０４は、表示部２２０３に表示された文字列等を指し示すためのデバイスであり、ユーザが発声した音声を電気信号として取り込むマイクロフォン１０２と、音声を入力する際にユーザが押下する音声入力ボタン１０１ａとを備えている。

表示部２２０３は、タッチパネル方式によりポインティングデバイス２２０４の操作入力を受付ける機能をさらに備えている。なお、誤り箇所として指示された部分には、同図に示すように下線２１１０などのマーキングが表示される。

第２の実施の形態では、修正音声入力ボタン１０１ｂが備えられていない点が第１の実施の形態と異なっている。第２の実施の形態では、誤り箇所がポインティングデバイス２２０４で指示された直後の音声を第２の音声と判断することができるので、音声入力を指示するためのボタンを１つだけ備えれば十分だからである。

なお、ポインティングデバイス２２０４に備えられたマイクロフォン１０２から入力された音声データは、図示しない無線通信機能等を用いて音声認識装置２１００に対して送信される。

図２２は、第２の実施の形態にかかる音声認識装置２１００の構成を示すブロック図である。同図に示すように、音声認識装置２１００は、主なハードウェア構成として上述の音声入力ボタン１０１ａと、マイクロフォン１０２と、表示部２２０３と、ポインティングデバイス２２０４と、音素辞書記憶部１２１と、単語辞書記憶部１２２と、履歴記憶部１２３と、意味関係記憶部１２４と、言語モデル記憶部１２５とを備えている。

また、音声認識装置２１００は、主なソフトウェア構成として、ボタン入力受付部１１１と、音声入力受付部１１２と、特徴量抽出部１１３と、候補生成部１１４と、第１候補選択部１１５ａと、第２候補選択部１１５ｂと、修正箇所特定部２２１６と、修正部１１７と、出力制御部１１８と、パネル入力受付部２２１９とを備えている。

第２の実施の形態のソフトウェア構成では、パネル入力受付部２２１９を追加したこと、および修正箇所特定部２２１６の機能が第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる音声認識装置１００の構成を表すブロック図である図２と同様であるので、同一符号を付し、ここでの説明は省略する。

パネル入力受付部２２１９は、表示部２２０３上でポインティングデバイス２２０４により指定された誤り箇所の指定を受付けるものである。

修正箇所特定部２２１６は、ポインティングデバイス２２０４でユーザにより指定された修正を行う部分（修正指示箇所）の近傍の文字列から、第１の音声のうち修正すべき箇所を特定するものである。ここで、修正指示箇所の近傍とは、修正指示箇所の前または後ろの少なくとも一方の予め定められた範囲をいう。

第１の実施の形態における修正箇所特定部１１６が、第１の音声のすべての部分に対して第２の音声との照合を行い、修正箇所を特定するのに対し、第２の実施の形態では、ポインティングデバイス２２０４による指定を参照して必要最小限の範囲内で修正箇所を特定する。このため、処理速度や探索の精度を向上させることができる。

次に、このように構成された第２の実施の形態にかかる音声認識装置２１００による音声認識処理について説明する。図２３は、第２の実施の形態における音声認識処理の全体の流れを示すフローチャートである。

まず、パネル入力受付部２２１９が、ポインティングデバイス２２０４による修正箇所指定の入力を受付ける（ステップＳ２３０１）。なお、修正のための第２の音声を入力する場合のみ、パネル入力受付部２２１９が、修正箇所指定の入力を受付ける。

次に、ボタン入力受付部１１１が、音声入力ボタン１０１ａ押下のイベントを受付ける（ステップＳ２３０２）。

ステップＳ２３０３からステップＳ２３０５までの、第１音声受付・認識処理、認識結果出力処理は、第１の実施の形態にかかる音声認識装置１００におけるステップＳ１００２からステップＳ１００４までと同様の処理なので、その説明を省略する。

ステップＳ２３０５で、候補生成部１１４が単語列の候補を生成した後、音声入力受付部１１２が、修正箇所指定後の入力か否かを判断する（ステップＳ２３０６）。これにより、音声入力受付部１１２は、音声が第１の音声か、第２の音声かを判断する。すなわち、音声入力受付部１１２は、ポインティングデバイス２２０４により修正箇所指定後に音声入力ボタン１０１ａを押下して入力された音声の場合は第２の音声であると判断し、それ以外は第１の音声であると判断する。

ステップＳ２３０７からステップＳ２３０９までの、第１候補選択処理、出力制御処理、第２候補選択処理は、第１の実施の形態にかかる音声認識装置１００におけるステップＳ１００６からステップＳ１００８までと同様の処理なので、その説明を省略する。

ステップＳ２３０９で、第２の音声の認識結果を選択した後、修正箇所特定部２２１６が、修正箇所特定処理を実行する（ステップＳ２３１０）。修正箇所特定処理の詳細については後述する。

ステップＳ２３１１からステップＳ２３１２までの、修正処理、認識結果出力処理は、第１の実施の形態にかかる音声認識装置１００におけるステップＳ１０１０からステップＳ１０１１までと同様の処理なので、その説明を省略する。

次に、ステップＳ２３１０の修正箇所特定処理の詳細について説明する。図２４は、第２の実施の形態における修正箇所特定処理の全体の流れを示すフローチャートである。

ステップＳ２４０１の音素列取得処理は、第１の実施の形態にかかる音声認識装置１００におけるステップＳ１２０１と同様の処理なので、その説明を省略する。

ステップＳ２４０１で注視領域に対応する第２の音声の音素列を音素列候補から取得した後、修正箇所特定部２２１６は、履歴記憶部１２３から、第１の音声の音素列のうち修正指示箇所およびその近傍に対応する音素列を取得する（ステップＳ２４０２）。

図２１に示す例では、下線２１１０で示した修正指示箇所に存在する単語であり、「１時」を意味する単語２１１１に対応する音素列を取得する。また、修正指示箇所の近傍に存在する単語２１１２に対応する音素列を取得する。

ステップＳ２４０３の類似箇所検出処理は、第１の実施の形態にかかる音声認識装置１００におけるステップＳ１２０３と同様の処理なので、その説明を省略する。

このように、第２の実施の形態にかかる音声認識装置では、ペンなどのポインティングデバイスを用いて修正すべき部分を指示可能とし、当該部分の近傍の範囲内から修正箇所を特定して、特定した箇所に対して誤認識発生時の修正処理を行うことができる。このため、ユーザの負担を増大させずに音声誤認識の修正を確実に行うことができる。

図２５は、第１および第２の実施の形態にかかる音声認識装置のハードウェア構成を示す説明図である。

第１および第２の実施の形態にかかる音声認識装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

第１および第２の実施の形態にかかる音声認識装置で実行される音声認識プログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

第１および第２の実施の形態にかかる音声認識装置で実行される音声認識プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。

さらに、第１および第２の実施の形態にかかる音声認識装置で実行される音声認識プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１および第２の実施の形態にかかる音声認識装置で実行される音声認識プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１および第２の実施の形態にかかる音声認識装置で実行される音声認識プログラムは、上述した各部（パネル入力受付部、ボタン入力受付部、音声入力受付部、特徴量抽出部、候補生成部、第１候補選択部、第２候補選択部、修正箇所特定部、修正部、出力制御部）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ５１が上記ＲＯＭ５２から音声認識プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。

以上のように、本発明にかかる音声認識装置、音声認識方法および音声認識プログラムは、入力された音声を音声認識した結果に応じて動作する音声翻訳システム、カーナビゲーションシステム、家電制御システムなどに適している。

第１の実施の形態にかかる音声認識装置の外観構成を示す説明図である。第１の実施の形態にかかる音声認識装置の構成を示すブロック図である。音素辞書記憶部に記憶された音素辞書のデータ構造の一例を示す説明図である。単語辞書記憶部に記憶された単語辞書のデータ構造の一例を示す説明図である。履歴記憶部に記憶された音素列候補群のデータ形式の一例を示す説明図である。履歴記憶部に記憶された単語列候補群のデータ形式の一例を示す説明図である。単語間の意味関係の一例を階層構造で表した説明図である。単語間の意味関係の別の一例を階層構造で表した説明図である。言語モデル記憶部に記憶された言語モデルのデータ構造の一例を示す説明図である。第１の実施の形態における音声認識処理の全体の流れを示すフローチャートである。修正候補選択処理の全体の流れを示すフローチャートである。第１の実施の形態における修正箇所特定処理の全体の流れを示すフローチャートである。第１の音声の認識結果の例を示す説明図である。第２の音声に対する音素列候補群の一例を示した説明図である。第２の音声に対する単語列候補群の一例を示した説明図である。第２の音声の認識結果の例を示す説明図である。修正箇所特定処理の概要を模式的に示した説明図である。音声認識処理で扱われる入力データ、中間データ、出力データの一例を示した説明図である。音声認識処理で扱われる入力データ、中間データ、出力データの一例を示した説明図である。共起情報を用いた単語間の意味関係の一例を示した説明図である。第２の実施の形態にかかる音声認識装置の外観構成を示す説明図である。第２の実施の形態にかかる音声認識装置の構成を示すブロック図である。第２の実施の形態における音声認識処理の全体の流れを示すフローチャートである。第２の実施の形態における修正箇所特定処理の全体の流れを示すフローチャートである。第１および第２の実施の形態にかかる音声認識装置のハードウェア構成を示す説明図である。

符号の説明

５１ＣＰＵ
５２ＲＯＭ
５３ＲＡＭ
５４通信Ｉ／Ｆ
６１バス
１００音声認識装置
１０１ａ音声入力ボタン
１０１ｂ修正音声入力ボタン
１０２マイクロフォン
１０３表示部
１１１ボタン入力受付部
１１２音声入力受付部
１１３特徴量抽出部
１１４候補生成部
１１５ａ第１候補選択部
１１５ｂ第２候補選択部
１１６修正箇所特定部
１１７修正部
１１８出力制御部
１２１音素辞書記憶部
１２２単語辞書記憶部
１２３履歴記憶部
１２４意味関係記憶部
１２５言語モデル記憶部
１５０１、１５０２、１５０３、１５０４、１５０５、１５０６、１５０７単語
１７０１単語
１８０１日本語
１８０２認識結果
１８０３日本語
１８０４修正結果
１８１１、１８１２単語
１９０１英語
１９０２認識結果
１９０３英語
１９０４修正結果
１９１１、１９１２単語
２１００音声認識装置
２１１０下線
２１１１、２１１２単語
２２０３表示部
２２０４ポインティングデバイス
２２１６修正箇所特定部
２２１９パネル入力受付部

Claims

単語間の意味関係と、意味関係の度合いを表す関連度とを対応づけて記憶する意味関係記憶手段と、
音声の入力を受付ける入力受付手段と、
前記入力受付手段が受付けた前記音声を音声認識し、認識候補と、当該認識候補の確からしさを示す尤度とを生成する候補生成手段と、
第１の音声に対して前記候補生成手段が生成した第１の認識候補から、前記第１の認識候補の尤度に基づいて前記第１の音声の認識結果を選択する第１候補選択手段と、
前記第１の音声に含まれる修正すべき単語と、修正の手がかりとなる単語である手がかり語とを含む第２の音声に対して前記候補生成手段が生成した第２の認識候補から、前記修正すべき単語に対する単語の認識候補と前記手がかり語に対する単語の認識候補とを抽出し、抽出した前記修正すべき単語に対する単語の認識候補と、抽出した前記手がかり語に対する単語の認識候補との間の意味関係に対応づけられた前記関連度を前記意味関係記憶手段から取得し、取得した前記関連度に基づいて前記第２の音声の認識結果を選択する第２候補選択手段と、
前記第１の音声の認識結果と、前記第２の音声の認識結果とを照合し、前記第１の音声のうち前記修正すべき単語に対応する部分を特定する修正箇所特定手段と、
特定した前記修正すべき単語に対応する部分を修正する修正手段と、
を備えたことを特徴とする音声認識装置。
前記第２候補選択手段は、取得した前記関連度が最大となる前記修正すべき単語に対する単語の認識候補と前記手がかり語に対する単語の認識候補とを含む前記第２の音声の認識結果を選択することを特徴とする請求項１に記載の音声認識装置。
単語間の接続関係と、接続関係の度合いを表す接続関連度とを対応づけた言語モデルを記憶する言語モデル記憶手段をさらに備え、
前記第２候補選択手段は、さらに抽出した前記修正すべき単語に対する単語の認識候補と前記手がかり語に対する単語の認識候補との間の接続関係に対応づけられた前記接続関連度を前記言語モデル記憶手段から取得し、取得した前記接続関連度と前記関連度とに基づいて前記第２の音声の認識結果を選択することを特徴とする請求項１に記載の音声認識装置。
前記第２候補選択手段は、前記第２の音声に対して前記候補生成手段が生成した前記第２の認識候補の尤度と、前記関連度とに基づいて前記第２の音声の認識結果を選択することを特徴とする請求項１に記載の音声認識装置。
単語と、単語の出現確率とを対応づけた単語辞書記憶手段をさらに備え、
前記第２候補選択手段は、さらに抽出した前記修正すべき単語に対する単語の認識候補に対応づけられた前記出現確率を前記単語辞書記憶手段から取得し、取得した前記出現確率と前記関連度とに基づいて前記第２の音声の認識結果を選択することを特徴とする請求項１に記載の音声認識装置。
前記意味関係記憶手段は、単語間の意味内容の階層関係と、前記関連度とを対応づけて記憶し、
前記第２候補選択手段は、抽出した前記修正すべき単語に対する単語の認識候補と、抽出した前記手がかり語に対する単語の認識候補との間の意味内容の階層関係に対応づけられた前記関連度を前記意味関係記憶手段から取得し、取得した前記関連度に基づいて前記第２の音声の認識結果を選択することを特徴とする請求項１に記載の音声認識装置。
前記意味関係記憶手段は、単語間の同義語関係、および類義語関係の少なくとも１つを前記意味関係として前記関連度と対応づけて記憶することを特徴とする請求項１に記載の音声認識装置。
前記意味関係記憶手段は、複数の単語が共に出現する関係を表す共起関係と、前記共起関係が出現する確率を表す共起確率とを対応づけて記憶し、
前記第２候補選択手段は、抽出した前記修正すべき単語に対する単語の認識候補と前記手がかり語に対する単語の認識候補との間の前記共起関係に対応づけられた前記共起確率を前記意味関係記憶手段から取得し、取得した前記共起確率に基づいて前記第２の音声の認識結果を選択することを特徴とする請求項１に記載の音声認識装置。
前記修正手段は、特定した前記修正すべき単語に対応する部分を、前記修正すべき単語の認識候補に対して前記第２候補選択手段が選択した単語で修正することを特徴とする請求項１に記載の音声認識装置。
前記修正手段は、特定した前記修正すべき単語に対応する部分を、前記第２候補選択手段が選択した前記第２の音声の認識結果で修正することを特徴とする請求項１に記載の音声認識装置。
前記第１の音声の認識結果を表示する表示手段と、
前記表示手段に表示された前記第１の音声の認識結果のうち修正する部分を指定する修正箇所指定手段と、をさらに備え、
前記修正箇所特定手段は、前記修正箇所指定手段が指定した前記修正する部分の前方または後方の少なくとも一方の予め定められた範囲から、前記第１の音声のうち前記修正すべき単語に対応する部分を特定することを特徴とする請求項１に記載の音声認識装置。
前記入力受付手段は、前記修正箇所指定手段により前記修正する部分が指定された後に入力された音声を、前記第２の音声として入力を受付けることを特徴とする請求項１１に記載の音声認識装置。
音声の入力を受付ける入力受付ステップと、
前記入力受付ステップが受付けた前記音声を音声認識し、認識候補と当該認識候補の確からしさを示す尤度とを生成する候補生成ステップと、
第１の音声に対して前記候補生成ステップが生成した第１の認識候補から、前記第１の認識候補の尤度に基づいて前記第１の音声の認識結果を選択する第１候補選択ステップと、
前記第１の音声に含まれる修正すべき単語と、修正の手がかりとなる単語である手がかり語とを含む第２の音声に対して前記候補生成ステップが生成した第２の認識候補から、前記修正すべき単語に対する単語の認識候補と前記手がかり語に対する単語の認識候補とを抽出し、抽出した前記修正すべき単語に対する単語の認識候補と、抽出した前記手がかり語に対する単語の認識候補との間の意味関係に対応づけられた前記関連度を、単語間の意味関係と意味関係の度合いを表す関連度とを対応づけて記憶する意味関係記憶手段から取得し、取得した前記関連度に基づいて前記第２の音声の認識結果を選択する第２候補選択ステップと、
前記第１の音声の認識結果と、前記第２の音声の認識結果とを照合し、前記第１の音声のうち前記修正すべき単語に対応する部分を特定する修正箇所特定ステップと、
特定した前記修正すべき単語に対応する部分を修正する修正ステップと、
を備えたことを特徴とする音声認識方法。
音声の入力を受付ける入力受付手順と、
前記入力受付手順が受付けた前記音声を音声認識し、認識候補と当該認識候補の確からしさを示す尤度とを生成する候補生成手順と、
第１の音声に対して前記候補生成手順が生成した第１の認識候補から、前記第１の認識候補の尤度に基づいて前記第１の音声の認識結果を選択する第１候補選択手順と、
前記第１の音声に含まれる修正すべき単語と、修正の手がかりとなる単語である手がかり語とを含む第２の音声に対して前記候補生成手順が生成した第２の認識候補から、前記修正すべき単語に対する単語の認識候補と前記手がかり語に対する単語の認識候補とを抽出し、抽出した前記修正すべき単語に対する単語の認識候補と、抽出した前記手がかり語に対する単語の認識候補との間の意味関係に対応づけられた前記関連度を、単語間の意味関係と意味関係の度合いを表す関連度とを対応づけて記憶する意味関係記憶手段から取得し、取得した前記関連度に基づいて前記第２の音声の認識結果を選択する第２候補選択手順と、
前記第１の音声の認識結果と、前記第２の音声の認識結果とを照合し、前記第１の音声のうち前記修正すべき単語に対応する部分を特定する修正箇所特定手順と、
特定した前記修正すべき単語に対応する部分を修正する修正手順と、
をコンピュータに実行させる音声認識プログラム。