JP4791984B2

JP4791984B2 - 入力された音声を処理する装置、方法およびプログラム

Info

Publication number: JP4791984B2
Application number: JP2007046925A
Authority: JP
Inventors: 哲朗知野; 聡史釜谷; 建太郎降幡
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-02-27
Filing date: 2007-02-27
Publication date: 2011-10-12
Anticipated expiration: 2027-02-27
Also published as: US8954333B2; JP2008209717A; CN101256559A; US20080208597A1

Description

この発明は、入力された音声に対して音声認識処理などを実行して処理結果を出力する装置、方法およびプログラムに関するものである。

近年、音声入力を用いたヒューマンインタフェースの実用化が徐々に進んでいる。例えば、利用者が予め設定されている特定のコマンドを音声入力し、これをシステムが認識して、対応する操作をシステムが自動的に実行することによって、音声でシステムを利用することができるようにした音声操作システムが開発されている。また、利用者が任意の文章を発声し、これをシステムが分析して文字列に変換することによって、音声入力による文章の作成を可能とするシステムも開発されている。さらに、利用者とシステムが話し言葉でインタラクションすることを可能とするための音声対話システムなどが開発され、既に利用され始めている。

上記各システムで利用される音声認識処理では、一般に以下のような方法により利用者の発声内容を認識している。まず、発声された音声信号をマイクロフォンなどによってシステムに取り込み、電気信号に変えた後、Ａ／Ｄ（アナログデジタル）変換装置などを用いて微小な時間単位毎に標本化し、例えば波形振幅の時間系列などのデジタルデータへと変換する。このデジタルデータに対して、例えばＦＦＴ（高速フーリエ変換）分析などの手法を適用することによって、例えば周波数の時間変化などへと分析することで、発声された音声信号の特徴データを抽出する。続いて、認識結果などと対応付けて予め辞書として用意している例えば音素などの標準パターンまたはその系列と、上述の処理で抽出した特徴データとを、ＨＭＭ（隠れマルコフモデル）手法、またはＤＰ（ダイナミックプログラミング）手法、またはＮＮ（ニューラルネットワーク）手法などを用いて比較照合し、発声内容の認識候補を生成する。さらに、認識精度をたかめるために、生成された認識候補に対して、例えばＮグラムなどに代表される統計的な言語モデルを利用して最も確からしい候補を推定選択することなどによって、発声内容を認識するようにしている。

音声認識では、以下のような原因により、１００％誤り無く認識を行うことは非常に困難であり、限りなく不可能に近いと考えられている。まず、音声入力が行われる環境に存在する雑音などが理由となって、音声区間の切りだしに失敗することが挙げられる。また、声質、音量、発声速度、発声様式、または方言などのように利用者間で個人差が生じうる要因によって入力音声の波形が変形し、認識結果の照合に失敗することが挙げられる。

また、システム内に用意されていない未知語を利用者が発声することによって認識に失敗する場合、音響的に類似した単語であると誤って認識される場合、または用意されている標準パターンや統計的言語モデルの不完全さのために誤った単語に誤認識される場合もある。

また、認識誤りが起こった際に処理を継続すると、通常、誤動作が誘発されるため、誤動作の影響の排除、復元、同じ発声の再入力などのための操作が必要になり、利用者に負担がかかるという問題がある。また、再入力した場合であっても、必ず誤認識が解決できるという保証がない。

一方、これを避けるために処理継続の前などに認識結果を修正できるようにした場合、通常は例えばキーボード操作等が必要になり、音声入力のハンズフリー性という特性が無効になるとともに、利用者の操作負担が増大する。

また、上述のようなシステムは、最も確からしい候補を正しい認識結果として出力するものであるため、結果的に誤認識が生じている場合であっても、いずれの部分が誤りであり、いずれの部分が正しいのかを当該システム自身が知る方法がない。したがって、誤認識部分を修正する場合には、利用者が誤認識部分を判断した上で修正する必要がある。

このような問題に関連して、特許文献１では、最も確からしい１つの音声認識候補だけではなく、認識スコアが近い複数の音声認識候補を生成し、生成した各候補を翻訳し、さらに翻訳履歴の要約を複数の翻訳結果とともに提示する技術が提案されている。これにより、対話相手が処理結果の信頼性を認識すること、および発話者の発話内容を容易に想定することを可能とし、認識処理の性能が低くても十分かつ円滑なコミュニケーションがとれるようにしている。

特開２０００−２４２６４５号公報

しかしながら、特許文献１の方法では、提示した複数の認識候補の中に選択すべき認識候補が存在したとしても、当該認識候補に誤認識部分が含まれる場合には、処理を継続することはできず、修正や再入力が必要になる。したがって、従来と同様に、音声入力のハンズフリー性が失われるという問題や、利用者による修正処理負担が増大するという問題が生じる可能性があった。

本発明は、上記に鑑みてなされたものであって、音声認識の誤認識が生じた場合であっても、煩雑な修正操作が不要であり、音声認識結果に関する処理を迅速に継続可能な装置、方法およびプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、入力音声を受付ける音声受付部と、前記入力音声からテキスト文字列を求める音声処理部と、前記テキスト文字列を形態素解析する解析部と、１つまたは複数の前記形態素からなる予め定められた分割単位で前記テキスト文字列を構成要素に分割し、前記構成要素のうち、相互に異なる一部の前記構成要素を前記テキスト文字列から除外した複数の部分文字列を生成する生成部と、複数の前記部分文字列を表示部に選択可能に出力する第１出力部と、出力された複数の前記部分文字列から、処理対象とする前記部分文字列の選択を受付ける選択受付部と、を備えたことを特徴とする。

また、本発明は、上記装置を実行することができる方法およびプログラムである。

本発明によれば、音声認識の誤認識が生じた場合であっても、煩雑な修正操作を行うことなく、音声認識結果に関する処理を迅速に継続することができるという効果を奏する。

以下に添付図面を参照して、この発明にかかる音声処理する装置、方法およびプログラムの最良な実施の形態を詳細に説明する。

（第１の実施の形態）
第１の実施の形態にかかる音声処理装置は、音声認識結果から一部の文字列を除外した部分文字列（以下、部分表現という。）を複数生成し、生成した部分表現を利用者に提示して、提示した部分表現から利用者が選択した音声処理対象とする部分表現を受付けて処
理を行うものである。

なお、以下では、第１の実施の形態にかかる音声処理装置を、原言語による利用者の音声入力を意味的に等価な目的言語に翻訳して音声出力することによって異言語コミュニケーションを支援する音声翻訳装置として実現した場合を例に説明する。また、以下では、原言語および目的言語として、それぞれ日本語および英語を用いた例を説明するが、原言語および目的言語の組合せはこれに限られるものではなく、あらゆる言語の組合せに対して本実施の形態を適用できる。

図１は、第１の実施の形態にかかる音声翻訳装置１００の構成を示すブロック図である。同図に示すように、音声翻訳装置１００は、音声受付部１０１と、認識部１０２と、判断部１０３と、解析部１０４と、生成部１０５と、候補出力部１０６と、選択受付部１０７と、翻訳部１０８と、言語出力部１０９と、選択記憶部１２１と、を備えている。

音声受付部１０１は、マイクロフォン（図示せず）などから入力された音声のアナログ信号に対して微小な時間単位ごとにサンプリングを行い、例えば波形振幅の時間系列などのステレオのデジタル信号に変換して出力する処理を行うものである。音声受付部１０１の処理では、従来から用いられているＡ／Ｄ変換技術などを適用することができる。

認識部１０２は、音声受付部１０１が出力したデジタル音声信号を入力として、対応する日本語のテキスト文字列である認識結果の候補と、その確からしさを表す尤度（以下、認識スコアという。）とを生成する音声認識処理を行うものである。音声認識処理では、ＬＰＣ分析、隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）、ダイナミックプログラミング、ニューラルネットワーク、Ｎグラム言語モデルなどを用いた、一般的に利用されているあらゆる音声認識方法を適用することができる。

例えば、認識部１０２は、まず、ＦＦＴ（高速フーリエ変換）分析などの手法を適用することによって周波数の時間変化を分析し、発声された音声信号の特徴データを抽出する。続いて、認識部１０２は、認識結果などと対応付けた形で予め辞書として用意している音素などの標準パターンまたはその系列と、抽出した特徴データとを、ＨＭＭ手法、ダイナミックプログラミング手法、またはニューラルネットワーク手法などを用いて比較照合し、発声内容の認識候補を生成する。

さらに認識部１０２は、認識精度を高めるために、生成された認識候補に対して、例えばＮグラムなどに代表される統計的な言語モデルを利用して最も確からしい候補を推定選択することなどによって、発声内容を認識する。

判断部１０３は、音声翻訳処理で行われる各種判断処理を行うものである。具体的には、判断部１０３は、音声認識結果の認識スコアが所定の閾値より小さいか否かを判断する。認識スコアが当該閾値より小さい場合にのみ、部分表現の生成を行うためである。

また、判断部１０３は、入力された文字列（以下、入力文字列という。）に対応する部分表現が後述する選択記憶部１２１に記憶されているか否かを判断する。記憶されている場合は、選択記憶部１２１から取得した部分表現で処理を進めるためである。なお、第１の実施の形態では、音声認識結果に対して部分表現の生成を行うため、音声認識結果が入力文字列となる。

解析部１０４は、入力文字列から形態素を抽出するものである。解析部１０４は、従来から用いられている形態素解析技術を用いて入力文字列から形態素を解析して抽出する。なお、認識部１０２による音声認識処理の処理結果自体を、形態素列の形式で得られるよ
うにし、解析部１０４による新たな形態素解析処理を行わずに、音声認識結果をそのまま形態素解析結果として利用するように構成してもよい。

生成部１０５は、形態素解析結果を利用して、入力文字列を統語的または意味的な複数の部分に分割し、分割された複数の部分から任意個の部分を選択することによって、元の言語表現（入力文字列）に対する複数の部分表現を生成するものである。

例えば、日本語の音声が入力された場合、生成部１０５は、入力音声の認識結果に対する形態素解析結果で得られる品詞素列に対して、予め定めた自立語品詞が現れる度にそれを文節の先頭として認定する方法で文節を特定し、認識結果を文節ごとに分割する。そして、生成部１０５は、分割された文節を先頭から順に一つずつ取り除いた文字列を、元の言語表現に対する部分表現の候補とする。

なお、認識結果の分割方法はこれに限られず、チャンキング、文節抽出、句構造抽出、構文解析、係受け解析（依存構造解析）、ネームドエンティティ（固有表現抽出）解析などといった従来の自然言語処理を利用したあらゆる方法により、統語的または意味的な分割単位で入力文字列を分割することができる。また、生成部１０５は、時間表現や数値表現に固有に出現する文字や表現を手掛かりとした意味的な固まりを分割単位として入力文字列を分割することもできる。意味的な分割単位はこれに限られず、程度、挨拶、定型句などあらゆる意味単位を対象とすることができる。

候補出力部１０６は、生成部１０５によって生成された部分表現の候補を利用者に列挙して図示しない画像ディスプレイなどの表示部に選択可能に提示するものである。

選択受付部１０７は、候補出力部１０６によって提示された部分表現の候補の中から利用者により選択された部分表現を受け付けるものである。そして、選択受付部１０７は、選択を受付けた部分表現を、翻訳処理の処理対象として翻訳部１０８に出力する。

選択受付部１０７は、タッチセンサーや、記号や配置によって画面表示と対応付けられたボタンやダイアルなどの操作入力装置（図示せず）で入力された部分表現を受付けることによって実現される。

翻訳部１０８は、選択受付部１０７が受付けた翻訳処理対象の日本語のテキスト文字列を、意味的に等価な英語のテキストへと変換する翻訳処理を行うものである。翻訳部１０８による翻訳処理では、規則方式または用例方式に大別される、従来から用いられているあらゆる機械翻訳技術を適用することができる。

規則方式の機械翻訳では、日本語および英語の文法や辞書、日本語と英語の語彙の意味的な対応関係などの予め用意した規則に基づいて、任意の日本語文字列を意味的に等価な英語文字列へと自動翻訳し、規則翻訳結果とその確信度を表す規則翻訳スコアとからなる規則翻訳情報を出力する。

用例方式の機械翻訳では、予め用意した意味的に等価な日本語と英語の用例の組である対訳を記憶部に記憶し、記憶された対訳を参照して、入力された日本語テキストと用例の類似性に基づいて、対応する英語テキストを適宜検索することにより、入力日本語文の翻訳結果を生成する。また、用例方式の翻訳処理においては、日本語と英語の単語の対応関係なども適宜参照され、利用される。

なお、適用できる翻訳技術は上記に限られず、大規模な用例データに基づく統計情報によって、原言語入力に対する対訳を得る統計翻訳などを利用するように構成してもよい。

言語出力部１０９は、翻訳部１０８の翻訳結果を画像ディスプレイなどの表示部に出力するものである。また、言語出力部１０９は、翻訳結果の文字情報を音声に変換して出力するテキスト音声合成を行い、合成した音声を図示しないスピーカ等に出力するように構成してもよい。この場合の音声合成処理では、Ｔｅｘｔ−Ｔｏ−Ｓｐｅｅｃｈなどの従来から用いられているあらゆる音声合成技術を適用できる。

選択記憶部１２１は、選択受付部１０７で選択が受付けられた部分表現と、生成部１０５がその部分表現を生成する際に元にした入力文字列との組を記憶するものである。選択記憶部１２１は、判断部１０３が、入力文字列に対応する部分表現が記憶されているか否かを判断するときに参照される。

図２は、選択記憶部１２１に記憶された情報のデータ構造の一例を示す説明図である。同図に示すように、選択記憶部１２１には、選択が受付けられた部分表現を表す選択例と、選択例の生成元となった入力文字列を表す生成元とが対応づけられて記憶されている。

なお、選択記憶部１２１は、ＨＤＤ（Hard Disk Drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。

次に、このように構成された第１の実施の形態にかかる音声翻訳装置１００による音声翻訳処理について説明する。図３は、第１の実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。

まず、音声受付部１０１が、音声（以下、Ｖとする。）が入力されたか否かを判断し（ステップＳ３０１）、入力されていない場合は（ステップＳ３０１：ＮＯ）、入力されるまで処理を繰り返す。

音声が入力された場合は（ステップＳ３０１：ＹＥＳ）、認識部１０２が、入力された音声Ｖを音声認識し、音声認識処理の処理結果（以下、Ｒとする。）と、認識スコア（以下、Ｓとする。）を生成する（ステップＳ３０２）。

次に、判断部１０３が、認識スコアＳが所定の閾値より大きいか否かを判断し（ステップＳ３０３）、大きい場合は（ステップＳ３０３：ＹＥＳ）、生成部１０５は、処理結果Ｒを処理対象として選択する（ステップＳ３０４）。認識スコアＳが大きい場合は、音声認識結果の信頼性が高いため、部分表現を生成せずに認識結果そのものを出力してもコミュニケーションを阻害しないと考えられるからである。なお、本実施の形態では、処理対象とは翻訳部１０８による翻訳処理の対象を指す。

認識スコアＳが所定の閾値より大きくない場合は（ステップＳ３０３：ＮＯ）、判断部１０３は、処理結果Ｒと一致する生成元を選択記憶部１２１から検索し、検索した生成元に対応する選択例を選択記憶部１２１から取得する（ステップＳ３０４）。そして、判断部１０３は、選択例を取得できたか否かを判断する（ステップＳ３０５）。取得できた場合（ステップＳ３０６）、生成部１０５は、取得した選択例を処理対象として選択する（ステップＳ３０７）。

なお、ステップＳ３０４の選択例の検索処理では、処理結果Ｒと完全一致する生成元を検索するだけでなく、部分一致する生成元を検索するように構成してもよい。この場合は、相違部分を置換した選択例を取得するように構成する。

選択例を取得できなかった場合は（ステップＳ３０６：ＮＯ）、処理結果Ｒに対する部分表現を生成する部分表現生成処理が実行される（ステップＳ３０８）。部分表現生成処理の詳細については後述する。

次に、候補出力部１０６が、部分表現生成処理で生成された部分表現のセット（以下、Ｌとする。）と、部分表現のセットＬの生成元である処理結果Ｒとを含む処理対象の候補を表示部に選択可能に出力する（ステップＳ３０９）。

次に、選択受付部１０７が、表示部に表示された処理対象の候補の中から利用者が選択した候補を受付ける（ステップＳ３１０）。続いて、選択受付部１０７は、受付けた候補と、処理結果Ｒとを対応づけて選択記憶部１２１に保存する（ステップＳ３１１）。これにより、利用者の部分表現の選択を学習し、後の音声翻訳処理で利用することが可能となる。また、選択受付部１０７は、受付けた候補を処理対象として選択する（ステップＳ３１２）。なお、選択を受付ける候補の個数は１つに限られず、複数の候補を選択して処理対象とすることができるように構成してもよい。

ステップＳ３０４で生成部１０５が処理結果Ｒを処理対象として選択した場合、ステップＳ３０７で生成部１０５が選択記憶部１２１から取得した選択例を処理対象として選択した場合、またはステップＳ３１２で選択受付部１０７が受付けた候補を処理対象として選択した場合は、翻訳部１０８が、選択された処理対象を翻訳の目的言語に翻訳する（ステップＳ３１３）。なお、翻訳部１０８は、上述のように、規則方式または用例方式の機械翻訳処理によって、処理対象である原言語の文字列を目的言語の文字列に翻訳する。

次に、言語出力部１０９が、翻訳部１０８による翻訳結果を表示部に出力し（ステップＳ３１４）、音声翻訳処理を終了する。なお、言語出力部１０９は、翻訳結果である目的言語の文字列を音声合成した音声をスピーカ等に出力してもよい。

次に、ステップＳ３０８の部分表現生成処理の詳細について説明する。図４は、第１の実施の形態における部分表現生成処理の全体の流れを示すフローチャートである。

まず、解析部１０４が、処理結果Ｒを形態素解析し、形態素列（以下、Ｐとする。）を生成する（ステップＳ４０１）。次に、生成部１０５が、分割基準に従い、生成された形態素列Ｐから文節（以下、Ｑとする。）を抽出する（ステップＳ４０２）。

ここで、分割基準の具体例と、分割処理の詳細について説明する。分割処理では、まず処理結果Ｒ内の各形態素を所定のグループに分類し、さらに隣接する各グループの形態素を分割基準にしたがって連結した文節を抽出することにより、処理結果Ｒを文節単位に分割する。

分割基準（以下、Ｃとする。）は、例えば、以下のように規定することができる。

＜分割基準Ｃ＞
Ｃ１：形態素列に現れる各品詞を、下記のグループＧ１〜Ｇ４に分類する。
（Ｇ１）単独で意味的なまとまりを形成する内容語をこのグループに分類する。日本語では、動詞などがこのグループに分類される。
（Ｇ２）単独あるいは連続的に出現して意味的なまとまりを形成する内容語をこのグループに分類する。日本語では、名詞、形容詞、数字などがこのグループに分類される。
（Ｇ３）他の内容語の前方に接続する機能語をこのグループに分類する。日本語では、接頭辞などがこのグループに分類される。
（Ｇ４）他の内容語の後方に接続する機能語をこのグループに分類する。日本語では、助
詞、接尾辞などがこのグループに分類される。
Ｃ２:文末でないＧ３の品詞を持つ形態素は、次に現れる形態素に連結させる。
Ｃ３:文頭でないＧ４の品詞を持つ形態素は、先行する形態素に連結させる。
Ｃ４：Ｇ２の品詞を持つ形態素が隣接している場合は、両者を連結させる。

なお、分割基準や分割処理は上述の限られるものではなく、上述のように、チャンキング、句構造抽出、構文解析、係受け解析、ネームドエンティティ解析などの従来から用いられているあらゆる方法を適用できる。

次に、生成部１０５は、処理した文節をカウントするためのカウンタ（以下、Ｉとする。）を１に初期化する（ステップＳ４０３）。続いて、生成部１０５は、処理結果Ｒから、文節ＱのうちＩ番目の文節を除いた文字列を生成し、部分表現のセットＬに追加する（ステップＳ４０４）。

次に、生成部１０５は、カウンタＩに１を加算し（ステップＳ４０５）、カウンタＩが文節数を越えたか否かを判断する（ステップＳ４０６）。カウンタＩが文節数を越えていない場合は（ステップＳ４０６：ＮＯ）、次の文節を除いた部分表現を生成してさらに部分表現のセットＬに追加し（ステップＳ４０４）、処理を繰り返す。

カウンタＩが文節数を越えた場合は（ステップＳ４０６：ＹＥＳ）、生成部１０５は、部分表現のセットＬを出力して（ステップＳ４０７）、部分表現生成処理を終了する。

このように、本実施の形態では、処理結果Ｒ内の各文節を１つずつ除外した複数の部分表現を生成して出力する。なお、複数の文節を除外した部分表現を生成して出力するように構成してもよい。また、この場合、選択受付部１０７で受付けた複数の候補をマージして処理対象とするように構成してもよい。

次に、上述のように構成された第１の実施の形態の音声翻訳装置１００による音声翻訳処理の具体例について説明する。図５は、入力された音声である日本語音声入力（以下、Ｖとする。）の一例を示す説明図である。

同図では、「成田からボストンまでのビジネスクラスのチケットを２枚下さい」を意味する音声５０１が日本語音声入力Ｖとして入力された例が示されている（ステップＳ３０１）。

図６は、日本語音声入力Ｖの認識結果（以下、Ｊとする。）の一例を示す説明図である。同図では、認識結果Ｊとして、「成田からボストンまで地熱くらしのチケットを２枚下さい」を意味する誤った認識結果６０１が、認識スコアＳと対応づけられて生成された例が示されている（ステップＳ３０２）。

すなわち、この例は、「ビジネスクラス」を意味する図５の音声５０１の下線部の日本語が、「地熱くらし」を意味する図６の認識結果６０１の下線部の日本語に誤認識されたことを表している。

ここで、認識スコアに対する所定の閾値として「８０」が設定されていたとすると、図６に示す例では認識スコアＳが「７２」であるため、判断部１０３は、選択記憶部１２１からの選択例の取得処理を実行する（ステップＳ３０３：ＮＯ、ステップＳ３０５）。

選択記憶部１２１から選択例が取得できなかったとすると（ステップＳ３０６：ＮＯ）、部分表現生成処理が実行される（ステップＳ３０８）。部分表現生成処理では、まず、
認識結果Ｊに対する形態素解析処理が実行される（ステップＳ４０１）。

図７は、図６の認識結果Ｊを形態素解析した結果である形態素列Ｐの一例を示す説明図である。同図では、解析した形態素と、形態素の品詞とを対応づけた表形式で形態素列Ｐを表している。

次に、分割基準Ｃと形態素列Ｐを参照して認識結果Ｊを文節単位に分割する分割処理が実行される（ステップＳ４０２）。まず、分割基準Ｃ１によって、形態素列Ｐに出現する各品詞が各グループに分類される。

例えば、図７の形態素列のうち、品詞が助詞である４つの日本語の形態素（「から」、「まで」、「の」、「を」）や、品詞が接尾辞である日本語の形態素（「枚」）は、Ｇ４に分類される。

また、連接自立品詞の一つである名詞が２つ隣接しているため、分割基準Ｃ４によって、「地熱」を意味する名詞７０１と、「くらし」を意味する名詞７０２とが連結される。

また、分割基準Ｃ３によって、文頭でないＧ４の品詞（助詞）を持つ形態素（「から」、「まで」、「の」、「を」）が、それぞれ先行する形態素（「成田」、「ボストン」、「地熱くらし」、「チケット」）に連結される。

また、分割基準Ｃ３によって、文頭でないＧ４の品詞（接尾辞）を持つ形態素（「枚」）が、先行する形態素（「２」）に連結される。

このような処理によって、認識結果Ｊが各文節単位に分割される。図８は、分割処理によって分割された文節Ｑの一例を示す説明図である。なお、同図では、記号「／」で区切られた単位が各文節を表している。

続いて、分割された各文節を１つずつ除外した部分表現が順次生成され、部分表現のセットＬに追加される（ステップＳ４０４）。図９は、図８のように分割された文節Ｑを元に生成された部分表現のセットＬを含む処理対象の候補の一例を示す説明図である。なお、同図に示すように、処理対象の候補としては、元の認識結果Ｊ（出力Ａ）も部分表現のセットＬとともに出力される（ステップＳ３０９）。

利用者が、出力された各候補の中から図９の出力Ｄを選択したとする（ステップＳ３１０）。図１０は、選択された候補の一例を示す説明図である。同図は、図６の認識結果６０１の下線部の日本語（「地熱くらし」）を含む分節が除外された部分表現である出力Ｄを利用者が選択した場合の例を表している。

この場合、選択受付部１０７は、出力Ｄと認識結果Ｊとを対応づけて選択記憶部１２１に保存する（ステップＳ３１１）。これによって、選択記憶部１２１には図２に示すような情報が格納される。

さらに、選択された候補が処理対象として選択され（ステップＳ３１２）、選択された処理対象が目的言語である英語に翻訳される（ステップＳ３１３）。図１１は、翻訳部１０８による翻訳結果の一例を示す説明図である。同図に示すように、認識結果Ｊの一部の文節を除外した部分表現であっても、適切な部分表現を選択することにより、発話の意図を損なわない翻訳結果を出力することができる。

以上のような処理により、利用者の音声入力に対して部分的な誤認識が生じた場合であ
っても、利用者は提示される候補の中から自分の希望と合う候補を選択するだけで、音声処理を継続可能となる。したがって、複雑な修正操作が不要となり、ハンズフリー性という音声入力の利点を最大限に活用することが可能となる。

また、認識結果に対する確信度が低いときにのみ、部分表現の生成を行うことができるため、不要な部分表現生成処理を回避し、音声処理負担の軽減、処理の高速化を実現できる。

また、過去の部分表現の選択結果を選択記憶部１２１に記憶可能なため、同様または類似の認識誤りに対して、適切な部分表現を選択記憶部１２１から取得することにより、利用者が候補を選択することなく処理を継続することができる。

また、従来技術のように認識結果の候補を複数提示するのではなく、認識結果から新たに生成した複数の部分表現を処理対象として提示することができる。したがって、複数の認識結果のいずれもが誤認識を含む場合には、従来技術では煩雑な修正処理が必要になるのに対し、本実施の形態によれば、誤認識部分を含まない部分表現を生成可能であるため、修正処理をせずに処理を継続することが可能となる。

なお、第１の実施の形態では、認識結果を翻訳して出力する音声翻訳装置として音声処理装置を実現した例について説明したが、音声操作システム、音声対話システムなどのように翻訳処理を行わず、認識処理のみを実行する装置に対して本実施の形態を適用してもよい。

また、認識処理は、入力された音声を認識する音声認識に限られず、ペン入力された文字列を認識する文字列認識や、ジェスチャなどを対象とする認識に適用することもできる。

また、選択記憶部１２１から選択例を取得できた場合に、取得した選択例を処理対象として選択しているが、取得した選択例をその他の候補より優先して提示するように構成してもよい。例えば、処理結果Ｒの次に取得した選択例を表示するように構成することができる。また、選択記憶部１２１に、選択例が選択された頻度等に応じて優先度を格納し、優先度順に選択例を表示するように構成してもよい。

また、生成された部分表現の個数が多い場合は、表示する部分表現を予め定めた個数に制限するように構成してもよい。この場合、さらに、認識結果の認識スコアに応じた所定数の部分表現を表示してもよい。これにより、例えば、認識スコアが小さい場合は、認識スコアが大きい場合より多くの部分表現を表示することができる。

このように、第１の実施の形態にかかる音声処理装置では、音声認識結果から一部の文字列を除外した部分表現を複数生成し、生成した部分表現を利用者に提示して、提示した部分表現から利用者が選択した音声処理対象とする部分表現を受付けて処理を行うことができる。このため、煩雑な修正操作を行うことなく、音声認識結果に関する処理を迅速に継続することができる。

（第２の実施の形態）
第１の実施の形態では、音声認識結果に対して部分表現を生成していた。これに対し、第２の実施の形態にかかる音声処理装置は、認識結果を翻訳した翻訳結果に対して部分表現を生成し、利用者に提示するものである。

図１２は、第２の実施の形態にかかる音声翻訳装置１２００の構成を示すブロック図で
ある。同図に示すように、音声翻訳装置１２００は、音声受付部１０１と、認識部１０２と、判断部１０３と、解析部１０４と、生成部１０５と、候補出力部１０６と、選択受付部１２０７と、翻訳部１２０８と、言語出力部１２０９と、選択記憶部１２１と、を備えている。

第２の実施の形態では、選択受付部１２０７、翻訳部１２０８、および言語出力部１２０９の機能が第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる音声翻訳装置１００の構成を表すブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

選択受付部１２０７は、選択を受付けた部分表現を、利用者に出力する出力対象として選択する点が、選択を受付けた部分表現を翻訳対象として選択する第１の実施の形態の選択受付部１０７と異なっている。第２の実施の形態では、認識処理の後に翻訳処理を実行し、翻訳結果に対して部分表現を生成しているためである。

翻訳部１２０８は、認識部１０２による認識結果であるテキスト文字列を目的言語に翻訳する点が、第１の実施の形態の翻訳部１０８と異なっている。

言語出力部１２０９は、選択受付部１２０７が受付けた翻訳結果または翻訳結果の部分表現を出力する点が、翻訳部１０８の翻訳結果を画像ディスプレイなどの表示部に出力する第１の実施の形態の言語出力部１０９と異なっている。

次に、このように構成された第２の実施の形態にかかる音声翻訳装置１２００による音声翻訳処理について説明する。図１３は、第２の実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。

まず、音声受付部１０１が、音声Ｖが入力されたか否かを判断し（ステップＳ１３０１）、入力されていない場合は（ステップＳ１３０１：ＮＯ）、入力されるまで処理を繰り返す。

音声Ｖが入力された場合は（ステップＳ１３０１：ＹＥＳ）、認識部１０２が、入力された音声Ｖを音声認識し、認識結果（以下、Ｊとする。）と、認識スコアＳを生成する（ステップＳ１３０２）。

次に、翻訳部１２０８は、認識結果Jを目的言語に翻訳し、翻訳結果である処理結果Ｒを生成する（ステップＳ１３０３）。

ステップＳ１３０４からステップＳ１３１３までの、スコア比較処理、選択例取得処理、部分表現生成処理、候補受付処理は、第１の実施の形態にかかる音声翻訳装置１００におけるステップＳ３０３からステップＳ３１２までと同様の処理なので、その説明を省略する。

ステップＳ１３０５で生成部１０５が処理結果Ｒを処理対象として選択した場合、ステップＳ１３０８で生成部１０５が選択記憶部１２１から取得した選択例を処理対象として選択した場合、またはステップＳ１３１３で選択受付部１２０７が受付けた候補を処理対象として選択した場合は、言語出力部１２０９は、選択された処理対象を表示部に出力し（ステップＳ１３１４）、音声翻訳処理を終了する。

次に、上述のように構成された第２の実施の形態の音声翻訳装置１２００による音声翻訳処理の具体例について説明する。ここでは、図５と同様の日本語音声入力Ｖが入力され
、図６に示すような認識結果Ｊが得られたことを前提とする。

第２の実施の形態では、認識結果ではなく翻訳結果に対して部分表現生成処理が実行されるため、図６の認識結果Ｊが翻訳され、翻訳結果が出力される（ステップＳ１３０３）。図１４は、図６の認識結果Ｊを翻訳した翻訳結果の一例を示す説明図である。

この後、第２の実施の形態では、図４に示すような部分表現生成処理で、翻訳部１２０８の翻訳結果を処理結果Ｒとして部分表現生成処理が実行される。図１５は、部分表現生成処理中の分割処理で分割された文節Ｑの一例を示す説明図である。

分割された文節Ｑが得られた後、生成部１０５によって、分割された各文節を１つずつ除外した部分表現が順次生成され、部分表現のセットＬに追加される（ステップＳ４０４）。図１６は、図１５のように分割された文節Ｑを元に生成された部分表現のセットＬを含む処理対象の候補の一例を示す説明図である。

この後、図１６のような処理対象の候補が利用者に提示され（ステップＳ１３１０）、利用者による候補の選択が受付けられる（ステップＳ１３１１）。図１７は、選択された候補の一例を示す説明図である。同図は、図６の認識結果６０１の下線部の日本語（「地熱くらし」）に対応する訳語を含む分節が除外された部分表現である出力Ｅを利用者が選択した場合の例を表している。

このように、第１の実施の形態では、音声認識結果を対象として部分表現を生成・提示していたのに対し、第２の実施の形態では、音声認識結果を翻訳した翻訳結果に対して、部分表現の生成、候補の提示、候補の受付けなどの処理を実行している。これにより、目的言語を理解する利用者であれば、提示された候補から適切な候補を選択することが可能となり、煩雑な修正処理を行うことなく、コミュニケーション支援処理を継続して実行することができる。

以上ように、第２の実施の形態にかかる音声処理装置では、認識結果を翻訳した翻訳結果に対して部分表現を生成して利用者に提示することができる。このため、煩雑な修正操作を行うことなく、異言語コミュニケーションの支援処理を迅速に継続することができる。

図１８は、第１または第２の実施の形態にかかる音声処理装置のハードウェア構成を示す説明図である。

第１または第２の実施の形態にかかる音声処理装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

第１または第２の実施の形態にかかる音声処理装置で実行される音声処理プログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

第１または第２の実施の形態にかかる音声処理装置で実行される音声処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk
Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。

さらに、第１または第２の実施の形態にかかる音声処理装置で実行される音声処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１または第２の実施の形態にかかる音声処理装置で実行される音声処理プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１または第２の実施の形態にかかる音声処理装置で実行される音声処理プログラムは、上述した各部（音声受付部、認識部、判断部、解析部、生成部、候補出力部、選択受付部、翻訳部、言語出力部）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ５１が上記ＲＯＭ５２から音声処理プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。

以上のように、本発明にかかる装置、方法およびプログラムは、原言語による音声入力を目的言語に翻訳して音声出力することによって異言語コミュニケーションを支援する音声翻訳装置に適している。

第１の実施の形態にかかる音声翻訳装置の構成を示すブロック図である。選択記憶部に記憶された情報のデータ構造の一例を示す説明図である。第１の実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。第１の実施の形態における部分表現生成処理の全体の流れを示すフローチャートである。入力された日本語音声入力の一例を示す説明図である。日本語音声入力の認識結果の一例を示す説明図である。認識結果を形態素解析した結果である形態素列の一例を示す説明図である。分割された文節の一例を示す説明図である。処理対象の候補の一例を示す説明図である。選択された候補の一例を示す説明図である。翻訳結果の一例を示す説明図である。第２の実施の形態にかかる音声処理装置の構成を示すブロック図である。第２の実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。翻訳結果の一例を示す説明図である。分割された文節の一例を示す説明図である。処理対象の候補の一例を示す説明図である。選択された候補の一例を示す説明図である。第１または第２の実施の形態にかかる音声処理装置のハードウェア構成を示す説明図である。

符号の説明

５１ＣＰＵ
５２ＲＯＭ
５３ＲＡＭ
５４通信Ｉ／Ｆ
６１バス
１００音声翻訳装置
１０１音声受付部
１０２認識部
１０３判断部
１０４解析部
１０５生成部
１０６候補出力部
１０７選択受付部
１０８翻訳部
１０９言語出力部
１２１選択記憶部
５０１音声
６０１認識結果
７０１、７０２名詞
１２００音声処理装置
１２０７選択受付部
１２０８翻訳部
１２０９言語出力部

Claims

入力音声を受付ける音声受付部と、
前記入力音声からテキスト文字列を求める音声処理部と、
前記テキスト文字列を形態素解析する解析部と、
１つまたは複数の前記形態素からなる予め定められた分割単位で前記テキスト文字列を構成要素に分割し、前記構成要素のうち、相互に異なる一部の前記構成要素を前記テキスト文字列から除外した複数の部分文字列を生成する生成部と、
複数の前記部分文字列を表示部に選択可能に出力する第１出力部と、
出力された複数の前記部分文字列から、処理対象とする前記部分文字列の選択を受付ける選択受付部と、
を備えたことを特徴とする音声処理装置。
前記音声処理部は、前記入力音声を音声認識処理して認識結果を前記テキスト文字列として求めること、
を特徴とする請求項１に記載の音声処理装置。
前記音声受付部は、第１言語による前記入力音声を受付け、
選択を受付けた前記部分文字列を第２言語に翻訳して翻訳結果を求める翻訳部と、
前記翻訳結果を出力する第２出力部と、をさらに備えたこと、
を特徴とする請求項２に記載の音声処理装置。
受付けた前記入力音声を音声認識処理して認識結果を求める認識部をさらに備え、
前記音声受付部は、前記第１言語による前記入力音声を受付け、
前記音声処理部は、前記認識結果を第２言語に翻訳すること、
を特徴とする請求項１に記載の音声処理装置。
前記生成部は、単語、文節、および句を含む文の統語的な構成単位を前記分割単位として前記テキスト文字列を前記構成要素に分割し、前記構成要素のうち、一部の前記構成要素を含む前記部分文字列を生成すること、
を特徴とする請求項１に記載の音声処理装置。
前記生成部は、数量、時間、程度、挨拶、定型句の少なくとも１つを含む語句の意味単位を前記分割単位として前記テキスト文字列を前記構成要素に分割し、前記構成要素のうち、一部の前記構成要素を含む前記部分文字列を生成すること、
を特徴とする請求項１に記載の音声処理装置。
選択が受付けられた前記部分文字列と、前記部分文字列の生成元である前記テキスト文字列とを対応づけて記憶可能な記憶部をさらに備え、
前記選択受付部は、さらに、選択を受付けた前記部分文字列と、前記部分文字列の生成元である前記テキスト文字列とを対応づけて前記記憶部に記憶すること、
を特徴とする請求項１に記載の音声処理装置。
前記テキスト文字列に対応する前記部分文字列が前記記憶部に記憶されているか否かを判断する判断部をさらに備え、
前記生成部は、前記テキスト文字列に対応する前記部分文字列が前記記憶部に記憶されている場合に、前記テキスト文字列に対応する前記部分文字列を前記記憶部から取得することにより前記部分文字列を生成すること、
を特徴とする請求項７に記載の音声処理装置。
前記テキスト文字列に対応する前記部分文字列が前記記憶部に記憶されているか否かを
判断する判断部をさらに備え、
前記第１出力部は、前記記憶部に記憶されている前記部分文字列を、前記記憶部に記憶されていない前記部分文字列より優先して出力すること、
を特徴とする請求項７に記載の音声処理装置。
前記音声処理部は、さらに受付けた前記入力音声の前記テキスト文字列の確からしさを表す尤度を算出し、
前記尤度が予め定められた閾値より小さいか否かを判断する判断部をさらに備え、
前記生成部は、前記尤度が前記閾値より小さいと判断された場合に、前記部分文字列を生成すること、
を特徴とする請求項２に記載の音声処理装置。
前記第１出力部は、前記尤度が前記閾値より大きいと判断された場合に、前記テキスト文字列を出力すること、
を特徴とする請求項１０に記載の音声処理装置。
前記第１出力部は、前記部分文字列から予め定められた個数の前記部分文字列を抽出し、抽出した前記部分文字列を出力すること、
を特徴とする請求項１に記載の音声処理装置。
前記音声処理部は、さらに受付けた前記入力音声の前記テキスト文字列の確からしさを表す尤度を算出し、
前記第１出力部は、前記部分文字列のうち、前記テキスト文字列の前記尤度に応じて予め定められた個数の前記部分文字列を出力すること、
を特徴とする請求項１に記載の音声処理装置。
音声受付部が、入力音声を受付ける音声受付ステップと、
音声処理部が、前記入力音声からテキスト文字列を求める音声処理ステップと、
解析部が、前記テキスト文字列を形態素解析する解析ステップと、
生成部が、１つまたは複数の前記形態素からなる予め定められた分割単位で前記テキスト文字列を構成要素に分割し、前記構成要素のうち、相互に異なる一部の前記構成要素を前記テキスト文字列から除外した複数の部分文字列を生成する生成ステップと、
第１出力部が、複数の前記部分文字列を表示部に選択可能に出力する第１出力ステップと、
選択受付部が、出力された複数の前記部分文字列から、処理対象とする前記部分文字列の選択を受付ける選択受付ステップと、
を含むことを特徴とする音声処理方法。
入力音声を受付ける音声受付手順と、
前記入力音声からテキスト文字列を求める音声処理手順と、
前記テキスト文字列を形態素解析する解析手順と、
１つまたは複数の前記形態素からなる予め定められた分割単位で前記テキスト文字列を構成要素に分割し、前記構成要素のうち、相互に異なる一部の前記構成要素を前記テキスト文字列から除外した複数の部分文字列を生成する生成手順と、
複数の前記部分文字列を表示部に選択可能に出力する第１出力手順と、
出力された複数の前記部分文字列から、処理対象とする前記部分文字列の選択を受付ける選択受付手順と、
をコンピュータに実行させるための音声処理プログラム。