JP4791984B2 - 入力された音声を処理する装置、方法およびプログラム - Google Patents

入力された音声を処理する装置、方法およびプログラム Download PDF

Info

Publication number
JP4791984B2
JP4791984B2 JP2007046925A JP2007046925A JP4791984B2 JP 4791984 B2 JP4791984 B2 JP 4791984B2 JP 2007046925 A JP2007046925 A JP 2007046925A JP 2007046925 A JP2007046925 A JP 2007046925A JP 4791984 B2 JP4791984 B2 JP 4791984B2
Authority
JP
Japan
Prior art keywords
unit
speech
character string
text
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007046925A
Other languages
English (en)
Other versions
JP2008209717A (ja
Inventor
哲朗 知野
聡史 釜谷
建太郎 降幡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007046925A priority Critical patent/JP4791984B2/ja
Priority to US12/037,724 priority patent/US8954333B2/en
Priority to CN200810074190.6A priority patent/CN101256559A/zh
Publication of JP2008209717A publication Critical patent/JP2008209717A/ja
Application granted granted Critical
Publication of JP4791984B2 publication Critical patent/JP4791984B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Description

この発明は、入力された音声に対して音声認識処理などを実行して処理結果を出力する装置、方法およびプログラムに関するものである。
近年、音声入力を用いたヒューマンインタフェースの実用化が徐々に進んでいる。例えば、利用者が予め設定されている特定のコマンドを音声入力し、これをシステムが認識して、対応する操作をシステムが自動的に実行することによって、音声でシステムを利用することができるようにした音声操作システムが開発されている。また、利用者が任意の文章を発声し、これをシステムが分析して文字列に変換することによって、音声入力による文章の作成を可能とするシステムも開発されている。さらに、利用者とシステムが話し言葉でインタラクションすることを可能とするための音声対話システムなどが開発され、既に利用され始めている。
上記各システムで利用される音声認識処理では、一般に以下のような方法により利用者の発声内容を認識している。まず、発声された音声信号をマイクロフォンなどによってシステムに取り込み、電気信号に変えた後、A/D(アナログデジタル)変換装置などを用いて微小な時間単位毎に標本化し、例えば波形振幅の時間系列などのデジタルデータへと変換する。このデジタルデータに対して、例えばFFT(高速フーリエ変換)分析などの手法を適用することによって、例えば周波数の時間変化などへと分析することで、発声された音声信号の特徴データを抽出する。続いて、認識結果などと対応付けて予め辞書として用意している例えば音素などの標準パターンまたはその系列と、上述の処理で抽出した特徴データとを、HMM(隠れマルコフモデル)手法、またはDP(ダイナミックプログラミング)手法、またはNN(ニューラルネットワーク)手法などを用いて比較照合し、発声内容の認識候補を生成する。さらに、認識精度をたかめるために、生成された認識候補に対して、例えばNグラムなどに代表される統計的な言語モデルを利用して最も確からしい候補を推定選択することなどによって、発声内容を認識するようにしている。
音声認識では、以下のような原因により、100%誤り無く認識を行うことは非常に困難であり、限りなく不可能に近いと考えられている。まず、音声入力が行われる環境に存在する雑音などが理由となって、音声区間の切りだしに失敗することが挙げられる。また、声質、音量、発声速度、発声様式、または方言などのように利用者間で個人差が生じうる要因によって入力音声の波形が変形し、認識結果の照合に失敗することが挙げられる。
また、システム内に用意されていない未知語を利用者が発声することによって認識に失敗する場合、音響的に類似した単語であると誤って認識される場合、または用意されている標準パターンや統計的言語モデルの不完全さのために誤った単語に誤認識される場合もある。
また、認識誤りが起こった際に処理を継続すると、通常、誤動作が誘発されるため、誤動作の影響の排除、復元、同じ発声の再入力などのための操作が必要になり、利用者に負担がかかるという問題がある。また、再入力した場合であっても、必ず誤認識が解決できるという保証がない。
一方、これを避けるために処理継続の前などに認識結果を修正できるようにした場合、通常は例えばキーボード操作等が必要になり、音声入力のハンズフリー性という特性が無効になるとともに、利用者の操作負担が増大する。
また、上述のようなシステムは、最も確からしい候補を正しい認識結果として出力するものであるため、結果的に誤認識が生じている場合であっても、いずれの部分が誤りであり、いずれの部分が正しいのかを当該システム自身が知る方法がない。したがって、誤認識部分を修正する場合には、利用者が誤認識部分を判断した上で修正する必要がある。
このような問題に関連して、特許文献1では、最も確からしい1つの音声認識候補だけではなく、認識スコアが近い複数の音声認識候補を生成し、生成した各候補を翻訳し、さらに翻訳履歴の要約を複数の翻訳結果とともに提示する技術が提案されている。これにより、対話相手が処理結果の信頼性を認識すること、および発話者の発話内容を容易に想定することを可能とし、認識処理の性能が低くても十分かつ円滑なコミュニケーションがとれるようにしている。
特開2000−242645号公報
しかしながら、特許文献1の方法では、提示した複数の認識候補の中に選択すべき認識候補が存在したとしても、当該認識候補に誤認識部分が含まれる場合には、処理を継続することはできず、修正や再入力が必要になる。したがって、従来と同様に、音声入力のハンズフリー性が失われるという問題や、利用者による修正処理負担が増大するという問題が生じる可能性があった。
本発明は、上記に鑑みてなされたものであって、音声認識の誤認識が生じた場合であっても、煩雑な修正操作が不要であり、音声認識結果に関する処理を迅速に継続可能な装置、方法およびプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、入力音声を受付ける音声受付部と、前記入力音声からテキスト文字列を求める音声処理部と、前記テキスト文字列を形態素解析する解析部と、1つまたは複数の前記形態素からなる予め定められた分割単位で前記テキスト文字列を構成要素に分割し、前記構成要素のうち、相互に異なる一部の前記構成要素を前記テキスト文字列から除外した複数の部分文字列を生成する生成部と、複数の前記部分文字列を表示部に選択可能に出力する第1出力部と、出力された複数の前記部分文字列から、処理対象とする前記部分文字列の選択を受付ける選択受付部と、を備えたことを特徴とする。
また、本発明は、上記装置を実行することができる方法およびプログラムである。
本発明によれば、音声認識の誤認識が生じた場合であっても、煩雑な修正操作を行うことなく、音声認識結果に関する処理を迅速に継続することができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる音声処理する装置、方法およびプログラムの最良な実施の形態を詳細に説明する。
(第1の実施の形態)
第1の実施の形態にかかる音声処理装置は、音声認識結果から一部の文字列を除外した部分文字列(以下、部分表現という。)を複数生成し、生成した部分表現を利用者に提示して、提示した部分表現から利用者が選択した音声処理対象とする部分表現を受付けて処
理を行うものである。
なお、以下では、第1の実施の形態にかかる音声処理装置を、原言語による利用者の音声入力を意味的に等価な目的言語に翻訳して音声出力することによって異言語コミュニケーションを支援する音声翻訳装置として実現した場合を例に説明する。また、以下では、原言語および目的言語として、それぞれ日本語および英語を用いた例を説明するが、原言語および目的言語の組合せはこれに限られるものではなく、あらゆる言語の組合せに対して本実施の形態を適用できる。
図1は、第1の実施の形態にかかる音声翻訳装置100の構成を示すブロック図である。同図に示すように、音声翻訳装置100は、音声受付部101と、認識部102と、判断部103と、解析部104と、生成部105と、候補出力部106と、選択受付部107と、翻訳部108と、言語出力部109と、選択記憶部121と、を備えている。
音声受付部101は、マイクロフォン(図示せず)などから入力された音声のアナログ信号に対して微小な時間単位ごとにサンプリングを行い、例えば波形振幅の時間系列などのステレオのデジタル信号に変換して出力する処理を行うものである。音声受付部101の処理では、従来から用いられているA/D変換技術などを適用することができる。
認識部102は、音声受付部101が出力したデジタル音声信号を入力として、対応する日本語のテキスト文字列である認識結果の候補と、その確からしさを表す尤度(以下、認識スコアという。)とを生成する音声認識処理を行うものである。音声認識処理では、LPC分析、隠れマルコフモデル(HMM:Hidden Markov Model)、ダイナミックプログラミング、ニューラルネットワーク、Nグラム言語モデルなどを用いた、一般的に利用されているあらゆる音声認識方法を適用することができる。
例えば、認識部102は、まず、FFT(高速フーリエ変換)分析などの手法を適用することによって周波数の時間変化を分析し、発声された音声信号の特徴データを抽出する。続いて、認識部102は、認識結果などと対応付けた形で予め辞書として用意している音素などの標準パターンまたはその系列と、抽出した特徴データとを、HMM手法、ダイナミックプログラミング手法、またはニューラルネットワーク手法などを用いて比較照合し、発声内容の認識候補を生成する。
さらに認識部102は、認識精度を高めるために、生成された認識候補に対して、例えばNグラムなどに代表される統計的な言語モデルを利用して最も確からしい候補を推定選択することなどによって、発声内容を認識する。
判断部103は、音声翻訳処理で行われる各種判断処理を行うものである。具体的には、判断部103は、音声認識結果の認識スコアが所定の閾値より小さいか否かを判断する。認識スコアが当該閾値より小さい場合にのみ、部分表現の生成を行うためである。
また、判断部103は、入力された文字列(以下、入力文字列という。)に対応する部分表現が後述する選択記憶部121に記憶されているか否かを判断する。記憶されている場合は、選択記憶部121から取得した部分表現で処理を進めるためである。なお、第1の実施の形態では、音声認識結果に対して部分表現の生成を行うため、音声認識結果が入力文字列となる。
解析部104は、入力文字列から形態素を抽出するものである。解析部104は、従来から用いられている形態素解析技術を用いて入力文字列から形態素を解析して抽出する。なお、認識部102による音声認識処理の処理結果自体を、形態素列の形式で得られるよ
うにし、解析部104による新たな形態素解析処理を行わずに、音声認識結果をそのまま形態素解析結果として利用するように構成してもよい。
生成部105は、形態素解析結果を利用して、入力文字列を統語的または意味的な複数の部分に分割し、分割された複数の部分から任意個の部分を選択することによって、元の言語表現(入力文字列)に対する複数の部分表現を生成するものである。
例えば、日本語の音声が入力された場合、生成部105は、入力音声の認識結果に対する形態素解析結果で得られる品詞素列に対して、予め定めた自立語品詞が現れる度にそれを文節の先頭として認定する方法で文節を特定し、認識結果を文節ごとに分割する。そして、生成部105は、分割された文節を先頭から順に一つずつ取り除いた文字列を、元の言語表現に対する部分表現の候補とする。
なお、認識結果の分割方法はこれに限られず、チャンキング、文節抽出、句構造抽出、構文解析、係受け解析(依存構造解析)、ネームドエンティティ(固有表現抽出)解析などといった従来の自然言語処理を利用したあらゆる方法により、統語的または意味的な分割単位で入力文字列を分割することができる。また、生成部105は、時間表現や数値表現に固有に出現する文字や表現を手掛かりとした意味的な固まりを分割単位として入力文字列を分割することもできる。意味的な分割単位はこれに限られず、程度、挨拶、定型句などあらゆる意味単位を対象とすることができる。
候補出力部106は、生成部105によって生成された部分表現の候補を利用者に列挙して図示しない画像ディスプレイなどの表示部に選択可能に提示するものである。
選択受付部107は、候補出力部106によって提示された部分表現の候補の中から利用者により選択された部分表現を受け付けるものである。そして、選択受付部107は、選択を受付けた部分表現を、翻訳処理の処理対象として翻訳部108に出力する。
選択受付部107は、タッチセンサーや、記号や配置によって画面表示と対応付けられたボタンやダイアルなどの操作入力装置(図示せず)で入力された部分表現を受付けることによって実現される。
翻訳部108は、選択受付部107が受付けた翻訳処理対象の日本語のテキスト文字列を、意味的に等価な英語のテキストへと変換する翻訳処理を行うものである。翻訳部108による翻訳処理では、規則方式または用例方式に大別される、従来から用いられているあらゆる機械翻訳技術を適用することができる。
規則方式の機械翻訳では、日本語および英語の文法や辞書、日本語と英語の語彙の意味的な対応関係などの予め用意した規則に基づいて、任意の日本語文字列を意味的に等価な英語文字列へと自動翻訳し、規則翻訳結果とその確信度を表す規則翻訳スコアとからなる規則翻訳情報を出力する。
用例方式の機械翻訳では、予め用意した意味的に等価な日本語と英語の用例の組である対訳を記憶部に記憶し、記憶された対訳を参照して、入力された日本語テキストと用例の類似性に基づいて、対応する英語テキストを適宜検索することにより、入力日本語文の翻訳結果を生成する。また、用例方式の翻訳処理においては、日本語と英語の単語の対応関係なども適宜参照され、利用される。
なお、適用できる翻訳技術は上記に限られず、大規模な用例データに基づく統計情報によって、原言語入力に対する対訳を得る統計翻訳などを利用するように構成してもよい。
言語出力部109は、翻訳部108の翻訳結果を画像ディスプレイなどの表示部に出力するものである。また、言語出力部109は、翻訳結果の文字情報を音声に変換して出力するテキスト音声合成を行い、合成した音声を図示しないスピーカ等に出力するように構成してもよい。この場合の音声合成処理では、Text−To−Speechなどの従来から用いられているあらゆる音声合成技術を適用できる。
選択記憶部121は、選択受付部107で選択が受付けられた部分表現と、生成部105がその部分表現を生成する際に元にした入力文字列との組を記憶するものである。選択記憶部121は、判断部103が、入力文字列に対応する部分表現が記憶されているか否かを判断するときに参照される。
図2は、選択記憶部121に記憶された情報のデータ構造の一例を示す説明図である。同図に示すように、選択記憶部121には、選択が受付けられた部分表現を表す選択例と、選択例の生成元となった入力文字列を表す生成元とが対応づけられて記憶されている。
なお、選択記憶部121は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
次に、このように構成された第1の実施の形態にかかる音声翻訳装置100による音声翻訳処理について説明する。図3は、第1の実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。
まず、音声受付部101が、音声(以下、Vとする。)が入力されたか否かを判断し(ステップS301)、入力されていない場合は(ステップS301:NO)、入力されるまで処理を繰り返す。
音声が入力された場合は(ステップS301:YES)、認識部102が、入力された音声Vを音声認識し、音声認識処理の処理結果(以下、Rとする。)と、認識スコア(以下、Sとする。)を生成する(ステップS302)。
次に、判断部103が、認識スコアSが所定の閾値より大きいか否かを判断し(ステップS303)、大きい場合は(ステップS303:YES)、生成部105は、処理結果Rを処理対象として選択する(ステップS304)。認識スコアSが大きい場合は、音声認識結果の信頼性が高いため、部分表現を生成せずに認識結果そのものを出力してもコミュニケーションを阻害しないと考えられるからである。なお、本実施の形態では、処理対象とは翻訳部108による翻訳処理の対象を指す。
認識スコアSが所定の閾値より大きくない場合は(ステップS303:NO)、判断部103は、処理結果Rと一致する生成元を選択記憶部121から検索し、検索した生成元に対応する選択例を選択記憶部121から取得する(ステップS304)。そして、判断部103は、選択例を取得できたか否かを判断する(ステップS305)。取得できた場合(ステップS306)、生成部105は、取得した選択例を処理対象として選択する(ステップS307)。
なお、ステップS304の選択例の検索処理では、処理結果Rと完全一致する生成元を検索するだけでなく、部分一致する生成元を検索するように構成してもよい。この場合は、相違部分を置換した選択例を取得するように構成する。
選択例を取得できなかった場合は(ステップS306:NO)、処理結果Rに対する部分表現を生成する部分表現生成処理が実行される(ステップS308)。部分表現生成処理の詳細については後述する。
次に、候補出力部106が、部分表現生成処理で生成された部分表現のセット(以下、Lとする。)と、部分表現のセットLの生成元である処理結果Rとを含む処理対象の候補を表示部に選択可能に出力する(ステップS309)。
次に、選択受付部107が、表示部に表示された処理対象の候補の中から利用者が選択した候補を受付ける(ステップS310)。続いて、選択受付部107は、受付けた候補と、処理結果Rとを対応づけて選択記憶部121に保存する(ステップS311)。これにより、利用者の部分表現の選択を学習し、後の音声翻訳処理で利用することが可能となる。また、選択受付部107は、受付けた候補を処理対象として選択する(ステップS312)。なお、選択を受付ける候補の個数は1つに限られず、複数の候補を選択して処理対象とすることができるように構成してもよい。
ステップS304で生成部105が処理結果Rを処理対象として選択した場合、ステップS307で生成部105が選択記憶部121から取得した選択例を処理対象として選択した場合、またはステップS312で選択受付部107が受付けた候補を処理対象として選択した場合は、翻訳部108が、選択された処理対象を翻訳の目的言語に翻訳する(ステップS313)。なお、翻訳部108は、上述のように、規則方式または用例方式の機械翻訳処理によって、処理対象である原言語の文字列を目的言語の文字列に翻訳する。
次に、言語出力部109が、翻訳部108による翻訳結果を表示部に出力し(ステップS314)、音声翻訳処理を終了する。なお、言語出力部109は、翻訳結果である目的言語の文字列を音声合成した音声をスピーカ等に出力してもよい。
次に、ステップS308の部分表現生成処理の詳細について説明する。図4は、第1の実施の形態における部分表現生成処理の全体の流れを示すフローチャートである。
まず、解析部104が、処理結果Rを形態素解析し、形態素列(以下、Pとする。)を生成する(ステップS401)。次に、生成部105が、分割基準に従い、生成された形態素列Pから文節(以下、Qとする。)を抽出する(ステップS402)。
ここで、分割基準の具体例と、分割処理の詳細について説明する。分割処理では、まず処理結果R内の各形態素を所定のグループに分類し、さらに隣接する各グループの形態素を分割基準にしたがって連結した文節を抽出することにより、処理結果Rを文節単位に分割する。
分割基準(以下、Cとする。)は、例えば、以下のように規定することができる。
<分割基準C>
C1:形態素列に現れる各品詞を、下記のグループG1〜G4に分類する。
(G1)単独で意味的なまとまりを形成する内容語をこのグループに分類する。日本語では、動詞などがこのグループに分類される。
(G2)単独あるいは連続的に出現して意味的なまとまりを形成する内容語をこのグループに分類する。日本語では、名詞、形容詞、数字などがこのグループに分類される。
(G3)他の内容語の前方に接続する機能語をこのグループに分類する。日本語では、接頭辞などがこのグループに分類される。
(G4)他の内容語の後方に接続する機能語をこのグループに分類する。日本語では、助
詞、接尾辞などがこのグループに分類される。
C2:文末でないG3の品詞を持つ形態素は、次に現れる形態素に連結させる。
C3:文頭でないG4の品詞を持つ形態素は、先行する形態素に連結させる。
C4:G2の品詞を持つ形態素が隣接している場合は、両者を連結させる。
なお、分割基準や分割処理は上述の限られるものではなく、上述のように、チャンキング、句構造抽出、構文解析、係受け解析、ネームドエンティティ解析などの従来から用いられているあらゆる方法を適用できる。
次に、生成部105は、処理した文節をカウントするためのカウンタ(以下、Iとする。)を1に初期化する(ステップS403)。続いて、生成部105は、処理結果Rから、文節QのうちI番目の文節を除いた文字列を生成し、部分表現のセットLに追加する(ステップS404)。
次に、生成部105は、カウンタIに1を加算し(ステップS405)、カウンタIが文節数を越えたか否かを判断する(ステップS406)。カウンタIが文節数を越えていない場合は(ステップS406:NO)、次の文節を除いた部分表現を生成してさらに部分表現のセットLに追加し(ステップS404)、処理を繰り返す。
カウンタIが文節数を越えた場合は(ステップS406:YES)、生成部105は、部分表現のセットLを出力して(ステップS407)、部分表現生成処理を終了する。
このように、本実施の形態では、処理結果R内の各文節を1つずつ除外した複数の部分表現を生成して出力する。なお、複数の文節を除外した部分表現を生成して出力するように構成してもよい。また、この場合、選択受付部107で受付けた複数の候補をマージして処理対象とするように構成してもよい。
次に、上述のように構成された第1の実施の形態の音声翻訳装置100による音声翻訳処理の具体例について説明する。図5は、入力された音声である日本語音声入力(以下、Vとする。)の一例を示す説明図である。
同図では、「成田からボストンまでのビジネスクラスのチケットを2枚下さい」を意味する音声501が日本語音声入力Vとして入力された例が示されている(ステップS301)。
図6は、日本語音声入力Vの認識結果(以下、Jとする。)の一例を示す説明図である。同図では、認識結果Jとして、「成田からボストンまで地熱くらしのチケットを2枚下さい」を意味する誤った認識結果601が、認識スコアSと対応づけられて生成された例が示されている(ステップS302)。
すなわち、この例は、「ビジネスクラス」を意味する図5の音声501の下線部の日本語が、「地熱くらし」を意味する図6の認識結果601の下線部の日本語に誤認識されたことを表している。
ここで、認識スコアに対する所定の閾値として「80」が設定されていたとすると、図6に示す例では認識スコアSが「72」であるため、判断部103は、選択記憶部121からの選択例の取得処理を実行する(ステップS303:NO、ステップS305)。
選択記憶部121から選択例が取得できなかったとすると(ステップS306:NO)、部分表現生成処理が実行される(ステップS308)。部分表現生成処理では、まず、
認識結果Jに対する形態素解析処理が実行される(ステップS401)。
図7は、図6の認識結果Jを形態素解析した結果である形態素列Pの一例を示す説明図である。同図では、解析した形態素と、形態素の品詞とを対応づけた表形式で形態素列Pを表している。
次に、分割基準Cと形態素列Pを参照して認識結果Jを文節単位に分割する分割処理が実行される(ステップS402)。まず、分割基準C1によって、形態素列Pに出現する各品詞が各グループに分類される。
例えば、図7の形態素列のうち、品詞が助詞である4つの日本語の形態素(「から」、「まで」、「の」、「を」)や、品詞が接尾辞である日本語の形態素(「枚」)は、G4に分類される。
また、連接自立品詞の一つである名詞が2つ隣接しているため、分割基準C4によって、「地熱」を意味する名詞701と、「くらし」を意味する名詞702とが連結される。
また、分割基準C3によって、文頭でないG4の品詞(助詞)を持つ形態素(「から」、「まで」、「の」、「を」)が、それぞれ先行する形態素(「成田」、「ボストン」、「地熱くらし」、「チケット」)に連結される。
また、分割基準C3によって、文頭でないG4の品詞(接尾辞)を持つ形態素(「枚」)が、先行する形態素(「2」)に連結される。
このような処理によって、認識結果Jが各文節単位に分割される。図8は、分割処理によって分割された文節Qの一例を示す説明図である。なお、同図では、記号「/」で区切られた単位が各文節を表している。
続いて、分割された各文節を1つずつ除外した部分表現が順次生成され、部分表現のセットLに追加される(ステップS404)。図9は、図8のように分割された文節Qを元に生成された部分表現のセットLを含む処理対象の候補の一例を示す説明図である。なお、同図に示すように、処理対象の候補としては、元の認識結果J(出力A)も部分表現のセットLとともに出力される(ステップS309)。
利用者が、出力された各候補の中から図9の出力Dを選択したとする(ステップS310)。図10は、選択された候補の一例を示す説明図である。同図は、図6の認識結果601の下線部の日本語(「地熱くらし」)を含む分節が除外された部分表現である出力Dを利用者が選択した場合の例を表している。
この場合、選択受付部107は、出力Dと認識結果Jとを対応づけて選択記憶部121に保存する(ステップS311)。これによって、選択記憶部121には図2に示すような情報が格納される。
さらに、選択された候補が処理対象として選択され(ステップS312)、選択された処理対象が目的言語である英語に翻訳される(ステップS313)。図11は、翻訳部108による翻訳結果の一例を示す説明図である。同図に示すように、認識結果Jの一部の文節を除外した部分表現であっても、適切な部分表現を選択することにより、発話の意図を損なわない翻訳結果を出力することができる。
以上のような処理により、利用者の音声入力に対して部分的な誤認識が生じた場合であ
っても、利用者は提示される候補の中から自分の希望と合う候補を選択するだけで、音声処理を継続可能となる。したがって、複雑な修正操作が不要となり、ハンズフリー性という音声入力の利点を最大限に活用することが可能となる。
また、認識結果に対する確信度が低いときにのみ、部分表現の生成を行うことができるため、不要な部分表現生成処理を回避し、音声処理負担の軽減、処理の高速化を実現できる。
また、過去の部分表現の選択結果を選択記憶部121に記憶可能なため、同様または類似の認識誤りに対して、適切な部分表現を選択記憶部121から取得することにより、利用者が候補を選択することなく処理を継続することができる。
また、従来技術のように認識結果の候補を複数提示するのではなく、認識結果から新たに生成した複数の部分表現を処理対象として提示することができる。したがって、複数の認識結果のいずれもが誤認識を含む場合には、従来技術では煩雑な修正処理が必要になるのに対し、本実施の形態によれば、誤認識部分を含まない部分表現を生成可能であるため、修正処理をせずに処理を継続することが可能となる。
なお、第1の実施の形態では、認識結果を翻訳して出力する音声翻訳装置として音声処理装置を実現した例について説明したが、音声操作システム、音声対話システムなどのように翻訳処理を行わず、認識処理のみを実行する装置に対して本実施の形態を適用してもよい。
また、認識処理は、入力された音声を認識する音声認識に限られず、ペン入力された文字列を認識する文字列認識や、ジェスチャなどを対象とする認識に適用することもできる。
また、選択記憶部121から選択例を取得できた場合に、取得した選択例を処理対象として選択しているが、取得した選択例をその他の候補より優先して提示するように構成してもよい。例えば、処理結果Rの次に取得した選択例を表示するように構成することができる。また、選択記憶部121に、選択例が選択された頻度等に応じて優先度を格納し、優先度順に選択例を表示するように構成してもよい。
また、生成された部分表現の個数が多い場合は、表示する部分表現を予め定めた個数に制限するように構成してもよい。この場合、さらに、認識結果の認識スコアに応じた所定数の部分表現を表示してもよい。これにより、例えば、認識スコアが小さい場合は、認識スコアが大きい場合より多くの部分表現を表示することができる。
このように、第1の実施の形態にかかる音声処理装置では、音声認識結果から一部の文字列を除外した部分表現を複数生成し、生成した部分表現を利用者に提示して、提示した部分表現から利用者が選択した音声処理対象とする部分表現を受付けて処理を行うことができる。このため、煩雑な修正操作を行うことなく、音声認識結果に関する処理を迅速に継続することができる。
(第2の実施の形態)
第1の実施の形態では、音声認識結果に対して部分表現を生成していた。これに対し、第2の実施の形態にかかる音声処理装置は、認識結果を翻訳した翻訳結果に対して部分表現を生成し、利用者に提示するものである。
図12は、第2の実施の形態にかかる音声翻訳装置1200の構成を示すブロック図で
ある。同図に示すように、音声翻訳装置1200は、音声受付部101と、認識部102と、判断部103と、解析部104と、生成部105と、候補出力部106と、選択受付部1207と、翻訳部1208と、言語出力部1209と、選択記憶部121と、を備えている。
第2の実施の形態では、選択受付部1207、翻訳部1208、および言語出力部1209の機能が第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる音声翻訳装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
選択受付部1207は、選択を受付けた部分表現を、利用者に出力する出力対象として選択する点が、選択を受付けた部分表現を翻訳対象として選択する第1の実施の形態の選択受付部107と異なっている。第2の実施の形態では、認識処理の後に翻訳処理を実行し、翻訳結果に対して部分表現を生成しているためである。
翻訳部1208は、認識部102による認識結果であるテキスト文字列を目的言語に翻訳する点が、第1の実施の形態の翻訳部108と異なっている。
言語出力部1209は、選択受付部1207が受付けた翻訳結果または翻訳結果の部分表現を出力する点が、翻訳部108の翻訳結果を画像ディスプレイなどの表示部に出力する第1の実施の形態の言語出力部109と異なっている。
次に、このように構成された第2の実施の形態にかかる音声翻訳装置1200による音声翻訳処理について説明する。図13は、第2の実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。
まず、音声受付部101が、音声Vが入力されたか否かを判断し(ステップS1301)、入力されていない場合は(ステップS1301:NO)、入力されるまで処理を繰り返す。
音声Vが入力された場合は(ステップS1301:YES)、認識部102が、入力された音声Vを音声認識し、認識結果(以下、Jとする。)と、認識スコアSを生成する(ステップS1302)。
次に、翻訳部1208は、認識結果Jを目的言語に翻訳し、翻訳結果である処理結果Rを生成する(ステップS1303)。
ステップS1304からステップS1313までの、スコア比較処理、選択例取得処理、部分表現生成処理、候補受付処理は、第1の実施の形態にかかる音声翻訳装置100におけるステップS303からステップS312までと同様の処理なので、その説明を省略する。
ステップS1305で生成部105が処理結果Rを処理対象として選択した場合、ステップS1308で生成部105が選択記憶部121から取得した選択例を処理対象として選択した場合、またはステップS1313で選択受付部1207が受付けた候補を処理対象として選択した場合は、言語出力部1209は、選択された処理対象を表示部に出力し(ステップS1314)、音声翻訳処理を終了する。
次に、上述のように構成された第2の実施の形態の音声翻訳装置1200による音声翻訳処理の具体例について説明する。ここでは、図5と同様の日本語音声入力Vが入力され
、図6に示すような認識結果Jが得られたことを前提とする。
第2の実施の形態では、認識結果ではなく翻訳結果に対して部分表現生成処理が実行されるため、図6の認識結果Jが翻訳され、翻訳結果が出力される(ステップS1303)。図14は、図6の認識結果Jを翻訳した翻訳結果の一例を示す説明図である。
この後、第2の実施の形態では、図4に示すような部分表現生成処理で、翻訳部1208の翻訳結果を処理結果Rとして部分表現生成処理が実行される。図15は、部分表現生成処理中の分割処理で分割された文節Qの一例を示す説明図である。
分割された文節Qが得られた後、生成部105によって、分割された各文節を1つずつ除外した部分表現が順次生成され、部分表現のセットLに追加される(ステップS404)。図16は、図15のように分割された文節Qを元に生成された部分表現のセットLを含む処理対象の候補の一例を示す説明図である。
この後、図16のような処理対象の候補が利用者に提示され(ステップS1310)、利用者による候補の選択が受付けられる(ステップS1311)。図17は、選択された候補の一例を示す説明図である。同図は、図6の認識結果601の下線部の日本語(「地熱くらし」)に対応する訳語を含む分節が除外された部分表現である出力Eを利用者が選択した場合の例を表している。
このように、第1の実施の形態では、音声認識結果を対象として部分表現を生成・提示していたのに対し、第2の実施の形態では、音声認識結果を翻訳した翻訳結果に対して、部分表現の生成、候補の提示、候補の受付けなどの処理を実行している。これにより、目的言語を理解する利用者であれば、提示された候補から適切な候補を選択することが可能となり、煩雑な修正処理を行うことなく、コミュニケーション支援処理を継続して実行することができる。
以上ように、第2の実施の形態にかかる音声処理装置では、認識結果を翻訳した翻訳結果に対して部分表現を生成して利用者に提示することができる。このため、煩雑な修正操作を行うことなく、異言語コミュニケーションの支援処理を迅速に継続することができる。
図18は、第1または第2の実施の形態にかかる音声処理装置のハードウェア構成を示す説明図である。
第1または第2の実施の形態にかかる音声処理装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
第1または第2の実施の形態にかかる音声処理装置で実行される音声処理プログラムは、ROM52等に予め組み込まれて提供される。
第1または第2の実施の形態にかかる音声処理装置で実行される音声処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk
Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
さらに、第1または第2の実施の形態にかかる音声処理装置で実行される音声処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1または第2の実施の形態にかかる音声処理装置で実行される音声処理プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
第1または第2の実施の形態にかかる音声処理装置で実行される音声処理プログラムは、上述した各部(音声受付部、認識部、判断部、解析部、生成部、候補出力部、選択受付部、翻訳部、言語出力部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51が上記ROM52から音声処理プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。
以上のように、本発明にかかる装置、方法およびプログラムは、原言語による音声入力を目的言語に翻訳して音声出力することによって異言語コミュニケーションを支援する音声翻訳装置に適している。
第1の実施の形態にかかる音声翻訳装置の構成を示すブロック図である。 選択記憶部に記憶された情報のデータ構造の一例を示す説明図である。 第1の実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。 第1の実施の形態における部分表現生成処理の全体の流れを示すフローチャートである。 入力された日本語音声入力の一例を示す説明図である。 日本語音声入力の認識結果の一例を示す説明図である。 認識結果を形態素解析した結果である形態素列の一例を示す説明図である。 分割された文節の一例を示す説明図である。 処理対象の候補の一例を示す説明図である。 選択された候補の一例を示す説明図である。 翻訳結果の一例を示す説明図である。 第2の実施の形態にかかる音声処理装置の構成を示すブロック図である。 第2の実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。 翻訳結果の一例を示す説明図である。 分割された文節の一例を示す説明図である。 処理対象の候補の一例を示す説明図である。 選択された候補の一例を示す説明図である。 第1または第2の実施の形態にかかる音声処理装置のハードウェア構成を示す説明図である。
符号の説明
51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 音声翻訳装置
101 音声受付部
102 認識部
103 判断部
104 解析部
105 生成部
106 候補出力部
107 選択受付部
108 翻訳部
109 言語出力部
121 選択記憶部
501 音声
601 認識結果
701、702 名詞
1200 音声処理装置
1207 選択受付部
1208 翻訳部
1209 言語出力部

Claims (15)

  1. 入力音声を受付ける音声受付部と、
    前記入力音声からテキスト文字列を求める音声処理部と、
    前記テキスト文字列を形態素解析する解析部と、
    1つまたは複数の前記形態素からなる予め定められた分割単位で前記テキスト文字列を構成要素に分割し、前記構成要素のうち、相互に異なる一部の前記構成要素を前記テキスト文字列から除外した複数の部分文字列を生成する生成部と、
    複数の前記部分文字列を表示部に選択可能に出力する第1出力部と、
    出力された複数の前記部分文字列から、処理対象とする前記部分文字列の選択を受付ける選択受付部と、
    を備えたことを特徴とする音声処理装置。
  2. 前記音声処理部は、前記入力音声を音声認識処理して認識結果を前記テキスト文字列として求めること、
    を特徴とする請求項1に記載の音声処理装置。
  3. 前記音声受付部は、第1言語による前記入力音声を受付け、
    選択を受付けた前記部分文字列を第2言語に翻訳して翻訳結果を求める翻訳部と、
    前記翻訳結果を出力する第2出力部と、をさらに備えたこと、
    を特徴とする請求項2に記載の音声処理装置。
  4. 受付けた前記入力音声を音声認識処理して認識結果を求める認識部をさらに備え、
    前記音声受付部は、前記第1言語による前記入力音声を受付け、
    前記音声処理部は、前記認識結果を第2言語に翻訳すること、
    を特徴とする請求項1に記載の音声処理装置。
  5. 前記生成部は、単語、文節、および句を含む文の統語的な構成単位を前記分割単位として前記テキスト文字列を前記構成要素に分割し、前記構成要素のうち、一部の前記構成要素を含む前記部分文字列を生成すること、
    を特徴とする請求項1に記載の音声処理装置。
  6. 前記生成部は、数量、時間、程度、挨拶、定型句の少なくとも1つを含む語句の意味単位を前記分割単位として前記テキスト文字列を前記構成要素に分割し、前記構成要素のうち、一部の前記構成要素を含む前記部分文字列を生成すること、
    を特徴とする請求項1に記載の音声処理装置。
  7. 選択が受付けられた前記部分文字列と、前記部分文字列の生成元である前記テキスト文字列とを対応づけて記憶可能な記憶部をさらに備え、
    前記選択受付部は、さらに、選択を受付けた前記部分文字列と、前記部分文字列の生成元である前記テキスト文字列とを対応づけて前記記憶部に記憶すること、
    を特徴とする請求項1に記載の音声処理装置。
  8. 前記テキスト文字列に対応する前記部分文字列が前記記憶部に記憶されているか否かを判断する判断部をさらに備え、
    前記生成部は、前記テキスト文字列に対応する前記部分文字列が前記記憶部に記憶されている場合に、前記テキスト文字列に対応する前記部分文字列を前記記憶部から取得することにより前記部分文字列を生成すること、
    を特徴とする請求項7に記載の音声処理装置。
  9. 前記テキスト文字列に対応する前記部分文字列が前記記憶部に記憶されているか否かを
    判断する判断部をさらに備え、
    前記第1出力部は、前記記憶部に記憶されている前記部分文字列を、前記記憶部に記憶されていない前記部分文字列より優先して出力すること、
    を特徴とする請求項7に記載の音声処理装置。
  10. 前記音声処理部は、さらに受付けた前記入力音声の前記テキスト文字列の確からしさを表す尤度を算出し、
    前記尤度が予め定められた閾値より小さいか否かを判断する判断部をさらに備え、
    前記生成部は、前記尤度が前記閾値より小さいと判断された場合に、前記部分文字列を生成すること、
    を特徴とする請求項2に記載の音声処理装置。
  11. 前記第1出力部は、前記尤度が前記閾値より大きいと判断された場合に、前記テキスト文字列を出力すること、
    を特徴とする請求項10に記載の音声処理装置。
  12. 前記第1出力部は、前記部分文字列から予め定められた個数の前記部分文字列を抽出し、抽出した前記部分文字列を出力すること、
    を特徴とする請求項1に記載の音声処理装置。
  13. 前記音声処理部は、さらに受付けた前記入力音声の前記テキスト文字列の確からしさを表す尤度を算出し、
    前記第1出力部は、前記部分文字列のうち、前記テキスト文字列の前記尤度に応じて予め定められた個数の前記部分文字列を出力すること、
    を特徴とする請求項1に記載の音声処理装置。
  14. 音声受付部、入力音声を受付ける音声受付ステップと、
    音声処理部、前記入力音声からテキスト文字列を求める音声処理ステップと、
    解析部、前記テキスト文字列を形態素解析する解析ステップと、
    生成部、1つまたは複数の前記形態素からなる予め定められた分割単位で前記テキスト文字列を構成要素に分割し、前記構成要素のうち、相互に異なる一部の前記構成要素を前記テキスト文字列から除外した複数の部分文字列を生成する生成ステップと、
    第1出力部複数の前記部分文字列を表示部に選択可能に出力する第1出力ステップと、
    選択受付部出力された複数の前記部分文字列から、処理対象とする前記部分文字列の選択を受付ける選択受付ステップと、
    を含むことを特徴とする音声処理方法。
  15. 入力音声を受付ける音声受付手順と、
    前記入力音声からテキスト文字列を求める音声処理手順と、
    前記テキスト文字列を形態素解析する解析手順と、
    1つまたは複数の前記形態素からなる予め定められた分割単位で前記テキスト文字列を構成要素に分割し、前記構成要素のうち、相互に異なる一部の前記構成要素を前記テキスト文字列から除外した複数の部分文字列を生成する生成手順と、
    複数の前記部分文字列を表示部に選択可能に出力する第1出力手順と、
    出力された複数の前記部分文字列から、処理対象とする前記部分文字列の選択を受付ける選択受付手順と、
    をコンピュータに実行させるための音声処理プログラム。
JP2007046925A 2007-02-27 2007-02-27 入力された音声を処理する装置、方法およびプログラム Active JP4791984B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007046925A JP4791984B2 (ja) 2007-02-27 2007-02-27 入力された音声を処理する装置、方法およびプログラム
US12/037,724 US8954333B2 (en) 2007-02-27 2008-02-26 Apparatus, method, and computer program product for processing input speech
CN200810074190.6A CN101256559A (zh) 2007-02-27 2008-02-27 用于处理输入语音的装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007046925A JP4791984B2 (ja) 2007-02-27 2007-02-27 入力された音声を処理する装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2008209717A JP2008209717A (ja) 2008-09-11
JP4791984B2 true JP4791984B2 (ja) 2011-10-12

Family

ID=39716930

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007046925A Active JP4791984B2 (ja) 2007-02-27 2007-02-27 入力された音声を処理する装置、方法およびプログラム

Country Status (3)

Country Link
US (1) US8954333B2 (ja)
JP (1) JP4791984B2 (ja)
CN (1) CN101256559A (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5112116B2 (ja) * 2008-03-07 2013-01-09 株式会社東芝 機械翻訳する装置、方法およびプログラム
EP2394225B1 (en) 2009-02-05 2019-01-09 Wwpass Corporation Centralized authentication system with safe private data storage and method
WO2010098209A1 (ja) * 2009-02-26 2010-09-02 国立大学法人豊橋技術科学大学 音声検索装置および音声検索方法
JP2011043716A (ja) * 2009-08-21 2011-03-03 Sharp Corp 情報処理装置、会議システム、情報処理方法及びコンピュータプログラム
US20130030789A1 (en) * 2011-07-29 2013-01-31 Reginald Dalce Universal Language Translator
KR101870729B1 (ko) * 2011-09-01 2018-07-20 삼성전자주식회사 휴대용 단말기의 번역 트리구조를 이용한 번역장치 및 방법
JP5906869B2 (ja) * 2012-03-23 2016-04-20 富士通株式会社 アクセント付与装置、アクセント付与方法、及びプログラム
CN102708866A (zh) * 2012-06-01 2012-10-03 武汉大学 基于语义计算的听力或语言障碍人士交流系统及其方法
JP2014026514A (ja) * 2012-07-27 2014-02-06 Fujitsu Ltd 文字入力支援プログラム、文字入力支援方法および文字入力支援装置
CN103714048B (zh) * 2012-09-29 2017-07-21 国际商业机器公司 用于校正文本的方法和系统
CN103871401B (zh) * 2012-12-10 2016-12-28 联想(北京)有限公司 一种语音识别的方法及电子设备
CN103929302A (zh) * 2013-01-12 2014-07-16 鹤山世达光电科技有限公司 加密信息处理方法及处理系统
CN103353824B (zh) * 2013-06-17 2016-08-17 百度在线网络技术(北京)有限公司 语音输入字符串的方法、装置和终端设备
KR102191425B1 (ko) * 2013-07-29 2020-12-15 한국전자통신연구원 인터랙티브 캐릭터 기반 외국어 학습 장치 및 방법
KR101551037B1 (ko) * 2013-12-31 2015-09-07 현대자동차주식회사 차량에서의 정보 제공을 위한 시스템
US10037758B2 (en) * 2014-03-31 2018-07-31 Mitsubishi Electric Corporation Device and method for understanding user intent
JP6334354B2 (ja) * 2014-09-30 2018-05-30 株式会社東芝 機械翻訳装置、方法およびプログラム
CN105302795B (zh) * 2015-11-11 2018-03-20 河海大学 基于汉语模糊发音和语音识别的中文文本校验系统及方法
US11275897B2 (en) * 2016-07-20 2022-03-15 Sony Corporation Information processing apparatus, information processing method, and program for modifying a cluster segment relating to a character string group
US10950240B2 (en) * 2016-08-26 2021-03-16 Sony Corporation Information processing device and information processing method
US9747282B1 (en) 2016-09-27 2017-08-29 Doppler Labs, Inc. Translation with conversational overlap
CN108205524B (zh) * 2016-12-20 2022-01-07 北京京东尚科信息技术有限公司 文本数据处理方法和装置
CN106649295A (zh) * 2017-01-04 2017-05-10 携程旅游网络技术(上海)有限公司 用于移动终端的文字转译方法
KR102509822B1 (ko) * 2017-09-25 2023-03-14 삼성전자주식회사 문장 생성 방법 및 장치
KR102449875B1 (ko) * 2017-10-18 2022-09-30 삼성전자주식회사 음성 신호 번역 방법 및 그에 따른 전자 장치
CN109166594A (zh) * 2018-07-24 2019-01-08 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
US20210097647A1 (en) * 2018-09-13 2021-04-01 Shanghai Cambrico Information Technology Co., Ltd. Information processing method and terminal device
CN109192212B (zh) * 2018-11-13 2019-12-10 苏州思必驰信息科技有限公司 语音控制方法及装置
CN112231472B (zh) * 2020-09-18 2022-07-29 昆明理工大学 融入领域术语词典的司法舆情敏感信息识别方法

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5855000A (en) * 1995-09-08 1998-12-29 Carnegie Mellon University Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
JPH1040267A (ja) * 1996-07-26 1998-02-13 Nec Corp 文書要約ビューア
JP3794597B2 (ja) * 1997-06-18 2006-07-05 日本電信電話株式会社 話題抽出方法及び話題抽出プログラム記録媒体
JP3822990B2 (ja) * 1999-01-07 2006-09-20 株式会社日立製作所 翻訳装置、記録媒体
US6278968B1 (en) * 1999-01-29 2001-08-21 Sony Corporation Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
JP2000242645A (ja) 1999-02-24 2000-09-08 Sony Corp 音声翻訳装置、音声翻訳方法及び音声翻訳制御プログラムを記録した記録媒体
JP2001013992A (ja) * 1999-07-02 2001-01-19 Nec Corp 音声理解装置
JP2001101187A (ja) * 1999-09-30 2001-04-13 Sony Corp 翻訳装置および翻訳方法、並びに記録媒体
JP3444831B2 (ja) * 1999-11-29 2003-09-08 株式会社ジャストシステム 編集処理装置、及び編集処理プログラムが記憶された記憶媒体
CN1369834B (zh) * 2001-01-24 2010-04-28 松下电器产业株式会社 语音转换设备
WO2002061728A1 (fr) * 2001-02-01 2002-08-08 Matsushita Electric Industrial Co., Ltd. Dispositif de reconnaissance de phrases, procede de reconnaissance de phrases, programme et support
JP4092933B2 (ja) * 2002-03-20 2008-05-28 富士ゼロックス株式会社 文書情報検索装置及び文書情報検索プログラム
JP3762327B2 (ja) * 2002-04-24 2006-04-05 株式会社東芝 音声認識方法および音声認識装置および音声認識プログラム
JP3920812B2 (ja) * 2003-05-27 2007-05-30 株式会社東芝 コミュニケーション支援装置、支援方法、及び支援プログラム
JP2005173731A (ja) * 2003-12-08 2005-06-30 Ricoh Co Ltd コンテンツ縮約装置、コンテンツ縮約方法およびコンテンツ縮約プログラム
JP3962763B2 (ja) * 2004-04-12 2007-08-22 松下電器産業株式会社 対話支援装置
JP4263181B2 (ja) * 2005-03-28 2009-05-13 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP4439431B2 (ja) * 2005-05-25 2010-03-24 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP4064413B2 (ja) * 2005-06-27 2008-03-19 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
US20060293889A1 (en) * 2005-06-27 2006-12-28 Nokia Corporation Error correction for speech recognition systems
US7552053B2 (en) * 2005-08-22 2009-06-23 International Business Machines Corporation Techniques for aiding speech-to-speech translation
JP4542974B2 (ja) * 2005-09-27 2010-09-15 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
JP4058071B2 (ja) * 2005-11-22 2008-03-05 株式会社東芝 用例翻訳装置、用例翻訳方法および用例翻訳プログラム
JP5011751B2 (ja) * 2006-02-27 2012-08-29 富士通株式会社 訳語情報出力処理プログラム,処理方法および処理装置
US20080133245A1 (en) * 2006-12-04 2008-06-05 Sehda, Inc. Methods for speech-to-speech translation

Also Published As

Publication number Publication date
US8954333B2 (en) 2015-02-10
JP2008209717A (ja) 2008-09-11
CN101256559A (zh) 2008-09-03
US20080208597A1 (en) 2008-08-28

Similar Documents

Publication Publication Date Title
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
US7974844B2 (en) Apparatus, method and computer program product for recognizing speech
US7937262B2 (en) Method, apparatus, and computer program product for machine translation
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
JP4542974B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
Le et al. Automatic speech recognition for under-resourced languages: application to Vietnamese language
EP1346343B1 (en) Speech recognition using word-in-phrase command
US6067520A (en) System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
US20090204401A1 (en) Speech processing system, speech processing method, and speech processing program
JPWO2007097176A1 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JP5703491B2 (ja) 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置
CN110675866B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JP5073024B2 (ja) 音声対話装置
JP4811557B2 (ja) 音声再生装置及び発話支援装置
Alsharhan et al. Evaluating the effect of using different transcription schemes in building a speech recognition system for Arabic
JP5208795B2 (ja) 通訳装置、方法、及びプログラム
Pellegrini et al. Automatic word decompounding for asr in a morphologically rich language: Application to amharic
JP6849977B2 (ja) テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法
Sung et al. Deploying google search by voice in cantonese
JP2003162524A (ja) 言語処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090326

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110628

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110722

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140729

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4791984

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350