JP5343744B2 - 音声翻訳装置及び音声翻訳方法 - Google Patents

音声翻訳装置及び音声翻訳方法 Download PDF

Info

Publication number
JP5343744B2
JP5343744B2 JP2009173227A JP2009173227A JP5343744B2 JP 5343744 B2 JP5343744 B2 JP 5343744B2 JP 2009173227 A JP2009173227 A JP 2009173227A JP 2009173227 A JP2009173227 A JP 2009173227A JP 5343744 B2 JP5343744 B2 JP 5343744B2
Authority
JP
Japan
Prior art keywords
speech
unit
word
language
bilingual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009173227A
Other languages
English (en)
Other versions
JP2011027979A (ja
Inventor
均 岩見田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009173227A priority Critical patent/JP5343744B2/ja
Publication of JP2011027979A publication Critical patent/JP2011027979A/ja
Application granted granted Critical
Publication of JP5343744B2 publication Critical patent/JP5343744B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、入力された音声データを音声認識し、その認識結果を目的の言語に翻訳して出力する音声翻訳装置に関する。
入力された音声データを音声認識し、その認識結果を他の言語に翻訳して出力する音声翻訳装置が存在する。
たとえば、特許文献1に記載されている翻訳装置では、所定の言語で入力された音声を音声認識し、その音声を構成する1以上の単語の組み合わせと最も類似する、所定の言語による文書を出力する。この翻訳装置は、この後、ユーザの操作に基づいて出力された文章に対応する他の言語への翻訳文を出力する。
この翻訳装置は、所定の言語による文章を記憶している第1の文章記憶手段と、他の言語による文章を記憶している第2の文章記憶手段を備えており、第1の文章記憶手段に記憶された文章から認識結果に類似する文章を検索するとともに、検索された文章に対応する翻訳を第2の文章記憶手段から検索して出力している。
また、特許文献2に記載された翻訳装置は、音声認識部で認識した認識結果に基づいて、他の言語に翻訳を行い、音声合成などの方法を用いて出力するようにしている。この特許文献2に記載の翻訳装置は、音声認識部に入力される音声データが日本語であれば、機械翻訳部は認識結果を英語に翻訳し、音声認識部に入力される音声データが英語であれば、機械翻訳部は認識結果を日本語に翻訳する。
このような従来技術では、入力される音声データの単位としての1発話が所定の言語であることを前提として、音声認識処理を行い、これに基づく翻訳を行っている。特許文献2に記載の翻訳装置は、音声認識部において入力された音声データが英語であるか日本語であるかを判定して、判定結果に基づいて音声認識処理を実行しているが、たとえば、入力される音声データの単位である1文が1つの言語であるような場合には、前述したような翻訳装置による翻訳処理が可能である。
しかながら、入力される音声データの単位である1文内に、異なる言語が混在するような場合には、前述したような翻訳装置では正しく音声認識処理及び翻訳処理を行うことができない。
したがって、従来の翻訳装置では、ユーザが目的とする言語のうち一部の単語だけを話せるような場合であっても、他の言語を交えた音声データでの入力ができず、1文を構成する全ての単語を対応する言語で入力する必要がある。
一般的に、外国語を話す人とコミュニケーションをとる場合には、文の一部分であっても該当する言語を用いて会話することで、円滑なコミュニケーションが期待できる。しかしながら、前述したような従来技術の翻訳装置では、異なる言語が混在した音声データが入力された場合にこれに対応して音声認識及び翻訳処理を行うことができないことから、全ての単語を対応する言語で発音して入力する必要がある。
特開平9−16602号公報 特開2001−117921号公報
本発明は、1文中に異なる言語が混在するような音声データの入力を可能とし、適切な対訳文の出力を可能とする音声翻訳装置及び音声翻訳方法を提供する。
音声翻訳装置は、音声データを入力する音声入力部と、音声入力部で入力された音声データを入力して、当該音声データに含まれる単語に対して、それぞれ異なる言語を認識対象とするワードスポッティングによる音声認識処理を行い、少なくとも1語以上の単語を認識結果として検出する複数の音声認識部と、複数の音声認識部が認識対象とする各言語の対訳文を記憶する対訳文データベースと、複数の音声認識部の認識結果として検出された単語を含む対訳文を、対訳文データベースから検索する対訳文検索部と、対訳文検索部による検索結果に基づいて該当する対訳文を出力する出力部とを備える。
このような音声翻訳装置は、入力された音声データをそれぞれ異なる言語を認識対象とする音声認識処理を行う音声認識部において、少なくとも1語以上の単語を認識結果として検出する音声認識処理を行っている。したがって、入力された音声データ中に、認識対象である言語の単語が含まれていれば、各音声認識部が認識結果として検出することとなる。また、音声翻訳装置は、音声認識処理の処理結果として検出された単語を含む対訳文を対訳文データベースから検索して出力し、音声データ中に部分的に含まれる単語から適切な対訳文を推測して提示することができる。
音声翻訳装置の1実施形態の機能ブロック図である。 音声翻訳装置の1実施形態のフローチャートである。 音声翻訳装置の第1実施例の機能ブロック図である。 音声翻訳装置の第1実施例による処理の一例を示す説明図である。 音声翻訳装置の第2実施例の機能ブロック図である。 音声翻訳装置の第2実施例による処理の一例を示す説明図である。 音声翻訳装置のハードウェア構成の一例を示すブロック図である。 音声翻訳装置が搭載されるシステムの一例を示す説明図である。 音声データの一例を示す説明図である。
音声翻訳装置の実施形態について、その詳細を図面に基づいて説明する。
〈概要構成〉
図1は、音声翻訳装置の1実施形態の機能ブロック図である。
この第1実施形態による音声翻訳装置は、2つの言語を認識対象とする音声認識処理を行うものとする。
音声翻訳装置100は、音声入力部101、第1音声認識部102、第2音声認識部103、対訳文検索部104、対訳文データベース105、出力部106を含む。
音声入力部101は、音声データの入力を受け付けるものであって、マイクなどの集音機器で収録した音声データやwavファイル形式などの音声データの入力を受け付ける。ただし、wavファイル形式の音声データの入力を受け付ける場合には、復元してから入力するものとする。
第1音声認識部102及び第2音声認識部103は、音声入力部101で入力された音声データに対してそれぞれ異なる言語を認識対象とする音声認識処理を行う。たとえば、第1音声認識部102が日本語を認識対象とした音声認識処理を行い、第2音声認識部103が英語を認識対象とした音声認識処理を行うものとする。
また、第1音声認識部102及び第2音声認識部103は、それぞれ入力された音声データに対し、少なくとも1語以上の単語を認識結果として検出するものであり、たとえば、入力された音声データをワードスポッティングにより音声認識処理することが好ましい。
対訳文データベース105は、第1音声認識部102及び第2音声認識部103が認識対象とする各言語の対訳文を記憶する。ここでは、第1音声認識部102が日本語を認識対象とした音声認識処理を行い、第2音声認識部103が英語を認識対象とした音声認識処理を行うことから、対応する日本文と英文とが一対となった対訳文が対訳文データベースに記憶されている。
対訳文検索部104は、第1音声認識部102及び第2音声認識部103の認識結果として検出された単語を含む対訳文を、対訳文データベース105から検索する。
出力部106は、対訳文検索部104による検索結果に基づいて該当する対訳文を出力する。この出力部106は、検索結果である対訳文に基づいて音声合成を行いスピーカなどの音声出力を行う音声出力部とすることが可能である。また、出力部106は、液晶ディスプレイなどの文字または画像出力が可能な表示装置とすることもできる。
図2は、第1実施形態の音声翻訳装置による音声翻訳処理を示すフローチャートである。
ステップS201において、音声翻訳装置100は、音声データの入力があったか否かを判別する。音声翻訳装置100は、音声入力部101に対して音声データの入力があるまで待機しており、音声データの入力があったと判断した場合には、ステップS202に移行する。
ステップS202において、音声翻訳装置100は、音声認識処理を実行する。音声翻訳装置100は、音声入力部101を介して入力された音声データを、第1音声認識部102及び第2音声認識部103により音声認識処理する。前述したように、第1音声認識部102及び第2音声認識部103が認識対象とする言語がそれぞれ日本語と英語である場合には、各音声認識部は、入力された音声データを、たとえばワードスポッティングにより音声認識し、少なくとも1語以上の日本語または英語の単語を検出する。
ステップS203において、音声翻訳装置100は、第1音声認識部102及び第2音声認識部103で検出された単語に基づいて、対訳文データベース105を検索する。ここでは、対訳文検索部104が、第1音声認識部102で検出された日本語の単語と、第2音声認識部103で検出された英語の単語を用いて、対訳文データベース105を検索する。対訳文検索部104は、対訳文データベース105を検索した結果、第1音声認識部102で検出された日本語の単語及び/又は第2音声認識部103で検出された英語の単語を含む日本文と英文の対である対訳文を検索結果として出力する。
このとき、対訳文検索部140は、検索結果として得た対訳文を全て出力することも可能であり、また、音声認識処理時のスコアが所定値以上のものを出力することも可能である。
ステップS204において、音声翻訳装置100は、対訳文検索部140による検索結果として得た対訳文を表示する。音声翻訳装置100は、前述したように、出力部106としてスピーカなどの音声出力部を備えている場合には、音声合成部(図示せず)により音声合成した対訳文の音声出力を行う。また、音声翻訳装置100は、液晶ディスプレイなどの画像表示装置を備える場合には、文字や画像により対訳文を表示する。
〈第1実施例〉
図3は、第1実施例による音声翻訳装置の機能ブロック図である。
音声翻訳装置100は、音声入力部101、日本語ワードスポッティング部301、英語ワードスポッティング部302、日英例文検索部303、日英対訳例文データベース304、対訳表示部305を備えている。この第1実施例の音声翻訳装置100の日本語ワードスポッティング部301、英語ワードスポッティング部302、日英例文検索部303、日英対訳例文データベース304、対訳表示部305は、それぞれ第1実施形態の第1音声認識部102、第2音声認識部103、対訳文検索部104、対訳文データベース105、出力部106に対応するものである。
音声入力部101は、前述と同様に、音声データの入力を受け付けるものであって、マイクなどの集音機器で収録した音声データやwavファイル形式などの音声データの入力を受け付ける。
日本語ワードスポッティング部301は、予め音声認識処理を行うための日本語の単語が登録された単語辞書を備えており、この単語辞書中に含まれる単語が、入力された音声データ中に出現するか否かを検出する。入力された音声データ中に所定の単語が含まれるか否かの判定は、公知のワードスポッティング法を用いた音声認識技術を用いることができ、たとえば、音素モデルに基づいて音素認識を行い、認識された音素に基づいて音節列を認識し、単語辞書中に含まれる単語との類似度をスコアで比較して、所定値以上の類似度である場合に該当する単語として認識する。
英語ワードスポッティング部302は、予め音声認識処理を行うための英語の単語が登録された単語辞書を備えており、この単語辞書中に含まれる単語が、入力された音声データ中に出現するか否かを検出する。入力された音声データ中に所定の単語が含まれるか否かの判定は、日本語ワードスポッティング部301と同様にして、公知のワードスポッティング技術で処理できる。
日英対訳例文データベース304は、1つの意味を持つ文を日本語と英語の両方で記述したものを対とした対訳文を記憶するものである。
日英例文検索部303は、日本語ワードスポッティング部301で音声認識した結果検出された日本語の単語と、英語ワードスポッティング部302で音声認識した結果検出された英語の単語を検索語として、日英対訳例文データベース304に記憶されている例文を検索する。
対訳表示部305は、日英例文検索部303により検索された対訳文を液晶ディスプレイなどの表示装置に表示する。
このとき、対訳表示部305は、日英例文検索部303により検索された対訳文のうち、日本語ワードスポッティング部301及び英語ワードスポッティング部302で検出された単語と最もマッチングする対訳文を表示することができる。
この第1実施例の音声翻訳装置100における具体的な処理について説明する。
図4は、第1実施例の音声翻訳装置100の処理の一例を示す説明図である。
この例では、日本語を母国語とする人が、英語を母国語とする人と話を行っている場合を想定している。この日本語を母国語とする人が、英語で話し始めたものの、英語の単語を思い出すことができずに、母国語である日本語で話を続けてしまった場合を考える。
この場合、話者が音声入力部101に対して入力した音声データ401が、「Where is・・・えっと郵便局ってなんだっけ・・・」であるとする。
このような音声データ401の入力に基づいて、日本語ワードスポッティング部301は、予め用意された日本語の単語辞書を用いて音声認識処理を行う。前述したように、日本語ワードスポッティング部301は、予め用意された日本語の単語辞書内に記憶されている単語に類似する音節列を見出し、これを検出単語402として出力する。この例では、日本語ワードスポッティング部301は、入力された音声データ401の中から日本語単語辞書に存在する「郵便局」という単語を検出単語402として抽出している。
入力された音声データ401は、同時に英語ワードスポッティング部302に入力される。英語ワードスポッティング部302は、予め用意された英語の単語辞書を用いて音声認識処理を行う。前述したように、英語ワードスポッティング部302は、予め用意された英語の単語辞書内に記憶されている単語に類似する音節列を見出し、これを検出単語403として出力する。この例では、英語ワードスポッティング部302は、入力された音声データ401の中から英語単語辞書に存在する「where is」を検出単語402として抽出している。この場合、「where is」は"where"と"is"との2つの単語で構成されているが、英語単語辞書中に"where is"がひとつの音節列または文節として含ませることにより、これを1つのワードとして検出することができる。
日英例文検索部303は、日本語ワードスポッティング部301で検出された検出単語402と、英語ワードスポッティング部302で検出された検出単語403とを用いて検索語404を決定し、この検索語404を用いて日英対訳例文データベース304の検索を行う。
日英対訳例文データベース304は、たとえば、「今日は空室はありますか?」という日本文とその英訳文である"Do you have a room"との対を対訳例文として含む対訳例文群405を記憶している。
日英例文検索部303は、日英例文データベース304に記憶された対訳例文群405を、検出単語402,403から得られた検索語404を用いて検索する。この例では、日英例文検索部303は、対訳例文群405中から、検索語404である「郵便局」、「where is」が含まれる対訳例文である「郵便局はどこですか?」と"Where is a post office?"との対訳例文を検索結果として得る。日英例文データベース304中には、検索語404である「郵便局」、「where is」の両方を含む対訳例文が存在していることから、日英例文検索部303はこれを適切な対訳例文として選択している。日英例文データベース304中の対訳例文群に、検索語404として選択した単語の全てが含まれている対訳例文がない場合、日英例文検索部303は少なくとも1つの単語を含む対訳例文を選択することが可能である。また、日英例文検索部303は、日英例文データベース304中から検索語404を含む対訳例文を1または複数抽出し、これらを全て出力候補として選択することができる。
対訳表示部305は、日英例文検索部303によって検索された対訳例文406を液晶ディスプレイなどの表示装置に表示する。ここでは、日英例文検索部303によって検索された対訳例文406は、「郵便局はどこですか?」と"Where is a post office?"との対訳例文であり、これを表示装置に表示する。表示装置への表示方法は、日本語と英語を対で表示させることも可能であり、日本語だけあるいは英語だけを最初に表示し、ユーザの入力に応じて対応する翻訳文を表示させるように構成することも可能である。また、音声合成装置などの音声出力部を備えている場合には、対訳例文の一方または両方を音声出力することも可能である。
この例では、日本語を母国語とする人が、英語を母国語とする人と話を行っている際に、英語で話し始めたものの、英語の単語を思い出すことができずに、「Where is・・・えっと郵便局ってなんだっけ・・・」と発声した場合を示している。この場合、表示装置に表示された対訳例文のうち日本文が、話そうとしていたことと一致している場合には、対訳例文の英文をそのまま発音すればよい。また、表示装置に表示された対訳例文を相手に見せることで、話そうとしたことを相手に伝えることが可能である。また、対訳例文が話そうとしたことと一致していない場合であっても、ユーザが発声した単語が対訳例文中に存在していれば、対応する翻訳語を見出すことができる。
〈第2実施例〉
図5は、第2実施例による音声翻訳装置の機能ブロック図である。
音声翻訳装置100は、音声入力部101、日本語ワードスポッティング部301、英語ワードスポッティング部302、言語重み付与部501、日英例文検索部303、日英対訳例文データベース304、対訳表示部305を備えている。この第2実施例の音声翻訳装置100の日本語ワードスポッティング部301、英語ワードスポッティング部302、日英例文検索部303、日英対訳例文データベース304、対訳表示部305は、それぞれ第1実施例のものと同様である。
音声入力部101は、前述と同様に、音声データの入力を受け付けるものであって、マイクなどの集音機器で収録した音声データやwavファイル形式などの音声データの入力を受け付ける。
日本語ワードスポッティング部301は、予め音声認識処理を行うための日本語の単語が登録された単語辞書を備えており、この単語辞書中に含まれる単語が、入力された音声データ中に出現するか否かを検出する。入力された音声データ中に所定の単語が含まれるか否かの判定は、公知のワードスポッティング法を用いた音声認識技術を用いることができ、たとえば、音素モデルに基づいて音素認識を行い、認識された音素に基づいて音節列を認識し、単語辞書中に含まれる単語との類似度をスコアで比較して、所定値以上の類似度である場合に該当する単語として認識する。日本語ワードスポッティング部301は、音声データ内の単語を検出した際に算出したスコアを、その単語の認識結果の尤もらしさを表すスコアとして出力する。
英語ワードスポッティング部302は、予め音声認識処理を行うための英語の単語が登録された単語辞書を備えており、この単語辞書中に含まれる単語が、入力された音声データ中に出現するか否かを検出する。入力された音声データ中に所定の単語が含まれるか否かの判定は、日本語ワードスポッティング部301と同様にして、公知のワードスポッティング技術で処理できる。英語ワードスポッティング部302は、音声データ内の単語を検出した際に算出したスコアを、その単語の認識結果の尤もらしさを表すスコアとして出力する。
言語重み付与部501は、音声認識処理を行う各対象言語に対して所定の係数を設定するものである。言語重み付与部501は、言語毎に重み付けを行うために予め設定された重み係数を所定の記憶領域に記憶しており、この例では、日本語及び英語のいずれに比重をおいて対訳例文を検索するかの重み係数を記憶するものである。
言語重み付与部501は、日本語ワードスポッティング部301で検出された検出単語と、英語ワードスポッティング部302で検出された検出単語とに付随して出力されるそれぞれのスコアに対して、言語に対応する重み係数を乗算し、新たなスコアとして所定の記憶領域に記憶させる。
日英例文検索部303は、日本語ワードスポッティング部301で音声認識した結果検出された日本語の単語と、英語ワードスポッティング部302で音声認識した結果検出された英語の単語を検索語として、日英対訳例文データベース304に記憶されている例文を検索する。このとき、日英例文検索部303は、日英対訳例文データベース304に含まれる対訳例文を検索する際に、対訳例文に検索語が含まれている場合にはその検索語に対応するスコアを加算して、対訳例文の検索スコアを算出する。日英例文検索部303は、日英対訳例文データベース304に含まれる対訳例文のうち、検索スコアが最も大きいものを検索結果の対訳文として選択する。
対訳表示部305は、日英例文検索部303により検索された対訳文を液晶ディスプレイなどの表示装置に表示する。
図6は、第2実施例の音声翻訳装置100の処理の一例を示す説明図である。
この例では、前述した例と同様に、日本語を母国語とする人が、英語を母国語とする人と話を行っている場合を想定しており、この日本語を母国語とする人が、英語で話し始めたものの、英語の単語を思い出すことができずに、母国語である日本語で話を続けてしまった場合を考察する。
話者が音声入力部101に対して入力した音声データ601が、「Where is・・・えっと郵便局ってなんだっけ・・・」であるとする。
このような音声データ601の入力に基づいて、日本語ワードスポッティング部301は、予め用意された日本語の単語辞書を用いて音声認識処理を行う。前述したように、日本語ワードスポッティング部301は、予め用意された日本語の単語辞書内に記憶されている単語に類似する音節列を見出し、これを検出単語602として出力する。この例では、日本語ワードスポッティング部301は、入力された音声データ601の中から日本語単語辞書に存在する「郵便局」という単語を検出単語602として抽出している。
日本語ワードスポッティング部301が認識する単語のスコアは、0〜100の値で表現され、値が大きいほど認識結果が尤もらしい(類似度が高い)ものであると判定する。ここで、日本語ワードスポッティング部301が認識した「郵便局」のスコアは80であったとする。
入力された音声データ601は、同時に英語ワードスポッティング部302に入力される。英語ワードスポッティング部302は、予め用意された英語の単語辞書を用いて音声認識処理を行う。前述したように、英語ワードスポッティング部302は、予め用意された英語の単語辞書内に記憶されている単語に類似する音節列を見出し、これを検出単語603として出力する。この例では、英語ワードスポッティング部302は、入力された音声データ601の中から英語単語辞書に存在する「where is」、「you've been」を検出単語603として抽出している。
英語ワードスポッティング部302が認識する単語のスコアについても、0〜100の値で表現され、値が大きいほど認識結果が尤もらしい(類似度が高い)ものであると判定する。ここで、英語ワードスポッティング部302が認識した「where is」のスコアは90であり、「you've been」のスコアは60であったとする。
言語重み付与部501は、検出単語602、603のスコアに対して、それぞれの言語に設定された重み係数を乗算する。たとえば、言語重み付与部501は、日本語と英語との比率が「1.0:0.8」とする重み係数を記憶しており、検出単語602、603に対してそれぞれ重み係数を乗算した値を備える検索語604として出力する。
言語重み付与部501は、日本語ワードスポッティング部301で検出された検出単語602である「郵便局」に対しては、元のスコア80に重み係数1.0を乗算したスコア80を算出する。また、言語重み付与部501は、英語ワードスポッティング部302で検出された検出単語603である「where is」に対しては、元のスコア90に重み係数0.8を乗算したスコア72を算出し、「you've been」に対しては、元のスコア60に重み係数0.8を乗算したスコア48を算出する。このことにより、言語重み付与部501は、スコアが80である「郵便局」、スコアが72である「where is」、スコアが48である「you've been」を検索語604として出力する。
日英例文検索部303は、重み付与部501から出力される重み係数に基づくスコアを備えた検索語604に基づいて、日英対訳例文データベース304の検索を行う。
日英例文検索部303は、日英例文データベース304に記憶された対訳例文群605を、検索語604を用いて検索する際に、対訳例文中に含まれる検索語604があれば、検索語604のスコアを対訳例文の検索スコアとして加算していく。たとえば、検索語604が「郵便局」、「where is」、「you've been」である場合、「郵便局はどこにありますか?」と「Where is a post office?」とを対とする対訳例文では、「郵便局」と「where is」が含まれていることから、この対訳例文の検索スコアは80+72=152として算出できる。また、「you've been」だけを含む「・・・行ったこと・・・」と「you've been・・・」とを対とする対訳例文については、検索スコアは48と算出される。これから、日英例文検索部303は、最も検索スコアが大きい「郵便局はどこにありますか?」と「Where is a post office?」とを対とする対訳例文606を選択してこれを出力する。
対訳表示部305は、日英例文検索部303によって検索された対訳例文606を液晶ディスプレイなどの表示装置に表示する。ここでは、日英例文検索部303によって検索された対訳例文606は、「郵便局はどこですか?」と"Where is a post office?"との対訳例文であり、これを表示装置に表示する。表示装置への表示方法は、日本語と英語を対で表示させることも可能であり、日本語だけあるいは英語だけを最初に表示し、ユーザの入力に応じて対応する翻訳文を表示させるように構成することも可能である。また、音声合成装置などの音声出力部を備えている場合には、対訳例文の一方または両方を音声出力することも可能である。
この例では、日本語を母国語とする人が、英語を母国語とする人と話を行っている際に、英語で話し始めたものの、英語の単語を思い出すことができずに、「Where is・・・えっと郵便局ってなんだっけ・・・」と発声した場合を示している。この場合、表示装置に表示された対訳例文のうち日本文が、話そうとしていたことと一致している場合には、対訳例文の英文をそのまま発音すればよい。また、表示装置に表示された対訳例文を相手に見せることで、話そうとしたことを相手に伝えることが可能である。また、対訳例文が話そうとしたことと一致していない場合であっても、ユーザが発声した単語が対訳例文中に存在していれば、対応する翻訳語を見出すことができる。
この第2実施例では、言語別に設定した重み係数を、各言語の音声認識結果である検出単語のスコアに乗算しており、日本語ワードスポッティング部301、英語ワードスポッティング部302による音声認識時のスコアの補正を行うことが可能となる。たとえば、平均的に英語ワードスポッティングの方が日本語ワードスポッティングより高めのスコアが出る場合に、英語の重み係数を低くすることで、各ワードスポッティング部によるスコアを適切に比較することが可能となる。
また、ユーザの特性に基づいて、重み係数を設定することにより、言語による音声認識処理の精度の偏りを補正することができる。たとえば、日本語ワードスポッティング部301によるスコアより、英語ワードスポッティング部302によるスコアが低く出る傾向であるユーザに対しては、英語の重み係数を高くする。このことにより、たとえば日本語を母国語とするユーザが、英語でのスコアが低くなる場合に、より精度の高い音声認識処理が可能となる。
〈変形例〉
前述した第2実施例において、日本語ワードスポッティング部301及び英語ワードスポッティング部302で検出した検出単語602,603に対して、入力された音声データ601における時間位置を求め、その時間位置が重なる単語の組に対しては、スコアが良い方の単語のみを検出単語とすることができる。
図9は、入力された音声データを所定のサンプリング周波数でデジタル化した音声データの一例を示す説明図である。
図9に示す音声データは、「Where is・・・えっと郵便局ってなんだっけ」に対応している。
入力された音声データのうち、日本語ワードスポッティング部301が認識した「郵便局」に対応する時間位置が2.2-2.8秒であるとする。また、入力された音声データのうち、英語ワードスポッティング部302が認識した「you've been」に対応する時間位置が2.2-2.7秒であるとする。この場合、日本語ワードスポッティング部301が認識した「郵便局」に対応する時間位置と、英語ワードスポッティング部302が認識した「you've been」に対応する時間位置とが重なっている。この場合、言語重み付与部501が、重み計数を乗算した後、スコアの低いものを削除して、スコアの高いものだけを検索語604として残すことが可能である。
したがって、言語重み付与部501は、日本語ワードスポッティング部301が認識した検出単語602である「郵便局」のスコアに重み係数を乗算したスコア80と、英語ワードスポッティング部302が認識した検出単語603である「you've been」のスコアに重み係数を乗算したスコア48を比較する。言語重み付与部501は、比較結果に基づいてスコアの高い「郵便局」を検索語604として残し、スコアの低い「you've been」を検索語604から削除する。
前述したように構成することにより、入力された音声データ中に異なる言語で認識することが可能な単語が存在する場合であっても、対訳例文の検索精度を向上させることが可能である。
〈ハードウェア構成〉
前述したような音声翻訳装置100は、アプリケーションソフトウェアが通常のコンピュータハードウェアと協働して構成とすることが可能であり、特に、携帯電話機、PDA(Personal Digital Assistant)、携帯翻訳機などに搭載することが可能である。もちろん、汎用のパーソナルコンピュータシステムにインストールすることも可能である。
図7は、音声翻訳装置100を搭載するハードウェア構成の概要の一例を示すブロック図である。
音声翻訳装置100は、CPU701、ROM702、RAM703、入力部704、出力部705、通信部706などの装置各部がバスライン707を介して接続される。
CPU701は、マイクロプロセッサで構成され、装置各部を制御する。
ROM702は、装置の起動に必要なBIOSや各種パラメータを格納するメモリである。
RAM703は、アプリケーション実行時の経過パラメータや演算結果などを一時的に格納するメモリである。
入力部704は、ユーザからの入力データを受け付けるものであって、たとえば、入力キー、操作ボタンなどを備える。また、入力部704は、音声入力を受け付けるマイクや音声入力用の入力端子などを備える。
出力部705は、液晶ディスプレイなどの画像表示装置、スピーカなどの音声出力部などの構成を備えている。
通信部706は、必要に応じて電話回線、インターネット回線などのネットワークへの接続が可能な通信インターフェイスとすることができる。
ROM702、RAM703などのメモリ上に、アプリケーションソフトウェアを搭載し、適宜実行することにより、音声翻訳装置100を実現することができる。
〈ネットワーク構成〉
音声翻訳装置100は、端末からネットワークを介してサーバに接続し、サーバ側に設けられたアプリケーションソフトウェアを利用することにより実現することも可能である。
図8は、ネットワーク構成の一例を示す説明図である。
ユーザが利用するクライアント端末803は、インターネットや公衆回線、携帯電話回線などのネットワークを介してサーバ801に接続可能となっている。
クライアント端末803では、音声データを入力するためのマイクなどの音声入力部を備えており、ネットワーク802を介してサーバ801に送信可能となっている。
サーバ801では、クライアント端末803から送信されてくる音声データに基づいて、音声認識処理及び対訳文検索処理を行って、検索結果として対訳文をクライアント端末803に送信する。
この場合には、図1の音声入力部101、出力部106がクライアント端末803に搭載されており、第1音声認識部102、第2音声認識部103、対訳文検索部104、対訳文データベース105がサーバ801に搭載されている。
たとえば、携帯電話機などのメモリ容量が制限されているような場合では、アプリケーションソフトウェア及び対訳文データベースを記憶する記憶容量をサーバ801に持たせることで処理速度を向上させることが可能となる。
〈他の実施形態〉
前述した例では、2つの言語についてのみ説明したが、認識対象とする言語が2以上の場合であっても対応することが可能である。たとえば、日本語、英語、フランス語、ドイツ語、スペイン語、中国語、韓国語、その他、複数の音声認識部を備えており、目的に応じて2つの言語に対応する音声認識部を起動するように構成できる。この場合、対訳文データベースは、1対1に対応する対訳文をそれぞれ記憶させることも可能であり、全ての言語について並列に対訳文を備えるデータベースとすることもできる。
母国語が異なる者同士のコミュニケーションにおいて、音声データに含まれる単語を音声認識して、検出された単語を手がかりに対訳文を提示することができ、円滑なコミュニケーションを可能にする。
また、元の言語において同音異義語を含む文に、目的言語を付加して話すことにより、目的言語での単語を特定できる。たとえば、「あめがすきですか?candy」と発話することで、音声翻訳装置は「雨」と「飴」とを間違えることなく、「Do you like candy?」という対訳文を選択することが可能となる。
100 音声翻訳装置
101 音声入力部
102 第1音声認識部
103 第2音声認識部
104 対訳文検索部
105 対訳文データベース
106 出力部

Claims (5)

  1. 音声データを入力する音声入力部と、
    前記音声入力部で入力された音声データを入力して、当該音声データに含まれる単語に対して、第1言語を認識対象とするワードスポッティングによる音声認識処理を行い、前記第1言語の単語を認識結果として検出する第1音声認識部と、
    前記音声入力部で入力された音声データを入力して、当該音声データに含まれる単語に対して、第2言語を認識対象とするワードスポッティングによる音声認識処理を行い、前記第2言語の単語を認識結果として検出する第2音声認識部と、
    前記第1及び第2言語の対訳文を記憶する対訳文データベースと、
    前記第1及び第2音声認識部の認識結果として検出された前記第1言語及び前記第2言語の単語を含む対訳文を、前記対訳文データベースから検索する対訳文検索部と、
    前記対訳文検索部による検索結果に基づいて該当する対訳文を出力する出力部と、
    を備える音声翻訳装置。
  2. 前記第1及び第2音声認識部は、音声認識処理を行った際に検出された単語の評価点を付与し、前記対訳文検索部は、前記各単語に付与された評価点を用いて対訳文検索を行う、請求項1に記載の音声翻訳装置。
  3. 前記第1及び第2言語に対して所定の係数を設定する言語別重み付与部をさらに備え、前記対訳文検索部は、前記音声認識部で検出された単語の評価点に前記言語別重み付与部で設定される係数を乗算した値に基づいて対訳文検索を行う、請求項2に記載の音声翻訳装置。
  4. 前記対訳文検索部は、前記第1及び第2音声認識部において検出された各単語の入力された音声データにおける時間位置を検出し、互いに重なる時間位置を有する単語については、より評価点の高い単語のみを認識結果とする、請求項2または3に記載の音声翻訳装置。
  5. 入力される音声データを第1音声認識部で第1言語を認識対象とする音声認識処理を行い、前記第1言語の単語を認識結果として検出するステップと、
    入力される音声データを第2音声認識部で第2言語を認識対象とする音声認識処理を行い、前記第2言語の単語を認識結果として検出するステップと、
    前記第1及び第2音声認識部で音声認識処理した認識結果として検出された前記第1言語及び前記第2言語の単語を含む対訳文、前記第1及び第2言語の対訳文を記憶した対訳文データベースから検索するステップと、
    前記対訳文データベースを検索した検索結果に基づいて該当する対訳文を出力するステップと、
    を備える音声翻訳装置における音声翻訳方法をコンピュータに実行させるためのプログラム。
JP2009173227A 2009-07-24 2009-07-24 音声翻訳装置及び音声翻訳方法 Active JP5343744B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009173227A JP5343744B2 (ja) 2009-07-24 2009-07-24 音声翻訳装置及び音声翻訳方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009173227A JP5343744B2 (ja) 2009-07-24 2009-07-24 音声翻訳装置及び音声翻訳方法

Publications (2)

Publication Number Publication Date
JP2011027979A JP2011027979A (ja) 2011-02-10
JP5343744B2 true JP5343744B2 (ja) 2013-11-13

Family

ID=43636805

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009173227A Active JP5343744B2 (ja) 2009-07-24 2009-07-24 音声翻訳装置及び音声翻訳方法

Country Status (1)

Country Link
JP (1) JP5343744B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6772468B2 (ja) * 2016-01-27 2020-10-21 ヤマハ株式会社 管理装置、情報処理装置、情報提供システム、言語情報の管理方法、情報提供方法、および情報処理装置の動作方法
US11068668B2 (en) * 2018-10-25 2021-07-20 Facebook Technologies, Llc Natural language translation in augmented reality(AR)
JP6879521B1 (ja) * 2019-12-02 2021-06-02 國立成功大學National Cheng Kung University 多言語音声認識およびテーマ−意義素解析方法および装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0916602A (ja) * 1995-06-27 1997-01-17 Sony Corp 翻訳装置および翻訳方法
JPH10116093A (ja) * 1996-10-09 1998-05-06 Nec Corp 音声認識装置
JP2000132184A (ja) * 1998-10-27 2000-05-12 Omron Corp 音声認識装置、音声認識方法および音声認識プログラムを記録した記録媒体
JP2001117921A (ja) * 1999-10-15 2001-04-27 Sony Corp 翻訳装置および翻訳方法、並びに記録媒体
US7165019B1 (en) * 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
JP2003141113A (ja) * 2001-10-31 2003-05-16 Casio Comput Co Ltd 翻訳装置、音声翻訳方法、およびプログラム
JP2004170466A (ja) * 2002-11-15 2004-06-17 Toshihisa Tsukada 音声認識方法と電子装置
CN100592385C (zh) * 2004-08-06 2010-02-24 摩托罗拉公司 用于对多语言的姓名进行语音识别的方法和系统
JP4550708B2 (ja) * 2005-09-29 2010-09-22 株式会社東芝 音声翻訳装置及び音声翻訳方法
JP4393494B2 (ja) * 2006-09-22 2010-01-06 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム

Also Published As

Publication number Publication date
JP2011027979A (ja) 2011-02-10

Similar Documents

Publication Publication Date Title
CN106663424B (zh) 意图理解装置以及方法
JP3962767B2 (ja) 対話支援装置
TWI532035B (zh) 語言模型的建立方法、語音辨識方法及電子裝置
US9129591B2 (en) Recognizing speech in multiple languages
JP4468264B2 (ja) 多言語による名称の音声認識のための方法とシステム
JP4987682B2 (ja) 音声チャットシステム、情報処理装置、音声認識方法およびプログラム
WO2007055181A1 (ja) 対話支援装置
JP2008209717A (ja) 入力された音声を処理する装置、方法およびプログラム
JPWO2005101235A1 (ja) 対話支援装置
JP2015153108A (ja) 音声会話支援装置、及び音声会話支援方法及びプログラム
JP5221768B2 (ja) 翻訳装置、及びプログラム
JP2012194245A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US20070016420A1 (en) Dictionary lookup for mobile devices using spelling recognition
JP2010048953A (ja) 対話文生成装置
JP5343744B2 (ja) 音声翻訳装置及び音声翻訳方法
JP6233867B2 (ja) 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム
JP5243325B2 (ja) 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム
JP4230142B2 (ja) 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術
KR101250897B1 (ko) 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법
JP6805431B2 (ja) 音声認識装置
JP5474723B2 (ja) 音声認識装置およびその制御プログラム
JP2010197709A (ja) 音声認識応答方法、音声認識応答システム、及びそのプログラム
JP2004118720A (ja) 翻訳装置、翻訳方法及び翻訳プログラム
JP4445371B2 (ja) 認識語彙の登録装置と音声認識装置および方法
JP2002073081A (ja) 音声認識方法と電子装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120405

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130327

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130716

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130729

R150 Certificate of patent or registration of utility model

Ref document number: 5343744

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150