JP5343744B2

JP5343744B2 - 音声翻訳装置及び音声翻訳方法

Info

Publication number: JP5343744B2
Application number: JP2009173227A
Authority: JP
Inventors: 均岩見田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-07-24
Filing date: 2009-07-24
Publication date: 2013-11-13
Anticipated expiration: 2029-07-24
Also published as: JP2011027979A

Description

本発明は、入力された音声データを音声認識し、その認識結果を目的の言語に翻訳して出力する音声翻訳装置に関する。

入力された音声データを音声認識し、その認識結果を他の言語に翻訳して出力する音声翻訳装置が存在する。

たとえば、特許文献１に記載されている翻訳装置では、所定の言語で入力された音声を音声認識し、その音声を構成する１以上の単語の組み合わせと最も類似する、所定の言語による文書を出力する。この翻訳装置は、この後、ユーザの操作に基づいて出力された文章に対応する他の言語への翻訳文を出力する。

この翻訳装置は、所定の言語による文章を記憶している第１の文章記憶手段と、他の言語による文章を記憶している第２の文章記憶手段を備えており、第１の文章記憶手段に記憶された文章から認識結果に類似する文章を検索するとともに、検索された文章に対応する翻訳を第２の文章記憶手段から検索して出力している。

また、特許文献２に記載された翻訳装置は、音声認識部で認識した認識結果に基づいて、他の言語に翻訳を行い、音声合成などの方法を用いて出力するようにしている。この特許文献２に記載の翻訳装置は、音声認識部に入力される音声データが日本語であれば、機械翻訳部は認識結果を英語に翻訳し、音声認識部に入力される音声データが英語であれば、機械翻訳部は認識結果を日本語に翻訳する。

このような従来技術では、入力される音声データの単位としての１発話が所定の言語であることを前提として、音声認識処理を行い、これに基づく翻訳を行っている。特許文献２に記載の翻訳装置は、音声認識部において入力された音声データが英語であるか日本語であるかを判定して、判定結果に基づいて音声認識処理を実行しているが、たとえば、入力される音声データの単位である１文が１つの言語であるような場合には、前述したような翻訳装置による翻訳処理が可能である。

しかながら、入力される音声データの単位である１文内に、異なる言語が混在するような場合には、前述したような翻訳装置では正しく音声認識処理及び翻訳処理を行うことができない。

したがって、従来の翻訳装置では、ユーザが目的とする言語のうち一部の単語だけを話せるような場合であっても、他の言語を交えた音声データでの入力ができず、１文を構成する全ての単語を対応する言語で入力する必要がある。

一般的に、外国語を話す人とコミュニケーションをとる場合には、文の一部分であっても該当する言語を用いて会話することで、円滑なコミュニケーションが期待できる。しかしながら、前述したような従来技術の翻訳装置では、異なる言語が混在した音声データが入力された場合にこれに対応して音声認識及び翻訳処理を行うことができないことから、全ての単語を対応する言語で発音して入力する必要がある。

特開平９−１６６０２号公報特開２００１−１１７９２１号公報

本発明は、１文中に異なる言語が混在するような音声データの入力を可能とし、適切な対訳文の出力を可能とする音声翻訳装置及び音声翻訳方法を提供する。

音声翻訳装置は、音声データを入力する音声入力部と、音声入力部で入力された音声データを入力して、当該音声データに含まれる単語に対して、それぞれ異なる言語を認識対象とするワードスポッティングによる音声認識処理を行い、少なくとも１語以上の単語を認識結果として検出する複数の音声認識部と、複数の音声認識部が認識対象とする各言語の対訳文を記憶する対訳文データベースと、複数の音声認識部の認識結果として検出された単語を含む対訳文を、対訳文データベースから検索する対訳文検索部と、対訳文検索部による検索結果に基づいて該当する対訳文を出力する出力部とを備える。

このような音声翻訳装置は、入力された音声データをそれぞれ異なる言語を認識対象とする音声認識処理を行う音声認識部において、少なくとも１語以上の単語を認識結果として検出する音声認識処理を行っている。したがって、入力された音声データ中に、認識対象である言語の単語が含まれていれば、各音声認識部が認識結果として検出することとなる。また、音声翻訳装置は、音声認識処理の処理結果として検出された単語を含む対訳文を対訳文データベースから検索して出力し、音声データ中に部分的に含まれる単語から適切な対訳文を推測して提示することができる。

音声翻訳装置の１実施形態の機能ブロック図である。音声翻訳装置の１実施形態のフローチャートである。音声翻訳装置の第１実施例の機能ブロック図である。音声翻訳装置の第１実施例による処理の一例を示す説明図である。音声翻訳装置の第２実施例の機能ブロック図である。音声翻訳装置の第２実施例による処理の一例を示す説明図である。音声翻訳装置のハードウェア構成の一例を示すブロック図である。音声翻訳装置が搭載されるシステムの一例を示す説明図である。音声データの一例を示す説明図である。

音声翻訳装置の実施形態について、その詳細を図面に基づいて説明する。

〈概要構成〉
図１は、音声翻訳装置の１実施形態の機能ブロック図である。

この第１実施形態による音声翻訳装置は、２つの言語を認識対象とする音声認識処理を行うものとする。

音声翻訳装置100は、音声入力部101、第１音声認識部102、第２音声認識部103、対訳文検索部104、対訳文データベース105、出力部106を含む。

音声入力部101は、音声データの入力を受け付けるものであって、マイクなどの集音機器で収録した音声データやwavファイル形式などの音声データの入力を受け付ける。ただし、wavファイル形式の音声データの入力を受け付ける場合には、復元してから入力するものとする。

第１音声認識部102及び第２音声認識部103は、音声入力部101で入力された音声データに対してそれぞれ異なる言語を認識対象とする音声認識処理を行う。たとえば、第１音声認識部102が日本語を認識対象とした音声認識処理を行い、第２音声認識部103が英語を認識対象とした音声認識処理を行うものとする。

また、第１音声認識部102及び第２音声認識部103は、それぞれ入力された音声データに対し、少なくとも１語以上の単語を認識結果として検出するものであり、たとえば、入力された音声データをワードスポッティングにより音声認識処理することが好ましい。

対訳文データベース105は、第１音声認識部102及び第２音声認識部103が認識対象とする各言語の対訳文を記憶する。ここでは、第１音声認識部102が日本語を認識対象とした音声認識処理を行い、第２音声認識部103が英語を認識対象とした音声認識処理を行うことから、対応する日本文と英文とが一対となった対訳文が対訳文データベースに記憶されている。

対訳文検索部104は、第１音声認識部102及び第２音声認識部103の認識結果として検出された単語を含む対訳文を、対訳文データベース105から検索する。

出力部106は、対訳文検索部104による検索結果に基づいて該当する対訳文を出力する。この出力部106は、検索結果である対訳文に基づいて音声合成を行いスピーカなどの音声出力を行う音声出力部とすることが可能である。また、出力部106は、液晶ディスプレイなどの文字または画像出力が可能な表示装置とすることもできる。

図２は、第１実施形態の音声翻訳装置による音声翻訳処理を示すフローチャートである。

ステップS201において、音声翻訳装置100は、音声データの入力があったか否かを判別する。音声翻訳装置100は、音声入力部101に対して音声データの入力があるまで待機しており、音声データの入力があったと判断した場合には、ステップS202に移行する。

ステップS202において、音声翻訳装置100は、音声認識処理を実行する。音声翻訳装置100は、音声入力部101を介して入力された音声データを、第１音声認識部102及び第２音声認識部103により音声認識処理する。前述したように、第１音声認識部102及び第２音声認識部103が認識対象とする言語がそれぞれ日本語と英語である場合には、各音声認識部は、入力された音声データを、たとえばワードスポッティングにより音声認識し、少なくとも１語以上の日本語または英語の単語を検出する。

ステップS203において、音声翻訳装置100は、第１音声認識部102及び第２音声認識部103で検出された単語に基づいて、対訳文データベース105を検索する。ここでは、対訳文検索部104が、第１音声認識部102で検出された日本語の単語と、第２音声認識部103で検出された英語の単語を用いて、対訳文データベース105を検索する。対訳文検索部104は、対訳文データベース105を検索した結果、第１音声認識部102で検出された日本語の単語及び／又は第２音声認識部103で検出された英語の単語を含む日本文と英文の対である対訳文を検索結果として出力する。

このとき、対訳文検索部140は、検索結果として得た対訳文を全て出力することも可能であり、また、音声認識処理時のスコアが所定値以上のものを出力することも可能である。

ステップS204において、音声翻訳装置100は、対訳文検索部140による検索結果として得た対訳文を表示する。音声翻訳装置100は、前述したように、出力部106としてスピーカなどの音声出力部を備えている場合には、音声合成部（図示せず）により音声合成した対訳文の音声出力を行う。また、音声翻訳装置100は、液晶ディスプレイなどの画像表示装置を備える場合には、文字や画像により対訳文を表示する。

〈第１実施例〉
図３は、第１実施例による音声翻訳装置の機能ブロック図である。

音声翻訳装置100は、音声入力部101、日本語ワードスポッティング部301、英語ワードスポッティング部302、日英例文検索部303、日英対訳例文データベース304、対訳表示部305を備えている。この第１実施例の音声翻訳装置100の日本語ワードスポッティング部301、英語ワードスポッティング部302、日英例文検索部303、日英対訳例文データベース304、対訳表示部305は、それぞれ第１実施形態の第１音声認識部102、第２音声認識部103、対訳文検索部104、対訳文データベース105、出力部106に対応するものである。

音声入力部101は、前述と同様に、音声データの入力を受け付けるものであって、マイクなどの集音機器で収録した音声データやwavファイル形式などの音声データの入力を受け付ける。

日本語ワードスポッティング部301は、予め音声認識処理を行うための日本語の単語が登録された単語辞書を備えており、この単語辞書中に含まれる単語が、入力された音声データ中に出現するか否かを検出する。入力された音声データ中に所定の単語が含まれるか否かの判定は、公知のワードスポッティング法を用いた音声認識技術を用いることができ、たとえば、音素モデルに基づいて音素認識を行い、認識された音素に基づいて音節列を認識し、単語辞書中に含まれる単語との類似度をスコアで比較して、所定値以上の類似度である場合に該当する単語として認識する。

英語ワードスポッティング部302は、予め音声認識処理を行うための英語の単語が登録された単語辞書を備えており、この単語辞書中に含まれる単語が、入力された音声データ中に出現するか否かを検出する。入力された音声データ中に所定の単語が含まれるか否かの判定は、日本語ワードスポッティング部301と同様にして、公知のワードスポッティング技術で処理できる。

日英対訳例文データベース304は、１つの意味を持つ文を日本語と英語の両方で記述したものを対とした対訳文を記憶するものである。

日英例文検索部303は、日本語ワードスポッティング部301で音声認識した結果検出された日本語の単語と、英語ワードスポッティング部302で音声認識した結果検出された英語の単語を検索語として、日英対訳例文データベース304に記憶されている例文を検索する。

対訳表示部305は、日英例文検索部303により検索された対訳文を液晶ディスプレイなどの表示装置に表示する。

このとき、対訳表示部305は、日英例文検索部303により検索された対訳文のうち、日本語ワードスポッティング部301及び英語ワードスポッティング部302で検出された単語と最もマッチングする対訳文を表示することができる。

この第１実施例の音声翻訳装置100における具体的な処理について説明する。

図４は、第１実施例の音声翻訳装置100の処理の一例を示す説明図である。

この例では、日本語を母国語とする人が、英語を母国語とする人と話を行っている場合を想定している。この日本語を母国語とする人が、英語で話し始めたものの、英語の単語を思い出すことができずに、母国語である日本語で話を続けてしまった場合を考える。

この場合、話者が音声入力部101に対して入力した音声データ401が、「Where is・・・えっと郵便局ってなんだっけ・・・」であるとする。

このような音声データ401の入力に基づいて、日本語ワードスポッティング部301は、予め用意された日本語の単語辞書を用いて音声認識処理を行う。前述したように、日本語ワードスポッティング部301は、予め用意された日本語の単語辞書内に記憶されている単語に類似する音節列を見出し、これを検出単語402として出力する。この例では、日本語ワードスポッティング部301は、入力された音声データ401の中から日本語単語辞書に存在する「郵便局」という単語を検出単語402として抽出している。

入力された音声データ401は、同時に英語ワードスポッティング部302に入力される。英語ワードスポッティング部302は、予め用意された英語の単語辞書を用いて音声認識処理を行う。前述したように、英語ワードスポッティング部302は、予め用意された英語の単語辞書内に記憶されている単語に類似する音節列を見出し、これを検出単語403として出力する。この例では、英語ワードスポッティング部302は、入力された音声データ401の中から英語単語辞書に存在する「where is」を検出単語402として抽出している。この場合、「where is」は"where"と"is"との２つの単語で構成されているが、英語単語辞書中に"where is"がひとつの音節列または文節として含ませることにより、これを１つのワードとして検出することができる。

日英例文検索部303は、日本語ワードスポッティング部301で検出された検出単語402と、英語ワードスポッティング部302で検出された検出単語403とを用いて検索語404を決定し、この検索語404を用いて日英対訳例文データベース304の検索を行う。

日英対訳例文データベース304は、たとえば、「今日は空室はありますか？」という日本文とその英訳文である"Do you have a room"との対を対訳例文として含む対訳例文群405を記憶している。

日英例文検索部303は、日英例文データベース304に記憶された対訳例文群405を、検出単語402,403から得られた検索語404を用いて検索する。この例では、日英例文検索部303は、対訳例文群405中から、検索語404である「郵便局」、「where is」が含まれる対訳例文である「郵便局はどこですか？」と"Where is a post office?"との対訳例文を検索結果として得る。日英例文データベース304中には、検索語404である「郵便局」、「where is」の両方を含む対訳例文が存在していることから、日英例文検索部303はこれを適切な対訳例文として選択している。日英例文データベース304中の対訳例文群に、検索語404として選択した単語の全てが含まれている対訳例文がない場合、日英例文検索部303は少なくとも１つの単語を含む対訳例文を選択することが可能である。また、日英例文検索部303は、日英例文データベース304中から検索語404を含む対訳例文を１または複数抽出し、これらを全て出力候補として選択することができる。

対訳表示部305は、日英例文検索部303によって検索された対訳例文406を液晶ディスプレイなどの表示装置に表示する。ここでは、日英例文検索部303によって検索された対訳例文406は、「郵便局はどこですか？」と"Where is a post office?"との対訳例文であり、これを表示装置に表示する。表示装置への表示方法は、日本語と英語を対で表示させることも可能であり、日本語だけあるいは英語だけを最初に表示し、ユーザの入力に応じて対応する翻訳文を表示させるように構成することも可能である。また、音声合成装置などの音声出力部を備えている場合には、対訳例文の一方または両方を音声出力することも可能である。

この例では、日本語を母国語とする人が、英語を母国語とする人と話を行っている際に、英語で話し始めたものの、英語の単語を思い出すことができずに、「Where is・・・えっと郵便局ってなんだっけ・・・」と発声した場合を示している。この場合、表示装置に表示された対訳例文のうち日本文が、話そうとしていたことと一致している場合には、対訳例文の英文をそのまま発音すればよい。また、表示装置に表示された対訳例文を相手に見せることで、話そうとしたことを相手に伝えることが可能である。また、対訳例文が話そうとしたことと一致していない場合であっても、ユーザが発声した単語が対訳例文中に存在していれば、対応する翻訳語を見出すことができる。

〈第２実施例〉
図５は、第２実施例による音声翻訳装置の機能ブロック図である。

音声翻訳装置100は、音声入力部101、日本語ワードスポッティング部301、英語ワードスポッティング部302、言語重み付与部501、日英例文検索部303、日英対訳例文データベース304、対訳表示部305を備えている。この第２実施例の音声翻訳装置100の日本語ワードスポッティング部301、英語ワードスポッティング部302、日英例文検索部303、日英対訳例文データベース304、対訳表示部305は、それぞれ第１実施例のものと同様である。

日本語ワードスポッティング部301は、予め音声認識処理を行うための日本語の単語が登録された単語辞書を備えており、この単語辞書中に含まれる単語が、入力された音声データ中に出現するか否かを検出する。入力された音声データ中に所定の単語が含まれるか否かの判定は、公知のワードスポッティング法を用いた音声認識技術を用いることができ、たとえば、音素モデルに基づいて音素認識を行い、認識された音素に基づいて音節列を認識し、単語辞書中に含まれる単語との類似度をスコアで比較して、所定値以上の類似度である場合に該当する単語として認識する。日本語ワードスポッティング部301は、音声データ内の単語を検出した際に算出したスコアを、その単語の認識結果の尤もらしさを表すスコアとして出力する。

英語ワードスポッティング部302は、予め音声認識処理を行うための英語の単語が登録された単語辞書を備えており、この単語辞書中に含まれる単語が、入力された音声データ中に出現するか否かを検出する。入力された音声データ中に所定の単語が含まれるか否かの判定は、日本語ワードスポッティング部301と同様にして、公知のワードスポッティング技術で処理できる。英語ワードスポッティング部302は、音声データ内の単語を検出した際に算出したスコアを、その単語の認識結果の尤もらしさを表すスコアとして出力する。

言語重み付与部501は、音声認識処理を行う各対象言語に対して所定の係数を設定するものである。言語重み付与部501は、言語毎に重み付けを行うために予め設定された重み係数を所定の記憶領域に記憶しており、この例では、日本語及び英語のいずれに比重をおいて対訳例文を検索するかの重み係数を記憶するものである。

言語重み付与部501は、日本語ワードスポッティング部301で検出された検出単語と、英語ワードスポッティング部302で検出された検出単語とに付随して出力されるそれぞれのスコアに対して、言語に対応する重み係数を乗算し、新たなスコアとして所定の記憶領域に記憶させる。

日英例文検索部303は、日本語ワードスポッティング部301で音声認識した結果検出された日本語の単語と、英語ワードスポッティング部302で音声認識した結果検出された英語の単語を検索語として、日英対訳例文データベース304に記憶されている例文を検索する。このとき、日英例文検索部303は、日英対訳例文データベース304に含まれる対訳例文を検索する際に、対訳例文に検索語が含まれている場合にはその検索語に対応するスコアを加算して、対訳例文の検索スコアを算出する。日英例文検索部303は、日英対訳例文データベース304に含まれる対訳例文のうち、検索スコアが最も大きいものを検索結果の対訳文として選択する。

図６は、第２実施例の音声翻訳装置100の処理の一例を示す説明図である。

この例では、前述した例と同様に、日本語を母国語とする人が、英語を母国語とする人と話を行っている場合を想定しており、この日本語を母国語とする人が、英語で話し始めたものの、英語の単語を思い出すことができずに、母国語である日本語で話を続けてしまった場合を考察する。

話者が音声入力部101に対して入力した音声データ601が、「Where is・・・えっと郵便局ってなんだっけ・・・」であるとする。

このような音声データ601の入力に基づいて、日本語ワードスポッティング部301は、予め用意された日本語の単語辞書を用いて音声認識処理を行う。前述したように、日本語ワードスポッティング部301は、予め用意された日本語の単語辞書内に記憶されている単語に類似する音節列を見出し、これを検出単語602として出力する。この例では、日本語ワードスポッティング部301は、入力された音声データ601の中から日本語単語辞書に存在する「郵便局」という単語を検出単語602として抽出している。

日本語ワードスポッティング部301が認識する単語のスコアは、０〜100の値で表現され、値が大きいほど認識結果が尤もらしい（類似度が高い）ものであると判定する。ここで、日本語ワードスポッティング部301が認識した「郵便局」のスコアは80であったとする。

入力された音声データ601は、同時に英語ワードスポッティング部302に入力される。英語ワードスポッティング部302は、予め用意された英語の単語辞書を用いて音声認識処理を行う。前述したように、英語ワードスポッティング部302は、予め用意された英語の単語辞書内に記憶されている単語に類似する音節列を見出し、これを検出単語603として出力する。この例では、英語ワードスポッティング部302は、入力された音声データ601の中から英語単語辞書に存在する「where is」、「you've been」を検出単語603として抽出している。

英語ワードスポッティング部302が認識する単語のスコアについても、０〜100の値で表現され、値が大きいほど認識結果が尤もらしい（類似度が高い）ものであると判定する。ここで、英語ワードスポッティング部302が認識した「where is」のスコアは90であり、「you've been」のスコアは60であったとする。

言語重み付与部501は、検出単語602、603のスコアに対して、それぞれの言語に設定された重み係数を乗算する。たとえば、言語重み付与部501は、日本語と英語との比率が「1.0：0.8」とする重み係数を記憶しており、検出単語602、603に対してそれぞれ重み係数を乗算した値を備える検索語604として出力する。

言語重み付与部501は、日本語ワードスポッティング部301で検出された検出単語602である「郵便局」に対しては、元のスコア80に重み係数1.0を乗算したスコア80を算出する。また、言語重み付与部501は、英語ワードスポッティング部302で検出された検出単語603である「where is」に対しては、元のスコア90に重み係数0.8を乗算したスコア72を算出し、「you've been」に対しては、元のスコア60に重み係数0.8を乗算したスコア48を算出する。このことにより、言語重み付与部501は、スコアが80である「郵便局」、スコアが72である「where is」、スコアが48である「you've been」を検索語604として出力する。

日英例文検索部303は、重み付与部501から出力される重み係数に基づくスコアを備えた検索語604に基づいて、日英対訳例文データベース304の検索を行う。

日英例文検索部303は、日英例文データベース304に記憶された対訳例文群605を、検索語604を用いて検索する際に、対訳例文中に含まれる検索語604があれば、検索語604のスコアを対訳例文の検索スコアとして加算していく。たとえば、検索語604が「郵便局」、「where is」、「you've been」である場合、「郵便局はどこにありますか？」と「Where is a post office?」とを対とする対訳例文では、「郵便局」と「where is」が含まれていることから、この対訳例文の検索スコアは80+72=152として算出できる。また、「you've been」だけを含む「・・・行ったこと・・・」と「you've been・・・」とを対とする対訳例文については、検索スコアは48と算出される。これから、日英例文検索部303は、最も検索スコアが大きい「郵便局はどこにありますか？」と「Where is a post office?」とを対とする対訳例文606を選択してこれを出力する。

対訳表示部305は、日英例文検索部303によって検索された対訳例文606を液晶ディスプレイなどの表示装置に表示する。ここでは、日英例文検索部303によって検索された対訳例文606は、「郵便局はどこですか？」と"Where is a post office?"との対訳例文であり、これを表示装置に表示する。表示装置への表示方法は、日本語と英語を対で表示させることも可能であり、日本語だけあるいは英語だけを最初に表示し、ユーザの入力に応じて対応する翻訳文を表示させるように構成することも可能である。また、音声合成装置などの音声出力部を備えている場合には、対訳例文の一方または両方を音声出力することも可能である。

この第２実施例では、言語別に設定した重み係数を、各言語の音声認識結果である検出単語のスコアに乗算しており、日本語ワードスポッティング部301、英語ワードスポッティング部302による音声認識時のスコアの補正を行うことが可能となる。たとえば、平均的に英語ワードスポッティングの方が日本語ワードスポッティングより高めのスコアが出る場合に、英語の重み係数を低くすることで、各ワードスポッティング部によるスコアを適切に比較することが可能となる。

また、ユーザの特性に基づいて、重み係数を設定することにより、言語による音声認識処理の精度の偏りを補正することができる。たとえば、日本語ワードスポッティング部301によるスコアより、英語ワードスポッティング部302によるスコアが低く出る傾向であるユーザに対しては、英語の重み係数を高くする。このことにより、たとえば日本語を母国語とするユーザが、英語でのスコアが低くなる場合に、より精度の高い音声認識処理が可能となる。

〈変形例〉
前述した第２実施例において、日本語ワードスポッティング部301及び英語ワードスポッティング部302で検出した検出単語602,603に対して、入力された音声データ601における時間位置を求め、その時間位置が重なる単語の組に対しては、スコアが良い方の単語のみを検出単語とすることができる。

図９は、入力された音声データを所定のサンプリング周波数でデジタル化した音声データの一例を示す説明図である。

図９に示す音声データは、「Where is・・・えっと郵便局ってなんだっけ」に対応している。

入力された音声データのうち、日本語ワードスポッティング部301が認識した「郵便局」に対応する時間位置が2.2-2.8秒であるとする。また、入力された音声データのうち、英語ワードスポッティング部302が認識した「you've been」に対応する時間位置が2.2-2.7秒であるとする。この場合、日本語ワードスポッティング部301が認識した「郵便局」に対応する時間位置と、英語ワードスポッティング部302が認識した「you've been」に対応する時間位置とが重なっている。この場合、言語重み付与部501が、重み計数を乗算した後、スコアの低いものを削除して、スコアの高いものだけを検索語604として残すことが可能である。

したがって、言語重み付与部501は、日本語ワードスポッティング部301が認識した検出単語602である「郵便局」のスコアに重み係数を乗算したスコア80と、英語ワードスポッティング部302が認識した検出単語603である「you've been」のスコアに重み係数を乗算したスコア48を比較する。言語重み付与部501は、比較結果に基づいてスコアの高い「郵便局」を検索語604として残し、スコアの低い「you've been」を検索語604から削除する。

前述したように構成することにより、入力された音声データ中に異なる言語で認識することが可能な単語が存在する場合であっても、対訳例文の検索精度を向上させることが可能である。

〈ハードウェア構成〉
前述したような音声翻訳装置100は、アプリケーションソフトウェアが通常のコンピュータハードウェアと協働して構成とすることが可能であり、特に、携帯電話機、PDA（Personal Digital Assistant）、携帯翻訳機などに搭載することが可能である。もちろん、汎用のパーソナルコンピュータシステムにインストールすることも可能である。

図７は、音声翻訳装置100を搭載するハードウェア構成の概要の一例を示すブロック図である。

音声翻訳装置100は、CPU701、ROM702、RAM703、入力部704、出力部705、通信部706などの装置各部がバスライン707を介して接続される。

CPU701は、マイクロプロセッサで構成され、装置各部を制御する。

ROM702は、装置の起動に必要なBIOSや各種パラメータを格納するメモリである。

RAM703は、アプリケーション実行時の経過パラメータや演算結果などを一時的に格納するメモリである。

入力部704は、ユーザからの入力データを受け付けるものであって、たとえば、入力キー、操作ボタンなどを備える。また、入力部704は、音声入力を受け付けるマイクや音声入力用の入力端子などを備える。

出力部705は、液晶ディスプレイなどの画像表示装置、スピーカなどの音声出力部などの構成を備えている。

通信部706は、必要に応じて電話回線、インターネット回線などのネットワークへの接続が可能な通信インターフェイスとすることができる。

ROM702、RAM703などのメモリ上に、アプリケーションソフトウェアを搭載し、適宜実行することにより、音声翻訳装置100を実現することができる。

〈ネットワーク構成〉
音声翻訳装置100は、端末からネットワークを介してサーバに接続し、サーバ側に設けられたアプリケーションソフトウェアを利用することにより実現することも可能である。

図８は、ネットワーク構成の一例を示す説明図である。

ユーザが利用するクライアント端末803は、インターネットや公衆回線、携帯電話回線などのネットワークを介してサーバ801に接続可能となっている。

クライアント端末803では、音声データを入力するためのマイクなどの音声入力部を備えており、ネットワーク802を介してサーバ801に送信可能となっている。

サーバ801では、クライアント端末803から送信されてくる音声データに基づいて、音声認識処理及び対訳文検索処理を行って、検索結果として対訳文をクライアント端末803に送信する。

この場合には、図１の音声入力部101、出力部106がクライアント端末803に搭載されており、第１音声認識部102、第２音声認識部103、対訳文検索部104、対訳文データベース105がサーバ801に搭載されている。

たとえば、携帯電話機などのメモリ容量が制限されているような場合では、アプリケーションソフトウェア及び対訳文データベースを記憶する記憶容量をサーバ801に持たせることで処理速度を向上させることが可能となる。

〈他の実施形態〉
前述した例では、２つの言語についてのみ説明したが、認識対象とする言語が２以上の場合であっても対応することが可能である。たとえば、日本語、英語、フランス語、ドイツ語、スペイン語、中国語、韓国語、その他、複数の音声認識部を備えており、目的に応じて２つの言語に対応する音声認識部を起動するように構成できる。この場合、対訳文データベースは、１対１に対応する対訳文をそれぞれ記憶させることも可能であり、全ての言語について並列に対訳文を備えるデータベースとすることもできる。

母国語が異なる者同士のコミュニケーションにおいて、音声データに含まれる単語を音声認識して、検出された単語を手がかりに対訳文を提示することができ、円滑なコミュニケーションを可能にする。

また、元の言語において同音異義語を含む文に、目的言語を付加して話すことにより、目的言語での単語を特定できる。たとえば、「あめがすきですか？candy」と発話することで、音声翻訳装置は「雨」と「飴」とを間違えることなく、「Do you like candy?」という対訳文を選択することが可能となる。

100 音声翻訳装置
101 音声入力部
102 第１音声認識部
103 第２音声認識部
104 対訳文検索部
105 対訳文データベース
106 出力部

Claims

音声データを入力する音声入力部と、
前記音声入力部で入力された音声データを入力して、当該音声データに含まれる単語に対して、第１言語を認識対象とするワードスポッティングによる音声認識処理を行い、前記第１言語の単語を認識結果として検出する第１音声認識部と、
前記音声入力部で入力された音声データを入力して、当該音声データに含まれる単語に対して、第２言語を認識対象とするワードスポッティングによる音声認識処理を行い、前記第２言語の単語を認識結果として検出する第２音声認識部と、
前記第１及び第２言語の対訳文を記憶する対訳文データベースと、
前記第１及び第２音声認識部の認識結果として検出された前記第１言語及び前記第２言語の単語を含む対訳文を、前記対訳文データベースから検索する対訳文検索部と、
前記対訳文検索部による検索結果に基づいて該当する対訳文を出力する出力部と、
を備える音声翻訳装置。
前記第１及び第２音声認識部は、音声認識処理を行った際に検出された単語の評価点を付与し、前記対訳文検索部は、前記各単語に付与された評価点を用いて対訳文検索を行う、請求項１に記載の音声翻訳装置。
前記第１及び第２言語に対して所定の係数を設定する言語別重み付与部をさらに備え、前記対訳文検索部は、前記音声認識部で検出された単語の評価点に前記言語別重み付与部で設定される係数を乗算した値に基づいて対訳文検索を行う、請求項２に記載の音声翻訳装置。
前記対訳文検索部は、前記第１及び第２音声認識部において検出された各単語の入力された音声データにおける時間位置を検出し、互いに重なる時間位置を有する単語については、より評価点の高い単語のみを認識結果とする、請求項２または３に記載の音声翻訳装置。
入力される音声データを第１音声認識部で第１言語を認識対象とする音声認識処理を行い、前記第１言語の単語を認識結果として検出するステップと、
入力される音声データを第２音声認識部で第２言語を認識対象とする音声認識処理を行い、前記第２言語の単語を認識結果として検出するステップと、
前記第１及び第２音声認識部で音声認識処理した認識結果として検出された前記第１言語及び前記第２言語の単語を含む対訳文を、前記第１及び第２言語の対訳文を記憶した対訳文データベースから検索するステップと、
前記対訳文データベースを検索した検索結果に基づいて該当する対訳文を出力するステップと、
を備える音声翻訳装置における音声翻訳方法をコンピュータに実行させるためのプログラム。