JP2007094194A

JP2007094194A - 音声翻訳装置及び音声翻訳方法

Info

Publication number: JP2007094194A
Application number: JP2005285593A
Authority: JP
Inventors: Akira Kumano; 明熊野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-09-29
Filing date: 2005-09-29
Publication date: 2007-04-12
Anticipated expiration: 2025-09-29
Also published as: JP4550708B2

Abstract

【課題】本発明の目的は、第１言語による音声認識結果と、これとは別途入力される第
２言語の文字データとを効果的に利用することにより、誤りのない第２言語への翻訳結果
を出力可能にする音声翻訳装置を提供することである。
【解決手段】第１言語の音声信号を認識する音声認識部（２００）と、第２言語の文字
列を入力する文字入力部（３００）と、前記音声認識部の認識結果と前記文字入力部の入
力結果を利用して、第２言語への翻訳結果を出力する翻訳部（４００）と、を備えた音声
翻訳装置。
【選択図】図１

Description

本発明は、音声翻訳装置に関し、特に、第１言語の音声入力を認識し、その結果を第２
言語に翻訳する音声翻訳装置及び音声翻訳方法に関する。

音声翻訳装置では一般に、第１言語の音声を入力し、その音声認識結果（第１言語）を
第２言語に機械翻訳して出力する。

ところが、第２言語の地名や人名（以下、地名等という）を伝えたい場合、第２言語で
の表記はわかるが、その語に対する第１言語の表記を正しく覚えていない場合がある。ま
た、有名な地名等でない場合は、第１言語の音声認識辞書に収録されておらず、第１言語
として認識されない場合がある。

いま、日中音声翻訳装置を使って、

外１

（“”部分は中国語の文字。以下同様）に行きたい状況を考える。一般には、

外２

の日本語直訳である「中関村（ちゅうかんそん）」を使って、「私は中関村に行きたい。

」と発声すべきである。ところが、中国語の

外３

の字は覚えていても、日本語の直訳の「中関村」が思い出せない場合がある。また、仮に
「中関村」を覚えていて「ちゅうかんそん」と発声しても、日本語音声認識辞書に収録さ
れていない場合は、認識できず、

外４

を含んだ望むべき中国語訳

外５

が得られない場合がある。

また、日中音声翻訳装置を使って、“王府井”に行きたい状況を考える。一般には、“
王府井”に日本語読みの直訳はないので、中国語発音を日本語調の音に置換えた「ワンフ
ーチン」を使って、「私はワンフーチンに行きたい。」と発声すべきである。ところが、
中国語の“王府井”の字は覚えていても、日本語調の音の「ワンフーチン」が思い出せな
い場合がある。また、仮に「ワンフーチン」と発声しても、日本語音声認識辞書に収録さ
れていない場合は、認識できず、“王府井”を含んだ望むべき中国語訳“我想去王府井。

”が得られない場合がある。

つまり、せっかく

外６

、“王府井”という正確な中国語の地名等を正しい字で覚えていても、または、中国の地
図などで知っていても、日中音声翻訳装置を介することで正しく伝えられない状況があっ
た。

このように、音声認識で正しく入力することの難しい語句を、他の手段で入力する方法
としては、キー入力や手書き入力で行う技術があった（例えば特許文献１参照）。
特開２０００−１９４５５９号公報（第４頁、図２）

しかし、これは単独の言語の文書を入力するためのものであり、第１言語を第２言語に
翻訳する際の困難さを考慮したものではない。

本発明の目的は、第１言語による音声認識結果と、これとは別途入力される第２言語の
文字データとを効果的に利用することにより、誤りのない第２言語への翻訳結果を出力可
能にする音声翻訳装置を提供することである。

第１の発明は、第１言語の音声信号を認識する音声認識部と、第２言語の文字列を入力
する文字入力部と、前記音声認識部の認識結果と前記文字入力部の入力結果を利用して、
第２言語への翻訳結果を出力する翻訳部と、を備えた音声翻訳装置である。

第２の発明は、前記翻訳部は、前記音声認識部の認識結果を第２言語へ翻訳し、この翻
訳結果と、前記音声認識部に第１言語の音声信号が入力されない無音声期間に文字入力さ
れた第２言語の文字列とを合成し、出力することを特徴とする第１の発明記載の音声翻訳
装置である。

第３の発明は、前記翻訳部は、前記音声認識部に第１言語の指示代名詞が入力されてい
る期間に文字入力された第２言語の文字列を、音声入力の指示代名詞部分と置換して、翻
訳することを特徴とする第１の発明記載の音声翻訳装置である。

第４の発明は、前記翻訳部は、前記音声認識部に第１言語の指示代名詞が入力されてい
る期間に文字入力された第２言語の文字列を、第２言語への翻訳結果の中にある指示代名
詞部分と置換して出力することを特徴とする第１の発明記載の音声翻訳装置である。

第５の発明は、前記翻訳部は、前記音声認識部に第１言語のある語句が入力されている
期間に文字入力部から指示入力された第２言語の文字列を、音声入力の当該語句の第２言
語の翻訳結果として翻訳することを特徴とする第１の発明記載の音声翻訳装置である。

第６の発明は、前記翻訳部は、前記音声認識部に第１言語の音声入力文が入力されてい
る期間に文字入力された第２言語の文字列を、前記音声入力文中の第１言語の未知語に対
する第２言語の翻訳結果として翻訳することを特徴とする第１の発明記載の音声翻訳装置
である。

第７の発明は、第１言語の音声信号を認識し、第２言語の文字列を入力し、前記音声信
号の認識結果と前記入力された文字列に応じて、第２言語の翻訳結果を出力する音声翻訳
方法である。

本発明によれば、第１言語による音声認識結果と、これとは別途入力される第２言語の
文字データとを効果的に利用することにより、誤りのない第２言語への翻訳結果を出力可
能にする音声翻訳装置を提供することができる。

以下、本発明の実施の形態について図面を参照しながら説明する。

図１は、本実施形態に係る音声翻訳装置の概略ブロック図である。音声入力部100は、
第１言語（本実施形態では、日本語）の音声信号を入力するものであり、一般には、マイ
クなどで構成する。音声認識部200は、音声入力部100から音声信号を受けて、第１言語の
単語列あるいは文（以下、音声入力単語列情報という）と共に、必要に応じて音声入力時
刻情報を出力する。音声認識の手法は特定のものである必要はなく、既存の手法を採用す
ればよい。文字入力部300は、第２言語の語句を文字として入力するものである。これに
は、手書き文字入力部と文字認識部から構成する場合と、キーボードなど直接文字入力で
きる装置で構成する場合がある。いずれの場合も、文字入力語句情報と共に、必要に応じ
て文字入力時刻情報を出力する。

翻訳処理部400は、音声認識部200からのデータと、文字入力部300からのデータを利用し
て翻訳を行い、第２言語（本実施形態では、中国語）の訳文を出力する。この詳細な構成
については、後述する。出力部500は、翻訳処理部400の出力データ（翻訳結果）を出力す
るものであり、一般には、液晶ディスプレイ、プリンタなどで構成する。

（翻訳処理部400の第１の実施例）
図２は、翻訳処理部400の第１実施例の概略ブロック図である。入力文字同期部410は、
音声認識部200からのデータである第１言語の音声入力単語列情報と音声入力時刻情報、
および、文字入力部300からのデータである第２言語の文字入力語句情報と文字入力時刻
情報を受ける。音声入力時刻情報と文字入力時刻情報を比較して、第２言語の文字入力語
句が第１言語の音声入力単語列のどの間隔に相当するかを決定する。

入力文構成部411は、入力文字同期部410の出力を受けて、一部分に第２言語の語句が入
った、第１言語の文を構成する。

機械翻訳部412は、入力構成部411の出力データである第１言語の文を、第２言語の文に
機械翻訳する。この際、第１言語の文に一部含まれる第２言語の語句は、第１言語では未
知語となることがあるが、そのまま翻訳処理を行い、訳文の一部として出力する。

図３は、入力文字同期部410が受けるデータの例である。ここでは、「私は」と発声し
た後で

外７

と文字入力し、続いて「へ行きたい」と発声した場合で説明する。

同図（Ａ）は、音声認識部200からのデータである第１言語の音声入力単語列情報と音
声入力時刻情報の例を示すものである。ここで、音声データ１は音声入力単語列情報とし
て「私は」を、音声入力時刻情報として開始時刻9:15:30、終了時刻9:15:32を持っている
。また、音声データ２は音声入力単語列情報として「へ行きたい」を、音声入力時刻情報
として開始時刻9:15:39、終了時刻9:15:42を持っている。

同図（Ｂ）は、文字入力部300からのデータである第２言語の文字入力語句情報と文字
入力時刻情報の例を示すものである。ここで、文字データａは文字入力語句情報として

外８

を、文字入力時刻情報として開始時刻9:15:33、終了時刻9:15:39を持っている。

入力文字同期部410は、（Ａ）と（Ｂ）の入力時刻情報を比較して、文字データａが、
音声データ１と音声データ２の間に入力されたと判定する。

図４は、図３の結果をもとに、入力文構成部411が構成して出力する文の構造である。

ここで、「私は」と「へ行きたい」は第１言語である日本語、

外９

は第２言語である中国語の語句であることを保存している。

機械翻訳部412は、この文構造を入力データとして、翻訳処理を行う。翻訳処理方法は
特定のものである必要はなく、第１言語だけで表現された文を翻訳する場合の一般的な方
法を用いればよい。ただし、

外１０

は強制的に第１言語の名詞として処理を行い、そのまま訳文に生成する。この結果、中国
語の訳文

外１１

が得られる。

図５は、翻訳処理部400の第１実施例のフローチャートである。ステップS110では、音
声入力部100から第１言語の音声信号を入力し、ステップS111へ進む。ステップS111では
、音声認識部200で第１言語の音声信号を認識し、ステップS130へ進む。

一方、ステップS120では、文字入力部300から第２言語の文字データを入力し、ステッ
プS130へ進む。なお、ステップS110〜S111の処理と、ステップS120の処理は、実際に音声
や文字が入力されるタイミングで実行するため、いずれの処理が先になるかは任意である
。

ステップS130では、入力文字同期部410で、音声認識部200の出力するデータと文字入力
部300の出力するデータを同期処理し、相互のデータの順序を決定することを試みて、ス
テップS131へ進む。

ステップS131では、ステップS130で順序が決定できたかを判断し、決定が成功すればス
テップS140へ、決定が失敗すればステップS160へ進む。

ステップS140では、ステップS130で決定した順序にしたがって入力文構成部411で第１
言語の音声データと第２言語の文字データから一文を合成し、ステップS150へ進む。

ステップS150では、ステップS140で構成された文を機械翻訳部412で機械翻訳し、続く
ステップS190で訳文を出力して終了する。

一方ステップS160では、S130で順序を決定できなかった入力データを１つずつ取出し、
続くステップS170で機械翻訳する。

ステップS171では、入力データの翻訳処理が全て終了したかを判断し、終了していれば
ステップS180へ進み、終了していなければステップS160に戻って次の入力データを取出す
。

ステップS180では、ステップS170で得られた機械翻訳結果を順に接続して、全体の訳文
を構成し、続くステップS190で訳文を出力して終了する。

（翻訳処理部400の第２の実施例）
図６は、翻訳処理部400の第２実施例の概略ブロック図である。指示代名詞照合部420は
、音声認識部200からのデータである第１言語の音声入力単語列情報と音声入力時刻情報
、および、文字入力部300からのデータである第２言語の文字入力語句情報と文字入力時
刻情報を受ける。音声入力単語列情報中の指示代名詞部分に対してその時刻情報と文字入
力時刻情報を比較して、第２言語の文字入力語句が第１言語の指示代名詞部と照合か否か
を決定する。

代名詞置換部421は、指示代名詞照合部420の出力を受けて、第１言語の文の指示代名詞
部分を第２言語の語句に置換えた、第１言語の文を構成する。

機械翻訳部422は、代名詞置換部421の出力データである第１言語の文を、第２言語の文
に機械翻訳する。この際、第１言語の文に一部含まれる第２言語の語句は、第１言語では
未知語となることがあるが、そのまま翻訳処理を行い、訳文の一部として出力する。

図７は、指示代名詞照合部420が受けるデータの例である。ここでは、「私はここへ行
きたい」と発声する中の「ここ」の発声に合わせて

外１２

と文字入力した場合で説明する。

同図（Ａ）は、音声認識部200からのデータである第１言語の音声入力単語列情報と音
声入力時刻情報の例を示すものである。入力音声としては、「私はここへ行きたい」と連
続したものであるが、日本語形態素解析などの技術を使って前処理を行い、指示代名詞「
ここ」の部分を抽出したものである。その結果、音声データ１は、音声入力単語列情報と
して「私は」を、音声入力時刻情報として開始時刻9:15:30、終了時刻9:15:32を持ってい
る。また、音声データ２は、音声入力単語列情報として指示代名詞である「ここ」を、音
声入力時刻情報として開始時刻9:15:32、終了時刻9:15:35を持っている。さらに、音声デ
ータ３は、音声入力単語列情報として「へ行きたい」を、音声入力時刻情報として開始時
刻9:15:35、終了時刻9:15:39を持っている。

外１３

を、文字入力時刻情報として開始時刻9:15:32、終了時刻9:15:37を持っている。

指示代名詞照合部420は、同図（Ａ）の指示代名詞部分の音声入力時刻情報と同図（Ｂ）
の文字入力時刻情報を比較して、文字データａが、音声データ２に照合すると判定する。

ここでの判定条件としては、文字データａの文字入力時刻情報の一部でもが音声データ１
〜３の音声入力時刻情報の中に含まれていればよいとする。これは、文字入力は所定の文
の音声入力期間内に行われると考えられるからである。以下、他の実施例も同様とする。

図８は、図７の結果をもとに、代名詞置換部421が構成して出力する文の構造である。

外１４

機械翻訳部422は、この文構造を入力データとして、翻訳処理を行う。翻訳処理方法は
特定のものである必要はなく、第１言語だけで表現された文を翻訳する場合の一般的な方
法を用いればよい。ただし、

外１５

外１６

が得られる。

図９は、翻訳処理部400の第２実施例のフローチャートである。ステップS210では、音
声入力部100から第１言語の音声信号を入力し、ステップS211へ進む。ステップS211では
、音声認識部200で第１言語の音声信号を認識し、ステップS230へ進む。

一方、ステップS220では、文字入力部300から第２言語の文字データを入力し、ステッ
プS230へ進む。なお、ステップS210〜S211の処理と、ステップS220の処理は、実際に音声
や文字が入力されるタイミングで実行するため、いずれの処理が先になるかは任意である
。

ステップS230では、指示代名詞照合部420で、音声認識部200のデータに含まれる指示代
名詞部分と文字入力部300の出力するデータを照合処理して、ステップS231へ進む。

ステップS231では、ステップS230で照合処理が成功したかを判断し、照合が成功すれば
ステップS240へ、照合が失敗すればステップS260へ進む。

ステップS240では、ステップS230で照合した結果にしたがって代名詞置換部421で第１
言語の音声データの指示代名詞部分を第２言語の文字データで置換し、ステップS250へ進
む。

ステップS250では、ステップS240で構成された文を機械翻訳部412で機械翻訳し、続く
ステップS290で訳文を出力して終了する。

一方、ステップS260では、S230で照合できなかった入力データを、音声入力データと文
字入力データをそれぞれ取出し、続くステップS270で機械翻訳する。

ステップS271では、入力データの翻訳処理が全て終了したかを判断し、終了していれば
ステップS280へ進み、終了していなければステップS260に戻って次の入力データを取出す
。

ステップS280では、ステップS270で得られた機械翻訳結果を順に接続して、全体の訳文
を構成し、続くステップS290で訳文を出力して終了する。

（翻訳処理部400の第３の実施例）
図１０は、翻訳処理部400の第３実施例の概略ブロック図である。指示代名詞照合部430
は、音声認識部200からのデータである第１言語の音声入力単語列情報と音声入力時刻情
報、および、文字入力部300からのデータである第２言語の文字入力語句情報と文字入力
時刻情報を受ける。音声入力単語列情報中の指示代名詞部分に対してその時刻情報と文字
入力時刻情報を比較して、第２言語の文字入力語句が第１言語の指示代名詞部と照合か否
かを決定する。

機械翻訳部431は、音声認識部200からのデータである第１言語の文を、第２言語の文に
機械翻訳する。この際、指示代名詞照合部430で得られた照合情報を内部データに保存し
て出力する。

代名詞置換部432は、機械翻訳部431の出力データに含まれる照合部分を、文字入力部30
0からのデータである第２言語の文字入力語句に置換えた、第２言語の訳文を構成する。

図１１は、指示代名詞照合部430が出力するデータの例である。ここで扱う入力データ
の音声入力時刻情報は、図7に示したものと同じものであるので、改めて図示はしない。

指示代名詞照合部430は、図７（Ａ）の指示代名詞部分の音声入力時刻情報と同図（Ｂ）
の文字入力時刻情報を比較して、文字データａが、音声データ２に照合すると判定する。

その結果を照合情報に保存する。

図１２は、機械翻訳部431が出力するデータと代名詞置換部432が置換処理を行った後の
データを示す図である。

図１１の入力データに対する機械翻訳部431の翻訳結果は、図１２（Ａ）に示す

外１７

である。これに対して代名詞置換部432は、

外１８

（日本語「ここ」の中国語訳）に対する照合情報の「文字ａ」を利用して、図７（Ｂ）に
示す文字入力語句情報と置換する。この結果、中国語の訳文

外１９

が得られる。

図１３は、翻訳処理部400の第３実施例のフローチャートである。ステップS310では、
音声入力部100から第１言語の音声信号を入力し、ステップS311へ進む。ステップS311で
は、音声認識部200で第１言語の音声信号を認識し、ステップS330へ進む。

一方、ステップS320では、文字入力部300から第２言語の文字データを入力し、ステッ
プS230へ進む。なお、ステップS210〜S211の処理と、ステップS220の処理は、実際に音声
や文字が入力されるタイミングで実行するため、いずれの処理が先になるかは任意である
。

ステップS330では、指示代名詞照合部430で、音声認識部データに含まれる指示代名詞
部分と文字入力部の出力するデータを照合処理し、照合した語句が見つかれば、照合情報
を保存して、ステップS331へ進む。

ステップS331では、ステップS330で照合処理が成功したかを判断し、照合が成功すれば
ステップS340へ、照合が失敗すればステップS360へ進む。

ステップS340では、ステップS330から送られた文を機械翻訳部431で機械翻訳し、ステ
ップS350へ進む。

ステップS350では、代名詞置換部432で訳文中の照合情報を参照し、代名詞照合部分の
訳語を第２言語の文字データで置換し、続くステップS390で訳文を出力して終了する。

一方ステップS360では、S330で照合できなかった入力データを、音声入力データと文字
入力データをそれぞれ取出し、続くステップS370で機械翻訳する。

ステップS371では、入力データの翻訳処理が全て終了したかを判断し、終了していれば
ステップS380へ進み、終了していなければステップS360に戻って次の入力データを取出す
。

ステップS380では、ステップS370で得られた機械翻訳結果を順に接続して、全体の訳文
を構成し、続くステップS390で訳文を出力して終了する。

（翻訳処理部400の第４の実施例）
図１４は、翻訳処理部400の第４実施例の概略ブロック図である。

入力語句照合部440は、音声認識部200からのデータである第１言語の音声入力単語列情報
と音声入力時刻情報、および、文字入力部300からのデータである第２言語の文字入力語
句情報と文字入力時刻情報を受ける。音声入力単語列情報中の各語句データの時刻情報と
文字入力時刻情報を比較して、第２言語の文字入力語句が第１言語のどの語句と照合かを
決定する。

入力文構成部441は、入力語句照合部440の出力を受けて、第１言語の文の照合語句部分
を第２言語の語句に置換えた、第１言語の文を構成する。

機械翻訳部442は、入力文構成部441の出力データである第１言語の文を、第２言語の文
に機械翻訳する。この際、第１言語の文に一部含まれる第２言語の語句は、第１言語では
未知語となることがあるが、そのまま翻訳処理を行い、訳文の一部として出力する。

図１５は、入力語句照合部440が受けるデータの例である。ここでは、「私はchuukanso
nへ行きたい」と発声する中の「chuukanson」の発声に合わせて

外２０

と文字入力した場合で説明する。

同図（Ａ）は、音声認識部200からのデータである第１言語の音声入力単語列情報と音
声入力時刻情報の例を示すものである。入力音声としては、「私はchuukansonへ行きたい
」と連続したものであるが、日本語形態素解析などの技術を使って前処理を行い、単語に
分割したものである。その結果、音声データ１は音声入力単語列情報として「私」を、音
声入力時刻情報として開始時刻9:15:30、終了時刻9:15:31を持っている。また、音声デー
タ２は音声入力単語列情報として「は」を、音声入力時刻情報として開始時刻9:15:31、
終了時刻9:15:32を持っている。さらに、音声データ３は音声入力単語列情報として「chu
ukanson」を、音声入力時刻情報として開始時刻9:15:32、終了時刻9:15:35を持っている
。以下、音声データ４〜６は表に示すとおりである。

外２１

を、文字入力時刻情報として開始時刻9:15:33、終了時刻9:15:38を持っている。

入力語句照合部440は、同図（Ａ）の音声データの音声入力時刻情報と同図（Ｂ）の文字
入力時刻情報を比較して、文字データａが、音声データ３に照合すると判定する。

図１６は、図１５の結果をもとに、入力文構成部441が構成して出力する文の構造であ
る。ここで、

外２２

は第２言語である中国語、その他の「私」、「は」などは第１言語である日本語の語句で
あることを保存している。

機械翻訳部442は、この文構造を入力データとして、翻訳処理を行う。翻訳処理方法は
特定のものである必要はなく、第１言語だけで表現された文を翻訳する場合の一般的な方
法を用いればよい。ただし、

外２３

外２４

が得られる。

図１７は、翻訳処理部400の第４実施例のフローチャートである。ステップS410では、
音声入力部100から第１言語の音声信号を入力し、ステップS411へ進む。ステップS411で
は、音声認識部200で第１言語の音声信号を認識し、ステップS430へ進む。

一方、ステップS420では、文字入力部300から第２言語の文字データを入力し、ステッ
プS430へ進む。なお、ステップS410〜S411の処理と、ステップS420の処理は、実際に音声
や文字が入力されるタイミングで実行するため、いずれの処理が先になるかは任意である
。

ステップS430では、入力語句照合部440で、音声入力時刻情報と文字入力時刻情報を比
較して、文字データが、どの音声データに照合するか処理して、ステップS431へ進む。

ステップS431では、ステップS430で照合処理が成功したかを判断し、照合が成功すれば
ステップS440へ、照合が失敗すればステップS460へ進む。

ステップS440では、ステップS430で照合した結果にしたがって入力文構成部441で第１
言語の音声データの照合部分を第２言語の文字データで置換した情報を構成し、ステップ
S450へ進む。

ステップS450では、ステップS440で構成された文を機械翻訳部442で機械翻訳し、続く
ステップS490で訳文を出力して終了する。

一方、ステップS460では、S430で照合できなかった入力データを、音声入力データ全体
と文字入力データをそれぞれ取出し、続くステップS470で機械翻訳する。

ステップS471では、音声入力データ全体と文字入力データの翻訳処理が終了したかを判
断し、終了していればステップS480へ進み、終了していなければステップS460に戻って他
方の入力データを取出す。

ステップS480では、ステップS470で得られた機械翻訳結果を順に接続して、全体の訳文
を構成し、続くステップS490で訳文を出力して終了する。

（翻訳処理部400の第５の実施例）
図１８は、翻訳処理部400の第５実施例の概略ブロック図である。入力語句類似性判定
部450は、音声認識部200からのデータである第１言語の音声入力単語列情報と、文字入力
部300からのデータである第２言語の文字入力語句情報を受ける。音声入力単語列情報に
は発音情報を含んでいる。第１言語音声入力単語列情報中の発音情報と文字入力語句情報
の類似性を判定して、第２言語の文字入力語句が第１言語のどの語句と照合かを決定する
。

入力文構成部451は、入力語句類似性判定部450の出力を受けて、第１言語の文の照合語
句部分を第２言語の語句に置換えた、第１言語の文を構成する。

機械翻訳部452は、入力文構成部451の出力データである第１言語の文を、第２言語の文
に機械翻訳する。この際、第１言語の文に一部含まれる第２言語の語句は、第１言語では
未知語となることがあるが、そのまま翻訳処理を行い、訳文の一部として出力する。

図１９は、入力語句類似性判定部450が受けるデータの例である。ここでは、「私はwan
fuuchinへ行きたい」と発声するのに合わせて“王府井”と文字入力した場合で説明する
。

同図（Ａ）は、音声認識部200からのデータである第１言語の音声入力単語列情報の例
を示すものである。入力音声としては、「私はwanfuuchinへ行きたい」と連続したもので
あるが、日本語形態素解析などの技術を使って前処理を行い、単語に分割したものである
。その結果、音声データ１は音声入力単語列情報として、発音「watashi」および語句「
私」を持っている。また、音声データ２は音声入力単語列情報として、発音「wa」および
語句「は」を持っている。さらに、音声データ３は音声入力単語列情報として発音「wanf
uuchin」および語句「（wanfuuchin）」を持っている。ここで「wanfuuchin」が括弧書き
なのは、日本語形態素解析で未知語として出力されたことを示す。以下、音声データ４〜
６は表に示すとおりである。

同図（Ｂ）は、文字入力部300からのデータである第２言語の文字入力語句情報の例を
示すものである。ここで、文字データａは文字入力語句情報として“王府井”を持ってい
る。

入力語句類似性判定部450は、同図（Ａ）の音声データの各語句の発音情報を参照して
、同図（Ｂ）の語句との類似性を判定する。この例では構成文字、“王”、“府”、“井
”の中国語の発音がそれぞれ「wang」、「fu」、「jing」であることをもとに、発音「wa
nfuuchin」が最も近いと判断し、文字データａが、音声データ３に照合すると判定する。

図２０は、図１９の結果をもとに、入力文構成部451が構成して出力する文の構造であ
る。ここで、“王府井”は第２言語である中国語、その他の「私」、「は」などは第１言
語である日本語の語句であることを保存している。

機械翻訳部452は、この文構造を入力データとして、翻訳処理を行う。翻訳処理方法は
特定のものである必要はなく、第１言語だけで表現された文を翻訳する場合の一般的な方
法を用いればよい。ただし、“王府井”は強制的に第１言語の名詞として処理を行い、そ
のまま訳文に生成する。この結果、中国語の訳文“我想去王府井。”が得られる。

図２１は、翻訳処理部400の第５実施例のフローチャートである。ステップS510では、
音声入力部100から第１言語の音声信号を入力し、ステップS511へ進む。ステップS511で
は、音声認識部200で第１言語の音声信号を認識し、ステップS430へ進む。

一方、ステップS520では、文字入力部300から第２言語の文字データを入力し、ステッ
プS530へ進む。なお、ステップS510〜S511の処理と、ステップS520の処理は、実際に音声
や文字が入力されるタイミングで実行するため、いずれの処理が先になるかは任意である
。

ステップS530では、入力語句類似性判定部450で、音声入力単語列情報の発音情報と文
字入力時刻情報を比較して、文字データが、どの音声データに最も類似しているか処理し
て、ステップS531へ進む。

ステップS531では、ステップS530で類似性判定処理が成功したかを判断し、判定が成功
すればステップS540へ、判定が失敗すればステップS560へ進む。

ステップS540では、ステップS530で判定した結果にしたがって入力文構成部451で第１
言語の音声データの類似性判定部分を第２言語の文字データで置換した情報を構成し、ス
テップS550へ進む。

ステップS550では、ステップS540で構成された文を機械翻訳部452で機械翻訳し、続く
ステップS590で訳文を出力して終了する。

一方、ステップS560では、S530で類似性判定できなかった入力データを、音声入力デー
タ全体と文字入力データをそれぞれ取出し、続くステップS570で機械翻訳する。

ステップS571では、音声入力データ全体と文字入力データの翻訳処理が終了したかを判
断し、終了していればステップS580へ進み、終了していなければステップS560に戻って他
方の入力データを取出す。

ステップS580では、ステップS570で得られた機械翻訳結果を順に接続して、全体の訳文
を構成し、続くステップS590で訳文を出力して終了する。

上述した実施の形態は、本発明の好適な具体例であるから、技術的に好ましい種々の限
定が付されているが、本発明の趣旨を逸脱しない範囲であれば、適宜組合わせ及び変更す
ることができることはいうまでもない。たとえば、日本語から英語への音声翻訳支援でも
、日本語からドイツ語への音声翻訳支援でも、同様の構成で実現できる。

本実施形態に係る音声翻訳装置の概略ブロック図。翻訳処理部400の第１実施例の概略ブロック図。入力文字同期部410が受けるデータの例を示す図。入力文構成部411の出力結果を示す図。翻訳処理部400の第１実施例のフローチャート。翻訳処理部400の第２実施例の概略ブロック図。指示代名詞照合部420が受けるデータの例を示す図。代名詞置換部421の出力結果を示す図。翻訳処理部400の第２実施例のフローチャート。翻訳処理部400の第３実施例の概略ブロック図。指示代名詞照合部430が出力するデータの例を示す図。機械翻訳部431が出力するデータと、代名詞置換部432が置換処理を行った後のデータを示す図。翻訳処理部400の第３実施例のフローチャート。翻訳処理部400の第４実施例の概略ブロック図。入力語句照合部440が受けるデータの例を示す図。入力文構成部441が出力するデータの例を示す図。翻訳処理部400の第４実施例のフローチャート。翻訳処理部400の第５実施例の概略ブロック図。入力語句類似性判定部450が受けるデータの例を示す図。入力文構成部451が出力するデータの例を示す図。翻訳処理部400の第５実施例のフローチャート。

符号の説明

１００音声入力部
２００音声認識部
３００文字入力部
４００翻訳処理部
５００出力部
４１０入力文字同期部
４１１、４４１、４５１入力文構成部
４１２、４３１、４４２、４５２機械翻訳部
４２０、４３０指示代名詞照合部
４２１代名詞置換部
４２２機械翻訳部
４３２代名詞置換部
４４０入力語句照合部
４５０入力語句類似性判定部

Claims

第１言語の音声信号を認識する音声認識部と、
第２言語の文字列を入力する文字入力部と、
前記音声認識部の認識結果と前記文字入力部の入力結果を利用して、第２言語への翻訳
結果を出力する翻訳部と、を備えた音声翻訳装置。
前記翻訳部は、前記音声認識部の認識結果を第２言語へ翻訳し、この翻訳結果と、前記
音声認識部に第１言語の音声信号が入力されない無音声期間に文字入力された第２言語の
文字列とを合成し、出力することを特徴とする請求項１記載の音声翻訳装置。
前記翻訳部は、前記音声認識部に第１言語の指示代名詞が入力されている期間に文字入
力された第２言語の文字列を、音声入力の指示代名詞部分と置換して、翻訳することを特
徴とする請求項１記載の音声翻訳装置。
前記翻訳部は、前記音声認識部に第１言語の指示代名詞が入力されている期間に文字入
力された第２言語の文字列を、第２言語への翻訳結果の中にある指示代名詞部分と置換し
て出力することを特徴とする請求項１記載の音声翻訳装置。
前記翻訳部は、前記音声認識部に第１言語のある語句が入力されている期間に文字入力
部から指示入力された第２言語の文字列を、音声入力の当該語句の第２言語の翻訳結果と
して翻訳することを特徴とする請求項１に記載の音声翻訳装置。
前記翻訳部は、前記音声認識部に第１言語の音声入力文が入力されている期間に文字入
力された第２言語の文字列を、前記音声入力文中の第１言語の未知語に対する第２言語の
翻訳結果として翻訳することを特徴とする請求項１記載の音声翻訳装置。
第１言語の音声信号を認識し、
第２言語の文字列を入力し、
前記音声信号の認識結果と前記入力された文字列に応じて、第２言語の翻訳結果を出力
する音声翻訳方法。