JP2007094194A - 音声翻訳装置及び音声翻訳方法 - Google Patents

音声翻訳装置及び音声翻訳方法 Download PDF

Info

Publication number
JP2007094194A
JP2007094194A JP2005285593A JP2005285593A JP2007094194A JP 2007094194 A JP2007094194 A JP 2007094194A JP 2005285593 A JP2005285593 A JP 2005285593A JP 2005285593 A JP2005285593 A JP 2005285593A JP 2007094194 A JP2007094194 A JP 2007094194A
Authority
JP
Japan
Prior art keywords
language
input
translation
speech
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005285593A
Other languages
English (en)
Other versions
JP4550708B2 (ja
Inventor
Akira Kumano
明 熊野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2005285593A priority Critical patent/JP4550708B2/ja
Publication of JP2007094194A publication Critical patent/JP2007094194A/ja
Application granted granted Critical
Publication of JP4550708B2 publication Critical patent/JP4550708B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】 本発明の目的は、第1言語による音声認識結果と、これとは別途入力される第
2言語の文字データとを効果的に利用することにより、誤りのない第2言語への翻訳結果
を出力可能にする音声翻訳装置を提供することである。
【解決手段】 第1言語の音声信号を認識する音声認識部(200)と、第2言語の文字
列を入力する文字入力部(300)と、前記音声認識部の認識結果と前記文字入力部の入
力結果を利用して、第2言語への翻訳結果を出力する翻訳部(400)と、を備えた音声
翻訳装置。
【選択図】 図1

Description

本発明は、音声翻訳装置に関し、特に、第1言語の音声入力を認識し、その結果を第2
言語に翻訳する音声翻訳装置及び音声翻訳方法に関する。
音声翻訳装置では一般に、第1言語の音声を入力し、その音声認識結果(第1言語)を
第2言語に機械翻訳して出力する。
ところが、第2言語の地名や人名(以下、地名等という)を伝えたい場合、第2言語で
の表記はわかるが、その語に対する第1言語の表記を正しく覚えていない場合がある。ま
た、有名な地名等でない場合は、第1言語の音声認識辞書に収録されておらず、第1言語
として認識されない場合がある。
いま、日中音声翻訳装置を使って、
外1
Figure 2007094194
(“”部分は中国語の文字。以下同様)に行きたい状況を考える。一般には、
外2
Figure 2007094194
の日本語直訳である「中関村(ちゅうかんそん)」を使って、「私は中関村に行きたい。
」と発声すべきである。ところが、中国語の
外3
Figure 2007094194
の字は覚えていても、日本語の直訳の「中関村」が思い出せない場合がある。また、仮に
「中関村」を覚えていて「ちゅうかんそん」と発声しても、日本語音声認識辞書に収録さ
れていない場合は、認識できず、
外4
Figure 2007094194
を含んだ望むべき中国語訳
外5
Figure 2007094194
が得られない場合がある。
また、日中音声翻訳装置を使って、“王府井”に行きたい状況を考える。一般には、“
王府井”に日本語読みの直訳はないので、中国語発音を日本語調の音に置換えた「ワンフ
ーチン」を使って、「私はワンフーチンに行きたい。」と発声すべきである。ところが、
中国語の“王府井”の字は覚えていても、日本語調の音の「ワンフーチン」が思い出せな
い場合がある。また、仮に「ワンフーチン」と発声しても、日本語音声認識辞書に収録さ
れていない場合は、認識できず、“王府井”を含んだ望むべき中国語訳“我想去王府井。
”が得られない場合がある。
つまり、せっかく
外6
Figure 2007094194
、“王府井”という正確な中国語の地名等を正しい字で覚えていても、または、中国の地
図などで知っていても、日中音声翻訳装置を介することで正しく伝えられない状況があっ
た。
このように、音声認識で正しく入力することの難しい語句を、他の手段で入力する方法
としては、キー入力や手書き入力で行う技術があった(例えば特許文献1参照)。
特開2000−194559号公報(第4頁、図2)
しかし、これは単独の言語の文書を入力するためのものであり、第1言語を第2言語に
翻訳する際の困難さを考慮したものではない。
本発明の目的は、第1言語による音声認識結果と、これとは別途入力される第2言語の
文字データとを効果的に利用することにより、誤りのない第2言語への翻訳結果を出力可
能にする音声翻訳装置を提供することである。
第1の発明は、第1言語の音声信号を認識する音声認識部と、第2言語の文字列を入力
する文字入力部と、前記音声認識部の認識結果と前記文字入力部の入力結果を利用して、
第2言語への翻訳結果を出力する翻訳部と、を備えた音声翻訳装置である。
第2の発明は、前記翻訳部は、前記音声認識部の認識結果を第2言語へ翻訳し、この翻
訳結果と、前記音声認識部に第1言語の音声信号が入力されない無音声期間に文字入力さ
れた第2言語の文字列とを合成し、出力することを特徴とする第1の発明記載の音声翻訳
装置である。
第3の発明は、前記翻訳部は、前記音声認識部に第1言語の指示代名詞が入力されてい
る期間に文字入力された第2言語の文字列を、音声入力の指示代名詞部分と置換して、翻
訳することを特徴とする第1の発明記載の音声翻訳装置である。
第4の発明は、前記翻訳部は、前記音声認識部に第1言語の指示代名詞が入力されてい
る期間に文字入力された第2言語の文字列を、第2言語への翻訳結果の中にある指示代名
詞部分と置換して出力することを特徴とする第1の発明記載の音声翻訳装置である。
第5の発明は、前記翻訳部は、前記音声認識部に第1言語のある語句が入力されている
期間に文字入力部から指示入力された第2言語の文字列を、音声入力の当該語句の第2言
語の翻訳結果として翻訳することを特徴とする第1の発明記載の音声翻訳装置である。
第6の発明は、前記翻訳部は、前記音声認識部に第1言語の音声入力文が入力されてい
る期間に文字入力された第2言語の文字列を、前記音声入力文中の第1言語の未知語に対
する第2言語の翻訳結果として翻訳することを特徴とする第1の発明記載の音声翻訳装置
である。
第7の発明は、第1言語の音声信号を認識し、第2言語の文字列を入力し、前記音声信
号の認識結果と前記入力された文字列に応じて、第2言語の翻訳結果を出力する音声翻訳
方法である。
本発明によれば、第1言語による音声認識結果と、これとは別途入力される第2言語の
文字データとを効果的に利用することにより、誤りのない第2言語への翻訳結果を出力可
能にする音声翻訳装置を提供することができる。
以下、本発明の実施の形態について図面を参照しながら説明する。
図1は、本実施形態に係る音声翻訳装置の概略ブロック図である。音声入力部100は、
第1言語(本実施形態では、日本語)の音声信号を入力するものであり、一般には、マイ
クなどで構成する。音声認識部200は、音声入力部100から音声信号を受けて、第1言語の
単語列あるいは文(以下、音声入力単語列情報という)と共に、必要に応じて音声入力時
刻情報を出力する。音声認識の手法は特定のものである必要はなく、既存の手法を採用す
ればよい。文字入力部300は、第2言語の語句を文字として入力するものである。これに
は、手書き文字入力部と文字認識部から構成する場合と、キーボードなど直接文字入力で
きる装置で構成する場合がある。いずれの場合も、文字入力語句情報と共に、必要に応じ
て文字入力時刻情報を出力する。
翻訳処理部400は、音声認識部200からのデータと、文字入力部300からのデータを利用し
て翻訳を行い、第2言語(本実施形態では、中国語)の訳文を出力する。この詳細な構成
については、後述する。出力部500は、翻訳処理部400の出力データ(翻訳結果)を出力す
るものであり、一般には、液晶ディスプレイ、プリンタなどで構成する。
(翻訳処理部400の第1の実施例)
図2は、翻訳処理部400の第1実施例の概略ブロック図である。入力文字同期部410は、
音声認識部200からのデータである第1言語の音声入力単語列情報と音声入力時刻情報、
および、文字入力部300からのデータである第2言語の文字入力語句情報と文字入力時刻
情報を受ける。音声入力時刻情報と文字入力時刻情報を比較して、第2言語の文字入力語
句が第1言語の音声入力単語列のどの間隔に相当するかを決定する。
入力文構成部411は、入力文字同期部410の出力を受けて、一部分に第2言語の語句が入
った、第1言語の文を構成する。
機械翻訳部412は、入力構成部411の出力データである第1言語の文を、第2言語の文に
機械翻訳する。この際、第1言語の文に一部含まれる第2言語の語句は、第1言語では未
知語となることがあるが、そのまま翻訳処理を行い、訳文の一部として出力する。
図3は、入力文字同期部410が受けるデータの例である。ここでは、「私は」と発声し
た後で
外7
Figure 2007094194
と文字入力し、続いて「へ行きたい」と発声した場合で説明する。
同図(A)は、音声認識部200からのデータである第1言語の音声入力単語列情報と音
声入力時刻情報の例を示すものである。ここで、音声データ1は音声入力単語列情報とし
て「私は」を、音声入力時刻情報として開始時刻9:15:30、終了時刻9:15:32を持っている
。また、音声データ2は音声入力単語列情報として「へ行きたい」を、音声入力時刻情報
として開始時刻9:15:39、終了時刻9:15:42を持っている。
同図(B)は、文字入力部300からのデータである第2言語の文字入力語句情報と文字
入力時刻情報の例を示すものである。ここで、文字データaは文字入力語句情報として
外8
Figure 2007094194
を、文字入力時刻情報として開始時刻9:15:33、終了時刻9:15:39を持っている。
入力文字同期部410は、(A)と(B)の入力時刻情報を比較して、文字データaが、
音声データ1と音声データ2の間に入力されたと判定する。
図4は、図3の結果をもとに、入力文構成部411が構成して出力する文の構造である。
ここで、「私は」と「へ行きたい」は第1言語である日本語、
外9
Figure 2007094194
は第2言語である中国語の語句であることを保存している。
機械翻訳部412は、この文構造を入力データとして、翻訳処理を行う。翻訳処理方法は
特定のものである必要はなく、第1言語だけで表現された文を翻訳する場合の一般的な方
法を用いればよい。ただし、
外10
Figure 2007094194
は強制的に第1言語の名詞として処理を行い、そのまま訳文に生成する。この結果、中国
語の訳文
外11
Figure 2007094194
が得られる。
図5は、翻訳処理部400の第1実施例のフローチャートである。ステップS110では、音
声入力部100から第1言語の音声信号を入力し、ステップS111へ進む。ステップS111では
、音声認識部200で第1言語の音声信号を認識し、ステップS130へ進む。
一方、ステップS120では、文字入力部300から第2言語の文字データを入力し、ステッ
プS130へ進む。なお、ステップS110〜S111の処理と、ステップS120の処理は、実際に音声
や文字が入力されるタイミングで実行するため、いずれの処理が先になるかは任意である
ステップS130では、入力文字同期部410で、音声認識部200の出力するデータと文字入力
部300の出力するデータを同期処理し、相互のデータの順序を決定することを試みて、ス
テップS131へ進む。
ステップS131では、ステップS130で順序が決定できたかを判断し、決定が成功すればス
テップS140へ、決定が失敗すればステップS160へ進む。
ステップS140では、ステップS130で決定した順序にしたがって入力文構成部411で第1
言語の音声データと第2言語の文字データから一文を合成し、ステップS150へ進む。
ステップS150では、ステップS140で構成された文を機械翻訳部412で機械翻訳し、続く
ステップS190で訳文を出力して終了する。
一方ステップS160では、S130で順序を決定できなかった入力データを1つずつ取出し、
続くステップS170で機械翻訳する。
ステップS171では、入力データの翻訳処理が全て終了したかを判断し、終了していれば
ステップS180へ進み、終了していなければステップS160に戻って次の入力データを取出す
ステップS180では、ステップS170で得られた機械翻訳結果を順に接続して、全体の訳文
を構成し、続くステップS190で訳文を出力して終了する。
(翻訳処理部400の第2の実施例)
図6は、翻訳処理部400の第2実施例の概略ブロック図である。指示代名詞照合部420は
、音声認識部200からのデータである第1言語の音声入力単語列情報と音声入力時刻情報
、および、文字入力部300からのデータである第2言語の文字入力語句情報と文字入力時
刻情報を受ける。音声入力単語列情報中の指示代名詞部分に対してその時刻情報と文字入
力時刻情報を比較して、第2言語の文字入力語句が第1言語の指示代名詞部と照合か否か
を決定する。
代名詞置換部421は、指示代名詞照合部420の出力を受けて、第1言語の文の指示代名詞
部分を第2言語の語句に置換えた、第1言語の文を構成する。
機械翻訳部422は、代名詞置換部421の出力データである第1言語の文を、第2言語の文
に機械翻訳する。この際、第1言語の文に一部含まれる第2言語の語句は、第1言語では
未知語となることがあるが、そのまま翻訳処理を行い、訳文の一部として出力する。
図7は、指示代名詞照合部420が受けるデータの例である。ここでは、「私はここへ行
きたい」と発声する中の「ここ」の発声に合わせて
外12
Figure 2007094194
と文字入力した場合で説明する。
同図(A)は、音声認識部200からのデータである第1言語の音声入力単語列情報と音
声入力時刻情報の例を示すものである。入力音声としては、「私はここへ行きたい」と連
続したものであるが、日本語形態素解析などの技術を使って前処理を行い、指示代名詞「
ここ」の部分を抽出したものである。その結果、音声データ1は、音声入力単語列情報と
して「私は」を、音声入力時刻情報として開始時刻9:15:30、終了時刻9:15:32を持ってい
る。また、音声データ2は、音声入力単語列情報として指示代名詞である「ここ」を、音
声入力時刻情報として開始時刻9:15:32、終了時刻9:15:35を持っている。さらに、音声デ
ータ3は、音声入力単語列情報として「へ行きたい」を、音声入力時刻情報として開始時
刻9:15:35、終了時刻9:15:39を持っている。
同図(B)は、文字入力部300からのデータである第2言語の文字入力語句情報と文字
入力時刻情報の例を示すものである。ここで、文字データaは文字入力語句情報として
外13
Figure 2007094194
を、文字入力時刻情報として開始時刻9:15:32、終了時刻9:15:37を持っている。
指示代名詞照合部420は、同図(A)の指示代名詞部分の音声入力時刻情報と同図(B)
の文字入力時刻情報を比較して、文字データaが、音声データ2に照合すると判定する。
ここでの判定条件としては、文字データaの文字入力時刻情報の一部でもが音声データ1
〜3の音声入力時刻情報の中に含まれていればよいとする。これは、文字入力は所定の文
の音声入力期間内に行われると考えられるからである。以下、他の実施例も同様とする。
図8は、図7の結果をもとに、代名詞置換部421が構成して出力する文の構造である。
ここで、「私は」と「へ行きたい」は第1言語である日本語、
外14
Figure 2007094194
は第2言語である中国語の語句であることを保存している。
機械翻訳部422は、この文構造を入力データとして、翻訳処理を行う。翻訳処理方法は
特定のものである必要はなく、第1言語だけで表現された文を翻訳する場合の一般的な方
法を用いればよい。ただし、
外15
Figure 2007094194
は強制的に第1言語の名詞として処理を行い、そのまま訳文に生成する。この結果、中国
語の訳文
外16
Figure 2007094194
が得られる。
図9は、翻訳処理部400の第2実施例のフローチャートである。ステップS210では、音
声入力部100から第1言語の音声信号を入力し、ステップS211へ進む。ステップS211では
、音声認識部200で第1言語の音声信号を認識し、ステップS230へ進む。
一方、ステップS220では、文字入力部300から第2言語の文字データを入力し、ステッ
プS230へ進む。なお、ステップS210〜S211の処理と、ステップS220の処理は、実際に音声
や文字が入力されるタイミングで実行するため、いずれの処理が先になるかは任意である
ステップS230では、指示代名詞照合部420で、音声認識部200のデータに含まれる指示代
名詞部分と文字入力部300の出力するデータを照合処理して、ステップS231へ進む。
ステップS231では、ステップS230で照合処理が成功したかを判断し、照合が成功すれば
ステップS240へ、照合が失敗すればステップS260へ進む。
ステップS240では、ステップS230で照合した結果にしたがって代名詞置換部421で第1
言語の音声データの指示代名詞部分を第2言語の文字データで置換し、ステップS250へ進
む。
ステップS250では、ステップS240で構成された文を機械翻訳部412で機械翻訳し、続く
ステップS290で訳文を出力して終了する。
一方、ステップS260では、S230で照合できなかった入力データを、音声入力データと文
字入力データをそれぞれ取出し、続くステップS270で機械翻訳する。
ステップS271では、入力データの翻訳処理が全て終了したかを判断し、終了していれば
ステップS280へ進み、終了していなければステップS260に戻って次の入力データを取出す
ステップS280では、ステップS270で得られた機械翻訳結果を順に接続して、全体の訳文
を構成し、続くステップS290で訳文を出力して終了する。
(翻訳処理部400の第3の実施例)
図10は、翻訳処理部400の第3実施例の概略ブロック図である。指示代名詞照合部430
は、音声認識部200からのデータである第1言語の音声入力単語列情報と音声入力時刻情
報、および、文字入力部300からのデータである第2言語の文字入力語句情報と文字入力
時刻情報を受ける。音声入力単語列情報中の指示代名詞部分に対してその時刻情報と文字
入力時刻情報を比較して、第2言語の文字入力語句が第1言語の指示代名詞部と照合か否
かを決定する。
機械翻訳部431は、音声認識部200からのデータである第1言語の文を、第2言語の文に
機械翻訳する。この際、指示代名詞照合部430で得られた照合情報を内部データに保存し
て出力する。
代名詞置換部432は、機械翻訳部431の出力データに含まれる照合部分を、文字入力部30
0からのデータである第2言語の文字入力語句に置換えた、第2言語の訳文を構成する。
図11は、指示代名詞照合部430が出力するデータの例である。ここで扱う入力データ
の音声入力時刻情報は、図7に示したものと同じものであるので、改めて図示はしない。
指示代名詞照合部430は、図7(A)の指示代名詞部分の音声入力時刻情報と同図(B)
の文字入力時刻情報を比較して、文字データaが、音声データ2に照合すると判定する。
その結果を照合情報に保存する。
図12は、機械翻訳部431が出力するデータと代名詞置換部432が置換処理を行った後の
データを示す図である。
図11の入力データに対する機械翻訳部431の翻訳結果は、図12(A)に示す
外17
Figure 2007094194
である。これに対して代名詞置換部432は、
外18
Figure 2007094194
(日本語「ここ」の中国語訳)に対する照合情報の「文字a」を利用して、図7(B)に
示す文字入力語句情報と置換する。この結果、中国語の訳文
外19
Figure 2007094194
が得られる。
図13は、翻訳処理部400の第3実施例のフローチャートである。ステップS310では、
音声入力部100から第1言語の音声信号を入力し、ステップS311へ進む。ステップS311で
は、音声認識部200で第1言語の音声信号を認識し、ステップS330へ進む。
一方、ステップS320では、文字入力部300から第2言語の文字データを入力し、ステッ
プS230へ進む。なお、ステップS210〜S211の処理と、ステップS220の処理は、実際に音声
や文字が入力されるタイミングで実行するため、いずれの処理が先になるかは任意である
ステップS330では、指示代名詞照合部430で、音声認識部データに含まれる指示代名詞
部分と文字入力部の出力するデータを照合処理し、照合した語句が見つかれば、照合情報
を保存して、ステップS331へ進む。
ステップS331では、ステップS330で照合処理が成功したかを判断し、照合が成功すれば
ステップS340へ、照合が失敗すればステップS360へ進む。
ステップS340では、ステップS330から送られた文を機械翻訳部431で機械翻訳し、ステ
ップS350へ進む。
ステップS350では、代名詞置換部432で訳文中の照合情報を参照し、代名詞照合部分の
訳語を第2言語の文字データで置換し、続くステップS390で訳文を出力して終了する。
一方ステップS360では、S330で照合できなかった入力データを、音声入力データと文字
入力データをそれぞれ取出し、続くステップS370で機械翻訳する。
ステップS371では、入力データの翻訳処理が全て終了したかを判断し、終了していれば
ステップS380へ進み、終了していなければステップS360に戻って次の入力データを取出す
ステップS380では、ステップS370で得られた機械翻訳結果を順に接続して、全体の訳文
を構成し、続くステップS390で訳文を出力して終了する。
(翻訳処理部400の第4の実施例)
図14は、翻訳処理部400の第4実施例の概略ブロック図である。
入力語句照合部440は、音声認識部200からのデータである第1言語の音声入力単語列情報
と音声入力時刻情報、および、文字入力部300からのデータである第2言語の文字入力語
句情報と文字入力時刻情報を受ける。音声入力単語列情報中の各語句データの時刻情報と
文字入力時刻情報を比較して、第2言語の文字入力語句が第1言語のどの語句と照合かを
決定する。
入力文構成部441は、入力語句照合部440の出力を受けて、第1言語の文の照合語句部分
を第2言語の語句に置換えた、第1言語の文を構成する。
機械翻訳部442は、入力文構成部441の出力データである第1言語の文を、第2言語の文
に機械翻訳する。この際、第1言語の文に一部含まれる第2言語の語句は、第1言語では
未知語となることがあるが、そのまま翻訳処理を行い、訳文の一部として出力する。
図15は、入力語句照合部440が受けるデータの例である。ここでは、「私はchuukanso
nへ行きたい」と発声する中の「chuukanson」の発声に合わせて
外20
Figure 2007094194
と文字入力した場合で説明する。
同図(A)は、音声認識部200からのデータである第1言語の音声入力単語列情報と音
声入力時刻情報の例を示すものである。入力音声としては、「私はchuukansonへ行きたい
」と連続したものであるが、日本語形態素解析などの技術を使って前処理を行い、単語に
分割したものである。その結果、音声データ1は音声入力単語列情報として「私」を、音
声入力時刻情報として開始時刻9:15:30、終了時刻9:15:31を持っている。また、音声デー
タ2は音声入力単語列情報として「は」を、音声入力時刻情報として開始時刻9:15:31、
終了時刻9:15:32を持っている。さらに、音声データ3は音声入力単語列情報として「chu
ukanson」を、音声入力時刻情報として開始時刻9:15:32、終了時刻9:15:35を持っている
。以下、音声データ4〜6は表に示すとおりである。
同図(B)は、文字入力部300からのデータである第2言語の文字入力語句情報と文字
入力時刻情報の例を示すものである。ここで、文字データaは文字入力語句情報として
外21
Figure 2007094194
を、文字入力時刻情報として開始時刻9:15:33、終了時刻9:15:38を持っている。
入力語句照合部440は、同図(A)の音声データの音声入力時刻情報と同図(B)の文字
入力時刻情報を比較して、文字データaが、音声データ3に照合すると判定する。
図16は、図15の結果をもとに、入力文構成部441が構成して出力する文の構造であ
る。ここで、
外22
Figure 2007094194
は第2言語である中国語、その他の「私」、「は」などは第1言語である日本語の語句で
あることを保存している。
機械翻訳部442は、この文構造を入力データとして、翻訳処理を行う。翻訳処理方法は
特定のものである必要はなく、第1言語だけで表現された文を翻訳する場合の一般的な方
法を用いればよい。ただし、
外23
Figure 2007094194
は強制的に第1言語の名詞として処理を行い、そのまま訳文に生成する。この結果、中国
語の訳文
外24
Figure 2007094194
が得られる。
図17は、翻訳処理部400の第4実施例のフローチャートである。ステップS410では、
音声入力部100から第1言語の音声信号を入力し、ステップS411へ進む。ステップS411で
は、音声認識部200で第1言語の音声信号を認識し、ステップS430へ進む。
一方、ステップS420では、文字入力部300から第2言語の文字データを入力し、ステッ
プS430へ進む。なお、ステップS410〜S411の処理と、ステップS420の処理は、実際に音声
や文字が入力されるタイミングで実行するため、いずれの処理が先になるかは任意である
ステップS430では、入力語句照合部440で、音声入力時刻情報と文字入力時刻情報を比
較して、文字データが、どの音声データに照合するか処理して、ステップS431へ進む。
ステップS431では、ステップS430で照合処理が成功したかを判断し、照合が成功すれば
ステップS440へ、照合が失敗すればステップS460へ進む。
ステップS440では、ステップS430で照合した結果にしたがって入力文構成部441で第1
言語の音声データの照合部分を第2言語の文字データで置換した情報を構成し、ステップ
S450へ進む。
ステップS450では、ステップS440で構成された文を機械翻訳部442で機械翻訳し、続く
ステップS490で訳文を出力して終了する。
一方、ステップS460では、S430で照合できなかった入力データを、音声入力データ全体
と文字入力データをそれぞれ取出し、続くステップS470で機械翻訳する。
ステップS471では、音声入力データ全体と文字入力データの翻訳処理が終了したかを判
断し、終了していればステップS480へ進み、終了していなければステップS460に戻って他
方の入力データを取出す。
ステップS480では、ステップS470で得られた機械翻訳結果を順に接続して、全体の訳文
を構成し、続くステップS490で訳文を出力して終了する。
(翻訳処理部400の第5の実施例)
図18は、翻訳処理部400の第5実施例の概略ブロック図である。入力語句類似性判定
部450は、音声認識部200からのデータである第1言語の音声入力単語列情報と、文字入力
部300からのデータである第2言語の文字入力語句情報を受ける。音声入力単語列情報に
は発音情報を含んでいる。第1言語音声入力単語列情報中の発音情報と文字入力語句情報
の類似性を判定して、第2言語の文字入力語句が第1言語のどの語句と照合かを決定する
入力文構成部451は、入力語句類似性判定部450の出力を受けて、第1言語の文の照合語
句部分を第2言語の語句に置換えた、第1言語の文を構成する。
機械翻訳部452は、入力文構成部451の出力データである第1言語の文を、第2言語の文
に機械翻訳する。この際、第1言語の文に一部含まれる第2言語の語句は、第1言語では
未知語となることがあるが、そのまま翻訳処理を行い、訳文の一部として出力する。
図19は、入力語句類似性判定部450が受けるデータの例である。ここでは、「私はwan
fuuchinへ行きたい」と発声するのに合わせて“王府井”と文字入力した場合で説明する
同図(A)は、音声認識部200からのデータである第1言語の音声入力単語列情報の例
を示すものである。入力音声としては、「私はwanfuuchinへ行きたい」と連続したもので
あるが、日本語形態素解析などの技術を使って前処理を行い、単語に分割したものである
。その結果、音声データ1は音声入力単語列情報として、発音「watashi」および語句「
私」を持っている。また、音声データ2は音声入力単語列情報として、発音「wa」および
語句「は」を持っている。さらに、音声データ3は音声入力単語列情報として発音「wanf
uuchin」および語句「(wanfuuchin)」を持っている。ここで「wanfuuchin」が括弧書き
なのは、日本語形態素解析で未知語として出力されたことを示す。以下、音声データ4〜
6は表に示すとおりである。
同図(B)は、文字入力部300からのデータである第2言語の文字入力語句情報の例を
示すものである。ここで、文字データaは文字入力語句情報として“王府井”を持ってい
る。
入力語句類似性判定部450は、同図(A)の音声データの各語句の発音情報を参照して
、同図(B)の語句との類似性を判定する。この例では構成文字、“王”、“府”、“井
”の中国語の発音がそれぞれ「wang」、「fu」、「jing」であることをもとに、発音「wa
nfuuchin」が最も近いと判断し、文字データaが、音声データ3に照合すると判定する。
図20は、図19の結果をもとに、入力文構成部451が構成して出力する文の構造であ
る。ここで、“王府井”は第2言語である中国語、その他の「私」、「は」などは第1言
語である日本語の語句であることを保存している。
機械翻訳部452は、この文構造を入力データとして、翻訳処理を行う。翻訳処理方法は
特定のものである必要はなく、第1言語だけで表現された文を翻訳する場合の一般的な方
法を用いればよい。ただし、“王府井”は強制的に第1言語の名詞として処理を行い、そ
のまま訳文に生成する。この結果、中国語の訳文“我想去王府井。”が得られる。
図21は、翻訳処理部400の第5実施例のフローチャートである。ステップS510では、
音声入力部100から第1言語の音声信号を入力し、ステップS511へ進む。ステップS511で
は、音声認識部200で第1言語の音声信号を認識し、ステップS430へ進む。
一方、ステップS520では、文字入力部300から第2言語の文字データを入力し、ステッ
プS530へ進む。なお、ステップS510〜S511の処理と、ステップS520の処理は、実際に音声
や文字が入力されるタイミングで実行するため、いずれの処理が先になるかは任意である
ステップS530では、入力語句類似性判定部450で、音声入力単語列情報の発音情報と文
字入力時刻情報を比較して、文字データが、どの音声データに最も類似しているか処理し
て、ステップS531へ進む。
ステップS531では、ステップS530で類似性判定処理が成功したかを判断し、判定が成功
すればステップS540へ、判定が失敗すればステップS560へ進む。
ステップS540では、ステップS530で判定した結果にしたがって入力文構成部451で第1
言語の音声データの類似性判定部分を第2言語の文字データで置換した情報を構成し、ス
テップS550へ進む。
ステップS550では、ステップS540で構成された文を機械翻訳部452で機械翻訳し、続く
ステップS590で訳文を出力して終了する。
一方、ステップS560では、S530で類似性判定できなかった入力データを、音声入力デー
タ全体と文字入力データをそれぞれ取出し、続くステップS570で機械翻訳する。
ステップS571では、音声入力データ全体と文字入力データの翻訳処理が終了したかを判
断し、終了していればステップS580へ進み、終了していなければステップS560に戻って他
方の入力データを取出す。
ステップS580では、ステップS570で得られた機械翻訳結果を順に接続して、全体の訳文
を構成し、続くステップS590で訳文を出力して終了する。
上述した実施の形態は、本発明の好適な具体例であるから、技術的に好ましい種々の限
定が付されているが、本発明の趣旨を逸脱しない範囲であれば、適宜組合わせ及び変更す
ることができることはいうまでもない。たとえば、日本語から英語への音声翻訳支援でも
、日本語からドイツ語への音声翻訳支援でも、同様の構成で実現できる。
本実施形態に係る音声翻訳装置の概略ブロック図。 翻訳処理部400の第1実施例の概略ブロック図。 入力文字同期部410が受けるデータの例を示す図。 入力文構成部411の出力結果を示す図。 翻訳処理部400の第1実施例のフローチャート。 翻訳処理部400の第2実施例の概略ブロック図。 指示代名詞照合部420が受けるデータの例を示す図。 代名詞置換部421の出力結果を示す図。 翻訳処理部400の第2実施例のフローチャート。 翻訳処理部400の第3実施例の概略ブロック図。 指示代名詞照合部430が出力するデータの例を示す図。 機械翻訳部431が出力するデータと、代名詞置換部432が置換処理を行った後のデータを示す図。 翻訳処理部400の第3実施例のフローチャート。 翻訳処理部400の第4実施例の概略ブロック図。 入力語句照合部440が受けるデータの例を示す図。 入力文構成部441が出力するデータの例を示す図。 翻訳処理部400の第4実施例のフローチャート。 翻訳処理部400の第5実施例の概略ブロック図。 入力語句類似性判定部450が受けるデータの例を示す図。 入力文構成部451が出力するデータの例を示す図。 翻訳処理部400の第5実施例のフローチャート。
符号の説明
100 音声入力部
200 音声認識部
300 文字入力部
400 翻訳処理部
500 出力部
410 入力文字同期部
411、441、451 入力文構成部
412、431、442、452 機械翻訳部
420、430 指示代名詞照合部
421 代名詞置換部
422 機械翻訳部
432 代名詞置換部
440 入力語句照合部
450 入力語句類似性判定部

Claims (7)

  1. 第1言語の音声信号を認識する音声認識部と、
    第2言語の文字列を入力する文字入力部と、
    前記音声認識部の認識結果と前記文字入力部の入力結果を利用して、第2言語への翻訳
    結果を出力する翻訳部と、を備えた音声翻訳装置。
  2. 前記翻訳部は、前記音声認識部の認識結果を第2言語へ翻訳し、この翻訳結果と、前記
    音声認識部に第1言語の音声信号が入力されない無音声期間に文字入力された第2言語の
    文字列とを合成し、出力することを特徴とする請求項1記載の音声翻訳装置。
  3. 前記翻訳部は、前記音声認識部に第1言語の指示代名詞が入力されている期間に文字入
    力された第2言語の文字列を、音声入力の指示代名詞部分と置換して、翻訳することを特
    徴とする請求項1記載の音声翻訳装置。
  4. 前記翻訳部は、前記音声認識部に第1言語の指示代名詞が入力されている期間に文字入
    力された第2言語の文字列を、第2言語への翻訳結果の中にある指示代名詞部分と置換し
    て出力することを特徴とする請求項1記載の音声翻訳装置。
  5. 前記翻訳部は、前記音声認識部に第1言語のある語句が入力されている期間に文字入力
    部から指示入力された第2言語の文字列を、音声入力の当該語句の第2言語の翻訳結果と
    して翻訳することを特徴とする請求項1に記載の音声翻訳装置。
  6. 前記翻訳部は、前記音声認識部に第1言語の音声入力文が入力されている期間に文字入
    力された第2言語の文字列を、前記音声入力文中の第1言語の未知語に対する第2言語の
    翻訳結果として翻訳することを特徴とする請求項1記載の音声翻訳装置。
  7. 第1言語の音声信号を認識し、
    第2言語の文字列を入力し、
    前記音声信号の認識結果と前記入力された文字列に応じて、第2言語の翻訳結果を出力
    する音声翻訳方法。
JP2005285593A 2005-09-29 2005-09-29 音声翻訳装置及び音声翻訳方法 Expired - Fee Related JP4550708B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005285593A JP4550708B2 (ja) 2005-09-29 2005-09-29 音声翻訳装置及び音声翻訳方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005285593A JP4550708B2 (ja) 2005-09-29 2005-09-29 音声翻訳装置及び音声翻訳方法

Publications (2)

Publication Number Publication Date
JP2007094194A true JP2007094194A (ja) 2007-04-12
JP4550708B2 JP4550708B2 (ja) 2010-09-22

Family

ID=37979959

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005285593A Expired - Fee Related JP4550708B2 (ja) 2005-09-29 2005-09-29 音声翻訳装置及び音声翻訳方法

Country Status (1)

Country Link
JP (1) JP4550708B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011027979A (ja) * 2009-07-24 2011-02-10 Fujitsu Ltd 音声翻訳装置及び音声翻訳方法
CN113077818A (zh) * 2021-04-08 2021-07-06 焦作大学 一种英语翻译的语音比照系统
JP2022518339A (ja) * 2018-12-06 2022-03-15 ベステル エレクトロニク サナイー ベ ティカレト エー.エス. 音声制御される電子装置のコマンド生成技術

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6440374A (en) * 1987-08-06 1989-02-10 Ricoh Kk Thermal recording material
JPH0863319A (ja) * 1994-08-24 1996-03-08 Hitachi Ltd 情報処理装置
WO2000013102A1 (fr) * 1998-08-31 2000-03-09 Sony Corporation Dispositif et procede pour le traitement du langage naturel
JP2002350146A (ja) * 2001-05-25 2002-12-04 Mitsubishi Electric Corp ナビゲーション装置
JP2005141089A (ja) * 2003-11-07 2005-06-02 Canon Inc 情報処理装置、情報処理方法ならびに記録媒体、プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6440374A (en) * 1987-08-06 1989-02-10 Ricoh Kk Thermal recording material
JPH0863319A (ja) * 1994-08-24 1996-03-08 Hitachi Ltd 情報処理装置
WO2000013102A1 (fr) * 1998-08-31 2000-03-09 Sony Corporation Dispositif et procede pour le traitement du langage naturel
JP2002350146A (ja) * 2001-05-25 2002-12-04 Mitsubishi Electric Corp ナビゲーション装置
JP2005141089A (ja) * 2003-11-07 2005-06-02 Canon Inc 情報処理装置、情報処理方法ならびに記録媒体、プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011027979A (ja) * 2009-07-24 2011-02-10 Fujitsu Ltd 音声翻訳装置及び音声翻訳方法
JP2022518339A (ja) * 2018-12-06 2022-03-15 ベステル エレクトロニク サナイー ベ ティカレト エー.エス. 音声制御される電子装置のコマンド生成技術
CN113077818A (zh) * 2021-04-08 2021-07-06 焦作大学 一种英语翻译的语音比照系统
CN113077818B (zh) * 2021-04-08 2024-05-17 焦作大学 一种英语翻译的语音比照系统

Also Published As

Publication number Publication date
JP4550708B2 (ja) 2010-09-22

Similar Documents

Publication Publication Date Title
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
JP4734155B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
TWI293455B (en) System and method for disambiguating phonetic input
US9471568B2 (en) Speech translation apparatus, speech translation method, and non-transitory computer readable medium thereof
US20060293889A1 (en) Error correction for speech recognition systems
US20130179166A1 (en) Voice conversion device, portable telephone terminal, voice conversion method, and record medium
AU2017326987B2 (en) Systems and methods for adaptive proper name entity recognition and understanding
JP6150268B2 (ja) 単語登録装置及びそのためのコンピュータプログラム
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JP3976959B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム記録媒体
JP4550708B2 (ja) 音声翻訳装置及び音声翻訳方法
JP2002014693A (ja) 音声認識システム用辞書提供方法、および音声認識インタフェース
JP4660504B2 (ja) テキスト処理装置及びプログラム
WO2014194299A1 (en) Systems and methods for adaptive proper name entity recognition and understanding
JP5611270B2 (ja) 単語分割装置、及び単語分割方法
JP2004271895A (ja) 複数言語音声認識システムおよび発音学習システム
KR101250897B1 (ko) 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법
JP2009031328A (ja) 音声認識装置
JPS634206B2 (ja)
JP5474723B2 (ja) 音声認識装置およびその制御プログラム
JP2007086404A (ja) 音声合成装置
JP2010197709A (ja) 音声認識応答方法、音声認識応答システム、及びそのプログラム
JP2001188556A (ja) 音声認識方法及び装置
JP4445371B2 (ja) 認識語彙の登録装置と音声認識装置および方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100608

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100708

R151 Written notification of patent or utility model registration

Ref document number: 4550708

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130716

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees