JP2001117921A - 翻訳装置および翻訳方法、並びに記録媒体 - Google Patents

翻訳装置および翻訳方法、並びに記録媒体

Info

Publication number
JP2001117921A
JP2001117921A JP29387499A JP29387499A JP2001117921A JP 2001117921 A JP2001117921 A JP 2001117921A JP 29387499 A JP29387499 A JP 29387499A JP 29387499 A JP29387499 A JP 29387499A JP 2001117921 A JP2001117921 A JP 2001117921A
Authority
JP
Japan
Prior art keywords
translation
unit
sentence
language
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP29387499A
Other languages
English (en)
Inventor
Junichi Yamashita
潤一 山下
Hironaga Tsutsumi
洪長 包
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP29387499A priority Critical patent/JP2001117921A/ja
Publication of JP2001117921A publication Critical patent/JP2001117921A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 翻訳精度を向上させる。 【解決手段】 ドメイン推定部40では、音声認識部1
の音声認識結果から、音声翻訳システムが使用されてい
るドメインが推定され、そのドメインを表すドメイン情
報が、音声認識結果とともに、機械翻訳部2に供給され
る。機械翻訳部2では、複数のドメインについて、各ド
メインごとに、翻訳用のデータを記憶しており、ドメイ
ン推定部40からの音声認識結果を、同じくドメイン推
定部40からのドメイン情報が表すドメインに対応する
翻訳用のデータを参照して翻訳する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、翻訳装置および翻
訳方法、並びに記録媒体に関し、特に、翻訳を、短時間
で、かつ精度良く行うことができるようにする翻訳装置
および翻訳方法、並びに記録媒体に関する。
【0002】
【従来の技術】例えば、日本語と英語等の、異なる言語
による発話を行うユーザどうしがコミュニケーションを
図るためのツールとして、音声認識装置、翻訳装置、お
よび音声合成装置から構成される音声翻訳システムがあ
る。音声翻訳システムでは、音声認識装置において、例
えば、日本語の発話が音声認識され、翻訳装置におい
て、その音声認識結果が英語に翻訳される。そして、音
声合成装置において、その翻訳結果が、合成音で出力さ
れる。また、音声認識装置において、英語の発話が音声
認識され、翻訳装置において、その音声認識結果が日本
語に翻訳される。そして、音声合成装置において、その
翻訳結果が、合成音で出力される。従って、英語の話者
(ユーザ)は、日本語の話者の発話を、英語で聞くこと
ができ、また、日本語の話者は、英語の話者の発話を、
日本語で聞くことができ、相互に、相手の発話を理解し
て対話を行うことができる。
【0003】
【発明が解決しようとする課題】ところで、翻訳装置に
おいては、単語辞書や文法規則等のデータを参照して、
翻訳が行われるが、翻訳装置の中には、そのシステムが
使用される、例えば、レストランや、空港、ホテルとい
った、あるドメイン(シチュエーション)(場面)用の
データだけを有するものがある。
【0004】このような翻訳装置によれば、あるドメイ
ンについてだけの単語辞書や文法規則等のデータを参照
して、翻訳が行われるため、比較的短時間で、かつ、そ
のドメインにおいては、精度の高い翻訳結果を得ること
ができる。
【0005】しかしながら、あるドメインについてだけ
の単語辞書や文法規則等のデータを参照して翻訳を行う
翻訳装置では、他のドメインにおける翻訳精度が悪化す
る。
【0006】そこで、各種のドメインすべてについての
単語辞書や文法規則等のデータを参照して翻訳を行う方
法があるが、この方法では、翻訳時に参照するデータが
多くなり、翻訳結果を得るのに長時間を要することとな
る。
【0007】本発明は、このような状況に鑑みてなされ
たものであり、翻訳を、短時間で、かつ精度良く行うこ
とができるようにするものである。
【0008】
【課題を解決するための手段】本発明の翻訳装置は、入
力文を翻訳する翻訳手段と、入力文から、所定の情報を
抽出する抽出手段と、入力文から抽出された情報に基づ
いて、翻訳手段による前記入力文の翻訳を制御する制御
手段とを備えることを特徴とする。
【0009】翻訳手段には、翻訳時に参照する参照デー
タを記憶している記憶手段を設け、制御手段には、入力
文から抽出された情報に基づいて、その入力文の翻訳時
に参照すべき参照データを指定させることができる。
【0010】抽出手段には、入力文から、その入力文の
文型、言語、またはキーワードを抽出させることができ
る。
【0011】翻訳手段には、翻訳時に参照する参照デー
タを、文型ごとに記憶している記憶手段を設け、制御手
段には、入力文の文型に対応する参照データを参照する
ように、翻訳手段を制御させることができる。
【0012】また、翻訳手段には、翻訳時に参照する参
照データを、ドメインごとに記憶している記憶手段を設
け、制御手段には、入力文から抽出されたキーワードに
基づいて、入力文が入力されたドメインを推定させ、そ
のドメインに対応する参照データを参照するように、翻
訳手段を制御させることができる。
【0013】さらに、翻訳手段には、翻訳時に参照する
参照データを、翻訳対象の言語ごとに記憶している記憶
手段を設け、制御手段には、入力文の言語に対応する参
照データを参照するように、翻訳手段を制御させること
ができる。
【0014】本発明の翻訳装置には、音声を認識し、そ
の音声認識結果を、入力文として出力する音声認識手段
をさらに設けることができる。
【0015】本発明の翻訳方法は、入力文を翻訳する翻
訳ステップと、入力文から、所定の情報を抽出する抽出
ステップと、入力文から抽出された情報に基づいて、翻
訳ステップによる入力文の翻訳を制御する制御ステップ
とを備えることを特徴とする。
【0016】本発明の記録媒体は、入力文を翻訳する翻
訳ステップと、入力文から、所定の情報を抽出する抽出
ステップと、入力文から抽出された情報に基づいて、翻
訳ステップによる入力文の翻訳を制御する制御ステップ
とを備えるプログラムが記録されていることを特徴とす
る。
【0017】本発明の翻訳装置および翻訳方法、並びに
記録媒体においては、入力文から、所定の情報が抽出さ
れ、その情報に基づいて、入力文の翻訳が制御される。
【0018】
【発明の実施の形態】図1は、本発明が適用される音声
翻訳システム(システムとは、複数の装置が論理的に集
合した物をいい、各構成の装置が同一筐体中にあるか否
かは問わない)の構成例を示している。
【0019】この音声翻訳システムでは、例えば、日本
語による音声が入力されると、その音声が英語に翻訳さ
れて出力され、また、英語による音声が入力されると、
その音声が日本語に翻訳されて出力されるようになって
おり、これにより、日本語のユーザ(話者)と、英語の
ユーザとが、対話を行うことができるようになってい
る。
【0020】即ち、音声認識部1には、ユーザが発話し
た音声が入力されるようになっており、音声認識部1
は、入力された音声を音声認識し、その音声認識結果と
してのテキスト、その他付随する情報を、機械翻訳部2
や、表示部4などに、必要に応じて出力する。
【0021】機械翻訳部2は、音声認識部1が出力する
音声認識結果を解析し、入力された音声を、その音声の
言語以外の言語に機械翻訳し(本実施の形態では、日本
語は英語に、英語は日本語に、それぞれ翻訳される)、
その翻訳結果としてのテキスト、その他付随する情報
を、音声合成部3や、表示部4などに、必要に応じて出
力する。音声合成部3は、音声認識部1や機械翻訳部2
などの出力に基づいて音声合成処理を行い、これによ
り、例えば、入力された音声の、他の言語への翻訳結果
としての合成音等を出力する。
【0022】表示部4は、例えば、液晶ディスプレイ等
で構成され、音声認識部1による音声認識結果や、機械
翻訳部2による機械翻訳結果等を、必要に応じて表示す
る。
【0023】以上のように構成される音声翻訳システム
においては、例えば、日本語の音声が入力されると、そ
の音声が、音声認識部1で音声認識され、機械翻訳部2
に供給される。機械翻訳部2では、音声認識部1による
音声認識結果が、英語に機械翻訳され、音声合成部3に
供給される。音声合成部3では、機械翻訳部2による翻
訳結果に対応する合成音が生成されて出力される。ま
た、英語の音声が入力されると、その音声が、音声認識
部1で音声認識され、機械翻訳部2に供給される。機械
翻訳部2では、音声認識部1による音声認識結果が、日
本語に機械翻訳され、音声合成部3に供給される。音声
合成部3では、機械翻訳部2による翻訳結果に対応する
合成音が生成されて出力される。
【0024】従って、図1の音声翻訳システムによれ
ば、英語のユーザは、日本語のユーザによる日本語の発
話を理解し、また、日本語のユーザは、英語のユーザに
よる英語の発話を理解することができ、日本語のユーザ
と、英語のユーザとの間で対話を行うことができる。
【0025】次に、図2は、図1の音声認識部1の構成
例を示している。
【0026】ユーザの発話は、マイク11に入力され、
マイク11では、その発話が、電気信号としての音声信
号に変換される。この音声信号は、AD(Analog Digita
l)変換部12に供給される。AD変換部12では、マイ
ク11からのアナログ信号である音声信号がサンプリン
グ、量子化され、ディジタル信号である音声データに変
換される。この音声データは、特徴抽出部13に供給さ
れる。
【0027】特徴抽出部13は、AD変換部12からの
音声データについて、適当なフレームごとに、例えば、
スペクトルや、パワー、線形予測係数、ケプストラム係
数、線スペクトル対等の特徴パラメータを抽出し、特徴
量バッファ14およびマッチング部15に供給する。特
徴量バッファ14では、特徴抽出部13からの特徴パラ
メータが一時記憶される。
【0028】マッチング部15は、特徴量抽出部13か
らの特徴パラメータ、または特徴量バッファ14に記憶
された特徴パラメータに基づき、音響モデルデータベー
ス16、辞書データベース17、および文法データベー
ス18を必要に応じて参照しながら、マイク11に入力
された音声(入力音声)を認識する。
【0029】即ち、音響モデルデータベース16は、音
声認識する音声の言語における個々の音素や音節などの
音響的な特徴を表す音響モデルを記憶している。ここ
で、音響モデルとしては、例えば、HMM(Hidden Mark
ov Model)などを用いることができる。辞書データベー
ス17は、認識対象の各単語(語句)について、その発
音に関する情報が記述された単語辞書や、音素や音節の
連鎖関係を記述した言語モデルを記憶している。文法デ
ータベース18は、辞書データベース17の単語辞書に
登録されている各単語が、どのように連鎖する(つなが
る)かを記述した文法規則を記憶している。ここで、文
法規則としては、例えば、文脈自由文法(CFG)や、
統計的な単語連鎖確率(N−gram)などに基づく規
則を用いることができる。
【0030】マッチング部15は、辞書データベース1
7の単語辞書や言語モデルを参照することにより、音響
モデルデータベース16に記憶されている音響モデルを
接続することで、単語の音響モデル(単語モデル)を構
成する。さらに、マッチング部15は、幾つかの単語モ
デルを、文法データベース18に記憶された文法規則を
参照することにより接続し、そのようにして接続された
単語モデルを用いて、特徴パラメータに基づき、例え
ば、HMM法等によって、マイク11に入力された音声
を認識する。
【0031】そして、マッチング部15による音声認識
結果は、例えば、テキスト等で出力される。
【0032】なお、マッチング部15は、入力された音
声を対象として、再度、処理を行うことが必要な場合
は、特徴量バッファ14に記憶された特徴パラメータを
用いて処理を行うようになっており、これにより、ユー
ザに再度の発話を要求せずに済むようになっている。
【0033】さらに、本実施の形態では、上述したよう
に、日英および英日の翻訳の両方が可能であるため、音
響モデルデータベース16、辞書データベース17、お
よび文法データベース18には、少なくとも、日本語の
音声認識に用いるデータと、英語の音声認識に用いるデ
ータとが記憶されている。
【0034】次に、図3は、図1の機械翻訳部2の構成
例を示している。
【0035】テキスト解析部21には、音声認識部1が
出力する音声認識結果としてのテキスト等が、機械翻訳
の対象として入力されるようになっており、テキスト解
析部21は、辞書データベース24や解析用文法データ
ベース25を参照しながら、そのテキストを解析する。
【0036】即ち、辞書データベース24には、各単語
の表記や、解析用文法を適用するために必要な品詞情報
などが記述された単語辞書が記憶されている。また、解
析用文法データベース25には、単語辞書に記述された
各単語の情報に基づいて、単語連鎖に関する制約等が記
述された解析用文法規則が記憶されている。そして、テ
キスト解析部21は、その単語辞書や解析用文法規則に
基づいて、そこに入力されるテキスト(入力テキスト)
の形態素解析や、構文解析等を行い、その入力テキスト
を構成する単語や構文の情報等の言語情報を抽出する。
ここで、テキスト解析部21における解析方法として
は、例えば、正規文法や、文脈自由文法、統計的な単語
連鎖確率を用いたものなどがある。
【0037】テキスト解析部21で得られた入力テキス
トの解析結果としての言語情報は、言語変換部22に供
給される。言語変換部22は、言語変換データベース2
6を参照し、入力テキストの言語の言語情報を、翻訳結
果の言語の言語情報に変換する。
【0038】即ち、言語変換データベース26には、入
力言語(言語変換部22への入力の言語)の言語情報か
ら、出力言語(言語変換部22からの出力の言語)の言
語情報への変換パターン(テンプレート)や、入力言語
と出力言語との対訳用例およびその対訳用例と入力言語
との間の類似度の計算に用いられるシソーラス等の、言
語情報を変換するための言語変換データが記憶されてい
る。そして、言語変換部22では、このような言語変換
データに基づいて、入力テキストの言語の言語情報が、
出力言語の言語情報に変換される。即ち、言語変換部2
2は、例えば、対訳用例と入力言語の言語情報との類似
度を、シソーラスを用いて求め、その類似度の最も大き
い対訳用例を検出する。そして、言語変換部22は、そ
の対訳用例を用いて、入力言語の言語情報を、出力言語
の言語情報に変換する。
【0039】言語変換部22で得られた出力言語の言語
情報は、テキスト生成部23に供給され、テキスト生成
部23は、辞書データベース27および生成用文法デー
タベース28を参照することにより、出力言語の言語情
報から、入力テキストを出力言語に翻訳したテキストを
生成する。
【0040】即ち、辞書データベース27には、出力言
語の文を生成するのに必要な単語の品詞や活用形等の情
報が記述された単語辞書が記憶されており、また、生成
用文法データベース28には、出力言語の文を生成する
のに必要な単語の活用規則や語順の制約等の生成用文法
規則が記憶されている。そして、テキスト生成部23
は、これらの単語辞書および生成用文法規則に基づい
て、言語変換部22からの言語情報を、テキストに変換
して出力する。
【0041】なお、上述の場合には、言語変換部22に
おいて、対訳用例と入力言語の言語情報との類似度に基
づいて、翻訳に用いる対訳用例を決定するようにした
が、その他、翻訳に用いる対訳用例の決定は、例えば、
すべての対訳用例を用いて翻訳を行い、その翻訳結果に
ついて、言語モデルを用いてスコアリングを行い、その
スコアに基づいて行うようにすることも可能である。
【0042】また、本実施の形態では、上述したよう
に、日英および英日の翻訳の両方が可能であるため、辞
書データベース24、解析用文法データベース25、言
語変換データベース26、辞書データベース27、およ
び生成用文法データベース28には、日英の翻訳のため
のデータと、英日の翻訳のためのデータとが記憶されて
いる。
【0043】次に、図4は、図1の音声合成部3の構成
例を示している。
【0044】テキスト解析部31には、機械翻訳部2が
出力する翻訳結果としてのテキストが出力するテキスト
が、音声合成処理の対象として入力されるようになって
おり、テキスト解析部31は、辞書データベース34や
解析用文法データベース35を参照しながら、そのテキ
ストを解析する。
【0045】即ち、辞書データベース34には、各単語
の品詞情報や、読み、アクセント等の情報が記述された
単語辞書が記憶されており、また、解析用文法データベ
ース35には、辞書データベース34の単語辞書に記述
された単語について、単語連鎖に関する制約等の解析用
文法規則が記憶されている。そして、テキスト解析部3
1は、この単語辞書および解析用文法規則に基づいて、
そこに入力されるテキストの形態素解析や構文解析等の
解析を行い、後段の規則合成部32で行われる規則音声
合成に必要な情報を抽出する。ここで、規則音声合成に
必要な情報としては、例えば、ポーズの位置や、アクセ
ントおよびイントネーションを制御するための情報その
他の韻律情報や、各単語の発音等の音韻情報などがあ
る。
【0046】テキスト解析部31で得られた情報は、規
則合成部32に供給され、規則合成部32では、音素片
データベース36を用いて、テキスト解析部31に入力
されたテキストに対応する合成音の音声データ(ディジ
タルデータ)が生成される。
【0047】即ち、音素片データベース36には、例え
ば、CV(Consonant, Vowel)や、VCV、CVC等の形
で音素片データが記憶されており、規則合成部32は、
テキスト解析部31からの情報に基づいて、必要な音素
片データを接続し、さらに、ポーズ、アクセント、イン
トネーション等を適切に付加することで、テキスト解析
部31に入力されたテキストに対応する合成音の音声デ
ータ(音声波形)を生成する。
【0048】この音声データは、DA変換部33に供給
され、そこで、アナログ信号としての音声信号に変換さ
れる。この音声信号は、図示せぬスピーカに供給され、
これにより、テキスト解析部31に入力されたテキスト
に対応する合成音が出力される。
【0049】次に、図5は、本発明を適用した音声翻訳
システムの第1実施の形態の構成例を示している。な
お、図中、図1における場合と対応する部分について
は、同一の符号を付してあり、以下では、その説明は、
適宜省略する。即ち、図5の音声翻訳システムは、音声
認識部1と機械翻訳部2との間に、ドメイン推定部40
が新たに設けられている他は、図5における場合と基本
的に同様に構成されている。
【0050】但し、図5の実施の形態では、機械翻訳部
2(図3)における辞書データベース24、解析用文法
データベース25、言語変換データベース26、辞書デ
ータベース27、および生成用文法データベース28に
おける、翻訳時に参照される情報(以下、適宜、参照デ
ータという)が、音声翻訳システムが使用される各ドメ
インに適したものに分けて記憶されている。
【0051】ドメイン推定部40は、音声認識部1が出
力する音声認識結果を受信し、その音声認識結果から、
所定のキーワードを抽出する。そして、ドメイン推定部
40は、その抽出したキーワードから、音声翻訳システ
ムが使用されているドメインを推定し、そのドメインに
対応する参照データを参照して、音声認識部1による音
声認識結果の翻訳を行うように、機械翻訳部2を制御す
る。
【0052】即ち、図6は、図5のドメイン推定部40
の構成例を示している。
【0053】テキスト解析部41には、音声認識部1が
出力する音声認識結果としてのテキストが入力されるよ
うになっており、テキスト解析部41は、辞書データベ
ース44や解析用文法データベース45を参照しなが
ら、そのテキストを解析する。
【0054】即ち、辞書データベース44には、各単語
の表記や、解析用文法を適用するために必要な品詞情報
などが記述された単語辞書が記憶されている。また、解
析用文法データベース45には、辞書データベース44
の単語辞書に記述された各単語の情報に基づいて、単語
連鎖に関する制約等が記述された解析用文法規則が記憶
されている。そして、テキスト解析部41は、その単語
辞書や解析用文法規則に基づいて、そこに入力される音
声認識結果のテキスト(入力テキスト)の形態素解析
や、構文解析等を行い、その入力テキストを構成する単
語や構文の情報等の言語情報を抽出する。ここで、テキ
スト解析部41における解析方法としては、例えば、正
規文法や、文脈自由文法、統計的な単語連鎖確率を用い
たものなどがある。
【0055】テキスト解析部41で得られた入力テキス
トの解析結果としての言語情報は、キーワード抽出部4
2に供給される。キーワード抽出部42は、辞書データ
ベース46を参照し、入力テキストの言語の言語情報に
基づいて、その入力テキストに含まれるキーワードを抽
出する。
【0056】即ち、辞書データベース46は、キーワー
ドとしての単語が登録されているキーワード辞書を記憶
している。即ち、キーワード辞書には、機械翻訳部2の
辞書データベース24や27に記憶されている単語辞書
のすべてまたは一部の単語が、キーワードとして登録さ
れている。
【0057】そして、キーワード抽出部42では、入力
テキストから、キーワード辞書に登録されているキーワ
ードと同一の単語がワードスポッティングによって抽出
され、キーワードマッチング部43に供給される。
【0058】なお、キーワード抽出部42には、その
他、例えば、入力テキストから、主語になる得る名詞
や、述語になり得る動詞を、キーワードととして抽出さ
せることも可能である。
【0059】キーワードマッチング部43は、辞書デー
タベース47を参照して、キーワード抽出部42からの
キーワードに基づいて、システムが使用されているドメ
インを推定する。
【0060】即ち、辞書データベース47は、各単語と
その品詞情報とが、単語が使用されるドメインごとに登
録されているドメイン辞書、並びにシソーラスを記憶し
ており、キーワードマッチング部43は、キーワード抽
出部43からのキーワードと、各ドメインのドメイン辞
書に登録されている単語との類似度を、シソーラスを用
いて計算し、その類似度を最も高くするドメイン辞書の
ドメインを、システムが使用されているドメインとして
推定する。そして、キーワードマッチング部43は、そ
の推定されたドメイン(以下、適宜、推定ドメインとい
う)を表すドメイン情報を、音声認識部1からの音声認
識結果とともに、機械翻訳部2に出力し、これにより、
ドメイン情報に対応するドメインに対応する参照データ
を参照して、音声認識結果を翻訳するように、機械翻訳
部2を制御する。
【0061】次に、図7のフローチャートを参照して、
図5の音声翻訳システムの動作について説明する。
【0062】ユーザが発話を行うと、音声認識部1は、
ステップS1において、その発話を取り込み、ステップ
S2に進み、その取り込んだ発話を音声認識して、ステ
ップS3に進む。ステップS3では、音声認識部1は、
ユーザの発話の音声認識結果を、ドメイン推定部40に
出力し、ステップS4に進む。
【0063】ステップS4では、ドメイン推定部40の
テキスト解析部41(図6)において、音声認識部1か
らの音声認識結果が解析され、その解析結果が、キーワ
ード抽出部42に供給される。キーワード抽出部42で
は、ステップS5において、テキスト解析部41からの
解析結果に基づいて、音声認識部1による音声認識結果
に、キーワードが含まれるかどうかが判定される。
【0064】ステップS5において、音声認識部1によ
る音声認識結果に、キーワードが含まれると判定された
場合、そのキーワードとしての単語が、音声認識結果か
ら抽出され、キーワードマッチング部43に出力され、
ステップS6に進む。ステップS6では、キーワードマ
ッチング部43において、キーワード抽出部42からの
キーワードと、辞書データベース47に登録されている
単語との類似度を、上述したようにして計算するキーワ
ードマッチングが行われる。
【0065】そして、ステップS7に進み、キーワード
マッチング部43は、キーワードマッチングの結果得ら
れた類似度に基づいて、ドメインを推定し、そのドメイ
ンを表すドメイン情報を、機械翻訳部2に供給して、ス
テップS9に進む。
【0066】即ち、例えば、いま、キーワードとして、
「ご飯」および「食べる」が抽出された場合に、辞書デ
ータベース47のドメイン辞書の中の、ドメイン「レス
トラン」のドメイン辞書についての類似度が最も高くな
ったときには、ドメインが「レストラン」であることが
推定され、その「レストラン」を表すドメイン情報が、
機械翻訳部2に供給される。
【0067】なお、ここでは、キーワードマッチング部
43において、最初から類似度を計算し、その類似度に
基づいて、ドメインを推定するようにしたがするように
したが、その他、例えば、キーワード抽出部42で抽出
されたキーワードに一致する単語が登録されているドメ
イン辞書を検出し、そのようなドメイン辞書が1つだけ
の場合は、そのドメイン辞書のドメインを、音声翻訳シ
ステムが使用されているドメインと推定し、そのような
ドメイン辞書が複数ある場合は、類似度に基づいて、ド
メインを推定するようにしても良い。この場合、例え
ば、キーワードとして「ごはん」が抽出されたとする
と、「ごはん」が登録されているドメイン辞書が、「レ
ストラン」のドメイン辞書だけであれば、ドメインが
「レストラン」であると推定される。また、「ごはん」
が登録されているドメイン辞書が複数ある場合には、上
述したように、類似度に基づいて、ドメインが推定され
る。
【0068】一方、ステップS5において、音声認識部
1による音声認識結果に、キーワードが含まれないと判
定された場合、その旨が、キーワード抽出部42からキ
ーワードマッチング部43に供給され、ステップS8に
進む。ステップS8では、キーワードマッチング部43
は、標準のドメインを表すドメイン情報を、機械翻訳部
2に供給して、ステップS9に進む。
【0069】ここで、図5の機械翻訳部2は、特定のド
メインごとの参照データの他、標準のドメインに対応す
る参照データも記憶している。なお、標準のドメインに
対応する参照データを用いた翻訳によれば、複数のドメ
インについて、ある程度の精度による翻訳が可能である
が、その翻訳精度は、特定のドメインに対応する参照デ
ータを用いて、その特定のドメインについての翻訳を行
う場合よりも劣化する。
【0070】ステップS9では、機械翻訳部2におい
て、ドメイン推定部40からのドメイン情報に対応する
ドメインに対応する参照データを参照するように、動作
モードが切り替えられ、ステップS10に進む。
【0071】ステップS10では、ドメイン推定部40
は、音声認識部1の音声認識結果を、機械翻訳部2に出
力し、ステップS11に進む。ステップS11では、機
械翻訳部2において、音声認識部1の音声認識結果が、
ドメイン推定部40からのドメイン情報に対応するドメ
インに対応する参照データを参照することにより翻訳さ
れ、その翻訳結果が、音声合成部3に出力される。
【0072】音声合成部3では、ステップS12におい
て、機械翻訳部2からの翻訳結果に対応する合成音が生
成され、ステップS13に進み、その合成音が出力され
る。そして、ユーザが次の発話を行うのを待って、ステ
ップS1に戻り、以下、同様の処理が繰り返される。
【0073】以上のように、音声認識結果に含まれるキ
ーワードを抽出し、そのキーワードから、ドメインを推
定して、そのドメインに対応する参照データを用いて翻
訳を行うように、機械翻訳部2を制御するようにしたの
で、機械翻訳部2では、音声認識結果のドメインに適し
た参照データだけを参照して翻訳を行うことができ、そ
の結果、短時間で、かつ精度の良い翻訳を行うことが可
能となる。
【0074】なお、ドメイン推定部40は、音声認識部
1または機械翻訳部2と一体的に構成することも可能で
ある。
【0075】次に、図8は、本発明を適用した音声翻訳
システムの第2実施の形態の構成例を示している。な
お、図中、図5における場合と対応する部分について
は、同一の符号を付してあり、以下では、その説明は、
適宜省略する。即ち、図8の音声翻訳システムは、1つ
の機械翻訳部2に替えて、複数の機械翻訳部21乃至2N
が設けられている他は、図5における場合と同様に構成
されている。
【0076】機械翻訳部21乃至2Nそれぞれは、図5の
機械翻訳部2と同様に構成されている。但し、図5の実
施の形態では、機械翻訳部2が、参照データを、各ドメ
インごとに分けて記憶していたが、機械翻訳部21乃至
Nそれぞれは、あるドメインに対応する参照データの
みを記憶している。
【0077】以上のように構成される音声翻訳システム
では、ドメイン推定部40は、ドメインを推定すると、
そのドメインに対応する参照データを記憶している機械
翻訳部2n(nは、1乃至Nのうちのいずれか)に、音
声認識部1による音声認識結果を出力して翻訳させる。
【0078】従って、この場合も、図5の実施の形態に
おける場合と同様に、音声認識結果のドメインに適した
参照データだけを参照して翻訳が行われるので、短時間
で、かつ精度の良い翻訳を行うことが可能となる。
【0079】次に、図9は、本発明を適用した音声翻訳
システムの第3実施の形態の構成例を示している。な
お、図中、図1における場合と対応する部分について
は、同一の符号を付してあり、以下では、その説明は、
適宜省略する。即ち、図9の音声翻訳システムは、音声
認識部1と機械翻訳部2との間に、文型判別部50が新
たに設けられている他は、図1における場合と基本的に
同様に構成されている。
【0080】但し、図9の実施の形態では、機械翻訳部
2(図2)における辞書データベース24、解析用文法
データベース25、言語変換データベース26、辞書デ
ータベース27、および生成用文法データベース28に
おける、翻訳時に参照される情報(参照データ)が、例
えば、単文や複文、あるいは口語文や文語文といった文
型ごとに適したものに分けて記憶されている。
【0081】文型判別部50は、音声認識部1が出力す
る音声認識結果を受信し、その音声認識結果から、その
文型に関する情報を抽出して、その文型を判別する。そ
して、文型判別部50は、その音声認識結果の文型に対
応する参照データを参照して、音声認識部1による音声
認識結果の翻訳を行うように、機械翻訳部2を制御す
る。
【0082】即ち、図10は、図9の文型判別部50の
構成例を示している。
【0083】テキスト解析部51には、音声認識部1が
出力する音声認識結果としてのテキストが入力されるよ
うになっており、テキスト解析部51は、辞書データベ
ース53や解析用文法データベース54を参照しなが
ら、そのテキストを解析する。
【0084】即ち、辞書データベース53には、各単語
の表記や、解析用文法を適用するために必要な品詞情報
などが記述された単語辞書が記憶されている。また、解
析用文法データベース54には、辞書データベース53
の単語辞書に記述された各単語の情報に基づいて、単語
連鎖に関する制約等が記述された解析用文法規則が記憶
されている。そして、テキスト解析部51は、その単語
辞書や解析用文法規則に基づいて、そこに入力される音
声認識結果のテキスト(入力テキスト)の形態素解析を
行い、その入力テキストを構成する単語や構文の情報等
の言語情報を抽出する。ここで、テキスト解析部51に
おける解析方法としては、例えば、正規文法や、文脈自
由文法、統計的な単語連鎖確率を用いたものなどがあ
る。
【0085】テキスト解析部51で得られた入力テキス
トの形態素解析結果としての言語情報は、構文解析部5
2に供給される。構文解析部52は、辞書データベース
55および解析用文法データベース56を参照しなが
ら、入力テキストの言語の言語情報を構文解析し、さら
に、その入力テキストに含まれるキーワードを抽出する
ことで、入力テキストの文型を認識する。
【0086】即ち、辞書データベース55は辞書データ
ベース53と、解析用文法データベース56は解析用文
法データベース54と、それぞれ同様のデータを記憶し
ており、構文解析部52は、辞書データベース55の単
語辞書や、解析用文法データベース56の解析用文法規
則に基づいて、テキスト解析部51からの言語情報の構
文解析を行うことで、その構文構造を抽出する。さら
に、構文解析部52は、抽出した構文構造に基づいて、
入力テキストとしての音声認識結果の文型が、単文であ
るか、または複文であるかの判定(以下、適宜、単文/
複文判定という)を行う。
【0087】さらに、辞書データベース55における単
語辞書には、口語と文語とによる文末表現を表す単語
(例えば、「ですか」や、「なの」等)が、口語/文語
判別キーワードとして登録されており、構文解析部52
は、入力テキストとしての音声認識結果の文末部分を対
象に、口語/文語判別キーワードを抽出するためのワー
ドスポッティングを行う。そして、構文解析部52は、
そのワードスポッティング結果から、音声認識結果の文
型が、口語文であるか、または文語文であるかの判定
(以下、適宜、口語/文語判定という)を行う。
【0088】そして、構文解析部52は、単文/複文判
定および口語/文語判定の結果を、音声認識結果の文型
を表す文型情報として、音声認識結果とともに、機械翻
訳部2に出力し、これにより、文型情報が表す文型に対
応する参照データを参照して、音声認識結果を翻訳する
ように、機械翻訳部2を制御する。
【0089】次に、図11のフローチャートを参照し
て、図9の音声翻訳システムの動作について説明する。
【0090】ユーザが発話を行うと、音声認識部1は、
ステップS21において、その発話を取り込み、ステッ
プS22に進み、その取り込んだ発話を音声認識して、
ステップS23に進む。ステップS23では、音声認識
部1は、ユーザの発話の音声認識結果を、文型判別部5
0に出力し、ステップS24に進む。
【0091】ステップS24では、文型判別部50のテ
キスト解析部51(図10)において、音声認識部1か
らの音声認識結果が形態素解析され、その形態素解析結
果が、構文解析部52に供給される。構文解析部52で
は、テキスト解析部51からの形態素解析結果に基づい
て、音声認識部1による音声認識結果が構文解析され、
その構文構造が認識される。
【0092】そして、構文解析部52は、ステップS2
5に進み、ステップS24で得られた構文構造から、音
声認識結果が、単文であるか否かを判定する。ステップ
S25において、音声認識結果が単文であると判定され
た場合、ステップS26に進み、構文解析部52は、音
声認識結果について、口語/文語判別キーワードのワー
ドスポッティングを行い、そのワードスポッティング結
果に基づいて、音声認識結果が、文語文または口語文の
うちのいずれであるかを判定する。
【0093】ステップS26において、音声認識結果
が、文語文であると判定された場合、ステップS27に
進み、構文解析部52は、音声認識結果が、単文であ
り、かつ文語文である旨の文型情報を、機械翻訳部2に
出力し、ステップS36に進む。
【0094】また、ステップS26において、音声認識
結果が、口語文であると判定された場合、ステップS2
8に進み、構文解析部52は、音声認識結果が、単文で
あり、かつ口語文である旨の文型情報を、機械翻訳部2
に出力し、ステップS36に進む。
【0095】一方、ステップS25において、音声認識
結果が単文でないと判定された場合、ステップS29に
進み、構文解析部52は、ステップS24で得られた構
文構造から、音声認識結果が複文であるか否かを判定す
る。ステップS29において、音声認識結果が複文であ
ると判定された場合、ステップS30に進み、ステップ
S26における場合と同様にして、音声認識結果が、文
語文または口語文のうちのいずれであるかが判定され
る。
【0096】ステップS30において、音声認識結果
が、文語文であると判定された場合、ステップS31に
進み、構文解析部52は、音声認識結果が、複文であ
り、かつ文語文である旨の文型情報を、機械翻訳部2に
出力し、ステップS36に進む。
【0097】また、ステップS30において、音声認識
結果が、口語文であると判定された場合、ステップS3
2に進み、構文解析部52は、音声認識結果が、複文で
あり、かつ口語文である旨の文型情報を、機械翻訳部2
に出力し、ステップS36に進む。
【0098】一方、ステップS29において、音声認識
結果が複文でないと判定された場合、即ち、音声認識結
果が、単文および複文のいずれでもない場合、ステップ
S33に進み、ステップS26における場合と同様にし
て、音声認識結果が、文語文または口語文のうちのいず
れであるかが判定される。
【0099】ステップS33において、音声認識結果
が、文語文であると判定された場合、ステップS34に
進み、構文解析部52は、音声認識結果が、単文および
複文のいずれでもないが、文語文である旨の文型情報
を、機械翻訳部2に出力し、ステップS36に進む。
【0100】また、ステップS33において、音声認識
結果が、口語文であると判定された場合、ステップS3
5に進み、構文解析部52は、音声認識結果が、単文お
よび複文のいずれでもないが、口語文である旨の文型情
報を、機械翻訳部2に出力し、ステップS36に進む。
【0101】ステップS36では、機械翻訳部2におい
て、文型判別部50からの文型情報が表す文型に対応す
る参照データを参照するように、動作モードが切り替え
られ、ステップS37に進む。
【0102】ステップS37では、文型判別部50は、
音声認識部1の音声認識結果を、機械翻訳部2に出力
し、ステップS38に進む。ステップS38では、機械
翻訳部2において、音声認識部1の音声認識結果が、文
型判別部50からの文型情報が表す文型に対応する参照
データを参照することにより翻訳され、その翻訳結果
が、音声合成部3に出力される。
【0103】音声合成部3では、ステップS39におい
て、機械翻訳部2からの翻訳結果に対応する合成音が生
成され、ステップS40に進み、その合成音が出力され
る。そして、ユーザが次の発話を行うのを待って、ステ
ップS21に戻り、以下、同様の処理が繰り返される。
【0104】以上のように、音声認識結果の文型を抽出
し、その文型に対応する参照データを用いて翻訳を行う
ように、機械翻訳部2を制御するようにしたので、機械
翻訳部2では、音声認識結果の文型に適した参照データ
だけを参照して翻訳を行うことができ、その結果、短時
間で、かつ精度の良い翻訳を行うことが可能となる。
【0105】なお、文型判別部50は、音声認識部1ま
たは機械翻訳部2と一体的に構成することも可能であ
る。
【0106】また、上述の場合には、単文と複文の区別
を行うようにしたが、それらに加えて、例えば、重文の
区別も行うようにすることが可能である。
【0107】次に、図12は、本発明を適用した音声翻
訳システムの第4実施の形態の構成例を示している。な
お、図中、図9における場合と対応する部分について
は、同一の符号を付してあり、以下では、その説明は、
適宜省略する。即ち、図12の音声翻訳システムは、1
つの機械翻訳部2に替えて、複数の機械翻訳部21乃至
Nが設けられている他は、図9における場合と同様に
構成されている。
【0108】機械翻訳部21乃至2Nそれぞれは、図9の
機械翻訳部2と同様に構成されている。但し、図9の実
施の形態では、機械翻訳部2が、参照データを、各文型
ごとに分けて記憶していたが、機械翻訳部21乃至2N
れぞれは、ある文型に対応する参照データのみを記憶し
ている。
【0109】以上のように構成される音声翻訳システム
では、文型判別部50は、音声認識結果の文型を得る
と、その文型に対応する参照データを記憶している機械
翻訳部2n(nは、1乃至Nのうちのいずれか)に、音
声認識部1による音声認識結果を出力して翻訳させる。
【0110】従って、この場合も、図9の実施の形態に
おける場合と同様に、音声認識結果の文型に適した参照
データだけを参照して翻訳が行われるので、短時間で、
かつ精度の良い翻訳を行うことが可能となる。
【0111】次に、上述したように、図1の音声翻訳シ
ステムにおいては、日英と英日との翻訳を行うことがで
きるようになっているが、この場合、音声認識部1に
は、日本語の音声が入力される場合と、英語の音声が入
力される場合がある。また、音声翻訳システムを、日本
語および英語以外の言語の翻訳を行うように拡張した場
合には、さらに他の言語の音声が入力される場合もあ
る。このように、複数種類の言語の音声が入力される可
能性がある場合においては、ユーザは、自身が発話する
音声の言語を、例えば、所定の操作を行うこと等によ
り、音声翻訳システムに認識させる必要があるが、音声
翻訳システムを使用するごとに、そのような操作を行う
のは面倒である。
【0112】そこで、図13は、図1の音声認識部1の
他の構成例を示している。なお、図中、図2における場
合と対応する部分については、同一の符号を付してあ
り、以下では、その説明は、適宜省略する。即ち、図1
3の音声認識部1は、1つのマイク11に替えて、2つ
のマイク11Aおよび11Bが設けられている他は、図
2における場合と基本的に同様に構成されている。
【0113】ユーザの発話は、マイク11Aおよび11
Bで取り込まれ、以下、基本的には、図2における場合
と同様に処理される。
【0114】即ち、ユーザの発話は、マイク11Aおよ
びBに入力され、AD変換部12を介することにより、
ディジタル信号である音声データに変換される。この音
声データは、特徴抽出部13に供給される。
【0115】特徴抽出部13は、AD変換部12からの
音声データを音響分析することで、特徴パラメータを抽
出し、特徴量バッファ14およびマッチング部15に供
給する。特徴量バッファ14では、特徴抽出部13から
の特徴パラメータが一時記憶される。
【0116】マッチング部15は、特徴量抽出部13か
らの特徴パラメータ、または特徴量バッファ14に記憶
された特徴パラメータに基づき、音響モデルデータベー
ス16、辞書データベース17、および文法データベー
ス18を参照しながら、マイク11Aおよび11Bに入
力された音声(入力音声)を認識する。
【0117】即ち、図13の実施の形態では、マッチン
グ部15は、音響モデルデータベース16、辞書データ
ベース17、および文法データベース18に記憶されて
いる日本語の音声を認識するための、上述したような音
響モデルその他のデータ(以下、適宜、日本語用データ
という)と、英語の音声を認識するための、上述したよ
うな音響モデルその他のデータ(以下、英語用データと
いう)との両方を参照して、マイク11Aおよび11B
に入力された音声を認識する。
【0118】さらに、マッチング部15は、その音声認
識結果から、その音声認識結果の言語、即ち、マイク1
1Aおよび11Bに入力された音声の言語を抽出する。
【0119】即ち、マッチング部15は、得られた音声
認識結果を構成する各単語の言語情報を調査し、最も数
の多い言語の単語(ここでは、日本語の単語か、英語の
単語)を検出する。そして、マッチング部15は、その
単語の言語を、音声認識結果の言語、即ち、入力言語と
して特定し、その言語を表す言語特定情報を、音声認識
結果とともに、機械翻訳部2に出力し、これにより、言
語特定情報が表す言語に対応する参照データを参照し
て、音声認識結果を翻訳するように、機械翻訳部2を制
御する。
【0120】なお、音響モデル、言語モデルを結合して
音声認識を行う方法については、例えば、"Prallel Jap
anese/English Speech Recognition in ATRSPREC Harol
d Singer", ATR, p.p167-168, 1999,03 日本音響学会講
演論文集等に、その詳細が記載されている。
【0121】ここで、図13の音声認識部1では、例え
ば、二人のユーザが対話をしている場合に、マイク11
Aと11Bへの音声の入力方向に基づいて、その二人の
ユーザのうちのいずれが発話を行っているのかを推定す
ることができるようになっているものとする。
【0122】従って、二人のユーザのうち、いま発話を
行っているユーザの音声の言語が特定されれば、他方の
ユーザの発話は、その特定された言語に翻訳すれば良い
こととなる。
【0123】次に、図14のフローチャートを参照し
て、音声認識部1が図13に示したように構成される場
合の、図1の音声翻訳システムの動作について説明す
る。
【0124】ユーザが発話を行うと、音声認識部1は、
ステップS51において、その発話を取り込み、ステッ
プS52に進む。ステップS52では、音声認識部1の
特徴抽出部13において、取り込んだ発話から、特徴パ
ラメータが抽出され、マッチング部15に供給される。
マッチング部15では、ステップS53において、特徴
抽出部13からの特徴パラメータを用いて、日本語用デ
ータと英語用データの両方を参照しながら、発話が音声
認識される。
【0125】さらに、マッチング部15では、ステップ
S54において、音声認識結果から、上述したようにし
て、その音声認識結果の言語が特定(抽出)され、その
言語を表す言語特定情報が、機械翻訳部2に出力され
る。
【0126】機械翻訳部55では、ステップS55にお
いて、音声認識部1(マッチング部15)からの言語特
定情報が表す言語に対応する参照データを参照するよう
に、動作モードが切り替えられ、ステップS56に進
む。
【0127】ステップS56では、音声認識部1は、ス
テップS53で得られた音声認識結果を、機械翻訳部2
に出力し、ステップS57に進む。ステップS57で
は、機械翻訳部2において、音声認識部1からの音声認
識結果が、同じく音声認識部1からの言語特定情報が表
す言語に対応する参照データを参照することにより翻訳
され、その翻訳結果が、音声合成部3に出力される。
【0128】なお、機械翻訳部2において、言語特定情
報が表す言語を翻訳する場合に、その言語(入力言語)
を、どの言語(出力言語)に翻訳するのかが問題となる
が、出力言語は、例えば、ユーザが、音声翻訳システム
を操作することにより、あらかじめ設定されているもの
とする。
【0129】音声合成部3では、ステップS58におい
て、機械翻訳部2からの翻訳結果に対応する合成音が生
成され、ステップS59に進み、その合成音が出力さ
れ、処理を終了する。
【0130】なお、以上のようにして、一方のユーザの
音声の言語が特定され、あらかじめ設定されている言語
(以下、適宜、設定言語という)に翻訳された後は、機
械翻訳部2では、その一方のユーザの音声は、特定され
た言語を設定言語に翻訳するための参照データを参照し
て翻訳される。また、この場合、他方のユーザの音声に
ついては、その言語は、設定言語であり、その設定言語
を、ステップS54で特定された言語に翻訳すれば良い
ので、機械翻訳部2では、そのような翻訳を行うための
参照データを参照して翻訳が行われる。ここで、この場
合、一方のユーザが発話しているのか、または他方のユ
ーザが発話しているのかが問題となるが、いずれのユー
ザが発話しているかは、上述したように、図13の音声
認識部1で推定することができるようになっている。
【0131】以上のように、音声認識結果から、音声の
言語を抽出し、その言語に対応する参照データを用いて
翻訳を行うように、機械翻訳部2を制御するようにした
ので、ユーザは、自身が発話する言語を、音声翻訳シス
テムを操作する等して設定する必要がない。
【0132】なお、上述したような、いわば言語別の処
理は、方言にも適用可能である。即ち、音声認識結果か
ら、ユーザの発話の方言を抽出し、機械翻訳部2におい
て、その方言用の参照データを参照して処理を行うよう
にすることが可能である。
【0133】また、図1の音声翻訳システムは、日本語
用データと英語用データを記憶している音声認識部1の
替わりに、日本語用データのみを記憶している音声認識
部と、英語用データのみを記憶している音声認識部とを
設けて構成することも可能である。
【0134】さらに、ここでは、日英および英日の翻訳
を対象としたが、上述した処理は、その他の言語間の翻
訳にも適用可能である。
【0135】また、上述の場合には、2つのマイク11
Aと11Bを設けて、いずれのユーザが発話を行ってい
るのかを推定するようにしたが、マイクは、複数設ける
のではなく、1つであっても良い。
【0136】次に、図15は、本発明を適用した音声翻
訳システムの第5の実施の形態の構成例を示している。
なお、図中、図1における場合と対応する部分について
は、同一の符号を付してあり、以下では、その説明は、
適宜省略する。即ち、図15の音声翻訳システムは、1
つの機械翻訳部2に替えて、複数の機械翻訳部21乃至
Nが設けられている他は、図1における場合と同様に
構成されている。
【0137】但し、図15の実施の形態においては、音
声認識部1は、図13に示したように構成されている。
【0138】機械翻訳部21乃至2Nそれぞれは、図1の
機械翻訳部2と同様に構成されている。但し、図15の
実施の形態では、機械翻訳部2が、参照データを、各言
語ごとに分けて記憶していたが、機械翻訳部21乃至2N
それぞれは、ある言語に対応する参照データのみを記憶
している。
【0139】以上のように構成される音声翻訳システム
では、音声認識部1は、ユーザの発話の言語を得ると、
その言語に対応する参照データを記憶している機械翻訳
部2 n(nは、1乃至Nのうちのいずれか)に、音声認
識部1による音声認識結果を出力して翻訳させる。
【0140】従って、この場合も、図13に示したよう
に構成される音声認識部1を有する、図1の音声翻訳シ
ステムと同様に、ユーザは、自身が発話する言語を、音
声翻訳システムを操作する等して設定する必要がない。
【0141】次に、図16は、機械翻訳部2の他の構成
例を示している。なお、図中、図3における場合と対応
する部分については、同一の符号を付してあり、以下で
は、その説明は、適宜省略する。即ち、図16の機械翻
訳部2は、1つの言語変換部22に替えて、複数の言語
変換部221乃至22Nが設けられているとともに、1つ
の言語変換データベース26に替えて、複数の言語変換
データベース261乃至26Nが設けられている他は、図
3における場合と基本的に同様に構成されている。
【0142】言語変換データベース261乃至26Nそれ
ぞれは、ある特定のドメイン用の、上述したような言語
変換データ(異なるドメインごとの言語変換データ)を
記憶しており、言語変換部22n(n=1,2,・・
・,N)は、テキスト解析部21が出力する入力言語の
言語情報を、言語変換データベース26nに記憶された
言語変換データを参照することで、出力言語の言語情報
に変換するようになっている。
【0143】次に、図17のフローチャートを参照し
て、機械翻訳部2が図16に示したように構成される場
合の、図1の音声翻訳システムの動作について説明す
る。
【0144】ユーザが発話を行うと、音声認識部1は、
ステップS61において、その発話を取り込み、ステッ
プS62に進み、その取り込んだ発話を音声認識して、
ステップS63に進む。ステップS63では、音声認識
部1は、ユーザの発話の音声認識結果を、機械翻訳部2
に出力し、ステップS64に進む。
【0145】ステップS64では、機械翻訳部(図1
6)のテキスト解析部21において、音声認識部1から
の音声認識結果が形態素解析、構文解析等され、ステッ
プS65に進み、その解析結果としての入力言語の言語
情報が、言語変換部221乃至22Nに供給される。
【0146】言語変換部221乃至22Nそれぞれでは、
言語変換データベース261乃至26Nそれぞれにおける
各ドメイン用の言語変換データに基づいて、入力テキス
トの言語の言語情報が、出力言語の言語情報に変換され
る。即ち、言語変換部22 1乃至22Nそれぞれは、ステ
ップS66において、例えば、各ドメイン用の対訳用例
と入力言語の言語情報との類似度を、シソーラスを用い
て、並列に求め、ステップS67に進む。そして、ステ
ップS67では、最も大きい類似度が得られた言語変換
部22m(mは、1乃至Nのうちのいずれか)におい
て、その最も大きい類似度が得られた対訳用例を用い
て、入力言語の言語情報が、出力言語の言語情報に変換
される。
【0147】言語変換部22mで得られた出力言語の言
語情報は、テキスト生成部23に供給される。テキスト
生成部23は、ステップS68において、辞書データベ
ース27および生成用文法データベース28を参照する
ことにより、出力言語の言語情報から、入力テキストを
出力言語に翻訳したテキストを生成し、ステップS69
に進み、そのテキストとしての翻訳結果を、音声合成部
3に出力する。
【0148】音声合成部3では、ステップS70におい
て、機械翻訳部2(テキスト生成部23)からの翻訳結
果に対応する合成音が生成され、ステップS71に進
み、その合成音が出力される。そして、ユーザが次の発
話を行うのを待って、ステップS61に戻り、以下、同
様の処理が繰り返される。
【0149】以上の処理によれば、ユーザが、音声翻訳
システムが使用されているドメインを気にしなくても、
そのドメインに適した翻訳が行われることになる。
【0150】なお、図17の実施の形態においても、上
述した場合と同様に、翻訳に用いる対訳用例の決定は、
言語変換データベース261乃至26Nに記憶されている
すべての対訳用例を用いて翻訳を行い、その翻訳結果に
ついて、言語モデルを用いてスコアリングを行い、その
スコアに基づいて行うようにすることが可能である。
【0151】また、図1の音声翻訳システムは、図16
の機械翻訳部2の替わりに、言語変換部22nと言語変
換データベース26nとの組を1つずつ有するN個の機
械翻訳部を設けて構成することが可能である。
【0152】さらに、図16の実施の形態では、言語変
換データベース261乃至26Nに、ドメイン別に言語変
換データを記憶させるようにしたが、その他、例えば、
文型別に言語変換データを記憶させることも可能であ
る。
【0153】次に、上述した一連の処理は、ハードウェ
アにより行うこともできるし、ソフトウェアにより行う
こともできる。一連の処理をソフトウェアによって行う
場合には、そのソフトウェアを構成するプログラムが、
汎用のコンピュータ等にインストールされる。
【0154】そこで、図18は、上述した一連の処理を
実行するプログラムがインストールされるコンピュータ
の一実施の形態の構成例を示している。
【0155】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク105やROM1
03に予め記録しておくことができる。
【0156】あるいはまた、プログラムは、フロッピー
ディスク、CD-ROM(Compact Disc Read Only Memory),M
O(Magneto optical)ディスク,DVD(Digital Versatile
Disc)、磁気ディスク、半導体メモリなどのリムーバブ
ル記録媒体111に、一時的あるいは永続的に格納(記
録)しておくことができる。このようなリムーバブル記
録媒体111は、いわゆるパッケージソフトウエアとし
て提供することができる。
【0157】なお、プログラムは、上述したようなリム
ーバブル記録媒体111からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN(Local Area Network)、インターネットとい
ったネットワークを介して、コンピュータに有線で転送
し、コンピュータでは、そのようにして転送されてくる
プログラムを、通信部108で受信し、内蔵するハード
ディスク105にインストールすることができる。
【0158】ここで、本明細書において、コンピュータ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理(例えば、並列処理あるい
はオブジェクトによる処理)も含むものである。
【0159】また、プログラムは、1のコンピュータに
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。
【0160】コンピュータは、CPU(Central Processing
Unit)102を内蔵している。CPU102には、バス1
01を介して、入出力インタフェース110が接続され
ており、CPU102は、入出力インタフェース110を
介して、ユーザによって、キーボードやマウス等で構成
される入力部107が操作されることにより指令が入力
されると、それにしたがって、ROM(Read Only Memory)
103に格納されているプログラムを実行する。あるい
は、また、CPU102は、ハードディスク105に格納
されているプログラム、衛星若しくはネットワークから
転送され、通信部108で受信されてハードディスク1
05にインストールされたプログラム、またはドライブ
109に装着されたリムーバブル記録媒体111から読
み出されてハードディスク105にインストールされた
プログラムを、RAM(Random Access Memory)104にロ
ードして実行する。これにより、CPU102は、上述し
たフローチャートにしたがった各種の処理を実行する。
そして、CPU102は、その処理結果を、必要に応じ
て、例えば、入出力インタフェース110を介して、LC
D(Liquid CryStal Display)やスピーカ等で構成される
出力部106から出力、あるいは、通信部108から送
信、さらには、ハードディスク105に記録等させる。
【0161】なお、本実施の形態では、音声認識部1に
よる音声認識結果を、機械翻訳部2に入力するようにし
たが、機械翻訳部2には、その他、例えば、キーボード
等を操作して入力を与えることも可能である。
【0162】また、翻訳結果は、合成音で出力するので
はなく、表示部4に表示させることが可能である。
【0163】
【発明の効果】本発明の翻訳装置および翻訳方法、並び
に記録媒体によれば、入力文から、所定の情報が抽出さ
れ、その情報に基づいて、入力文の翻訳が制御される。
従って、翻訳精度を向上させることが可能となる。
【図面の簡単な説明】
【図1】本発明が適用される音声翻訳システムの構成例
を示すブロック図である。
【図2】音声認識部1の構成例を示すブロック図であ
る。
【図3】機械翻訳部2の構成例を示すブロック図であ
る。
【図4】音声合成部3の構成例を示すブロック図であ
る。
【図5】本発明を適用した音声翻訳システムの第1の実
施の形態の構成例を示すブロック図である。
【図6】ドメイン推定部40の構成例を示すブロック図
である。
【図7】図5の音声翻訳システムの動作を説明するため
のフローチャートである。
【図8】本発明を適用した音声翻訳システムの第2の実
施の形態の構成例を示すブロック図である。
【図9】本発明を適用した音声翻訳システムの第3の実
施の形態の構成例を示すブロック図である。
【図10】文型判別部50の構成例を示すブロック図で
ある。
【図11】図9の音声翻訳システムの動作を説明するた
めのフローチャートである。
【図12】本発明を適用した音声翻訳システムの第4の
実施の形態の構成例を示すブロック図である。
【図13】音声認識部1の他の構成例を示すブロック図
である。
【図14】音声認識部1が図13のように構成される場
合の、図1の音声翻訳システムの動作を説明するための
フローチャートである。
【図15】本発明を適用した音声翻訳システムの第5の
実施の形態の構成例を示すブロック図である。
【図16】機械翻訳部2の他の構成例を示すブロック図
である。
【図17】機械翻訳部2が図16のように構成される場
合の、図1の音声翻訳システムの動作を説明するための
フローチャートである。
【図18】本発明を適用したコンピュータの一実施の形
態の構成例を示すブロック図である。
【符号の説明】 1 音声認識部, 2,21乃至2N 機械翻訳部, 3
音声合成部, 4表示部, 11、11A,11B
マイク(マイクロフォン), 12 AD変換部, 1
3 特徴抽出部, 14 特徴量バッファ, 15 マ
ッチング部,16 音響モデルデータベース, 17
辞書データベース, 18 文法データベース, 21
テキスト解析部, 22,221乃至22N 言語変換
部,23 テキスト生成部, 24 辞書データベー
ス, 25 解析用文法データベース, 26,261
乃至26N 言語変換データベース, 27 辞書デー
タベース, 28 生成用文法データベース, 31
テキスト解析部, 32規則合成部, 33 DA変換
部, 34 辞書データベース, 35 解析用文法デ
ータベース, 36 音素片データベース, 40 ド
メイン推定部,41 テキスト解析部, 42 キーワ
ード抽出部, 43 キーワードマッチング部, 44
辞書データベース, 45 解析用文法データベー
ス, 46,47 辞書データベース, 50 文型判
別部, 51 テキスト解析部,52 構文解析部,
53 辞書データベース, 54 解析用文法データベ
ース, 55 辞書データベース, 56 解析用文法
データベース, 101バス, 102 CPU, 10
3 ROM, 104 RAM, 105 ハードディスク,
106 出力部, 107 入力部, 108 通信
部, 109ドライブ, 110 入出力インタフェー
ス, 111 リムーバブル記録媒体
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B091 AA05 AA06 AB20 BA03 BA04 CA02 CA21 CB12 CB32 CC01 EA17 5D015 AA04 KK02 KK04 5D045 AA07 AB03 9A001 HH14 HZ17 HZ18

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 入力文を翻訳する翻訳装置であって、 前記入力文を翻訳する翻訳手段と、 前記入力文から、所定の情報を抽出する抽出手段と、 前記入力文から抽出された情報に基づいて、前記翻訳手
    段による前記入力文の翻訳を制御する制御手段とを備え
    ることを特徴とする翻訳装置。
  2. 【請求項2】 前記翻訳手段は、翻訳時に参照する参照
    データを記憶している記憶手段を有し、 前記制御手段は、前記入力文から抽出された情報に基づ
    いて、その入力文の翻訳時に参照すべき参照データを指
    定することを特徴とする請求項1に記載の翻訳装置。
  3. 【請求項3】 前記抽出手段は、前記入力文から、その
    入力文の文型、言語、またはキーワードを抽出すること
    を特徴とする請求項1に記載の翻訳装置。
  4. 【請求項4】 前記翻訳手段は、翻訳時に参照する参照
    データを、文型ごとに記憶している記憶手段を有し、 前記制御手段は、前記入力文の文型に対応する参照デー
    タを参照するように、前記翻訳手段を制御することを特
    徴とする請求項3に記載の翻訳装置。
  5. 【請求項5】 前記翻訳手段は、翻訳時に参照する参照
    データを、ドメインごとに記憶している記憶手段を有
    し、 前記制御手段は、前記入力文から抽出されたキーワード
    に基づいて、前記入力文が入力されたドメインを推定
    し、そのドメインに対応する参照データを参照するよう
    に、前記翻訳手段を制御することを特徴とする請求項3
    に記載の翻訳装置。
  6. 【請求項6】 前記翻訳手段は、翻訳時に参照する参照
    データを、翻訳対象の言語ごとに記憶している記憶手段
    を有し、 前記制御手段は、前記入力文の言語に対応する参照デー
    タを参照するように、前記翻訳手段を制御することを特
    徴とする請求項3に記載の翻訳装置。
  7. 【請求項7】 音声を認識し、その音声認識結果を、前
    記入力文として出力する音声認識手段をさらに備えるこ
    とを特徴とする請求項1に記載の翻訳装置。
  8. 【請求項8】 入力文を翻訳する翻訳方法であって、 前記入力文を翻訳する翻訳ステップと、 前記入力文から、所定の情報を抽出する抽出ステップ
    と、 前記入力文から抽出された情報に基づいて、前記翻訳ス
    テップによる前記入力文の翻訳を制御する制御ステップ
    とを備えることを特徴とする翻訳方法。
  9. 【請求項9】 入力文を翻訳する翻訳処理を、コンピュ
    ータに行わせるプログラムが記録されている記録媒体で
    あって、 前記入力文を翻訳する翻訳ステップと、 前記入力文から、所定の情報を抽出する抽出ステップ
    と、 前記入力文から抽出された情報に基づいて、前記翻訳ス
    テップによる前記入力文の翻訳を制御する制御ステップ
    とを備えるプログラムが記録されていることを特徴とす
    る記録媒体。
JP29387499A 1999-10-15 1999-10-15 翻訳装置および翻訳方法、並びに記録媒体 Withdrawn JP2001117921A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29387499A JP2001117921A (ja) 1999-10-15 1999-10-15 翻訳装置および翻訳方法、並びに記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29387499A JP2001117921A (ja) 1999-10-15 1999-10-15 翻訳装置および翻訳方法、並びに記録媒体

Publications (1)

Publication Number Publication Date
JP2001117921A true JP2001117921A (ja) 2001-04-27

Family

ID=17800283

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29387499A Withdrawn JP2001117921A (ja) 1999-10-15 1999-10-15 翻訳装置および翻訳方法、並びに記録媒体

Country Status (1)

Country Link
JP (1) JP2001117921A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007013521A1 (ja) * 2005-07-26 2007-02-01 Honda Motor Co., Ltd. ユーザと機械とのインタラクションを実施するための装置、方法、およびプログラム
EP2267697A2 (en) 2003-12-12 2010-12-29 Nec Corporation Information processing system, method of processing information, and program for processing information
JP2011027979A (ja) * 2009-07-24 2011-02-10 Fujitsu Ltd 音声翻訳装置及び音声翻訳方法
JP2016507828A (ja) * 2013-01-11 2016-03-10 カタール・ファンデーション 機械翻訳システム及び方法
US11354511B2 (en) 2017-06-26 2022-06-07 Sony Corporation Information processing device, information processing method, and recording medium
US20220293095A1 (en) * 2019-12-23 2022-09-15 Lg Electronics Inc Artificial intelligence apparatus for recognizing speech including multiple languages, and method for the same

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2267697A2 (en) 2003-12-12 2010-12-29 Nec Corporation Information processing system, method of processing information, and program for processing information
US8433580B2 (en) 2003-12-12 2013-04-30 Nec Corporation Information processing system, which adds information to translation and converts it to voice signal, and method of processing information for the same
US8473099B2 (en) 2003-12-12 2013-06-25 Nec Corporation Information processing system, method of processing information, and program for processing information
WO2007013521A1 (ja) * 2005-07-26 2007-02-01 Honda Motor Co., Ltd. ユーザと機械とのインタラクションを実施するための装置、方法、およびプログラム
JP4901736B2 (ja) * 2005-07-26 2012-03-21 本田技研工業株式会社 ユーザと機械とのインタラクションを実施するための装置、方法、およびプログラム
US8352273B2 (en) 2005-07-26 2013-01-08 Honda Motor Co., Ltd. Device, method, and program for performing interaction between user and machine
JP2011027979A (ja) * 2009-07-24 2011-02-10 Fujitsu Ltd 音声翻訳装置及び音声翻訳方法
JP2016507828A (ja) * 2013-01-11 2016-03-10 カタール・ファンデーション 機械翻訳システム及び方法
US11354511B2 (en) 2017-06-26 2022-06-07 Sony Corporation Information processing device, information processing method, and recording medium
US20220293095A1 (en) * 2019-12-23 2022-09-15 Lg Electronics Inc Artificial intelligence apparatus for recognizing speech including multiple languages, and method for the same
US11682388B2 (en) * 2019-12-23 2023-06-20 Lg Electronics Inc Artificial intelligence apparatus for recognizing speech including multiple languages, and method for the same

Similar Documents

Publication Publication Date Title
US6952665B1 (en) Translating apparatus and method, and recording medium used therewith
US10140973B1 (en) Text-to-speech processing using previously speech processed data
US7502739B2 (en) Intonation generation method, speech synthesis apparatus using the method and voice server
US7236922B2 (en) Speech recognition with feedback from natural language processing for adaptation of acoustic model
JP3994368B2 (ja) 情報処理装置および情報処理方法、並びに記録媒体
US10163436B1 (en) Training a speech processing system using spoken utterances
US6510410B1 (en) Method and apparatus for recognizing tone languages using pitch information
JP2022534764A (ja) 多言語音声合成およびクロスランゲージボイスクローニング
JP2001215993A (ja) 対話処理装置および対話処理方法、並びに記録媒体
JP2004287444A (ja) 多言語テキスト音声変換システムのためのフロントエンドアーキテクチャ
Wutiwiwatchai et al. Thai speech processing technology: A review
JP2001188781A (ja) 会話処理装置および方法、並びに記録媒体
CN112102811A (zh) 一种合成语音的优化方法、装置及电子设备
KR20230158603A (ko) 신경 텍스트-투-스피치 변환을 위한 음소 및 자소
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
US20040006469A1 (en) Apparatus and method for updating lexicon
JP2020060642A (ja) 音声合成システム、及び音声合成装置
JP2000029492A (ja) 音声翻訳装置、音声翻訳方法、音声認識装置
JP2001117921A (ja) 翻訳装置および翻訳方法、並びに記録媒体
JP2001209644A (ja) 情報処理装置および情報処理方法、並びに記録媒体
JP7406418B2 (ja) 声質変換システムおよび声質変換方法
JP2001117752A (ja) 情報処理装置および情報処理方法、並びに記録媒体
US20020143525A1 (en) Method of decoding telegraphic speech
Chiang et al. The Speech Labeling and Modeling Toolkit (SLMTK) Version 1.0

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070109