JP3993319B2 - Interpreting device and recording medium storing program for exerting functions of interpreting device - Google Patents
Interpreting device and recording medium storing program for exerting functions of interpreting device Download PDFInfo
- Publication number
- JP3993319B2 JP3993319B2 JP25436198A JP25436198A JP3993319B2 JP 3993319 B2 JP3993319 B2 JP 3993319B2 JP 25436198 A JP25436198 A JP 25436198A JP 25436198 A JP25436198 A JP 25436198A JP 3993319 B2 JP3993319 B2 JP 3993319B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- response sentence
- language
- response
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、第1言語と第2言語との間での会話を通訳する通訳装置に関する。
【0002】
【従来の技術】
従来の携帯型の通訳装置では、ユーザが使用場面に応じて分類されたメニューの選択やキーワードの入力をして第1言語の単語又は一文(質問文)を選択すると、その選択された単語又は一文に対応する第2言語の単語又は一文(質問文)が表示される方式が主に採用されている。
【0003】
ユーザが会話相手から返事を得るために、例えば特開平7−105220号公報の技術では、上記の第2言語の質問文の表示を会話相手に提示する際に、第2言語の応答文を数種類表示するようにして、それらの応答文うちの一文を会話相手に選択させる方式が示されている。
【0004】
また、特開平9−319750号公報の技術では、会話相手の応答を想定し、応答を階層的に分類して選択を容易にしたり、また数字や記号を直接入力させて相手からの応答を得る方式が示されている。
【0005】
【発明が解決しようとする課題】
ところが、上記した2つの技術では、ユーザが会話相手から応答文を得るために、会話相手に通訳装置の使用方法を教えて、装置の操作を任せなければならず、通訳装置の操作に不慣れな相手とは、スムーズな会話が困難である。
【0006】
本発明は、上記課題に鑑み、会話相手が通訳装置の取扱いに習熟していることを必要としない操作性の優れた通訳装置を提供することを目的とする。
【0007】
【課題を解決するための手段】
上記課題を解決するため本発明は、第1言語の質問文とそれを翻訳した第2言語の質問文とを対にして記憶している質問文データベースと、第2言語の質問文に応答する標準的な複数の第2言語の応答文と、それらを翻訳した第1言語の応答文とを記憶している応答文データベースと、入力操作手段と、音声入力手段と、前記入力操作手段でユーザから入力された第1言語の質問文を前記質問文データベースを検索し、それと対になっている第2言語の質問文を抽出する質問文抽出手段と、抽出された第2言語の質問文の出力を受けてユーザの会話相手が第2言語の応答文を音声で入力した場合に、入力された音声を第2言語の文字応答文として認識する音声認識手段と、前記音声認識手段で認識された文字応答文に類似する第2言語の応答文と対応する第1言語の応答文とを前記応答文データベースから抽出する応答文抽出手段と、前記応答文抽出手段で抽出された第2言語の応答文と第1言語の応答文と前記音声認識手段で認識された文字応答文とを表示する表示手段とを備えることとしている。
【0008】
【発明の実施の形態】
以下、本発明に係る通信装置の実施の形態について、図面を用いて説明する。
【0009】
(実施の形態1)
図1は、本発明に係る通訳装置の実施の形態1の構成図である。
【0010】
この通訳装置は、質問文翻訳データベース101と、応答文データベース102と、入力操作部103と、質問文選択部104と、表示部105と、音声出力部106と、応答文抽出部107と、音声認識辞書108と、音声入力部109と、音声認識部110とを備えている。
【0011】
質問文翻訳データベース101は、ROM等からなり、第1言語の質問文とそれを第2言語に翻訳した第2言語の質問文とを一対にして識別番号を付して記憶している。図2は、この質問文翻訳データベース101の内容の一例を示している。この質問文翻訳データベース101では、第1言語を日本語とし、第2言語を英語としている。なお、本実施の形態では、この通訳装置を利用するユーザが日本語を解し、会話相手が英語を解する状況で用いられるものである。
【0012】
質問文翻訳データベース101の識別番号「0002」には、日本語の質問文「空港へはどのくらい時間がかかりますか」と英語に翻訳された「How long does it take to the airport?」とが対にして記憶されている。更に、この質問文に応答する標準的な応答文の数「5」とその応答文の識別番号「T1001」、「T1002」、・・・「T1005」とが記憶されている。この応答文の識別番号は、応答文データベース102に応答文を識別する識別番号として記憶されているものである。
【0013】
応答文データベース102は、ROM等からなり、質問文翻訳データベース101の英語の質問文に答える標準的な応答文の一覧が記憶されている。図3は、応答文データベース102に記憶されている内容の一例を示す図である。各応答文301には、その応答文の日本語訳302と、その応答文の識別番号303とが対応して記憶されている。
【0014】
応答文データベース102には、識別番号「T0999」で識別される応答文「30dollars」とその日本語への翻訳文「30ドルです。」とが記憶されている。
【0015】
入力操作部103は、キーボード等からなり、ユーザの質問文の入力を受け付ける。この際、ユーザは、質問文の全文を入力してもよいけれども、例えば、空港への所要時間を尋ねたい場合、「空港」と「時間」とを入力する。入力操作部103は、入力された質問文又は入力された単語「空港」と「時間」とを質問文選択部104に通知する。
【0016】
また、入力操作部103は、ユーザからの質問指示の入力を受けると、質問文選択部104にその旨を通知する。
【0017】
質問文選択部104は、入力操作部103から質問文の通知を受けると、質問文翻訳データベース101を調べ、一致する質問文とその翻訳された質問文と識別番号と応答文の識別番号とを抽出する。
【0018】
また、質問文として単語の通知を受けると、その単語をキーワードとして、キーワードを含む質問文を選択し、対になっている翻訳された質問文と識別番号とその応答文の識別番号とを抽出する。例えば、「空港」と「時間」とを通知されたとき、この2つのキーワードを含む識別番号「0002」の質問文「空港へはどのくらい時間がかかりますか」を選択する。質問文選択部104は、抽出した日本語の質問文と英語の質問文とを表示部105の所定の領域に表示させ、併せて、応答文の識別番号「T1001、T1002、T1003、T1004、T1005」を応答文抽出部107に通知する。
【0019】
質問文選択部104は、入力操作部103から質問指示の通知を受けると、音声出力部106に質問文の識別番号を通知する。
【0020】
表示部105は、液晶ディスプレイ等からなり、質問文選択部104と応答文抽出部107の制御により、質問文や応答文を表示する。
【0021】
図4は、表示部105の表示内容の一例を示す図である。この図は、質問文選択部104で質問文が選択され、音声出力部106から翻訳された質問文が音声出力されている状態での表示例である。日本語の質問文401とその英語の質問文402とが質問文選択部104によって表示され、その英語の質問文402の答えとなる標準的な応答文とそれを日本語に翻訳した翻訳応答文との一覧である応答例403とが応答文抽出部107によって表示される。このような表示がされることにより、ユーザは、自分が質問しようとする内容と、会話相手が答えてくれるであろう応答文の内容を知ることができる。
【0022】
図5は、表示部105の表示内容の他の一例を示す図である。この図は、ユーザの会話相手から質問文に対する音声の応答文を受けた後の表示内容を示している。質問文401、402は、図4と同様に表示されている。応答例501は、音声認識部110で認識された会話相手からの音声応答の認識結果に類似する応答文の一覧が示されている。この応答文中の認識結果と一致する単語は、反転表示されている。表示部105の下段に、音声応答の認識結果502が示されている。この表示部105の内容をユーザが見れば、空港までの所要時間が「タクシーで20分」であることを推定できる。即ち、認識結果502に一致する単語を反転表示された部分が応答文に示されているので、それと認識結果502とを比べることにより、数字が異なることから類推される。
【0023】
音声出力部106は、質問文の識別番号とその翻訳された質問文の音声パターンとを記憶しており、質問文選択部104から識別番号を通知されると、その識別番号の音声パターンを取り出し、音声信号に変換し、スピーカを介して、質問文を音声出力する。
【0024】
応答文抽出部107は、質問文選択部104から応答文の識別番号の通知を受けると、応答文データベース102に記憶されている識別番号の一致する応答文とその翻訳応答文とを抽出する。抽出した応答文とその翻訳応答文との一覧を表示部105の所定の領域に図4に示したように表示させる。
【0025】
また、応答文抽出部107は、音声認識部110から認識結果である文字応答文の通知を受けると、抽出した応答文のうち、文字応答文と類似する応答文を選択する。この類似する応答文とその翻訳応答文と文字応答文とを表示部105の所定の表示領域に表示させる。
【0026】
この類似する応答文の選択に際して、通知された文字応答文を構成する単語と、抽出した応答文を構成する単語とを比較し、一致する単語が応答文に存在するとき、その応答文を類似する応答文として選択する。また、この応答文中の一致する単語の表示属性を図5に示すように白抜きの反転表示となるよう表示属性を変更する。
【0027】
なお、本実施の形態では、類似する応答文は、応答文に文字応答文を構成する単語を含む場合としたけれども、類似する応答文の選択を以下のようにしてもよい。応答文抽出部107は、応答文に含まれる単語の総数に対する文字応答文を構成する単語に一致する単語数の割合を類似度として計算し、所定値以上の類似度を有する応答文を類似する応答文として選択する。
【0028】
音声認識辞書108は、単語標準パターンと単語とを対にして記憶している。図6は、音声認識辞書108の内容の一例を示す図である。
【0029】
単語標準パターン601は、標準的に発音された単語「twenty」602を発音時間分に対応した50フレームの特徴量で表している。各フレームは、単語「twenty」を0.5秒で発音し、時間間隔10msごとずらした所定時間分の音声パターンに対応している。この音声パターンをフーリエ変換し、周波数帯域を16分割し、各帯域の強度を16の数値列で表したものを1フレームの特徴量としている。なお、音声パターン604は、この各フレームへの分割を説明している。単語「minutes」等についても、単語標準パターンは、所定数のフレームに16の数値列で表されているけれども、図では省略されている。
【0030】
音声入力部109は、マイクロフォン等からなり、会話相手の音声応答文の入力を受け付け、音声認識部110にその音声信号を通知する。
【0031】
音声認識部110は、音声入力部109から通知された音声信号を分析し、単語単位の各セグメントに分割し、各セグメントの音声パターンと音声認識辞書108の単語標準パターンとを照合する。音声パターンと最も類似度の高い単語標準パターンに対にして記憶されている単語を認識結果とし、認識結果の単語を並べて文字応答文を得る。得られた文字応答文を応答文抽出部107に通知する。
【0032】
本実施の形態では、音声入力部109から入力された音声応答文「20minutes by taxi.」が音声認識部110で認識されたけれども、入力される音声応答文によっては、最も類似度の高い標準単語パターンに対になっている単語を選択することが必ずしも正しい認識結果である文字応答文になるとは限らない。
【0033】
本実施の形態の音声認識部110は、更に以下の構成を有する。
【0034】
音声入力部109から図7(a)に示す音声応答文「You can go on foot.」が会話相手から入力された場合について説明する。
【0035】
音声認識部110では、図7(b)に示すように音声分析の処理をして、音声パターン701を各単語に対応するセグメント702〜706に分割する。各セグメントの音声パターン702〜706と音声認識辞書108に記憶されている単語標準パターンとを照合し、例えば、DP(動的計画)マッチング法を用いて類似度を計算する。これによって、セグメント702の音声パターンから類似度の高い単語標準パターンの単語から順に、「show」、「you」、「how」、・・・の各単語候補が選択される。同様にセグメント703の音声パターンから「can」、「and」、・・・の各単語候補が選択される。
【0036】
今、応答文抽出部107で抽出された応答文を構成する単語に「you」、「can」、「go」、「on」、「foot」等が含まれているとする。音声認識部110は、各セグメントごとに各単語候補が応答文抽出部107で抽出されている応答文中の単語中に存在するか否かを調べ、存在するときは、その類似度を例えば、「2倍」として、各単語候補を類似度順に並べ替える。この結果、音声入力部109から入力された音声応答文の音声パターン701から図8に示すような修正された類似度により、各単語候補の順位が並べ替えられる。なお、図7(b)、図8において、類似度の具体的数値の記載は省略している。音声認識部110は、最も類似度の高い候補文字をセグメント順に並べて、「You can go on foot.」を認識結果である文字応答文として応答文抽出部107に通知する。
【0037】
このように、質問文に対する応答文が標準的な応答文として応答文抽出部107に用意されているので、その応答文を用いて、不特定の会話相手の音声認識の精度を向上させている。
【0038】
次に、本実施の形態の動作を図9、図10のフローチャートを用いて説明する。
【0039】
先ず、ユーザは、入力操作部103から日本語の質問文を入力する(S902)。
【0040】
質問文選択部104は、入力操作部103で受け付けられた質問文に一致する質問文を質問文翻訳データベース101を検索して見つける(S904)。見つけた質問文とその質問文を翻訳した英語の翻訳質問文とを表示部105に表示させる(S906)。
【0041】
次に、応答文抽出部107は、質問文選択部104から通知された応答文の識別番号をもとに応答文データベース102を検索して、応答文とその翻訳文とを抽出する(S908)。抽出した応答文とその翻訳文との一覧を表示部105に表示させる(S910)。
【0042】
質問文選択部104は、入力操作部103において、ユーザからの質問指示があるか否かを判断する(S912)。なければS902に戻り、あれば音声出力部106に質問指示を通知する。音声出力部106は、英語の翻訳質問文を音声出力する(S914)。
【0043】
次に、音声入力部109は、音声出力部106から出力された英語の翻訳質問文に答えた会話相手の英語の応答文の音声入力を受け付ける(S916)。
【0044】
音声認識部110は、音声入力部109から通知された音声信号を音声分析し、音声認識辞書108と照合し、音声を文字応答文として認識する(S918)。
【0045】
応答文抽出部107は、応答文の一覧から文字応答文に類似する応答文を選択する(S920)。類似する応答文(英語)とその翻訳文(日本語)と認識結果である文字応答文(英語)とを表示部105に表示させ、この際、類似する応答文の文字応答文に一致する部分の表示属性を変更する(S922)。このようにすることによって、ユーザは、英語を理解することができなくても、質問に対する答えを日本語で理解することができる。
【0046】
次に、S918の動作の詳細を図10のフローチャートを用いて詳細に説明する。
【0047】
先ず、音声認識部110は、音声入力部109から入力された音声信号を音声分析して、単語単位のセグメントの音声パターンに分割する(S1002)。分割した音声パターンを1つ取り出し、音声認識辞書108の標準単語パターンとパターンマッチングして類似度を計算する(S1004)。この類似度が一定値以上の値を有する標準単語パターンの単語を単語候補とする(S1006)。すべてのセグメントの音声パターンについてこの照合をする(S1008)。
【0048】
続いて、単語候補が応答文抽出部で抽出されている応答文の一覧にある応答文を構成する単語と一致するか否か判断する(S1010)。一致しなければ、S1014に移り、一致するときには、その単語候補の類似度を2倍に修正する(S1012)。
【0049】
次に未処理の単語候補があるか否かを判断し(S1014)、あればS1010に戻り、なければ各セグメントの類似度の最も高い単語候補を並べて認識結果である文字応答文を得る(S1016)。
【0050】
このように、予め質問文に対する標準的な応答文が用意されているので、音声応答を音声認識する際に、この応答文に含まれる単語が認識結果である文字応答文を構成する単語となる確率が高いことを利用できる。この結果、不特定の会話相手の音声応答であっても、音声認識の精度が向上する。
【0051】
(実施の形態2)
図11は、本発明に係る通訳装置の実施の形態2の構成図である。
【0052】
この通訳装置は、質問文翻訳データベース101と、応答文データベース1101と、入力操作部103と、質問文選択部104と、表示部105と、音声出力部1102と、応答文抽出部1103と、音声認識辞書108と、音声入力部109と、音声認識部110とを備えている。
【0053】
なお、上記実施の形態1の構成と同一の部分には同一の符号を付してその説明を省略し、本実施の形態固有の構成部分についてのみ説明する。
【0054】
応答文データベース1101は、上記実施の形態1で説明した第2言語(英語)の標準的な応答文とその第1言語(日本語)の翻訳応答文に加えて、その応答文の単語と翻訳応答文の単語との対応を同一の識別番号を付して関連付けて記憶している。更に、応答文を構成する単語又は単語列が質問文に対する応答として必須の要件か否か、また必須の要件である場合には、置換可能性があるか否か、音声認識が正しくされなかったときの再質問規則が記憶されている。
【0055】
ここで、置換可能性とは、標準的な応答文を構成する単語が他の単語に置換されることが予想されることをいい、置換条件となる単語の属性を含んでいる。
【0056】
また、再質問規則は、音声認識部110において、その応答文を構成する単語を正しく認識することができなかったときに、再質問をするときの規則を定めたものである。
【0057】
図12は、この応答文データベース1101の内容の一例を示す図である。識別番号「T1001」で識別される応答文「15minutes.」とその翻訳応答文「15分です。」とを構成する単語の「15」と「15」とには識別番号「1」が、「minutes」と「分」とには識別番号「2」がそれぞれ付記されており、対応する単語であることを示している。同様に識別番号「T1005」で識別される応答文とその翻訳応答文とにも対応する単語に同一の識別番号が付されている。
【0058】
一覧表1201、1202は、応答文を構成する単語について「必須の要件」欄1203と、「置換可能性」欄1204と、「再質問規則」欄1205とを有している。一覧表1201は、識別番号「T1001」で識別される応答文を構成する単語「15」、「minutes」が「必須の要件」であるか否か等を記載したものである。両単語とも「必須」であるので「YES」1206が「必須の要件」欄1203に記載されている。
【0059】
また、両単語とも他の単語に置換されることが予想されるので、「置換可能性」欄1204にはYES1207が記載され、単語「15」が置換される単語は「数字」であり、単語「minutes」が置換される単語は「時間単位」例えば、「second」、「hour」であることが記載されている。
【0060】
また、単語「15」又は置換条件に合致した単語が正しく音声認識されないときの対応する規則が再質問規則欄1205に「KEYBORD」1208と記載されている。この規則「KEYBORD」1208は、会話相手からキーボードの操作により単語「15」を置換する数字の入力を受け付けることを意味している。
【0061】
単語「minutes」又は置換条件に合致した単語が正しく音声認識されないときの対応規則が再質問規則欄1205に「MENU」1209と記載されている。この規則「MENU」1209は、表示部105に「minutes」、「second」、「hour」を表示して、この中から一つを会話相手に選択させることを意味している。
【0062】
同様に一覧表1202には、識別番号「T1005」で識別される応答文を構成する単語が「必須の要件」であるか否か等が記載されている。
【0063】
単語列「by taxi」は、必須の要件であり、置換条件とされる単語の属性は「交通機関」であり、再質問規則として「STR "By what?"」1210が記載されている。ここで、再質問規則「STR "By what?"」1210は、会話相手に音声による質問文"By what?"を出力することを意味している。
【0064】
音声出力部1102は、再質問規則に対応した音声パターンを記憶している。
【0065】
再質問規則「KEYBOARD」1208に対応して「Input numerals with keyboard.」の音声パターンを記憶しており、「MENU」1209に対応して「Indicate appropriate menu item.」の音声パターンを記憶しており、「STR "By what?"」1211に対応して「By what?」の音声パターンを記憶している。
【0066】
音声出力部1102は、応答文抽出部1103から再質問規則の通知を受けると、対応する音声パターンを音声として出力する。また、応答文抽出部1103から再質問の指示を受けると、英語の翻訳質問文を再度出力する。
【0067】
応答文抽出部1103は、上記実施の形態1で説明した構成に加えて、音声認識部110から文字応答文の通知を受けて類似する応答文を選択した後、以下の処理をする。
【0068】
応答文抽出部1103は、文字応答文と類似する応答文とが完全に一致するか否かを両文を構成する単語を比較して判断する。完全に一致すれば、質問文の答えに対する応答が成立したものとする。
【0069】
完全に一致しないとき、異なる部分(類似する応答文の単語)が必須の要件であるか否かを応答文データベース1101の一覧表1201等をみて判断する。必須の要件でなければ、質問文の答えとして成立するとみなす。
【0070】
異なる部分が必須の要件であるとき、その単語が置換可能性を有するか否かを同様に一覧表1201等をみて判断する。置換可能性がなければ、質問に対する答えとして成立しない。この際、質問文が会話相手に伝わらなかったものとして、音声出力部1102に再質問の指示をする。
【0071】
置換可能性があるときには、文字応答文の異なる部分に対応する単語が置換条件である単語の属性に一致するか否かを判断する。一致すると判断したとき、文字応答文は質問文の答えとして成立する。
【0072】
一致しないと判断したとき、質問文の答えとして必須の要件が欠落していることになるので、再質問規則を一覧表1201等から取得する。
【0073】
応答文抽出部1103は、再質問規則が「KEYBOARD」1208であるときには、音声出力部1102に再質問規則「KEYBOARD」を通知するとともに、表示部105に、「キーボードで入力依頼」を表示させる。これにより、ユーザは、会話相手に入力操作部103を用いて入力操作を受けることを了解する。
【0074】
また、再質問規則が「MENU」1209であるときには、音声出力部1102に再質問規則「MENU」を通知するとともに、表示部105に「second」、「minutes」、「hour」を表示させる。なお、この場合、置換条件の単語の属性が「時間単位」であるのでメニュー項目が「second」等となったけれども、単語の属性によってメニュー項目の内容は変更される。
【0075】
再質問規則が「STR "By what?"」1210であるときには、音声出力部1102に再質問規則「STR "By what?"」を通知する。
【0076】
応答文抽出部1103は、音声出力部1102に「STR "By what?"」の通知をした後、音声認識部110から文字応答文(単語列)の通知を受けると、類似する応答文の単語列又は置換条件に合致した、「by taxi」、「by bus」「by train」又は「on foot」等であるときには、文字応答文を修正する。
【0077】
また、再質問規則「KEYBOARD」、「MENU」を音声出力部1102に通知した後に、入力操作部103から会話相手からの数字の入力やメニュー項目の指示を受けた旨の通知により、対応する文字応答文の単語を数字やメニュー項目の内容に変更して表示部105に表示させる。
【0078】
応答文抽出部103は、上記実施の形態1では、文字応答文と類似する応答文とを構成する単語で一致するものを類似する応答文の表示属性を変更して表示するようにしたけれども、本実施の形態では、これに換えて、応答文データベース1101の類似する応答文を構成する単語とその翻訳応答文を構成する単語との対応関係を識別番号から調べ、文字応答文に一致する翻訳応答文の部分の表示属性を変更する。
【0079】
なお、音声認識部110において、全ての候補文字の類似度が所定のしきい値以下であるときには、認識不能としてその部分を応答文抽出部1103に通知する。この場合に、応答文抽出部1103は、応答文を構成する単語を正しく認識することができなかったときと同様に取り扱う。
【0080】
今、上記実施の形態1と同様の英語の質問文「How long does it take to the airport?」が音声出力部106から出力された場合に、音声認識部110において、文字応答文「xxx minutes by taxi.」が認識されたとき(「xxx」は音声認識不能を示す)、応答文抽出部1103は、「xxx」が必須の要件であり、置換条件が数字であり、再質問規則が「KEYBOARD」1208であると判断する。音声出力部1102から「Input numerals with keyboard.」が音声出力される。会話相手に本装置を渡し、入力操作部103から数字「20」の入力を受ける。これによって、音声認識が不能であった「xxx」が数字「20」に置換される。
【0081】
図13は、表示部105に表示された内容の一例を示している。応答例1301では、翻訳応答文の文字応答文1302に一致する対応部分が反転表示されている。なお、表示属性の変更を反転表示としているけれども、他の属性、例えば表示色の変更等であってもよい。 これによって、ユーザは、より一層会話相手からの答えを容易に理解することができる。 次に、本実施の形態の動作を図14に示すフローチャートを用いて説明する。上記実施の形態1の図9に示したS920までの動作は同様であるので、本実施の形態固有の動作のみ説明する。
【0082】
S920において、応答文抽出部1103は、応答文の一覧から文字応答文に類似する応答文を選択する。
【0083】
次に、応答文抽出部1103は、文字応答文と類似する応答文とが、完全に一致するか否かを判断し(S1402)、一致すると判断したときはS1416に移り、一致しないと判断したときは、異なる部分(単語又は単語列)が必須の要件であるか否かを応答文データベース1101の一覧表1201等をみて判断する(S1404)。必須の要件でなければS1416に移り、必須の要件であるときは、同様に一覧表1201等をみて置換可能性が有るか否かを判断する(S1406)。
【0084】
置換可能でないと判断したときは、質問文が会話相手に伝わらなかったとして、音声出力部1102に再質問の指示をし、上記実施の形態1のS914に戻る。
【0085】
置換可能であると判断したときは、文字応答文の単語が置換条件に合致するか否かを判断し(S1408)、合致すればS1416に移る。合致しないときは、再質問規則に応じて、所定の音声を出力するよう音声出力部1102に通知する。
【0086】
音声出力部1102は、再質問規則に応じた音声を出力し、会話相手に伝える(S1410)。音声入力部109または、入力操作部103から会話相手からの再応答を受け付ける(S1412)。
【0087】
音声認識部110は、音声入力部から入力された音声を認識し、単語又は単語列を応答文抽出部1103に通知し、入力操作部103は入力操作された単語を応答文抽出部1103に通知する(S1414)。
【0088】
応答文抽出部1103は、表示部105に類似する応答文とその翻訳応答文と認識結果である文字応答文とを表示させる。その際、文字応答文に一致する翻訳応答文の部分の表示属性を変更する(S1416)。
【0089】
このようにすることで、会話相手からの音声応答を一度は認識できなかった場合でも、その内容に応じた再質問を用意しておき、会話相手から適切な入力を受けて、音声応答文の認識精度を向上することができる。
【0090】
なお、上記実施の形態では、第1言語として日本語を、第2言語として英語を例に説明したけれども、本発明に係る通訳装置では、第1言語と第2言語とが逆であってもよいし、また他の言語が第1または第2言語となっていてもよい。この場合には、質問文翻訳データベース101、音声出力部106、1102、応答文データベース102、1101及び音声認識辞書108がそれぞれの言語に対応する内容とされる。
【0091】
また、上記実施の形態では、図1及び図11に示した構成図で示した各部がそれぞれの機能を発揮したけれども、各部の機能を発揮されるプログラムをコンピュータ読み取り可能なフロッピーディスクやCD−ROM等の記録媒体に記録する。この通訳装置特有の機能を有しない携帯端末装置等にこの記録媒体を装着し、本装置と同様の機能を有する通訳装置とすることができる。
【0092】
【発明の効果】
以上説明したように、本発明は、第1言語の質問文とそれを翻訳した第2言語の質問文とを対にして記憶している質問文データベースと、第2言語の質問文に応答する標準的な複数の第2言語の応答文と、それらを翻訳した第1言語の応答文とを記憶している応答文データベースと、入力操作手段と、音声入力手段と、前記入力操作手段でユーザから入力された第1言語の質問文を前記質問文データベースを検索し、それと対になっている第2言語の質問文を抽出する質問文抽出手段と、抽出された第2言語の質問文の出力を受けてユーザの会話相手が第2言語の応答文を音声で入力した場合に、入力された音声を第2言語の文字応答文として認識する音声認識手段と、前記音声認識手段で認識された文字応答文に類似する第2言語の応答文と対応する第1言語の応答文とを前記応答文データベースから抽出する応答文抽出手段と、前記応答文抽出手段で抽出された第2言語の応答文と第1言語の応答文と前記音声認識手段で認識された文字応答文とを表示する表示手段とを備えることとしている。このような構成によって、ユーザの会話相手は、通常の会話をするように音声応答するだけで、ユーザには、質問文に答えた応答文が、ユーザの理解できる第1言語で表示されるのでスムーズな会話をすることができる。
【0093】
また、前記音声認識手段は、単語標準パターンとその単語標準パターンに対応する単語とを記憶している音声認識辞書と、前記音声入力手段から入力された音声を分析して単語単位のセグメントのパターンに分割する分割部と、前記分割部で分割されたセグメントのパターンと前記音声認識辞書に記憶されている単語標準パターンとの類似度を計算し、類似度が所定値以上の単語標準パターンに対応する単語を候補単語として抽出する候補単語抽出部と、前記候補単語抽出部で抽出された各セグメント類似度の最大の候補単語を並べて文字応答文を生成する文字応答文生成部とを有することとしている。このような構成によって、会話相手の応答文を文字応答文として認識することができる。
【0094】
また、前記候補単語抽出部は、抽出した候補単語が前記応答文抽出手段で抽出された応答文を構成する単語と一致するとき、その類似度を所定の倍率で大きくすることとしている。このような構成によって、不特定の会話相手の音声であっても、応答文として予測される単語の認識する確率を高めることによって、音声応答文の認識精度を向上することができる。 また、前記応答文データベースには、応答文を構成する単語が応答文として必須の要素であるかと、必須の要素であるときに、その単語が他の単語に置換されることが予想されるかと、予想されるとき、置換が予想される単語の意味属性とが記憶されており、前記音声認識手段で認識された文字応答文を構成する単語と前記類似する応答文を構成する単語とを照合し、必須の要素を欠き、かつ、置換が予想される単語の意味属性と異なる単語を応答文に対応する単語とするとき文字応答文が質問の答えとして成立しないと判断する文字応答文判断手段を備えることとしている。このような構成によって、音声認識手段で認識された文字応答文が質問文の答えとして成立するか否かが判断される。
【0095】
また、前記応答文データベースには、応答文を構成する単語が必須の要素であるときに、その単語を認識できなかったときの再質問規則が記憶されており、前記文字応答文判断手段が、文字応答文が質問の答えとして成立しないと判断したとき、前記再質問規則に応じた再質問を出力する出力手段を備えることとしている。このような構成によって、質問文の答えと成立しない文字応答文を会話相手への再質問をすることによって、正しく認識された文字応答文とすることができる。
【0096】
また、前記表示手段に表示される文字応答文を構成する単語と前記応答文抽出手段で抽出された第2言語の応答文を構成する単語とを比較し、一致する単語の前記第2言語の応答文の表示属性を変更する制御手段を備えることとしている。このような構成によって、会話相手からの応答文の理解が容易となる。
【0097】
また、前記応答文データベースに記憶されている第1言語の応答文とその第2言語の応答文とを構成する対応する単語に同一の識別子を付し、前記表示手段に表示される文字応答文を構成する単語と前記応答文抽出手段で抽出された第2言語の応答文を構成する単語とを比較し、一致する単語と同一の識別子が付された前記第1言語の応答文の表示属性を変更する表示制御手段を備えることとしている。このような構成によって、会話相手からの第2言語の応答文をユーザの理解できる第1言語の内容との違いを明確にして知ることができる。
【0098】
更に、コンピュータに読取可能な記録媒体であって、第1言語の質問文とそれを翻訳した第2言語の質問文とを対にして記憶している質問文データベースと、第2言語の質問文に応答する標準的な複数の第2言語の応答文と、それらを翻訳した第1言語の応答文とを記憶している応答文データベースとを予め記録し、コンピュータを、入力操作手段と、音声入力手段と、前記入力操作手段でユーザから入力された第1言語の質問文を前記質問文データベースを検索し、それと対になっている第2言語の質問文を抽出する質問文抽出手段と、抽出された第2言語の質問文の出力を受けてユーザの会話相手が第2言語の応答文を音声で入力した場合に、入力された音声を第2言語の文字応答文として認識する音声認識手段と、前記音声認識手段で認識された文字応答文に類似する第2言語の応答文と対応する第1言語の応答文とを前記応答文データベースから抽出する応答文抽出手段と、前記応答文抽出手段で抽出された第2言語の応答文と第1言語の応答文と前記音声認識手段で認識された文字応答文とを表示させる表示制御手段として機能させるためのプログラムを記録することとしている。これによって、通訳機能を有しない携帯端末装置を効率的な通訳装置として使用することができる。
【図面の簡単な説明】
【図1】本発明に係る通訳装置の実施の形態1の構成図である。
【図2】上記実施の形態の質問文翻訳データベースの内容の一例を示す図である。
【図3】上記実施の形態の応答文データベースの内容の一例を示す図である。
【図4】上記実施の形態の表示部に表示されている内容の一例を示す図である。
【図5】上記実施の形態の表示部に表示されている内容の他の一例を示す図である。
【図6】上記実施の形態の音声認識辞書の内容の一例を示す図である。
【図7】(a)は、上記実施の形態の音声入力部に入力された音声応答の文字応答文の一例を示す。
(b)は、上記実施の形態の音声認識部において音声信号から単語単位の各セグメントの音声パターンに分割して単語候補を認識する様子の説明図である。
【図8】上記実施の形態の音声認識部において、単語候補の類似度を修正して、文字応答文を認識する様子の説明図である。
【図9】上記実施の形態の動作を説明するフローチャートである。
【図10】上記図9のS918の詳細な動作を説明するフローチャートである。
【図11】本発明に係る通訳装置の実施の形態2の構成図である。
【図12】上記実施の形態の応答文データベースの内容の一例を示す図である。
【図13】上記実施の形態の表示部に表示されている内容の一例を示す図である。
【図14】上記実施の形態の動作を説明するフローチャートである。
【符号の説明】
101 質問文翻訳データベース
102、1101 応答文データベース
103 入力操作部
104 質問文選択部
105 表示部
106、1102 音声出力部
107、1103 応答文抽出部
108 音声認識辞書
109 音声入力部
110 音声認識部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an interpreting apparatus that interprets a conversation between a first language and a second language.
[0002]
[Prior art]
In a conventional portable interpreting device, when a user selects a menu classified according to usage scenes or inputs a keyword and selects a word or a sentence (question sentence) in a first language, the selected word or A method of displaying a second language word or one sentence (question sentence) corresponding to one sentence is mainly adopted.
[0003]
In order for the user to obtain a reply from the conversation partner, for example, in the technique disclosed in Japanese Patent Laid-Open No. 7-105220, when the display of the above-mentioned second language question sentence is presented to the conversation partner, several types of response sentences in the second language are used. A method is shown in which a conversation partner selects one of the response sentences as displayed.
[0004]
In the technique disclosed in Japanese Patent Application Laid-Open No. 9-319750, responses of the conversation partner are assumed, and the responses are hierarchically classified for easy selection, or a response from the partner is obtained by directly inputting numbers and symbols. The scheme is shown.
[0005]
[Problems to be solved by the invention]
However, in the above two techniques, in order for the user to obtain a response sentence from the conversation partner, the conversation partner must be taught how to use the interpretation device, and the operation of the device must be entrusted. Smooth conversation with the other party is difficult.
[0006]
In view of the above problems, an object of the present invention is to provide an interpreting device with excellent operability that does not require that the conversation partner is proficient in handling the interpreting device.
[0007]
[Means for Solving the Problems]
In order to solve the above problems, the present invention responds to a question sentence database storing a question sentence in a first language and a question sentence in a second language obtained by translating it, and a question sentence in a second language. Response sentence database storing a plurality of standard response sentences in the second language and response sentences in the first language translated from them, input operation means, voice input means, and user in the input operation means A question sentence extracting means for searching the question sentence database for a question sentence in the first language input from the second language and extracting a question sentence in the second language paired with the question sentence database; When the user's conversation partner receives the output and inputs a response sentence in the second language by voice, the voice recognition means for recognizing the input voice as a character response sentence in the second language is recognized by the voice recognition means. Second language response similar to a character response sentence Response sentence extraction means for extracting the response sentence in the first language corresponding to the response sentence database, the response sentence in the second language extracted by the response sentence extraction means, the response sentence in the first language, and the speech recognition Display means for displaying the character response sentence recognized by the means.
[0008]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of a communication apparatus according to the present invention will be described with reference to the drawings.
[0009]
(Embodiment 1)
FIG. 1 is a configuration diagram of
[0010]
The interpreter includes a question
[0011]
The question
[0012]
The identification number “0002” in the question
[0013]
The
[0014]
The
[0015]
The
[0016]
When the
[0017]
When the question
[0018]
When a word notification is received as a question sentence, the question sentence including the keyword is selected using the word as a keyword, and the translated question sentence, identification number, and identification number of the response sentence are extracted. To do. For example, when “Airport” and “Time” are notified, a question sentence “How long does it take to get to the airport” of the identification number “0002” including these two keywords is selected. The question
[0019]
Upon receiving a question instruction notification from the
[0020]
The
[0021]
FIG. 4 is a diagram illustrating an example of display contents of the
[0022]
FIG. 5 is a diagram illustrating another example of the display content of the
[0023]
The
[0024]
When the response
[0025]
When the response
[0026]
When selecting a similar response sentence, the words constituting the notified text response sentence are compared with the words constituting the extracted response sentence. If a matching word exists in the response sentence, the response sentence is similar. Select as a response sentence. Further, the display attribute of the matching word in the response sentence is changed so as to be a white inverted display as shown in FIG.
[0027]
In the present embodiment, the similar response sentence is a case where the response sentence includes a word constituting the character response sentence, but the selection of the similar response sentence may be as follows. The response
[0028]
The
[0029]
The word
[0030]
The
[0031]
The
[0032]
In the present embodiment, the voice response sentence “20 minutes by taxi.” Input from the
[0033]
The
[0034]
The case where the voice response sentence “You can go on foot.” Shown in FIG. 7A is input from the
[0035]
The
[0036]
Now, it is assumed that “you”, “can”, “go”, “on”, “foot”, and the like are included in the words constituting the response sentence extracted by the response
[0037]
Thus, since the response sentence for the question sentence is prepared as a standard response sentence in the response
[0038]
Next, the operation of the present embodiment will be described using the flowcharts of FIGS.
[0039]
First, the user inputs a Japanese question sentence from the input operation unit 103 (S902).
[0040]
The question
[0041]
Next, the response
[0042]
The question
[0043]
Next, the
[0044]
The
[0045]
The response
[0046]
Next, details of the operation of S918 will be described in detail with reference to the flowchart of FIG.
[0047]
First, the
[0048]
Subsequently, it is determined whether or not the word candidate matches the word constituting the response sentence in the list of response sentences extracted by the response sentence extraction unit (S1010). If they do not match, the process moves to S1014. If they match, the similarity of the word candidate is corrected to double (S1012).
[0049]
Next, it is determined whether or not there is an unprocessed word candidate (S1014). If there is, the process returns to S1010. If not, word candidates having the highest similarity in each segment are arranged to obtain a character response sentence as a recognition result (S1016). ).
[0050]
As described above, since a standard response sentence for a question sentence is prepared in advance, when a voice response is recognized, a word included in the response sentence becomes a word constituting a character response sentence as a recognition result. High probability can be used. As a result, the accuracy of voice recognition is improved even when the voice response of an unspecified conversation partner is received.
[0051]
(Embodiment 2)
FIG. 11 is a configuration diagram of
[0052]
This interpreter includes a question
[0053]
The same parts as those in the first embodiment are denoted by the same reference numerals, and the description thereof is omitted. Only the constituent parts unique to this embodiment will be described.
[0054]
In addition to the standard response sentence in the second language (English) and the translation response sentence in the first language (Japanese) described in the first embodiment, the
[0055]
Here, the possibility of replacement means that a word constituting a standard response sentence is expected to be replaced with another word, and includes an attribute of a word as a replacement condition.
[0056]
The re-question rule defines a rule for re-questioning when the
[0057]
FIG. 12 is a diagram showing an example of the contents of the
[0058]
The list tables 1201 and 1202 have a “required requirement”
[0059]
Since both words are expected to be replaced with other words, YES 1207 is described in the “replaceability”
[0060]
The corresponding rule when the word “15” or the word that matches the replacement condition is not correctly recognized by speech is described as “KEYBORD” 1208 in the
[0061]
The correspondence rule when the word “minutes” or the word that matches the replacement condition is not correctly recognized by voice is described as “MENU” 1209 in the
[0062]
Similarly, the list 1202 describes whether or not the word constituting the response sentence identified by the identification number “T1005” is “essential requirement”.
[0063]
The word string “by taxi” is an indispensable requirement, the attribute of the word used as a replacement condition is “transportation”, and “STR“ By what? ”” 1210 is described as a re-question rule. Here, the re-question rule “STR“ By what? ”” 1210 means that a question sentence “By what?” Is output to the conversation partner.
[0064]
The
[0065]
The voice pattern “Input numerals with keyboard.” Is stored corresponding to the re-question rule “KEYBOARD” 1208, and the voice pattern “Indicate appropriate menu item.” Is stored corresponding to “MENU” 1209. The voice pattern “By what?” Is stored in correspondence with “STR“ By what? ”” 1211.
[0066]
Upon receiving the re-question rule notification from the response
[0067]
In addition to the configuration described in the first embodiment, the response
[0068]
The response
[0069]
If they do not completely match, it is determined whether or not a different part (similar words in a response sentence) is an essential requirement by looking at the
[0070]
When a different part is an indispensable requirement, whether or not the word has a possibility of replacement is similarly determined by looking at the
[0071]
When there is a possibility of replacement, it is determined whether or not words corresponding to different parts of the character response sentence match the attribute of the word that is the replacement condition. When it is determined that they match, the character response sentence is established as an answer to the question sentence.
[0072]
When it is determined that they do not coincide with each other, an indispensable requirement is missing as an answer to the question sentence.
[0073]
When the re-question rule is “KEYBOARD” 1208, the response
[0074]
When the re-question rule is “MENU” 1209, the re-question rule “MENU” is notified to the
[0075]
When the re-question rule is “STR“ By what? ”” 1210, the re-question rule “STR“ By what? ”” Is notified to the
[0076]
When the response
[0077]
In addition, after notifying the
[0078]
In the first embodiment, the response
[0079]
Note that when the similarity of all candidate characters is equal to or lower than a predetermined threshold in the
[0080]
Now, when an English question sentence “How long does it take to the airport?” Similar to the first embodiment is output from the
[0081]
FIG. 13 shows an example of the content displayed on the
[0082]
In S920, the response
[0083]
Next, the response
[0084]
If it is determined that the question cannot be replaced, it is determined that the question sentence has not been transmitted to the conversation partner, and the
[0085]
When it is determined that the replacement is possible, it is determined whether or not the word of the character response sentence meets the replacement condition (S1408), and if it matches, the process proceeds to S1416. If they do not match, the
[0086]
The
[0087]
The
[0088]
The response
[0089]
In this way, even if the voice response from the conversation partner cannot be recognized once, prepare a re-question according to the content, receive an appropriate input from the conversation partner, Recognition accuracy can be improved.
[0090]
In the above embodiment, Japanese is used as the first language and English is used as the second language. However, in the interpreting apparatus according to the present invention, even if the first language and the second language are reversed, The other language may be the first or second language. In this case, the question
[0091]
Further, in the above embodiment, each unit shown in the configuration diagram shown in FIGS. 1 and 11 performs its function, but a computer readable floppy disk or CD-ROM that can display the program that performs the function of each unit is provided. And so on. By attaching this recording medium to a portable terminal device or the like that does not have a function unique to this interpreting device, an interpreting device having the same function as this device can be obtained.
[0092]
【The invention's effect】
As described above, the present invention responds to a question sentence database storing a pair of a first language question sentence and a second language question sentence translated from the first language question sentence. Response sentence database storing a plurality of standard response sentences in the second language and response sentences in the first language translated from them, input operation means, voice input means, and user in the input operation means A question sentence extracting means for searching the question sentence database for a question sentence in the first language input from the second language and extracting a question sentence in the second language paired with the question sentence database; When the user's conversation partner receives the output and inputs a response sentence in the second language by voice, the voice recognition means for recognizing the input voice as a character response sentence in the second language is recognized by the voice recognition means. Second language response sentence similar to the text response sentence A response sentence extracting means for extracting a corresponding response sentence in the first language from the response sentence database; a response sentence in the second language extracted by the response sentence extracting means; a response sentence in the first language; and the voice recognition means. Display means for displaying the character response sentence recognized in step (b). With such a configuration, the user's conversation partner simply responds by voice as if having a normal conversation, and the response sentence that answered the question sentence is displayed to the user in the first language that the user can understand. You can have a smooth conversation.
[0093]
In addition, the speech recognition means analyzes a speech recognition dictionary storing a word standard pattern and a word corresponding to the word standard pattern, and analyzes a speech input from the speech input means to generate a segment pattern in units of words. The similarity between the segmentation unit that divides into the segment, the segment pattern segmented by the segmentation unit and the word standard pattern stored in the speech recognition dictionary is calculated, and the similarity corresponds to a word standard pattern with a predetermined value or more A candidate word extraction unit that extracts a word to be performed as a candidate word, and a character response sentence generation unit that generates a character response sentence by arranging the candidate words having the highest segment similarity extracted by the candidate word extraction unit. Yes. With such a configuration, the response text of the conversation partner can be recognized as a text response text.
[0094]
The candidate word extraction unit increases the similarity by a predetermined magnification when the extracted candidate word matches the word constituting the response sentence extracted by the response sentence extraction means. With such a configuration, it is possible to improve the recognition accuracy of a voice response sentence by increasing the probability of recognizing a word predicted as a response sentence even with the voice of an unspecified conversation partner. In the response sentence database, whether a word constituting the response sentence is an essential element as a response sentence, and whether the word is expected to be replaced with another word when the word is an essential element. The semantic attribute of the word that is expected to be replaced when it is expected is stored, and the words constituting the character response sentence recognized by the speech recognition means are collated with the words constituting the similar response sentence And a character response sentence determination means for determining that a character response sentence is not established as an answer to a question when a word corresponding to the response sentence is a word that lacks an essential element and is different from the semantic attribute of the word that is expected to be replaced It is going to be equipped with. With such a configuration, it is determined whether or not the character response sentence recognized by the voice recognition means is established as an answer to the question sentence.
[0095]
Further, in the response sentence database, when a word constituting the response sentence is an indispensable element, a re-question rule when the word cannot be recognized is stored, and the character response sentence determination unit includes: When it is determined that the character response sentence does not hold as the answer to the question, an output means for outputting a re-question according to the re-question rule is provided. With such a configuration, a character response sentence that is not recognized as an answer to the question sentence can be made a correctly recognized character response sentence by asking the conversation partner again.
[0096]
In addition, the words constituting the character response sentence displayed on the display means are compared with the words constituting the response sentence of the second language extracted by the response sentence extraction means, and the matching words of the second language are compared. Control means for changing the display attribute of the response sentence is provided. With such a configuration, it becomes easy to understand the response sentence from the conversation partner.
[0097]
In addition, a character response sentence displayed on the display means by attaching the same identifier to the corresponding words constituting the response sentence of the first language and the response sentence of the second language stored in the response sentence database Of the first language response sentence with the same identifier as the matching word is compared with the words constituting the second language response sentence extracted by the response sentence extraction means It is assumed that display control means for changing is provided. With such a configuration, it is possible to clearly know the difference from the content of the first language that the user can understand the response sentence of the second language from the conversation partner.
[0098]
Furthermore, a computer-readable recording medium, a question sentence database storing a pair of a first language question sentence and a second language question sentence translated from the first language question sentence, and a second language question sentence A response sentence database storing in advance a plurality of standard second language response sentences responding to and a first language response sentence translated from them, Computer Search the question sentence database for a question sentence in the first language input from the user by the input operation means, voice input means, and the input operation means, and extract a question sentence in the second language paired therewith. In response to the output of the question sentence extraction means and the extracted second language question sentence, when the user's conversation partner inputs the second language response sentence by voice, the input voice is the second language character response. Response sentence extraction for extracting, from the response sentence database, speech recognition means for recognizing as a sentence, and a response sentence in a first language corresponding to a response sentence in a second language similar to the character response sentence recognized by the speech recognition means Display control means for displaying means, a response sentence in the second language extracted by the response sentence extraction means, a response sentence in the first language, and a character response sentence recognized by the voice recognition means To function as The program is going to be recorded. Accordingly, a portable terminal device that does not have an interpreting function can be used as an efficient interpreting device.
[Brief description of the drawings]
FIG. 1 is a configuration diagram of
FIG. 2 is a diagram showing an example of contents of a question sentence translation database according to the embodiment.
FIG. 3 is a diagram showing an example of contents of a response sentence database according to the embodiment.
FIG. 4 is a diagram showing an example of contents displayed on the display unit of the embodiment.
FIG. 5 is a diagram showing another example of contents displayed on the display unit of the embodiment.
FIG. 6 is a diagram showing an example of the contents of the speech recognition dictionary of the embodiment.
FIG. 7A shows an example of a character response sentence of a voice response input to the voice input unit of the embodiment.
(B) is an explanatory diagram showing a state in which word candidates are recognized by dividing the speech signal into speech patterns of each segment in a word unit in the speech recognition unit of the embodiment.
FIG. 8 is an explanatory diagram showing how a character response sentence is recognized by correcting the similarity of word candidates in the speech recognition unit of the embodiment.
FIG. 9 is a flowchart for explaining the operation of the embodiment.
FIG. 10 is a flowchart for explaining the detailed operation of S918 in FIG. 9;
FIG. 11 is a configuration diagram of
FIG. 12 is a diagram illustrating an example of contents of a response sentence database according to the embodiment.
FIG. 13 is a diagram showing an example of content displayed on the display unit of the embodiment.
FIG. 14 is a flowchart illustrating the operation of the embodiment.
[Explanation of symbols]
101 Question translation database
102, 1101 Response sentence database
103 Input operation unit
104 Question sentence selection part
105 display
106, 1102 Audio output unit
107, 1103 Response sentence extraction unit
108 Speech recognition dictionary
109 Voice input unit
110 Voice recognition unit
Claims (8)
第2言語の質問文に応答する標準的な複数の第2言語の応答文と、それらを翻訳した第1言語の応答文とを記憶している応答文データベースと、
入力操作手段と、
音声入力手段と、
前記入力操作手段でユーザから入力された第1言語の質問文を前記質問文データベースを検索し、それと対になっている第2言語の質問文を抽出する質問文抽出手段と、
抽出された第2言語の質問文の出力を受けてユーザの会話相手が第2言語の応答文を音声で入力した場合に、入力された音声を第2言語の文字応答文として認識する音声認識手段と、
前記音声認識手段で認識された文字応答文に類似する第2言語の応答文と対応する第1言語の応答文とを前記応答文データベースから抽出する応答文抽出手段と、
前記応答文抽出手段で抽出された第2言語の応答文と第1言語の応答文と前記音声認識手段で認識された文字応答文とを表示する表示手段と
を備えることを特徴とする通訳装置。A question sentence database storing a question sentence in a first language and a question sentence in a second language into which the question sentence is translated;
A response sentence database storing a plurality of standard second language response sentences responding to a second language question sentence, and a first language response sentence obtained by translating them;
Input operation means;
Voice input means;
A question sentence extraction means for searching the question sentence database for a question sentence in a first language input from a user by the input operation means, and extracting a question sentence in a second language paired therewith;
Speech recognition that recognizes the input speech as a second language character response when the user's conversation partner inputs the second language response in response to the output of the extracted second language question. Means,
A response sentence extraction means for extracting a response sentence in a first language corresponding to a response sentence in a second language similar to a character response sentence recognized by the voice recognition means, from the response sentence database;
An interpreting device comprising: a second language response sentence extracted by the response sentence extraction means; a first language response sentence; and a character response sentence recognized by the voice recognition means. .
単語標準パターンとその単語標準パターンに対応する単語とを記憶している音声認識辞書と、
前記音声入力手段から入力された音声を分析して単語単位のセグメントのパターンに分割する分割部と、
前記分割部で分割されたセグメントのパターンと前記音声認識辞書に記憶されている単語標準パターンとの類似度を計算し、類似度が所定値以上の単語標準パターンに対応する単語を候補単語として抽出する候補単語抽出部と、
前記候補単語抽出部で抽出された各セグメント類似度の最大の候補単語を並べて文字応答文を生成する文字応答文生成部と
を有することを特徴とする請求項1記載の通訳装置。The voice recognition means
A speech recognition dictionary storing word standard patterns and words corresponding to the word standard patterns;
A dividing unit that analyzes the voice input from the voice input means and divides the voice into segment patterns;
The similarity between the segment pattern divided by the dividing unit and the word standard pattern stored in the speech recognition dictionary is calculated, and words corresponding to the word standard pattern having a similarity equal to or higher than a predetermined value are extracted as candidate words. A candidate word extraction unit to
The interpreting apparatus according to claim 1, further comprising: a character response sentence generation unit that generates a character response sentence by arranging candidate words having the highest segment similarity extracted by the candidate word extraction unit.
前記音声認識手段で認識された文字応答文を構成する単語と前記類似する応答文を構成する単語とを照合し、必須の要素を欠き、かつ、置換が予想される単語の意味属性と異なる単語を応答文に対応する単語とするとき文字応答文が質問の答えとして成立しないと判断する文字応答文判断手段を備えることを特徴とする請求項1記載の通訳装置。In the response sentence database, whether a word constituting the response sentence is an essential element as a response sentence, and whether the word is expected to be replaced with another word when it is an essential element, The semantic attributes of the words that are expected to be replaced are stored,
A word that constitutes a character response sentence recognized by the voice recognition means is compared with a word that constitutes a similar response sentence, lacks an essential element, and differs from a semantic attribute of a word that is expected to be replaced 2. The interpreting apparatus according to claim 1, further comprising: a character response sentence determination unit that determines that a character response sentence is not established as an answer to a question when the word is a word corresponding to the response sentence.
前記文字応答文判断手段が、文字応答文が質問の答えとして成立しないと判断したとき、 前記再質問規則に応じた再質問を出力する出力手段を備えることを特徴とする請求項4記載の通訳装置。In the response sentence database, when a word constituting the response sentence is an essential element, a re-question rule when the word cannot be recognized is stored,
The interpreter according to claim 4, further comprising an output unit that outputs a re-question according to the re-question rule when the character response sentence determination unit determines that the character response sentence is not established as an answer to the question. apparatus.
前記表示手段に表示される文字応答文を構成する単語と前記応答文抽出手段で抽出された第2言語の応答文を構成する単語とを比較し、一致する単語と同一の識別子が付された前記第1言語の応答文の表示属性を変更する表示制御手段を備えることを特徴とする請求項1乃至5のいずれかに記載の通訳装置。The same identifier is attached to the corresponding words constituting the response sentence in the first language and the response sentence in the second language stored in the response sentence database,
The word constituting the character response sentence displayed on the display means is compared with the word constituting the response sentence of the second language extracted by the response sentence extraction means, and the same identifier as the matching word is attached. 6. The interpreting apparatus according to claim 1, further comprising display control means for changing a display attribute of the response sentence in the first language.
第1言語の質問文とそれを翻訳した第2言語の質問文とを対にして記憶している質問文データベースと、
第2言語の質問文に応答する標準的な複数の第2言語の応答文と、それらを翻訳した第1言語の応答文とを記憶している応答文データベースとを予め記録し、
コンピュータを、
入力操作手段と、
音声入力手段と、
前記入力操作手段でユーザから入力された第1言語の質問文を前記質問文データベースを検索し、それと対になっている第2言語の質問文を抽出する質問文抽出手段と、
抽出された第2言語の質問文の出力を受けてユーザの会話相手が第2言語の応答文を音声で入力した場合に、入力された音声を第2言語の文字応答文として認識する音声認識手段と、
前記音声認識手段で認識された文字応答文に類似する第2言語の応答文と対応する第1言語の応答文とを前記応答文データベースから抽出する応答文抽出手段と、
前記応答文抽出手段で抽出された第2言語の応答文と第1言語の応答文と前記音声認識手段で認識された文字応答文とを表示させる表示制御手段
として機能させるためのプログラムを記録した記録媒体。A computer-readable recording medium,
A question sentence database storing a question sentence in a first language and a question sentence in a second language into which the question sentence is translated;
A pre-recorded response sentence database storing a plurality of standard second language response sentences responding to the second language question sentences and a first language response sentence obtained by translating them;
Computer
Input operation means;
Voice input means;
A question sentence extraction means for searching the question sentence database for a question sentence in a first language input from a user by the input operation means, and extracting a question sentence in a second language paired therewith;
Speech recognition that recognizes the input speech as a second language character response when the user's conversation partner inputs the second language response in response to the output of the extracted second language question. Means,
A response sentence extraction means for extracting a response sentence in a first language corresponding to a response sentence in a second language similar to a character response sentence recognized by the voice recognition means, from the response sentence database;
Display control means for displaying the response sentence in the second language extracted by the response sentence extraction means, the response sentence in the first language, and the character response sentence recognized by the voice recognition means.
A recording medium on which a program for functioning as a recording medium is recorded.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25436198A JP3993319B2 (en) | 1998-09-08 | 1998-09-08 | Interpreting device and recording medium storing program for exerting functions of interpreting device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25436198A JP3993319B2 (en) | 1998-09-08 | 1998-09-08 | Interpreting device and recording medium storing program for exerting functions of interpreting device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000090087A JP2000090087A (en) | 2000-03-31 |
JP3993319B2 true JP3993319B2 (en) | 2007-10-17 |
Family
ID=17263930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP25436198A Expired - Fee Related JP3993319B2 (en) | 1998-09-08 | 1998-09-08 | Interpreting device and recording medium storing program for exerting functions of interpreting device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3993319B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100389451B1 (en) * | 1999-10-13 | 2003-06-27 | 주식회사 코스모탄 | Apparatus For Study Aid Using Replay of a Stored Question/Answer Sentence |
US6721704B1 (en) * | 2001-08-28 | 2004-04-13 | Koninklijke Philips Electronics N.V. | Telephone conversation quality enhancer using emotional conversational analysis |
JP3818127B2 (en) * | 2001-11-08 | 2006-09-06 | 株式会社デンソー | Taxi reservation system, reservation terminal, in-vehicle device |
JP3962767B2 (en) * | 2004-10-08 | 2007-08-22 | 松下電器産業株式会社 | Dialogue support device |
JP4100637B2 (en) | 2005-12-08 | 2008-06-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Translation apparatus, method, program, and translation support service providing method |
JP2008158985A (en) * | 2006-12-26 | 2008-07-10 | Sharp Corp | Electronic equipment and control method therefor |
JP2017167659A (en) | 2016-03-14 | 2017-09-21 | 株式会社東芝 | Machine translation device, method, and program |
-
1998
- 1998-09-08 JP JP25436198A patent/JP3993319B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000090087A (en) | 2000-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9484034B2 (en) | Voice conversation support apparatus, voice conversation support method, and computer readable medium | |
KR101694286B1 (en) | Apparatus and method for providing two-way automatic interpretation and tranlating service | |
WO2016067418A1 (en) | Conversation control device and conversation control method | |
KR20190109614A (en) | Method and apprartus for chatbots in customer service analyzing hierarchical user expression and generating responses | |
KR102041621B1 (en) | System for providing artificial intelligence based dialogue type corpus analyze service, and building method therefor | |
JPH10207988A (en) | Method and device for character recognition | |
KR20160029587A (en) | Method and apparatus of Smart Text Reader for converting Web page through TTS | |
JP5073024B2 (en) | Spoken dialogue device | |
JP3993319B2 (en) | Interpreting device and recording medium storing program for exerting functions of interpreting device | |
WO2017206861A1 (en) | Human-machine conversation platform | |
JP4940606B2 (en) | Translation system, translation apparatus, translation method, and program | |
JP3441400B2 (en) | Language conversion rule creation device and program recording medium | |
JP3825645B2 (en) | Expression conversion method and expression conversion apparatus | |
JP3758241B2 (en) | Voice information retrieval device | |
JP4007630B2 (en) | Bilingual example sentence registration device | |
JPS63228326A (en) | Automatic key word extracting system | |
JPWO2005076259A1 (en) | Voice input system, voice input method, and voice input program | |
Garg et al. | Conversion of Native Speech into Indian Sign Language to Facilitate Hearing Impairment | |
JP2006018622A (en) | Information processing system, information processor, information processing method, program, and recording medium | |
KR100341397B1 (en) | Method of Solving the Unknown String of Concepts in a Concept-based Machine Translation System | |
JP2022026752A (en) | Knowledge database generation device, program, and automated answering system | |
JPH06332934A (en) | Device for referring to electronic dictionary | |
JPH05242147A (en) | Natural language interpreting method | |
JP3048793B2 (en) | Character converter | |
JP2020052778A (en) | Character correction support system, character correction support method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050829 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070522 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070614 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070703 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070726 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100803 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110803 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110803 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120803 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130803 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |