JPH07129594A - Automatic interpretation system - Google Patents

Automatic interpretation system

Info

Publication number
JPH07129594A
JPH07129594A JP5272476A JP27247693A JPH07129594A JP H07129594 A JPH07129594 A JP H07129594A JP 5272476 A JP5272476 A JP 5272476A JP 27247693 A JP27247693 A JP 27247693A JP H07129594 A JPH07129594 A JP H07129594A
Authority
JP
Japan
Prior art keywords
input
unit
means
speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5272476A
Other languages
Japanese (ja)
Inventor
Masaie Amano
Kimito Takeda
真家 天野
公人 武田
Original Assignee
Toshiba Corp
株式会社東芝
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, 株式会社東芝 filed Critical Toshiba Corp
Priority to JP5272476A priority Critical patent/JPH07129594A/en
Publication of JPH07129594A publication Critical patent/JPH07129594A/en
Application status is Pending legal-status Critical

Links

Abstract

PURPOSE:To provide an automatic interpretation system capable of dealing with various situation occurring in process of usage, such as the occurrence of an erroneous voice recognition, erroneous translation, etc. CONSTITUTION:This system is provided with plural input/output means provided with voice input parts 3 and 7 for inputting conversation, instruction input parts 2 and 6 for inputting instruction information, voice output parts 4 and 8, and display parts 1 and 5 and added with attributes showing the languages of mutually different kinds. The system is also provided with a voice recognition means 10 voice-recognizing a speech from the voice input part included in one input/output means based on the attribute and coding it, an automatic bi- directional translation means 12 translating the code into a code corresponding to a language with another attribute, a voice generation means 11 converting the code into voice and a conversation means 13 conversing with the operator of the one input/output means, namely a speaking person, for confirming a result when the recognition result or the translation result of the speech can not be specified and conversing about the conversation with the operator of the other input/output means, namely a hearing person, during conversation.

Description

【発明の詳細な説明】 DETAILED DESCRIPTION OF THE INVENTION

【0001】 [0001]

【産業上の利用分野】本発明は、異なる言語の話者が互いに自国の言語で対話することを可能とする自動通訳システムに関する。 The present invention relates to an automatic interpretation system that allows the speaker of different languages ​​to interact in their own language to each other.

【0002】 [0002]

【従来の技術】従来、互いに異なる言語の話者が対話するシステムとしては、ポータブル翻訳機のように、2か国語以上の簡単な対訳辞書とキーボードと、1行程度の液晶表示部を持ち、キーボードから入力された複数の単語をそのままの順序で次々と辞書を引き、表示することを基本としたものがあるだけであった。 Conventionally, as a system for dialogue speaker of different languages, such as portable translation machine, has a bilingual more simple bilingual dictionary and keyboard, the liquid crystal display portion of the order of one line, one after another up in the dictionary a plurality of words that have been entered from the keyboard without changing the order was only what was basic to display. これは、翻訳機という名がつけられているが、言語の文法解析、意味解析などは行なわないので正しい翻訳は出力されず、単なる辞書引きツールに過ぎないものであった。 This is, although the name is given that the translator, grammar analysis of the language, correct translation does not take place, such as semantic analysis is not output, it was merely a mere dictionary lookup tool.

【0003】この装置では、例えば、 かれ レストラン いく と入力すると、 HE RESTAURANT GO のように単語がでてくるだけであった。 [0003] In this device, for example, if you enter him go restaurants, was only come out words as HE RESTAURANT GO. このような装置は、すぐに分かるように、複雑な文章に対しては全く実用にならない。 Such a device, as can be seen immediately, not at all in practical use for a complex sentence. また、簡単な文章でさえ、助詞などの機能語は辞書にその意味を記述することができないため、 In addition, since even simple sentences, function words such as particle may not be able to describe its meaning in the dictionary,
意味がまったく逆の翻訳になることもある。 Meaning is sometimes exactly the reverse of the translation. 例えば、 For example,
「太郎を花子は好きだ。」という意味を、次のように入力すると、 Taro Hanako 好き Taro Hanako like となり、どちらが、どちらを好きなのか全く分からないし、場合によっては太郎が花子を好きだと誤解されてしまうこともあり得る。 "Taro Hanako likes." Meaning that, if you type in the following manner, misunderstanding Taro Hanako favorite Taro Hanako like next, which is, do not know exactly either the likes, and likes the Taro Hanako in some cases It may sometimes cause is.

【0004】一方、本格的な自動翻訳システムとしては、原言語の文法解析、意味解析を行なうとともに、対象言語の生成過程を有する機械翻訳システムが、文書翻訳の領域で実用化されている。 On the other hand, as a full-fledged automatic translation systems, syntax analysis of the source language, and performs semantic analysis, machine translation system having a production process of the target language, has been put into practical use in the area of ​​document translation.

【0005】しかし、これらは専ら文書翻訳に用いられ、対話をするための装置になっていない。 [0005] However, these are used exclusively to document translation, not in the device for a dialogue. 典型的には、2言語以上の言語を同時に翻訳するような構成にはなっておらず、たとえ双方向翻訳機能をもっていても、 Typically, 2 not become the structure to translate the language or languages ​​simultaneously, even though with a two-way translation function,
一度、一つ翻訳方向の翻訳を終了してから、逆方向の翻訳プログラムを読び出すという手順が必要であった。 Once, from the end of one translation direction translation, procedure of the reverse direction of the translation program read beauty was necessary.

【0006】また、従来の翻訳機はキーボード入力で原文を入力しており、音声入力によることはできなかった。 [0006] In addition, the conventional translation machine and enter the original text with the keyboard input, it has not been possible due to the audio input. 一方、音声による通訳システムも研究されているが、現在では、発話された音声を音声認識し、それを単純に機械翻訳部に通し、翻訳された結果を音声生成部で音声に変換するだけのものであり、音声認識誤り、翻訳誤りが起った時にどう対処するか等の実用的な問題に対する配慮はされていないなどの問題があった。 Although interpretation system has also been studied by voice, at present, a voice uttered voice recognition, it simply passed through the machine translation unit, of the result of the translation by converting the audio speech generator are those, there are problems such as not being what has been a consideration for practical problems such as how to deal with when the voice recognition error, the translation error had happened.

【0007】 [0007]

【発明が解決しようとする課題】このように従来では、 [Problems that the Invention is to Solve] In this manner, in the past,
2か国語の話者が自由に音声で対話できる完全な通訳機は実現されていなかった。 Two languages ​​of the speaker was not a complete interpreter machine that can interact with free speech is realized. 本発明は、上記事情に鑑みてなされたもので、音声認識誤り、翻訳誤りの発生などのような使用中に生ずる様々な状況に対処できる自動通訳システムを提供することを目的とする。 The present invention has been made in view of the above circumstances, and an object thereof is to provide an automatic interpretation system that can cope with various situations which occur during use, such as the occurrence of speech recognition errors, translational errors.

【0008】 [0008]

【課題を解決するための手段】本発明に係る自動通訳システムでは、発話を入力するための音声入力部、指示情報を入力するための指示入力部、与えられた音声信号を音声に変換して出力する音声出力部および与えられた情報を表示する表示部を有し、互いに異なる種類の言語を示す属性が付与された複数の入出力手段と、前記複数の入出力手段のうち一つの入出力手段に含まれる前記音声入力部から入力された発話を、該一つの入出力手段に付与された前記属性に基づいて音声認識し対応するコードまたはコード列を生成する音声認識手段と、該コードまたはコード列を、前記一つの入出力手段の他の入出力手段に付与された属性が示す種類の言語に対応するコードまたはコード列にそれぞれ翻訳する双方向自動翻訳手段と、該コードまた In automatic interpretation system according to the present invention SUMMARY OF THE INVENTION, the speech input unit for inputting a speech, and converts an instruction input section for inputting an instruction information, the audio signal applied to the voice a display unit for displaying information sound output section and a given output, a plurality of input and output means is an attribute indicating the different kinds of languages ​​mutually granted, the input and output of one of said plurality of input means speech input from the speech input unit included in the unit, a voice recognition unit for generating a corresponding code or code sequence to the speech recognition based on the attribute given to the input-output means of the one, the coding or the code sequence, two-way automatic translation means for translating each of the code or code sequence corresponding to the type of language indicated imparted attributes to other input and output means of said one input means and said coding コード列を、前記音声出力部に与えるための音声信号に変換する音声生成手段と、前記音声認識手段が前記入力された発話に対する認識結果を特定できなかった場合または前記双方向自動翻訳手段が該音声認識手段によって生成された前記コードまたはコード列に対する翻訳結果を特定できなかった場合に、該認識または該翻訳の結果に対する確認のための確認処理を前記一つの入出力手段に含まれる前記音声入力部および前記指示入力部の少なくとも一方ならびに前記音声出力部および前記表示部の少なくとも一方を用いて行うとともに、該確認処理が行われる間、前記他の入出力手段に含まれる前記表示部および前記音声入力部の少なくとも一方に該確認処理に関する情報を出力する対話手段とを備えたことを特徴とする。 The code string, a sound generating means for converting the audio signals to be supplied to the audio output unit, the speech recognition means may not be identified or the automatic bidirectional translation means a recognition result for said input speech said if you can not identify the translation result for said code or code sequence generated by the speech recognition means, the speech input includes a confirmation process for confirmation of the result of the recognition or 該翻 translation to said one input means At least one of the parts and the instruction input section and performs using at least one of the audio output unit and the display unit, while the confirmation process is performed, the display unit and the audio included in the other of the input and output means characterized in that a dialogue means for outputting information relating to the confirmation process at least one of the input section.

【0009】また、好ましくは、前記音声入力部から入力された前記発話を前記音声認識手段に与えるとともに、前記他の入出力手段に含まれる音声出力部から該発話をそのまま出力させるように構成すると良い。 Further, preferably, together with providing the speech input from the speech input unit to the speech recognition means, when configured as to output the emitting talk from the audio output unit included in the other of the input and output means good.

【0010】また、前記音声認識手段は、前記発話が前記音声入力部から入力される際に前記指示入力部から与えられた該発話の中の少なくとも1つの字種を特定する情報を用いて、該発話を音声認識するように構成しても良い。 Further, the voice recognition unit, using the information identifying at least one character types in the emitting story given from the instruction input unit when the utterance is input from the voice input unit, emitting story may be configured to recognize speech.

【0011】さらに、発話者が、前記指示入力部および前記音声入力部の少なくとも一方を用いて、自分の発話が終了したことを該自動通訳システムに伝えるように構成すると好ましい。 Furthermore, speaker, using at least one of the instruction input section and the voice input unit, preferably that his utterance is completed configured to transmit to the automatic interpretation system. また、発話者が、前記指示入力部および前記音声入力部の両方を用いて発話を入力するように構成しても良い。 Further, the speaker may also be configured to input speech using both the instruction input unit and the audio input unit.

【0012】 [0012]

【作用】この結果、本発明(請求項1)によれば、2以上の各入出力手段は、それぞれ処理対象とする言語の種類が予め決定されており、いずれかの入出力手段の音声入力部から発話が入力されると、音声認識手段は該発話を前記属性が示す種類の言語として音声認識し、双方向自動翻訳手段はこの認識結果を他の言語に翻訳し、音声生成手段はこの翻訳結果を音声信号に変換し、翻訳した言語に対応する音声出力部はこの音声信号を音声に変換して出力する。 [Action] As a result, according to the present invention (claim 1), 2 or more of each input and output means, the type of language to be respectively processed are predetermined, voice input of any input means When speech is input from the section, the speech recognition means is voice recognition as the type of language that indicates the emitting story the attributes, the interactive automatic translation means to translate this recognition result to other languages, the sound generation means is this the translation result is converted into an audio signal, an audio output unit corresponding to the translated language outputs converts the audio signal to the audio. ここで、発話者の発話を音声認識した結果、音声認識に失敗した場合、または音声認識は成功したものとして処理され、翻訳の段階で失敗した場合のいずれの場合も、対話部を通じて認識または翻訳できなかった部分を前記一つの入出力手段の操作者である発話者と対話しながら修正するとともに、対話部は該修正のために発話者と対話している間、前記他の入出力手段の操作者である一人または複数人の聞き手の対話相手に対して、しばらく待つ旨などを知らせたり、聞き手に状況を逐一知らせたり、問い合わせに答えるような対話相手になるなどして、聞き手に無音時間を生じさせることを防ぐ。 Here, the result of speech recognition of utterances of a speaker, if it fails to speech recognition, or speech recognition is treated as successful, in either case of failure in the translation stage, recognition or translation through dialogue unit with part could be modified to interact with the speaker who is an operator of the one of the input and output means, while dialogue unit is interacting with speaker for the modification, the other input means who is an operator with respect to one or more persons of the listener's dialogue partner, or news and that the wait for a while, or to point-by-point know the situation in the listener, by, for example, become dialogue partner, such as answer to a query, silent time the listener prevent the cause.

【0013】また、前記対話手段は、音声を用いるのに加えて、表示部や指示入力部を使い文字や記号などで行うこともできるので、音声のみによる修正情報が再び音声認識に失敗することによる再修正が生ずることを防ぐことができる。 [0013] The interaction means, in addition to use of sound, since it may be performed in a display unit or an instruction using the input unit characters and symbols, that only by modifying information speech fails again speech recognition that the re-correction by occurs can be prevented.

【0014】また、本発明(請求項2)によれば、前記一つの入出力手段に含まれる音声入力部から入力された前記発話を前記他の入出力手段に含まれる音声出力部からそのまま出力させる。 Further, according to the present invention (Claim 2), as it is output from the audio output unit included the speech input from the speech input unit included in the one of the input and output means to said other input means make. 従って、前記他の入出力手段の操作者である聞き手が前記一つの入出力手段の操作者である対話相手の発話状況を相手の肉声と背景状況をモニターできる。 Accordingly, the other of the operator and is dialogue partner speech status of the operator and it listener said one input means of the input and output means can monitor the real voice and background status of the other party.

【0015】すなわち、音声通訳された応答が、音声生成部による合成音であると、発話相手に関する情報が得られなず、はなはだしい場合、女性の話し手の声が男性音で合成される可能性もあるが、上記によって、相手の性別、年齢、イントネーションによる会話の焦点、感情などの情報が、相手の肉声によって得られ、また、相手が一人なのか、誰かと相談しながら話しているのかなどの状況や、相手のいる場所の背景音など通常の電話のように相手の置かれた状況についての情報を得ることができる。 [0015] That is, the response that is speech interpreter and a synthetic sound by sound generating unit, a no information is available about the speech partner extreme case, a possibility that the voice of women speaker is synthesized in men sound there is, by the above, the other party of gender, age, the focus of the conversation by the intonation, information such as emotion, obtained by the other party of the human voice, also, whether the opponent is the one person, such as someone with what are talking with consultation of situation and, it is possible to obtain information about the status placed the opponent like a regular phone, such as background sound of the place where the opponent.

【0016】一方、上記対話部の動作中に対話相手と該自動通訳システムの会話をモニターできるので、聞き手の待ち時間が長くなった場合、話者と応答部との会話をモニターすることにより、意味は分からなくても、状況認識に役立たせることも可能である。 [0016] On the other hand, it is possible to monitor the conversation of the dialogue partner and the automatic interpretation system during operation of the dialogue unit, if the listener waiting time is longer, by monitoring the conversation with the speaker and the response unit, meaning is also not known, it is also possible to assist in situational awareness.

【0017】また、本発明(請求項3)によれば、話し手は発話入力の際に、該発話の中の少なくとも1つの字種を特定する情報を前記指示入力部からシステムに与え、前記音声認識手段は、この情報を用いて該発話を音声認識する。 Further, according to the present invention (claim 3), the speaker during speech input, gives information for specifying at least one character types in the emitting talking to the system from the instruction input unit, the voice recognition means, voice recognize emitting story using this information.

【0018】従って、例えば英語では大文字か小文字か、日本語では普通名詞か固有名詞か、などの区別等の音声のみによっては伝えることの難しい言語情報を用いて該発話を音声認識するので、音声認識の性能が高められる。 [0018] Thus, for example, either upper or lower case letters in English, or a common noun or a proper noun in Japanese, because it recognizes voice emitting talk with the difficult language information of the things that tell only by the sound of distinction, etc., such as, voice the performance of the recognition is enhanced.

【0019】 [0019]

【実施例】以下、図面を参照しながら実施例を説明する。 EXAMPLES Hereinafter, the embodiment will be described with reference to the accompanying drawings. 図1は、本発明の一実施例に係る自動通訳システムを示す概略構成図である。 Figure 1 is a schematic configuration diagram illustrating an automatic interpretation system according to an embodiment of the present invention. この自動通訳システムは、異なる言語で話す2人の話者Aおよび話者Bの間の通訳を行うものであり、例えば自動翻訳電話や同時通訳機といったシステムに適用できる。 The automatic interpretation system, which performs the interpretation between the two speakers A and B speaker to speak in a different language, can be applied to, for example, a system such as automatic translation phone and simultaneous interpretation equipment.

【0020】図のように、該自動通訳システムは、表示部1、入力部2、マイクロフォン3およびスピーカ4からなる話者A用の第1の入出力部、表示部5、入力部6、マイクロフォン7およびスピーカ8からなる話者B [0020] As Figure, the automatic interpretation system includes a display unit 1, an input unit 2, a first output unit for speaker A consisting of the microphone 3 and the loudspeaker 4, a display unit 5, an input unit 6, a microphone 7 and the speaker B consisting of a speaker 8
用の第2の入出力部、制御部9、音声処理部20および自動通訳部30を備える。 Second input-output unit of use, a control unit 9, the audio processing unit 20 and automatic interpretation unit 30. また、音声処理部20は音声認識部10および音声生成部11を有し、自動通訳部1 The audio processing unit 20 includes a voice recognition unit 10 and the sound generating unit 11, the automatic interpretation unit 1
5は双方向自動翻訳部12と、自然言語理解部14および自然言語生成部15からなる対話部13とを有する。 5 has a bidirectional automatic translation portion 12, a dialogue unit 13 composed of a natural language understanding unit 14 and the natural language generation unit 15.

【0021】第1の入出力部および第2の入出力部はそれぞれ、予め使用する言語の種類を決めておく。 [0021] Each of the first output unit and the second input-output section, is determined in advance the kind of language to be used previously. ここでは、各入出力部に対して言語の種類を示す属性を付与しておくものとする。 Here, it is assumed to be assigned an attribute indicating the type of languages ​​for each output unit.

【0022】表示部1,5は、当該システムの使用者に情報を伝えるために、文字や記号などの可視情報を表示するためのものであり、液晶パネルなどにより構成される。 The display unit 1 and 5, in order to convey information to a user of the system is for displaying visual information such as characters and symbols, constituted by a liquid crystal panel. 入力部2,6は、文字や記号など音声以外により発話や後述する確認用処理などに関する指示情報を入力するためのものであり、例えばキーボードマウスやタッチパネル等から構成される。 The input unit 2 and 6 is used for inputting instruction information such as confirmation processing described later speech and the non-voice such as characters and symbols, for example, a keyboard mouse, a touch panel, or the like.

【0023】マイクロフォン3,7は、話者の音声発話を入力するためのものである。 [0023] The microphone 3 and 7, is used to input a voice utterance of the speaker. スピーカ4,8は、音声生成部11からの出力を発声する。 Speaker 4,8, uttering output from the sound generation unit 11. 制御部9は、当該システム全体の動作を制御するものであり、2種類の言語における翻訳の方向、各種情報の流れの方向、情報のアドレスなど全てに渡って管理・制御する。 Control unit 9 is for controlling the operation of the entire system, the direction of translation in two languages, the direction of the flow of various information, manages and controls over all such address information.

【0024】音声認識部10は、マイクロフォン3,7 [0024] The voice recognition unit 10, a microphone 3, 7
から入力された音声を前記属性に基づいて認識する。 It recognizes, based on the attribute of the voice input from. 音声生成部11は、自動翻訳部12からの出力および対話部13からの出力を音声化する。 Sound generation unit 11 speech the output from the output and the dialogue unit 13 from the automatic translation unit 12.

【0025】双方向自動翻訳部12は、音声認識部10 [0025] The two-way automatic translation unit 12, the voice recognition unit 10
から送出されてくる発話者の発話を対話相手方言語に翻訳する。 An utterance of a speaker to come sent to translate to the interactive counterpart language from. 対話部13は、認識結果や翻訳結果に曖昧性があるときのように話し手に対する確認や再度の音声入力が必要な場合に、自然言語理解部14および自然言語生成部15を用いて、当該システムが話し手と対話するとともに、この対話中に当該システムが聞き手と対話するものである。 Dialogue unit 13, when the recognition result or the translation result is required confirmation for speaker and again audio input, such as when there is ambiguity, using natural language understanding unit 14 and the natural language generation unit 15, the system with but interact with the speaker, in which the system interacts with the listener during the conversation. この対話のための入出力も双方向自動翻訳部12と同じ経路を通って運ばれる。 Output for this interaction is also conveyed through the same path as the automatic bidirectional translation section 12.

【0026】自然言語理解部14は、発話者の発話が、 [0026] The natural language understanding unit 14, the speech of the speaker,
曖昧性の解消に対する入力の場合には、自然言語で入力された文章に対して構文・意味解釈を行い、発話者の指示を解釈する。 In the case of the input to the elimination of ambiguity, it performs a syntactic and semantic interpretation for the sentence that has been entered in the natural language, to interpret the instructions of the speaker.

【0027】自然言語生成部15は、音声認識部10で認識された音声認識結果に曖昧性が生じた場合、または双方向自動翻訳部12で翻訳結果に曖昧性が生じた場合に、発話者へ曖昧性があることを知らせる文章を作成する。 The natural language generator 15, if ambiguity recognized speech recognition result by the voice recognition unit 10 may occur, or that ambiguity translation result in two-way automatic translation portion 12 has occurred, the speaker to create a sentence stating that there is an ambiguity to.

【0028】例えば、音声認識結果に曖昧性がある場合、「音声認識に曖昧性があります。つぎの2つのうち、どちらが正しいか番号で答えてください。1.かたしはがくせいです 2.わたしはがくせいです」を作成する。 [0028] For example, if there is ambiguity in the speech recognition result, "there is ambiguity in speech recognition. Of the two the next, which is .1 Please answer with the correct or number. Solidified is a student 2. I to create a student is ". この作成された文章は、話し手側の表示部に出力されるとともに、音声生成部11に送られ、音声化されて発話に知らせられる。 The created text is output to the display unit of the speaker side is transmitted to an audio generation unit 11, is notified to the speech is voiced.

【0029】発話者は、スピーカに音声出力されたメッセージまたは表示部に表示されたメッセージで、曖昧性があることを知ると、解消する文章を自然言語で入力する。 The speaker is a displayed message on the message or the display unit is an audio output to the speaker, knowing that there is ambiguity, enter the text to be eliminated by natural language. 例えば、「2番が正解です」と入力する。 For example, enter "No. 2 is the correct answer." この入力は、自然言語14で解釈が行われ、2番目の文章に該当する「わたしはがくせいです」が選択される。 This input is performed is interpreted in natural language 14, corresponding to the second sentence, "I am a student" is selected.

【0030】図2は、自動通訳システムの動作を表すフローチャートである。 FIG. 2 is a flowchart showing the operation of the automatic interpretation system. 以下、図2を参照しながら、自動通訳システムの動作を説明する。 Hereinafter, with reference to FIG. 2, the operation of the automatic interpretation system. ここでは、話者Aが話し手となり、話者Bが聞き手となっている状態であるものとする。 In this case, the speaker A becomes the speaker, the speaker B is assumed to be a state that is the listener. また、話者Aは日本語を用い、話者Bは英語を用いるものとする。 In addition, the speaker A is using the Japanese, speaker B is assumed to use the English.

【0031】a)認識および通訳がそれぞれ一回で成功した場合は、処理の流れは次のようになる。 [0031] a) recognition and interpretation if successful in one each, flow is as follows. 発話者Aの発話はまず、マイクロフォン3で入力される(ステップ1)。 Utterance of a speaker A is first input by the microphone 3 (Step 1).

【0032】入力された音声発話(例えば「わたしはがくせいです」)は、制御部9によって音声認識部10に送られ、ここで前記属性に基づいてコード化される(ステップ2)。 The input speech utterance (e.g., "I am a student") is sent to the voice recognition unit 10 by the control unit 9, where it is coded based on the attribute (step 2).

【0033】コード化された発話(すなわちコードまたはコード列)は、制御部9を介して自動翻訳部12に送られ、ここで相手方である話者Bの用いる言語による文章(例えば「I am a student.」)に対応するコードまたはコード列に翻訳される(ステップ4)。 The coded speech (i.e. the code or code sequence) is sent to the automatic translation unit 12 via the control unit 9, where the sentence in the language used with the speaker B is a counterpart (e.g., "I am a student. ") is translated into the corresponding code or code sequence in (step 4).

【0034】翻訳された結果は、再び制御部9を通って音声生成部11に送られ、音声化される(ステップ7)。 The result of the translation is sent to the voice generator 11 via the control unit 9 again, it is voiced (step 7). 音声化された発話は、制御部9により、相手方B Voiced utterance, the control unit 9, the other party B
のスピーカ8に送られ、音声出力される(ステップ8)。 Sent to the speaker 8, it is the audio output (step 8).

【0035】b)次に、音声認識部10による認識結果として適正なものが得られなかったと判断された場合、 [0035] b) Next, the case where those appropriate as a recognition result by the voice recognition unit 10 is determined to not be obtained,
例えば認識ができないためあるいは認識結果に曖昧性があるために認識結果を特定できなかった場合など、について説明する。 For example, when the recognition was not able to identify the recognition results due to the ambiguity in the or the recognition result for impossible, will be described.

【0036】発話者Aの発話が、マイクロフォン3で入力される(ステップ1)。 The speech of the speaker A is inputted by the microphone 3 (Step 1). 入力された音声発話は、制御部9によって音声認識部10に送られ、コード化される(ステップ2)。 Input speech utterance is transmitted to the voice recognition unit 10 by the control unit 9, it is encoded (Step 2).

【0037】ここで、その認識結果として適正なものが得られなかったと判断された場合(ステップ3)、制御部9は、音声認識部10から音声認識結果とともに認識結果の付帯情報を受けとり、それに応じた確認用処理を行なう(ステップ6)。 [0037] Here, if those appropriate as a recognition result is judged to have not obtained (Step 3), the control unit 9 receives the additional information of the recognition result with the speech recognition result from the voice recognition unit 10, it the confirmation process in accordance performed (step 6).

【0038】例えば、図3のように「わたしはがくせいです」との発話に対する認識結果として、曖昧性が生じたものとする。 [0038] For example, as shown in FIG. 3 "I am a student" as a recognition result for the utterance of a, it is assumed that the ambiguity occurs. 図3では、「わたし」の中の「わ」が、 In Figure 3, the "I" in the "I",
「わ」と「か」のどちらか認識できず、両方が出力された様子を表している。 You can not recognize either of the "I", "or", both of which represent a state in which the output.

【0039】制御部9は、音声認識部10から図3の2 The control unit 9, 2 of FIG. 3 from the voice recognition unit 10
つの音声認識結果とともに認識結果の付帯情報、例えば「曖昧性があります」を受けとって、対話部13にこの情報を送り、自然言語生成部15に「わ」と「か」のどちらが正しいかを発話者Aに問い合せる問い合せ文を作成させ、音声生成部11により音声化して、スピーカ4 One of the incidental information of the recognition result with the speech recognition result, for example, receive a "There is ambiguity", sends this information to the dialogue unit 13, the speech which one is correct of "I" and "or" natural language generation unit 15 user a is created query statements querying, by the speech by the speech generator 11, a speaker 4
により音声で問い合せるとともに、必要に応じて文字コードのまま表示部1にも同じ問い合せを表示する。 With inquires by voice by also displays the same inquiry leave the display unit 1 of the character codes as needed. 発話者Aは、この問い合せに応じて、「わ」の発音に注意するなりして再度「わたしはがくせいです」と発話入力し、再度の認識処理を試みる(ステップ1〜3)。 Speaker A, in response to this inquiry, again Nari be aware of the pronunciation of "I", "I am a student" uttered type, try the recognition process again (step 1 to 3).

【0040】そして、発話が正しく認識されるまで、以上の処理ループを繰り返す。 [0040] and, until the speech is recognized correctly, repeat the above processing loop. さらに、本実施例では、前記問い合せに対して、上記例のように表示部1に表示された音声認識結果に正しいものがある場合は、例えば図3の2番目の音声認識結果「わたしはがくせいです」を前述したような方法により音声であるいはキーボード等から選択入力することで確認を行って、再度の認識処理を省くことが可能である。 Further, in this embodiment, the relative inquiry, if there is correct speech recognition result displayed on the display unit 1 as in the above example, for example, the second speech recognition result "I calyx of FIG performing found by selecting the input from the voice or in a keyboard or the like by the method described above the fault is ", it is possible to omit the recognition process again.

【0041】一方、上記確認用処理が行われている間、 [0041] On the other hand, during the confirmation process is performed,
待機することになる聞き手Bに対しても、対話部13は待機用処理を行なう(ステップ6)。 Even for listeners B which will wait, dialogue unit 13 performs the standby process (step 6). 例えば、「話し手Aからの発話の到着が遅れますので、しばらくお待ち下さい」あるいは「話し手Aからの発話を確認しておりますので、しばらくお待ち下さい」などの旨の案内を出して、無音状態を回避することによって、聞き手Bがいらついたり、不安になったりすることがないようにする。 For example, "I will delay the arrival of the speech from the speaker A, Please wait", "so we have to check the speech from the speaker A, Please wait" or put out a guide to the effect of, such as, a silent state by avoiding, or with you need the listener B, and so as not to be or become anxious.
この案内は、音声生成部11を通して、スピーカ8および表示部5の一方あるいは両方を使って行なうことができる。 The guide, through the voice generator 11 can be performed using one or both of the speaker 8 and the display unit 5. これらの様子を図4に示す。 These states are shown in FIG.

【0042】また、上記の他に、聞き手に状況を逐一知らせたり、聞き手の問い合わせに答えるなどして対話相手として機能させることも可能である。 [0042] Also, in addition to the above, or to point-by-point know the situation in the audience, it is also possible to function as a dialogue partner by, for example, answering listener of inquiry. 次に、上記のようにして正しくコード化された発話は、制御部9を介して自動翻訳部12に送られ、ここで相手方である話者B Next, correctly coded utterance as described above is sent to the automatic translation unit 12 via the control unit 9, a speaker B where a counterparty
の用いる言語による文章に翻訳される(ステップ4)。 It is translated into text by the language used by the (step 4).

【0043】翻訳された結果は、再び制御部9を通って音声生成部11に送られ、音声化される(ステップ7)。 The result of the translation is sent to the voice generator 11 via the control unit 9 again, it is voiced (step 7). 音声化された発話は、制御部9により、相手方B Voiced utterance, the control unit 9, the other party B
のスピーカ8に送られ、音声出力される(ステップ8)。 Sent to the speaker 8, it is the audio output (step 8).

【0044】c)次に、音声認識部10が認識誤りを検出できずに、自動翻訳部12による翻訳結果として適正なものが得られなかったと判断された場合、例えば翻訳ができないためあるいは翻訳結果に曖昧性があるために翻訳結果を特定できなかった場合など、について説明する。 [0044] c) Next, the not detect recognition errors voice recognition unit 10, if those appropriate as a translation result of the automatic translation portion 12 is determined to not be obtained, or the translation result for example can not translate etc. Failure to identify the translation result because of the ambiguity will be described.

【0045】発話者Aの発話は、マイクロフォン3で入力される(ステップ1)。 [0045] the speaker A speech is input by the microphone 3 (Step 1). 入力された音声発話は、制御部9によって音声認識部10に送られ、ここでコード化される(ステップ2)。 Input speech utterance is transmitted to the voice recognition unit 10 by the control unit 9, is coded here (Step 2).

【0046】コード化された発話は、制御部9を介して自動翻訳部12に送られ、ここで相手方である話者Bの用いる言語による文章に翻訳される(ステップ4)。 The coded speech is sent to the automatic translation unit 12 via the control unit 9, where it is translated into sentences in a language used the speaker B is the other party (Step 4). その翻訳結果として適正なものが得られなかったと判断された場合(ステップ5)、制御部9は、自動翻訳部12 If the intended translation result as appropriate is judged to have not obtained (Step 5), the control unit 9, automatic translation portion 12
から自動翻訳結果とともに翻訳結果の付帯情報を受けとり、それに応じた確認用処理を行なう(ステップ6)。 From with the automatic translation result receives additional information of the translation result, it performs a confirmation process corresponding thereto (Step 6).

【0047】例えば、図5に、音声認識部10が認識誤りを検出できなかった場合の様子を示す。 [0047] For example, in FIG. 5, showing a state when the voice recognition unit 10 detects no recognition errors. 仮に音声認識部10が音声認識結果「かたしはがくせいです」を正しいと判断した場合、該認識結果は制御部9に送られる。 If the voice recognition unit 10 if it is determined that correct speech recognition result "solidified am a student", the recognition result is sent to the control unit 9.
制御部9からこの結果を受取った自動翻訳部12は、 Automatic translation unit 12 from the control unit 9 has received this result,
「かたし」を辞書中に見つけられず、未知語として処理する。 Not find the "solidified" in the dictionary, it is treated as unknown words. この結果、翻訳は不完全なものとなる。 As a result, the translation will be incomplete. 全く翻訳できない場合、あるいは部分的に翻訳できない場合などいろいろな場合が想定される。 If you can not completely translated, or if various, such as when it is not possible to partially translation is assumed. これは音声認識の誤りの性質と自動翻訳部の設計思想に依存する。 This depends on the design concept of the automatic translation unit and the nature of the errors in the voice recognition.

【0048】ここでは、一例として、図5のような結果が自動翻訳部12から制御部9に返されるものとする。 [0048] Here, as an example, it is assumed that results shown in FIG. 5 is returned to the control unit 9 from the automatic translation unit 12.
制御部9は、この結果を対話部13に送り発話者Aに、 Control unit 9, the speaker A sends the result to the dialogue unit 13,
修正を求めるための適切な問い合せ文を生成させ、上記の音声認識誤りの場合と同様にして、話し手Aと確認のための対話を行なう。 To produce a proper query statement for obtaining the modification, in the same manner as that in the speech recognition errors, a dialogue for confirmation and speaker A.

【0049】また、上記の音声認識誤りの場合と同様にして、上記対話と同時に聞き手Bと待機のための対話を行なう。 [0049] In the same manner as that in the speech recognition errors, a dialogue for simultaneously stand and listener B with the dialogue. このようにして正しく翻訳された結果は、再び制御部9を通って音声生成部11に送られ、音声化される(ステップ7)。 Thus the results are correctly translated is sent to the voice generator 11 via the control unit 9 again, is voiced (step 7).

【0050】音声化された発話は、制御部9により、相手方Bのスピーカ8に送られ、音声出力される(ステップ8)。 The voiced speech by the control unit 9 is transmitted to the speaker 8 of the other party B, it is the audio output (step 8). このように、本実施例の自動通訳システムでは、音声認識結果や翻訳結果に何等可の問題があった場合に、話し手と確認のための対話をすると同時に、待機している聞き手にも該確認に関する情報を伝えるために対話を行う対話手段を設けたので、音声入力による自動翻訳で実際に生ずるさまざまな問題に対しての対処が可能となり、該システムの実用性を飛躍的に向上させることができる。 Thus, the automatic interpretation system of the present embodiment, when there is nothing like Friendly problems on the result of the speech recognition and translation result, and at the same time the interaction for verification and speaker, said confirmed the listener waiting is provided with the interaction means to interact in order to convey information about, it is possible to deal with respect to various problems actually occur in automatic translation by speech input, be dramatically improved the utility of the system it can.

【0051】ここで、上記では発話として音声のみを用いていたが、音声に加えてキーボードなどからの入力を用いることにより、記号のように音声入力のみでは入力しにくいもの、あるいは音声入力に何度も失敗したもの等が簡単に入力可能になる。 [0051] Here, in the above had using only voice as speech, by using an input from a keyboard in addition to voice, those less likely to enter only speech input as symbol, or what audio input also, such as those that failed is easy to input every time.

【0052】また、本実施例の自動通訳システムは、2 [0052] In addition, the automatic interpretation system of the present embodiment, 2
人の会話者A,Bが同じ場所で対面しながら用いることも、また制御部9を公衆通信回線に接続して遠隔地にいる相手との対話に用いることもできる。 Human conversation's A, B also be used while facing in the same place, it can also be used to connect the control unit 9 to a public communication line to interact with the other party at a remote location. すなわち、公衆通信回線を通して会話する場合、スピーカからの出力は合成音声になるため、相手の年齢、性別、感情、イントネーションなどの情報、あるいは相手が一人なのか、誰かと相談しながら話しているのかなどの状況、相手のいる場所の背景音など相手の置かれた状況についての情報が欠落することがあり、相手側の様子が分からない可能性があるが、制御部9によって発話者Aのマイクロフォン3からの肉声をそのまま、聞き手Bに流すように構成することによって、該欠落することがある情報を得ることができる。 That is, when the conversation through the public communication line, since the output from the speaker will be synthesized speech, what are talking about the age of the other party, gender, emotion, information such as intonation or whether the partner is the one who, in consultation with someone situation such as, sometimes information about the situation placed a partner such as the background sound of the place where the other party is missing, it may not know how the other side, microphone speaker a by the control unit 9 the human voice from 3 directly, by configured to flow the listener B, it is possible to obtain information which may be the missing. ここで、図6には発話者の発話が、翻訳される場合の単純化したパスと肉声のパスを、図7には発話者の発話が聞き手に到着する相対的タイミングを示す。 Here, the utterance of the speaker in FIG. 6, a simplified path and real voice path when it is translated, Figure 7 shows the relative timing of speech of a speaker arrives at the listener. 各図中、t1は発話の開始時刻である。 In each figure, t1 is the start time of the utterance. この肉声は、制御部9から直ちに、公衆通信回線を通って相手に送られる。 The real voice immediately from the control unit 9 and sent to the other party through the public network. この遅れは、通信衛星を通した場合で、1秒程度である。 This delay, in the case through the communication satellite, is about 1 second. すなわち、 t2=t1+1sec程度 である。 That is about t2 = t1 + 1sec. また、t3は、発話者が発話にかかる時間、音声認識にかかる時間、自動翻訳にかかる時間、誤りが生じた場合の問い合せ・対話にかかる時間からなる。 In addition, t3, the time speaker is applied to the speech, the time required for the voice recognition, the time required for the automatic translation, consisting of the time required to query and dialogue when an error occurs. この時間量は、特定が困難であるが、誤りの修正のための対話時間がないとし、10語程度の短い発話ならば、実測によれば最大30秒程度である。 This amount of time is specified is difficult, and there is no interaction time for error correction, if short utterances of about 10 words a maximum of about 30 seconds, according to the actual measurement. すなわち、 t3≦ In other words, t3 ≦
t1+30sec である。 t1 is a + 30sec.

【0053】また、遠隔地通信の場合、時間遅れのための会話のタイミングがうまく取れないなどの問題がある。 [0053] In addition, in the case of remote communication, there is a problem, such as can not be taken well timing of the conversation because of the time lag. 国際電話では、特に衛星通信の場合、この発話のタイミングは現在でも普通に体験されるところである。 In the international phone, especially in the case of satellite communication, the timing of this speech is where the commonly experience today. 自動通訳を行うシステムでは、音声認識処理、機械翻訳処理などのため、この時間遅れが膨大なものになる可能性がある。 In a system for automatic interpretation, voice recognition processing, such as for machine translation process, it is possible that this time delay is enormous. 本実施例では、前記対話手段を用いることによって、時間遅れの期間に聞き手にメッセージを与えるなどすることができる。 In this embodiment, by using the interactive means, it can be like giving a message to the listener during the time delay.

【0054】また、音声入力による場合、発話の終了を自動的に認識することは困難である。 [0054] In addition, in the case of voice input, it is difficult to recognize the end of the speech automatically. そこで、ある一定時間、音声入力がない場合、終了したと見做して、翻訳を開始することもできる。 Therefore, a certain period of time, if there is no voice input, and considered to have ended, it is also possible to start the translation. あるいは、トランシーバのように、制御部9に対して、「どうぞ」のような一定の音声合図をすることもできる。 Alternatively, as a transceiver, the control unit 9 may be a constant audio cues, such as "please". キーボードなどの音声以外による入力手段を用いて、システムに発話の終了を伝えるようにすれば確実であるのでより好ましい。 Using the input means other than by sound, such as a keyboard, more preferable because certainly if to convey the end of the utterance to the system.

【0055】また、音声では、大文字、小文字の区別あるいは、普通名詞と固有名詞の区別が困難である。 [0055] In addition, in the voice, uppercase, lowercase distinction or distinction of common nouns and proper nouns it is difficult. 英語の場合「japan」は「漆器」、「Japan」は「日本」と訳さなければならないが、音声で、この区別をすることは極めて困難である。 In the case of English "japan" is "lacquerware", "Japan" is not to be translated as "Japan", in the voice, it is very difficult to make this distinction. また、日本語でも、 In addition, even in Japanese,
「近藤」と「混同」の区別は困難である。 Distinction of "confusion" and "Kondo" is difficult. このような情報もキーボードから入力するように構成すれば好ましい。 Such information also preferably be configured so as to enter from the keyboard. その他、文章中に他言語が混在する場合(例えば、 Other, if other language in the text are mixed (for example,
「How about “go men na sa "How about" go men na sa
i”」)なども同様である。 i "") is the same and so on.

【0056】ここで、音声生成部5では、生成する音声に話者の属性、例えば年齢、性別、イントネーション(皮肉、喜怒哀楽等)、アクセントなどを反映させるように構成すると、聞き手が翻訳音声から話し相手に関する情報を得ることができるようになるので効果的である。 [0056] Here, in the voice generating unit 5, the speaker of the attributes in the generated voice, for example age, gender, intonation (ironic, emotion, etc.), and configured to reflect the accents, the listener is the translation voice since it is possible to obtain information about the conversation partner from effective.

【0057】また、双方向自動翻訳部12では、ダイアレクト、例えば語彙の方言、出身地、教育背景などを反映させて翻訳するようにすれば、聞き手が翻訳文の内容から話し相手に関する情報を得ることができるようになるので効果的である。 [0057] In addition, the automatic bidirectional translation section 12, dialect, for example vocabulary of dialect, Hometown, if to translate to reflect the educational background, that the listener get the information about someone to talk to from the contents of the translation it is effective since allow.

【0058】例えば、英語の「I」に対応する日本語としては、「私」、「僕」、「俺」をはじめとして種々のものが揚げられるが、まず、該双方向自動翻訳部12 [0058] For example, as the Japanese corresponding to the "I" in English, "I", "I", but a variety of things can be cited as the beginning of the "I", first, the bidirectional automatic translation section 12
は、会話初期には「私」を用いておき、会話が進む過程で用いられる語彙等を分析して、逐次適切な語彙に置き換えていくようにすれば良い。 Is, the conversation initial advance by using the "I", to analyze the vocabulary or the like used in the course of conversation progresses, it is only necessary to go replaced by a sequential appropriate vocabulary.

【0059】次に、本発明の他の実施例に係る自動通訳システムについて説明する。 Next, description will be given automatic interpretation system according to another embodiment of the present invention. 図8は、本実施例の自動通訳システムを示す概略構成図である。 Figure 8 is a schematic configuration diagram illustrating an automatic interpretation system of the present embodiment. この自動通訳システムは、図1の自動通訳システムを、異なる言語で話すN人の話者の間の通訳を行うもの拡張した例である。 The automatic interpretation system, an automatic interpretation system of Fig. 1, an example in which extended to perform interpretation between the N number of speakers speaking in different languages. なお、N人の話者のうちに同一の言語で話す者が含まれていても構わない。 It should be noted, may also include those who speak in the same language to one of the N's speaker.

【0060】図のように、該自動通訳システムは、表示部、入力部、マイクロフォンおよびスピーカからなる入出力部をN組み備えたものであり、例えば話者Aが話し手となった場合、話者B〜Nが聞き手となる。 [0060] As Figure, the automatic interpretation system, when the display unit, input unit, and the input and output portion consisting of a microphone and a speaker that includes set N, for example speaker A becomes speaker, speaker B~N becomes the listener.

【0061】この場合、音声処理部20には、最大N種類の言語を処理できる機能を付加し、自動通訳部30には、一方の言語から他方の言語への翻訳として最大N× [0061] In this case, the audio processing unit 20, an additional function that can handle up to N different languages, the automatic interpretation unit 30, a maximum N × a translation from one language to another language
(N−1)種類の翻訳機能を付加する修正を図1のシステムに施せば良い。 (N-1) the modification of adding types of translation functions may be subjected to the system of Figure 1.

【0062】なお、このN人用自動通訳システムの動作は、図1のシステムの説明から自明であるので、詳細な説明は省略する。 [0062] The operation of the automatic interpretation system for this N people are the obvious from the system of FIG. 1, the detailed description is omitted. また、本発明は上述した各実施例に限定されるものではなく、その要旨を逸脱しない範囲で、 Further, the present invention is not limited to the above-described embodiments, without departing from the spirit thereof,
種々変形して実施することができる。 It can be implemented with various modifications.

【0063】 [0063]

【発明の効果】本発明に係る自動通訳システムでは、音声認識や翻訳において何等かの問題が生じた場合に、話し手と確認のための対話をすると同時に、待機している聞き手にも該確認に関する情報を伝えるために対話を行う対話手段を設けたので、音声入力による自動翻訳で実際に生ずる種々の問題に対する対処が可能となり、該システムの実用性を飛躍的に向上させることができる。 In the automatic interpretation system according to the effect the present invention, in case you encounter something like one of the problems in speech recognition and translation, and at the same time the dialogue to confirm the speaker, on the confirmation also the listener waiting is provided with the interaction means to interact in order to convey information, it is possible to cope for various problems actually occur in automatic translation by speech input, it is possible to greatly improve the utility of the system.

【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS

【図1】本発明の一実施例に係る自動通訳システムを示す概略構成図 Schematic configuration diagram illustrating an automatic interpretation system according to an embodiment of the present invention; FIG

【図2】同実施例の動作を示すフローチャート 2 is a flowchart showing the operation of the embodiment

【図3】同実施例における認識誤りの出力例を示す図 Diagram showing an example of the output of recognition errors in [3] the Example

【図4】同実施例におけるシステムから発話者への問い合せの出力例を示す図 Diagram showing an output example of a query to the speaker from the system in FIG. 4 the Example

【図5】同実施例における自動翻訳部での誤りの出力例を示す図 Diagram showing an output example of the error in the automatic translation unit in FIG. 5 the embodiment

【図6】同実施例における音声発話のパスを説明する図 6 is a diagram illustrating the path of the speech utterance in the same embodiment

【図7】同実施例における発話の聞き手に対する発話時とその到着時の相対的タイミングを示す図 7 is a diagram showing the relative timing of when speech time and its arrival for the listener's speech in the same embodiment

【図8】本発明の他の実施例に係る自動通訳システムを示す概略構成図 Schematic configuration diagram illustrating an automatic interpretation system according to another embodiment of the present invention; FIG

【符号の説明】 DESCRIPTION OF SYMBOLS

1,5…表示部、2,6…入力部、3,7…マイクロフォン、4,8…スピーカ、9…制御部、10…音声認識部、11…音声生成部、12…双方向自動翻訳部、13 1,5 ... display unit, 2,6 ... input unit, 3,7 ... microphone, 4,8 ... speaker, 9 ... control unit, 10 ... voice recognition unit, 11 ... sound generation unit, 12 ... automatic bidirectional translation unit , 13
…対話部、14…自然言語理解部、15…自然言語生成部、20…音声処理部、30…自動通訳部 ... dialogue unit, 14 ... natural language understanding unit, 15 ... natural language generation unit, 20 ... audio processing unit, 30 ... automatic interpretation section

Claims (3)

    【特許請求の範囲】 [The claims]
  1. 【請求項1】発話を入力するための音声入力部、指示情報を入力するための指示入力部、与えられた音声信号を音声に変換して出力する音声出力部および与えられた情報を表示する表示部を有し、互いに異なる種類の言語を示す属性が付与された複数の入出力手段と、 前記複数の入出力手段のうち一つの入出力手段に含まれる前記音声入力部から入力された発話を、該一つの入出力手段に付与された前記属性に基づいて音声認識し対応するコードまたはコード列を生成する音声認識手段と、 該コードまたはコード列を、前記一つの入出力手段の他の入出力手段に付与された属性が示す種類の言語に対応するコードまたはコード列にそれぞれ翻訳する双方向自動翻訳手段と、 該コードまたはコード列を、前記音声出力部に与えるための音声信 1. A voice input unit for inputting speech, display instruction input section for inputting an instruction information, the information sound output unit and given for converting the audio speech signal given a display unit, the speech that is input and a plurality of output means attribute is assigned to indicate different types of languages ​​with each other, from the sound input unit included in one of the input and output means of said plurality of input means and a speech recognition means for generating a corresponding code or code sequence to the speech recognition based on the attributes given to the one of the input and output means, said code or code sequence, other of said one input means bidirectional automatic translation means for translating each of the code or code sequence corresponding to the type of language indicated granted attribute input means, the code or code sequence, audio signals for providing to the audio output unit に変換する音声生成手段と、 前記音声認識手段が前記入力された発話に対する認識結果を特定できなかった場合または前記双方向自動翻訳手段が該音声認識手段によって生成された前記コードまたはコード列に対する翻訳結果を特定できなかった場合に、該認識または該翻訳の結果に対する確認のための確認処理を前記一つの入出力手段に含まれる前記音声入力部および前記指示入力部の少なくとも一方ならびに前記音声出力部および前記表示部の少なくとも一方を用いて行うとともに、該確認処理が行われる間、前記他の入出力手段に含まれる前記表示部および前記音声入力部の少なくとも一方に該確認処理に関する情報を出力する対話手段とを備えたことを特徴とする自動通訳システム。 And sound generating means for converting, the translation said voice recognition means for said code or code sequence is generated by the speech recognition means or when the interactive automatic translation unit can not be identified the recognition result for the input speech if it can not identify the result, at least one of the audio input and the instruction input unit included in the one of the input and output means a confirmation process for confirmation of the result of the recognition or 該翻 translation and the audio output unit and it performs by using at least one of the display unit, while the confirmation processing is performed, and outputs the information relating to the confirmation process at least one of the display unit and the audio input unit included in the other of the input and output means automatic interpretation system, characterized in that a dialogue unit.
  2. 【請求項2】前記音声入力部から入力された前記発話を前記音声認識手段に与えるとともに、前記他の入出力手段に含まれる音声出力部から該発話をそのまま出力させることを特徴とする請求項1に記載の自動通訳システム。 2. A with providing the speech input from the speech input unit to the speech recognition means, claims, characterized in that to directly outputs the emitting talk from the audio output unit included in the other of the input and output means automatic interpretation system according to 1.
  3. 【請求項3】前記音声認識手段は、前記発話が前記音声入力部から入力される際に前記指示力部から与えられた該発話の中の少なくとも1つの字種を特定する情報を用いて、該発話を音声認識することを特徴とする請求項1 Wherein said speech recognition means, by using the information identifying at least one character types in the emitting story given from the instruction input unit when the utterance is input from the voice input unit, claim and recognizes voice emitting talk 1
    に記載の自動通訳システム。 Automatic interpretation system according to.
JP5272476A 1993-10-29 1993-10-29 Automatic interpretation system Pending JPH07129594A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5272476A JPH07129594A (en) 1993-10-29 1993-10-29 Automatic interpretation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5272476A JPH07129594A (en) 1993-10-29 1993-10-29 Automatic interpretation system

Publications (1)

Publication Number Publication Date
JPH07129594A true JPH07129594A (en) 1995-05-19

Family

ID=17514461

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5272476A Pending JPH07129594A (en) 1993-10-29 1993-10-29 Automatic interpretation system

Country Status (1)

Country Link
JP (1) JPH07129594A (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997027551A1 (en) * 1996-01-25 1997-07-31 Makoto Hosokawa Automatic interpretation system
WO2002005125A1 (en) * 2000-07-11 2002-01-17 Soo Sung Lee Language independent voice communication system
US8275603B2 (en) 2006-09-28 2012-09-25 Kabushiki Kaisha Toshiba Apparatus performing translation process from inputted speech
JP2013045282A (en) * 2011-08-24 2013-03-04 Kyushu Institute Of Technology Communication support system
WO2014192457A1 (en) * 2013-05-30 2014-12-04 ソニー株式会社 Client device, control method, system and program
JP2016053726A (en) * 2008-04-15 2016-04-14 フェイスブック・インコーポレイテッドFacebook, Inc. System and methods for maintaining speech-to-speech translation in the field
JP2016186646A (en) * 2016-06-07 2016-10-27 株式会社東芝 Voice translation apparatus, voice translation method and voice translation program
US9753918B2 (en) 2008-04-15 2017-09-05 Facebook, Inc. Lexicon development via shared translation database
US9830318B2 (en) 2006-10-26 2017-11-28 Facebook, Inc. Simultaneous translation of open domain lectures and speeches

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997027551A1 (en) * 1996-01-25 1997-07-31 Makoto Hosokawa Automatic interpretation system
WO2002005125A1 (en) * 2000-07-11 2002-01-17 Soo Sung Lee Language independent voice communication system
US8275603B2 (en) 2006-09-28 2012-09-25 Kabushiki Kaisha Toshiba Apparatus performing translation process from inputted speech
US9830318B2 (en) 2006-10-26 2017-11-28 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
JP2016053726A (en) * 2008-04-15 2016-04-14 フェイスブック・インコーポレイテッドFacebook, Inc. System and methods for maintaining speech-to-speech translation in the field
US9753918B2 (en) 2008-04-15 2017-09-05 Facebook, Inc. Lexicon development via shared translation database
JP2013045282A (en) * 2011-08-24 2013-03-04 Kyushu Institute Of Technology Communication support system
WO2014192457A1 (en) * 2013-05-30 2014-12-04 ソニー株式会社 Client device, control method, system and program
JPWO2014192457A1 (en) * 2013-05-30 2017-02-23 ソニー株式会社 Client device, control method, system, and program
US10225608B2 (en) 2013-05-30 2019-03-05 Sony Corporation Generating a representation of a user's reaction to media content
JP2016186646A (en) * 2016-06-07 2016-10-27 株式会社東芝 Voice translation apparatus, voice translation method and voice translation program

Similar Documents

Publication Publication Date Title
Cole et al. The challenge of spoken language systems: Research directions for the nineties
US6853971B2 (en) Two-way speech recognition and dialect system
Zue et al. Conversational interfaces: Advances and challenges
US8332224B2 (en) System and method of supporting adaptive misrecognition conversational speech
US7496514B2 (en) Method and Apparatus for managing dialog management in a computer conversation
US6598022B2 (en) Determining promoting syntax and parameters for language-oriented user interfaces for voice activated services
KR100726692B1 (en) Merging of speech interfaces for concurrent use of devices and applications
US6587822B2 (en) Web-based platform for interactive voice response (IVR)
Rabiner Applications of voice processing to telecommunications
JP2848458B2 (en) Language translation system
KR101211796B1 (en) Apparatus for foreign language learning and method for providing foreign language learning service
US6789093B2 (en) Method and apparatus for language translation using registered databases
EP1330816B1 (en) Language independent voice-based user interface
Bernsen et al. Designing interactive speech systems: From first ideas to user testing
Peckham A new generation of spoken dialogue systems: results and lessons from the SUNDIAL project
EP0847179A2 (en) System and method for voiced interface with hyperlinked information
JP3224000B2 (en) Text - voice conversion system
US6324507B1 (en) Speech recognition enrollment for non-readers and displayless devices
US9251142B2 (en) Mobile speech-to-speech interpretation system
US20040073423A1 (en) Phonetic speech-to-text-to-speech system and method
EP1083536A2 (en) A method and apparatus for interactive language instruction
Gibbon et al. Handbook of standards and resources for spoken language systems
CN104778945B (en) Response system and method for oral natural language voice
US20060230410A1 (en) Methods and systems for developing and testing speech applications
KR100908358B1 (en) Method for speech recognition, modules, devices, and servers