JP2002304392A - Voice translation system - Google Patents

Voice translation system

Info

Publication number
JP2002304392A
JP2002304392A JP2001105349A JP2001105349A JP2002304392A JP 2002304392 A JP2002304392 A JP 2002304392A JP 2001105349 A JP2001105349 A JP 2001105349A JP 2001105349 A JP2001105349 A JP 2001105349A JP 2002304392 A JP2002304392 A JP 2002304392A
Authority
JP
Japan
Prior art keywords
language
voice
speech
translation
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001105349A
Other languages
Japanese (ja)
Inventor
Takeshi Matsuda
猛 松田
Atsushi Nishino
敦士 西野
Gruhn Rainer
グルーン ライナー
Satoru Nakamura
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI GENGO TSUSHIN KENKYU
ATR Spoken Language Translation Research Laboratories
Original Assignee
ATR ONSEI GENGO TSUSHIN KENKYU
ATR Spoken Language Translation Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI GENGO TSUSHIN KENKYU, ATR Spoken Language Translation Research Laboratories filed Critical ATR ONSEI GENGO TSUSHIN KENKYU
Priority to JP2001105349A priority Critical patent/JP2002304392A/en
Publication of JP2002304392A publication Critical patent/JP2002304392A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PROBLEM TO BE SOLVED: To establish a conversation by translating voice without an operator. SOLUTION: When two speakers using different languages as mother languages (used languages) talk to each other through a communication network 40, the voices uttered by the respective speakers are taken in by this voice translation system 10. The voice translation system 10 identifies the mother language of each speaker based on the voices uttered and taken in, translates the uttered voices based on the identified mother language and transmits the translated synthetic sounds to the respective speakers.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、音声翻訳システ
ムに関し、特にたとえば、互いに異なる言語を使用する
2人の話者の間で通信回線を介して行なわれる会話を翻
訳(通訳)する、音声翻訳システムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech translation system, and more particularly to, for example, speech translation for translating a conversation between two speakers using different languages via a communication line. About the system.

【0002】[0002]

【従来技術】従来のこの種の音声翻訳システムとして
は、各々の話者の発話音声に音声認識,言語翻訳および
音声合成の一連の翻訳処理を施し、合成音声を相手方に
伝えるものがあった。
2. Description of the Related Art As a conventional speech translation system of this type, there is a speech translation system which performs a series of translation processes of speech recognition, language translation, and speech synthesis on the speech of each speaker, and transmits the synthesized speech to the other party.

【0003】[0003]

【発明が解決しようとする課題】しかし、従来技術は、
予め決定された2つの言語間での翻訳を前提としてお
り、翻訳先の言語を変更するにはオペレータを介在させ
る必要があった。
However, the prior art,
Translation between two languages determined in advance is premised, and it is necessary to intervene an operator to change the translation destination language.

【0004】それゆえに、この発明の主たる目的は、オ
ペレータを介在させることなく任意の言語間で翻訳を行
なうことができる、音声翻訳システムを提供することで
ある。
[0004] Therefore, a main object of the present invention is to provide a speech translation system capable of translating between arbitrary languages without the intervention of an operator.

【0005】[0005]

【課題を解決するための手段】この発明は、互いに異な
る言語を使用する複数の話者の間で通信回線を介して行
なわれる会話を翻訳する音声翻訳システムにおいて、各
々の話者の発話音声を取り込む取り込み手段、発話音声
の特徴を抽出する抽出手段、発話音声の特徴に基づいて
各々の話者の使用言語を特定する特定手段、発話音声の
内容を認識する認識手段、発話音声の内容を特定手段に
よる特定結果に基づいて翻訳する翻訳手段、翻訳手段に
よる翻訳結果に基づいて合成音声を作成する作成手段、
および合成音声を出力する出力手段を備えることを特徴
とする、音声翻訳システムである。
SUMMARY OF THE INVENTION The present invention relates to a speech translation system for translating a conversation carried out via a communication line between a plurality of speakers using different languages. Capturing means for capturing, extracting means for extracting characteristics of the uttered voice, specifying means for specifying the language used by each speaker based on the characteristics of the uttered voice, recognition means for recognizing the content of the uttered voice, specifying the content of the uttered voice Translation means for translating based on the specified result by the means, creation means for creating a synthesized speech based on the translation result by the translation means,
And an output means for outputting synthesized speech.

【0006】[0006]

【作用】互いに異なる言語を使用する複数の話者の発話
音声は取り込み手段によって取り込まれる。発話音声の
特徴は抽出手段によって抽出され、特定手段は、抽出さ
れた特徴に基づいて各々の話者の使用言語を特定する。
また、発話音声の内容は認識手段によって認識され、翻
訳手段は、認識された内容を特定手段による特定結果に
基づいて翻訳する。合成手段は翻訳結果に基づいて合成
音声を作成し、作成された合成音声は出力手段によって
出力される。これによって、オペレータが介在すること
なく、各々の話者の間で通信回線を介した会話が成立す
る。
The uttered voices of a plurality of speakers using different languages are captured by capturing means. The features of the uttered voice are extracted by the extracting means, and the specifying means specifies the language used by each speaker based on the extracted characteristics.
Further, the content of the uttered voice is recognized by the recognition means, and the translation means translates the recognized content based on a result specified by the specifying means. The synthesizing unit generates a synthesized speech based on the translation result, and the generated synthesized speech is output by the output unit. As a result, a conversation is established between the speakers via the communication line without the intervention of the operator.

【0007】好ましくは、各々の話者の電話番号が、電
話番号検出手段によって検出され、各々の話者が属する
国が、当該電話番号に基づいて国検出手段によって検出
される。音声案内手段は、発話音声の取り込みに先立っ
て、検出された国の公用語で音声案内を行なう。このと
き、特定手段は、音声案内に対する返事に基づいて各々
の話者の使用言語を特定する。
[0007] Preferably, the telephone number of each speaker is detected by the telephone number detecting means, and the country to which each speaker belongs is detected by the country detecting means based on the telephone number. The voice guidance unit performs voice guidance in the official language of the detected country before capturing the utterance voice. At this time, the specifying means specifies the language used by each speaker based on the answer to the voice guidance.

【0008】さらに好ましくは、音声案内に対して返事
がないと、音声案内の言語が変更手段によって変更され
る。音声案内に対して肯定的な返事があると、決定手段
が、現時点の音声案内の言語を返事をした話者の使用言
語として決定する。
[0008] More preferably, if there is no reply to the voice guidance, the language of the voice guidance is changed by the changing means. If there is a positive answer to the voice guidance, the determining means determines the language of the voice guidance at the present time as the language used by the speaker who has answered.

【0009】特定された使用言語を示す使用言語情報を
メモリに格納する場合、翻訳手段はメモリに格納された
使用言語情報に従って翻訳を行なう。
When the language information indicating the specified language is stored in the memory, the translation means translates the language in accordance with the language information stored in the memory.

【0010】発話音声が取り込まれる毎に発話元の使用
言語を特定する場合、発話音声の取り込む毎に特定され
た使用言語情報によってメモリを更新するようにしても
よい。
In the case where the language used as the utterance source is specified each time the uttered voice is captured, the memory may be updated with the used language information specified each time the uttered voice is captured.

【0011】[0011]

【発明の効果】この発明によれば、取り込まれた発話音
声の特徴に基づいて各々の話者の使用言語を特定するよ
うにしたため、オペレータが介在しなくても、通信回線
を介して翻訳音声による会話を行なうことができる。
According to the present invention, the language used by each speaker is specified on the basis of the characteristics of the uttered speech taken in, so that the translated speech can be transmitted via the communication line without the intervention of an operator. Conversation can be held.

【0012】この発明の上述の目的,その他の目的,特
徴および利点は、図面を参照して行う以下の実施例の詳
細な説明から一層明らかとなろう。
The above objects, other objects, features and advantages of the present invention will become more apparent from the following detailed description of embodiments with reference to the drawings.

【0013】[0013]

【実施例】図1を参照して、この実施例の音声翻訳シス
テム10は、インターネットのような通信ネットワーク
40に接続される。通信ネットワーク40には、複数の
電話機20および30も接続される。ここで、電話機2
0はたとえば日本国内に設置され、日本国在住の日本人
Aによって使用される。また、電話機30はたとえば米
国内に設置され、米国在住のドイツ人Bによって使用さ
れる。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Referring to FIG. 1, a speech translation system 10 of this embodiment is connected to a communication network 40 such as the Internet. A plurality of telephones 20 and 30 are also connected to the communication network 40. Here, telephone 2
0 is installed in Japan, for example, and is used by Japanese A living in Japan. The telephone 30 is installed in the United States, for example, and is used by a German B living in the United States.

【0014】日本人Aが音声翻訳システム10を利用し
てドイツ人Bと会話したいとき、日本人Aは、まず音声
翻訳システム10にアクセスする。ドイツ人Bに対する
発呼処理は音声翻訳システム10によって行なわれ、ド
イツ人Bが応答すると、通話可能状態となる。日本人A
の発話音声は日本語からドイツ語に翻訳され、翻訳され
た合成音声がドイツ人Bに伝えられる。逆に、ドイツ人
Bの発話音声はドイツ語から日本語に翻訳され、翻訳さ
れた合成音声が日本人Aに伝えられる。
When Japanese A wants to have a conversation with German B using the speech translation system 10, the Japanese A first accesses the speech translation system 10. The calling process for the German B is performed by the speech translation system 10, and when the German B answers, the call becomes available. Japanese A
Is translated from Japanese to German, and the translated synthesized speech is transmitted to German B. Conversely, the uttered voice of German B is translated from German into Japanese, and the translated synthesized voice is transmitted to Japanese A.

【0015】図2を参照して、音声翻訳システム10
は、統合管理システム10a,データベースサーバ10
b,複数の音声認識システム10c,10c,…,複数
の言語翻訳システム10d,10d,…および複数の音
声合成システム10e,10e,…およびモデム10f
からなる。この音声翻訳システム10は、分散ネットワ
ークによって構成され、音声認識システム10cによる
音声認識,言語翻訳システム10dによる言語翻訳,お
よび音声合成システム10eによる音声合成によって、
発話音声の翻訳が実現される。
Referring to FIG. 2, speech translation system 10
Is the integrated management system 10a, the database server 10
b, a plurality of speech recognition systems 10c, 10c, ..., a plurality of language translation systems 10d, 10d, ... and a plurality of speech synthesis systems 10e, 10e, ... and a modem 10f.
Consists of The speech translation system 10 is configured by a distributed network, and performs speech recognition by a speech recognition system 10c, language translation by a language translation system 10d, and speech synthesis by a speech synthesis system 10e.
Translation of the uttered voice is realized.

【0016】具体的には、各々の話者(日本人Aおよび
ドイツ人B)の発話音声の内容は、音声認識システム1
0cによって認識される。音声認識システム10はま
た、発話音声の特徴を抽出し、発話元の音声母国語(日
本人Aについては日本語、ドイツ人Bについてはドイツ
語),声質および性別を特定する。特定された母国語情
報,声質情報および性別情報は、データベースサーバ1
0bに登録される。
Specifically, the contents of the uttered voices of the speakers (Japanese A and German B) are described in the speech recognition system 1.
0c. The voice recognition system 10 also extracts features of the uttered voice, and specifies the native language of the utterance source (Japanese for Japanese A, German for German B), voice quality, and gender. The specified native language information, voice quality information and gender information are stored in the database server 1
0b.

【0017】言語翻訳システム10dは、認識された発
話音声の内容をデータベースサーバ10bに登録された
母国語情報に基づいて翻訳する。日本人Aについては母
国語情報“日本語”がデータベースサーバ10bに登録
され、日本人Aについては母国語情報“日本語”がデー
タベースサーバ10bに登録される。このため、日本人
Aの発話音声の内容は言語翻訳システム10dによって
ドイツ語に翻訳され、また逆にドイツ国人Bの発話音声
の内容は言語翻訳システム10dによって日本語に翻訳
される。
The language translation system 10d translates the contents of the recognized speech voice based on the native language information registered in the database server 10b. For Japanese A, the native language information "Japanese" is registered in the database server 10b, and for Japanese A, the native language information "Japanese" is registered in the database server 10b. For this reason, the content of the speech voice of Japanese A is translated into German by the language translation system 10d, and the content of the speech voice of German B is translated into Japanese by the language translation system 10d.

【0018】音声合成システム10eは、言語翻訳シス
テム10dによる翻訳内容とデータベースサーバ10b
に登録された声質情報および性別情報に基づいて合成音
声を作成し、作成した合成音声を各々の話者に伝える。
日本人Aが高い声で話す女性であれば、女性らしい口調
でかつキーの高いドイツ語の合成音声がドイツ人Bに伝
えられる。また、ドイツBが低い声で話す男性であれ
ば、男性らしい口調でかつキーの低い日本語の合成音声
が日本人Aに伝えられる。
The speech synthesizing system 10e is composed of the contents translated by the language translation system 10d and the database server 10b.
A synthesized speech is created based on the voice quality information and the gender information registered in, and the created synthesized speech is transmitted to each speaker.
If the Japanese A is a woman who speaks with a high voice, a German synthesized voice with a feminine tone and high key is transmitted to the German B. In addition, if German B is a man who speaks in a low voice, Japanese A with a masculine tone and low key is transmitted to Japanese A.

【0019】音声認識システム10c,言語翻訳システ
ム10d,音声合成システム10eおよびデータベース
サーバ10bは、統合管理システム10aによって管理
される。モデム10fを通してアクセスがあると、統合
管理システム10がこれらのシステムおよびサーバを制
御し、利用者に翻訳サービスを提供する。統合管理シス
テム10aは、具体的には図3〜図8に示すフロー図を
処理する。
The speech recognition system 10c, language translation system 10d, speech synthesis system 10e, and database server 10b are managed by an integrated management system 10a. When accessed through the modem 10f, the integrated management system 10 controls these systems and servers and provides translation services to users. Specifically, the integrated management system 10a processes the flowcharts shown in FIGS.

【0020】音声翻訳システム10へのアクセス要求に
は発呼元の電話番号情報が含まれる。このため、まずス
テップS1でアクセス要求から電話番号情報を取得し、
続くステップS3では検出された電話番号情報に基づい
て発呼元の国情報を検出する。日本人Aが電話機20を
用いて音声翻訳システム10にアクセスした場合、電話
番号情報には国番号“81”が含まれる。ステップS3
では、この国番号“81”から発呼元の国を日本と特定
する。ステップS5ではこうして得られた発呼元の電話
番号情報および国情報を内部メモリに保持し、ステップ
S7では、保持された国情報から発呼者の母国語(発呼
者が属する国の公用語)を仮決定する。発呼者が日本人
Aであるとき、ステップS7では日本語が母国語として
仮決定される。
The access request to the voice translation system 10 includes the telephone number information of the caller. Therefore, first, in step S1, telephone number information is obtained from the access request,
In a succeeding step S3, country information of the caller is detected based on the detected telephone number information. When Japanese A accesses the speech translation system 10 using the telephone 20, the telephone number information includes the country code "81". Step S3
Then, the country of the caller is specified as Japan from the country code "81". In step S5, the telephone number information and country information of the caller obtained in this manner are stored in the internal memory. In step S7, the native language of the caller (the official language of the country to which the caller belongs) is stored from the stored country information. ) Is provisionally determined. When the caller is Japanese A, in step S7, Japanese is provisionally determined as the native language.

【0021】ステップS9では、仮決定された母国語で
発呼者に音声ガイダンスを行なう。仮決定された母国語
が日本語であれば、“こちらはATR音声言語通信研究
所の提供する自動音声翻訳サービスです。あなたがお話
になる言語は日本語ですか?”という内容の合成音声が
発呼者に伝えられる。音声ガイダンスを終えると、ステ
ップS11で発呼者からの音声入力があったかどうか判
断するとともに、ステップS13で所定時間が経過した
かどうか判断する。所定期間内に音声入力がなかったと
きは、発呼者の母国語は仮決定母国語と異なるとみな
し、ステップS15で仮決定母国語をたとえば英語に変
更してからステップS9に戻る。ステップS9では、変
更された言語すなわち英語による音声ガイダンスが行な
われる。
In step S9, voice guidance is given to the caller in the provisionally determined native language. If the tentatively-determined native language is Japanese, a synthesized speech with the content "This is an automatic speech translation service provided by the ATR Spoken Language Communication Laboratory. Is your language spoken in Japanese?" Communicated to caller. When the voice guidance is completed, it is determined in step S11 whether a voice input has been made from the caller, and in step S13, it is determined whether a predetermined time has elapsed. If there is no voice input within the predetermined period, it is considered that the caller's native language is different from the provisionally determined native language, and the provisionally determined native language is changed to, for example, English in step S15, and the process returns to step S9. In step S9, the voice guidance in the changed language, that is, English is performed.

【0022】発呼者から音声入力があったときは、音声
認識システム10cを制御してステップS17〜S21
の処理を行なう。まずステップS17で、入力された発
話音声の特徴を抽出する。ステップS19では抽出され
た特徴から発話者の母国語,声質および性別を特定し、
特定した母国語情報,声質情報および性別情報を発呼元
の電話番号情報および国情報と関連付けてデータベース
サーバ10bに登録する。ステップS21では、入力さ
れた発話音声を認識して音声ガイダンスに対する返事を
取得する。
When there is a voice input from the caller, the voice recognition system 10c is controlled to execute steps S17 to S21.
Is performed. First, in step S17, features of the input uttered voice are extracted. In step S19, the speaker's native language, voice quality, and gender are specified from the extracted features.
The specified native language information, voice quality information, and gender information are registered in the database server 10b in association with the caller's telephone number information and country information. In step S21, the input uttered voice is recognized and a reply to the voice guidance is obtained.

【0023】取得した返事が“はい、そうです”などの
肯定的な返事であれば、ステップS23でYESと判断
し、ステップS31に進む。これに対して、返事が否定
的であればステップS25に進み、返事から発話者の言
語を決定できるかどうか判断する。返事の内容が単に
“いいえ”であれば、ステップS25でNOと判断し、
ステップS15で仮決定母国語を変更してからステップ
S9に戻る。一方、返事が“いいえ、英語です”のよう
に母国語を決定できる言葉が入っていれば、ステップS
25でYESと判断し、ステップS27でデータベース
サーバ10bの母国語情報を更新してからステップS3
1に進む。
If the obtained reply is an affirmative reply such as "Yes, so", YES is determined in the step S23, and the process proceeds to a step S31. On the other hand, if the answer is negative, the process proceeds to step S25, and it is determined whether or not the language of the speaker can be determined from the answer. If the content of the reply is simply "No", it is determined NO in step S25,
After changing the provisionally determined native language in step S15, the process returns to step S9. On the other hand, if the reply includes a word that can determine the native language, such as “No, English”, step S
25 is determined to be YES, the native language information of the database server 10b is updated in step S27, and then step S3
Proceed to 1.

【0024】ステップS31では通話相手の電話番号の
入力を促す音声ガイダンスを行なう。具体的には、デー
タベースサーバ10bに登録された母国語情報に従う言
語で、“相手先の電話番号を国番号から言ってください
?”との音声メッセージを出力する。ステップS33で
はこの音声メッセージに対して音声入力があったかどう
か判断し、ステップS35では所定期間が経過したかど
うか判断する。発呼者から応答がないまま所定期間が経
過したときは、ステップS35でYESと判断し、ステ
ップS31に戻る。このため、同じ音声メッセージが再
度出力される。
In step S31, voice guidance for prompting the input of the telephone number of the other party is performed. Specifically, a voice message "Please say the telephone number of the other party from the country code?" Is output in a language according to the native language information registered in the database server 10b. In a step S33, it is determined whether or not a voice input is made to the voice message, and in a step S35, it is determined whether or not a predetermined period has elapsed. If the predetermined period has elapsed without a response from the caller, “YES” is determined in the step S35, and the process returns to the step S31. Therefore, the same voice message is output again.

【0025】一方、発呼者の発話音声が入力されると、
ステップS33でYESと判断し、音声認識システム1
0cを用いてステップS37〜41の処理を行なう。ス
テップS37では発話音声の特徴を抽出し、ステップS
39では抽出された特徴から特定した発話者の母国語情
報,声質情報および性別情報をデータベースサーバ10
bに登録する。つまり、データベースサーバ10bに登
録された母国語情報,声質情報および性別情報は、発話
音声が入力される毎に更新される。
On the other hand, when the voice of the caller is input,
It is determined as YES in step S33, and the voice recognition system 1
The processing of steps S37 to S41 is performed using 0c. In step S37, the feature of the uttered voice is extracted, and
At 39, the native language information, voice quality information and gender information of the speaker identified from the extracted features are stored in the database server 10
Register in b. That is, the native language information, the voice quality information, and the gender information registered in the database server 10b are updated each time a speech sound is input.

【0026】ステップS41では入力された発話音声を
認識して相手方の電話番号情報を取得し、続くステップ
S43では取得した電話番号情報の正当性を判断する。
電話番号情報に国番号が含まれていないような場合、こ
のステップでNOと判断され、ステップS31に戻る。
一方、電話番号情報が正当であれば、ステップS45に
進み、電話番号を確認するための音声ガイダンスを行な
う。具体的には、データベースサーバ10bに登録され
た母国語情報に従う言語で、“相手先の電話番号は、○
○○−××××−△△△△△ですね?”との音声メッセ
ージを出力する。
In step S41, the input uttered voice is recognized to acquire the telephone number information of the other party, and in the following step S43, the validity of the acquired telephone number information is determined.
If the country code is not included in the telephone number information, NO is determined in this step, and the process returns to step S31.
On the other hand, if the telephone number information is valid, the process proceeds to step S45, and voice guidance for confirming the telephone number is performed. Specifically, in the language according to the native language information registered in the database server 10b, "the telephone number of the destination is
○○ − ×××× − △△△△△ The voice message "" is output.

【0027】ステップS47ではこの音声メッセージに
対して音声入力があったかどうか判断し、ステップS4
9では所定期間が経過したかどうか判断する。所定期間
にわたって返事がないときはステップS49でYESと
判断し、ステップS45に戻る。一方、発呼者から音声
による返事があるとステップS47でYESと判断し、
音声認識システム10cを用いてステップS51〜55
の処理を行なう。ステップS51では、返事を形成する
音声から特徴を抽出する。ステップS53では、抽出さ
れた特徴から発話者の母国語情報,声質情報および性別
情報を特定し、特定した情報によってデータベースサー
バ10bを更新する。ステップS53の処理が完了する
と、ステップS55で返事の内容を認識する。
In step S47, it is determined whether or not a voice input has been made in response to the voice message.
At 9, it is determined whether a predetermined period has elapsed. When there is no reply for a predetermined period, YES is determined in the step S49, and the process returns to the step S45. On the other hand, if there is a voice response from the caller, YES is determined in step S47,
Steps S51 to S55 using the voice recognition system 10c
Is performed. In step S51, features are extracted from the voice forming the reply. In step S53, the speaker's native language information, voice quality information, and gender information are specified from the extracted features, and the database server 10b is updated with the specified information. Upon completion of the process in the step S53, the content of the reply is recognized in a step S55.

【0028】ステップS57では認識した音声が肯定的
であるかどうか判断し、“いいえ”のような否定的な返
事であれば、ステップS31に戻る。これによって、電
話番号の入力を案内する音声ガイダンスからの一連の処
理が繰り返される。一方、“はい、そうです”のような
肯定的な返事が取得されたときは、ステップS57から
ステップS59に進み、ステップS41で取得した電話
番号情報から通話相手の国情報を検出する。電話番号情
報に含まれる国番号が“1”であれば、通話相手の属す
る国は米国とされる。続いて、ステップS61で通話相
手の電話番号情報および国情報を内部メモリに保持し、
ステップS63で通話相手の母国語(通話相手が属する
国の公用語)を仮決定する。通話相手の属する国が米国
であれば、通話相手の母国語は英語と仮決定される。
In the step S57, it is determined whether or not the recognized voice is affirmative. If the answer is negative such as "No", the process returns to the step S31. Thereby, a series of processes from the voice guidance for guiding the input of the telephone number is repeated. On the other hand, when an affirmative reply such as "Yes, yes" is obtained, the process proceeds from the step S57 to the step S59, and the country information of the call partner is detected from the telephone number information obtained in the step S41. If the country code included in the telephone number information is "1", the country to which the other party belongs is the United States. Subsequently, in step S61, the telephone number information and the country information of the other party are held in the internal memory.
In step S63, the native language of the call partner (the official language of the country to which the call partner belongs) is provisionally determined. If the country to which the other party belongs is the United States, the native language of the other party is provisionally determined to be English.

【0029】ステップS65では、通話相手の名前の入
力を促がす音声ガイダンスを行なう。発呼者には、発呼
者の母国語で“相手先の名前を言ってください?”との
音声メッセージが伝えられる。ステップS67ではこの
音声メッセージに対して音声による返事があったかどう
か判断し、ステップS69では所定期間が経過したかど
うか判断する。返事がないまま所定期間が経過すると、
ステップS69でYESと判断し、再度の音声ガイダン
スを行なうべくステップS65に戻る。
In step S65, voice guidance for prompting the input of the name of the other party is performed. The caller receives a voice message in the native language of the caller saying "Please say the name of the other party?" In a step S67, it is determined whether or not there is a voice response to the voice message, and in a step S69, it is determined whether or not a predetermined period has elapsed. After a predetermined period without a reply,
YES is determined in the step S69, and the process returns to the step S65 to perform the voice guidance again.

【0030】一方、発呼者から返事があったときは、ス
テップS67でYESと判断し、音声認識システム10
cを用いてステップS71〜75の処理を行なう。ステ
ップS71では発話音声の特徴を抽出し、ステップS7
3では抽出された特徴から特定した母国語情報,声質情
報および性別情報によってデータベースサーバ10bを
更新し、ステップS75では発話音声の認識処理によっ
て通話相手の名前を取得する。
On the other hand, if there is a reply from the caller, YES is determined in the step S67, and the voice recognition system 10
The processing of steps S71 to S75 is performed using c. In step S71, features of the uttered voice are extracted, and in step S7
In step 3, the database server 10b is updated with the native language information, voice quality information, and gender information specified from the extracted features. In step S75, the name of the other party is acquired by speech voice recognition processing.

【0031】こうして通話相手の電話番号情報および名
前の取得が完了すると、ステップS77およびS79で
通話相手がデータベースサーバ10bに登録されていな
いかどうか判別する。具体的には、通話相手の電話番号
情報をキーワードとしてデータベースサーバ10bを検
索し、同じ電話番号情報を発見できたかどうかステップ
S79で判断する。電話番号情報を発見できなかったと
きはそのままステップS85に進むが、電話番号情報を
発見できたときは、ステップS81でデータベースサー
バ10bから通話相手の母国語情報を取得し、ステップ
S83で通話相手の仮決定母国語を変更してからステッ
プS85に進む。たとえばステップS63で仮決定され
た母国語が英語であり、データベースサーバ10bから
取得された母国語情報がドイツ語であれば、仮決定母国
語が英語からドイツ語に変更される。
When the acquisition of the telephone number information and the name of the called party is completed, it is determined in steps S77 and S79 whether or not the called party is registered in the database server 10b. Specifically, the database server 10b is searched using the telephone number information of the other party as a keyword, and it is determined in step S79 whether the same telephone number information has been found. When the telephone number information cannot be found, the process directly proceeds to step S85, but when the telephone number information can be found, the native language information of the other party is obtained from the database server 10b in step S81, and the other party's native language information is obtained in step S83. After changing the provisionally determined native language, the process proceeds to step S85. For example, if the native language provisionally determined in step S63 is English and the native language information acquired from the database server 10b is German, the provisionally determined native language is changed from English to German.

【0032】ステップS85では通話相手への発呼処理
を行ない、ステップS87では回線状態がOKかどうか
を、ステップS89では相手方から応答があったかどう
かをそれぞれ判断する。回線状態がビジー(話し中)で
あるか、相手方からの応答がないときは、ステップS8
7またはS89からステップS107に進む。ステップ
S107では、通話不能であることを案内するための音
声ガイダンスを行なう。具体的には、回線状態がビジー
であれば“相手方の電話は使用中です”との音声メッセ
ージが出力され、応答がないときは“相手方からの応答
がありません”との音声メッセージが出力される。これ
に対して発呼者が電話回線を切断すると、ステップS1
09でYESと判断し、処理を終了する。
In step S85, a call is made to the other party. In step S87, it is determined whether the line state is OK. In step S89, it is determined whether there is a response from the other party. If the line state is busy (busy) or there is no response from the other party, step S8
7 or S89 proceeds to step S107. In step S107, voice guidance for guiding that the call is not possible is performed. More specifically, if the line status is busy, a voice message saying "the other party's phone is busy" is output, and if there is no response, a voice message saying "the other party has not responded" is output. . On the other hand, when the caller disconnects the telephone line, step S1
09 is determined as YES, and the process ends.

【0033】これに対して、回線状態がOKでかつ相手
方から応答があると、ステップS87およびS89でY
ESと判断し、ステップS91でサービス案内のための
音声ガイダンスを行なう。このとき、ステップS75で
取得した相手方の名前を用いられる。具体的には、仮決
定された母国語で“こちらはATR音声言語通信研究所
の提供する自動音声翻訳サービスです。あなたはシュレ
ーダさんですか?”との音声メッセージが相手方に伝え
られる。
On the other hand, if the line status is OK and there is a response from the other party, Y is determined in steps S87 and S89.
It is determined to be ES, and voice guidance for service guidance is performed in step S91. At this time, the name of the other party obtained in step S75 is used. Specifically, a voice message saying "This is an automatic speech translation service provided by the ATR Spoken Language Communication Research Institute. Are you Schrader?" Is delivered to the other party in the provisionally determined native language.

【0034】ステップS93ではこの音声メッセージに
対して音声による返事があったかどうか判断し、ステッ
プS95では所定期間が経過したかどうか判断する。返
事がないまま所定期間が経過すると、ステップS95で
YESと判断し、ステップS97で仮決定母国語を変更
してからステップS91に戻る。一方、相手方から返事
があったときは、ステップS93でYESと判断し、ス
テップS99で音声認識システム10cを用いて返事の
内容を認識するとともに、ステップS101で認識した
返事が肯定的であるか肯定的であるかを判断する。
In a step S93, it is determined whether or not there is a voice response to the voice message, and in a step S95, it is determined whether or not a predetermined period has elapsed. If the predetermined period has elapsed without reply, YES is determined in the step S95, the temporarily determined native language is changed in a step S97, and the process returns to the step S91. On the other hand, if there is a reply from the other party, YES is determined in step S93, the content of the reply is recognized using the voice recognition system 10c in step S99, and whether the reply recognized in step S101 is positive or not is determined. Judge whether it is appropriate.

【0035】ここで、返事が“シュレーダは不在です”
のような否定的な返事であれば、ステップS101から
ステップS107に進み、“シュレーダさんは不在だそ
うです”との音声メッセージを発呼者に伝える。これに
対して、返事が“はい、そうです”のような肯定的な返
事であればステップS101でYESと判断し、音声認
識システム10cを用いてステップS103およびS1
05の処理を行なう。ステップS103では発話音声の
特徴を抽出し、ステップS105では抽出された特徴か
ら特定した母国語情報,声質情報および性別情報をデー
タベースサーバ10bに登録または更新する。
Here, the answer is "Schrader is absent."
If the answer is negative, the process proceeds from step S101 to step S107, and a voice message "Mr. Schrader seems to be out of the office" is transmitted to the caller. On the other hand, if the reply is an affirmative reply such as “Yes, yes”, then YES is determined in the step S101, and the steps S103 and S1 are performed using the speech recognition system 10c.
Step 05 is performed. In step S103, features of the uttered voice are extracted, and in step S105, native language information, voice quality information, and gender information specified from the extracted features are registered or updated in the database server 10b.

【0036】つまり、通話相手がデータベースサーバ1
0bに登録済みであれば、特定した母国語情報,声質情
報および性別情報によってデータベースサーバ10bを
更新し、通話相手が未登録であれば、特定した母国語情
報,声質情報および性別情報をステップS61で保持し
た通話相手の電話番号情報および国情報と関連付けてデ
ータベースサーバ10bに登録する。
That is, the communication partner is the database server 1
0b, the database server 10b is updated with the specified native language information, voice quality information, and gender information. If the other party is not registered, the specified native language information, voice quality information, and gender information are updated in step S61. Is registered in the database server 10b in association with the telephone number information and the country information of the other party held in step.

【0037】こうして発呼者および通話相手の両方の母
国語が特定され、かつ通話可能状態となると、ステップ
S111でサービス開始を案内するための音声ガイダン
スを行なう。具体的には、“それではお話しください”
との音声メッセージを発呼者および通話相手の両方に伝
える。これによって、双方の会話が開始される。
When the native language of both the caller and the called party is specified and the communication is enabled, voice guidance for guiding the start of the service is performed in step S111. Specifically, “Tell me now.”
To both the caller and the other party. This starts a conversation between the two parties.

【0038】ステップS113では一方の話者の発話音
声を取り込み、ステップS115では音声認識システム
10cを用いて発話音声の特徴を抽出する。続くステッ
プS117では、抽出された特徴に基づいて発話者の母
国語,声質および性別を特定し、特定した母国語情報,
声質情報および性別情報によってデータベースサーバ1
0bの登録済み情報を更新する。つまり、会話が開始さ
れた後も、発話音声を入力する毎にデータベースサーバ
10bの母国語情報,声質情報および性別情報が更新さ
れる。
In step S113, the uttered voice of one speaker is captured, and in step S115, the features of the uttered voice are extracted using the voice recognition system 10c. In the following step S117, the speaker's native language, voice quality, and gender are specified based on the extracted features, and the specified native language information,
Database server 1 based on voice quality information and gender information
0b is updated. That is, even after the conversation is started, the native language information, the voice quality information, and the gender information of the database server 10b are updated each time the uttered voice is input.

【0039】ステップS119では、取り込まれた発話
音声の内容を音声認識システム10cを用いて認識し、
かつ認識した内容を言語翻訳システム10dを用いて他
方の話者の母国語に翻訳する。このとき、翻訳先の言語
は、データベースサーバ10bに登録された他方の話者
の母国語情報によって決定される。
In step S119, the contents of the uttered speech fetched are recognized using the speech recognition system 10c.
The recognized content is translated into the native language of the other speaker using the language translation system 10d. At this time, the language of the translation destination is determined by the native language information of the other speaker registered in the database server 10b.

【0040】翻訳処理が完了すると、音声合成システム
10eを用いてステップS121およびS123を処理
する。ステップS121では翻訳内容の合成音声を作成
し、ステップS123では作成された合成音声を再生す
る。再生された合成音声は、他方の話者に伝えられる。
When the translation process is completed, steps S121 and S123 are processed using the speech synthesis system 10e. In step S121, a synthesized speech of the translated content is created, and in step S123, the created synthesized speech is reproduced. The reproduced synthesized voice is transmitted to the other speaker.

【0041】ステップS125では、いずれかの話者が
電話回線を切断したかどうか判断し、NOであればステ
ップS113に戻る。これによって、各々の話者が発話
する毎に発話音声が翻訳され、翻訳された合成音声が相
手方に伝えられる。つまり、翻訳された合成音声を用い
た会話が継続して行なわれる。一方の話者が電話回線を
切断するとステップS125からステップS127に進
み、回線の切断を案内する音声ガイダンスが行なわれ
る。つまり、“相手方が電話を切りましたのでサービス
を終了します、ご利用ありがとうございました”との音
声メッセージが他方の話者に伝えられる。これに対し
て、他方の話者が回線を切断すると、ステップS129
でYESと判断し、処理を終了する。
In step S125, it is determined whether any of the speakers has disconnected the telephone line. If NO, the process returns to step S113. As a result, the spoken voice is translated each time each speaker speaks, and the translated synthesized voice is transmitted to the other party. That is, conversation using the translated synthesized speech is continuously performed. When one speaker disconnects the telephone line, the process proceeds from step S125 to step S127, and voice guidance for guiding the disconnection of the line is performed. In other words, a voice message saying "the service is terminated because the other party has hung up the phone, thank you for using" is transmitted to the other speaker. On the other hand, when the other speaker disconnects the line, step S129 is performed.
Is determined as YES, and the process ends.

【0042】以上の説明から分かるように、互いに異な
る言語を母国語(使用言語)とする2人の話者が通信ネ
ットワーク40を介して会話をするとき、各々の話者の
発話音声は、音声翻訳システム10によって取り込まれ
る。音声翻訳システム10は、取り込まれた発話音声に
基づいて各々の話者の母国語を特定し、特定した母国語
に基づいて発話音声を翻訳し、そして翻訳された合成音
声を各々の話者に伝える。
As can be understood from the above description, when two speakers whose different languages are their native languages (languages used) have a conversation via the communication network 40, the uttered voice of each speaker is the voice Captured by the translation system 10. The speech translation system 10 specifies the native language of each speaker based on the captured uttered speech, translates the uttered speech based on the identified native language, and provides the translated synthesized speech to each speaker. Tell

【0043】各々の話者の母国語を特定するとき、まず
電話番号に基づいて各々の話者の属する国が検出され、
検出された国の公用語によって音声案内が行なわれる。
母国語は、この音声案内に対する返事に基づいて特定さ
れる。ただし、検出された国の公用語と話者の母国語と
が一致しない場合もあるため、音声案内に対する返事が
ないときは、音声案内の言語が変更される。音声案内に
対して肯定的な返事があったときは、この現点の音声案
内の言語が母国語として特定される。
When specifying the native language of each speaker, first, the country to which each speaker belongs is detected based on the telephone number,
Voice guidance is provided in the official language of the detected country.
The native language is specified based on a response to the voice guidance. However, since the official language of the detected country and the speaker's native language may not match, if there is no response to the voice guidance, the language of the voice guidance is changed. When a positive reply is given to the voice guidance, the language of the current voice guidance is specified as the native language.

【0044】特定された母国語情報はデータベースサー
バ10bに登録され、言語翻訳はデータベースサーバ1
0bに登録された母国語情報に従って行なわれる。ま
た、各々の話者の母国語の特定は、発話音声が取り込ま
れる毎に行なわれる。データベースサーバ10bに登録
された母国語情報は、母国語が特定される毎に更新され
る。
The specified native language information is registered in the database server 10b, and the language translation is stored in the database server 1b.
0b is performed according to the native language information registered. The native language of each speaker is specified each time the uttered voice is captured. The native language information registered in the database server 10b is updated every time the native language is specified.

【0045】したがって、オペレータを介在させなくて
も母国語が異なる話者の間で会話を行なうことができ、
さらに会話の途中での突然の話者の変更にも対応するこ
とができる。
Therefore, it is possible to have a conversation between speakers having different native languages without the intervention of an operator,
Further, it is possible to cope with a sudden change of the speaker during the conversation.

【図面の簡単な説明】[Brief description of the drawings]

【図1】音声翻訳システムおよび複数の電話機が通信ネ
ットワークに接続された状態を示す図解図である。
FIG. 1 is an illustrative view showing a state in which a speech translation system and a plurality of telephones are connected to a communication network;

【図2】音声翻訳システムの構成の一例を示す図解図で
ある。
FIG. 2 is an illustrative view showing one example of a configuration of a speech translation system;

【図3】音声翻訳システムの動作の一部を示すフロー図
である。
FIG. 3 is a flowchart showing a part of the operation of the speech translation system.

【図4】音声翻訳システムの動作の他の一部を示すフロ
ー図である。
FIG. 4 is a flowchart showing another part of the operation of the speech translation system.

【図5】音声翻訳システムの動作のその他の一部を示す
フロー図である。
FIG. 5 is a flowchart showing another part of the operation of the speech translation system.

【図6】音声翻訳システムの動作のさらにその他の一部
を示すフロー図である。
FIG. 6 is a flowchart showing yet another portion of the operation of the speech translation system.

【図7】音声翻訳システムの動作の他の一部を示すフロ
ー図である。
FIG. 7 is a flowchart showing another part of the operation of the speech translation system.

【図8】音声翻訳システムの動作のその他の一部を示す
フロー図である。
FIG. 8 is a flowchart showing another part of the operation of the speech translation system.

【符号の説明】[Explanation of symbols]

10…音声翻訳システム 10a…統合管理システム 10b…データベースサーバ 10c…音声合成システム 10d…言語翻訳システム 10e…音声認識システム 10f…モデム 20,30…電話機 40…通信ネットワーク DESCRIPTION OF SYMBOLS 10 ... Speech translation system 10a ... Integrated management system 10b ... Database server 10c ... Speech synthesis system 10d ... Language translation system 10e ... Speech recognition system 10f ... Modem 20,30 ... Telephone 40 ... Communication network

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 551C 531K (72)発明者 西野 敦士 京都府相楽郡精華町光台二丁目2番地2 株式会社エイ・ティ・アール音声言語通信 研究所内 (72)発明者 ライナー グルーン 京都府相楽郡精華町光台二丁目2番地2 株式会社エイ・ティ・アール音声言語通信 研究所内 (72)発明者 中村 哲 京都府相楽郡精華町光台二丁目2番地2 株式会社エイ・ティ・アール音声言語通信 研究所内 Fターム(参考) 5B091 AA03 CB12 CB32 DA02 5D015 AA06 KK02 KK04 5D045 AB03 ──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 7 Identification symbol FI Theme coat 参考 (Reference) G10L 3/00 551C 531K (72) Inventor Atsushi Nishino 2-2-1 Kodai, Seikacho, Soraku-gun, Kyoto Stock AT R Spoken Language Communication Research Laboratories (72) Inventor Rainer Greene 2-2-2 Kodai, Seika-cho, Soraku-gun, Kyoto Prefecture AT R Spoken Language Communication Research Laboratories (72) Inventor Satoshi Nakamura F-term (reference) 5A093 AA03 CB12 CB32 DA02 5D015 AA06 KK02 KK04 5D045 AB03

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】互いに異なる言語を使用する複数の話者の
間で通信回線を介して行なわれる会話を翻訳する音声翻
訳システムにおいて、 各々の前記話者の発話音声を取り込む取り込み手段、 前記発話音声の特徴を抽出する抽出手段、 前記発話音声の特徴に基づいて各々の前記話者の使用言
語を特定する特定手段、 前記発話音声の内容を認識する認識手段、 前記発話音声の内容を前記特定手段による特定結果に基
づいて翻訳する翻訳手段、 前記翻訳手段による翻訳結果に基づいて合成音声を作成
する作成手段、および前記合成音声を出力する出力手段
を備えることを特徴とする、音声翻訳システム。
1. A speech translation system for translating a conversation performed between a plurality of speakers using different languages via a communication line, comprising: a fetching unit for fetching uttered voices of the respective speakers; Extracting means for extracting the characteristics of the uttered voice, specifying means for specifying the language used by each speaker based on the characteristics of the uttered voice, recognition means for recognizing the content of the uttered voice, and specifying means for the content of the uttered voice A translation unit that translates based on a result specified by the translation unit, a creation unit that creates a synthesized speech based on a translation result by the translation unit, and an output unit that outputs the synthesized speech.
【請求項2】各々の前記話者の電話番号を検出する電話
番号検出手段、 前記電話番号に基づいて各々の前記話者が属する国を検
出する国検出手段、および前記国検出手段によって検出
された国の公用語で音声案内をする音声案内手段をさら
に備え、 前記特定手段は前記音声案内に対する返事に基づいて前
記使用言語を特定する第1言語特定手段を含む、請求項
1記載の音声翻訳システム。
2. A telephone number detecting means for detecting a telephone number of each of said speakers, a country detecting means for detecting a country to which each of said speakers belongs based on said telephone number, and said country detecting means. 2. The voice translation device according to claim 1, further comprising: voice guidance means for providing voice guidance in an official language of the country where the voice guidance is provided, wherein the specification means includes first language specification means for specifying the language to be used based on a reply to the voice guidance. system.
【請求項3】前記第1言語特定手段は、前記音声案内に
対して返事がないとき前記音声案内の言語を変更する変
更手段、および前記音声案内に対して肯定的な返事があ
ったとき現時点の前記音声案内の言語を前記使用言語と
して決定する決定手段を含む、請求項2記載の音声翻訳
システム。
3. The first language specifying means includes: changing means for changing the language of the voice guidance when there is no response to the voice guidance; and current time when a positive response is received to the voice guidance. 3. The speech translation system according to claim 2, further comprising a determination unit that determines a language of said voice guidance as said language to be used.
【請求項4】前記特定手段は前記第1言語特定手段によ
って特定された前記使用言語を示す使用言語情報をメモ
リに格納する格納手段をさらに含み、 前記翻訳手段は前記メモリに格納された前記使用言語情
報に従って翻訳を行なう、請求項2または3記載の音声
翻訳システム。
4. The method according to claim 1, wherein the specifying unit further includes a storage unit configured to store, in a memory, use language information indicating the use language specified by the first language specification unit, and the translation unit stores the use language information stored in the memory. 4. The speech translation system according to claim 2, wherein translation is performed according to language information.
【請求項5】前記特定手段は、前記発話音声が取り込ま
れる毎に発話元の前記使用言語を特定する第2言語特定
手段、および前記第2言語特定手段によって特定された
前記使用言語を示す使用言語情報によって前記メモリを
更新する更新手段をさらに含む、請求項4記載の音声翻
訳システム。
5. The second language specifying means for specifying the language used as the utterance source each time the uttered voice is captured, and a usage indicating the used language specified by the second language specifying means. 5. The speech translation system according to claim 4, further comprising an updating unit that updates said memory with language information.
JP2001105349A 2001-04-04 2001-04-04 Voice translation system Withdrawn JP2002304392A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001105349A JP2002304392A (en) 2001-04-04 2001-04-04 Voice translation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001105349A JP2002304392A (en) 2001-04-04 2001-04-04 Voice translation system

Publications (1)

Publication Number Publication Date
JP2002304392A true JP2002304392A (en) 2002-10-18

Family

ID=18958056

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001105349A Withdrawn JP2002304392A (en) 2001-04-04 2001-04-04 Voice translation system

Country Status (1)

Country Link
JP (1) JP2002304392A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011248002A (en) * 2010-05-25 2011-12-08 Fujitsu Toshiba Mobile Communications Ltd Translation device
JP2012079330A (en) * 2011-12-01 2012-04-19 Olympus Imaging Corp Guide apparatus and guide method
JP2019146055A (en) * 2018-02-22 2019-08-29 クラリオン株式会社 Telephone call device and control method therefor
JP2020003591A (en) * 2018-06-27 2020-01-09 株式会社第一興商 Remote controller
JP2020190625A (en) * 2019-05-22 2020-11-26 株式会社日本レカム Automatic translation device by speech recognition, and information system
WO2021049445A1 (en) * 2019-09-10 2021-03-18 日本電気株式会社 Language inference device, language inference method, and program

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011248002A (en) * 2010-05-25 2011-12-08 Fujitsu Toshiba Mobile Communications Ltd Translation device
JP2012079330A (en) * 2011-12-01 2012-04-19 Olympus Imaging Corp Guide apparatus and guide method
JP2019146055A (en) * 2018-02-22 2019-08-29 クラリオン株式会社 Telephone call device and control method therefor
JP2020003591A (en) * 2018-06-27 2020-01-09 株式会社第一興商 Remote controller
JP7061520B2 (en) 2018-06-27 2022-04-28 株式会社第一興商 Remote control device
JP2020190625A (en) * 2019-05-22 2020-11-26 株式会社日本レカム Automatic translation device by speech recognition, and information system
WO2021049445A1 (en) * 2019-09-10 2021-03-18 日本電気株式会社 Language inference device, language inference method, and program
JPWO2021049445A1 (en) * 2019-09-10 2021-03-18
JP7331933B2 (en) 2019-09-10 2023-08-23 日本電気株式会社 Language estimation device, language estimation method, and program

Similar Documents

Publication Publication Date Title
US11335330B2 (en) Updating a voice template
JP3168033B2 (en) Voice telephone dialing
JP4247929B2 (en) A method for automatic speech recognition in telephones.
US5797124A (en) Voice-controlled voice mail having random-order message retrieval based on played spoken identifier list
US8515025B1 (en) Conference call voice-to-name matching
US6327346B1 (en) Method and apparatus for setting user communication parameters based on voice identification of users
US20160171981A1 (en) Method for Embedding Voice Mail in a Spoken Utterance Using a Natural Language Processing Computer System
US9538348B2 (en) Method and message server for routing a speech message
JPH0730643A (en) Communication system and communication method
US6724866B2 (en) Dialogue device for call screening and classification
CN107205097B (en) Mobile terminal searching method and device and computer readable storage medium
JPH06242793A (en) Speaker certification using companion normalization scouring
CN110858841B (en) Electronic device and method for registering new user through authentication of registered user
US20200211560A1 (en) Data Processing Device and Method for Performing Speech-Based Human Machine Interaction
TW200304638A (en) Network-accessible speaker-dependent voice models of multiple persons
CN111601002A (en) Client number state matching method and device, electronic equipment and storage medium
CN113779217A (en) Intelligent voice outbound service method and system based on human-computer interaction
JP2002304392A (en) Voice translation system
JP5253097B2 (en) Intercom system and intercom program
JP2002311983A (en) Translation phone system
JP2001274907A (en) Caller recognition system and method
JP4486235B2 (en) Voice recognition device
CN106302950A (en) A kind of call verification method, device and mobile terminal
CN114390144A (en) Intelligent processing method, device and control system for voice incoming call
JP2002320037A (en) Translation telephone system

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080701