JP2002320037A - Translation telephone system - Google Patents

Translation telephone system

Info

Publication number
JP2002320037A
JP2002320037A JP2001121576A JP2001121576A JP2002320037A JP 2002320037 A JP2002320037 A JP 2002320037A JP 2001121576 A JP2001121576 A JP 2001121576A JP 2001121576 A JP2001121576 A JP 2001121576A JP 2002320037 A JP2002320037 A JP 2002320037A
Authority
JP
Japan
Prior art keywords
voice
translation
speech
uttered
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001121576A
Other languages
Japanese (ja)
Inventor
Takeshi Matsuda
猛 松田
Atsushi Nishino
敦士 西野
Gruhn Rainer
グルーン ライナー
Satoru Nakamura
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI GENGO TSUSHIN KENKYU
ATR Spoken Language Translation Research Laboratories
Original Assignee
ATR ONSEI GENGO TSUSHIN KENKYU
ATR Spoken Language Translation Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI GENGO TSUSHIN KENKYU, ATR Spoken Language Translation Research Laboratories filed Critical ATR ONSEI GENGO TSUSHIN KENKYU
Priority to JP2001121576A priority Critical patent/JP2002320037A/en
Publication of JP2002320037A publication Critical patent/JP2002320037A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a translation telephone system that can output a synthesized voice translated in the order of uttered sounds even when the uttered sequence of uttered sounds differs from the completion sequence of voice processing. SOLUTION: In the case of applying processes of voice recognition, language translation and synthesis voice to a series of uttered voices given to a telephone set 20 (30) and outputting the result to the telephone set 30 (20), the translation phone system 10 captures the voice of utterers. The translation phone system 10 stores utterance time information of the uttered voice to a memory by each utterance. Then the translation phone system 10 acquires the synthesis voice from the memory in the sequence according to the utterance time information and provides an output when outputting the translated synthesis voice.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】この発明は、翻訳電話システムに
関し、特にたとえば、互いに異なる言語を使用する2人
の話者の間で電話回線を介して行われる会話を翻訳す
る、翻訳電話システムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a translation telephone system, and more particularly to, for example, a translation telephone system for translating a conversation between two speakers using different languages via a telephone line.

【0002】[0002]

【従来の技術】従来のこの種の翻訳電話システムとして
は、分散ネットワークシステムを用いて話者の発話音声
に音声認識,言語翻訳,音声合成の音声処理を施すもの
があった。
2. Description of the Related Art As a conventional translation telephone system of this type, there has been a system in which voice processing of speech recognition, language translation, and speech synthesis is performed on a speaker's uttered voice using a distributed network system.

【0003】[0003]

【発明が解決しようとする課題】しかし、従来技術で
は、発話順序が考慮されておらず、入力された発話音声
の長さによっては発話順に音声処理が終了せず、音声処
理の結果の出力が発話音声の発話順とはならない恐れが
あった。
However, in the prior art, the order of speech is not taken into account, and the speech processing does not end in the order of speech depending on the length of the inputted speech voice, and the output of the speech processing result is not obtained. There is a possibility that the order of the uttered voices may not be in order.

【0004】それゆえに、この発明の主たる目的は、音
声処理の終了順序に関わらず発話音声の発話順に音声処
理結果を出力することができる、翻訳電話システムを提
供することである。
[0004] Therefore, a main object of the present invention is to provide a translation telephone system capable of outputting voice processing results in the utterance order of uttered voices regardless of the ending order of voice processing.

【0005】[0005]

【課題を解決するための手段】この発明は、互いに異な
る言語を使用する複数の話者の間で電話回線を介して行
われる会話を翻訳する翻訳電話システムにおいて、各々
の話者の発話音声を取り込む取り込み手段、発話音声の
取り込み時刻を検出する検出手段、発話音声の翻訳内容
を表す合成音声を作成する作成手段、および合成音声を
取り込み時刻に従う順序で出力する出力手段を備えるこ
とを特徴とする、翻訳電話システムである。
SUMMARY OF THE INVENTION The present invention relates to a translation telephone system for translating a conversation carried out via a telephone line among a plurality of speakers using different languages. Capturing means for capturing, a detecting means for detecting a capturing time of the uttered voice, a creating means for generating a synthesized voice representing a translation content of the uttered voice, and an output means for outputting the synthesized voice in an order according to the capturing time. , A translation telephone system.

【0006】[0006]

【作用】この発明においては、互いに異なる言語を使用
する複数の話者の間で電話回線を介して行われる会話を
翻訳する翻訳電話システムにおいて、翻訳された合成音
声が各々の話者の発話順に出力される。つまり、取り込
み手段は各々の話者の発話音声を取り込み、検出手段は
発話音声の取り込み手段による取り込み時刻を検出す
る。作成手段は、取り込み手段によって取り込まれた発
話音声の内容が翻訳された合成音声を作成する。そし
て、出力手段は合成音声を取り込み時刻に基づいて発話
音声の取り込み順に出力する。
According to the present invention, in a translation telephone system for translating a conversation performed via a telephone line between a plurality of speakers using different languages, the translated synthesized speech is arranged in the order of speech of each speaker. Is output. That is, the capturing means captures the uttered voice of each speaker, and the detecting means detects the capturing time of the uttered voice by the capturing means. The creating unit creates a synthesized speech in which the content of the uttered speech captured by the capturing unit is translated. Then, the output means outputs the synthesized voices in the order of capturing the uttered voices based on the captured time.

【0007】取り込み手段によって取り込まれた複数の
発話音声は、作成手段によって、発話音声の内容を認識
する音声認識処理、音声認識処理の処理結果を翻訳する
言語翻訳処理、および言語翻訳処理の処理結果の内容を
表す合成音声を作成する音声合成処理を互いに並行して
実行される。
The plurality of uttered voices fetched by the fetching means are processed by the creator to perform speech recognition processing for recognizing the contents of the uttered voices, language translation processing for translating the processing results of the speech recognition processing, and processing results of the language translation processing. Are performed in parallel with each other to generate a synthesized voice representing the contents of the above.

【0008】[0008]

【発明の効果】この発明によれば、音声処理の終了が発
話音声の発話順でない場合にも、発話順に音声の処理結
果を読み出すことができる。
According to the present invention, even if the end of the voice processing is not in the utterance order of the utterance voice, the processing result of the voice can be read out in the utterance order.

【0009】この発明の上述の目的,その他の目的,特
徴および利点は、図面を参照して行う以下の実施例の詳
細な説明から一層明らかとなろう。
The above objects, other objects, features and advantages of the present invention will become more apparent from the following detailed description of embodiments with reference to the drawings.

【0010】[0010]

【実施例】図1を参照して、この実施例の翻訳電話シス
テム10は、電話回線40に複数の電話機20および3
0とともに接続される。ここで、電話機20はたとえば
日本国内に設置され、日本国在住の日本人Aによって使
用される。また、電話機30はたとえば米国内に設置さ
れ、米国在住のドイツ人Bによって使用される。
Referring to FIG. 1, a translation telephone system 10 of this embodiment includes a telephone line 40 having a plurality of telephones 20 and 3 connected thereto.
Connected with 0. Here, the telephone 20 is installed in Japan, for example, and is used by a Japanese A resident in Japan. The telephone 30 is installed in the United States, for example, and is used by a German B living in the United States.

【0011】日本人Aが翻訳電話システム10を利用し
てドイツ人Bと会話をしたいとき、日本人Aは、まず翻
訳電話システム10にアクセスする。ドイツ人Bに対す
る発呼処理は翻訳電話システム10によって行われ、ド
イツ人Bが応答すると,通話可能状態となる。日本人A
の発話音声は日本語からドイツ語に翻訳され、翻訳され
た合成音声がドイツ人Bに伝えられる。同様に、ドイツ
人Bの発話音声はドイツ語から日本語に翻訳され、翻訳
された合成音声が日本人Aに伝えられる。
When Japanese A wants to have a conversation with German B using the translation telephone system 10, Japanese A first accesses the translation telephone system 10. The call processing for the German B is performed by the translation telephone system 10, and when the German B answers, the call becomes available. Japanese A
Is translated from Japanese to German, and the translated synthesized speech is transmitted to German B. Similarly, the uttered voice of German B is translated from German to Japanese, and the translated synthesized voice is transmitted to Japanese A.

【0012】図2を参照して、翻訳電話システム10
は、統合管理システム10a,データベースサーバ10
b,複数の音声認識システム10c,10c,…10
c,複数の言語翻訳システム10d,10d,…,10
d,複数の音声合成システム10e,10e,…10e
およびモデム10fを含んでいる。この翻訳電話システ
ム10は、分散ネットワークによって構成され、音声認
識システム10cによる音声認識,言語翻訳システムに
よる言語翻訳および音声合成システム10eによる音声
合成の各音声処理によって発話音声の翻訳が実現され
る。
Referring to FIG. 2, translation telephone system 10
Is the integrated management system 10a, the database server 10
b, a plurality of speech recognition systems 10c, 10c,... 10
c, a plurality of language translation systems 10d, 10d,..., 10
d, a plurality of speech synthesis systems 10e, 10e,... 10e
And a modem 10f. The translation telephone system 10 is configured by a distributed network, and the translation of the uttered voice is realized by each voice processing of voice recognition by the voice recognition system 10c, language translation by the language translation system, and voice synthesis by the voice synthesis system 10e.

【0013】ところで音声認識,言語翻訳および音声合
成は、それぞれ複数の音声認識システム10c,10
c,…10c,言語翻訳システム10d,10d,…,
10d,音声合成システム10e,10e,…10eに
よって音声処理されるため、音声処理の終了時間はシス
テムへの負荷により音声の入力順と比べて前後する恐れ
がある。つまり、図3に示すように、音声処理(出力す
べき合成音声の作成処理)が翻訳電話システム10に音
声が入力された順に終了するとは限らない場合がある。
図3の例では、まず、より発声時間の長い音声1が入力
され、ついで発声時間の短い音声2が入力される。しか
し、システムへの負荷がより少ない音声2に対応する合
成音声2の作成がまず終了し、その後で音声1に対応す
る合成音声1の作成が終了する。したがって、作成の終
了順に出力したのでは、合成音声の出力順に逆転が起こ
る。このような出力順の逆転を防ぐために、話者の発話
時刻を管理して、発話順に合成音声を出力する。
Incidentally, speech recognition, language translation and speech synthesis are performed by a plurality of speech recognition systems 10c and 10c, respectively.
c,... 10c, language translation systems 10d, 10d,.
Since the voice processing is performed by the voice synthesis system 10d, the voice synthesis system 10e, 10e,... 10e, the end time of the voice processing may be longer or shorter than the input order of voices due to the load on the system. That is, as shown in FIG. 3, the voice processing (the process of creating a synthesized voice to be output) may not always end in the order in which the voice is input to the translation telephone system 10.
In the example of FIG. 3, first, the voice 1 with a longer utterance time is input, and then the voice 2 with a shorter utterance time is input. However, the creation of the synthesized speech 2 corresponding to the speech 2 with a smaller load on the system is finished first, and then the creation of the synthesized speech 1 corresponding to the speech 1 is finished. Therefore, if the output is performed in the order of completion of the creation, the reverse occurs in the output order of the synthesized speech. In order to prevent the output order from being reversed, the utterance time of the speaker is managed, and the synthesized speech is output in the utterance order.

【0014】つぎに、翻訳電話システム10の仕組みに
ついて説明する。まず、翻訳電話システム10に入力さ
れた各々の話者(日本人Aおよびドイツ人B)が発する
発話音声の発話時刻が取得され、発話時刻を示す発話時
刻情報がデータベースサーバ10bに蓄積される。各々
の話者の発話音声の内容は、音声認識システム10cに
よって認識される。音声認識システム10はまた、発話
音声の特徴を抽出し、発話元の音声母国語(日本人Aに
ついては日本語、ドイツ人Bについてはドイツ語),声
質および性別を特定する。特定された母国語情報,声質
情報および性別情報は、データベースサーバ10bに登
録される。
Next, the mechanism of the translation telephone system 10 will be described. First, the utterance times of the uttered voices of the respective speakers (Japanese A and German B) input to the translation telephone system 10 are acquired, and utterance time information indicating the utterance times is stored in the database server 10b. The content of the uttered voice of each speaker is recognized by the voice recognition system 10c. The voice recognition system 10 also extracts features of the uttered voice, and specifies the native language of the utterance source (Japanese for Japanese A, German for German B), voice quality, and gender. The specified native language information, voice quality information, and gender information are registered in the database server 10b.

【0015】言語翻訳システム10dは、認識された発
話音声の内容をデータベースサーバ10bに登録された
母国語情報に基づいて翻訳する。日本人Aについては母
国語情報“日本語”がデータベースサーバ10bに登録
され、日本人Aについては母国語情報“日本語”がデー
タベースサーバ10bに登録される。このため、日本人
Aの発話音声の内容は言語翻訳システム10dによって
ドイツ語に翻訳され、また逆にドイツ国人Bの発話音声
の内容は言語翻訳システム10dによって日本語に翻訳
される。
The language translation system 10d translates the contents of the recognized speech voice based on the native language information registered in the database server 10b. For Japanese A, the native language information "Japanese" is registered in the database server 10b, and for Japanese A, the native language information "Japanese" is registered in the database server 10b. For this reason, the content of the speech voice of Japanese A is translated into German by the language translation system 10d, and the content of the speech voice of German B is translated into Japanese by the language translation system 10d.

【0016】音声合成システム10eは、言語翻訳シス
テム10dによる翻訳内容とデータベースサーバ10b
に登録された声質情報および性別情報に基づいて合成音
声を作成する。作成した合成音声はデータベースサーバ
10bに蓄積される。統合管理システム10aは、デー
タベースサーバ10bに蓄積されている発話時刻情報を
参照し、最も早い発話時刻情報に対応する合成音声をデ
ータベースサーバから取得して各々の話者に伝える。こ
れにより、図3に示すように合成音声2が合成音声1よ
りも先に作成(データベースサーバ10bに蓄積)され
た場合にも、発話順に合成音声1がまず出力され、つい
で合成音声2が出力される。また、日本人Aが高い声で
話す女性であれば、女性らしい口調でかつキーの高いド
イツ語の合成音声がドイツ人Bに伝えられる。また、ド
イツBが低い声で話す男性であれば、男性らしい口調で
かつキーの低い日本語の合成音声が日本人Aに伝えられ
る。
The speech synthesizing system 10e is composed of the contents translated by the language translation system 10d and the database server 10b.
A synthesized speech is created based on the voice quality information and the gender information registered in. The created synthesized speech is stored in the database server 10b. The integrated management system 10a refers to the utterance time information stored in the database server 10b, acquires a synthesized voice corresponding to the earliest utterance time information from the database server, and transmits the synthesized speech to each speaker. As a result, as shown in FIG. 3, even when the synthesized speech 2 is created (stored in the database server 10b) before the synthesized speech 1, the synthesized speech 1 is output first in the utterance order, and then the synthesized speech 2 is output. Is done. If the Japanese A is a woman who speaks with a high voice, a German synthesized voice with a feminine tone and high key is transmitted to the German B. In addition, if German B is a man who speaks in a low voice, Japanese A with a masculine tone and low key is transmitted to Japanese A.

【0017】音声認識システム10c,言語翻訳システ
ム10d,音声合成システム10eおよびデータベース
サーバ10bは、統合管理システム10aによって管理
される。モデム10fを通してアクセスがあると、統合
管理システム10がこれらのシステムおよびサーバを制
御し、利用者に翻訳サービスを提供する。統合管理シス
テム10aは、具体的には図4〜図11に示すフロー図
を処理する。なお、図4〜図9に示すフロー図は、総合
管理システム10a,音声認識システム10c,言語翻
訳システム10dおよび音声合成システム10eの各処
理を1つのフロー図に示している。図10および図11
は統合管理システム10aで処理される処理ルーチンの
フロー図の一部を示している。
The speech recognition system 10c, language translation system 10d, speech synthesis system 10e, and database server 10b are managed by an integrated management system 10a. When accessed through the modem 10f, the integrated management system 10 controls these systems and servers and provides translation services to users. Specifically, the integrated management system 10a processes the flowcharts shown in FIGS. The flow charts shown in FIGS. 4 to 9 show the respective processes of the comprehensive management system 10a, the speech recognition system 10c, the language translation system 10d, and the speech synthesis system 10e in one flow chart. 10 and 11
Shows a part of a flowchart of a processing routine processed by the integrated management system 10a.

【0018】翻訳電話システム10へのアクセス要求に
は発呼元の電話番号情報が含まれる。このため、まずス
テップS1でアクセス要求から電話番号情報を取得し、
続くステップS3では検出された電話番号情報に基づい
て発呼元の国情報を検出する。日本人Aが電話機20を
用いて翻訳電話システム10にアクセスした場合、電話
番号情報には国番号“81”が含まれる。ステップS3
では、この国番号“81”から発呼元の国を日本と特定
する。ステップS5ではこうして得られた発呼元の電話
番号情報および国情報を内部メモリに保持し、ステップ
S7では、保持された国情報から発呼者の母国語(発呼
者が属する国の公用語)を仮決定する。発呼者が日本人
Aであるとき、ステップS7では日本語が母国語として
仮決定される。
The access request to the translated telephone system 10 includes telephone number information of the caller. Therefore, first, in step S1, telephone number information is obtained from the access request,
In a succeeding step S3, country information of the caller is detected based on the detected telephone number information. When the Japanese A accesses the translation telephone system 10 using the telephone 20, the telephone number information includes the country code "81". Step S3
Then, the country of the caller is specified as Japan from the country code "81". In step S5, the telephone number information and country information of the caller obtained in this manner are stored in the internal memory. In step S7, the native language of the caller (the official language of the country to which the caller belongs) is stored from the stored country information. ) Is provisionally determined. When the caller is Japanese A, in step S7, Japanese is provisionally determined as the native language.

【0019】ステップS9では、仮決定された母国語で
発呼者に音声ガイダンスを行う。仮決定された母国語が
日本語であれば、“こちらはATR音声言語通信研究所
の提供する自動音声翻訳サービスです。あなたがお話に
なる言語は日本語ですか?”という内容の合成音声が発
呼者に伝えられる。音声ガイダンスを終えると、ステッ
プS11で発呼者からの音声入力があったかどうか判断
するとともに、ステップS13で所定時間が経過したか
どうか判断する。所定期間内に音声入力がなかったとき
は、発呼者の母国語は仮決定母国語と異なるとみなし、
ステップS15で仮決定母国語をたとえば英語に変更し
てからステップS9に戻る。ステップS9では、変更さ
れた言語すなわち今回は英語による音声ガイダンスが行
なわれる。
In step S9, voice guidance is provided to the caller in the provisionally determined native language. If the tentatively-determined native language is Japanese, a synthesized speech with the content "This is an automatic speech translation service provided by the ATR Spoken Language Communication Laboratory. Is your language spoken in Japanese?" Communicated to caller. When the voice guidance is completed, it is determined in step S11 whether a voice input has been made from the caller, and in step S13, it is determined whether a predetermined time has elapsed. If there is no voice input within the predetermined period, it is assumed that the caller's native language is different from the provisionally determined native language,
In step S15, the temporarily determined native language is changed to, for example, English, and the process returns to step S9. In step S9, the voice guidance in the changed language, that is, in this case, English is performed.

【0020】発呼者から音声入力があったときは、音声
認識システム10cを制御してステップS17〜S21
の処理を行う。まずステップS17で、入力された発話
音声の特徴を抽出する。ステップS19では抽出された
特徴から発話者の母国語,声質および性別を特定し、特
定した母国語情報,声質情報および性別情報を発呼元の
電話番号情報および国情報と関連付けてデータベースサ
ーバ10bに登録する。ステップS21では、入力され
た発話音声を認識して音声ガイダンスに対する返事を取
得する。
When there is a voice input from the caller, the voice recognition system 10c is controlled to execute steps S17 to S21.
Is performed. First, in step S17, features of the input uttered voice are extracted. In step S19, the native language, voice quality, and gender of the speaker are specified from the extracted features, and the specified native language information, voice quality information, and gender information are associated with the telephone number information and country information of the caller and transmitted to the database server 10b. register. In step S21, the input uttered voice is recognized and a reply to the voice guidance is obtained.

【0021】取得した返事が“はい、そうです”などの
肯定的な返事であれば、ステップS23でYESと判断
し、ステップS31に進む。これに対して、返事が否定
的であればステップS25に進み、返事から発話者の言
語を決定できるかどうか判断する。返事の内容が単に
“いいえ”であれば、ステップS25でNOと判断し、
ステップS15で仮決定母国語を変更してからステップ
S9に戻る。一方、返事が“いいえ、英語です”のよう
に母国語を決定できる言葉が入っていれば、ステップS
25でYESと判断し、ステップS27でデータベース
サーバ10bの母国語情報を更新してからステップS3
1に進む。
If the obtained reply is an affirmative reply such as "Yes, yes", "YES" is determined in the step S23, and the process proceeds to a step S31. On the other hand, if the answer is negative, the process proceeds to step S25, and it is determined whether or not the language of the speaker can be determined from the answer. If the content of the reply is simply "No", it is determined NO in step S25,
After changing the provisionally determined native language in step S15, the process returns to step S9. On the other hand, if the reply includes a word that can determine the native language, such as “No, English”, step S
25 is determined to be YES, the native language information of the database server 10b is updated in step S27, and then step S3
Proceed to 1.

【0022】ステップS31では通話相手の電話番号の
入力を促がす音声ガイダンスを行う。具体的には、デー
タベースサーバ10bに登録された母国語情報に従う言
語で、“相手先の電話番号を国番号から言ってください
?”との音声メッセージを出力する。ステップS33で
はこの音声メッセージに対して音声入力があったかどう
か判断し、ステップS35では所定期間が経過したかど
うか判断する。発呼者から応答がないまま所定期間が経
過したときは、ステップS35でYESと判断し、ステ
ップS31に戻る。このため、同じ音声メッセージが再
度出力される。
In step S31, voice guidance for prompting the input of the telephone number of the other party is performed. Specifically, a voice message "Please say the telephone number of the other party from the country code?" Is output in a language according to the native language information registered in the database server 10b. In a step S33, it is determined whether or not a voice input is made to the voice message, and in a step S35, it is determined whether or not a predetermined period has elapsed. If the predetermined period has elapsed without a response from the caller, “YES” is determined in the step S35, and the process returns to the step S31. Therefore, the same voice message is output again.

【0023】一方、発呼者の発話音声が入力されると、
ステップS33でYESと判断し、音声認識システム1
0cを用いてステップS37〜41の処理を行う。ステ
ップS37では発話音声の特徴を抽出し、ステップS3
9では抽出された特徴から特定した発話者の母国語情
報,声質情報および性別情報をデータベースサーバ10
bに登録する。つまり、データベースサーバ10bに登
録された母国語情報,声質情報および性別情報は、発話
音声が入力される毎に更新される。
On the other hand, when the voice of the caller is input,
It is determined as YES in step S33, and the voice recognition system 1
The processing of steps S37 to S41 is performed using 0c. In step S37, features of the uttered voice are extracted, and in step S3
In step 9, the native language information, voice quality information and gender information of the speaker identified from the extracted features are stored in the database server 10.
Register in b. That is, the native language information, the voice quality information, and the gender information registered in the database server 10b are updated each time a speech sound is input.

【0024】ステップS41では入力された発話音声を
認識して相手方の電話番号情報を取得し、続くステップ
S43では取得した電話番号情報の正当性を判断する。
電話番号情報に国番号が含まれていないような場合、こ
のステップでNOと判断され、ステップS31に戻る。
一方、電話番号情報が正当であれば、ステップS45に
進み、電話番号を確認するための音声ガイダンスを行
う。具体的には、データベースサーバ10bに登録され
た母国語情報に従う言語で、“相手先の電話番号は、○
○○−××××−△△△△△ですね?”との音声メッセ
ージを出力する。ステップS47ではこの音声メッセー
ジに対して音声入力があったかどうか判断し、ステップ
S49では所定期間が経過したかどうか判断する。所定
期間にわたって返事がないときはステップS49でYE
Sと判断し、ステップS45に戻る。一方、発呼者から
音声による返事があるとステップS47でYESと判断
し、音声認識システム10cを用いてステップS51〜
55の処理を行う。ステップS51では、返事を形成す
る音声から特徴を抽出する。ステップS53では、抽出
された特徴から発話者の母国語情報,声質情報および性
別情報を特定し、特定した情報によってデータベースサ
ーバ10bを更新する。ステップS53の処理が完了す
ると、ステップS55で返事の内容を認識する。
In step S41, the input uttered voice is recognized to acquire the telephone number information of the other party. In step S43, the validity of the acquired telephone number information is determined.
If the country code is not included in the telephone number information, NO is determined in this step, and the process returns to step S31.
On the other hand, if the telephone number information is valid, the process proceeds to step S45, and voice guidance for confirming the telephone number is performed. Specifically, in the language according to the native language information registered in the database server 10b, "the telephone number of the destination is
○○ − ×××× − △△△△△ In step S47, it is determined whether or not a voice input has been made to this voice message, and in step S49, it is determined whether or not a predetermined period has elapsed. If there is no response for a predetermined period, the process proceeds to step S49. YE
S is determined, and the process returns to step S45. On the other hand, if there is a voice response from the caller, “YES” is determined in the step S47, and the steps S51 to S51 are performed using the voice recognition system 10c.
55 is performed. In step S51, features are extracted from the voice forming the reply. In step S53, the speaker's native language information, voice quality information, and gender information are specified from the extracted features, and the database server 10b is updated with the specified information. Upon completion of the process in the step S53, the content of the reply is recognized in a step S55.

【0025】ステップS57では認識した音声が肯定的
であるかどうか判断し、“いいえ”のような否定的な返
事であれば、ステップS31に戻る。これによって、電
話番号の入力を案内する音声ガイダンスからの一連の処
理が繰り返される。一方、“はい、そうです”のような
肯定的な返事が取得されたときは、ステップS57から
ステップS59に進み、ステップS41で取得した電話
番号情報から通話相手の国情報を検出する。電話番号情
報に含まれる国番号が“1”であれば、通話相手の属す
る国は米国とされる。続いて、ステップS61で通話相
手の電話番号情報および国情報を内部メモリに保持し、
ステップS63で通話相手の母国語(通話相手が属する
国の公用語)を仮決定する。通話相手の属する国が米国
であれば、通話相手の母国語は英語と仮決定される。
In step S57, it is determined whether or not the recognized voice is affirmative. If the answer is negative such as "no", the process returns to step S31. Thereby, a series of processes from the voice guidance for guiding the input of the telephone number is repeated. On the other hand, when an affirmative reply such as "Yes, yes" is obtained, the process proceeds from the step S57 to the step S59, and the country information of the call partner is detected from the telephone number information obtained in the step S41. If the country code included in the telephone number information is "1", the country to which the other party belongs is the United States. Subsequently, in step S61, the telephone number information and the country information of the other party are held in the internal memory.
In step S63, the native language of the call partner (the official language of the country to which the call partner belongs) is provisionally determined. If the country to which the other party belongs is the United States, the native language of the other party is provisionally determined to be English.

【0026】ステップS65では、通話相手の名前の入
力を促がす音声ガイダンスを行う。発呼者には、発呼者
の母国語で“相手先の名前を言ってください?”との音
声メッセージが伝えられる。ステップS67ではこの音
声メッセージに対して音声による返事があったかどうか
判断し、ステップS69では所定期間が経過したかどう
か判断する。返事がないまま所定期間が経過すると、ス
テップS69でYESと判断し、再度の音声ガイダンス
を行うべくステップS65に戻る。
In step S65, voice guidance for prompting input of the name of the other party is performed. The caller receives a voice message in the native language of the caller saying "Please say the name of the other party?" In a step S67, it is determined whether or not there is a voice response to the voice message, and in a step S69, it is determined whether or not a predetermined period has elapsed. If the predetermined period has elapsed without a reply, YES is determined in the step S69, and the process returns to the step S65 to perform the voice guidance again.

【0027】一方、発呼者から返事があったときは、ス
テップS67でYESと判断し、音声認識システム10
cを用いてステップS71〜75の処理を行う。ステッ
プS71では発話音声の特徴を抽出し、ステップS73
では抽出された特徴から特定した母国語情報,声質情報
および性別情報によってデータベースサーバ10bを更
新し、ステップS75では発話音声の認識処理によって
通話相手の名前を取得する。
On the other hand, if there is a reply from the caller, YES is determined in the step S67, and the voice recognition system 10
The processing of steps S71 to S75 is performed using c. In step S71, features of the uttered voice are extracted, and in step S73.
Then, the database server 10b is updated with the native language information, voice quality information, and gender information specified from the extracted features, and in step S75, the name of the other party is obtained by speech voice recognition processing.

【0028】こうして通話相手の電話番号情報および名
前の取得が完了すると、ステップS77およびS79で
通話相手がデータベースサーバ10bに登録されていな
いかどうか判別する。具体的には、通話相手の電話番号
情報をキーワードとしてデータベースサーバ10bを検
索し、同じ電話番号情報を発見できたかどうかステップ
S79で判断する。電話番号情報を発見できなかったと
きはそのままステップS85に進むが、電話番号情報を
発見できたときは、ステップS81でデータベースサー
バ10bから通話相手の母国語情報を取得し、ステップ
S83で通話相手の仮決定母国語を変更してからステッ
プS85に進む。たとえばステップS63で仮決定され
た母国語が英語であり、データベースサーバ10bから
取得された母国語情報がドイツ語であれば、仮決定母国
語が英語からドイツ語に変更される。
When the acquisition of the telephone number information and the name of the called party is completed, it is determined in steps S77 and S79 whether or not the called party is registered in the database server 10b. Specifically, the database server 10b is searched using the telephone number information of the other party as a keyword, and it is determined in step S79 whether the same telephone number information has been found. When the telephone number information cannot be found, the process directly proceeds to step S85, but when the telephone number information can be found, the native language information of the other party is obtained from the database server 10b in step S81, and the other party's native language information is obtained in step S83. After changing the provisionally determined native language, the process proceeds to step S85. For example, if the native language provisionally determined in step S63 is English and the native language information acquired from the database server 10b is German, the provisionally determined native language is changed from English to German.

【0029】ステップS85では通話相手への発呼処理
を行ない、ステップS87では回線状態がOKかどうか
を、ステップS89では相手方から応答があったかどう
かをそれぞれ判断する。回線状態がビジー(話し中)で
あるか、相手方からの応答がないときは、ステップS8
7またはS89からステップS107に進む。ステップ
S107では、通話不能であることを案内するための音
声ガイダンスを行う。具体的には、回線状態がビジーで
あれば“相手方の電話は使用中です”との音声メッセー
ジが出力され、応答がないときは“相手方からの応答が
ありません”との音声メッセージが出力される。これに
対して発呼者が電話回線を切断すると、ステップS10
9でYESと判断し、処理を終了する。
In step S85, a call is made to the other party. In step S87, it is determined whether the line state is OK. In step S89, it is determined whether there is a response from the other party. If the line state is busy (busy) or there is no response from the other party, step S8
7 or S89 proceeds to step S107. In step S107, voice guidance for guiding that the call cannot be made is performed. More specifically, if the line status is busy, a voice message saying "the other party's phone is busy" is output, and if there is no response, a voice message saying "the other party has not responded" is output. . On the other hand, if the caller disconnects the telephone line, step S10
It is determined as YES at 9 and the process is terminated.

【0030】これに対して、回線状態がOKでかつ相手
方から応答があると、ステップS87およびS89でY
ESと判断し、ステップS91でサービス案内のための
音声ガイダンスを行う。このとき、ステップS75で取
得した相手方の名前を用いられる。具体的には、仮決定
された母国語で“こちらはATR音声言語通信研究所の
提供する自動音声翻訳サービスです。あなたはシュレー
ダさんですか?”との音声メッセージが相手方に伝えら
れる。
On the other hand, if the line status is OK and there is a response from the other party, Y is determined in steps S87 and S89.
It is determined to be ES, and voice guidance for service guidance is performed in step S91. At this time, the name of the other party obtained in step S75 is used. Specifically, a voice message saying "This is an automatic speech translation service provided by the ATR Spoken Language Communication Research Institute. Are you Schrader?" Is delivered to the other party in the provisionally determined native language.

【0031】ステップS93ではこの音声メッセージに
対して音声による返事があったかどうか判断し、ステッ
プS95では所定期間が経過したかどうか判断する。返
事がないまま所定期間が経過すると、ステップS95で
YESと判断し、ステップS97で仮決定母国語を変更
してからステップS91に戻る。一方、相手方から返事
があったときは、ステップS93でYESと判断し、ス
テップS99で音声認識システム10cを用いて返事の
内容を認識するとともに、ステップS101で認識した
返事が肯定的であるか肯定的であるかを判断する。
In a step S93, it is determined whether or not there is a voice response to the voice message, and in a step S95, it is determined whether or not a predetermined period has elapsed. If the predetermined period has elapsed without reply, YES is determined in the step S95, the temporarily determined native language is changed in a step S97, and the process returns to the step S91. On the other hand, if there is a reply from the other party, YES is determined in step S93, the content of the reply is recognized using the voice recognition system 10c in step S99, and whether the reply recognized in step S101 is positive or not is determined. Judge whether it is appropriate.

【0032】ここで、返事が“シュレーダは不在です”
のような否定的な返事であれば、ステップS101から
ステップS107に進み、“シュレーダさんは不在だそ
うです”との音声メッセージを発呼者に伝える。これに
対して、返事が“はい、そうです”のような肯定的な返
事であればステップS101でYESと判断し、音声認
識システム10cを用いてステップS103およびS1
05の処理を行う。ステップS103では発話音声の特
徴を抽出し、ステップS105では抽出された特徴から
特定した母国語情報,声質情報および性別情報をデータ
ベースサーバ10bに登録または更新する。
Here, the reply is "Schrader is absent."
If the answer is negative, the process proceeds from step S101 to step S107, and a voice message "Mr. Schrader seems to be out of the office" is transmitted to the caller. On the other hand, if the reply is an affirmative reply such as “Yes, yes”, then YES is determined in the step S101, and the steps S103 and S1 are performed using the speech recognition system 10c.
05 is performed. In step S103, features of the uttered voice are extracted, and in step S105, native language information, voice quality information, and gender information specified from the extracted features are registered or updated in the database server 10b.

【0033】つまり、通話相手がデータベースサーバ1
0bに登録済みであれば、特定した母国語情報,声質情
報および性別情報によってデータベースサーバ10bを
更新し、通話相手が未登録であれば、特定した母国語情
報,声質情報および性別情報をステップS61で保持し
た通話相手の電話番号情報および国情報と関連付けてデ
ータベースサーバ10bに登録する。
That is, the communication partner is the database server 1
0b, the database server 10b is updated with the specified native language information, voice quality information, and gender information. If the other party is not registered, the specified native language information, voice quality information, and gender information are updated in step S61. Is registered in the database server 10b in association with the telephone number information and the country information of the other party held in step.

【0034】こうして発呼者および通話相手の両方の母
国語が特定され、かつ通話可能状態となると、ステップ
S111でサービス開始を案内するための音声ガイダン
スを行う。具体的には、“それではお話しください”と
の音声メッセージを発呼者および通話相手の両方に伝え
る。これによって、双方の会話が開始される。
When the native language of both the calling party and the called party is specified and the communication is enabled, voice guidance for guiding the start of the service is provided in step S111. Specifically, a voice message saying, "Please speak now" is given to both the caller and the other party. This starts a conversation between the two parties.

【0035】ステップS113では一方の話者の発話音
声を取り込み、ステップS115で当該発話音声の発話
時刻を決定し、ステップS117でこの発話時刻情報を
データベースサーバ10bに記録する。ステップS11
9では音声認識システム10cを用いて発話音声の特徴
を抽出する。続くステップS121では、抽出された特
徴に基づいて発話者の母国語,声質および性別を特定
し、特定した母国語情報,声質情報および性別情報によ
ってデータベースサーバ10bの登録済み情報を更新す
る。つまり、会話が開始された後も、発話音声を入力す
る毎にデータベースサーバ10bの母国語情報,声質情
報および性別情報が更新される。
In step S113, the uttered voice of one speaker is fetched, the utterance time of the uttered voice is determined in step S115, and this utterance time information is recorded in the database server 10b in step S117. Step S11
In step 9, features of the uttered voice are extracted using the voice recognition system 10c. In the following step S121, the speaker's native language, voice quality, and gender are specified based on the extracted features, and the registered information of the database server 10b is updated with the specified native language information, voice quality information, and gender information. That is, even after the conversation is started, the native language information, the voice quality information, and the gender information of the database server 10b are updated each time the uttered voice is input.

【0036】ステップS123では、取り込まれた発話
音声の内容を音声認識システム10cを用いて認識し、
かつ認識した内容を言語翻訳システム10dを用いて他
方の話者の母国語に翻訳する。このとき、翻訳先の言語
は、データベースサーバ10bに登録された他方の話者
の母国語情報によって決定される。
In step S123, the contents of the uttered voice taken in are recognized using the voice recognition system 10c.
The recognized content is translated into the native language of the other speaker using the language translation system 10d. At this time, the language of the translation destination is determined by the native language information of the other speaker registered in the database server 10b.

【0037】翻訳処理が完了すると、ステップS125
で音声合成システム10eを用いて翻訳内容の合成音声
を作成する。ステップS127では、生成された合成音
声をデータベースサーバ10bに記録する。なお、ステ
ップS115〜ステップS127の処理は、複数存在す
る音声認識システム10c,言語翻訳システム10dお
よび音声合成システム10eで同時多発的に実行され
る。したがって、データベースサーバ10bには、発話
時刻情報および合成音声が順次蓄積される。データベー
スサーバ10bへの合成音声の蓄積は合成音声の作成順
であり、図3に示すように翻訳電話システムへの入力順
(話者の発話順)とは限らない。
When the translation process is completed, step S125
Then, a synthesized speech of the translated content is created using the speech synthesis system 10e. In step S127, the generated synthesized speech is recorded in the database server 10b. Note that the processing of steps S115 to S127 is simultaneously and frequently executed by a plurality of speech recognition systems 10c, language translation systems 10d, and speech synthesis systems 10e. Therefore, the utterance time information and the synthesized voice are sequentially stored in the database server 10b. The storage of the synthesized speech in the database server 10b is in the order of creation of the synthesized speech, and is not limited to the order of input to the translation telephone system (the order of speech of the speaker) as shown in FIG.

【0038】ステップS129では、いずれかの話者が
電話回線を切断したかどうか判断し、NOであればステ
ップS113に戻る。これによって、各々の話者が発話
する毎に発話音声が翻訳され、翻訳された合成音声がデ
ータベースサーバ10bに蓄積される。
In step S129, it is determined whether any of the speakers has disconnected the telephone line. If NO, the process returns to step S113. As a result, the spoken voice is translated each time each speaker speaks, and the translated synthesized voice is stored in the database server 10b.

【0039】双方の会話が開始されると、統合管理シス
テム10aでは図10のフロー図に示すルーチンが並行
して実行される。ステップS141では、データベース
サーバ10bを参照して発話時刻情報が存在するかどう
かが判断される。発話時刻情報が存在するときには、デ
ータベースサーバ10bから発話時刻情報が読み出され
る。そして、ステップS145では読み出された発話時
刻情報に対応する合成音声がデータベースサーバ10b
から読み出され、ステップS147では翻訳された合成
音声が相手方に再生される。そして、ステップS149
では話者のどちらかが回線を切断したかどうかを判断
し、回線が切断されたと判断すると処理を終了する。一
方、回線が切断されていないときにはステップS141
に戻り次の合成音声の再生を行う。このようにして、発
話順に翻訳された合成音声がデータベースサーバ10b
から読み出されて再生されるので、図3に示すように発
話内容の長短すなわち音声認識システム10c,言語翻
訳システム10bおよび音声合成システム10eへの負
荷に関わらず、翻訳された合成音声が発話順に再生され
る。図10のルーチンが繰り返し実行されることによっ
て、各々の話者が発話する毎に翻訳された合成音声が適
切に相手方に伝えられる。
When both conversations are started, the routine shown in the flowchart of FIG. 10 is executed in parallel in the integrated management system 10a. In step S141, it is determined whether utterance time information exists with reference to the database server 10b. When the utterance time information exists, the utterance time information is read from the database server 10b. In step S145, the synthesized speech corresponding to the read utterance time information is stored in the database server 10b.
, And in step S147, the translated synthesized voice is reproduced by the other party. Then, step S149
Then, it is determined whether one of the speakers has disconnected the line, and if it is determined that the line has been disconnected, the process ends. On the other hand, if the line has not been disconnected, step S141
And the next synthesized voice is reproduced. In this way, the synthesized speech translated in the utterance order is stored in the database server 10b.
3 and reproduced, the translated synthesized speech is output in the order of speech, regardless of the length of the utterance content, that is, regardless of the load on the speech recognition system 10c, the language translation system 10b, and the speech synthesis system 10e, as shown in FIG. Will be played. By repeatedly executing the routine in FIG. 10, the translated speech is appropriately transmitted to the other party each time each speaker speaks.

【0040】再び図9を参照して、ステップS129で
は、いずれかの話者が電話回線を切断したと判断すると
ステップS129からステップS131に進み、回線の
切断を案内する音声ガイダンスが行なわれる。つまり、
“相手方が電話を切りましたのでサービスを終了しま
す、ご利用ありがとうございました”との音声メッセー
ジが他方の話者に伝えられる。これに対して、他方の話
者が回線を切断すると、ステップS133でYESと判
断し、処理を終了する。
Referring again to FIG. 9, in step S129, if it is determined that one of the speakers has disconnected the telephone line, the flow advances from step S129 to step S131 to provide voice guidance for guiding the disconnection of the line. That is,
A voice message is sent to the other speaker saying, "The other party has hung up and will end the service, thank you for using." On the other hand, if the other speaker disconnects the line, YES is determined in step S133, and the process ends.

【0041】以上の説明から分かるように、この実施例
の翻訳電話システムでは、入力された発話音声を翻訳し
た合成音声を出力するときに、発話時刻に基づいて合成
音声を出力する。したがって、発話音声の長短によりシ
ステムへの負荷が異なる場合にも発話順に合成音声を出
力するので入力音声と翻訳された出力音声との間に同期
を保つことができる。
As can be seen from the above description, in the translated telephone system of this embodiment, when outputting the synthesized speech obtained by translating the input uttered speech, the synthesized speech is output based on the utterance time. Therefore, even when the load on the system differs depending on the length of the uttered voice, the synthesized voice is output in the utterance order, so that the input voice and the translated output voice can be kept in synchronization.

【図面の簡単な説明】[Brief description of the drawings]

【図1】翻訳電話システムおよび複数の電話機が電話回
線に接続された状態を示す図解図である。
FIG. 1 is an illustrative view showing a state where a translation telephone system and a plurality of telephones are connected to a telephone line;

【図2】翻訳電話システムの構成の一例を示す図解図で
ある。
FIG. 2 is an illustrative view showing one example of a configuration of a translation telephone system;

【図3】翻訳電話システムの処理時間を示す図解図であ
る。
FIG. 3 is an illustrative view showing a processing time of the translation telephone system;

【図4】翻訳電話システムの動作の一部を示すフロー図
である。
FIG. 4 is a flowchart showing a part of the operation of the translation telephone system.

【図5】翻訳電話システムの動作の他の一部を示すフロ
ー図である。
FIG. 5 is a flowchart showing another part of the operation of the translation telephone system.

【図6】翻訳電話システムの動作のその他の一部を示す
フロー図である。
FIG. 6 is a flowchart showing another part of the operation of the translation telephone system.

【図7】翻訳電話システムの動作のさらにその他の一部
を示すフロー図である。
FIG. 7 is a flowchart showing yet another portion of the operation of the translation telephone system.

【図8】翻訳電話システムの動作の他の一部を示すフロ
ー図である。
FIG. 8 is a flowchart showing another part of the operation of the translation telephone system.

【図9】翻訳電話システムの動作のその他の一部を示す
フロー図である。
FIG. 9 is a flowchart showing another part of the operation of the translation telephone system.

【図10】翻訳電話システムの動作のさらにその他の一
部を示すフロー図である。
FIG. 10 is a flowchart showing yet another portion of the operation of the translation telephone system.

【符号の説明】[Explanation of symbols]

10…翻訳電話システム 10a…統合管理システム 10b…データベースサーバ 10c…音声合成システム 10d…言語翻訳システム 10e…音声認識システム 10f…モデム 20,30…電話機 40…電話回線 10 Translation telephone system 10a Integrated management system 10b Database server 10c Speech synthesis system 10d Language translation system 10e Speech recognition system 10f Modem 20, 30 Telephone 40 Telephone line

フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04M 3/50 G10L 3/00 551A 3/60 R 531K (72)発明者 西野 敦士 京都府相楽郡精華町光台二丁目2番地2 株式会社エイ・ティ・アール音声言語通信 研究所内 (72)発明者 ライナー グルーン 京都府相楽郡精華町光台二丁目2番地2 株式会社エイ・ティ・アール音声言語通信 研究所内 (72)発明者 中村 哲 京都府相楽郡精華町光台二丁目2番地2 株式会社エイ・ティ・アール音声言語通信 研究所内 Fターム(参考) 5D015 AA06 KK02 KK04 5D045 AB03 AB04 5K015 AA06 AA07 AA10 AB02 AD05 AF07 GA02 5K024 AA72 AA74 BB01 BB02 BB05 BB07 CC01 DD01 DD04 EE09 FF06 GG01 GG03 GG10 GG12Continued on the front page (51) Int.Cl. 7 Identification symbol FI Theme coat II (Reference) H04M 3/50 G10L 3/00 551A 3/60 R 531K (72) Inventor Atsushi Nishino Kodaiji Seikacho, Soraku-gun, Kyoto Prefecture AT-2 Co., Ltd. AT R Spoken Language Communication Research Laboratories (72) Inventor Liner Green 2-2-2 Kodai, Seika-cho, Soraku-gun, Kyoto Prefectural A.T. ) Inventor Satoshi Nakamura 2-2-2 Kodai, Seika-cho, Soraku-gun, Kyoto F-term in ATR Spoken Language Communication Research Laboratories (reference) 5D015 AA06 KK02 KK04 5D045 AB03 AB04 5K015 AA06 AA07 AA10 AB02 AD05 AF07 GA02 5K024 AA72 AA74 BB01 BB02 BB05 BB07 CC01 DD01 DD04 EE09 FF06 GG01 GG03 GG10 GG12

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】互いに異なる言語を使用する複数の話者の
間で電話回線を介して行われる会話を翻訳する翻訳電話
システムにおいて、 各々の前記話者の発話音声を取り込む取り込み手段、 前記発話音声の取り込み時刻を検出する検出手段、 前記発話音声の翻訳内容を表す合成音声を作成する作成
手段、および前記合成音声を前記取り込み時刻に従う順
序で出力する出力手段を備えることを特徴とする、翻訳
電話システム。
1. A translation telephone system for translating a conversation carried out via a telephone line between a plurality of speakers using different languages, a capturing means for capturing the uttered voice of each of said speakers, A translation telephone, comprising: a detection unit that detects a capture time of the speech; a creation unit that creates a synthesized voice representing the translation content of the uttered voice; and an output unit that outputs the synthesized voice in an order according to the capture time. system.
【請求項2】前記作成手段は、前記発話音声の内容を認
識する音声認識処理、前記音声認識処理の処理結果を翻
訳する言語翻訳処理、および前記言語翻訳処理の処理結
果に基づいて前記合成音声を作成する音声合成処理を互
いに並行して実行する、請求項1記載の翻訳電話システ
ム。
2. The method according to claim 1, wherein the generating unit is configured to perform a speech recognition process for recognizing the content of the uttered speech, a language translation process for translating a result of the speech recognition process, and the synthesized speech based on a result of the language translation process. 2. The translation telephone system according to claim 1, wherein the voice synthesizing processes for generating the texts are performed in parallel with each other.
JP2001121576A 2001-04-19 2001-04-19 Translation telephone system Withdrawn JP2002320037A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001121576A JP2002320037A (en) 2001-04-19 2001-04-19 Translation telephone system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001121576A JP2002320037A (en) 2001-04-19 2001-04-19 Translation telephone system

Publications (1)

Publication Number Publication Date
JP2002320037A true JP2002320037A (en) 2002-10-31

Family

ID=18971422

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001121576A Withdrawn JP2002320037A (en) 2001-04-19 2001-04-19 Translation telephone system

Country Status (1)

Country Link
JP (1) JP2002320037A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010045651A (en) * 2008-08-14 2010-02-25 Nippon Telegr & Teleph Corp <Ntt> Device, method and program for providing session control event notification api
US8078449B2 (en) 2006-09-27 2011-12-13 Kabushiki Kaisha Toshiba Apparatus, method and computer program product for translating speech, and terminal that outputs translated speech
JP2018190413A (en) * 2017-05-02 2018-11-29 ネイバー コーポレーションNAVER Corporation Method and system for processing user command to adjust and provide operation of device and content provision range by grasping presentation method of user speech

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8078449B2 (en) 2006-09-27 2011-12-13 Kabushiki Kaisha Toshiba Apparatus, method and computer program product for translating speech, and terminal that outputs translated speech
JP2010045651A (en) * 2008-08-14 2010-02-25 Nippon Telegr & Teleph Corp <Ntt> Device, method and program for providing session control event notification api
JP2018190413A (en) * 2017-05-02 2018-11-29 ネイバー コーポレーションNAVER Corporation Method and system for processing user command to adjust and provide operation of device and content provision range by grasping presentation method of user speech

Similar Documents

Publication Publication Date Title
JP4089148B2 (en) Interpreting service method and interpreting service device
US9214154B2 (en) Personalized text-to-speech services
US9601114B2 (en) Method for embedding voice mail in a spoken utterance using a natural language processing computer system
US6327343B1 (en) System and methods for automatic call and data transfer processing
US6895257B2 (en) Personalized agent for portable devices and cellular phone
US7844454B2 (en) Apparatus and method for providing voice recognition for multiple speakers
US6775360B2 (en) Method and system for providing textual content along with voice messages
US8494848B2 (en) Methods and apparatus for generating, updating and distributing speech recognition models
JP3168033B2 (en) Voice telephone dialing
US5797124A (en) Voice-controlled voice mail having random-order message retrieval based on played spoken identifier list
US6651042B1 (en) System and method for automatic voice message processing
US9538348B2 (en) Method and message server for routing a speech message
US10621974B2 (en) Updating a voice template
US20090198497A1 (en) Method and apparatus for speech synthesis of text message
TW200304638A (en) Network-accessible speaker-dependent voice models of multiple persons
CN111294471A (en) Intelligent telephone answering method and system
CN110062097A (en) Harassing call processing method, device, mobile terminal and storage medium
JP2002311983A (en) Translation phone system
JPH08163252A (en) Pbx/computer interlock system
JP2002304392A (en) Voice translation system
JP2002320037A (en) Translation telephone system
JP2015100054A (en) Voice communication system, voice communication method and program
JP4486235B2 (en) Voice recognition device
KR100380829B1 (en) System and method for managing conversation -type interface with agent and media for storing program source thereof
JP3847674B2 (en) Audio communication method, audio communication apparatus, program, and recording medium

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080701