JP3820245B2 - 3者通話方式の自動通訳システム及び方法 - Google Patents

3者通話方式の自動通訳システム及び方法 Download PDF

Info

Publication number
JP3820245B2
JP3820245B2 JP2003376393A JP2003376393A JP3820245B2 JP 3820245 B2 JP3820245 B2 JP 3820245B2 JP 2003376393 A JP2003376393 A JP 2003376393A JP 2003376393 A JP2003376393 A JP 2003376393A JP 3820245 B2 JP3820245 B2 JP 3820245B2
Authority
JP
Japan
Prior art keywords
cti
event
interpretation
control module
current state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003376393A
Other languages
English (en)
Other versions
JP2004159335A (ja
Inventor
在 原 李
正 壽 金
址 善 鄭
榮 範 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2004159335A publication Critical patent/JP2004159335A/ja
Application granted granted Critical
Publication of JP3820245B2 publication Critical patent/JP3820245B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/20Aspects of automatic or semi-automatic exchanges related to features of supplementary services
    • H04M2203/2061Language aspects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、3者通話方式の自動通訳システム及び方法に関し、より詳しくは有・無線通信網を介して接続した送話者と受話者とに、双方向の自動通訳サービスを提供できるシステム及び方法に関する。
近年、国際交流が盛んになるに伴い、他の言語圏の外国人と通話や対話をする機会が増え続けており、これにより、外国人との円滑な意思疎通のための通訳手段が求められている。
このような外国人との意思疎通のための通訳手段として、韓国公開特許第2002−30693号(発明の名称:音声通訳サービス方法及び音声通訳サーバ)では、図1に示すように、モバイルインターネットアクセスサービスの利用が可能な電話を使用して、音声通訳サーバに音声を送信すると、翻訳された音声が再び使用者の電話に回答されるようにする方法が開示されている。
このような音声通訳方法は、使用者が指定された端末機を使用して、時間や場所に拘らず、簡単に音声通訳サーバを介して通訳サービスの提供を受けることができるという利点がある。しかし、事業者から通訳サービスのための端末機を賃貸するか、別に購買しなければならず、端末機の使用者と音声通訳サーバ間の単方向の通訳サービスであることから、遠隔地にいる外国人との意思疎通手段としては適していないという問題点があった。
このような問題点を解決するために、相異なる言語を使っている遠隔地の外国人とも意思疎通を行うことができる双方向通訳手段として、韓国公開特許第2002−54192号(発明の名称:外国人のための電話案内自動通訳システム及び方法)では、図2に示すように、外国人の使用者が自国語で質問すると、その質問の内容を自動通訳して内国人の案内人に伝達し、内国人の案内人がこの質問に対して自国語で応答すると、応答内容を自動通訳して外国人の使用者に伝達する電話案内自動通訳システムが開示されている。
しかし、このような電話案内自動通訳システムは、外国人の使用者が有・無線電話機を介して自動通訳システムに接続すると、その自動通訳システムに連結された内国人の案内人に電話を接続する方式を取っているため、実質的に、外国人の使用者と内国人の案内人にのみ通訳サービスを提供することが可能となり、相異なる言語を使っているある二人の使用者(例えば、日本語を使用するAと、英語を使用するB)間の意思疎通のための通訳手段としては相応しくないという限界点があった。
韓国公開特許第2002−30693号公報 韓国公開特許第2002−54192号公報
本発明は、上記問題点に鑑みなされたものであり、相異なる言語を使っている遠隔地の使用者の間でも円滑な意思疎通を行うことができる、3者通話方式の自動通訳システム及び方法を提供することを目的とする。
上記の目的を達成するために、本発明に係る3者通話方式の自動通訳システムは、送話者と受話者の間に通話チャンネルを設定するCTIボードと、前記CTIボードを介して入力されたボタン信号によりイベントを発生させ、前記CTIボードを制御するCTI制御モジュールと、前記CTIボードを介して入力された送話者/受話者の音声を認識して所定の言語に翻訳する通訳モジュールと、現在行っている動作状態である現在状態、発生されたイベント、発生されたイベントにより次のステップで行うべき動作を<「現在状態」、「イベント」、「動作」>の形式でテーブル化したものである通訳シナリオにより前記CTI制御モジュールの動作を制御する主制御モジュールとを備える(請求項1)。
前記CTI制御モジュールは、基本的な電話を行うことができる作業単位で前記CTIボードを制御する(請求項2)。
前記CTI制御モジュールは、前記CTIボードを介して入力されたボタン信号によりイベントを発生させるイベントハンドラと、前記CTIボードを制御するCTI制御関数からなるCTI APIと、前記主制御モジュールからの要請により前記CTI APIからCTI制御関数を順に呼び出して基本的な電話動作を行う作業遂行部とを備える(請求項3)。
前記基本的な電話動作は、電話かけ、電話受け、電話切り、ボタン押し、ボタン読み、トーンの検出、音出し、音聞き、話し、及び聞きを含む(請求項4)。
前記通訳モジュールは、前記CTIボードを介して入力された音声を認識してテキストに変換する音声認識部と、前記音声認識部から変換されたテキストを所定の言語に翻訳する翻訳部と、前記音声認識部で認識されたテキストまたは前記翻訳部で翻訳された翻訳テキストを音声に合成して出力する音声合成部とを備える(請求項5)。
前記通訳シナリオは、現在の状態及び前記CTI制御モジュールから発生されたイベントにより選択される現在状態切り替え動作及び基本的な電話動作からなる(請求項6)。
前記主制御モジュールは、前記CTI制御モジュールからイベントが発生すると、予め定義された通訳シナリオに基づいて、現在状態切り替え動作及び基本的な電話動作を選択する通訳シナリオ管理部と、前記通訳シナリオ管理部から選択された現在状態切り替え動作により現在の状態を次の状態に切り替える状態切り替え部とを備える(請求項7)。
また、本発明に係る3者通話方式の自動通訳方法は、送話者が自動通訳システムに接続すると、送話者と受話者の間に通話チャンネルを設定する電話接続ステップと、CTIボードを介して入力される送話者または受話者のボタン信号によりCTI制御モジュールからイベントが発生されると、現在行っている動作状態である現在状態、発生されたイベント、発生されたイベントにより次のステップで行うべき動作を<「現在状態」、「イベント」、「動作」>の形式でテーブル化したものである通訳シナリオに基づいて、前記発生されたイベントにより、入力された音声を所定の言語に翻訳する自動通訳ステップと、前記通訳シナリオにより、前記CTIボードを制御して前記翻訳された音声を相手側の話者に伝送する通訳伝送ステップとを含む(請求項8)。
前記自動通訳ステップは、送話者または受話者により入力されるボタン信号により前記CTI制御モジュールからイベントが発生されると、予め定義された通訳シナリオに基づいて、前記発生されたイベントにより入力される送話者または受話者の音声を録音するステップと、予め定義された通訳シナリオにより、通訳モジュールを介して前記録音された音声を認識して所定の言語に翻訳するステップとを含む(請求項9)。
前記翻訳ステップは、前記録音された音声を認識してテキストに変換するステップと、前記テキストを所定の言語に翻訳するステップと、前記翻訳されたテキストを音声に合成するステップとを含む(請求項10)。
このような本発明に係る3者通話方式の自動通訳システム及び方法によれば、特定の端末機を別に備えることなく、相異なる言語を使っている使用者同士の円滑な意思疎通が可能となり、低廉なコストで自動通訳サービスを提供することが可能となる。
以下、本発明の好ましい実施の形態を、添付図面に基づいて詳しく説明する。
図3は、本発明に係る3者通話方式の自動通訳システムのためのネットワークの概略構成図である。図3に示すように、送話者100が公衆電話交換網(Public Switched Telephone Network:以下、PSTNと称する)700と、私設構内交換機(Private Automatic Branch Exchange:以下、PBXと称する)900とを介して自動通訳システム500に接続すると、自動通訳システム500は、送話者100から受話者300の電話番号を入力され通話チャンネルを設定し、設定された通話チャンネルを介して入力される送話者100の音声を自動的に翻訳して受話者300に伝達し、かつ、受話者300の音声を自動的に翻訳して送話者100に伝達する。
例えば、日本語を使っている送話者100と英語を使っている受話者300の間に通話チャンネルが設定された場合、送話者100が日本語で「予約を確認したいのですが。」というと、自動通訳システム500は、これを英語に翻訳して、「I'd like to confirm my reservation, please.」という音声を受話者300に伝達し、これに対する応答として、受話者300が「One moment, please.」というと、自動通訳システム500は、これを日本語に翻訳して、「少々お待ちください。」という音声を送話者100に伝達する。
本発明の実施の形態においては、送話者100や受話者300は、有線電話機、携帯電話、パーソナルコンピュータなど、PSTN700またはIP網を介して自動通訳システム500への接続が可能な通信端末機の使用者と考えられるが、パーソナルコンピュータを介して自動通訳システム500に接続する場合、PSTN700と連結されるIP網(図示せず)、接続のためのVoIPゲートウェイ(Voice over IP G/W)及びルータ(Router)(図示せず)をさらに備えても良い。
図4は、本発明に係る3者通話方式の自動通訳システムの概略構成図であり、図示のように、本発明による3者通話方式の自動通訳システム500は、CTIボード510と、CTI制御モジュール530と、通訳モジュール550と、主制御モジュール570とを備えており、主制御モジュール570によりCTI制御モジュール530の制御を行うことにより、有・無線通信網を介して接続した送話者100と受話者300とに双方向の自動通訳サービスを提供できるように構成されている。
CTI(Computer Telephony Integration)とは、コンピュータを用いて電話通話を管理する技術をいうものであり、CTIにより提供される主要な機能としては、使用者から入力される音声を録音し再生する音声の記憶や伝達(Voice Store and Forward)の機能、ダイヤリング数字を認識する数字認識(Digit Capture)機能、特定の電話番号をダイヤリングして呼を接続する通話接続(Out-dial)機能などがある。
CTIボード510は、このようなCTI機能を行うことができるように構成されており、コンピュータに搭載され、私設構内交換機(PBX)に接続して電話回線を制御するようにされている。このCTIボード510は、自動応答システム(Automatic Response System:ARS)において一般的に使用されるCTIボードとその構成及び動作は同様であり、これについての詳細は省略する。
CTI制御モジュール530は、主制御モジュール570からの要請により、CTIボード510及び通訳モジュール550を制御しており、CTIボード510を介して入力されたボタン信号によりイベントを発生させるイベントハンドラ531と、CTIボード510を制御するCTI制御関数からなるCTI API533と、主制御モジュール570からの要請により、CTI API533からCTI制御関数を順に呼び出して基本的な電話動作(例えば、電話かけ、電話受け、電話切りなど)を行う作業遂行部535とを備えている。
イベントハンドラ531は、CTIボード510を介して入力されたボタン信号によりイベントを発生させ、主制御モジュール570にイベントによるメッセージを出力する。例えば、CTIボード510を介して送話者100から電話がかかってきたことが感知されると、イベントハンドラ531は、呼受信によるEVT_WAITCALLメッセージを主制御モジュール570に伝達する。
CTI API(Application Programming Interface)533は、コンピュータと電話間の通信のために使用される電話応用プログラムインタフェースであって、CTIボード510を制御できるCTI制御関数が格納されている一種のライブラリー(library)である。CTI API533は、CTI制御関数が呼び出されると、呼び出されたCTI制御関数をCTIボード510にて理解できる命令語にデコーディングし、デコーディングされた命令語によって、CTIボード510を制御する。ここで、CTI APIは、一般にマイクロソフト社から提供されるTAPI(Telephony Application Program Interface)を使用することができる。
このようなCTI API533により、通話接続、数字認識、音声録音などの基本的な電話動作に関するインタフェースを提供することができる。例えば、送話者100が通話しようとする受話者300の電話番号を入力すると、CTI API533に格納されているDTMFトーン検出関数を呼び出して、送話者100により入力された電話番号を認識することが可能である。
CTI API533に格納されているCTI制御関数についてより詳しく説明すると、dx_dialは、ダイヤリング動作、dx_sethookは、電話を受けたり切ったりするためにフックを初期化する動作、dx_getdigは、送話者や受話者が押したボタンを検出する動作、dx_fileopenは、ファイルのオープン動作、dx_playは、ファイルの再生動作、dx_recは、音声録音動作を行うCTI制御関数である。
しかし、これらのCTI制御関数は、ダイヤリング、フック初期化、DTMFトーン検出、及びファイル再生などの単一機能のみを行うことができるように具現されているため、電話かけ、電話受け、電話切りなどの基本的な電話動作を行うためには、数回にわたってCTI制御関数を個別に呼び出す必要があり、かつ、CTI制御関数を呼び出すたびに、現在の状態を確認してその都度必要なCTI制御関数を別に要請しなければならない煩わしさがある。
例えば、送話者100が受話者300の電話番号を入力すると、自動通訳システム500は、CTI API533からdx_dial CTI制御関数を呼び出して、CTIボード510を介して受話者300の電話番号に対応するDTMF信号を発生させ、通話接続を試みる。このとき、受話者300が通話可能な状態であるか否かによって、その後に実行すべきCTI制御関数が決められるが、受話者300の電話ラインからCTIボード510を介してトーン(tone)信号が入力されると、受話者300が通話可能な状態であると認め、これによる後続のCTI制御関数としてATDX_CPTERMを呼び出して、受話者300の電話機にリング信号を伝送する一方、受話者300の電話ラインからCTIボード510を介してビジー(busy)信号が入力されると、受話者300が通話不可能な状態であると認め、これによる後続のCTI制御関数としてdx_playを呼び出して、通話接続失敗のコメントを出力する。即ち、電話かけ動作を行うためには、dx_dial CTI制御関数を呼び出した後、CTIボード510から入力された信号に応じてそれぞれ異なるCTI制御関数を呼び出す必要がある。
そこで、このような煩わしさを解消するために、本発明では、基本的な電話動作を行うことができる作業単位でCTI制御関数を構成し、作業遂行部535を介して作業単位のCTI制御関数を順に呼び出して、基本的な電話動作をそれぞれ行う。以下、作業遂行部535についてより詳しく説明する。
一般に、作業(Job)とは、コンピュータで実行できる仕事の単位を意味しているが、本発明における作業は、基本的な電話動作を行うことができるように構成された各CTI制御関数のシーケンスと見なされ、このような作業単位で構成された基本的な電話動作の一例を図5に示している。
図5に示すように、電話かけ、電話受け、電話切り、ボタン押し、ボタン読み、トーン検出、音声の伝達、音声の格納、話し、及び聞きなどの作業(JB_*)は、CTI制御関数のシーケンスで構成されるが、特に、陰影処理されたブロックのCTI制御関数は、イベントハンドラ531から発生されたイベントを確認するか、現在の状態を確認するためのCTI制御関数であり、イベントハンドラ531からイベントが発生すると、発生されたイベントによって次のステップで必要な後続のCTI制御関数が呼び出されるように構成されている。
従って、上記のように、CTI制御関数を作業単位で構成することにより、数回にわたってCTI制御関数を個別に呼び出すことなく、一度の作業要請により基本的な電話動作を行うことが可能となり、システムの制御性能及び速度を向上させることができる。
一方、通訳モジュール550は、CTIボード510を介して入力された送話者100、又は受話者300の音声を相手側の話者が認識できる言語に翻訳しており、音声認識部551と、翻訳部553と、音声合成部555とを備えている。
音声認識部551では、CTIボード510を介して入力された送話者100、又は受話者300の音声を認識して、文章(テキスト)に変換しているが、このための音声認識アルゴリズムとしては、音声のスペクトラム変化に基づき、与えられたモデルとの確率的な推定値を用いてモデルの類似度を計算する隠れマルコフモデル(Hidden Markov Model)を使用することができる。
翻訳部553は、音声認識部551で認識された文章を送話者100、又は受話者300が認識できる言語に翻訳しているが、このための翻訳アルゴリズムとしては、従来に開示された構文分析による規則基盤型(Rule-Based)アルゴリズム、言語現象による語彙基盤型(Lexical-Based)翻訳アルゴリズム、大容量例題による例題基盤型(Example-Based)翻訳アルゴリズムなどをそのまま使用することが可能であり、それについての詳しい説明は省略する。
音声合成部555は、音声認識部551で認識された認識文章または 翻訳部553で翻訳された翻訳文章を音声に合成して出力するが、このための音声合成(Text to Speech)アルゴリズムとしては、J.Allen,M.S.Hunnicutt and d.Klattなどの「From Text to Speech」(Cambridge University Press,1987,pp.16-150)に記載されているホルマント合成規則を使用することも可能である。
上記に述べられた音声認識アルゴリズム、翻訳アルゴリズム、音声合成アルゴリズムの以外にも、他のアルゴリズムを使用することも可能であり、これらのアルゴリズムは、本発明を限定するものではない。
ところで、本発明による3者通話方式の通訳システムにおいては、送話者100や受話者300から、いつ、どのようなイベントが発生するかを予測することができないため、円滑な通訳サービスを提供するためには、発生されたイベントによって、次のステップで必要な動作を迅速に行わなければならない。
このために、本発明による主制御モジュール570においては、次に説明するように、通訳シナリオに基づいて双方向の自動通訳サービスに関わる全般的な動作を制御している。以下、主制御モジュール570についてより詳しく説明する。
主制御モジュール570は、CTI制御モジュール530からイベントが発生されると、予め定義されている通訳シナリオに基づいて、次のステップで行うべき動作を選択する通訳シナリオ管理部571と、前記通訳シナリオ管理部571から選択された現在状態切り替え動作によって現在の状態を次の状態に切り替える状態切り替え部573とを備えている。
通訳シナリオとは、送話者100や受話者300に円滑な自動通訳サービスを提供できるように、自動通訳システム500の動作の流れを予め定義したものであり、この通訳シナリオには、現在の状態で発生されたイベントによって次のステップで行うべき動作が予め設定されており、このような通訳シナリオの一例を図6に示している。
図6に示すように、通訳シナリオは、現在行っている動作状態である現在の状態(ST_*)、発生されたイベント(EVT_*)、発生されたイベントにより次のステップで行うべき動作(On_*)を<「現在状態」、「イベント」、「動作」>の形式でテーブル化したものであり、<「現在状態」、「イベント」、「動作」>において、「動作」は、発生されたイベントによって現在の状態を次の状態に切り替える現在状態切り替え動作を選択し、次のステップで必要な基本的な電話動作を選択する動作を意味する。
即ち、通訳シナリオ管理部571は、イベントハンドラ531からイベントが発生すると、予め格納された通訳シナリオに基づいて、次のステップで行うべき動作(On_*)を選択する。このように通訳シナリオ管理部571が動作(On_*)を選択すると、選択された動作により次のステップで必要な現在状態切り替え動作と基本的な電話動作とが選択され、これにより、状態切り替え部573は、選択された現在状態切り替え動作により現在の状態を次の状態に切り替え、作業遂行部535は、選択された基本的な電話動作により次のステップで必要な作業を行うことになる。
例えば、送話者100が自動通訳システム500に接続すると、CTI制御モジュール530のイベントハンドラ531は、呼出(call)受信イベントを主制御モジュール570の通訳シナリオ管理部571に伝達し、通訳シナリオ管理部571は、通訳シナリオから呼受信イベント処理のための<ST_START, EVT_WAITCALL, OnGotoPlayWelcomeMent>を参照し、状態切り替え部573を介して現在の状態をST_STARTからST_PlayWelcomeMentに切り替え、送話者100に接続歓迎のコメントを出力する動作を行う。
上記のように、通訳シナリオが<現在状態、イベント、動作>の形式になっているため、送話者100や受話者300から、いつ、どのようなイベントが発生されても次のステップで必要な動作を迅速に行うことが可能となり、相異なる言語を使っている送話者100と受話者300の間でも円滑な対話を行うことが可能となる。
以下、本発明による3者通話方式の自動通訳方法を添付図面を参照して詳しく説明する。
図7は、本発明に係る3者通話方式の自動通訳方法の全体フローチャートであり、図7に示すように、送話者100が自動通訳システム500に接続すると、送話者100と受話者300の間に通話チャンネルを設定する電話接続ステップ(S10〜S70)と、予め定義された通訳シナリオにより、入力される送話者100/受話者300の音声を相手側の話者が認識できる言語に翻訳する自動通訳ステップ(S80〜S150)と、通訳シナリオにより、翻訳された送話者100/受話者300の音声を相手側の話者に伝送する通訳伝送ステップ(S160〜S170)とを包含する。
先ず、送話者100が電話をかけて自動通訳システム500に接続すると、これにより、イベントハンドラ531を介して呼受信イベント(EVT_WAITCALL)が通訳シナリオ管理部571に伝達されるが、通訳シナリオ管理部571は、通訳シナリオの<ST_START、EVT_WAITCALL、OnGotoPlayWelcomeMent>により呼受信イベント処理のための動作(OnGotoPlayWelcomeMent)を選択し、選択された動作(OnGotoPlayWelcomeMent)により状態切り替え部573を介して現在の状態を歓迎のコメント出力状態(ST_PLAYWELCOMEMENT)に切り替え、作業遂行部535を介して電話受け作業を行う(S10)。ここで、イベントハンドラ531、作業遂行部535、通訳シナリオ管理部571、状態切り替え部573の動作は、図4に関わる説明で詳しく説明しており、以下、説明の便宜上、自動通訳システム500にまとめて説明する。
以後、電話受けが終了すると、自動通訳システム500は、通訳シナリオの<ST_PLAYWELCOMEMENT、EVT_PLAYVOICE、OnEndPlayWelcomeMent>により歓迎のコメントを出力し(S20)、歓迎のコメントの出力が終了した後、通訳シナリオの<ST_PLAYPHONENUMMENT、EVT_PLAYVOICE、OnEndPlayPhoneNumMent>により受話者300の電話番号の入力を要求するコメントを出力する(S30)。
送話者100が電話機を介して数字を入力すると、DTMFトーン信号イベント(EVT_GETDIGIT)が発生され、これにより、自動通訳システム500は、通訳シナリオの<ST_GETPHONENUMDIGIT、EVT_GETDIGIT、OnEndGetPhoneNumDigit>により、送話者100から入力されたDTMFトーン信号を検出して受話者300の電話番号を認識する(S40)。
このように受話者300の電話番号が認識されると、自動通訳システム500は、通訳シナリオの<ST_PLAYOUTBOUNDCALLMENT、EVT_PLAYVOICE、OnEndPlayOutboundCallMent>により通話接続案内のコメントを送話者100に出力すると同時に、電話かけ作業を行って受話者300の電話番号に通話接続を試みる(S50)。
その後、通訳システム500は、受話者300の応答により、通話が正常に接続されたか否かを判別し、通話接続に失敗した場合、通訳シナリオの<ST_PLAYCONNECTFAILMENT、EVT_PLAYVOICE、OnEndPlayConnectFailMent>により送話者100に通話接続の失敗のコメントを出力し(S60)、通話接続に成功した場合、通訳シナリオの<ST_PLAYCONNECTSUCCESSMENT、EVT_PLAYVOICE、OnEndPlayConnectSuccessMent>により通話接続の成功のコメントを出力する(S70)。
このように、通話接続に成功した場合、即ち、呼受信イベントが発生された場合、自動通訳システム500は、<ST_PLAYINTRODUCEMENT、EVT_PLAYVOICE、OnEndPlayIntroduceMent>により送話者100と受話者300とに通訳サービスの利用のための案内コメントを出力する(S80)。
一方、本発明による自動通訳システム500においては、送話者100と受話者300とに実時間で通訳サービスを提供できるように、送話者100と自動通訳システム500の間、自動通訳システム500と受話者300の間の二つの通話チャンネルを同時に制御しているが、同一の通訳シナリオによりこれらの二つの通話チャンネルを同時に制御しているため、以下、説明の便宜上、送話者100と自動通訳システム500の間の通話チャンネルを制御する場合を例にして説明する。
通訳サービスの利用についての案内コメントが出力された後、送話者100が音声入力のために、所定のボタン(*ボタン)を押すと、自動通訳システム500は、通訳シナリオの<ST_GETRECOGSTARTDIGIT、EVT_PLAYVOICE、OnEndGetRecogStartDigit>により、送話者100により入力される音声を録音する(S90)。
このような音声録音過程において、送話者100が録音を終了するために、所定のボタン(#ボタン)を押すと、自動通訳システム500は、通訳シナリオの<ST_GETRECOGSTOPDIGIT、EVT_PLAYVOICE、OnEndGetRecogStopDigit>により送話者100の音声録音を終了する(S100)。
その次に、自動通訳システム500は、通訳シナリオの<ST_SPEECHRECOG、EVT_RECOGSPEECH、OnEndSpeechRecog>により、録音された送話者100の音声を 認識する(S110)が、音声認識に成功したか否かを判別して、音声認識に失敗したときは、<ST_PLAYRECOGFAILMENT、EVT_PLAYVOICE、OnEndPlayRecogFailMent>により音声認識の失敗のコメントを出力し、かつ、送話者100の音声を入力する状態に復帰し(S120)、音声認識に成功したときは、<ST_PLAYTTSRECOGSENTENCE、EVT_PLAYVOICE、OnEndPlayTtsRecogSentence>により、認識された文章を音声に合成して送話者100に伝達する(S130)。
音声に合成された認識文章が、送話者100に伝達されると、送話者100は、その認識文章が、自分が入力した内容と合致するかを確認して、合致すると*ボタンを選択し、合致しないと#ボタンを選択する。送話者100が*ボタンを選択した場合、自動通訳システム500は、通訳シナリオの<ST_TRANSRECOGSENTENCE、EVT_TRANS、OnEndTransRecogSentence>により、認識された文章を受話者300が認識できる言語に翻訳し(S140)、翻訳が終了すると、通訳シナリオの<ST_PLAYTTSTRANSSENTENCE、EVT_PLAYVOICE、OnEndPlayTtsTransSentence>により、翻訳された文章を受話者300が聴取できるように音声に合成する(S150)。
その次に、翻訳された送話者100の音声を通訳シナリオの<ST_OUTTRANSSENTENCE、EVT_PLAYVOICE、OnEndOutTransSentence>により 受話者300に伝送する(S160)。翻訳文章の合成音出力が終了すると、<ST_PLAYDINGDONGMENT, EVT_PLAYVOICE, OnEndPlayDingdongMent>により、出力終了を表す所定のお知らせ音(例えば、ピンポン)を出力することもできる。
その次に、自動通訳システム500は、通訳シナリオの<ST_PLAYRCVWAITMENT、EVT_RCVSENTENCE、OnEndGetRcvSentence>により、伝送された翻訳文章に対する受話者300からの応答があったかをチェックし(S170)、受話者300から応答文章が受信された場合、通訳シナリオの<ST_OUTRCVSENTENCE、EVT_PLAYVOICE、OnEndOutRcvSentence>により、受信された応答文章を送話者100に伝送する(S180)。
上述のように、本発明による自動通訳システム500においては、次のステップで行うべき動作が予め設定された通訳シナリオにより双方向の自動通訳サービスに関わる全般的な動作を制御していることから、送話者100は、遠隔地の相異なる言語を使っている受話者300とも自由に通話することができる。
以上のように、上記実施の形態を参照して詳細に説明され図示されたが、本発明は、これに限定されるものでなく、このような本発明の基本的な技術的思想を逸脱しない範囲内で、当業界の通常の知識を有する者にとっては、他の多くの変更が可能であろう。また、本発明は、添付の特許請求の範囲により解釈されるべきであることは言うまでもない。
従来の自動通訳システムの構成図である。 従来の自動通訳の方法を示すブロック図である。 本発明に係る3者通話方式の自動通訳システムのためのネットワークの概略構成図である。 本発明に係る3者通話方式の自動通訳システムの概略構成図である。 図4における作業遂行部の動作を説明するための図である。 本発明に係る通訳シナリオの一実施の形態を示す図である。 本発明に係る3者通話方式の自動通訳方法を示す全体フローチャートである。
符号の説明
100 送話者
300 受話者
500 自動通訳システム
510 CTIボード
530 CTI制御モジュール
531 イベントハンドラ
533 CTI API
535 作業遂行部
550 通訳モジュール
551 音声認識部
553 翻訳部
555 音声合成部
570 主制御モジュール
571 通訳シナリオ管理部
573 状態切り替え部
700 公衆電話交換網(PSTN)
900 私設構内交換機(PBX)

Claims (10)

  1. 送話者と受話者の間に通話チャンネルを設定するCTIボードと、
    前記CTIボードを介して入力されたボタン信号によりイベントを発生させ、前記CTIボードを制御するCTI制御モジュールと、
    前記CTIボードを介して入力された送話者/受話者の音声を認識して所定の言語に翻訳する通訳モジュールと、
    現在行っている動作状態である現在状態、発生されたイベント、発生されたイベントにより次のステップで行うべき動作を<「現在状態」、「イベント」、「動作」>の形式でテーブル化したものである通訳シナリオにより前記CTI制御モジュールの動作を制御する主制御モジュールとを備えることを特徴とする3者通話方式の自動通訳システム。
  2. 前記CTI制御モジュールは、基本的な電話を行うことができる作業単位で前記CTIボードを制御することを特徴とする請求項1に記載の3者通話方式の自動通訳システム。
  3. 前記CTI制御モジュールは、
    前記CTIボードを介して入力されたボタン信号によりイベントを発生させるイベントハンドラと、
    前記CTIボードを制御するCTI制御関数からなるCTI APIと、
    前記主制御モジュールからの要請により前記CTI APIからCTI制御関数を順に呼び出して基本的な電話動作を行う作業遂行部とを備えることを特徴とする請求項1または請求項2に記載の3者通話方式の自動通訳システム。
  4. 前記基本的な電話動作は、電話かけ、電話受け、電話切り、ボタン押し、ボタン読み、トーンの検出、音出し、音聞き、話し、及び聞きを含むことを特徴とする請求項3に記載の3者通話方式の自動通訳システム。
  5. 前記通訳モジュールは、
    前記CTIボードを介して入力された音声を認識してテキストに変換する音声認識部と、
    前記音声認識部から変換されたテキストを所定の言語に翻訳する翻訳部と、
    前記音声認識部で認識されたテキストまたは前記翻訳部で翻訳された翻訳テキストを音声に合成して出力する音声合成部とを備えることを特徴とする請求項1または請求項2に記載の3者通話方式の自動通訳システム。
  6. 前記通訳シナリオは、現在の状態及び前記CTI制御モジュールから発生されたイベントにより選択される現在状態切り替え動作及び基本的な電話動作からなることを特徴とする請求項1または請求項2に記載の3者通話方式の自動通訳システム。
  7. 前記主制御モジュールは、
    前記CTI制御モジュールからイベントが発生すると、予め定義された通訳シナリオに基づいて、現在状態切り替え動作及び基本的な電話動作を選択する通訳シナリオ管理部と、
    前記通訳シナリオ管理部から選択された現在状態切り替え動作により現在の状態を次の状態に切り替える状態切り替え部とを備えることを特徴とする請求項6に記載の3者通話方式の自動通訳システム。
  8. 送話者が自動通訳システムに接続すると、送話者と受話者の間に通話チャンネルを設定する電話接続ステップと、
    CTIボードを介して入力される送話者または受話者のボタン信号によりCTI制御モジュールからイベントが発生されると、現在行っている動作状態である現在状態、発生されたイベント、発生されたイベントにより次のステップで行うべき動作を<「現在状態」、「イベント」、「動作」>の形式でテーブル化したものである通訳シナリオに基づいて、前記発生されたイベントにより、入力された音声を所定の言語に翻訳する自動通訳ステップと、
    前記通訳シナリオにより、前記CTIボードを制御して前記翻訳された音声を相手側の話者に伝送する通訳伝送ステップとを含むことを特徴とする3者通話方式の自動通訳方法。
  9. 前記自動通訳ステップは、
    送話者または受話者により入力されるボタン信号により前記CTI制御モジュールからイベントが発生されると、予め定義された通訳シナリオに基づいて、前記発生されたイベントにより入力される送話者または受話者の音声を録音するステップと、
    予め定義された通訳シナリオにより、通訳モジュールを介して前記録音された音声を認識して所定の言語に翻訳するステップとを含むことを特徴とする請求項8に記載の3者通話方式の自動通訳方法。
  10. 前記翻訳ステップは、
    前記録音された音声を認識してテキストに変換するステップと、
    前記テキストを所定の言語に翻訳するステップと、
    前記翻訳されたテキストを音声に合成するステップとを含むことを特徴とする請求項9に記載の3者通話方式の自動通訳方法。
JP2003376393A 2002-11-06 2003-11-06 3者通話方式の自動通訳システム及び方法 Expired - Fee Related JP3820245B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0068580A KR100485909B1 (ko) 2002-11-06 2002-11-06 3자 통화 방식의 자동 통역 시스템 및 방법

Publications (2)

Publication Number Publication Date
JP2004159335A JP2004159335A (ja) 2004-06-03
JP3820245B2 true JP3820245B2 (ja) 2006-09-13

Family

ID=32105674

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003376393A Expired - Fee Related JP3820245B2 (ja) 2002-11-06 2003-11-06 3者通話方式の自動通訳システム及び方法

Country Status (5)

Country Link
US (1) US20040092293A1 (ja)
EP (1) EP1418740B1 (ja)
JP (1) JP3820245B2 (ja)
KR (1) KR100485909B1 (ja)
DE (1) DE60333155D1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7376415B2 (en) * 2002-07-12 2008-05-20 Language Line Services, Inc. System and method for offering portable language interpretation services
US8023626B2 (en) * 2005-09-13 2011-09-20 Language Line Services, Inc. System and method for providing language interpretation
US7894596B2 (en) * 2005-09-13 2011-02-22 Language Line Services, Inc. Systems and methods for providing language interpretation
US7792276B2 (en) * 2005-09-13 2010-09-07 Language Line Services, Inc. Language interpretation call transferring in a telecommunications network
US20070239625A1 (en) * 2006-04-05 2007-10-11 Language Line Services, Inc. System and method for providing access to language interpretation
US7593523B2 (en) * 2006-04-24 2009-09-22 Language Line Services, Inc. System and method for providing incoming call distribution
US7773738B2 (en) * 2006-09-22 2010-08-10 Language Line Services, Inc. Systems and methods for providing relayed language interpretation
US20100205074A1 (en) * 2009-02-06 2010-08-12 Inventec Corporation Network leasing system and method thereof
KR101589433B1 (ko) * 2009-03-11 2016-01-28 삼성전자주식회사 동시 통역 시스템
JP5386466B2 (ja) * 2010-11-10 2014-01-15 株式会社恵和ビジネス 携帯電話を用いた遠隔同時通訳支援システム
JP5243645B2 (ja) 2011-05-24 2013-07-24 株式会社エヌ・ティ・ティ・ドコモ サービスサーバ装置、サービス提供方法、サービス提供プログラム
US9160967B2 (en) 2012-11-13 2015-10-13 Cisco Technology, Inc. Simultaneous language interpretation during ongoing video conferencing
JP6342972B2 (ja) * 2016-11-15 2018-06-13 株式会社日立情報通信エンジニアリング コミュニケーションシステム及びそのコミュニケーション方法
CN109448698A (zh) * 2018-10-17 2019-03-08 深圳壹账通智能科技有限公司 同声传译方法、装置、计算机设备和存储介质
JP2020188443A (ja) * 2019-05-07 2020-11-19 野田 真一 クラウドpbxシステム
CN113726952B (zh) * 2021-08-09 2023-04-28 北京小米移动软件有限公司 通话过程中的同声传译方法及装置、电子设备、存储介质
US20230306207A1 (en) * 2022-03-22 2023-09-28 Charles University, Faculty Of Mathematics And Physics Computer-Implemented Method Of Real Time Speech Translation And A Computer System For Carrying Out The Method

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5840684A (ja) * 1981-09-04 1983-03-09 Hitachi Ltd 自然言語間の自動翻訳方式
JPS6282853A (ja) * 1985-10-08 1987-04-16 Nec Corp 国際交換機
US4882681A (en) * 1987-09-02 1989-11-21 Brotz Gregory R Remote language translating device
US5524137A (en) * 1993-10-04 1996-06-04 At&T Corp. Multi-media messaging system
US5875234A (en) * 1996-02-14 1999-02-23 Netphone, Inc. Computer integrated PBX system
US6091808A (en) * 1996-10-17 2000-07-18 Nortel Networks Corporation Methods of and apparatus for providing telephone call control and information
US5946376A (en) * 1996-11-05 1999-08-31 Ericsson, Inc. Cellular telephone including language translation feature
US5875422A (en) * 1997-01-31 1999-02-23 At&T Corp. Automatic language translation technique for use in a telecommunications network
US6286033B1 (en) * 2000-04-28 2001-09-04 Genesys Telecommunications Laboratories, Inc. Method and apparatus for distributing computer integrated telephony (CTI) scripts using extensible mark-up language (XML) for mixed platform distribution and third party manipulation
JP4067613B2 (ja) * 1997-03-17 2008-03-26 富士通株式会社 Cti制御システム
JP3782867B2 (ja) * 1997-06-25 2006-06-07 株式会社日立製作所 情報受信処理方法およびコンピュータ・テレフォニイインテグレーションシステム
EP1021757A1 (en) * 1997-07-25 2000-07-26 Starvox, Inc. Apparatus and method for integrated voice gateway
US6192121B1 (en) * 1997-09-19 2001-02-20 Mci Communications Corporation Telephony server application program interface API
CA2236525C (en) * 1998-05-01 2003-07-15 Mitel Corporation Method and apparatus for migrating embedded pbx system to personal computer
US6173250B1 (en) * 1998-06-03 2001-01-09 At&T Corporation Apparatus and method for speech-text-transmit communication over data networks
US6324276B1 (en) * 1999-02-12 2001-11-27 Telera, Inc. Point-of-presence call center management system
US6175819B1 (en) * 1998-09-11 2001-01-16 William Van Alstine Translating telephone
IL142004A0 (en) * 1998-09-15 2002-03-10 In Touch Technologies Ltd Enhanced communication platform and related communication method using the platform
US7251315B1 (en) * 1998-09-21 2007-07-31 Microsoft Corporation Speech processing for telephony API
US6343116B1 (en) * 1998-09-21 2002-01-29 Microsoft Corporation Computer telephony application programming interface
US6967957B2 (en) * 1998-12-11 2005-11-22 Telcordia Technologies, Inc. Architecture for the rapid creation of telephony services in a next generation network
US6385586B1 (en) * 1999-01-28 2002-05-07 International Business Machines Corporation Speech recognition text-based language conversion and text-to-speech in a client-server configuration to enable language translation devices
US6266642B1 (en) * 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
US6252946B1 (en) * 1999-06-08 2001-06-26 David A. Glowny System and method for integrating call record information
KR19990078624A (ko) * 1999-07-13 1999-11-05 박준배 티알에스단말기를이용한통역서비스방법
KR20000024225A (ko) * 2000-01-27 2000-05-06 황용안 원격통역서비스시스템
KR20000049875A (ko) * 2000-01-27 2000-08-05 황용안 회원인증식원격전화통역서비스시스템
US6584185B1 (en) * 2000-01-31 2003-06-24 Microsoft Corporation Telephone abstraction layer and system in a computer telephony system
US6763104B1 (en) * 2000-02-24 2004-07-13 Teltronics, Inc. Call center IVR and ACD scripting method and graphical user interface
US7068774B1 (en) * 2000-02-25 2006-06-27 Harris Corporation Integrated acd and ivr scripting for call center tracking of calls
US6690932B1 (en) * 2000-03-04 2004-02-10 Lucent Technologies Inc. System and method for providing language translation services in a telecommunication network
AU2002239411A1 (en) * 2000-11-01 2002-06-03 Lps Associates, Llc Multimedia internet meeting interface phone
US20020072914A1 (en) * 2000-12-08 2002-06-13 Hiyan Alshawi Method and apparatus for creation and user-customization of speech-enabled services
US7133830B1 (en) * 2001-11-13 2006-11-07 Sr2, Inc. System and method for supporting platform independent speech applications
KR20030047522A (ko) * 2001-12-11 2003-06-18 한국전자통신연구원 유/무선 전화망을 통한 다국어 지원 자동 음성통역시스템환경에서 사용자 언어 지정 방법 및 그 장치
US6920216B2 (en) * 2002-08-19 2005-07-19 Intel Corporation Automatic call distribution with computer telephony interface enablement
US7881454B2 (en) * 2005-06-10 2011-02-01 Teletech Holdings, Inc. Integrated call management

Also Published As

Publication number Publication date
EP1418740A1 (en) 2004-05-12
EP1418740B1 (en) 2010-06-30
JP2004159335A (ja) 2004-06-03
US20040092293A1 (en) 2004-05-13
KR100485909B1 (ko) 2005-04-29
KR20040040228A (ko) 2004-05-12
DE60333155D1 (de) 2010-08-12

Similar Documents

Publication Publication Date Title
JP3820245B2 (ja) 3者通話方式の自動通訳システム及び方法
US7400712B2 (en) Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access
US9485347B2 (en) Voice-operated interface for DTMF-controlled systems
US7551900B2 (en) Apparatus and method for transmitting call holding message in mobile communication terminal
US8611508B2 (en) Method an apparatus for converting a voice signal received from a remote telephone to a text signal
KR100804855B1 (ko) 음성으로 제어되는 외국어 번역기용 방법 및 장치
CN111325039A (zh) 基于实时通话的语言翻译方法、系统、程序和手持终端
KR20040056471A (ko) 자동 음성번역 서비스를 위한 전화망 사용자 인터페이스시스템 및 그 제어 방법
KR101367722B1 (ko) 휴대단말기의 통화 서비스 방법
JPH08331618A (ja) 構内電話システムおよびその情報処理方法
JPH09116940A (ja) コンピュータ・電話統合システム
CN111274828B (zh) 基于留言的语言翻译方法、系统、计算机程序和手持终端
JP4165508B2 (ja) 音声メッセージシステムにおける着信応答システム
KR20160097406A (ko) 실시간 통번역 통화서비스 시스템 및 그 제공방법
US20040037399A1 (en) System and method for transferring phone numbers during a voice call
JPH08242280A (ja) 音声メール装置
KR101002905B1 (ko) 음성 인식을 이용한 유·무선 단말기 제어 방법 및 그유·무선 단말기
JP2815971B2 (ja) 音声認識データ蓄積システム
Duerr Voice recognition in the telecommunications industry
KR20010070771A (ko) 음성 인식을 이용한 자동 교환 시스템 및 방법
KR100413270B1 (ko) 농아자의 의사소통을 위한 휴대전화기와 방법
TWM652189U (zh) 外接式語音總機系統
JP2005184681A (ja) 携帯端末機器とそれを用いた通信システム
KR20030039154A (ko) 시각장애인을 위한 음성전화번호부 구현 방법과 그 것을이용한 휴대전화기
JP2003069718A (ja) 聴覚障害者と健聴者間の遠隔対話補助システム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060104

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060616

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100623

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110623

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110623

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120623

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120623

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130623

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees