JP6790234B2

JP6790234B2 - 通訳装置及び方法（ｄｅｖｉｃｅａｎｄｍｅｔｈｏｄｏｆｔｒａｎｓｌａｔｉｎｇａｌａｎｇｕａｇｅｉｎｔｏａｎｏｔｈｅｒｌａｎｇｕａｇｅ）

Info

Publication number: JP6790234B2
Application number: JP2019508888A
Authority: JP
Inventors: サンギルアン; カンシクジュン; ヒョンテクヨン; ヒョクチョイ
Original assignee: ハイパーコネクトインコーポレイテッド
Priority date: 2016-08-18
Filing date: 2017-08-18
Publication date: 2020-11-25
Anticipated expiration: 2037-08-18
Also published as: KR20180020368A; US10643036B2; KR101861006B1; EP3500947A1; US20200265197A1; EP3500947A4; JP2019534492A; US11227129B2; WO2018034552A1; US20180052831A1

Description

記載された実施例は、よりスムーズで、反応性が向上した使用者経験を提供することができる通訳装置及び方法に関する。

通信技術が発展し、電子装置が小型化するに伴って個人用端末が一般消費者に広く普及している。特に最近では、スマートフォンやスマートタブレットのような携帯用個人端末が広く普及している。前記端末の大部分は、通信機能を含んでいる。使用者は、端末を用いてインターネットで検索を行ったり、他の使用者とメッセージを送受信することができる。

また、小型カメラ技術、小型マイク技術、小型ディスプレイ技術及び小型スピーカー技術の発展に伴い、スマートフォンのようなほとんどの端末には、カメラ、マイク、ディスプレイ及びスピーカーが含まれている。使用者は、端末を用いて音声を録音したり、音声が含まれている動画を撮影することができる。使用者は、端末に含まれたスピーカーを介して前記録音された音声を確認するか、ディスプレイを介して前記撮影された動画を確認することができる。

また、使用者は、端末の通信機能を用いて、前記録音された音声または前記撮影された動画を他の使用者と共有することができる。使用者は、以前に録音された音声または以前に撮影された動画を他の使用者に伝送することができる。また、使用者は、端末によって現在録音されている音声または現在撮影されている動画をリアルタイムで他の使用者に伝送することができる。

また、同時に、前記他の使用者は、自分の端末によって現在録音されている音声または現在撮影されている動画をリアルタイムで前記使用者に伝送することができる。使用者の端末に含まれたディスプレイは、使用者の端末によって現在撮影されている動画及び他の使用者の端末によって現在撮影されている動画を同時に表示することができる。また、使用者の端末に含まれたスピーカーは、他の使用者の端末によって現在録音されている音声を同時に再生することができる。すなわち、使用者及び他の使用者は、各自の端末を用いて、互いに映像通話（ｖｉｄｅｏｃａｌｌ）を行うことができる。

前記使用者及び他の使用者は、互いにすでに知っている関係であることもあり、互いに知らない関係であることもある。前記使用者の端末及び前記他の使用者の端末を含む複数の端末は、サーバーに連結されることができる。サーバーは、前記使用者の端末及び前記他の使用者の端末の間を仲介することができる。したがって、前記使用者及び他の使用者は、互いに知らない関係であったとしても、サーバーの仲介を介して互いに映像通話をすることができる。

前記使用者が使用する言語は、前記他の使用者が使用する言語と互いに異なることができる。映像通話をする使用者が使用する言語が互いに異なる場合には、相手の音声が使用者の端末のスピーカーを介して再生されても、使用者は相手の話を聞き取れないことがある。

記載された実施例によれば、映像通話をする使用者が使用する言語が互いに異なっても各自が相手の話を聞き取るようにすることができる通訳装置及び方法が提供されることができる。

また、実施例によれば、よりスムーズな使用者経験を提供することができる通訳装置及び方法が提供されることができる。

また、実施例によれば、反応性が向上した使用者経験を提供することができる通訳装置及び方法が提供されることができる。

また、実施例によれば、改善された使用者経験を提供することができる通訳装置及び方法が提供されることができる。

実施例に係る通訳方法は、第１端末から第１言語の音声データ及び少なくとも一つ以上の第２言語の単語を連続的に受信する段階、前記音声データの再生と共に前記少なくとも一つ以上の第２言語の単語を連続的に表示する段階、前記音声データに対する音声認識結果に含まれている終結した文章の前記第２言語への翻訳文を取得する段階、及び前記表示された少なくとも一つ以上の第２言語の単語のうち前記終結した文章に対応する少なくとも一つ以上の単語を前記取得された翻訳文に置換する段階を含み、それぞれの前記少なくとも一つ以上の第２言語の単語は、前記音声データに対する前記音声認識結果に含まれたそれぞれの単語に対応することができる。

また、前記音声データの再生と共に前記少なくとも一つ以上の第２言語の単語を連続的に表示する段階は、前記音声データを受信する途中に、現在までに受信された前記音声データの少なくとも一部を連続的に再生する段階、及び前記少なくとも一つ以上の第２言語の単語を受信する途中に、現在までに受信された前記少なくとも一つ以上の第２言語の単語のうちの少なくとも一部を連続的に表示する段階を含むことができる。

また、前記第２言語への翻訳文を取得する段階は、前記翻訳文を前記第１端末または第１サーバーから受信する段階を含むことができる。

また、前記第２言語への翻訳文を取得する段階は、前記音声データに対する音声認識結果内から前記終結した文章を検出する段階、前記検出された終結した文章を第１サーバーに伝送する段階、及び前記終結した文章の前記第２言語への翻訳文を前記第１サーバーから受信する段階を含むことができる。

また、前記第２言語への翻訳文を取得する段階は、前記音声データに対する音声認識結果内から前記終結した文章を検出する段階、第１データベースにおいて、前記検出された終結した文章を照会する段階、及びもし前記終結した文章に対応する前記第２言語への翻訳文が前記第１データベース内に存在する場合、前記照会の結果として、前記終結した文章に対応する前記第２言語への翻訳文を前記第１データベースから取得する段階を含むことができる。

また、前記第２言語への翻訳文を取得する段階は、前記音声データに対する音声認識結果内から前記終結した文章を検出する段階、第１データベースにおいて、前記検出された終結した文章を照会する段階、もし前記終結した文章に対応する前記第２言語への翻訳文が前記第１データベース内に存在しない場合は、前記終結した文章を第１サーバーに伝送する段階、前記終結した文章の前記第２言語への翻訳文を前記第１サーバーから受信する段階、及び前記終結した文章及び前記受信された第２言語への翻訳文を前記第１データベース内にキャッシュ（ｃａｃｈｅ）する段階を含むことができる。

また、それぞれの前記少なくとも一つ以上の第２言語の単語は、前記音声データに対する前記音声認識結果に含まれたそれぞれの単語の意味と互いに同一または類似の意味を有することができる。

他の実施例に係る通訳方法は、第１言語の音声を連続的に受信する段階、前記受信された音声を連続的にエンコードする段階、前記エンコードされた音声に対する音声認識結果を連続的に取得する段階、前記音声認識結果に含まれたそれぞれの単語を前記単語に対応する第２言語の単語に連続的に変換する段階、前記エンコードされた音声及び前記変換された第２言語の単語を第２端末に連続的に伝送する段階、前記音声認識結果に含まれた終結した文章を検出する段階、前記検出された終結した文章の前記第２言語への翻訳文を取得する段階、及び前記取得された翻訳文を前記第２端末に伝送する段階を含むことができる。

また、前記第２言語の単語に連続的に変換する段階は、前記第１言語の語順及び前記第２言語の語順の間の類似度を算出する段階、及び前記算出された類似度が基準値よりも大きければ、前記音声認識結果に含まれたそれぞれの単語を前記単語の意味と互いに同一または類似の意味を有する前記第２言語の単語に連続的に変換する段階を含み、前記第２端末に連続的に伝送する段階は、前記算出された類似度が前記基準値よりも大きければ、前記エンコードされた音声及び前記変換された第２言語の単語を前記第２端末に連続的に伝送する段階を含むことができる。

また、前記第２言語の単語に連続的に変換する段階は、前記音声認識結果に含まれたそれぞれの前記単語を第２サーバーに伝送する段階、及び前記伝送されたそれぞれの単語の意味と互いに同一または類似の意味を有する前記第２言語の単語を前記第２サーバーから受信する段階を含むことができる。

また、前記第２言語の単語に連続的に変換する段階は、第２データベースにおいて、前記音声認識結果に含まれたそれぞれの前記単語を照会する段階、及びもし前記照会された単語に対応する前記第２言語の単語が前記第２データベース内に存在する場合、前記照会の結果として、前記照会された単語に対応する前記第２言語の単語を前記第２データベースから取得する段階を含むことができる。

また、前記第２言語の単語に連続的に変換する段階は、第２データベースにおいて、前記音声認識結果に含まれたそれぞれの前記単語を照会する段階、もし前記照会された単語に対応する前記第２言語の単語が前記第２データベース内に存在しない場合、前記照会された単語を第２サーバーに伝送する段階、前記伝送された単語の意味と互いに同一または類似の意味を有する前記第２言語の単語を前記第２サーバーから受信する段階、及び前記伝送された単語及び前記受信された第２言語の単語を前記第２データベース内にキャッシュ（ｃａｃｈｅ）する段階を含むことができる。

また、前記音声認識結果に含まれた終結した文章を検出する段階は、前記受信された音声に含まれた抑揚、前記受信された音声に含まれた空白区間、または前記音声認識結果に含まれた単語の文章成分（ｃｏｎｓｔｉｔｕｅｎｔ）を用いて終結点を検出する段階、及び前記音声認識結果で以前の終結点に対応する部分の次の部分から前記検出された終結点に対応する部分までを前記終結した文章に定義する段階を含むことができる。

また、前記終結点を検出する段階は、前記受信された音声で文章の終結に対応する抑揚を検出するか、前記受信された音声で特定の時間を超過する空白区間を検出するか、または前記音声認識結果が完全な文章（ｆｕｌｌｓｅｎｔｅｎｃｅ）になるために必要なすべての文章成分に対応する単語を含むか否かを検出することによって、前記終結点を検出する段階を含むことができる。

また、前記第２言語への翻訳文を取得する段階は、前記検出された終結した文章を第１サーバーに伝送する段階、及び前記終結した文章の前記第２言語への翻訳文を前記第１サーバーから受信する段階を含むことができる。

また、前記第２言語への翻訳文を取得する段階は、第１データベースにおいて、前記検出された終結した文章を照会する段階、及びもし前記終結した文章に対応する前記第２言語への翻訳文が前記第１データベース内に存在する場合、前記照会の結果として、前記終結した文章に対応する前記第２言語への翻訳文を前記第１データベースから取得する段階を含むことができる。

また、前記第２言語への翻訳文を取得する段階は、第１データベースにおいて、前記検出された終結した文章を照会する段階、もし前記終結した文章に対応する前記第２言語への翻訳文が前記第１データベース内に存在しない場合、前記終結した文章を第１サーバーに伝送する段階、前記終結した文章の前記第２言語への翻訳文を前記第１サーバーから受信する段階、及び前記終結した文章及び前記受信された第２言語への翻訳文を前記第１データベース内にキャッシュ（ｃａｃｈｅ）する段階を含むことができる。

また他の実施例に係る通訳方法は、第１端末が第１言語の音声を連続的に受信する段階、前記第１端末が前記受信された音声を連続的にエンコードする段階、前記第１端末が前記エンコードされた音声に対する音声認識結果を連続的に取得する段階、前記第１端末が前記音声認識結果に含まれたそれぞれの単語を第２言語の単語に連続的に変換する段階、前記第１端末が前記エンコードされた音声及び前記変換された第２言語の単語を第２端末に連続的に伝送する段階、前記第２端末が前記エンコードされた音声の再生と共に前記第２言語の単語を連続的に表示する段階、前記第１端末が前記音声認識結果に含まれた終結した文章を検出する段階、前記第１端末が前記検出された終結した文章の前記第２言語への翻訳文を取得する段階、前記第１端末が前記取得された翻訳文を前記第２端末に伝送する段階、及び前記第２端末が前記表示された第２言語の単語のうちで、前記翻訳文に対応する単語を前記翻訳文に置換する段階を含むことができる。

実施例に係る通訳装置は、第１端末から第１言語の音声データ及び少なくとも一つ以上の第２言語の単語を連続的に受信する通信部、及び前記音声データの再生と共に前記少なくとも一つ以上の第２言語の単語を連続的に表示する出力部を含み、前記通信部は、前記音声データに対する音声認識結果に含まれた終結した文章の前記第２言語への翻訳文を取得し、前記出力部は、前記表示された少なくとも一つ以上の第２言語の単語のうちで、前記終結した文章に対応する少なくとも一つ以上の単語を前記取得された翻訳文に置換し、それぞれの前記少なくとも一つ以上の第２言語の単語は、前記音声データに対する前記音声認識結果に含まれたそれぞれの単語に対応することができる。

記載された実施例によれば、映像通話をする使用者が使用する言語が互いに異なっても、各自が相手の話を聞き取ることができる。

また、実施例によれば、よりスムーズな使用者経験が提供されることができる。

また、実施例によれば、反応性が向上した使用者経験が提供されることができる。

また、実施例によれば、改善された使用者経験が提供されることができる。

実施例に係る通訳装置が動作する環境を示すネットワーク構成図である。実施例に係る通訳装置の構成を示すブロック図である。実施例に係る通訳装置によって通訳方法が行われる過程を示すフローチャートである。実施例に係る第１端末が第１言語の音声を連続的に受信する段階を説明するための参考図である。実施例に係る第１端末がそれぞれの単語を第２言語の単語に連続的に変換する段階が行われる過程を示すフローチャートである。他の実施例に係る第１端末がそれぞれの単語を第２言語の単語に連続的に変換する段階が行われる過程を示すフローチャートである。また他の実施例に係る第１端末がそれぞれの単語を第２言語の単語に連続的に変換する段階が行われる過程を示すフローチャートである。また他の実施例に係る第１端末がそれぞれの単語を第２言語の単語に連続的に変換する段階が行われる過程を示すフローチャートである。実施例に係る第２端末が第２言語の単語を連続的に表示する段階を説明するための参考図である。実施例に係る第２端末が第２言語の単語を連続的に表示する段階を説明するための他の参考図である。実施例に係る第２端末が第２言語の単語を連続的に表示する段階を説明するためのまた他の参考図である。実施例に係る第１端末が音声認識結果に含まれた終結した文章を検出する段階が行われる過程を示すフローチャートである。実施例に係る第１端末が終結した文章の第２言語への翻訳文を取得する段階が行われる過程を示すフローチャートである。他の実施例に係る第１端末が終結した文章の第２言語への翻訳文を取得する段階が行われる過程を示すフローチャートである。また他の実施例に係る第１端末が終結した文章の第２言語への翻訳文を取得する段階が行われる過程を示すフローチャートである。実施例に係る第２端末が表示された第２言語の単語を翻訳文に置換する段階を説明するための参考図である。実施例に係る第２端末が表示された第２言語の単語を翻訳文に置換する段階を説明するための他の参考図である。実施例に係る第２端末が表示された第２言語の単語を翻訳文に置換する段階を説明するためのまた他の参考図である。

本発明の利点及び特徴、そしてそれらを達成する方法は、添付した図面と共に詳細に後述されている実施例を参照すれば明確になる。しかし、本発明は、以下で開示される実施例に限定されるものではなく、互いに異なる様々な形態で具現されるものであり、単に本実施例は、本発明の開示が完全になるようにして、本発明が属する技術分野における通常の知識を有する者に発明の範疇を完全に知らせるために提供されるものであり、本発明は、請求項の範疇によって定義されるだけである。明細書全体にわたって同一の参照符号は、同一の構成要素を指す。

「第１」または「第２」などが様々な構成要素を記述するために使用されるが、このような構成要素は、前記のような用語によって制限されるものではない。前記のような用語は、単に１つの構成要素を他の構成要素と区別するために使用することができる。したがって、以下に言及される第１構成要素は、本発明の技術的思想内で第２構成要素であることもできる。

本明細書で使用される用語は、実施例を説明するためのものであって、本発明を制限しようとするものではない。本明細書において、単数形は、文句で特に言及しない限り、複数形も含む。明細書で使用される「含む（ｃｏｍｐｒｉｓｅｓ）」または「含んでいる（ｃｏｍｐｒｉｓｉｎｇ）」は、言及された構成要素または段階が１つ以上の他の構成要素または段階の存在または追加を排除しないという意味を内包する。

他の定義がなければ、本明細書で使用されるすべての用語は、本発明が属する技術分野における通常の知識を有する者に共通的に理解され得る意味として解釈されることができる。また、一般的に使用される辞書に定義されている用語は、明白に定義されていない限り理想的にまたは過度に解釈されない。
以下では、図１〜図１８を参照して、実施例に係る通訳装置１００、１５０及び方法について詳細に説明することにする。

図１は、実施例に係る通訳装置１００、１５０が動作する環境を示すネットワーク構成図である。図１を参照すると、通訳装置１００、１５０が動作する環境は、第１通訳装置１００、及び前記第１通訳装置１００と互いに連結された第２通訳装置１５０を含むことができる。

他の実施例によれば、前記通訳装置１００、１５０が動作する環境は、前記第１通訳装置１００または前記第２通訳装置１５０と互いに連結された第１サーバー２００をさらに含むことができる。また他の実施例によれば、前記通訳装置１００、１５０が動作する環境は、前記第１通訳装置１００または前記第２通訳装置１５０と互いに連結された第２サーバー３００をさらに含むことができる。また他の実施例によれば、前記通訳装置１００、１５０が動作する環境は、前記第１通訳装置１００または前記第２通訳装置１５０と互いに連結された第３サーバー４００をさらに含むことができる。

前記通訳装置１００、１５０が動作する環境は、前記第１サーバー２００〜第３サーバー４００のうちのいずれか一つも含まないことができる。他の実施例によれば、前記通訳装置１００、１５０が動作する環境は、前記第１サーバー２００〜第３サーバー４００のうちの少なくとも一部を含むことができる。

第１通訳装置１００は、端末であることができる。以下では、説明の便宜のために、第１通訳装置１００を示す用語として、第１通訳装置１００及び第１端末１００を混用することにする。第１端末１００は、例えば、デスクトップコンピュータ、ラップトップコンピュータ、スマートフォン、スマートタブレット、スマートウォッチ、移動端末、デジタルカメラ、ウェアラブルデバイス（ｗｅａｒａｂｌｅｄｅｖｉｃｅ）、または携帯用電子機器などであることができる。第１端末１００は、プログラムまたはアプリケーションを実行することができる。

第１端末１００は、通信網に連結されることができる。第１端末１００は、前記通信網を介して、外部の他の装置と互いに連結されることができる。第１端末１００は、互いに連結された他の装置にデータを伝送したり、前記他の装置からデータを受信することができる。

第１端末１００と連結された通信網は、有線通信網、無線通信網、または複合通信網を含むことができる。通信網は３Ｇ、ＬＴＥ、またはＬＴＥ−Ａなどのような移動通信網を含むことができる。通信網は、ワイファイ（Ｗｉ−Ｆｉ）、ＵＭＴＳ／ＧＰＲＳ、またはイーサネット（Ｅｔｈｅｒｎｅｔ（登録商標））などのような有線または無線通信網を含むことができる。通信網は、マグネチック保安送信（ＭＳＴ，ＭａｇｎｅｔｉｃＳｅｃｕｒｅＴｒａｎｓｍｉｓｓｉｏｎ）、ＲＦＩＤ（ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩＤｅｎｔｉｆｉｃａｔｉｏｎ）、ＮＦＣ（ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎ）、ジグビー（ＺｉｇＢｅｅ）、Ｚ−Ｗａｖｅ、ブルートゥース（Ｂｌｕｅｔｏｏｔｈ（登録商標））、低電力ブルートゥース（ＢＬＥ，ＢｌｕｅｔｏｏｔｈＬｏｗＥｎｅｒｇｙ）、または赤外線通信（ＩＲ，ＩｎｆｒａＲｅｄｃｏｍｍｕｎｉｃａｔｉｏｎ）などのような近距離通信網を含むことができる。通信網は、近距離ネットワーク（ＬＡＮ，ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、メトロポリタン・エリア・ネットワーク（ＭＡＮ，ＭｅｔｒｏｐｏｌｉｔａｎＡｒｅａＮｅｔｗｏｒｋ）、またはワイド・エリア・ネットワーク（ＷＡＮ，ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含むことができる。

図２は、実施例に係る通訳装置１００、１５０の構成を示すブロック図である。図２を参照すると、実施例に係る通訳装置１００、１５０は、入力部１０１、制御部１０２、保存部１０３、通信部１０４、及び出力部１０５を含むことができる。

入力部１０１は、外部から信号を受信することができる。入力部１０１は、通訳装置１００、１５０の使用者から信号を受信することができる。また、入力部１０１は、外部装置から信号を受信することができる。

入力部１０１は、例えば、マイク、カメラ、キーボード、マウス、トラックボール、タッチスクリーン、ボタン、スイッチ、センサー、ネットワークインターフェース、または、その他の入力装置を含むことができる。入力部１０１は、入力部１０１に含まれたマイクを介して外部から音声を受信することができる。入力部１０１は、通訳装置１００、１５０の使用者から音声を受信することができる。また、入力部１０１は、外部の音声再生装置から音声を受信することができる。

制御部１０２は、通訳装置１００、１５０の動作を制御することができる。制御部１０２は、通訳装置１００、１５０に含まれたそれぞれの構成要素と互いに連結されることができる。制御部１０２は、通訳装置１００、１５０に含まれたそれぞれの構成要素の動作を制御することができる。制御部１０２は、入力部１０１によって受信された信号に対する応答として、通訳装置１００、１５０の動作を制御することができる。

また、制御部１０２は、信号を処理することができる。制御部１０２は、入力部１０１によって受信された信号を処理することができる。例えば、制御部１０２は、入力部１０１に含まれたマイクを介して受信された音声を処理することができる。

また、制御部１０２は、演算を行うことができる。制御部１０２は、入力部１０１によって受信された信号に基づいて演算を行うことができる。制御部１０２は、入力部１０１によって受信された信号または保存部１０３に保存されたデータを用いて演算を行うことができる。例えば、制御部１０２は、入力部１０１に含まれたマイクを介して受信された音声をエンコードすることができる。制御部１０２は、演算結果が保存部１０３に保存されるように制御することができる。制御部１０２は、演算結果が出力部１０５によって表示されるように制御することができる。

制御部１０２は、例えば、中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ，ＣＰＵ）、グラフィック処理装置（ＧｒａｐｈｉｃＰｒｏｃｅｓｓｉｎｇＵｎｉｔ，ＧＰＵ）、マイクロコントローラーユニット（ＭｉｃｒｏＣｏｎｔｒｏｌｌｅｒＵｎｉｔ，ＭＣＵ）、またはマイクロプロセッサ（ｍｉｃｒｏｐｒｏｃｅｓｓｏｒ）を含むことができる。

保存部１０３は、データを保存することができる。保存部１０３は、制御部１０２によって行われた演算結果を保存することができる。例えば、保存部１０３は、制御部１０２によってエンコードされた音声を保存することができる。保存部１０３は、通信部１０４を介して外部に伝送するデータを保存したり、通信部１０４を介して外部から受信されたデータを保存することができる。

保存部１０３は、揮発性メモリーまたは非揮発性メモリーを含むことができる。保存部１０３は、例えば、フラッシュ（ｆｌａｓｈ）メモリー、ＲＯＭ、ＲＡＭ、ＥＥＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ハードディスクドライブ（ＨＤＤ，ＨａｒｄＤｉｓｋＤｒｉｖｅ）、またはレジスター（ｒｅｇｉｓｔｅｒ）などを含むことができる。保存部１０３は、例えば、ファイルシステム、データベース、またはエンベデッドデータベースなどを含むことができる。

通信部１０４は、外部にデータを伝送したり、外部からデータを受信することができる。通信部１０４は、他の通訳装置１００、１５０、第１サーバー２００、第２サーバー３００、または第３サーバー４００にデータを伝送することができる。通信部１０４は、他の通訳装置１００、１５０、第１サーバー２００、第２サーバー３００、または第３サーバー４００からデータを受信することができる。通信部１０４は、制御部１０２によって行われた演算結果を外部に伝送することができる。また、通信部１０４は、保存部１０３に保存されたデータを外部に伝送することができる。

通信部１０４によって伝送されるデータまたは通信部１０４により受信されたデータは保存部１０３に保存されることができる。例えば、通信部１０４は保存部１０３に保存されたエンコードされた音声を第３サーバー４００に伝送することができる。また、通信部１０４は、前記送信に対する応答として、前記第３サーバー４００から前記エンコードされた音声に対する音声認識結果を受信することができる。

通信部１０４は、例えば、３Ｇモジュール、ＬＴＥモジュール、ＬＴＥ−Ａモジュール、Ｗｉ−Ｆｉモジュール、ワイギグ（ＷｉＧｉｇ）モジュール、ＵＷＢ（ＵｌｔｒａＷｉｄｅＢａｎｄ）モジュール、またはＬＡＮカードなどのような遠距離用のネットワークインターフェースを含むことができる。また、通信部１０４は、マグネチック保安送信（ＭＳＴ，ＭａｇｎｅｔｉｃＳｅｃｕｒｅＴｒａｎｓｍｉｓｓｉｏｎ）モジュール、ブルートゥースモジュール、ＮＦＣモジュール、ＲＦＩＤモジュール、ジグビー（ＺｉｇＢｅｅ）モジュール、Ｚ−Ｗａｖｅモジュール、または赤外線モジュールなどのような近距離用のネットワークインターフェースを含むことができる。また、通信部１０４は、その他のネットワークインターフェースを含むことができる。

出力部１０５は、外部に信号を出力することができる。出力部１０５は、例えば、画面を表示したり、声を再生したり、または振動を出力することができる。出力部１０５は、ディスプレイ、スピーカー、バイブレーター、オシレーター、またはその他の出力装置を含むことができる。

出力部１０５は、画面を表示することができる。制御部１０２は、出力部１０５が画面を表示するように出力部１０５を制御することができる。出力部１０５は、使用者インターフェースを表示することができる。出力部１０５は、使用者からの入力に対する応答として、他の画面を表示することができる。

出力部１０５は、データを表示することができる。出力部１０５は、制御部１０２によって行われた演算結果を表示することができる。出力部１０５は、保存部１０３に保存されたデータを表示することができる。出力部１０５は、通信部１０４によって受信されたデータを表示することができる。例えば、出力部１０５は、第３サーバー４００から受信された音声認識結果を表示することができる。

出力部１０５は、例えば、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）、またはＰＤＰ（ＰｌａｓｍａＤｉｓｐｌａｙＰａｎｅｌ）などの平板表示装置を含むことができる。出力部１０５は、曲面ディスプレイまたはフレクシブルディスプレイ（ｆｌｅｘｉｂｌｅｄｉｓｐｌａｙ）を含むことができる。出力部１０５は、タッチスクリーンを含むことができる。

第２通訳装置１５０は、端末であることができる。以下では、説明の便宜のために、第２通訳装置１５０を指す用語として、第２通訳装置１５０及び第２端末１５０を混用することにする。第２端末１５０は、第１端末１００と互いに同じ種類の端末であることもでき、互いに異なる種類の端末であることもできる。第２端末１５０は、プログラムまたはアプリケーションを実行することができる。

第２端末１５０は、通信網に連結されることができる。第２端末１５０は、前記通信網を介して外部の他の装置と互いに連結されることができる。第２端末１５０は、互いに連結された他の装置にデータを伝送したり、前記他の装置からデータを受信することができる。

第２端末１５０は、前記第１端末１００と互いに連結されることができる。第２端末１５０は、前記通信網を介して前記第１端末１００と互いに連結されることができる。第２端末１５０は、第１端末１００にデータを伝送したり、第１端末１００からデータを受信することができる。

互いに連結された第１端末１００及び第２端末１５０は、互いにメッセージ、ファイル、音声データ、映像、または動画などを送受信することができる。また、第１端末１００及び第２端末１５０は、互いに音声通話または映像通話（ｖｉｄｅｏｃａｌｌ）をすることができる。

第１端末１００及び第２端末１５０は、互いに直接データを送受信することができる。また、第１端末１００及び第２端末１５０は、第１サーバー２００、第２サーバー３００、第３サーバー４００、または他の仲介装置を経由して、互いにデータを送受信することができる。

第１端末１００の使用者が使用する言語及び第２端末１５０の使用者が使用する言語は、互いに同一または互いに異なることができる。第１端末１００の使用者が使用する言語は、第１言語であることができる。第１言語は、例えば、韓国語、英語、日本語、中国語、ドイツ語、フランス語、スペイン語、またはイタリア語などであることができる。第２端末１５０の使用者が使用する言語は、第２言語であることができる。第２言語は、例えば、韓国語、英語、日本語、中国語、ドイツ語、フランス語、スペイン語、またはイタリア語などであることができる。第１言語及び第２言語は、互いに同一または互いに異なることができる。

第１サーバー２００は、第１端末１００または第２端末１５０と互いに連結されることができる。第１サーバー２００が第１端末１００と互いに連結された場合、第１サーバー２００は、第１端末１００と通信網を介して互いにデータを送受信することができる。第１サーバー２００が第２端末１５０と互いに連結された場合、第１サーバー２００は、第２端末１５０と通信網を介して互いにデータを送受信することができる。

第１サーバー２００は、辞書（ｄｉｃｔｉｏｎａｒｙ）サーバーであることができる。第１サーバー２００は、辞書サービスを提供することができる。第１サーバー２００は、第１端末１００または第２端末１５０から第１言語の単語を受信することができる。第１サーバー２００は、前記受信された第１言語の単語を用いて、前記第１言語の単語の意味と互いに同一または類似の意味を有する第２言語の単語を取得することができる。第１サーバー２００は、前記取得された第２言語の単語を第１端末１００または第２端末１５０に伝送することができる。

第２サーバー３００は、第１端末１００または第２端末１５０と互いに連結されることができる。第２サーバー３００が第１端末１００と互いに連結された場合、第２サーバー３００は、第１端末１００と通信網を介して互いにデータを送受信することができる。第２サーバー３００が第２端末１５０と互いに連結された場合、第２サーバー３００は、第２端末１５０と通信網を介して互いにデータを送受信することができる。

第２サーバー３００は、翻訳サーバーであることができる。第２サーバー３００は、翻訳サービスを提供することができる。第２サーバー３００は、第１端末１００または第２端末１５０から第１言語の文章を受信することができる。第２サーバー３００は、前記受信された第１言語の文章を用いて、前記文章の第２言語への翻訳文を取得することができる。第２サーバー３００は、前記取得された翻訳文を第１端末１００または第２端末１５０に伝送することができる。

第３サーバー４００は、第１端末１００または第２端末１５０と互いに連結されることができる。第３サーバー４００が第１端末１００と互いに連結された場合、第３サーバー４００は、第１端末１００と通信網を介して互いにデータを送受信することができる。第３サーバー４００が第２端末１５０と互いに連結された場合、第３サーバー４００は、第２端末１５０と通信網を介して互いにデータを送受信することができる。

第３サーバー４００は、音声認識サーバーであることができる。第３サーバー４００は、音声認識サービスを提供することができる。第３サーバー４００は、第１端末１００または第２端末１５０からエンコードされた音声を受信することができる。第３サーバー４００は、前記エンコードされた音声を用いて音声認識を行うことができる。第３サーバー４００は、前記音声認識の結果として、前記エンコードされた音声をテキストに変換することができる。第３サーバー４００は、前記変換されたテキストを第１端末１００または第２端末１５０に伝送することができる。
以下では、図３〜図１８を参照して、実施例に係る通訳方法内での通訳装置１００、１５０のより具体的な動作について詳細に説明することにする。

図３は、実施例に係る通訳装置１００、１５０によって通訳方法が行われる過程を示すフローチャートである。図３を参照すると、実施例に係る通訳方法においては、まず、第１端末が第１言語の音声を連続的に受信する段階Ｓ１００が行われることができる。

第１端末１００の使用者は、第１端末１００に向かって第１言語で話をすることができる。また、外部の再生装置は、第１端末１００に向かって第１言語の音声を再生することができる。前記第１言語は、例えば、韓国語、英語、日本語、中国語、ドイツ語、フランス語、スペイン語、またはイタリア語などであることができる。

図４は、実施例に係る第１端末１００が第１言語の音声を連続的に受信する段階Ｓ１００を説明するための参考図である。図４に示すように、第１端末１００の使用者は、第１端末１００に向かって英語で話をすることができる。すなわち、前記第１言語は、英語であることができる。使用者は、「Ｉｌｏｖｅｙｏｕ. Ｄｏｙｏｕｌｏｖｅｍｅ？」のように英語の２つの文章を話すことができる。

第１端末１００は、第１端末１００の入力部１０１に含まれたマイクを介して前記第１言語の音声を連続的に受信することができる。第１端末１００は、使用者が話すと同時に前記音声を受信することができる。使用者が話をすると、第１端末１００は、前記音声をリアルタイムで受信することができる。使用者が継続して話をする場合、第１端末１００は、前記音声を継続して受信することができる。

再び図３を参照すると、次に、前記第１端末１００が前記受信された音声を連続的にエンコードする段階Ｓ１１０が行われることができる。第１端末１００の制御部１０２は、入力部１０１によって連続的に受信されている前記音声をエンコードすることができる。前記音声が受信されている途中に、第１端末１００の制御部１０２は、現在までに受信された前記音声のうちの少なくとも一部を連続的にエンコードすることができる。

制御部１０２は、前記音声をエンコードすることによって、アナログ信号である前記音声をデジタル信号であるエンコードされた音声に変換することができる。前記エンコードされた音声は、保存部１０３に保存されることができる。制御部１０２は、アコースティックエコーキャンセレーション（ａｃｏｕｓｔｉｃｅｃｈｏｃａｎｃｅｌｌａｔｉｏｎ）を行うことによって、エコー現象を減らすことができる。

制御部１０２は、前記受信されている音声を連続的にエンコードすることができる。制御部１０２は、前記音声が受信されると同時に前記音声をエンコードすることができる。前記音声が受信されると、制御部１０２は、前記音声をリアルタイムでエンコードすることができる。前記音声が継続して受信されている場合、制御部１０２は、前記音声を継続してエンコードすることができる。

次に、前記第１端末１００が前記エンコードされた音声に対する音声認識結果を連続的に取得する段階Ｓ１２０が行われることができる。第１端末１００の制御部１０２は、前記エンコードされた音声を用いて音声認識を連続的に行うことができる。制御部１０２は、前記音声認識の結果として、前記エンコードされた音声を第１言語のテキストに連続的に変換することができる。

他の実施例によれば、第１端末１００は、前記エンコードされた音声に対する音声認識結果を第３サーバー４００から連続的に取得することができる。第１端末１００は、前記エンコードされた音声を第３サーバー４００に連続的に伝送することができる。第３サーバー４００は、音声認識サービスを提供するサーバーであることができる。前記音声が受信されている途中に、第１端末１００の通信部１０４は、現在までにエンコードされた前記音声のうちの少なくとも一部を前記第３サーバー４００に連続的に伝送することができる。

第１端末１００の通信部１０４は、前記エンコードされた音声を第３サーバー４００に連続的に伝送することができる。通信部１０４は、前記音声がエンコードされると同時に前記エンコードされた音声を第３サーバー４００に伝送することができる。前記音声がエンコードされると、通信部１０４は、前記エンコードされた音声をリアルタイムで伝送することができる。前記音声が継続してエンコードされている場合、通信部１０４は、前記エンコードされた音声を継続して伝送することができる。例えば、通信部１０４は、使用者が英語で話した「Ｉｌｏｖｅｙｏｕ．Ｄｏｙｏｕｌｏｖｅｍｅ？」の２つの文章を順次的にエンコードして順次的に伝送することができる。

前記エンコードされた音声の送信に対する応答として、第１端末１００の通信部１０４は、第３サーバー４００から前記エンコードされた音声に対する音声認識結果を受信することができる。前記音声が受信されている途中に、第１端末１００の通信部１０４は、第３サーバー４００から前記音声認識結果を連続的に受信することができる。

通信部１０４は、前記音声認識結果を第１言語のテキストとして受信することができる。第１言語が英語である場合、通信部１０４は、前記音声認識結果として英語のテキストを受信することができる。

第３サーバー４００は、前記エンコードされた音声が認識されると同時に前記音声認識結果を第１端末１００に伝送することができる。前記エンコードされた音声が認識されると、第３サーバー４００は、前記音声認識結果をリアルタイムで伝送することができる。前記エンコードされた音声が継続して認識されている場合、第３サーバー４００は、前記音声認識結果を継続して伝送することができる。第１端末１００の通信部１０４は、前記音声認識結果を前記第３サーバー４００から連続的に受信することができる。

例えば、第１端末１００は、音声認識結果として「Ｉｌｏｖｅｙｏｕｄｏｙｏｕｌｏｖｅｍｅ」を順次的に受信することができる。第１端末１００は、「I」から「ｍｅ」までの単語を１つずつまたは２つ以上ずつ順次的に受信することができる。

次に、前記第１端末１００が前記音声認識結果に含まれたそれぞれの単語を第２言語の単語に連続的に変換する段階Ｓ１３０が行われることができる。例えば、前記第２言語は、韓国語と仮定することにする。「Ｉｌｏｖｅｙｏｕｄｏｙｏｕｌｏｖｅｍｅ」に含まれた単語のうち、「I」は「私は」に変換されることができる。「ｌｏｖｅ」は「愛情」に変換されることができる。「ｙｏｕ」は「あなた」に変換されることができる。「ｄｏ」は「する」に変換されることができる。「ｍｅ」は「私を」に変換されることができる。すなわち、「Ｉｌｏｖｅｙｏｕｄｏｙｏｕｌｏｖｅｍｅ」に含まれたそれぞれの単語は、順次的に「私は愛情あなたする愛情私を」のように変換されることができる。

第１端末１００は、第１言語の語順及び第２言語の語順の間の類似度に関係なく、前記音声認識結果に含まれたそれぞれの単語を前記第２言語の単語に変換することができる。他の実施例によれば、第１端末１００は、第１言語の語順及び第２言語の語順の間の類似度に応じて、それぞれの単語を前記第２言語の単語に変換することができる。

図５は、前記類似度に応じて、第１端末１００がそれぞれの単語を第２言語の単語に連続的に変換する方法が行われる過程を示すフローチャートである。図５を参照すると、まず、前記第１言語の語順及び前記第２言語の語順の間の類似度を算出する段階Ｓ１３１が行われることができる。第１端末１００の制御部１０２は、前記第１言語の語順及び前記第２言語の語順の間の類似度を算出することができる。

それぞれの言語は、一つの文章内で主語、目的語、及び他動詞が配列される特定の順序を有することができる。例えば、英語または中国語の文章内で主語、目的語、及び他動詞は、主語、他動詞、及び目的語の順に配列されることができる。例として、韓国語または日本語の文章内で主語、目的語、及び他動詞は、主語、目的語、及び他動詞の順に配列されることができる。

第１端末１００の制御部１０２は、第１言語の文章内で主語、目的語、及び他動詞が配列される順序及び第２言語の文章内で主語、目的語、及び他動詞が配列される順序を用いて前記類似度を算出することができる。第１端末１００の保存部１０３は、それぞれの言語の文章内で主語、目的語、及び他動詞が配列される順序に対する情報をあらかじめ保存することができる。制御部１０２は、前記保存された情報を用いて前記類似度を算出することができる。

例えば、第１言語が英語であり、第２言語が中国語である場合に算出された類似度は、第１言語が英語であり、第２言語が韓国語である場合に算出された類似度に比べて高いことがあり得る。

次に、前記算出された類似度が基準値よりも大きければ、前記音声認識結果に含まれたそれぞれの単語を前記単語の意味と互いに同一または類似の意味を有する前記第２言語の単語に連続的に変換する段階Ｓ１３２が行われることができる。逆に、前記算出された類似度が基準値よりも大きくなければ、それぞれの前記単語を前記第２言語の単語に変換する段階Ｓ１３２は、行われないことがある。第１端末１００は、前記算出された類似度に応じて、それぞれの前記単語を前記第２言語の単語に変換するか、変換しないことができる。

前記基準値は、例えば、第１言語が英語であり、第２言語が韓国語である場合に算出された類似度と互いに同一であることができる。したがって、もし第１言語が英語であり、第２言語が中国語であれば、第１端末１００は、前記音声認識結果に含まれたそれぞれの単語を前記単語の意味と互いに同一または類似の意味を有する前記第２言語の単語に連続的に変換することができる。

第１端末１００は、前記音声認識結果に含まれたそれぞれの単語を直接変換することができる。他の実施例によれば、第１端末１００は、外部のサーバーを用いて前記それぞれの単語を変換することができる。図６は、第１端末１００が外部のサーバーを用いて前記それぞれの単語を第２言語の単語に連続的に変換する方法が行われる過程を示すフローチャートである。

図６を参照すると、まず、前記音声認識結果に含まれたそれぞれの前記単語を第２サーバー３００に伝送する段階Ｓ２３１が行われることができる。第１端末１００の通信部１０４は、前記音声認識結果に含まれたそれぞれの単語を第２サーバー３００に伝送することができる。第２サーバー３００は、第１端末１００から前記それぞれの単語を受信することができる。

次に、前記伝送されたそれぞれの単語の意味と互いに同一または類似の意味を有する前記第２言語の単語を前記第２サーバー３００から受信する段階Ｓ２３２が行われることができる。第２サーバー３００は、受信されたそれぞれの単語を前記単語に対応する第２言語の単語に変換することができる。第１端末１００から受信された単語の意味は、前記単語から変換された第２言語の単語の意味と互いに同一または類似することができる。第２サーバー３００は、前記変換された第２言語の単語を第１端末１００に伝送することができる。第１端末１００は、前記変換された第２言語の単語を受信することができる。

図７は、他の実施例に基づいて、第１端末１００が前記音声認識結果に含まれたそれぞれの単語を第２言語の単語に連続的に変換する段階Ｓ１３０が行われる過程を示すフローチャートである。

図７を参照すると、まず、第２データベースにおいて、前記音声認識結果に含まれたそれぞれの前記単語を照会する段階Ｓ３３１が行われることができる。第１端末１００の保存部１０３は、前記第２データベースを含むことができる。他の実施例によれば、前記第２データベースは、第１端末１００の外部に配置されることができる。

前記第２データベースは、辞書データベースであることができる。前記第２データベースは、第１言語の単語及び前記単語に対応する第２言語の単語が保存されたリレーショナルデータベース（ｒｅｌａｔｉｏｎａｌｄａｔａｂａｓｅ）であることができる。前記第１言語の単語の意味及び前記単語に対応する第２言語の単語の意味は、互いに同一または類似することができる。前記第２データベースに含まれたそれぞれのレコードは、第１言語の単語及び前記単語に対応する第２言語の単語を含むことができる。

第１端末１００の制御部１０２は、前記第２データベースにおいて、前記音声認識結果に含まれた第１言語の単語を照会することができる。これにより、制御部１０２は、前記第１言語の単語に対応する第２言語の単語が前記第２データベース内に存在するか否かを判定することができる。

次に、もし前記照会された単語に対応する前記第２言語の単語が前記第２データベース内に存在する場合、前記照会の結果として、前記照会された単語に対応する前記第２言語の単語を前記第２データベースから取得する段階Ｓ３３２が行われることができる。もし前記第１言語の単語に対応するレコードが前記第２データベースに含まれている場合、第１端末１００の制御部１０２は、第２データベースから前記第２言語の単語を取得することができる。

もし前記第２データベースが、前記第１言語の単語に対応するレコードを含んでいない場合、第１端末１００は、第２サーバー３００から前記第１言語の単語に対応する第２言語の単語を受信することができる。図８は、また他の実施例に基づいて、第１端末１００が前記音声認識結果に含まれたそれぞれの単語を第２言語の単語に連続的に変換する段階Ｓ１３０が行われる過程を示すフローチャートである。

図８を参照すると、まず、第２データベースにおいて、前記音声認識結果に含まれたそれぞれの前記単語を照会する段階Ｓ４３１が行われることができる。次に、もし前記照会された単語に対応する前記第２言語の単語が前記第２データベース内に存在しない場合、前記照会された単語を第２サーバー３００に伝送する段階Ｓ４３２が行われることができる。第１端末１００の通信部１０４は、前記第１言語の単語を第２サーバー３００に伝送することができる。

第２サーバー３００は、第１端末１００から前記第１言語の単語を受信することができる。第２サーバー３００は、前記単語を前記単語に対応する第２言語の単語に変換することができる。第２サーバー３００は、前記変換された第２言語の単語を第１端末１００に伝送することができる。

次に、前記伝送された単語の意味と互いに同一または類似の意味を有する前記第２言語の単語を前記第２サーバー３００から受信する段階Ｓ４３３が行われることができる。第１端末１００の通信部１０４は、前記第２サーバー３００から前記第２言語の単語を受信することができる。

次に、前記伝送された単語及び前記受信された第２言語の単語を前記第２データベース内にキャッシュ（ｃａｃｈｅ）する段階Ｓ４３４が行われることができる。第１端末１００は、前記第１言語の単語及び前記受信された第２言語の単語を前記第２データベースに保存することができる。第２データベースは、前記第１言語の単語及び前記受信された第２言語の単語を含むレコードを新たに生成することができる。これにより、次回に第２データベースで前記第１言語の単語が照会されると、第１端末１００が前記照会の結果として前記第２言語の単語を取得することができるように準備することができる。

再び図３を参照すると、次に、前記第１端末１００が前記エンコードされた音声及び前記変換された第２言語の単語を第２端末１５０に連続的に伝送する段階Ｓ１４０が行われることができる。第１端末１００の通信部１０４は、前記エンコードされた音声及び前記変換された第２言語の単語を第２端末１５０に連続的に伝送することができる。前記音声が受信されているか、前記音声がエンコードされている途中に、通信部１０４は、現在までにエンコードされた音声のうちの少なくとも一部を連続的に伝送することができる。また、前記音声が受信されているか、前記音声認識結果に含まれた単語が変換されている途中に、通信部１０４は、現在までに変換された第２言語の単語を連続的に伝送することができる。

例えば、第１端末１００の通信部１０４は、「Ｉｌｏｖｅｙｏｕｄｏｙｏｕｌｏｖｅｍｅ」に含まれたそれぞれの単語に対応する第２言語の単語を順次的に伝送することができる。すなわち、第１端末１００は、前記第２言語の単語として、「私は」、「愛情」、「あなた」、「する」、「あなた」、「愛情」、及び「私を」を順次的に第２端末１５０に伝送することができる。

前記第１端末１００が前記エンコードされた音声及び前記変換された第２言語の単語を第２端末１５０に連続的に伝送する段階Ｓ１４０は、第１言語の語順及び第２言語の語順の間の類似度に関係なく、行われることができる。例えば、第１言語の語順及び第２言語の語順の間の類似度が前記基準値よりも大きくなくても、第１端末１００は、前記エンコードされた音声及び前記変換された第２言語の単語を第２端末１５０に連続的に伝送することができる。

他の実施例によれば、前記エンコードされた音声及び前記変換された第２言語の単語を連続的に伝送する段階Ｓ１４０は、第１言語の語順及び第２言語の語順の間の類似度に基づいて行われることができる。図５を参照すると、前記算出された類似度が前記基準値よりも大きければ、前記エンコードされた音声及び前記変換された第２言語の単語を前記第２端末に連続的に伝送する段階Ｓ１４１が行われることができる。第１端末１００は、前記算出された類似度に応じて前記エンコードされた音声及び前記変換された第２言語の単語を第２端末１５０に連続的に伝送することができる。

再び図３を参照すると、次に、前記第２端末１５０が前記エンコードされた音声の再生と共に前記第２言語の単語を連続的に表示する段階Ｓ１５０が行われることができる。第２端末１５０は、第１端末１００から前記エンコードされた音声及び前記変換された第２言語の単語を連続的に受信することができる。

第２端末１５０は、前記受信されたエンコードされた音声を連続的にデコードすることができる。第２端末１５０の出力部１０５は、前記デコードされた音声を連続的に再生することができる。前記受信されたエンコードされた音声がデコードされる途中に、第２端末１５０の出力部１０５は、現在までにデコードされた音声のうちの少なくとも一部を再生することができる。

また、第２端末１５０は、前記受信された第２言語の単語を連続的に表示することができる。第２端末１５０の出力部１０５は、前記音声の再生と同時に前記第２言語の単語を表示することができる。前記第２言語の単語が受信されると、第２端末１５０の出力部１０５は、前記第２言語の単語をリアルタイムで表示することができる。前記第２言語の単語が継続して受信されている場合、出力部１０５は、前記受信された第２言語の単語を継続して表示することができる。前記第２言語の単語が受信される途中に、第２端末１５０の出力部１０５は、現在までに受信された第２言語の単語のうちの少なくとも一部を連続的に表示することができる。

図９〜図１１は、実施例に係る第２端末１５０が第２言語の単語を連続的に表示する段階Ｓ１５０を説明するための参考図である。第２端末１５０は、第１端末１００から現在まで前記第２言語の単語として、「私は」のみを受信したと仮定することにする。第２端末１５０の出力部１０５は、図９に示すように、「私は」を表示することができる。

第２端末１５０は、以後に追加的に前記第２言語の単語として、「愛情」を受信することができる。第２端末１５０の出力部１０５は、図１０に示すように、「愛情」を追加的に表示することができる。第２端末１５０は、以後に追加的に「あなた」、「する」、及び「あなた」を受信することができる。第２端末１５０の出力部１０５は、図１１に示すように、「あなた」、「する」、及び「あなた」を追加的に表示することができる。

第２端末１５０が第２言語の単語を連続的に表示する段階Ｓ１５０は、第１言語の語順及び第２言語の語順の間の類似度に関係なく、行われることができる。他の実施例によれば、第２端末１５０が第２言語の単語を連続的に表示する段階Ｓ１５０は、第１言語の語順及び第２言語の語順の間の類似度に基づいて行われることができる。例えば、第１言語の語順及び第２言語の語順の間の類似度が前記基準値よりも大きくなければ、第２端末１５０は、前記第２言語の単語を表示しないことができる。

もし第１言語の語順と第２言語の語順が十分に類似していないにもかかわらず、前記音声認識結果に含まれた単語の連続的な変換及び表示が行われたら、第２端末１５０の使用者が経験する可読性が充分ではないことがある。逆に、もし第１言語の語順と第２言語の語順が十分に類似して、前記音声認識結果に含まれた単語の連続的な変換及び表示が行われたら、第２端末１５０の使用者が経験する可読性が十分に確保されることができる。

したがって、実施例によれば、よりスムーズな使用者経験が提供されることができる。また、実施例によれば、反応性が向上した使用者経験が提供されることができる。また、実施例によれば、改善された使用者経験が提供されることができる。

再び図３を参照すると、次に、前記第１端末１００が前記音声認識結果に含まれた終結した文章を検出する段階Ｓ１６０が行われることができる。図１２は、実施例に係る第１端末１００が音声認識結果に含まれた終結した文章を検出する段階Ｓ１６０が行われる過程を示すフローチャートである。

図１２を参照すると、まず、前記受信された音声に含まれた抑揚、前記受信された音声に含まれた空白区間、または前記音声認識結果に含まれた単語の文章成分（ｃｏｎｓｔｉｔｕｅｎｔ）を用いて、終結点を検出する段階Ｓ１６１が行われることができる。例えば、第１端末１００の制御部１０２は、音声認識結果である「Ｉｌｏｖｅｙｏｕｄｏｙｏｕｌｏｖｅｍｅ」で最初の「ｙｏｕ」が終わる地点を前記終結点に定義することができる。

第１端末１００の制御部１０２は、前記受信された音声から文章の終結に対応する抑揚を検出することによって、前記終結点を検出することができる。第１端末１００の制御部１０２は、前記受信された音声の時間の流れに沿った周波数の変化に対する情報を検出することができる。第１端末１００の保存部１０３は、文章の終結に対応する音声周波数の変化情報をあらかじめ保存することができる。第１端末１００の制御部１０２は、前記検出された周波数の変化に対する情報及び前記保存された音声周波数の変化情報を比較することによって、前記受信された音声で文章の終結に対応する抑揚を検出することができる。

他の実施例によれば、制御部１０２は、前記受信された音声から特定の時間を超過する空白区間を検出することによって、前記終結点を検出することができる。例えば、使用者は、一つの文章を話すことを終えて、次の文章を話す前まで０.５秒を超過して休むことができる。第１端末１００の制御部１０２は、前記受信された音声で０.５秒を超過する空白区間を検出することによって、前記終結点を検出することができる。

また他の実施例によれば、制御部１０２は、前記音声認識結果が完全な文章（ｆｕｌｌｓｅｎｔｅｎｃｅ）になるために必要なすべての文章成分に対応する単語を含むか否かを検出することによって、前記終結点を検出することができる。第１端末１００の制御部１０２は、例えば、前記音声認識結果が主語に対応する単語、他動詞に対応する単語、及び目的語に対応する単語を含むか否かを検出することができる。例えば、現在までの音声認識結果は、主語に対応する単語及び他動詞に対応する単語のみを含むと仮定することにする。もし以後に追加された音声認識結果が目的語に対応する単語を含むなら、制御部１０２は、前記音声認識結果で前記目的語に対応する単語が終わる地点を前記終結点に定義することができる。

次に、前記音声認識結果で以前の終結点に対応する部分の次の部分から前記検出された終結点に対応する部分までを、前記終結した文章と定義する段階Ｓ１６２が行われることができる。前記音声認識結果から終結した文章を検出する段階Ｓ１６０が繰り返して行われた場合には、すぐ以前の行いによって検出された以前の終結点が存在することができる。もし前記音声認識結果から終結した文章を検出する段階Ｓ１６０が初めて行われた場合には、前記以前の終結点は、前記音声認識結果の開始点に定義されることができる。

制御部１０２は、前記音声認識結果で以前の終結点に対応する部分の次の部分から前記検出された終結点に対応する部分までを、前記終結した文章に定義することができる。例えば、制御部１０２は、音声認識結果である「Ｉｌｏｖｅｙｏｕｄｏｙｏｕｌｏｖｅｍｅ」で「Ｉｌｏｖｅｙｏｕ」を前記終結した文章に定義することができる。

再び図３を参照すると、次に、前記第１端末１００が前記検出された終結した文章の前記第２言語への翻訳文を取得する段階Ｓ１７０が行われることができる。第１端末１００は、前記終結した文章を前記第２言語の翻訳文に直接変換することができる。他の実施例によれば、第１端末１００は、外部のサーバーを用いて、前記終結した文章を前記第２言語の翻訳文に変換することができる。

図１３は、実施例に係る第１端末１００が外部のサーバーを用いて、前記終結した文章を第２言語の翻訳文に変換する方法が行われる過程を示すフローチャートである。図１３を参照すると、まず、前記検出された終結した文章を第１サーバー２００に伝送する段階Ｓ１７１が行われることができる。第１サーバー２００は、翻訳サービスを提供するサーバーであることができる。第１端末１００の通信部１０４は、前記終結した文章を第１サーバー２００に伝送することができる。例えば、通信部１０４は、英語のテキスト「Ｉｌｏｖｅｙｏｕ」を第１サーバー２００に伝送することができる。

次に、前記終結した文章の前記第２言語への翻訳文を前記第１サーバー２００から受信する段階Ｓ１７２が行われることができる。第１サーバー２００は、第１言語の文章を前記文章の第２言語への翻訳文に変換することができる。第１サーバー２００は、前記変換された翻訳文を第１端末１００に伝送することができる。

前記終結した文章の送信に対する応答として、第１端末１００の通信部１０４は、第１サーバー２００から前記終結した文章の第２言語への翻訳文を受信することができる。通信部１０４は、前記第２言語への翻訳文として第２言語のテキストを受信することができる。例えば、通信部１０４は、「Ｉｌｏｖｅｙｏｕ」の第２言語への翻訳文として、「私はあなたを愛しています。」を受信することができる。

図１４は、他の実施例に係る第１端末１００が終結した文章の第２言語への翻訳文を取得する段階Ｓ１７０が行われる過程を示すフローチャートである。図１４を参照すると、まず、第１データベースにおいて、前記検出された終結した文章を照会する段階Ｓ２７１が行われることができる。第１端末１００の保存部１０３は、前記第１データベースを含むことができる。他の実施例によれば、前記第１データベースは、第１端末１００の外部に配置されることができる。

前記第１データベースは、翻訳文データベースであることができる。前記第１データベースは、第１言語の文章及び前記文章の第２言語への翻訳文が保存されたリレーショナルデータベースであることができる。前記第１データベースに含まれたそれぞれのレコードは、第１言語の文章及び前記文章の第２言語への翻訳文を含むことができる。

第１端末１００の制御部１０２は、前記第１データベースにおいて、第１言語の前記終結した文章を照会することができる。これにより、制御部１０２は、前記終結した文章に対応する翻訳文が前記第１データベース内に存在するか否かを判定することができる。

次に、もし前記終結した文章に対応する前記第２言語への翻訳文が前記第１データベース内に存在する場合、前記照会の結果として、前記翻訳文を前記第１データベースから取得する段階Ｓ２７２が行われることができる。もし前記終結した文章に対応するレコードが前記第１データベースに含まれている場合、第１端末１００の制御部１０２は、第１データベースから前記翻訳文を取得することができる。

もし前記第１データベースが前記終結した文章に対応するレコードを含んでいない場合、第１端末１００は、第１サーバー２００から前記翻訳文を受信することによって、前記翻訳文を取得することができる。図１５は、また他の実施例に係る第１端末１００が終結した文章の第２言語への翻訳文を取得する段階Ｓ１７０が行われる過程を示すフローチャートである。

図１５を参照すると、まず、第１データベースにおいて、前記検出された終結した文章を照会する段階Ｓ３７１が行われることができる。次に、もし前記終結した文章に対応する前記第２言語への翻訳文が前記第１データベース内に存在しない場合、前記終結した文章を第１サーバー２００に伝送する段階Ｓ３７２が行われることができる。

第１端末１００の通信部１０４は、前記終結した文章を第１サーバー２００に伝送することができる。第１サーバー２００は、前記終結した文章を受信することができる。第１サーバー２００は、前記終結した文章を第２言語に翻訳することができる。第１サーバー２００は、前記第２言語への翻訳文を第１端末１００に伝送することができる。

次に、前記終結した文章の前記第２言語への翻訳文を前記第１サーバー２００から受信する段階Ｓ３７３が行われることができる。第１端末１００の通信部１０４は、前記翻訳文を第１サーバー２００から受信することができる。

次に、前記終結した文章及び前記受信された第２言語への翻訳文を前記第１データベース内にキャッシュ（ｃａｃｈｅ）する段階Ｓ３７４が行われることができる。第１端末１００は、前記終結した文章及び前記受信された第２言語への翻訳文を前記第１データベースに保存することができる。第１データベースは、前記終結した文章及び前記受信された翻訳文を含むレコードを新たに生成することができる。これにより、次回に第１データベースにおいて、前記終結した文章が照会されると、第１端末１００が前記照会の結果として、前記翻訳文を取得することができるように準備されることができる。

再び図３を参照すると、次に、前記第１端末１００が前記取得された翻訳文を前記第２端末１５０に伝送する段階Ｓ１８０が行われることができる。第１端末１００の通信部１０４は、前記受信された翻訳文を第２端末１５０に伝送することができる。前記音声が受信されている途中に、第１端末１００の通信部１０４は、前記受信された翻訳文を第２端末１５０に伝送することができる。第２端末１５０は、前記第２言語への翻訳文を受信することができる。例えば、第２端末１５０は、第１端末１００から「私はあなたを愛しています。」を受信することができる。

次に、前記第２端末１５０が前記表示された第２言語の単語のうち、前記翻訳文に対応する単語を前記翻訳文に置換する段階Ｓ１９０が行われることができる。第２端末１５０の出力部１０５は、表示された第２言語の単語のうち、前記翻訳文に対応する単語を前記受信された翻訳文に置換することができる。前記受信されたエンコードされた音声を連続的に再生する途中に、第２端末１５０の出力部１０５は、前記受信された翻訳文を表示することができる。前記受信された第２言語の単語を連続的に表示する途中に、第２端末１５０の出力部１０５は、前記表示された第２言語の単語のうちの少なくとも一部を前記受信された翻訳文に置換することができる。

図１６〜図１８は、実施例に係る第２端末１５０が表示された第２言語の単語を翻訳文に置換する段階Ｓ１９０を説明するための参考図である。例えば、第２端末１５０の出力部１０５は、図１１に示すように第２言語の単語として「私は」、「愛情」、「あなた」、「する」、及び「あなた」を表示することができる。以後に、第２端末１５０の制御部１０２は、第２言語の単語として、第１端末１００から「愛情」を追加的に受信することができる。第２端末１５０の出力部１０５は、「愛情」を追加的に表示することができる。すなわち、出力部１０５は「私は愛情あなたするあなた愛情」を表示することができる。

同時に、第２端末１５０は、第１端末１００から前記翻訳文として「私はあなたを愛しています。」を受信することができる。第２端末１５０の出力部１０５は、前記翻訳文に対応する単語である「私は」、「愛情」、及び「あなた」を前記翻訳文に置換することができる。すなわち、出力部１０５は、図１６に示すように「私はあなたを愛しています。するあなた愛情」を表示することができる。

第２端末１５０の通信部１０４は、その後も継続して第１端末１００から第２言語の単語を受信することができる。第２端末１５０の出力部１０５は、その後も継続して前記受信された第２言語の単語を追加的に表示することができる。例えば、第２端末１５０の通信部１０４は、前記第２言語の単語として「私を」を追加的に受信することができる。第２端末１５０の出力部１０５は、図１７に示すように、「私を」を追加的に表示することができる。すなわち、出力部１０５は、「私はあなたを愛しています。するあなた愛情私を」を表示することができる。

また、第１端末１００の制御部１０２は、その後も継続して前記音声認識結果内から終結した文章を検出することができる。例えば、第１端末１００は、音声認識結果である「Ｉｌｏｖｅｙｏｕｄｏｙｏｕｌｏｖｅｍｅ」で終結した文章である「ｄｏｙｏｕｌｏｖｅｍｅ」を追加的に検出することができる。第１端末１００は、前記終結した文章の翻訳文として「あなたは私を愛していますか？」を取得することができる。

第２端末１５０は、第１端末１００から前記翻訳文を受信することができる。第２端末１５０の出力部１０５は、前記翻訳文に対応する第２言語の単語を前記翻訳文に置換することができる。すなわち、第２端末１５０の出力部１０５は、前記翻訳文に対応する単語である「する」、「あなた」、「愛情」、及び「私を」を前記翻訳文に置換することができる。出力部１０５は、図１８に示すように「私はあなたを愛しています。あなたは私を愛していますか？」を表示することができる。

これにより、第２端末１５０は、前記音声認識結果に含まれたそれぞれの単語に対応する第２言語の単語を最初に表示することができる。以後に翻訳文が受信されると、第２端末１５０は、前記表示された第２言語の単語のうちで前記翻訳文に対応する少なくとも一つ以上の単語を前記翻訳文に置換することができる。すなわち、第２端末１５０が前記音声認識結果に含まれた終結した文章の第２言語への翻訳文を取得する前でも、第２端末１５０の使用者が意味を理解できる単語が最初に表示されることができる。したがって、第１端末１００の使用者が言った言葉の意味を第２端末１５０の使用者が理解することができるまで第２端末１５０の使用者が待たなければならない時間が短縮されることができる。

以上で説明された実施例によれば、映像通話をする使用者が使用する言語が互いに異なっても、各自が相手の話を聞き取ることができる。また、よりスムーズな使用者経験が提供されることができる。また、反応性が向上した使用者経験が提供されることができる。また、改善された使用者経験が提供されることができる。

以上で説明された実施例は、コンピュータによって実行されるプログラムモジュールのようなコンピュータによって実行可能なコマンドを含む記録媒体の形態でも具現されることができる。コンピュータ判読可能な媒体は、コンピュータによってアクセスすることができる任意の使用可能媒体であることができ、揮発性及び非揮発性媒体、分離型及び非分離型媒体をすべて含むことができる。

また、コンピュータ判読可能な媒体は、コンピュータ保存媒体または通信媒体を含むことができる。コンピュータ保存媒体は、コンピュータ判読可能なコマンド、データ構造、プログラムモジュールまたはその他のデータのような情報の保存のための任意の方法または技術で具現された揮発性及び非揮発性、分離型及び非分離型媒体をすべて含むことができる。通信媒体は、典型的にコンピュータ判読可能なコマンド、データ構造、プログラムモジュール、または搬送波のような変調されたデータ信号のその他のデータ、またはその他の送信メカニズムを含み、任意の情報伝達媒体を含むことができる。

以上、添付された図面を参照して、本発明の実施例を説明したが、本発明が属する技術分野における通常の知識を有する者は、本発明がその技術的思想や必須的な特徴を変更せず、他の具体的な形態で実施できることを理解することができるはずである。したがって、以上で記述した実施例は、あらゆる面で例示的なものであり、限定的ではないことを理解しなければならない。

１００：第１通訳装置、第１端末
１０１：入力部
１０２：制御部
１０３：保存部
１０４：通信部
１０５：出力部
１５０：第２通訳装置、第２端末
２００：第１サーバー
３００：第２サーバー
４００：第３サーバー

Claims

第１言語を話す第１使用者の第１端末と、第２言語を話す第２使用者の第２端末との間の映像通話の方法であって、前記方法は、
前記第１端末のディスプレイ画面に、前記第２端末から受信され、第１単語、第２単語及び第３単語を順番に含み、第３単語で終結する文章の前記第２言語での前記第２使用者の言語表現を含む映像ストリームを表示する段階と、
前記第１端末のディスプレイ画面に、前記映像ストリームと共に、前記第１言語での一連の視覚的表現を表示する段階と
を含み、
前記一連の視覚的表現を表示することは、
前記第２使用者の言語表現の前記第１単語に応答して、第１視覚的表現を表示する段階であって、前記第１視覚的表現は、前記ディスプレイ画面上の前記第１言語の前記第１単語の翻訳を含む、段階と、
続いて、前記第２使用者の言語表現の前記第２単語に応答して、前記ディスプレイ画面に第２視覚的表現を表示する段階であって、前記第２視覚的表現は、前記第１言語の前記第１単語の翻訳、及び前記第２単語の翻訳を順番に含む、段階と、
さらに続いて、前記第２使用者の言語表現の前記第３単語に応答して、前記ディスプレイ画面に第３視覚的表現を表示する段階であって、前記第３視覚的表現は、前記第１言語の前記第１単語の翻訳、前記第２単語の翻訳、及び前記第３単語の翻訳を順番に含む、段階と、
さらにその後、前記第２使用者の言語表現の終結点を検出したことに応じて、前記第３視覚的表現が前記ディスプレイ画面から消え、前記第２使用者の言語表現の文章の翻訳が前記ディスプレイ画面に現れるように、前記第３視覚的表現の代わりに、前記第２使用者の言語表現の文章の前記第１言語での翻訳を表示する段階と
を含む、方法。
前記文章は、第１文章と呼ばれ、前記映像ストリームは、前記第１文章に続く第２文章の前記第２言語での前記第２使用者の言語表現をさらに含み、前記第１文章は前記第３単語で終結し、前記第２文章は前記第１文章の前記第３単語に続く第４単語を含み、
前記第１単語の翻訳、前記第２単語の翻訳、前記第３単語の翻訳、及び前記第４単語の翻訳が、前記ディスプレイに順番に表示されるように、前記第１言語での前記第４単語の翻訳は、前記第１文章の翻訳の表現の前に表示される、請求項１に記載の方法。
前記第２使用者の言語表現のイントネーション、及び前記第２使用者の言語表現の空白区間のうちの少なくとも１つに基づいて、前記終結点を検出するために前記第２使用者の言語表現を処理する段階をさらに含む、請求項１に記載の方法。
前記終結点は、前記第２使用者の言葉表現のイントネーション、及び前記第２使用者の言葉表現の空白区間のうちの少なくとも１つに基づいて決定される、請求項３に記載の方法。
前記第１単語の翻訳は、前記文章の前記第２使用者の言語表現が完了する前に表示される、請求項１に記載の方法。
前記第２単語の翻訳は、前記文章の前記第２使用者の言語表現が完了する前に表示される、請求項５に記載の方法。
前記第３単語の翻訳は、前記文章の前記第２使用者の言語表現が完了する前に表示される、請求項６に記載の方法。
請求項１に記載の言語翻訳方法を実行するためのプログラムが記録された非一時的なコンピュータ可読記録媒体。