JP2023022150A - 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム - Google Patents

双方向音声翻訳システム、双方向音声翻訳方法及びプログラム Download PDF

Info

Publication number
JP2023022150A
JP2023022150A JP2022186646A JP2022186646A JP2023022150A JP 2023022150 A JP2023022150 A JP 2023022150A JP 2022186646 A JP2022186646 A JP 2022186646A JP 2022186646 A JP2022186646 A JP 2022186646A JP 2023022150 A JP2023022150 A JP 2023022150A
Authority
JP
Japan
Prior art keywords
speech
translation
engine
speaker
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022186646A
Other languages
English (en)
Inventor
一 川竹
Hajime Kawatake
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pocketalk Corp
Original Assignee
Pocketalk Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pocketalk Corp filed Critical Pocketalk Corp
Priority to JP2022186646A priority Critical patent/JP2023022150A/ja
Publication of JP2023022150A publication Critical patent/JP2023022150A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】受け付ける音声又は当該音声の言語に応じた適切な音声認識エンジン、翻訳エンジン、音声合成エンジンの組合せによる音声翻訳が実行できる双方向音声翻訳システム、双方向音声翻訳方法及びプログラムを提供する。【解決手段】エンジン決定部(46)は、第1の言語、第1の話者により入力される音声、第2の言語、及び、第2の話者により入力される音声、の少なくとも1つに基づいて、第1の音声認識エンジン(22)、第1の翻訳エンジン(28)、及び、第1の音声合成エンジン(34)、の組合せと、第2の音声認識エンジン(22)、第2の翻訳エンジン(28)、及び、第2の音声合成エンジン(34)、の組合せとを決定する。【選択図】図3

Description

特許法第30条第2項適用申請有り 平成29年10月23日、https://www.sourcenext.com/product/pocketalk/、http://sourcenext.co.jp/pressrelease_html/JS/2017/2017102301/ 平成29年10月23日、表参道ヒルズ 本館B3階 スペース オーでの記者会見 平成29年10月23日、日経産業新聞 平成29年10月23日付朝刊第7面
本開示は、双方向音声翻訳システム、双方向音声翻訳方法及びプログラムに関する。
特許文献1には、片手での操作性を高めた翻訳機が記載されている。特許文献1に記載の翻訳機では、ケース本体に設けられている翻訳ユニットに含まれる記憶装置に、翻訳プログラム、及び、入力音響モデル、言語モデル、出力音響モデルを有する翻訳データが記録されている。
そして特許文献1に記載の翻訳機では、翻訳ユニットに含まれる処理部が、マイクを介して受け取った第1言語の音声を、入力音響モデル及び言語モデルを用いて第1言語の文字情報に変換する。そして当該処理部が、この第1言語の文字情報を、翻訳モデル及び言語モデルを用いて、第2言語の文字情報に翻訳・変換する。そして当該処理部が、出力音響モデルを用いて第2言語の文字情報を音声に変換し、スピーカを介して第2言語の音声を出力する。
また特許文献1に記載の翻訳機では、第1言語と第2言語の組合せは、予め翻訳機ごとに決定されている。
特開2017-151619号公報
しかし特許文献1に記載の翻訳機では、第1言語を話す第1の話者と第2言語を話す第2の話者との間の双方向の会話において、第1の話者が話す音声の第2言語への翻訳と第2の話者が話す音声の第1言語への翻訳とを交互にスムーズに行うことができない。
また特許文献1に記載の翻訳機では、どのような音声を受け付けたとしても、記録されている所与の翻訳データによる翻訳が行われる。そのため例えば、翻訳前の言語や翻訳後の言語により適した音声認識エンジンや翻訳エンジンが存在してもそのようなエンジンを活用した音声認識や翻訳が実行できない。また例えば、話者の年齢や性別などといった話者の属性の再現により適した翻訳エンジンや音声合成エンジンが存在してもそのようなエンジンを用いた翻訳や音声合成が実行できない。
上記実情に鑑みて、本開示では、受け付ける音声又は当該音声の言語に応じた適切な音声認識エンジン、翻訳エンジン、音声合成エンジンの組合せによる音声翻訳が実行できる双方向音声翻訳システム、双方向音声翻訳方法及びプログラムを提案する。
上記課題を解決するために、本開示に係る双方向音声翻訳システムは、第1の話者による第1の言語の音声の入力に応じて、当該音声を第2の言語に翻訳した音声を合成する処理と、第2の話者による前記第2の言語の音声の入力に応じて、当該音声を前記第1の言語に翻訳した音声を合成する処理と、を実行する双方向音声翻訳システムであって、前記第1の言語、前記第1の話者により入力される音声、前記第2の言語、及び、前記第2の話者により入力される音声、の少なくとも1つに基づいて、複数の音声認識エンジンのうちのいずれかである第1の音声認識エンジン、複数の翻訳エンジンのうちのいずれかである第1の翻訳エンジン、及び、複数の音声合成エンジンのうちのいずれかである第1の音声合成エンジン、の組合せを決定する第1の決定部と、前記第1の音声認識エンジンが実装する音声認識処理を実行して、前記第1の話者による前記第1の言語の音声の入力に応じて、当該音声の認識結果であるテキストを生成する第1の音声認識部と、前記第1の翻訳エンジンが実装する翻訳処理を実行して、前記第1の音声認識部により生成されたテキストを前記第2の言語に翻訳したテキストを生成する第1の翻訳部と、前記第1の音声合成エンジンが実装する音声合成処理を実行して、前記第1の翻訳部により翻訳されたテキストを表す音声を合成する第1の音声合成部と、前記第1の言語、前記第1の話者により入力される音声、前記第2の言語、及び、前記第2の話者により入力される音声、の少なくとも1つに基づいて、前記複数の音声認識エンジンのうちのいずれかである第2の音声認識エンジン、前記複数の翻訳エンジンのうちのいずれかである第2の翻訳エンジン、及び、前記複数の音声合成エンジンのうちのいずれかである第2の音声合成エンジン、の組合せを決定する第2の決定部と、前記第2の音声認識エンジンが実装する音声認識処理を実行して、前記第2の話者による前記第2の言語の音声の入力に応じて、当該音声の認識結果であるテキストを生成する第2の音声認識部と、前記第2の翻訳エンジンが実装する翻訳処理を実行して、前記第2の音声認識部により生成されたテキストを前記第1の言語に翻訳したテキストを生成する第2の翻訳部と、前記第2の音声合成エンジンが実装する音声合成処理を実行して、前記第2の翻訳部により翻訳されたテキストを表す音声を合成する第2の音声合成部と、を含む。
本開示の一態様では、前記第1の音声合成部は、前記第1の話者により入力された音声の特徴量に基づいて推定される、前記第1の話者の年齢、年代、及び、性別のうちの少なくとも1つに応じた音声を合成する。
また、本開示の一態様では、前記第1の音声合成部は、前記第1の話者により入力された音声の特徴量に基づいて推定される前記第1の話者の感情に応じた音声を合成する。
また、本開示の一態様では、前記第2の音声合成部は、前記第1の話者により入力された音声の特徴量に基づいて推定される、前記第1の話者の年齢、年代、及び、性別のうちの少なくとも1つに応じた音声を合成する。
また、本開示の一態様では、前記第2の翻訳部は、前記第2の音声認識部により生成されたテキストに含まれる翻訳対象語についての複数の翻訳候補を決定し、前記複数の翻訳候補のそれぞれについて、当該翻訳候補が前記第1の翻訳部により生成されたテキストに含まれるか否かを確認し、前記翻訳対象語を、前記第1の翻訳部により生成されたテキストに含まれることが確認された語に翻訳する。
また、本開示の一態様では、前記第1の音声合成部は、前記第1の話者による音声の入力スピードに応じたスピードの音声、又は、前記第1の話者による音声の音量に応じた音量の音声を合成する。
また、本開示の一態様では、前記第2の音声合成部は、前記第1の話者による音声の入力スピードに応じたスピードの音声、又は、前記第1の話者による音声の音量に応じた音量の音声を合成する。
また、本開示の一態様では、前記第1の話者による前記第1の言語の音声の入力を受け付け、当該音声を前記第2の言語に翻訳した音声を出力し、前記第2の話者による前記第2の言語の音声の入力を受け付け、当該音声を前記第1の言語に翻訳した音声を出力する端末を含み、前記第1の決定部は、前記端末の位置に基づいて、前記第1の音声認識エンジン、前記第1の翻訳エンジン、及び、前記第1の音声合成エンジン、の組合せを決定し、前記第2の決定部は、前記端末の位置に基づいて、前記第2の音声認識エンジン、前記第2の翻訳エンジン、及び、前記第2の音声合成エンジン、の組合せを決定する。
また、本開示に係る双方向音声翻訳方法は、第1の話者による第1の言語の音声の入力に応じて、当該音声を第2の言語に翻訳した音声を合成する処理と、第2の話者による前記第2の言語の音声の入力に応じて、当該音声を前記第1の言語に翻訳した音声を合成する処理と、を実行する双方向音声翻訳方法であって、前記第1の言語、前記第1の話者により入力される音声、前記第2の言語、及び、前記第2の話者により入力される音声、の少なくとも1つに基づいて、複数の音声認識エンジンのうちのいずれかである第1の音声認識エンジン、複数の翻訳エンジンのうちのいずれかである第1の翻訳エンジン、及び、複数の音声合成エンジンのうちのいずれかである第1の音声合成エンジン、の組合せを決定する第1の決定ステップと、前記第1の音声認識エンジンが実装する音声認識処理を実行して、前記第1の話者による前記第1の言語の音声の入力に応じて、当該音声の認識結果であるテキストを生成する第1の音声認識ステップと、前記第1の翻訳エンジンが実装する翻訳処理を実行して、前記第1の音声認識ステップで生成されたテキストを前記第2の言語に翻訳したテキストを生成する第1の翻訳ステップと、前記第1の音声合成エンジンが実装する音声合成処理を実行して、前記第1の翻訳ステップで翻訳されたテキストを表す音声を合成する第1の音声合成ステップと、前記第1の言語、前記第1の話者により入力される音声、前記第2の言語、及び、前記第2の話者により入力される音声、の少なくとも1つに基づいて、前記複数の音声認識エンジンのうちのいずれかである第2の音声認識エンジン、前記複数の翻訳エンジンのうちのいずれかである第2の翻訳エンジン、及び、前記複数の音声合成エンジンのうちのいずれかである第2の音声合成エンジン、の組合せを決定する第2の決定ステップと、前記第2の音声認識エンジンが実装する音声認識処理を実行して、前記第2の話者による前記第2の言語の音声の入力に応じて、当該音声の認識結果であるテキストを生成する第2の音声認識ステップと、前記第2の翻訳エンジンが実装する翻訳処理を実行して、前記第2の音声認識ステップで生成されたテキストを前記第1の言語に翻訳したテキストを生成する第2の翻訳ステップと、前記第2の音声合成エンジンが実装する音声合成処理を実行して、前記第2の翻訳ステップで翻訳されたテキストを表す音声を合成する第2の音声合成ステップと、を含む。
また、本開示に係るプログラムは、第1の話者による第1の言語の音声の入力に応じて、当該音声を第2の言語に翻訳した音声を合成する処理と、第2の話者による前記第2の言語の音声の入力に応じて、当該音声を前記第1の言語に翻訳した音声を合成する処理と、を実行するコンピュータに、前記第1の言語、前記第1の話者により入力される音声、前記第2の言語、及び、前記第2の話者により入力される音声、の少なくとも1つに基づいて、複数の音声認識エンジンのうちのいずれかである第1の音声認識エンジン、複数の翻訳エンジンのうちのいずれかである第1の翻訳エンジン、及び、複数の音声合成エンジンのうちのいずれかである第1の音声合成エンジン、の組合せを決定する第1の決定手順、前記第1の音声認識エンジンが実装する音声認識処理を実行して、前記第1の話者による前記第1の言語の音声の入力に応じて、当該音声の認識結果であるテキストを生成する第1の音声認識手順、前記第1の翻訳エンジンが実装する翻訳処理を実行して、前記第1の音声認識手順で生成されたテキストを前記第2の言語に翻訳したテキストを生成する第1の翻訳手順、前記第1の音声合成エンジンが実装する音声合成処理を実行して、前記第1の翻訳手順で翻訳されたテキストを表す音声を合成する第1の音声合成手順、前記第1の言語、前記第1の話者により入力される音声、前記第2の言語、及び、前記第2の話者により入力される音声、の少なくとも1つに基づいて、前記複数の音声認識エンジンのうちのいずれかである第2の音声認識エンジン、前記複数の翻訳エンジンのうちのいずれかである第2の翻訳エンジン、及び、前記複数の音声合成エンジンのうちのいずれかである第2の音声合成エンジン、の組合せを決定する第2の決定手順、前記第2の音声認識エンジンが実装する音声認識処理を実行して、前記第2の話者による前記第2の言語の音声の入力に応じて、当該音声の認識結果であるテキストを生成する第2の音声認識手順、前記第2の翻訳エンジンが実装する翻訳処理を実行して、前記第2の音声認識手順で生成されたテキストを前記第1の言語に翻訳したテキストを生成する第2の翻訳手順、前記第2の音声合成エンジンが実装する音声合成処理を実行して、前記第2の翻訳手順で翻訳されたテキストを表す音声を合成する第2の音声合成手順、をコンピュータに実行させる。
本開示の一実施形態に係る翻訳システムの全体構成の一例を示す図である。 本開示の一実施形態に係る翻訳端末の構成の一例を示す図である。 本開示の一実施形態に係るサーバで実装される機能の一例を示す機能ブロック図である。 解析対象データの一例を示すである。 解析対象データの一例を示すである。 ログデータの一例を示す図である。 ログデータの一例を示す図である。 言語エンジン対応管理データの一例を示す図である。 属性エンジン対応管理データの一例を示す図である。 本開示の一実施形態に係るサーバにおいて行われる処理の流れの一例を示すフロー図である。
以下、本発明の一実施形態について、図面を参照しながら説明する。
図1は、本開示で提案する双方向音声翻訳システムの一例である翻訳システム1の全体構成の一例を示す図である。図1に示すように、本開示で提案する翻訳システム1には、サーバ10、及び、翻訳端末12が含まれている。サーバ10及び翻訳端末12は、インターネット等のコンピュータネットワーク14に接続されている。そのためサーバ10と翻訳端末12との間はインターネット等のコンピュータネットワーク14を介して通信可能となっている。
図1に示すように、本実施形態に係るサーバ10には、例えば、プロセッサ10a、記憶部10b、通信部10c、が含まれる。
プロセッサ10aは、例えばサーバ10にインストールされるプログラムに従って動作するマイクロプロセッサ等のプログラム制御デバイスである。記憶部10bは、例えばROMやRAM等の記憶素子やハードディスクドライブなどである。記憶部10bには、プロセッサ10aによって実行されるプログラムなどが記憶される。通信部10cは、例えばコンピュータネットワーク14を介して翻訳端末12との間でデータを授受するためのネットワークボードなどの通信インタフェースである。サーバ10は、通信部10cを経由して翻訳端末12との間で情報の送受信を行う。
図2は、図1に示す翻訳端末12の構成の一例を示す図である。図2に示すように、本実施形態に係る翻訳端末12には、例えば、プロセッサ12a、記憶部12b、通信部12c、操作部12d、表示部12e、マイク12f、スピーカ12g、が含まれる。
プロセッサ12aは、例えば翻訳端末12にインストールされるプログラムに従って動作するマイクロプロセッサ等のプログラム制御デバイスである。記憶部12bは、例えばROMやRAM等の記憶素子などである。記憶部12bには、プロセッサ12aによって実行されるプログラムなどが記憶される。
通信部12cは、例えばコンピュータネットワーク14を介してサーバ10との間でデータを授受するための通信インタフェースである。ここで通信部12cに、基地局を含む携帯電話回線を経由してインターネット等のコンピュータネットワーク14と通信を行う3Gモジュール等の無線通信モジュールが含まれていてもよい。また通信部12cに、Wi-Fi(登録商標)ルータ等を経由してインターネット等のコンピュータネットワーク14と通信を行う無線LANモジュールが含まれていてもよい。
操作部12dは、例えばユーザが行った操作の内容をプロセッサ12aに出力する操作部材である。図1に示すように、本実施形態に係る翻訳端末12には、その前面下部に5個の操作部12d(12da、12db、12dc、12dd、及び、12de)が設けられている。また操作部12da、操作部12db、操作部12dc、操作部12dd、操作部12deのそれぞれは、翻訳端末12の前面下部において相対的に、左側、右側、上側、下側、中央に配置されている。以下、操作部12dは、タッチセンサであることとするが、操作部12dが例えばボタンなどといったタッチセンサとは異なる操作部材であっても構わない。
表示部12eは、例えば液晶ディスプレイや有機ELディスプレイ等のディスプレイを含んで構成されており、プロセッサ12aが生成する画像などを表示させる。図1に示すように、本実施形態に係る翻訳端末12には、その前面上部に円形の表示部12eが設けられている。
マイク12fは、例えば受け付ける音声を電気信号に変換する音声入力デバイスである。ここでマイク12fが、翻訳端末12に内蔵されている、人混みでも人の声が認識しやすいノイズキャンセリング機能を備えたデュアルマイクであってもよい。
スピーカ12gは、例えば音声を出力する音声出力デバイスである。ここでスピーカ12gが、翻訳端末12に内蔵されている、騒がしい場所でも使えるダイナミックスピーカーであってもよい。
本実施形態に係る翻訳システム1では、第1の話者と第2の話者との間の双方向の会話において、第1の話者が話す音声の翻訳と第2の話者が話す音声の翻訳とを交互に行うことができる。
また本実施形態に係る翻訳端末12では、操作部12dに対して所定の言語設定操作を行うことで、例えば所与の50の言語などといった複数の言語のうちから、第1の話者が話す音声の言語と第2の話者が話す音声の言語とが設定される。以下、第1の話者が話す音声を第1の言語と呼び、第2の話者が話す音声を第2の言語と呼ぶこととする。そして本実施形態では、表示部12eの左上に設けられている第1言語表示領域16aに、例えば第1の言語が用いられる国の国旗の画像などといった、第1の言語を表す画像が配置される。また本実施形態では、表示部12eの右上に設けられている第2言語表示領域16bに、例えば第2の言語が用いられる国の国旗の画像などといった、第2の言語を表す画像が配置される。
そして例えば、第1の話者による第1の言語の音声の入力である、第1の話者による音声入力操作が翻訳端末12に対して行われたとする。ここで第1の話者による音声入力操作は、例えば第1の話者による操作部12daに対するタップ操作、操作部12daがタップされている状態での第1の言語の音声の入力、及び、操作部12daのタップの解除、を含む一連の操作であってもよい。
すると、表示部12eの下に設けられているテキスト表示領域18に、第1の話者が入力した音声の音声認識の結果であるテキストが表示される。なお本実施形態に係るテキストとは、1又は複数の節、1又は複数の句、1又は複数の語、1又は複数の文(文章)などを表す文字列を指すこととする。その後、当該テキストを第2の言語に翻訳したテキストがテキスト表示領域18に表示されるとともに、翻訳したテキストを表す音声、すなわち、第1の話者が入力した第1の言語の音声が表す内容を第2の言語に翻訳した音声がスピーカ12gから出力される。
その後例えば、第2の話者による第2の言語の音声の入力である、第2の話者による音声入力操作が翻訳端末12に対して行われたとする。ここで第2の話者による音声入力操作は、例えば第2の話者による操作部12dbに対するタップ操作、操作部12dbがタップされている状態での第2の言語の音声の入力、及び、操作部12dbのタップの解除、を含む一連の操作であってもよい。
すると、表示部12eの下に設けられているテキスト表示領域18に、第2の話者が入力した音声の音声認識の結果であるテキストが表示される。その後、当該テキストを第1の言語に翻訳したテキストがテキスト表示領域18に表示されるとともに、翻訳したテキストを表す音声、すなわち、第2の話者が入力した第2の言語の音声が表す内容を第1の言語に翻訳した音声がスピーカ12gから出力される。
本実施形態に係る翻訳システム1では、以後、第1の話者による音声入力操作と第2の話者による音声入力操作とが交互に行われる度に、入力された音声の内容を他の言語に翻訳した音声が出力されることとなる。
以下、本実施形態に係るサーバ10の機能及びサーバ10で実行される処理についてさらに説明する。
本実施形態に係るサーバ10では、第1の話者による第1の言語の音声の入力に応じて当該音声を第2の言語に翻訳した音声を合成する処理と第2の話者による第2の言語の音声の入力に応じて当該音声を前記第1の言語に翻訳した音声を合成する処理とが実行される。
図3は、本実施形態に係るサーバ10で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係るサーバ10で、図3に示す機能のすべてが実装される必要はなく、また、図3に示す機能以外の機能が実装されていても構わない。
図3に示すように、本実施形態に係るサーバ10は、機能的には例えば、音声データ受付部20、複数の音声認識エンジン22、音声認識部24、翻訳前テキストデータ送信部26、複数の翻訳エンジン28、翻訳部30、翻訳後テキストデータ送信部32、複数の音声合成エンジン34、音声合成部36、音声データ送信部38、ログデータ生成部40、ログデータ記憶部42、解析部44、エンジン決定部46、対応管理データ記憶部48、を含んでいる。
音声認識エンジン22、翻訳エンジン28、音声合成エンジン34は、プロセッサ10a及び記憶部10bを主として実装される。音声データ受付部20、翻訳前テキストデータ送信部26、翻訳後テキストデータ送信部32、音声データ送信部38は、通信部10cを主として実装される。音声認識部24、翻訳部30、音声合成部36、ログデータ生成部40、解析部44、エンジン決定部46は、プロセッサ10aを主として実装される。ログデータ記憶部42、対応管理データ記憶部48は、記憶部10bを主として実装される。
以上の機能は、コンピュータであるサーバ10にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ10aで実行することにより実装される。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介してサーバ10に供給される。
本実施形態に係る翻訳システム1では、話者による音声入力操作が行われると、翻訳端末12が、図4A及び図4Bに例示する解析対象データを生成する。そして翻訳端末12は、生成された解析対象データをサーバ10に送信する。図4Aには、第1の話者による音声入力操作が行われた際に生成される解析対象データの一例が示されている。図4Bには、第2の話者による音声入力操作が行われた際に生成される解析対象データの一例が示されている。なお図4A及び図4Bには、第1の言語が日本語であり第2の言語が英語である場合の解析対象データの一例が示されている。
図4A及び図4Bに示すように、解析対象データには、翻訳前音声データとメタデータとが含まれている。
翻訳前音声データは、例えばマイク12fを介して入力された話者の音声を表す音声データである。ここで当該翻訳前音声データが、例えばマイク12fを介して入力される音声に対して符号化及び量子化を行うことで生成される音声データであっても構わない。
そしてメタデータには、端末ID、入力ID、話者ID、時刻データ、翻訳前言語データ、翻訳後言語データ、などが含まれる。
端末IDは、例えば翻訳端末12の識別情報である。本実施形態では例えば、ユーザに供給されるそれぞれの翻訳端末12には固有の端末IDの値が割り振られていることとする。
入力IDは、例えば1回の音声入力操作により入力された音声の識別情報であり、本実施形態では例えば、解析対象データの識別情報でもある。本実施形態では翻訳端末12に対して行われた音声入力操作の順序に従って入力IDの値が割り振られることとする。
話者IDは、例えば話者の識別情報である。本実施形態では例えば、第1の話者による音声入力操作が行われた際には、話者IDの値として1が設定され、第2の話者による音声入力操作が行われた際には、話者IDの値として2が設定されることとする。
時刻データは、例えば、音声入力操作がされた時刻を示すデータである。
翻訳前言語データは、例えば、話者が入力した音声の言語を示すデータである。以下、話者が入力した音声の言語を翻訳前言語と呼ぶこととする。例えば第1の話者による音声入力操作が行われた際には、第1の言語として設定されている言語を示す値が翻訳前言語データの値として設定される。また例えば第2の話者による音声入力操作が行われた際には、第2の言語として設定されている言語を示す値が翻訳前言語データの値として設定される。
翻訳後言語データは、例えば、音声入力操作を行った話者の会話の相手、すなわち、聞き手が聞き取る音声の言語として設定されている言語を示すデータである。以下、聞き手が聞き取る音声の言語を翻訳後言語と呼ぶこととする。例えば第1の話者による音声入力操作が行われた際には、第2の言語として設定されている言語を示す値が翻訳後言語データの値として設定される。また例えば第2の話者による音声入力操作が行われた際には、第1の言語として設定されている言語を示す値が翻訳後言語データの値として設定される。
音声データ受付部20は、本実施形態では例えば、翻訳端末12に入力された音声を表す音声データを受け付ける。ここで音声データ受付部20が、上述のように翻訳端末12に入力された音声を表す音声データを翻訳前音声データとして含む解析対象データを受け付けてもよい。
複数の音声認識エンジン22のそれぞれは、本実施形態では例えば、音声の認識結果であるテキストを生成する音声認識処理が実装されたプログラムである。複数の音声認識エンジン22のそれぞれは、例えば認識可能な言語などといった仕様が異なっている。本実施形態では例えば、音声認識エンジン22のそれぞれには、当該音声認識エンジン22の識別情報である音声認識エンジンIDが予め割り当てられていることとする。
音声認識部24は、本実施形態では例えば、話者による音声の入力に応じて、当該音声の認識結果であるテキストを生成する。ここで音声認識部24が、音声データ受付部20が受け付ける音声データが表す音声の認識結果であるテキストを生成してもよい。
また音声認識部24が、後述するようにしてエンジン決定部46が決定する音声認識エンジン22が実装する音声認識処理を実行して、音声の認識結果であるテキストを生成してもよい。例えば音声認識部24が、エンジン決定部46が決定する音声認識エンジン22を呼び出して、当該音声認識エンジン22に音声認識処理を実行させて、当該音声認識処理の結果であるテキストを当該音声認識エンジン22から受け付けてもよい。
以下、第1の話者による音声入力操作に応じてエンジン決定部46が決定する音声認識エンジン22を第1の音声認識エンジン22と呼ぶこととする。また、第2の話者による音声入力操作に応じてエンジン決定部46が決定する音声認識エンジン22を第2の音声認識エンジン22と呼ぶこととする。
翻訳前テキストデータ送信部26は、本実施形態では例えば、音声認識部24が生成するテキストを示す翻訳前テキストデータを翻訳端末12に送信する。翻訳端末12は、翻訳前テキストデータ送信部26が送信する翻訳前テキストデータが示すテキストを受信すると、例えば上述のように当該テキストをテキスト表示領域18に表示させる。
複数の翻訳エンジン28のそれぞれは、本実施形態では例えば、テキストを翻訳する翻訳処理が実装されたプログラムである。複数の翻訳エンジン28のそれぞれは、例えば翻訳可能な言語や翻訳に用いられる辞書などといった仕様が異なっている。本実施形態では例えば、翻訳エンジン28のそれぞれには、当該翻訳エンジン28の識別情報である翻訳エンジンIDが予め割り当てられていることとする。
翻訳部30は、本実施形態では例えば、音声認識部24により生成されたテキストを翻訳したテキストを生成する。ここで翻訳部30が、後述するようにしてエンジン決定部46が決定する翻訳エンジン28が実装する翻訳処理を実行して、音声認識部24により生成されたテキストを翻訳したテキストを生成してもよい。例えば翻訳部30が、エンジン決定部46が決定する翻訳エンジン28を呼び出して、当該翻訳エンジン28に翻訳処理を実行させて、当該翻訳処理の結果であるテキストを当該翻訳エンジン28から受け付けてもよい。
以下、第1の話者による音声入力操作に応じてエンジン決定部46が決定する翻訳エンジン28を第1の翻訳エンジン28と呼ぶこととする。また、第2の話者による音声入力操作に応じてエンジン決定部46が決定する翻訳エンジン28を第2の翻訳エンジン28と呼ぶこととする。
翻訳後テキストデータ送信部32は、本実施形態では例えば、翻訳部30により翻訳されたテキストを示す翻訳後テキストデータを翻訳端末12に送信する。翻訳端末12は、翻訳後テキストデータ送信部32が送信する翻訳後テキストデータが示すテキストを受信すると、例えば上述のように当該テキストをテキスト表示領域18に表示させる。
複数の音声合成エンジン34のそれぞれは、本実施形態では例えば、テキストを表す音声を合成する音声合成処理が実装されたプログラムである。複数の音声合成エンジン34のそれぞれは、例えば合成される音声の声質や声色などといった仕様が異なっている。本実施形態では例えば、音声合成エンジン34のそれぞれには、当該音声合成エンジン34の識別情報である音声合成エンジンIDが予め割り当てられていることとする。
音声合成部36は、本実施形態では例えば、翻訳部30により翻訳されたテキストを表す音声を合成する。ここで音声合成部36が、翻訳部30により翻訳されたテキストを表す音声を合成した音声データである翻訳後音声データを生成してもよい。ここで音声合成部36が、後述するようにしてエンジン決定部46が決定する音声合成エンジン34が実装する音声合成処理を実行して、翻訳部30により翻訳されたテキストを表す音声を合成してもよい。例えば音声合成部36が、エンジン決定部46が決定する音声合成エンジン34を呼び出して、当該音声合成エンジン34に音声合成処理を実行させて、当該音声合成処理の結果である音声データを当該音声合成エンジン34から受け付けてもよい。
以下、第1の話者による音声入力操作に応じてエンジン決定部46が決定する音声合成エンジン34を第1の音声合成エンジン34と呼ぶこととする。また、第2の話者による音声入力操作に応じてエンジン決定部46が決定する音声合成エンジン34を第2の音声合成エンジン34と呼ぶこととする。
音声データ送信部38は、本実施形態では例えば、音声合成部36により合成された音声を表す音声データを翻訳端末12に送信する。翻訳端末12は、音声データ送信部38が送信する翻訳後音声データを受信すると、例えば上述のように当該翻訳後音声データが表す音声をスピーカ12gから音声出力させる。
ログデータ生成部40は、本実施形態では例えば、図5Aや図5Bに例示する、話者が話す音声の翻訳に関するログを示すログデータを生成してログデータ記憶部42に記憶させる。
図5Aには、第1の話者による音声入力操作に応じて生成されるログデータの一例が示されている。図5Bには、第2の話者による音声入力操作に応じて生成されるログデータの一例が示されている。
ログデータには例えば、端末ID、入力ID、話者ID、時刻データ、翻訳前テキストデータ、翻訳後テキストデータ、翻訳前言語データ、翻訳後言語データ、年齢データ、性別データ、感情データ、トピックデータ、シーンデータなどが含まれている。
ここで例えば、音声データ受付部20が受け付ける解析対象データに含まれるメタデータの端末IDの値、入力IDの値、話者IDの値が、それぞれ、生成されるログデータに含まれる端末IDの値、入力IDの値、話者IDの値として設定されてもよい。また例えば、音声データ受付部20が受け付ける解析対象データに含まれるメタデータの時刻データの値が、生成されるログデータに含まれる時刻データの値として設定されてもよい。また例えば、音声データ受付部20が受け付ける解析対象データに含まれるメタデータの翻訳前言語データの値、翻訳後言語データの値が、それぞれ、生成されるログデータに含まれる翻訳前言語データの値、翻訳後言語データの値として設定されてもよい。
また例えば、音声入力操作を行った話者の年齢又は年代を示す値が、生成されるログデータに含まれる年齢データの値として設定されてもよい。また例えば、音声入力操作を行った話者の性別を示す値が、生成されるログデータに含まれる性別データの値として設定されてもよい。また例えば、音声入力操作を行った話者の感情を示す値が、生成されるログデータに含まれる感情データの値として設定されてもよい。また例えば、医療、軍事、IT、旅行などといった、音声入力操作を行った際の会話の内容のトピック(ジャンル)を示す値が生成されるログデータに含まれるトピックデータの値として設定されてもよい。また例えば、会議、商談、雑談、スピーチなどといった、音声入力操作を行った際の会話のシーンを示す値が生成されるログデータに含まれるシーンデータの値として設定されてもよい。
なお後述するように、音声データ受付部20が受け付ける音声データに対して解析部44による解析処理が実行されてもよい。そして当該解析処理の実行結果に応じた値が、生成されるログデータに含まれる年齢データの値、性別データの値、感情データの値、トピックデータの値、及び、シーンデータの値として設定されてもよい。
また例えば、音声データ受付部20が受け付ける音声データに対する音声認識部24による音声認識結果を示すテキストが、生成されるログデータに含まれる翻訳前テキストデータの値として設定されてもよい。また例えば、当該テキストの翻訳部30による翻訳結果を示すテキストが、生成されるログデータに含まれる翻訳後テキストデータの値として設定されてもよい。
なお図5A及び図6Bには図示されていないが、ログデータに、音声入力操作を行った話者による音声の入力スピードを示す入力スピードデータ、当該音声の音量を示す音量データ、当該音声の声質や声色を示す声質データなどがさらに含まれていてもよい。
ログデータ記憶部42は、本実施形態では例えば、ログデータ生成部40が生成するログデータを記憶する。以下、ログデータ記憶部42に記憶されているログデータのうち、音声データ受付部20が受け付ける解析対象データに含まれるメタデータの端末IDの値と同じ値の端末IDを含むログデータを、端末対応ログデータと呼ぶこととする。
ここで、ログデータ記憶部42に記憶される端末対応ログデータの最大数が予め定められていてもよい。例えば、ある端末IDについての端末対応ログデータについては20個までログデータ記憶部42に記憶されるようにしてもよい。ここでログデータ記憶部42に上述の最大数の端末対応ログデータが記憶されている場合、ログデータ生成部40は、新たな端末対応ログデータをログデータ記憶部42に記憶する際に最も古い時刻を示す時刻データを含む端末対応ログデータを削除してもよい。
解析部44は、本実施形態では例えば、音声データ受付部20が受け付ける音声データや、翻訳部30による翻訳結果であるテキストに対する解析処理を実行する。
解析部44は、例えば音声データ受付部20が受け付ける音声データが表す音声の特徴量のデータを生成してもよい。ここで特徴量のデータには、例えば、スペクトル包絡に基づくデータ、線形予測分析に基づくデータ、ケプストラム等の声道に関するデータや、基本周波数や有声無声判定情報等の音源に関するデータや、スペクトログラムなどが含まれていてもよい。
また解析部44は、本実施形態では例えば、公知の声紋解析処理等の解析処理を実行することで、例えば、音声入力操作を行った話者の年齢、年代、性別、などといった話者の属性を推定してもよい。例えば音声データ受付部20が受け付ける音声データが表す音声の特徴量のデータなどに基づいて、音声入力操作を行った話者の属性が推定されてもよい。
なお解析部44が、例えば翻訳部30による翻訳結果であるテキストに基づいて、音声入力操作を行った話者の年齢、年代、性別、などといった話者の属性を推定してもよい。例えば公知のテキスト解析処理により、翻訳結果であるテキストに含まれる語に基づいて、音声入力操作を行った話者の属性が推定されてもよい。ここで上述のように、ログデータ生成部40が、推定される話者の年齢又は年代を示す値を、生成されるログデータに含まれる年齢データの値として設定してもよい。また上述のように、ログデータ生成部40が、推定される話者の性別を示す値を生成されるログデータに含まれる性別データの値として設定してもよい。
また解析部44は、本実施形態では例えば、公知の音声感情解析処理等の解析処理を実行することで、例えば、怒り、喜び、平静などといった、音声入力操作を行った話者の感情を推定してもよい。例えば音声データ受付部20が受け付ける音声データが表す音声の特徴量のデータなどに基づいて、当該音声を入力した話者の感情が推定されてもよい。ここで上述のように、ログデータ生成部40が、推定される話者の感情を示す値を、生成されるログデータに含まれる感情データの値として設定してもよい。
また解析部44は例えば、音声データ受付部20が受け付ける音声データが表す音声の入力スピードや音量を特定してもよい。また解析部44は例えば、音声データ受付部20が受け付ける音声データが表す音声の声質や声色を特定してもよい。ここでログデータ生成部40が、推定される音声入力スピードを示す値、音量を示す値、及び、声質や声色を示す値を、それぞれ、生成されるログデータに含まれる入力スピードデータの値、音量データの値、及び、声質データの値として設定してもよい。
また解析部44は例えば、音声入力操作を行った際の会話の内容のトピックや、音声入力操作を行った際の会話のシーンなどを推定してもよい。ここで解析部44は、例えば音声認識部24が生成するテキスト又は当該テキストに含まれる語に基づいて、トピックやシーンを推定してもよい。
ここで解析部44は、上述のトピックやシーンを推定する際に、端末対応ログデータに基づいて、トピックやシーンを推定してもよい。例えば端末対応ログデータに含まれる翻訳前テキストデータが示すテキスト若しくは当該テキストに含まれる語、又は、翻訳後テキストデータが示すテキスト若しくは当該テキストに含まれる語に基づいて、トピックやシーンが推定されてもよい。また音声認識部24が生成するテキスト及び端末対応ログデータに基づいて、トピックやシーンが推定されてもよい。ここでログデータ生成部40が、推定されるトピックを示す値、及び、シーンを示す値を、それぞれ、生成されるログデータに含まれるトピックデータの値、及び、シーンデータの値として設定してもよい。
エンジン決定部46は、本実施形態では例えば、音声認識処理を実行する音声認識エンジン22、翻訳処理を実行する翻訳エンジン28、及び、音声合成処理を実行する音声合成エンジン34の組合せを決定する。上述のようにエンジン決定部46は、第1の話者による音声入力操作に応じて、第1の音声認識エンジン22、第1の翻訳エンジン28、第1の音声合成エンジン34の組合せを決定してもよい。またエンジン決定部46は、第2の話者による音声入力操作に応じて、第2の音声認識エンジン22、第2の翻訳エンジン28、第2の音声合成エンジン34の組合せを決定してもよい。ここで例えば、当該組合せが、第1の言語、第1の話者により入力される音声、第2の言語、及び、第2の話者により入力される音声、の少なくとも1つに基づいて決定されてもよい。
上述のように音声認識部24は、第1の音声認識エンジン22が実装する音声認識処理を実行して、第1の話者による第1の言語の音声の入力に応じて、当該音声の認識結果である第1の言語のテキストを生成してもよい。また翻訳部30は、第1の翻訳エンジン28が実装する翻訳処理を実行して、音声認識部24により生成された第1の言語のテキストを第2の言語に翻訳したテキストを生成してもよい。また音声合成部36は、第1の音声合成エンジン34が実装する音声合成処理を実行して、翻訳部30により第2の言語に翻訳されたテキストを表す音声を合成してもよい。
また音声認識部24は、第2の音声認識エンジン22が実装する音声認識処理を実行して、第2の話者による第2の言語の音声の入力に応じて、当該第2の言語の音声の認識結果であるテキストを生成してもよい。また翻訳部30は、第2の翻訳エンジン28が実装する翻訳処理を実行して、音声認識部24により生成された第2の言語のテキストを第1の言語に翻訳したテキストを生成してもよい。また音声合成部36は、第1の音声合成エンジン34が実装する音声合成処理を実行して、翻訳部30により第1の言語に翻訳されたテキストを表す音声を合成してもよい。
例えばエンジン決定部46は、第1の話者の音声入力操作の際に、翻訳前言語と翻訳後言語との組合せに基づいて、第1の音声認識エンジン22、第1の翻訳エンジン28、及び、第1の音声合成エンジン34、の組合せを決定してもよい。
ここで例えばエンジン決定部46が、第1の話者の音声入力操作の際に、図6に例示する言語エンジン対応管理データに基づいて、第1の音声認識エンジン22、第1の翻訳エンジン28、及び、第1の音声合成エンジン34、の組合せを決定してもよい。
図6に示すように、言語エンジン対応管理データには、翻訳前言語データ、翻訳後言語データ、音声認識エンジンID、翻訳エンジンID、及び、音声合成エンジンIDが含まれている。図6には、複数の言語エンジン対応管理データが示されている。言語エンジン対応管理データは、例えば翻訳前言語と翻訳後言語との組合せに適した音声認識エンジン22、翻訳エンジン28、音声合成エンジン34の組合せが予め設定されたデータであってもよい。言語エンジン対応管理データは予め対応管理データ記憶部48に記憶されていてもよい。
ここで例えば、予め、翻訳前言語データの値が示す言語の音声に対する音声認識処理が可能な音声認識エンジン22、あるいは、当該音声の認識精度が最も高い音声認識エンジン22の音声認識エンジンIDが特定されていてもよい。そして特定された音声認識エンジンIDが、言語エンジン対応管理データにおいて当該翻訳前言語データに関連付けられている音声認識エンジンIDとして設定されてもよい。
そして例えばエンジン決定部46が、第1の話者の音声入力操作の際に音声データ受付部20が受け付ける解析対象データに含まれるメタデータの翻訳前言語データの値と翻訳後言語データの値との組合せを特定してもよい。そしてエンジン決定部46が、含まれる翻訳前言語データの値及び翻訳後言語データの値の組合せが、特定される組合せと同じである言語エンジン対応管理データを特定してもよい。そしてエンジン決定部46が、特定される言語エンジン対応管理データに含まれる音声認識エンジンID、翻訳エンジンID、及び、音声合成エンジンIDの組合せを特定してもよい。
なおエンジン決定部46が、含まれる翻訳前言語データの値及び翻訳後言語データの値の組合せが、特定される組合せと同じである複数の言語エンジン対応管理データを特定してもよい。この場合、エンジン決定部46は、例えば所与の基準に基づいて、複数の言語エンジン対応管理データのうちのいずれかに含まれる音声認識エンジンID、翻訳エンジンID、音声合成エンジンIDの組合せを特定してもよい。
そしてエンジン決定部46が、特定された組合せに含まれる音声認識エンジンIDにより識別される音声認識エンジン22を、第1の音声認識エンジン22として決定してもよい。またエンジン決定部46が、決定された組合せに含まれる翻訳エンジンIDにより識別される翻訳エンジン28を、第1の翻訳エンジン28として決定してもよい。またエンジン決定部46が、決定された組合せに含まれる音声合成エンジンIDにより識別される音声合成エンジン34を、第1の音声合成エンジン34として決定してもよい。
同様にしてエンジン決定部46が、第2の話者の音声入力操作の際に、翻訳前言語と翻訳後言語との組合せに基づいて、第2の音声認識エンジン22、第2の翻訳エンジン28、及び、第2の音声合成エンジン34、の組合せを決定してもよい。
以上のようにすれば、翻訳前言語と翻訳後言語の組合せに応じた適切な音声認識エンジン22、翻訳エンジン28、音声合成エンジン34の組合せによる音声翻訳が実行できることとなる。
なおエンジン決定部46が、翻訳前言語のみに基づいて、第1の音声認識エンジン22又は第2の音声認識エンジン22を決定してもよい。
ここで解析部44が、音声データ受付部20が受け付ける解析対象データに含まれる翻訳前音声データを解析して、当該翻訳前音声データが表す音声の言語を特定してもよい。そしてエンジン決定部46が解析部44により特定される言語に基づいて音声認識エンジン22、及び、翻訳エンジン28の少なくとも一方を決定してもよい。
またエンジン決定部46が、例えば音声入力操作が行われた際の翻訳端末12の位置に基づいて、音声認識エンジン22、翻訳エンジン28、及び、音声合成エンジン34のうちの少なくとも1つを決定してもよい。ここで例えば、翻訳端末12の位置が属する国に基づいて、音声認識エンジン22、翻訳エンジン28、及び、音声合成エンジン34のうちの少なくとも1つが決定されてもよい。また例えば、エンジン決定部46により決定された翻訳エンジン28が翻訳端末12の位置が属する国において使用不可能なものである場合に、残りの翻訳エンジン28のうちから翻訳処理を実行する翻訳エンジン28が決定されてもよい。なおこの場合に例えば国を示す国データを含む言語エンジン対応管理データに基づいて、音声認識エンジン22、翻訳エンジン28、及び、音声合成エンジン34のうちの少なくとも1つが決定されてもよい。
なお翻訳端末12の位置は、当該翻訳端末12が送信する解析対象データのヘッダのIPアドレスに基づいて特定されてもよい。また例えば、翻訳端末12がGPSモジュールを備えている場合は、翻訳端末12がGPSモジュールにより計測される緯度及び経度などといった翻訳端末12の位置を示すデータをメタデータとして含む解析対象データをサーバ10に送信してもよい。そして当該メタデータに含まれる位置を示すデータに基づいて、翻訳端末12の位置が特定されてもよい。
またエンジン決定部46は、例えば解析部44により推定されるトピック又はシーンに基づいて、翻訳処理を実行する翻訳エンジン28を決定してもよい。ここでエンジン決定部46は、例えば端末対応ログデータに含まれるトピックデータの値やシーンデータの値に基づいて、翻訳処理を実行する翻訳エンジン28を決定してもよい。なおこの場合に例えばトピックを示すトピックデータやシーンを示すシーンデータを含む属性エンジン対応管理データに基づいて、翻訳処理を実行する翻訳エンジン28が決定されてもよい。
また例えばエンジン決定部46が、第1の話者の音声入力操作の際に、第1の話者の属性に基づいて、第1の翻訳エンジン28、及び、第1の音声合成エンジン34、の組合せを決定してもよい。
ここで例えばエンジン決定部46が、図7に例示する属性エンジン対応管理データに基づいて、第1の翻訳エンジン28、及び、第1の音声合成エンジン34、の組合せを決定してもよい。
図7には翻訳前言語として日本語が、翻訳後言語として英語が関連付けられた属性エンジン対応管理データの例が複数示されている。図7に示すように、属性エンジン対応管理データには、年齢データ、性別データ、翻訳エンジンID、及び、音声合成エンジンIDが含まれている。属性エンジン対応管理データは、例えば話者の年齢又は年代、及び、話者の性別などといった話者の再現に適した翻訳エンジン28と音声合成エンジン34との組合せが予め設定されたデータであってもよい。ここで属性エンジン対応管理データは予め対応管理データ記憶部48に記憶されていてもよい。
ここで例えば、予め、年齢データが示す年齢又は年代、及び、性別データが示す性別等の話者の属性の再現が可能な翻訳エンジン28、あるいは、当該話者の再現精度が最も高い翻訳エンジン28の翻訳エンジンIDが特定されていてもよい。そして特定された翻訳エンジンIDが、属性エンジン対応管理データにおいて当該年齢データ及び当該性別データに関連付けられている翻訳エンジンIDとして設定されてもよい。
また例えば、予め、年齢データが示す年齢又は年代、及び、性別データが示す性別等の話者の属性の再現が可能な音声合成エンジン34、あるいは、当該話者の再現精度が最も高い音声合成エンジン34の音声合成エンジンIDが特定されていてもよい。そして特定された音声合成エンジンIDが、属性エンジン対応管理データにおいて当該年齢データ及び当該性別データに関連付けられている音声合成エンジンIDとして設定されてもよい。
ここで例えばエンジン決定部46が、第1の話者による音声入力操作の際に、翻訳前言語として日本語を、翻訳後言語として英語を特定したとする。またエンジン決定部46が、さらに解析部44による解析結果に基づいて、話者の年齢又は年代を示す値と、話者の性別を示す値との組合せを特定したとする。この場合、エンジン決定部46は、図7に示す属性エンジン対応管理データのうちから、含まれる年齢データの値と性別データの値との組合せが、特定された組合せと同じであるものを特定してもよい。そしてエンジン決定部46が、特定される属性エンジン対応管理データに含まれる翻訳エンジンID、及び、音声合成エンジンIDの組合せを特定してもよい。
なおエンジン決定部46が、図7に示す属性エンジン対応管理データのうちから、含まれる年齢データの値と性別データの値との組合せが、特定された組合せと同じである複数の属性エンジン対応管理データを特定してもよい。この場合、エンジン決定部46は、例えば所与の基準に基づいて、複数の属性エンジン対応管理データのうちのいずれかに含まれる翻訳エンジンID、音声合成エンジンIDの組合せを特定してもよい。
そしてエンジン決定部46が、決定された組合せに含まれる翻訳エンジンIDにより識別される翻訳エンジン28を、第1の翻訳エンジン28として決定してもよい。またエンジン決定部46が、決定された組合せに含まれる音声合成エンジンIDにより識別される音声合成エンジン34を、第1の音声合成エンジン34として決定してもよい。
なおエンジン決定部46が、図6に示す言語エンジン対応管理データに基づいて、音声認識エンジンID、翻訳エンジンID、及び、音声合成エンジンIDの組合せを複数特定してもよい。そしてこの場合に、エンジン決定部46が、図7に示す属性エンジン対応管理データに基づいて、特定された複数の組合せのうちのいずれかに絞り込んでもよい。
また以上の例では、第1の話者の年齢又は年代及び話者の性別に組合せに基づく決定を説明したが、第1の話者の他の属性に基づいて第1の翻訳エンジン28、及び、第1の音声合成エンジン34、の組合せが決定されてもよい。例えば属性エンジン対応管理データに、話者の感情を示す感情データの値が含まれていてもよい。そしてエンジン決定部46が、例えば解析部44により推定される話者の感情と、感情データを含む属性エンジン対応管理データとに基づいて、第1の翻訳エンジン28と第1の音声合成エンジン34との組合せを決定してもよい。
同様にしてエンジン決定部46が、第2の話者の音声入力操作の際に、第2の話者の属性に基づいて、第2の翻訳エンジン28、及び、第2の音声合成エンジン34、の組合せを決定してもよい。
以上のようにすれば、第1の話者の性別や年齢に応じた音声が第2の話者に対して出力されることとなる。また第2の話者の性別や年齢に応じた音声が第1の話者に対して出力されることとなる。このようにして話者の年齢又は年代、話者の性別、話者の感情などといった話者の属性に応じた適切な翻訳エンジン28と音声合成エンジン34との組合せによる音声翻訳が実行できることとなる。
なおエンジン決定部46が、第1の話者の属性に基づいて、第1の翻訳エンジン28及び第1の音声合成エンジン34の一方を決定してもよい。またエンジン決定部46が、第2の話者の属性に基づいて、第2の翻訳エンジン28及び第2の音声合成エンジン34の一方を決定してもよい。
またエンジン決定部46は、ログデータ記憶部42に記憶されている端末対応ログデータに基づいて、音声認識エンジン22、翻訳エンジン28、及び、音声合成エンジン34の組合せを決定してもよい。
例えばエンジン決定部46は、第1の話者による音声入力操作が行われた際に、話者IDの値が1である端末対応ログデータの年齢データ、性別データ、及び、感情データに基づいて、第1の話者の年齢や年代、性別、感情等の第1の話者の属性を推定してもよい。そして当該推定の結果に基づいて第1の翻訳エンジン28及び第1の音声合成エンジン34の組合せを決定してもよい。なおこの場合、時刻データが示す時刻が最近であるものから所定数の端末対応ログデータに基づいて第1の話者の年齢や年代、性別、感情等の属性が推定されてもよい。この場合は、第1の話者の性別や年齢に応じた音声が第2の話者に対して出力されることとなる。
またエンジン決定部46が、第2の話者による音声入力操作が行われた際に、話者IDの値が1である端末対応ログデータの年齢データ、性別データ、及び、感情データに基づいて、第1の話者の年齢や年代、性別、感情等の第1の話者の感情を推定してもよい。そしてエンジン決定部46が、当該推定の結果に基づいて第2の翻訳エンジン28及び第2の音声合成エンジン34の組合せを決定してもよい。この場合は、音声合成部36は、第2の話者による音声の入力に応じて、第1の話者の年齢や年代、性別、感情などの属性に応じた音声を合成することとなる。なおこの場合、時刻データが示す時刻が最近であるものから所定数の端末対応ログデータに基づいて第2の話者の性別や年齢等の属性が推定されてもよい。
以上のようにすれば、第2の話者による音声入力操作に応じて、第2の話者の会話の相手である第1の話者の年齢や年代、性別、感情等の属性に応じた音声が第1の話者に対して出力されることとなる。
例えば英語を話す子供の女性が第1の話者であり、日本語を話す大人の男性が第2の話者であるとする。このような場合に、第1の話者に対して大人の男性の声質や声色の音声が出力されるよりも子供の女性の声質や声色の音声が出力される方が、第1の話者にとって望ましいことがある。また例えばこのような場合に、子供の女性が知っている可能性が高い、比較的容易な語を含むテキストを合成した音声が出力された方が第1の話者にとって望ましいことがある。例えば以上のような場合に上述のように、第2の話者による音声入力操作に応じて、第1の話者の年齢や年代、性別、感情等の属性に応じた音声が第1の話者に対して出力されることが有効なことがある。
なおエンジン決定部46は、端末対応ログデータと解析部44による解析結果の組合せに基づいて、音声認識エンジン22、翻訳エンジン28、及び、音声合成エンジン34の組合せを決定してもよい。
またエンジン決定部46が、第1の話者による音声入力操作の際に、第1の話者による音声の入力スピードに基づいて、第1の翻訳エンジン28及び第1の音声合成エンジン34のうちの少なくとも一方を決定してもよい。またエンジン決定部46が、第1の話者による音声入力操作の際に、第1の話者による音声の音量に基づいて、第1の翻訳エンジン28及び第1の音声合成エンジン34のうちの少なくとも一方を決定してもよい。またエンジン決定部46が、第1の話者による音声入力操作の際に、第1の話者による音声の声質又は声色に基づいて、第1の翻訳エンジン28及び第1の音声合成エンジン34のうちの少なくとも一方を決定してもよい。ここで第1の話者による音声の入力スピード、音量、声質、声色などは、例えば、解析部44による解析結果又は話者IDの値が1である端末対応ログデータに基づいて特定されてもよい。
また音声合成部36が、第1の話者による音声入力操作の際に、第1の話者による音声の入力スピードに応じたスピードの音声を合成してもよい。ここで例えば、ここで例えば、第1の話者による音声の入力時間と同じ時間あるいは第1の話者による音声の入力時間の所定倍の時間をかけて出力される音声が合成されてもよい。このようにすれば、第1の話者の音声の入力スピードに応じたスピードの音声が第2の話者に対して出力されることとなる。
また音声合成部36が、第1の話者による音声入力操作の際に、第1の話者による音声の音量に応じた音量の音声を合成してもよい。ここで例えば、第1の話者による音声と音量が同じ又は所定倍である音声が合成されてもよい。このようにすれば、第1の話者の音声の音量に応じた音量の音声が第2の話者に対して出力されることとなる。
また音声合成部36が、第1の話者による音声入力操作の際に、第1の話者による音声の声質又は声色に応じた声質又は声色の音声を合成してもよい。ここで例えば、第1の話者による音声と声質又は声色が同じである音声が合成されてもよい。ここで例えば、第1の話者とスペクトルが同じである音声が合成されてもよい。このようにすれば、第1の話者の音声の声質又は声色に応じた声質又は声色の音声が第2の話者に対して出力されることとなる。
またエンジン決定部46が、第2の話者による音声入力操作の際に、第1の話者による音声の入力スピードに基づいて、第2の翻訳エンジン28及び第2の音声合成エンジン34のうちの少なくとも一方を決定してもよい。またエンジン決定部46が、第2の話者による音声入力操作の際に、第1の話者による音声の音量に基づいて、第2の翻訳エンジン28又は第2の音声合成エンジン34の少なくとも一方を決定してもよい。ここで第1の話者による音声の入力スピードや音量は、例えば、話者IDの値が1である端末対応ログデータに基づいて特定されてもよい。
また音声合成部36が、第2の話者による音声入力操作の際に、第1の話者による音声の入力スピードに応じた音量の音声を合成してもよい。ここで例えば、第1の話者による音声の入力時間と同じ時間あるいは第1の話者による音声の入力時間の所定倍の時間をかけて出力される音声が合成されてもよい。
このようにすれば、第2の話者の音声入力操作に応じて、第2の話者の音声の入力スピードとは無関係に、第2の話者の会話の相手である第1の話者の音声の入力スピードに応じたスピードの音声が第1の話者に対して出力されることとなる。すなわち、第1の話者は第1の話者自身が話すスピードに応じたスピードの音声を聞けることとなる。
また音声合成部36が、第2の話者による音声入力操作の際に、第1の話者による音声の音量に応じた音量の音声を合成してもよい。ここで例えば、第1の話者による音声と音量が同じ又は所定倍である音声が合成されてもよい。
このようにすれば、第2の話者の音声入力操作に応じて、第2の話者の音声の音量とは無関係に、第2の話者の会話の相手である第1の話者の音声の音量に応じた音量の音声が第1の話者に対して出力されることとなる。すなわち、第1の話者は第1の話者自身が話す音声の音量に応じた音量の音声を聞けることとなる。
また音声合成部36が、第2の話者による音声入力操作の際に、第1の話者による音声の声色や声質に応じた声色や声質の音声を合成してもよい。ここで例えば、第1の話者による音声と声質又は声色が同じである音声が合成されてもよい。ここで例えば、第1の話者とスペクトルが同じである音声が合成されてもよい。
このようにすれば、第2の話者の音声入力操作に応じて、第2の話者の音声の声質又は声色とは無関係に、第2の話者の会話の相手である第1の話者の音声の声質又は声色に応じた声質又は声色の音声が第1の話者に対して出力されることとなる。すなわち、第1の話者は第1の話者自身が話す音声の声質又は声色に応じた声質又は声色の音声を聞けることとなる。
また翻訳部30は、第2の話者による音声入力操作に応じて、音声認識部24が生成したテキストに含まれる翻訳対象語について、複数の翻訳候補を決定してもよい。そして翻訳部30は、決定される複数の翻訳候補のそれぞれについて、第1の話者による音声入力操作に応じて生成されたテキストに含まれる語が存在するか否かを確認してもよい。ここで例えば決定される複数の翻訳候補のそれぞれについて、話者IDの値が1である端末対応ログデータの翻訳前テキストデータが示すテキスト又は翻訳語テキストデータが示すテキストに含まれる語が存在するか否かが確認されてもよい。そして翻訳部30は、上述の翻訳対象語を、第1の話者による音声入力操作に応じて生成されたテキストに含まれることが確認された語に翻訳してもよい。
このようにすれば第2の話者の会話の相手である第1の話者が最近の会話で音声入力した語が音声出力されるので、会話を違和感なくスムーズに進めることが可能となる。
また翻訳部30は、解析部44により推定されるトピック又はシーンに基づいて、専門用語辞書を使用して翻訳処理を実行するか否かを決定してもよい。
なお以上の説明において、第1の音声認識エンジン22、第1の翻訳エンジン28、第1の音声合成エンジン34、第2の音声認識エンジン22、第2の翻訳エンジン28、第2の音声合成エンジン34は、ソフトウェアモジュールと1対1で対応付けられている必要はない。例えば第1の音声認識エンジン22、第1の翻訳エンジン28、第1の音声合成エンジン34のうちのいずれか複数が1つのソフトウェアモジュールにより実装されてもよい。また例えば、第1の翻訳エンジン28と第2の翻訳エンジン28とが1つのソフトウェアモジュールにより実装されてもよい。
以下、第1の話者による音声入力操作が実行された際に本実施形態に係るサーバ10において行われる処理の流れの一例を、図8に示すフロー図を参照しながら説明する。
まず音声データ受付部20が、解析対象データを翻訳端末12から受け付ける(S101)。
そして解析部44が、S101に示す処理で受け付けた解析対象データに含まれる翻訳前音声データに対する解析処理を実行する(S102)。
そしてエンジン決定部46が、端末対応ログデータやS102に示す処理での解析処理の実行結果などに基づいて、第1の音声認識エンジン22、第1の翻訳エンジン28、及び、第1の音声合成エンジン34の組合せを決定する(S103)。
そして音声認識部24が、S103に示す処理で決定された第1の音声認識エンジン22が実装する音声認識処理を実行して、S101に示す処理で受け付けた解析対象データに含まれる翻訳前音声データが表す音声の認識結果であるテキストを示す翻訳前テキストデータを生成する(S104)。
そして翻訳前テキストデータ送信部26が、S104に示す処理で生成された翻訳前テキストデータを翻訳端末12に送信する(S105)。このようにして送信される翻訳前テキストデータは、翻訳端末12の表示部12eに表示される。
そして翻訳部30が、第1の翻訳エンジン28が実装する翻訳処理を実行して、S104に示す処理で生成された翻訳前テキストデータが示すテキストを第2の言語に翻訳したテキストを示す翻訳後テキストデータを生成する(S106)。
そして音声合成部36が、第1の音声合成エンジン34が実装する音声合成処理を実行して、S106に示す処理で生成された翻訳後テキストデータが示すテキストを表す音声を合成する(S107)。
そしてログデータ生成部40が、ログデータを生成してログデータ記憶部42に記憶させる(S108)。ここでログデータは例えば、S101に示す処理で受け付けた解析対象データに含まれるメタデータ、S102に示す処理での解析結果、S104に示す処理で生成された翻訳前テキストデータ、及び、S106に示す処理で生成された翻訳後テキストデータに基づいて生成されてもよい。
そして音声データ送信部38が、S107に示す処理で合成された音声を示す翻訳後音声データを翻訳端末12に送信するとともに、翻訳後テキストデータ送信部32が、S106に示す処理で生成された翻訳後テキストデータを翻訳端末12に送信する(S109)。このようにして送信される翻訳後テキストデータは、翻訳端末12の表示部12eに表示される。またこのようにして送信される翻訳後音声データが表す音声は、翻訳端末12のスピーカ12gから音声出力される。そして本処理例に示す処理は終了される。
なお第2の話者による音声入力操作が実行された際にも、本実施形態に係るサーバ10において図8に示すフロー図に示されている処理と同様の処理が実行される。ただしこの場合は、S103に示す処理で、第2の音声認識エンジン22、第2の翻訳エンジン28、及び、第2の音声合成エンジン34の組合せが決定される。またS104に示す処理で、S103に示す処理で決定された第2の音声認識エンジン22が実装する音声認識処理が実行される。またS106に示す処理で、第2の翻訳エンジン28が実装する翻訳処理が実行される。またS107に示す処理で、第2の音声合成エンジン34が実装する音声合成処理が実行される。
なお、本発明は上述の実施形態に限定されるものではない。
例えばサーバ10の機能が、1台のサーバで実装されても、複数台のサーバで実装されても構わない。
また例えば、音声認識エンジン22、翻訳エンジン28、音声合成エンジン34が、サーバ10とは異なる、外部のサーバが提供するサービスとして実装されていてもよい。そしてエンジン決定部46は、音声認識エンジン22、翻訳エンジン28、音声合成エンジン34のそれぞれが実装された外部のサーバを決定してもよい。そして例えば音声認識部24が、エンジン決定部46が決定する外部のサーバに対してリクエストを送信して、音声認識処理の結果を当該外部のサーバから受信してもよい。また例えば翻訳部30が、エンジン決定部46が決定した外部のサーバに対してリクエストを送信して、翻訳処理の結果を当該外部のサーバから受信してもよい。また例えば音声合成部36が、エンジン決定部46が決定した外部のサーバに対してリクエストを送信して、音声合成処理の結果を当該外部のサーバから受信してもよい。ここで例えば、サーバ10が、上述のサービスのAPIをコールするようにしてもよい。
また例えば、エンジン決定部46は、図6や図7に示すようなテーブルに基づいて、音声認識エンジン22、翻訳エンジン28、及び、音声合成エンジン34の組合せを決定する必要はない。例えば、エンジン決定部46は、学習済の機械学習モデルを用いて、音声認識エンジン22、翻訳エンジン28、及び、音声合成エンジン34の組合せを決定してもよい。
また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。
1 翻訳システム、10 サーバ、10a プロセッサ、10b 記憶部、10c 通信部、12 翻訳端末、12a プロセッサ、12b 記憶部、12c 通信部、12d,12da,12db,12dc,12dd,12de 操作部、12e 表示部、12f マイク、12g スピーカ、14 コンピュータネットワーク、16a 第1言語表示領域、16b 第2言語表示領域、18 テキスト表示領域、20 音声データ受付部、22 音声認識エンジン、24 音声認識部、26 翻訳前テキストデータ送信部、28 翻訳エンジン、30 翻訳部、32 翻訳後テキストデータ送信部、34 音声合成エンジン、36 音声合成部、38 音声データ送信部、40 ログデータ生成部、42 ログデータ記憶部、44 解析部、46 エンジン決定部、48 対応管理データ記憶部。

Claims (10)

  1. 第1の話者による第1の言語の音声の入力に応じて、当該音声を第2の言語に翻訳した音声を合成する処理と、第2の話者による前記第2の言語の音声の入力に応じて、当該音声を前記第1の言語に翻訳した音声を合成する処理と、を実行する双方向音声翻訳システムであって、
    前記第1の言語、前記第1の話者により入力される音声、前記第2の言語、及び、前記第2の話者により入力される音声、の少なくとも1つに基づいて、複数の音声認識エンジンのうちのいずれかである第1の音声認識エンジン、複数の翻訳エンジンのうちのいずれかである第1の翻訳エンジン、及び、複数の音声合成エンジンのうちのいずれかである第1の音声合成エンジン、の組合せを決定する第1の決定部と、
    前記第1の音声認識エンジンが実装する音声認識処理を実行して、前記第1の話者による前記第1の言語の音声の入力に応じて、当該音声の認識結果であるテキストを生成する第1の音声認識部と、
    前記第1の翻訳エンジンが実装する翻訳処理を実行して、前記第1の音声認識部により生成されたテキストを前記第2の言語に翻訳したテキストを生成する第1の翻訳部と、
    前記第1の音声合成エンジンが実装する音声合成処理を実行して、前記第1の翻訳部により翻訳されたテキストを表す音声を合成する第1の音声合成部と、
    前記第1の言語、前記第1の話者により入力される音声、前記第2の言語、及び、前記第2の話者により入力される音声、の少なくとも1つに基づいて、前記複数の音声認識エンジンのうちのいずれかである第2の音声認識エンジン、前記複数の翻訳エンジンのうちのいずれかである第2の翻訳エンジン、及び、前記複数の音声合成エンジンのうちのいずれかである第2の音声合成エンジン、の組合せを決定する第2の決定部と、
    前記第2の音声認識エンジンが実装する音声認識処理を実行して、前記第2の話者による前記第2の言語の音声の入力に応じて、当該音声の認識結果であるテキストを生成する第2の音声認識部と、
    前記第2の翻訳エンジンが実装する翻訳処理を実行して、前記第2の音声認識部により生成されたテキストを前記第1の言語に翻訳したテキストを生成する第2の翻訳部と、
    前記第2の音声合成エンジンが実装する音声合成処理を実行して、前記第2の翻訳部により翻訳されたテキストを表す音声を合成する第2の音声合成部と、
    を含むことを特徴とする双方向音声翻訳システム。
  2. 前記第1の音声合成部は、前記第1の話者により入力された音声の特徴量に基づいて推定される、前記第1の話者の年齢、年代、及び、性別のうちの少なくとも1つに応じた音声を合成する、
    ことを特徴とする請求項1に記載の双方向音声翻訳システム。
  3. 前記第1の音声合成部は、前記第1の話者により入力された音声の特徴量に基づいて推定される前記第1の話者の感情に応じた音声を合成する、
    ことを特徴とする請求項1又は2に記載の双方向音声翻訳システム。
  4. 前記第2の音声合成部は、前記第1の話者により入力された音声の特徴量に基づいて推定される、前記第1の話者の年齢、年代、及び、性別のうちの少なくとも1つに応じた音声を合成する、
    ことを特徴とする請求項1に記載の双方向音声翻訳システム。
  5. 前記第2の翻訳部は、
    前記第2の音声認識部により生成されたテキストに含まれる翻訳対象語についての複数の翻訳候補を決定し、
    前記複数の翻訳候補のそれぞれについて、当該翻訳候補が前記第1の翻訳部により生成されたテキストに含まれるか否かを確認し、
    前記翻訳対象語を、前記第1の翻訳部により生成されたテキストに含まれることが確認された語に翻訳する、
    ことを特徴とする請求項1から4のいずれか一項に記載の双方向音声翻訳システム。
  6. 前記第1の音声合成部は、前記第1の話者による音声の入力スピードに応じたスピードの音声、又は、前記第1の話者による音声の音量に応じた音量の音声を合成する、
    ことを特徴とする請求項1から5のいずれか一項に記載の双方向音声翻訳システム。
  7. 前記第2の音声合成部は、前記第1の話者による音声の入力スピードに応じたスピードの音声、又は、前記第1の話者による音声の音量に応じた音量の音声を合成する、
    ことを特徴とする請求項1から5のいずれか一項に記載の双方向音声翻訳システム。
  8. 前記第1の話者による前記第1の言語の音声の入力を受け付け、当該音声を前記第2の言語に翻訳した音声を出力し、前記第2の話者による前記第2の言語の音声の入力を受け付け、当該音声を前記第1の言語に翻訳した音声を出力する端末を含み、
    前記第1の決定部は、前記端末の位置に基づいて、前記第1の音声認識エンジン、前記第1の翻訳エンジン、及び、前記第1の音声合成エンジン、の組合せを決定し、
    前記第2の決定部は、前記端末の位置に基づいて、前記第2の音声認識エンジン、前記第2の翻訳エンジン、及び、前記第2の音声合成エンジン、の組合せを決定する、
    ことを特徴とする請求項1から7のいずれか一項に記載の双方向音声翻訳システム。
  9. 第1の話者による第1の言語の音声の入力に応じて、当該音声を第2の言語に翻訳した音声を合成する処理と、第2の話者による前記第2の言語の音声の入力に応じて、当該音声を前記第1の言語に翻訳した音声を合成する処理と、を実行する双方向音声翻訳方法であって、
    前記第1の言語、前記第1の話者により入力される音声、前記第2の言語、及び、前記第2の話者により入力される音声、の少なくとも1つに基づいて、複数の音声認識エンジンのうちのいずれかである第1の音声認識エンジン、複数の翻訳エンジンのうちのいずれかである第1の翻訳エンジン、及び、複数の音声合成エンジンのうちのいずれかである第1の音声合成エンジン、の組合せを決定する第1の決定ステップと、
    前記第1の音声認識エンジンが実装する音声認識処理を実行して、前記第1の話者による前記第1の言語の音声の入力に応じて、当該音声の認識結果であるテキストを生成する第1の音声認識ステップと、
    前記第1の翻訳エンジンが実装する翻訳処理を実行して、前記第1の音声認識ステップで生成されたテキストを前記第2の言語に翻訳したテキストを生成する第1の翻訳ステップと、
    前記第1の音声合成エンジンが実装する音声合成処理を実行して、前記第1の翻訳ステップで翻訳されたテキストを表す音声を合成する第1の音声合成ステップと、
    前記第1の言語、前記第1の話者により入力される音声、前記第2の言語、及び、前記第2の話者により入力される音声、の少なくとも1つに基づいて、前記複数の音声認識エンジンのうちのいずれかである第2の音声認識エンジン、前記複数の翻訳エンジンのうちのいずれかである第2の翻訳エンジン、及び、前記複数の音声合成エンジンのうちのいずれかである第2の音声合成エンジン、の組合せを決定する第2の決定ステップと、
    前記第2の音声認識エンジンが実装する音声認識処理を実行して、前記第2の話者による前記第2の言語の音声の入力に応じて、当該音声の認識結果であるテキストを生成する第2の音声認識ステップと、
    前記第2の翻訳エンジンが実装する翻訳処理を実行して、前記第2の音声認識ステップで生成されたテキストを前記第1の言語に翻訳したテキストを生成する第2の翻訳ステップと、
    前記第2の音声合成エンジンが実装する音声合成処理を実行して、前記第2の翻訳ステップで翻訳されたテキストを表す音声を合成する第2の音声合成ステップと、
    を含むことを特徴とする双方向音声翻訳方法。
  10. 第1の話者による第1の言語の音声の入力に応じて、当該音声を第2の言語に翻訳した音声を合成する処理と、第2の話者による前記第2の言語の音声の入力に応じて、当該音声を前記第1の言語に翻訳した音声を合成する処理と、を実行するコンピュータに、
    前記第1の言語、前記第1の話者により入力される音声、前記第2の言語、及び、前記第2の話者により入力される音声、の少なくとも1つに基づいて、複数の音声認識エンジンのうちのいずれかである第1の音声認識エンジン、複数の翻訳エンジンのうちのいずれかである第1の翻訳エンジン、及び、複数の音声合成エンジンのうちのいずれかである第1の音声合成エンジン、の組合せを決定する第1の決定手順、
    前記第1の音声認識エンジンが実装する音声認識処理を実行して、前記第1の話者による前記第1の言語の音声の入力に応じて、当該音声の認識結果であるテキストを生成する第1の音声認識手順、
    前記第1の翻訳エンジンが実装する翻訳処理を実行して、前記第1の音声認識手順で生成されたテキストを前記第2の言語に翻訳したテキストを生成する第1の翻訳手順、
    前記第1の音声合成エンジンが実装する音声合成処理を実行して、前記第1の翻訳手順で翻訳されたテキストを表す音声を合成する第1の音声合成手順、
    前記第1の言語、前記第1の話者により入力される音声、前記第2の言語、及び、前記第2の話者により入力される音声、の少なくとも1つに基づいて、前記複数の音声認識エンジンのうちのいずれかである第2の音声認識エンジン、前記複数の翻訳エンジンのうちのいずれかである第2の翻訳エンジン、及び、前記複数の音声合成エンジンのうちのいずれかである第2の音声合成エンジン、の組合せを決定する第2の決定手順、
    前記第2の音声認識エンジンが実装する音声認識処理を実行して、前記第2の話者による前記第2の言語の音声の入力に応じて、当該音声の認識結果であるテキストを生成する第2の音声認識手順、
    前記第2の翻訳エンジンが実装する翻訳処理を実行して、前記第2の音声認識手順で生成されたテキストを前記第1の言語に翻訳したテキストを生成する第2の翻訳手順、
    前記第2の音声合成エンジンが実装する音声合成処理を実行して、前記第2の翻訳手順で翻訳されたテキストを表す音声を合成する第2の音声合成手順、
    をコンピュータに実行させることを特徴とするプログラム。

JP2022186646A 2017-12-06 2022-11-22 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム Pending JP2023022150A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022186646A JP2023022150A (ja) 2017-12-06 2022-11-22 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
PCT/JP2017/043792 WO2019111346A1 (ja) 2017-12-06 2017-12-06 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
JP2017563628A JPWO2019111346A1 (ja) 2017-12-06 2017-12-06 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
JP2022186646A JP2023022150A (ja) 2017-12-06 2022-11-22 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2017563628A Division JPWO2019111346A1 (ja) 2017-12-06 2017-12-06 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2023022150A true JP2023022150A (ja) 2023-02-14

Family

ID=66750988

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2017563628A Pending JPWO2019111346A1 (ja) 2017-12-06 2017-12-06 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
JP2022186646A Pending JP2023022150A (ja) 2017-12-06 2022-11-22 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2017563628A Pending JPWO2019111346A1 (ja) 2017-12-06 2017-12-06 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム

Country Status (5)

Country Link
US (1) US20200012724A1 (ja)
JP (2) JPWO2019111346A1 (ja)
CN (1) CN110149805A (ja)
TW (1) TW201926079A (ja)
WO (1) WO2019111346A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP1621612S (ja) * 2018-05-25 2019-01-07
US11195507B2 (en) 2018-10-04 2021-12-07 Rovi Guides, Inc. Translating between spoken languages with emotion in audio and video media streams
JP1654970S (ja) * 2019-02-27 2020-03-16
US11100928B2 (en) * 2019-05-14 2021-08-24 Language Line Services, Inc. Configuration for simulating an interactive voice response system for language interpretation
US11082560B2 (en) * 2019-05-14 2021-08-03 Language Line Services, Inc. Configuration for transitioning a communication from an automated system to a simulated live customer agent
CN110610720B (zh) * 2019-09-19 2022-02-25 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN113450785B (zh) * 2020-03-09 2023-12-19 上海擎感智能科技有限公司 车载语音处理的实现方法、系统、介质及云端服务器
JP7160077B2 (ja) * 2020-10-26 2022-10-25 日本電気株式会社 音声処理装置、音声処理方法、システム、およびプログラム
CN112818704B (zh) * 2021-01-19 2024-04-02 传神语联网网络科技股份有限公司 基于线程间共识反馈的多语种翻译系统与方法
CN112818705B (zh) * 2021-01-19 2024-02-27 传神语联网网络科技股份有限公司 基于组间共识的多语种语音翻译系统与方法
CN113053389A (zh) * 2021-03-12 2021-06-29 云知声智能科技股份有限公司 一键切换语种的语音交互系统、方法和电子设备
US20220391601A1 (en) * 2021-06-08 2022-12-08 Sap Se Detection of abbreviation and mapping to full original term
JP7164793B1 (ja) 2021-11-25 2022-11-02 ソフトバンク株式会社 音声処理システム、音声処理装置及び音声処理方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
JP3617826B2 (ja) * 2001-10-02 2005-02-09 松下電器産業株式会社 情報検索装置
CN1498014A (zh) * 2002-10-04 2004-05-19 ������������ʽ���� 移动终端
JP5002271B2 (ja) * 2007-01-18 2012-08-15 株式会社東芝 入力された原言語文を目的言語に機械翻訳する装置、方法およびプログラム
JP2009139390A (ja) * 2007-12-03 2009-06-25 Nec Corp 情報処理システム、処理方法及びプログラム
EP2485212A4 (en) * 2009-10-02 2016-12-07 Nat Inst Inf & Comm Tech LANGUAGE TRANSLATION SYSTEM, FIRST END DEVICE, VOICE RECOGNITION SERVER, TRANSLATION SERVER AND LANGUAGE SYNTHESIS SERV
JP5545467B2 (ja) * 2009-10-21 2014-07-09 独立行政法人情報通信研究機構 音声翻訳システム、制御装置、および情報処理方法
US8731932B2 (en) * 2010-08-06 2014-05-20 At&T Intellectual Property I, L.P. System and method for synthetic voice generation and modification
US8849628B2 (en) * 2011-04-15 2014-09-30 Andrew Nelthropp Lauder Software application for ranking language translations and methods of use thereof
EP2842055B1 (en) * 2012-04-25 2018-06-27 Kopin Corporation Instant translation system
US8996352B2 (en) * 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US9430465B2 (en) * 2013-05-13 2016-08-30 Facebook, Inc. Hybrid, offline/online speech translation system
US9396437B2 (en) * 2013-11-11 2016-07-19 Mera Software Services, Inc. Interface apparatus and method for providing interaction of a user with network entities
US9183831B2 (en) * 2014-03-27 2015-11-10 International Business Machines Corporation Text-to-speech for digital literature
DE102014114845A1 (de) * 2014-10-14 2016-04-14 Deutsche Telekom Ag Verfahren zur Interpretation von automatischer Spracherkennung
US9542927B2 (en) * 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings
US9697201B2 (en) * 2014-11-24 2017-07-04 Microsoft Technology Licensing, Llc Adapting machine translation data using damaging channel model
US20160170970A1 (en) * 2014-12-12 2016-06-16 Microsoft Technology Licensing, Llc Translation Control
RU2632424C2 (ru) * 2015-09-29 2017-10-04 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для синтеза речи по тексту
US10013418B2 (en) * 2015-10-23 2018-07-03 Panasonic Intellectual Property Management Co., Ltd. Translation device and translation system
KR102525209B1 (ko) * 2016-03-03 2023-04-25 한국전자통신연구원 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법
US9978367B2 (en) * 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
JP6383748B2 (ja) * 2016-03-30 2018-08-29 株式会社リクルートライフスタイル 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
CN105912532B (zh) * 2016-04-08 2020-11-20 华南师范大学 基于地理位置信息的语言翻译方法及系统
CN107306380A (zh) * 2016-04-20 2017-10-31 中兴通讯股份有限公司 一种移动终端自动识别语音翻译的目标语言的方法及装置
DK179049B1 (en) * 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
CN106156011A (zh) * 2016-06-27 2016-11-23 安徽声讯信息技术有限公司 一种自动侦测当前地理位置并转化当地语言的翻译装置
US10162844B1 (en) * 2017-06-22 2018-12-25 NewVoiceMedia Ltd. System and methods for using conversational similarity for dimension reduction in deep analytics

Also Published As

Publication number Publication date
US20200012724A1 (en) 2020-01-09
TW201926079A (zh) 2019-07-01
WO2019111346A1 (ja) 2019-06-13
CN110149805A (zh) 2019-08-20
JPWO2019111346A1 (ja) 2020-10-22

Similar Documents

Publication Publication Date Title
JP2023022150A (ja) 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
US11115541B2 (en) Post-teleconference playback using non-destructive audio transport
WO2019165748A1 (zh) 一种语音翻译方法及装置
KR101683943B1 (ko) 음성번역 시스템, 제1 단말장치, 음성인식 서버장치, 번역 서버장치, 및 음성합성 서버장치
JP5545467B2 (ja) 音声翻訳システム、制御装置、および情報処理方法
JP5967569B2 (ja) 音声処理システム
CN111583944A (zh) 变声方法及装置
WO2008084476A2 (en) Vowel recognition system and method in speech to text applications
JP2008083376A (ja) 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよび端末装置
TW201214413A (en) Modification of speech quality in conversations over voice channels
WO2019242414A1 (zh) 语音处理方法、装置、存储介质及电子设备
US20180288109A1 (en) Conference support system, conference support method, program for conference support apparatus, and program for terminal
US20220231873A1 (en) System for facilitating comprehensive multilingual virtual or real-time meeting with real-time translation
US10143027B1 (en) Device selection for routing of communications
CN111199160A (zh) 即时通话语音的翻译方法、装置以及终端
TW200304638A (en) Network-accessible speaker-dependent voice models of multiple persons
JP6599828B2 (ja) 音処理方法、音処理装置、及びプログラム
JP2007328283A (ja) 対話装置、プログラム、及び対話方法
CN115148185A (zh) 语音合成方法及装置、电子设备及存储介质
CN113643684A (zh) 语音合成方法、装置、电子设备及存储介质
JP2005283972A (ja) 音声認識方法及びこの音声認識方法を利用した情報提示方法と情報提示装置
JP2004015478A (ja) 音声通信端末装置
CN110781329A (zh) 图像搜索方法、装置、终端设备及存储介质
US11172527B2 (en) Routing of communications to a device
CN111179943A (zh) 一种对话辅助设备及获取信息的方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221221

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240206