JP2016057986A - 音声翻訳装置、方法およびプログラム - Google Patents
音声翻訳装置、方法およびプログラム Download PDFInfo
- Publication number
- JP2016057986A JP2016057986A JP2014185583A JP2014185583A JP2016057986A JP 2016057986 A JP2016057986 A JP 2016057986A JP 2014185583 A JP2014185583 A JP 2014185583A JP 2014185583 A JP2014185583 A JP 2014185583A JP 2016057986 A JP2016057986 A JP 2016057986A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- translation
- unit
- speech
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/157—Transformation using dictionaries or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
【課題】円滑な音声対話を実現できる。
【解決手段】本実施形態に係る音声翻訳装置は、音声認識部、検出部、変換部および翻訳部を含む。音声認識部は、第1言語による音声を音声認識し、認識結果文字列を生成する。検出部は、前記認識結果文字列から翻訳に適する翻訳単位を検出し、該翻訳単位に基づいて該認識結果文字列を分割した翻訳単位文字列を生成する。変換部は、前記翻訳単位文字列を機械翻訳に適する表現である変換文字列に変換する。翻訳部は、前記変換文字列を前記第1言語とは異なる第2言語に翻訳し、翻訳文字列を生成する。
【選択図】図1
【解決手段】本実施形態に係る音声翻訳装置は、音声認識部、検出部、変換部および翻訳部を含む。音声認識部は、第1言語による音声を音声認識し、認識結果文字列を生成する。検出部は、前記認識結果文字列から翻訳に適する翻訳単位を検出し、該翻訳単位に基づいて該認識結果文字列を分割した翻訳単位文字列を生成する。変換部は、前記翻訳単位文字列を機械翻訳に適する表現である変換文字列に変換する。翻訳部は、前記変換文字列を前記第1言語とは異なる第2言語に翻訳し、翻訳文字列を生成する。
【選択図】図1
Description
本発明の実施形態は、音声翻訳装置、方法およびプログラムに関する。
近年のグローバル化に伴い、異なる言語を母語とするユーザ同士のコミュニケーションを支援する翻訳デバイスの需要が高まっている。このようなデバイスの一例としては、スマートフォンなどの端末で動作する音声翻訳アプリケーションがある。さらに、会議または講演などの利用を想定した音声翻訳システムもある。
しかし、一般的な音声翻訳アプリケーションでは、旅行で想定される会話など簡単な会話での利用しか想定されていない。さらに、会議または講演などでは、話者の話し方に制約を設けることは難しく、自由発話を考慮した処理が必要となるが、上述した音声翻訳システムでは、自由発話が考慮されていない。
本開示は、上述の課題を解決するためになされたものであり、円滑な音声対話を実現できる音声翻訳装置、方法およびプログラムを提供することを目的とする。
本実施形態に係る音声翻訳装置は、音声認識部、検出部、変換部および翻訳部を含む。音声認識部は、第1言語による音声を音声認識し、認識結果文字列を生成する。検出部は、前記認識結果文字列から翻訳に適する翻訳単位を検出し、該翻訳単位に基づいて該認識結果文字列を分割した翻訳単位文字列を生成する。変換部は、前記翻訳単位文字列を機械翻訳に適する表現である変換文字列に変換する。翻訳部は、前記変換文字列を前記第1言語とは異なる第2言語に翻訳し、翻訳文字列を生成する。
以下、図面を参照しながら本実施形態に係る音声翻訳装置、方法およびプログラムについて詳細に説明する。以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。
なお、以下の実施形態では、英語から日本語への音声翻訳を前提に説明するが、日本語から英語への音声翻訳でもよいし、他の言語の組み合わせでもよく、3言語以上の言語間の音声翻訳を扱う場合も同様に処理すればよい。
(第1の実施形態)
第1の実施形態に係る音声翻訳装置について図1のブロック図を参照して説明する。
第1の実施形態に係る音声翻訳装置100は、音声取得部101、音声認識部102、翻訳単位検出部103、語句変換部104、機械翻訳部105および表示部106を含む。
第1の実施形態に係る音声翻訳装置について図1のブロック図を参照して説明する。
第1の実施形態に係る音声翻訳装置100は、音声取得部101、音声認識部102、翻訳単位検出部103、語句変換部104、機械翻訳部105および表示部106を含む。
音声取得部101は、ユーザから第1言語による音声を音声信号として取得する。具体的には、例えば、ユーザの発話をマイクロフォンを介して集音し、集音した発話をアナログデジタル変換することによってデジタル信号である音声信号に変換すればよい。
音声認識部102は、音声取得部101から音声信号を受け取り、音声信号に対して音声認識処理を行い、音声認識結果の文字列である認識結果文字列を生成する。音声認識処理は、ここでは連続した音声を認識する連続音声認識処理を想定し、例えば、隠れマルコフモデル(Hidden Markov Model)を用いればよい。また、ディープニューラルネットワークを適用した音韻判別手法、WFST(Weighted Finite State Transducer)を用いた最適単語系列の探索を音声認識処理として用いてもよく、一般的な音声認識処理を用いればよいため、ここでの詳細な説明を省略する。
音声認識処理は、一般的に単語辞書や言語モデルなどの情報に基づいて、発話の初めから後方へと尤もらしい正解単語系列を順次絞り込んでいく処理が行われる。よって、単語系列が絞り込まれずに未確定である複数の単語系列が存在する場合、以降に取得される音声信号によっては、ある時点で第1位の優先順位である単語系列に代わって、異なる単語系列が第1位の優先順位になってしまう可能性がある。従って、途中段階の音声認識結果を機械翻訳しても正しい翻訳結果を得ることはできない。音声認識結果である単語系列を確定するのは、曖昧性がない言語要素が出現した場合、または発話の休止(例えば、200ミリ秒以上の無音区間)を検出できた場合であり、それ以前の単語系列を確定することが可能になる。
音声認識処理は、一般的に単語辞書や言語モデルなどの情報に基づいて、発話の初めから後方へと尤もらしい正解単語系列を順次絞り込んでいく処理が行われる。よって、単語系列が絞り込まれずに未確定である複数の単語系列が存在する場合、以降に取得される音声信号によっては、ある時点で第1位の優先順位である単語系列に代わって、異なる単語系列が第1位の優先順位になってしまう可能性がある。従って、途中段階の音声認識結果を機械翻訳しても正しい翻訳結果を得ることはできない。音声認識結果である単語系列を確定するのは、曖昧性がない言語要素が出現した場合、または発話の休止(例えば、200ミリ秒以上の無音区間)を検出できた場合であり、それ以前の単語系列を確定することが可能になる。
翻訳単位検出部103は、音声認識部102から認識結果文字列を受け取り、機械翻訳に適する翻訳単位を検出し、翻訳単位に基づいて認識結果文字列を分割した文字列である翻訳単位文字列を生成する。
一般に人の発話、すなわち自由発話には書き言葉に含まれる句読点などの明確な区切りが存在しない。よって、同時性が高く、品質のよい音声翻訳を実現するには、認識結果文字列を翻訳に適した単位に分割する必要がある。なお、本実施形態で用いる翻訳単位の検出方法は、少なくとも音声のポーズ、または発話中のフィラーを手掛かりとして検出を行うことを想定し、詳細については図2および図3を参照して後述するが、翻訳単位の検出方法については一般的な手法を用いてもよい。
一般に人の発話、すなわち自由発話には書き言葉に含まれる句読点などの明確な区切りが存在しない。よって、同時性が高く、品質のよい音声翻訳を実現するには、認識結果文字列を翻訳に適した単位に分割する必要がある。なお、本実施形態で用いる翻訳単位の検出方法は、少なくとも音声のポーズ、または発話中のフィラーを手掛かりとして検出を行うことを想定し、詳細については図2および図3を参照して後述するが、翻訳単位の検出方法については一般的な手法を用いてもよい。
語句変換部104は、翻訳単位検出部103から翻訳単位文字列を受け取り、翻訳単位文字列を機械翻訳に適する表現である変換文字列に変換する。具体的には、語句変換部104は、例えば変換辞書を参照して、翻訳単位文字列から不要語を削除し、翻訳単位文字列における口語表現を文語表現に変換することで、変換文字列を生成する。不要語は、例えば、「えーと」「あのー」といったフィラーである。語句変換部104で参照する変換辞書の詳細については、図4を参照して説明する。
機械翻訳部105は、語句変換部104から変換文字列を受け取り、第1言語から第2言語へ翻訳し、翻訳文字列を生成する。機械翻訳部105における翻訳処理は、トランスファ翻訳方式、用例翻訳方式、統計翻訳方式、中間言語翻訳方式など、既存の機械翻訳処理を用いればよいので、ここでの説明を省略する。
機械翻訳部105は、語句変換部104から変換文字列を受け取り、第1言語から第2言語へ翻訳し、翻訳文字列を生成する。機械翻訳部105における翻訳処理は、トランスファ翻訳方式、用例翻訳方式、統計翻訳方式、中間言語翻訳方式など、既存の機械翻訳処理を用いればよいので、ここでの説明を省略する。
表示部106は、例えば液晶ディスプレイであり、機械翻訳部105から変換文字列と翻訳文字列とを受け取り、変換文字列および翻訳文字列とを対応付けて画面に表示する。
なお、音声翻訳装置100は、変換文字列および翻訳文字列の少なくともどちらか一方を音声として出力する出力部を含んでもよい。
次に、翻訳単位検出部103における翻訳単位の検出方法の一例について図2および図3を参照して説明する。
図2は、翻訳単位の判別モデルを作成する一例を示す図である。図2は、翻訳単位検出部を稼働する前に判別モデルをあらかじめ作成しておく際の処理を示している。
図2の例では、学習用のコーパス201が形態素解析された、形態素解析結果202を示す。ここで、文中にあるラベル<P>は、音声中のポーズを示し、ラベル<B>は、翻訳単位の開始位置となる可能性がある形態素の位置を示す。ラベル<B>は人手であらかじめ付与しておく。
続いて、形態素解析結果202に対して、文を分割すべき箇所(クラスB)、文を継続すべき箇所(クラスI)に対応するラベルを付与した学習データ203に変換する。ここでは、CRF(conditional Random Fields)による学習を想定している。学習データ203を入力として、各形態素列に対して文を分割すべき形態素列であるか、文を継続する形態素列であるかの条件付き確率を判別モデルとして学習する。なお、学習データ203において、ラベル<I>は、翻訳単位の途中にある形態素の位置を意味する。
図2の例では、学習用のコーパス201が形態素解析された、形態素解析結果202を示す。ここで、文中にあるラベル<P>は、音声中のポーズを示し、ラベル<B>は、翻訳単位の開始位置となる可能性がある形態素の位置を示す。ラベル<B>は人手であらかじめ付与しておく。
続いて、形態素解析結果202に対して、文を分割すべき箇所(クラスB)、文を継続すべき箇所(クラスI)に対応するラベルを付与した学習データ203に変換する。ここでは、CRF(conditional Random Fields)による学習を想定している。学習データ203を入力として、各形態素列に対して文を分割すべき形態素列であるか、文を継続する形態素列であるかの条件付き確率を判別モデルとして学習する。なお、学習データ203において、ラベル<I>は、翻訳単位の途中にある形態素の位置を意味する。
図3は、図2に示す処理によって得られた、2クラス判別モデル(すなわち、クラスBとクラスIとに判別するモデル)を用いて翻訳単位を検出する一例を示す図である。
翻訳単位検出部103は、認識結果文字列301を形態素解析し、形態素解析結果302を得る。翻訳単位検出部103は、判別モデルを参照して、対象とする形態素列が文を分割すべき形態素列であるか、文を継続すべき形態素列であるかを判定する。例えば、条件付き確率であるP(B|up,today,<p>)の値がP(I|up,today,<p>)の値よりも大きければ、<p>は分割位置(翻訳単位)であると判定できる。よって、<p>の前段部分である、文字列「cuz time’s up today」が翻訳単位文字列として生成される。
翻訳単位検出部103は、認識結果文字列301を形態素解析し、形態素解析結果302を得る。翻訳単位検出部103は、判別モデルを参照して、対象とする形態素列が文を分割すべき形態素列であるか、文を継続すべき形態素列であるかを判定する。例えば、条件付き確率であるP(B|up,today,<p>)の値がP(I|up,today,<p>)の値よりも大きければ、<p>は分割位置(翻訳単位)であると判定できる。よって、<p>の前段部分である、文字列「cuz time’s up today」が翻訳単位文字列として生成される。
次に、語句変換部104で参照される変換辞書の一例について図4を参照して説明する。
図4は、フィラー401と、口語表現402および文語表現403との一覧を格納する変換辞書を示す。例えば、フィラー401として、「んー」「えーっと」が変換辞書に格納されており、翻訳単位文字列中に「んー」「えーっと」という単語が含まれていれば、語句変換部104は、翻訳単位文字列から対応する単語を削除する。
図4は、フィラー401と、口語表現402および文語表現403との一覧を格納する変換辞書を示す。例えば、フィラー401として、「んー」「えーっと」が変換辞書に格納されており、翻訳単位文字列中に「んー」「えーっと」という単語が含まれていれば、語句変換部104は、翻訳単位文字列から対応する単語を削除する。
また、口語表現402と翻訳単位文字列中の口語表現とが一致すれば、口語表現402を文語表現403に変更する。例えば、口語表現402「cuz」が翻訳単位文字列中に含まれていれば、口語表現402「cuz」を文語表現403「Because」に変換する。
次に、第1の実施形態に係る音声翻訳装置100の動作について図5のフローチャートを参照して説明する。
ここでは、表示部106に変換文字列および翻訳文字列が表示されるまでの処理を示す。また、音声取得部101は順次音声を取得し、音声認識部102が順次、音声信号の音声認識処理を行うことを想定する。
ここでは、表示部106に変換文字列および翻訳文字列が表示されるまでの処理を示す。また、音声取得部101は順次音声を取得し、音声認識部102が順次、音声信号の音声認識処理を行うことを想定する。
ステップS501では、音声認識部102が、認識結果文字列を格納するためのバッファを初期化する。バッファは音声認識部102に含まれてもよいし、外部のバッファを利用してもよい。
ステップS502では、音声認識部102が、音声認識処理が完了したかどうかを判定する。ここで、音声認識処理が完了したとは、音声認識処理が完了して確定した部分の認識結果文字列をいつでも翻訳単位検出部103に出力できる状態をいう。音声認識処理が完了した場合ステップS503に進み、音声認識処理が完了していない場合ステップS506に進む。
ステップS502では、音声認識部102が、音声認識処理が完了したかどうかを判定する。ここで、音声認識処理が完了したとは、音声認識処理が完了して確定した部分の認識結果文字列をいつでも翻訳単位検出部103に出力できる状態をいう。音声認識処理が完了した場合ステップS503に進み、音声認識処理が完了していない場合ステップS506に進む。
ステップS503では、音声認識部102が、バッファに格納される認識結果文字列に新たに生成した認識結果文字列を連結する。なお、最初の処理などでバッファが空の場合は、認識結果文字列をそのまま格納する。
ステップS504では、翻訳単位検出部103が、バッファから認識結果文字列を受け取り、認識結果文字列から翻訳単位の検出を試みる。翻訳単位の検出が成功した場合ステップS505に進み、翻訳単位の検出に失敗する、すなわち翻訳単位が存在しない場合は、ステップS502に戻り同様の処理を繰り返す。
ステップS504では、翻訳単位検出部103が、バッファから認識結果文字列を受け取り、認識結果文字列から翻訳単位の検出を試みる。翻訳単位の検出が成功した場合ステップS505に進み、翻訳単位の検出に失敗する、すなわち翻訳単位が存在しない場合は、ステップS502に戻り同様の処理を繰り返す。
ステップS505では、翻訳単位検出部103が、検出された翻訳単位に基づいて、翻訳単位文字列を生成する。
ステップS506では、音声認識部102が、経過時間が閾値時間以内であるかどうかを判定する。経過時間が閾値時間以内であるかどうかは、音声認識部102において、例えばタイマーなどにより認識結果文字列が生成されてからの経過時間を計測し、経過時間が閾値以内であるかどうかを判定すればよい。経過時間が閾値時間以内であればステップS502に戻り、同様の処理を繰り返す。経過時間が閾値時間よりも大きければステップS507に進む。
ステップS507では、翻訳単位検出部103が、バッファに格納される認識結果文字列を翻訳単位文字列として取得する。
ステップS506では、音声認識部102が、経過時間が閾値時間以内であるかどうかを判定する。経過時間が閾値時間以内であるかどうかは、音声認識部102において、例えばタイマーなどにより認識結果文字列が生成されてからの経過時間を計測し、経過時間が閾値以内であるかどうかを判定すればよい。経過時間が閾値時間以内であればステップS502に戻り、同様の処理を繰り返す。経過時間が閾値時間よりも大きければステップS507に進む。
ステップS507では、翻訳単位検出部103が、バッファに格納される認識結果文字列を翻訳単位文字列として取得する。
ステップS508では、語句変換部104が、翻訳単位文字列から不要語を削除し、口語表現を文語表現に変換し、変換文字列を生成する。
ステップS509では、機械翻訳部105が、変換文字列を第1言語から第2言語へ翻訳し、翻訳文字列を生成する。
ステップS510では、表示部106が、変換文字列および翻訳文字列を対応付けて表示する。以上で第1の実施形態に係る音声翻訳装置100の動作を終了する。
ステップS509では、機械翻訳部105が、変換文字列を第1言語から第2言語へ翻訳し、翻訳文字列を生成する。
ステップS510では、表示部106が、変換文字列および翻訳文字列を対応付けて表示する。以上で第1の実施形態に係る音声翻訳装置100の動作を終了する。
次に、認識結果文字列の生成タイミングと翻訳単位の検出タイミングとについて図6を参照して説明する。
図6の上段は、音声認識結果である認識結果文字列である。図6の下段は、翻訳単位文字列であり、時系列にそった検出タイミングを示す。
図6の上段は、音声認識結果である認識結果文字列である。図6の下段は、翻訳単位文字列であり、時系列にそった検出タイミングを示す。
音声認識部102は、ユーザが発話を休止し、閾値以上の時間が経過する(例えば、200ミリ秒以上の休止期間を検出する)と、それ以前の音声認識結果を確定し、音声認識結果が出力可能となる。ここで、図6に示すように、t1、t2、t3、t4、t5およびt6で休止期間が検出されると、音声認識部102は認識結果文字列を確定する。
すなわち、翻訳単位検出部103は、t2では期間601における認識結果文字列を、t3では期間602における認識結果文字列を、t5では期間603における認識結果文字列を、t6では期間604における認識結果文字列を、それぞれ受け取る。
一方、翻訳単位検出部103では、取得した認識結果文字列を翻訳単位として検出できる場合とできない場合とがある。
例えば、期間601における認識結果文字列「cuz time’s up today」は、図3で上述した処理により翻訳単位と判定できるので、翻訳単位文字列611として生成できる。しかし、期間602における認識結果文字列「Hmm, Let’s have a next meeting」では、休止があるものの文のつながりが切れているかどうかは不明であるため、翻訳単位として判定できない。
例えば、期間601における認識結果文字列「cuz time’s up today」は、図3で上述した処理により翻訳単位と判定できるので、翻訳単位文字列611として生成できる。しかし、期間602における認識結果文字列「Hmm, Let’s have a next meeting」では、休止があるものの文のつながりが切れているかどうかは不明であるため、翻訳単位として判定できない。
そこで、次の期間603の音声認識結果を利用できるまで、翻訳単位文字列として決定されずに、図5に示すステップS503に示されるように、t5の時点で期間602の認識結果文字列と期間603の認識結果文字列を連結した文字列を対象として処理を行う。これによって、翻訳単位を検出でき、翻訳単位文字列612「hmm let’s have a next meeting on Monday」を生成できる。
また、翻訳単位を検出した結果、認識結果文字列の後半部分が後続の翻訳単位とすべきと判定される場合がある。例えば、翻訳単位文字列612が生成された時点で、期間605で生成される認識結果文字列「er」は、翻訳単位として判定されないので、後続の音声認識結果が利用できるまで待機する。t6の時点で期間604の認識結果文字列と期間605の認識結果文字列とを連結した文字列を翻訳単位文字列613「er is that OK for you」として検出する。
このように、翻訳単位検出部103は、音声認識部102により生成される認識結果文字列を時系列順に順次読み込むことで、翻訳単位を検出して翻訳単位文字列を生成する。なお、図6では、休止を検出した場合に音声認識結果が生成される場合を想定するが、音声認識部102が、曖昧性のない言語要素を検出した場合に認識結果文字列として決定するようにしてもよい。
次に、音声翻訳装置の各部で出力される文字列の具体例について図7を参照して説明する。
図7に示すように、ユーザから音声701「Cuz time’s up today.Hmm, Let’s have a next meeting on Monday. Is that OK for you?」を取得したと想定する。
音声認識部102が音声701を音声認識処理することにより、認識結果文字列702「Cuz time’s up today. Hmm, Let’s have a next meeting on Monday. Is that OK for you?」を得る。
図7に示すように、ユーザから音声701「Cuz time’s up today.Hmm, Let’s have a next meeting on Monday. Is that OK for you?」を取得したと想定する。
音声認識部102が音声701を音声認識処理することにより、認識結果文字列702「Cuz time’s up today. Hmm, Let’s have a next meeting on Monday. Is that OK for you?」を得る。
続いて、翻訳単位検出部103が認識結果文字列702に対して翻訳単位を検出することで、翻訳単位文字列703として3つの文「cuz time’s up today」「hmm let’s have a next meeting on Monday」「Is that OK for you」を生成する。
続いて、語句変換部104が翻訳単位文字列703に対して、フィラー「hmm」を削除し、口語表現「cuz」を文語表現「Because」に変換して、変換文字列704「Because time’s up today.」「Let’s have a next meeting on Monday.」「Is that OK for you?」を生成する。
続いて、語句変換部104が翻訳単位文字列703に対して、フィラー「hmm」を削除し、口語表現「cuz」を文語表現「Because」に変換して、変換文字列704「Because time’s up today.」「Let’s have a next meeting on Monday.」「Is that OK for you?」を生成する。
最後に、機械翻訳部105が変換文字列704を第1言語から第2言語へ翻訳する。ここでは、英語から日本語へ翻訳し、翻訳文字列705「今日は時間切れなので。」「月曜日に次の会議を持ちましょう。」「大丈夫でしょうか?」を生成する。
次に、表示部106における表示例について図8を参照して説明する。
図8に示すように、あるユーザの発話として、変換文字列「議論すべき項目は他にありますか?」と対応する翻訳文字列「Do you have any other items to be discussed?」とが1組で吹き出し801に表示される。これに対する他のユーザの発話として、吹き出し802、吹き出し803および吹き出し804が、時系列に沿って翻訳文字列が生成されるタイミングで表示される。例えば、変換文字列「Because time’s up today.」と対応する翻訳文字列「今日は時間切れなので」とが1組となって吹き出し802に表示される。
図8に示すように、あるユーザの発話として、変換文字列「議論すべき項目は他にありますか?」と対応する翻訳文字列「Do you have any other items to be discussed?」とが1組で吹き出し801に表示される。これに対する他のユーザの発話として、吹き出し802、吹き出し803および吹き出し804が、時系列に沿って翻訳文字列が生成されるタイミングで表示される。例えば、変換文字列「Because time’s up today.」と対応する翻訳文字列「今日は時間切れなので」とが1組となって吹き出し802に表示される。
以上に示した第1の実施形態によれば、翻訳単位文字列に対して不要語を削除し、口語表現を文語表現に変換することで、ユーザが意図する機械翻訳結果を得ることができ、円滑な音声対話を実現することができる。
(第2の実施形態)
音声会議システムにおいて音声翻訳装置を利用することを想定する場合、母語として複数の言語により発話が行われることが想定される。この場合、相手の言語に対する理解能力が高く、相手の言語を音声を聞いて理解できる参加者、相手の言語が文字で視認できれば理解できる参加者、相手の言語が全く理解できず自分の言語に翻訳されている必要がある参加者といった、様々な参加者が想定される。
第2の実施形態では、例えば音声会議システムに利用するような、複数のユーザが音声翻訳装置を利用する場合を想定する。
音声会議システムにおいて音声翻訳装置を利用することを想定する場合、母語として複数の言語により発話が行われることが想定される。この場合、相手の言語に対する理解能力が高く、相手の言語を音声を聞いて理解できる参加者、相手の言語が文字で視認できれば理解できる参加者、相手の言語が全く理解できず自分の言語に翻訳されている必要がある参加者といった、様々な参加者が想定される。
第2の実施形態では、例えば音声会議システムに利用するような、複数のユーザが音声翻訳装置を利用する場合を想定する。
第2の実施形態に係る音声翻訳システムについて図9を参照して説明する。
音声翻訳システム900は、音声翻訳サーバ910および複数の端末920を含む。
図9の例では、端末920−1、端末920−2および端末920−n(nは3以上の正数)をそれぞれ1人のユーザが利用する場合を想定する。なお、以下では、端末920−1を端末920の説明の例として説明する。
音声翻訳システム900は、音声翻訳サーバ910および複数の端末920を含む。
図9の例では、端末920−1、端末920−2および端末920−n(nは3以上の正数)をそれぞれ1人のユーザが利用する場合を想定する。なお、以下では、端末920−1を端末920の説明の例として説明する。
端末920は、ユーザから音声を取得し、音声翻訳サーバ910に音声信号を送信する。
音声翻訳サーバ910は、受信した音声信号を格納する。さらに、音声信号に基づいて、翻訳単位文字列、変換文字列および翻訳文字列を生成し、それぞれ格納する。音声翻訳サーバ910は、変換文字列および翻訳文字列を端末920に送信する。変換文字列および翻訳文字列を複数の端末920に送信する場合は、音声翻訳サーバ910は、変換文字列および翻訳文字列を各端末920にブロードキャストすればよい。
端末920は、受信した変換文字列および翻訳文字列を表示する。また、ユーザからの指示がある場合は、ユーザにより指示された変換文字列または翻訳文字列に対応する区間の音声信号を音声翻訳サーバ910に要求する。
音声翻訳サーバ910は、端末920からの要求に応じて、変換文字列または翻訳文字列に対応する区間の音声信号である部分音声信号を端末920に送信する。
端末920は、部分音声信号を音声としてスピーカなどから出力する。
音声翻訳サーバ910は、受信した音声信号を格納する。さらに、音声信号に基づいて、翻訳単位文字列、変換文字列および翻訳文字列を生成し、それぞれ格納する。音声翻訳サーバ910は、変換文字列および翻訳文字列を端末920に送信する。変換文字列および翻訳文字列を複数の端末920に送信する場合は、音声翻訳サーバ910は、変換文字列および翻訳文字列を各端末920にブロードキャストすればよい。
端末920は、受信した変換文字列および翻訳文字列を表示する。また、ユーザからの指示がある場合は、ユーザにより指示された変換文字列または翻訳文字列に対応する区間の音声信号を音声翻訳サーバ910に要求する。
音声翻訳サーバ910は、端末920からの要求に応じて、変換文字列または翻訳文字列に対応する区間の音声信号である部分音声信号を端末920に送信する。
端末920は、部分音声信号を音声としてスピーカなどから出力する。
次に、音声翻訳サーバ910と端末920との詳細について説明する。
音声翻訳サーバ910は、音声認識部102、翻訳単位検出部103、語句変換部104、機械翻訳部105、データ格納部911およびサーバ通信部912を含む。
音声認識部102、翻訳単位検出部103、語句変換部104および機械翻訳部105は、第1の実施形態と同様の動作を行うのでここでの説明を省略する。
データ格納部911は、各端末920から、音声信号を受け取り、音声信号を送信した端末の端末IDと対応付けて格納する。また、翻訳単位文字列などを受け取って格納する。データ格納部911の詳細については、図10を参照して後述する。
サーバ通信部912は、ネットワーク930を介して、端末920から音声信号を受信し、翻訳文字列及び変換文字列を端末920へ送信するなどのデータ通信を行う。
音声翻訳サーバ910は、音声認識部102、翻訳単位検出部103、語句変換部104、機械翻訳部105、データ格納部911およびサーバ通信部912を含む。
音声認識部102、翻訳単位検出部103、語句変換部104および機械翻訳部105は、第1の実施形態と同様の動作を行うのでここでの説明を省略する。
データ格納部911は、各端末920から、音声信号を受け取り、音声信号を送信した端末の端末IDと対応付けて格納する。また、翻訳単位文字列などを受け取って格納する。データ格納部911の詳細については、図10を参照して後述する。
サーバ通信部912は、ネットワーク930を介して、端末920から音声信号を受信し、翻訳文字列及び変換文字列を端末920へ送信するなどのデータ通信を行う。
次に、端末920は、音声取得部101、指示取得部921、音声出力部922、表示部106および端末通信部923を含む。
音声取得部101および表示部106の動作は第1の実施形態と同様であるので、ここでの説明を省略する。
指示取得部921は、ユーザからの指示を取得する。具体的には、例えば、ユーザが指やペンを用いて表示部106の表示領域をタッチするといった、ユーザからの入力を指示として取得する。また、マウスなどのポインティングデバイスによるユーザからの入力を指示として取得してもよい。
音声取得部101および表示部106の動作は第1の実施形態と同様であるので、ここでの説明を省略する。
指示取得部921は、ユーザからの指示を取得する。具体的には、例えば、ユーザが指やペンを用いて表示部106の表示領域をタッチするといった、ユーザからの入力を指示として取得する。また、マウスなどのポインティングデバイスによるユーザからの入力を指示として取得してもよい。
音声出力部922は、後述の端末通信部923からデジタル形式の音声信号を受け取り、デジタル形式の音声信号をデジタルアナログ変換(DA変換)して、アナログ形式の音声信号を、例えばスピーカにより音声として出力する。
端末通信部923は、ネットワーク930を介して、音声信号を音声翻訳サーバ910に送信し、音声翻訳サーバ910から音声信号、変換文字列および翻訳文字列などを受信するといったデータ通信を行う。
端末通信部923は、ネットワーク930を介して、音声信号を音声翻訳サーバ910に送信し、音声翻訳サーバ910から音声信号、変換文字列および翻訳文字列などを受信するといったデータ通信を行う。
次に、データ格納部911に格納されるデータの一例について図10を参照して説明する。
データ格納部911には、音声翻訳サーバ910側の処理結果となるデータを格納する第1データ領域と、端末920からの音声信号に関するデータを格納する第2データ領域とを含む。なお、説明の便宜上、データ領域を2つに分けているが、これに限らず、1つのデータ領域としてまとめてもよいし、3つ以上のデータ領域が存在してもよい。
データ格納部911には、音声翻訳サーバ910側の処理結果となるデータを格納する第1データ領域と、端末920からの音声信号に関するデータを格納する第2データ領域とを含む。なお、説明の便宜上、データ領域を2つに分けているが、これに限らず、1つのデータ領域としてまとめてもよいし、3つ以上のデータ領域が存在してもよい。
第1データ領域には、端末ID1001、文ID1002、開始時刻1003、終了時刻1004、語句変換結果1005および機械翻訳結果1006が、それぞれ対応付けられて格納される。
端末ID1001は、端末ごとに付与される識別子である。なお、端末ID1001は、利用者のIDで代用してもよい。文ID1002は、翻訳単位文字列ごとに付与される識別子である。開始時刻1003は、文ID1002が付与される翻訳単位文字列の開始時刻である。終了時刻1004は、文ID1002が付与される翻訳単位文字列の終了時刻である。語句変換結果1005は、文ID1002が付与される翻訳単位文字列から生成される変換文字列である。機械翻訳結果1006は、変換文字列から生成される翻訳文字列である。ここで、開始時刻1003と終了時刻1004とは、対応する語句変換結果1005および機械翻訳結果1006のそれぞれの時刻に対応する値である。
端末ID1001は、端末ごとに付与される識別子である。なお、端末ID1001は、利用者のIDで代用してもよい。文ID1002は、翻訳単位文字列ごとに付与される識別子である。開始時刻1003は、文ID1002が付与される翻訳単位文字列の開始時刻である。終了時刻1004は、文ID1002が付与される翻訳単位文字列の終了時刻である。語句変換結果1005は、文ID1002が付与される翻訳単位文字列から生成される変換文字列である。機械翻訳結果1006は、変換文字列から生成される翻訳文字列である。ここで、開始時刻1003と終了時刻1004とは、対応する語句変換結果1005および機械翻訳結果1006のそれぞれの時刻に対応する値である。
第2データ領域には、端末ID1001、音声信号1007、開始時刻1008および終了時刻1009を含む。
音声信号1007は、端末ID1001から受信した音声信号である。開始時刻1008は、音声信号1007の開始時刻である。終了時刻1009は、音声信号1007の終了時刻である。なお、第2データ領域に格納されるデータの単位は、音声認識部102で生成される認識結果文字列の単位であるので、開始時刻1008および終了時刻1009は認識結果文字列に対応する値となる。すなわち、開始時刻1008および終了時刻1009との間の認識結果文字列に対応する音声信号(部分音声信号)が、音声信号1007として格納される。
なお、端末ID1001および文ID1002を対応する語句変換結果1005および機械翻訳結果1006を端末920で記憶してもよい。このようにすることで、端末920において、変換文字列および翻訳文字列に対してユーザからの指示がある場合に、対応する音声信号をデータ格納部911から早く読み出すことができ、処理効率を上げることができる。
次に、第2の実施形態に係る音声翻訳サーバ910の動作について図11のフローチャートを参照して説明する。
なお、ステップS501からステップS509までの処理は第1の実施形態と同様であるので、説明を省略する。
ステップS1101では、音声認識部102が端末920から端末IDと音声信号とを受け取り、データ格納部911が、音声認識部102の処理結果である認識結果文字列に対応する音声信号、開始時刻および終了時刻を対応付けて格納する。
ステップS1102では、データ格納部911が、端末ID、文ID、翻訳単位文字列、変換文字列および翻訳文字列と、開始時刻および終了時刻とを対応付けて格納する。
ステップS1103では、音声翻訳サーバ910は、変換文字列と翻訳文字列とを端末920に送信する。
なお、ステップS501からステップS509までの処理は第1の実施形態と同様であるので、説明を省略する。
ステップS1101では、音声認識部102が端末920から端末IDと音声信号とを受け取り、データ格納部911が、音声認識部102の処理結果である認識結果文字列に対応する音声信号、開始時刻および終了時刻を対応付けて格納する。
ステップS1102では、データ格納部911が、端末ID、文ID、翻訳単位文字列、変換文字列および翻訳文字列と、開始時刻および終了時刻とを対応付けて格納する。
ステップS1103では、音声翻訳サーバ910は、変換文字列と翻訳文字列とを端末920に送信する。
次に、端末920における音声出力処理について図12のフローチャートを参照して説明する。
ステップS1201では、指示取得部921が、ユーザからの指示を取得したかどうかを判定する。ユーザからの指示を取得した場合は、ステップS1202に進み、ユーザからの指示を取得していない場合は、指示を取得するまで待機する。
ステップS1202では、指示取得部921が、端末IDとユーザが指示した文の文IDとに基づいて、音声翻訳サーバ910のデータ格納部911を参照して対応する開始時刻および終了時刻を取得する。
ステップS1203では、指示取得部921が、端末ID、開始時刻および終了時刻に基づいて、対応する区間の音声信号(部分音声信号)をデータ格納部911から取得する。
ステップS1201では、指示取得部921が、ユーザからの指示を取得したかどうかを判定する。ユーザからの指示を取得した場合は、ステップS1202に進み、ユーザからの指示を取得していない場合は、指示を取得するまで待機する。
ステップS1202では、指示取得部921が、端末IDとユーザが指示した文の文IDとに基づいて、音声翻訳サーバ910のデータ格納部911を参照して対応する開始時刻および終了時刻を取得する。
ステップS1203では、指示取得部921が、端末ID、開始時刻および終了時刻に基づいて、対応する区間の音声信号(部分音声信号)をデータ格納部911から取得する。
ステップS1204では、音声出力部922が、音声信号を出力する。以上で、端末920における音声出力処理を終了する。
次に、第2の実施形態に係る表示部106の表示例について図13を参照して説明する。
図13の例では、図8の吹き出し801から吹き出し804に加え、アイコン1301を表示する。ユーザがアイコン1301にタッチすることにより、吹き出しの変換文字列または翻訳文字列に対応する部分音声信号が音声として出力される。
図13の例では、図8の吹き出し801から吹き出し804に加え、アイコン1301を表示する。ユーザがアイコン1301にタッチすることにより、吹き出しの変換文字列または翻訳文字列に対応する部分音声信号が音声として出力される。
具体的には、例えば、ユーザが吹き出し802中の「Because time’s up today.」に関する音声を聞きたい場合、吹き出しの横にあるアイコン1301をタッチすることにより、「Because time’s up today.」に対応する元の音声信号「cuz time’s up today」が出力される。
次に、表示部106における表示の第1の別例について図14を参照して説明する。
本実施形態では、音声取得部101においてユーザからの発話を取得し、音声翻訳サーバ910の音声認識部102において音声認識結果である認識結果文字列をバッファにためながら、翻訳単位検出部103により前方から翻訳単位の検出が行われる。よって、表示部106では、翻訳文字列の表示にタイムラグが生じる可能性がある。
本実施形態では、音声取得部101においてユーザからの発話を取得し、音声翻訳サーバ910の音声認識部102において音声認識結果である認識結果文字列をバッファにためながら、翻訳単位検出部103により前方から翻訳単位の検出が行われる。よって、表示部106では、翻訳文字列の表示にタイムラグが生じる可能性がある。
そこで、図14に示すように、認識結果文字列が得られた時点で、翻訳単位文字列が生成されてから翻訳文字列が生成されるまでの間、認識結果文字列を表示エリア1401に表示するようにしてもよい。これによって、認識結果文字列の表示のタイムラグを低減することができる。さらに、翻訳文字列が得られた場合は、表示エリア1401に表示された認識結果文字列を削除するようにしてもよい。
次に、表示部106における表示の第2の別例について図15を参照して説明する。
例えば、音声会議などで相手の言語が全く理解できないユーザによっては、相手の言語が表示される必要が無い場合も考えられる。そこで、相手言語である変換文字列または翻訳文字列を非表示にすればよい。図15に示すように、母語が英語であるユーザの場合には、吹き出し1501に英語を表示し、母語が日本語であるユーザの場合には、吹き出し1502に日本語を表示すればよい。
例えば、音声会議などで相手の言語が全く理解できないユーザによっては、相手の言語が表示される必要が無い場合も考えられる。そこで、相手言語である変換文字列または翻訳文字列を非表示にすればよい。図15に示すように、母語が英語であるユーザの場合には、吹き出し1501に英語を表示し、母語が日本語であるユーザの場合には、吹き出し1502に日本語を表示すればよい。
一方、相手の言語がある程度理解できるが、聞き取り能力がそれほど高くないユーザの場合には、翻訳文字列は非表示とし、変換文字列を表示するようにしてもよい。
なお、上述の第2の実施形態では、音声認識部102、語句変換部104および機械翻訳部105は音声翻訳サーバ910に含まれるが、端末920に含まれるようにしてもよい。但し、2以上の言語を用いた会話を支援することを想定する場合は、少なくとも機械翻訳部105は、音声翻訳サーバ910に含まれることが望ましい。
また、音声翻訳サーバ910を用いずに、上述の音声翻訳サーバ910の構成と端末902の構成とを含む音声認識装置となる端末同士で処理を行ってもよい。端末同士で通信を行う場合の端末のブロック図を図16に示す。
端末1600は、音声取得部101、音声認識部102、翻訳単位検出部103、語句変換部104、機械翻訳部105、表示部106、データ格納部911、サーバ通信部912、指示取得部921、音声出力部922および端末通信部923を含む。これによって、端末1600同士が通信を行うことにより、音声対話システムと同様の処理を行うことができ、ピアツーピア(P2P)システムを実現することができる。
端末1600は、音声取得部101、音声認識部102、翻訳単位検出部103、語句変換部104、機械翻訳部105、表示部106、データ格納部911、サーバ通信部912、指示取得部921、音声出力部922および端末通信部923を含む。これによって、端末1600同士が通信を行うことにより、音声対話システムと同様の処理を行うことができ、ピアツーピア(P2P)システムを実現することができる。
以上に示した第2の実施形態によれば、ユーザの指示に応じて、変換文字列および翻訳文字列に対応する部分音声信号を出力することができる。また、ユーザの理解レベルに応じた表示を選択することができ、円滑な音声対話を行うことができる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した音声翻訳装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の音声翻訳装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100・・・音声翻訳装置、101・・・音声取得部、102・・・音声認識部、103・・・翻訳単位検出部、104・・・語句変換部、105・・・機械翻訳部、106・・・表示部、201・・・コーパス、202,203,302・・・形態素解析結果、301,702・・・認識結果文字列、401・・・フィラー、402・・・口語表現、403・・・文語表現、601〜605・・・期間、611〜613,703・・・翻訳単位文字列、701・・・音声、704・・・変換文字列、705・・・翻訳文字列、801〜804,1501,1502・・・吹き出し、900・・・音声翻訳システム、910・・・音声翻訳サーバ、911・・・データ格納部、912・・・サーバ通信部、920,920−1〜920−n,1600・・・端末、921・・・指示取得部、922・・・音声出力部、923・・・端末通信部、930・・・ネットワーク、1001・・・端末ID、1002・・・文ID、1003,1008・・・開始時刻、1004,1009・・・終了時刻、1005・・・語句変換結果、1006・・・機械翻訳結果、1007・・・音声信号、1301・・・アイコン、1401・・・表示エリア。
Claims (10)
- 第1言語による音声を音声認識し、認識結果文字列を生成する音声認識部と、
前記認識結果文字列から翻訳に適する翻訳単位を検出し、該翻訳単位に基づいて該認識結果文字列を分割した翻訳単位文字列を生成する検出部と、
前記翻訳単位文字列を機械翻訳に適する表現である変換文字列に変換する変換部と、
前記変換文字列を前記第1言語とは異なる第2言語に翻訳し、翻訳文字列を生成する翻訳部と、を具備することを特徴とする音声翻訳装置。 - 前記変換部は、前記翻訳単位文字列に含まれる不要語を削除することを特徴とする請求項1に記載の音声翻訳装置。
- 前記変換部は、前記翻訳単位文字列に含まれる口語表現を文語表現に変換することを特徴とする請求項1または請求項2に記載の音声翻訳装置。
- 前記変換文字列と前記翻訳文字列とを対応付けて表示する表示部をさらに具備することを特徴とする請求項1から請求項3のいずれか1項に記載の音声翻訳装置。
- 前記表示部は、前記翻訳単位文字列が生成されてから前記翻訳文字列が生成されるまでの間、前記認識結果文字列を表示することを特徴とする請求項4に記載の音声翻訳装置。
- 前記表示部は、前記変換文字列または前記翻訳文字列に関して、前記第1言語および前記第2言語のどちらか一方による表記を非表示とすることを特徴とする請求項4または請求項5に記載の音声翻訳装置。
- 前記検出部は、少なくとも前記音声のポーズ、発話中のフィラーを手掛かりとして検出を行うことを特徴とする請求項1から請求項6のいずれか1項に記載の音声翻訳装置。
- 前記第1言語による音声を音声信号として取得する音声取得部と、
前記音声信号と、該音声信号の開始時刻と、該音声信号の終了時刻と、該音声信号から生成される翻訳単位文字列と、該翻訳単位文字列から変換される変換文字列と、該変換文字列から生成される翻訳文字列とを格納する格納部と、
ユーザからの指示を取得する指示取得部と、
前記指示により、前記変換文字列または前記翻訳文字列に対応する区間の音声信号である部分音声信号を音声として出力する出力部と、をさらに具備することを特徴とする請求項1から請求項7のいずれか1項に記載の音声翻訳装置。 - 第1言語による音声を音声認識し、認識結果文字列を生成し、
前記認識結果文字列から翻訳に適する翻訳単位を検出し、該翻訳単位に基づいて該認識結果文字列を分割した翻訳単位文字列を生成し、
前記翻訳単位文字列を機械翻訳に適する表現である変換文字列に変換し、
前記変換文字列を前記第1言語とは異なる第2言語に翻訳し、翻訳文字列を生成することを特徴とする音声翻訳方法。 - コンピュータを、
第1言語による音声を音声認識し、認識結果文字列を生成する音声認識手段と、
前記認識結果文字列から翻訳に適する翻訳単位を検出し、該翻訳単位に基づいて該認識結果文字列を分割した翻訳単位文字列を生成する検出手段と、
前記翻訳単位文字列を機械翻訳に適する表現である変換文字列に変換する変換手段と、
前記変換文字列を前記第1言語とは異なる第2言語に翻訳し、翻訳文字列を生成する翻訳手段として機能させるための音声翻訳プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014185583A JP2016057986A (ja) | 2014-09-11 | 2014-09-11 | 音声翻訳装置、方法およびプログラム |
CN201510566882.2A CN105426362A (zh) | 2014-09-11 | 2015-09-08 | 语音翻译装置、方法及程序 |
US14/848,319 US20160078020A1 (en) | 2014-09-11 | 2015-09-08 | Speech translation apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014185583A JP2016057986A (ja) | 2014-09-11 | 2014-09-11 | 音声翻訳装置、方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016057986A true JP2016057986A (ja) | 2016-04-21 |
Family
ID=55454915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014185583A Pending JP2016057986A (ja) | 2014-09-11 | 2014-09-11 | 音声翻訳装置、方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20160078020A1 (ja) |
JP (1) | JP2016057986A (ja) |
CN (1) | CN105426362A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016095727A (ja) * | 2014-11-14 | 2016-05-26 | シャープ株式会社 | 表示装置、サーバ、コミュニケーション支援システム、コミュニケーション支援方法、及び制御プログラム |
US9588967B2 (en) | 2015-04-22 | 2017-03-07 | Kabushiki Kaisha Toshiba | Interpretation apparatus and method |
JP2018081458A (ja) * | 2016-11-15 | 2018-05-24 | 能美防災株式会社 | 警報プログラムおよびそれを用いた端末 |
JP2018151413A (ja) * | 2017-03-09 | 2018-09-27 | 株式会社東芝 | 音声認識装置、音声認識方法およびプログラム |
JP2019109424A (ja) * | 2017-12-20 | 2019-07-04 | 株式会社日立製作所 | 計算機、言語解析方法、及びプログラム |
US10423700B2 (en) | 2016-03-16 | 2019-09-24 | Kabushiki Kaisha Toshiba | Display assist apparatus, method, and program |
JP2019534492A (ja) * | 2016-08-18 | 2019-11-28 | ハイパーコネクト インコーポレイテッド | 通訳装置及び方法(device and method of translating a language into another language) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6453631B2 (ja) * | 2014-11-28 | 2019-01-16 | 株式会社東芝 | 認識システム、認識方法およびプログラム |
CN105843811B (zh) * | 2015-01-13 | 2019-12-06 | 华为技术有限公司 | 转换文本的方法和设备 |
EP3480739A4 (en) * | 2016-06-30 | 2019-06-26 | Panasonic Intellectual Property Management Co., Ltd. | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING FOR TIME SERIES DATA AND PROGRAM |
KR102565274B1 (ko) * | 2016-07-07 | 2023-08-09 | 삼성전자주식회사 | 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치 |
JP6819988B2 (ja) * | 2016-07-28 | 2021-01-27 | 国立研究開発法人情報通信研究機構 | 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム |
KR102580904B1 (ko) * | 2016-09-26 | 2023-09-20 | 삼성전자주식회사 | 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스 |
KR20180077689A (ko) * | 2016-12-29 | 2018-07-09 | 주식회사 엔씨소프트 | 자연어 생성 장치 및 방법 |
US10971157B2 (en) * | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
CN107221329A (zh) * | 2017-07-06 | 2017-09-29 | 上海思依暄机器人科技股份有限公司 | 一种对话控制方法、装置及机器人 |
KR102449875B1 (ko) | 2017-10-18 | 2022-09-30 | 삼성전자주식회사 | 음성 신호 번역 방법 및 그에 따른 전자 장치 |
US10902205B2 (en) | 2017-10-25 | 2021-01-26 | International Business Machines Corporation | Facilitating automatic detection of relationships between sentences in conversations |
US20190267002A1 (en) * | 2018-02-26 | 2019-08-29 | William Crose | Intelligent system for creating and editing work instructions |
CN108447486B (zh) * | 2018-02-28 | 2021-12-03 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
CN110728976B (zh) * | 2018-06-30 | 2022-05-06 | 华为技术有限公司 | 语音识别的方法、装置及系统 |
CN109582982A (zh) * | 2018-12-17 | 2019-04-05 | 北京百度网讯科技有限公司 | 用于翻译语音的方法和装置 |
US11328131B2 (en) * | 2019-03-12 | 2022-05-10 | Jordan Abbott ORLICK | Real-time chat and voice translator |
CN111031232B (zh) * | 2019-04-24 | 2022-01-28 | 广东小天才科技有限公司 | 一种听写实时检测的方法及电子设备 |
WO2020235136A1 (ja) * | 2019-05-20 | 2020-11-26 | 株式会社Nttドコモ | 対話システム |
CN110162252A (zh) * | 2019-05-24 | 2019-08-23 | 北京百度网讯科技有限公司 | 同声传译系统、方法、移动终端及服务器 |
KR20210015064A (ko) * | 2019-07-31 | 2021-02-10 | 삼성전자주식회사 | 전자장치와 그의 제어방법, 및 기록매체 |
US20230238001A1 (en) * | 2020-09-03 | 2023-07-27 | Spark23 Corp | Eyeglass augmented reality speech to text device and method |
CN115086283B (zh) * | 2022-05-18 | 2024-02-06 | 阿里巴巴(中国)有限公司 | 语音流的处理方法和装置 |
US11704507B1 (en) * | 2022-10-31 | 2023-07-18 | Kudo, Inc. | Systems and methods for automatic speech translation |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006276754A (ja) * | 2005-03-30 | 2006-10-12 | Mitsubishi Electric Information Systems Corp | オペレータ業務支援システム |
JP2011182125A (ja) * | 2010-02-26 | 2011-09-15 | Sharp Corp | 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム |
JP2011191922A (ja) * | 2010-03-12 | 2011-09-29 | Sharp Corp | 翻訳装置、翻訳方法及びコンピュータプログラム |
JP2012073941A (ja) * | 2010-09-29 | 2012-04-12 | Toshiba Corp | 音声翻訳装置、方法、及びプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4481972B2 (ja) * | 2006-09-28 | 2010-06-16 | 株式会社東芝 | 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム |
US8972268B2 (en) * | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
KR100911621B1 (ko) * | 2007-12-18 | 2009-08-12 | 한국전자통신연구원 | 한영 자동번역 방법 및 장치 |
US8996352B2 (en) * | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for correcting translations in multi-user multi-lingual communications |
US9231898B2 (en) * | 2013-02-08 | 2016-01-05 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9031829B2 (en) * | 2013-02-08 | 2015-05-12 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
JP6235280B2 (ja) * | 2013-09-19 | 2017-11-22 | 株式会社東芝 | 音声同時処理装置、方法およびプログラム |
US9734820B2 (en) * | 2013-11-14 | 2017-08-15 | Nuance Communications, Inc. | System and method for translating real-time speech using segmentation based on conjunction locations |
-
2014
- 2014-09-11 JP JP2014185583A patent/JP2016057986A/ja active Pending
-
2015
- 2015-09-08 US US14/848,319 patent/US20160078020A1/en not_active Abandoned
- 2015-09-08 CN CN201510566882.2A patent/CN105426362A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006276754A (ja) * | 2005-03-30 | 2006-10-12 | Mitsubishi Electric Information Systems Corp | オペレータ業務支援システム |
JP2011182125A (ja) * | 2010-02-26 | 2011-09-15 | Sharp Corp | 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム |
JP2011191922A (ja) * | 2010-03-12 | 2011-09-29 | Sharp Corp | 翻訳装置、翻訳方法及びコンピュータプログラム |
JP2012073941A (ja) * | 2010-09-29 | 2012-04-12 | Toshiba Corp | 音声翻訳装置、方法、及びプログラム |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016095727A (ja) * | 2014-11-14 | 2016-05-26 | シャープ株式会社 | 表示装置、サーバ、コミュニケーション支援システム、コミュニケーション支援方法、及び制御プログラム |
US9588967B2 (en) | 2015-04-22 | 2017-03-07 | Kabushiki Kaisha Toshiba | Interpretation apparatus and method |
US10423700B2 (en) | 2016-03-16 | 2019-09-24 | Kabushiki Kaisha Toshiba | Display assist apparatus, method, and program |
JP2019534492A (ja) * | 2016-08-18 | 2019-11-28 | ハイパーコネクト インコーポレイテッド | 通訳装置及び方法(device and method of translating a language into another language) |
US11227129B2 (en) | 2016-08-18 | 2022-01-18 | Hyperconnect, Inc. | Language translation device and language translation method |
JP2018081458A (ja) * | 2016-11-15 | 2018-05-24 | 能美防災株式会社 | 警報プログラムおよびそれを用いた端末 |
JP2018151413A (ja) * | 2017-03-09 | 2018-09-27 | 株式会社東芝 | 音声認識装置、音声認識方法およびプログラム |
JP2019109424A (ja) * | 2017-12-20 | 2019-07-04 | 株式会社日立製作所 | 計算機、言語解析方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20160078020A1 (en) | 2016-03-17 |
CN105426362A (zh) | 2016-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2016057986A (ja) | 音声翻訳装置、方法およびプログラム | |
US11727914B2 (en) | Intent recognition and emotional text-to-speech learning | |
US10089974B2 (en) | Speech recognition and text-to-speech learning system | |
KR102100389B1 (ko) | 개인화된 엔티티 발음 학습 | |
US11049493B2 (en) | Spoken dialog device, spoken dialog method, and recording medium | |
US9471568B2 (en) | Speech translation apparatus, speech translation method, and non-transitory computer readable medium thereof | |
JP2018026127A (ja) | 翻訳方法、翻訳装置及びコンピュータプログラム | |
US11093110B1 (en) | Messaging feedback mechanism | |
EP3736807A1 (en) | Apparatus for media entity pronunciation using deep learning | |
CN105210147B (zh) | 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质 | |
TW201606750A (zh) | 使用外國字文法的語音辨識 | |
JP2016062357A (ja) | 音声翻訳装置、方法およびプログラム | |
JP2013152365A (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
KR20210001937A (ko) | 사용자의 음성 입력을 인식하는 디바이스 및 그 동작 방법 | |
JP2015060127A (ja) | 音声同時処理装置、方法およびプログラム | |
US20200320976A1 (en) | Information processing apparatus, information processing method, and program | |
JP5396530B2 (ja) | 音声認識装置および音声認識方法 | |
KR20180033875A (ko) | 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스 | |
JP2012003090A (ja) | 音声認識装置および音声認識方法 | |
JP2021503104A (ja) | 自動音声認識装置及び方法 | |
KR20160104243A (ko) | 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
JP2015207191A (ja) | 外国語会話理解支援装置、外国語会話理解支援方法及びプログラム | |
JP7244473B2 (ja) | 学習装置、予測装置、学習方法および学習プログラム | |
WO2023036283A1 (zh) | 一种在线课堂交互的方法及在线课堂系统 | |
KR101704501B1 (ko) | 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170322 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180220 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180821 |