JP2021503094A

JP2021503094A - 音声翻訳方法及び翻訳装置

Info

Publication number: JP2021503094A
Application number: JP2019563584A
Authority: JP
Inventors: 岩張; 涛熊
Original assignee: Langogo Technology Co ltd
Current assignee: Langogo Technology Co ltd
Priority date: 2018-09-19
Filing date: 2019-04-02
Publication date: 2021-02-04
Also published as: US20210343270A1; WO2020057102A1; CN109344411A

Abstract

【課題】翻訳コストを削減し、翻訳作業を簡素化することができる音声翻訳方法及び翻訳装置を提供すること。【解決手段】本発明に係る音声翻訳方法は、翻訳タスクがスタートされる時に、音声収集装置により環境中の音を収集し、且つ収集された音に基づいてユーザが話し始めるかどうかを検出するステップと、ユーザが話し始めることが検出された時に、音声認識状態に入り、収集された音の中からユーザの音声を抽出し、且つ抽出したユーザの音声に基づいてユーザが使用するソース言語を判断して、予め設定された言語ペアに基づいて、ソース言語に関連付けられる目標言語を確定するステップと、ユーザが発言を停止する時間がプリセット遅延期間を超えたことを検出すると、音声認識状態を終了し、音声認識状態で抽出されたユーザ音声を目標言語の目標音声に変換するステップと、音声再生装置を介して前記目標音声を再生し、且つ再生が終わった後に、プロセッサーにより収集された音に基づいてユーザが話し始めるかどうかを検出するステップに戻り、翻訳タスクが終わるまで繰り返すステップと、を備える。上記の音声翻訳方法は、翻訳コストを低減し、翻訳操作を簡素化させることができる。

Description

本発明は、データ処理技術分野に関し、特に音声翻訳方法及び翻訳装置に関するものである。

同時通訳とは、「同声翻訳」とも称され、翻訳者がスポークスマンの話を中断することがなく、話された内容を聴衆たちに途切れずに通訳して伝えるための翻訳方式である。同時通訳者は、専用機器を介して即時翻訳を提供する。このような方式は、大規模なセミナーと国際会議に適用し、通常、２−３人の翻訳者の間で交代して行なわれる。従来の同時通訳は、主に翻訳者が聞いてから翻訳して発音することに依存し、ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，人工知能）技術の発展につれて、ＡＩ同時通訳は人工通訳に徐々に取って代わる見込みがある。市場では、幾つかの会議翻訳機があるが、翻訳する時に、人ごとに一台の翻訳装置を持つことを必要とし、コストが高く、且つスポークスマンがボタンを押したままで話す必要があり、その後、オンライン翻訳の顧客サービスはスポークスマンが言った内容を聴衆にそれぞれ翻訳する。この操作は非常に煩雑であり、より多くの人工参与が必要である。

本発明は、翻訳コストを削減し、翻訳作業を簡素化することができる音声翻訳方法及び翻訳装置を提供することを目的とする。

上記の課題を解決するために、本発明の実施形態に係る音声翻訳方法は、プロセッサー及び前記プロセッサーにそれぞれ電気的に接続された音声収集装置、及び音声再生装置を含む翻訳装置に適用され、
翻訳タスクがスタートされる時に、前記音声収集装置により環境中の音を収集し、且つ前記プロセッサーにより収集された音に基づいてユーザが話し始めるかどうかを検出するステップと、
ユーザが話し始めることが検出された時に、音声認識状態に入り、前記プロセッサーにより収集された音の中からユーザの音声を抽出し、且つ抽出したユーザの音声に基づいて前記ユーザが使用するソース言語を判断して、予め設定された言語ペアに基づいて、前記ソース言語に関連付けられる目標言語を確定するステップと、
ユーザが発言を停止する時間が事前に設定された遅延期間を超えたことを検出すると、前記音声認識状態を終了し、前記プロセッサーによって、前記音声認識状態で抽出されたユーザ音声を前記目標言語の目標音声に変換するステップと、
前記音声再生装置を介して前記目標音声を再生し、且つ再生が終わった後に、前記プロセッサーにより収集された音に基づいてユーザが話し始めるかどうかを検出するステップに戻り、翻訳タスクが終わるまで繰り返すステップと、を備える。

また、本発明の実施形態に係る音声翻訳装置は、翻訳タスクがスタートされる時に、音声収集装置を介して環境中の音を収集し、且つ収集された音に基づいてユーザが話し始めるかどうかを検出するためのヘッドポイント検出モジュールと、ユーザが話し始めることが検出された時に音声認識状態に入り、収集された音からユーザ音声を抽出し、且つ抽出された前記ユーザ音声に基づいて、ユーザが使用するソース言語を判断して、予め設定された言語ペアに基づいて前記ソース言語に関連付けられる目標言語を確定するための識別モジュールと、前記ユーザがプリセット遅延期間を超えて発言を停止するかどうかを検出するために用いられ、ユーザが発言を停止する時間が前記プリセット遅延期間を超えると、前記音声認識状態を終了するためのテールポイント検出モジュールと、前記音声認識状態で抽出されたユーザ音声を前記目標言語の目標音声に変換するための翻訳及び音声合成モジュールと、前記音声再生装置を介して前記目標音声を再生し、且つ再生が終わった後に、前記ヘッドポイント検出モジュールをトリガーして、収集された音に基づいてユーザが発言を開始するかどうかを検出するステップを実行するための再生モジュールと、を備える。

また、本発明のもう１つの実施形態に係る音声翻訳装置は、音声収集装置、音声再生装置、メモリ、プロセッサー及び前記メモリに格納され且つ前記プロセッサーで実行されることが可能なコンピュータープログラムを含み、前記音声収集装置、前記音声再生装置及び前記メモリは、それぞれ前記プロセッサーに電気的に接続され、前記プロセッサーが前記コンピュータープログラムを実行する場合に、翻訳タスクがスタートされると、前記音声収集装置により環境中の音を収集し、且つ収集された音に基づいてユーザが話し始めるかどうかを検出し、前記ユーザが話し始めることが検出されると、音声認識状態に入り、収集された音の中からユーザ音声を抽出し且つ抽出したユーザ音声に基づいて前記ユーザが使用するソース言語を判断して、予め設定された言語ペアに基づいて前記ソース言語に関連付けられる目標言語を確定し、ユーザが発言を停止する時間が事前に設定された遅延期間を超えたことを検出すると、前記音声認識状態を終了し、且つ前記音声認識状態で抽出されたユーザ音声を前記目標言語の目標音声に変換し、前記音声再生装置を介して前記目標音声を再生し、且つ再生が終わった後に、前記収集された音に基づいてユーザが話し始めるかどうかを検出するステップに戻り、前記翻訳タスクが終わるまで翻訳を続ける。

本発明の実施形態では、翻訳タスクの実行中に、ユーザが発言を開始及び終了するかどうかを自動的に循環して監視し、且つユーザが言った内容を目標言語に翻訳して再生する。一方では、数人が一台の翻訳装置を共用して同時通訳することを実現でき、翻訳コストを削減した。他方では、翻訳装置がユーザの会話を自動的に認識して翻訳して再生することを本当に実現することによって、翻訳作業を簡素化した。

本発明の第一実施例に係る音声翻訳方法のフローチャートである。本発明の第二実施例に係る音声翻訳方法のフローチャートである。本発明の実施例に係る音声翻訳方法の実用例のデモンストレーションである。本発明の第一実施例に係る翻訳装置の構造を示す図である。本発明の第二実施例に係る翻訳装置の構造を示す図である。本発明の第一実施例に係る翻訳装置のハードウェア構造の概略図である。本発明の第二実施例に係る翻訳装置のハードウェア構造の概略図である。

以下、明細書の図面を参照しながら、本発明の構成、目的及び利点などを詳細に説明する。明らかなように、以下記述した実施形態は、ただ本発明の一部の実施形態であり、全ての実施形態ではない。当業者は、下記の実施形態に基づいて、何の創造的な労働を払わない前提下で得た他の実施形態も、本発明の保護範囲内に含まれることは言うまでもない。

図１は、本発明の第一実施例に係る音声翻訳方法のフローチャートを示している。当該音声翻訳方法は、翻訳装置に適用される。当該翻訳装置は、プロセッサーと、それぞれ当該プロセッサーに電気的に接続された音声収集装置と、音声再生装置と、を含む。前記音声収集装置は、マイク又はピックアップである。前記音声再生装置は、スピーカー等である。図１に示すように、前記音声翻訳方法は、具体的に以下のステップを含む。

Ｓ１０１では、翻訳タスクがスタートされる時に、音声収集装置を介して周り環境の音を収集する。

Ｓ１０２では、プロセッサーによって、収集された音に基づき、ユーザが話し始めるかどうかを検出する。

前記翻訳タスクは、翻訳装置が起動された後に自動的にスタートされるか、又はユーザが翻訳タスクをスタートするためのボタンをクリックすることを検出した時にスタートされるか、又はユーザの第一プリセット音声を検出した時にスタートされる。前記ボタンは、物理ボタンまたは仮想ボタンの何れかである。前記第一プリセット音声は、ユーザのカスタムアクションによって設定され、「翻訳開始」の意味を含む文字又は他の予め設定された音声であることが可能である。

翻訳タスクがスタートされる時に、音声収集装置を介して環境中の音を即時に収集し、且つプロセッサーにより収集された音の中に人間の声を含むかどうかを即時に分析する。人間の声を含む場合、ユーザが話し始めたと認定する。

また、事前に設定された検出期間を超えると、収集された音の中に相変わらず人間の声を含まない場合、音声収集を停止して、スタンバイモードに入り、消費電力を低減する目的を達成する。

Ｓ１０３では、ユーザが話し始めることを検出した時に、音声認識状態に入り、プロセッサーにより収集された音の中からユーザの音声を抽出し、且つ抽出したユーザの音声に基づいてユーザが使用するソース言語を判断して、予め設定された言語ペアに基づいて、ソース言語に関連付けられる目標言語を決定する。

翻訳装置の中には、事前に設定された言語ペアの中に包含された少なくとも２種類の言語の間の関連関係が格納されている。前記言語ペアは、ソース言語と目標言語を確定することに用いられる。ユーザが話し始めることを検出すると、音声認識状態に入り、プロセッサーにより収集された音の中からユーザ音声を抽出し、且つ抽出されたユーザ音声を認識して、ユーザが使用するソース言語を判断する。上記の関連関係に基づき、言語ペアの中のソース言語に関連付けられる他の言語を目標言語に確定する。

好ましくは、本発明の別の実施形態では、ユーザに言語設定インターフェースを提供して、ユーザが話し始めることを検出する前に、ユーザの前記言語設定インターフェースで実行された言語指定操作に応答して、プロセッサーによって、翻訳装置の中で前記言語指定操作が指向した少なくとも２種類の言語を、ソース言語と目標言語を確定するための言語ペアに設置する。

Ｓ１０４では、ユーザが発言を停止する時間が事前に設定された遅延期間を超えたことを検出すると、音声認識状態を終了し、プロセッサーによって、音声認識状態で抽出されたユーザ音声を目標言語の目標音声に変換する。

前記プロセッサーによって、収集された音の中に包含された人間の声が消えるかどうかを即時に分析する。人間の声が消える場合、タイマーを起動して計時を開始し、且つ事前に設定された遅延期間が経過しても前記声が再度出現しない時に、ユーザが発言を停止したと確認して、音声認識状態を終了する。その後、前記プロセッサーによって、音声認識状態で抽出された全てのユーザ音声を目標言語の目標音声に変換する。

Ｓ１０５では、音声再生装置を介して前記目標音声を再生し、且つ再生が終わった後に、ステップＳ１０２に戻り、翻訳タスクが終わるまで翻訳を続ける。

前述の音声再生装置を介して前記目標音声を再生し、且つ再生が終わった後に、ステップＳ１０２に戻ることは、具体的にプロセッサーによって、収集された音に基づいて、ユーザが話し始めるかどうかを検出し、他のスポークスマンが言ったことを翻訳して、翻訳タスクが終わるまでこのように繰り返す。

前記翻訳タスクは、ユーザが予め設定されたボタンをクリックした時に終了するかまたはユーザの第二プリセット音声を検出する時にスタートされるが、これに限定されるものではない。前記ボタンは、ハードウェアボタンまたは仮想ボタンである。前記第二プリセット音声は、ユーザのカスタム操作に従って設定され、例えば、「翻訳終了」の意味を含む文字または他の音であることができる。

好ましくは、目標音声の再生中に、音を収集することを一時停止して、ユーザ音声の誤判断を回避すると同時に、消費電力を削減することができる。

この実施形態では、翻訳タスクの実行中に、ユーザが発言を開始及び終了するかどうかを自動的に監視して聞き、ユーザの話を目標言語に翻訳して再生する。これにより、一方では、１つの翻訳装置を共有する複数の人による同時通訳を実現して、翻訳コストを低減し、他方では、翻訳装置のユーザの会話内容の自動認識及び翻訳放送を実現し、翻訳操作を簡素化した。

図２に示すように、本発明のもう１つの実施形態に係る音声翻訳方法のフローチャートである。当該音声翻訳方法は、翻訳装置に適用される。当該翻訳装置は、プロセッサーと、それぞれ当該プロセッサーに電気的に接続された音声収集装置と、音声再生装置と、を含む。前記音声収集装置は、マイク又はピックアップである。前記音声再生装置は、スピーカー等である。図２に示すように、前記音声翻訳方法は、具体的に以下のステップを含む。

Ｓ２０１では、翻訳タスクがスタートされる時に、音声収集装置を介して周り環境の音を収集する。

Ｓ２０２では、プロセッサーによって、収集された音に基づき、ユーザが話し始めるかどうかを検出する。

前記翻訳タスクは、翻訳装置が起動された後に自動的にスタートされるか、又はユーザが翻訳タスクをスタートするためのボタンをクリックすることを検出した時にスタートされるか、又はユーザの第一プリセット音声を検出した時にスタートされる。前記ボタンは、物理ボタンまたは仮想ボタンの何れかである。前記第一プリセット音声は、ユーザのカスタムアクションによって設定され、「翻訳開始」の意味を含む文字又は他の音声であることが可能である。

好ましくは、本発明の別の実施形態では、翻訳品質を確保するために、プロセッサーによって、収集された音に基づいて環境中のノイズがプリセットノイズより大きいかどうかを定期的に検出する。もし、プリセットノイズより大きければ、提示情報を出力して、翻訳環境が悪いことをユーザに通知する。前記提示情報は、音声及び／または文字の形で出力される。なお、ノイズ検出は、音声認識状態に入る前にのみ行なわれる。

好ましくは、本発明の別の実施形態では、翻訳エラーを回避するために、翻訳タスクがスタートされた後、音声収集装置によって環境中の音を即時に取得し、且つプロセッサーを介して収集された音の中に人間の声を含むかどうか且つ包含する人間の声の音量がプリセットデシベルより大きいかどうかを即時に分析する。人間の声を含む且つ包含する人間の声の音量がプリセットデシベルより大きい場合、ユーザが話し始めたと認定する。

Ｓ２０３では、ユーザが話し始めることを検出した場合、音声認識状態に入り、プロセッサーにより収集された音の中からユーザの音声を抽出し、且つ抽出したユーザの音声に基づいてユーザが使用するソース言語を判断して、予め設定された言語ペアに基づいて、ソース言語に関連付けられる目標言語を決定する。

前記翻訳装置は、前記プロセッサーに電気的に接続されたメモリをさらに含む。前記メモリには、事前に設定された言語ペアの中に包含された少なくとも２種類の言語の間の関連関係が格納されている。前記言語ペアは、ソース言語と目標言語を確定することに用いられる。ユーザが話し始めることを検出すると、音声認識状態に入り、プロセッサーにより収集された音の中からユーザ音声を抽出し、且つ抽出されたユーザ音声を認識して、ユーザが使用するソース言語を判断する。上記の関連関係に基づき、言語ペアの中のソース言語に関連付けられる他の言語を目標言語に確定する。例えば、仮に言語ペアが英語と中国語であり、ソース言語が中国語であれば、目標言語は英語であると確定する。この場合、ユーザ音声を中国語音声に変換する必要がある。また、仮に言語ペアが英語-中国語-ロシア語であり、ソース言語が英語であれば、目標言語は中国語とロシア語であると確定する。この場合、ユーザ音声を中国語音声とロシア語音声にそれぞれ変換する必要がある。

好ましくは、本発明の別の実施形態では、前記メモリには、言語ペアの中の各言語の識別情報がさらに格納される。前記識別情報は、プロセッサーによって、言語ペアを設置する時に各言語のために生成される。上記の抽出されたユーザ音声に基づいてユーザが使用するソース言語を判断するステップは、具体的にプロセッサーを介してユーザ音声の中のユーザ声紋特徴を抽出して、メモリの中に前記声紋特徴に対応する言語の識別情報が格納されているかどうかを判断する。メモリの中に前記識別情報が格納されている場合、前記識別情報に対応する言語をソース言語に確定する。メモリの中に前記識別情報が格納されていない場合、ユーザ音声の中のユーザの発音特徴を抽出して、前記発音特徴に基づいてソース言語を確定し、且つユーザの声紋特徴とソース言語の識別情報との対応関係を前記メモリの中に格納して、次の翻訳での言語認識のために使用する。

具体的には、ユーザの発音特徴と言語ペアの中の各言語の発音特徴とをマッチングして、一致度が一番高い言語をソース言語に確定する。上記の発音特徴のマッチング操作は、翻訳装置本体で行われてもよく、サーバーにより実現されてもよい。

このようにして、発音特徴の対比がより多くのシステム資源を占用するため、ユーザの声紋特徴とソース言語の識別情報との対応関係を自動的に記録し、且つユーザの声紋特徴と前記対応関係を利用してソース言語を確定することによって、言語認識の効率を高めることができる。

Ｓ２０４では、抽出されたユーザ音声を対応する第一テキストに変換し、且つ当該第一テキストをディスプレーに表示させる。前記第一テキストの言語は、ソース言語である。

Ｓ２０５では、ユーザが発言を停止する時間が事前に設定された遅延期間を超えたことを検出すると、音声認識状態を終了し、プロセッサーにより前記第一テキストを目標言語の第二テキストに翻訳し、且つ当該第二テキストをディスプレーに表示させる。

Ｓ２０６では、音声合成システムによって、前記第二テキストを目標音声に変換する。

具体的には、翻訳装置は、プロセッサーに電気的に接続されたディスプレーをさらに含む。前記プロセッサーによって、収集された音の中に包含された人間の声が消えるかどうかを即時に分析する。人間の声が消える場合、タイマーを起動して計時を開始し、且つ事前に設定された遅延期間が経過しても前記声が再度出現しない時に、ユーザが発言を停止したと確認して、音声認識状態を終了する。その後、プロセッサーによって、音声認識状態で抽出されたユーザ音声に対応するソース言語の第一テキストを目標言語の第二テキストに翻訳し、且つ当該第二テキストをディスプレーに表示させる。これと同時に、ＴＴＳ（ＴｅｘｔＴｏＳｐｅｅｃｈ，テキストから音声へ）音声合成システムを利用して、前記第二テキストを目標言語の目標音声に変換する。

好ましくは、本発明の別の実施形態では、音声認識状態を終了する前に、ユーザが発言を停止する時間が事前に設定された遅延期間を超えたことが検出されると、トリガーされた翻訳命令に応じて音声認識状態を終了する。ユーザが発言を停止した時点と翻訳命令がトリガーされた時点との時間差に基づいて、プリセット遅延期間を調整する。例えば、時間差の値をプリセット遅延期間の値に設定できる。

好ましくは、本発明の別の実施形態では、前記翻訳装置は、前記プロセッサーに電気的に接続された運動センサーをさらに含む。音声認識状態において、前記運動センサーによって前記翻訳装置の運動振幅が予め設定された振幅より大きいことが検出されるか又は前記翻訳装置が衝突される時に、前記翻訳命令がトリガーされる。

プリセット遅延期間の初期値がデフォルト値であり、且つ各スピーカーの耐久力が異なるため、ユーザは翻訳装置を渡すか又は翻訳装置を衝突することにより、翻訳命令をアクティブにトリガーし、且つ翻訳命令がトリガーされる時間に応じてプリセット遅延期間を動的に調整することができる。これにより、ユーザが発言を停止したかどうかを判断する時の柔軟性を向上させ、翻訳のタイミングをユーザのニーズにより適したものにすることができる。

好ましくは、本発明の別の実施形態では、ユーザが発言を停止した時点と翻訳命令がトリガーされた時点との時間差に基づいて、プリセット遅延期間を調整するステップは、具体的にメモリの中に発言を停止したユーザの声紋特徴に対応するプリセット遅延期間が格納されているかどうかを判断することを含む。メモリの中に対応するプリセット遅延期間が格納されている場合、ユーザが発言を停止した時点と翻訳命令がトリガーされた時点との時間差に基づいて、前記ユーザの声紋特徴に対応するプリセット遅延期間を調整する。メモリの中に対応するプリセット遅延期間が格納されておらず、即ち音声認識状態を終了するためのデフォルト遅延期間が設定されている場合、前記時間差を前記ユーザの声紋特徴に対応するプリセット遅延期間に設置する。上記のステップによって、異なるスピーカーに異なるプリセット遅延期間を設定して、翻訳装置のインテリジェンスを向上させることができる。

好ましくは、時間差によってプリセット遅延期間を調整することができる。例えば、時間差の値をプリセット遅延期間の値に設定するか又は時間差とプリセット遅延期間の平均値を取って、それを新しいプリセット遅延期間の値にする。

Ｓ２０７では、音声再生装置により目標音声を再生し、且つ再生が終わった後にステップＳ２０２に戻り、翻訳タスクが終わるまで翻訳を続ける。

音声再生装置を介して目標音声を再生し、且つ再生が終わった後に、ステップＳ２０２に戻ることは、具体的にプロセッサーによって、収集された音に基づいてユーザが話し始めるかどうかを検出し、他のスポークスマンが言ったことを翻訳して、翻訳タスクが終わるまでこのように繰り返す。

前記翻訳タスクは、ユーザが予め設定されたボタンをクリックした時に終了されるか又はユーザの第二プリセット音声を検出する時にスタートされるが、これに限定されるものではない。前記ボタンは、ハードウェアボタンまたは仮想ボタンである。前記第二プリセット音声は、ユーザのカスタム操作に従って設定され、例えば、「翻訳終了」の意味を含む文字または他の音であることができる。

好ましくは、本発明の別の実施形態では、翻訳タスクが実行される期間に得られた全ての第一テキストと第二テキストを会話記録としてメモリの中に格納して、ユーザの後続の照会を容易にする。これと同時に、ストレージスペースの利用率を改善するために、前記プロセッサーは、定期的にまたは毎回翻訳装置を起動した後にストレージ期間を超えた会話記録を自動的にクリアアップする。

以下、図３を併せて、例を挙げて本実施形態の音声翻訳方法をより詳細に説明する。ユーザＡとユーザＢが異なる国の人であり、ユーザＡがＡ言語を使用し、ユーザＢがＢ言語を使用することを前提として、以下のステップで翻訳を完成する。

１．ユーザＡが発声して、音声Ａを生成する。
２．上記の翻訳装置は、ヘッドポイント検出モジュールを介してユーザＡが発言し始めたことを自動的に検出する。
３．音声認識モジュールと言語判定モジュールにより、ユーザＡの発言を認識しながら、ユーザＡが使用する言語（つまり言語の種類）を判断する。
４．言語判定モジュールは、ユーザＡがＡ言語を話していることを検出した場合、翻訳装置の表示画面において現在認識されている音声Ａに対応する第一テキストを表示する。
５．ユーザＡが発言を停止すると、前記翻訳装置は、テールポイント検出モジュールを介してユーザが発言を終了したことを自動的に判断する。
６．この時点で、前記翻訳装置は翻訳段階に入り、翻訳モジュールを介してＡ言語の第一テキストをＢ言語の第二テキストに変換する。
７．前記翻訳装置がＢ言語の翻訳されたテキストを取得した後、ＴＴＳ音声合成モジュールを介して対応する目標音声を生成し、且つそれを自動的に放送する。

その後、前記翻訳装置は、ヘッドポイント検出モジュールを介してユーザＢが話し始めることを再び自動的に検出する。すると、ユーザＢに基づいて、上記のステップ３−７を実行して、ユーザＢのＢ言語の音声をＡ言語の目標音声に翻訳し、且つそれを自動的に放送して、ユーザＡとＢの会話が終わるまでこのように繰り返す。

翻訳プロセス全体で、ユーザＡは翻訳装置に対して追加の操作を必要とせず、翻訳装置は、リスニング、識別、終了、翻訳、再生などの一連のプロセスを完了することができる。

好ましくは、本発明の別の実施形態では、言語認識の速度を改善するために、最初の使用中にユーザの声紋特徴を事前に収集し、且つ収集された声紋特徴をユーザが使用する言語にバインドすることができる。２回目の使用では、ユーザの声紋特徴に基づいて、ユーザが使用する言語を迅速に確認する。

具体的には、翻訳装置は、ユーザに声紋特徴をそれに対応する言語にバインドするためのインターフェースを提供して、翻訳タスクがスタートされる前に、ユーザが前記インターフェースを介してトリガーしたバインディング命令に応答して、音声収集装置によりユーザの目標音声を収集して、前記目標音声を認識して、前記ユーザの声紋特徴と前記ユーザが使用した言語を取得し、且つ認識された声紋特徴と言語を前記翻訳装置の中にバインドする。前記声紋特徴にバインドされた言語は、前記バインディング命令が指向する言語であることができる。

すると、ユーザが話し始めることを検出する時に、音声認識状態に入り、前記プロセッサーを介して収集された音の中からユーザ音声を抽出し、且つ抽出したユーザ音声に基づいて前記ユーザが使用するソース言語を判断するステップは、具体的にユーザが話し始めることを検出する時に、音声認識状態に入り、前記プロセッサーを介して収集された音の中からユーザ音声を抽出し、且つ抽出したユーザ音声に対して声紋認識を行って、前記ユーザの声紋特徴及び当該声紋特徴にバインドされる言語を取得して、前記言語をユーザが使用するソース言語とする。

例を挙げて説明すると、仮にユーザＡがＡ言語を使用し、ユーザＢがＢ言語を使用すれば、翻訳する前に、ユーザＡとユーザＢは、それぞれ翻訳装置が提供したインターフェースを介して、自分の声紋特徴と使用する言語を前記翻訳装置の中にバインドする。例えば、ユーザＡとユーザＢは、順次に前記翻訳装置の音声設置ボタンを押すことにより、バインディング命令をトリガーして、前記翻訳装置が出力した提示情報に基づいて、前記翻訳装置の中で一段の音声を入力する。前記提示情報は、音声又はテキストの方式により出力される。前記音声設置ボタンは、物理ボタン又は仮想ボタンである。

前記翻訳装置は、入力されたユーザＡとユーザＢとの音声を認識して、ユーザＡの声紋特徴及びそれに対応する言語Ａを取得し、且つ得たユーザＡの声紋特徴とそれに対応する言語Ａとを関連付けて、関連情報をメモリの中に格納させることによって、ユーザＡの声紋特徴及びそれに対応する言語Ａを前記翻訳装置の中にバインドする。同様に、ユーザＢの声紋特徴及びそれに対応する言語Ｂを取得し、且つ得たユーザＢの声紋特徴とそれに対応する言語Ｂとを関連付けて、関連情報をメモリの中に格納させることによって、ユーザＢの声紋特徴及びそれに対応する言語Ｂを前記翻訳装置の中にバインドする。

翻訳タスクがスタートされた後、ユーザＡが話し始めることを検出すると、声紋認識によって、上記の関連情報に基づき、ユーザＡが使用した言語を確認することができるので、言語種類の識別を必要としない。言語種類の識別と比較して、声紋認識は、計算量がより低く、且つより少ないシステム資源を占用するので、認識速度及び翻訳効率を高めることができる。

本実施形態では、翻訳タスクの実行中に、ユーザが発言を開始及び終了したかどうかを自動的に循環して監視し、且つユーザが言った内容を目標言語に翻訳して再生する。一方では、数人が一台の翻訳装置を共用して同時通訳することを実現でき、翻訳コストを削減した。他方では、翻訳装置がユーザの会話内容を自動的に認識し且つ翻訳して再生することを本当に実現して、翻訳作業を簡素化した。

図４に示すように、本発明の１つの実施形態に係る翻訳装置は、図１に示された音声翻訳方法を実行することに用いられる。前記翻訳装置は、ヘッドポイント検出モジュール４０１、識別モジュール４０２、テールポイント検出モジュール４０３、翻訳及び音声合成モジュール４０４並びに再生モジュール４０５を含む。

ヘッドポイント検出モジュール４０１は、翻訳タスクがスタートされる時に、音声収集装置を介して環境中の音を収集し、且つ収集された音に基づいてユーザが話し始めるかどうかを検出する。

識別モジュール４０２は、ユーザが話し始めることが検出された時に音声認識状態に入り、収集された音からユーザ音声を抽出し、且つ抽出されたユーザ音声に基づいて、ユーザが使用するソース言語を判断して、予め設定された言語ペアに基づいて前記ソース言語に関連付けられる目標言語を確定する。

テールポイント検出モジュール４０３は、ユーザがプリセット遅延期間を超えて発言を停止するかどうかを検出するために用いられる。ユーザが発言を停止する時間がプリセット遅延期間を超えると、音声認識状態を終了する。

翻訳及び音声合成モジュール４０４は、音声認識状態で抽出されたユーザ音声を前記目標言語の目標音声に変換する。

再生モジュール４０５は、音声再生装置を介して前記目標音声を再生し、且つ再生が終わった後に、ヘッドポイント検出モジュールをトリガーして、収集された音に基づいてユーザが発言を開始するかどうかを検出するステップを実行する。

さらに、図５に示すように、本発明の別の実施形態では、前記翻訳装置は、ノイズ推計モジュール５０１をさらに含む。ノイズ推計モジュール５０１は、収集された音に基づいて、環境中のノイズがプリセットノイズより大きいかどうかを検出する。プリセットノイズより大きい場合、提示情報を出力して、翻訳環境が悪いことをユーザに通知する。

さらに、前記翻訳装置は、ユーザの言語指定操作に応答して、前記言語指定操作が指向した少なくとも２種類の言語を前記言語ペアに設定するための設定モジュール５０２をさらに含む。

さらに、識別モジュール４０２は、抽出されたユーザ音声を対応する第一テキストに変換する。

さらに、前記翻訳装置は、前記第一テキストを前記表示パネルに表示させるためのディスプレーモジュール５０３をさらに含む。ディスプレーモジュール５０３は、前記第二テキストを前記表示パネルに表示させるためにも用いられる。

さらに、翻訳及び音声合成モジュール４０４は、前記第一テキストを前記目標言語の第二テキストに翻訳し、且つ音声合成システムを介して前記第二テキストを前記目標音声に変換する。

さらに、前記翻訳装置は、設定モジュール５０２と処理モジュール５０４とを含む。設定モジュール５０２は、ユーザが発言を停止した時点と翻訳命令がトリガーされた時点との時間差に基づいて、前記プリセット遅延期間を調整するためにも用いられる。処理モジュール５０４は、トリガーされた翻訳命令に応じて音声認識状態を終了するために用いられる。

さらに、処理モジュール５０４は、音声認識状態において、前記運動センサーによって前記翻訳装置の運動振幅が予め設定された振幅より大きいことが検出されるか又は前記翻訳装置が衝突される時に、前記翻訳命令をトリガーするためにも用いられる。

さらに、識別モジュール４０２は、ユーザ音声の中の前記ユーザの声紋特徴を抽出し、声紋特徴に対応する言語の識別情報がメモリに記憶されているかどうかを判定する。前記メモリに前記識別情報が格納されている場合、前記識別情報に対応する言語を前記ソース言語として確定する。前記メモリに前記識別情報が格納されていない場合、前記ユーザ音声における前記ユーザの発音特徴を抽出して、前記発音特徴に基づいて前記ソース言語を決定し、且つ前記ユーザの声紋特徴と前記ソース言語の識別情報との対応関係を前記メモリの中に格納する。

さらに、設定モジュール５０２は、発言を停止したユーザの声紋特徴に対応するプリセット遅延期間がメモリに格納されているかどうかを判断するために用いられる。前記メモリには対応するプリセット遅延期間が格納されている場合、ユーザが発言を停止した時点と翻訳命令がトリガーされた時点との時間差に基づいて、前記対応するプリセット遅延期間を調整する。前記メモリに前記対応するプリセット遅延期間が格納されていない場合、前記時間差を前記対応するプリセット遅延期間に設定する。

さらに、処理モジュール５０４は、翻訳タスクの実行中に得られた全ての第一テキスト及び第二テキストを会話記録として前記メモリの中に記憶して、ユーザによる後続の照会を容易にする。また、ストレージスペースの利用率を改善するために、処理モジュール５０４は、定期的にまたは毎回翻訳装置を起動した後にストレージ期間を超えた会話記録を自動的にクリアアップするためにも用いられる。

さらに、認識モジュール４０２は、ユーザによってトリガーされたバインディング命令に応じて、音声収集装置を介してユーザの目標音声を収集し、且つ前記目標音声を認識して、前記ユーザの声紋特徴及び前記ユーザが使用する言語を取得する。

設定モジュール５０２は、識別された前記ユーザの声紋特徴と使用される言語とを前記翻訳装置の中にバインドする。

識別モジュール４０２は、ユーザが発言を開始したことを検出すると、音声認識状態に入り、収集された音からユーザ音声を抽出し、且つ抽出されたユーザ音声に対して声紋認識を行なって、前記ユーザの声紋特徴及び前記声紋特徴にバインドされている言語を取得し、且つ前記言語を前記ユーザが使用するソース言語とする。

前述の各モジュールが各自の機能を実現する具体的なプロセスについては、図1から図３に示された実施形態の関連内容を参照することができ、ここで再度説明しない。

本実施形態において、翻訳タスクが実行される期間において、ユーザが発言を開始及び終了するかどうかを自動的に聞いて、ユーザの話を目標言語に翻訳して再生する。これにより、一方では、１つの翻訳装置を共有する複数の人による同時通訳を実現して、翻訳コストを低減し、他方では、翻訳装置のユーザの会話内容の自動認識及び翻訳放送を実現し、翻訳操作を簡素化した。

図６は、本発明の１つの実施形態が提供する翻訳装置のハードウェアの構造を示す図である。本実施形態に記載する翻訳装置は、音声収集装置６０１、音声再生装置６０２、メモリ６０３、プロセッサー６０４及びメモリ６０３に格納され且つプロセッサー６０４で実行されることが可能なコンピュータープログラムを含む。

音声収集装置６０１、音声再生装置６０２及びメモリ６０３は、それぞれプロセッサー６０４に電気的に接続されている。メモリ６０３は、高速ランダムアクセスメモリ（ＲＡＭ，ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）であることができ、ディスクストレージなどの不揮発性メモリ（ｎｏｎ−ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）であってもよい。メモリ６０３には、実行可能なプログラムコードが格納されている。

プロセッサー６０４がコンピュータープログラムを実行する時に、以下のステップを実行する。翻訳タスクがスタートされると、音声収集装置６０１により環境中の音を収集し、且つ収集された音に基づいてユーザが話し始めるかどうかを検出する。ユーザが話し始めることを検出すると、音声認識状態に入り、収集された音の中からユーザの音声を抽出し、且つ抽出したユーザの音声に基づいてユーザが使用するソース言語を判断して、予め設定された言語ペアに基づいて前記ソース言語に関連付けられる目標言語を確定する。ユーザが発言を停止する時間が事前に設定された遅延期間を超えたことを検出すると、音声認識状態を終了し、音声認識状態で抽出されたユーザ音声を目標言語の目標音声に変換する。音声再生装置６０２を介して前記目標音声を再生し、且つ再生が終わった後に、収集された音に基づいてユーザが話し始めるかどうかを検出するステップに戻り、翻訳タスクが終わるまで翻訳を続ける。

さらに、図７に示すように、本発明の別の１つの実施形態において、前記翻訳装置は、プロセッサー６０４に電気的に接続された少なくとも１つの入力装置７０１、少なくとも１つの出力装置７０２及び少なくとも１つの運動センサー７０３をさらに含む。具体的には、入力装置７０１は、カメラ、タッチパネル及び物理ボタンなどであり、出力装置７０２は、ディスプレーであり、運動センサー７０３は、重力センサー、ジャイロスコープ及び加速度センサーなどである。

さらに、前記翻訳装置は、無線ネットワーク信号を送信及び受信するための信号トランシーバーをさらに含む。

前記各素子が各自の機能を実現する具体的な過程は、図１ないし図３により示された実施形態の関連内容を参考にすることができるので、ここでは詳しい説明を省略する。

本発明の幾つかの実施形態により開示された装置及び方法は、他の形で実現され得ることを理解されたい。例えば、上記のデバイスは、ただの例示的なものであり、モジュールの分割は、ただの論理的な機能の区分にすぎない。実際の応用では、他の区分方式がある。例えば、複数のモジュール又はコンポーネントを組み合わせたり、別のシステムに統合したり、一部の機能を省略したり、実行しないことができる。加えて、図示された又は説明された相互結合、直接結合又は通信接続は、何らかの接続ポート又はインターフェースを介して実現される。デバイス又はモジュールの間接結合又は通信接続は、電気的、機械的又はその他であり得る。

分離部品として説明されるモジュールは、物理的に離れるか又は物理的に離れておらず、モジュールとして示される部品は、物理モジュールであるか又は物理モジュールではない。即ち、１つの場所に位置するか又は複数のネットワークモジュールに分布されてもよい。しかも、実際の必要に応じて、一部又は全てのモジュールを選んで本発明の提案を実現することができる。

さらに、本発明の各実施形態における各機能モジュールは、１つの処理モジュールに統合されてもよく、各モジュールは物理的に別々に存在してもよく、または２つ以上のモジュールが１つのモジュールに統合されてもよい。上記の統合モジュールは、ハードウェアの形またはソフトウェアの形で実現される。

前記統合モジュールは、ソフトウェアの形で実現され、且つ別個の製品として販売または使用される場合、コンピュータの読み取り可能な記憶媒体に格納されることができる。そのような理解に基づいて、本発明の先行技術に貢献する一部または全ての技術提案は、ソフトウェア製品の形で具現化され得る。前記ソフトウェア製品は、１つの読み取り可能な媒体に格納され、本願の様々な実施形態で説明された方法の全部または一部のステップをコンピュータ（パソコン、サーバーまたはネットワークデバイスなどであってもよい）に実行させるための命令を含む。前述の読み取り可能な記憶媒体は、プログラムコードを記憶することができるＵディスク、モバイルハードディスク、ＲＯＭ、ＲＡＭ、磁気ディスクまたはＣＤなどを含む。

前述の方法実施形態に対して、簡潔にするために、それらを全て一連のアクションの組み合わせとして説明されているが、当業者は、本発明が説明されたアクションのシーケンスによって限定されないことに留意されたい。なぜなら、本発明に従って、幾つかのステップは、他のシーケンスでまたは同時に実行される可能性があるからである。しかも、当業者は、明細書に記載された実施形態は全て好ましい実施形態であり、関与する動作及びモジュールは必ずしも本発明に必要でないことも理解されたい。

上記の様々な実施形態に対する説明は、それぞれに独自の重点があり、ある実施形態において詳述されていない部分を他の実施形態の関連記載を参照することができる。

以上は、本発明によって提供される音声翻訳方法及び翻訳装置の説明である。当業者にとって、本発明の実施形態の主旨に応じて、具体的な実施形態及び適用範囲を変更できることが明らかである。本明細書の記載は、本願を制限するものではない。

４０１ヘッドポイント検出モジュール
４０２識別モジュール
４０３テールポイント検出モジュール
４０４翻訳及び音声合成モジュール
４０５再生モジュール
５０１ノイズ推計モジュール
５０２設定モジュール
５０３ディスプレーモジュール
５０４処理モジュール
６０１音声収集装置
６０２音声再生装置
６０３メモリ
６０４プロセッサー
７０１入力装置
７０２出力装置
７０３運動センサー

Claims

プロセッサー及び前記プロセッサーにそれぞれ電気的に接続された音声収集装置、及び音声再生装置を含む翻訳装置に適用される音声翻訳方法であって、
翻訳タスクがスタートされる時に、前記音声収集装置により環境中の音を収集し、且つ前記プロセッサーにより収集された音に基づいてユーザが話し始めるかどうかを検出するステップと、
ユーザが話し始めることが検出された時に、音声認識状態に入り、前記プロセッサーにより収集された音の中からユーザの音声を抽出し、且つ抽出したユーザの音声に基づいて前記ユーザが使用するソース言語を判断して、予め設定された言語ペアに基づいて、前記ソース言語に関連付けられる目標言語を確定するステップと、
ユーザが発言を停止する時間が事前に設定された遅延期間を超えたことを検出すると、前記音声認識状態を終了し、前記プロセッサーによって、前記音声認識状態で抽出されたユーザ音声を前記目標言語の目標音声に変換するステップと、
前記音声再生装置を介して前記目標音声を再生し、且つ再生が終わった後に、前記プロセッサーにより収集された音に基づいてユーザが話し始めるかどうかを検出するステップに戻り、翻訳タスクが終わるまで繰り返すステップと、
を備えることを特徴とする音声翻訳方法。
前記ユーザが話し始めることが検出され、音声認識状態に入る前に、前記プロセッサーによって収集された音に基づいて環境中のノイズがプリセットノイズより大きいかどうかを検出し、もし前記プリセットノイズより大きければ、提示情報を出力して、翻訳環境が悪いことを前記ユーザに通知することを特徴とする請求項１に記載の音声翻訳方法。
前記ユーザの言語指定操作に応答して、前記プロセッサーによって前記言語指定操作が指向した少なくとも２種類の言語を前記言語ペアに設置することを特徴とする請求項１に記載の音声翻訳方法。
前記翻訳装置は、前記プロセッサーに電気的に接続されたディスプレーをさらに含み、前記ユーザが話し始めることが検出された場合、音声認識状態に入って、前記プロセッサーにより収集された音の中からユーザ音声を抽出した後に、抽出された前記ユーザ音声を対応する第一テキストに変換し、且つ当該第一テキストを前記ディスプレーに表示させ、
前記ユーザが発言を停止する時間が事前に設定された遅延期間を超えたことを検出すると、音声認識状態を終了し、前記プロセッサーにより前記音声認識状態で抽出されたユーザ音声を前記目標言語の目標音声に変換し、
前記プロセッサーにより前記第一テキストを前記目標言語の第二テキストに翻訳し、且つ前記第二テキストを前記ディスプレーに表示させ、
音声合成システムによって、前記第二テキストを前記目標音声に変換することを特徴とする請求項１に記載の音声翻訳方法。
前記ユーザがプリセット遅延期間を超えて発言を停止することが検出された場合、前記音声認識状態を終了する前に、トリガーされた翻訳命令に応じて音声認識状態を終了し、
前記ユーザが発言を停止した時点と前記翻訳命令がトリガーされた時点との時間差に基づいて、前記プリセット遅延期間を調整することを特徴とする請求項１に記載の音声翻訳方法。
前記翻訳装置は、前記プロセッサーに電気的に接続された運動センサーをさらに含み、音声認識状態において、前記運動センサーによって前記翻訳装置の運動振幅が予め設定された振幅より大きいことが検出されるか又は前記翻訳装置が衝突される時に、前記翻訳命令がトリガーされることを特徴とする請求項５に記載の音声翻訳方法。
前記翻訳装置は、前記プロセッサーに電気的に接続されたメモリをさらに含み、前記抽出されたユーザ音声に基づいてユーザが使用するソース言語を判断するステップは、具体的に前記プロセッサーにより前記ユーザ音声の中の前記ユーザの声紋特徴を抽出して、前記メモリの中に前記声紋特徴に対応する言語の識別情報が格納されているかどうかを判断し、
前記メモリの中に前記識別情報が格納されている場合、前記識別情報に対応する言語を前記ソース言語に確定し、
前記メモリの中に前記識別情報が格納されていない場合、前記ユーザ音声の中の前記ユーザの発音特徴を抽出して、前記発音特徴に基づいて前記ソース言語を確定し、且つ前記ユーザの声紋特徴と前記ソース言語の識別情報との対応関係を前記メモリの中に格納することを特徴とする請求項５に記載の音声翻訳方法。
前記ユーザが発言を停止した時点と前記翻訳命令がトリガーされた時点との時間差に基づいて、前記プリセット遅延期間を調整するステップは、具体的に発言を停止した前記ユーザの声紋特徴に対応するプリセット遅延期間がメモリに格納されているかどうかを判断し、前記メモリに前記対応するプリセット遅延期間が格納されている場合、前記ユーザが発言を停止した時点と翻訳命令がトリガーされた時点との時間差に基づいて、前記対応するプリセット遅延期間を調整し、
前記メモリに前記対応するプリセット遅延期間が格納されていない場合、前記時間差を前記対応するプリセット遅延期間に設定することを特徴とする請求項７に記載の音声翻訳方法。
翻訳タスクがスタートされる時に、音声収集装置を介して環境中の音を収集し、且つ収集された音に基づいてユーザが話し始めるかどうかを検出するためのヘッドポイント検出モジュールと、
ユーザが話し始めることが検出された時に音声認識状態に入り、収集された音からユーザ音声を抽出し、且つ抽出された前記ユーザ音声に基づいて、ユーザが使用するソース言語を判断して、予め設定された言語ペアに基づいて前記ソース言語に関連付けられる目標言語を確定するための識別モジュールと、
前記ユーザがプリセット遅延期間を超えて発言を停止するかどうかを検出するために用いられ、ユーザが発言を停止する時間が前記プリセット遅延期間を超えると、前記音声認識状態を終了するためのテールポイント検出モジュールと、
前記音声認識状態で抽出されたユーザ音声を前記目標言語の目標音声に変換するための翻訳及び音声合成モジュールと、
音声再生装置を介して前記目標音声を再生し、且つ再生が終わった後に、前記ヘッドポイント検出モジュールをトリガーして、収集された音に基づいてユーザが発言を開始するかどうかを検出するステップを実行するための再生モジュールと、
を備えることを特徴とする翻訳装置。
音声収集装置、音声再生装置、メモリ、プロセッサー及び前記メモリに格納され且つ前記プロセッサーで実行されることが可能なコンピュータープログラムを含む翻訳装置であって、
前記音声収集装置、前記音声再生装置及び前記メモリは、それぞれ前記プロセッサーに電気的に接続され、
前記プロセッサーが前記コンピュータープログラムを実行する場合に、翻訳タスクがスタートされると、前記音声収集装置により環境中の音を収集し、且つ収集された音に基づいてユーザが話し始めるかどうかを検出し、前記ユーザが話し始めることが検出されると、音声認識状態に入り、収集された音の中からユーザ音声を抽出し且つ抽出したユーザ音声に基づいて前記ユーザが使用するソース言語を判断して、予め設定された言語ペアに基づいて前記ソース言語に関連付けられる目標言語を確定し、
ユーザが発言を停止する時間が事前に設定された遅延期間を超えたことを検出すると、前記音声認識状態を終了し、且つ前記音声認識状態で抽出されたユーザ音声を前記目標言語の目標音声に変換し、前記音声再生装置を介して前記目標音声を再生し、且つ再生が終わった後に、前記収集された音に基づいてユーザが話し始めるかどうかを検出するステップに戻り、前記翻訳タスクが終わるまで翻訳を続けることを特徴とする翻訳装置。