JP2021503094A - 音声翻訳方法及び翻訳装置 - Google Patents

音声翻訳方法及び翻訳装置 Download PDF

Info

Publication number
JP2021503094A
JP2021503094A JP2019563584A JP2019563584A JP2021503094A JP 2021503094 A JP2021503094 A JP 2021503094A JP 2019563584 A JP2019563584 A JP 2019563584A JP 2019563584 A JP2019563584 A JP 2019563584A JP 2021503094 A JP2021503094 A JP 2021503094A
Authority
JP
Japan
Prior art keywords
voice
user
translation
language
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019563584A
Other languages
English (en)
Inventor
岩 張
岩 張
涛 熊
涛 熊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Langogo Technology Co ltd
Original Assignee
Langogo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Langogo Technology Co ltd filed Critical Langogo Technology Co ltd
Publication of JP2021503094A publication Critical patent/JP2021503094A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification

Abstract

【課題】翻訳コストを削減し、翻訳作業を簡素化することができる音声翻訳方法及び翻訳装置を提供すること。【解決手段】本発明に係る音声翻訳方法は、翻訳タスクがスタートされる時に、音声収集装置により環境中の音を収集し、且つ収集された音に基づいてユーザが話し始めるかどうかを検出するステップと、ユーザが話し始めることが検出された時に、音声認識状態に入り、収集された音の中からユーザの音声を抽出し、且つ抽出したユーザの音声に基づいてユーザが使用するソース言語を判断して、予め設定された言語ペアに基づいて、ソース言語に関連付けられる目標言語を確定するステップと、ユーザが発言を停止する時間がプリセット遅延期間を超えたことを検出すると、音声認識状態を終了し、音声認識状態で抽出されたユーザ音声を目標言語の目標音声に変換するステップと、音声再生装置を介して前記目標音声を再生し、且つ再生が終わった後に、プロセッサーにより収集された音に基づいてユーザが話し始めるかどうかを検出するステップに戻り、翻訳タスクが終わるまで繰り返すステップと、を備える。上記の音声翻訳方法は、翻訳コストを低減し、翻訳操作を簡素化させることができる。

Description

本発明は、データ処理技術分野に関し、特に音声翻訳方法及び翻訳装置に関するものである。
同時通訳とは、「同声翻訳」とも称され、翻訳者がスポークスマンの話を中断することがなく、話された内容を聴衆たちに途切れずに通訳して伝えるための翻訳方式である。同時通訳者は、専用機器を介して即時翻訳を提供する。このような方式は、大規模なセミナーと国際会議に適用し、通常、2−3人の翻訳者の間で交代して行なわれる。従来の同時通訳は、主に翻訳者が聞いてから翻訳して発音することに依存し、AI(Artificial Intelligence,人工知能)技術の発展につれて、AI同時通訳は人工通訳に徐々に取って代わる見込みがある。市場では、幾つかの会議翻訳機があるが、翻訳する時に、人ごとに一台の翻訳装置を持つことを必要とし、コストが高く、且つスポークスマンがボタンを押したままで話す必要があり、その後、オンライン翻訳の顧客サービスはスポークスマンが言った内容を聴衆にそれぞれ翻訳する。この操作は非常に煩雑であり、より多くの人工参与が必要である。
本発明は、翻訳コストを削減し、翻訳作業を簡素化することができる音声翻訳方法及び翻訳装置を提供することを目的とする。
上記の課題を解決するために、本発明の実施形態に係る音声翻訳方法は、プロセッサー及び前記プロセッサーにそれぞれ電気的に接続された音声収集装置、及び音声再生装置を含む翻訳装置に適用され、
翻訳タスクがスタートされる時に、前記音声収集装置により環境中の音を収集し、且つ前記プロセッサーにより収集された音に基づいてユーザが話し始めるかどうかを検出するステップと、
ユーザが話し始めることが検出された時に、音声認識状態に入り、前記プロセッサーにより収集された音の中からユーザの音声を抽出し、且つ抽出したユーザの音声に基づいて前記ユーザが使用するソース言語を判断して、予め設定された言語ペアに基づいて、前記ソース言語に関連付けられる目標言語を確定するステップと、
ユーザが発言を停止する時間が事前に設定された遅延期間を超えたことを検出すると、前記音声認識状態を終了し、前記プロセッサーによって、前記音声認識状態で抽出されたユーザ音声を前記目標言語の目標音声に変換するステップと、
前記音声再生装置を介して前記目標音声を再生し、且つ再生が終わった後に、前記プロセッサーにより収集された音に基づいてユーザが話し始めるかどうかを検出するステップに戻り、翻訳タスクが終わるまで繰り返すステップと、を備える。
また、本発明の実施形態に係る音声翻訳装置は、翻訳タスクがスタートされる時に、音声収集装置を介して環境中の音を収集し、且つ収集された音に基づいてユーザが話し始めるかどうかを検出するためのヘッドポイント検出モジュールと、ユーザが話し始めることが検出された時に音声認識状態に入り、収集された音からユーザ音声を抽出し、且つ抽出された前記ユーザ音声に基づいて、ユーザが使用するソース言語を判断して、予め設定された言語ペアに基づいて前記ソース言語に関連付けられる目標言語を確定するための識別モジュールと、前記ユーザがプリセット遅延期間を超えて発言を停止するかどうかを検出するために用いられ、ユーザが発言を停止する時間が前記プリセット遅延期間を超えると、前記音声認識状態を終了するためのテールポイント検出モジュールと、前記音声認識状態で抽出されたユーザ音声を前記目標言語の目標音声に変換するための翻訳及び音声合成モジュールと、前記音声再生装置を介して前記目標音声を再生し、且つ再生が終わった後に、前記ヘッドポイント検出モジュールをトリガーして、収集された音に基づいてユーザが発言を開始するかどうかを検出するステップを実行するための再生モジュールと、を備える。
また、本発明のもう1つの実施形態に係る音声翻訳装置は、音声収集装置、音声再生装置、メモリ、プロセッサー及び前記メモリに格納され且つ前記プロセッサーで実行されることが可能なコンピュータープログラムを含み、前記音声収集装置、前記音声再生装置及び前記メモリは、それぞれ前記プロセッサーに電気的に接続され、前記プロセッサーが前記コンピュータープログラムを実行する場合に、翻訳タスクがスタートされると、前記音声収集装置により環境中の音を収集し、且つ収集された音に基づいてユーザが話し始めるかどうかを検出し、前記ユーザが話し始めることが検出されると、音声認識状態に入り、収集された音の中からユーザ音声を抽出し且つ抽出したユーザ音声に基づいて前記ユーザが使用するソース言語を判断して、予め設定された言語ペアに基づいて前記ソース言語に関連付けられる目標言語を確定し、ユーザが発言を停止する時間が事前に設定された遅延期間を超えたことを検出すると、前記音声認識状態を終了し、且つ前記音声認識状態で抽出されたユーザ音声を前記目標言語の目標音声に変換し、前記音声再生装置を介して前記目標音声を再生し、且つ再生が終わった後に、前記収集された音に基づいてユーザが話し始めるかどうかを検出するステップに戻り、前記翻訳タスクが終わるまで翻訳を続ける。
本発明の実施形態では、翻訳タスクの実行中に、ユーザが発言を開始及び終了するかどうかを自動的に循環して監視し、且つユーザが言った内容を目標言語に翻訳して再生する。一方では、数人が一台の翻訳装置を共用して同時通訳することを実現でき、翻訳コストを削減した。他方では、翻訳装置がユーザの会話を自動的に認識して翻訳して再生することを本当に実現することによって、翻訳作業を簡素化した。
本発明の第一実施例に係る音声翻訳方法のフローチャートである。 本発明の第二実施例に係る音声翻訳方法のフローチャートである。 本発明の実施例に係る音声翻訳方法の実用例のデモンストレーションである。 本発明の第一実施例に係る翻訳装置の構造を示す図である。 本発明の第二実施例に係る翻訳装置の構造を示す図である。 本発明の第一実施例に係る翻訳装置のハードウェア構造の概略図である。 本発明の第二実施例に係る翻訳装置のハードウェア構造の概略図である。
以下、明細書の図面を参照しながら、本発明の構成、目的及び利点などを詳細に説明する。明らかなように、以下記述した実施形態は、ただ本発明の一部の実施形態であり、全ての実施形態ではない。当業者は、下記の実施形態に基づいて、何の創造的な労働を払わない前提下で得た他の実施形態も、本発明の保護範囲内に含まれることは言うまでもない。
図1は、本発明の第一実施例に係る音声翻訳方法のフローチャートを示している。当該音声翻訳方法は、翻訳装置に適用される。当該翻訳装置は、プロセッサーと、それぞれ当該プロセッサーに電気的に接続された音声収集装置と、音声再生装置と、を含む。前記音声収集装置は、マイク又はピックアップである。前記音声再生装置は、スピーカー等である。図1に示すように、前記音声翻訳方法は、具体的に以下のステップを含む。
S101では、翻訳タスクがスタートされる時に、音声収集装置を介して周り環境の音を収集する。
S102では、プロセッサーによって、収集された音に基づき、ユーザが話し始めるかどうかを検出する。
前記翻訳タスクは、翻訳装置が起動された後に自動的にスタートされるか、又はユーザが翻訳タスクをスタートするためのボタンをクリックすることを検出した時にスタートされるか、又はユーザの第一プリセット音声を検出した時にスタートされる。前記ボタンは、物理ボタンまたは仮想ボタンの何れかである。前記第一プリセット音声は、ユーザのカスタムアクションによって設定され、「翻訳開始」の意味を含む文字又は他の予め設定された音声であることが可能である。
翻訳タスクがスタートされる時に、音声収集装置を介して環境中の音を即時に収集し、且つプロセッサーにより収集された音の中に人間の声を含むかどうかを即時に分析する。人間の声を含む場合、ユーザが話し始めたと認定する。
また、事前に設定された検出期間を超えると、収集された音の中に相変わらず人間の声を含まない場合、音声収集を停止して、スタンバイモードに入り、消費電力を低減する目的を達成する。
S103では、ユーザが話し始めることを検出した時に、音声認識状態に入り、プロセッサーにより収集された音の中からユーザの音声を抽出し、且つ抽出したユーザの音声に基づいてユーザが使用するソース言語を判断して、予め設定された言語ペアに基づいて、ソース言語に関連付けられる目標言語を決定する。
翻訳装置の中には、事前に設定された言語ペアの中に包含された少なくとも2種類の言語の間の関連関係が格納されている。前記言語ペアは、ソース言語と目標言語を確定することに用いられる。ユーザが話し始めることを検出すると、音声認識状態に入り、プロセッサーにより収集された音の中からユーザ音声を抽出し、且つ抽出されたユーザ音声を認識して、ユーザが使用するソース言語を判断する。上記の関連関係に基づき、言語ペアの中のソース言語に関連付けられる他の言語を目標言語に確定する。
好ましくは、本発明の別の実施形態では、ユーザに言語設定インターフェースを提供して、ユーザが話し始めることを検出する前に、ユーザの前記言語設定インターフェースで実行された言語指定操作に応答して、プロセッサーによって、翻訳装置の中で前記言語指定操作が指向した少なくとも2種類の言語を、ソース言語と目標言語を確定するための言語ペアに設置する。
S104では、ユーザが発言を停止する時間が事前に設定された遅延期間を超えたことを検出すると、音声認識状態を終了し、プロセッサーによって、音声認識状態で抽出されたユーザ音声を目標言語の目標音声に変換する。
前記プロセッサーによって、収集された音の中に包含された人間の声が消えるかどうかを即時に分析する。人間の声が消える場合、タイマーを起動して計時を開始し、且つ事前に設定された遅延期間が経過しても前記声が再度出現しない時に、ユーザが発言を停止したと確認して、音声認識状態を終了する。その後、前記プロセッサーによって、音声認識状態で抽出された全てのユーザ音声を目標言語の目標音声に変換する。
S105では、音声再生装置を介して前記目標音声を再生し、且つ再生が終わった後に、ステップS102に戻り、翻訳タスクが終わるまで翻訳を続ける。
前述の音声再生装置を介して前記目標音声を再生し、且つ再生が終わった後に、ステップS102に戻ることは、具体的にプロセッサーによって、収集された音に基づいて、ユーザが話し始めるかどうかを検出し、他のスポークスマンが言ったことを翻訳して、翻訳タスクが終わるまでこのように繰り返す。
前記翻訳タスクは、ユーザが予め設定されたボタンをクリックした時に終了するかまたはユーザの第二プリセット音声を検出する時にスタートされるが、これに限定されるものではない。前記ボタンは、ハードウェアボタンまたは仮想ボタンである。前記第二プリセット音声は、ユーザのカスタム操作に従って設定され、例えば、「翻訳終了」の意味を含む文字または他の音であることができる。
好ましくは、目標音声の再生中に、音を収集することを一時停止して、ユーザ音声の誤判断を回避すると同時に、消費電力を削減することができる。
この実施形態では、翻訳タスクの実行中に、ユーザが発言を開始及び終了するかどうかを自動的に監視して聞き、ユーザの話を目標言語に翻訳して再生する。これにより、一方では、1つの翻訳装置を共有する複数の人による同時通訳を実現して、翻訳コストを低減し、他方では、翻訳装置のユーザの会話内容の自動認識及び翻訳放送を実現し、翻訳操作を簡素化した。
図2に示すように、本発明のもう1つの実施形態に係る音声翻訳方法のフローチャートである。当該音声翻訳方法は、翻訳装置に適用される。当該翻訳装置は、プロセッサーと、それぞれ当該プロセッサーに電気的に接続された音声収集装置と、音声再生装置と、を含む。前記音声収集装置は、マイク又はピックアップである。前記音声再生装置は、スピーカー等である。図2に示すように、前記音声翻訳方法は、具体的に以下のステップを含む。
S201では、翻訳タスクがスタートされる時に、音声収集装置を介して周り環境の音を収集する。
S202では、プロセッサーによって、収集された音に基づき、ユーザが話し始めるかどうかを検出する。
前記翻訳タスクは、翻訳装置が起動された後に自動的にスタートされるか、又はユーザが翻訳タスクをスタートするためのボタンをクリックすることを検出した時にスタートされるか、又はユーザの第一プリセット音声を検出した時にスタートされる。前記ボタンは、物理ボタンまたは仮想ボタンの何れかである。前記第一プリセット音声は、ユーザのカスタムアクションによって設定され、「翻訳開始」の意味を含む文字又は他の音声であることが可能である。
翻訳タスクがスタートされる時に、音声収集装置を介して環境中の音を即時に収集し、且つプロセッサーにより収集された音の中に人間の声を含むかどうかを即時に分析する。人間の声を含む場合、ユーザが話し始めたと認定する。
好ましくは、本発明の別の実施形態では、翻訳品質を確保するために、プロセッサーによって、収集された音に基づいて環境中のノイズがプリセットノイズより大きいかどうかを定期的に検出する。もし、プリセットノイズより大きければ、提示情報を出力して、翻訳環境が悪いことをユーザに通知する。前記提示情報は、音声及び/または文字の形で出力される。なお、ノイズ検出は、音声認識状態に入る前にのみ行なわれる。
好ましくは、本発明の別の実施形態では、翻訳エラーを回避するために、翻訳タスクがスタートされた後、音声収集装置によって環境中の音を即時に取得し、且つプロセッサーを介して収集された音の中に人間の声を含むかどうか且つ包含する人間の声の音量がプリセットデシベルより大きいかどうかを即時に分析する。人間の声を含む且つ包含する人間の声の音量がプリセットデシベルより大きい場合、ユーザが話し始めたと認定する。
S203では、ユーザが話し始めることを検出した場合、音声認識状態に入り、プロセッサーにより収集された音の中からユーザの音声を抽出し、且つ抽出したユーザの音声に基づいてユーザが使用するソース言語を判断して、予め設定された言語ペアに基づいて、ソース言語に関連付けられる目標言語を決定する。
前記翻訳装置は、前記プロセッサーに電気的に接続されたメモリをさらに含む。前記メモリには、事前に設定された言語ペアの中に包含された少なくとも2種類の言語の間の関連関係が格納されている。前記言語ペアは、ソース言語と目標言語を確定することに用いられる。ユーザが話し始めることを検出すると、音声認識状態に入り、プロセッサーにより収集された音の中からユーザ音声を抽出し、且つ抽出されたユーザ音声を認識して、ユーザが使用するソース言語を判断する。上記の関連関係に基づき、言語ペアの中のソース言語に関連付けられる他の言語を目標言語に確定する。例えば、仮に言語ペアが英語と中国語であり、ソース言語が中国語であれば、目標言語は英語であると確定する。この場合、ユーザ音声を中国語音声に変換する必要がある。また、仮に言語ペアが英語-中国語-ロシア語であり、ソース言語が英語であれば、目標言語は中国語とロシア語であると確定する。この場合、ユーザ音声を中国語音声とロシア語音声にそれぞれ変換する必要がある。
好ましくは、本発明の別の実施形態では、ユーザに言語設定インターフェースを提供して、ユーザが話し始めることを検出する前に、ユーザの前記言語設定インターフェースで実行された言語指定操作に応答して、プロセッサーによって、翻訳装置の中で前記言語指定操作が指向した少なくとも2種類の言語を、ソース言語と目標言語を確定するための言語ペアに設置する。
好ましくは、本発明の別の実施形態では、前記メモリには、言語ペアの中の各言語の識別情報がさらに格納される。前記識別情報は、プロセッサーによって、言語ペアを設置する時に各言語のために生成される。上記の抽出されたユーザ音声に基づいてユーザが使用するソース言語を判断するステップは、具体的にプロセッサーを介してユーザ音声の中のユーザ声紋特徴を抽出して、メモリの中に前記声紋特徴に対応する言語の識別情報が格納されているかどうかを判断する。メモリの中に前記識別情報が格納されている場合、前記識別情報に対応する言語をソース言語に確定する。メモリの中に前記識別情報が格納されていない場合、ユーザ音声の中のユーザの発音特徴を抽出して、前記発音特徴に基づいてソース言語を確定し、且つユーザの声紋特徴とソース言語の識別情報との対応関係を前記メモリの中に格納して、次の翻訳での言語認識のために使用する。
具体的には、ユーザの発音特徴と言語ペアの中の各言語の発音特徴とをマッチングして、一致度が一番高い言語をソース言語に確定する。上記の発音特徴のマッチング操作は、翻訳装置本体で行われてもよく、サーバーにより実現されてもよい。
このようにして、発音特徴の対比がより多くのシステム資源を占用するため、ユーザの声紋特徴とソース言語の識別情報との対応関係を自動的に記録し、且つユーザの声紋特徴と前記対応関係を利用してソース言語を確定することによって、言語認識の効率を高めることができる。
S204では、抽出されたユーザ音声を対応する第一テキストに変換し、且つ当該第一テキストをディスプレーに表示させる。前記第一テキストの言語は、ソース言語である。
S205では、ユーザが発言を停止する時間が事前に設定された遅延期間を超えたことを検出すると、音声認識状態を終了し、プロセッサーにより前記第一テキストを目標言語の第二テキストに翻訳し、且つ当該第二テキストをディスプレーに表示させる。
S206では、音声合成システムによって、前記第二テキストを目標音声に変換する。
具体的には、翻訳装置は、プロセッサーに電気的に接続されたディスプレーをさらに含む。前記プロセッサーによって、収集された音の中に包含された人間の声が消えるかどうかを即時に分析する。人間の声が消える場合、タイマーを起動して計時を開始し、且つ事前に設定された遅延期間が経過しても前記声が再度出現しない時に、ユーザが発言を停止したと確認して、音声認識状態を終了する。その後、プロセッサーによって、音声認識状態で抽出されたユーザ音声に対応するソース言語の第一テキストを目標言語の第二テキストに翻訳し、且つ当該第二テキストをディスプレーに表示させる。これと同時に、TTS(Text To Speech,テキストから音声へ)音声合成システムを利用して、前記第二テキストを目標言語の目標音声に変換する。
好ましくは、本発明の別の実施形態では、音声認識状態を終了する前に、ユーザが発言を停止する時間が事前に設定された遅延期間を超えたことが検出されると、トリガーされた翻訳命令に応じて音声認識状態を終了する。ユーザが発言を停止した時点と翻訳命令がトリガーされた時点との時間差に基づいて、プリセット遅延期間を調整する。例えば、時間差の値をプリセット遅延期間の値に設定できる。
好ましくは、本発明の別の実施形態では、前記翻訳装置は、前記プロセッサーに電気的に接続された運動センサーをさらに含む。音声認識状態において、前記運動センサーによって前記翻訳装置の運動振幅が予め設定された振幅より大きいことが検出されるか又は前記翻訳装置が衝突される時に、前記翻訳命令がトリガーされる。
プリセット遅延期間の初期値がデフォルト値であり、且つ各スピーカーの耐久力が異なるため、ユーザは翻訳装置を渡すか又は翻訳装置を衝突することにより、翻訳命令をアクティブにトリガーし、且つ翻訳命令がトリガーされる時間に応じてプリセット遅延期間を動的に調整することができる。これにより、ユーザが発言を停止したかどうかを判断する時の柔軟性を向上させ、翻訳のタイミングをユーザのニーズにより適したものにすることができる。
好ましくは、本発明の別の実施形態では、ユーザが発言を停止した時点と翻訳命令がトリガーされた時点との時間差に基づいて、プリセット遅延期間を調整するステップは、具体的にメモリの中に発言を停止したユーザの声紋特徴に対応するプリセット遅延期間が格納されているかどうかを判断することを含む。メモリの中に対応するプリセット遅延期間が格納されている場合、ユーザが発言を停止した時点と翻訳命令がトリガーされた時点との時間差に基づいて、前記ユーザの声紋特徴に対応するプリセット遅延期間を調整する。メモリの中に対応するプリセット遅延期間が格納されておらず、即ち音声認識状態を終了するためのデフォルト遅延期間が設定されている場合、前記時間差を前記ユーザの声紋特徴に対応するプリセット遅延期間に設置する。上記のステップによって、異なるスピーカーに異なるプリセット遅延期間を設定して、翻訳装置のインテリジェンスを向上させることができる。
好ましくは、時間差によってプリセット遅延期間を調整することができる。例えば、時間差の値をプリセット遅延期間の値に設定するか又は時間差とプリセット遅延期間の平均値を取って、それを新しいプリセット遅延期間の値にする。
S207では、音声再生装置により目標音声を再生し、且つ再生が終わった後にステップS202に戻り、翻訳タスクが終わるまで翻訳を続ける。
音声再生装置を介して目標音声を再生し、且つ再生が終わった後に、ステップS202に戻ることは、具体的にプロセッサーによって、収集された音に基づいてユーザが話し始めるかどうかを検出し、他のスポークスマンが言ったことを翻訳して、翻訳タスクが終わるまでこのように繰り返す。
前記翻訳タスクは、ユーザが予め設定されたボタンをクリックした時に終了されるか又はユーザの第二プリセット音声を検出する時にスタートされるが、これに限定されるものではない。前記ボタンは、ハードウェアボタンまたは仮想ボタンである。前記第二プリセット音声は、ユーザのカスタム操作に従って設定され、例えば、「翻訳終了」の意味を含む文字または他の音であることができる。
好ましくは、目標音声の再生中に、音を収集することを一時停止して、ユーザ音声の誤判断を回避すると同時に、消費電力を削減することができる。
好ましくは、本発明の別の実施形態では、翻訳タスクが実行される期間に得られた全ての第一テキストと第二テキストを会話記録としてメモリの中に格納して、ユーザの後続の照会を容易にする。これと同時に、ストレージスペースの利用率を改善するために、前記プロセッサーは、定期的にまたは毎回翻訳装置を起動した後にストレージ期間を超えた会話記録を自動的にクリアアップする。
以下、図3を併せて、例を挙げて本実施形態の音声翻訳方法をより詳細に説明する。ユーザAとユーザBが異なる国の人であり、ユーザAがA言語を使用し、ユーザBがB言語を使用することを前提として、以下のステップで翻訳を完成する。
1.ユーザAが発声して、音声Aを生成する。
2.上記の翻訳装置は、ヘッドポイント検出モジュールを介してユーザAが発言し始めたことを自動的に検出する。
3.音声認識モジュールと言語判定モジュールにより、ユーザAの発言を認識しながら、ユーザAが使用する言語(つまり言語の種類)を判断する。
4.言語判定モジュールは、ユーザAがA言語を話していることを検出した場合、翻訳装置の表示画面において現在認識されている音声Aに対応する第一テキストを表示する。
5.ユーザAが発言を停止すると、前記翻訳装置は、テールポイント検出モジュールを介してユーザが発言を終了したことを自動的に判断する。
6.この時点で、前記翻訳装置は翻訳段階に入り、翻訳モジュールを介してA言語の第一テキストをB言語の第二テキストに変換する。
7.前記翻訳装置がB言語の翻訳されたテキストを取得した後、TTS音声合成モジュールを介して対応する目標音声を生成し、且つそれを自動的に放送する。
その後、前記翻訳装置は、ヘッドポイント検出モジュールを介してユーザBが話し始めることを再び自動的に検出する。すると、ユーザBに基づいて、上記のステップ3−7を実行して、ユーザBのB言語の音声をA言語の目標音声に翻訳し、且つそれを自動的に放送して、ユーザAとBの会話が終わるまでこのように繰り返す。
翻訳プロセス全体で、ユーザAは翻訳装置に対して追加の操作を必要とせず、翻訳装置は、リスニング、識別、終了、翻訳、再生などの一連のプロセスを完了することができる。
好ましくは、本発明の別の実施形態では、言語認識の速度を改善するために、最初の使用中にユーザの声紋特徴を事前に収集し、且つ収集された声紋特徴をユーザが使用する言語にバインドすることができる。2回目の使用では、ユーザの声紋特徴に基づいて、ユーザが使用する言語を迅速に確認する。
具体的には、翻訳装置は、ユーザに声紋特徴をそれに対応する言語にバインドするためのインターフェースを提供して、翻訳タスクがスタートされる前に、ユーザが前記インターフェースを介してトリガーしたバインディング命令に応答して、音声収集装置によりユーザの目標音声を収集して、前記目標音声を認識して、前記ユーザの声紋特徴と前記ユーザが使用した言語を取得し、且つ認識された声紋特徴と言語を前記翻訳装置の中にバインドする。前記声紋特徴にバインドされた言語は、前記バインディング命令が指向する言語であることができる。
すると、ユーザが話し始めることを検出する時に、音声認識状態に入り、前記プロセッサーを介して収集された音の中からユーザ音声を抽出し、且つ抽出したユーザ音声に基づいて前記ユーザが使用するソース言語を判断するステップは、具体的にユーザが話し始めることを検出する時に、音声認識状態に入り、前記プロセッサーを介して収集された音の中からユーザ音声を抽出し、且つ抽出したユーザ音声に対して声紋認識を行って、前記ユーザの声紋特徴及び当該声紋特徴にバインドされる言語を取得して、前記言語をユーザが使用するソース言語とする。
例を挙げて説明すると、仮にユーザAがA言語を使用し、ユーザBがB言語を使用すれば、翻訳する前に、ユーザAとユーザBは、それぞれ翻訳装置が提供したインターフェースを介して、自分の声紋特徴と使用する言語を前記翻訳装置の中にバインドする。例えば、ユーザAとユーザBは、順次に前記翻訳装置の音声設置ボタンを押すことにより、バインディング命令をトリガーして、前記翻訳装置が出力した提示情報に基づいて、前記翻訳装置の中で一段の音声を入力する。前記提示情報は、音声又はテキストの方式により出力される。前記音声設置ボタンは、物理ボタン又は仮想ボタンである。
前記翻訳装置は、入力されたユーザAとユーザBとの音声を認識して、ユーザAの声紋特徴及びそれに対応する言語Aを取得し、且つ得たユーザAの声紋特徴とそれに対応する言語Aとを関連付けて、関連情報をメモリの中に格納させることによって、ユーザAの声紋特徴及びそれに対応する言語Aを前記翻訳装置の中にバインドする。同様に、ユーザBの声紋特徴及びそれに対応する言語Bを取得し、且つ得たユーザBの声紋特徴とそれに対応する言語Bとを関連付けて、関連情報をメモリの中に格納させることによって、ユーザBの声紋特徴及びそれに対応する言語Bを前記翻訳装置の中にバインドする。
翻訳タスクがスタートされた後、ユーザAが話し始めることを検出すると、声紋認識によって、上記の関連情報に基づき、ユーザAが使用した言語を確認することができるので、言語種類の識別を必要としない。言語種類の識別と比較して、声紋認識は、計算量がより低く、且つより少ないシステム資源を占用するので、認識速度及び翻訳効率を高めることができる。
本実施形態では、翻訳タスクの実行中に、ユーザが発言を開始及び終了したかどうかを自動的に循環して監視し、且つユーザが言った内容を目標言語に翻訳して再生する。一方では、数人が一台の翻訳装置を共用して同時通訳することを実現でき、翻訳コストを削減した。他方では、翻訳装置がユーザの会話内容を自動的に認識し且つ翻訳して再生することを本当に実現して、翻訳作業を簡素化した。
図4に示すように、本発明の1つの実施形態に係る翻訳装置は、図1に示された音声翻訳方法を実行することに用いられる。前記翻訳装置は、ヘッドポイント検出モジュール401、識別モジュール402、テールポイント検出モジュール403、翻訳及び音声合成モジュール404並びに再生モジュール405を含む。
ヘッドポイント検出モジュール401は、翻訳タスクがスタートされる時に、音声収集装置を介して環境中の音を収集し、且つ収集された音に基づいてユーザが話し始めるかどうかを検出する。
識別モジュール402は、ユーザが話し始めることが検出された時に音声認識状態に入り、収集された音からユーザ音声を抽出し、且つ抽出されたユーザ音声に基づいて、ユーザが使用するソース言語を判断して、予め設定された言語ペアに基づいて前記ソース言語に関連付けられる目標言語を確定する。
テールポイント検出モジュール403は、ユーザがプリセット遅延期間を超えて発言を停止するかどうかを検出するために用いられる。ユーザが発言を停止する時間がプリセット遅延期間を超えると、音声認識状態を終了する。
翻訳及び音声合成モジュール404は、音声認識状態で抽出されたユーザ音声を前記目標言語の目標音声に変換する。
再生モジュール405は、音声再生装置を介して前記目標音声を再生し、且つ再生が終わった後に、ヘッドポイント検出モジュールをトリガーして、収集された音に基づいてユーザが発言を開始するかどうかを検出するステップを実行する。
さらに、図5に示すように、本発明の別の実施形態では、前記翻訳装置は、ノイズ推計モジュール501をさらに含む。ノイズ推計モジュール501は、収集された音に基づいて、環境中のノイズがプリセットノイズより大きいかどうかを検出する。プリセットノイズより大きい場合、提示情報を出力して、翻訳環境が悪いことをユーザに通知する。
さらに、前記翻訳装置は、ユーザの言語指定操作に応答して、前記言語指定操作が指向した少なくとも2種類の言語を前記言語ペアに設定するための設定モジュール502をさらに含む。
さらに、識別モジュール402は、抽出されたユーザ音声を対応する第一テキストに変換する。
さらに、前記翻訳装置は、前記第一テキストを前記表示パネルに表示させるためのディスプレーモジュール503をさらに含む。ディスプレーモジュール503は、前記第二テキストを前記表示パネルに表示させるためにも用いられる。
さらに、翻訳及び音声合成モジュール404は、前記第一テキストを前記目標言語の第二テキストに翻訳し、且つ音声合成システムを介して前記第二テキストを前記目標音声に変換する。
さらに、前記翻訳装置は、設定モジュール502と処理モジュール504とを含む。設定モジュール502は、ユーザが発言を停止した時点と翻訳命令がトリガーされた時点との時間差に基づいて、前記プリセット遅延期間を調整するためにも用いられる。処理モジュール504は、トリガーされた翻訳命令に応じて音声認識状態を終了するために用いられる。
さらに、処理モジュール504は、音声認識状態において、前記運動センサーによって前記翻訳装置の運動振幅が予め設定された振幅より大きいことが検出されるか又は前記翻訳装置が衝突される時に、前記翻訳命令をトリガーするためにも用いられる。
さらに、識別モジュール402は、ユーザ音声の中の前記ユーザの声紋特徴を抽出し、声紋特徴に対応する言語の識別情報がメモリに記憶されているかどうかを判定する。前記メモリに前記識別情報が格納されている場合、前記識別情報に対応する言語を前記ソース言語として確定する。前記メモリに前記識別情報が格納されていない場合、前記ユーザ音声における前記ユーザの発音特徴を抽出して、前記発音特徴に基づいて前記ソース言語を決定し、且つ前記ユーザの声紋特徴と前記ソース言語の識別情報との対応関係を前記メモリの中に格納する。
さらに、設定モジュール502は、発言を停止したユーザの声紋特徴に対応するプリセット遅延期間がメモリに格納されているかどうかを判断するために用いられる。前記メモリには対応するプリセット遅延期間が格納されている場合、ユーザが発言を停止した時点と翻訳命令がトリガーされた時点との時間差に基づいて、前記対応するプリセット遅延期間を調整する。前記メモリに前記対応するプリセット遅延期間が格納されていない場合、前記時間差を前記対応するプリセット遅延期間に設定する。
さらに、処理モジュール504は、翻訳タスクの実行中に得られた全ての第一テキスト及び第二テキストを会話記録として前記メモリの中に記憶して、ユーザによる後続の照会を容易にする。また、ストレージスペースの利用率を改善するために、処理モジュール504は、定期的にまたは毎回翻訳装置を起動した後にストレージ期間を超えた会話記録を自動的にクリアアップするためにも用いられる。
さらに、認識モジュール402は、ユーザによってトリガーされたバインディング命令に応じて、音声収集装置を介してユーザの目標音声を収集し、且つ前記目標音声を認識して、前記ユーザの声紋特徴及び前記ユーザが使用する言語を取得する。
設定モジュール502は、識別された前記ユーザの声紋特徴と使用される言語とを前記翻訳装置の中にバインドする。
識別モジュール402は、ユーザが発言を開始したことを検出すると、音声認識状態に入り、収集された音からユーザ音声を抽出し、且つ抽出されたユーザ音声に対して声紋認識を行なって、前記ユーザの声紋特徴及び前記声紋特徴にバインドされている言語を取得し、且つ前記言語を前記ユーザが使用するソース言語とする。
前述の各モジュールが各自の機能を実現する具体的なプロセスについては、図1から図3に示された実施形態の関連内容を参照することができ、ここで再度説明しない。
本実施形態において、翻訳タスクが実行される期間において、ユーザが発言を開始及び終了するかどうかを自動的に聞いて、ユーザの話を目標言語に翻訳して再生する。これにより、一方では、1つの翻訳装置を共有する複数の人による同時通訳を実現して、翻訳コストを低減し、他方では、翻訳装置のユーザの会話内容の自動認識及び翻訳放送を実現し、翻訳操作を簡素化した。
図6は、本発明の1つの実施形態が提供する翻訳装置のハードウェアの構造を示す図である。本実施形態に記載する翻訳装置は、音声収集装置601、音声再生装置602、メモリ603、プロセッサー604及びメモリ603に格納され且つプロセッサー604で実行されることが可能なコンピュータープログラムを含む。
音声収集装置601、音声再生装置602及びメモリ603は、それぞれプロセッサー604に電気的に接続されている。メモリ603は、高速ランダムアクセスメモリ(RAM,Random Access Memory)であることができ、ディスクストレージなどの不揮発性メモリ(non−volatile memory)であってもよい。メモリ603には、実行可能なプログラムコードが格納されている。
プロセッサー604がコンピュータープログラムを実行する時に、以下のステップを実行する。翻訳タスクがスタートされると、音声収集装置601により環境中の音を収集し、且つ収集された音に基づいてユーザが話し始めるかどうかを検出する。ユーザが話し始めることを検出すると、音声認識状態に入り、収集された音の中からユーザの音声を抽出し、且つ抽出したユーザの音声に基づいてユーザが使用するソース言語を判断して、予め設定された言語ペアに基づいて前記ソース言語に関連付けられる目標言語を確定する。ユーザが発言を停止する時間が事前に設定された遅延期間を超えたことを検出すると、音声認識状態を終了し、音声認識状態で抽出されたユーザ音声を目標言語の目標音声に変換する。音声再生装置602を介して前記目標音声を再生し、且つ再生が終わった後に、収集された音に基づいてユーザが話し始めるかどうかを検出するステップに戻り、翻訳タスクが終わるまで翻訳を続ける。
さらに、図7に示すように、本発明の別の1つの実施形態において、前記翻訳装置は、プロセッサー604に電気的に接続された少なくとも1つの入力装置701、少なくとも1つの出力装置702及び少なくとも1つの運動センサー703をさらに含む。具体的には、入力装置701は、カメラ、タッチパネル及び物理ボタンなどであり、出力装置702は、ディスプレーであり、運動センサー703は、重力センサー、ジャイロスコープ及び加速度センサーなどである。
さらに、前記翻訳装置は、無線ネットワーク信号を送信及び受信するための信号トランシーバーをさらに含む。
前記各素子が各自の機能を実現する具体的な過程は、図1ないし図3により示された実施形態の関連内容を参考にすることができるので、ここでは詳しい説明を省略する。
本実施形態において、翻訳タスクが実行される期間において、ユーザが発言を開始及び終了するかどうかを自動的に聞いて、ユーザの話を目標言語に翻訳して再生する。これにより、一方では、1つの翻訳装置を共有する複数の人による同時通訳を実現して、翻訳コストを低減し、他方では、翻訳装置のユーザの会話内容の自動認識及び翻訳放送を実現し、翻訳操作を簡素化した。
本発明の幾つかの実施形態により開示された装置及び方法は、他の形で実現され得ることを理解されたい。例えば、上記のデバイスは、ただの例示的なものであり、モジュールの分割は、ただの論理的な機能の区分にすぎない。実際の応用では、他の区分方式がある。例えば、複数のモジュール又はコンポーネントを組み合わせたり、別のシステムに統合したり、一部の機能を省略したり、実行しないことができる。加えて、図示された又は説明された相互結合、直接結合又は通信接続は、何らかの接続ポート又はインターフェースを介して実現される。デバイス又はモジュールの間接結合又は通信接続は、電気的、機械的又はその他であり得る。
分離部品として説明されるモジュールは、物理的に離れるか又は物理的に離れておらず、モジュールとして示される部品は、物理モジュールであるか又は物理モジュールではない。即ち、1つの場所に位置するか又は複数のネットワークモジュールに分布されてもよい。しかも、実際の必要に応じて、一部又は全てのモジュールを選んで本発明の提案を実現することができる。
さらに、本発明の各実施形態における各機能モジュールは、1つの処理モジュールに統合されてもよく、各モジュールは物理的に別々に存在してもよく、または2つ以上のモジュールが1つのモジュールに統合されてもよい。上記の統合モジュールは、ハードウェアの形またはソフトウェアの形で実現される。
前記統合モジュールは、ソフトウェアの形で実現され、且つ別個の製品として販売または使用される場合、コンピュータの読み取り可能な記憶媒体に格納されることができる。 そのような理解に基づいて、本発明の先行技術に貢献する一部または全ての技術提案は、ソフトウェア製品の形で具現化され得る。前記ソフトウェア製品は、1つの読み取り可能な媒体に格納され、本願の様々な実施形態で説明された方法の全部または一部のステップをコンピュータ(パソコン、サーバーまたはネットワークデバイスなどであってもよい)に実行させるための命令を含む。前述の読み取り可能な記憶媒体は、プログラムコードを記憶することができるUディスク、モバイルハードディスク、ROM、RAM、磁気ディスクまたはCDなどを含む。
前述の方法実施形態に対して、簡潔にするために、それらを全て一連のアクションの組み合わせとして説明されているが、当業者は、本発明が説明されたアクションのシーケンスによって限定されないことに留意されたい。なぜなら、本発明に従って、幾つかのステップは、他のシーケンスでまたは同時に実行される可能性があるからである。しかも、当業者は、明細書に記載された実施形態は全て好ましい実施形態であり、関与する動作及びモジュールは必ずしも本発明に必要でないことも理解されたい。
上記の様々な実施形態に対する説明は、それぞれに独自の重点があり、ある実施形態において詳述されていない部分を他の実施形態の関連記載を参照することができる。
以上は、本発明によって提供される音声翻訳方法及び翻訳装置の説明である。当業者にとって、本発明の実施形態の主旨に応じて、具体的な実施形態及び適用範囲を変更できることが明らかである。本明細書の記載は、本願を制限するものではない。
401 ヘッドポイント検出モジュール
402 識別モジュール
403 テールポイント検出モジュール
404 翻訳及び音声合成モジュール
405 再生モジュール
501 ノイズ推計モジュール
502 設定モジュール
503 ディスプレーモジュール
504 処理モジュール
601 音声収集装置
602 音声再生装置
603 メモリ
604 プロセッサー
701 入力装置
702 出力装置
703 運動センサー

Claims (10)

  1. プロセッサー及び前記プロセッサーにそれぞれ電気的に接続された音声収集装置、及び音声再生装置を含む翻訳装置に適用される音声翻訳方法であって、
    翻訳タスクがスタートされる時に、前記音声収集装置により環境中の音を収集し、且つ前記プロセッサーにより収集された音に基づいてユーザが話し始めるかどうかを検出するステップと、
    ユーザが話し始めることが検出された時に、音声認識状態に入り、前記プロセッサーにより収集された音の中からユーザの音声を抽出し、且つ抽出したユーザの音声に基づいて前記ユーザが使用するソース言語を判断して、予め設定された言語ペアに基づいて、前記ソース言語に関連付けられる目標言語を確定するステップと、
    ユーザが発言を停止する時間が事前に設定された遅延期間を超えたことを検出すると、前記音声認識状態を終了し、前記プロセッサーによって、前記音声認識状態で抽出されたユーザ音声を前記目標言語の目標音声に変換するステップと、
    前記音声再生装置を介して前記目標音声を再生し、且つ再生が終わった後に、前記プロセッサーにより収集された音に基づいてユーザが話し始めるかどうかを検出するステップに戻り、翻訳タスクが終わるまで繰り返すステップと、
    を備えることを特徴とする音声翻訳方法。
  2. 前記ユーザが話し始めることが検出され、音声認識状態に入る前に、前記プロセッサーによって収集された音に基づいて環境中のノイズがプリセットノイズより大きいかどうかを検出し、もし前記プリセットノイズより大きければ、提示情報を出力して、翻訳環境が悪いことを前記ユーザに通知することを特徴とする請求項1に記載の音声翻訳方法。
  3. 前記ユーザの言語指定操作に応答して、前記プロセッサーによって前記言語指定操作が指向した少なくとも2種類の言語を前記言語ペアに設置することを特徴とする請求項1に記載の音声翻訳方法。
  4. 前記翻訳装置は、前記プロセッサーに電気的に接続されたディスプレーをさらに含み、前記ユーザが話し始めることが検出された場合、音声認識状態に入って、前記プロセッサーにより収集された音の中からユーザ音声を抽出した後に、抽出された前記ユーザ音声を対応する第一テキストに変換し、且つ当該第一テキストを前記ディスプレーに表示させ、
    前記ユーザが発言を停止する時間が事前に設定された遅延期間を超えたことを検出すると、音声認識状態を終了し、前記プロセッサーにより前記音声認識状態で抽出されたユーザ音声を前記目標言語の目標音声に変換し、
    前記プロセッサーにより前記第一テキストを前記目標言語の第二テキストに翻訳し、且つ前記第二テキストを前記ディスプレーに表示させ、
    音声合成システムによって、前記第二テキストを前記目標音声に変換することを特徴とする請求項1に記載の音声翻訳方法。
  5. 前記ユーザがプリセット遅延期間を超えて発言を停止することが検出された場合、前記音声認識状態を終了する前に、トリガーされた翻訳命令に応じて音声認識状態を終了し、
    前記ユーザが発言を停止した時点と前記翻訳命令がトリガーされた時点との時間差に基づいて、前記プリセット遅延期間を調整することを特徴とする請求項1に記載の音声翻訳方法。
  6. 前記翻訳装置は、前記プロセッサーに電気的に接続された運動センサーをさらに含み、音声認識状態において、前記運動センサーによって前記翻訳装置の運動振幅が予め設定された振幅より大きいことが検出されるか又は前記翻訳装置が衝突される時に、前記翻訳命令がトリガーされることを特徴とする請求項5に記載の音声翻訳方法。
  7. 前記翻訳装置は、前記プロセッサーに電気的に接続されたメモリをさらに含み、前記抽出されたユーザ音声に基づいてユーザが使用するソース言語を判断するステップは、具体的に前記プロセッサーにより前記ユーザ音声の中の前記ユーザの声紋特徴を抽出して、前記メモリの中に前記声紋特徴に対応する言語の識別情報が格納されているかどうかを判断し、
    前記メモリの中に前記識別情報が格納されている場合、前記識別情報に対応する言語を前記ソース言語に確定し、
    前記メモリの中に前記識別情報が格納されていない場合、前記ユーザ音声の中の前記ユーザの発音特徴を抽出して、前記発音特徴に基づいて前記ソース言語を確定し、且つ前記ユーザの声紋特徴と前記ソース言語の識別情報との対応関係を前記メモリの中に格納することを特徴とする請求項5に記載の音声翻訳方法。
  8. 前記ユーザが発言を停止した時点と前記翻訳命令がトリガーされた時点との時間差に基づいて、前記プリセット遅延期間を調整するステップは、具体的に発言を停止した前記ユーザの声紋特徴に対応するプリセット遅延期間がメモリに格納されているかどうかを判断し、前記メモリに前記対応するプリセット遅延期間が格納されている場合、前記ユーザが発言を停止した時点と翻訳命令がトリガーされた時点との時間差に基づいて、前記対応するプリセット遅延期間を調整し、
    前記メモリに前記対応するプリセット遅延期間が格納されていない場合、前記時間差を前記対応するプリセット遅延期間に設定することを特徴とする請求項7に記載の音声翻訳方法。
  9. 翻訳タスクがスタートされる時に、音声収集装置を介して環境中の音を収集し、且つ収集された音に基づいてユーザが話し始めるかどうかを検出するためのヘッドポイント検出モジュールと、
    ユーザが話し始めることが検出された時に音声認識状態に入り、収集された音からユーザ音声を抽出し、且つ抽出された前記ユーザ音声に基づいて、ユーザが使用するソース言語を判断して、予め設定された言語ペアに基づいて前記ソース言語に関連付けられる目標言語を確定するための識別モジュールと、
    前記ユーザがプリセット遅延期間を超えて発言を停止するかどうかを検出するために用いられ、ユーザが発言を停止する時間が前記プリセット遅延期間を超えると、前記音声認識状態を終了するためのテールポイント検出モジュールと、
    前記音声認識状態で抽出されたユーザ音声を前記目標言語の目標音声に変換するための翻訳及び音声合成モジュールと、
    音声再生装置を介して前記目標音声を再生し、且つ再生が終わった後に、前記ヘッドポイント検出モジュールをトリガーして、収集された音に基づいてユーザが発言を開始するかどうかを検出するステップを実行するための再生モジュールと、
    を備えることを特徴とする翻訳装置。
  10. 音声収集装置、音声再生装置、メモリ、プロセッサー及び前記メモリに格納され且つ前記プロセッサーで実行されることが可能なコンピュータープログラムを含む翻訳装置であって、
    前記音声収集装置、前記音声再生装置及び前記メモリは、それぞれ前記プロセッサーに電気的に接続され、
    前記プロセッサーが前記コンピュータープログラムを実行する場合に、翻訳タスクがスタートされると、前記音声収集装置により環境中の音を収集し、且つ収集された音に基づいてユーザが話し始めるかどうかを検出し、前記ユーザが話し始めることが検出されると、音声認識状態に入り、収集された音の中からユーザ音声を抽出し且つ抽出したユーザ音声に基づいて前記ユーザが使用するソース言語を判断して、予め設定された言語ペアに基づいて前記ソース言語に関連付けられる目標言語を確定し、
    ユーザが発言を停止する時間が事前に設定された遅延期間を超えたことを検出すると、前記音声認識状態を終了し、且つ前記音声認識状態で抽出されたユーザ音声を前記目標言語の目標音声に変換し、前記音声再生装置を介して前記目標音声を再生し、且つ再生が終わった後に、前記収集された音に基づいてユーザが話し始めるかどうかを検出するステップに戻り、前記翻訳タスクが終わるまで翻訳を続けることを特徴とする翻訳装置。
JP2019563584A 2018-09-19 2019-04-02 音声翻訳方法及び翻訳装置 Pending JP2021503094A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811094286.9A CN109344411A (zh) 2018-09-19 2018-09-19 一种自动侦听式同声传译的翻译方法
CN201811094286.9 2018-09-19
PCT/CN2019/081036 WO2020057102A1 (zh) 2018-09-19 2019-04-02 语音翻译方法及翻译装置

Publications (1)

Publication Number Publication Date
JP2021503094A true JP2021503094A (ja) 2021-02-04

Family

ID=65305959

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019563584A Pending JP2021503094A (ja) 2018-09-19 2019-04-02 音声翻訳方法及び翻訳装置

Country Status (4)

Country Link
US (1) US20210343270A1 (ja)
JP (1) JP2021503094A (ja)
CN (1) CN109344411A (ja)
WO (1) WO2020057102A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113766510A (zh) * 2021-09-28 2021-12-07 安徽华米信息科技有限公司 设备绑定方法、装置、设备、系统及存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344411A (zh) * 2018-09-19 2019-02-15 深圳市合言信息科技有限公司 一种自动侦听式同声传译的翻译方法
CN112435690A (zh) * 2019-08-08 2021-03-02 百度在线网络技术(北京)有限公司 双工蓝牙翻译处理方法、装置、计算机设备和存储介质
CN111142822A (zh) * 2019-12-27 2020-05-12 深圳小佳科技有限公司 一种同声传译会议方法及系统
CN111680522B (zh) * 2020-05-29 2024-04-23 刘于平 基于电子终端实现翻译控制的方法及其系统、电子设备
CN112309370A (zh) * 2020-11-02 2021-02-02 北京分音塔科技有限公司 语音翻译方法、装置及设备、翻译机
CN115312029B (zh) * 2022-10-12 2023-01-31 之江实验室 一种基于语音深度表征映射的语音翻译方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007080097A (ja) * 2005-09-15 2007-03-29 Toshiba Corp 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
JP2007322523A (ja) * 2006-05-30 2007-12-13 Toshiba Corp 音声翻訳装置及びその方法
JP2008083459A (ja) * 2006-09-28 2008-04-10 Toshiba Corp 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
JP2015118710A (ja) * 2015-01-09 2015-06-25 株式会社東芝 対話装置、方法及びプログラム
JP2015521404A (ja) * 2012-04-25 2015-07-27 コピン コーポレーション 即時翻訳システム
JP2018060165A (ja) * 2016-09-28 2018-04-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識方法、携帯端末、および、プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272260A (ja) * 2004-06-23 2007-10-18 Matsushita Electric Ind Co Ltd 自動翻訳装置
JP2008077601A (ja) * 2006-09-25 2008-04-03 Toshiba Corp 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
CN103617801B (zh) * 2013-12-18 2017-09-29 联想(北京)有限公司 语音检测方法、装置及电子设备
CN104780263A (zh) * 2015-03-10 2015-07-15 广东小天才科技有限公司 一种语音断点延长判断的方法及装置
CN107305541B (zh) * 2016-04-20 2021-05-04 科大讯飞股份有限公司 语音识别文本分段方法及装置
CN106486125A (zh) * 2016-09-29 2017-03-08 安徽声讯信息技术有限公司 一种基于语音识别技术的同声传译系统
JP6876936B2 (ja) * 2016-11-11 2021-05-26 パナソニックIpマネジメント株式会社 翻訳装置の制御方法、翻訳装置、および、プログラム
CN107910004A (zh) * 2017-11-10 2018-04-13 科大讯飞股份有限公司 语音翻译处理方法及装置
CN108009159A (zh) * 2017-11-30 2018-05-08 上海与德科技有限公司 一种同声传译方法和移动终端
CN108257616A (zh) * 2017-12-05 2018-07-06 苏州车萝卜汽车电子科技有限公司 人机对话的检测方法以及装置
CN207851812U (zh) * 2017-12-28 2018-09-11 中译语通科技(青岛)有限公司 新型同传翻译装置
CN109344411A (zh) * 2018-09-19 2019-02-15 深圳市合言信息科技有限公司 一种自动侦听式同声传译的翻译方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007080097A (ja) * 2005-09-15 2007-03-29 Toshiba Corp 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
JP2007322523A (ja) * 2006-05-30 2007-12-13 Toshiba Corp 音声翻訳装置及びその方法
JP2008083459A (ja) * 2006-09-28 2008-04-10 Toshiba Corp 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
JP2015521404A (ja) * 2012-04-25 2015-07-27 コピン コーポレーション 即時翻訳システム
JP2015118710A (ja) * 2015-01-09 2015-06-25 株式会社東芝 対話装置、方法及びプログラム
JP2018060165A (ja) * 2016-09-28 2018-04-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識方法、携帯端末、および、プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113766510A (zh) * 2021-09-28 2021-12-07 安徽华米信息科技有限公司 设备绑定方法、装置、设备、系统及存储介质

Also Published As

Publication number Publication date
US20210343270A1 (en) 2021-11-04
WO2020057102A1 (zh) 2020-03-26
CN109344411A (zh) 2019-02-15

Similar Documents

Publication Publication Date Title
JP2021503094A (ja) 音声翻訳方法及び翻訳装置
CN110914828B (zh) 语音翻译方法及翻译装置
CN109147784B (zh) 语音交互方法、设备以及存储介质
WO2019237806A1 (zh) 语音识别及翻译方法以及翻译装置
US11502859B2 (en) Method and apparatus for waking up via speech
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
CN108470034B (zh) 一种智能设备服务提供方法及系统
JP4837917B2 (ja) 音声に基づく装置制御
JP6646817B2 (ja) 翻訳装置および翻訳方法
WO2021083071A1 (zh) 语音转换、文件生成、播音、语音处理方法、设备及介质
JP2020016875A (ja) 音声インタラクション方法、装置、設備、コンピュータ記憶媒体及びコンピュータプログラム
CN106067996B (zh) 语音再现方法、语音对话装置
WO2016187910A1 (zh) 一种语音文字的转换方法及设备、存储介质
CN109360549A (zh) 一种数据处理方法、装置和用于数据处理的装置
JP2000207170A (ja) 情報処理装置および情報処理方法
JP7400364B2 (ja) 音声認識システム及び情報処理方法
JP7417272B2 (ja) 端末装置、サーバ装置、配信方法、学習器取得方法、およびプログラム
CN111556406B (zh) 音频处理方法、音频处理装置及耳机
CN112786031B (zh) 人机对话方法及系统
CN110534084B (zh) 一种基于FreeSWITCH的智能语音控制方法及系统
KR102181583B1 (ko) 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법
WO2020066154A1 (ja) 情報処理装置及び情報処理方法、コンピュータプログラム、並びに対話システム
CN112435690A (zh) 双工蓝牙翻译处理方法、装置、计算机设备和存储介质
CN111696566A (zh) 语音处理方法、装置和介质
CN110289010B (zh) 一种声音采集的方法、装置、设备和计算机存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210224

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211012