JP2020086977A

JP2020086977A - 翻訳装置

Info

Publication number: JP2020086977A
Application number: JP2018220803A
Authority: JP
Inventors: 中村　洋一; Yoichi Nakamura; 洋一中村
Original assignee: Plus Corp
Current assignee: Plus Corp
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2020-06-04

Abstract

【課題】異なる言語を使用する２者間のコミュニケーションを円滑に補助することができる翻訳装置を提供する。【解決手段】翻訳装置ＨＳは、第１利用者の音声から音声データを取得する音声データ取得手段と、音声データ取得手段により取得された音声データを翻訳前文字データに変換する音声認識手段と、音声認識手段により変換された翻訳前文字データを翻訳後文字データに翻訳する翻訳手段と、一方側に配置されたディスプレイには、音声認識手段により変換した翻訳前文字データに基づいて翻訳前文字を表示する第１表示手段と、他方側に配置されたディスプレイには、翻訳手段により翻訳された翻訳後文字データに基づいて翻訳後文字を表示する第２表示手段と、を備える。【選択図】図２

Description

本発明は、コミュニケーションを補助するための翻訳装置およびプログラムに関する。

従来から互いに異なる言語を使用する２者間のコミュニケーションを補助するための翻訳装置は知られている。例えば、特許文献１には、お互いに異なる言語を使用する２者の間に配置される翻訳装置が開示されている。

この翻訳装置は、第１利用者が話した音声をマイクで拾い、音声データを生成後、翻訳装置の姿勢に変化があった場合に、音声データから第２利用者の言語へ翻訳を行う。

特開２００８−０８５０９１号公報

しかしながら、特許文献１の翻訳装置を使用する場合、翻訳の処理に時間を要するためワンテンポの間が空いてしまうことから、第１利用者が先ほど話していた内容を忘れてしまい、第２利用者からの返答に対して、第１利用者自身が問いかけた質問を思い出せずコミュニケーションが成り立たなくなる等、阻害される可能性があった。

本発明は、異なる言語を使用する２者間のコミュニケーションを円滑に補助することができる翻訳装置を提供する事を目的とする。

上記目的を達成するために、請求項１に記載の発明に係る翻訳装置は、第１利用者の音声から音声データを取得する音声データ取得手段と、音声データ取得手段により取得された音声データを翻訳前文字データに変換する音声認識手段と、音声認識手段により変換された翻訳前文字データを翻訳後文字データに翻訳する翻訳手段と、一方側に配置されたディスプレイには、音声認識手段により変換した翻訳前文字データに基づいて翻訳前文字を表示する第１表示手段と、他方側に配置されたディスプレイには、翻訳手段により翻訳された翻訳後文字データに基づいて翻訳後文字を表示する第２表示手段と、を備える。

請求項２に記載の発明に係る翻訳装置において、前記第１表示手段は、前記翻訳前文字に加えて、翻訳後文字データに基づいて翻訳後文字を表示する。

請求項３に記載の発明に係る翻訳装置において、前記第２表示手段は、前記翻訳後文字に加えて、翻訳前文字データに基づいて翻訳前文字を表示する。

請求項４に記載の発明に係る翻訳装置において、前記音声データ取得手段は、前記一方側に配置されたディスプレイおよび前記他方側に配置されたディスプレイの近傍に各々備えられ、各々の前記音声データ取得手段にて取得した音声データのうち、最も速く取得した音声データを翻訳対象と特定する音声データ抽出手段を備える。

請求項５に記載の発明に係る翻訳装置において、前記音声データ取得手段は、前記一方側に配置されたディスプレイおよび前記他方側に配置されたディスプレイの近傍に各々備えられ、各々の前記音声データ取得手段にて取得した音声データのうち、最も振幅の大きい音声データを翻訳対象と特定する音声データ抽出手段を備える。

本発明によれば、異なる言語を使用する２者間のコミュニケーションを円滑に補助することができる。

本発明の実施形態に係る翻訳装置１の全体形状を示す図である。本実施形態に係る翻訳装置１の全体構成を示すブロック図である。本実施形態に係る翻訳装置１において、音声データが翻訳される処理と、ディスプレイに翻訳された文字が表示される処理とを示すフロー図である。

［実施形態］
本発明の実施形態に係る翻訳装置について、図面を参照して説明する。翻訳装置を説明するために、図１の上方向を「上」及び下方向を「下」と、左方向を「左」及び右方向を「右」と、紙面から向こう側を「裏」及び紙面から手前側を「表」と、表現して説明する。

図１に示すように、翻訳装置ＨＳは、図示した表側に第１操作部１１と、第１マイク２１と、第１ディスプレイ３２と、を備え、図示しない裏側に第２操作部４１と、第２マイク５１と、第２ディスプレイ６２と、を備える。翻訳装置ＨＳは、小型であり、持ち運びが可能な装置である。異なる言語を話す２者の間に、翻訳装置ＨＳを置き、第１利用者は表側の第１操作部１１と、第１マイク２１と、第１ディスプレイ３２と、を使用し、第２利用者は、裏側の第２操作部４１と、第２マイク５１と、第２ディスプレイ６２と、を使用する。

図２は、本実施形態の翻訳装置１の全体構成を示すブロック図である。図２に示すように翻訳装置ＨＳは、第１操作部１１と、第１操作処理部１２と、第１マイク２１と、第１音声処理部２２と、ＣＰＵ２３と、ＲＡＭ２４と、ＲＯＭ２５と、音声認識部２６と、翻訳処理部２７と、第１画像処理部３１と、第１ディスプレイ３２と、第２操作部４１と、第２操作処理部４２と、第２マイク５１と、第２音声処理部５２と、第２画像処理部６１と、第２ディスプレイ６２と、を備える。

第１操作部１１は、翻訳装置ＨＳの表側に備えられる。第１操作部１１は、言語を選択するためのボタン、電源スイッチを備える。言語を選択するボタンは、第１利用者が日常使用している言語を選択するために第１利用者によって操作される。

第１操作処理部１２は、第１利用者が第１操作部１１を操作したときに、第１操作部１１の操作位置に応じた操作データを生成し、ＣＰＵ２３へ出力する。

第１マイク２１は、第１利用者が話した音声を拾うため、ディスプレイよりも表側に備えられる。第１マイク２１は、第１利用者が話した音声を第１音声処理部２２に出力する。

第１音声処理部２２は、第１マイク２１から入力された音声に基づいて第１利用者の音声を示す音声データを生成し、第１音声処理部で生成したことを示す識別コードを音声データに紐づけしてＣＰＵ２３へ出力する。

ＣＰＵ２３は、ＲＯＭ２５に予め記憶された各種プログラムに基づいてデータを処理する。ＣＰＵ２３は、第１操作処理部１２から入力された操作データまたは第１音声処理部２２から入力された音声データを各種プログラムに基づき処理し、音声認識部２６、翻訳処理部２７、第１画像処理部３１および第２画像処理部３２に各種処理を指令する。

ＲＡＭ２４は、ＣＰＵ２３で処理したデータを一時的に記憶する。ＲＡＭ２４は、第１記憶領域と第２記憶領域と第３記憶領域と第４記憶領域とを備える。

ＲＯＭ２５は、各種プログラム、データベース、およびモデルを記憶する。

各種プログラムは、翻訳装置ＨＳの基本的な処理を行うためのオペレーティングシステムプログラム、音声認識の処理を行うためのプログラム、翻訳処理を行うためのプログラムである。

データベースは、音声認識処理および翻訳処理に必要となる各種コーパスである。具体的に各種コーパスは、日本語と英語との間で翻訳を行う場合には、日本語音声コーパス、日本語文字コーパス、日本語辞書、英語文字コーパス、英語辞書等である。日本語と英語以外の言語との間で翻訳を行う場合には、上記に加えて英語以外の言語文字コーパス、英語以外の言語辞書等が必要となる。

モデルは、音声認識に使用する音響モデル、言語モデル等である。

音声認識部２６は、ＣＰＵ２３の指令に従いＲＡＭ２４の第２記憶領域から読み出した音声データを文字データに変換し、文字データを翻訳前文字データとしてＲＡＭ２４の第３記憶領域に記憶する。

翻訳処理部２７は、ＣＰＵ２３の指令に従いＲＡＭ２４の第３記憶領域に記憶された翻訳前文字データを読み出し、翻訳を行い、翻訳後文字データを生成する。翻訳処理部２７は、翻訳後文字データをＲＡＭ２４の第４記憶領域に記憶する。

第１画像処理３１は、ＣＰＵ２３の指令に従いＲＡＭ２４の第３記憶領域から翻訳前文字データを読み出し、翻訳前文字データを文字に変換して第１ディスプレイ３２に出力する。

第１ディスプレイ３２は、第１画像処理部３１から入力された文字を表示する。

第２操作部４１、第２操作処理部４２、第２マイク５１、および第２音声処理部５２は、上述した第１処理部１１、第１操作処理部１２、第１マイク２１、第１音声処理部２２と同じ機構であり、同じ処理を行うため説明を省略する。

第２画像処理部６１は、ＣＰＵ２３の指令に従いＲＡＭ２４の第４記憶領域から翻訳後文字データを読み出し、翻訳後文字データを文字に変換して第２ディスプレイ６２に出力する。

第２ディスプレイ６２は、第２画像処理部６１から入力された文字を表示する。

＜本実施形態の動作および作用＞
本実施形態の動作および作用について、図３を参照して説明する。図３に示すステップＳ０１からステップＳ０８までの処理は、ＣＰＵ２３の処理を示す。

操作データが取得されたか否かが判断される（ステップＳ０１）。具体的には、第１利用者および第２利用者が言語を選択するために第１操作部１１および第２操作部４１が操作されると、各々の言語を示す操作データが第１操作処理部１２および第２操作処理部４２で生成され、ＲＡＭ２４の第１記憶領域に記憶されたか否かが判断される。操作データが取得されたと判断される場合（ステップＳ０１：ＹＥＳ）、処理がステップＳ０２に進められる。操作データが取得されていないと判断された場合（ステップＳ０１：ＮＯ）、ステップＳ０１の処理が繰り返される。

所定時間を超えたか否かが判断される（ステップＳ０２）。具体的には、ブロック部には図示しないタイマーにより、操作データが取得された時から現時点までの時間を計測し、時間を示す時間データと、第１利用者または第２利用者によって予め設定された所定時間とを、比較し、所定時間を超えたか否かが判断される。所定時間を超えたと判断される場合（ステップＳ０２：ＹＥＳ）、ステップＳ０１の処理が繰り返される。所定時間を超えていないと判断される場合（ステップＳ０２：ＮＯ）、処理がステップＳ０３に進められる。

音声データが取得されたか否かが判断される（ステップＳ０３）。具体的には、第１利用者および第２利用者のうち、どちらか一方が話し始め、第１マイク２１および第２マイク５１のうち、少なくともどちらか一方のマイクで音声が拾われる。第１音声処理部２２および第２音声処理部５２のうち、少なくともどちらか一方で音声から音声データが生成され、ＲＡＭ２４の第２記憶領域に音声データとタイマーにより計測した時間を示す時間データと識別コードとが紐づけされて記憶されたか否かが判断される。音声データが取得されたと判断された場合（ステップＳ０３：ＹＥＳ）、処理がステップＳ０４に進められる。音声データが取得されていないと判断された場合（ステップＳ０３：ＮＯ）、ステップＳ０２の処理が繰り返される。以下の動作および作用の説明においては、第１利用者を話し手および第２利用者を聞き手と仮定して説明を行う。

音声データが複数あるか否かが判断される（ステップＳ０４）。具体的には、ＲＡＭ２４の第２記憶領域に記憶された第１利用者の音声を示す音声データが読み出され、音声データが第１音声処理部２２および第２音声処理部５２によりそれぞれ取得されたか否かが判断される。第１音声処理部２２および第２音声処理部５２のそれぞれで音声データが取得されたと判断される場合（ステップＳ０４：ＹＥＳ）、それぞれの音声データがＲＡＭ２４の第２記憶領域に記憶され、処理がステップＳ０５に進められる。第１音声処理部２２および第２音声処理部５２のうち、どちらか一方でのみ音声データが取得されたと判断される場合（ステップＳ０４：ＮＯ）、音声データがＲＡＭ２４の第２記憶領域に記憶され、処理がステップＳ０６に進められる。

音声データが抽出される（ステップＳ０５）。具体的には、ＲＡＭ２４の第２記憶領域に記憶された各々の音声データと各々の音声データに紐づけされた時間データが読み出され、各々の音声データに紐づけされた時間データのうち一番早い時間データに紐づけされた音声データが抽出される。他の音声データが消去され、一番早い時間データに紐づけされた音声データのみがＲＡＭ２４の第２記憶領域に記憶される。

音声データが文字データに変換される（ステップＳ０６）。具体的には、ＲＡＭ２４の第２記憶領域に記憶された音声データと音声データに紐づけされた識別コードとが読み出され、ＲＯＭ２５に記憶された音声認識の処理を行うためのプログラムと、日本語等の音声コーパス等のデータベースと、音響モデルおよび言語モデル等のモデルとが、読み出される。音声データが文字データに変換され、文字データが翻訳前文字データとして、識別コードと紐づけされてＲＡＭ２４の第３記憶領域に記憶される。

文字データが翻訳される（ステップＳ０７）。具体的には、ＲＡＭ２４の第３記憶領域に記憶された翻訳前文字データが読み出され、複製され、一方の翻訳前文字データがＲＡＭ２４の第３記憶領域に記憶される。また、ＲＡＭ２４の第１記憶領域に記憶された言語を示す操作データが読み出される。ＲＯＭ２５に記憶された翻訳処理を行うためのプログラムと、日本語音声コーパスと、日本語文字コーパスと、日本語辞書とが読み出され、操作データに関連される文字コーパスと、辞書等とが、読み出される。他方の翻訳前文字データが示す翻訳前文字を構成する単語に対応した翻訳後の単語を示す単語データが抽出され、文法に従って並び替えて自然な句、節、文等へと変換されることにより他方の翻訳前文字データから翻訳後文字データへ翻訳が行われ、翻訳後文字データがＲＡＭ２４の第４記憶領域に記憶される。

翻訳前文字データおよび翻訳後文字データがそれぞれ文字に変換されディスプレイに表示される（ステップＳ０８）。ＲＡＭ２４の第３記憶領域に記憶された翻訳前文字データと識別コードとが読み出され、識別コードにより話し手利用者側のディスプレイを特定し、第１画像処理部３１により翻訳前文字データが翻訳前文字に変換され、翻訳前文字が第１ディスプレイ３２に表示される。また、ＲＡＭ２４の第４記憶領域に記憶された翻訳後文字データが読み出され、第２画像処理部６１により翻訳後文字データが翻訳後文字に変換され、翻訳後文字が第２ディスプレイ６２に表示される。

＜本実施形態の効果＞
本実施形態によれば、話し手側の利用者は、話した音声がディスプレイにより文字として表示されるため、目視にて確認できる。このため、翻訳処理によりワンテンポの間ができても、話し手側の利用者は何を話したのか、何を質問したのか忘れることなく、円滑にコミュニケーションを行うことができる。

翻訳装置ＨＳは、小型の装置であるため、話し手利用者が話した音声が、話し手利用者側のマイクのみならず、聞き手利用者側のマイクにも音声が拾われ、翻訳後文字をどちらのディスプレイに表示すべきか正確に判断することができない。このため本実施形態では、翻訳装置ＨＳに音声データ抽出手段を備えることにより、聞き手利用者側のマイクに音声データが取得されたとしても、話し手利用者側のマイクの音声を示す音声データのみが抽出されるため、翻訳を必要とする聞き手利用者側のディスプレイに翻訳後文字を表示させることができる。

本発明の実施形態について以上説明したが、本発明の趣旨を逸脱しない範囲において、当業者であれば種々の変更を加える事ができる。

（変形例１）
本実施形態において、音声データ抽出手段は、一番早い時間データに紐づけされた音声データを抽出する。この実施形態に代えて、音声データ抽出手段は、話し手の利用者に近いマイクに拾われた音声は、遠いマイクで拾われた音声に比べて大きいことから、音声データの振幅をそれぞれ比較し、最も大きい振幅の音声データを抽出してもよい。

本実施形態において、第１利用者が話し手と仮定した場合、第１表示手段は、第１ディスプレイに翻訳前文字を表示し、第２表示手段は、第２ディスプレイに翻訳後文字を表示する。この実施形態に代えて、第１表示手段は、第１ディスプレイに翻訳前文字を大きなフォントで、翻訳後文字を小さなフォントで表示し、第２表示手段は、第２ディスプレイに翻訳後文字を大きなフォントで、翻訳前文字を小さなフォントで表示してもよい。

ＨＳ・・・翻訳装置
１１・・・第１操作部
１２・・・第１操作処理部
２１・・・第１マイク
２２・・・第１音声処理部
２３・・・ＣＰＵ
２４・・・ＲＡＭ
２５・・・ＲＯＭ
２６・・・音声認識部
２７・・・翻訳処理部
３１・・・第１画像処理部
３２・・・第１ディスプレイ
４１・・・第２操作部
４２・・・第２操作処理部
５１・・・第２マイク
５２・・・第２音声処理部
６１・・・第２画像処理部
６２・・・第２ディスプレイ

Claims

第１利用者の音声から音声データを取得する音声データ取得手段と、
音声データ取得手段により取得された音声データを翻訳前文字データに変換する音声認識手段と、
音声認識手段により変換された翻訳前文字データを翻訳後文字データに翻訳する翻訳手段と、
一方側に配置されたディスプレイには、音声認識手段により変換した翻訳前文字データに基づいて翻訳前文字を表示する第１表示手段と、
他方側に配置されたディスプレイには、翻訳手段により翻訳された翻訳後文字データに基づいて翻訳後文字を表示する第２表示手段と、を備えた翻訳装置。
前記第１表示手段は、前記翻訳前文字に加えて、翻訳後文字データに基づいて翻訳後文字を表示する請求項１に記載の翻訳装置。
前記第２表示手段は、前記翻訳後文字に加えて、翻訳前文字データに基づいて翻訳前文字を表示する請求項１に記載の翻訳装置。
前記音声データ取得手段は、前記一方側に配置されたディスプレイおよび前記他方側に配置されたディスプレイの近傍に各々備えられ、各々の前記音声データ取得手段にて取得した音声データのうち、最も速く取得した音声データを翻訳対象と特定する音声データ抽出手段を備えた請求項１乃至請求項３に記載の翻訳装置。
前記音声データ取得手段は、前記一方側に配置されたディスプレイおよび前記他方側に配置されたディスプレイの近傍に各々備えられ、各々の前記音声データ取得手段にて取得した音声データのうち、最も振幅の大きい音声データを翻訳対象と特定する音声データ抽出手段を備えた請求項１乃至請求項３に記載の翻訳装置。