JP6555553B2 - 翻訳装置 - Google Patents

翻訳装置 Download PDF

Info

Publication number
JP6555553B2
JP6555553B2 JP2017548322A JP2017548322A JP6555553B2 JP 6555553 B2 JP6555553 B2 JP 6555553B2 JP 2017548322 A JP2017548322 A JP 2017548322A JP 2017548322 A JP2017548322 A JP 2017548322A JP 6555553 B2 JP6555553 B2 JP 6555553B2
Authority
JP
Japan
Prior art keywords
translation
data
utterance
translated
story
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017548322A
Other languages
English (en)
Other versions
JPWO2017163284A1 (ja
Inventor
林 孝行
孝行 林
石川 智一
智一 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of JPWO2017163284A1 publication Critical patent/JPWO2017163284A1/ja
Application granted granted Critical
Publication of JP6555553B2 publication Critical patent/JP6555553B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本開示は、発話(第1の言語)を翻訳話(第1の言語と異なる第2の言語)に翻訳する翻訳装置に関する。
特許文献1は、計算機の自動翻訳機能を利用して翻訳を行う翻訳システムを開示する。この翻訳システムは、第一者から言語入力部を通して入力された入力言語を、翻訳変換部により第二者への翻訳言語に翻訳すると共に、再翻訳変換部にて第一者への翻訳言語に再翻訳し、この再翻訳言語を帰還言語出力部を通して常時第一者に提示させるように構成する。これにより、第一者は常に第二者に対する翻訳言語が正しい表現内容で翻訳されているかどうかを確認することができ、その表現内容が意に反する場合には、入力言語を翻訳解釈に好都合な別の表現で再入力することができる。そのため、相手方に正しい翻訳が行われているかどうか不安になることなく、しかも翻訳解釈に好都合な言葉遣いを保つのを容易にすることができる。
特開平4−319769号公報
本開示は、翻訳精度を向上させる翻訳装置を提供する。
本開示における翻訳装置は、発話者の発話を入力し、発話データを生成する入力部と、発話データを翻訳話データに翻訳したときの翻訳結果の精度を判定する制御部と、制御部の判定結果を発話者に通知する通知部と、翻訳話データに応じた翻訳話を出力する出力部とを備える。制御部は、翻訳結果の精度が所定値未満であると判定したとき、翻訳話の出力を行わないように出力部を制御し、判定結果の通知により発話者に異なる表現での再度発話を促すように通知部を制御する。
本開示における翻訳装置は、翻訳精度を向上させることができる。
実施の形態1にかかる翻訳装置の外観を示す斜視図 実施の形態1にかかる翻訳装置の外観を示す(a)正面図、(b)側面図及び(c)平面図 実施の形態1にかかる翻訳装置の電気的な構成を示すブロック図 実施の形態1にかかる翻訳装置の制御部による翻訳動作のフローチャート 実施の形態1にかかる翻訳装置の制御部による翻訳動作の一例を示す図 (a)更新前の翻訳辞書の情報の一例を示す図、(b)更新後の翻訳辞書の情報の一例を示す図 実施の形態2にかかる翻訳装置の制御部による翻訳動作のフローチャート
以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
なお、発明者(ら)は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。
(実施の形態1)
以下、図1〜6を用いて、実施の形態1を説明する。
[1−1.構成]
[1−1−1.翻訳装置の物理的な構成]
図1は、実施の形態1にかかる翻訳装置の外観を示す斜視図であり、図2は、実施の形態1にかかる翻訳装置の外観を示す(a)正面図、(b)側面図及び(c)平面図である。翻訳装置1の表面側には、液晶ディスプレイ(表示部)100と、静電容量方式タッチパネル(操作部)101と、スピーカ用開口部110とが設けられている。ディスプレイ100及びタッチパネル101については後述する翻訳装置の電気的な構成の説明において詳細に説明する。スピーカ用開口部110に対応する翻訳装置1の内部には、後述するスピーカが設けられている。
翻訳装置1の上側面側には、ストラップ取付部200が設けられており、取付部200の貫通孔200hに取り付けたストラップを用いて、翻訳装置1をユーザの首に掛けることができる。翻訳装置1の上側面側、及び、取付部200の表面側には、マイク用開口部120が設けられている。マイク用開口部120に対応する翻訳装置1の内部には、後述するマイクが設けられている。
翻訳装置1の左側面側には、電源スイッチ130とLED140とが設けられている。電源スイッチ130は、翻訳装置1の電源をオン、オフするためのスイッチである。LED140については後述する翻訳装置の電気的な構成の説明において詳細に説明する。
また、翻訳装置1の左側面にはUSB端子接続部150、上面側にはヘッドホン端子接続部160が設けられている。
[1−1−2.翻訳装置の電気的な構成]
図3は、実施の形態1にかかる翻訳装置の電気的な構成を示すブロック図である。翻訳装置1は、発話者による第1の言語(例えば、日本語)の発話を音声入力し、翻訳辞書を参照してこの発話を第2の言語(例えば、英語)の翻訳話に翻訳して音声出力する。このとき、翻訳装置1は、翻訳結果の精度が低いときには、翻訳話の出力を行わずに、翻訳結果の精度が低い旨を発話者に通知し、翻訳結果の精度が所定値以上に高まるまで発話者に異なる表現での再度発話を促す。そして、翻訳装置1は、再度発話により翻訳結果の精度が高くなったらその翻訳話を出力する。さらに、翻訳装置1は、翻訳結果の精度が高い翻訳話が得られるまでに発話者から発話された全ての発話を示すデータと、当該翻訳話を示すデータとを関連付けて翻訳辞書を更新する。なお、発話とは、話す行為、及び、その音声を意味し、翻訳話とは、翻訳結果の文章を示す音声を意味する。翻訳装置1は、マイク(入力部)10と、メモリ12と、制御部14と、スピーカ(出力部)16と、ディスプレイ(表示部)100と、タッチパネル101(操作部)と、LED(通知部)140とを備える。
マイク10は、音声を電気信号に変換する装置である。マイク10は、発話者による発話を音声入力し、この音声を電気信号(音声波形)に変換する。マイク10としては、発話者の音声以外の雑音を拾うことを低減するために、指向性が高いマイクが用いられる。マイク10は発話者による発話を入力する入力部の一例である。
メモリ12は、記憶素子であり、フラッシュメモリ、強誘電体メモリ、HDD、SSDなどで構成される。メモリ12は、音声認識及び音声合成のための参照テーブルを複数の言語ごとに格納する。音声認識のための参照テーブルは、文字データとその音声波形の特徴(例えば、後述する音響的な特徴として音響モデル、言語的な特徴として言語モデル)とが対応付けされたテーブルである。音声合成のための参照テーブルは、文字データとその音声波形の特徴とが対応付けされたテーブルである。また、メモリ12は、翻訳のための翻訳辞書を、言語翻訳(例えば、日本語から英語への言語翻訳、英語から日本語への言語翻訳)の種類ごとに複数格納する。翻訳辞書は、文字列(テキスト)の発話データと文字列の翻訳話データとが対応付けされた辞書である(後述する図6及びその説明を参照)。本実施の形態では、翻訳辞書は、発話データ及び翻訳話データを一文単位で記憶及び更新する。また、メモリ12は、制御部14のための各種プログラムを格納している。
制御部14は、CPU、MPU等で構成され、メモリに格納された各種プログラムを実行することにより、翻訳装置1の全体を制御する。制御部14は、マイク10からの電気信号(音声波形)を入力し、音声認識して文字列の発話データを生成し、発話データを文字列の翻訳話データに翻訳する。また、制御部14は、翻訳結果の精度を判定し、判定結果に応じてLED140の点灯色を制御する。また、制御部14は、判定結果に応じてメモリ12の翻訳辞書の更新を制御する。また、制御部14は、翻訳話データを音声合成して電気信号(音声波形)を生成し、スピーカ16を制御して翻訳話を音声出力する。また、制御部14は、翻訳話データを表示するための文字画像を生成し、ディスプレイ100を制御して文字画像を表示する。
なお、制御部14の機能は、ハードウェアとソフトウェアの協同により実現したが、制御部14を所定の機能を実現するように専用に設計されたハードウェア回路のみで実現してもよい。例えば、制御部14は、CPU、MPUのみならず、DSP、FPGA、ASIC等で構成することができる。
スピーカ16は、電気信号を音声に変換する装置である。スピーカ16は、制御部14からの電気信号(音声波形)に基づいた音声を翻訳話として出力する。スピーカ16は翻訳話(翻訳された内容を示す音声)を出力する出力部の一例である。また翻訳話は、ヘッドホン端子接続部160から外部スピーカに接続して出力してもよい。
ディスプレイ100は、画像を表示する装置である。ディスプレイ100は、制御部14からの文字画像を表示する。また、ディスプレイ100は、制御部14の制御により、発話言語と翻訳話言語の選択画面を表示する。また、ディスプレイ100は、「発話スイッチ」等の発話開始の操作画面を表示する。
タッチパネル101は、発話言語及び翻訳話言語の切替スイッチや発話スイッチ等の各種操作部として機能する。発話言語及び翻訳話言語の切替スイッチは、ディスプレイ100の表示内容と連動して、日本語から英語への翻訳や英語から日本語への翻訳等を切り替えるためのスイッチである。発話スイッチは、発話言語及び翻訳話言語の切替後のディスプレイ100の表示内容と連動して、発話の開始を翻訳装置1に知らせるためのスイッチである。
LED140は、制御部14からの指令に基づいて、緑色点灯又は赤色点灯を行う。LED140は、例えば点灯色によって翻訳結果の精度を表す。例えば、LED140が緑色に点灯する場合には翻訳結果の精度が高く翻訳結果の出力が可能な状態を表し、LED140が赤色に点灯する場合には翻訳結果の精度が低くユーザに再度発話を促していることを表す。LED140は翻訳結果の精度を発話者に通知する通知部の一例である。また翻訳結果の精度の通知は、ディスプレイ100上に表示してもよい。
[1−2.動作]
以上のように構成された翻訳装置1について、その動作を以下に説明する。図4は、翻訳装置1の制御部14による翻訳動作のフローチャートである。以下の説明において、「n」は発話の入力回数を示す。「An」はn回目の発話を示し、「an」、「bn」、「αn」、「Bn」はそれぞれ、n回目の発話に対応する発話データ、翻訳話データ、翻訳結果の信頼度、翻訳話を示す。また、発話Anは、発話者の音声であり、発話データanは、発話Anに対して音声認識処理を施して得られた文字列(テキスト)のデータである。また、翻訳話データbnは、文字列(テキスト)のデータであり、翻訳話Bnは、翻訳話データbnに対して音声合成処理を施してスピーカ16から出力される音声である。
まず、制御部14は、ディスプレイ100に発話言語と翻訳話言語の選択画面を表示させる。この選択画面に従って、発話者はタッチパネル101を操作し、発話言語と翻訳話言語(例えば、日本語から英語への翻訳)を選択する。これにより、制御部14は発話言語と翻訳話言語を決定し、メモリ12における日本語の音声認識の参照テーブル、日本語−英語の翻訳辞書、英語の音声合成の参照テーブルを参照するように設定する。
次に、制御部14は、ディスプレイ100に「発話スイッチ」等の発話開始の操作画面を表示させる。この操作画面に従って、発話者はタッチパネル101を操作し、発話を行うことを選択する。これにより、制御部14は発話が開始されることを認識し、図4に示す翻訳動作を行う。
発話者による発話Anがマイク10に入力されると、マイク10は発話者の発話Anに応じた電気信号(音声波形)を生成する。制御部14は、マイク10から電気信号を入力し、音声認識を行って発話データanを生成する(S11)。音声認識技術は、音声波形から音声の音響的な特徴と言語的な特徴を抽出することにより、音声波形から発話データanを生成する技術である。具体的には、音響モデルを用いて音声の音響的な特徴を抽出し、抽出した音素データに対して、言語モデルにより言語としてより自然な単語の組み合わせを判定して、最終的な発話データを生成する。制御部14は、電気信号が示す音声波形を音響モデルを用いて解析し、解析した音声波形の特徴を日本語の言語モデルにより文字列の発話データanを生成する。本実施の形態では、制御部14の音声認識機能とマイク10とが入力部の一例である。
次に、制御部14は、発話データanを翻訳して文字列の翻訳話データbnを生成し、翻訳結果の信頼度αnを生成する(S12)。具体的には、制御部14は、日本語−英語の翻訳辞書を参照して、発話データanに対応した翻訳話データbnを生成する。翻訳辞書は、上述したように一文単位の辞書であるが、制御部14は、数字データ、人名や地名等の固有名詞については置き換えることができる。また、制御部14は、翻訳結果の信頼度αnを生成する。信頼度αnは、翻訳結果の精度を示す情報である。翻訳の手法、及び、翻訳結果の信頼度を求める手法としては、BLEUやRIBESなどの公知の技術が用いられる。
次に、制御部14は、翻訳結果の信頼度αnが所定値(例えば60%)以上であるか否かの判定を行う(S13)。信頼度αnが所定値未満であるとき、制御部14は、翻訳話データbnの出力を行わず、発話データan及び翻訳話データbnをメモリ12に一時的に格納する。このとき、制御部14は、今回の発話入力回数nが所定回数に達したか否かの判定を行い(S14)、今回の発話入力回数nが所定回数(例えば5回)に達していない場合には、翻訳話データbnの出力を行わずに、判定結果を発話者に通知して(S15)、ステップS11に戻る。具体的には、制御部14は、翻訳話データbnに応じた翻訳話Bnをスピーカ16から出力させずに、LED140に赤色点灯させる。
このように、本実施の形態によれば、翻訳結果の信頼度αnが所定値未満と低いときにその旨を発話者に通知するため、発話者に異なる表現での再度発話を促すことができる。また、本実施の形態によれば、翻訳結果の信頼度αnが所定値未満と低いときには、自立的に翻訳話データbnの出力を行わないので、翻訳結果が不確かな翻訳話Bnが出力されることがない。
一方、ステップS13において、信頼度αnが所定値以上に達したとき、制御部14は、LED140に緑色点灯させ、信頼度が高い翻訳話データbnが得られたことを発話者に通知する。このとき、制御部14は、翻訳辞書の更新を行うとともに、翻訳話データbnの表示を行い、スピーカ16から翻訳話Bnの出力を行う(S16〜S18)。
具体的には、制御部14は、所定値以上の信頼度の翻訳話データbnが得られるまでに生成された全ての発話データa1〜anを当該翻訳話データbnと関連付けて、メモリ12における翻訳辞書を更新する(S16)。
このように、本実施の形態によれば、発話者の全ての発話を最終の翻訳結果と関連付けて記憶(学習)でき、次回(2回目以降)発話時に、再度発話を繰り返すことなく、翻訳結果を早く出力することができる。
次に、制御部14は、翻訳話データbnを表示するための文字画像を生成し、この文字画像をディスプレイ100に表示させる(S17)。なお、制御部14は、これまでの翻訳履歴の全て(発話データa1〜an、翻訳話データb1〜bn、翻訳結果の信頼度α1〜αn)をディスプレイ100に表示させてもよい。
次に、制御部14は、翻訳話データbnの音声合成を行って電気信号(音声波形)を生成し、この電気信号に応じた翻訳話Bn(音声)をスピーカ16から出力させる(S18)。音声合成の手法として広く用いられている技術として、波形接続型音声合成がある。波形接続型音声合成では、録音された音声波形の断片を連結して合成する方法であり、現在の主流の音声合成技術である。具体的には、制御部14は、英語の音声合成の参照テーブルを参照して、文字列の翻訳話データbnを音声波形に変換した電気信号を生成する。この電気信号がスピーカ16によって音声に変換されて翻訳話Bnとして出力される。本実施の形態では、制御部14の音声合成機能とスピーカ16とが出力部の一例である。
翻訳話Bnの出力が終了すると、制御部14は上記した翻訳動作を終了する。また、ステップS14において、今回の発話入力回数nが所定回数に達している場合にも、制御部14は上記した翻訳動作を終了する。翻訳動作を終了すると、制御部14は、ディスプレイ100に「発話スイッチ」等の発話開始の操作画面、又は、発話言語と翻訳話言語の選択画面を表示させ、次の翻訳動作に備える。
以下、翻訳装置1の制御部14による翻訳動作の具体的な一例を示す。図5は、翻訳装置1の制御部14による翻訳動作の一例を示す図である。図6(a)は、更新前の翻訳辞書の情報の一例を示す図であり、図6(b)は、更新後の翻訳辞書の情報の一例を示す図である。この例では、翻訳辞書は更新前において図6(a)に示すように、翻訳話データ「How much is this?」に関連付けられた発話データとして「これはいくらですか?」のみが登録されている。
図5に示すように、発話者による1回目(n=1)の発話A1「これなんぼ?」がマイク10に入力されると、マイク10及び制御部14は、発話A1を入力し、音声認識を行って発話データa1「これなんぼ?」を生成する(S11)。次に、制御部14は、発話データa1を翻訳話データb1「This ***」に翻訳する。このとき、図6(a)に示すように、更新前の翻訳辞書には発話データa1「これなんぼ?」が登録されていないため、翻訳話データb1は不完全な翻訳となっている。そのため、制御部14は、翻訳結果の信頼度α1を例えば20%と低く生成する(S12)。
次に、翻訳結果の信頼度α1が所定値(例えば60%)未満であるため(S13)、制御部14は、翻訳話データb1の出力を行わず、発話データa1をメモリ12に一時的に格納する。このとき、今回の発話入力回数nが所定回数(例えば5回)に達していないため(S14)、制御部14は、翻訳話データb1の出力を行わずに、LED140に赤色点灯させて判定結果を発話者に通知し(S15)、ステップS11に戻る。
次に、発話者はLED140の赤色点灯を確認することで発話A1「これなんぼ?」では精度が高い翻訳がなされなかったことを認識し、異なる表現での翻訳を試みることとなる。そして、発話者による2回目(n=2)の発話A2「これはいくらですか?」がマイク10に入力されると、マイク10及び制御部14は、発話A2を入力し、音声認識を行って発話データa2「これはいくらですか?」を生成する(S11)。次に、制御部14は、発話データa2を翻訳話データb2「How much is this?」に翻訳する。このとき、図6(a)に示すように、更新前の翻訳辞書には発話データa1「これはいくらですか?」が登録されているため、翻訳話データb1は完全な翻訳である。そのため、制御部14は、翻訳結果の信頼度α2を100%と高く生成する(S12)。
次に、翻訳結果の信頼度α2が所定値(例えば60%)以上であるため(S13)、制御部14は、LED140に緑色点灯させ、信頼度が高い翻訳話データb2が得られたことを発話者に通知する。さらに、制御部14は、図6(b)に示すように、所定値以上の信頼度の翻訳話データb2が得られるまでに生成された全ての発話データa1「これなんぼ?」及びa2「これはいくらですか?」を当該翻訳話データb2「How much is this?」と関連付けて、メモリ12における翻訳辞書を更新する(S16)。次に、制御部14は、翻訳話データb2をディスプレイ100に表示させる(S17)。次に、制御部14及びスピーカ16は、翻訳話データb2の音声合成を行って電気信号(音声波形)を生成し、この電気信号に応じた翻訳話Bn(音声)をスピーカ16から出力させる(S18)。このようにして、翻訳が行われるとともに、翻訳辞書が更新される。
[1−3.効果等]
以上のように、本実施の形態において、翻訳装置1は、マイク10と、制御部14と、LED140と、スピーカ16とを備える。マイク10は、発話者の発話を入力し、発話データを生成する。制御部14は、発話データを翻訳話データに翻訳したときの翻訳結果の精度を判定する。LED140は、制御部14の判定結果を発話者に通知する。スピーカ16は、翻訳話データに応じた翻訳話を出力する。制御部14は、翻訳結果の精度が所定値未満であると判定したとき、翻訳話の出力を行わないようにスピーカ16を制御し、判定結果の通知を行うようにLED140を制御する。
本実施の形態の翻訳装置1では、翻訳結果の信頼度(精度)αnが所定値未満であるような低い精度であるとき、制御部14はLED140を赤色点灯させて当該判定結果の通知を行うので、発話者に異なる表現での再度発話を促す(要求する)ことができる。これにより、複数回の翻訳を行い、翻訳精度を向上させることができる。また、制御部は、翻訳結果の信頼度(精度)が所定値以上に高まるまで、スピーカ16から翻訳話Bnの出力を行わないので、翻訳結果が不確かな翻訳話Bnが出力されることがなく、高い翻訳精度の翻訳話Bnのみが出力される。
また、本実施の形態において、翻訳装置1は、発話データanと翻訳話データbnとが関連付けされた翻訳辞書を記憶するメモリ12をさらに備え、制御部14は翻訳辞書に基づいて翻訳を行う。制御部14は、翻訳結果の信頼度(精度)αnが所定値以上であると判定したとき、翻訳結果の信頼度(精度)αnが所定値以上である翻訳話データbnを得るまでに生成された全ての発話データa1〜anを当該翻訳話データbnに関連付けて翻訳辞書を更新する。
これにより、発話者の全ての発話を最終の翻訳結果と関連付けて記憶(学習)でき、次回(2回目以降)発話時に、再度発話を繰り返すことなく、翻訳結果を早く出力することができ、スムーズな会話を実現することができる。本実施の形態は、翻訳装置を個人用にカスタマイズする用途に好適である。
なお、制御部14は、翻訳結果の信頼度(精度)αnが所定値以上であると判定したとき、翻訳結果の信頼度(精度)αnが所定値以上である翻訳話データbnを得るまでに生成された発話データa1〜anのうちの一部の発話データを当該翻訳話データbnに関連付けて翻訳辞書を更新してもよい。
(実施の形態2)
実施の形態1では、翻訳の際に提供される翻訳結果の信頼度αnに基づいて、翻訳精度の判定を行った。実施の形態2では、翻訳結果の翻訳話データbnを発話言語に逆翻訳した逆翻訳結果の逆翻訳話データbnxと発話データanとを比較して、翻訳精度の判定を行う。
実施の形態2の翻訳装置の構成は、図3を参照して説明した実施の形態1のものと基本的に同様であるが、制御部14の機能、動作が前述のものと異なる。
を用いて、実施の形態2における制御部14の具体的な動作を説明する。図は、実施の形態2における制御部14による翻訳動作のフローチャートである。
ステップS21〜S22の動作は、図4に示す実施の形態1におけるステップS11〜S12の動作と同一である。すなわち、制御部14は、発話者による発話Anの音声認識を行って発話データanを生成し(S21)、発話データanを翻訳して文字列の翻訳話データbnを生成する(S22)。
次に、制御部14は、翻訳話データbnを発話言語(日本語)に逆翻訳して文字列の逆翻訳話データbnxを生成する(S23)。具体的には、制御部14は、メモリ12に格納されている英語−日本語の翻訳辞書を参照して、翻訳話データbnに対応した逆翻訳話データbnxを生成する。逆翻訳の手法は、上記した翻訳の手法と同一であればよい。
次に、制御部14は、発話データanと逆翻訳話データbnxとを比較して、翻訳話データの翻訳結果の精度を検出する(S24)。具体的には、制御部14は、各単語(主語、述語、目的語、補語、助詞等)の一致度合いに基づいて翻訳結果の精度を求める。
次に、制御部14は、翻訳結果の精度が所定値(例えば60%)以上であるか否かの判定を行う(S25)。精度が所定値未満であるとき、制御部14は、翻訳話データbnの出力を行わず、発話データan、翻訳話データbn及び逆翻訳話データbnxをメモリ12に一時的に格納する。
次に、ステップS26〜S30の動作は、図4に示す実施の形態1におけるステップS14〜S18の動作と同一である。すなわち、制御部14は、今回の発話入力回数nが所定回数(例えば5回)に達したか否かの判定を行い(S26)、今回の発話入力回数nが所定回数に達していない場合には、翻訳話データbnの出力を行わずに、LED140に赤色点灯させて判定結果を発話者に通知し(S27)、ステップS21に戻る。
一方、ステップS25において、翻訳結果の精度が所定値以上に達したとき、制御部14は、所定値以上の信頼度の翻訳話データbnが得られるまでに生成された全ての発話データa1〜anを当該翻訳話データbnと関連付けて、メモリ12における翻訳辞書を更新する(S28)。次に、制御部14は、翻訳話データbnを表示するための文字画像を生成し、この文字画像をディスプレイ100に表示させる(S29)。次に、制御部14は、翻訳話データbnの音声合成を行って電気信号(音声波形)を生成し、この電気信号に応じた翻訳話Bn(音声)をスピーカ16から出力させ(S18)、上記した翻訳動作を終了する。
この実施の形態2でも、実施の形態1と同様の利点を得ることができる。
(他の実施の形態)
以上のように、本出願において開示する技術の例示として、実施の形態1〜2を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置換、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態1〜2で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。そこで、以下、他の実施の形態を例示する。
(1)実施の形態1及び2の制御部14の動作は、ネットワーク上のサーバ装置で行われてもよい。この場合、翻訳のための翻訳辞書、音声認識及び音声合成のための参照テーブルがサーバ装置のメモリに格納されている。また、制御部14の一部の動作(例えば、翻訳動作)のみがネットワーク上のサーバ装置で行われてもよい。
例えば、端末装置においてマイク10を介して入力された発話者の発話An(音声)が音声データに変換され、この音声データがネットワークを介して端末装置からサーバ装置に送信される。サーバ装置では、図4に示すステップS11〜S18の動作が行われる。すなわち、サーバ装置は、受信した音声データに対して音声認識を行って発話データanを生成し(S11)、発話データanを翻訳して翻訳話データbnを生成する(S12)。サーバ装置は、翻訳結果の信頼度αnが所定値未満であるとき(S13)、その旨をネットワークを介して端末装置に通知する(S15)。これにより、端末装置は、翻訳話データbnの出力を行わず、LED140を赤色点灯させて翻訳結果の信頼度が低い旨を発話者に通知する。
一方、翻訳結果の信頼度αnが所定値以上のとき(S13)、サーバ装置は、所定値以上の信頼度の翻訳話データbnが得られるまでに生成された全ての発話データa1〜anを当該翻訳話データbnと関連付けて、自身のメモリにおける翻訳辞書を更新する(S16)。そして、サーバ装置は、翻訳話データbnの音声合成を行って音声データを生成し、この音声データをネットワークを介して端末装置に送信する(S18)。これにより、端末装置は、この音声データに応じた翻訳話Bn(音声)をスピーカ16から出力する。
(2)実施の形態1及び2の制御部14の動作は、スマートフォン、タブレット等の種々の機器に適用可能である。この場合、制御部14で実行されるプログラムは、ネットワークを介して提供されてもよいし、CD−ROM、HDD、SSD等のコンピュータ読み取り可能な記録媒体(non-transitory computer readable medium)に格納されて提供されてもよい。
(3)実施の形態1及び2では、制御部14は、判定結果を発話者に通知するためにLED140を点灯させたが、スピーカに音声出力させてもよいし、ディスプレイ100に文字又は絵等のメッセージ表示をさせてもよい。
(4)実施の形態1及び2では、制御部14は、発話入力回数nが所定回数に達したときに翻訳動作を終了したが、例えば1回目の発話入力時刻から所定時間経過したときに翻訳動作を終了してもよい。また、制御部14は、ディスプレイ100に「発話スイッチ」(リセットスイッチ)を常時表示させ、ディスプレイ100の表示「発話スイッチ」と連動したタッチパネル101の発話スイッチ(リセットスイッチ)が操作されたときに翻訳動作を終了して最初の発話を入力する状態にリセットしてもよい。
以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。
したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
また、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲またはその均等の範囲において種々の変更、置換、付加、省略などを行うことができる。
本開示は、発話(第1の言語)を翻訳話(第1の言語と異なる第2の言語)に翻訳する翻訳装置に適用可能である。

Claims (6)

  1. 発話者の発話を入力し、発話データを生成する入力部と、
    前記発話データを翻訳話データに翻訳したときの翻訳結果の精度を判定する制御部と、
    前記制御部の判定結果を前記発話者に通知する通知部と、
    前記翻訳話データに応じた翻訳話を出力する出力部と、
    発話データと翻訳話データとが関連付けされた辞書データを記憶する記憶部と、
    を備え、
    前記制御部は、
    前記辞書データに基づいて翻訳を行い、
    前記翻訳結果の精度が所定値未満であると判定したとき、前記翻訳話の出力を行わないように前記出力部を制御し、前記判定結果の通知により前記発話者に異なる表現での再度発話を促すように前記通知部を制御し、
    前記翻訳結果の精度が前記所定値以上であると判定したとき、前記翻訳結果の精度が前記所定値以上である翻訳話データを得るまでに生成された全ての発話データを当該翻訳話データに関連付けて前記辞書データを更新する、
    翻訳装置。
  2. 前記制御部は、自身の翻訳結果の信頼度を生成し、前記信頼度を前記翻訳結果の精度として判定する、
    請求項1に記載の翻訳装置。
  3. 前記制御部は、前記翻訳話データを逆翻訳話データに逆翻訳し、前記逆翻訳話データと前記発話データとを比較することによって前記翻訳結果の精度を判定する、
    請求項1に記載の翻訳装置。
  4. 最初の発話を入力する状態にリセット可能なリセットスイッチを備える、
    請求項1に記載の翻訳装置。
  5. 発話者の発話に応じた発話データを翻訳話データに翻訳し、翻訳結果の精度を判定する制御部と、
    発話データと翻訳話データとが関連付けされた辞書データを記憶する記憶部と、
    を備え、
    前記制御部は、
    前記辞書データに基づいて翻訳を行い、
    前記翻訳結果の精度が所定値未満であると判定したとき、前記翻訳話データに応じた翻訳話を出力しないように制御し、判定結果の通知により前記発話者に異なる表現での再度発話を促すように制御し、
    前記翻訳結果の精度が前記所定値以上であると判定したとき、前記翻訳結果の精度が前記所定値以上である翻訳話データを得るまでに生成された全ての発話データを当該翻訳話データに関連付けて前記辞書データを更新する、
    翻訳装置。
  6. コンピュータに
    発話者の発話に応じた発話データを翻訳話データに翻訳する手順と、
    翻訳結果の精度を判定する手順と、
    前記翻訳結果の精度が所定値未満であると判定したとき、前記翻訳話データに応じた翻訳話を出力しないように制御し、判定結果の通知により前記発話者に異なる表現での再度発話を促すように制御する手順と、
    前記翻訳結果の精度が前記所定値以上であると判定したとき、前記翻訳結果の精度が前記所定値以上である翻訳話データを得るまでに生成された全ての発話データを当該翻訳話データに関連付けて辞書データを更新する手順と、
    を実行させるためのプログラム。
JP2017548322A 2016-03-25 2016-09-13 翻訳装置 Active JP6555553B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016062353 2016-03-25
JP2016062353 2016-03-25
PCT/JP2016/004155 WO2017163284A1 (ja) 2016-03-25 2016-09-13 翻訳装置

Publications (2)

Publication Number Publication Date
JPWO2017163284A1 JPWO2017163284A1 (ja) 2018-03-29
JP6555553B2 true JP6555553B2 (ja) 2019-08-07

Family

ID=59899996

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017548322A Active JP6555553B2 (ja) 2016-03-25 2016-09-13 翻訳装置

Country Status (3)

Country Link
US (1) US10671814B2 (ja)
JP (1) JP6555553B2 (ja)
WO (1) WO2017163284A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107833577A (zh) * 2017-11-29 2018-03-23 宋晓成 一种语音实时多语言翻译记录方法
JPWO2019150996A1 (ja) * 2018-01-30 2021-02-25 パナソニックIpマネジメント株式会社 言語提示装置、言語提示方法、及び言語提示プログラム
US11170782B2 (en) * 2019-04-08 2021-11-09 Speech Cloud, Inc Real-time audio transcription, video conferencing, and online collaboration system and methods

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04319769A (ja) 1991-04-18 1992-11-10 Toshiba Corp 通訳システム
JP3601869B2 (ja) * 1995-02-10 2004-12-15 沖電気工業株式会社 機械翻訳システム
EP1588283A2 (en) * 2002-11-22 2005-10-26 Transclick, Inc. System and method for language translation via remote devices
JP4398144B2 (ja) * 2002-12-24 2010-01-13 インターナショナル・ビジネス・マシーンズ・コーポレーション 辞書更新システム、更新処理サーバ、端末、制御方法、プログラム及び記録媒体
US7536293B2 (en) * 2003-02-24 2009-05-19 Microsoft Corporation Methods and systems for language translation
JP3858901B2 (ja) * 2004-02-23 2006-12-20 日本電気株式会社 言語自動翻訳システム
US20070016401A1 (en) * 2004-08-12 2007-01-18 Farzad Ehsani Speech-to-speech translation system with user-modifiable paraphrasing grammars
JP4680714B2 (ja) * 2005-08-03 2011-05-11 パナソニック株式会社 音声認識装置および音声認識方法
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
JP4393494B2 (ja) * 2006-09-22 2010-01-06 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP4372133B2 (ja) * 2006-09-27 2009-11-25 株式会社東芝 辞書登録装置、辞書登録方法及び辞書登録プログラム
US20120284015A1 (en) * 2008-01-28 2012-11-08 William Drewes Method for Increasing the Accuracy of Subject-Specific Statistical Machine Translation (SMT)
JP5100445B2 (ja) * 2008-02-28 2012-12-19 株式会社東芝 機械翻訳する装置および方法
WO2013014877A1 (ja) * 2011-07-28 2013-01-31 日本電気株式会社 信頼度算出装置、翻訳信頼度算出利用方法および翻訳エンジン用プログラム
US8838434B1 (en) * 2011-07-29 2014-09-16 Nuance Communications, Inc. Bootstrap call router to other languages using selected N-best translations
FI125823B (en) * 2011-11-03 2016-02-29 Rex Partners Oy A measure of the quality of machine translation
WO2014113071A1 (en) * 2013-01-15 2014-07-24 Viki, Inc. System and method for captioning media
US9231898B2 (en) * 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
JP2015060095A (ja) * 2013-09-19 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム
JP6327848B2 (ja) * 2013-12-20 2018-05-23 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびプログラム
KR20150085145A (ko) * 2014-01-13 2015-07-23 한국전자통신연구원 사용자 반응 기반 통역 시스템 및 그 방법
US9747281B2 (en) * 2015-12-07 2017-08-29 Linkedin Corporation Generating multi-language social network user profiles by translation

Also Published As

Publication number Publication date
JPWO2017163284A1 (ja) 2018-03-29
US20180039625A1 (en) 2018-02-08
US10671814B2 (en) 2020-06-02
WO2017163284A1 (ja) 2017-09-28

Similar Documents

Publication Publication Date Title
KR102386854B1 (ko) 통합 모델 기반의 음성 인식 장치 및 방법
KR20220004737A (ko) 다국어 음성 합성 및 언어간 음성 복제
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
JP4542974B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
KR102443087B1 (ko) 전자 기기 및 그의 음성 인식 방법
JP6150268B2 (ja) 単語登録装置及びそのためのコンピュータプログラム
JP5058280B2 (ja) 翻訳装置、翻訳方法及びコンピュータプログラム
JP2009048003A (ja) 音声翻訳装置及び方法
JP6555553B2 (ja) 翻訳装置
CN105210147B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
KR20230086737A (ko) 단순화된 스트리밍 및 비스트리밍 스피치 인식을 위한 캐스케이드 인코더들
JP5336805B2 (ja) 音声翻訳装置、方法、およびプログラム
WO2011033834A1 (ja) 音声翻訳システム、音声翻訳方法および記録媒体
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP6397641B2 (ja) 自動通訳装置及び方法
WO2018198807A1 (ja) 翻訳装置
JP5208795B2 (ja) 通訳装置、方法、及びプログラム
JP2006259641A (ja) 音声認識装置及び音声認識用プログラム
JP2004271895A (ja) 複数言語音声認識システムおよび発音学習システム
JP6401488B2 (ja) 外国語会話理解支援装置、外国語会話理解支援方法及びプログラム
KR102199444B1 (ko) 음성 인식 오류에 강인한 의미 추론 방법 및 이를 위한 장치
KR101553469B1 (ko) 다언어 어휘 음성 인식 장치 및 방법
US10546580B2 (en) Systems and methods for determining correct pronunciation of dictated words
JP6538399B2 (ja) 音声処理装置、音声処理方法およびプログラム
KR102300484B1 (ko) 다른 화자의 음성 데이터를 기초로 개인용 음성합성기를 구축하기 위한 음성합성 훈련용 문장 선정 장치 및 그 동작 방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181113

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190626

R151 Written notification of patent or utility model registration

Ref document number: 6555553

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151