JP6923332B2

JP6923332B2 - 自動通訳方法及び装置

Info

Publication number: JP6923332B2
Application number: JP2017058860A
Authority: JP
Inventors: 昊潼李; 永起朴; 尚賢柳
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2016-07-07
Filing date: 2017-03-24
Publication date: 2021-08-18
Anticipated expiration: 2037-03-24
Also published as: KR102565274B1; JP2018005218A; CN107590135A; CN107590135B; KR20180005850A; EP3267328B1; US20180011843A1; EP3267328A1; US10867136B2

Description

本発明の実施形態は自動通訳方法及び装置に関する。

情報通信技術及びインターネットの発達に伴って人は様々な言語で作られたコンテンツの提供を受けることになった。特に、グローバルビジネス化によって様々な言語を用いるユーザ間のコミュニケーション及びコンテンツ翻訳などのために通訳及び翻訳技術が早く発展している。

しかし、同一又は類似の意味を伝達する音声でも文章の表現方式又は使用する単語などによって通訳及び翻訳結果が極めて異なることがある。

一側面によれば、音声認識器の符号化結果、復号化結果、及び機械翻訳機の符号化結果、復号化結果を用いてｎ−ｂｅｓｔ候補群を生成することによって、通訳のための時間追加なくともより正確な通訳結果を提供することにある。

一側面によれば、類似文章に有能な自動通訳方法及び装置を提供することにある。

一側面によれば、自動通訳方法は、第１特徴ベクトルを生成するために第１言語からなる音声信号を符号化するステップと、第１言語文章を生成するために前記第１特徴ベクトルを復号化するステップと、第２言語に対する第２特徴ベクトルを生成するために前記第１言語文章を符号化するステップと、前記第２特徴ベクトルを復号化して第２言語文章を生成するステップと、前記第１特徴ベクトル、前記第１言語文章、前記第２特徴ベクトル、及び前記第２言語文章のうちいずれか１つ又はその組合せに基づいた候補文章リストの生成を制御するステップと、前記音声信号の翻訳として前記候補文章リストから最終第２言語文章を選択するステップとを含む。

音声認識器の符号化結果、復号化結果、及び機械翻訳機の符号化結果、復号化結果を用いてｎ−ｂｅｓｔ候補群を生成することにより、通訳のために時間が追加されなくても正確な通訳結果を提供することができる。

類似文章に有能な自動通訳方法及び装置を提供することができる。

一実施形態に係る自動通訳装置の動作原理を説明するための図である。一実施形態に係る自動通訳装置の構成及び通訳方法を説明するための図である。一実施形態に係る機械翻訳装置の構成及び翻訳方法を説明するための図である。一実施形態に係る自動通訳装置に含まれた音声認識器及び翻訳機の構成及び動作を説明するための図である。一実施形態に係る音声信号から特徴を抽出する方法を説明するための図である。一実施形態に係る音声認識器の音声認識方法を説明するための図である。他の実施形態に係る音声認識方法を説明するための図である。一実施形態に係る翻訳機を構成するニューラルネットワークの構造及び動作を説明するための図である。一実施形態に係るデータベースに格納される情報の形態を示す図である。一実施形態に係る最終第２言語文章を選択する方法を説明するための図である。一実施形態に係る自動通訳方法を示すフローチャートである。一実施形態に係る自動通訳方法を示すフローチャートである。一実施形態に係る自動通訳方法を示すフローチャートである。一実施形態に係る自動通訳方法を示すフローチャートである。一実施形態に係る自動通訳方法を示すフローチャートである。一実施形態に係る自動通訳方法を示すフローチャートである。一実施形態に係る自動通訳方法を示すフローチャートである。一実施形態に係る自動通訳方法を示すフローチャートである。一実施形態に係る自動通訳方法を示すフローチャートである。一実施形態に係る自動通訳方法を示すフローチャートである。

＜発明の概要＞
一側面によれば、自動通訳方法は、第１特徴ベクトルを生成するために第１言語からなる音声信号を符号化するステップと、第１言語文章を生成するために前記第１特徴ベクトルを復号化するステップと、第２言語に対する第２特徴ベクトルを生成するために前記第１言語文章を符号化するステップと、前記第２特徴ベクトルを復号化して第２言語文章を生成するステップと、前記第１特徴ベクトル、前記第１言語文章、前記第２特徴ベクトル、及び前記第２言語文章のうちいずれか１つ又はその組合せに基づいた候補文章リストの生成を制御するステップと、前記音声信号の翻訳として前記候補文章リストから最終第２言語文章を選択するステップとを含む。

前記候補文章リストの生成を制御するステップは、データベースから前記第１特徴ベクトル、前記第１言語文章、前記第２特徴ベクトル、及び前記第２言語文章のうちいずれか１つ又はその組合せに対応するものとして決定された候補文章を取得するステップを含み得る。

前記候補文章を取得するステップは、１つ以上の近似ＮＮ（ａｐｐｒｏｘｉｍａｔｅＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ）アルゴリズムを用いて、前記データベースに格納された複数の要素のうち前記第１特徴ベクトル、前記第１言語文章、前記第２特徴ベクトル、及び前記第２言語文章のうちいずれか１つに類似すると決定された要素それぞれを検索するステップを含み得る。

前記候補文章リストの生成を決定するステップは、データベースから前記第１特徴ベクトルに類似すると決定された第１言語特徴ベクトルにマッチングされた第１通訳結果を取得するステップと、前記データベースから前記第１言語文章に類似すると決定された以前に認識された文章にマッチングされた第２通訳結果を取得するステップと、前記データベースから前記第２特徴ベクトルに類似すると決定された第２言語特徴ベクトルにマッチングされた第３通訳結果を取得するステップと、前記データベースから前記第２言語文章に類似すると決定された以前の翻訳文章にマッチングされた第４通訳結果を取得するステップとのうちいずれか１つ又はその組合せを含み得る。

前記候補文章リストの生成を制御するステップは、前記第１通訳結果、前記第２通訳結果、前記第３通訳結果、及び前記第４通訳結果のうちいずれか１つに対応する任意の以前の翻訳文章を前記候補文章リストに追加するステップと、前記第２言語文章を前記候補文章リストに追加するステップとをさらに含み得る。

前記第２通訳結果を取得するステップは、前記第１言語文章をベクトルに変換するステップと、前記変換されたベクトルに基づいて、前記データベースから複数の以前認識された文章のいずれかが前記第１言語文章に類似するかを決定するステップとを含み得る。

前記第４通訳結果を取得するステップは、前記第２言語文章をベクトルに変換するステップと、前記変換されたベクトルに基づいて、前記データベースから複数の以前認識された文章のいずれかが前記第２言語文章に類似するかを決定するステップとを含み得る。

前記最終第２言語文章を選択するステップは、前記第２特徴ベクトルに基づいて前記候補文章リストに含まれた候補文章のスコアを算出するステップと、前記候補文章リストから前記算出されたスコアのうち最高値を有する候補文章を前記最終第２言語文章として選択するステップとを含み得る。

前記第１言語の音声信号を符号化するステップは、予め決定されたフレームの長さに基づいて前記第１言語の音声信号をサンプリングするステップと、フレームに対応する入力ベクトルそれぞれを生成するステップと、音声認識のためのエンコーダに前記入力ベクトルそれぞれを順次入力するステップと、前記順次入力された入力ベクトルそれぞれに対して前記第１特徴ベクトルが前記エンコーダからのプリントされるように決定することによって前記第１特徴ベクトルを生成するステップとを含み得る。

前記第１特徴ベクトルを復号化するステップは、前記第１特徴ベクトルを音声認識のためのデコーダに入力するステップと、前記音声認識のためのデコーダから順次出力されるサブワードの確率に基づいて、予め決定された数の文章シーケンスを生成するステップと、前記予め決定された数の文章シーケンスのうち、コアが最も高い文章シーケンスを前記第１言語文章として選択することで前記第１言語文章を生成するステップとを含み得る。

前記第１言語文章を符号化するステップは、前記第１言語文章を複数のサブワードに分割するステップと、機械翻訳のためのエンコーダに前記複数のサブワードを指示する入力ベクトルそれぞれを順次入力するステップと、前記順次入力された入力ベクトルそれぞれに対して前記第２特徴ベクトルが前記エンコーダからのプリントされるように決定することで前記第２特徴ベクトルを生成するステップとを含み得る。

前記第２言語文章を生成するステップは、前記第２特徴ベクトルを機械翻訳のためのデコーダに入力するステップと、前記機械翻訳のためのデコーダから順次出力されるサブワードの確率に基づいて、予め決定された数の文章シーケンスを生成するステップと、前記予め決定された数の文章シーケンスのうちスコアが最も高い文章シーケンスを前記第２言語文章として選択するステップとを含み得る。

前記自動通訳方法は、前記第１特徴ベクトル、前記第１言語文章、及び前記第２特徴ベクトルをデータベースに格納するステップと、前記第１特徴ベクトル、前記第１言語文章、及び前記第２特徴ベクトルに対応する前記第２言語文章及び前記最終第２言語文章のうちいずれか１つ又はその組合せを前記データベースに格納するステップとをさらに含み得る。

一実施形態によると、自動通訳方法は、第２言語に対する特徴ベクトルを生成するために第１言語からなる第１言語文章を符号化するステップと、前記第２言語からなる第２言語文章を生成するために前記特徴ベクトルを復号化するステップと、前記特徴ベクトル及び前記第２言語文章のうちいずれか１つ又はその組合せに基づいて候補文章リストの生成を制御するステップと、前記候補文章リストから最終第２言語文章を選択するステップとを含む。

前記自動通訳方法は、第１特徴ベクトルを生成するために前記第１言語からなる音声信号を符号化するステップと、前記第１言語文章を生成するために前記第１特徴ベクトルを復号化するステップとをさらに含み得る。

前記候補文章リストの生成を制御するステップは、データベースから前記特徴ベクトルに類似すると決定された第２言語特徴ベクトルにマッチングされた第１翻訳結果を取得するステップと、前記データベースから前記第２言語文章に類似すると決定された文章にマッチングされた第２翻訳結果を取得するステップとのうちいずれか１つ又はその組合せを含み得る。

前記候補文章リストの生成を制御するステップは、前記第１翻訳結果及び前記第２翻訳結果のうちいずれか１つに対応する任意の以前の翻訳文章を前記候補文章リストに追加するステップと、前記第２言語文章を前記候補文章リストに追加するステップとをさらに含み得る。

前記最終第２言語文章を選択するステップは、前記特徴ベクトルに基づいて前記候補文章リストに含まれた候補文章のスコアを算出するステップと、前記候補文章リストから前記算出されたスコアのうち最高値を有する候補文章を前記最終第２言語文章として選択するステップとを含み得る。

前記第１言語文章を符号化するステップは、前記第１言語文章を複数のサブワードに分割するステップと、機械翻訳のためのエンコーダに前記複数のサブワードを指示する入力ベクトルそれぞれを順次入力するステップと、前記順次入力された入力ベクトルそれぞれに対して前記特徴ベクトルが前記エンコーダからのプリントされるように決定することによって前記特徴ベクトルを生成するステップとを含み得る。

前記特徴ベクトルを復号化するステップは、前記特徴ベクトルを機械翻訳のためのデコーダに入力するステップと、前記機械翻訳のためのデコーダから順次出力されるサブワードの確率に基づいて、予め決定された数の文章シーケンスを生成するステップと、前記予め決定された数の文章シーケンスのうちスコアが最も高い文章シーケンスを前記第２言語文章として選択することで前記第２言語文章を生成するステップとを含み得る。

前記自動通訳方法は、データベースに格納された前記第１言語文章と共に、前記特徴ベクトルを前記データベースに格納するステップと、前記第１言語文章及び前記特徴ベクトルに対応する前記第２言語文章及び前記最終第２言語文章のうちいずれか１つ又はその組合せを前記データベースに格納するステップとをさらに含み得る。

一実施形態に係る自動通訳装置は、第１言語からなる音声信号を認識符号化して前記第１言語に対する第１特徴ベクトルを生成し、前記第１特徴ベクトルを復号化して第１言語文章を生成する音声認識器と、前記第１言語からなる第１言語文章を翻訳符号化して前記第２言語に対する第２特徴ベクトルを生成し、前記第２特徴ベクトルを復号化して第２言語からなる第２言語文章を生成する翻訳機と、前記第１特徴ベクトル、前記第１言語文章、前記第２特徴ベクトル、及び前記第２言語文章のうちいずれか１つ又はその組合せに基づいて生成された候補文章リストから前記音声信号の翻訳として最終第２言語文章を選択するプロセッサとを含む。

前記音声認識器は、前記第１特徴ベクトルを生成するために前記音声信号の認識符号化を行う認識エンコーダ、及び前記第１言語文章を生成するために前記第１特徴ベクトルの復号化を行う認識デコーダを含み、前記翻訳機は、前記第２特徴ベクトルを生成するために前記第１言語文章の翻訳符号化を行う翻訳エンコーダ、及び前記第２言語文章を生成するために前記第２特徴ベクトルの復号化を行う翻訳デコーダを含み得る。

前記プロセッサは、前記認識エンコーダ、前記認識デコーダ、前記翻訳エンコーダ及び前記翻訳デコーダをさらに含み、前記認識エンコーダは、前記自動通訳装置の１つ以上のニューラルネットワークのうち前記音声信号に基づいて前記第１特徴ベクトルを決定するニューラルネットワークを実現し、前記認識デコーダは、前記自動通訳装置の１つ以上のニューラルネットワークのうち前記第１特徴ベクトルに基づいて前記第１言語文章を決定するニューラルネットワークを実現し、前記翻訳エンコーダは、前記自動通訳装置の１つ以上のニューラルネットワークのうち前記第１言語文章に基づいて前記第２特徴ベクトルを決定するニューラルネットワークを実現し、前記翻訳デコーダは、前記自動通訳装置の１つ以上のニューラルネットワークのうち前記第２特徴ベクトルに基づいて前記第２言語文章を決定するニューラルネットワークを実現し得る。

前記自動通訳装置前記プロセッサは、データベースを含むメモリをさらに含み、前記データベースから前記第１特徴ベクトル、前記第１言語文章、前記第２特徴ベクトル、及び前記第２言語文章のうちいずれか１つ又はその組合せに対応すると決定された候補文章を取得し得る。

前記プロセッサは、１つ以上の近似ＮＮ（ａｐｐｒｏｘｉｍａｔｅＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ）アルゴリズムを用いて、前記データベースに格納された複数の要素のうち前記第１特徴ベクトル、前記第１言語文章、前記第２特徴ベクトル、及び前記第２言語文章のうちいずれか１つに類似すると決定された要素それぞれを検索し得る。

前記プロセッサは、データベースから前記第１特徴ベクトルに類似すると決定された第１言語特徴ベクトルにマッチングされた第１通訳結果、前記データベースから前記第１言語文章に類似すると決定された以前認識された文章にマッチングされた第２通訳結果、前記データベースから前記第２特徴ベクトルに類似すると決定された第２言語特徴ベクトルにマッチングされた第３通訳結果、及び前記データベースから前記第２言語文章に類似すると決定された以前の翻訳文章にマッチングされた第４通訳結果のうちいずれか１つ又はその組合せを取得し得る。

前記プロセッサは、前記第１通訳結果、前記第２通訳結果、前記第３通訳結果、及び前記第４通訳結果のうちいずれか１つに対応する任意の以前の翻訳文章を前記候補文章リストに追加し、前記第２言語文章を前記候補文章リストに追加し得る。

前記プロセッサは、前記第１言語文章をベクトルに変換し、前記変換されたベクトルに基づいて前記データベースから複数の以前認識された文章のいずれかが前記第１言語文章に類似するかを決定し得る。

前記プロセッサは、前記第２言語文章をベクトルに変換し、前記変換されたベクトルに基づいて前記データベースから複数の以前の翻訳文章のいずれかが前記第２言語文章に類似するかを決定し得る。

前記翻訳機は、前記第２特徴ベクトルに基づいて前記候補文章リストに含まれた候補文章のスコアを算出し、前記プロセッサは、前記候補文章リストから前記算出されたスコアのうち最高値を有する候補文章を前記最終第２言語文章として選択し得る。

前記プロセッサは、予め決定されたフレームの長さに基づいて前記第１言語からなる音声信号をサンプリングし、フレームに対応する入力ベクトルそれぞれを生成し、音声認識のためのエンコーダに前記入力ベクトルそれぞれを順次入力し、前記順次入力された入力ベクトルそれぞれに対して前記第１特徴ベクトルが前記エンコーダからのプリントされるように決定し得る。

前記プロセッサは、前記第１特徴ベクトルを音声認識のためのデコーダに入力し、前記音声認識のためのデコーダから順次出力されるサブワードの確率に基づいて予め決定された数の文章シーケンスを生成し、前記予め決定された数の文章シーケンスのうちスコアが最も高い文章シーケンスを前記第１言語文章として選択し得る。

前記プロセッサは、前記第１言語文章を複数のサブワードに分割し、機械翻訳のためのエンコーダに前記複数のサブワードを指示する入力ベクトルそれぞれを順次入力し、前記順次入力された入力ベクトルに対して前記第２特徴ベクトルが前記エンコーダからのプリントされるように決定し得る。

前記プロセッサは、前記第２特徴ベクトルを機械翻訳のためのデコーダに入力し、前記機械翻訳のためのデコーダから順次出力されるサブワードの確率に基づいて予め決定された数の文章シーケンスを生成し、前記予め決定された数の文章シーケンスのうちスコアが最も高い文章シーケンスを前記第２言語文章として選択し得る。

前記プロセッサは、前記第１特徴ベクトル、前記第１言語文章、及び前記第２特徴ベクトルをデータベースに格納し、前記第１特徴ベクトル、前記第１言語文章、及び前記第２特徴ベクトルに対応する前記第２言語文章及び前記最終第２言語文章のうちいずれか１つ又はその組合せを前記データベースに格納し得る。

一実施形態に係る自動通訳システムは、第１言語からなる第１言語文章を翻訳符号化して第２言語に対する特徴ベクトルを生成し、前記特徴ベクトルを復号化して第２言語からなる第２言語文章を生成する翻訳機と、前記特徴ベクトル及び前記第２言語文章のうちいずれか１つ又はその組合せに基づいて生成した候補文章リストから前記第１言語文章の翻訳として最終第２言語文章を選択するプロセッサとを含む。

前記自動通訳システムは、前記第１言語からなる音声信号を認識符号化して生成された第１特徴ベクトルを復号化することによって前記第１言語文章を生成する音声認識器をさらに含み得る。

前記自動通訳システムは、データベースを含むメモリをさらに含み、前記プロセッサは、前記データベースから、前記特徴ベクトルに類似すると決定された第２言語特徴ベクトルにマッチングされた第１翻訳結果、前記データベースから前記第２言語文章に類似すると決定された文章にマッチングされた第２翻訳結果のうちいずれか１つ又はその組合せを取得し得る。

前記プロセッサは、前記第１翻訳結果及び前記第２翻訳結果のうちいずれか１つに対応する任意の以前の翻訳文章を前記候補文章リストに追加し、前記第２言語文章を前記候補文章リストに追加し得る。

前記翻訳機は、前記特徴ベクトルに基づいて前記候補文章リストに含まれた候補文章のスコアを算出し、前記プロセッサは、前記候補文章リストから前記算出されたスコアのうち最大値を有する候補文章が前記最終第２言語文章になるよう選択し得る。

前記プロセッサは、前記第１言語文章を複数のサブワードに分割し、機械翻訳のためのエンコーダに前記複数のサブワードを指示する入力ベクトルそれぞれを順次入力し、前記順次入力された入力ベクトルに対して前記特徴ベクトルが前記エンコーダからのプリントされるように決定し得る。

前記プロセッサは、前記特徴ベクトルを機械翻訳のためのデコーダに入力し、前記デコーダから順次出力されるサブワードの確率に基づいて予め決定された数の文章シーケンスを生成し、前記予め決定された数の文章シーケンスのうちスコアが最も高い文章シーケンスを前記第２言語文章として選択し得る。

前記プロセッサは、前記データベースに格納された前記第１言語文章と共に前記特徴ベクトルを前記データベースに格納し、前記第１言語文章及び前記特徴ベクトルに対応する前記第２言語文章と前記最終第２言語文章のうちいずれか１つ又はその組合せを前記データベースに格納し得る。

一実施形態に係る自動通訳システムは、入力された音声信号の音声認識を行い、前記音声認識の認識結果に対する初期翻訳を行って、前記入力された音声信号の最終翻訳を決定するために前記初期翻訳の結果と選択された以前の翻訳の以前の結果とを比較する１つ以上のプロセッサを含み、前記比較は、前記選択された以前の翻訳を、データベースに情報が記録された複数の以前の翻訳から識別するための、前記音声認識から誘導された１つ以上の情報と前記初期翻訳から誘導された情報のうちの１つ以上の情報と前記データベースに格納された前記一つ以上の以前の文章翻訳の結果に関する情報との間の比較を含む。

前記比較は、前記選択された以前の翻訳を識別するための、前記音声認識で誘導された第１特徴ベクトル、前記音声認識で誘導された第１言語文章、前記初期翻訳で誘導された第２特徴ベクトル、及び前記初期翻訳で誘導された第２言語文章のうちの１つ以上の情報と前記データベースに格納された情報との間の比較を含み得る。

前記一つ以上のプロセッサは同じモバイル装置に含まれる。

＜発明の詳細＞
本明細書で開示されている特定の構造的又は機能的な説明は単に実施形態を説明するための目的として例示されたものであり、実施形態は様々な異なる形態で実施され、本明細書に説明された実施形態に限定されることはない。

第１又は第２などの用語を複数の構成要素を説明するために用いることができるが、このような用語は１つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第１構成要素は第２構成要素と命名することができ、同様に第２構成要素は第１構成要素にも命名することができる。

いずれかの構成要素が他の構成要素に「連結されて」いると言及された場合、その次の構成要素に直接的に連結されてもよく、又は中間に他の構成要素が存在することもあり得ると理解されなければならない。一方いずれかの構成要素が他の構成要素に「直接連結されて」いるか「直接接続されて」いと言及される場合には、中間に他の構成要素が存在しないものとして理解されなければならない。構成要素間の関係を説明する表現、例えば「〜間に」と「すぐ〜の間に」、又は「〜に隣接する」と「〜に直接に隣接する」などのように解釈されなければならない。

本明細書で用いた用語は、単に特定の実施形態を説明するために用いられるものであって、本発明を限定しようとする意図はない。単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

異なる定義さがれない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

下記で説明される実施形態は、自動車、テレビ、携帯電話、その他の電子装置などに搭載されて通訳及び翻訳の提供に用いられる。実施形態は、パーソナルコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、スマート家電機器、及びウェアラブルデバイスなどの様々な形態の製品で実現する。例えば、実施形態は、スマートフォン、モバイル機器、スマートホームシステム、及びウェアラブルデバイスなどに搭載されて通訳アプリケーションで機能したり、外国人との画像会議時に翻訳字幕を提供することもできる。また、車、バス、タクシーなどを用いる場合、互いに異なる言語を用いる乗客と運転者との間の通訳に用いることもできる。以下、実施形態を添付する図面を参照しながら詳細に説明する。各図面に提示された同一の参照符号は同一の部材を示す。

図１は、一実施形態に係る自動通訳装置の動作原理を説明するための図である。図１を参照すると、一実施形態に係る自動通訳装置１３０がユーザ１１０によって発話された第１言語を第２言語に自動通訳する過程が示されている。自動通訳装置１３０は、エージェント１３３と翻訳機１３６を含む。以下で詳細に説明するが、自動通訳装置は、音声認識器と機械翻訳機で構成される。音声認識器は、ユーザの音声を第１言語からなる第１言語文章に変換し、機械翻訳機は、第１言語文章を第２言語からなる第２言語文章に変換する。図１に示された翻訳機１３６は機械翻訳機に対応し、エージェント１３３は自動通訳過程を管制するコントローラと音声認識器を含むものとして理解される。

コントローラは、代案的に自動通訳装置内又は自動通訳装置の外部にそれぞれ異なるように構成され得る。

エージェント１３３は知能型コミュニケーションエージェントであり、エージェント１３３は、ユーザとエージェントとの間の知能型コミュニケーションインタラクションのように、オーディオ情報の認識及び理解動作を行う処理装置ハードウェア又はコンピュータを称し、又は、単に音声認識を行うコンピュータ又は処理装置ハードウェアであり得る。

エージェント１３３は、例えば、エージェント１３３による認識結果及び／又は翻訳機１３６の翻訳結果の出力を制御する。実行された認識は、例えば、音声学又は発音のための音響モデル、例えば、単語又は構文間の連結性のための言語モデルのうちの１つ又はその組合せの使用によりデジタル化された音声の様々な音声認識方法を含む。

デジタル化された音声は、入力された音声をオーディオフレームに分析できるアナログ−デジタルコンバータ（ａｎａｌｏｇｔｏｄｉｇｉｔａｌｃｏｎｖｅｒｔｅｒ；ＡＤＣ）及びパーサー（ｐａｒｓｅｒ）によって導き出される。ここで、オーディオフレームは、例示的な音響及び／又は言語モデルのうちいずれか１つ又は両方によって提供され、このようなモデルに対する参照は単なる例示的なものであり、実施形態がこれに限定されることはない。

入力された可聴音声に対するより多い又は最も可能性のある認識を示す音響及び／又は言語モデルの他にも、音響及び／又は言語モデルは、潜在的な音声又は単語認識それぞれに対する確率又は点数を示す。

デコーダは、例えば、音響及び／又は言語モデル（及び／又は他のモデル）のうちの１つ又は両方を用いるときに可聴音声の最終認識を決定するために認識モデルの結果を相関させるために用いられる。

エージェント１３３と翻訳機１３６は、それぞれ１つ又はそれ以上のソフトウェアモジュール、１つ又はそれ以上のハードウェアモジュール、又は、様々な組合で実現される。一例として、エージェント１３３及び翻訳機１３６は、それぞれ１つ以上のハードウェア要素又はその組合せによって１つ以上の命令又はソフトウェアを含む非一時的なコンピュータで読み出し可能な媒体により実現される。一例として、ユーザ１１０は、自動通訳装置１３０に第１言語で表現されたＡを第２言語に通訳することを要求する。この場合、Ａは第１言語の音声信号であり得る。ユーザ１１０は、自動通訳装置１３０のユーザインターフェースとインタラクションして認識及び／又は翻訳を要求したり、又は、例えば、基底（基礎にある）装置の背景動作で自動的又は連続的に動作できる自動通訳装置１３０の認識及び／又は翻訳動作を要求する。ユーザ１１０は、ユーザインターフェース要求及び自動具現のいずれか１つ又は両方を選択的に実現できる。音声信号Ａが自動通訳装置１３０に入力されれば（１０１）、自動通訳装置１３０のエージェント１３３は音声信号Ａを認識して第１言語文章Ａを生成する。

上述したように、エージェント１３３は、可聴音声をデジタル信号に変換するためのハードウェアを含む。例えば、エージェント１３３は、自動通訳装置１００の外部又は内部のどこかに含まれる１つ又はそれ以上のマイクロホン、アナログ−デジタルコンバータ及びパーサーを含んだり、又は、マイクロホン、アナログ−デジタルコンバータ及びパーサーのうちいずれか１つ又はその組合せを含む。

文章Ａは、例えば、最終的にテキスト形態のデータにされる。一例として、認識モデルは、学習されたニューラルネットワークそれぞれである。自動通訳装置１３０は、翻訳機１３６に文章Ａの翻訳を要求する（１０２）。

翻訳機１３６は、文章Ａの初期翻訳の結果として第２言語文章Ａ’を生成してエージェント１３３に提供する（１０３）。エージェント１３３は、データベースに予め格納されていた第２言語文章Ｂ’と第２言語文章Ｃ’を翻訳機１３６に提供し、翻訳機１３６はＡ’、Ｂ’、及びＣ’のうち最適な翻訳結果を選択することができる（１０４）。ここで、エージェント１３３は、例えば、異なる複数の文章のうち文章Ｂ’及び文章Ｃ’が音声信号Ａに類似の音声それぞれに関わっていると決定する。

ここで、文章Ｂ’と文章Ｃ’は通訳した結果としてデータベースに予め格納されているものである。文章Ｂ’及び文章Ｃ’は自動通訳装置１３０の以前の通訳動作の結果として、データベースに以前に格納され、必ずこれに限定されることはない。

例えば、自動通訳装置１３０は、過去に音声信号Ｂの通訳要求を処理する過程で文章Ｂ’を生成し、生成された文章Ｂ’をデータベースに格納する。例えば、音声信号Ｂに対する通訳要求が以前に処理された場合、自動通訳装置１３０は文章Ｂ’を生成し、生成された文章Ｂ’をデータベースに格納しておく。

また、音声信号Ａと発話が類似の音声信号Ｃを通訳する他の以前過程で文章Ｃ’がデータベースに格納される。例えば、そのような文章は一例であって、分類されて又は検索可能な方式で１つ以上のデータベースに格納されることがあるため、ステップ１０４の間にエージェント１３３は以前に格納された文章を現在の翻訳された文章に関する情報と関連させ、翻訳機１３６に同一の情報を伝達する。翻訳機１３６は、初期翻訳の結果である文章Ａ’に類似発話に基づいて取得された文章Ｂ’及び文章Ｃ’のうち最適な翻訳結果をＡの最終翻訳の結果として選択してエージェント１３３に伝達する（１０５）。例えば、翻訳機１３６は、初期翻訳の結果である文章Ａ’に比べて類似発話に基づいて取得された文章Ｂ’がより良好な翻訳結果であると判断する。

翻訳機１３６は、第１言語のＡを第２言語に翻訳する性能に比べて、第２言語の候補文章のいずれが第１言語のＡを良好に翻訳した結果であるかを判断する性能がより良い点を用いる。

第２言語の候補文章から第１言語の音声に対する最適な翻訳結果は、第１言語のコンテンツＡを第２言語のコンテンツ（Ａ）に直接翻訳する性能と比較するとき、容易に提供されることができる。

また、様々な考慮事項に基づいた関連性の決定と共に、第１言語からなる音声の初期翻訳との関連性及び／又は第１言語からなる音声に対する決定された関連性に基づいて候補文章が候補として決定されるとき、第１言語の音声に対する最終翻訳結果は、例えば、第１言語の音声の初期翻訳を誘導するために実現される翻訳モデルのように、翻訳機１３６によって具現された翻訳モデルを用いて第１言語の音声を第２言語に単純翻訳又は直接翻訳することよりも有能であり又は強固であり及び正確である。

したがって、実施形態における翻訳機１３６は、以前の翻訳過程で累積した翻訳結果を現在の翻訳結果と共に利用するが、翻訳結果のうち最も高いスコアを有する翻訳結果を最終翻訳結果として選択することにより、第１言語からなる発話に対してより有能かつ正確な翻訳結果を提供することができる。

エージェント１３３は、最終の通訳結果をユーザ１１０に伝達する（１０６）。エージェント１３３は、例えば、自動通訳装置１３０のディスプレイを介して最終の通訳結果を第２言語のテキスト形態にユーザ１１０へ提供する。一実施形態におけるエージェント１３３は、エージェント１３３の音声合成の過程及び自動通訳装置１３０のスピーカを介してユーザ１１０に最終の通訳結果が聞こえるように提供する。

例えば、エージェント１３３は、エージェント１３３のＴＴＳ（ＴｅｘｔｔｏＳｐｅｅｃｈ）技術を用いて最終の通訳結果を第２言語の音声形態にユーザ１１０に提供できる。

エージェント１３３及び翻訳機１３６は、それぞれユーザ端末やサーバで駆動されるように実現できる。一例として、エージェント１３３及び翻訳機１３６は、全てスマートフォンなどのユーザ端末で動作できる。異なる例として、エージェント１３３及び翻訳機１３６は、遠隔端末から音声の音声レコーディング又はオーディオフレームのうちいずれか１つを受信することにより全て又相互代替的にサーバで動作できる。入力された音声に対する最上の翻訳を決定するとき、サーバの実現は、互いに異なるローカル及び／又は遠隔端末からの候補文章を考慮し得る。

更なる例として、図１に示す動作に応じて、認識結果を翻訳機１３６に伝達し、翻訳機１３６はエージェント１３３に結果を返す。エージェント１３３はユーザ端末で駆動され、翻訳機１３６はサーバで駆動されてもよい。

前述した事項は例示的な事項に過ぎず、実施形態は様々に変形され得る。例えば、エージェント１３３に含まれたコントローラのみがユーザ端末で駆動され、音声認識器と機械翻訳機はサーバで駆動されてもよい。また、動作がエージェント１３３によって実行されるものとして議論されたり、又は、動作が翻訳機１３６によって実行されるものとして議論され得るが、エージェント１３３の制御部は、このような動作がエージェント１３３及び翻訳機１３６のそれぞれによって実行されるように制御し、図１に示す動作で、上述したように、その間の情報の受信及び送信を制御する。

代案的に、制御部は、翻訳機１３６に含まれてもよい。又は、翻訳機１３６及びエージェント１３３は、エージェント１３３及び翻訳機１３６のそれぞれを制御し、その間の上述した動作の結果を送信する制御部をそれぞれ含む。

一実施形態では、認識及び翻訳を行う自動通訳装置１３０の構成及び動作について図２を参照して説明する。他の実施形態において、このような認識構成の有無に関係関なく、翻訳を行う自動通訳装置１３０の構成及び動作については図３を参照して説明する。

図２は、一実施形態に係る自動通訳装置の構成及び通訳方法を説明するための図である。図２を参照すると、一実施形態に係る自動通訳装置２００は、音声認識器２１０、翻訳機２３０、及びデータベース（ＤＢ）２５０を含む。

音声認識器２１０は、音声認識のためのエンコーダ２１１及びデコーダ２１３を含む。また、翻訳機２３０は、機械翻訳のためのエンコーダ２３１及びデコーダ２３３を含む。

自動通訳装置２００は、音声認識器２１０に含まれたエンコーダ２１１及びデコーダ２１３の出力及び／又は動作結果、及び翻訳機２３０に含まれたエンコーダ２３１及びデコーダ２３３の出力及び／又は動作結果を収集し、それぞれの認識及び／又は翻訳動作を行う間に動作可能な結果及び／又は出力それぞれをデータベース２５０に格納する。

音声認識器２１０の動作結果及び／又は出力は、一例として、入力された音声信号の抽象化された音声情報（例えば、サンプリングされた音声フレームから分離したり抽出された音声、音響、音素、形態素、構文及び／又は文脈情報）及び入力された音声信号に対する音声認識結果を含む。

翻訳機２３０の動作結果及び／又は出力は一例として、音声認識結果に対する抽象化された文章情報（例えば、翻訳考慮事項から分離したり、又は抽出された情報、及び抽象化された音声情報に基づいた音声認識結果に対する翻訳結果）を含む。

ここで、抽象化された音声情報及び抽象化された文章情報の一例はこれに限定されることなく、例えば、音声認識器２１０及び翻訳機２３０それぞれの動作によって音声信号、音響情報、及び文章、又は文脈情報が分離又は抽出され得る。例えば、「江南駅までどうやって行けばいいですか？」というユーザの音声信号が自動通訳装置２００に入力されれば、自動通訳装置２００は、音声信号から抽出された特徴を音声認識器２１０に提供し、音声認識器２１０から音声認識結果を取得する。音声認識結果はユーザの音声（例えば、韓国語からなる音声認識）に対応する第１言語文章である。

自動通訳装置２００は音声認識結果を翻訳機２３０に提供し、翻訳機２３０から初期翻訳の結果を取得する。例えば、音声認識の初期翻訳の結果は「Ｉ’ｌｌｇｏｔｏＧａｎｇｎａｍ？」である。実施形態により、翻訳機２３０の初期翻訳の結果は「Ｉ’ｌｌｇｏｔｏＧａｎｇｎａｍ？」の他にも、例えば、決定された正確度スコアが第１閾値以上である１つ以上の初期翻訳の結果が選択される。自動通訳装置２００は、翻訳機２３０のデコーダ２３３によって出力された初期翻訳の結果を翻訳候補（又は、候補文章）に選定する。翻訳候補は、例えば、ｎ−ｂｅｓｔ候補文章リストに格納される。

自動通訳装置２００は、音声信号「江南駅までどうやって行けばいいですか？」を認識及び翻訳する過程で生成されたエンコーダ２１１、２３１及びデコーダ２１３、２３３の結果（例えば、抽象化された音声情報、音声認識結果、抽象化された文章情報、翻訳結果）に類似の情報要素をデータベース２５０から検索する。情報要素は、抽象化された音声情報、音声認識結果、抽象化された文章情報、翻訳結果のうちのいずれか１つであり得る。自動通訳装置２００は、検索された情報要素にマッチングして格納された最終文章（例えば、「ＨｏｗｄｏＩｇｅｔｔｏｌｅｎｇｔｈＧａｎｇｎａｍ？」、「ＨｏｗｄｏＩｇｅｔｔｏＧａｎｇｎａｍＳｔａｔｉｏｎ？」など）をデータベース２５０から検索する。自動通訳装置２００は、検索された最終文章を翻訳候補として候補文章リストに追加する。

自動通訳装置２００は、入力された音声信号「江南駅までどうやって行けばいいですか？」を認識して翻訳する過程で生成されたエンコーダ２１１、エンコーダ２３１、デコーダ２１３及びデコーダ２３３の出力又は結果に類似の情報要素のためにデータベース２５０を検索する。検索された情報要素は、例えば、以前の通訳過程から取得した、格納された抽象化された音声情報、格納された音声認識結果、格納された抽象化された文章情報、及び格納された翻訳結果のうちの１つであり得る。

自動通訳装置２００は、例示された翻訳結果としてデータベース２５０に格納された、類似するものとして判明した検索された情報要素と一致又は対応する最終翻訳文章をデータベース２５０から検索する。

例えば、発見又は決定された類似の情報要素に基づいて、「ＨｏｗｄｏＩｇｅｔｔｏｌｅｎｇｔｈＧａｎｇｎａｍ？」及び「ＨｏｗｄｏＩｇｅｔｔｏＧａｎｇｎａｍＳｔａｔｉｏｎ？」の格納された以前の最終翻訳が識別され、ｎ−ｂｅｓｔ候補翻訳リストに候補翻訳として追加される。このようにｎ−ｂｅｓｔ候補文章リストは、初期翻訳の結果に該当する文章及びデータベースから取得された少なくとも１つの翻訳文章を含み得る。例えば、候補文章リストは、現在の翻訳結果及び過去の翻訳結果が含まれる。例えば、候補文章リストには、「Ｉ’ｌｌｇｏｔｏＧａｎｇｎａｍ？」、「ＨｏｗｄｏＩｇｅｔｔｏｌｅｎｇｔｈＧａｎｇｎａｍ？」、「ＨｏｗｄｏＩｇｅｔｔｏＧａｎｇｎａｍＳｔａｔｉｏｎ？」などの文章が含まれる。

自動通訳装置２００は、類似翻訳結果に対応する最終文章が追加された候補文章リストに対して最終的なスコアを算定する。

自動通訳装置２００は、類似翻訳結果に対応する最終文章が追加された候補文章リストそれぞれを再算定して候補文章それぞれに対する最終スコアを取得する。

自動通訳装置２００は、現在の通訳中である発話（例えば、現在の通訳されている音声）に基づいて候補文章の最終的なスコアを算定する。

ここで、自動通訳装置は、例えば、以前の通訳対象それぞれに対する最終翻訳作業それぞれを行うとき、格納された以前の翻訳結果から任意の候補文章のスコアを算定できる。

したがって、現在の通訳対象に対する通訳動作を行うとき、自動通訳装置２００は、例えば、以前の翻訳結果を再び算出又は再算定すること、すなわち、再び算出又は再び算定するものと見なし得るが、今回は現在の通訳対象に基づく。

自動通訳装置２００は、現在の通訳対象に基づいて候補文章それぞれに対する最終的なスコアを再算定するためにデコーダ２３３を用いる。ここで、デコーダ２３３は、現在の翻訳過程で取得された初期翻訳の結果よりもデータベース２５０に予め格納されていた翻訳結果に対して高いスコアを付与してもよい。

他の実施形態として、以下でさらに詳細に説明するように、図１０は、最終第２言語文章を選択する方法の一例を説明する。ここで、候補文章は互いに異なる音声を通訳して取得された結果を含み、したがって、現在の通訳対象に対応する音声のスコアが再算出される。例えば、候補文章のスコアは、現在の翻訳対象に対応する予め生成された抽象化された文章情報に基づいて再算出される。

このような実施形態に係る再算定は通訳対象に対応する音声復号化の過程で各単語に対する（又は、翻訳モデルの結果として生成された）確率値に基づいて実行される。

しかし、実施形態により、ドメイン、ユーザ、国などを考慮した加重和、他の言語モデルの単語確率値、又は、ｎ−グラム（ｎ−ｇｒａｍ）基盤の確率値の形態に変換又は補間するよう異なる再算定方法を用いることができる。

自動通訳装置２００は、候補翻訳の再算定結果に基づいて最終翻訳結果を生成する。例えば、候補文章リストに含まれた翻訳結果の再算定結果、文章「ＨｏｗｄｏＩｇｅｔｔｏＧａｎｇｎａｍＳｔａｔｉｏｎ？」のスコアが最も高ければ、自動通訳装置２００は「ＨｏｗｄｏＩｇｅｔｔｏＧａｎｇｎａｍＳｔａｔｉｏｎ？」を自動通訳装置２００の最終結果として選択する。

以下、例えば、表１のような音声信号が自動通訳装置２００によって翻訳されるシナリオを具体的に説明する。

１番の音声信号（「江南駅までどのように行きますか？」）が自動通訳装置２００に入力される場合、例えば、他の翻訳が以前に実行されていない場合もあるためデータベース２５０を介して検索するための初期格納された情報要素がないこともある。データベース２５０には予め格納された情報要素がないため、翻訳機２３０の初期翻訳の結果（例えば、「ＨｏｗｄｏＩｇｅｔｔｏＧａｎｇｎａｍ？」）のみが翻訳候補（ｎ−ｂｅｓｔ）に選定されて１番の音声信号に対する候補文章リストに格納される。この場合、初期翻訳の結果がそのまま自動通訳装置２００の最終翻訳結果になる。

２番の音声信号（「おいしいチャジャン麺の店を教えて下さい」）が後で入力されれば、自動通訳装置２００は翻訳機２３０を用いて初期翻訳の結果（「Ｔｅｌｌｕｓｄｅｌｉｃｉｏｕｓｊａｊａｎｇｍｅｎｈｏｍｅ」）を生成した後、初期翻訳の結果を２番の音声信号に対する翻訳候補（ｎ−ｂｅｓｔ）として選定する。通訳装置２００は、データベース２５０で初期翻訳の過程で生成された結果（例えば、「抽象化された音声情報」、「音声認識結果」、「抽象化された文章情報」、及び「翻訳結果」）に類似の情報要素があるか否かを確認する。データベース２５０には初期翻訳の過程で生成された結果として類似の情報要素が存在しないため翻訳候補（ｎ−ｂｅｓｔ）が追加的に選択されない。この場合にも、初期翻訳の結果がそのまま２番の音声信号に対する自動通訳装置２００の最終翻訳結果になる。

３番の音声信号（「江南駅まではどういうふうに行くんですか？」）が入力されれば、自動通訳装置２００は、翻訳機２３０で初期翻訳の結果（「ＨｏｗｄｏＩｇｅｔｔｏｌｅｎｇｔｈＧａｎｇｎａｍ？」）を生成した後、３番の音声信号に対する翻訳候補（ｎ−ｂｅｓｔ）として選定する。自動通訳装置２００は、データベース２５０で追加的な翻訳候補を検索する。例えば、自動通訳装置２００は、初期翻訳の過程で生成された結果に類似の情報要素として１番の音声信号、及び２番の音声信号の両方又はいずれか１つの翻訳結果（「抽象化された音声情報」、「音声認識結果」、「抽象化された文章情報」、及び「翻訳結果」）を検索する。自動通訳装置２００は、３番の音声信号の現在の通訳過程で生成された結果又は出力に類似の情報要素に対して以前の通訳結果を検索する。次に、抽象化された音声情報、音声認識結果、抽象化された文章情報、及びデータベース２５０の翻訳結果にマッチングされたり、又は類似の情報のうちいずれか１つに対応する以前の翻訳文章結果が候補翻訳リストに追加される。

自動通訳装置２００は、１番の音声信号の以前翻訳の結果に対応する最終文章（「ＨｏｗｄｏＩｇｅｔｔｏＧａｎｇｎａｍ？」）を翻訳候補（ｎ−ｂｅｓｔ）として候補文章リストに追加する。例えば、自動通訳装置２００は、現在３番の音声信号に関する情報要素と１番の音声信号に対応する１つ以上の格納された情報要素との間に類似性があると決定されれば、以前の最終翻訳文章「ＨｏｗｄｏＩｇｅｔｔｏＧａｎｇｎａｍ？」を候補翻訳として候補翻訳リストに追加する。

ここで、候補文章リストは、翻訳候補である「ＨｏｗｄｏＩｇｅｔｔｏｌｅｎｇｔｈＧａｎｇｎａｍ？」及び「ＨｏｗｄｏＩｇｅｔｔｏＧａｎｇｎａｍ？」を含む。自動通訳装置２００は、３番の音声信号に対して候補文章リストに含まれた翻訳候補のスコアを算出し、翻訳候補のうちスコアの高い翻訳候補（例えば、「ＨｏｗｄｏＩｇｅｔｔｏＧａｎｇｎａｍ？」）を３番の音声信号に対する最終翻訳結果として選定する。

４番の音声信号（「江南駅までどうやって行けばいいですか？」）が入力されれば、自動通訳装置２００は初期翻訳の結果（「Ｉ’ｌｌｇｏｔｏＧａｎｇｎａｍ？」）を生成した後、４番の音声信号に対する翻訳候補（ｎ−ｂｅｓｔ）として選定する。自動通訳装置２００は、データベース２５０から初期翻訳の過程で生成された結果に類似の情報要素に基づいて、１番の音声信号の翻訳結果及び２番の音声信号の翻訳結果を検索する
自動通訳装置２００は、４番の音声信号に対する現在の通訳過程で初期翻訳の過程により生成された結果及び出力に基づいて、データベース２５０にある１番の音声信号に対する格納された通訳結果、２番の音声信号に対する格納された通訳結果、３番の音声信号に対する格納された通訳結果から類似の情報要素を検索する。

自動通訳装置２００は、１番及び２番の音声信号の翻訳結果に対応する最終翻訳文章（「ＨｏｗｄｏＩｇｅｔｔｏＧａｎｇｎａｍ」、「ＨｏｗｄｏＩｇｅｔｔｏｌｅｎｇｔｈＧａｎｇｎａｍ？」）を４番の音声信号に対する翻訳候補（ｎ−ｂｅｓｔ）に追加する。この場合、候補文章リストに含まれた翻訳候補のうちスコアの高い翻訳候補（例えば、「ＨｏｗｄｏＩｇｅｔｔｏＧａｎｇｎａｍ」）が４番の音声信号に対する最終の翻訳結果として選択される。

データベース２５０から情報要素又は類似の情報要素を検索するとき、自動通訳装置２００は、様々なアルゴリズムを個別的又は組み合わせて利用する。例えば、自動通訳装置２００は、近似ｋ−隣接の隣（ａｐｐｒｏｘｉｍａｔｅｋ−ＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ（ｋ−ＮＮ））アルゴリズム又はこれに類似のアルゴリズムを用いて現在の翻訳過程から、エンコーダ２１１、２３１及びデコーダ２１３、２３３の結果に類似の情報要素をデータベース２５０から早く決定又は検索することができる。例えば、自動通訳装置２００は、エンコーダ２１１、エンコーダ２３１、デコーダ２１３、及びデコーダ２３３の出力をデータベース２５０に格納された情報と比較して、以前の解釈過程から追加的な候補変換を識別するためにＬＳＨ（ＬｏｃａｌｉｔｙＳｅｎｓｉｔｉｖｅＨａｓｈｉｎｇ）アルゴリズム、及び／又はグリーディ（ｇｒｅｅｄｙ）フィルタリングなどを用いてもよい。

また、データベース２５０におけるこのような検索結果はデータベース２５０に格納され、データベース２５０の現在又は未来の検索を精緻化するために用いられる。

追加的に、又は代案として、エンコーダ２１１、エンコーダ２３１、デコーダ２１３及びデコーダ２３３の出力とデータベース２５０に格納された情報との間の自動通訳装置２００による比較は、特徴ベクトル（現在の通訳過程で決定された第１特徴ベクトル、及び／又は第２特徴ベクトル、及びデータベース２５０に格納された特徴ベクトル）間の類似度が存在するか否かを判断する方法を含む。

例えば、抽象化された音声情報、認識結果、及び抽象化された文章情報は、高次元ベクトル形態の各情報に変換されてデータベース２５０にそれぞれ格納される。

一例として、エンコーダ２１１及びデコーダ２１３が、例えば、回帰ニューラルネットワークのようなニューラルネットワークを含み、音声認識を処理するためのニューラルネットワーク学習を実現する場合、中間結果として生成されたベクトル形態又は音素シーケンスはニューラルネットワーク音声認識過程の副産物になる。

他の実施形態として、自動通訳装置２００は、現在の認識又は翻訳過程で生成された１つ以上の特徴ベクトル（以下、「対象特徴ベクトル」）とデータベースに格納された特徴ベクトルとの間のユークリッド距離を算出する。一例として、候補翻訳を決定するための類似性の決定又は比較は、データベース２５０に格納された特徴ベクトルと対象特徴ベクトルとの間の類似度がこの間のユークリッド距離が減少するにつれて増加するという、決定された原理に基づくものであり、択一的又はこれに加えて類似度決定又は比較は、類似性がこの間のユクルリス距離が増加するにつれて減少するという決定された原理に基づくものである。

又は、自動通訳装置は、コサイン類似度を用いて対象特徴ベクトルとデータベースに格納された特徴ベクトルが互いに類似するか否かを判断する。例えば、自動通訳装置は、対象特徴ベクトルとデータベースに格納された特徴ベクトルとの間のコサイン類似度が「１」に近いほど、対象特徴ベクトルとデータベースに格納された特徴ベクトルが互いに類似すると判断する。類似度判断の閾値を決定することは容易でないため、自動通訳装置２００は、データベースに格納された特徴ベクトルを類似度が高い順に整列し、このうち最上位（類似度）のランキングで予め決定されたパーセンテージ（％）又は高い順に整列した予め設定された個数に該当する特徴ベクトルを対象特徴ベクトルに類似すると判断する。自動通訳装置２００は、候補翻訳リスト内で決定された特徴ベクトルに対応する以前の翻訳結果を識別又は格納する。

自動通訳装置が文章（第１言語文章、第２言語文章）の類似有無を判断する方法は次の通りである。例えば、自動通訳装置２００は、様々な文書からなる文書群のうち単語が特定の文書内でどれ程頻繁に現れるか、又はどれ程重要であるかなどを示す統計的な数値であるＴＦ−ＩＤＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ−ｉｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）を用いて文章間の類似有無を判断する。ＴＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ：単語頻度）は、特定の単語が特定の文書内でどれ程頻繁に登場するかを示す値であって、この値が高いほど該当文書で該当単語がさらに重要に判断される。一方、特定単語が様々な文書からなる文書群にかけて頻繁に用いられる場合、該当単語が頻繁に登場することを意味する。これをＤＦ（ＤｏｃｕｍｅｎｔＧｒｅｑｕｅｎｃｙ：文書頻度）といい、この値の逆数をＩＤＦ（ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ：逆文書頻度）という。ＴＦ−ＩＤＦは、ＴＦとＩＤＦを乗算した値になる。

自動通訳装置２００は、ＴＦ−ＩＤＦを用いて文章をベクトルに変形し、ベクトル間の類似度を比較することで、現在の認識又は翻訳過程で生成された文章（以下、「対象文章」）とデータベース２５０に格納された文章との間の類似有無を判断する。類似度判断の閾値を決定することは容易ではないため、自動通訳装置２００は、データベースに格納された文章をその類似度に基づいて高い順に整列し、このうち予め設定された最上位ランクのパーセンテージ（％）又は予め設定された個数に該当する文章を対象文章に類似するものと判断する。自動通訳装置２００は、候補翻訳リスト内の特徴ベクトルに対応する以前の翻訳結果を識別又は格納する。

図面に図示していないが、実施形態によりデータベース２５０には音声信号から抽出された特徴が追加的に格納され、ｎ−ｂｅｓｔ翻訳候補を選定するために音声信号から抽出された特徴が追加的に用いられてもよい。

例えば、例示的なニューラルネットワーク音声認識過程の間に生成された特徴ベクトルを用いて、相異なる長さ又は変更された長さの音声信号の間の類似度が決定され得る。

一例として、類似の部分が互いに比較されたり、又は、動的時間歪み方法（ｄｙｎａｍｉｃｔｉｍｅｗａｒｐｉｎｇｓｃｈｅｍｅ）が全体シーケンスに対して実行されて２つのシーケンス間の変換を取得する。これによって、例えば、互いに異なる長さを有する音声信号シーケンス間の類似性が検証され、類似性は候補翻訳を選択するために用いられてもよい。

図３は、一実施形態に係る機械翻訳装置の構成及び翻訳方法を説明するための図である。図３を参照すると、自動通訳装置１３０の一例として、機械翻訳装置３００は機械翻訳を行い、実施形態によって認識装置を含むか、あるいは含まず、又は、音声認識を行ってもよい。機械翻訳装置３００は、翻訳機３１０及びデータベース（ＤＢ）３３０を含む。

図２で音声認識器２１０の抽象化された音声情報及び音声認識結果がデータベース２５０に格納され、ｎ−ｂｅｓｔ翻訳候補を選定するために用いられることとは異なって、機械翻訳装置３００が翻訳のみを行う場合に抽象化された音声情報及び音声認識結果は利用されない。図面に図示していないが、実施形態によりデータベース３３０には、翻訳機３１０に以前に入力された第１言語文章が格納される。

ｎ−ｂｅｓｔ翻訳候補を選定するために、以前の他の翻訳に対する追加的な抽象化された文章情報及び翻訳結果のうちの１つだけではなく、第１言語文章が第１言語文章に用いられてもよい。前述した事項を除いた残りの動作は、図２に示す翻訳機２３０及びデータベース２５０の動作と同一であるため、翻訳機３１０及びデータベース３３０の残りの動作に関する具体的な説明は省略する。

図４は、一実施形態に係る自動通訳装置に含まれた音声認識器及び翻訳機の構成及び動作を説明するための図である。図４を参照すると、一実施形態に係る自動通訳装置に入力された第１言語の音声信号に対する初期翻訳の結果が、音声認識器２１０及び翻訳機２３０の動作を経て音声信号に対する第２言語の候補文章に決定される過程を示している。ここで、音声認識器２１０及び／又は翻訳機２３０は図４に示された自動通訳装置だけではなく、図２に示された自動通訳装置の音声認識器及び／又は翻訳機と同一であり、実施形態がこれに限定されることはない。

音声認識器２１０のエンコーダ２１１はニューラルネットワーク２１２で構成され、デコーダ２１３はニューラルネットワーク２１４で構成される。また、翻訳機２３０のエンコーダ２３１はニューラルネットワーク２３２で構成され、デコーダ２３３はニューラルネットワーク２３４で構成される。

図４に示すエンコーダ２１１、デコーダ２１３、エンコーダ２３１及び／又はデコーダ２３３は、図２に示すエンコーダ２１１、デコーダ２１３、エンコーダ２３１及び／又はデコーダ２３３と同一であり、実施形態がこれに限定されることはない。

ニューラルネットワーク２１２、ニューラルネットワーク２１４、ニューラルネットワーク２３２、及びニューラルネットワーク２３４は、自動通訳装置で互いに同じ構造であってもよく、互いに異なる構造であってもよい。

一実施形態に示すように、エンコーダ２１１、２３１及びデコーダ２１３、２３３をニューラルネットワークで構成する場合、エンコーダ２１１、２３１及びデコーダ２１３、２３３を学習させる過程が現在の入力された音声の通訳又は翻訳に前もって実行され得る。ここで、エンコーダ２１１、２３１及びデコーダ２１３、２３３を学習させることは、学習過程によりニューラルネットワークを構成するパラメータ又は加重値の値を決定するものとして理解される。

学習動作は、学習データを用いて製造時に及び／又は製造後にそれぞれ実行され、また、自動通訳装置の作動中に更新される。

例えば、第１言語の音声信号（「江南駅までどうやって行けばいいですか？」）が入力されれば、自動通訳装置は音声信号から特徴を抽出する。自動通訳装置が音声信号から特徴を抽出する方法については図５を参照してより具体的に説明する。

音声信号から抽出した特徴が入力されれば、エンコーダ２１１は抽出された特徴を符号化して第１特徴ベクトル（例えば、｛「２．５４２」、「０．８２７」、…、「５．９３６」｝の実数ベクトル）を生成する。デコーダ２１３は、エンコーダ２１１で生成された第１特徴ベクトルを復号化して音声認識結果として第１言語文章（例えば、「江南駅までどうやって行けばいいですか？」の文章）を生成する。デコーダ２１３は、第１言語文章のサブワード（又はワード）単位で出力する。サブワードは、一例として、音素又は音節のように、一般的な文章で頻繁に用いられるキャラクターのシーケンスとして理解される。エンコーダ２１１及びデコーダ２１３を構成するニューラルネットワーク２１２、２１４については図６〜図７を参照してより具体的に説明する。

デコーダ２１３は、第１特徴ベクトルを復号化してｍ個の第１言語の候補文章を含むｍ−ベストリストを生成する。デコーダ２１３は、例えば、ビームサーチアルゴリズムを用いて第１言語のｍ−ベストリストを生成する。ｍはビームサーチアルゴリズムの複雑度であり得る。ｍ−ベストリストは、図２及び図３に示された文章及び／又は構文候補のｎ−ｂｅｓｔリストとは区別される概念であって、音声認識候補に該当する文章を含む。

ｍ−ベストリストは、例えば、「江南駅までどうやって行けばいいですか？」、「江南駅にはどのように行きますか？」、「江南駅に行く道を教えて」、及び「江南駅までどうやって行きましょうか？」などのような第１言語文章を含む。ここで、ｍ−ベストリストに含まれた文章（及び／又は構文）それぞれは０．６、０．０５、０．２、０．１などのように該当文章に加えて格納されたスコア（確率値）を含む。

音声認識器２１０はリスコアリングモデル２１５をさらに含む。リスコアリングモデル２１５は、スコアに基づいて文章の順位を付けたり、文章のスコアを再算定する。リスコアリングモデル２１５は、音声認識の結果としてｍ個の文章のうち１−ベストの文章（又は構文）を出力する。

翻訳機２３０のエンコーダ２３１は、第１言語文章（「江南駅までどうやって行けばいいですか？」）を符号化して第２特徴ベクトルを生成する。エンコーダ２３１は、第１言語文章を第２特徴ベクトルで符号化するためにニューラルネットワーク２３２を用いることができる。

デコーダ２３３は、第２特徴ベクトルを復号化してｍ個の第２言語の候補文章を含む第２言語のｍ−ベストリスト（ｍ−Ｂｅｓｔｌｉｓｔ）を生成する。ｍ−ベストリストは、図２及び図３に示された文章（及び／又は構文）の翻訳候補（ｎ−ｂｅｓｔｌｉｓｔ）とは区別される概念であって、初期翻訳候補に該当する文章（及び／又は構文）を含む。一実施形態におけるｍは、ビームサーチアルゴリズムの複雑度であり得る。

デコーダ２３３は、第２特徴ベクトルを復号化するためにニューラルネットワーク２３４を用いる。デコーダ２３３は、例えば、ビームサーチアルゴリズムを用いてｍ−ベストリストを生成する。

一実施形態において、エンコーダ２３１の入力次元は第１言語の「サブワード」で構成される辞書の次元であり、デコーダ２３３の出力次元は第２言語の「サブワード」で構成される辞書の次元である。辞書の次元は、予め含まれたサブワードであり得る。エンコーダ２３１を構成するニューラルネットワーク２３２及びデコーダ２３３を構成するニューラルネットワーク２３４の構造及び動作については図８を参照して説明する。

翻訳機２３０は、リスコアリングモデル２３５をさらに含む。一例として、リスコアリングモデル２３５は、例えば、翻訳された文章が本来の文章に正確に翻訳される、そのような確率信頼度の平均に関し、候補文章それぞれのオリジナル文章が翻訳文に正確に翻訳される確率値又は信頼度に基づいて最終の文章を選択することができる。

他の例として、リスコアリングモデル２３５は、第２言語の候補文章を復号化する過程で算出されたスコアをそのまま第２言語の候補文章のスコアとして決定する。一例として、候補文章に対するスコアは、オリジナル文章が対応する候補文章を正確に翻訳される確率値又は信頼度であり得る。この場合、リスコアリングモデル２３５は、「ランキングモデル」とも呼ばれる。

これに限定されることはないが、リスコアリングモデル２３５は、ｍ個の文章のうち１−ベスト又は最高スコアを有する文章を出力する。例えば、リスコアリングモデル２３５は、最も高いスコア（例えば、０．５）に対応する候補文章（「Ｉ’ｌｌｇｏｔｏＧａｎｇｎａｍ？」）を初期翻訳の結果として出力する。

図５は、一実施形態に係る音声信号から特徴を抽出する方法を説明するための図である。図５を参照すると、一実施形態に係る自動通訳装置は、予め決定されたフレームの速度（例えば、１秒当たり１００フレーム）に基づいて第１言語の音声信号をサンプリングする。一例として、サンプリングは１つ以上のアナログ−デジタルコンバータ及びパーサーによって実行される。したがって、一実施形態における自動通訳装置は、例えば、設定されたフレームの長さを有するそれぞれのフレームで、設定されたフレーム単位で特徴Ｘ_１、Ｘ_２、．．Ｘ_ｉ、．．Ｘ_Ｌを抽出して複数のフレームそれぞれに対して入力ベクトルを生成する。各フレームの入力ベクトルは、例えば、４０次元の（薄い）点などのような４０個のポイントで構成され得る。

図６は、一実施形態に係る音声認識器２１０の音声認識方法を説明するための図である。図６を参照すると、一実施形態に係る音声認識器２１０におけるエンドツーエンドの音声認識過程が示されている。音声認識器２１０は、エンコーダとデコーダをともに含む構造のニューラルネットワーク６１０を用いる。例えば、ニューラルネットワーク６１０は、図４に示す実施形態に記述されたニューラルネットワーク２１２及びニューラルネットワーク２１４が統合された形態の単一ニューラルネットワークであり得る。ニューラルネットワーク６１０は、回帰ニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）であり得る。

ここで、音声認識器２１０は、図２及び図４に示す音声認識器と同一であってもよく、必ずこれに限定されることはない。図４に示された基準ニューラルネットワーク２１２、２１４は図４に示すニューラルネットワーク２１２、２１４と同一であってもよく、必ずこれに限定されることはない。

図５において、フレームに対応して生成された入力ベクトルｘ_１、ｘ_２、．．ｘ_ｉ、．．ｘ_Ｌはニューラルネットワーク６１０のエンコーダの部分に、又はニューラルネットワーク６１０の入力に順次入力される。ニューラルネットワーク６１０のエンコーダの部分は音声要約情報を出力し、音声要約情報はニューラルネットワーク６１０が入力又はデコーダの部分に入力又は提供され得る。出力された音声要約情報は抽象化された音声情報に該当し、例えば、図２に示すデータベース２５０のようなデータベースに個別に格納される。

ニューラルネットワーク６１０のデコーダの部分は、第１言語文章を構成するサブワードｙ_１、ｙ_２、．．ｙ_ｉ、．．ｙ_Ｌを順次出力する。出力されるサブワードは、ニューラルネットワーク６１０のデコーダの部分で再入力され、例えば、時間の制約を受けるフィードバック（ｔｅｍｐｏｒａｌｆｅｅｄｂａｃｋ）のように次にサブワードを認識するために用いられる。ニューラルネットワーク６１０のデコーダの部分は、ビームサーチアルゴリズムを用いて予め決定された数の文章（及び／又は構文）のシーケンスを生成し、予め決定された数の文章シーケンスのうち最も高い設定スコアを有する文章（及び／又は構文）のシーケンスを第１言語文章（「江南駅までどうやって行けばいいですか？」）として選択する。認識された第１言語文章は音声認識結果に該当し、データベースに格納される。ここで、データベースは、出力された音声要約情報が格納されたデータベースと同一のデータベースであるか、又は他のデータベースであってもよい。

図７は、他の実施形態に係る音声認識方法を説明するための図である。図７を参照すると、集中機構（メカニズム）を用いた音声認識の過程が示されている。ここで、図８に示された音声認識器２１０は図２及び図４のうちいずれか１つに示された音声認識器と同一であり、必ずこれに限定されることはない。ニューラルネットワーク７１０は、図４に示されたニューラルネットワーク２３２及びニューラルネットワーク２３４の組合いであり、必ずこれに限定されることはない。

図６に示すニューラルネットワーク６１０に比べて、図７に示すニューラルネットワーク７１０のデコーダの部分はより多くの情報を用いることができる。例えば、ニューラルネットワーク７１０のデコーダの部分は次のサブワードを認識するとき、ニューラルネットワーク７１０のエンコーダの部分によって出力された音声要約情報だけではなく、追加情報をさらに利用する。ここで、追加情報は、ニューラルネットワーク７１０のエンコーダの部分が音声を認識する途中生成された情報であり得る。そのため、ニューラルネットワーク７１０のデコーダの部分が次のサブワードを認識するとき、符号化シーケンスのうちある部分に集中するかが精密に考慮される。実施形態によれば、集中機構（メカニズム）のための連結構造は別途のニューラルネットワークに実現され得る。

図８は、一実施形態に係る翻訳機を構成するニューラルネットワークの構造及び動作を説明するための図である。図８を参照すると、翻訳機２３０のエンコーダを構成するニューラルネットワーク２３２とデコーダを構成するニューラルネットワーク２３４の構造及び動作が示されている。ここで、翻訳機２３０は、図２及び図４のうちいずれか１つの翻訳機２３０と同一であってもよいが、必ずこれに限定されることはない。図８に示されたニューラルネットワーク２３２及び／又はニューラルネットワーク２３４は、図４に示されたニューラルネットワーク２３２及びニューラルネットワーク２３４と同一であってもよいが、必ずこれに限定されることはない。

図８に示すニューラルネットワーク２３２は、入力レイヤ８１０、隠れレイヤ８２０及び出力レイヤ８３０を含む。入力レイヤ８１０の次元は、第１言語のサブワードの次元に対応する。第１言語はサブワード単位であって、ワン・ホットベクトルの形態に入力レイヤ８１０から入力される。例えば、エンコーダから入力される最初サブワードが「江南駅」である場合、入力レイヤ８１０の複数のノードのうち「江南駅」に対応するノードに二進数「１」が入力され、残りのノードには二進数「０」が入力される。入力レイヤ８１０に入力されたワン・ホットベクトル（「江南駅」に対応して二進数「１」がマッピングされたベクトル）は隠れレイヤ８２０を経て出力レイヤ８３０に伝播される。

図８に示すエンコーダを構成しているニューラルネットワーク２３２は、再帰型ニューラルネットワークから構成され得る。そのため、２番目の以後又はその次のサブワードを符号化するとき、少なくとも１つの以前サブワードの符号化結果が影響を及ぼしかねない。例えば、２番目のサブワードが「まで」である場合、「まで」に対応して二進数「１」がマッピングされたワン・ホットベクトルが入力レイヤから入力される。「まで」に対応して二進数「１」がマッピングされたワン・ホットベクトルが隠れレイヤを経て出力レイヤに伝播されるとき、隠れレイヤに含まれたノードは最初のサブワードを伝播させた隠れレイヤのノードの出力が追加的に入力されることができる。

このように、ニューラルネットワーク２３２の入力レイヤに第１言語のサブワードが順次入力されるにつれて、最終的に出力される特徴ベクトルが生成される。生成された特徴ベクトルは抽象化された文章情報に該当し、一例として、図２に示すデータベース２５０のように別個のデータベースに格納され得る。エンコーダを構成するニューラルネットワーク２３２で最終的に出力される特徴ベクトルは、デコーダを構成するニューラルネットワーク２３４から入力される。

図８に示すデコーダを構成するニューラルネットワーク２３４についても、入力レイヤ８５０、隠れレイヤ８６０、及び出力レイヤ８７０を含む。ニューラルネットワーク２３４は、ニューラルネットワーク２３２で最終的に出力された特徴ベクトルを復号化して第２言語の候補文章を生成する。

ニューラルネットワーク２３４の入力レイヤ８５０は、エンコーダで最終的に出力された特徴ベクトルを受信する。特徴ベクトルは、隠れレイヤ８６０を経て出力レイヤ８７０に伝播される。出力レイヤ８７０の次元は、第２言語のサブワードで構成された辞書の次元に対応する。出力レイヤ８７０に含まれた各ノードは第２言語のサブワードに対応し、各ノードの出力値は該当するノードのサブワードが正確に翻訳されて出力される確率又は信頼度を意味する。ビームサーチアルゴリズムを行う自動通訳装置は、確率値の高い順にデコーダによって予め決定された数（例えば、３）の候補サブワードを選択する。例えば、予め決定された３万個のサブワードのうち、特徴ベクトルが示される確率（スコア）に該当する３つのサブワードのスコアＰ_１−１、Ｐ_１−２、Ｐ_１−３が次のステップに伝播される。

候補サブワードが選択されれば、各候補サブワードに対応して次に候補サブワードが復号化される。ここで、図８に示すエンコーダのニューラルネットワーク２３２と同様に、デコーダのニューラルネットワーク２３４の隠れレイヤ８６０の状態情報は隠れレイヤ８６０の次に隠れレイヤに伝達される。例えば、ｉ番目のサブワードを決定しようとする場合、ニューラルネットワーク２３４は１〜ｉ−１番目まで決定されたサブワードに基づいてｉ番目のサブワードの確率（スコア）を決定する。

前述した方式により候補サブワードのシーケンスが生成され、候補サブワードのシーケンスによって第２言語の候補文章（又は構文）が構成される。ただし、１つのサブワードを復号化するごとに予め決定された数（例えば、３）の候補サブワードが選択される場合、最終候補文章の数が指数的に増加する。このような現象を防止又は最小化するために、実施形態で各復号化の段階ごとに枝刈りが適用される。枝刈りは、候補文章の数が予め決定された数に保持できるよう枝刈りする方式であって、例えば、枝刈りによって２番目のサブワードまで復号化して生成された９個の候補文章のうち、３つの候補文章のみが選択されて次の段階に伝播される。

一実施形態によれば、一ステップでサブワードが選択されれば、選択されたサブワードによって次のステップの隠れレイヤが変更される。一例として、選択されたサブワードを指示する埋め込みベクトルが次の段階の隠れレイヤに含まれたノードの内部状態に反映される。

図９は、一実施形態に係るデータベースに格納される情報の形態を示す図である。図９は、図２に関して上述したデータベース２５０のようなデータベースに格納される情報の類型の一例を示すが、これに限定されることはない。

図９を参照すると、図１〜図８及び図１９Ａ〜２０の自動通訳装置のうちいずれか１つのように、一実施形態に係る自動通訳装置は、例えば、抽象化された音声情報（第１特徴ベクトル）、音声認識結果（第１言語文章）、及び抽象化された文章情報（第２特徴ベクトル）をデータベースに格納する。また、自動通訳装置は、データベースにある初期翻訳の結果（第２言語文章）及び最終翻訳結果のうち少なくとも１つを抽象化された音声情報（第１特徴ベクトル）、音声認識結果（第１言語文章）、及び抽象化された文章情報（第２特徴ベクトル）間のマッチングを行ってマッチング結果を格納する。

図１０は、一実施形態に係る最終第２言語文章を選択する方法を説明するための図である。図１０は、例えば、音声認識が実行されていない場合、第１言語からなる現在の音声信号の最終翻訳又は第１言語文章の他の最終翻訳のように最終第２言語文章を選択する方法を説明する。

図１０を参照すると、機械翻訳機のデコーダを用いて第１候補文章から第ｎ候補文章それぞれに対するスコアが算定される過程が示されている。ここで、各候補文章に対するスコアを再算定するために用いられるニューラルネットワークは、例えば、図４及び図８に示すニューラルネットワーク２３４のうちの１つであってもよく、実施形態が必ずこれに限定されることはない。

候補文章は、互いに異なる又は以前の発話に対応して翻訳された結果であるため、候補文章のスコアは現在の通訳対象である発話に対応してスコアを再算定されなければならない。一実施形態によれば、現在の通訳対象である発話に対応して予め生成された抽象化された文章情報に基づいて、候補文章のスコアが再算定される。例えば、表１の実施形態において、次の音声信号に対する第２言語の一例である第１候補文章（例えば、「Ｉ’ｌｌｇｏｔｏＧａｎｇｎａｍ．」）をリスコアリングする過程は次の通りである。

ニューラルネットワーク２３４の入力レイヤに入力された抽象化された文章情報は隠れレイヤを経て出力レイヤに伝播される。出力レイヤに含まれたノードは、第２言語のサブワード（例えば、Ｇａｎｇｎａｍ、…、Ｉ、…、（Ｉ’ｌｌの’ｌｌに該当する）「ｗｉｌｌ」）に対応し、各ノードの出力値は、該当するノードのサブワードが正確に翻訳されて出力される確率又は信頼度を意味する。

第１候補文章の最初のサブワードが「Ｉ」である場合、自動通訳装置は、第１候補文章のスコアを算出するために「Ｉ」に該当するノードから出力される確率Ｐ_１−１を選択する。最初のサブワードに該当するノードが選択されれば、ニューラルネットワーク２３４の出力レイヤは２番目のサブワードに対する確率を出力する。このように、第１候補文章を構成するサブワードによりニューラルネットワーク２３４の出力レイヤでノードを順次選択することにより、自動通訳装置は第１候補文章のスコアを算出することができる。

前述した方式により、自動通訳装置は候補文章のスコアを再算定する。自動通訳装置は、例えば、第１候補文章に対して再算定されたスコアから第ｎ候補文章に対して再算定されたスコアのうち最もスコアが高い候補文章を現在の入力された音声信号に対する最終文章（構文）として選択できる。

図１１は、一実施形態に係る自動通訳方法を示すフローチャートである。

ここで、図１１に示す自動通訳装置は、図１〜図１０及び図１９Ａ〜図１９Ｂの自動通訳装置のうちいずれか１つによって実現されるが、実施形態がこれに限定されることはない。また、図１〜図１０で議論された上述した動作のうちいずれか１つ又はその組合せに対応する説明は、図１１に示す動作にも適用可能であり、簡潔性のために繰り返して記載しない。

図１１を参照すると、一実施形態に係る自動通訳装置は、第１言語の音声信号を符号化して第１特徴ベクトルを生成する（Ｓ１１１０）。自動通訳装置は、第１特徴ベクトルを復号化して第１言語文章を生成する（Ｓ１１２０）。自動通訳装置は第１言語文章を符号化し、第１言語文章の符号化に基づいて第２特徴ベクトルを生成する（Ｓ１１３０）。自動通訳装置は、第２特徴ベクトルを復号化して第２言語文章を生成する（Ｓ１１４０）。自動通訳装置は、第１特徴ベクトル、第１言語文章、第２特徴ベクトル及び第２言語のうちの１つ、２つ、３つ又はネットの全ての文章に基づいて候補文章リスト及び以前の第１言語符号化及び／又は復号化認識動作及び／又は第２言語符号化及び／又は復号化翻訳動作による情報を生成又は追加する（Ｓ１１５０）。自動通訳装置は、候補文章リストから最終第２言語文章を選択する（Ｓ１１６０）。自動通訳装置は、第１特徴ベクトル、第１言語文章、及び現在の通訳過程における第２特徴ベクトルを、例えば、図２に示すデータベース２５０のようなデータベースに格納する。一例として、データベースは、また、以前の第１言語符号化及び／又は復号化認識動作に関する情報及び／又は第２言語符号化及び／又は復号化翻訳動作の情報を格納する。

また、自動通訳装置は、現在の通訳過程で第２言語文章及び／又は格納された第１特徴ベクトルに対する最終第２言語文章、第１言語文章、及び第２特徴ベクトルそれぞれにマッチング又は対応することを示す情報と共に、現在の通訳過程における初期第２言語文章、最終第２言語文章のうちいずれか１つ又は両方をデータベースに格納する。以下、図１２〜図１７を参照して、図１１に示された各ステップが動作するフローチャートを説明する。図１２〜図１７に示す方法のそれぞれは、図１〜図１０及び図１９Ａ〜図１９Ｂに示す自動通訳装置のうちいずれか１つによって実現されるが、実施形態がこれに限定されることはない。

図１２は、一実施形態に係る第１特徴ベクトルを生成する方法を示したフローチャートである。図１２を参照すると、一実施形態に係る自動通訳装置は、予め決定されたフレームの長さ又は速度に基づいて第１言語の音声信号をサンプリングする（Ｓ１２１０）。例えば、自動通訳装置は、第１言語の音声信号を、例えば、１０ｍｓのフレームの長さに該当する１秒当たり１００フレームでサンプリングする。自動通訳装置は、フレームに対応する入力ベクトルを生成する（Ｓ１２２０）。自動通訳装置は、音声認識のための音声認識エンコーダに生成された入力ベクトルを順次入力する（Ｓ１２３０）。自動通訳装置は、順次入力された入力ベクトルに対応して音声認識のための音声認識エンコーダから出力される第１特徴ベクトルを取得することで第１特徴ベクトルを生成又は取得する（Ｓ１２４０）。

図１３は、一実施形態に係る第１言語文章を生成する方法を示したフローチャートである。図１３を参照すると、一実施形態に係る自動通訳装置は、第１特徴ベクトルを音声認識のための音声認識デコーダに入力する（Ｓ１３１０）。一例として、第１特徴ベクトルは、図１２に示すステップＳ１２４０で生成又は取得される。自動通訳装置は、音声認識のためのデコーダから順次生成又は決定されるサブワード（又はワード）の決定された確率（スコア）に基づいて、予め決定された数の文章（又は構文）シーケンスを生成する（Ｓ１３２０）。自動通訳装置は、予め決定される数の文章シーケンスのうちスコアが最も高い文章シーケンスを第１言語文章として選択する（Ｓ１３３０）。

図１４は、一実施形態に係る第２特徴ベクトルを生成する方法を示したフローチャートである。図１４を参照すると、一実施形態に係る自動通訳装置は、第１言語文章を複数のサブワードに分割する（Ｓ１４１０）。一例として、第１言語文章は、図１３に示すステップＳ１３３０で認識された第１言語文章であり得る。自動通訳装置は、第１言語文章の機械翻訳のための翻訳エンコーダに複数のサブワードを指示する入力ベクトルを順次入力する（Ｓ１４２０）。自動通訳装置は、例えば、第２言語に対して機械翻訳のための翻訳エンコーダから出力される第２特徴ベクトルを取得又は生成することによって第２特徴ベクトルを生成する（Ｓ１４３０）。

図１５は、一実施形態に係る第２言語文章を生成する方法を示したフローチャートである。図１５を参照すると、一実施形態に係る自動通訳装置は、第２特徴ベクトルを機械翻訳のための翻訳デコーダに入力する（Ｓ１５１０）。一例として、第２特徴ベクトルは、図１４に示すステップＳ１４３０の第２特徴ベクトルであり得る。自動通訳装置は、機械翻訳のための翻訳デコーダから順次生成又は決定された第２言語のサブワード（又はワード）の確率に基づいて、予め決定された数の文章（又は構文）シーケンスを生成する（Ｓ１５２０）。自動通訳装置は、予め決定された数の文章シーケンスのうちスコアが最も高い文章シーケンスを翻訳された第２言語文章として選択する（Ｓ１５３０）。

図１６は、一実施形態に係る候補文章リストを生成する方法を示したフローチャートである。図１６は、上述した異なる実施形態で議論された候補文章リストのうち任意の候補リストのような候補文章リストを生成する方法を説明する。

図１６を参照すると、一実施形態に係る自動通訳装置は、現在の音声信号に対する認識及び翻訳のためにデータベースから、第１特徴ベクトル、第１言語文章、第２特徴ベクトル、及び第２言語文章のうち少なくとも１つに対応する候補文章を取得する（Ｓ１６１０）。例えば、自動通訳装置は、データベースに格納された複数の情報要素のうち第１特徴ベクトル、前記第１言語文章、前記第２特徴ベクトル、及び前記第２言語文章のうち少なくとも１つに類似の情報要素を検索する。自動通訳装置は、検索された情報要素に対応する候補文章をデータベースから取得する。自動通訳装置は、ステップＳ１６１０で取得された少なくとも１つの候補文章を候補文章リストに追加する（Ｓ１６２０）。また、自動通訳装置は、第２言語文章を前記候補文章リストに追加する（Ｓ１６３０）。一例として、第２言語文章は、図１５に示すステップＳ１５３０の翻訳された第２言語文章であり得る。

図１７は、一実施形態に係る最終翻訳された最終第２言語文章を選択する方法を示したフローチャートである。図１７を参照すると、一実施形態に係る自動通訳装置は、第２特徴ベクトルに基づいて候補文章リストに含まれた候補文章のスコアを算出する（Ｓ１７１０）。一例として、候補文章リストは、図１６に示すステップにおける候補文章リストと同一であり得る。

自動通訳装置は、候補文章リストに含まれた候補文章のうち最高スコアを有する候補文章を最終第２言語文章の最終翻訳として選択する（Ｓ１７２０）。

図１８は、一実施形態に係る機械翻訳方法を示したフローチャートである。図１８の動作は、図１〜図１０及び図１９Ａ〜図１９Ｂの自動通訳装置のうちいずれか１つによって実現されるが、実施形態がこれに限定されることはない。

図１８を参照すると、一実施形態に係る機械翻訳装置（以下、「翻訳機」）は、第１言語文章を符号化して特徴ベクトルを生成する（Ｓ１８１０）。機械翻訳装置は、図１〜図２、図４〜図１０及び図１９Ａ〜図１９Ｂの自動通訳装置のうちいずれか１つに対応する。ここで、一例として、音声認識及び言語翻訳の両方が実行されたり、又は言語翻訳のみが可能又は実行される。一例として、機械翻訳装置は、図３に示す機械翻訳装置３００に対応し、実施形態がこれに限定されることはない。

翻訳機は、特徴ベクトルを復号化して第２言語文章を生成する（Ｓ１８２０）。翻訳機は、第１言語文章、特徴ベクトル及び第１言語文章の翻訳に対する第２言語文章のうちの１つ、２又は３全てに基づいて第２翻訳文章の候補に対する候補文章リストを生成する（Ｓ１８３０）。翻訳機は、候補文章リストから最終第２言語文章を第１言語文章の最終翻訳として選択する（Ｓ１８４０）。

翻訳機は、特徴ベクトルをデータベースに格納する。また、翻訳機は、データベースにある特徴ベクトルにマッチング又は対応し、第２言語文章及び最終第２言語文章のうちの１つ又は両方を格納する。

ここで、通訳過程が第１言語からなる情報を第２言語からなる文章又は構文に翻訳することについて議論したが、実施形態がこれに限定されることはない。１つ以上の実施形態において、自動通訳装置又は機械翻訳装置内に例示された翻訳機は複数の翻訳機それぞれを示し、翻訳機それぞれは上述したように第１言語又は他の言語からの文章情報を第２言語又は、例えば、第２言語英語以外の他の言語に翻訳するように構成され得る。

複数の異なる翻訳過程が選択的に及び／又は同時に実行され得る。

また、異なる翻訳過程は、基底（基礎にある）装置の自動背景処理として自動的又は選択的に実行され、ユーザが希望したり又は基底装置の基底インタラクションエージェントがユーザを必要としたり所望する場合（又はその時）にこのような翻訳作業の結果をユーザに提供することができる。

図１９Ａ及び図１９Ｂは、実施形態に係る自動通訳装置のブロック図である。

図１９Ａ及び図１９Ｂの自動通訳装置は、図１〜図１８に関して上述した動作のいずれか１つ又はその組合せを実行することができ、実施形態がこれに同一に制限されることはない。

また、図１９Ａ及び図１９Ｂの自動通訳装置は、図１〜図４及び図６〜図８の自動通訳装置のうちいずれか１つ又はその組合せに対応し、実施形態がこれに同一に限定されることはない。

図１９Ａ及び図１９Ｂを参照すると、それぞれの自動通訳装置１９００は、メモリ１９１０、及びプロセッサ１９２０を含む。また、自動通訳装置１９００は、図１９Ａに示すように音声認識器１９３０及び／又は翻訳機１９４０をさらに含む。

その代案として、音声認識器１９３０及び／又は翻訳機１９４０は、構成されたようにプロセッサ１９２０に含まれる。また、一例として、自動通訳装置１９００それぞれは翻訳機１９４０を含み、音声認識器１９３０を含まないか、又は、音声認識器１９３０を含み、翻訳機１９４０を含まない場合がある。

一実施形態では、図１９Ａに示すように、メモリ１９１０、プロセッサ１９２０、音声認識器１９３０、及び翻訳機１９４０はバス１９５０を用いて通信を行う。

メモリ１９１０は、例えば、揮発性メモリ及び不揮発性メモリを含み、バス１９５０を用いて受信された情報を格納する。メモリ１９１０は、例えば、図１〜図１８に関して上述したいずれか１つ又は組合せの処理のような自動通訳過程で生成された第１特徴ベクトル、第１言語文章、第２特徴ベクトル、及び第２言語文章などを格納するデータベースを含む。メモリ１９１０は、第１特徴ベクトル、第１言語文章、第２特徴ベクトルにマッチングして第２言語文章及び／又は最終第２言語文章をデータベースに格納する。その他にも、メモリ１９１０は様々なタイプのデータとプログラムなどを格納する。

一実施形態では、一時的ではないコンピュータで読み出し可能な格納媒体として、メモリ１９１０は、例えば、プロセッサ１９２０によって実行されるとき、プロセッサ１９２０が図１〜図１８に関して上述した過程のうちいずれか１つ又はその組合せを行うようにする命令語を格納する。

代案的に、更なるメモリが自動通訳装置１９００のそれぞれに含まれ、命令語を格納し、及び／又は自動通訳装置１９００それぞれの他のプロセッサが格納された命令語を行ってもよい。

プロセッサ１９２０は、図１に示すエージェント１３３の動作を行う。例えば、実施形態でプロセッサ１９２０は、図１９Ｂに示す自動通訳装置１９００のユーザインターフェース１９６０によって表現されたマイクロホンにより取得されたユーザの音声を音声認識器１９３０に伝達し、音声認識器１９３０から第１特徴ベクトル及び第１言語文章を受信する。また、実施形態において、プロセッサ１９２０は第１言語文章を翻訳機１９４０に伝達し、翻訳機１９４０から第２特徴ベクトル及び第２言語文章を受信する。

１つ以上の実施形態で、プロセッサ１９２０は第１特徴ベクトル及び第１言語文章を生成し、第２特徴ベクトル及び第２言語文章を生成する音声認識器１９３０及び翻訳機１９４０それぞれの過程及び／又はそれぞれの動作を行うように制御するコントローラで構成されたり、又は、このようなコントローラであり得る。

また、１つ以上の実施形態において、プロセッサ１９２０又は他のプロセッサはユーザの音声のサンプリングを行い、結果的にサンプリングされたオーディオフレームを音声認識装置１９３０に提供することができる。

プロセッサ１９２０は、例えば、現在の認識又は翻訳過程における第１特徴ベクトル、第１言語文章、第２特徴ベクトル、及び第２言語文章のうちいずれか１つ又はその組合せに基づいて、メモリ１９１０のデータベースから候補文章を取得する。プロセッサ１９２０は、翻訳機１９４０のデコーダに候補文章及び第２特徴ベクトルを伝達し、翻訳機１９４０のデコーダから、例えば、翻訳機１９４０のデコーダによって決定又は算出された候補文章それぞれに対する点数を受信する。プロセッサ１９２０は、点数に基づいて候補文章のうち最終文章を選択する。

一実施形態によれば、音声認識器１９３０及び翻訳機１９４０はプロセッサ１９２０と独立的に実現される。この場合、音声認識器１９３０及び翻訳機１９４０は、プロセッサ１９２０と区別される別途のコンピューティングリソース又はプロセッサを用いて実現される。又は、音声認識器１９３０及び翻訳機１９４０は、同一のプロセッサ又は同一のコンピューティングリソースによって具現されたり、又は、互いに異なるプロセッサ又は互いに異なるコンピューティングリソースによって実現され得る。

これに加えて、実施形態で音声認識器１９３０及び翻訳機１９４０は、自動通訳装置１９００それぞれの外部又は遠隔に位置することができ、有線及び／又は無線ネットワークを介して自動通訳装置１９００と通信できる。

図１９Ｂに示されたユーザインターフェース１９６０は、ハードウェア有線及び／又は無線通信モジュールだけではなく、一例として、キーボード、タッチスクリーン、マウス又はスタイラスのような他のユーザインターフェース装置を示す。

このような外部又は遠隔例において、プロセッサ１９２０は、ユーザインターフェース１９６０によって表現されたマイクロホンによってキャプチャーされたアナログ信号と共にユーザの音声のサンプリングを行った後、一例として、音声認識器１９３０及び／又は翻訳機１９４０のそれぞれを含む１つ以上の外部サーバと通信するハードウェア通信モジュールを用いることができる。

最終の第２言語翻訳は、自動翻訳装置１９００のプロセッサ１９２０に最終第２言語翻訳を伝達できる翻訳機１９４０による候補文章リストから決定され、ユーザに視覚的及び／又は聴覚的に翻訳を出力するように構成される。

例えば、ユーザインターフェース１９６０は、翻訳を聴覚的に出力する音声合成器及びスピーカを示し、及び／又はディスプレイ１９７０はディスプレイ１９７０のスクリーン上にテキストを通した翻訳を視覚的に表示し得る。一実施形態によれば、音声認識器１９３０及び翻訳機１９４０は、例えば、認識及び翻訳モデリングによってプロセッサ１９２０とメモリ１９１０を用いて実現される。例えば、音声認識器１９３０に含まれた１つ以上のニューラルネットワークは、一例として、音声認識器１９３０のエンコーダ及びデコーダに含まれたニューラルネットワーク、及び／又は翻訳機１９４０に含まれた１つ以上のニューラルネットワーク、一例として、翻訳機１９４０のエンコーダ及びデコーダに含まれたそれぞれのニューラルネットワークを含み、メモリ１９１０に格納される。

ニューラルネットワークのそれぞれは、実行可能なオブジェクトファイルや実行ファイルの形態にメモリ１９１０に格納される。また、各ニューラルネットワークのためのパラメータもメモリ１９１０に格納される。このような例として、プロセッサ１９２０は、メモリ１９１０からニューラルネットワークをロードし、ニューラルネットワークそれぞれに対するパラメータを適用することによって音声認識装置１９３０の認識及び翻訳機１９４０の翻訳を実現することができる。

プロセッサ１９２０は、メモリ１９１０からニューラルネットワークをロードし、ニューラルネットワークそれぞれに該当するパラメータを適用することによって、音声認識器１９３０のエンコーダとデコーダ及び翻訳機１９４０のエンコーダとデコーダを実現することができる。

他の実施形態によれば、プロセッサ１９２０は、第１言語のサンプリングされた音声信号のフレームを符号化して第１言語の第１特徴ベクトルを生成する。プロセッサ１９２０は、第１特徴ベクトルを復号化して第１言語の第１言語文章を生成する。プロセッサ１９２０は、第２言語に対する第１言語文章を符号化して第２言語に対する第２特徴ベクトルを生成する。プロセッサ１９２０は、第２特徴ベクトルを復号化して第２言語文章を生成する。プロセッサ１９２０は、第１特徴ベクトル、第１言語文章、第２特徴ベクトル、及び第２言語文章のうちいずれか１つ又はその組合せに基づいて、例えば、プロセッサ１９２０によって生成した候補文章リストから最終第２言語文章を選択する。

音声認識過程で生成された結果又は参照された出力及び機械翻訳の過程で生成された結果及び参照された出力はメモリ１９１０に送信される。

また、実施形態はこのような出力又は生成された結果は、プロセッサ１９２０、音声認識器１９３０、及び／又は翻訳機１９４０間に送信され得る。

実施形態は、また、プロセッサ１９２０、音声認識器１９３０及び／又は翻訳機１９４０のうちいずれか１つによりローカルキャッシュ、メモリ１９１０又は他のメモリから取得又は要求するよう、ローカルキャッシュ、メモリ１９１０、又は、任意の他のメモリにそれぞれの出力又は結果を格納するプロセッサ１９２０、音声認識器１９３０、及び／又は翻訳機１９４０を含む。

上述した動作を行う図１〜図４、図６〜図７、図１９Ａ〜図１９Ｂに示されたエージェント１３３、翻訳機１３６、自動通訳装置１３０、自動通訳装置２００、音声認識器２１０、エンコーダ２１１、デコーダ２１３、翻訳機２３０、エンコーダ２３１、デコーダ２３３、データベース２５０、リスコアリングモデル２１５、リスコアリングモデル２３５、ニューラルネットワーク２１２、ニューラルネットワーク２１４、ニューラルネットワーク２３２、ニューラルネットワーク２３４、機械翻訳装置３００、翻訳機３１０、データベース３３０、ニューラルネットワーク６１０、ニューラルネットワーク７１０、自動通訳装置１９００、メモリ１９１０、プロセッサ１９２０、音声認識器１９３０、翻訳機１９４０、バス１９５０、ユーザインターフェース１９６０、及びディスプレイ１９７０は、上述した動作を行うように構成されたハードウェア構成要素によって実行され得る。

上述した動作を行うために用いられるハードウェア構成要素の実施形態は、上述した実施形態で記述された動作を行うように構成されたコントローラ、センサ、ジェネレータ、ドライバ、メモリ、比較器、算術論理ユニット、加算器、減算器、乗算器、分周器、積分器、及びその他の電子部品を含む。

以上に前述した装置は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当該技術分野で通常の知識を有する者は、処理装置が複数の処理要素及び／又は複数類型の処理要素を含むことが分かる。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はこれらのうちの１つ以上の組合せを含み、希望通りに動作するように処理装置を構成し、独立的又は結合的に処理装置に命令する。ソフトウェア及び／又はデータは、処理装置によって解釈され、処理装置に命令又はデータを提供するためのあらゆる類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、或いは送信される信号波を介して永久的又は一時的に具現化される。ソフトウェアは、ネットワークに接続されたコンピュータシステム上に分散され、分散された方法で格納されるか又は実行される。ソフトウェア及びデータは１つ以上のコンピュータ読み取り可能な記録媒体に格納される。

本実施形態による方法は、多様なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明の動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

非限定的な例として、又は、異なる実施形態において、自動通訳装置は、セルラーフォン、スマートフォン、ウェアラブルスマート装置（例えば、リング、時計、ひじ掛け、アンクレット、ベルト、ネックレス、イヤリング、ヘアバンド、ヘルメット又は衣類に内蔵された装置）、携帯用パーソナルコンピュータ（ＰＣ）（例えば、ノート型パソコン、タブレットＰＣ、タブレットＰＣ、ＰＤＡ、デジタルカメラ、携帯用ゲームコンソール、ＭＰ３プレーヤー、携帯用／個人携帯用コンピュータ、ＰＭＰ（ｐｅｒｓｏｎａｌｍｕｌｔｉｍｅｄｉａｐｌａｙｅｒ）、ハンドヘルド電子書籍（ｈａｎｄｈｅｌｄｅ−ｂｏｏｋ）、ＧＰＳ（ｇｌｏｂａｌｐｏｓｉｔｉｏｎｉｎｇｓｙｓｔｅｍ）ナビゲーション装置又はデスクトップＰＣ、ＨＤＴＶ、ＤＶＤプレーヤー、Ｂｌｕ−セットトップボックス又は家庭用機器又は無線又はネットワーク通信を行うように構成された他の移動装置又は固定装置であり得る。

例えば、上述した実施形態で自動通訳は、同時画像会議をリアルタイムで出力及び表示して、画像会議を実現するモバイルデバイス、テレビ、又はＰＣなどのようなハードウェアに実現する。１つ以上の実施形態に係る自動通訳装置又は自動通訳システムは車両、公共交通キオスク又はインターフェース、又は、他のユーザインターフェースであり得る。

他の実施形態において、１つ以上の実施形態に係るモバイルデバイスは公共交通システム又は可聴警告システムのような公開公知を自動通訳するように構成する。

一例として、ウェアラブルデバイスは、メガネ、又はブレスレットのようにユーザの身体に直接装着されるよう設計された装置である。

異なる例として、ウェアラブルデバイスは、アームバンドを用いてユーザの腕に付着するスマートフォン、タブレットのような取付装置、又は、ひもを用いてユーザの首に垂下するような取付装置を用いてユーザの身体に装着され得る。

このような例は説明の目的のためのものであり、自動通訳装置又は自動通訳システムの応用又は実現を制限すると解釈されてはいけない。上述したように実施形態がたとえ限定された図面によって説明されたが、当技術分野で通常の知識を有する者であれば前記に基づいて様々な技術的修正及び変形を適用する。例えば、説明された技術が説明された方法と異なる順序で実行されたり、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組合わせたり、他の構成要素又は均等物によって置き換えたり置換されても適切な結果が達成されることができる。

１９００：自動通訳装置
１９１０：メモリ
１９２０：プロセッサ
１９３０：音声認識器
１９４０：翻訳機
１９５０：バス

Claims

自動通訳装置により実施される自動通訳方法であって、前記自動通訳装置のプロセッサが、
第１特徴ベクトルを生成するために第１言語からなる音声信号を符号化するステップと、
第１言語文章を生成するために前記第１特徴ベクトルを復号化するステップと、
第２言語に対する第２特徴ベクトルを生成するために前記第１言語文章を符号化するステップと、
前記第２特徴ベクトルを復号化して第２言語文章を生成するステップと、
候補文章リストの生成を制御するステップであって、１つ以上の近似ＮＮ（ａｐｐｒｏｘｉｍａｔｅＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ）アルゴリズムを用いて、データベースに格納された複数の要素から、前記第１特徴ベクトル、前記第１言語文章、前記第２特徴ベクトル、及び前記第２言語文章のうちいずれか１つに類似する要素を検索することにより、候補文章を取得し、取得した前記候補文章を前記候補文章リストに追加する、ステップと、
前記音声信号の翻訳として前記候補文章リストから最終第２言語文章を選択するステップと、
を含む、自動通訳方法。
前記候補文章リストの生成を制御するステップは、
データベースから前記第１特徴ベクトルに類似すると決定された第１言語特徴ベクトルにマッチングされた第１通訳結果を取得するステップと、
前記データベースから前記第１言語文章に類似すると決定された以前に認識された文章にマッチングされた第２通訳結果を取得するステップと、
前記データベースから前記第２特徴ベクトルに類似すると決定された第２言語特徴ベクトルにマッチングされた第３通訳結果を取得するステップと、
前記データベースから前記第２言語文章に類似すると決定された以前の翻訳文章にマッチングされた第４通訳結果を取得するステップと、
のうちいずれか１つ又はその組合せを含む、請求項１に記載の自動通訳方法。
前記候補文章リストの生成を制御するステップは、前記第１通訳結果、前記第２通訳結果、前記第３通訳結果、及び前記第４通訳結果のうちいずれか１つに対応する任意の以前の翻訳文章を前記候補文章リストに追加するステップと、
前記第２言語文章を前記候補文章リストに追加するステップと、
をさらに含む、請求項２に記載の自動通訳方法。
前記第２通訳結果を取得するステップは、
前記第１言語文章をベクトルに変換するステップと、
前記変換されたベクトルに基づいて、前記データベースから複数の以前認識された文章のいずれかが前記第１言語文章に類似するかを決定するステップと、
を含む、請求項２又は３に記載の自動通訳方法。
前記第４通訳結果を取得するステップは、
前記第２言語文章をベクトルに変換するステップと、
前記変換されたベクトルに基づいて、前記データベースから複数の以前認識された文章のいずれかが前記第２言語文章に類似するかを決定するステップと、
を含む、請求項２乃至４のいずれか一項に記載の自動通訳方法。
前記最終第２言語文章を選択するステップは、
前記第２特徴ベクトルに基づいて前記候補文章リストに含まれた候補文章のスコアを算出するステップと、
前記候補文章リストから前記算出されたスコアのうち最高値を有する候補文章を前記最終第２言語文章として選択するステップと、
を含む、請求項１乃至５のいずれか一項に記載の自動通訳方法。
前記第１言語の音声信号を符号化するステップは、
予め決定されたフレームの長さに基づいて前記第１言語の音声信号をサンプリングするステップと、
フレームに対応する入力ベクトルそれぞれを生成するステップと、
音声認識のためのエンコーダに前記入力ベクトルそれぞれを順次入力するステップと、
前記順次入力された入力ベクトルそれぞれに対して前記第１特徴ベクトルが前記エンコーダからの出力されるように決定することによって前記第１特徴ベクトルを生成するステップと、
を含む、請求項１乃至６のいずれか一項に記載の自動通訳方法。
前記第１特徴ベクトルを復号化するステップは、前記第１特徴ベクトルを音声認識のためのデコーダに入力するステップと、
前記音声認識のためのデコーダから順次出力されるサブワードの確率に基づいて、予め決定された数の文章シーケンスを生成するステップと、
前記予め決定された数の文章シーケンスのうち、コアが最も高い文章シーケンスを前記第１言語文章として選択することで前記第１言語文章を生成するステップと、
を含む、請求項１乃至７のいずれか一項に記載の自動通訳方法。
前記第１言語文章を符号化するステップは、
前記第１言語文章を複数のサブワードに分割するステップと、
機械翻訳のためのエンコーダに前記複数のサブワードを指示する入力ベクトルそれぞれを順次入力するステップと、
前記順次入力された入力ベクトルそれぞれに対して前記第２特徴ベクトルが前記エンコーダからの出力されるように決定することで前記第２特徴ベクトルを生成するステップと、
を含む、請求項１乃至８のいずれか一項に記載の自動通訳方法。
前記第２言語文章を生成するステップは、
前記第２特徴ベクトルを機械翻訳のためのデコーダに入力するステップと、
前記機械翻訳のためのデコーダから順次出力されるサブワードの確率に基づいて、予め決定された数の文章シーケンスを生成するステップと、
前記予め決定された数の文章シーケンスのうちスコアが最も高い文章シーケンスを前記第２言語文章として選択するステップと、
を含む、請求項１乃至９のいずれか一項に記載の自動通訳方法。
ハードウェアと結合して請求項１乃至１０のいずれか一項に記載の方法を実行させるためのコンピュータプログラム。
第１言語からなる音声信号を認識符号化して前記第１言語に対する第１特徴ベクトルを生成し、前記第１特徴ベクトルを復号化して第１言語文章を生成する音声認識器と、
前記第１言語からなる第１言語文章を翻訳符号化して第２言語に対する第２特徴ベクトルを生成し、前記第２特徴ベクトルを復号化して第２言語からなる第２言語文章を生成する翻訳機と、
１つ以上の近似ＮＮ（ａｐｐｒｏｘｉｍａｔｅＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ）アルゴリズムを用いて、データベースに格納された複数の要素から、前記第１特徴ベクトル、前記第１言語文章、前記第２特徴ベクトル、及び前記第２言語文章のうちいずれか１つに類似する要素を検索することにより、候補文章を取得し、取得した前記候補文章を候補文章リストに追加し、前記候補文章リストから前記音声信号の翻訳として最終第２言語文章を選択するプロセッサと、
を含む、自動通訳装置。
前記音声認識器は、前記第１特徴ベクトルを生成するために前記音声信号の認識符号化を行う認識エンコーダ、及び前記第１言語文章を生成するために前記第１特徴ベクトルの復号化を行う認識デコーダを含み、
前記翻訳機は、前記第２特徴ベクトルを生成するために前記第１言語文章の翻訳符号化を行う翻訳エンコーダ、及び前記第２言語文章を生成するために前記第２特徴ベクトルの復号化を行う翻訳デコーダを含む、請求項１２に記載の自動通訳装置。
前記プロセッサは、前記認識エンコーダ、前記認識デコーダ、前記翻訳エンコーダ及び前記翻訳デコーダをさらに含み、
前記認識エンコーダは、前記自動通訳装置の１つ以上のニューラルネットワークのうち前記音声信号に基づいて前記第１特徴ベクトルを決定するニューラルネットワークを実現し、
前記認識デコーダは、前記自動通訳装置の１つ以上のニューラルネットワークのうち前記第１特徴ベクトルに基づいて前記第１言語文章を決定するニューラルネットワークを実現し、
前記翻訳エンコーダは、前記自動通訳装置の１つ以上のニューラルネットワークのうち前記第１言語文章に基づいて前記第２特徴ベクトルを決定するニューラルネットワークを実現し、
前記翻訳デコーダは、前記自動通訳装置の１つ以上のニューラルネットワークのうち前記第２特徴ベクトルに基づいて前記第２言語文章を決定するニューラルネットワークを実現する、請求項１３に記載の自動通訳装置。
前記プロセッサは、データベースから前記第１特徴ベクトルに類似すると決定された第１言語特徴ベクトルにマッチングされた第１通訳結果、前記データベースから前記第１言語文章に類似すると決定された以前認識された文章にマッチングされた第２通訳結果、前記データベースから前記第２特徴ベクトルに類似すると決定された第２言語特徴ベクトルにマッチングされた第３通訳結果、及び前記データベースから前記第２言語文章に類似すると決定された以前の翻訳文章にマッチングされた第４通訳結果のうちいずれか１つ又はその組合せを取得する、請求項１２に記載の自動通訳装置。
前記プロセッサは、前記第１通訳結果、前記第２通訳結果、前記第３通訳結果、及び前記第４通訳結果のうちいずれか１つに対応する任意の以前の翻訳文章を前記候補文章リストに追加し、前記第２言語文章を前記候補文章リストに追加する、請求項１５に記載の自動通訳装置。
前記プロセッサは、前記第１言語文章をベクトルに変換し、前記変換されたベクトルに基づいて前記データベースから複数の以前認識された文章のいずれかが前記第１言語文章に類似するかを決定する、請求項１５又は１６に記載の自動通訳装置。
前記プロセッサは、前記第２言語文章をベクトルに変換し、前記変換されたベクトルに基づいて前記データベースから複数の以前の翻訳文章のいずれかが前記第２言語文章に類似するかを決定する、請求項１５乃至１７のいずれか一項に記載の自動通訳装置。
前記翻訳機は、前記第２特徴ベクトルに基づいて前記候補文章リストに含まれた候補文章のスコアを算出し、
前記プロセッサは、前記候補文章リストから前記算出されたスコアのうち最高値を有する候補文章を前記最終第２言語文章として選択する、請求項１２乃至１８のいずれか一項に記載の自動通訳装置。
前記プロセッサは、予め決定されたフレームの長さに基づいて前記第１言語からなる音声信号をサンプリングし、フレームに対応する入力ベクトルそれぞれを生成し、音声認識のためのエンコーダに前記入力ベクトルそれぞれを順次入力し、前記順次入力された入力ベクトルそれぞれに対して前記第１特徴ベクトルが前記エンコーダからの出力されるように決定する、請求項１２乃至１９のいずれか一項に記載の自動通訳装置。
前記プロセッサは、前記第１特徴ベクトルを音声認識のためのデコーダに入力し、前記音声認識のためのデコーダから順次出力されるサブワードの確率に基づいて予め決定された数の文章シーケンスを生成し、前記予め決定された数の文章シーケンスのうちスコアが最も高い文章シーケンスを前記第１言語文章として選択する、請求項１２乃至２０のいずれか一項に記載の自動通訳装置。
前記プロセッサは、前記第１言語文章を複数のサブワードに分割し、機械翻訳のためのエンコーダに前記複数のサブワードを指示する入力ベクトルそれぞれを順次入力し、前記順次入力された入力ベクトルに対して前記第２特徴ベクトルが前記エンコーダからの出力されるように決定する、請求項１２乃至２１のいずれか一項に記載の自動通訳装置。
前記プロセッサは、前記第２特徴ベクトルを機械翻訳のためのデコーダに入力し、前記機械翻訳のためのデコーダから順次出力されるサブワードの確率に基づいて予め決定された数の文章シーケンスを生成し、前記予め決定された数の文章シーケンスのうちスコアが最も高い文章シーケンスを前記第２言語文章として選択する、請求項１２乃至２２のいずれか一項に記載の自動通訳装置。
前記プロセッサは、前記第１特徴ベクトル、前記第１言語文章、及び前記第２特徴ベクトルを前記データベースに格納し、
前記第１特徴ベクトル、前記第１言語文章、及び前記第２特徴ベクトルに対応する前記第２言語文章及び前記最終第２言語文章のうちいずれか１つ又はその組合せを前記データベースに格納する、請求項１２乃至２３のいずれか一項に記載の自動通訳装置。
第１言語からなる第１言語文章を翻訳符号化して第２言語に対する特徴ベクトルを生成し、前記特徴ベクトルを復号化して第２言語からなる第２言語文章を生成する翻訳機と、
１つ以上の近似ＮＮ（ａｐｐｒｏｘｉｍａｔｅＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ）アルゴリズムを用いて、データベースに格納された複数の要素から、前記特徴ベクトル及び前記第２言語文章のうちいずれか１つに類似する要素を検索することにより、候補文章を取得し、取得した前記候補文章を候補文章リストに追加し、前記候補文章リストから前記第１言語文章の翻訳として最終第２言語文章を選択するプロセッサと、
を含む、自動通訳システム。
前記第１言語からなる音声信号を認識符号化して生成された第１特徴ベクトルを復号化することによって前記第１言語文章を生成する音声認識器をさらに含む、請求項２５に記載の自動通訳システム。
データベースを含むメモリをさらに含み、
前記プロセッサは、前記データベースから、前記特徴ベクトルに類似すると決定された第２言語特徴ベクトルにマッチングされた第１翻訳結果、前記データベースから前記第２言語文章に類似すると決定された文章にマッチングされた第２翻訳結果のうちいずれか１つ又はその組合せを取得する、請求項２５又は２６に記載の自動通訳システム。
前記プロセッサは、前記第１翻訳結果及び前記第２翻訳結果のうちいずれか１つに対応する任意の以前の翻訳文章を前記候補文章リストに追加し、前記第２言語文章を前記候補文章リストに追加する、請求項２７に記載の自動通訳システム。
前記翻訳機は、前記特徴ベクトルに基づいて前記候補文章リストに含まれた候補文章のスコアを算出し、
前記プロセッサは、前記候補文章リストから前記算出されたスコアのうち最大値を有する候補文章が前記最終第２言語文章になるよう選択する、請求項２５乃至２８のいずれか一項に記載の自動通訳システム。
前記プロセッサは、前記第１言語文章を複数のサブワードに分割し、機械翻訳のためのエンコーダに前記複数のサブワードを指示する入力ベクトルそれぞれを順次入力し、前記順次入力された入力ベクトルに対して前記特徴ベクトルが前記エンコーダからの出力されるように決定する、請求項２５乃至２９のいずれか一項に記載の自動通訳システム。
前記プロセッサは、前記特徴ベクトルを機械翻訳のためのデコーダに入力し、前記デコーダから順次出力されるサブワードの確率に基づいて予め決定された数の文章シーケンスを生成し、前記予め決定された数の文章シーケンスのうちスコアが最も高い文章シーケンスを前記第２言語文章として選択する、請求項２５乃至３０のいずれか一項に記載の自動通訳システム。
前記プロセッサは、前記データベースに格納された前記第１言語文章と共に前記特徴ベクトルを前記データベースに格納し、
前記第１言語文章及び前記特徴ベクトルに対応する前記第２言語文章と前記最終第２言語文章のうちいずれか１つ又はその組合せを前記データベースに格納する、請求項２７に記載の自動通訳システム。
入力された音声信号の音声認識を行い、前記音声認識の認識結果に対する初期翻訳を行って、前記入力された音声信号の最終翻訳を決定するために前記初期翻訳の結果と選択された以前の翻訳の以前の結果とを比較する１つ以上のプロセッサを含み、
前記比較は、
前記選択された以前の翻訳を、１つ以上の近似ＮＮ（ａｐｐｒｏｘｉｍａｔｅＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ）アルゴリズムを用いて、データベースに記録された複数の以前の翻訳から識別するための、前記音声認識から誘導された１つ以上の情報と前記初期翻訳から誘導された情報のうちの１つ以上の情報と前記データベースに格納された前記複数の以前の翻訳の結果に関する情報との間の比較を含む、自動通訳システム。
前記比較は、前記選択された以前の翻訳を識別するための、前記音声認識で誘導された第１特徴ベクトル、前記音声認識で誘導された第１言語文章、前記初期翻訳で誘導された第２特徴ベクトル、及び前記初期翻訳で誘導された第２言語文章のうちの１つ以上の情報と前記データベースに格納された情報との間の比較を含む、請求項３３に記載の自動通訳システム。
前記１つ以上のプロセッサは同じモバイル装置に含まれる、請求項３３又は３４に記載の自動通訳システム。