JP2018026127A - 翻訳方法、翻訳装置及びコンピュータプログラム - Google Patents

翻訳方法、翻訳装置及びコンピュータプログラム Download PDF

Info

Publication number
JP2018026127A
JP2018026127A JP2017148956A JP2017148956A JP2018026127A JP 2018026127 A JP2018026127 A JP 2018026127A JP 2017148956 A JP2017148956 A JP 2017148956A JP 2017148956 A JP2017148956 A JP 2017148956A JP 2018026127 A JP2018026127 A JP 2018026127A
Authority
JP
Japan
Prior art keywords
translation
sentence
language
candidate
different
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017148956A
Other languages
English (en)
Other versions
JP7066349B2 (ja
Inventor
昊 潼 李
Ho Dong Lee
昊 潼 李
永 起 朴
Young Ki Park
永 起 朴
輝 棟 羅
Hwi Dong Na
輝 棟 羅
▲みん▼ 暎 文
Min-Young Mun
▲みん▼ 暎 文
仁 哲 宋
In Chul Song
仁 哲 宋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2018026127A publication Critical patent/JP2018026127A/ja
Application granted granted Critical
Publication of JP7066349B2 publication Critical patent/JP7066349B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Neurology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

【課題】神経網に基づいた自動翻訳において、多様性な候補文章を抽出する所要時間を短縮できる翻訳方法、装置、およびプログラムを提供する。
【解決手段】翻訳方法、装置、およびプログラムは、1つ以上のプロセッサを用いて、第1言語のソース文章に対して並列に複数の異なる翻訳過程を行う。特徴ベクトルそれぞれを生成するために、前記複数の翻訳過程のうち二以上の各翻訳過程で前記ソース文章を符号化する、又は、前記複数の各翻訳過程で前記ソース文章及び前記ソース文章の変形を符号化するステップと、第2言語の複数の候補文章それぞれを生成するために前記特徴ベクトルそれぞれを復号化するステップと、前記第2言語の複数の候補文章それぞれから前記第2言語の最終文章を選択するステップとを含む。
【選択図】図2

Description

以下の実施形態は並列処理に基づいた翻訳方法及び装置等に関する。
情報通信技術及びインターネットの発達に伴って人は様々な言語で作られたコンテンツの提供を受けるようになった。特に、グローバルビジネス化によって様々な言語を用いるユーザ間のコミュニケーション及びコンテンツ翻訳などのための翻訳技術が急速に発展している。
現在の翻訳ハードウェア及び翻訳技術は、ユーザが異なる言語を使用する場合、より正確なコミュニケーション及び正確な意味伝達のために翻訳に多くの時間及び処理過程が求められる不便さが存在する。
一側面によれば、神経網に基づいた自動翻訳装置でGPUを並列的に数個を用いてm−ベスト(m<n)の候補文章を抽出することによってn−ベストの候補文章を抽出するために要する時間を短縮することが、求められている。
一側面によれば、並列GPUに入力されるソース文章でも、並列GPUのエンコーダ/デコーダを変形することによって候補文章の多様性を確保することが、求められている。
一側面によれば、翻訳方法は、1つ以上のプロセッサを用いて、第1言語のソース文章に対して並列に複数の異なる翻訳過程を行うステップを含み、前記行うステップは、特徴ベクトルそれぞれを生成するために、前記複数の翻訳過程のうち二以上の各翻訳過程で前記ソース文章を符号化する、又は、前記複数の各翻訳過程で前記ソース文章及び前記ソース文章の変形を符号化するステップと、第2言語の複数の候補文章それぞれを生成するために前記特徴ベクトルそれぞれを復号化するステップと、前記第2言語の複数の候補文章それぞれから前記第2言語の最終文章を選択するステップとを含む。
前記複数の異なる翻訳過程は、異なるグラフィックプロセッサユニット(GPUs)によって実現され、前記グラフィックプロセッサユニットそれぞれは翻訳エンコーダ及び翻訳デコーダを含み、前記異なる翻訳過程を行うために前記ソース文章は、前記グラフィックプロセッサユニットのうち少なくとも2つのグラフィックプロセッサユニット又は少なくとも1つのグラフィックプロセッサユニットに入力され、前記ソース文章の変形は、異なる少なくとも1つのグラフィックプロセッサユニットに入力され得る。
前記複数の異なる翻訳過程は、翻訳システムの前記1つ以上のプロセッサによって実現され、前記1つ以上のプロセッサそれぞれは、前記翻訳システムの複数のエンコーダのうちの1つ以上の翻訳エンコーダを含み、前記翻訳システムの複数のデコーダのうちの1つ以上の翻訳デコーダを含み、前記翻訳方法は、前記ソース文章を前記複数のエンコーダのうち少なくとも2つのエンコーダに並列に入力するステップをさらに含み得る。
前記ソース文章の変形を前記複数のエンコーダのうち少なくとも1つのエンコーダに入力するステップと、前記複数の異なる翻訳過程を行うために前記複数のデコーダのうち少なくとも1つのデコーダを変形するステップとをさらに含み得る。
前記翻訳方法は、前記第1言語に関する情報に基づいて前記ソース文章の単語順序を変更することによって前記ソース文章の変形を生成するステップと、前記第1言語に関する情報に基づいて前記ソース文章に含まれた単語を同義語に交替するステップと、前記複数のエンコーダのうち前記少なくとも1つのエンコーダに前記ソース文章の変形を入力するステップとをさらに含み得る。
前記翻訳方法は、前記少なくとも1つのエンコーダそれぞれに適用される対応する活性関数又は対応するパラメータ値それぞれに対応してノイズをそれぞれ適用することで、前記複数のエンコーダのうち前記少なくとも1つのエンコーダの変更を行うステップと、前記少なくとも1つのデコーダそれぞれに適用される対応する活性関数又は対応するパラメータ値それぞれに対応してノイズをそれぞれ適用することで、前記複数のデコーダのうち前記少なくとも1つのデコーダの変更を行うステップとをさらに含み得る。
前記翻訳方法は、前記複数の異なる翻訳過程を行うために、前記1つ以上のプロセッサのうち少なくとも1つでエンコーダを変更又は変化させるステップと、
前記1つ以上のプロセッサのうち少なくとも1つでデコーダを変更又は変化させるステップとをさらに含み得る。
前記翻訳方法は、前記エンコーダを、前記エンコーダの学習に用いられた学習初期値、学習セット、及び学習順序と異なる学習初期値、学習セット、及び学習順序のうち少なくとも1つによって学習された異なるエンコーダと交替することによって前記エンコーダの変更又は変化を行うステップと、前記デコーダを、前記デコーダの学習に用いられた学習初期値、学習セット、及び学習順序と異なる学習初期値、学習セット、及び学習順序のうち少なくとも1つによって学習された異なるデコーダと交替することによって前記デコーダの変更又は変化を行うステップとのうち少なくとも1つをさらに含み得る。
前記候補文章それぞれの生成は、ビームサーチアルゴリズムそれぞれを用いて各翻訳過程で予め設定された個数の候補文章を生成することを含み得る。
前記ビームサーチアルゴリズムそれぞれは、n−ベストビームサーチアルゴリズムよりも低い複雑度を有するm−ベストビームサーチアルゴリズムであり得る(n>m)。
前記第2言語の最終文章を選択するステップは、前記第2言語の複数の候補文章それぞれのスコアを算出するステップと、前記第2言語の複数の候補文章のうち最も高いスコアを有する1つの候補文章を前記第2言語の前記最終文章として選択するステップとを含み得る。
前記第2言語の複数の候補文章それぞれのスコアを算出するステップは、前記各翻訳過程から前記第2言語の1つの候補文章のスコアそれぞれを算出するステップを含み得る。
前記第2言語の前記最終文章を選択するステップは、リスコアリングモデルそれぞれを用いて前記各翻訳過程で前記第2言語に対応する候補文章それぞれに対応するスコアを算出するステップと、1つ以上の対応する候補文章それぞれに対応するスコアの統計値を用いて、前記各翻訳過程から前記1つ以上の対応する候補文章に対応するスコアを再算出するステップと、前記第2言語の最終文章として、前記再算出されたスコアのうち最も高いスコアを有する対応する1つ以上の候補文章のうちの1つを選択するステップとを含み得る。
一実施形態によると、翻訳装置は、第1言語のソース文章に対して並列に複数の異なる翻訳過程(前記異なる翻訳過程は特徴ベクトルそれぞれを生成するために、前記複数の翻訳過程のうち二以上の各翻訳過程で前記ソース文章を符号化する、又は、前記複数の各翻訳過程で前記ソース文章及び前記ソース文章の変形を符号化し、第2言語の複数の候補文章それぞれを生成するために前記特徴ベクトルそれぞれを復号化することを含む)を行うために構成される、1つ以上のプロセッサのうち少なくとも1つのプロセッサと、前記第2言語の複数の候補文章それぞれから前記第2言語の最終文章を選択するように構成された、前記1つ以上のプロセッサのうち出力プロセッサとを含む。
前記少なくとも1つのプロセッサは、前記ソース文章に対応する符号化を行って特徴ベクトルを生成する少なくとも1つのエンコーダ、及び前記特徴ベクトルに対応する復号化を行って前記ソース文章に対して前記第2言語の複数の候補文章を生成する少なくとも1つのデコーダを含み得る。
前記翻訳装置は、複数の異なる各翻訳過程を行うための異なるグラフィックプロセッサユニット(GPUs)を含み、前記グラフィックプロセッサユニットそれぞれは翻訳エンコーダ及び翻訳デコーダを含み、前記翻訳装置は、前記異なる翻訳過程を行うために前記ソース文章を少なくとも2つのグラフィックプロセッサユニット又は少なくとも1つのグラフィックプロセッサユニットに入力し、前記ソース文章の変化を異なる少なくとも1つのグラフィックプロセッサユニットに入力し得る。
前記複数の異なる翻訳過程は、翻訳システムの前記1つ以上のプロセッサのうち前記少なくとも1つのプロセッサによって実現され、前記少なくとも1つのプロセッサは、前記翻訳システムの複数のエンコーダのうちの1つ以上の翻訳エンコーダ及び前記翻訳システムの複数のデコーダのうちの1つ以上の翻訳デコーダを含み、前記翻訳装置は、前記ソース文章を前記複数のエンコーダのうち少なくとも2つのエンコーダに並列に入力し得る。
前記出力プロセッサは、前記複数のエンコーダのうち少なくとも1つのエンコーダの変化を実現するために前記ソース文章の変化を生成し、前記翻訳過程のうち少なくとも1つで前記ソース文章の生成された変化に対する符号化を実現できるように構成され、前記複数の異なる翻訳過程を実行するために、前記複数のデコーダのうち少なくとも1つのデコーダの変化を実現できるように構成され得る。
前記1つ以上のプロセッサのうち1つのプロセッサは、前記複数のエンコーダのうち少なくとも1つのエンコーダの変化を実現するために前記ソース文章の変化を生成し、前記翻訳過程のうち少なくとも1つで前記ソース文章の前記生成された変化に対する符号化を実現できるように構成され、前記複数の異なる翻訳過程の実行のために、前記複数のデコーダのうち少なくとも1つのデコーダの変化を実現できるように構成され得る。
前記1つのプロセッサは、前記ソース文章の変化を生成し、前記翻訳過程のうち少なくとも1つで前記ソース文章の生成された変化を符号化するように構成され、前記ソース文章の変化を生成するために、前記1つのプロセッサは、前記第1言語に関する情報に基づいて前記ソース文章のワード順序を変更する動作、及び前記第1言語に関する情報に基づいて前記ソース文章に含まれたワードを同義語に交替する動作のうち少なくとも1つを行うように構成され得る。
前記1つのプロセッサは、前記複数のエンコーダのうち少なくとも1つのエンコーダの変化を実現し、前記複数のデコーダのうち少なくとも1つのデコーダの変化を実現するために、前記少なくとも1つのエンコーダそれぞれに適用される対応する活性関数又は対応するパラメータ値それぞれに対応してノイズをそれぞれ適用することで、前記複数のエンコーダのうち少なくとも1つのエンコーダを変更する動作と、前記少なくとも1つのデコーダそれぞれに適用される対応する活性関数又は対応するパラメータ値それぞれに対応してノイズをそれぞれ適用することで、前記複数のデコーダのうち少なくとも1つのデコーダを変更する動作のうち少なくとも1つを対応して行うように構成され得る。
前記複数の異なる翻訳過程は、前記1つ以上のプロセッサのうち複数の翻訳プロセッサによって実現され、前記複数の翻訳プロセッサそれぞれは翻訳エンコーダ及び翻訳デコーダを含み、前記異なる翻訳過程を実現するために、前記1つ以上のプロセッサのうち1つのプロセッサは、前記1つの翻訳エンコーダを、前記少なくとも1つの翻訳エンコーダの学習に用いられた学習初期値、学習セット、及び学習順序と異なる学習初期値、学習セット、及び学習順序によって学習された異なるエンコーダと交替することで、前記複数の翻訳プロセッサの翻訳エンコーダのうち1つの翻訳エンコーダの変更又は変化を実現できるように構成され、前記1つの翻訳デコーダを、前記少なくとも1つの翻訳デコーダの学習に用いられた学習初期値、学習セット、及び学習順序と異なる学習初期値、学習セット、及び学習順序によって学習された異なるデコーダと交替することで、前記複数の翻訳プロセッサの翻訳デコーダのうち1つの翻訳デコーダの変更又は変化を実現できるように構成され得る。
前記複数の候補文章それぞれの生成は、ビームサーチアルゴリズムそれぞれを用いて各翻訳過程で予め設定された個数の候補文章の生成を含み得る。
前記ビームサーチアルゴリズムそれぞれは、n−ベストビームサーチアルゴリズムよりも低い複雑度を有するm−ベストビーム探索アルゴリズムであり得る(n>m)。
前記出力プロセッサは、前記第2言語の複数の候補文章のスコアそれぞれを算出し、前記第2言語の複数の候補文章のうち最も高いスコアを有する1つの候補文章を前記第2言語の前記最終文章として選択し得る。
前記出力プロセッサは、前記第2言語の複数の候補文章のスコアそれぞれを算出するために、前記各翻訳過程から前記第2言語の1つの候補文章のスコアそれぞれを算出し得る。
前記第2言語の前記最終文章を選択するために、前記出力プロセッサは、リスコアリングモデルそれぞれを用いて前記各翻訳過程で前記第2言語に対応する候補文章それぞれに対応するスコアを算出し、1つ以上の対応する候補文章それぞれに対応するスコアの統計値を用いて、前記各翻訳過程から前記1つ以上の対応する候補文章に対応するスコアを再算出し、前記第2言語の最終文章として、前記再算出されたスコアのうち最も高い値を有する対応する1つ以上の候補文章のうちの1つを選択するように構成され得る。
前記翻訳装置は、前記翻訳装置の複数のメモリのうちの1つ以上のメモリをさらに含み、前記1つ以上のメモリは、前記異なる翻訳過程からの結果それぞれ及び前記複数の候補文章それぞれから複数の候補文章それぞれを格納し、又は、候補文章を選択し得る。
前記複数のメモリのうち少なくとも1つのメモリをさらに含み、前記少なくとも1つのメモリは、1つ以上のプロセッサによって実行される場合、前記1つ以上のプロセッサが前記複数の異なる翻訳過程及び前記最終文章の選択を行うように構成される命令を格納する非一時的コンピュータで読み出し可能な記録媒体であり得る。
前記複数の異なる翻訳過程を行うように構成された前記少なくとも1つのプロセッサと前記最終文章を選択するように構成された前記出力プロセッサは、前記1つ以上のプロセッサのうち同一のプロセッサであり得る。
一実施形態によると、翻訳方法は、ソース文章に対して複数の異なる翻訳過程を並列に行うステップ(前記複数の異なる翻訳過程は、対応する翻訳符号化過程、対応する翻訳復号化過程、及び前記対応する符号化過程が前記ソース文章又は前記ソース文章の変形を符号化するか否かのうちの1つ以上に対して互いに異なる)と、前記複数の異なる翻訳過程からの結果それぞれから決定された最も高い順位の候補文章に基づいて前記ソース文章の翻訳結果を出力するステップとを含む。
前記複数の異なる翻訳過程のうち少なくとも1つの翻訳復号化過程は、候補文章を決定するためにm−ベストビームサーチアルゴリズムを実現し、前記m−ベストビームサーチアルゴリズムは、n−ベストビームサーチアルゴリズムに比べて複雑度が低いビームサーチアルゴリズムであり、n>mであり得る。
一実施形態によると、翻訳方法は、ソース文章に対する第1符号化及び第1復号化、前記ソース文章に対する異なる符号化、及び/又は前記ソース文章に対する異なる復号化、前記ソース文章の1つ以上の変化に対する第1符号化及び第1復号化、及び/又は前記ソース文章の1つ以上の変化に対する異なる符号化及び/又は復号化を含む、前記ソース文章に対する複数の翻訳過程を並列に行うステップ(前記複数の各翻訳過程は、前記各翻訳過程から候補リストを生成するために翻訳符号化過程及び翻訳復号化過程のそれぞれを含む)と、前記候補リストそれぞれから候補文章の順位を決定するステップと、前記順位に基づいて決定された最も高い順位の候補文章に基づいて前記ソース文章の翻訳結果を出力するステップとを含み、前記翻訳復号化過程それぞれは、前記複数の各翻訳過程のための前記候補リストを生成するためにn−ベストビームサーチアルゴリズムを実現し得る。
一実施形態によると、翻訳方法は、ソース文章に対する第1符号化及び第1復号化、前記ソース文章に対する異なる符号化、及び/又は前記ソース文章に対する異なる復号化、前記ソース文章の1つ以上の変化に対する第1符号化及び第1復号化、及び/又は前記ソース文章の1つ以上の変化に対する異なる符号化及び/又は復号化を含む、前記ソース文章に対する複数の翻訳過程を並列に行うステップ(前記複数の各翻訳過程は前記各翻訳過程から候補リストを生成するために、翻訳符号化過程及び翻訳復号化過程それぞれを含む)と、前記候補リストそれぞれから候補文章を順位を決定するステップと、前記順位に基づいて決定された最も高い順位の候補文章に基づいて前記ソース文章の翻訳結果を出力するステップとを含み、前記1つ以上の翻訳復号化過程は、対応する候補リストを生成するためにn−ベストビームサーチアルゴリズムに比べて低い複雑度を有するビームサーチアルゴリズムであるm−ベストビームサーチアルゴリズムを実現し、n>mであり得る。
前記候補文章の順位を決定するステップは、前記候補リストそれぞれにリスコアリングモデルそれぞれを適用するステップを含み、前記最も高い順位の候補文章を発見するために、前記適用されたリスコアリングモデルそれぞれからの結果それぞれに基づいて、全ての候補文章よりも少ない数の候補文章に対する候補リストそれぞれが選択的に順位が再設定され得る。
前記1つ以上の翻訳復号化過程は、対応する候補リストを生成するために前記n−ベストビームサーチアルゴリズムを選択的に実現し得る。
一側面によると、神経網に基づいた自動翻訳装置でGPUを並列的に数個を用いてm−ベスト(m<n)の候補文章を抽出することによってn−ベストの候補文章を抽出するために所要する時間を短縮することができる。
一側面によると、並列GPUに入力されるソース文章でも、並列GPUのエンコーダ/デコーダを変形することによって候補文章の多様性を確保することができる。
一実施形態に係る自動翻訳装置の構成を説明するための図である。 一実施形態に係る翻訳方法を示したフローチャートである。 他の実施形態に係る翻訳方法を示したフローチャートである。 一実施形態によりも少なくとも1つの翻訳プロセッサに入力されるソース文章を変形する方法を説明するための図である。 一実施形態により候補文章のスコアを算出し、第2言語の最終文章を選択する方法を示したフローチャートである。 一実施形態により第2言語の候補文章に対するスコアを算定し、第2言語の最終文章を選択する方法を示したフローチャートである。 一実施形態に係る翻訳プロセッサの構成及び動作を説明するための図である。 一実施形態に係る翻訳エンコーダを構成する神経網の構造及び動作を説明するための図である。 一実施形態に係る翻訳デコーダを構成する神経網の構造及び動作を説明するための図である。 一実施形態に係る神経網を構成するリカレント神経網を説明するための図である。 一実施形態に係る自動翻訳装置のブロック図である。 実施形態に係る自動通訳装置のブロック図である。 実施形態に係る自動通訳装置のブロック図である。
本明細書で開示されている特定の構造的又は機能的な説明は単に実施形態を説明するための目的として例示されたものであり、実施形態は様々な異なる形態で実施され、本明細書に説明された実施形態に限定されることはない。
第1又は第2などの用語を複数の構成要素を説明するために用いることができるが、このような用語は1つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第1構成要素は第2構成要素と命名することができ、同様に第2構成要素は第1構成要素にも命名することができる。
いずれかの構成要素が他の構成要素に「連結されて」いると言及された場合、その次の構成要素に直接的に連結されてもよく、又は中間に他の構成要素が存在することもあり得ると理解されなければならない。一方いずれかの構成要素が他の構成要素に「直接連結されて」いるか「直接接続されて」いと言及される場合には、中間に他の構成要素が存在しないものとして理解されなければならない。構成要素間の関係を説明する表現、例えば「〜間に」と「すぐ〜の間に」、又は「〜に隣接する」と「〜に直接に隣接する」などのように解釈されなければならない。
本明細書で用いた用語は、単に特定の実施形態を説明するために用いられるものであって、本発明を限定しようとする意図はない。単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。
異なる定義さがれない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
下記で説明される実施形態は、自動車、テレビ、携帯電話機、その他の電子装置などに搭載されて迅速かつ正確な翻訳を提供するために用いられる。実施形態は、パーソナルコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、スマート家電機器、及びウェアラブルデバイスなどの様々な形態の製品で実現する。例えば、実施形態は、スマートフォン、モバイル機器、スマートホームシステム、及びウェアラブルデバイスの1つ以上のプロセッサで実行され得る通訳アプリ、命令、又は、ソフトウェアなどを含む非一時的なコンピュータで読み出し可能な記録媒体を含む。実施形態は、グローバルコンファレンシングハードウェア(global conferencing hardware)を含み、相手側と画像会議の字幕又はキャプションのようなオーディオ及び/又はビデオ会議の翻訳された写本を提供するよう構成され、対応する方法又は同じ方法を実現可能のように構成された非一時的なコンピュータで読み出し可能な記録媒体を含む。また、実施形態は、運転者と異なる言語を使用している乗客間のコミュニケーションのために個人車両、バス、タクシー、対応する大衆交通などの通訳サービスを提供し、案内又は公開聴覚の陳述を提供する。以下、実施形態を添付する図面を参照しながら詳細に説明する。各図面に提示された同一の参照符号は同一の部材を示す。
図1は、一実施形態に係る自動翻訳装置の構成を説明するための図である。図1を参照すると、自動翻訳装置100は、ユーザが話す第1言語を第2言語に自動翻訳する。自動翻訳装置100は、エージェント105、翻訳機110、リスコアリングモデル150、及びプロセッサ170を含む。一実施形態に係る自動翻訳装置100は、複数の翻訳プロセッサ111〜119を含む。
一実施形態によれば、翻訳装置100は、音声認識器及びディープラニングに基づく機械翻訳機のような機械翻訳機を含む。音声認識器はユーザの音声を「江南駅までの道を教えて」のような第1言語の文章に変換する。機械翻訳機は、第1言語の文章を第2言語の文章に変換する。第1言語と第2言語は互いに異なる言語である。
図1において、翻訳機110、リスコアリングモデル150、及びプロセッサ170は機械翻訳機に対応し、エージェント105は音声認識器及び自動翻訳の過程を制御するように構成されたコントローラを含む。コントローラは、翻訳装置又は翻訳装置の外部に構成してもよい。
エージェント105は知能型チャットエージェントであり、ユーザとエージェントとの間の知能型相互作用又は音声認識を行う処理装置ハードウェアのような音声情報の認識及び理解動作を行うコンピュータ又は処理装置ハードウェアであり得る。
エージェント105は、エージェント105による認識結果及び/又はプロセッサ170による翻訳結果の出力を制御する。
実行された認識は、例えば、音声学又は発音のための音響モデル及び単語及び構文の連結性のための言語モデルのいずれか1つ又はその組合せのようにデジタル化された音声に対する様々な音声認識方法を含む。
デジタル化された音声は、入力音声をオーディオフレームで分析するエージェント105のパーサー及びアナログ−デジタルコンバータ(ADC)によって導き出すことができる。エージェント105のパーサー及びアナログ−デジタルコンバータ(ADC)は、例示的な音響及び/又は言語モデルのいずれか1つ又は2つの全てに提供されてもよく、このようなモデルに対する参照は単なる一例にすぎず、実施形態がこれに限定されることはない。
入力された可聴音声に対する、より多いか又は最も可能性のある認識を示すモデルに加えて、前記モデルはそれぞれ潜在的な音声又は単語認識それぞれに対する確率又はスコアを示す。
デコーダは、エージェント105において、例えば、例示的な音響及び/又は言語モデル(及び/又は他のモデル)のいずれか1つ又は両方が用いられる場合のように、可聴音声の最終認識を決定するための認識モデルの結果を相関させるために使用されてもよい。
一例として、エージェント105及び翻訳機110、リスコアリングモデル150、及び/又は、プロセッサ170はそれぞれ又は集合的に1つ以上の命令又はソフトウェアを含む非一時的コンピュータで読み出し可能な記録媒体、1つの以上のハードウェア構成要素、又は、その組合せによって実現され得る。
ユーザは、第1言語で表現された音声信号を第2言語に翻訳することを翻訳装置100にリクエストする。一例として、音声信号は第1言語の音声信号であってもよい。
ユーザは、認識及び/又は翻訳、認識、及び翻訳又は翻訳動作のみをリクエストするために翻訳装置100のユーザインターフェースと相互作用する。又は、翻訳装置100は、例えば、下部装置のバックグラウンドで自動的又は連続的に動作する。又は、ユーザは、ユーザインターフェースリクエスト及び自動の実現のいずれか1つ又は両方を選択的に実現し得る。
翻訳装置100に音声信号が入力されれば、エージェント105は音声信号を認識し、例えば、図1に示された「江南駅までの道を教えて」のように第1言語の第1言語文章を生成又は出力する。
上述したように、エージェント105は、可聴音声をデジタル信号に変換するためのハードウェアを含む。エージェント105は、例えば、1つ以上のマイクロホン、アナログ−デジタルコンバータ(ADC)、及びパーサーを含み、又は、その一部あるいは組合せを含んでもよい。1つ以上のマイクロホン、アナログ−デジタルコンバータ(ADC)、及びパーサーは翻訳装置100の外部に存在するか、又は、翻訳装置100内に含まれてもよい。
エージェント105は、エージェント105の例示的な認識モデルのうちの1つ以上に対応するオーディオフレームを提供し、認識モデルの結果を第1言語の文章に復号化することにより音声信号を認識できる。文章は、例えば、テキストタイプのデータで最終化される。
一例として、認識モデルは、それぞれの学習された神経網であり得る。
翻訳装置100は、翻訳機110の複数のプロセッサを用いて認識された文章をそれぞれ翻訳する処理を開始するよう翻訳機110にリクエストする。
したがって、リスコアリングモデル150による各リスコアリング後に生成された第2言語の翻訳結果のそれぞれは、例えば、最終順位のためにプロセッサ170に提供される。
例えば、第1言語として発音された文章の最終翻訳の代表のように、プロセッサ170によって実行された順位の結果は、代替又は追加処理の動作のために伝達されるようエージェント105に再び提供される。
並列翻訳プロセッサ110は、複数の翻訳プロセッサ111、113、115、117、及び119を含む。1つ又は1つ以上、或いは全てのプロセッサは同時に、例えば、並列に動作してもよい。
翻訳プロセッサ111、113、115、117、及び119は、1つ以上のGPU(Graphic Processing Units)のそれぞれであるか、又は1つ以上のGPUの並列プロセッサであり得る。ここで、そのようなGPU例のそれぞれが提供されたが、追加的及び/又は代替的なプロセッサの実現が可能であるため、実施形態がこれに限定されることはない。
また、そのようなGPU又はプロセッサの例が提示されているが、1つ以上又は全ての翻訳動作それぞれは各翻訳過程を実現するための1つ以上のプロセッサを制御するために非一時的なコンピュータで読み出し可能コード又は揮発性又は不揮発性メモリ又は他の媒体のような非一時的なコンピュータで読み出し可能な記録媒体内又は命令によって実現され得る。
例えば、図1は、個別的なGPU1〜GPU5を示す。GPUs1−3の翻訳動作はこのような実現された非一時的コンピュータで読み出し可能なコードによって実現され、第1GPUの1つの以上のプロセッサを制御し、GPUs4−5の翻訳動作はこのような実現されたコンピュータコードによって実現され、他の1つの以上の第2GPUを制御し、又はGPUs1−5の全ての翻訳動作はこのような実現された非一時的コンピュータで読み出し可能なコードにより同じGPU又はプロセッサを用いて実現され得る。
他の実施形態として、翻訳装置100は、例えば、マスタ−スレーブ又はクライアント−サーバ関係のように外部サーバ又はプロセッサにより前記各翻訳動作の1つ以上又は全ての外部の実現を開示又は制御する通信ハードウェア、又は送受信ハードウェア及びコントローラ、CPUをさらに含む、又は、図1で利用されたGPUのいずれか1つを含んでもよく、外部で委託された翻訳動作の結果が利用可能であるか、受信する。例えば、そのような通信又は送受信ハードウェア装置により、翻訳装置100を介して処理されてプロセッサ170に提供される。
並列翻訳プロセッサ110に含まれたいずれか1つの翻訳プロセッサの構成及び動作については、図7を参照して具体的に説明することにする。
各翻訳プロセッサ111、113、115、117、及び119は、第1言語のソース文章を符号化して特徴ベクトルを生成するエンコーダ及び特徴ベクトルを復号化して第2言語の候補文章を生成するデコーダを含む。エンコーダ及びデコーダは(人工)神経網(Neural Network)から構成され、予め学習されたものであり得る。
各翻訳プロセッサ111〜119、エンコーダ及びデコーダの処理結果、神経網又は人工神経網を格納するキャッシュのような1つ以上のメモリを示す。
神経網又は神経網は、図11〜図12Bに示すように、翻訳装置100の通信又は送受信ハードウェアにより学習及び/又は向上され、又は更新され得る。
エンコーダ及びデコーダを構成している神経網の構造については、図8〜図10を参照して以下でより具体的に説明する。
翻訳の開始前に、自動翻訳装置100は、第1言語のソース文章(例えば、「江南駅までの道を教えて」)を各翻訳プロセッサ111、113、115、117、及び119に並列的に入力(複写)する。
ソース文章は、例えば、同時に又は特定シーケンスにより、同時に翻訳プロセッサ111〜119に提供される。例えば、特定シーケンスは、翻訳プロセッサ111〜119の予想される処理時間それぞれに基づいて設計され、その結果、それぞれがほとんど又は同時にプロセッサ170に提供され、利用可能になる。
各翻訳プロセッサ111、113、115、117、及び119に含まれたエンコーダは、入力されたソース文章を特徴ベクトル、言い換えれば、抽象化された文章情報それぞれの形態に変換する。抽象化された文章情報は、例えば、入力ソース文章に関するか、又は入力ソース文章から分離又は抽出された音素、形態素、構文、文章及び/又は文脈情報を含む。エンコーダから特徴ベクトルを受信したデコーダは、翻訳結果による最終出力から第2言語の候補文章を生成する。ここで、デコーダは、ビームサーチアルゴリズムを用いてm個の第2言語の候補文章を含むm−ベストリストを生成する。以下、mをビームサーチアルゴリズムの複雑度という。
一般的又は通常のn−ベストビームサーチアルゴリズムにより生成される候補文章の個数をn個と仮定すれば、例えば、集合内のn個の全てのワードシーケンス又は指定されたビームが発見される。1つ以上の実施形態によれば、デコーダで生成されたm−ベストビームサーチアルゴリズムで実施形態によるmはnよりも小さい数であり、特定ビーム内の可能な全ての結果よりも少ない結果がn−ベストビームサーチアルゴリズムの結果に伝達される。
通常のn−ベストビームサーチアルゴリズムの複雑度nよりも小さい複雑度mを有するビームサーチアルゴリズムを用いることで、実施形態に係る各翻訳プロセッサ111、113、115、117、及び119に含まれたデコーダの演算複雑度は減少し得る。
しかし、n−ベストビームサーチアルゴリズムを実現するデコーダに比べて、デコーダの動作複雑度は減少するものの、このようなm−ベストビームサーチアルゴリズムの復号化性能は、n−ベストビームサーチアルゴリズムの復号化性能よりも落ち、したがって、1つ以上の実施形態で並列に動作する複数の翻訳プロセッサは、m−ベストビームサーチアルゴリズムが実現される場合に、復号化性能におけるこのような性能減少を最小化するために使用される。
例えば、翻訳プロセッサ111〜119に示された複数のGPUそれぞれを用いた並列処理は、一例によるn−ベストビームサーチアルゴリズムを行う一般的な単一翻訳プロセッサの性能と十分に類似するか、あるいはほとんど同じ性能を補正するために役に立つ一方、典型的なn−ベストビームサーチアルゴリズムを行う単一翻訳プロセッサのように、ソース文章の全体の翻訳速度を実際に潜在的に向上させることができる。
実施形態は、並列的に駆動される複数の翻訳プロセッサを活用することで復号化性能の減少を最小化する。したがって、実施形態は、各翻訳プロセッサ111、113、115、117、及び119を構成している複数のGPUを用いた並列処理により、一般的な単一翻訳機と実質的に同じ性能を保障しながらも、翻訳速度を向上させることができる。
他の実施形態によれば、複数のGPUを用いた並列処理によって一般的な単一翻訳機と実質的に同じ速度を保障しながらも翻訳性能を向上させ得る。例えば、各翻訳プロセッサ111、113、115、117、及び119に含まれたデコーダでビームサーチアルゴリズム(例えば、n−ベストビームサーチアルゴリズム)の複雑度でnに保持する場合、翻訳速度は向上しないものの、並列処理による候補群増加によってn−ベストビームサーチアルゴリズムを行う単一翻訳プロセッサに比べて翻訳性能は向上する。更なる実施形態によれば、各翻訳プロセッサ111、113、115、117、及び119に含まれたデコーダで用いられるビームサーチアルゴリズムの複雑度と翻訳プロセッサ111、113、115、117、及び119の数を調整又は選択し、所望する翻訳の速度及び翻訳性能を有する翻訳機を実現することができる。したがって、ソース/第1言語文章、翻訳符号化動作、翻訳復号化動作及び/又はm−ベスト又はn−ベストビームサーチアルゴリズム(又は、他のサーチアルゴリズム)が実現されるか否かの多様化された又は変化した側面に基づいて、同じ翻訳プロセッサのうち任意のものをどのように相違に実現するか、又は翻訳プロセッサ111〜119のうちのいずれかを実現するかを決定する。
一例として、選択される1つ以上の翻訳プロセッサ111〜119は、n−ベストビームサーチアルゴリズムを実現する一方、残りの翻訳プロセッサは一例によるm−ベストビームサーチアルゴリズムを実現してもよい。したがって、翻訳装置100がm−ベストビームサーチアルゴリズムを実現する翻訳プロセッサのみを実現できるように選択することは一時的であり、一方、更なる時間に翻訳装置は、m−ベストビームサーチアルゴリズム又はn−ベストビームサーチアルゴリズムの両方を実現する翻訳プロセッサを実現してもよい。
それにもかかわらず、実現される翻訳プロセッサに応じて対応する結果である最も高いスコアの最終候補文章は対応するスコアリングモデルによって実現され、プロセッサ170に提供又は指示され、プロセッサ170は、ソース第1言語文章の最終翻訳を決定するために提供された最終候補文章それぞれの順位を決定する。以下で、説明の便宜のために各翻訳プロセッサ111、113、115、117、及び119に含まれたデコーダで複雑度の減少したビームサーチアルゴリズムが用いられる実施形態、例えば、図1に示す翻訳プロセッサ111〜119によって示されたm−ベスト結果のそれぞれについて説明する。実施形態は、デコーダでビームサーチアルゴリズムの他に復号化アルゴリズムが用いられる場合にも適用され得る。
翻訳プロセッサ111、113、115、117、及び119を用いた並列処理によって復号化性能の減少を防止するためには、翻訳プロセッサ111、113、115、117、及び119から抽出されるm−ベスト候補文章の多様性が保障されなければならない。そのために、自動翻訳装置100は、複数の翻訳プロセッサ111、113、115、117、及び119のうち少なくとも1つの翻訳プロセッサに入力されるソース文章、少なくとも1つの翻訳プロセッサに含まれたエンコーダ、及び少なくとも1つの翻訳プロセッサに含まれたデコーダのうち少なくとも1つを変形する。自動翻訳装置100は、ソース文章、エンコーダ及びデコーダの変形、及びその間の様々な変形組合せによって第2言語の候補文章の多様性を確保できる。
例えば、自動翻訳装置100は、GPU(1)111には第1言語のソース文章を入力し、GPU(2)113には第1言語のソース文章を同じ意味を有する他の文章又は類似の文章に変更して入力する。又は、代案的に、第1言語のソース文章がGPU(2)に提供されてもよく、GPU(2)はソース文章を翻訳してもよい。自動翻訳装置100がソース文章を変形する方法については図4を参照して説明する。
自動翻訳装置100は、GPU(3)115のエンコーダに適用されるパラメータ値、又は活性関数に対してノイズを適用することでエンコーダを変形する。自動翻訳装置100は、GPU(4)117のデコーダに適用されるパラメータ値又は活性関数に対してノイズを適用することでデコーダを変形する。その他にも、自動翻訳装置100は、エンコーダ及びデコーダに適用されるパラメータ値又は活性関数に対して適用されるノイズを相異にしてもよい。パラメータ値は、エンコーダ又はデコーダの神経網を構成しているシナプスの加重値である。また、活性関数は、エンコーダ又はデコーダの神経網を構成しているノードの活性化特性を示す関数である。
又は、自動翻訳装置100はGPU(5)119のように、エンコーダAを学習初期値、学習セット、及び学習順序のうち少なくとも1つを変更して学習されたエンコーダA’に代替し、デコーダBを学習初期値、学習セット、及び学習順序のうち少なくとも1つを変更して学習されたデコーダB’に代替してもよい。
ここで、エンコーダ又はデコーダの交替は、例えば、利用可能なエンコーダ又はデコーダのうち選択するGPU(1)によって実現され、又は、代案的に学習されたエンコーダ及び/又はデコーダを含むGPU(5)のような翻訳プロセッサの翻訳動作を選択的に実現することで実現される。
例えば、並列処理において、エンコーダA及びデコーダBを有するGPU(1)の翻訳動作は、エンコーダA及びデコーダBを有するGPU(2)〜(4)の翻訳動作、及び、エンコーダA’及びデコーダB’を有するGPU(5)の翻訳動作と並列的に実現できる。
翻訳装置100内の複数のエンコーダ及び/又はデコーダは、翻訳システムの翻訳装置100の一部を参照する。上述したように、このような翻訳システムのエンコーダ又はデコーダのそれぞれは個別プロセッサ内に含まれ、又は、翻訳装置100の1つ以上のプロセッサによって又は1つ以上のプロセッサ内に又は集合的又は互いに異なるように集合的に配置されてもよい。
実施形態によって自動翻訳装置100は、適応的に翻訳プロセッサに変形を加える代わりに、複数の翻訳プロセッサ111、113、115、117、及び119のうち少なくとも一部の翻訳プロセッサに変形が加えられた並列翻訳プロセッサを用いてもよい。
一実施形態では、複数の翻訳プロセッサ又は動作を並列化することで翻訳速度を改善させ、ソース文章、エンコーダ、デコーダの様々な変形組合せにより様々な第2言語の候補文章(例えば、m−ベスト)を生成することで翻訳の正確度も向上させ得る。
一実施形態では、5個の翻訳プロセッサを並列的に使用する実施形態について説明したが、必ずこれに限定されることではなく、その他にも様々な個数の翻訳プロセッサを活用できる。
一実施形態によれば、翻訳装置100は、リスコアリングモデル150を個別的に含んでもよいし、又は、リスコアリングモデル150は翻訳プロセッサモジュール111〜119内にそれぞれ含まれてもよい。
リスコアリングモデル150のそれぞれは、スコアに基づいて第2言語の一例のm−ベスト又はn−ベスト候補文章の順位を付け、第2言語のm−ベスト又はn−ベスト候補文章のスコアを再算定するリスコアリングモデル(rescoring model)をさらに含む。リスコアリングモデル150のそれぞれは、各翻訳プロセッサ又は翻訳動作の最終候補文章として、1−bestの候補文章をプロセッサ170に出力できる。
一例として、リスコアリングモデル150のそれぞれは第2言語の候補文章を復号化する過程で算出されたスコアをそのまま第2言語の候補文章に対応するスコアとして決定する。一例として、GPU1によって識別された候補文章に対するスコアは、当該の候補文章が示される確率値である。この場合、リスコアリングモデル150のそれぞれは、「ランキングモデル」と称される。
また、自動翻訳装置100はプロセッサ170をさらに含む。プロセッサ170は、複数のリスコアリングモデル150から受信される第2言語の候補文章に基づいて、最終翻訳の結果に該当する候補文章を選択する。
一例として、プロセッサ170は、全てのリスコアリングモデル150で算出された第2言語の候補文章それぞれに対応するスコアに基づいて、第2言語の候補文章のうち最高スコアを有する候補文章を第2言語の最終文章(「How do I get to Gangnam Station?」)として選択して出力する。
選択された第2言語の最終文章はエージェント105に提供され、エージェント105は最終翻訳の結果をユーザに送信する。
エージェント105は、翻訳装置100のディスプレイを介して提供するよう、最終翻訳の結果を第2言語のテキスト形態にユーザへ提供する。一例として、エージェント105は、最終翻訳の結果をエージェント105の音声合成プロセッサ及び翻訳装置100のスピーカを介してユーザに聴覚的に提供する。例えば、エージェント105は、エージェント105のテキスト対スピーチ(text to speech;TTS)技術に基づいて最終翻訳の結果を第2言語の音声形態としてユーザに提供してもよい。
実施形態によりエージェント105と翻訳動作の開示との間の相互作用は、各ユーザ端末内又はユーザ端末を介して、又は、遠隔サーバのようなサーバで実現される。エージェント105及び翻訳機110、リスコアリングモデル150及びプロセッサ170は、一例として、スマートフォンのようなユーザ端末で動作する。エージェント105、及び翻訳機110、リスコアリングモデル150及びプロセッサ170は、スピーチの音声認識又は遠隔端末からの聴覚フレームを受信することでサーバで動作し、又は、代案的に動作する。
サーバの実現は、1つ以上の翻訳プロセッサを含んだり、又は含まないローカル装置のエージェント105、また、ローカル装置又は遠隔装置から遠隔にある対応するリスコアリングモデル及び遠隔サーバに常駐するプロセッサを含む。この場合、遠隔サーバはエージェント105の翻訳最終結果を提供するためにローカル装置と通信し、エージェント105は翻訳最終結果をユーザに提供し、又は、他の動作を実現する。上述した内容は単に例示であって、様々な変更が可能である。
例えば、エージェント105に含まれたコントローラは、ユーザ端末及び音声認識器で動作でき、翻訳機110、リスコアリングモデル150、及びプロセッサ170は、サーバ又はサーバ内で動作する。
また、動作はエージェント105によって実行されるものとして議論され、又は、翻訳機110、リスコアリングモデル150、及びプロセッサ170によって実行されるものとして議論され、エージェント105のコントローラはこのような動作がエージェント105及び翻訳機110、リスコアリングモデル150、及びプロセッサ170のそれぞれで実行されるように制御し、その間の情報の受信及び送信を制御する。
代案的に、コントローラは翻訳機110内に含まれ、プロセッサ170によって表現され、エージェント105、翻訳機110、プロセッサ170のうちいずれか1つ又は全てはエージェント105、翻訳機110、リスコアリングモデル150、及びプロセッサ170の各動作を制御する各コントローラを含み、一例として、その間の上述した動作の結果を送信する。
図2は、一実施形態に係る翻訳方法を示したフローチャートである。図2を参照すると、一実施形態に係る自動翻訳装置は、エンコーダ及びデコーダを含む複数の翻訳プロセッサに第1言語のソース文章を入力する(S210)。複数の翻訳プロセッサのいずれか1つの翻訳プロセッサの構造及び動作については図7を参照して説明する。
自動翻訳装置は、ソース文章を複数の翻訳プロセッサごとに符号化して特徴ベクトルを生成する(S220)。特徴ベクトルは、「抽象化された文章情報」とも称される。自動翻訳装置は、入力されたソース文章を符号化によって特徴ベクトルに変換する。例えば、「こんにちは」というソース文章が入力された場合、自動翻訳装置は3.432、4.742、...、0.299のような抽象化された文章情報、言い換えれば、特徴ベクトルを生成する。
自動翻訳装置は、特徴ベクトルを複数の翻訳プロセッサごとに復号化して第2言語の候補文章を生成する(S230)。自動翻訳装置は、例えば、m−ベストビームサーチアルゴリズムを用いて、複数の翻訳プロセッサごとに予め決定した数(例えば、m個)の候補文章を生成する。
自動翻訳装置は、ビームサーチアルゴリズムを用いて抽象化された文章情報に対応する候補文章リストを出力する。自動翻訳装置は、例題m−ベストビームサーチアルゴリズムを用いて、例えば、3.432、4.742、...、0.299のような抽象化された文章情報に対応する候補文章のリスト、すなわち、候補文章リストを生成する。候補文章リストは、例えば、「Hello」、「How are you?」、c、「How are you doing?」のような候補文章を含む。
ここで、m−ベストビームサーチアルゴリズムが実現される場合のように、自動翻訳装置が生成する候補文章の個数が少なければ翻訳速度は速いものの、不正確な結果を生成することがある。また、n−ベストビームサーチアルゴリズムを通すと、自動翻訳装置が生成する候補文章の個数が多い場合に翻訳正確度は高くなるものの、翻訳速度は遅れてしまう。一実施形態では、複数の翻訳プロセッサを用いることによって1つの翻訳プロセッサが生成する候補文章の個数を減らして処理速度を向上させる一方、複数の翻訳プロセッサの変形により多様化された候補文章を生成することで翻訳の正確度も向上することができる。翻訳プロセッサ又は動作の変形又は変更によって多様化された候補文章を生成する方法については図3を参照して説明する。
自動翻訳装置は、第2言語の候補文章から第2言語の最終文章を選択する(S240)。自動翻訳装置は、例えば、リスコアリングモデルを用いて候補文章リスト(例えば、「Hello」、「How are you?」、「How are you doing?」)のうち最も確率の高い文章(例えば、「How are you doing?」)を第2言語の最終候補文章として選択する。その後、全ての最終候補文章が考慮され、最も高い順位の最終文章が選択される。
自動翻訳装置がリスコアリングモデルを用いて第2言語の最終文章を選択する方法については図5及び図6を参照して説明する。
図3は、他の実施形態に係る翻訳方法を示したフローチャートである。図3を参照すると、ステップS310、ステップS330、ステップS340、及びステップS350は、図2に示すステップS210、ステップS220、ステップS230、及びステップS240に対応するため重複する説明は省略する。
一実施形態に係る自動翻訳装置は、ステップS320において、複数の翻訳プロセッサのうち少なくとも1つの翻訳プロセッサに入力されるソース文章、少なくとも1つの翻訳プロセッサに含まれたエンコーダ、及び少なくとも1つの翻訳プロセッサに含まれたデコーダのうち少なくとも1つを変更し得る。
また、例えば、対応するエンコーダ、デコーダ又はサーチアルゴリズムの態様が代案的又は追加的に変更される場合のように、多い翻訳過程が同一の変化又は変更されたソース文章によって実行される例において、同一の変化又は変更されたソース文章は対応する複数の翻訳プロセッサに提供されてもよいし、又は対応する翻訳動作のために同一のメモリから読み出されてもよい。
同様に、一例として、ソース文章又は変化又は変更されたソース文章は、同一の文章が複数の翻訳プロセッサに入力され、又は利用可能になり、又は、エンコーダが翻訳プロセッサ間に同一であるか、又は、符号化動作が翻訳動作の間に同一の複数の翻訳動作で用いられる場合、ベクトル形態の抽象化された文章情報のようにこのようなエンコーダ又は符号化動作のうち1つの結果が複数の翻訳プロセッサによって異なるデコーダに提供され、又は、利用可能になり、又は、複数の翻訳動作によって異なる復号化動作で使用され、もたらされること等が行われてもよい。したがって、符号化は翻訳動作の実現される全ての翻訳プロセッサで必ず実現されることはない。
自動翻訳装置が少なくとも1つの翻訳プロセッサに含まれたエンコーダ、及び/又は少なくとも1つの翻訳プロセッサに含まれたデコーダを変形する方法については次の通りである。
自動翻訳装置は、少なくとも1つの翻訳プロセッサに含まれたエンコーダに適用されるパラメータ値又は活性関数に対してノイズを適用することで、エンコーダ又はエンコーダの動作を変形又は変化させ得る。又は、自動翻訳装置は、異なる方式の異なるエンコーダを有する異なる翻訳プロセッサを含む。パラメータ値は、対応する神経網から構成されるエンコーダのパラメータあるいは加重値である。一実施形態のように、エンコーダ及びデコーダを神経網又は神経網のそれぞれに構成する場合、エンコーダ及びデコーダを学習させる過程が先行的に行われる。ここで、エンコーダ及びデコーダを学習させることは、神経網を構成しているパラメータ又は加重値の値を決定するものとして理解される。
自動翻訳装置は、例えば、加重値の確率分布により加重値に適用されるノイズを生成して適用する。又は、自動翻訳装置は、活性関数の確率分布により活性関数に適用されるノイズを生成する。
同様に、自動翻訳装置は、少なくとも1つの翻訳プロセッサに含まれたデコーダに適用されるパラメータ値又は活性関数に対してノイズを適用することで、デコーダ又はデコーダの動作を変形又は変化させ得る。又は、自動翻訳装置は異なる方式の異なるデコーダを有する異なる翻訳プロセッサを含む。
また、自動翻訳装置は、少なくとも1つの翻訳プロセッサに含まれたエンコーダを、学習初期値、学習セット、及び学習順序のうち少なくとも1つを変更して学習されたエンコーダに代替することでエンコーダを変形する。同様に、自動翻訳装置は、少なくとも1つの翻訳プロセッサに含まれたデコーダを、学習初期値、学習セット、及び学習順序のうち少なくとも1つを変更して学習されたデコーダに代替してもよい。
図4は、一実施形態によって、も少なくとも1つの翻訳プロセッサに入力されるソース文章を変形する方法を説明するための図である。図4を参照すると、一実施形態に係る自動翻訳装置は、第1言語に関する情報に基づいて、少なくとも1つの翻訳プロセッサに入力されるソース文章の語順を変更する。ここで、第1言語に関する情報は、例えば、言語モデルに格納され得る。
例えば、一実施形態における言語モデルは、例えば、認識のための音響モデル及び言語モデルを用いて、ソース文章を聴覚的に認識する言語モデルを実現する認識装置によって用いられ、又は、認識装置内に用いられる同一の言語モデルであってもよい。
例えば、ソース文章が「江南駅までの道を教えて」であると仮定する。
自動翻訳装置は、「道を教えて、江南駅までの」、「教えて!江南駅までの道を」、「教えて、道を、江南駅までの」のようにソース文章の語順を変更することでソース文章を変形する。ここで、自動翻訳装置は、ソース文章をワード単位又はサブワード単位に区分し、サブワード間の語順を変更することでソース文章を変形する。以下で説明する実施形態では「サブワード」を用いる場合について説明したが、実施形態は「サブワード」の代わりに「ワード」を用いる場合にも適用され得る。
また、自動翻訳装置は、第1言語に関する情報に基づいて、少なくとも1つの翻訳プロセッサに入力されるソース文章に含まれた単語を類義語(類似語)に代替できる。ここで、第1言語に関する情報は類義語の辞典を含む。
類義語(類似語)に代替される単語は、サブワード、及びワードのうちいずれか1つである。サブワードは、一般的な文章で頻繁に用いられるキャラクターのシーケンスとして理解される。
自動翻訳装置は、例えば、類義語辞典から「〜まで」の類義語である「〜に」を、「教えて」の類義語である「教えてください」、「どうなりますか」、「教えてもらえませんか?」などを、「道を教えて」の類義語である「どうやって行けばいいですか?」、「どうやって行くんですか?」、「どうやって行ったらいいでしょうか」などを検索する。自動翻訳装置は、ソース文章に含まれた単語を検索された類義語に代替し、図4に示すようにソース文章を多様に変形することができる。
図5は、一実施形態により候補文章のスコアを算出し、第2言語の最終文章を選択する方法を示したフローチャートである。図5を参照すると、一実施形態に係る自動翻訳装置は、第2言語の候補文章それぞれに対するスコアを算出する(S510)。自動翻訳装置は、複数の翻訳プロセッサごとに第2言語の候補文章それぞれに対するスコアを算出する。ここで、候補文章に対するスコアは、候補文章が示される確率値又は信頼度値である。自動翻訳装置は、対応する翻訳動作の復号化の過程で各候補文章に対して算出された確率値をそのまま用いてもよく、図1に示すリスコアリングモデル150のうち対応する1つのリスコアリングモデルを用いるよう、新しいリスコアリングモデルを用いて各候補文章に対するスコアを再算定してもよい。
自動翻訳装置は、ステップ510で算出された第2言語の候補文章のうち最高スコアを有する候補文章を第2言語の最終文章として選択する(S520)。
一例として、図1に示すプロセッサ170に提供されるよう、それぞれの実現された翻訳プロセッサ又は翻訳動作に対して、対応する1つ以上の最終候補文章が選択され、選択された最終候補文章は最も高い再算出されたスコアを有する。ここで、プロセッサ170は、ワンソース文章の翻訳として最終文章を選択する。
代案的に、1つ以上の又は全ての対応するリスコアリングモデルによってリスコアされた全ての候補文章は、一例によるプロセッサ170に、そのようなリスコアリングモデルそれぞれの結果として提供又は指示され、ワンソース文章の翻訳としてプロセッサ170は全ての候補文章から最も高いスコアを有する候補文章を最終文章として選択する。たとえ、実施形態が提供されたが、実施形態はこれに限定されることなく、他の例と共にその組合せも利用可能である。
例えば、デコーダ又はリスコアリングモデルそれぞれの出力として候補文章が提供されることなく、対応するスコアは各スコアが対応する基本候補文章に対する識別又は参照から出力され得るため、プロセッサ170は、単に最も高い再算出されたスコアを選択し、対応する候補文章を識別するときに文章を最終候補文章として出力できる。
図6は、一実施形態により第2言語の候補文章に対するスコアを算定し、第2言語の最終文章を選択する方法を示したフローチャートである。図6を参照すると、自動翻訳装置は、第2言語の候補文章それぞれのスコアを算出する(S605)。翻訳装置は、翻訳プロセッサそれぞれのために第2言語の候補文章それぞれのスコアを算出する。ここで、候補文章のスコアは、候補文章に対応する信頼度値又は確率である。
一実施形態に係る自動翻訳装置は、異なる複数の異なるリスコアリングモデルに基づいて、第2言語の候補文章それぞれに対応する複数のスコアを算出する(S610)。一実施形態では、異なる複数の異なるリスコアリングモデルを並列的に利用する。複数のモデルを並列的に用いて複数のスコアを算出し、スコアの平均値を用いることで、速度面で損失されることなく、翻訳の正確度を向上することができる。
自動翻訳装置は、第2言語の候補文章それぞれに対応する複数のスコアの統計(例えば、平均値、標準偏差など)を用いて、第2言語の候補文章それぞれに対応するスコアを算出する(S620)。
一例として、第2言語の最終候補文章の選択個数は、ステップS610で各リスコアリングモデルのそれぞれの結果に基づいて今後検討のために選択され、このような選択された最終候補文章のスコアは、ステップS630で最終文章が選択される以前に、このようなスコアの統計を用いてステップS620で再算出された選択された最終候補文章のスコアである。
例えば、このような統計的リスコアリングは、このようなリスコアリングモデルのうちからの統計情報がリスコアリングモデル間に共有される場合、例えば、翻訳プロセッサの互いに異なる翻訳過程の各リスコアリングモデルによって実行され得る。
代案的に、統計的スコア再算出は、図1に示すプロセッサ170によるもののように、リスコアリングモデルの動作の完了後で実行され、ここで、このような追加的な統計的スコア再算出は、各リスコアリングモデルからプロセッサ170に提供又は指示される、プロセッサ170によって実行され、最終文章を選択するための動作630における最終考慮のために、各リスコアリングモデルからプロセッサ170に提供され、或いは、プロセッサ170によって決定された統計的な情報に基づいて実行される。
ワンソース文章の翻訳として、翻訳装置は、ステップS620で最も高い再算出されたスコアを有する最終候補文章のうちの1つを選択する(S630)。
図7は、一実施形態に係る翻訳プロセッサの構成及び動作を説明するための図である。図7を参照すると、一実施形態に係る翻訳プロセッサ700は、エンコーダ710、デコーダ730、及びリスコアリングモデル750を含む。
例えば、「江南駅までの道を教えて」のようなソース文章が翻訳プロセッサ700から入力されると仮定する。翻訳プロセッサ700は、ソース文章を例を挙げて、「江南」、「駅」、「まで」、「の」、「道」、「を」、「教えて」のようなサブワードの単位で区分して順次エンコーダ710に入力する。
エンコーダ710は一文章全体の入力が完了すると、ソース文章を符号化して特徴ベクトルを生成する。上述したように、翻訳プロセッサ700は、ソース文章をエンコーダに入力する前に、ソース文章の語順を変更し、ソース文章に含まれた単語(又はサブワード)を類義語に代替する方式でソース文章を変形する。翻訳プロセッサ700は、変形された第1言語のソース文章をエンコーダ710に入力する。
代案的に、翻訳プロセッサ700が含まれた翻訳装置は、変化したソース文章を翻訳プロセッサ700及び翻訳プロセッサ700のエンコーダ710に入力する前に、ソース文章の変化を行ってもよい。
エンコーダ710は神経網715から構成される。神経網715の構造及び動作は図8を参照して説明する。
エンコーダ710は、神経網715によって第1言語のソース文章を符号化して特徴ベクトルを生成する。エンコーダ710は、「江南駅までの道を教えて」のような1つのソース文章に対して「2.542」、「0.827」、「5.936」などのような特徴ベクトルを生成する。
デコーダ730は、エンコーダ710で生成された特徴ベクトルを復号化して第2言語の候補文章を生成する。デコーダ730は、例えば、ビームサーチアルゴリズムを用いて第2言語の候補文章リストを生成する。第2言語の候補文章リストは例えば、「How do I get to Gangnam?」、「Please let me know the way to Gangnam Station」、「How do I get to Gangnam Station?」、及び「I’ll go to Gangnam Station」等のような候補文章を含む。ここで、候補文章それぞれは0.2、0.05、0.6、0.1等のように候補文章それぞれに対応するスコア(確率値)を含む。候補文章のそれぞれは、デコーダ730で第2言語のサブワード単位に出力される。
一実施形態において、エンコーダ710の入力次元は第1言語の「サブワード」から構成される辞典の次元であり、デコーダ730の出力次元は第2言語の「サブワード」から構成される辞典の次元である。辞典の次元は、予め含まれたサブワードの数である。
リスコアリングモデル750は、各候補文章に対して決定されたスコアにより候補文章を整列する。リスコアリングモデル750は、例えば、各候補文章に対応するスコアを予め設定された個数の候補文章のうち、スコアの最も高い候補文章から順に予め設定された点数に応じて整列する。翻訳プロセッサ700は、リスコアリングモデル750が整列した予め設定された個数のスコアのうち、最も高いスコアに対応する候補文章(「How do I get to Gangnam Station?」)を翻訳プロセッサ700の第2言語の最終候補文章として選択する。
一例として、リスコアリングモデル750は、各候補文章のオリジナル文章が翻訳文に翻訳される確率値と、翻訳文がオリジナル文章に翻訳される確率値とを平均した平均値を用いて最終候補文章を選択することができる。
図8は、図7に示すエンコーダ710に含まれた神経網715のように、エンコーダを構成する神経網の構造及び動作を説明するための図である。図8を参照すると、一例による神経網715は、入力レイヤ810、隠れレイヤ830、及び出力レイヤ850を含む。
入力レイヤ810の次元は、第1言語のサブワードの次元に対応する。第1言語はサブワード単位として、ワン−ホットベクトル(one−hot vector)の形態に入力レイヤ810に入力される。例えば、エンコーダに入力される最初サブワードが「江南駅」である場合、入力レイヤ810の複数のノードのうち「江南駅」に対応するノードに「1」が入力され、残りのノードには「0」が入力されてもよい。入力レイヤ810に入力されたワン−ホットベクトル(「江南駅」に対応して「1」がマッピングされたベクトル)は隠れレイヤ830を経て出力レイヤ850に伝播して、出力レイヤ850はワン−ホットベクトル(例えば、「江南駅」に対応して「1」がマッピングされたベクトル)に対応する特徴ベクトル(例えば、抽象化された文章情報)を出力する。
エンコーダを構成している神経網715は、リカレントt神経網から構成される。そのため、2番目以後のサブワードを符号化するとき、少なくとも1つの以前サブワードの符号化結果が影響を及ぼしかねない。
例えば、2番目のサブワードが「まで」の場合、「まで」に対応して「1」がマッピングされたワン−ホットベクトルが入力レイヤに入力され得る。「まで」に対応して「1」がマッピングされたワン−ホットベクトルが隠れレイヤを経て出力レイヤに伝播するとき、隠れレイヤに含まれたノードは最初のサブワードを伝播した隠れレイヤのノードの出力を追加的に入力されることができる。
このように、神経網715の入力レイヤに第1言語のサブワードが順次入力されることにより、最終的に出力される特徴ベクトルが生成される。
図9は、図7に示すデコーダ730に含まれた神経網735のように一例によるデコーダを構成している神経網の構造及び動作を説明するための図である。図9を参照すると、一例による神経網735は、入力レイヤ910、隠れレイヤ930及び出力レイヤ950を含む。
神経網735は、エンコーダで生成された特徴ベクトルを復号化して第2言語の候補文章を生成する。神経網735の入力レイヤ910は、エンコーダで最終的に生成された特徴ベクトルが入力される。特徴ベクトルは、隠れレイヤ930を経て出力レイヤ950に伝播する。出力レイヤ950の次元は、第2言語のサブワードから構成された辞典の次元に対応する。出力レイヤ950に含まれた各ノードは第2言語のサブワードに対応し、各ノードの出力値は該当するノードのサブワードが出力される確率を意味する。ビームサーチアルゴリズムを行う自動翻訳装置は、確率値の高い順に予め決定した数(例えば、3)の候補サブワードを選択する。例えば、予め決定した3万個のサブワードのうち特徴ベクトルが示される確率(スコア)に該当する3個のスコアP1−1、P1−2、P1−3が他の段階に伝播され得る。
候補サブワードが選択されれば、各候補サブワードに対応して次に候補サブワードが復号化される。ここで、エンコーダの神経網と同様に、デコーダの神経網735の隠れレイヤ930の状態情報は、次に隠れレイヤに伝達される。例えば、i番目のサブワードを決定しようとする場合、神経網735は、1ないしi−1番目まで決定されたサブワードに基づいてi番目のサブワードの確率(スコア)を決定する。
前述した方式により候補サブワードのシーケンスが生成され、候補サブワードのシーケンスによって第2言語の候補文章が構成される。ただし、1つのサブワードを復号化するごとに予め決定した数(例えば、3)の候補サブワードが選択される場合、最終候補文章の数が指数的に増加することになる。このような現象を防止するために段階ごとに枝刈り(pruning)が適用される。枝刈りは、候補文章の数が予め決定した数に保持できるように枝刈りする方式であって、例えば、枝刈りによって2番目のサブワードまで復号化して生成された9個の候補文章のうち、3個の候補文章のみが選択されて次の段階に伝播されてもよい。
一実施形態によれば、一段階でサブワードが選択されれば、選択されたサブワードによって次の段階の隠れレイヤが変更される。一例として、選択されたサブワードを指示する埋め込みベクトルが次の段階の隠れレイヤに含まれたノードの内部状態に反映される。
図10は、図8及び図9に示す神経網それぞれのためのリカレント神経網のように、一例による神経網を構成しているリカレント神経網を説明するための図である。図10を参照すると、リカレント神経網の構造が示されている。
リカレント神経網は、「循環状神経網」とも呼ばれて、音声、音楽、文字列、動画などのように順次的な情報が入ったデータを扱うために適する神経網構造である。
リカレント神経網はデータで規則的なパターンを認識し、抽象化された情報を抽出する。リカレントは「反復的」という意味として、神経網の特定部分が反復する構造を有することを意味である。神経網の特定の部分が「反復する」ことは同じタスク(task)を一シーケンスの全ての要素ごとに適用し、出力結果は以前の算出結果に影響を受けることを意味する。
図10に示されたリカレント神経網の構造において、隠れレイヤのニューロンが自身を示す矢印を含んでいることが示されている。ここで、隠れレイヤのニューロンで自身を示す矢印は反復する構造を示し、この矢印を「循環加重値」と呼ぶ。
循環加重値は、過去のデータに関する情報を記憶できる機能を有し、これによって新しいデータを処理するときに過去の記憶を使用する。すなわち、人がチャットするとき、過去のチャット内容を記憶して現在のチャット内容を過去のチャット内容に基づいた文脈を介して理解するよう、リカレント神経網は、順次的なデータ内で情報を把握することができる。これがリカレント神経網が順次的なデータを学習できる原理である。
循環加重値は、過去t−1の時点の神経網と現在tの時点の神経網とを連結する役割を果たし、また、過去t−2の時点の神経網と過去t−1の時点の神経網とを連結する役割も行う。リカレント神経網は、このような方式で無限な時間に対して遡ってモデルを広げ、これにより過去の最初のデータから現在に至るまで続けて情報が伝達され得る。
図11は、一実施形態に係る自動翻訳装置のブロック図である。自動翻訳装置1100は、図1に示す翻訳装置に対応するが、実施形態がこれに限定されることはない。
図11を参照すると、一実施形態に係る自動翻訳装置1100は、複数の翻訳プロセッサ1110、プロセッサ1130、メモリ1150、及び送受信インターフェース1170を含む。複数の翻訳プロセッサ1110、プロセッサ1130、メモリ1150、及び送受信インターフェース1170は、図12Aに示すようにバス(図示せず)によって接続されている。
翻訳プロセッサ1110は、受信部1111、エンコーダ1113、及びデコーダ1115を含む。翻訳プロセッサそれぞれは、リスコアリングモデルをさらに含む。
受信部1111は、第1言語のソース文章を受信する。エンコーダ1113は、受信部1111が受信したソース文章を符号化して特徴ベクトルを生成する。デコーダ1115は、エンコーダ1113が生成した特徴ベクトルを復号化して第2言語の候補文章を生成する。デコーダ1115は、例えば、m−ベスト又はn−ベストビームサーチアルゴリズムを用いて特徴ベクトルを復号化することによって、翻訳プロセッサ1110に対応する予め決定した数の候補文章を生成する。
一例として、翻訳プロセッサ1110のそれぞれに対応するリスコアリングモデルは、対応する最も高いスコアを有する候補文章を識別し、最も高いスコアを有する候補文章をプロセッサ1130の最終候補文章として出力する。
プロセッサ1130は、翻訳プロセッサ1110で生成した第2言語の候補文章から第2言語の最終文章を選択する。プロセッサ1130は、第2言語の候補文章に対するスコアを算出し、第2言語の候補文章のうち最高スコアを有する候補文章を第2言語の最終文章として選択する。プロセッサ1130は、複数の翻訳プロセッサごとに第2言語の候補文章に対するスコアを算出する。
代案的に、最も高いスコアを有する最終候補文章のみが翻訳プロセッサ1110からプロセッサ1130に提供されるよりも、予め設定された個数又は各デコーダ1115からの候補文章の全てがプロセッサ1130に提供され、又は、利用可能になって、プロセッサ1130は、全ての生成された候補文章から最も高いスコアを有する候補文章を最終翻訳文章として決定することができる。プロセッサ1130は、複数の翻訳プロセッサ1110のうち少なくとも1つの翻訳プロセッサに入力されるソース文章、少なくとも1つの翻訳プロセッサに含まれたエンコーダ、及び少なくとも1つの翻訳プロセッサに含まれたデコーダのうち少なくとも1つを変形するよう、少なくとも1つの翻訳プロセッサ1110の動作を制御する。
プロセッサ1130は、以前に定義された態様又は動作によっていずれかのエンコーダ又はいずれかのデコーダが、従来のエンコーダ及び/又はデコーダ又はエンコーダ又はデコーダの集合に代わって翻訳プロセッサ1110のいずれか1つにより使用されるために変化するかを選択的に制御できる。プロセッサ1130は、ソース文章又は変化したソース文章のための翻訳動作を行うため、いずれかの翻訳プロセッサ1110が選択的に動作するかを制御する。
実施形態において、プロセッサ1130はソース文章を変形又は変更し、プロセッサ1130は、第1言語に関する情報に基づいて少なくとも1つの翻訳プロセッサに入力されるソース文章の語順を変更する動作、及び第1言語に関する情報に基づいて少なくとも1つの翻訳プロセッサに入力されるソース文章に含まれた単語を類義語に代替する動作のうち少なくとも1つを行う。
一例として、プロセッサ1130は、少なくとも1つの翻訳プロセッサに含まれたエンコーダに適用されるパラメータ値又は活性関数に対してノイズを適用することでエンコーダを変形する動作、及び少なくとも1つの翻訳プロセッサに含まれたデコーダに適用されるパラメータ値又は活性関数に対してノイズを適用することでデコーダを変形する動作のうち少なくとも1つを行う。異なる例として、プロセッサ1130は、少なくとも1つの翻訳プロセッサに含まれたエンコーダを学習初期値、学習セット、及び学習順序のうち少なくとも1つを変更して学習されたエンコーダに代替する動作、及び少なくとも1つの翻訳プロセッサに含まれたデコーダを学習初期値、学習セット、及び学習順序のうち少なくとも1つを変更して学習されたデコーダに代替する動作のうち少なくとも1つを行ってもよい。
また、プロセッサ1130は、その他にも、図1ないし図10を参照して前述した少なくとも1つの方法を行ってもよい。
プロセッサ1130は、例えば、メモリ1150のような1つ以上の非一時的なコンピュータで読み出し可能な記録媒体で、コンピュータ実行可能な命令語を実現し、前述した動作のうちの1つ又は任意の組合せ又はこの全てを実現できるように翻訳装置1100を制御するよう構成される。
メモリ1150は、異なる翻訳プロセッサ又は翻訳動作のデコーダ1115それぞれによって識別された候補文章のような、第2言語の識別された候補文章それぞれを格納する。
メモリ1150は、翻訳プロセッサ又は各翻訳過程に対して識別された各最終候補文章だけではなく、各候補文章のリスコアリングされた結果のそれぞれをさらに格納する。
また、メモリ1150は、最終候補文章のうち選択された第2言語の最終翻訳文章を格納する。また、メモリ1150は、送受信インターフェース1170を介して受信された情報を格納する。その他にも、メモリ1150は、各種のデータと実行可能な命令を格納する。メモリ1150は、揮発性メモリ及び不揮発性メモリを含む。メモリ1150は、ハードディスクなどのような大容量の格納媒体を備えて各種のデータを格納する。例えば、メモリ1150は、1つ以上のハードディスクを用いてデータベースを構成し、データベースに第2言語の候補文章を格納する。
メモリ1150は、例示的に対応する認識神経網エンコーダ及びデコーダの実現及びその結果のみならず、第1言語のソース文章を認識するように実現される前述した言語モデル及び音響モデルを格納する。
送受信インターフェース1170は、第2言語の最終文章を自動翻訳装置1100の外部に出力する。
例えば、図1を参照すると、送受信インターフェース1170は、最終翻訳文章を出力するためエージェント105に含まれてもよい。
図12A及び12Bは、自動翻訳装置の実施形態を示す。図12A及び12Bの自動翻訳装置は、図1〜図11に関して前述した動作のいずれか1つ又はその組合せを実行することができ、実施形態は同一に制限されることはない。また、図12A及び12Bの自動翻訳装置は、図1及び図7〜図11に示す自動翻訳装置のいずれか1つ又はその組合せに対応し、実施形態が同一に制限されることはない。
図12A及び12Bを参照すると、自動翻訳装置1200のそれぞれは、メモリ1210及びプロセッサ1220を含む。ここで、メモリ1210及びプロセッサ1220は、図11に示すプロセッサ1130及びメモリ1150に対応するが、実施形態がこれに限定されることはない。
自動翻訳装置1200は図12Aに示すように、音声認識器1230及び/又は翻訳機1240をさらに含む。代案的に、音声認識器1230及び/又は翻訳機1240は構成されたように、プロセッサ1220内に含まれてもよい。
認識装置1230は、図1に示すエージェント105に関して前述した認識装置に対応するが、実施形態がこれに限定されることはない。また、一例として、各自動翻訳装置1200は翻訳機1240を含み、音声認識器1230を含んでいないか、又は、音声認識器1230を含み、翻訳機1240を含まなくてもよい。それぞれの場合において翻訳機1240は遠隔サーバを示し得る。
翻訳機1240は、図1に示す翻訳機110、リスコアリングモデル150及びプロセッサ170、及びプロセッサ170に対応してもよいし、又は、翻訳プロセッサ1110又は図11に示すプロセッサ1130と翻訳プロセッサ1110の組合いであってもよい。
一例として、メモリ1210、プロセッサ1220、音声認識器1230、及び翻訳機1240は、図12Aに示すようにバス1250によって通信する。
メモリ1210は、例えば、バス1250を介して受信された情報を格納するための揮発性メモリ又は不揮発性メモリを含む。メモリ1210は、図1ないし図11に関して前述した過程のいずれか1つ又は任意の組合せのように、又は、図11に示す翻訳プロセッサ1110及び/又はプロセッサ1130による自動翻訳の各翻訳過程で使用又は生成された異なる情報又は知識ソースを格納するように構成されたデータベースを含む。
また、メモリ1210は、様々なタイプのデータ及びプログラムを格納する。実施形態において、非一時的なコンピュータで読み出し可能な格納媒体として、メモリ1210はプロセッサ1220によって実行される場合、プロセッサ1220は図1ないし図11に関する前述した過程のいずれか1つ又はその組合せを行うようにする命令を格納する。
代案的に、自動翻訳装置1200のそれぞれに含まれた異なるメモリは命令を含み、及び/又は自動翻訳装置1200それぞれの異なるプロセッサは格納された命令を実行する。
プロセッサ1220は、図1を参照して記述したエージェント105の動作を行う。例えば、1つ以上の実施形態においてプロセッサ1220は、例えば、図12Bに示す自動翻訳装置1200のユーザインターフェース1260によって表現されたマイクロホンによりキャプチャーされたユーザの音声を音声認識器1230に送信し、音声認識器1230から第1言語文章を受信する。
また、1つ以上の実施形態において、プロセッサ1220は第1言語文章を翻訳機1240に送信し、翻訳機1240は互いに異なる翻訳動作に対して同一又は異なる特徴ベクトルのそれぞれを生成する。例えば、翻訳機1240は、1つ以上のエンコーダ及び複数のデコーダを含んでもよい。
プロセッサ1220は、例えば、リスコアリングモデルそれぞれが実現され、その結果の順位が付与された後、翻訳機1240から最終文章を第2言語文章として受信する。
1つ以上の実施形態において、プロセッサ1220は、音声認識器1230及び送信機1240の動作それぞれ及び/又はその変換の実行を制御して各第1言語文章を生成し、各第1言語文章の符号化を特徴ベクトルで行って、第2言語の特徴ベクトルの復号化を行い、スコアリングされた候補翻訳それぞれ及びランクされた結果を翻訳機1240の最終翻訳の結果として生成するよう構成されたコントローラであり得る。
プロセッサ1220は、最終翻訳の結果をユーザに提供するためエージェントの動作を制御する。また、1つ以上の実施形態で、プロセッサ1220又は他のプロセッサはユーザの音声のサンプリングを行い、サンプリングされた結果であるオーディオフレームを音声認識器1230に提供する。一例として、音声認識器1230及び翻訳機1240は、プロセッサ1220と独立的に実現されてもよい。
一例として、音声認識器1230及び翻訳機1240は、プロセッサ1220との異なるプロセッサ又はコンピューティングリソースを用いて実現され、同一のプロセッサ又はコンピューティングリソース又は異なるプロセッサ又はコンピューティングリソースによって実現されてもよい。
また、一実施形態において音声認識器1230及び、例えば、翻訳機1240の翻訳プロセッサのうちいずれか1つ又は翻訳機1240の全体のような、翻訳機1240は自動翻訳装置1200のそれぞれから外部又は遠隔に位置し、例をドローン、無線又は有線ネットワークを介して各自動翻訳装置1200と通信する。
図12Bに示されたユーザインターフェース1260は、キーボード、タッチスクリーン、マウス、又は、スタイラスのような他のユーザインターフェース装置だけではなく、ハードウェア無線又は有線通信モジュールを示す。
このような外部又は遠隔の例で、プロセッサ1220は、ユーザインターフェース1260によって表現されたマイクロホンによりキャプチャーされたアナログ信号のように、ユーザの音声サンプリングを実行することができ、一例として、ハードウェア通信モジュールを用いて音声認識器1230及び/又は翻訳機1240のそれぞれを含む1つ以上の外部サーバと通信し得る。
最終第2言語翻訳は翻訳機1240によって候補文章リストから決定され、翻訳機1240は、候補リストにある翻訳候補を順位を決定し、最終第2言語翻訳を視覚的及び/又は聴覚的に出力するようさらに構成された各自動翻訳装置1200のプロセッサ1220に伝達する。例えば、候補リストは、図1に示す各リスコアリングモデル150の結果から生成され得る。
例えば、ユーザインターフェース1260は、音声認識器及び翻訳を聴覚的に出力するスピーカ、及び/又はディスプレイ1270のスクリーン上にテキストを通した翻訳を視覚的に表示するディスプレイ1270を示す。
一例として、音声認識器1230及び翻訳機1240は、認識及び翻訳モデリングによりプロセッサ1220及びメモリ1210を介して実現され得る。
例えば、音声認識器1230に含まれた1つ以上の神経網は、音声認識器1230の認識エンコーダ及び認識デコーダに含まれた神経網、及び/又は翻訳機1240に含まれた1つ以上の神経網、翻訳機1240の翻訳エンコーダ及び翻訳デコーダそれぞれに含まれる神経網の例を含み、メモリ1210に格納されてもよい。
例えば、各神経網は、実行オブジェクトファイル又は実行ファイルの形態でメモリ1210に格納されてもよい。また、各神経網のパラメータはメモリ1210に格納されてもよい。
このような例において、プロセッサ1220は、メモリ1210から神経網をロードし、神経網それぞれに対するパラメータを適用することで音声認識器1230の認識及び翻訳機1240の翻訳動作それぞれを実現することができる。
他の実施形態において、プロセッサ1220は、メモリ1210から神経網をロードし、神経網それぞれに対するパラメータを適用することで音声認識器1230のエンコーダ及びデコーダと翻訳機1240のエンコーダ及びデコーダを実現することができる。
他の例において、プロセッサ1220は、第1言語のサンプリングされた音声信号のフレームを符号化して第1言語に対する第1特徴ベクトルを生成する。プロセッサ1220は、第1特徴ベクトルを復号化して第1言語の第1言語文章を生成する。
プロセッサ1220は、第1言語の文章を第2言語に対して符号化して第2言語に対する第2特徴ベクトルを生成する。また、プロセッサ1220は、第2言語に対して異なる第2特徴ベクトルを生成してもよい。
プロセッサ1220は、第2言語ベクトルそれぞれの複数の復号化を行い、第2言語ベクトルそれぞれの結果をリスコアリングし、第2言語の第2言語文章を第1言語のサンプリングされた音声信号の最終翻訳として生成及び出力するためにリスコアリングされた結果の順位を決定する。
1つ以上の実施形態により、ディップランニング機械翻訳の過程で生成された結果又は参照された出力及び音声認識過程で生成された結果又は参照された出力はメモリ1210に送信され得る。
また、実施形態がそのような出力又は生成された結果のうち任意のものがプロセッサ1220、音声認識器1230、及び/又は翻訳機1240間に伝達されたが、実施形態は、プロセッサ1220、音声認識器1230、及び/又は翻訳機1240のいずれか1つによってこのようなローカルキャッシュ、メモリ1210又は他のメモリから取得又はリクエストするよう、それぞれの出力又は結果をローカルキャッシュ、メモリ1210又は他のメモリに格納するプロセッサ1220、音声認識器1230及び/又は翻訳機1240のそれぞれを含む。
一例として、本明細書で記述した動作を行う図1及び図7ないし図12Bに示された自動翻訳装置100、1100、1200、エージェント105、翻訳機110、1240、翻訳プロセッサ111〜119、GPU(1)〜(5)、翻訳プロセッサ700、各翻訳プロセッサ1110、プロセッサそれぞれのリスコアリングモデル150、各リスコアリングモデル750、音声認識器1230、プロセッサ170、1130、各プロセッサ1220、各エンコーダA、各エンコーダA’、各デコーダB、各デコーダB’、各エンコーダ710、1113、各デコーダ730、1115、各受信機1111、メモリ1150、各メモリ1210、送受信インターフェース1170、ユーザインターフェース1260、ディスプレイ1270、各神経網715、及び各神経網735、図10に示すRNNは、ハードウェア構成要素によって実行される本明細書で記述された動作を行うように構成されたハードウェア構成要素により実現される。
上述した動作を行うために用いられるハードウェア構成要素の実施形態は、上述した実施形態で記述した動作を行うよう構成されたコントローラ、センサ、ジェネレータ、ドライバ、メモリ、比較器、算術論理ユニット、加算器、減算器、乗算器、分周器、積分器、及びその他の電子部品を含む。
以上述した実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組合せで具現される。例えば、実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサー、又は命令(instruction)を実行して応答する異なる装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム(OS)及びオペレーティングシステム上で実行される1つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は1つが使用されるものとして説明する場合もあるが、当該技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含むことが分かる。例えば、処理装置は、複数のプロセッサ又は1つのプロセッサ及び1つのコントローラを含む。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、又はこれらのうちの1つ以上の組合せを含み、希望通りに動作するように処理装置を構成し、独立的又は結合的に処理装置に命令する。ソフトウェア及び/又はデータは、処理装置によって解釈され、処理装置に命令又はデータを提供するためのあらゆる類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、或いは送信される信号波を介して永久的又は一時的に具現化される。ソフトウェアは、ネットワークに接続されたコンピュータシステム上に分散され、分散された方法で格納されるか又は実行される。ソフトウェア及びデータは1つ以上のコンピュータ読み取り可能な記録媒体に格納される。
本実施形態による方法は、多様なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明の動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
上述したように実施形態をたとえ限定された図面によって説明したが、当技の術分野で通常の知識を有する者であれば、前記に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順序で実行されてもよいし、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組合わせられ、他の構成要素又は均等物によって置き換え、置換されても適切な結果を達成することができる。
1000:自動翻訳装置
1110:翻訳プロセッサ
1111:受信部
1113:エンコーダ
1115:デコーダ
1130:プロセッサ
1150:メモリ
1170:送受信インターフェース

Claims (40)

  1. 1つ以上のプロセッサを用いて、第1言語のソース文章に対して並列に複数の異なる翻訳過程で翻訳を行うステップを含む翻訳方法であって、
    前記翻訳を行うステップは、
    複数の特徴ベクトルを生成するために、前記複数の翻訳過程のうち二以上の翻訳過程で前記ソース文章を符号化する、又は、前記複数の翻訳過程のうち1つ以上の翻訳過程で前記ソース文章及び前記ソース文章の変形を符号化するステップと、
    第2言語の複数の候補文章を生成するために前記特徴ベクトルそれぞれを復号化するステップと、
    前記第2言語の複数の候補文章それぞれから前記第2言語の最終文章を選択するステップと、
    を含む、翻訳方法。
  2. 前記複数の異なる翻訳過程は、
    異なるグラフィックプロセッサユニット(GPUs)によって実現され、前記グラフィックプロセッサユニットそれぞれは翻訳エンコーダ及び翻訳デコーダを含み、
    前記異なる翻訳過程を行うために前記ソース文章は、前記グラフィックプロセッサユニットのうち少なくとも2つのグラフィックプロセッサユニット又は少なくとも1つのグラフィックプロセッサユニットに入力され、前記ソース文章の変形は、異なる少なくとも1つのグラフィックプロセッサユニットに入力される、請求項1に記載の翻訳方法。
  3. 前記複数の異なる翻訳過程は、翻訳システムの前記1つ以上のプロセッサによって実現され、
    前記1つ以上のプロセッサそれぞれは、前記翻訳システムの複数のエンコーダのうちの1つ以上の翻訳エンコーダを含み、前記翻訳システムの複数のデコーダのうちの1つ以上の翻訳デコーダを含み、
    前記翻訳方法は、前記ソース文章を前記複数のエンコーダのうち少なくとも2つのエンコーダに並列に入力するステップをさらに含む、請求項1又は2に記載の翻訳方法。
  4. 前記ソース文章の変形を前記複数のエンコーダのうち少なくとも1つのエンコーダに入力するステップと、
    前記複数の異なる翻訳過程を行うために前記複数のデコーダのうち少なくとも1つのデコーダを変形するステップと、
    をさらに含む、請求項3に記載の翻訳方法。
  5. 前記第1言語に関する情報に基づいて前記ソース文章の単語順序を変更することによって前記ソース文章の変形を生成するステップと、
    前記第1言語に関する情報に基づいて前記ソース文章に含まれた単語を同義語に交替するステップと、
    前記複数のエンコーダのうち前記少なくとも1つのエンコーダに前記ソース文章の変形を入力するステップと、
    をさらに含む、請求項4に記載の翻訳方法。
  6. 前記少なくとも1つのエンコーダそれぞれに適用される対応する活性関数又は対応するパラメータ値それぞれに対応してノイズをそれぞれ適用することで、前記複数のエンコーダのうち前記少なくとも1つのエンコーダの変更を行うステップと、
    前記少なくとも1つのデコーダそれぞれに適用される対応する活性関数又は対応するパラメータ値それぞれに対応してノイズをそれぞれ適用することで、前記複数のデコーダのうち前記少なくとも1つのデコーダの変更を行うステップと、
    をさらに含む、請求項4に記載の翻訳方法。
  7. 前記複数の異なる翻訳過程を行うために、前記1つ以上のプロセッサのうち少なくとも1つでエンコーダを変更又は変化させるステップと、
    前記1つ以上のプロセッサのうち少なくとも1つでデコーダを変更又は変化させるステップと、
    をさらに含む、請求項3に記載の翻訳方法。
  8. 前記エンコーダを、前記エンコーダの学習に用いられた学習初期値、学習セット、及び学習順序と異なる学習初期値、学習セット、及び学習順序のうち少なくとも1つによって学習された異なるエンコーダと交替することによって前記エンコーダの変更又は変化を行うステップと、
    前記デコーダを、前記デコーダの学習に用いられた学習初期値、学習セット、及び学習順序と異なる学習初期値、学習セット、及び学習順序のうち少なくとも1つによって学習された異なるデコーダと交替することによって前記デコーダの変更又は変化を行うステップと、
    のうち少なくとも1つをさらに含む、請求項7に記載の翻訳方法。
  9. 前記候補文章それぞれの生成は、ビームサーチアルゴリズムそれぞれを用いて各翻訳過程で予め設定された個数の候補文章を生成することを含む、請求項1ないし8のうち何れか一項に記載の翻訳方法。
  10. 前記ビームサーチアルゴリズムそれぞれは、n−ベストビームサーチアルゴリズムよりも低い複雑度を有するm−ベストビームサーチアルゴリズムである(n>m)、請求項9に記載の翻訳方法。
  11. 前記第2言語の最終文章を選択するステップは、
    前記第2言語の複数の候補文章それぞれのスコアを算出するステップと、
    前記第2言語の複数の候補文章のうち最も高いスコアを有する1つの候補文章を前記第2言語の前記最終文章として選択するステップと、
    を含む、請求項1ないし10のうち何れか一項に記載の翻訳方法。
  12. 前記第2言語の複数の候補文章それぞれのスコアを算出するステップは、前記各翻訳過程から前記第2言語の1つの候補文章のスコアそれぞれを算出するステップを含む、請求項11に記載の翻訳方法。
  13. 前記第2言語の前記最終文章を選択するステップは、
    リスコアリングモデルそれぞれを用いて前記各翻訳過程で前記第2言語に対応する候補文章それぞれに対応するスコアを算出するステップと、
    1つ以上の対応する候補文章それぞれに対応するスコアの統計値を用いて、前記各翻訳過程から前記1つ以上の対応する候補文章に対応するスコアを再算出するステップと、
    前記第2言語の最終文章として、前記再算出されたスコアのうち最も高いスコアを有する対応する1つ以上の候補文章のうちの1つを選択するステップと、
    を含む、請求項1ないし10のうち何れか一項に記載の翻訳方法。
  14. 請求項1ないし13のうち何れか一項に記載の翻訳方法を翻訳装置のコンピュータに実行させるコンピュータプログラム。
  15. 第1言語のソース文章に対して並列に複数の異なる翻訳過程(前記異なる翻訳過程は特徴ベクトルそれぞれを生成するために、前記複数の翻訳過程のうち二以上の各翻訳過程で前記ソース文章を符号化する、又は、前記複数の各翻訳過程で前記ソース文章及び前記ソース文章の変形を符号化し、第2言語の複数の候補文章それぞれを生成するために前記特徴ベクトルそれぞれを復号化することを含む)を行うために構成される、1つ以上のプロセッサのうち少なくとも1つのプロセッサと、
    前記第2言語の複数の候補文章それぞれから前記第2言語の最終文章を選択するように構成された、前記1つ以上のプロセッサのうち出力プロセッサと、
    を含む、翻訳装置。
  16. 前記少なくとも1つのプロセッサは、前記ソース文章に対応する符号化を行って特徴ベクトルを生成する少なくとも1つのエンコーダ、及び前記特徴ベクトルに対応する復号化を行って前記ソース文章に対して前記第2言語の複数の候補文章を生成する少なくとも1つのデコーダを含む、請求項15に記載の翻訳装置。
  17. 前記翻訳装置は、複数の異なる各翻訳過程を行うための異なるグラフィックプロセッサユニット(GPUs)を含み、前記グラフィックプロセッサユニットそれぞれは翻訳エンコーダ及び翻訳デコーダを含み、
    前記翻訳装置は、前記異なる翻訳過程を行うために前記ソース文章を少なくとも2つのグラフィックプロセッサユニット又は少なくとも1つのグラフィックプロセッサユニットに入力し、前記ソース文章の変化を異なる少なくとも1つのグラフィックプロセッサユニットに入力する、請求項15又は16に記載の翻訳装置。
  18. 前記複数の異なる翻訳過程は、翻訳システムの前記1つ以上のプロセッサのうち前記少なくとも1つのプロセッサによって実現され、
    前記少なくとも1つのプロセッサは、前記翻訳システムの複数のエンコーダのうちの1つ以上の翻訳エンコーダ及び前記翻訳システムの複数のデコーダのうちの1つ以上の翻訳デコーダを含み、
    前記翻訳装置は、前記ソース文章を前記複数のエンコーダのうち少なくとも2つのエンコーダに並列に入力する、請求項15ないし17のうち何れか一項に記載の翻訳装置。
  19. 前記出力プロセッサは、前記複数のエンコーダのうち少なくとも1つのエンコーダの変化を実現するために前記ソース文章の変化を生成し、前記翻訳過程のうち少なくとも1つで前記ソース文章の生成された変化に対する符号化を実現できるように構成され、
    前記複数の異なる翻訳過程を実行するために、前記複数のデコーダのうち少なくとも1つのデコーダの変化を実現できるように構成される、請求項18に記載の翻訳装置。
  20. 前記1つ以上のプロセッサのうち1つのプロセッサは、前記複数のエンコーダのうち少なくとも1つのエンコーダの変化を実現するために前記ソース文章の変化を生成し、前記翻訳過程のうち少なくとも1つで前記ソース文章の前記生成された変化に対する符号化を実現できるように構成され、
    前記複数の異なる翻訳過程の実行のために、前記複数のデコーダのうち少なくとも1つのデコーダの変化を実現できるように構成される、請求項18に記載の翻訳装置。
  21. 前記1つのプロセッサは、前記ソース文章の変化を生成し、前記翻訳過程のうち少なくとも1つで前記ソース文章の生成された変化を符号化するように構成され、
    前記ソース文章の変化を生成するために、前記1つのプロセッサは、前記第1言語に関する情報に基づいて前記ソース文章のワード順序を変更する動作、及び前記第1言語に関する情報に基づいて前記ソース文章に含まれたワードを同義語に交替する動作のうち少なくとも1つを行うように構成される、請求項20に記載の翻訳装置。
  22. 前記1つのプロセッサは、
    前記複数のエンコーダのうち少なくとも1つのエンコーダの変化を実現し、前記複数のデコーダのうち少なくとも1つのデコーダの変化を実現するために、
    前記少なくとも1つのエンコーダそれぞれに適用される対応する活性関数又は対応するパラメータ値それぞれに対応してノイズをそれぞれ適用することで、前記複数のエンコーダのうち少なくとも1つのエンコーダを変更する動作と、
    前記少なくとも1つのデコーダそれぞれに適用される対応する活性関数又は対応するパラメータ値それぞれに対応してノイズをそれぞれ適用することで、前記複数のデコーダのうち少なくとも1つのデコーダを変更する動作のうち少なくとも1つを対応して行うように構成される、請求項20に記載の翻訳装置。
  23. 前記複数の異なる翻訳過程は、前記1つ以上のプロセッサのうち複数の翻訳プロセッサによって実現され、
    前記複数の翻訳プロセッサそれぞれは翻訳エンコーダ及び翻訳デコーダを含み、
    前記異なる翻訳過程を実現するために、前記1つ以上のプロセッサのうち1つのプロセッサは、前記1つの翻訳エンコーダを、前記少なくとも1つの翻訳エンコーダの学習に用いられた学習初期値、学習セット、及び学習順序と異なる学習初期値、学習セット、及び学習順序によって学習された異なるエンコーダと交替することで、前記複数の翻訳プロセッサの翻訳エンコーダのうち1つの翻訳エンコーダの変更又は変化を実現できるように構成され、
    前記1つの翻訳デコーダを、前記少なくとも1つの翻訳デコーダの学習に用いられた学習初期値、学習セット、及び学習順序と異なる学習初期値、学習セット、及び学習順序によって学習された異なるデコーダと交替することで、前記複数の翻訳プロセッサの翻訳デコーダのうち1つの翻訳デコーダの変更又は変化を実現できるように構成される、請求項15に記載の翻訳装置。
  24. 前記複数の候補文章それぞれの生成は、ビームサーチアルゴリズムそれぞれを用いて各翻訳過程で予め設定された個数の候補文章の生成を含む、請求項15ないし23のうち何れか一項に記載の翻訳装置。
  25. 前記ビームサーチアルゴリズムそれぞれは、n−ベストビームサーチアルゴリズムよりも低い複雑度を有するm−ベストビーム探索アルゴリズムである(n>m)、請求項24に記載の翻訳装置。
  26. 前記出力プロセッサは、
    前記第2言語の複数の候補文章のスコアそれぞれを算出し、
    前記第2言語の複数の候補文章のうち最も高いスコアを有する1つの候補文章を前記第2言語の前記最終文章として選択する、請求項15ないし25のうち何れか一項に記載の翻訳装置。
  27. 前記出力プロセッサは、前記第2言語の複数の候補文章のスコアそれぞれを算出するために、前記各翻訳過程から前記第2言語の1つの候補文章のスコアそれぞれを算出する、請求項26に記載の翻訳装置。
  28. 前記第2言語の前記最終文章を選択するために、前記出力プロセッサは、
    リスコアリングモデルそれぞれを用いて前記各翻訳過程で前記第2言語に対応する候補文章それぞれに対応するスコアを算出し、
    1つ以上の対応する候補文章それぞれに対応するスコアの統計値を用いて、前記各翻訳過程から前記1つ以上の対応する候補文章に対応するスコアを再算出し、
    前記第2言語の最終文章として、前記再算出されたスコアのうち最も高い値を有する対応する1つ以上の候補文章のうちの1つを選択するように構成される、請求項15ないし25のうち何れか一項に記載の翻訳装置。
  29. 前記翻訳装置は、前記翻訳装置の複数のメモリのうちの1つ以上のメモリをさらに含み、
    前記1つ以上のメモリは、前記異なる翻訳過程からの結果それぞれ及び前記複数の候補文章それぞれから複数の候補文章それぞれを格納する、又は、候補文章を選択する、請求項15に記載の翻訳装置。
  30. 前記複数のメモリのうち少なくとも1つのメモリをさらに含み、
    前記少なくとも1つのメモリは、1つ以上のプロセッサによって実行される場合、前記1つ以上のプロセッサが前記複数の異なる翻訳過程及び前記最終文章の選択を行うように構成される命令を格納する非一時的コンピュータで読み出し可能な記録媒体である、請求項29に記載の翻訳装置。
  31. 前記複数の異なる翻訳過程を行うように構成された前記少なくとも1つのプロセッサと前記最終文章を選択するように構成された前記出力プロセッサは、前記1つ以上のプロセッサのうち同一のプロセッサである、請求項15ないし30のうち何れか一項に記載の翻訳装置。
  32. 翻訳方法において、
    ソース文章に対して複数の異なる翻訳過程を並列に行うステップ(前記複数の異なる翻訳過程は、対応する翻訳符号化過程、対応する翻訳復号化過程、及び前記対応する符号化過程が前記ソース文章又は前記ソース文章の変形を符号化するか否かのうちの1つ以上に対して互いに異なる)と、
    前記複数の異なる翻訳過程からの結果それぞれから決定された最も高い順位の候補文章に基づいて前記ソース文章の翻訳結果を出力するステップと、
    を含む、翻訳方法。
  33. 前記複数の異なる翻訳過程のうち少なくとも1つの翻訳復号化過程は、候補文章を決定するためにm−ベストビームサーチアルゴリズムを実現し、
    前記m−ベストビームサーチアルゴリズムは、n−ベストビームサーチアルゴリズムに比べて複雑度が低いビームサーチアルゴリズムであり、n>mである、請求項32に記載の翻訳方法。
  34. 請求項32又は33に記載の翻訳方法を翻訳装置のコンピュータに実行させるコンピュータプログラム。
  35. ソース文章に対する第1符号化及び第1復号化、前記ソース文章に対する異なる符号化、及び/又は前記ソース文章に対する異なる復号化、前記ソース文章の1つ以上の変化に対する第1符号化及び第1復号化、及び/又は前記ソース文章の1つ以上の変化に対する異なる符号化及び/又は復号化を含む、前記ソース文章に対する複数の翻訳過程を並列に行うステップ(前記複数の各翻訳過程は、前記各翻訳過程から候補リストを生成するために翻訳符号化過程及び翻訳復号化過程のそれぞれを含む)と、
    前記候補リストそれぞれから候補文章の順位を決定するステップと、
    前記順位に基づいて決定された最も高い順位の候補文章に基づいて前記ソース文章の翻訳結果を出力するステップと、
    を含み、
    前記翻訳復号化過程それぞれは、前記複数の各翻訳過程のための前記候補リストを生成するためにn−ベストビームサーチアルゴリズムを実現する、翻訳方法。
  36. 請求項35に記載の翻訳方法を翻訳装置のコンピュータに実行させるコンピュータプログラム。
  37. ソース文章に対する第1符号化及び第1復号化、前記ソース文章に対する異なる符号化、及び/又は前記ソース文章に対する異なる復号化、前記ソース文章の1つ以上の変化に対する第1符号化及び第1復号化、及び/又は前記ソース文章の1つ以上の変化に対する異なる符号化及び/又は復号化を含む、前記ソース文章に対する複数の翻訳過程を並列に行うステップ(前記複数の各翻訳過程は前記各翻訳過程から候補リストを生成するために、翻訳符号化過程及び翻訳復号化過程それぞれを含む)と、
    前記候補リストそれぞれから候補文章を順位を決定するステップと、
    前記順位に基づいて決定された最も高い順位の候補文章に基づいて前記ソース文章の翻訳結果を出力するステップと、
    を含み、
    前記1つ以上の翻訳復号化過程は、対応する候補リストを生成するためにn−ベストビームサーチアルゴリズムに比べて低い複雑度を有するビームサーチアルゴリズムであるm−ベストビームサーチアルゴリズムを実現し、n>mである、翻訳方法。
  38. 前記候補文章の順位を決定するステップは、前記候補リストそれぞれにリスコアリングモデルそれぞれを適用するステップを含み、
    前記最も高い順位の候補文章を発見するために、前記適用されたリスコアリングモデルそれぞれからの結果それぞれに基づいて、全ての候補文章よりも少ない数の候補文章に対する候補リストそれぞれが選択的に順位が再設定される、請求項37に記載の翻訳方法。
  39. 前記1つ以上の翻訳復号化過程は、対応する候補リストを生成するために前記n−ベストビームサーチアルゴリズムを選択的に実現する、請求項37に記載の翻訳方法。
  40. 請求項37ないし39のうち何れか一項に記載の翻訳方法を翻訳装置のコンピュータに実行させるコンピュータプログラム。
JP2017148956A 2016-08-10 2017-08-01 翻訳方法、翻訳装置及びコンピュータプログラム Active JP7066349B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2016-0101726 2016-08-10
KR1020160101726A KR102565275B1 (ko) 2016-08-10 2016-08-10 병렬 처리에 기초한 번역 방법 및 장치

Publications (2)

Publication Number Publication Date
JP2018026127A true JP2018026127A (ja) 2018-02-15
JP7066349B2 JP7066349B2 (ja) 2022-05-13

Family

ID=59298315

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017148956A Active JP7066349B2 (ja) 2016-08-10 2017-08-01 翻訳方法、翻訳装置及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US10902216B2 (ja)
EP (1) EP3282368A1 (ja)
JP (1) JP7066349B2 (ja)
KR (1) KR102565275B1 (ja)
CN (1) CN107729324A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020064624A (ja) * 2018-10-16 2020-04-23 株式会社リコー サブワード単位の分割方法、装置及びコンピュータ読み取り可能な記憶媒体
JP2021099797A (ja) * 2019-12-20 2021-07-01 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 構文線形性に基づく言語変換方法および装置

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10706351B2 (en) * 2016-08-30 2020-07-07 American Software Safety Reliability Company Recurrent encoder and decoder
JP6705506B2 (ja) * 2016-10-04 2020-06-03 富士通株式会社 学習プログラム、情報処理装置および学習方法
WO2018083670A1 (en) * 2016-11-04 2018-05-11 Deepmind Technologies Limited Sequence transduction neural networks
JP6897168B2 (ja) * 2017-03-06 2021-06-30 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
KR102509822B1 (ko) * 2017-09-25 2023-03-14 삼성전자주식회사 문장 생성 방법 및 장치
CN108509411B (zh) * 2017-10-10 2021-05-11 腾讯科技(深圳)有限公司 语义分析方法和装置
CN110472251B (zh) 2018-05-10 2023-05-30 腾讯科技(深圳)有限公司 翻译模型训练的方法、语句翻译的方法、设备及存储介质
KR20200023664A (ko) * 2018-08-14 2020-03-06 삼성전자주식회사 응답 추론 방법 및 장치
US20200090035A1 (en) * 2018-09-19 2020-03-19 International Business Machines Corporation Encoder-decoder memory-augmented neural network architectures
US11151334B2 (en) * 2018-09-26 2021-10-19 Huawei Technologies Co., Ltd. Systems and methods for multilingual text generation field
US11880748B2 (en) * 2018-10-19 2024-01-23 Sony Corporation Information processing apparatus, information processing method, and information processing program
RU2699396C1 (ru) * 2018-11-19 2019-09-05 Общество С Ограниченной Ответственностью "Инвек" Нейронная сеть для интерпретирования предложений на естественном языке
US11043214B1 (en) * 2018-11-29 2021-06-22 Amazon Technologies, Inc. Speech recognition using dialog history
US10963652B2 (en) * 2018-12-11 2021-03-30 Salesforce.Com, Inc. Structured text translation
CN111742364A (zh) * 2018-12-14 2020-10-02 谷歌有限责任公司 用于联网系统的基于语音的接口
KR102545666B1 (ko) * 2018-12-18 2023-06-21 삼성전자주식회사 페르소나에 기반하여 문장을 제공하는 방법 및 이를 지원하는 전자 장치
KR20200075615A (ko) 2018-12-18 2020-06-26 삼성전자주식회사 기계 번역 방법 및 장치
CN111368558B (zh) * 2018-12-25 2024-01-02 Tcl科技集团股份有限公司 基于神经网络的实时翻译方法、智能终端及存储介质
CN115455988A (zh) * 2018-12-29 2022-12-09 苏州七星天专利运营管理有限责任公司 一种高风险语句的处理方法和系统
CN109710953B (zh) * 2018-12-29 2023-04-11 成都金山互动娱乐科技有限公司 一种翻译方法及装置、计算设备、存储介质和芯片
CN111476039B (zh) * 2019-01-04 2023-06-30 深圳永德利科技股份有限公司 智能车载系统的即时语言翻译方法及相关产品
US11106873B2 (en) * 2019-01-22 2021-08-31 Sap Se Context-based translation retrieval via multilingual space
CN110162604B (zh) * 2019-01-24 2023-09-12 腾讯科技(深圳)有限公司 语句生成方法、装置、设备及存储介质
CN111783435A (zh) * 2019-03-18 2020-10-16 株式会社理光 共享词汇的选择方法、装置及存储介质
US20210209315A1 (en) * 2019-03-29 2021-07-08 Google Llc Direct Speech-to-Speech Translation via Machine Learning
CN110175335B (zh) * 2019-05-08 2023-05-09 北京百度网讯科技有限公司 翻译模型的训练方法和装置
US11507760B2 (en) * 2019-06-07 2022-11-22 Semiconductor Energy Laboratory Co., Ltd. Machine translation method, machine translation system, program, and non-transitory computer-readable storage medium
CN110245363A (zh) * 2019-06-24 2019-09-17 付金龙 翻译方法、翻译系统及使用该系统的翻译机
CN110457673B (zh) * 2019-06-25 2023-12-19 北京奇艺世纪科技有限公司 一种自然语言转换为手语的方法及装置
CN110489762B (zh) * 2019-06-26 2023-07-04 中译语通科技股份有限公司 基于神经网络机器翻译的术语翻译方法、存储介质和装置
KR20210037307A (ko) * 2019-09-27 2021-04-06 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
CN112825109B (zh) * 2019-11-20 2024-02-23 南京贝湾信息科技有限公司 一种句子对齐方法及计算设备
CN111753556B (zh) * 2020-06-24 2022-01-04 掌阅科技股份有限公司 双语对照阅读的方法、终端及计算机存储介质
KR20220055954A (ko) * 2020-10-27 2022-05-04 삼성전자주식회사 전자 장치 및 그 제어 방법
CN112257467B (zh) * 2020-11-03 2023-06-30 沈阳雅译网络技术有限公司 一种面向gpu设备的神经机器翻译系统解码加速方法
US11769019B1 (en) * 2020-11-19 2023-09-26 Amazon Technologies, Inc. Machine translation with adapted neural networks
CN112686028B (zh) * 2020-12-25 2021-09-03 掌阅科技股份有限公司 基于相似词的文本翻译方法、计算设备及计算机存储介质
WO2024106689A1 (ko) * 2022-11-16 2024-05-23 삼성전자주식회사 전자 장치 및 기계 번역 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004038406A (ja) * 2002-07-01 2004-02-05 Advanced Telecommunication Research Institute International 複数個の翻訳結果から最良訳を選択する方法、最良訳を選択するための回帰木データを生成する方法、最良訳選択型の機械翻訳プログラム、回帰木生成プログラム、および回帰木データを記憶した記憶媒体
JP2005071291A (ja) * 2003-08-28 2005-03-17 Advanced Telecommunication Research Institute International 換言装置及びコンピュータプログラム、文の対を準備する方法、及びリンクされたサブツリーを準備する方法
JP2007004730A (ja) * 2005-06-27 2007-01-11 Toshiba Corp コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
US20110131032A1 (en) * 2009-12-02 2011-06-02 Electronics And Telecommunications Research Institute Hybrid translation apparatus and method thereof
JP2012159969A (ja) * 2011-01-31 2012-08-23 Nec Corp 機械翻訳装置、方法およびプログラム
US20150356401A1 (en) * 2014-06-06 2015-12-10 Google Inc. Generating representations of input sequences using neural networks

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2376335B (en) * 2001-06-28 2003-07-23 Vox Generation Ltd Address recognition using an automatic speech recogniser
AUPR956901A0 (en) 2001-12-17 2002-01-24 Jayaratne, Neville Real time translator
EP2527990B1 (en) 2006-02-17 2020-01-15 Google LLC Using distributed models for machine translation
CA2661535A1 (en) 2006-08-18 2008-02-21 National Research Council Of Canada Means and method for training a statistical machine translation system
US7881928B2 (en) * 2006-09-01 2011-02-01 International Business Machines Corporation Enhanced linguistic transformation
US8798988B1 (en) * 2006-10-24 2014-08-05 Google Inc. Identifying related terms in different languages
US8326598B1 (en) 2007-03-26 2012-12-04 Google Inc. Consensus translations from multiple machine translation systems
US8180624B2 (en) 2007-09-05 2012-05-15 Microsoft Corporation Fast beam-search decoding for phrasal statistical machine translation
US8150677B2 (en) 2008-06-26 2012-04-03 Microsoft Corporation Machine translation using language order templates
US8744834B2 (en) 2008-07-03 2014-06-03 Google Inc. Optimizing parameters for machine translation
KR100961717B1 (ko) 2008-09-16 2010-06-10 한국전자통신연구원 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
US8279861B2 (en) * 2009-12-08 2012-10-02 International Business Machines Corporation Real-time VoIP communications using n-Way selective language processing
US8914401B2 (en) 2009-12-30 2014-12-16 At&T Intellectual Property I, L.P. System and method for an N-best list interface
FI125823B (en) * 2011-11-03 2016-02-29 Rex Partners Oy A measure of the quality of machine translation
US8527276B1 (en) 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
US8996352B2 (en) * 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
JP6595979B2 (ja) * 2013-03-15 2019-10-23 ザ ダン アンド ブラッドストリート コーポレーション 多言語ビジネスの指標のキュレーション及び翻字統合
US9858272B2 (en) * 2014-02-16 2018-01-02 International Business Machines Corporation Context enriched application text translation
KR101864361B1 (ko) 2014-04-08 2018-06-04 네이버 주식회사 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템
US9652453B2 (en) * 2014-04-14 2017-05-16 Xerox Corporation Estimation of parameters for machine translation without in-domain parallel data
WO2016065327A1 (en) * 2014-10-24 2016-04-28 Google Inc. Neural machine translation systems with rare word processing
US9697201B2 (en) * 2014-11-24 2017-07-04 Microsoft Technology Licensing, Llc Adapting machine translation data using damaging channel model
KR101675092B1 (ko) 2015-02-11 2016-11-10 김종우 잠재 고객에 대한 프로모션 제공 시스템, 방법 및 그 방법을 실행시키기 위한 컴퓨터로 읽을 수 있는 프로그램이 저장된 기록매체

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004038406A (ja) * 2002-07-01 2004-02-05 Advanced Telecommunication Research Institute International 複数個の翻訳結果から最良訳を選択する方法、最良訳を選択するための回帰木データを生成する方法、最良訳選択型の機械翻訳プログラム、回帰木生成プログラム、および回帰木データを記憶した記憶媒体
JP2005071291A (ja) * 2003-08-28 2005-03-17 Advanced Telecommunication Research Institute International 換言装置及びコンピュータプログラム、文の対を準備する方法、及びリンクされたサブツリーを準備する方法
JP2007004730A (ja) * 2005-06-27 2007-01-11 Toshiba Corp コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
US20110131032A1 (en) * 2009-12-02 2011-06-02 Electronics And Telecommunications Research Institute Hybrid translation apparatus and method thereof
JP2012159969A (ja) * 2011-01-31 2012-08-23 Nec Corp 機械翻訳装置、方法およびプログラム
US20150356401A1 (en) * 2014-06-06 2015-12-10 Google Inc. Generating representations of input sequences using neural networks

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHO, KYUNGHYUN ET.AL.: "On the Properties of Neural Machine Translation: Encoder-Decoder Approaches", [ONLINE], JPN6021030127, 7 October 2014 (2014-10-07), pages 1 - 9, ISSN: 0004564446 *
SJTSKEVER, HYA ET.AL.: "Sequence to Sequence Learning with Neural Networks", [OLINE], JPN6021030126, 14 December 2014 (2014-12-14), pages 1 - 9, ISSN: 0004564447 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020064624A (ja) * 2018-10-16 2020-04-23 株式会社リコー サブワード単位の分割方法、装置及びコンピュータ読み取り可能な記憶媒体
JP2021099797A (ja) * 2019-12-20 2021-07-01 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 構文線形性に基づく言語変換方法および装置
US11409968B2 (en) 2019-12-20 2022-08-09 Beijing Baidu Netcom Science And Technology Co., Ltd. Language conversion method and apparatus based on syntactic linearity, and non-transitory computer-readable storage medium
JP7121106B2 (ja) 2019-12-20 2022-08-17 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 構文線形性に基づく言語変換方法および装置

Also Published As

Publication number Publication date
EP3282368A1 (en) 2018-02-14
KR20180017622A (ko) 2018-02-21
US10902216B2 (en) 2021-01-26
JP7066349B2 (ja) 2022-05-13
KR102565275B1 (ko) 2023-08-09
US20180046618A1 (en) 2018-02-15
CN107729324A (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
JP7066349B2 (ja) 翻訳方法、翻訳装置及びコンピュータプログラム
JP6923332B2 (ja) 自動通訳方法及び装置
JP6802005B2 (ja) 音声認識装置、音声認識方法及び音声認識システム
US11373049B2 (en) Cross-lingual classification using multilingual neural machine translation
JP7170920B2 (ja) トリガードアテンションを用いたエンドツーエンド音声認識のためのシステムおよび方法
JP7051919B2 (ja) ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体
JP2016110082A (ja) 言語モデル学習方法及び装置、音声認識方法及び装置
JP7351018B2 (ja) エンド・ツー・エンド音声認識における固有名詞認識
JP2024019405A (ja) 2パスエンドツーエンド音声認識
JP2023545988A (ja) トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル
US20230368796A1 (en) Speech processing
JP2023175029A (ja) アテンションベースのジョイント音響およびテキストのオンデバイス・エンド・ツー・エンドモデル
US11626107B1 (en) Natural language processing
CN117043856A (zh) 高效流式非递归设备上的端到端模型
US11393454B1 (en) Goal-oriented dialog generation using dialog template, API, and entity data
JP2024512606A (ja) 自己アライメントを用いたストリーミングasrモデル遅延の短縮
US11804225B1 (en) Dialog management system
KR20230156795A (ko) 단어 분할 규칙화
KR20240022598A (ko) 셀프 지도 스피치 사전 트레이닝에서 텍스트 삽입하기
JP2022064779A (ja) 学習装置、予測装置、学習方法および学習プログラム
CN117316139A (zh) 训练语音合成模型及语音合成的方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220427

R150 Certificate of patent or registration of utility model

Ref document number: 7066349

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150