JP2022511139A - 情報処理方法、装置および記憶媒体 - Google Patents

情報処理方法、装置および記憶媒体 Download PDF

Info

Publication number
JP2022511139A
JP2022511139A JP2020500705A JP2020500705A JP2022511139A JP 2022511139 A JP2022511139 A JP 2022511139A JP 2020500705 A JP2020500705 A JP 2020500705A JP 2020500705 A JP2020500705 A JP 2020500705A JP 2022511139 A JP2022511139 A JP 2022511139A
Authority
JP
Japan
Prior art keywords
bilingual
sentence
vocabulary
training
pairs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020500705A
Other languages
English (en)
Other versions
JP7208968B2 (ja
Inventor
シャン リー
ユフイ スン
シャオリン ウー
ジャンウェイ ツゥイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Intelligent Technology Co Ltd
Original Assignee
Beijing Xiaomi Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Intelligent Technology Co Ltd filed Critical Beijing Xiaomi Intelligent Technology Co Ltd
Publication of JP2022511139A publication Critical patent/JP2022511139A/ja
Application granted granted Critical
Publication of JP7208968B2 publication Critical patent/JP7208968B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本開示は、情報処理方法、装置および記憶媒体に関し、前記方法は、N個のオリジナルのバイリンガル語彙ペアを含むバイリンガル語彙テーブルを取得することであって、Nは正の整数であることと、複数のオリジナルのバイリンガルトレーニング文ペアを含むオリジナルのバイリンガルトレーニングセットを取得することと、候補バイリンガル文ペアとして、オリジナルのバイリンガルトレーニングセットから、いずれか一つのオリジナルのバイリンガル語彙ペアにマッチングする少なくとも1つのオリジナルのバイリンガルトレーニング文ペアを選択すること、少なくとも1つの候補バイリンガル文ペアに基づいて、一般化されたバイリンガル文型を構築することと、バイリンガル語彙テーブルおよび一般化されたバイリンガル文型に基づいて、複数の拡張バイリンガルトレーニング文ペアを含む拡張バイリンガルトレーニングセットを取得することとを含む。【選択図】図1

Description

本願は、2019年10月25日に提出された中国特許出願201911025249.7の優先権を主張し、当該出願のすべての内容は、参照により本明細書に組み込まれる。
本開示は、機械翻訳分野に関し、特に、情報処理方法、装置および記憶媒体に関する。
機械翻訳は、機械翻訳モデルを通じてある言語を別の言語に自動的に翻訳する技術であり、幅広い学術的および市場応用価値がある。一般に、バイリンガルパラレルトレーニングコーパス(Corpus)品質が高いほど、スケールが大きいほど、また分野の網羅性が広くなるほど、トレーニングコーパスに基づいてトレーニングされた機械翻訳モデルの翻訳品質が高くなる。これから分かるように、機械翻訳モデルの翻訳品質は、主に利用可能なバイリンガルデータの品質と数に依存するが、現在は大規模の高品質のバイリンガルデータを取得することは困難である。
本開示は、情報処理方法、装置および記憶媒体を提供する。
本開示の実施例の第1の態様によれば、
N個のオリジナルのバイリンガル語彙ペア(Original bilingual vocabulary pair)を含むバイリンガル語彙テーブルを取得することであって、各前記オリジナルのバイリンガル語彙ペアは、第1の言語で表される第1の語彙、および前記第1の語彙と同じ意味を持つ、第2の言語で表される第2の語彙を含み、Nは正の整数であることと、
複数のオリジナルのバイリンガルトレーニング文ペア(Original bilingual training sentence pairs)を含むオリジナルのバイリンガルトレーニングセット(Training set)を取得することであって、前記オリジナルのバイリンガルトレーニング文ペアのそれぞれは、第1の言語で表される第1のトレーニング文、および前記第1のトレーニング文と同じ意味を持つ、第2の言語で表される第2のトレーニング文を含むことと、
候補バイリンガル文ペアとして、前記オリジナルのバイリンガルトレーニングセットからいずれか一つの前記オリジナルのバイリンガル語彙ペアにマッチングする少なくとも1つのオリジナルのバイリンガルトレーニング文ペアを選択することと、
少なくとも1つの前記候補バイリンガル文ペアに基づいて、一般化されたバイリンガル文型を構築することと、
前記バイリンガル語彙テーブルおよび前記一般化されたバイリンガル文型に基づいて、複数の拡張バイリンガルトレーニング文ペアを含む拡張バイリンガルトレーニングセットを取得することとを含む、情報処理方法を提供する。
選択的に、前記候補バイリンガル文ペアとしてのオリジナルのバイリンガルトレーニング文ペアに含まれる第1のトレーニング文は、少なくとも、いずれか一つの前記オリジナルのバイリンガル語彙ペアに含まれる第1の語彙を含み、
前記候補バイリンガル文ペアとしてのオリジナルのバイリンガルトレーニング文ペアに含まれる第2のトレーニング文は、少なくとも、いずれか一つの前記オリジナルのバイリンガル語彙ペアに含まれる第1の語彙と同じ意味を持つ第2の語彙を含む。
選択的に、前記少なくとも1つの前記候補バイリンガル文ペアに基づいて、一般化されたバイリンガル文型を構築することは、
設定条件にしたがって、前記候補バイリンガル文ペアからM個の一般化しようとするバイリンガル文ペアを確定することであって、Mは正の整数であることと、
M個の前記一般化しようとするバイリンガル文ペアに基づいて、M個の一般化されたバイリンガル文型を生成することとを含み、
前記バイリンガル語彙テーブルおよび前記一般化されたバイリンガル文型に基づいて、複数の拡張バイリンガルトレーニング文ペアを含む拡張バイリンガルトレーニングセットを取得することは、
M個の前記一般化されたバイリンガル文型および前記バイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにしたがって、複数の前記拡張バイリンガルトレーニング文ペアを生成することと、
複数の前記拡張バイリンガルトレーニング文ペアに基づいて、前記拡張バイリンガルトレーニングセットを得ることとを含む。
選択的に、前記設定条件は、
前記第1のトレーニング文の長さおよび前記第2のトレーニング文の長さは、両方とも設定された文長閾値より大きいか等しいこと、
前記第1のトレーニング文の長さと前記第2のトレーニング文の長さの比率は、第1の設定比率より大きいか等しく、且つ第2の設定比率より小さいか等しいこと、
前記第1のトレーニング文の翻訳正確率および前記第2のトレーニング文の翻訳正確率は、両方とも設定された正確度閾値より大きいことのうちの少なくとも1つを含む。
選択的に、前記M個の前記一般化しようとするバイリンガル文ペアに基づいて、M個の一般化されたバイリンガル文型を生成することは、
M個の前記一般化しようとするバイリンガル文ペアに含まれるK個のオリジナルのバイリンガル語彙ペアをK個の汎用バイリンガル語彙ペアに置き換えて、M個の一般化されたバイリンガル文型を生成することであって、Kは正の整数であることを含み、
前記M個の前記一般化されたバイリンガル文型および前記バイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにしたがって、複数の前記拡張バイリンガルトレーニング文ペアを生成することは、
M個の前記一般化されたバイリンガル文型中の各前記汎用バイリンガル語彙ペアを、前記バイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにそれぞれ置き換えて、K*N*M個の前記拡張バイリンガルトレーニング文ペアを生成することを含む。
選択的に、前記汎用バイリンガル語彙は、文が完結していないことを指示するための非完結文字を含む。
選択的に、前記方法は、
前記拡張バイリンガルトレーニングセットおよびオリジナルのバイリンガルトレーニングセットに対して融合処理を実行して、ターゲットバイリンガルトレーニングセットを得ることと、
前記ターゲットバイリンガルトレーニングセットに基づいて、モデルトレーニングを実行して、ターゲット翻訳モデルを得ることと、をさらに含み、
前記ターゲット翻訳モデルは、前記第1の言語と前記第2の言語との間で文を翻訳するために使用される。
本開示の実施例の第2の態様によれば、
N個のオリジナルのバイリンガル語彙ペアを含むバイリンガル語彙テーブルを取得するように構成される第1の取得モジュールであって、各前記オリジナルのバイリンガル語彙ペアは、第1の言語で表される第1の語彙、および前記第1の語彙と同じ意味を持つ、第2の言語で表される第2の語彙を含み、Nは正の整数である第1の取得モジュールと、
複数のオリジナルのバイリンガルトレーニング文ペアを含むオリジナルのバイリンガルトレーニングセットを取得するように構成される第2の取得モジュールであって、前記オリジナルのバイリンガルトレーニング文ペアのそれぞれは、第1の言語で表される第1のトレーニング文、および前記第1のトレーニング文と同じ意味を持つ、第2の言語で表される第2のトレーニング文を含む第2の取得モジュールと、
候補バイリンガル文ペアとして、前記オリジナルのバイリンガルトレーニングセットからいずれか一つの前記オリジナルのバイリンガル語彙ペアにマッチングする少なくとも1つのオリジナルのバイリンガルトレーニング文ペアを選択するように構成される選択モジュールと、
少なくとも1つの前記候補バイリンガル文ペアに基づいて、一般化されたバイリンガル文型を構築するように構成される構築モジュールと、
前記バイリンガル語彙テーブルおよび前記一般化されたバイリンガル文型に基づいて、複数の拡張バイリンガルトレーニング文ペアを含む拡張バイリンガルトレーニングセットを取得するように構成される第3の取得モジュールとを含む、情報処理装置を提供する。
選択的に、前記候補バイリンガル文ペアとしてのオリジナルのバイリンガルトレーニング文ペアに含まれる第1のトレーニング文は、少なくとも、いずれか一つの前記オリジナルのバイリンガル語彙ペアに含まれる第1の語彙を含み、
前記候補バイリンガル文ペアとしてのオリジナルのバイリンガルトレーニング文ペアに含まれる第2のトレーニング文は、少なくとも、いずれか一つの前記オリジナルのバイリンガル語彙ペアに含まれる第1の語彙と同じ意味を持つ第2の語彙を含む。
選択的に、前記構築モジュールは、
設定条件にしたがって、前記候補バイリンガル文ペアからM個の一般化しようとするバイリンガル文ペアを確定し、Mは正の整数であり、
M個の前記一般化しようとするバイリンガル文ペアに基づいて、M個の一般化されたバイリンガル文型を生成するように構成され、
第3の取得モジュールは、
M個の前記一般化されたバイリンガル文型および前記バイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにしたがって、複数の前記拡張バイリンガルトレーニング文ペアを生成し、
複数の前記拡張バイリンガルトレーニング文ペアに基づいて、前記拡張バイリンガルトレーニングセットを得るように構成される。
選択的に、前記設定条件は、
前記第1のトレーニング文の長さおよび前記第2のトレーニング文の長さは、両方とも設定された文長閾値より大きいか等しいこと、
前記第1のトレーニング文の長さと前記第2のトレーニング文の長さの比率は、第1の設定比率より大きいか等しく、且つ第2の設定比率より小さいか等しいこと、
前記第1のトレーニング文の翻訳正確率および前記第2のトレーニング文の翻訳正確率は、両方とも設定された正確度閾値より大きいことのうちの少なくとも1つを含む。
選択的に、前記構築モジュールは、さらに、
M個の前記一般化しようとするバイリンガル文ペアに含まれるK個のオリジナルのバイリンガル語彙ペアをK個の汎用バイリンガル語彙ペアに置き換えて、M個の一般化されたバイリンガル文型を生成し、Kは正の整数であるように構成され、
第3の取得モジュールは、さらに、
M個の前記一般化されたバイリンガル文型中の各前記汎用バイリンガル語彙ペアを、前記バイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにそれぞれ置き換えて、K*N*M個の前記拡張バイリンガルトレーニング文ペアを生成するように構成される。
選択的に、前記汎用バイリンガル語彙は、文が完結していないことを指示するための非完結文字を含む。
選択的に、前記装置は、さらに、
前記拡張バイリンガルトレーニングセットおよびオリジナルのバイリンガルトレーニングセットに対して融合処理を実行して、ターゲットバイリンガルトレーニングセットを得るように構成される融合モジュールと、
前記ターゲットバイリンガルトレーニングセットに基づいて、モデルトレーニングを実行して、ターゲット翻訳モデルを得るように構成されるトレーニングモジュールとを含み、
前記ターゲット翻訳モデルは、前記第1の言語と前記第2の言語との間で文を翻訳するために使用される。
本開示の実施例の第3の態様によれば、情報処理装置を提供し、前記装置は、
プロセッサと、
プロセッサの実行可能な命令を格納するように構成されるメモリとを含み、
前記プロセッサは、実行されるときに、前記第1の態様中の情報処理方法におけるステップを実現するように構成される。
本開示の実施例の第4の態様によれば、非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記記憶媒体内の命令を情報処理装置のプロセッサによって実行されるときに、前記装置を前記第1の態様中の情報処理方法を実行することができるようにする。
本開示の実施例によって提供される技術的解決策は、以下の有利な効果を含み得る。
前記技術的解決策からわかるように、本開示は、オリジナルのバイリンガル語彙ペアを含むバイリンガル語彙テーブルを通じて、複数のオリジナルのバイリンガルトレーニング文ペアを含むオリジナルのバイリンガルトレーニングセットから、オリジナルのバイリンガル語彙ペアを含む候補バイリンガル文ペアを取得し、少なくとも1つの候補バイリンガル文ペアに基づいて、一般化されたバイリンガル文型を構築し、さらに、バイリンガル語彙テーブルおよび一般化されたバイリンガル文型によって、複数の拡張バイリンガルトレーニング文ペアを含む拡張バイリンガルトレーニングセットを取得することができる。本開示の技術的解決策では、バイリンガル語彙テーブルに多数の新しい語彙を含み、しかも多数の新しい一般化されたバイリンガル文型を生成することができるため、実現の中で、候補バイリンガル文ペアの一般化を実現することができ、それにより、オリジナルのバイリンガルトレーニングセットに対して拡張処理をして、内容の豊富な拡張バイリンガルトレーニングセットを取得することができ、即ち、大規模で高品質のバイリンガルコーパスを得て、さらにバイリンガルコーパス内のコーパスリソースを更新および強化することができる。
上記の一般的な説明および後述する詳細な説明は、単なる例示および説明であり、本開示を限定するものではないことを理解されたい。
一例示的な実施例によって示される情報処理方法のフローチャート1である。 一例示的な実施例によって示される情報処理方法のフローチャート2である。 一例示的な実施例によって示される情報処理装置のブロック図である。 一例示的な実施例によって示される情報処理装置のハードウェア構成のブロック図である。
ここでの図面は、本明細書に組み込まれてその一部を構成し、本開示と一致する実施例を示し、明細書とともに本開示の原理を説明するために使用される。
ここで、例示的な実施例を詳細に説明し、その例は添付の図面に示す。別の指示がない限り、以下の説明が図面に関する場合、異なる図面の同じ数字は同じまたは類似な要素を表す。以下の例示的な実施例で説明される実施形態は、本開示と一致するすべての実施形態を表すものではない。むしろ、それらは、添付された特許請求の範囲に詳述されるように、本開示の特定の態様と一致する装置および方法の例である。
図1は、一例示的な実施例によって示される情報処理方法のフローチャート1であり、図1に示されるように、前記方法は、次のステップを含む。
ステップ101において、N個のオリジナルのバイリンガル語彙ペアを含むバイリンガル語彙テーブルを取得し、オリジナルのバイリンガル語彙ペアのそれぞれは、第1の言語で表される第1の語彙、および第1の語彙と同じ意味を持つ第2の言語で表される第2の語彙を含み、Nは正の整数である。
ステップ102において、複数のオリジナルのバイリンガルトレーニング文ペアを含むオリジナルのバイリンガルトレーニングセットを取得し、オリジナルのバイリンガルトレーニング文ペアのそれぞれは、第1の言語で表される第1のトレーニング文、および第1のトレーニング文と同じ意味を持つ第2の言語で表される第2のトレーニング文を含む。
ステップ103において、候補バイリンガル文ペアとして、オリジナルのバイリンガルトレーニングセットから、いずれか一つのオリジナルのバイリンガル語彙ペアにマッチングする少なくとも1つのオリジナルのバイリンガルトレーニング文ペアを選択する。
ステップ104において、少なくとも1つの候補バイリンガル文ペアに基づいて、一般化されたバイリンガル文型を構築する。
ステップ105において、バイリンガル語彙テーブルおよび一般化されたバイリンガル文型に基づいて、複数の拡張バイリンガルトレーニング文ペアを含む拡張バイリンガルトレーニングセットを取得する。
ここで、語彙のカテゴリと分野に基づいて、多数の前記カテゴリと分野のバイリンガル語彙を手動で注釈して、オリジナルのバイリンガル語彙ペアを取得することができる。例えば、人の名前に関連するバイリンガル語彙ペア等を確定する。ここで、オリジナルのバイリンガル語彙ペアは、第1の言語で表される第1の語彙、および前記第1の語彙と同じ意味を持つ第2の言語で表される第2の語彙を含み、例えば、第1の言語が中国語であり、第1の語彙が「張三」であると、第2の言語は英語であり、第2の語彙が「zhang san」である。
オリジナルのバイリンガル語彙ペアを取得した後、オリジナルのバイリンガル語彙ペアに基づいて、バイリンガル語彙テーブルを構築することができる。表1に示されたように、表1は、本開示によって示されるバイリンガル語彙テーブルであり、表1には、3つのオリジナルのバイリンガル語彙ペアを含み、ここで、1個目のオリジナルのバイリンガル語彙ペアに含まれる第1の語彙は「張三」であり、第2の語彙は「zhang san」であり、2番目のオリジナルのバイリンガル語彙ペアに含まれる第1の語彙は「李XX」であり、第2の語彙は「li XX」であり、3番目のオリジナルのバイリンガル語彙ペアに含まれる第1の語彙は小紅であり、第2の語彙は、「xiao hong」である。
Figure 2022511139000002
ここで、バイリンガル語彙テーブルは特定の分野に対して手動注釈して取得したものであり得、バイリンガル語彙テーブルは、前記特定分野内の未登録語、低頻度語、高頻度語を含む。バイリンガル語彙の選択自由度が高く、高頻度語は、主により多くのバイリンガル文型を見つけるために使用され、低頻度語は、主にデータを補足するために使用され、未登録語は、バイリンガル語彙テーブルに存在しない語を指し、例えば、バイリンガル語彙テーブルには、語彙a、語彙b、語彙cが含まれるとした場合、語彙dは未登録語であり、未登録語はセット外語とも呼ばれる。
本開示の実施例では、バイリンガル語彙テーブル中のオリジナルのバイリンガル語彙ペアに基づいて、複数のオリジナルのバイリンガルトレーニング文ペアを含むオリジナルのバイリンガルトレーニングセットから、いずれか一つのオリジナルのバイリンガル語彙ペアを含むオリジナルのバイリンガルトレーニング文ペアを取得することができる。例えば、バイリンガル語彙テーブル中のオリジナルのバイリンガル語彙ペアに基づいて、オリジナルのバイリンガルトレーニングセットから、前記オリジナルのバイリンガル語彙ペアにマッチングするオリジナルのバイリンガルトレーニング文ペアを検索し、検索できたオリジナルのバイリンガルトレーニング文ペアは、候補バイリンガル文ペアとして使用される。例えば、前記バイリンガル語彙テーブル中のオリジナルのバイリンガル語彙ペアと、オリジナルのバイリンガルトレーニングセットに含まれるオリジナルのバイリンガルトレーニング文ペアに基づいて、マッチングを行い、マッチング結果にしたがって、オリジナルのバイリンガル語彙ペアが含まれるオリジナルのバイリンガルトレーニング文ペアが得られ、さらに、オリジナルのバイリンガル語彙ペアが含まれるオリジナルのバイリンガルトレーニング文ペアは、候補バイリンガル文ペアとして使用される。
表2に示されたように、表2は、本開示によって示されるオリジナルのバイリンガルトレーニングセットであり、表2のオリジナルのバイリンガルトレーニングセットは、3つのオリジナルのバイリンガルトレーニング文ペアを含み、オリジナルのバイリンガルトレーニング文ペアのそれぞれは、すべて第1の言語で表される第1のトレーニング文、および前記第1のトレーニング文と同じ意味を持つ、第2の言語で表される第2のトレーニング文を含む。
Figure 2022511139000003
本開示の実施例では、バイリンガル語彙テーブルに基づいて候補バイリンガル文ペアを取得するプロセスにおいて、バイリンガル語彙テーブル中のオリジナルのバイリンガル語彙ペアを、オリジナルのバイリンガルトレーニングセットのオリジナルのバイリンガルトレーニング文ペアとそれぞれ比較することができ、比較のプロセスにおいて、第1の言語の第1の語彙は、第1の言語の第1のトレーニング文と比較し、第2の言語の第2の語彙は、第2の言語の第2のトレーニング文と比較する。
表1の第1の語彙と表2の第1のトレーニング文との比較を例にすると、表1に示されるバイリンガル語彙テーブルの「張三」を、表2の「李XXは、安定した税金政策を維持する重要性も強調し、中国は経済回復の重要な時期にあることを指し示した。」、「東莞科学館の近くに駐車する方法を知りたいのか?」および「それぞれの花にはユニークな意味がある。」と比較することができる。表2には「張三」にマッチングする人の名前が含まれていないので、この場合、前記オリジナルのバイリンガルトレーニングセットのオリジナルのバイリンガルトレーニング文ペアには、オリジナルのバイリンガル語彙ペアが含まれていないことを示す。
表1に示されるバイリンガル語彙テーブルの「李XX」を、表2の「李XXは、安定した税金政策を維持する重要性も強調し、中国は経済回復の重要な時期にあることを指し示した。」、「東莞科学館の近くに駐車する方法を知りたいのか?」および「それぞれの花にはユニークな意味がある。」とそれぞれ比較する場合、表2に「李XX」とマッチングする人の名前を含むため、前記オリジナルのバイリンガルトレーニングセットのオリジナルのバイリンガルトレーニング文ペアには、オリジナルのバイリンガル語彙ペアを含むことを示す。
バイリンガル語彙テーブル中のオリジナルのバイリンガル語彙ペアを、オリジナルのバイリンガルトレーニングセットのオリジナルのバイリンガルトレーニング文ペアと比較する前に、オリジナルのバイリンガルトレーニングセットのオリジナルのバイリンガルトレーニング文ペアに対して単語分割を行う必要がある。表3は、本開示によって示される単語分割表であり、表3に示されたように、単語属性にしたがって、オリジナルのバイリンガルトレーニングセットのオリジナルのバイリンガルトレーニング文ペアを分割することができ、それにより、すべての分割後の各単語は完全な意味を持つ。
Figure 2022511139000004
本開示の実施例では、オリジナルのバイリンガルトレーニングセットのオリジナルのバイリンガルトレーニング文ペアに対して単語分割を行ってから、走査の方式によって、バイリンガル語彙テーブル中のオリジナルのバイリンガル語彙ペアに基づいて、オリジナルのバイリンガルトレーニングセットのオリジナルのバイリンガルトレーニング文ペアに対して検索して、候補バイリンガル文ペアを取得する。
例えば、表1の「李XX」に基づいて、表3から「李XX は 、 安定した 税金 政策 を 維持する 重要性も 強調し 、 中国 は 経済 回復 の 重要な 時期 に ある こと を 指し示した 。」を確定し出すことができ、対応的に、表1の「li XX」に基づいて、表3から「li XX also stressed the importance of maintaining a stable tax policy、 pointing out that china is in a critical period of economic recovery.」を確定し出すことができる場合、候補バイリンガル文ペアとして、バイリンガル語彙テーブルに基づいて、オリジナルのバイリンガルトレーニングセットから、いずれか一つのオリジナルのバイリンガル語彙ペアにマッチングする少なくとも1つのオリジナルのバイリンガルトレーニング文ペアを選択することができることを示す。
候補バイリンガル文ペアを確定した後、少なくとも1つの前記候補バイリンガル文ペアに基づいて、一般化されたバイリンガル文型を構築することができる。ここで、候補バイリンガル文ペアに含まれるオリジナルのバイリンガル語彙ペアを汎用バイリンガル語彙ペアに置き換えて、一般化されたバイリンガル文型を生成することができる。例えば、「李XX」に基づいて、表3から「李XX は 、 安定した 税金 政策 を 維持する 重要性も 強調し 、 中国 は 経済 回復 の 重要な 時期 に ある こと を 指し示した 。」が候補バイリンガル文ペアの文であることを確定された場合、その中の「李XX」を「<X1>」に置き換えることができ、ここで、<X1>は汎用バイリンガル語彙であってもよく、他の人の名前であってもよく、<X1>の単語属性は、「李XX」と同じであり得る。好ましくて、<X1>と「李XX」は揃えられるべきであり、それによって、文型全体に影響を与えることがない。
汎用バイリンガル語彙に基づいて候補バイリンガル文ペアのオリジナルのバイリンガル語彙ペアを置き換えることを例として、汎用バイリンガル語彙に基づいて置き換えてから、対応する一般化されたバイリンガル文型を得ることができ、このように、一般化されたバイリンガル文型の汎用バイリンガル語彙を他の人の名前に置き換える方式を介して、複数の拡張バイリンガルトレーニング文ペア、および複数の拡張バイリンガルトレーニング文ペアを含む拡張バイリンガルトレーニングセットを得ることができ、さらに、バイリンガルコーパス内のコーパスリソースを充実させる。
本開示の実施例では、バイリンガル語彙テーブルに多数の新しい語彙を含み、且つ多数の新しい一般化されたバイリンガル文型を生成する生成することができるため、実現プロセスにおいて、候補バイリンガル文ペアの一般化を実現することができ、オリジナルのバイリンガルトレーニングセットに対して拡張処理を行い、内容の豊富な拡張バイリンガルトレーニングセットを得ることができ、即ち、大規模で高品質のバイリンガルコーパスを得て、さらにバイリンガルコーパス内のコーパスリソースを更新および強化することができる。
他の選択的な実施例において、候補バイリンガル文ペアとしてのオリジナルのバイリンガルトレーニング文ペアに含まれる第1のトレーニング文は、少なくとも、いずれか一つのオリジナルのバイリンガル語彙ペアに含まれる第1の語彙を含み、
候補バイリンガル文ペアとしてのオリジナルのバイリンガルトレーニング文ペアに含まれる第2のトレーニング文は、少なくとも、いずれか一つのオリジナルのバイリンガル語彙ペアに含まれる第1の語彙と同じ意味を持つ第2の語彙を含む。
例えば、表1の「李XX」に基づいて、表3から「李XX は 、 安定した 税金 政策 を 維持する 重要性も 強調し 、 中国 は 経済 回復 の 重要な 時期 に ある こと を 指し示した 。」を確定することができ、対応的に、表1の「li XX」に基づいて、表3から「li XX also stressed the importance of maintaining a stable tax policy、 pointing out that china is in a critical period of economic recovery.」を確定し、「李XX」は、いずれか一つのオリジナルのバイリンガル語彙ペアに含まれる第1の語彙であり、「li XX」は、いずれか一つのオリジナルのバイリンガル語彙ペアに含まれる第2の語彙であり、表3から確定された2つの文は、それぞれ候補バイリンガル文ペアに含まれる第1のトレーニング文、および候補バイリンガル文ペアに含まれる第2のトレーニング文である。ここで、バイリンガル語彙テーブル中のオリジナルのバイリンガル語彙ペアを通じて、オリジナルのバイリンガルトレーニングセットのオリジナルのバイリンガルトレーニング文から、候補バイリンガル文ペアを確定すると、ユーザにとって必要な候補バイリンガル文ペアを正確に確定することができ、さらに正確な一般化されたバイリンガル文型を得ることができる。
他の選択的な実施例において、少なくとも1つの候補バイリンガル文ペアに基づいて、一般化されたバイリンガル文型を構築することは、
設定条件にしたがって、候補バイリンガル文ペアからM個の一般化しようとするバイリンガル文ペアを確定することであって、Mは正の整数であることと、
M個の一般化しようとするバイリンガル文ペアに基づいて、M個の一般化されたバイリンガル文型を生成することとを含み、
バイリンガル語彙テーブルおよび一般化されたバイリンガル文型に基づいて、複数の拡張バイリンガルトレーニング文ペアを含む拡張バイリンガルトレーニングセットを取得することは、
M個の一般化されたバイリンガル文型およびバイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにしたがって、複数の拡張バイリンガルトレーニング文ペアを生成することと、
複数の拡張バイリンガルトレーニング文ペアに基づいて、拡張バイリンガルトレーニングセットを得ることとを含む。
他の選択的な実施例において、前記設定条件は、
前記第1のトレーニング文の長さおよび前記第2のトレーニング文の長さは、両方とも設定された文長閾値より大きいか等しいこと、
前記第1のトレーニング文の長さと前記第2のトレーニング文の長さの比率は、第1の設定比率より大きいか等しく、且つ第2の設定比率より小さいか等しいこと、
前記第1のトレーニング文の翻訳正確率および前記第2のトレーニング文の翻訳正確率は、両方とも設定された正確度閾値より大きいことのうちの少なくとも1つを含む。
ここで、第1のトレーニング文の長さおよび第2のトレーニング文の長さは、前記第1のトレーニング文および第2のトレーニング文に対して単語分割を行った後、第1のトレーニング文および第2のトレーニング文に含まれる単語の数を指す。例えば、候補バイリンガル文ペアに含まれる第1のトレーニング文に対して単語分割を行うと、分割後に得られた単語の数が、前記第1のトレーニング文の長さとして使用することができる。
第1のトレーニング文が「李XXは、安定した税金政策を維持する重要性も強調し、中国は経済回復の重要な時期にあることを指し示した。」であることを例とすると、分割後の第1のトレーニング文は、「李XX は 、 安定した 税金 政策 を 維持する 重要性も 強調し 、 中国 は 経済 回復 の 重要な 時期 に ある こと を 指し示した 。」であり、それで、前記第1のトレーニング文の長さが20である。実現プロセスにおいて、文中の単語を文字またはスペース文字で分割することで分割することができる。
本開示の実施例では、文長さ閾値、第1の設定比率、第2の設定比率および設定正確率の閾値は、すべて必要に応じて設定することができ、例えば、文長さ閾値を10に設定し、第1の設定比率を1/5に設定し、第2の設定比率を5に設定し、設定正確率の閾値を0.25に設定することができる。
ここで、第1のトレーニング文および第2のトレーニング文の下限を設定することにより、取得された一般化しようとするバイリンガル文ペアに含まれる文がフレーズ(phrases)または語彙ではなくすべて長い文であることを確保し、こうして、データ処理の効率および有効性を向上させる。
第1のトレーニング文および第2のトレーニング文は同じ意味を持つが、言語だけ異なるため、第1のトレーニング文および第2のトレーニング文を翻訳するとき、翻訳された文の長さの比率は、設定範囲内であり、設定範囲内ではない場合、前記トレーニング文に対応するコーパスデータが正確ではない可能性があることを示す。本開示の実施例では、第1のトレーニング文および第2のトレーニング文の比率範囲を設定することにより、コーパスデータの正確度を確保することができる。第1のトレーニング文および第2のトレーニング文の翻訳正確率を取得し、また翻訳正確率が設定正確率の閾値より高い場合にのみ、前記第1のトレーニング文および第2のトレーニング文を含むコーパスデータを有効コーパスデータとすることにより、コーパスデータの正確度をさらに向上させることができる。
本開示の実施例では、設定条件にしたがって、候補バイリンガル文ペアからM個の一般化しようとするバイリンガル文ペアを確定し、一般化しようとするバイリンガル文ペアのスクリーニング条件に対する制限によって、不正確なデータを検索する確率を減らすことができ、さらに得られた一般化しようとするバイリンガル文ペアの精度を向上させる。
他の選択的な実施例において、M個の一般化しようとするバイリンガル文ペアにしたがって、M個の一般化されたバイリンガル文型を生成することは、
M個の一般化しようとするバイリンガル文ペア中に含まれるK個のオリジナルのバイリンガル語彙ペアをK個の汎用バイリンガル語彙ペアに置き換えて、M個の一般化されたバイリンガル文型を生成することであって、Kは正の整数であることを含み、
M個の一般化されたバイリンガル文型およびバイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにしたがって、複数の拡張バイリンガルトレーニング文ペアを生成することは、
M個の一般化されたバイリンガル文型の各汎用バイリンガル語彙ペアは、バイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにそれぞれ置き換えて、K*N*M個の拡張バイリンガルトレーニング文ペアを生成することを含む。
ここで、M個の一般化しようとするバイリンガル文ペアに含まれるK個のオリジナルのバイリンガル語彙ペアを、K個の汎用バイリンガル語彙ペアに置き換えることにより、それぞれK個の汎用バイリンガル語彙ペアを含むM個の一般化されたバイリンガル文型を生成する。M個の一般化されたバイリンガル文型で複数のタイプの単語属性の語彙の置き換えを実現する必要がある場合にも、良好な互換性があり、例えば、名詞と動詞の両方の置き換えを行うことができるM個の一般化されたバイリンガル文型等を生成することができる。
M個の一般化されたバイリンガル文型中の各前記汎用バイリンガル語彙ペアを、バイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにそれぞれ置き換えることにより、K*N*M個の前記拡張バイリンガルトレーニング文ペアを生成することができる。
このようにして、より多い一般化されたバイリンガル文型を取得することができ、一般化されたバイリンガル文型中の代替文字をバイリンガル語彙テーブル中のオリジナルのバイリンガル語彙ペアに置き換える場合、より多いバイリンガルコーパスデータを取得することができ、データ取得に対する柔軟性と多様性を向上させることができる。
M=1の場合、即ち、一般化しようとするバイリンガル文ペアが1つだけあり、且つ前記一般化しようとするバイリンガル文ペアにK個のオリジナルのバイリンガル語彙を含む場合、K個の汎用バイリンガル語彙に基づいて前記K個のオリジナルのバイリンガル語彙を置き換えて、一般化されたバイリンガル文型を1つ生成することができる。このように、一般化されたバイリンガル文型中の各汎用バイリンガル語彙を、バイリンガル語彙テーブル中のN個オリジナルのバイリンガル語彙に置き換えて、N*Kの拡張バイリンガルトレーニング文ペアを生成することができる。
本開示の実施例では、一般化しようとするバイリンガル文ペア中のオリジナルのバイリンガル語彙ペアを前記一般化しようとするバイリンガル文ペアの他の語彙に区別される汎用バイリンガル語彙に置き換えることにより、前記汎用バイリンガル語彙への快速の位置づけに便利であり、前記汎用バイリンガル語彙に対して対応する処理を行う。例えば、一般化しようとするバイリンガル文ペアの他の語彙の単語属性と同じ汎用バイリンガル語彙ペアを通じて、一般化しようとするバイリンガル文ペア中のオリジナルのバイリンガル語彙ペアを置き換え、こうして、前記汎用バイリンガル語彙ペアおよび一般化しようとするバイリンガル文ペアに元々存在した他の語彙に基づいて完全な文ペアを構成することができ、データ処理效率の向上の基で、新しく増加した汎用バイリンガル語彙と一般化されたバイリンガル文間の非互換性を減らすことができる。
本開示の実施例では、バイリンガル語彙テーブルと一般化しようとするバイリンガル文ペアによって、一般化されたバイリンガル文型を生成し、バイリンガル語彙テーブル中のオリジナルのバイリンガル語彙が、前記一般化されたバイリンガル文型に対して、一般化および拡張処理を行うことにより、大規模な拡張バイリンガルトレーニング文ペアを得て、拡張バイリンガルトレーニングセットを生成することができる。そして、バイリンガル語彙テーブルおよび一般化しようとするバイリンガル文ペア中のデータは、すべて正確なスクリーニングを通じて得られたものであるので、同じく拡張バイリンガルトレーニングセットのデータ品質を向上させることができる。
本開示の実施例では、前記汎用バイリンガル語彙が、前記第1の言語および第2の言語の語彙認識を干渉しない文字および文字の組み合わせである。例えば、汎用バイリンガル語彙が、第1の言語および第2の言語以外の言語の文字または文字の組み合わせであってもよい。
他の選択的な実施例において、汎用バイリンガル語彙は、文が完結していないことを指示するための非完結文字を含む。
ここで、汎用バイリンガル語彙を非完結文字に設定することにより、前記汎用バイリンガル語彙ペアの第1のバイリンガルコーパスデータ中の第1のバイリンガル語彙を使用して置き換えるときに、文全体の属性に対する汎用バイリンガル語彙の影響を減らすことができ、さらに、得られた第2のバイリンガル予測データの正確度を向上させることができる。
他の選択的な実施例において、前記方法は、
拡張バイリンガルトレーニングセットおよびオリジナルのバイリンガルトレーニングセットに対して融合処理を実行して、ターゲットバイリンガルトレーニングセットを得ることと、
ターゲットバイリンガルトレーニングセットに基づいて、モデルトレーニングを実行して、ターゲット翻訳モデルを得ることと、をさらに含み、
ターゲット翻訳モデルは、第1の言語と第2の言語間のコーパスデータの翻訳を行うために使用される。
他の選択的な実施例において、第1のバイリンガル語彙および第2のバイリンガル語彙の単語属性は名詞である。
ここで、拡張バイリンガルトレーニングセットおよびオリジナルのバイリンガルトレーニングセットに対して融合処理を実行して、ターゲットバイリンガルトレーニングセットを得た後、設定された機械翻訳モデルに基づいて、新しい機械翻訳モデルをトレーニングし、それにより機械翻訳モデルの翻訳品質を改善させることができる。
他の選択的な実施例において、第1の語彙および第2の語彙の単語属性は、名詞、形容詞、動詞、副詞等であり得、本明細書では特に限定しない。
図2は、一例示的な実施例によって示される情報処理方法のフローチャート2であり、図2に示されたように、前記方法は、次のステップを含む。
ステップ201において、バイリンガル語彙テーブルを構築する。
ここで、名前付きエンティティ語彙による翻訳エラーにしたがって、前記エンティティ語彙のカテゴリと分野を確定し、前記エンティティ語彙に対応するバイリンガル語彙ペアを確定することができる。例えば、多数の前記分野のバイリンガル語彙ペア
Figure 2022511139000005
を手動注釈して、それにより、前記バイリンガル語彙ペアにしたがって、バイリンガル語彙テーブルを構築する。ここで、lexは、バイリンガル語彙テーブルに含まれるバイリンガル語彙ペアを表し、lex_x1は、1番目の第1の言語のバイリンガル語彙を表し、lex_y1は、1番目の第2の言語のバイリンガル語彙を表し、lex_xiは、i番目の第1の言語のバイリンガル語彙を表し、lex_yiは、i番目の第2の言語のバイリンガル語彙を表し、lex_xnは、n番目の第1の言語のバイリンガル語彙を表し、lex_ynは、n番目の第2の言語のバイリンガル語彙を表し、iおよびNは正の整数である。
エンティティ語彙が人の名前であることを例とすると、既存のバイリンガルデータの人の名前エンティティに対するカバレッジ(Coverage)が限られているため、前記バイリンガルデータに基づいてトレーニングされた機械翻訳モデルが入力された人の名前を正確に翻訳することができなく、それにより、誤った翻訳結果が発生する。このとき、ユーザからフィードバックされた翻訳エラーにしたがって、多数のバイリンガルの人の名前を収集して、人の名前に基づくバイリンガル辞書を生成し、即ち、人の名前に基づくバイリンガル語彙テーブルを生成することができる。表4に示されたように、表4は、本開示によって示される人の名前のバイリンガル辞書であり、ここで、「李XX|||LiXX」は、属于高頻度のバイリンガル語彙に属し、同時に人の名前のカテゴリにも属する。ここで、「|||」は分割記号である。バイリンガル辞書を構築するとき、トレーニングデータ中の未登録語および低頻度語以外には、前記カテゴリの高頻度の語彙を同時に追加することができ、それにより、後続に、オリジナルのバイリンガルトレーニングセットから関連するバイリンガル文型を検索するために使用される。
Figure 2022511139000006
ステップ202において、一般化されたバイリンガル文型を構築する。
ここで、ステップ201で収集された特定分野のバイリンガル語彙ペアにしたがって、オリジナルのバイリンガルトレーニングセット
Figure 2022511139000007
で、マッチングされる候補バイリンガル文ペアを自動的に検索して、その後、候補バイリンガル文ペアに基づいて、一般化しようとするバイリンガル文ペアを得て、セットルールによって高可用性のバイリンガル整列非完結文字を持つ一般化されたバイリンガル文型を得る。ここで、x1は、1番目の第1の言語の第1のトレーニング文を表し、y1は、1番目の第2の言語の第2のトレーニング文を表し、xmは、m番目の第1の言語の第1のトレーニング文を表し、ymは、m番目の第2の言語の第2のトレーニング文を表し、Mは正の整数である。例として、次のようである。
(1)表5に示されたように、中国語と英語のバイリンガルデータを例とすると、表5は、本開示によって示されるオリジナルのバイリンガルトレーニングセットであり、オリジナルのバイリンガルトレーニングセットDに合計5つのオリジナルのバイリンガルトレーニング文ペアが含まれると仮定する。
Figure 2022511139000008
(2)表6に示されたように、オリジナルのバイリンガルトレーニングセットD中の中国語ソース言語文(第1のトレーニング文)および英語ターゲット言語文(第2のトレーニング文)に対して単語分割を行い、表6は、本開示によって示される分割後のオリジナルのバイリンガルトレーニングセット表であり、分割後のオリジナルのバイリンガルトレーニングセットは次のようである。
Figure 2022511139000009
(3)バイリンガル語彙テーブルlex中の各バイリンガル語彙
Figure 2022511139000010
を走査すると、ここで、lexは、バイリンガル語彙テーブルを表し、lexiは、バイリンガル語彙テーブルのバイリンガル語彙を表し、lex_x1は、i番目の第1の言語のバイリンガル語彙を表し、lex_y1は、i番目の第2の言語のバイリンガル語彙を表し、オリジナルのバイリンガルトレーニングセットDからバイリンガル文ペア
Figure 2022511139000011
を探し、ここで、Dmatchは、オリジナルのバイリンガルトレーニングセットDから検索できたバイリンガル文ペアを表し、x1は、1番目の第1の言語の第1のトレーニング文を表し、y1は、1番目の第2の言語の第2のトレーニング文を表し、xsは、s番目の第1の言語の第1のトレーニング文を表し、ysは、s番目の第2の言語の第2のトレーニング文を表し、ここで、Dmatchは、次のa)からe)のうちで少なくとも1つを含む設定条件を満たす。
a)xiおよびyiの両方の文の長さは、10未満であってはならない。
b)xiは、1つのlex_xiを含み、且つyiも1つのlex_yiを含む。
c)xiおよびyiの文の長さの割合は、5以下且つ1/5以上である。
d)xiおよびyiは、最大1つのバイリンガル語彙ペアにマッチングする。
e)既存のソース言語文からターゲット言語文への機械翻訳モデルM_(src→tgt)および逆のターゲット言語からソース言語への機械翻訳モデルM_(tgt→src)にしたがって、xiを翻訳して対応する訳文xiを取得し、yiを翻訳して対応する訳文yiを取得し、その後、バイリンガルエバリュエーションアンダースタディ(BLEU:Bilingual Evaluation Understudy)を使用してそれぞれ(xi,xi)および(yi,yi)を評価し、翻訳正確率scorexおよびscoreyを取得し、且つscorexおよびscoreyは両方とも0.25より大きい。ここで、xiは、i番目の第1の言語の第1のトレーニング文を表し、yiは、i番目の第2の言語の第2のトレーニング文を表す。
以上の設定条件に基づいて、バイリンガル語彙テーブルlexにしたがって、オリジナルのバイリンガルトレーニングセットDから条件に合う一般化しようとするバイリンガル文ペアDsent_matchを取得することができ、表7に示されたように、表7は、本開示によって示される一般化しようとするバイリンガル文ペア表であり、Dsent_matchは、次のようなことを含む。
Figure 2022511139000012
(4)Dsent_match中の各バイリンガル文ペアに対して、非終端語彙「<X1>」を使用してそれぞれソース言語文とターゲット言語文でのマッチングされる語彙を置き換えることができ、それにより一般化能力を持つ一般化されたバイリンガル文型Daotu_sent_matchを取得する。表8に示されたように、表8は、本開示によって示される一般化されたバイリンガル文型であり、Daotu_sent_matchは、次のようなことを含む。
Figure 2022511139000013
他の選択的な実施例において、前記オリジナルのバイリンガルトレーニングセットにしたがってバイリンガル文型を自動的に抽出することに加えて、さらに、文型翻訳エラーに関する問題にしたがって、手動注釈の方法によって、一般化能力を持つバイリンガル文型データDmanual_sent_patternを構築することができる。表9に示されたように、表9は、本開示によって示される一般化能力を持つバイリンガル文型データであり、Dmanual_sent_patternは、次のようなことを含む。
Figure 2022511139000014
上記した自動抽出および手動注釈の方法に基づいて、高品質の分野関連の一般化されたバイリンガル文型
Figure 2022511139000015
を取得することができる。
ステップ203において、拡張分野に関連する拡張バイリンガルトレーニングセットを構築する。
ここで、構築されたバイリンガル整列非完結文字を持つ一般化されたバイリンガル文型および対応するバイリンガル語彙テーブルlexにしたがって、各バイリンガル文型ペアを列挙することにより、その中のバイリンガル整列非完結文字をバイリンガル語彙テーブルの各バイリンガル語彙に置き換える。このようにして、限られたM個の一般化されたバイリンガル文型およびN個の対応する分野のバイリンガル語彙テーブルに基づいて、前記分野に関連するN*M個の高品質の拡張バイリンガルトレーニング文ペアDaugmentを取得することができる。
例えば、前記表8の例示中の人の名前分野に関連する2つのバイリンガル文型および表4の5つのバイリンガルエンティティ語彙を使用して、以下のような10個の拡張バイリンガルトレーニング文ペアを構築する。表10に示されたように、表10は、本開示によって示される拡張バイリンガルトレーニング文ペア表であり、Daugmentは、次のようなことを含む。
Figure 2022511139000016
ステップ204において、拡張バイリンガルトレーニングセットおよびオリジナルのバイリンガルトレーニングセットを融合して、また融合により得られたターゲットバイリンガルトレーニングセットに基づいて機械翻訳モデル再トレーニングを行う。
ここで、ステップ203で生成された拡張バイリンガルトレーニングセットDaugmentと、オリジナルのバイリンガルトレーニングセットDを合併して、規模がより大きいターゲットバイリンガルトレーニングセット
Figure 2022511139000017
を構築して、設定翻訳モデルに対するD'の再トレーニングに基づいて、新しい機械翻訳モデルを得て、それにより、機械翻訳モデルの翻訳品質を改善する。
本開示の実施例では、オリジナルのバイリンガルトレーニングセット中のコーパスデータ中のバイリンガル文型および手動注釈したバイリンガル文型を自動的にマイニングすることにより、また、蓄積された分野関連のバイリンガル辞書データを使用して、分野関連のバイリンガル語彙にしたがって、オリジナルのバイリンガル文ペアから単語スロット情報を備えた高品質のバイリンガル文型を抽出する。自動抽出または手動注釈の単語スロット情報を備えたバイリンガル文型および分野関連のバイリンガル語彙にしたがって、拡張バイリンガルデータを構築し、それにより、大規模で高品質の分野関連のバイリンガルコーパスデータを生成し、機械翻訳モデルのトレーニングに使用されることができる。
これらの新しく追加されたバイリンガルコーパスデータには、複数の新しい語彙情報または新しいバイリンガル文型情報が含まれ、且つユーザによってフィードバックされた翻訳エラーを考慮する要素とするため、新しい単語、ホットワード等のエンティティのカテゴリ単語での元の機械翻訳モデルの翻訳品質を効果的に改善することができ、元のバイリンガルコーパスデータで現れたことがない文型に対する機械翻訳モデルの翻訳品質も改善することができ、それにより、機械翻訳製品のユーザの使用感を効果的に向上させる。
図3は、一例示的な実施例によって示される情報処理装置ブロック図である。図3に示されたように、前記情報処理装置300は、主に、
N個のオリジナルのバイリンガル語彙ペアを含むバイリンガル語彙テーブルを取得するように構成される第1の取得モジュールであって、各前記オリジナルのバイリンガル語彙ペアは、第1の言語で表される第1の語彙、および前記第1の語彙と同じ意味を持つ、第2の言語で表される第2の語彙を含み、Nは正の整数である第1の取得モジュール301と、
複数のオリジナルのバイリンガルトレーニング文ペアを含むオリジナルのバイリンガルトレーニングセットを取得するように構成される第2の取得モジュール302であって、前記オリジナルのバイリンガルトレーニング文ペアのそれぞれは、第1の言語で表される第1のトレーニング文、および前記第1のトレーニング文と同じ意味を持つ、第2の言語で表される第2のトレーニング文を含む第2の取得モジュール302と、
候補バイリンガル文ペアとして、前記オリジナルのバイリンガルトレーニングセットからいずれか一つの前記オリジナルのバイリンガル語彙ペアにマッチングする少なくとも1つのオリジナルのバイリンガルトレーニング文ペアを選択するように構成される選択モジュール303と、
少なくとも1つの前記候補バイリンガル文ペアに基づいて、一般化されたバイリンガル文型を構築するように構成される構築モジュール304と、
前記バイリンガル語彙テーブルおよび前記一般化されたバイリンガル文型に基づいて、複数の拡張バイリンガルトレーニング文ペアを含む拡張バイリンガルトレーニングセットを取得するように構成される第3の取得モジュール305とを含む。
他の選択的な実施例において、前記候補バイリンガル文ペアとしてのオリジナルのバイリンガルトレーニング文ペアに含まれる第1のトレーニング文は、少なくとも、いずれか一つの前記オリジナルのバイリンガル語彙ペアに含まれる第1の語彙を含み、
前記候補バイリンガル文ペアとしてのオリジナルのバイリンガルトレーニング文ペアに含まれる第2のトレーニング文は、少なくとも、いずれか一つの前記オリジナルのバイリンガル語彙ペアに含まれる第1の語彙と同じ意味を持つ第2の語彙を含む。
他の選択的な実施例において、前記構築モジュールは、例えば、
設定条件にしたがって、前記候補バイリンガル文ペアからM個の一般化しようとするバイリンガル文ペアを確定し、Mは正の整数であり、
M個の前記一般化しようとするバイリンガル文ペアに基づいて、M個の一般化されたバイリンガル文型を生成するように構成されることができ、
第3の取得モジュールは、例えば、
M個の前記一般化されたバイリンガル文型および前記バイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにしたがって、複数の前記拡張バイリンガルトレーニング文ペアを生成し、
複数の前記拡張バイリンガルトレーニング文ペアに基づいて、前記拡張バイリンガルトレーニングセットを得るように構成されることができる。
他の選択的な実施例において、前記設定条件は、
前記第1のトレーニング文の長さおよび前記第2のトレーニング文の長さは、両方とも設定された文長閾値より大きいか等しいこと、
前記第1のトレーニング文の長さと前記第2のトレーニング文の長さの比率は、第1の設定比率より大きいか等しく、且つ第2の設定比率より小さいか等しいこと、
前記第1のトレーニング文の翻訳正確率および前記第2のトレーニング文の翻訳正確率は、両方とも設定された正確度閾値より大きいことのうちの少なくとも1つを含む。
他の選択的な実施例において、前記構築モジュールは、例えば、
M個の前記一般化しようとするバイリンガル文ペアに含まれるK個のオリジナルのバイリンガル語彙ペアをK個の汎用バイリンガル語彙に置き換えて、M個の一般化されたバイリンガル文型を生成し、Kは正の整数であるように構成されることができ、
第3の取得モジュールは、例えば、さらに、
M個の前記一般化されたバイリンガル文型中の各前記汎用バイリンガル語彙ペアを、前記バイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにそれぞれ置き換えて、K*N*M個の前記拡張バイリンガルトレーニング文ペアを生成するように構成されることができる。
他の選択的な実施例において、前記汎用バイリンガル語彙は、文が完結していないことを指示するための非完結文字を含む。
他の選択的な実施例において、前記装置は、さらに、
前記拡張バイリンガルトレーニングセットおよびオリジナルのバイリンガルトレーニングセットに対して融合処理を実行して、ターゲットバイリンガルトレーニングセットを得るように構成される融合モジュールと、
前記ターゲットバイリンガルトレーニングセットに基づいて、モデルトレーニングを実行して、ターゲット翻訳モデルを得るように構成されるトレーニングモジュールとを含み、
前記ターゲット翻訳モデルは、前記第1の言語と前記第2の言語との間で文を翻訳するために使用される。
前記実施例中の装置に関して、各モジュールが動作を実行する具体的な方法は、前記方法の実施例で詳細に説明され、ここでは詳細に説明しない。
図4は、一例示的な実施例によって示される情報処理装置400のハードウェアの構造ブロック図である。例えば、装置400は、携帯電話、コンピュータ、デジタル放送端末、メッセージングデバイス、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末等であってもよい。
図4を参照すれば、装置400は、処理コンポーネント402、メモリ404、電力コンポーネント406、マルチメディアコンポーネント408、オーディオコンポーネント410、入力/出力(I/O)のインターフェース412、センサコンポーネント414、および通信コンポーネント416のうちの1つまたは複数のコンポーネントを含むことができる。
処理コンポーネント402は、一般的に、ディスプレイ、電話、データ通信、カメラ動作および記録動作に関連する動作のような装置400の全般的な動作を制御する。処理コンポーネント402は、前記の方法のステップのすべてまたは一部を完了するために、1つまたは複数のプロセッサ420によって命令を実行する。加えて、処理コンポーネント402は、処理コンポーネント402と他のコンポーネントとの間の相互作用を容易にするために、1つまたは複数のモジュールを含むことができる。例えば、処理コンポーネント402は、マルチメディアコンポーネント408と処理コンポーネント402との間の相互作用を容易にするために、マルチメディアモジュールを含むことができる。
メモリ404は、装置400での動作をサポートするために、様々なタイプのデータを格納するように構成される。これらのデータの例には、装置400で動作する任意のアプリケーションまたは方法の指示、連絡先データ、電話帳データ、メッセージ、写真、ビデオ等が含まれる。メモリ404は、スタティックランダムアクセスメモリ(SRAM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、消去可能なプログラム可能な読み取り専用メモリ(EPROM)、プログラム可能な読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなど、あらゆるタイプの揮発性または不揮発性ストレージデバイスまたはそれらの組み合わせで実装することができる。
電力コンポーネント406は、装置400の様々なコンポーネントに電力を提供する。電力コンポーネント406は、電力管理システム、1つまたは複数の電源、および装置400の電力の生成、管理および分配に関連する他のコンポーネントを含むことができる。
マルチメディアコンポーネント408は、前記装置400とユーザとの間の、出力インターフェースを提供するスクリーンを含む。いくつかの実施形態において、スクリーンは、液晶ディスプレイ(LCD)およびタッチパネル(TP)を含み得る。スクリーンがタッチパネルを含む場合、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして実現されることができる。タッチパネルは、タッチ、スワイプおよびタッチパネルでのジェスチャーを検知するための1つまたは複数のタッチセンサが含まれる。前記タッチセンサは、タッチまたはスワイプの操作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関連する持続時間および圧力も検出する。いくつかの実施形態において、マルチメディアコンポーネント408は、フロントカメラおよび/またはリアカメラを含む。装置400が、撮影モードまたはビデオモードなどの動作モードにあるとき、フロントカメラおよび/またはリアカメラは、外部マルチメディアデータを受信することができる。各フロントカメラおよびリアカメラはそれぞれ、固定光学レンズシステムであるかまたは焦点距離と光学ズーム機能を持つことができる。
オーディオコンポーネント410は、オーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント410は、1つのマイクロフォン(MIC)を含み、装置400が通話モード、録音モードおよび音声認識モードなどの動作モードにあるとき、マイクロフォンは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、メモリ404にさらに格納されてもよいし、または通信コンポーネント416を介して送信されてもよい。いくつかの実施形態において、オーディオコンポーネント410は、オーディオ信号を出力するためのスピーカをさらに含む。
I/Oインターフェース412は、処理コンポーネント402と周辺インターフェースモジュールとの間にインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン、ロックボタンを含むが、これらに限定されない。
センサコンポーネント414は、装置400に各態様の状態の評価を提供するための1つまたは複数のセンサを含む。例えば、センサコンポーネント414は、装置400のオン/オフ状態と、装置400のディスプレイやキーパッドなどのコンポーネントの相対的な位置づけとを検出することができ、センサコンポーネント414は、装置400または装置400のコンポーネントの位置の変化、ユーザとの装置400の接触の有無、装置400の向きまたは加速/減速、および装置400の温度の変化も検出することができる。センサコンポーネント414は、物理的接触なしに近くの物体の存在を検出するように構成された近接センサを含むことができる。センサコンポーネント414は、撮像用途で使用するためのCMOSまたはCCD画像センサなどの光センサも含むことができる。いくつかの実施形態において、前記センサコンポーネント414は、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサをさらに含むことができる。
通信コンポーネント416は、装置400と他の機器との間の有線または無線通信を容易にするように構成される。装置400は、WiFi、2Gまたは3G、またはそれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。ある例示的な実施例において、通信コンポーネント416は、放送チャンネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。ある例示的な実施例において、前記通信コンポーネント416は、近距離通信(NFC)モジュールをさらに含み、短距離通信を促進する。例えば、NFCモジュールは、無線周波数識別(RFID)技術、紅外データ協会(IrDA)技術、ウルトラワイドバンド(UWB)技術、Bluetooth(登録商標)(BT)技術および他の技術に基づいて実現することができる。
例示的な実施例において、装置400は、前記方法を実行するために、1つまたは複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、分野プログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子部品によって実現されることができる。
例示的な実施例において、命令を含むメモリ404などの、命令を含む非一時的なコンピュータ読み取り可能な記憶媒体を提供することができ、前記命令は、装置400のプロセッサ420によって実行されて前記方法を完了することができる。例えば、前記非一時的なコンピュータ読み取り可能な記憶媒体は、ROM、ランダムアクセスメモリ(RAM)、CD-ROM、磁気テープ、フロッピーディスク和光学データ記憶装置等であってもよい。
非一時的なコンピュータ読み取り可能な記憶媒体であって、前記記憶媒体内の命令が電子機器のプロセッサによって実行され、電子機器が情報処理方法を実行することを可能にし、前記方法は、
N個のオリジナルのバイリンガル語彙ペアを含むバイリンガル語彙テーブルを取得することであって、各前記オリジナルのバイリンガル語彙ペアは、第1の言語で表される第1の語彙、および前記第1の語彙と同じ意味を持つ、第2の言語で表される第2の語彙を含み、Nは正の整数であることと、
複数のオリジナルのバイリンガルトレーニング文ペアを含むオリジナルのバイリンガルトレーニングセットを取得することであって、前記オリジナルのバイリンガルトレーニング文ペアのそれぞれは、第1の言語で表される第1のトレーニング文、および前記第1のトレーニング文と同じ意味を持つ、第2の言語で表される第2のトレーニング文を含むことと、
候補バイリンガル文ペアとして、前記オリジナルのバイリンガルトレーニングセットからいずれか一つの前記オリジナルのバイリンガル語彙ペアにマッチングする少なくとも1つのオリジナルのバイリンガルトレーニング文ペアを選択することと、
少なくとも1つの前記候補バイリンガル文ペアに基づいて、一般化されたバイリンガル文型を構築することと、
前記バイリンガル語彙テーブルおよび前記一般化されたバイリンガル文型に基づいて、複数の拡張バイリンガルトレーニング文ペアを含む拡張バイリンガルトレーニングセットを取得することとを含む。
当業者は、明細書を考慮して、本明細書に開示された発明を実施した後、本開示の他の実施形態を容易に想到し得るであろう。本開示は、本開示のあらゆる変形、応用または適応性変化を網羅することを意図し、これらの変形、応用または適応性変化は、本開示の普通の原理に準拠し、本開示によって開示されていない本技術分野における公知知識または従来の技術的手段を含む。明細書と実施例は、例示としてのみ考慮され、本開示の真の範囲および思想は添付の特許請求の範囲によって示される。
本発明は、上述に既に説明し、図面に示した正確な構造に限定されるものではなく、その範囲から逸脱することなく様々な修正および変更を行うことができることを理解されたい。本発明の範囲は、添付の特許請求の範囲によってのみ制限される。

Claims (16)

  1. 情報処理方法であって、
    N個のオリジナルのバイリンガル語彙ペア(Original bilingual vocabulary pair)を含むバイリンガル語彙テーブルを取得することであって、各前記オリジナルのバイリンガル語彙ペアは、第1の言語で表される第1の語彙、および前記第1の語彙と同じ意味を持つ、第2の言語で表される第2の語彙を含み、Nは正の整数であることと、
    複数のオリジナルのバイリンガルトレーニング文ペア(Original bilingual training sentence pairs)を含むオリジナルのバイリンガルトレーニングセット(Training set)を取得することであって、前記オリジナルのバイリンガルトレーニング文ペアのそれぞれは、第1の言語で表される第1のトレーニング文、および前記第1のトレーニング文と同じ意味を持つ、第2の言語で表される第2のトレーニング文を含むことと、
    候補バイリンガル文ペアとして、前記オリジナルのバイリンガルトレーニングセットからいずれか一つの前記オリジナルのバイリンガル語彙ペアにマッチングする少なくとも1つのオリジナルのバイリンガルトレーニング文ペアを選択することと、
    少なくとも1つの前記候補バイリンガル文ペアに基づいて、一般化されたバイリンガル文型を構築することと、
    前記バイリンガル語彙テーブルおよび前記一般化されたバイリンガル文型に基づいて、複数の拡張バイリンガルトレーニング文ペアを含む拡張バイリンガルトレーニングセットを取得することとを含む、前記情報処理方法。
  2. 前記候補バイリンガル文ペアとしてのオリジナルのバイリンガルトレーニング文ペアに含まれる第1のトレーニング文は、少なくとも、いずれか一つの前記オリジナルのバイリンガル語彙ペアに含まれる第1の語彙を含み、
    前記候補バイリンガル文ペアとしてのオリジナルのバイリンガルトレーニング文ペアに含まれる第2のトレーニング文は、少なくとも、いずれか一つの前記オリジナルのバイリンガル語彙ペアに含まれる第1の語彙と同じ意味を持つ第2の語彙を含む、
    請求項1に記載の情報処理方法。
  3. 前記少なくとも1つの前記候補バイリンガル文ペアに基づいて、一般化されたバイリンガル文型を構築することは、
    設定条件にしたがって、前記候補バイリンガル文ペアからM個の一般化しようとするバイリンガル文ペアを確定することであって、Mは正の整数であることと、
    M個の前記一般化しようとするバイリンガル文ペアに基づいて、M個の一般化されたバイリンガル文型を生成することとを含み、
    前記バイリンガル語彙テーブルおよび前記一般化されたバイリンガル文型に基づいて、複数の拡張バイリンガルトレーニング文ペアを含む拡張バイリンガルトレーニングセットを取得することは、
    M個の前記一般化されたバイリンガル文型および前記バイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにしたがって、複数の前記拡張バイリンガルトレーニング文ペアを生成することと、
    複数の前記拡張バイリンガルトレーニング文ペアに基づいて、前記拡張バイリンガルトレーニングセットを得ることとを含む、
    請求項2に記載の情報処理方法。
  4. 前記設定条件は、
    前記第1のトレーニング文の長さおよび前記第2のトレーニング文の長さは、両方とも設定された文長閾値より大きいか等しいこと、
    前記第1のトレーニング文の長さと前記第2のトレーニング文の長さの比率は、第1の設定比率より大きいか等しく、且つ第2の設定比率より小さいか等しいこと、
    前記第1のトレーニング文の翻訳正確率および前記第2のトレーニング文の翻訳正確率は、両方とも設定された正確度閾値より大きいことのうちの少なくとも1つを含む、
    請求項3に記載の情報処理方法。
  5. 前記M個の前記一般化しようとするバイリンガル文ペアに基づいて、M個の一般化されたバイリンガル文型を生成することは、
    M個の前記一般化しようとするバイリンガル文ペアに含まれるK個のオリジナルのバイリンガル語彙ペアをK個の汎用バイリンガル語彙ペアに置き換えて、M個の一般化されたバイリンガル文型を生成することであって、Kは正の整数であることを含み、
    前記M個の前記一般化されたバイリンガル文型および前記バイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにしたがって、複数の前記拡張バイリンガルトレーニング文ペアを生成することは、
    M個の前記一般化されたバイリンガル文型中の各前記汎用バイリンガル語彙ペアを、前記バイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにそれぞれ置き換えて、K*N*M個の前記拡張バイリンガルトレーニング文ペアを生成することを含む、
    請求項3に記載の情報処理方法。
  6. 前記汎用バイリンガル語彙は、文が完結していないことを指示するための非完結文字を含む、
    請求項5に記載の情報処理方法。
  7. 前記方法は、
    前記拡張バイリンガルトレーニングセットおよびオリジナルのバイリンガルトレーニングセットに対して融合処理を実行して、ターゲットバイリンガルトレーニングセットを得ることと、
    前記ターゲットバイリンガルトレーニングセットに基づいて、モデルトレーニングを実行して、ターゲット翻訳モデルを得ることと、さらに含み、
    前記ターゲット翻訳モデルは、前記第1の言語と前記第2の言語との間で文を翻訳するために使用される、
    請求項1ないし6のいずれか一項に記載の情報処理方法。
  8. 情報処理装置であって、
    N個のオリジナルのバイリンガル語彙ペアを含むバイリンガル語彙テーブルを取得するように構成される第1の取得モジュールであって、各前記オリジナルのバイリンガル語彙ペアは、第1の言語で表される第1の語彙、および前記第1の語彙と同じ意味を持つ、第2の言語で表される第2の語彙を含み、Nは正の整数である第1の取得モジュールと、
    複数のオリジナルのバイリンガルトレーニング文ペアを含むオリジナルのバイリンガルトレーニングセットを取得するように構成される第2の取得モジュールであって、前記オリジナルのバイリンガルトレーニング文ペアのそれぞれは、第1の言語で表される第1のトレーニング文、および前記第1のトレーニング文と同じ意味を持つ、第2の言語で表される第2のトレーニング文を含む第2の取得モジュールと、
    候補バイリンガル文ペアとして、前記オリジナルのバイリンガルトレーニングセットからいずれか一つの前記オリジナルのバイリンガル語彙ペアにマッチングする少なくとも1つのオリジナルのバイリンガルトレーニング文ペアを選択するように構成される選択モジュールと、
    少なくとも1つの前記候補バイリンガル文ペアに基づいて、一般化されたバイリンガル文型を構築するように構成される構築モジュールと、
    前記バイリンガル語彙テーブルおよび前記一般化されたバイリンガル文型に基づいて、複数の拡張バイリンガルトレーニング文ペアを含む拡張バイリンガルトレーニングセットを取得するように構成される第3の取得モジュールとを含む、前記情報処理装置。
  9. 前記候補バイリンガル文ペアとしてのオリジナルのバイリンガルトレーニング文ペアに含まれる第1のトレーニング文は、少なくとも、いずれか一つの前記オリジナルのバイリンガル語彙ペアに含まれる第1の語彙を含み、
    前記候補バイリンガル文ペアとしてのオリジナルのバイリンガルトレーニング文ペアに含まれる第2のトレーニング文は、少なくとも、いずれか一つの前記オリジナルのバイリンガル語彙ペアに含まれる第1の語彙と同じ意味を持つ第2の語彙を含む、
    請求項8に記載の情報処理装置。
  10. 前記構築モジュールは、
    設定条件にしたがって、前記候補バイリンガル文ペアからM個の一般化しようとするバイリンガル文ペアを確定し、
    M個の前記一般化しようとするバイリンガル文ペアに基づいて、M個の一般化されたバイリンガル文型を生成するように構成され、Mは正の整数であり、
    第3の取得モジュールは、
    M個の前記一般化されたバイリンガル文型および前記バイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにしたがって、複数の前記拡張バイリンガルトレーニング文ペアを生成し、
    複数の前記拡張バイリンガルトレーニング文ペアに基づいて、前記拡張バイリンガルトレーニングセットを得るように構成される、
    請求項9に記載の情報処理装置。
  11. 前記設定条件は、
    前記第1のトレーニング文の長さおよび前記第2のトレーニング文の長さは、両方とも設定された文長閾値より大きいか等しいこと、
    前記第1のトレーニング文の長さと前記第2のトレーニング文の長さの比率は、第1の設定比率より大きいか等しく、且つ第2の設定比率より小さいか等しいこと、
    前記第1のトレーニング文の翻訳正確率および前記第2のトレーニング文の翻訳正確率は、両方とも設定された正確度閾値より大きいことのうちの少なくとも1つを含む、
    請求項10に記載の情報処理装置。
  12. 前記構築モジュールは、さらに、
    M個の前記一般化しようとするバイリンガル文ペアに含まれるK個のオリジナルのバイリンガル語彙ペアをK個の汎用バイリンガル語彙ペアに置き換えて、M個の一般化されたバイリンガル文型を生成するように構成され、Kは正の整数であり、
    第3の取得モジュールは、さらに、
    M個の前記一般化されたバイリンガル文型中の各前記汎用バイリンガル語彙ペアを、前記バイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにそれぞれ置き換えて、K*N*M個の前記拡張バイリンガルトレーニング文ペアを生成するように構成される、
    請求項10に記載の情報処理装置。
  13. 前記汎用バイリンガル語彙は、文が完結していないことを指示するための非完結文字を含む、
    請求項12に記載の情報処理装置。
  14. 前記装置は、さらに、
    前記拡張バイリンガルトレーニングセットおよびオリジナルのバイリンガルトレーニングセットに対して融合処理を実行して、ターゲットバイリンガルトレーニングセットを得るように構成される融合モジュールと、
    前記ターゲットバイリンガルトレーニングセットに基づいて、モデルトレーニングを実行して、ターゲット翻訳モデルを得るように構成されるトレーニングモジュールとを含み、
    前記ターゲット翻訳モデルは、前記第1の言語と前記第2の言語との間で文を翻訳するために使用される、
    請求項8ないし13のいずれか一項に記載の情報処理装置。
  15. 情報処理装置であって、
    プロセッサと、
    プロセッサの実行可能な命令を格納するように構成されるメモリとを含み、
    前記プロセッサは、実行されるときに、前記請求項1ないし7のいずれか一項に記載の情報処理方法のステップを実現するように構成される、前記情報処理装置。
  16. 非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記記憶媒体内の命令を情報処理装置のプロセッサによって実行されるときに、前記装置を前記請求項1ないし7のいずれか一項に記載の情報処理方法を実行することができるようにする、前記非一時的なコンピュータ読み取り可能な記憶媒体。
JP2020500705A 2019-10-25 2019-12-04 情報処理方法、装置および記憶媒体 Active JP7208968B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911025249.7 2019-10-25
CN201911025249.7A CN110781689B (zh) 2019-10-25 2019-10-25 信息处理方法、装置及存储介质
PCT/CN2019/123095 WO2021077559A1 (zh) 2019-10-25 2019-12-04 信息处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
JP2022511139A true JP2022511139A (ja) 2022-01-31
JP7208968B2 JP7208968B2 (ja) 2023-01-19

Family

ID=69232750

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020500705A Active JP7208968B2 (ja) 2019-10-25 2019-12-04 情報処理方法、装置および記憶媒体

Country Status (7)

Country Link
US (1) US11461561B2 (ja)
EP (1) EP3812951A1 (ja)
JP (1) JP7208968B2 (ja)
KR (1) KR102327790B1 (ja)
CN (1) CN110781689B (ja)
RU (1) RU2737112C1 (ja)
WO (1) WO2021077559A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11562137B2 (en) * 2020-04-14 2023-01-24 Bank Of America Corporation System to correct model drift for natural language understanding

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010282453A (ja) * 2009-06-05 2010-12-16 Hitachi Ltd 機械翻訳方法、及びシステム
JP2015022431A (ja) * 2013-07-17 2015-02-02 株式会社エヌ・ティ・ティ・データ 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム
CN104391885A (zh) * 2014-11-07 2015-03-04 哈尔滨工业大学 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法
US9367541B1 (en) * 2015-01-20 2016-06-14 Xerox Corporation Terminological adaptation of statistical machine translation system through automatic generation of phrasal contexts for bilingual terms
JP2017138655A (ja) * 2016-02-01 2017-08-10 パナソニックIpマネジメント株式会社 対訳コーパス作成方法、該装置および該プログラムならびに機械翻訳システム
CN108241609A (zh) * 2016-12-23 2018-07-03 科大讯飞股份有限公司 排比句识别方法及系统

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
US7827028B2 (en) * 2006-04-07 2010-11-02 Basis Technology Corporation Method and system of machine translation
US7725306B2 (en) * 2006-06-28 2010-05-25 Microsoft Corporation Efficient phrase pair extraction from bilingual word alignments
US8195447B2 (en) * 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
KR100912501B1 (ko) * 2007-08-09 2009-08-17 한국전자통신연구원 번역 지식 구축 방법 및 장치
CN101290616A (zh) 2008-06-11 2008-10-22 中国科学院计算技术研究所 一种统计机器翻译方法和系统
KR101356417B1 (ko) * 2010-11-05 2014-01-28 고려대학교 산학협력단 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법
US8874433B2 (en) * 2011-05-20 2014-10-28 Microsoft Corporation Syntax-based augmentation of statistical machine translation phrase tables
CN103631772A (zh) 2012-08-29 2014-03-12 阿里巴巴集团控股有限公司 机器翻译方法及装置
CN103914447B (zh) * 2013-01-09 2017-04-19 富士通株式会社 信息处理设备和信息处理方法
CN105068997B (zh) * 2015-07-15 2017-12-19 清华大学 平行语料的构建方法及装置
CN106156013B (zh) 2016-06-30 2019-02-19 电子科技大学 一种固定搭配型短语优先的两段式机器翻译方法
CN106649288B (zh) * 2016-12-12 2020-06-23 北京百度网讯科技有限公司 基于人工智能的翻译方法和装置
CN106598959B (zh) * 2016-12-23 2021-03-19 北京金山办公软件股份有限公司 一种确定双语语句对互译关系方法及系统
KR102069692B1 (ko) * 2017-10-26 2020-01-23 한국전자통신연구원 신경망 기계번역 방법 및 장치
CN108021560B (zh) * 2017-12-07 2021-04-27 苏州大学 一种数据增强方法、系统、装置及计算机可读存储介质
RU2692049C1 (ru) * 2017-12-29 2019-06-19 Общество С Ограниченной Ответственностью "Яндекс" Способ и система перевода исходного предложения на первом языке целевым предложением на втором языке
CN108920473B (zh) * 2018-07-04 2022-08-09 中译语通科技股份有限公司 一种基于同类词与同义词替换的数据增强机器翻译方法
CN109359308B (zh) * 2018-10-31 2023-01-10 腾讯科技(武汉)有限公司 机器翻译方法、装置及可读存储介质
CN110334197A (zh) * 2019-06-28 2019-10-15 科大讯飞股份有限公司 语料处理方法及相关装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010282453A (ja) * 2009-06-05 2010-12-16 Hitachi Ltd 機械翻訳方法、及びシステム
JP2015022431A (ja) * 2013-07-17 2015-02-02 株式会社エヌ・ティ・ティ・データ 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム
CN104391885A (zh) * 2014-11-07 2015-03-04 哈尔滨工业大学 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法
US9367541B1 (en) * 2015-01-20 2016-06-14 Xerox Corporation Terminological adaptation of statistical machine translation system through automatic generation of phrasal contexts for bilingual terms
JP2017138655A (ja) * 2016-02-01 2017-08-10 パナソニックIpマネジメント株式会社 対訳コーパス作成方法、該装置および該プログラムならびに機械翻訳システム
CN108241609A (zh) * 2016-12-23 2018-07-03 科大讯飞股份有限公司 排比句识别方法及系统

Also Published As

Publication number Publication date
KR102327790B1 (ko) 2021-11-17
RU2737112C1 (ru) 2020-11-24
US11461561B2 (en) 2022-10-04
EP3812951A1 (en) 2021-04-28
KR20210050484A (ko) 2021-05-07
CN110781689B (zh) 2021-08-06
JP7208968B2 (ja) 2023-01-19
US20210124880A1 (en) 2021-04-29
CN110781689A (zh) 2020-02-11
WO2021077559A1 (zh) 2021-04-29

Similar Documents

Publication Publication Date Title
TWI720062B (zh) 語音輸入方法、裝置和終端設備
US10614265B2 (en) Apparatus, method, and computer program product for correcting speech recognition error
CN107436691B (zh) 一种输入法进行纠错的方法、客户端、服务器及装置
CN109522419B (zh) 会话信息补全方法及装置
WO2018076450A1 (zh) 一种输入方法和装置、一种用于输入的装置
CN109558599B (zh) 一种转换方法、装置和电子设备
WO2019109663A1 (zh) 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
WO2019109664A1 (zh) 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN111832315B (zh) 语义识别的方法、装置、电子设备和存储介质
CN111414772B (zh) 一种机器翻译方法、装置及介质
CN107797676B (zh) 一种单字输入方法及装置
CN112133295B (zh) 语音识别方法、装置及存储介质
JP7208968B2 (ja) 情報処理方法、装置および記憶媒体
CN111324214B (zh) 一种语句纠错方法和装置
CN107291259B (zh) 一种信息显示方法、装置和用于信息显示的装置
CN111414766B (zh) 一种翻译方法及装置
CN112837668B (zh) 一种语音处理方法、装置和用于处理语音的装置
CN115376504A (zh) 智能产品的语音交互方法、装置及可读存储介质
CN114462410A (zh) 实体识别方法、装置、终端及存储介质
CN109558017B (zh) 一种输入方法、装置和电子设备
CN109992121B (zh) 一种输入方法、装置和用于输入的装置
CN112837813A (zh) 自动问诊方法及装置
CN112612442A (zh) 一种输入方法、装置和电子设备
CN107102747B (zh) 一种信息输入方法、装置和用于信息输入的装置
CN110858100B (zh) 联想候选词生成方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230106

R150 Certificate of patent or registration of utility model

Ref document number: 7208968

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150