JP7208968B2 - 情報処理方法、装置および記憶媒体 - Google Patents
情報処理方法、装置および記憶媒体 Download PDFInfo
- Publication number
- JP7208968B2 JP7208968B2 JP2020500705A JP2020500705A JP7208968B2 JP 7208968 B2 JP7208968 B2 JP 7208968B2 JP 2020500705 A JP2020500705 A JP 2020500705A JP 2020500705 A JP2020500705 A JP 2020500705A JP 7208968 B2 JP7208968 B2 JP 7208968B2
- Authority
- JP
- Japan
- Prior art keywords
- bilingual
- sentence
- vocabulary
- training
- pairs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Description
N個のオリジナルのバイリンガル語彙ペア(Original bilingual vocabulary pair)を含むバイリンガル語彙テーブルを取得することであって、各前記オリジナルのバイリンガル語彙ペアは、第1の言語で表される第1の語彙、および前記第1の語彙と同じ意味を持つ、第2の言語で表される第2の語彙を含み、Nは正の整数であることと、
複数のオリジナルのバイリンガルトレーニング文ペア(Original bilingual training sentence pairs)を含むオリジナルのバイリンガルトレーニングセット(Training set)を取得することであって、前記オリジナルのバイリンガルトレーニング文ペアのそれぞれは、第1の言語で表される第1のトレーニング文、および前記第1のトレーニング文と同じ意味を持つ、第2の言語で表される第2のトレーニング文を含むことと、
候補バイリンガル文ペアとして、前記オリジナルのバイリンガルトレーニングセットからいずれか一つの前記オリジナルのバイリンガル語彙ペアにマッチングする少なくとも1つのオリジナルのバイリンガルトレーニング文ペアを選択することと、
少なくとも1つの前記候補バイリンガル文ペアに基づいて、一般化されたバイリンガル文型を構築することと、
前記バイリンガル語彙テーブルおよび前記一般化されたバイリンガル文型に基づいて、複数の拡張バイリンガルトレーニング文ペアを含む拡張バイリンガルトレーニングセットを取得することとを含む、情報処理方法を提供する。
前記候補バイリンガル文ペアとしてのオリジナルのバイリンガルトレーニング文ペアに含まれる第2のトレーニング文は、少なくとも、いずれか一つの前記オリジナルのバイリンガル語彙ペアに含まれる第1の語彙と同じ意味を持つ第2の語彙を含む。
設定条件にしたがって、前記候補バイリンガル文ペアからM個の一般化しようとするバイリンガル文ペアを確定することであって、Mは正の整数であることと、
M個の前記一般化しようとするバイリンガル文ペアに基づいて、M個の一般化されたバイリンガル文型を生成することとを含み、
前記バイリンガル語彙テーブルおよび前記一般化されたバイリンガル文型に基づいて、複数の拡張バイリンガルトレーニング文ペアを含む拡張バイリンガルトレーニングセットを取得することは、
M個の前記一般化されたバイリンガル文型および前記バイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにしたがって、複数の前記拡張バイリンガルトレーニング文ペアを生成することと、
複数の前記拡張バイリンガルトレーニング文ペアに基づいて、前記拡張バイリンガルトレーニングセットを得ることとを含む。
前記第1のトレーニング文の長さおよび前記第2のトレーニング文の長さは、両方とも設定された文長閾値より大きいか等しいこと、
前記第1のトレーニング文の長さと前記第2のトレーニング文の長さの比率は、第1の設定比率より大きいか等しく、且つ第2の設定比率より小さいか等しいこと、
前記第1のトレーニング文の翻訳正確率および前記第2のトレーニング文の翻訳正確率は、両方とも設定された正確度閾値より大きいことのうちの少なくとも1つを含む。
M個の前記一般化しようとするバイリンガル文ペアに含まれるK個のオリジナルのバイリンガル語彙ペアをK個の汎用バイリンガル語彙ペアに置き換えて、M個の一般化されたバイリンガル文型を生成することであって、Kは正の整数であることを含み、
前記M個の前記一般化されたバイリンガル文型および前記バイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにしたがって、複数の前記拡張バイリンガルトレーニング文ペアを生成することは、
M個の前記一般化されたバイリンガル文型中の各前記汎用バイリンガル語彙ペアを、前記バイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにそれぞれ置き換えて、K*N*M個の前記拡張バイリンガルトレーニング文ペアを生成することを含む。
前記拡張バイリンガルトレーニングセットおよびオリジナルのバイリンガルトレーニングセットに対して融合処理を実行して、ターゲットバイリンガルトレーニングセットを得ることと、
前記ターゲットバイリンガルトレーニングセットに基づいて、モデルトレーニングを実行して、ターゲット翻訳モデルを得ることと、をさらに含み、
前記ターゲット翻訳モデルは、前記第1の言語と前記第2の言語との間で文を翻訳するために使用される。
N個のオリジナルのバイリンガル語彙ペアを含むバイリンガル語彙テーブルを取得するように構成される第1の取得モジュールであって、各前記オリジナルのバイリンガル語彙ペアは、第1の言語で表される第1の語彙、および前記第1の語彙と同じ意味を持つ、第2の言語で表される第2の語彙を含み、Nは正の整数である第1の取得モジュールと、
複数のオリジナルのバイリンガルトレーニング文ペアを含むオリジナルのバイリンガルトレーニングセットを取得するように構成される第2の取得モジュールであって、前記オリジナルのバイリンガルトレーニング文ペアのそれぞれは、第1の言語で表される第1のトレーニング文、および前記第1のトレーニング文と同じ意味を持つ、第2の言語で表される第2のトレーニング文を含む第2の取得モジュールと、
候補バイリンガル文ペアとして、前記オリジナルのバイリンガルトレーニングセットからいずれか一つの前記オリジナルのバイリンガル語彙ペアにマッチングする少なくとも1つのオリジナルのバイリンガルトレーニング文ペアを選択するように構成される選択モジュールと、
少なくとも1つの前記候補バイリンガル文ペアに基づいて、一般化されたバイリンガル文型を構築するように構成される構築モジュールと、
前記バイリンガル語彙テーブルおよび前記一般化されたバイリンガル文型に基づいて、複数の拡張バイリンガルトレーニング文ペアを含む拡張バイリンガルトレーニングセットを取得するように構成される第3の取得モジュールとを含む、情報処理装置を提供する。
前記候補バイリンガル文ペアとしてのオリジナルのバイリンガルトレーニング文ペアに含まれる第2のトレーニング文は、少なくとも、いずれか一つの前記オリジナルのバイリンガル語彙ペアに含まれる第1の語彙と同じ意味を持つ第2の語彙を含む。
設定条件にしたがって、前記候補バイリンガル文ペアからM個の一般化しようとするバイリンガル文ペアを確定し、Mは正の整数であり、
M個の前記一般化しようとするバイリンガル文ペアに基づいて、M個の一般化されたバイリンガル文型を生成するように構成され、
第3の取得モジュールは、
M個の前記一般化されたバイリンガル文型および前記バイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにしたがって、複数の前記拡張バイリンガルトレーニング文ペアを生成し、
複数の前記拡張バイリンガルトレーニング文ペアに基づいて、前記拡張バイリンガルトレーニングセットを得るように構成される。
前記第1のトレーニング文の長さおよび前記第2のトレーニング文の長さは、両方とも設定された文長閾値より大きいか等しいこと、
前記第1のトレーニング文の長さと前記第2のトレーニング文の長さの比率は、第1の設定比率より大きいか等しく、且つ第2の設定比率より小さいか等しいこと、
前記第1のトレーニング文の翻訳正確率および前記第2のトレーニング文の翻訳正確率は、両方とも設定された正確度閾値より大きいことのうちの少なくとも1つを含む。
M個の前記一般化しようとするバイリンガル文ペアに含まれるK個のオリジナルのバイリンガル語彙ペアをK個の汎用バイリンガル語彙ペアに置き換えて、M個の一般化されたバイリンガル文型を生成し、Kは正の整数であるように構成され、
第3の取得モジュールは、さらに、
M個の前記一般化されたバイリンガル文型中の各前記汎用バイリンガル語彙ペアを、前記バイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにそれぞれ置き換えて、K*N*M個の前記拡張バイリンガルトレーニング文ペアを生成するように構成される。
前記拡張バイリンガルトレーニングセットおよびオリジナルのバイリンガルトレーニングセットに対して融合処理を実行して、ターゲットバイリンガルトレーニングセットを得るように構成される融合モジュールと、
前記ターゲットバイリンガルトレーニングセットに基づいて、モデルトレーニングを実行して、ターゲット翻訳モデルを得るように構成されるトレーニングモジュールとを含み、
前記ターゲット翻訳モデルは、前記第1の言語と前記第2の言語との間で文を翻訳するために使用される。
プロセッサと、
プロセッサの実行可能な命令を格納するように構成されるメモリとを含み、
前記プロセッサは、実行されるときに、前記第1の態様中の情報処理方法におけるステップを実現するように構成される。
候補バイリンガル文ペアとしてのオリジナルのバイリンガルトレーニング文ペアに含まれる第2のトレーニング文は、少なくとも、いずれか一つのオリジナルのバイリンガル語彙ペアに含まれる第1の語彙と同じ意味を持つ第2の語彙を含む。
設定条件にしたがって、候補バイリンガル文ペアからM個の一般化しようとするバイリンガル文ペアを確定することであって、Mは正の整数であることと、
M個の一般化しようとするバイリンガル文ペアに基づいて、M個の一般化されたバイリンガル文型を生成することとを含み、
バイリンガル語彙テーブルおよび一般化されたバイリンガル文型に基づいて、複数の拡張バイリンガルトレーニング文ペアを含む拡張バイリンガルトレーニングセットを取得することは、
M個の一般化されたバイリンガル文型およびバイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにしたがって、複数の拡張バイリンガルトレーニング文ペアを生成することと、
複数の拡張バイリンガルトレーニング文ペアに基づいて、拡張バイリンガルトレーニングセットを得ることとを含む。
前記第1のトレーニング文の長さおよび前記第2のトレーニング文の長さは、両方とも設定された文長閾値より大きいか等しいこと、
前記第1のトレーニング文の長さと前記第2のトレーニング文の長さの比率は、第1の設定比率より大きいか等しく、且つ第2の設定比率より小さいか等しいこと、
前記第1のトレーニング文の翻訳正確率および前記第2のトレーニング文の翻訳正確率は、両方とも設定された正確度閾値より大きいことのうちの少なくとも1つを含む。
M個の一般化しようとするバイリンガル文ペア中に含まれるK個のオリジナルのバイリンガル語彙ペアをK個の汎用バイリンガル語彙ペアに置き換えて、M個の一般化されたバイリンガル文型を生成することであって、Kは正の整数であることを含み、
M個の一般化されたバイリンガル文型およびバイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにしたがって、複数の拡張バイリンガルトレーニング文ペアを生成することは、
M個の一般化されたバイリンガル文型の各汎用バイリンガル語彙ペアは、バイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにそれぞれ置き換えて、K*N*M個の拡張バイリンガルトレーニング文ペアを生成することを含む。
拡張バイリンガルトレーニングセットおよびオリジナルのバイリンガルトレーニングセットに対して融合処理を実行して、ターゲットバイリンガルトレーニングセットを得ることと、
ターゲットバイリンガルトレーニングセットに基づいて、モデルトレーニングを実行して、ターゲット翻訳モデルを得ることと、をさらに含み、
ターゲット翻訳モデルは、第1の言語と第2の言語間のコーパスデータの翻訳を行うために使用される。
N個のオリジナルのバイリンガル語彙ペアを含むバイリンガル語彙テーブルを取得するように構成される第1の取得モジュールであって、各前記オリジナルのバイリンガル語彙ペアは、第1の言語で表される第1の語彙、および前記第1の語彙と同じ意味を持つ、第2の言語で表される第2の語彙を含み、Nは正の整数である第1の取得モジュール301と、
複数のオリジナルのバイリンガルトレーニング文ペアを含むオリジナルのバイリンガルトレーニングセットを取得するように構成される第2の取得モジュール302であって、前記オリジナルのバイリンガルトレーニング文ペアのそれぞれは、第1の言語で表される第1のトレーニング文、および前記第1のトレーニング文と同じ意味を持つ、第2の言語で表される第2のトレーニング文を含む第2の取得モジュール302と、
候補バイリンガル文ペアとして、前記オリジナルのバイリンガルトレーニングセットからいずれか一つの前記オリジナルのバイリンガル語彙ペアにマッチングする少なくとも1つのオリジナルのバイリンガルトレーニング文ペアを選択するように構成される選択モジュール303と、
少なくとも1つの前記候補バイリンガル文ペアに基づいて、一般化されたバイリンガル文型を構築するように構成される構築モジュール304と、
前記バイリンガル語彙テーブルおよび前記一般化されたバイリンガル文型に基づいて、複数の拡張バイリンガルトレーニング文ペアを含む拡張バイリンガルトレーニングセットを取得するように構成される第3の取得モジュール305とを含む。
前記候補バイリンガル文ペアとしてのオリジナルのバイリンガルトレーニング文ペアに含まれる第2のトレーニング文は、少なくとも、いずれか一つの前記オリジナルのバイリンガル語彙ペアに含まれる第1の語彙と同じ意味を持つ第2の語彙を含む。
設定条件にしたがって、前記候補バイリンガル文ペアからM個の一般化しようとするバイリンガル文ペアを確定し、Mは正の整数であり、
M個の前記一般化しようとするバイリンガル文ペアに基づいて、M個の一般化されたバイリンガル文型を生成するように構成されることができ、
第3の取得モジュールは、例えば、
M個の前記一般化されたバイリンガル文型および前記バイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにしたがって、複数の前記拡張バイリンガルトレーニング文ペアを生成し、
複数の前記拡張バイリンガルトレーニング文ペアに基づいて、前記拡張バイリンガルトレーニングセットを得るように構成されることができる。
前記第1のトレーニング文の長さおよび前記第2のトレーニング文の長さは、両方とも設定された文長閾値より大きいか等しいこと、
前記第1のトレーニング文の長さと前記第2のトレーニング文の長さの比率は、第1の設定比率より大きいか等しく、且つ第2の設定比率より小さいか等しいこと、
前記第1のトレーニング文の翻訳正確率および前記第2のトレーニング文の翻訳正確率は、両方とも設定された正確度閾値より大きいことのうちの少なくとも1つを含む。
M個の前記一般化しようとするバイリンガル文ペアに含まれるK個のオリジナルのバイリンガル語彙ペアをK個の汎用バイリンガル語彙に置き換えて、M個の一般化されたバイリンガル文型を生成し、Kは正の整数であるように構成されることができ、
第3の取得モジュールは、例えば、さらに、
M個の前記一般化されたバイリンガル文型中の各前記汎用バイリンガル語彙ペアを、前記バイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにそれぞれ置き換えて、K*N*M個の前記拡張バイリンガルトレーニング文ペアを生成するように構成されることができる。
前記拡張バイリンガルトレーニングセットおよびオリジナルのバイリンガルトレーニングセットに対して融合処理を実行して、ターゲットバイリンガルトレーニングセットを得るように構成される融合モジュールと、
前記ターゲットバイリンガルトレーニングセットに基づいて、モデルトレーニングを実行して、ターゲット翻訳モデルを得るように構成されるトレーニングモジュールとを含み、
前記ターゲット翻訳モデルは、前記第1の言語と前記第2の言語との間で文を翻訳するために使用される。
N個のオリジナルのバイリンガル語彙ペアを含むバイリンガル語彙テーブルを取得することであって、各前記オリジナルのバイリンガル語彙ペアは、第1の言語で表される第1の語彙、および前記第1の語彙と同じ意味を持つ、第2の言語で表される第2の語彙を含み、Nは正の整数であることと、
複数のオリジナルのバイリンガルトレーニング文ペアを含むオリジナルのバイリンガルトレーニングセットを取得することであって、前記オリジナルのバイリンガルトレーニング文ペアのそれぞれは、第1の言語で表される第1のトレーニング文、および前記第1のトレーニング文と同じ意味を持つ、第2の言語で表される第2のトレーニング文を含むことと、
候補バイリンガル文ペアとして、前記オリジナルのバイリンガルトレーニングセットからいずれか一つの前記オリジナルのバイリンガル語彙ペアにマッチングする少なくとも1つのオリジナルのバイリンガルトレーニング文ペアを選択することと、
少なくとも1つの前記候補バイリンガル文ペアに基づいて、一般化されたバイリンガル文型を構築することと、
前記バイリンガル語彙テーブルおよび前記一般化されたバイリンガル文型に基づいて、複数の拡張バイリンガルトレーニング文ペアを含む拡張バイリンガルトレーニングセットを取得することとを含む。
Claims (12)
- 情報処理装置が実行する、情報処理方法であって、
N個のオリジナルのバイリンガル語彙ペア(Original bilingual vocabulary pair)を含むバイリンガル語彙テーブルを取得することであって、各前記オリジナルのバイリンガル語彙ペアは、第1の言語で表される第1の語彙、および前記第1の語彙と同じ意味を持つ、第2の言語で表される第2の語彙を含み、Nは正の整数であることと、
複数のオリジナルのバイリンガルトレーニング文ペア(Original bilingual training sentence pairs)を含むオリジナルのバイリンガルトレーニングセット(Training set)を取得することであって、前記オリジナルのバイリンガルトレーニング文ペアのそれぞれは、第1の言語で表される第1のトレーニング文、および前記第1のトレーニング文と同じ意味を持つ、第2の言語で表される第2のトレーニング文を含むことと、
候補バイリンガル文ペアとして、前記オリジナルのバイリンガルトレーニングセットからいずれか一つの前記オリジナルのバイリンガル語彙ペアにマッチングする少なくとも1つのオリジナルのバイリンガルトレーニング文ペアを選択することと、
少なくとも1つの前記候補バイリンガル文ペアに基づいて、一般化されたバイリンガル文型を構築することと、
前記バイリンガル語彙テーブルおよび前記一般化されたバイリンガル文型に基づいて、複数の拡張バイリンガルトレーニング文ペアを含む拡張バイリンガルトレーニングセットを取得することとを含み、
前記少なくとも1つの前記候補バイリンガル文ペアに基づいて、一般化されたバイリンガル文型を構築することは、
設定条件にしたがって、前記候補バイリンガル文ペアからM個の一般化しようとするバイリンガル文ペアを確定することであって、前記設定条件は、前記第1のトレーニング文の長さと前記第2のトレーニング文の長さの比率が、第1の設定比率より大きいか等しく、且つ第2の設定比率より小さいか等しいことを含み、Mは正の整数であることと、
M個の前記一般化しようとするバイリンガル文ペアに含まれるK個のオリジナルのバイリンガル語彙ペアをK個の汎用バイリンガル語彙ペアに置き換えて、M個の一般化されたバイリンガル文型を生成することであって、Kは正の整数であることとを含み、
前記バイリンガル語彙テーブルおよび前記一般化されたバイリンガル文型に基づいて、複数の拡張バイリンガルトレーニング文ペアを含む拡張バイリンガルトレーニングセットを取得することは、
M個の前記一般化されたバイリンガル文型中の各前記汎用バイリンガル語彙ペアを、前記バイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにそれぞれ置き換えて、K*N*M個の前記拡張バイリンガルトレーニング文ペアを生成することと、
複数の前記拡張バイリンガルトレーニング文ペアに基づいて、前記拡張バイリンガルトレーニングセットを得ることとを含む、
情報処理方法。 - 前記候補バイリンガル文ペアとしてのオリジナルのバイリンガルトレーニング文ペアに含まれる第1のトレーニング文は、少なくとも、いずれか一つの前記オリジナルのバイリンガル語彙ペアに含まれる第1の語彙を含み、
前記候補バイリンガル文ペアとしてのオリジナルのバイリンガルトレーニング文ペアに含まれる第2のトレーニング文は、少なくとも、いずれか一つの前記オリジナルのバイリンガル語彙ペアに含まれる第1の語彙と同じ意味を持つ第2の語彙を含む、
請求項1に記載の情報処理方法。 - 前記設定条件は、
前記第1のトレーニング文の長さおよび前記第2のトレーニング文の長さは、両方とも設定された文長閾値より大きいか等しいこと、
前記第1のトレーニング文の翻訳正確率および前記第2のトレーニング文の翻訳正確率は、両方とも設定された正確度閾値より大きいことのうちの少なくとも1つを更に含む、
請求項1に記載の情報処理方法。 - 前記汎用バイリンガル語彙は、文が完結していないことを指示するための非完結文字を含む、
請求項1に記載の情報処理方法。 - 前記方法は、
前記拡張バイリンガルトレーニングセットおよびオリジナルのバイリンガルトレーニングセットに対して融合処理を実行して、ターゲットバイリンガルトレーニングセットを得ることと、
前記ターゲットバイリンガルトレーニングセットに基づいて、モデルトレーニングを実行して、ターゲット翻訳モデルを得ることと、さらに含み、
前記ターゲット翻訳モデルは、前記第1の言語と前記第2の言語との間で文を翻訳するために使用される、
請求項1ないし4のいずれか一項に記載の情報処理方法。 - 情報処理装置であって、
N個のオリジナルのバイリンガル語彙ペアを含むバイリンガル語彙テーブルを取得するように構成される第1の取得モジュールであって、各前記オリジナルのバイリンガル語彙ペアは、第1の言語で表される第1の語彙、および前記第1の語彙と同じ意味を持つ、第2の言語で表される第2の語彙を含み、Nは正の整数である第1の取得モジュールと、
複数のオリジナルのバイリンガルトレーニング文ペアを含むオリジナルのバイリンガルトレーニングセットを取得するように構成される第2の取得モジュールであって、前記オリジナルのバイリンガルトレーニング文ペアのそれぞれは、第1の言語で表される第1のトレーニング文、および前記第1のトレーニング文と同じ意味を持つ、第2の言語で表される第2のトレーニング文を含む第2の取得モジュールと、
候補バイリンガル文ペアとして、前記オリジナルのバイリンガルトレーニングセットからいずれか一つの前記オリジナルのバイリンガル語彙ペアにマッチングする少なくとも1つのオリジナルのバイリンガルトレーニング文ペアを選択するように構成される選択モジュールと、
少なくとも1つの前記候補バイリンガル文ペアに基づいて、一般化されたバイリンガル文型を構築するように構成される構築モジュールと、
前記バイリンガル語彙テーブルおよび前記一般化されたバイリンガル文型に基づいて、複数の拡張バイリンガルトレーニング文ペアを含む拡張バイリンガルトレーニングセットを取得するように構成される第3の取得モジュールとを含み、
前記構築モジュールは、
設定条件にしたがって、前記候補バイリンガル文ペアからM個の一般化しようとするバイリンガル文ペアを確定し、
M個の前記一般化しようとするバイリンガル文ペアに含まれるK個のオリジナルのバイリンガル語彙ペアをK個の汎用バイリンガル語彙ペアに置き換えて、M個の一般化されたバイリンガル文型を生成するように構成され、前記設定条件は、前記第1のトレーニング文の長さと前記第2のトレーニング文の長さの比率が、第1の設定比率より大きいか等しく、且つ第2の設定比率より小さいか等しいことを含み、Mは正の整数であり、Kは正の整数であり、
第3の取得モジュールは、
M個の前記一般化されたバイリンガル文型中の各前記汎用バイリンガル語彙ペアを、前記バイリンガル語彙テーブルに含まれるN個のオリジナルのバイリンガル語彙ペアにそれぞれ置き換えて、K*N*M個の前記拡張バイリンガルトレーニング文ペアを生成し、
複数の前記拡張バイリンガルトレーニング文ペアに基づいて、前記拡張バイリンガルトレーニングセットを得るように構成される、
情報処理装置。 - 前記候補バイリンガル文ペアとしてのオリジナルのバイリンガルトレーニング文ペアに含まれる第1のトレーニング文は、少なくとも、いずれか一つの前記オリジナルのバイリンガル語彙ペアに含まれる第1の語彙を含み、
前記候補バイリンガル文ペアとしてのオリジナルのバイリンガルトレーニング文ペアに含まれる第2のトレーニング文は、少なくとも、いずれか一つの前記オリジナルのバイリンガル語彙ペアに含まれる第1の語彙と同じ意味を持つ第2の語彙を含む、
請求項6に記載の情報処理装置。 - 前記設定条件は、
前記第1のトレーニング文の長さおよび前記第2のトレーニング文の長さは、両方とも設定された文長閾値より大きいか等しいこと、
前記第1のトレーニング文の翻訳正確率および前記第2のトレーニング文の翻訳正確率は、両方とも設定された正確度閾値より大きいことのうちの少なくとも1つを更に含む、
請求項6に記載の情報処理装置。 - 前記汎用バイリンガル語彙は、文が完結していないことを指示するための非完結文字を含む、
請求項6に記載の情報処理装置。 - 前記装置は、さらに、
前記拡張バイリンガルトレーニングセットおよびオリジナルのバイリンガルトレーニングセットに対して融合処理を実行して、ターゲットバイリンガルトレーニングセットを得るように構成される融合モジュールと、
前記ターゲットバイリンガルトレーニングセットに基づいて、モデルトレーニングを実行して、ターゲット翻訳モデルを得るように構成されるトレーニングモジュールとを含み、
前記ターゲット翻訳モデルは、前記第1の言語と前記第2の言語との間で文を翻訳するために使用される、
請求項6ないし9のいずれか一項に記載の情報処理装置。 - 情報処理装置であって、
プロセッサと、
プロセッサの実行可能な命令を格納するように構成されるメモリとを含み、
前記プロセッサは、実行されるときに、前記請求項1ないし5のいずれか一項に記載の情報処理方法のステップを実現するように構成される、前記情報処理装置。 - 非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記記憶媒体内の命令を情報処理装置のプロセッサによって実行されるときに、前記装置を前記請求項1ないし5のいずれか一項に記載の情報処理方法を実行することができるようにする、前記非一時的なコンピュータ読み取り可能な記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911025249.7 | 2019-10-25 | ||
CN201911025249.7A CN110781689B (zh) | 2019-10-25 | 2019-10-25 | 信息处理方法、装置及存储介质 |
PCT/CN2019/123095 WO2021077559A1 (zh) | 2019-10-25 | 2019-12-04 | 信息处理方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022511139A JP2022511139A (ja) | 2022-01-31 |
JP7208968B2 true JP7208968B2 (ja) | 2023-01-19 |
Family
ID=69232750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020500705A Active JP7208968B2 (ja) | 2019-10-25 | 2019-12-04 | 情報処理方法、装置および記憶媒体 |
Country Status (7)
Country | Link |
---|---|
US (1) | US11461561B2 (ja) |
EP (1) | EP3812951A1 (ja) |
JP (1) | JP7208968B2 (ja) |
KR (1) | KR102327790B1 (ja) |
CN (1) | CN110781689B (ja) |
RU (1) | RU2737112C1 (ja) |
WO (1) | WO2021077559A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11562137B2 (en) * | 2020-04-14 | 2023-01-24 | Bank Of America Corporation | System to correct model drift for natural language understanding |
JP7333377B2 (ja) | 2021-12-14 | 2023-08-24 | 楽天グループ株式会社 | 情報処理装置、情報処理方法およびプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010282453A (ja) | 2009-06-05 | 2010-12-16 | Hitachi Ltd | 機械翻訳方法、及びシステム |
JP2015022431A (ja) | 2013-07-17 | 2015-02-02 | 株式会社エヌ・ティ・ティ・データ | 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム |
CN104391885A (zh) | 2014-11-07 | 2015-03-04 | 哈尔滨工业大学 | 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法 |
JP2017138655A (ja) | 2016-02-01 | 2017-08-10 | パナソニックIpマネジメント株式会社 | 対訳コーパス作成方法、該装置および該プログラムならびに機械翻訳システム |
CN108241609A (zh) | 2016-12-23 | 2018-07-03 | 科大讯飞股份有限公司 | 排比句识别方法及系统 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5477451A (en) * | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
US7191115B2 (en) * | 2001-06-20 | 2007-03-13 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among words |
US7827028B2 (en) * | 2006-04-07 | 2010-11-02 | Basis Technology Corporation | Method and system of machine translation |
US7725306B2 (en) * | 2006-06-28 | 2010-05-25 | Microsoft Corporation | Efficient phrase pair extraction from bilingual word alignments |
US8195447B2 (en) | 2006-10-10 | 2012-06-05 | Abbyy Software Ltd. | Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
KR100912501B1 (ko) | 2007-08-09 | 2009-08-17 | 한국전자통신연구원 | 번역 지식 구축 방법 및 장치 |
CN101290616A (zh) | 2008-06-11 | 2008-10-22 | 中国科学院计算技术研究所 | 一种统计机器翻译方法和系统 |
KR101356417B1 (ko) * | 2010-11-05 | 2014-01-28 | 고려대학교 산학협력단 | 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법 |
US8874433B2 (en) * | 2011-05-20 | 2014-10-28 | Microsoft Corporation | Syntax-based augmentation of statistical machine translation phrase tables |
CN103631772A (zh) | 2012-08-29 | 2014-03-12 | 阿里巴巴集团控股有限公司 | 机器翻译方法及装置 |
CN103914447B (zh) * | 2013-01-09 | 2017-04-19 | 富士通株式会社 | 信息处理设备和信息处理方法 |
US9367541B1 (en) * | 2015-01-20 | 2016-06-14 | Xerox Corporation | Terminological adaptation of statistical machine translation system through automatic generation of phrasal contexts for bilingual terms |
CN105068997B (zh) * | 2015-07-15 | 2017-12-19 | 清华大学 | 平行语料的构建方法及装置 |
CN106156013B (zh) | 2016-06-30 | 2019-02-19 | 电子科技大学 | 一种固定搭配型短语优先的两段式机器翻译方法 |
CN106649288B (zh) * | 2016-12-12 | 2020-06-23 | 北京百度网讯科技有限公司 | 基于人工智能的翻译方法和装置 |
CN106598959B (zh) * | 2016-12-23 | 2021-03-19 | 北京金山办公软件股份有限公司 | 一种确定双语语句对互译关系方法及系统 |
KR102069692B1 (ko) * | 2017-10-26 | 2020-01-23 | 한국전자통신연구원 | 신경망 기계번역 방법 및 장치 |
CN108021560B (zh) * | 2017-12-07 | 2021-04-27 | 苏州大学 | 一种数据增强方法、系统、装置及计算机可读存储介质 |
RU2692049C1 (ru) * | 2017-12-29 | 2019-06-19 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система перевода исходного предложения на первом языке целевым предложением на втором языке |
CN108920473B (zh) * | 2018-07-04 | 2022-08-09 | 中译语通科技股份有限公司 | 一种基于同类词与同义词替换的数据增强机器翻译方法 |
CN109359308B (zh) * | 2018-10-31 | 2023-01-10 | 腾讯科技(武汉)有限公司 | 机器翻译方法、装置及可读存储介质 |
CN110334197A (zh) * | 2019-06-28 | 2019-10-15 | 科大讯飞股份有限公司 | 语料处理方法及相关装置 |
-
2019
- 2019-10-25 CN CN201911025249.7A patent/CN110781689B/zh active Active
- 2019-12-04 JP JP2020500705A patent/JP7208968B2/ja active Active
- 2019-12-04 RU RU2020103383A patent/RU2737112C1/ru active
- 2019-12-04 KR KR1020207001087A patent/KR102327790B1/ko active IP Right Grant
- 2019-12-04 WO PCT/CN2019/123095 patent/WO2021077559A1/zh active Application Filing
-
2020
- 2020-01-16 US US16/744,768 patent/US11461561B2/en active Active
- 2020-01-17 EP EP20152542.5A patent/EP3812951A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010282453A (ja) | 2009-06-05 | 2010-12-16 | Hitachi Ltd | 機械翻訳方法、及びシステム |
JP2015022431A (ja) | 2013-07-17 | 2015-02-02 | 株式会社エヌ・ティ・ティ・データ | 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム |
CN104391885A (zh) | 2014-11-07 | 2015-03-04 | 哈尔滨工业大学 | 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法 |
JP2017138655A (ja) | 2016-02-01 | 2017-08-10 | パナソニックIpマネジメント株式会社 | 対訳コーパス作成方法、該装置および該プログラムならびに機械翻訳システム |
CN108241609A (zh) | 2016-12-23 | 2018-07-03 | 科大讯飞股份有限公司 | 排比句识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110781689B (zh) | 2021-08-06 |
US20210124880A1 (en) | 2021-04-29 |
RU2737112C1 (ru) | 2020-11-24 |
EP3812951A1 (en) | 2021-04-28 |
CN110781689A (zh) | 2020-02-11 |
KR102327790B1 (ko) | 2021-11-17 |
WO2021077559A1 (zh) | 2021-04-29 |
KR20210050484A (ko) | 2021-05-07 |
JP2022511139A (ja) | 2022-01-31 |
US11461561B2 (en) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107436691B (zh) | 一种输入法进行纠错的方法、客户端、服务器及装置 | |
CN107102746B (zh) | 候选词生成方法、装置以及用于候选词生成的装置 | |
CN107608532B (zh) | 一种联想输入方法、装置及电子设备 | |
WO2018076450A1 (zh) | 一种输入方法和装置、一种用于输入的装置 | |
CN111368541B (zh) | 命名实体识别方法及装置 | |
WO2019109663A1 (zh) | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 | |
WO2019109664A1 (zh) | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 | |
CN107564526B (zh) | 处理方法、装置和机器可读介质 | |
CN112836058B (zh) | 医疗知识图谱建立方法及装置、医疗知识图谱查询方法及装置 | |
JP7208968B2 (ja) | 情報処理方法、装置および記憶媒体 | |
CN111538830B (zh) | 法条检索方法、装置、计算机设备及存储介质 | |
CN110633017A (zh) | 一种输入方法、装置和用于输入的装置 | |
CN107424612B (zh) | 处理方法、装置和机器可读介质 | |
CN111414766B (zh) | 一种翻译方法及装置 | |
CN116166843A (zh) | 基于细粒度感知的文本视频跨模态检索方法和装置 | |
CN110858100B (zh) | 联想候选词生成方法及装置 | |
CN111324214B (zh) | 一种语句纠错方法和装置 | |
JP5586772B1 (ja) | 翻訳システム及び翻訳プログラム、並びに翻訳方法 | |
CN110245358A (zh) | 一种机器翻译方法及相关装置 | |
CN112987941B (zh) | 生成候选词的方法及装置 | |
CN113361287B (en) | Translation method, device, equipment and medium | |
CN111198619A (zh) | 联想候选生成方法及装置 | |
CN110134850B (zh) | 一种搜索方法及装置 | |
JP5497230B1 (ja) | 翻訳システム及び翻訳プログラム、並びに翻訳方法 | |
CN112528129B (zh) | 多语种翻译系统语种搜索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220719 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221221 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230106 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7208968 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |