JP2017091382A - 対訳辞書作成装置、対訳辞書作成方法およびプログラム - Google Patents

対訳辞書作成装置、対訳辞書作成方法およびプログラム Download PDF

Info

Publication number
JP2017091382A
JP2017091382A JP2015223478A JP2015223478A JP2017091382A JP 2017091382 A JP2017091382 A JP 2017091382A JP 2015223478 A JP2015223478 A JP 2015223478A JP 2015223478 A JP2015223478 A JP 2015223478A JP 2017091382 A JP2017091382 A JP 2017091382A
Authority
JP
Japan
Prior art keywords
term
sentence
pair
term pair
bilingual dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015223478A
Other languages
English (en)
Other versions
JP6656894B2 (ja
Inventor
松永 務
Tsutomu Matsunaga
務 松永
佐藤 大輔
Daisuke Sato
大輔 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2015223478A priority Critical patent/JP6656894B2/ja
Publication of JP2017091382A publication Critical patent/JP2017091382A/ja
Application granted granted Critical
Publication of JP6656894B2 publication Critical patent/JP6656894B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】出現頻度の少ない語についても正確な対訳辞書を作成することができる対訳辞書作成装置方法及びプログラムを提供する。【解決手段】対訳コーパスから複数の対応文を読み込みS11、複数の対応文から用語を抽出しS12、抽出された用語が用語ペアテーブルに登録されている用語ペアを構成する用語以外である場合には、当該用語を、新規な用語として選定するS13。複数の対応文のマッチングに基づいて、新規な用語のペアを用語ペア候補として取得しS14、用語ペア候補の出現頻度に応じて、当該用語ペア候補を構成する新規な用語ペアを対訳辞書として出力するステップS16。取得するステップでは、複数の対応文の順序をランダムに変更して前記マッチングを繰り返し行う。【選択図】図6

Description

本発明は、異なる言語間の対訳辞書を作成する技術に関する。
従来、異なる言語間において、同一の意味内容の単語対を作成することが知られている。例えば、公知の辞書自動作成方式では、対訳コーパスから、原言語と目的言語との間の対応データを読み込み、対応データに示された原言語の単語と目的言語の単語との尤度に基づいてそれらの単語間の対応付けを行うものがある(特許文献1)。
特開平7−28819号公報
従来の辞書自動作成方式では、異なる言語間の単語対を尤度に基づいて作成する。しかしながら、対訳コーパスに出現する頻度が低い単語については、出現頻度に基づく尤度(=確からしさ)が同じ値または同等の値になるので、正しい単語対を作成するために必要な尤度が得られず、正確な対訳辞書を作成することができないという問題があった。
本発明は、上述した状況においてなされたものであり、出現頻度の低い語についても正確な対訳辞書を作成することができる対訳辞書作成装置等を提供することにある。
上記の課題を解決するために、本発明は、コンピュータが対訳辞書を作成する対訳辞書作成方法であって、前記コンピュータは、第1言語文と第2言語文とが文単位であらかじめ対応付けられた複数の対応文に含まれる異なる言語間の用語ペアの出現頻度に基づいて抽出された前記用語ペアを記憶する用語ペア記憶部を備えており、対訳コーパスから前記複数の対応文を読み込むステップと、前記複数の対応文に含まれる前記第1言語文と前記第2言語文とを構成する用語を抽出するステップと、前記抽出された用語が前記用語ペアを構成する用語以外である場合には、当該用語を、新規な用語として選定するステップと、前記対訳コーパスからの前記複数の対応文の読み込み順序に従って各対応文を構成する前記第1言語文と前記第2言語文とのマッチングを行い、マッチング結果に基づいて、前記新規な用語のペアを用語ペア候補として取得するステップと、前記用語ペア候補の出現頻度に応じて、当該用語ペア候補を構成する新規な用語ペアを対訳辞書として出力するステップと、を含み、前記取得するステップでは、前記複数の対応文の読み込み順序をランダムに変更して前記マッチングを繰り返し行う。
また、上記の課題を解決するために、本発明は、第1言語文と第2言語文とが文単位であらかじめ対応付けられた複数の対応文に含まれる異なる言語間の用語ペアの出現頻度に基づいて抽出された前記用語ペアを記憶する用語ペア記憶部と、対訳コーパスから前記複数の対応文を読み込む対応文読込部と、前記複数の対応文に含まれる前記第1言語文と前記第2言語文とを構成する用語を抽出する用語抽出部と、前記抽出された用語が前記用語ペアを構成する用語以外である場合には、当該用語を、新規な用語として選定する用語選定部と、前記対訳コーパスからの前記複数の対応文の読み込み順序に従って各対応文を構成する前記第1言語文と前記第2言語文とのマッチングを行い、マッチング結果に基づいて、前記新規な用語のペアを用語ペア候補として取得する用語ペア候補取得部と、前記用語ペア候補の出現頻度に応じて、当該用語ペア候補を構成する新規な用語ペアを対訳辞書として出力する対訳辞書出力部と、を含み、前記用語ペア候補取得部は、前記複数の対応文の読み込み順序をランダムに変更して前記マッチングを繰り返し行う。
本発明によれば、出現頻度の低い単語についても正確な対訳辞書を作成することができる。
本発明の実施形態の対訳辞書作成装置を含む対訳辞書作成システム全体の概要構成例を示す図である。 図1の対訳辞書作成装置のハードウエア上の構成例を示す図である。 対訳辞書作成装置によって実現される対訳辞書作成の概略を説明するための図である。 対訳辞書作成装置の機能構成の一例を示す図である。 各種テーブルの一例を示す図である。 対訳辞書作成装置における処理全体の一例を示すフローチャートである。
以下、本発明の一実施形態における対訳辞書作成装置を含む対訳辞書作成システム全体の概略構成について図1を参照して説明する。図1は、対訳辞書作成システム1全体の概要構成例を示す図である。
図1において、対訳辞書作成システム1は、通信端末10と、通信端末10と例えばインターネット等の通信網20を介して接続可能な対訳辞書作成装置30と、対訳辞書作成装置30と接続可能な外部システムとしての対訳コーパス40とを含んで構成されている。
対訳辞書作成システム1では、通信端末10と対訳辞書作成装置30との間は、HTTP(HyerText Transfer Protocol)通信が行われるようになっているが、それ以外の通信方式もとり得る。
通信端末10は、CPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)と、液晶ディスプレイ等の表示装置と、タッチパネル等の入力装置とを備える。この実施形態では、通信端末10は、一例として、ラップトップパソコン(Laptop computer)とするが、携帯端末、PDA(Personal Digital Assist)、パーソナルコンピュータなどでもよい。
対訳コーパス40は、例えばネットワークの伝送路上に設けられ、ネットワーク上の対訳辞書作成装置30との間で通信可能な文書データベースである。後述するように、対訳コーパス40は、異なる言語(英語、日本語など)間の同じ意味内容を有する文同士を互いに対応付けて記憶している。なお、対訳コーパス40は、CPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)とを含む。
[対訳辞書作成装置のハードウエア構成]
次に、図1に示した対訳辞書作成装置30のハードウエア構成例について、図2を参照して説明する。図2は、対訳辞書作成装置30の構成例を示す図である。
対訳辞書作成装置30は、図2に示すように、CPU(Central Processing Unit)31と、ROM(Read Only Memory)32と、RAM(Random Access Memory)33と、通信インターフェース34と、外部アクセス部35とを含むサーバ装置である。
CPU31は、各構成要素とバスで接続されて制御信号やデータの転送を行うとともに、対訳辞書作成装置30全体の処理を実現するためのプログラムの実行、演算処理等を行う。
ROM32には、対訳辞書作成装置30全体の動作に必要な対訳辞書作成プログラムが記憶されており、本実施形態の対訳辞書作成装置30は、当該プログラムが実行されることにより実現される。このようなROM33に変えて、クラウドサービスを用いて必要なプログラムおよびデータを取り込むことももちろん可能である。
上述したプログラムは、CD−ROM等の記憶媒体に格納されていてもよい。
RAM33には、後述する対訳辞書作成処理を行うためのプログラムおよび各種のデータが一時的に保持される。
通信インターフェース34は、ネットワークインターフェース機能を有しており、通信端末10との通信を行う。
外部アクセス部35は、CPU31が対訳コーパス40にアクセスして対訳コーパス40と通信を行うためのインターフェースである。この実施形態では、対訳コーパス40内の後記する対応文が外部アクセス部35を介してCPU31へ伝送される。
[対訳辞書作成の概略]
次に、対訳辞書作成装置30によって実現される対訳辞書作成の概要について、図1〜図3を参照して説明する。図3は、対訳辞書作成時における異なる言語文のマッチング処理の概略を説明するための図であって、(a)は日本語文と英語文との対応関係、(b)はマッチング処理時に文の順序を変更したときの日本語文と英語文との対応関係と、を示している。なお、図3(a)および図3(b)は、マッチング処理を例示的に示しているに過ぎない。
対訳辞書作成装置30は、異なる言語文が文単位であらかじめ対応付けられた対応文(対訳文)を対訳コーパス40から読み込み、その対応文となる日本語文および英語文のマッチング処理を行うことになるが、それよりも前に、対応文中に同時に出現する用語(この実施形態では、その用語自体で意味を表すことができる自立語)のペアとなる用語ペアのうち、出現頻度が高い用語ペアを登録しておく。
上述した出現頻度は、複数の対応文中、対象となる用語ペアが同時に出現する対応文の数を意味する。例えば、出現頻度が閾値以上の用語ペアの場合は、出現頻度が高い用語ペアとして登録される。
図3(a)および図3(b)で示した日本語文d2および英語文d3の例では、自立語としての用語として、例えば、「私」,「リンゴ」,「好き」,「彼」,「ぶどう」などの文字列がある。出現頻度が高い用語ペアとして、例えば、「私」と「I」のペア、「好き」と「like」のペアなどがある。
図3(a)および図3(b)において、文順d1は、日本語文d2と英語文d3との対応文が対訳コーパス40から読み込まれた順序を表している。図3(a)の一例によれば、対訳辞書作成装置30において、「私はリンゴが好きです。」から「彼はバナナを食べました。」までの4つの日本語文d2が、それぞれ、文順d1に示された「1」〜「4」の順序にしたがって、「I like apples.」から「He ate a bunch of bananas.」までの4つの英語文d3と対応付けられて読み込まれる。
そして、読み込まれた4組の対応文の中から、上記出現頻度が高い用語ペアを除く新規な用語(図3(a)および(b)では、新規な用語として、例えば、「リンゴ」,「桃」などの文字列がそれぞれ下線で示してある。)が存在する場合、CPU31は、その新規な用語のペアを得るために、ランダムに変更された文順d1にしたがった順序(図3(b))で対応文のマッチングを繰り返す。そして、CPU31は、すべてのマッチング結果(文順d1が同じ順位の日本語文と英語文の対応文のものと、文順d1が上位の日本語文と英語文の対応文のもの)を参照して、その新規な用語のペア(用語ペアd4)を得る。
図3(a)では、新規な用語ペアd4として、文順d1が「1」の「私はリンゴが好きです。」と「I likes apples.」の対応文から「りんご」と「apples」のペアが得られる。また、文順d1が「2」の「彼は桃とリンゴをもらいました。」と「I had peaches and apples.」の対応文と、その上位の文順d1(=「1」)の対応文のマッチング結果(「りんご」のペアは「apples」)とから、「桃」と「peaches」の用語ペアd4が得られる。さらに、文順d1が「4」の「彼はバナナを食べました。」と「He ate a bunch of bananas.」の対応文と、その上位の文順d1(=「2」)の対応文のマッチング結果(「bunch」は新規でない)とから、「バナナ」と「bananas」の用語ペアd4が得られる。
一方、図3(a)では、文順d1が「2」の「彼はぶどうを買いました。」と「I brought a bunch of grapes」の対応文と、その上位の文順d1(=「1」)のマッチング結果とからは、新規な用語である「ぶどう」のペアは得られないが、図3(a)に示した文順d1が変更されることによって、その「ぶどう」のペアが得られる。
すなわち、対訳辞書作成装置30は、2回目以降のマッチング処理時には、対応文の順序をランダムに変更するため、すべての用語のペアが仮に1回目のマッチング処理時に得られなかった場合でも、それ以降のマッチング処理時に残りの用語のペアを取得し得る。上述した対応文の順序の変更は、マッチング処理が行われる度に、例えば乱数を利用して行われる。
図3(b)の例では、「彼はぶどうを買いました。」と「I brought a bunch of grapes」の対応文の文順d1が「4」に変更され、その上位の文順d1(=「1」)に、「彼はバナナを食べました。」と「He ate a bunch of bananas.」の対応文が配置される。このため、CPU31は、文順d1が「1」の「彼はバナナを食べました。」と「He ate a bunch of bananas.」の対応文のマッチング結果(図3(b)の例によれば、用語「バナナ」に対して「bananas」の他に「bunch」の用語もあるので、「バナナ」のペアは特定できない。)を参照することで、図3(a)ではペアが得られなかった「ぶどう」と「grapes」の新規な用語ペアd4をさらに得る。つまり、「バナナ」と対応付けられなかった「bunch」については、他の「彼はぶどうを買いました。」と「I brought a bunch of grapes」の対応文にも出現することで、「バナナ」と「ぶどう」のいずれとも対応付けられないことが認識され、結果として、「ぶどう」は、正しく「grapes」と対応付けられる。
なお、図3(b)の文順d1によれば、「リンゴ」と「apples」の用語ペアd4と、「桃」と「peaches」の用語ペアd4は得られないことになるが、図3(a)で示した文順d1におけるマッチング結果から参照される。
このように本実施形態の対訳辞書作成装置30では、対応文の文順d1が変わることで、頻出頻度の低い用語であったとしても、文順d1の異なる対応文に対するすべてのマッチング結果(文順d1が同じ順位の対応文の用語の対応関係と、文順d1が上位の対応文の用語の対応関係)を考慮することにより、出現頻度の低い用語のペアが得られる。
[対訳辞書作成装置の機能構成]
次に、対訳辞書作成装置30の機能構成について図4を参照して説明する。図4は、図2に示したハードウエア構成上で実現される対訳辞書作成装置30の機能構成の一例を示す図である。
図4において、対訳辞書作成装置30は、対応文読込部301と、用語抽出部302と、用語選定部303と、用語ペア候補取得部304と、対訳辞書出力部305と、用語ペア登録部306とを備える。さらに、対訳辞書作成装置30は、用語ペア記憶部41と、用語ペア候補記憶部42とを備える。
用語ペア記憶部41は、図2におけるROM32またはRAM33により構成され、出現頻度の高い用語ペアを記憶する。
図5(a)は、かかる用語ペアを記憶する用語ペアテーブル411を示している。この用語ペアテーブル411では、「私」などの日本語と、「I」などの英語とが対応付けられている。
用語ペア候補記憶部42は、図2におけるROM32またはRAM33により構成され、用語ペアテーブル411に記憶されている用語ペア以外の新規な用語ペアを記憶する。
図5(b)は、かかる用語ペア候補を記憶する用語ペア候補テーブル421を示している。この用語ペア候補テーブル421では、「リンゴ」などの日本語と、「apples」などの英語とが対応付けられている。
図4に示した各記憶部41,42以外の構成要素については、以下の対訳辞書作成装置30の処理説明において適宜参照される。
[対訳辞書作成装置の処理]
以下、この対訳辞書作成を実現するために実行される対訳辞書作成装置30の処理について、図1〜図6を参照して説明する。
図6は、対訳辞書作成装置30における処理全体の一例を示すフローチャートである。
先ず、この対訳辞書作成を実現するための前処理として、CPU31は、出現頻度に基づいて異なる言語間の用語ペアを用語ペア記憶部41に登録する(ステップS10)。この場合、CPU31(対応文読込部301)は、対訳コーパス40から、異なる言語間の対応文を読み込む。CPU31(用語抽出部302)は、日本語文と英語文とを構成する用語を抽出する。さらに、CPU31(用語ペア登録部306)は、出現頻度に基づいて異なる言語間の用語ペアを用語ペア記憶部41の用語ペアテーブル411に登録する。
図3(a)の一例によれば、対応文は、「私はリンゴが好きです。」などの日本語文d2と、「I like apples.」などの英語文d3とが予め対応付けられた文である。このとき、CPU31(用語抽出部302)は、それらの日本語文d2と英語文d3とをそれぞれ形態素解析し、「私」、「I」などの自立語を、用語として抽出する。そして、CPU31(用語ペア登録部303)は、すべての抽出した用語を対象として、対応する用語のペアの出現頻度を求め、その用語ペアの出現頻度がしきい値以上である場合は、当該用語ペアを、出現頻度が高い用語ペアとして用語ペアテーブル411上に登録することになる。図4(a)の用語テーブル411によれば、「私」と「I」のペア、「好き」と「like」のペアなどが、出現頻度が高い用語ペアとして登録されることになる。
図6において、後述するステップS11〜S16の処理は、用語テーブル411上に登録されている用語ペア以外の用語ペア、すなわち、出現頻度が低い用語ペアを対訳辞書として作成するための処理である。
ステップS11において、CPU31は、対訳コーパス40から、異なる言語間の対応文を読み込む。そして、ステップS12において、CPU31は、日本語文と英語文とを構成する用語を抽出する。なお、対応文の読込処理(ステップS11)と、用語の抽出処理(ステップS12)はそれぞれ、上述したステップS10で説明した対応文読込部301と、用語抽出部302とによって実行される処理と同一である。
ステップS12で抽出された用語がステップS10で登録された用語ペアを構成する用語以外の場合には、CPU31は、当該用語を、処理対象としての新規な用語として選定する(ステップS13)。図3(a)では、新規な用語として、「リンゴ」,「ぶどう」,「桃」などの例を示している。
ステップS13において、CPU31は、用語選定部303として機能する。
次にCPU31は、ステップS13で選定された新規な用語のペアを得るために、ステップS11で読み込まれた対応文を構成する日本語文と英語文とのマッチングに基づいて、処理対象としての新規な用語のペアを、用語ペア候補として得る(ステップS14)。このステップS14では、新規な用語ペアは、マッチング結果において、ステップS13で選定された新規な用語と一対の用語が抽出された場合にのみ取得される。用語ペア候補は、CPU31によって用語ペア候補テーブル421(図4(b))に登録される。
図3(a)の一例によれば、文順d1で示された順位にしたがって、4組の対応文を構成する日本語文d2と英語文d3とがマッチングされ、マッチング結果に基づいて、「りんご」と「apples」のペア,「桃」と「peaches」のペア,「バナナ」と「bananas」のペアが、用語ペア候補として得られることになる。
CPU31は、用語ペア候補の取得が終了したか否かを判定し(ステップS15)、終了していない場合には、対応文の読込処理(ステップS11)と、用語の抽出処理(ステップS12)と、新規な用語の選定処理(ステップS13)と、用語ペア候補の取得処理(ステップS14)とを行う。
上述した対応文は、用語ペア候補の取得処理(ステップS14)が2回目以降に実施される場合には、例えば乱数に基づいて文順がランダムに変更されるため、1回目の用語ペア候補の取得処理(ステップS14)時に得られなかった用語のペアが取得できる。例えば図3(b)に示した対応文の文順d1の例では、図3(a)に示した対応文の文順d1ではペアが得られなかった「ぶどう」と「grapes」のペアが、用語ペア候補として得られることになる。
ステップS15の判定処理では、繰り返し条件として、例えばループ回数が予め指定されており、ステップS11〜S14のループ処理回数が上記ループ回数に達した場合には、CPU31は、終了したと判定する。
なお、上述した繰り返し条件は、変更することもできる。例えば、かかる条件として、用語ペア候補の数を指定すること等も考えられる。
ステップS14およびステップS15において、CPU31は、用語ペア候補取得部304として機能する。
なお、対応文の順序は、例えば対応文が読み込まれる時点で(ステップS11)、変更されることになるが、対応文が読み込まれた後のマッチング直前に、一括してすべての対応文の順序を変更するようにしてもよい。
CPU31は、用語ペア候補の取得が終了したと判定した場合には(ステップS15)、終了していない場合には、ステップS15で取得された用語ペア候補の出現頻度に応じて、当該用語ペア候補を構成する用語ペアを、対訳辞書として出力する(ステップS16)。
例えば、用語ペア候補の出現頻度が予め設定された閾値以上の場合には、CPU31は、その用語ペア候補の用語ペア(この実施形態では、例えば、図4(b)に示した「リンゴ」と「apples」などのペア)を対訳辞書として作成して出力する。なお、図6のフローチャートによれば、用語ペア候補は、繰り返し実行されるマッチングによって得られることになるので、ステップS16における用語ペア候補の出現頻度は、実際に実行されたマッチングで用いられたすべての対応文中、対象となる用語ペア候補が同時に出現する対応文の数を意味する。
対訳辞書の作成は、用語対を対訳辞書として示すものであればよく、例えば一覧表や辞書形式など種々の方法によって実施することができる。出力先は、例えば通信端末10であるが、変更することもできる。
なお、ステップS15において、CPU31は、用語ペアテーブル411上に登録されている用語ペアについても、出現頻度が閾値以上であれば、上述した対訳辞書として出力することもできる。
ステップS15において、CPU31は、対訳辞書出力部305として機能する。
以上説明したように、本実施形態の対訳辞書作成装置30によれば、異なる言語文からなる対応文の中に、出現頻度の高い用語ペア以外の新規な用語が出現した場合に、その新規な用語のペアを得るために、対応文の順序をランダムに並び替えて対応文のマッチングを繰り返し行う。ここで、マッチングでは、同順位と上位順位のマッチング結果が参照されるので、仮にマッチングで新規な用語のペアが得られなかったとしても、繰り返しマッチングを行うことによりその新規な用語のペアが得られる。これにより、出現頻度の低い新規な用語についても正確な対訳辞書を作成することができる。
なお、上記実施形態は、変更するようにしてもよい。
例えば、図6の用語ペア候補の取得処理(ステップS14)で、異なる対応文から同一の用語ペア候補が取得された場合には、対訳辞書の出力処理(ステップ16)では、例えば、相加平均、相乗平均などの値を適用して、同一の用語ペア候補に対する最終的な出現頻度を計算するようにしてもよい。また、この出現頻度の計算では、用語ペア候補を構成する用語に応じて、適宜重みを付けるようにしてもよい。
上述した対応文は、日本語と英語以外の言語についても適用することができる。
また、図1に示したものにおいて、対訳辞書作成装置30の構成は、様々な改変が可能である。例えば、対訳辞書作成装置30は、通信端末10または/および対訳コーパス40の機能を兼ね備えるようにしてもよい。
10 通信端末
30 対訳辞書作成装置
40 対訳コーパス
301 対応文取得部
302 用語抽出部
303 用語選定部
304 用語ペア候補取得部
305 対訳辞書出力部
306 用語ペア登録部
401 用語ペア記憶部
402 用語ペア候補記憶部

Claims (5)

  1. コンピュータが対訳辞書を作成する対訳辞書作成方法であって、
    前記コンピュータは、第1言語文と第2言語文とが文単位であらかじめ対応付けられた複数の対応文に含まれる異なる言語間の用語ペアの出現頻度に基づいて抽出された前記用語ペアを記憶する用語ペア記憶部を備えており、
    対訳コーパスから前記複数の対応文を読み込むステップと、
    前記複数の対応文に含まれる前記第1言語文と前記第2言語文とを構成する用語を抽出するステップと、
    前記抽出された用語が前記用語ペアを構成する用語以外である場合には、当該用語を、新規な用語として選定するステップと、
    前記対訳コーパスからの前記複数の対応文の読み込み順序に従って各対応文を構成する前記第1言語文と前記第2言語文とのマッチングを行い、マッチング結果に基づいて、前記新規な用語のペアを用語ペア候補として取得するステップと、
    前記用語ペア候補の出現頻度に応じて、当該用語ペア候補を構成する新規な用語ペアを対訳辞書として出力するステップと、を含み、
    前記取得するステップでは、前記複数の対応文の読み込み順序をランダムに変更して前記マッチングを繰り返し行う
    ことを特徴とする対訳辞書作成方法。
  2. 前記用語ペア記憶部に、前記抽出された用語ペアを登録するステップをさらに含むことを特徴とする請求項1に記載の対訳辞書作成方法。
  3. 前記新規な用語ペアは、前記マッチング結果において、前記選定された新規な用語と一対の用語が抽出された場合にのみ取得されることを特徴とする請求項1または2に記載の対訳辞書作成方法。
  4. 第1言語文と第2言語文とが文単位であらかじめ対応付けられた複数の対応文に含まれる異なる言語間の用語ペアの出現頻度に基づいて抽出された前記用語ペアを記憶する用語ペア記憶部と、
    対訳コーパスから前記複数の対応文を読み込む対応文読込部と、
    前記複数の対応文に含まれる前記第1言語文と前記第2言語文とを構成する用語を抽出する用語抽出部と、
    前記抽出された用語が前記用語ペアを構成する用語以外である場合には、当該用語を、新規な用語として選定する用語選定部と、
    前記対訳コーパスからの前記複数の対応文の読み込み順序に従って各対応文を構成する前記第1言語文と前記第2言語文とのマッチングを行い、マッチング結果に基づいて、前記新規な用語のペアを用語ペア候補として取得する用語ペア候補取得部と、
    前記用語ペア候補の出現頻度に応じて、当該用語ペア候補を構成する新規な用語ペアを対訳辞書として出力する対訳辞書出力部と、を含み、
    前記用語ペア候補取得部は、前記複数の対応文の読み込み順序をランダムに変更して前記マッチングを繰り返し行う
    ことを特徴とする対訳辞書作成装置。
  5. 請求項1ないし3のいずれか1項に記載の対訳辞書作成方法をコンピュータに実行させるための対訳辞書作成プログラム。
JP2015223478A 2015-11-13 2015-11-13 対訳辞書作成装置、対訳辞書作成方法およびプログラム Active JP6656894B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015223478A JP6656894B2 (ja) 2015-11-13 2015-11-13 対訳辞書作成装置、対訳辞書作成方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015223478A JP6656894B2 (ja) 2015-11-13 2015-11-13 対訳辞書作成装置、対訳辞書作成方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2017091382A true JP2017091382A (ja) 2017-05-25
JP6656894B2 JP6656894B2 (ja) 2020-03-04

Family

ID=58768675

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015223478A Active JP6656894B2 (ja) 2015-11-13 2015-11-13 対訳辞書作成装置、対訳辞書作成方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6656894B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291559A (zh) * 2020-01-22 2020-06-16 中国民航信息网络股份有限公司 姓名文本处理方法及装置、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1011445A (ja) * 1996-06-19 1998-01-16 Oki Electric Ind Co Ltd 翻訳パターン作成方法および装置
JP2007249606A (ja) * 2006-03-16 2007-09-27 Oki Electric Ind Co Ltd 対訳辞書作成装置,対訳辞書作成方法およびコンピュータプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1011445A (ja) * 1996-06-19 1998-01-16 Oki Electric Ind Co Ltd 翻訳パターン作成方法および装置
JP2007249606A (ja) * 2006-03-16 2007-09-27 Oki Electric Ind Co Ltd 対訳辞書作成装置,対訳辞書作成方法およびコンピュータプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
北村美穂子,松本裕治: "対訳コーパスを利用した対訳表現の自動抽出", 情報処理学会論文誌, vol. 第38巻第4号, JPN6019023224, 15 April 1997 (1997-04-15), JP, pages 727 - 736, ISSN: 0004059628 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291559A (zh) * 2020-01-22 2020-06-16 中国民航信息网络股份有限公司 姓名文本处理方法及装置、存储介质及电子设备
CN111291559B (zh) * 2020-01-22 2023-04-11 中国民航信息网络股份有限公司 姓名文本处理方法及装置、存储介质及电子设备

Also Published As

Publication number Publication date
JP6656894B2 (ja) 2020-03-04

Similar Documents

Publication Publication Date Title
KR102401942B1 (ko) 번역품질 평가 방법 및 장치
US8990066B2 (en) Resolving out-of-vocabulary words during machine translation
US9460085B2 (en) Testing and training a question-answering system
CN110969012B (zh) 文本纠错方法、装置、存储介质及电子设备
US20180075013A1 (en) Method and system for automating training of named entity recognition in natural language processing
US9575965B2 (en) Translation assessment based on computer-generated subjective translation quality score
US9766868B2 (en) Dynamic source code generation
US11762926B2 (en) Recommending web API's and associated endpoints
US9619209B1 (en) Dynamic source code generation
CN111310440A (zh) 文本的纠错方法、装置和系统
CN114595686B (zh) 知识抽取方法、知识抽取模型的训练方法及装置
US20210249019A1 (en) Speech recognition method, system and storage medium
US11227116B2 (en) Translation device, translation method, and program
JP2018128869A (ja) 検索結果表示装置、検索結果表示方法、及びプログラム
CN109190123B (zh) 用于输出信息的方法和装置
CN110738055A (zh) 文本的实体识别方法、设备及存储介质
JP2023007369A (ja) 翻訳方法、分類モデルの訓練方法、装置、デバイス及び記憶媒体
CN110728156B (zh) 翻译方法、装置、电子设备及可读存储介质
US11494167B2 (en) Method for identifying project component, and reusability detection system therefor
CN113836316B (zh) 三元组数据的处理方法、训练方法、装置、设备及介质
CA3147341A1 (en) Category phrase recognition method, model training method, device and system
US10650195B2 (en) Translated-clause generating method, translated-clause generating apparatus, and recording medium
WO2020052060A1 (zh) 用于生成修正语句的方法和装置
JP6656894B2 (ja) 対訳辞書作成装置、対訳辞書作成方法およびプログラム
KR20220054753A (ko) 음성 검색 방법 및 장치, 전자 기기, 컴퓨터 판독 가능 한 저장 매체 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181023

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190814

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200205

R150 Certificate of patent or registration of utility model

Ref document number: 6656894

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250