JP2018106563A - 情報分類方法、情報分類システム、及び情報分類プログラム - Google Patents

情報分類方法、情報分類システム、及び情報分類プログラム Download PDF

Info

Publication number
JP2018106563A
JP2018106563A JP2016254504A JP2016254504A JP2018106563A JP 2018106563 A JP2018106563 A JP 2018106563A JP 2016254504 A JP2016254504 A JP 2016254504A JP 2016254504 A JP2016254504 A JP 2016254504A JP 2018106563 A JP2018106563 A JP 2018106563A
Authority
JP
Japan
Prior art keywords
pair
bilingual
language
translation pair
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016254504A
Other languages
English (en)
Inventor
智 高岸
Satoru Takagishi
智 高岸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2016254504A priority Critical patent/JP2018106563A/ja
Publication of JP2018106563A publication Critical patent/JP2018106563A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】翻訳精度を向上させる情報分類方法を提供する。【解決手段】第1言語のテキストと第2言語のテキストとの対訳ペアを含む対訳コーパスを管理する、対訳コーパス管理システム10で実行される情報分類方法では、メモリ30に複数の区分のグループ及びグループ関係が記憶され、プロセッサ20が、いずれかの区分に分類されている第1対訳ペア及び第2対訳ペアを取得し、第1対訳ペアと第2対訳ペアとの間で、第1言語のテキストの一致及び第2言語のテキストの一致を判定し、第1言語のテキスト及び第2言語のテキストの少なくとも一方が一致し、且つ第1対訳ペアが分類されている区分と第2対訳ペアが分類されている区分とでグループが共通することに応じて、第1対訳ペア及び第2対訳ペアの少なくとも一方を共通するこのグループに対応する区分に分類される対訳ペアとして対訳コーパスに含める。【選択図】図1

Description

本発明は、機械翻訳で用いられる翻訳モデルの基である対訳コーパスの管理のための技術に関する。
翻訳ソフトウェアがする機械翻訳では、この翻訳ソフトウェアに含まれる翻訳エンジンが翻訳のために参照する翻訳モデルが用いられる。翻訳モデルとは、例えば、原言語の文と目的言語の文とのペア(以下、対訳ペアともいう)を含む対訳コーパスを用いた機械学習によって作成され、原言語の文に対する目的言語の文の翻訳としての尤もらしさを示すデータである。特許文献1には、対訳コーパスを用いた翻訳モデルの作成に関する技術の例が開示されている。また、特許文献1で開示される発明では、対訳コーパスの対訳ペアについて分類が設けられ、分類毎に対訳ペアが蓄積される。
ここで、自然かつ精度の高い高品質の翻訳文を得るための翻訳モデルの作成には、大量の対訳ペアを含む対訳コーパスが必要である。このような対訳コーパスの管理は、例えばテキストデータを扱える表計算ソフトウェア等を用いて行われる。
特開2015−22431号公報
しかしながら、特許文献1で開示される対訳コーパスの管理では、翻訳精度を向上させることが困難である。例えば、当該対訳コーパスでは、分類毎に対訳ペアが蓄積されるため、対訳ペアが異なる分類間で重複することがある。そのような対訳コーパスを用いて精度の高い機械翻訳を実現する翻訳モデルを得ることは難しい。
上記の問題に鑑みて、本発明の一態様にかかる情報分類方法は、第1言語のテキストと第2言語のテキストとの対訳ペアが複数の区分のいずれかに分類されて含まれる対訳コーパスを管理する情報分類システムで実行される情報分類方法であって、情報分類システムはプロセッサ及びメモリを備え、メモリには複数の区分の少なくとも一部を要素とするグループ、及びグループと複数の区分のうちの他の区分との対応関係であるグループ関係が記憶され、プロセッサが、それぞれが対訳ペアであって、複数の区分のいずれかに分類されている第1対訳ペア及び第2対訳ペアを取得し、第1対訳ペアと第2対訳ペアとの間で、第1言語のテキストが一致するか、及び第2言語のテキストが一致するかを判定し、第1対訳ペアと第2対訳ペアとの間で第1言語のテキスト及び第2言語のテキストの少なくとも一方が一致し、且つ第1対訳ペアが分類されている区分と第2対訳ペアが分類されている区分との間でグループが共通することに応じて、第1対訳ペア及び第2対訳ペアの少なくとも一方を共通する当該グループに対応する区分に分類される対訳ペアとして対訳コーパスに含めて前記メモリに記憶させる。
本発明の情報分類方法、情報分類システム、及び情報分類プログラムは、対訳コーパスを用いて精度の高い機械翻訳を実現する翻訳モデルを得ることを可能にする。
図1は、実施の形態における対訳コーパス管理システムの構成を示すブロック図である。 図2は、実施の形態における対訳コーパス管理システムのハードウェア構成例を示す図である。 図3は、実施の形態における対訳コーパス管理システムで用いられるデータの概要を説明するための図である。 図4は、実施の形態における対訳コーパス管理システムにおいて対訳ペアの分類に用いられる区分の体系及びその構造を説明するための系統図である。 図5は、実施の形態における対訳コーパス管理システムで実行される対訳ペアの分類方法のフロー図である。 図6は、上記の分類方法を説明する端に想定した具体的な状況を示す図である。 図7は、上記の分類方法を説明する端に想定した具体的な状況を示す図である。 図8は、実施の形態の変形例の一つにおける対訳ペアの分類方法のフロー図である。 図9は、実施の形態の変形例の他の一つにおける対訳ペアの分類方法のフロー図である。
(本発明の基礎となった知見)
本発明の発明者らは、「背景技術」の欄において記載した対訳コーパスの管理に関し、以下の問題が生じることを見出した。
すなわち、対訳コーパスの管理では、より精度の高い機械翻訳を実現する翻訳モデルを得るために、同一原文に対する複数種の訳文の保持、各対訳ペアの適用可能な分野のメンテナンス等の高度な管理が求められる。しかしながら、上記の対訳コーパスの技術では、このような管理のための機能が不十分であるため、この管理のための処理が対訳ペアの対訳コーパスへの登録前又は登録後に別途実行される必要があり、非効率である。また、データ管理の効率化のためには、対訳ペアの重複の解消によるデータの無用な肥大化の抑制等のメンテナンス作業も必要であり、管理の負担は大きい。しかも、翻訳の精度を上げるためには、翻訳モデルの作成により大きな対訳コーパスが用いられるが、管理の負担は、対訳コーパスが大きくなるに連れて増加するというジレンマがある。
このような問題を解決するために、本発明の一態様に係る情報分類方法は、第1言語のテキストと第2言語のテキストとの対訳ペアが複数の区分のいずれかに分類されて含まれる対訳コーパスを管理する情報分類システムで実行される情報分類方法であって、情報分類システムはプロセッサおよびメモリを備え、メモリには複数の区分の少なくとも一部を要素とするグループ、及びグループと複数の区分のうちの他の区分との対応関係であるグループ関係が記憶され、プロセッサが、それぞれが対訳ペアであって、複数の区分のいずれかに分類されている第1対訳ペア及び第2対訳ペアを取得し、第1対訳ペアと第2対訳ペアとの間で、第1言語のテキストが一致するか、及び第2言語のテキストが一致するかを判定し、第1対訳ペアと第2対訳ペアとの間で第1言語のテキスト及び第2言語のテキストの少なくとも一方が一致し、且つ第1対訳ペアが分類されている区分と第2対訳ペアが分類されている区分との間でグループが共通することに応じて、第1対訳ペア及び第2対訳ペアの少なくとも一方を共通する当該グループに対応する区分に分類される対訳ペアとして対訳コーパスに含めて前記メモリに記憶させる。
これにより、グループが共通する区分に分類されている対訳ペア間で原文又は訳文が共通であれば、これらの対訳ペアは、入力時よりもより広い概念の区分に再分類されて登録される。その結果、これらの対訳ペアを含んでいる対訳コーパスの汎用性が高められる。また、この再分類は対訳ペアの入力作業において実行されるため、メンテナンスのための別途の作業の負荷が削減される。つまり、汎用性のより高い対訳コーパスが、より小さな負荷で効率よく得られ、また、管理される。
例えば、第1対訳ペアと第2対訳ペアとの間で第1言語のテキスト及び第2言語のテキストの両方が一致し、且つグループ関係において第1対訳ペアが分類されている区分と第2対訳ペアが分類されている区分との間でグループが共通することに応じて、第1対訳ペア及び第2対訳ペアの一方のみを共通する当該グループに対応する区分に分類される対訳ペアとして対訳コーパスに含めてメモリに記憶させてもよい。
これにより、グループが共通する区分に分類されている対訳ペア間で原文及び訳文の両方が一致する場合、これらの対訳ペアは共通するグループに対応する区分の1レコードとしてまとめて登録される。つまり、対訳コーパスの汎用性が高められるとともに、対訳ペアの重複が回避される。この重複の解消は対訳ペアの入力作業において実行されるため、対訳コーパスの肥大化の抑制のための別途の作業の負荷が削減される。その結果、汎用性の高い対訳コーパスが、より小さな負荷で効率よく得られ、また、管理される。
例えば、複数の区分は、階層構造の体系で管理され、グループ関係は、この体系における親子関係を含み、プロセッサが、第1対訳ペアと第2対訳ペアとの間で第1言語のテキスト及び第2言語のテキストの少なくとも一方が一致し、且つ第1対訳ペアが分類されている区分と第2対訳ペアが分類されている区分との間で親区分が共通するグループであることに応じて、第1対訳ペア及び第2対訳ペアの少なくとも一方を当該親区分に分類される対訳ペアとして対訳コーパスに含めてメモリに記憶させてもよい。
これにより、所定の条件を満たす対訳ペアは親区分に分類されて管理される。この親区分に分類されている対訳ペアからなる対訳コーパスを用いて作成された翻訳モデルを使うことで、その子区分に該当する各分野の機械翻訳では対訳ペアの翻訳精度が向上しやすくなる。
例えば、メモリは、第1言語の用語と第2言語の用語との用語対訳ペアが複数の区分のいずれかに分類されて含まれる用語辞書をさらに記憶し、プロセッサは、対訳ペアにおいて、第1言語の用語が第1言語のテキストに含まれるか否か、及び第2言語の用語が第2言語のテキストに含まれるか否かを判定し、対訳ペアにおいて第1言語の用語が前記第1言語のテキストに含まれること及び前記第2言語の用語が前記第2言語のテキストに含まれることの少なくとも一方が満たされることに応じて、対訳ペアが分類されている区分を維持してもよい。また、例えば、プロセッサは、さらに、対訳ペアが属する区分と、対訳ペアに含まれる用語を含む用語対訳ペアが分類されている区分とが同じ又は兄弟関係にあることに応じて、対訳ペアが分類されている区分を維持してもよい。
これにより、登録済みの対訳ペアと原文及び訳文の一方が一致する対訳ペアであっても、含まれる用語に応じて入力時の区分に固有の対訳ペアとして管理することができる。このようにして対訳ペアの過度の汎用化を回避することで、対訳ペアの登録と同時にその汎用性が適正化され、対訳コーパスの監視やメンテナンスの負担を抑えることができる。
また、これらによる効率化及び負担の抑制は、対訳コーパス管理のコストの抑制にも繋がる。
なお、これらの包括的又は具体的な態様は、システム、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよいし、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
以下、実施の形態について、図面を用いて詳細に説明する。
なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序等は、一例であり、本発明を限定する趣旨ではない。また、以下の実施の形態における構成要素のうち、本発明の最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
(実施の形態)
図1から図7を参照して実施の形態における情報分類システムについて説明する。なお、以下では、入力される対訳コーパスのデータを分類して取り扱うための情報分類方法を実行する対訳コーパス管理システムが情報分類システムの一例として説明される。
[構成]
[1−1.全体構成]
図1は、実施の形態における対訳コーパス管理システム10の構成を示すブロック図である。
本実施の形態における対訳コーパス管理システム10は、機械翻訳で用いられる翻訳モデルの基である対訳コーパスの管理をするためのシステムである。ここでいう管理とは、例えば、対訳ペアの登録、登録済みの対訳ペアの編集等の、対訳コーパスの構築及びメンテナンスに関する作業を指す。
対訳コーパス管理システム10は、プロセッサ20及びメモリ30を備える。プロセッサ20には、機能的な構成要素としてデータ受付部22、区分判定部24、及び結果出力部26が含まれ、メモリ30には、機能的な構成要素として区分記憶部32、用語辞書記憶部34、及び対訳ペアデータ記憶部36が含まれる。
データ受付部22は、対訳コーパスに含めるデータの入力を対訳コーパス管理システム10のユーザから受け付ける。
区分判定部24は、データ受付部22が受け付けたデータに含まれる対訳ペアの区分を変更するか否かを所定の規則に沿って判定する。この判定においては、区分記憶部32、用語辞書記憶部34、及び対訳ペアデータ記憶部36に記憶される後述のデータを参照する。区分判定部24は、この判定の結果に基づいて、対訳ペアの区分を維持又は変更する。
結果出力部26は、区分判定部24による処理の結果を受けて対訳ペアとその区分を新規の対訳コーパスとして保存若しくは既存の対訳コーパスに追加(登録)し、又は既存の対訳コーパスに変更を加える。詳細は後述する。
区分記憶部32は、対訳コーパスの管理において各対訳ペアを分類する区分の管理のための体系を示すデータを記憶する。このデータは、上記の判定のために区分判定部24によって参照される。この体系及びデータについては例を用いて後述する。
用語辞書記憶部34は、対訳ペアに含まれ得る用語のリスト(以下、用語辞書ともいう)のデータを記憶する。このデータは上記の判定のために区分判定部24によって参照される。このデータについては例を用いて後述する。
対訳ペアデータ記憶部36は、ユーザによって入力された対訳ペアのデータ又はこのデータに基づいて結果出力部26が出力したデータを記憶する。この対訳ペアもまた上記の判定のために区分判定部24によって参照される。このデータについては例を用いて後述する。
このような機能的な構成要素を備える対訳コーパス管理システム10は、例えば電子計算機によって実現される。図2は、本発明の実施の形態に係る対訳コーパス管理システム10を実現する電子計算機のハードウェア構成の例を示す図である。次に、図1で示した機能的な構成要素に照らし合わせながら図2に例示の対訳コーパス管理システム10のハードウェア構成を説明する。
プロセッサ20は演算装置100に相当し、プロセッサ20が含む機能的な構成要素は演算装置100によって実現される。以下、個別に説明する。
データ受付部22は、電子計算機が備える補助記憶装置300からプログラムを読み出したプログラムを実行することで上記の各種データの処理を実行する演算装置100の入力ポートによって実現される。なお、データ受付部22が入力を受け付ける対訳データは、入力装置400を用いてユーザが入力するデータには限定されない。例えば、記録媒体読取装置600が読み出す記録媒体650に保存されていたデータであってもよいし、インターネット等の外部との通信経路を介して取得されたデータでもよい。
区分判定部24は、上記のプログラムを実行するプロセッサ等の演算装置100によって実現される。
結果出力部26は、上記のプログラムを実行する演算装置100の出力ポート及び通信路50によって実現される。
メモリ30は主記憶装置200及び補助記憶装置300に相当し、メモリ30が含む機能的な構成要素は主記憶装置200若しくは補助記憶装置300又はこれらの組み合わせによって実現される。主記憶装置200は、例えば電子計算機が備える揮発性又は不揮発性の半導体記憶装置である。補助記憶装置300は、例えばハードディスクドライブ又はソリッドステートドライブ等である。
区分判定部24は、バス50経由で補助記憶装置300上にある区分記憶部32、用語辞書記憶部34、及び対訳ペアデータ記憶部36からデータを読み出し、このデータを所定の処理のために主記憶装置200上に置いてアクセスする。また、結果出力部26は、区分判定部24による所定の処理の結果を受けて、バス50経由でこのデータを更新する。
なお、図2に示される出力装置500は、対訳コーパス管理システム10を実現する電子計算機が備えるディスプレイ、プリンタ、又はスピーカ等であり、対訳コーパス管理システム10上で扱われるデータを、ユーザが必要に応じて認識できるように画面上の画像、印刷物、音声等の形で提示する。
また、対訳コーパス管理システム10は、複数台の電子計算機によって実現されてもよい。例えば、図2に示されるハードウェア構成の各要素のいずれかの役割を果たし得る各種の電子計算機を用いて対訳コーパス管理システム10が実現されてもよい。より具体的な例を挙げると、インターネット等の通信経路を介して接続されるサーバコンピュータとパーソナルコンピュータとによって実現されてもよい。この場合、演算装置100、主記憶装置200、及び補助記憶装置300はサーバコンピュータに含まれ、入力装置400及び出力装置500は入力作業の担当者が用いるパーソナルコンピュータに含まれる実現の態様が考えられる。また、このサーバコンピュータは例えば分散する複数台のコンピュータを含むクラウドコンピューティングによって実現されてもよい。入力作業に用いられるパーソナルコンピュータの台数や種類は限定されない。
このように、対訳コーパス管理システム10が実現される空間的規模は特に限定されず、ユーザが居る場所で1台の電子計算機を用いて局所的にも実現され得るし、また、複数の場所にある複数台の電子計算機等又はその構成要素を用いても実現され得る。
[1−2.データの構成]
図3は、対訳コーパス管理システム10で用いられるデータの概要を説明するための図である。
対訳コーパス管理システム10で管理される対訳コーパスデータは、対訳ペアテーブルと、用語辞書テーブルと、区分管理テーブルとを含む。
対訳ペアテーブルは、対訳コーパスと一般に呼ばれるデータの実質をなし、翻訳モデルはこの対訳ペアテーブルを用いた機械学習によって作成される。対訳ペアテーブルは、2つの言語間で翻訳関係にあるテキストのペアと、このペアが分類されている区分とを含むレコードの行の集まりからなるデータであって、対訳ペアテーブル記憶部330に記憶される。
ここでの翻訳関係とは、一方の言語(第1言語)のテキストと、その内容を他方の言語(第2言語)で表わしたテキストとの関係を指す。なお、テキストは文であってもよいし、句又は単語であってもよい。
区分は、各対訳ペアの使用が想定される場面又は分野等の一定の基準に従って各対訳ペアを分類するために用いられる。図3に示される例では、「百貨店」、「CVS(Convenience Store)」という小売業を細分化する業態が区分として用いられている。また、「小売」という区分も見られるが、これは「百貨店」及び「CVS」を含む更に上位の概念の区分である。区分については、区分管理テーブルの説明で詳述する。
用語辞書テーブル及び区分管理テーブルは、対訳ペアからの対訳ペアテーブルの作成、対訳ペアテーブルへの対訳ペアの追加登録、及び登録済みの対訳ペアの編集等の、対訳ペア又は対訳ペアテーブルの管理に用いられるデータである。
用語辞書テーブルは、対訳ペアに含まれ得る用語辞書のデータであり、用語辞書記憶部34に記憶される。より具体的には、用語辞書テーブルは、対訳ペアテーブルに含まれるテキストの言語と同じ2つの言語間で翻訳関係にある用語のペア(以下、用語ペアともいう)と、このペアが分類されている区分とを含むレコードの集まりである。
この用語ペア及び区分は、例えば対訳コーパスの作成の準備段階で対訳コーパス管理システム10のユーザが規定して用意する。用語には、例えば定訳のある固有名詞、又は業種間若しくは同業他社間等で訳し分けられるべき語が選定される。区分は、各用語の使用が限定される場面又は分野、企業等に応じて決定される。用語辞書テーブルを用意したユーザは、入力装置400を介して用語辞書テーブルを対訳コーパス管理システム10に入力して補助記憶装置300に記憶させる。
区分管理テーブルは、対訳コーパスの管理において上述のように各対訳ペア及び各用語ペアが分類されている区分の管理のための体系を示すデータであり、区分記憶部32に記憶される。この分類は、大分類、大分類に属する中分類、中分類に属する小分類のように階層的に体系づけられている。このような体系は、例えば対訳コーパスの作成の準備段階で対訳コーパス管理システム10のユーザがこの対訳コーパスの用途や適用分野を考慮して規定する。そしてこれらの区分及びその規定した体系を示す区分管理テーブルを用意したユーザは、入力装置400を介してこの区分管理テーブルを対訳コーパス管理システム10に入力して補助記憶装置300に記憶させる。
図3に例示される区分管理テーブルの各データ行では、左の欄に区分の名称が、右の欄にその区分が直接属する区分である親区分の名称とが含まれている。このように同じ行に示される区分間の関係を、以下では親子関係という。なお、親区分名の欄に親区分の名称がない(図中N/A(Not Applicable))行にある区分、つまりこの例では、「一般」の区分は、この区分の体系において最上位の階層にあることを示す。また、複数の区分の中には、親区分名の欄にある区分の名称が共通な区分がある。図3の例では、「A社」と「B社」とでは、親区分が「CVS」で共通し、「百貨店」と「ドラッグストア(図面ではDGSと表記)」と「CVS」とは、親区分が「小売」で共通している。このように親区分が共通の区分間の関係を、以下では兄弟関係ともいう。このような区分管理テーブルに示される階層構造の区分の体系及びこの体系に含まれる区分の親子関係及び兄弟関係を図4の系統図を用いてさらに説明する。
図4では、区分が階層別に上下に分けて配置されている。また、親子関係にある区分同士は実線で結ばれ、兄弟関係にある区分(兄弟区分)同士は破線の矩形で囲まれている。図3の区分管理テーブルは、図4で階層的に示される区分の体系を表形式で示すものであると言える。このような階層構造は各区分の概念の包含関係を考慮して規定される。つまり、親子関係にある区分でいえば、親にあたる区分の概念は子にあたる区分の概念を包含するより広い概念の区分である。この対訳コーパス管理システム10で用いられる各区分は、この区分管理テーブルを用いて他の区分との関係が規定される。別の表現をすれば、区分管理テーブルは、対訳コーパス管理システム10で対訳ペア及び用語ペアの分類に用いられる区分間の関係を規定するよう用意される。このような区分管理テーブルを保存することで、区分記憶部32は複数の区分を含む階層構造を記憶する。
なお、対訳コーパス管理システム10では、階層的な関係で説明し得る複数の区分をこのように対訳コーパスの管理に使用できればよく、上記のようなテーブル形式でのデータとして記憶して使用する態様に限定されない。
また、図4に示される区分及び階層は説明のための例であり、本実施の形態における対訳コーパス管理システム10で扱われる対訳コーパスデータでは、作成される翻訳モデルに応じて規定された複数の区分の親子関係を含む2以上の階層が構築されていればよい。
ここで対訳ペアテーブルを再び参照すると、各レコードの対訳ペアは互いに異なる区分に分類されて登録されている。上記のような各区分の包含関係に照らせば、「小売」に分類されている対訳ペアは、その他の区分に分類されている対訳ペアよりも汎用性の高いテキストの対訳ペアとして管理されていると言える。なお、このことは「小売」とそれ以外の区分とについてのみ当てはまることではなく、親子関係にある区分にそれぞれ分類されている2つの対訳ペア全般に当てはまることである。
以上が本実施の形態における対訳コーパス管理システム10を用いて行われる対訳コーパスデータの構成についての説明である。
対訳ペアテーブルの管理では上述のとおり、対訳コーパス管理システム10に各対訳ペアは何らかの区分に分類されて登録される。図3のもっとも下に示されるのは、新たに対訳コーパス管理システム10に入力される対訳ペアの例である。この対訳ペアは、「初期区分」の欄に示されている「CVS」の区分にあらかじめ分類されている。ここで、対訳コーパス管理システム10では、汎用性の高い対訳コーパスを効率よく取得するために。各対訳ペアが分類されている区分が登録の時又は登録後に初期区分から変更され得る。より具体的には、対訳コーパス管理システム10は、2つの対訳ペアを、それぞれが含むテキストの比較結果と、それぞれが分類されている区分間の関係とに基づいて再分類する。以下では、上記の対訳コーパスデータを扱う本実施の形態における対訳コーパス管理システム10で実行される対訳ペアの分類方法について、具体例を用いて説明する。
[1−3.分類方法]
まず、対訳コーパス管理システム10が実行する分類方法の概要を述べる。対訳コーパス管理システム10に新たに入力された対訳ペアは、初期区分のままで対訳ペアテーブルに追加(登録)されるか否かについてまず判定され、この判定の結果に従って対訳ペアテーブルに登録される。この判定は、次の3つの条件に照らして実行される。
(条件1)新たに入力された対訳ペアと原文が一致する登録済みの対訳ペアがあるか否か、また、訳文が一致する登録済みの対訳ペアがあるか否か
(条件2)新たに入力された対訳ペアと原文又は訳文が一致する登録済みの対訳ペアがある場合、両対訳ペアの区分は兄弟関係にあるか否か
(条件3)新たに入力された対訳ペアの原文又は訳文に、用語辞書テーブルに含まれる用語を含むか否か
なお、上記の「新たに入力された対訳ペア」及び「登録済みの対訳ペア」は、それぞれ「第1対訳ペア」及び「第2対訳ペア」の本実施の形態における例であり、以下ではそれぞれを「第1対訳ペア」、「第2対訳ペア」と標記する場合もある。
条件1は、第1対訳ペアが対訳ペアテーブルに未登録であるか否かの判定の基準として用いられる。第1対訳ペアの原文も訳文も対訳ペアテーブルに含まれていない場合、第1対訳ペアは対訳ペアテーブルに登録される。これにより、文例としては初出のテキストの対訳ペアが対訳ペアテーブルに追加され、対訳コーパスの充実化が図られる。また、データの無用な肥大化の原因である、対訳ペアの重複登録を回避することができる。
条件2は、原文又は訳文が共通の第1対訳ペア及び第2対訳ペアそれぞれの現在の区分を、現在の区分の親区分に変更するか否かの判定の基準として用いられる。兄弟関係にある区分にそれぞれ分類されている2つの対訳ペアが共通の原文又は訳文を含む場合、これらの対訳ペアはより高い汎用性のある文例のテキストを含む対訳ペアである可能性が高い。そこでこの場合には、第1対訳ペア及び第2対訳ペアを、兄弟関係にある2つの区分を含んでより広い概念の区分である親区分に分類されている対訳ペアとして使用することができる、汎用性を向上させた対訳コーパスが得られる。
条件3は、対訳ペアが現在の区分に分類されている対訳ペアとして管理されるべきであるか否かを判定するための基準として用いられる。用語辞書テーブルは、上述のとおり、使用される場面、分野、企業等が限定される用語を含んでいる。このような用語を含む対訳ペアを、より上位概念の区分に分類されている対訳ペアとして含む対訳コーパスを用いて翻訳モデルが作成されると、この翻訳モデルを使う機械翻訳では用語の適切な訳し分けができない。しかし、条件3に基づいて対訳ペアの親区分への再分類の実行可否を判断することで、訳し分けの必要な用語を含む対訳ペアの親区分への再分類が回避される。つまり、条件2と合わせて、汎用性を向上させつつ、機械翻訳での用語の訳し分けを適切に可能にする翻訳モデルを得るための対訳コーパスが得られる。
次に、図を参照しながら、対訳コーパス管理システム10で上記の条件を用いて実行される対訳ペアの分類方法の例を説明する。図5は、本実施の形態における対訳コーパス管理システム10で実行される対訳ペアの分類方法のフロー図である。また、図6及び図7は、この分類方法を説明するために想定した具体的な状況を示す図である。図6は、対訳コーパス管理システム10に入力される対訳ペアが準備されている状態、図7は、対訳ペアが対訳コーパス管理システム10に入力され、この分類方法が実施された結果の状態を示す。
この説明のために想定している状況では、コンビニエンスストアチェーンを展開しているB社が、店舗で使われるフレーズの機械翻訳の準備をしている。そして、対訳コーパス管理システム10のユーザは、B社から対訳コーパス作成の依頼を受け、その基になるデータとしてB社が既に持っている対訳ペアの提供を受けている。
この分類方法の開始前には、図示の区分管理テーブルは区分記憶部32に、用語辞書テーブルは用語辞書記憶部34に、対訳ペアテーブルは対訳ペアデータ記憶部36に記憶されている。
まず、初期区分が設定された対訳ペアが対訳コーパス管理システム10に入力される(ステップS51)。この例では、図6のもっとも下に示される初期区分がB社に設定されている3件の対訳ペアが対訳コーパス管理システム10に入力されて、データ受付部22によって受け付けられる。これらの対訳ペアは、B社から提供された対訳ペアの一部である。データ受付部22が受け付けた対訳ペア(第1対訳ペア)は、次に区分判定部24によって取得される。
第1対訳ペアを取得した区分判定部24は、検索対象区分の設定をする(ステップS52)。検索対象区分とは、上記の条件2に基づく判定で用いられる、第1対訳ペアの区分と兄弟関係にある区分である。区分判定部24は、区分記憶部32から区分管理テーブルを読み出し、区分管理テーブル内で見つけた親区分が新たに入力された対訳ペアの初期区分と共通の区分を検索対象区分に設定する。この例では、親区分が「B社」と共通の「CVS」である「A社」が検索対象区分に設定される。
次に区分判定部24は上記の条件1及び2に基づく判定をする。つまり、対訳ペアテーブルに、原言語及び目的言語の少なくとも一方のテキストが第1対訳ペアと一致する第2対訳ペアが存在するか、また、存在する場合は、その第2対訳ペアは検索対象区分に分類されているか否かを判定する(ステップS53)。
より具体的には、例えば区分判定部24は、検索対象区分に分類されている第2対訳ペアを対訳ペアテーブルで検索して取得し、第1対訳ペアと各言語のテキストを比較する。または、区分判定部24は、第2対訳ペアを対訳ペアテーブルから順次読み出して取得し、第1対訳ペアと各言語のテキストを比較し、少なくとも一方が一致する場合には、取得した第2対訳ペアが検索対象区分に分類されている否かを判定してもよい。
ステップS53の判定結果がNOの場合、つまり第1言語のテキスト及び第2言語のテキストの少なくとも一方が第1対訳ペアと一致する第2対訳ペアが対訳ペアテーブルにない場合、及び、いずれかは一致しても検索対訳ペア対象区分に分類されている第2対訳ペアが対訳ペアテーブルにない場合には、この第1対訳ペアは結果出力部26によって対訳ペアテーブルに追加される(ステップS58)。
図6に示される第1対訳ペアのうち、データ行の先頭にあるものは、ステップS51からステップS53を経て、ステップS58で対訳ペアテーブルに追加される例である。このようにして、原文も訳文も初出であるこの第1対訳ペアは、対訳コーパスの充実化のために、図7に示されるようにそのまま対訳ペアテーブルに追加される。区分は初期区分のままである。
ステップS53の判定結果がYESの場合、つまり第1言語のテキスト及び第2言語のテキストの少なくとも一方が第1対訳ペアと一致し、且つ、検索対象区分に分類されている第2対訳ペアが対訳ペアテーブルにある場合、区分判定部24は、条件3に基づく判定をする。つまり、第1対訳ペアの第1言語のテキスト又は第2言語のテキストの少なくとも一方に、用語辞書テーブルに含まれる用語を含むか否かを判定する(ステップS54)。
より具体的には、例えば、区分判定部24は、用語ペアを用語辞書テーブルから順次読み出して取得し、取得した用語ペアに含まれる用語を第1対訳ペアが含むか否か判定する。
ステップS54の判定結果がYESの場合、つまり第1対訳ペアの第1言語のテキスト又は第2言語のテキストの少なくとも一方に、用語辞書テーブルに含まれる用語を含む場合、この第1対訳ペアは結果出力部26によって対訳ペアテーブルに追加される(ステップS59)。
図6に示される第1対訳ペアのうち、データ行の2行目にあるものは、ステップS51からステップS54までを経て、ステップS59で対訳ペアテーブルに追加される例である。
詳細に手順を追うと、まず、ステップS51での入力に続いて、ステップS52で、検索対象区分が「A社」に設定される。そしてこの第1対訳ペアは、原文が一致し、検索対象区分である「A社」に分類されている第2対訳ペアが対訳ペアテーブルに存在するため、ステップS53ではYESと判定される。そして、用語辞書テーブルに含まれる用語のうち、「特製おにぎり」を含むため、ステップS54ではYESと判定される。したがって、初期区分のままで管理されるべき対訳ペアとして、図7に示されるように区分が維持されたまま対訳ペアテーブルに追加される。その結果、対訳テーブルは、原文が共通で訳文が異なる2つの第2対訳ペアを異なる区分に分類されている対訳ペアとして含む。これにより、訳し分けの必要性等に対応するよう対訳コーパスの充実化が図られる。
ステップS54の判定結果がNOの場合、つまり第1対訳ペアの第1言語のテキスト又は第2言語のテキストのいずれにも、用語辞書テーブルに含まれる用語が含まれない場合、区分判定部24は、第1対訳ペアを現在の区分、つまり初期区分の親区分に再分類する(ステップS55)。そして、第1対訳ペアの再分類後の区分が、区分管理テーブルで管理される区分の階層で最上位の区分であれば(ステップS56でYES)、第1対訳ペアはこの時点の区分で結果出力部26によって対訳ペアテーブルに追加される(ステップS58)。
第1対訳ペアの再分類後の区分が最上位の区分ではない場合(ステップS56でNO)、区分判定部24は、ステップS52で設定した検索対象区分を、その親区分と兄弟関係にある区分に再設定する(ステップS57)。ステップS57は、第1対訳ペアの区分及び検索対象区分を入力時よりも階層を1つ上げた状態で再分類後の第1対訳ペアに対してステップS53及びS54を実行するための手順である。これにより、第1対訳ペアがより広い概念の区分に分類できるか否かの判定が実行される。
図6に示される第1対訳ペアのうち、データ行の3行目及び4行目にあるものは、ステップS51からステップS57までを1回経て、再度ステップS53を経てから対訳ペアテーブルに追加される例である。
詳細に手順を追うと、まず、ステップS51での入力に続いて、ステップS52で、検索対象区分が「A社」に設定される。そして3行目にある第1対訳ペアは、原文が一致し、且つ、検索対象区分である「A社」に分類されている対訳ペアが対訳ペアテーブルに存在するため、ステップS53ではYESと判定される。そして、用語辞書テーブルに含まれる用語を含まないため、ステップS54ではNOと判定され、ステップS55で、初期区分「B社」の親区分「CVS」に再分類される。区分「CVS」は、最上位区分ではないため、ステップS56ではNOと判定され、ステップS57で、検索対象区分が「A社」の親区分「CVS」に再設定される。2回目のステップS53では、条件を満たす第2対訳ペアが対訳ペアテーブルに存在しないため、NOと判定され、この第1対訳ペアは、この時点での区分「CVS」で対訳ペアテーブルに追加される(ステップS58)。
また、ステップS58で第1対訳ペアが登録されると、区分判定部24は、ステップS53でされた検索で見つかった第2対訳ペアと第1対訳ペアとは、原文と訳文とが両方一致するのかについて判定する(ステップS60)。原文及び訳文の両方が不一致の場合(ステップS60で両方不一致)、そのままこの分類方法は終了する。片方のみが一致する場合、ステップS63で見つかった第2対訳ペアの対訳ペアの区分が、結果出力部26によって親区分に変更されて(ステップS61)、この分類方法は終了する。両方が一致する場合、ステップS63で見つかった第2対訳ペアのレコードが、結果出力部26によって削除されて(ステップS62)、この分類方法は終了する。図7には、これらの結果の例が示される。以下、各例について説明する。
上述の先頭の第1対訳ペアの例が、原文及び訳文の両方が不一致の場合に該当する。図7では、この第1対訳ペアの内容がそのまま対訳ペアテーブルに追加されている。
図6に示される第1対訳ペアのうち、データ行の3行目の第1対訳ペアの例が、原文及び訳文の一方のみが一致する場合に該当する。図6によれば、対訳ペアテーブルには、この第1対訳ペアと原文のみが一致し、区分「A社」に分類されている第2対訳ペアが対訳ペアテーブルのデータ行の3行目に存在する。この第1対訳ペアは、上述のとおりステップS51からステップS57までを1回経て、再度ステップS53を経てから、区分「CVS」に属分類されている対訳ペアとしてステップS58で対訳ペアテーブルに追加される。その後、この第2対訳ペアは、ステップS61で区分が「A社」から「CVS」に変更される。これにより、この第2対訳ペアを、より広い概念の区分である親区分に分類されている対訳ペアとして使用することができる、汎用性を向上させた対訳コーパスが得られる。
また、図6に示される第1対訳ペアのうち、データ行の4行目の第1対訳ペアの例が、原文及び訳文の両方が一致する場合に該当する。図6によれば、対訳ペアテーブルには、この第1対訳ペアと原文及び訳文の両方が一致し、区分「A社」に分類されている第2対訳ペアが対訳ペアテーブルのデータ行の先頭に存在する。この第1対訳ペアは、上述のとおりステップS51からステップS57までを1回経て、再度ステップS53を経てから、区分「CVS」に分類されている対訳ペアとしてステップS58で対訳ペアテーブルに追加される。その後、この第2対訳ペアは区分がより広い親区分に変えられるのではなく、ステップS62で削除される。これにより、対訳ペアの重複登録を無くし、データの無用な肥大化を抑えて管理の効率化に貢献する。
なお、上記では、分類方法の説明を簡単にするために、条件1及び2を満たす第2対訳ペアの件数を限定している。しかし、ステップS53では、条件1及び2を満たす第2対訳ペアは、1件の第1対訳ペアに対して複数件見つけられてもよく、見つけられた複数件の第2対訳ペアの各々について、ステップS60での判定がなされてもよい。
このように、本実施の形態における対訳コーパス管理システム10では、所定の条件を満たす対訳ペアは親区分に分類されて管理される。この親区分に分類されている対訳ペアからなる対訳コーパスを用いて作成された翻訳モデルを使うことで、その子区分に該当する各分野の機械翻訳では対訳ペアの翻訳精度が向上しやすくなる。言い換えると、本実施の形態における対訳コーパス管理システム10では、ある区分に該当する分野の機械翻訳には、その兄弟区分の対訳ペアを基に作成された翻訳モデルを容易に準備して利用することができる。それにより、翻訳精度の向上の可能性が上がる。
(変形例)
その他、本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものも、本発明の一実施の態様である。
例えば、上述の対訳コーパスデータの管理のためのデータの構成は一例であり、当業者が思いつく各種の変形も、本実施の形態における対訳コーパス管理システム10で扱われ得る。また、上述の対訳コーパスデータの管理のための対訳ペアの分類方法は一例であり、当業者が思いつく各種の変形も、本実施の形態における対訳コーパス管理システム10で実行され得る。以下にこれらの変形を例示する。
例えばステップS54では、さらに、対訳ペアが属する区分と、この対訳ペアに含まれる用語を含む用語対訳ペアが分類されている区分とが同じ又は兄弟関係にあることに応じて、対訳ペアが分類されている区分が維持されてもよい。区分「A社」に分類されている対訳ペアが含む用語の区分が「A社」又は「B社」であれば、用語による訳し分けの必要性がある。この場合に比べて、この用語の区分が「製造」や「建設」である場合、用語による訳し分けの必要性は低い。したがって、前者の場合には、訳し分けのために対訳ペアの区分が維持され、後者の場合には対訳ペアの区分が現在の区分の親分類に再分類される、といった、よりきめ細かな訳し分けと汎用性の向上との調整を図ることができる。
また、例えば対訳コーパスデータには、用語辞書テーブルが含まれなくてもよい。用語辞書は、翻訳モデルがカバーする分野や規模によっては不要であったり未整備であったりするが、このような場合にも上述の対訳ペアの分類方法を応用することができる。ただし、図5に示される分類方法から、ステップS54の判定、及び、この判定の結果がYESの場合のステップS59での対訳ペアへの追加が省かれる。図8は、この変形例において実行される対訳ペアの分類方法のフロー図である。各ステップの詳細は図5に示される分類方法と同じである。
また、対訳ペアテーブルは、それぞれ1個のテーブルとして図3、図6、及び図7に示されているが、例えば区分毎の別個のテーブルであってもよい。この場合、ステップS53では、検索対象区分の対訳ペアテーブルで、条件1及び2を満たす第2対訳ペアが検索される。
また、用語辞書テーブルについても区分毎の別個のテーブルであってもよい。この場合、上記の変形例でのステップS54の判定は、該当区分、つまり対訳ペアの区分と同じ区分の用語を含む用語辞書テーブル及び対訳ペアの区分と兄弟関係にある区分の用語を含む用語辞書テーブルの各用語が、当該対訳ペアに含まれるか否かに応じてなされる。
また、上記の分類方法の一部の手順の順序は、変更することができる。例えばステップS54はステップS53に先立って実行されてもよい。つまり、入力された第1対訳ペアは、区分判定部24によって、まず用語辞書に含まれる所定の区分の用語を含むか否かについて判定される。用語を含む第1対訳ペアは、区分の変更が維持されたまま結果出力部26によって対訳ペアテーブルに入力され、用語を含まない第1対訳ペアは、上記のステップS53の処理の対象になる。図9は、この変形例において実行される対訳ペアの分類方法のフロー図である。図5に示されるフロー図との差異は、ステップS53とS54との順序が入れ替わっている点である。なお、ステップS54は、ステップS52での検索対象区分の設定又はステップS57での検索対象区分の再設定の前に実行されてもよい。各ステップの詳細は図5に示される分類方法と同じである。
また、ステップS60での判定は、その一部が上記の分類方法の一連の手順における他の箇所で実行されてもよい。すなわち、第2対訳ペアと第1対訳ペアとは原文及び訳文の両方が一致するか否かについては、ステップS53の一部として判定されてもよい。そしてステップS53での判定の結果がYESである場合には、次のステップS54での判定がNOの場合にこの第2対訳ペアが削除されてもよい。
また、ステップS60での判定の結果、片方が一致の場合も両方が一致の場合も同じく第2対訳ペアの区分が親区分に変更されてもよい。そして重複レコードの検索とその解消は、この分類方法と別に実行されてもよい。
また、重複レコードの削除は、直ちに実際に対訳ペアテーブルから消去する代わりに、将来的に削除されるレコードであることを示すフラグを付けることで実行されてもよい。
また、上記の説明では、第1対訳ペアの入力作業で登録済みの第2対訳ペアとの間でのテキストの比較等を実行することで対訳コーパスの汎用性の向上が図られている。しかしながら、対訳コーパスの汎用性の向上のために対訳コーパス管理システム10及び対訳コーパス管理システム10で実行される対訳分類方法の使用可能な場面は上記の説明に限定されない。例えば既存の未整理の対訳コーパス内の第2対訳ペアの一部を第1対訳ペアとして区分判定部24に取得させて上記の対訳分類方法を実行させても、同様に対訳コーパスの汎用性の向上を図ることができる。
なお、上記では、対訳ペアが分類される複数の区分は階層構造の体系で管理され、区分と区分の集合(グループ)との対応関係(グループ関係)の一例として、階層間を跨ぐ親子関係を説明したが、区分の体系及びグループ関係はこれに限定されない。例えば、区分はフラットな体系で管理されてもよく、グループ関係は、この体系における区分とグループとの対応関係であってもよい。なお、ここでいう区分の集合とは、要素である区分が1つである場合も含む。
また、上記の情報分類方法は、上記の各機能的な構成要素が、プログラムを実行するプロセッサによって実現される。ただし、これらの機能的な構成要素間での上記の分担は一例であって変更されてもよく、これらの構成要素及び機能を任意に分割したり組み合わせたりすることで実現される形態も本発明の範囲に含まれる。
以上、一つ又は複数の態様に係る情報分類システム等について、実施の形態及びその変形例に基づいて説明したが、本発明は、この実施の形態又はその変形例に限定されるものではない。本発明の趣旨を逸脱しない限り、実施の形態又はその変形例における構成要素、構成要素の配置、手順の有無、手順の順序等を組み合わせて得られる態様も、情報分類システムの態様に含まれる。
本発明は、機械学習に用いられる翻訳モデルの基である対訳コーパス管理のための装置で実行される情報分類方法、この電子計算機を含んでこの方法を実行する情報分類システム、及びこの方法をこの情報分類システムに実行させるプログラムとして有用である。
10 対訳コーパス管理システム
100 演算装置
20 プロセッサ
200 主記憶装置
22 データ受付部
24 区分判定部
26 結果出力部
30 メモリ
300 補助記憶装置
32 区分記憶部
34 用語辞書記憶部
36 対訳ペアデータ記憶部
400 入力装置
500 出力装置
600 記録媒体読取装置
650 記録媒体

Claims (7)

  1. 第1言語のテキストと第2言語のテキストとの対訳ペアが複数の区分のいずれかに分類されて含まれる対訳コーパスを管理する情報分類システムで実行される情報分類方法であって、前記情報分類システムはプロセッサおよびメモリを備え、
    前記メモリには前記複数の区分の少なくとも一部を要素とするグループ、及び前記グループと前記複数の区分のうちの他の区分との対応関係であるグループ関係が記憶され、
    前記プロセッサが、
    それぞれが前記対訳ペアであって、前記複数の区分のいずれかに分類されている第1対訳ペア及び第2対訳ペアを取得し、
    前記第1対訳ペアと前記第2対訳ペアとの間で、前記第1言語のテキストが一致するか、及び前記第2言語のテキストが一致するかを判定し、
    前記第1対訳ペアと前記第2対訳ペアとの間で前記第1言語のテキスト及び前記第2言語のテキストの少なくとも一方が一致し、且つ前記第1対訳ペアが分類されている区分と前記第2対訳ペアが分類されている区分との間でグループが共通することに応じて、前記第1対訳ペア及び前記第2対訳ペアの少なくとも一方を共通する当該グループに対応する区分に分類される対訳ペアとして前記対訳コーパスに含めて前記メモリに記憶させる
    情報分類方法。
  2. 前記第1対訳ペアと前記第2対訳ペアとの間で前記第1言語のテキスト及び前記第2言語のテキストの両方が一致し、且つ前記グループ関係において前記第1対訳ペアが分類されている区分と前記第2対訳ペアが分類されている区分との間でグループが共通することに応じて、前記第1対訳ペア及び前記第2対訳ペアの一方のみを共通する当該グループに対応する区分に分類される対訳ペアとして前記対訳コーパスに含めて前記メモリに記憶させる
    請求項1に記載の情報分類方法。
  3. 前記複数の区分は、階層構造の体系で管理され、
    前記グループ関係は、前記体系における親子関係を含み、
    前記プロセッサが、前記第1対訳ペアと前記第2対訳ペアとの間で前記第1言語のテキスト及び前記第2言語のテキストの少なくとも一方が一致し、且つ前記第1対訳ペアが分類されている区分と前記第2対訳ペアが分類されている区分との間で親区分が共通するグループであることに応じて、前記第1対訳ペア及び前記第2対訳ペアの少なくとも一方を当該親区分に分類される対訳ペアとして前記対訳コーパスに含めて前記メモリに記憶させる、
    請求項1又は2に記載の情報分類方法。
  4. 前記メモリは、前記第1言語の用語と前記第2言語の用語との用語対訳ペアが複数の区分のいずれかに分類されて含まれる用語辞書をさらに記憶し、
    前記プロセッサは、前記対訳ペアにおいて、前記第1言語の用語が前記第1言語のテキストに含まれるか否か、及び前記第2言語の用語が前記第2言語のテキストに含まれるか否かを判定し、
    前記対訳ペアにおいて第1言語の用語が前記第1言語のテキストに含まれること及び前記第2言語の用語が前記第2言語のテキストに含まれることの少なくとも一方が満たされることに応じて、前記対訳ペアが分類されている区分を維持する
    請求項1〜3のいずれか1項に記載の情報分類方法。
  5. 前記プロセッサは、さらに、前記対訳ペアが属する区分と、前記対訳ペアに含まれる用語を含む前記用語対訳ペアが分類されている区分とが同じ又は兄弟関係にあることに応じて、前記対訳ペアが分類されている区分を維持する、
    請求項4に記載の情報分類方法。
  6. 第1言語のテキストと第2言語のテキストとの対訳ペアが複数の区分のいずれかに分類されて含まれる対訳コーパスを管理する情報分類システムであって、
    前記複数の区分の少なくとも一部を要素とするグループ、及び前記グループと前記複数の区分のうちの他の区分との対応関係であるグループ関係を記憶するメモリと、
    それぞれが前記対訳ペアであって、前記複数の区分のいずれかに分類されている第1対訳ペア及び第2対訳ペアを取得し、
    前記第1対訳ペアと前記第2対訳ペアとの間で、前記第1言語のテキストが一致するか、及び前記第2言語のテキストとが一致するかを判定し、
    前記第1対訳ペアと前記第2対訳ペアとの間で、前記第1言語のテキスト及び前記第2言語のテキストの少なくとも一方が一致し、且つ前記第1対訳ペアが分類されている区分と前記第2対訳ペアが分類されている区分との間でグループが共通することに応じて、前記第1対訳ペア及び前記第2対訳ペアの少なくとも一方を共通する当該グループに対応する区分に分類される対訳ペアとして前記対訳コーパスに含めて前記メモリに記憶させるプロセッサとを備える
    情報分類システム。
  7. プロセッサ及びメモリを備え、前記メモリには、複数の区分の少なくとも一部を要素とするグループ、及び前記グループと前記複数の区分のうちの他の区分との対応関係であるグループ関係が記憶され、第1言語のテキストと第2言語のテキストとの対訳ペアが複数の区分のいずれかに分類されて含まれる対訳コーパスを管理する情報分類システムに情報分類方法を実行させるプログラムであって、
    前記情報分類方法は、
    前記プロセッサに、
    それぞれが前記対訳ペアであって、前記複数の区分のいずれかに分類されている第1対訳ペア及び第2対訳ペアを取得し、
    前記第1対訳ペアと前記第2対訳ペアとの間で、前記第1言語のテキストが一致するか、及び前記第2言語のテキストが一致するかを判定させ、
    前記第1対訳ペアと前記第2対訳ペアとの間で、前記第1言語のテキスト及び前記第2言語のテキストの少なくとも一方が一致し、且つ前記第1対訳ペアが分類されている区分と前記第2対訳ペアが分類されている区分との間でグループが共通することに応じて、前記第1対訳ペア及び前記第2対訳ペアの少なくとも一方を共通する当該グループに対応する区分に分類される対訳ペアとして前記対訳コーパスに含めて前記メモリに記憶させる方法である
    情報分類プログラム。
JP2016254504A 2016-12-27 2016-12-27 情報分類方法、情報分類システム、及び情報分類プログラム Pending JP2018106563A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016254504A JP2018106563A (ja) 2016-12-27 2016-12-27 情報分類方法、情報分類システム、及び情報分類プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016254504A JP2018106563A (ja) 2016-12-27 2016-12-27 情報分類方法、情報分類システム、及び情報分類プログラム

Publications (1)

Publication Number Publication Date
JP2018106563A true JP2018106563A (ja) 2018-07-05

Family

ID=62787965

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016254504A Pending JP2018106563A (ja) 2016-12-27 2016-12-27 情報分類方法、情報分類システム、及び情報分類プログラム

Country Status (1)

Country Link
JP (1) JP2018106563A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020230278A1 (ja) * 2019-05-14 2020-11-19 日本電信電話株式会社 情報処理装置、抽出方法および抽出プログラム
JP2022188810A (ja) * 2021-06-10 2022-12-22 Scalably株式会社 情報処理装置及び情報処理プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020230278A1 (ja) * 2019-05-14 2020-11-19 日本電信電話株式会社 情報処理装置、抽出方法および抽出プログラム
JP2022188810A (ja) * 2021-06-10 2022-12-22 Scalably株式会社 情報処理装置及び情報処理プログラム

Similar Documents

Publication Publication Date Title
US9535902B1 (en) Systems and methods for entity resolution using attributes from structured and unstructured data
US9495358B2 (en) Cross-language text clustering
US10180992B2 (en) Atomic updating of graph database index structures
JP5512489B2 (ja) ファイル管理装置及びファイル管理方法
US20170068748A1 (en) Hybrid data storage system and method and program for storing hybrid data
US20180144061A1 (en) Edge store designs for graph databases
US9224103B1 (en) Automatic annotation for training and evaluation of semantic analysis engines
US20200026913A1 (en) Blockwise extraction of document metadata
US20170255708A1 (en) Index structures for graph databases
US20120109963A1 (en) Classification hierarchy regeneration system, classification hierarchy regeneration method, and classification hierarchy regeneration program
US11567995B2 (en) Branch threading in graph databases
US10445370B2 (en) Compound indexes for graph databases
JP2005070911A (ja) 構造化文書のデータを検索する装置および方法
US11720543B2 (en) Enforcing path consistency in graph database path query evaluation
US20180357278A1 (en) Processing aggregate queries in a graph database
CN110720097A (zh) 图数据库中元组和边的功能性等价
Brown Learning Apache Cassandra
US10983997B2 (en) Path query evaluation in graph databases
JP2018106563A (ja) 情報分類方法、情報分類システム、及び情報分類プログラム
US10417230B2 (en) Transforming and evaluating missing values in graph databases
JP7122773B2 (ja) 辞書構築装置、辞書の生産方法、およびプログラム
US20220083736A1 (en) Information processing apparatus and non-transitory computer readable medium
Al Sarkhi et al. A scalable, hybrid entity resolution process for unstandardized entity references
JP2021043624A (ja) 情報処理装置及び情報処理プログラム
CN112988668B (zh) 基于PostgreSQL的流式文档处理方法、装置以及装置的应用方法