JP2018106563A

JP2018106563A - 情報分類方法、情報分類システム、及び情報分類プログラム

Info

Publication number: JP2018106563A
Application number: JP2016254504A
Authority: JP
Inventors: 智高岸; Satoru Takagishi
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2016-12-27
Filing date: 2016-12-27
Publication date: 2018-07-05

Abstract

【課題】翻訳精度を向上させる情報分類方法を提供する。【解決手段】第１言語のテキストと第２言語のテキストとの対訳ペアを含む対訳コーパスを管理する、対訳コーパス管理システム１０で実行される情報分類方法では、メモリ３０に複数の区分のグループ及びグループ関係が記憶され、プロセッサ２０が、いずれかの区分に分類されている第１対訳ペア及び第２対訳ペアを取得し、第１対訳ペアと第２対訳ペアとの間で、第１言語のテキストの一致及び第２言語のテキストの一致を判定し、第１言語のテキスト及び第２言語のテキストの少なくとも一方が一致し、且つ第１対訳ペアが分類されている区分と第２対訳ペアが分類されている区分とでグループが共通することに応じて、第１対訳ペア及び第２対訳ペアの少なくとも一方を共通するこのグループに対応する区分に分類される対訳ペアとして対訳コーパスに含める。【選択図】図１

Description

本発明は、機械翻訳で用いられる翻訳モデルの基である対訳コーパスの管理のための技術に関する。

翻訳ソフトウェアがする機械翻訳では、この翻訳ソフトウェアに含まれる翻訳エンジンが翻訳のために参照する翻訳モデルが用いられる。翻訳モデルとは、例えば、原言語の文と目的言語の文とのペア（以下、対訳ペアともいう）を含む対訳コーパスを用いた機械学習によって作成され、原言語の文に対する目的言語の文の翻訳としての尤もらしさを示すデータである。特許文献１には、対訳コーパスを用いた翻訳モデルの作成に関する技術の例が開示されている。また、特許文献１で開示される発明では、対訳コーパスの対訳ペアについて分類が設けられ、分類毎に対訳ペアが蓄積される。

ここで、自然かつ精度の高い高品質の翻訳文を得るための翻訳モデルの作成には、大量の対訳ペアを含む対訳コーパスが必要である。このような対訳コーパスの管理は、例えばテキストデータを扱える表計算ソフトウェア等を用いて行われる。

特開２０１５−２２４３１号公報

しかしながら、特許文献１で開示される対訳コーパスの管理では、翻訳精度を向上させることが困難である。例えば、当該対訳コーパスでは、分類毎に対訳ペアが蓄積されるため、対訳ペアが異なる分類間で重複することがある。そのような対訳コーパスを用いて精度の高い機械翻訳を実現する翻訳モデルを得ることは難しい。

上記の問題に鑑みて、本発明の一態様にかかる情報分類方法は、第１言語のテキストと第２言語のテキストとの対訳ペアが複数の区分のいずれかに分類されて含まれる対訳コーパスを管理する情報分類システムで実行される情報分類方法であって、情報分類システムはプロセッサ及びメモリを備え、メモリには複数の区分の少なくとも一部を要素とするグループ、及びグループと複数の区分のうちの他の区分との対応関係であるグループ関係が記憶され、プロセッサが、それぞれが対訳ペアであって、複数の区分のいずれかに分類されている第１対訳ペア及び第２対訳ペアを取得し、第１対訳ペアと第２対訳ペアとの間で、第１言語のテキストが一致するか、及び第２言語のテキストが一致するかを判定し、第１対訳ペアと第２対訳ペアとの間で第１言語のテキスト及び第２言語のテキストの少なくとも一方が一致し、且つ第１対訳ペアが分類されている区分と第２対訳ペアが分類されている区分との間でグループが共通することに応じて、第１対訳ペア及び第２対訳ペアの少なくとも一方を共通する当該グループに対応する区分に分類される対訳ペアとして対訳コーパスに含めて前記メモリに記憶させる。

本発明の情報分類方法、情報分類システム、及び情報分類プログラムは、対訳コーパスを用いて精度の高い機械翻訳を実現する翻訳モデルを得ることを可能にする。

図１は、実施の形態における対訳コーパス管理システムの構成を示すブロック図である。図２は、実施の形態における対訳コーパス管理システムのハードウェア構成例を示す図である。図３は、実施の形態における対訳コーパス管理システムで用いられるデータの概要を説明するための図である。図４は、実施の形態における対訳コーパス管理システムにおいて対訳ペアの分類に用いられる区分の体系及びその構造を説明するための系統図である。図５は、実施の形態における対訳コーパス管理システムで実行される対訳ペアの分類方法のフロー図である。図６は、上記の分類方法を説明する端に想定した具体的な状況を示す図である。図７は、上記の分類方法を説明する端に想定した具体的な状況を示す図である。図８は、実施の形態の変形例の一つにおける対訳ペアの分類方法のフロー図である。図９は、実施の形態の変形例の他の一つにおける対訳ペアの分類方法のフロー図である。

（本発明の基礎となった知見）
本発明の発明者らは、「背景技術」の欄において記載した対訳コーパスの管理に関し、以下の問題が生じることを見出した。

すなわち、対訳コーパスの管理では、より精度の高い機械翻訳を実現する翻訳モデルを得るために、同一原文に対する複数種の訳文の保持、各対訳ペアの適用可能な分野のメンテナンス等の高度な管理が求められる。しかしながら、上記の対訳コーパスの技術では、このような管理のための機能が不十分であるため、この管理のための処理が対訳ペアの対訳コーパスへの登録前又は登録後に別途実行される必要があり、非効率である。また、データ管理の効率化のためには、対訳ペアの重複の解消によるデータの無用な肥大化の抑制等のメンテナンス作業も必要であり、管理の負担は大きい。しかも、翻訳の精度を上げるためには、翻訳モデルの作成により大きな対訳コーパスが用いられるが、管理の負担は、対訳コーパスが大きくなるに連れて増加するというジレンマがある。

このような問題を解決するために、本発明の一態様に係る情報分類方法は、第１言語のテキストと第２言語のテキストとの対訳ペアが複数の区分のいずれかに分類されて含まれる対訳コーパスを管理する情報分類システムで実行される情報分類方法であって、情報分類システムはプロセッサおよびメモリを備え、メモリには複数の区分の少なくとも一部を要素とするグループ、及びグループと複数の区分のうちの他の区分との対応関係であるグループ関係が記憶され、プロセッサが、それぞれが対訳ペアであって、複数の区分のいずれかに分類されている第１対訳ペア及び第２対訳ペアを取得し、第１対訳ペアと第２対訳ペアとの間で、第１言語のテキストが一致するか、及び第２言語のテキストが一致するかを判定し、第１対訳ペアと第２対訳ペアとの間で第１言語のテキスト及び第２言語のテキストの少なくとも一方が一致し、且つ第１対訳ペアが分類されている区分と第２対訳ペアが分類されている区分との間でグループが共通することに応じて、第１対訳ペア及び第２対訳ペアの少なくとも一方を共通する当該グループに対応する区分に分類される対訳ペアとして対訳コーパスに含めて前記メモリに記憶させる。

これにより、グループが共通する区分に分類されている対訳ペア間で原文又は訳文が共通であれば、これらの対訳ペアは、入力時よりもより広い概念の区分に再分類されて登録される。その結果、これらの対訳ペアを含んでいる対訳コーパスの汎用性が高められる。また、この再分類は対訳ペアの入力作業において実行されるため、メンテナンスのための別途の作業の負荷が削減される。つまり、汎用性のより高い対訳コーパスが、より小さな負荷で効率よく得られ、また、管理される。

例えば、第１対訳ペアと第２対訳ペアとの間で第１言語のテキスト及び第２言語のテキストの両方が一致し、且つグループ関係において第１対訳ペアが分類されている区分と第２対訳ペアが分類されている区分との間でグループが共通することに応じて、第１対訳ペア及び第２対訳ペアの一方のみを共通する当該グループに対応する区分に分類される対訳ペアとして対訳コーパスに含めてメモリに記憶させてもよい。

これにより、グループが共通する区分に分類されている対訳ペア間で原文及び訳文の両方が一致する場合、これらの対訳ペアは共通するグループに対応する区分の１レコードとしてまとめて登録される。つまり、対訳コーパスの汎用性が高められるとともに、対訳ペアの重複が回避される。この重複の解消は対訳ペアの入力作業において実行されるため、対訳コーパスの肥大化の抑制のための別途の作業の負荷が削減される。その結果、汎用性の高い対訳コーパスが、より小さな負荷で効率よく得られ、また、管理される。

例えば、複数の区分は、階層構造の体系で管理され、グループ関係は、この体系における親子関係を含み、プロセッサが、第１対訳ペアと第２対訳ペアとの間で第１言語のテキスト及び第２言語のテキストの少なくとも一方が一致し、且つ第１対訳ペアが分類されている区分と第２対訳ペアが分類されている区分との間で親区分が共通するグループであることに応じて、第１対訳ペア及び第２対訳ペアの少なくとも一方を当該親区分に分類される対訳ペアとして対訳コーパスに含めてメモリに記憶させてもよい。

これにより、所定の条件を満たす対訳ペアは親区分に分類されて管理される。この親区分に分類されている対訳ペアからなる対訳コーパスを用いて作成された翻訳モデルを使うことで、その子区分に該当する各分野の機械翻訳では対訳ペアの翻訳精度が向上しやすくなる。

例えば、メモリは、第１言語の用語と第２言語の用語との用語対訳ペアが複数の区分のいずれかに分類されて含まれる用語辞書をさらに記憶し、プロセッサは、対訳ペアにおいて、第１言語の用語が第１言語のテキストに含まれるか否か、及び第２言語の用語が第２言語のテキストに含まれるか否かを判定し、対訳ペアにおいて第１言語の用語が前記第１言語のテキストに含まれること及び前記第２言語の用語が前記第２言語のテキストに含まれることの少なくとも一方が満たされることに応じて、対訳ペアが分類されている区分を維持してもよい。また、例えば、プロセッサは、さらに、対訳ペアが属する区分と、対訳ペアに含まれる用語を含む用語対訳ペアが分類されている区分とが同じ又は兄弟関係にあることに応じて、対訳ペアが分類されている区分を維持してもよい。

これにより、登録済みの対訳ペアと原文及び訳文の一方が一致する対訳ペアであっても、含まれる用語に応じて入力時の区分に固有の対訳ペアとして管理することができる。このようにして対訳ペアの過度の汎用化を回避することで、対訳ペアの登録と同時にその汎用性が適正化され、対訳コーパスの監視やメンテナンスの負担を抑えることができる。

また、これらによる効率化及び負担の抑制は、対訳コーパス管理のコストの抑制にも繋がる。

なお、これらの包括的又は具体的な態様は、システム、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよいし、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

以下、実施の形態について、図面を用いて詳細に説明する。

なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序等は、一例であり、本発明を限定する趣旨ではない。また、以下の実施の形態における構成要素のうち、本発明の最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

（実施の形態）
図１から図７を参照して実施の形態における情報分類システムについて説明する。なお、以下では、入力される対訳コーパスのデータを分類して取り扱うための情報分類方法を実行する対訳コーパス管理システムが情報分類システムの一例として説明される。

［構成］
［１−１．全体構成］
図１は、実施の形態における対訳コーパス管理システム１０の構成を示すブロック図である。

本実施の形態における対訳コーパス管理システム１０は、機械翻訳で用いられる翻訳モデルの基である対訳コーパスの管理をするためのシステムである。ここでいう管理とは、例えば、対訳ペアの登録、登録済みの対訳ペアの編集等の、対訳コーパスの構築及びメンテナンスに関する作業を指す。

対訳コーパス管理システム１０は、プロセッサ２０及びメモリ３０を備える。プロセッサ２０には、機能的な構成要素としてデータ受付部２２、区分判定部２４、及び結果出力部２６が含まれ、メモリ３０には、機能的な構成要素として区分記憶部３２、用語辞書記憶部３４、及び対訳ペアデータ記憶部３６が含まれる。

データ受付部２２は、対訳コーパスに含めるデータの入力を対訳コーパス管理システム１０のユーザから受け付ける。

区分判定部２４は、データ受付部２２が受け付けたデータに含まれる対訳ペアの区分を変更するか否かを所定の規則に沿って判定する。この判定においては、区分記憶部３２、用語辞書記憶部３４、及び対訳ペアデータ記憶部３６に記憶される後述のデータを参照する。区分判定部２４は、この判定の結果に基づいて、対訳ペアの区分を維持又は変更する。

結果出力部２６は、区分判定部２４による処理の結果を受けて対訳ペアとその区分を新規の対訳コーパスとして保存若しくは既存の対訳コーパスに追加（登録）し、又は既存の対訳コーパスに変更を加える。詳細は後述する。

区分記憶部３２は、対訳コーパスの管理において各対訳ペアを分類する区分の管理のための体系を示すデータを記憶する。このデータは、上記の判定のために区分判定部２４によって参照される。この体系及びデータについては例を用いて後述する。

用語辞書記憶部３４は、対訳ペアに含まれ得る用語のリスト（以下、用語辞書ともいう）のデータを記憶する。このデータは上記の判定のために区分判定部２４によって参照される。このデータについては例を用いて後述する。

対訳ペアデータ記憶部３６は、ユーザによって入力された対訳ペアのデータ又はこのデータに基づいて結果出力部２６が出力したデータを記憶する。この対訳ペアもまた上記の判定のために区分判定部２４によって参照される。このデータについては例を用いて後述する。

このような機能的な構成要素を備える対訳コーパス管理システム１０は、例えば電子計算機によって実現される。図２は、本発明の実施の形態に係る対訳コーパス管理システム１０を実現する電子計算機のハードウェア構成の例を示す図である。次に、図１で示した機能的な構成要素に照らし合わせながら図２に例示の対訳コーパス管理システム１０のハードウェア構成を説明する。

プロセッサ２０は演算装置１００に相当し、プロセッサ２０が含む機能的な構成要素は演算装置１００によって実現される。以下、個別に説明する。

データ受付部２２は、電子計算機が備える補助記憶装置３００からプログラムを読み出したプログラムを実行することで上記の各種データの処理を実行する演算装置１００の入力ポートによって実現される。なお、データ受付部２２が入力を受け付ける対訳データは、入力装置４００を用いてユーザが入力するデータには限定されない。例えば、記録媒体読取装置６００が読み出す記録媒体６５０に保存されていたデータであってもよいし、インターネット等の外部との通信経路を介して取得されたデータでもよい。

区分判定部２４は、上記のプログラムを実行するプロセッサ等の演算装置１００によって実現される。

結果出力部２６は、上記のプログラムを実行する演算装置１００の出力ポート及び通信路５０によって実現される。

メモリ３０は主記憶装置２００及び補助記憶装置３００に相当し、メモリ３０が含む機能的な構成要素は主記憶装置２００若しくは補助記憶装置３００又はこれらの組み合わせによって実現される。主記憶装置２００は、例えば電子計算機が備える揮発性又は不揮発性の半導体記憶装置である。補助記憶装置３００は、例えばハードディスクドライブ又はソリッドステートドライブ等である。

区分判定部２４は、バス５０経由で補助記憶装置３００上にある区分記憶部３２、用語辞書記憶部３４、及び対訳ペアデータ記憶部３６からデータを読み出し、このデータを所定の処理のために主記憶装置２００上に置いてアクセスする。また、結果出力部２６は、区分判定部２４による所定の処理の結果を受けて、バス５０経由でこのデータを更新する。

なお、図２に示される出力装置５００は、対訳コーパス管理システム１０を実現する電子計算機が備えるディスプレイ、プリンタ、又はスピーカ等であり、対訳コーパス管理システム１０上で扱われるデータを、ユーザが必要に応じて認識できるように画面上の画像、印刷物、音声等の形で提示する。

また、対訳コーパス管理システム１０は、複数台の電子計算機によって実現されてもよい。例えば、図２に示されるハードウェア構成の各要素のいずれかの役割を果たし得る各種の電子計算機を用いて対訳コーパス管理システム１０が実現されてもよい。より具体的な例を挙げると、インターネット等の通信経路を介して接続されるサーバコンピュータとパーソナルコンピュータとによって実現されてもよい。この場合、演算装置１００、主記憶装置２００、及び補助記憶装置３００はサーバコンピュータに含まれ、入力装置４００及び出力装置５００は入力作業の担当者が用いるパーソナルコンピュータに含まれる実現の態様が考えられる。また、このサーバコンピュータは例えば分散する複数台のコンピュータを含むクラウドコンピューティングによって実現されてもよい。入力作業に用いられるパーソナルコンピュータの台数や種類は限定されない。

このように、対訳コーパス管理システム１０が実現される空間的規模は特に限定されず、ユーザが居る場所で１台の電子計算機を用いて局所的にも実現され得るし、また、複数の場所にある複数台の電子計算機等又はその構成要素を用いても実現され得る。

［１−２．データの構成］
図３は、対訳コーパス管理システム１０で用いられるデータの概要を説明するための図である。

対訳コーパス管理システム１０で管理される対訳コーパスデータは、対訳ペアテーブルと、用語辞書テーブルと、区分管理テーブルとを含む。

対訳ペアテーブルは、対訳コーパスと一般に呼ばれるデータの実質をなし、翻訳モデルはこの対訳ペアテーブルを用いた機械学習によって作成される。対訳ペアテーブルは、２つの言語間で翻訳関係にあるテキストのペアと、このペアが分類されている区分とを含むレコードの行の集まりからなるデータであって、対訳ペアテーブル記憶部３３０に記憶される。

ここでの翻訳関係とは、一方の言語（第１言語）のテキストと、その内容を他方の言語（第２言語）で表わしたテキストとの関係を指す。なお、テキストは文であってもよいし、句又は単語であってもよい。

区分は、各対訳ペアの使用が想定される場面又は分野等の一定の基準に従って各対訳ペアを分類するために用いられる。図３に示される例では、「百貨店」、「ＣＶＳ（ＣｏｎｖｅｎｉｅｎｃｅＳｔｏｒｅ）」という小売業を細分化する業態が区分として用いられている。また、「小売」という区分も見られるが、これは「百貨店」及び「ＣＶＳ」を含む更に上位の概念の区分である。区分については、区分管理テーブルの説明で詳述する。

用語辞書テーブル及び区分管理テーブルは、対訳ペアからの対訳ペアテーブルの作成、対訳ペアテーブルへの対訳ペアの追加登録、及び登録済みの対訳ペアの編集等の、対訳ペア又は対訳ペアテーブルの管理に用いられるデータである。

用語辞書テーブルは、対訳ペアに含まれ得る用語辞書のデータであり、用語辞書記憶部３４に記憶される。より具体的には、用語辞書テーブルは、対訳ペアテーブルに含まれるテキストの言語と同じ２つの言語間で翻訳関係にある用語のペア（以下、用語ペアともいう）と、このペアが分類されている区分とを含むレコードの集まりである。

この用語ペア及び区分は、例えば対訳コーパスの作成の準備段階で対訳コーパス管理システム１０のユーザが規定して用意する。用語には、例えば定訳のある固有名詞、又は業種間若しくは同業他社間等で訳し分けられるべき語が選定される。区分は、各用語の使用が限定される場面又は分野、企業等に応じて決定される。用語辞書テーブルを用意したユーザは、入力装置４００を介して用語辞書テーブルを対訳コーパス管理システム１０に入力して補助記憶装置３００に記憶させる。

区分管理テーブルは、対訳コーパスの管理において上述のように各対訳ペア及び各用語ペアが分類されている区分の管理のための体系を示すデータであり、区分記憶部３２に記憶される。この分類は、大分類、大分類に属する中分類、中分類に属する小分類のように階層的に体系づけられている。このような体系は、例えば対訳コーパスの作成の準備段階で対訳コーパス管理システム１０のユーザがこの対訳コーパスの用途や適用分野を考慮して規定する。そしてこれらの区分及びその規定した体系を示す区分管理テーブルを用意したユーザは、入力装置４００を介してこの区分管理テーブルを対訳コーパス管理システム１０に入力して補助記憶装置３００に記憶させる。

図３に例示される区分管理テーブルの各データ行では、左の欄に区分の名称が、右の欄にその区分が直接属する区分である親区分の名称とが含まれている。このように同じ行に示される区分間の関係を、以下では親子関係という。なお、親区分名の欄に親区分の名称がない（図中Ｎ／Ａ（ＮｏｔＡｐｐｌｉｃａｂｌｅ））行にある区分、つまりこの例では、「一般」の区分は、この区分の体系において最上位の階層にあることを示す。また、複数の区分の中には、親区分名の欄にある区分の名称が共通な区分がある。図３の例では、「Ａ社」と「Ｂ社」とでは、親区分が「ＣＶＳ」で共通し、「百貨店」と「ドラッグストア（図面ではＤＧＳと表記）」と「ＣＶＳ」とは、親区分が「小売」で共通している。このように親区分が共通の区分間の関係を、以下では兄弟関係ともいう。このような区分管理テーブルに示される階層構造の区分の体系及びこの体系に含まれる区分の親子関係及び兄弟関係を図４の系統図を用いてさらに説明する。

図４では、区分が階層別に上下に分けて配置されている。また、親子関係にある区分同士は実線で結ばれ、兄弟関係にある区分（兄弟区分）同士は破線の矩形で囲まれている。図３の区分管理テーブルは、図４で階層的に示される区分の体系を表形式で示すものであると言える。このような階層構造は各区分の概念の包含関係を考慮して規定される。つまり、親子関係にある区分でいえば、親にあたる区分の概念は子にあたる区分の概念を包含するより広い概念の区分である。この対訳コーパス管理システム１０で用いられる各区分は、この区分管理テーブルを用いて他の区分との関係が規定される。別の表現をすれば、区分管理テーブルは、対訳コーパス管理システム１０で対訳ペア及び用語ペアの分類に用いられる区分間の関係を規定するよう用意される。このような区分管理テーブルを保存することで、区分記憶部３２は複数の区分を含む階層構造を記憶する。

なお、対訳コーパス管理システム１０では、階層的な関係で説明し得る複数の区分をこのように対訳コーパスの管理に使用できればよく、上記のようなテーブル形式でのデータとして記憶して使用する態様に限定されない。

また、図４に示される区分及び階層は説明のための例であり、本実施の形態における対訳コーパス管理システム１０で扱われる対訳コーパスデータでは、作成される翻訳モデルに応じて規定された複数の区分の親子関係を含む２以上の階層が構築されていればよい。

ここで対訳ペアテーブルを再び参照すると、各レコードの対訳ペアは互いに異なる区分に分類されて登録されている。上記のような各区分の包含関係に照らせば、「小売」に分類されている対訳ペアは、その他の区分に分類されている対訳ペアよりも汎用性の高いテキストの対訳ペアとして管理されていると言える。なお、このことは「小売」とそれ以外の区分とについてのみ当てはまることではなく、親子関係にある区分にそれぞれ分類されている２つの対訳ペア全般に当てはまることである。

以上が本実施の形態における対訳コーパス管理システム１０を用いて行われる対訳コーパスデータの構成についての説明である。

対訳ペアテーブルの管理では上述のとおり、対訳コーパス管理システム１０に各対訳ペアは何らかの区分に分類されて登録される。図３のもっとも下に示されるのは、新たに対訳コーパス管理システム１０に入力される対訳ペアの例である。この対訳ペアは、「初期区分」の欄に示されている「ＣＶＳ」の区分にあらかじめ分類されている。ここで、対訳コーパス管理システム１０では、汎用性の高い対訳コーパスを効率よく取得するために。各対訳ペアが分類されている区分が登録の時又は登録後に初期区分から変更され得る。より具体的には、対訳コーパス管理システム１０は、２つの対訳ペアを、それぞれが含むテキストの比較結果と、それぞれが分類されている区分間の関係とに基づいて再分類する。以下では、上記の対訳コーパスデータを扱う本実施の形態における対訳コーパス管理システム１０で実行される対訳ペアの分類方法について、具体例を用いて説明する。

［１−３．分類方法］
まず、対訳コーパス管理システム１０が実行する分類方法の概要を述べる。対訳コーパス管理システム１０に新たに入力された対訳ペアは、初期区分のままで対訳ペアテーブルに追加（登録）されるか否かについてまず判定され、この判定の結果に従って対訳ペアテーブルに登録される。この判定は、次の３つの条件に照らして実行される。

（条件１）新たに入力された対訳ペアと原文が一致する登録済みの対訳ペアがあるか否か、また、訳文が一致する登録済みの対訳ペアがあるか否か
（条件２）新たに入力された対訳ペアと原文又は訳文が一致する登録済みの対訳ペアがある場合、両対訳ペアの区分は兄弟関係にあるか否か
（条件３）新たに入力された対訳ペアの原文又は訳文に、用語辞書テーブルに含まれる用語を含むか否か

なお、上記の「新たに入力された対訳ペア」及び「登録済みの対訳ペア」は、それぞれ「第１対訳ペア」及び「第２対訳ペア」の本実施の形態における例であり、以下ではそれぞれを「第１対訳ペア」、「第２対訳ペア」と標記する場合もある。

条件１は、第１対訳ペアが対訳ペアテーブルに未登録であるか否かの判定の基準として用いられる。第１対訳ペアの原文も訳文も対訳ペアテーブルに含まれていない場合、第１対訳ペアは対訳ペアテーブルに登録される。これにより、文例としては初出のテキストの対訳ペアが対訳ペアテーブルに追加され、対訳コーパスの充実化が図られる。また、データの無用な肥大化の原因である、対訳ペアの重複登録を回避することができる。

条件２は、原文又は訳文が共通の第１対訳ペア及び第２対訳ペアそれぞれの現在の区分を、現在の区分の親区分に変更するか否かの判定の基準として用いられる。兄弟関係にある区分にそれぞれ分類されている２つの対訳ペアが共通の原文又は訳文を含む場合、これらの対訳ペアはより高い汎用性のある文例のテキストを含む対訳ペアである可能性が高い。そこでこの場合には、第１対訳ペア及び第２対訳ペアを、兄弟関係にある２つの区分を含んでより広い概念の区分である親区分に分類されている対訳ペアとして使用することができる、汎用性を向上させた対訳コーパスが得られる。

条件３は、対訳ペアが現在の区分に分類されている対訳ペアとして管理されるべきであるか否かを判定するための基準として用いられる。用語辞書テーブルは、上述のとおり、使用される場面、分野、企業等が限定される用語を含んでいる。このような用語を含む対訳ペアを、より上位概念の区分に分類されている対訳ペアとして含む対訳コーパスを用いて翻訳モデルが作成されると、この翻訳モデルを使う機械翻訳では用語の適切な訳し分けができない。しかし、条件３に基づいて対訳ペアの親区分への再分類の実行可否を判断することで、訳し分けの必要な用語を含む対訳ペアの親区分への再分類が回避される。つまり、条件２と合わせて、汎用性を向上させつつ、機械翻訳での用語の訳し分けを適切に可能にする翻訳モデルを得るための対訳コーパスが得られる。

次に、図を参照しながら、対訳コーパス管理システム１０で上記の条件を用いて実行される対訳ペアの分類方法の例を説明する。図５は、本実施の形態における対訳コーパス管理システム１０で実行される対訳ペアの分類方法のフロー図である。また、図６及び図７は、この分類方法を説明するために想定した具体的な状況を示す図である。図６は、対訳コーパス管理システム１０に入力される対訳ペアが準備されている状態、図７は、対訳ペアが対訳コーパス管理システム１０に入力され、この分類方法が実施された結果の状態を示す。

この説明のために想定している状況では、コンビニエンスストアチェーンを展開しているＢ社が、店舗で使われるフレーズの機械翻訳の準備をしている。そして、対訳コーパス管理システム１０のユーザは、Ｂ社から対訳コーパス作成の依頼を受け、その基になるデータとしてＢ社が既に持っている対訳ペアの提供を受けている。

この分類方法の開始前には、図示の区分管理テーブルは区分記憶部３２に、用語辞書テーブルは用語辞書記憶部３４に、対訳ペアテーブルは対訳ペアデータ記憶部３６に記憶されている。

まず、初期区分が設定された対訳ペアが対訳コーパス管理システム１０に入力される（ステップＳ５１）。この例では、図６のもっとも下に示される初期区分がＢ社に設定されている３件の対訳ペアが対訳コーパス管理システム１０に入力されて、データ受付部２２によって受け付けられる。これらの対訳ペアは、Ｂ社から提供された対訳ペアの一部である。データ受付部２２が受け付けた対訳ペア（第１対訳ペア）は、次に区分判定部２４によって取得される。

第１対訳ペアを取得した区分判定部２４は、検索対象区分の設定をする（ステップＳ５２）。検索対象区分とは、上記の条件２に基づく判定で用いられる、第１対訳ペアの区分と兄弟関係にある区分である。区分判定部２４は、区分記憶部３２から区分管理テーブルを読み出し、区分管理テーブル内で見つけた親区分が新たに入力された対訳ペアの初期区分と共通の区分を検索対象区分に設定する。この例では、親区分が「Ｂ社」と共通の「ＣＶＳ」である「Ａ社」が検索対象区分に設定される。

次に区分判定部２４は上記の条件１及び２に基づく判定をする。つまり、対訳ペアテーブルに、原言語及び目的言語の少なくとも一方のテキストが第１対訳ペアと一致する第２対訳ペアが存在するか、また、存在する場合は、その第２対訳ペアは検索対象区分に分類されているか否かを判定する（ステップＳ５３）。

より具体的には、例えば区分判定部２４は、検索対象区分に分類されている第２対訳ペアを対訳ペアテーブルで検索して取得し、第１対訳ペアと各言語のテキストを比較する。または、区分判定部２４は、第２対訳ペアを対訳ペアテーブルから順次読み出して取得し、第１対訳ペアと各言語のテキストを比較し、少なくとも一方が一致する場合には、取得した第２対訳ペアが検索対象区分に分類されている否かを判定してもよい。

ステップＳ５３の判定結果がＮＯの場合、つまり第１言語のテキスト及び第２言語のテキストの少なくとも一方が第１対訳ペアと一致する第２対訳ペアが対訳ペアテーブルにない場合、及び、いずれかは一致しても検索対訳ペア対象区分に分類されている第２対訳ペアが対訳ペアテーブルにない場合には、この第１対訳ペアは結果出力部２６によって対訳ペアテーブルに追加される（ステップＳ５８）。

図６に示される第１対訳ペアのうち、データ行の先頭にあるものは、ステップＳ５１からステップＳ５３を経て、ステップＳ５８で対訳ペアテーブルに追加される例である。このようにして、原文も訳文も初出であるこの第１対訳ペアは、対訳コーパスの充実化のために、図７に示されるようにそのまま対訳ペアテーブルに追加される。区分は初期区分のままである。

ステップＳ５３の判定結果がＹＥＳの場合、つまり第１言語のテキスト及び第２言語のテキストの少なくとも一方が第１対訳ペアと一致し、且つ、検索対象区分に分類されている第２対訳ペアが対訳ペアテーブルにある場合、区分判定部２４は、条件３に基づく判定をする。つまり、第１対訳ペアの第１言語のテキスト又は第２言語のテキストの少なくとも一方に、用語辞書テーブルに含まれる用語を含むか否かを判定する（ステップＳ５４）。

より具体的には、例えば、区分判定部２４は、用語ペアを用語辞書テーブルから順次読み出して取得し、取得した用語ペアに含まれる用語を第１対訳ペアが含むか否か判定する。

ステップＳ５４の判定結果がＹＥＳの場合、つまり第１対訳ペアの第１言語のテキスト又は第２言語のテキストの少なくとも一方に、用語辞書テーブルに含まれる用語を含む場合、この第１対訳ペアは結果出力部２６によって対訳ペアテーブルに追加される（ステップＳ５９）。

図６に示される第１対訳ペアのうち、データ行の２行目にあるものは、ステップＳ５１からステップＳ５４までを経て、ステップＳ５９で対訳ペアテーブルに追加される例である。

詳細に手順を追うと、まず、ステップＳ５１での入力に続いて、ステップＳ５２で、検索対象区分が「Ａ社」に設定される。そしてこの第１対訳ペアは、原文が一致し、検索対象区分である「Ａ社」に分類されている第２対訳ペアが対訳ペアテーブルに存在するため、ステップＳ５３ではＹＥＳと判定される。そして、用語辞書テーブルに含まれる用語のうち、「特製おにぎり」を含むため、ステップＳ５４ではＹＥＳと判定される。したがって、初期区分のままで管理されるべき対訳ペアとして、図７に示されるように区分が維持されたまま対訳ペアテーブルに追加される。その結果、対訳テーブルは、原文が共通で訳文が異なる２つの第２対訳ペアを異なる区分に分類されている対訳ペアとして含む。これにより、訳し分けの必要性等に対応するよう対訳コーパスの充実化が図られる。

ステップＳ５４の判定結果がＮＯの場合、つまり第１対訳ペアの第１言語のテキスト又は第２言語のテキストのいずれにも、用語辞書テーブルに含まれる用語が含まれない場合、区分判定部２４は、第１対訳ペアを現在の区分、つまり初期区分の親区分に再分類する（ステップＳ５５）。そして、第１対訳ペアの再分類後の区分が、区分管理テーブルで管理される区分の階層で最上位の区分であれば（ステップＳ５６でＹＥＳ）、第１対訳ペアはこの時点の区分で結果出力部２６によって対訳ペアテーブルに追加される（ステップＳ５８）。

第１対訳ペアの再分類後の区分が最上位の区分ではない場合（ステップＳ５６でＮＯ）、区分判定部２４は、ステップＳ５２で設定した検索対象区分を、その親区分と兄弟関係にある区分に再設定する（ステップＳ５７）。ステップＳ５７は、第１対訳ペアの区分及び検索対象区分を入力時よりも階層を１つ上げた状態で再分類後の第１対訳ペアに対してステップＳ５３及びＳ５４を実行するための手順である。これにより、第１対訳ペアがより広い概念の区分に分類できるか否かの判定が実行される。

図６に示される第１対訳ペアのうち、データ行の３行目及び４行目にあるものは、ステップＳ５１からステップＳ５７までを１回経て、再度ステップＳ５３を経てから対訳ペアテーブルに追加される例である。

詳細に手順を追うと、まず、ステップＳ５１での入力に続いて、ステップＳ５２で、検索対象区分が「Ａ社」に設定される。そして３行目にある第１対訳ペアは、原文が一致し、且つ、検索対象区分である「Ａ社」に分類されている対訳ペアが対訳ペアテーブルに存在するため、ステップＳ５３ではＹＥＳと判定される。そして、用語辞書テーブルに含まれる用語を含まないため、ステップＳ５４ではＮＯと判定され、ステップＳ５５で、初期区分「Ｂ社」の親区分「ＣＶＳ」に再分類される。区分「ＣＶＳ」は、最上位区分ではないため、ステップＳ５６ではＮＯと判定され、ステップＳ５７で、検索対象区分が「Ａ社」の親区分「ＣＶＳ」に再設定される。２回目のステップＳ５３では、条件を満たす第２対訳ペアが対訳ペアテーブルに存在しないため、ＮＯと判定され、この第１対訳ペアは、この時点での区分「ＣＶＳ」で対訳ペアテーブルに追加される（ステップＳ５８）。

また、ステップＳ５８で第１対訳ペアが登録されると、区分判定部２４は、ステップＳ５３でされた検索で見つかった第２対訳ペアと第１対訳ペアとは、原文と訳文とが両方一致するのかについて判定する（ステップＳ６０）。原文及び訳文の両方が不一致の場合（ステップＳ６０で両方不一致）、そのままこの分類方法は終了する。片方のみが一致する場合、ステップＳ６３で見つかった第２対訳ペアの対訳ペアの区分が、結果出力部２６によって親区分に変更されて（ステップＳ６１）、この分類方法は終了する。両方が一致する場合、ステップＳ６３で見つかった第２対訳ペアのレコードが、結果出力部２６によって削除されて（ステップＳ６２）、この分類方法は終了する。図７には、これらの結果の例が示される。以下、各例について説明する。

上述の先頭の第１対訳ペアの例が、原文及び訳文の両方が不一致の場合に該当する。図７では、この第１対訳ペアの内容がそのまま対訳ペアテーブルに追加されている。

図６に示される第１対訳ペアのうち、データ行の３行目の第１対訳ペアの例が、原文及び訳文の一方のみが一致する場合に該当する。図６によれば、対訳ペアテーブルには、この第１対訳ペアと原文のみが一致し、区分「Ａ社」に分類されている第２対訳ペアが対訳ペアテーブルのデータ行の３行目に存在する。この第１対訳ペアは、上述のとおりステップＳ５１からステップＳ５７までを１回経て、再度ステップＳ５３を経てから、区分「ＣＶＳ」に属分類されている対訳ペアとしてステップＳ５８で対訳ペアテーブルに追加される。その後、この第２対訳ペアは、ステップＳ６１で区分が「Ａ社」から「ＣＶＳ」に変更される。これにより、この第２対訳ペアを、より広い概念の区分である親区分に分類されている対訳ペアとして使用することができる、汎用性を向上させた対訳コーパスが得られる。

また、図６に示される第１対訳ペアのうち、データ行の４行目の第１対訳ペアの例が、原文及び訳文の両方が一致する場合に該当する。図６によれば、対訳ペアテーブルには、この第１対訳ペアと原文及び訳文の両方が一致し、区分「Ａ社」に分類されている第２対訳ペアが対訳ペアテーブルのデータ行の先頭に存在する。この第１対訳ペアは、上述のとおりステップＳ５１からステップＳ５７までを１回経て、再度ステップＳ５３を経てから、区分「ＣＶＳ」に分類されている対訳ペアとしてステップＳ５８で対訳ペアテーブルに追加される。その後、この第２対訳ペアは区分がより広い親区分に変えられるのではなく、ステップＳ６２で削除される。これにより、対訳ペアの重複登録を無くし、データの無用な肥大化を抑えて管理の効率化に貢献する。

なお、上記では、分類方法の説明を簡単にするために、条件１及び２を満たす第２対訳ペアの件数を限定している。しかし、ステップＳ５３では、条件１及び２を満たす第２対訳ペアは、１件の第１対訳ペアに対して複数件見つけられてもよく、見つけられた複数件の第２対訳ペアの各々について、ステップＳ６０での判定がなされてもよい。

このように、本実施の形態における対訳コーパス管理システム１０では、所定の条件を満たす対訳ペアは親区分に分類されて管理される。この親区分に分類されている対訳ペアからなる対訳コーパスを用いて作成された翻訳モデルを使うことで、その子区分に該当する各分野の機械翻訳では対訳ペアの翻訳精度が向上しやすくなる。言い換えると、本実施の形態における対訳コーパス管理システム１０では、ある区分に該当する分野の機械翻訳には、その兄弟区分の対訳ペアを基に作成された翻訳モデルを容易に準備して利用することができる。それにより、翻訳精度の向上の可能性が上がる。

（変形例）
その他、本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものも、本発明の一実施の態様である。

例えば、上述の対訳コーパスデータの管理のためのデータの構成は一例であり、当業者が思いつく各種の変形も、本実施の形態における対訳コーパス管理システム１０で扱われ得る。また、上述の対訳コーパスデータの管理のための対訳ペアの分類方法は一例であり、当業者が思いつく各種の変形も、本実施の形態における対訳コーパス管理システム１０で実行され得る。以下にこれらの変形を例示する。

例えばステップＳ５４では、さらに、対訳ペアが属する区分と、この対訳ペアに含まれる用語を含む用語対訳ペアが分類されている区分とが同じ又は兄弟関係にあることに応じて、対訳ペアが分類されている区分が維持されてもよい。区分「Ａ社」に分類されている対訳ペアが含む用語の区分が「Ａ社」又は「Ｂ社」であれば、用語による訳し分けの必要性がある。この場合に比べて、この用語の区分が「製造」や「建設」である場合、用語による訳し分けの必要性は低い。したがって、前者の場合には、訳し分けのために対訳ペアの区分が維持され、後者の場合には対訳ペアの区分が現在の区分の親分類に再分類される、といった、よりきめ細かな訳し分けと汎用性の向上との調整を図ることができる。

また、例えば対訳コーパスデータには、用語辞書テーブルが含まれなくてもよい。用語辞書は、翻訳モデルがカバーする分野や規模によっては不要であったり未整備であったりするが、このような場合にも上述の対訳ペアの分類方法を応用することができる。ただし、図５に示される分類方法から、ステップＳ５４の判定、及び、この判定の結果がＹＥＳの場合のステップＳ５９での対訳ペアへの追加が省かれる。図８は、この変形例において実行される対訳ペアの分類方法のフロー図である。各ステップの詳細は図５に示される分類方法と同じである。

また、対訳ペアテーブルは、それぞれ１個のテーブルとして図３、図６、及び図７に示されているが、例えば区分毎の別個のテーブルであってもよい。この場合、ステップＳ５３では、検索対象区分の対訳ペアテーブルで、条件１及び２を満たす第２対訳ペアが検索される。

また、用語辞書テーブルについても区分毎の別個のテーブルであってもよい。この場合、上記の変形例でのステップＳ５４の判定は、該当区分、つまり対訳ペアの区分と同じ区分の用語を含む用語辞書テーブル及び対訳ペアの区分と兄弟関係にある区分の用語を含む用語辞書テーブルの各用語が、当該対訳ペアに含まれるか否かに応じてなされる。

また、上記の分類方法の一部の手順の順序は、変更することができる。例えばステップＳ５４はステップＳ５３に先立って実行されてもよい。つまり、入力された第１対訳ペアは、区分判定部２４によって、まず用語辞書に含まれる所定の区分の用語を含むか否かについて判定される。用語を含む第１対訳ペアは、区分の変更が維持されたまま結果出力部２６によって対訳ペアテーブルに入力され、用語を含まない第１対訳ペアは、上記のステップＳ５３の処理の対象になる。図９は、この変形例において実行される対訳ペアの分類方法のフロー図である。図５に示されるフロー図との差異は、ステップＳ５３とＳ５４との順序が入れ替わっている点である。なお、ステップＳ５４は、ステップＳ５２での検索対象区分の設定又はステップＳ５７での検索対象区分の再設定の前に実行されてもよい。各ステップの詳細は図５に示される分類方法と同じである。

また、ステップＳ６０での判定は、その一部が上記の分類方法の一連の手順における他の箇所で実行されてもよい。すなわち、第２対訳ペアと第１対訳ペアとは原文及び訳文の両方が一致するか否かについては、ステップＳ５３の一部として判定されてもよい。そしてステップＳ５３での判定の結果がＹＥＳである場合には、次のステップＳ５４での判定がＮＯの場合にこの第２対訳ペアが削除されてもよい。

また、ステップＳ６０での判定の結果、片方が一致の場合も両方が一致の場合も同じく第２対訳ペアの区分が親区分に変更されてもよい。そして重複レコードの検索とその解消は、この分類方法と別に実行されてもよい。

また、重複レコードの削除は、直ちに実際に対訳ペアテーブルから消去する代わりに、将来的に削除されるレコードであることを示すフラグを付けることで実行されてもよい。

また、上記の説明では、第１対訳ペアの入力作業で登録済みの第２対訳ペアとの間でのテキストの比較等を実行することで対訳コーパスの汎用性の向上が図られている。しかしながら、対訳コーパスの汎用性の向上のために対訳コーパス管理システム１０及び対訳コーパス管理システム１０で実行される対訳分類方法の使用可能な場面は上記の説明に限定されない。例えば既存の未整理の対訳コーパス内の第２対訳ペアの一部を第１対訳ペアとして区分判定部２４に取得させて上記の対訳分類方法を実行させても、同様に対訳コーパスの汎用性の向上を図ることができる。

なお、上記では、対訳ペアが分類される複数の区分は階層構造の体系で管理され、区分と区分の集合（グループ）との対応関係（グループ関係）の一例として、階層間を跨ぐ親子関係を説明したが、区分の体系及びグループ関係はこれに限定されない。例えば、区分はフラットな体系で管理されてもよく、グループ関係は、この体系における区分とグループとの対応関係であってもよい。なお、ここでいう区分の集合とは、要素である区分が１つである場合も含む。

また、上記の情報分類方法は、上記の各機能的な構成要素が、プログラムを実行するプロセッサによって実現される。ただし、これらの機能的な構成要素間での上記の分担は一例であって変更されてもよく、これらの構成要素及び機能を任意に分割したり組み合わせたりすることで実現される形態も本発明の範囲に含まれる。

以上、一つ又は複数の態様に係る情報分類システム等について、実施の形態及びその変形例に基づいて説明したが、本発明は、この実施の形態又はその変形例に限定されるものではない。本発明の趣旨を逸脱しない限り、実施の形態又はその変形例における構成要素、構成要素の配置、手順の有無、手順の順序等を組み合わせて得られる態様も、情報分類システムの態様に含まれる。

本発明は、機械学習に用いられる翻訳モデルの基である対訳コーパス管理のための装置で実行される情報分類方法、この電子計算機を含んでこの方法を実行する情報分類システム、及びこの方法をこの情報分類システムに実行させるプログラムとして有用である。

１０対訳コーパス管理システム
１００演算装置
２０プロセッサ
２００主記憶装置
２２データ受付部
２４区分判定部
２６結果出力部
３０メモリ
３００補助記憶装置
３２区分記憶部
３４用語辞書記憶部
３６対訳ペアデータ記憶部
４００入力装置
５００出力装置
６００記録媒体読取装置
６５０記録媒体

Claims

第１言語のテキストと第２言語のテキストとの対訳ペアが複数の区分のいずれかに分類されて含まれる対訳コーパスを管理する情報分類システムで実行される情報分類方法であって、前記情報分類システムはプロセッサおよびメモリを備え、
前記メモリには前記複数の区分の少なくとも一部を要素とするグループ、及び前記グループと前記複数の区分のうちの他の区分との対応関係であるグループ関係が記憶され、
前記プロセッサが、
それぞれが前記対訳ペアであって、前記複数の区分のいずれかに分類されている第１対訳ペア及び第２対訳ペアを取得し、
前記第１対訳ペアと前記第２対訳ペアとの間で、前記第１言語のテキストが一致するか、及び前記第２言語のテキストが一致するかを判定し、
前記第１対訳ペアと前記第２対訳ペアとの間で前記第１言語のテキスト及び前記第２言語のテキストの少なくとも一方が一致し、且つ前記第１対訳ペアが分類されている区分と前記第２対訳ペアが分類されている区分との間でグループが共通することに応じて、前記第１対訳ペア及び前記第２対訳ペアの少なくとも一方を共通する当該グループに対応する区分に分類される対訳ペアとして前記対訳コーパスに含めて前記メモリに記憶させる
情報分類方法。
前記第１対訳ペアと前記第２対訳ペアとの間で前記第１言語のテキスト及び前記第２言語のテキストの両方が一致し、且つ前記グループ関係において前記第１対訳ペアが分類されている区分と前記第２対訳ペアが分類されている区分との間でグループが共通することに応じて、前記第１対訳ペア及び前記第２対訳ペアの一方のみを共通する当該グループに対応する区分に分類される対訳ペアとして前記対訳コーパスに含めて前記メモリに記憶させる
請求項１に記載の情報分類方法。
前記複数の区分は、階層構造の体系で管理され、
前記グループ関係は、前記体系における親子関係を含み、
前記プロセッサが、前記第１対訳ペアと前記第２対訳ペアとの間で前記第１言語のテキスト及び前記第２言語のテキストの少なくとも一方が一致し、且つ前記第１対訳ペアが分類されている区分と前記第２対訳ペアが分類されている区分との間で親区分が共通するグループであることに応じて、前記第１対訳ペア及び前記第２対訳ペアの少なくとも一方を当該親区分に分類される対訳ペアとして前記対訳コーパスに含めて前記メモリに記憶させる、
請求項１又は２に記載の情報分類方法。
前記メモリは、前記第１言語の用語と前記第２言語の用語との用語対訳ペアが複数の区分のいずれかに分類されて含まれる用語辞書をさらに記憶し、
前記プロセッサは、前記対訳ペアにおいて、前記第１言語の用語が前記第１言語のテキストに含まれるか否か、及び前記第２言語の用語が前記第２言語のテキストに含まれるか否かを判定し、
前記対訳ペアにおいて第１言語の用語が前記第１言語のテキストに含まれること及び前記第２言語の用語が前記第２言語のテキストに含まれることの少なくとも一方が満たされることに応じて、前記対訳ペアが分類されている区分を維持する
請求項１〜３のいずれか１項に記載の情報分類方法。
前記プロセッサは、さらに、前記対訳ペアが属する区分と、前記対訳ペアに含まれる用語を含む前記用語対訳ペアが分類されている区分とが同じ又は兄弟関係にあることに応じて、前記対訳ペアが分類されている区分を維持する、
請求項４に記載の情報分類方法。
第１言語のテキストと第２言語のテキストとの対訳ペアが複数の区分のいずれかに分類されて含まれる対訳コーパスを管理する情報分類システムであって、
前記複数の区分の少なくとも一部を要素とするグループ、及び前記グループと前記複数の区分のうちの他の区分との対応関係であるグループ関係を記憶するメモリと、
それぞれが前記対訳ペアであって、前記複数の区分のいずれかに分類されている第１対訳ペア及び第２対訳ペアを取得し、
前記第１対訳ペアと前記第２対訳ペアとの間で、前記第１言語のテキストが一致するか、及び前記第２言語のテキストとが一致するかを判定し、
前記第１対訳ペアと前記第２対訳ペアとの間で、前記第１言語のテキスト及び前記第２言語のテキストの少なくとも一方が一致し、且つ前記第１対訳ペアが分類されている区分と前記第２対訳ペアが分類されている区分との間でグループが共通することに応じて、前記第１対訳ペア及び前記第２対訳ペアの少なくとも一方を共通する当該グループに対応する区分に分類される対訳ペアとして前記対訳コーパスに含めて前記メモリに記憶させるプロセッサとを備える
情報分類システム。
プロセッサ及びメモリを備え、前記メモリには、複数の区分の少なくとも一部を要素とするグループ、及び前記グループと前記複数の区分のうちの他の区分との対応関係であるグループ関係が記憶され、第１言語のテキストと第２言語のテキストとの対訳ペアが複数の区分のいずれかに分類されて含まれる対訳コーパスを管理する情報分類システムに情報分類方法を実行させるプログラムであって、
前記情報分類方法は、
前記プロセッサに、
それぞれが前記対訳ペアであって、前記複数の区分のいずれかに分類されている第１対訳ペア及び第２対訳ペアを取得し、
前記第１対訳ペアと前記第２対訳ペアとの間で、前記第１言語のテキストが一致するか、及び前記第２言語のテキストが一致するかを判定させ、
前記第１対訳ペアと前記第２対訳ペアとの間で、前記第１言語のテキスト及び前記第２言語のテキストの少なくとも一方が一致し、且つ前記第１対訳ペアが分類されている区分と前記第２対訳ペアが分類されている区分との間でグループが共通することに応じて、前記第１対訳ペア及び前記第２対訳ペアの少なくとも一方を共通する当該グループに対応する区分に分類される対訳ペアとして前記対訳コーパスに含めて前記メモリに記憶させる方法である
情報分類プログラム。