JP2010097318A

JP2010097318A - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP2010097318A
Application number: JP2008266204A
Authority: JP
Inventors: Keishi Yasuda; 圭志安田; Eiichiro Sumida; 英一郎隅田
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2008-10-15
Filing date: 2008-10-15
Publication date: 2010-04-30

Abstract

【課題】基準文書に適合したモデルを生成する情報処理装置を提供する。
【解決手段】キーワードを含む基準文書を受け付ける基準文書受付部１１と、基準文書受付部１１が受け付けた基準文書に含まれるキーワードの類語を取得する類語取得部１３と、２以上の文を少なくとも含む文書を複数有するコーパスが記憶されるコーパス記憶部１４と、そのコーパスの有する文書であって、類語取得部１３が取得した類語を含む文書である類似文書を特定する類似文書特定部１５と、類似文書と基準文書との類似性に関する情報である類似情報を算出する類似情報算出部１６と、その類似情報を用いて、基準文書と類似性の高い類似文書を選択する選択部１７と、を備える。
【選択図】図１

Description

本発明は、基準文書に類似する文書である類似文書を選択する情報処理装置等に関する。

従来の情報処理装置において、大規模なコーパスから小規模なコーパスを選択することが行われていた（例えば、特許文献１参照）。
特開２００８−２２６１０４号公報

しかしながら、上記特許文献１に記載された従来の情報処理装置においては、例えば、コーパスのエントロピーやパープレキシティーを用いて類似情報を算出し、その類似情報を用いて小規模なコーパスの選択を行っていたため、処理量が非常に多く、簡単に小規模なコーパスを生成することができないという問題があった。

本発明は、上記問題を解決するためになされたものであり、軽い処理によって、基準文書に類似する文書である類似文書を選択することができる情報処理装置等を提供することを目的とする。

上記目的を達成するため、本発明による情報処理装置は、キーワードを含む文書である基準文書を受け付ける基準文書受付部と、前記基準文書受付部が受け付けた基準文書に含まれるキーワードの類語を取得する類語取得部と、２以上の文を少なくとも含む文書を複数有するコーパスが記憶されるコーパス記憶部と、前記コーパスの有する文書であって、前記類語取得部が取得した類語を含む文書である類似文書を特定する類似文書特定部と、前記類似文書と前記基準文書との類似性に関する情報である類似情報を算出する類似情報算出部と、前記類似情報を用いて、前記基準文書と類似性の高い類似文書を選択する選択部と、を備えたものである。

このような構成により、基準文書と類似する文書である類似文書を選択することができる。したがって、この選択された類似文書を用いて言語モデルや翻訳モデルを生成することにより、基準文書や、その基準文書と同様の分野に属する文書に適したモデルを生成することができる。

また、本発明による情報処理装置では、前記選択部が選択した類似文書の言語モデルである部分言語モデルを生成する部分モデル生成部と、前記部分モデル生成部が生成した部分言語モデルを蓄積する部分モデル蓄積部と、をさらに備えてもよい。
このような構成により、基準文書や、その基準文書と同様の分野に属する文書に適した部分言語モデルを生成することができる。

また、本発明による情報処理装置では、前記コーパス記憶部で記憶されているコーパスの言語モデルである全体言語モデルが記憶される全体モデル記憶部と、前記部分モデル蓄積部が蓄積した部分言語モデルと、前記全体モデル記憶部で記憶されている全体言語モデルとを線形補間して補間言語モデルを生成する線形補間部と、前記線形補間部が生成した補間言語モデルを出力する補間モデル出力部と、をさらに備えてもよい。

このような構成により、部分言語モデルと全体言語モデルとを適切に線形補間することによって、基準文書や、その基準文書と同様の分野に属する文書に適した補間言語モデルを生成することができる。

また、本発明による情報処理装置では、前記コーパス記憶部で記憶されているコーパスの言語モデルである全体言語モデルを生成し、前記全体モデル記憶部に蓄積する全体モデル生成部をさらに備えてもよい。
このような構成により、全体言語モデルの生成をも情報処理装置において行うことができる。

また、本発明による情報処理装置では、前記コーパス記憶部で記憶されているコーパスは、対訳関係にある第１言語の文書と第２言語の文書とを対応付けるコーパスであり、前記基準文書、前記類似文書は、第１言語の文書であってもよい。
このような構成により、基準文書や、その基準文書と同様の分野に属する文書に適した翻訳モデルを生成することができる。

また、本発明による情報処理装置では、第２言語の文書であり、キーワードを含む文書である翻訳前基準文書を受け付ける翻訳前基準文書受付部と、前記翻訳前基準文書受付部が受け付けた翻訳前基準文書を第１言語の文書に翻訳する翻訳部と、をさらに備え、前記基準文書受付部は、前記翻訳前基準文書が翻訳された文書である基準文書を受け付けてもよい。
このような構成により、第２言語の翻訳前基準文書を第１言語の基準文書に翻訳して用いることができる。

また、本発明による情報処理装置では、前記選択部が選択した第１言語の類似文書と、当該第１言語の類似文書と対訳関係にある第２言語の文書であって、前記コーパス記憶部で記憶されているコーパスの有する文書との翻訳モデルである部分翻訳モデルを生成する部分モデル生成部と、前記部分モデル生成部が生成した部分翻訳モデルを蓄積する部分モデル蓄積部と、をさらに備えてもよい。
このような構成により、基準文書や、その基準文書と同様の分野に属する文書に適した部分翻訳モデルを生成することができる。

また、本発明による情報処理装置では、前記コーパス記憶部で記憶されているコーパスの翻訳モデルである全体翻訳モデルが記憶される全体モデル記憶部と、前記部分モデル蓄積部が蓄積した部分翻訳モデルと、前記全体モデル記憶部で記憶されている全体翻訳モデルとを線形補間して補間翻訳モデルを生成する線形補間部と、前記線形補間部が生成した補間翻訳モデルを出力する補間モデル出力部と、をさらに備えてもよい。

このような構成により、部分翻訳モデルと全体翻訳モデルとを適切に線形補間することによって、基準文書や、その基準文書と同様の分野に属する文書に適した補間翻訳モデルを生成することができる。

また、本発明による情報処理装置では、前記コーパス記憶部で記憶されているコーパスの翻訳モデルである全体翻訳モデルを生成し、前記全体モデル記憶部に蓄積する全体モデル生成部をさらに備えてもよい。
このような構成により、全体翻訳モデルの生成をも情報処理装置において行うことができる。

また、本発明による情報処理装置では、前記コーパスの有する文書は、キーワードを含むものであり、前記類似文書特定部は、前記類語取得部が取得した類語がキーワードに含まれる文書である類似文書を特定してもよい。
また、本発明による情報処理装置では、前記コーパスの有する文書が含むキーワードは、当該文書のタイトルであってもよい。

また、本発明による情報処理装置では、前記類語取得部は、前記類似文書特定部が特定した類似文書のキーワードの類語をも取得し、前記類似文書特定部は、前記類語取得部が取得した、類似文書のキーワードの類語がキーワードに含まれる文書である類似文書をも特定してもよい。

このような構成により、例えば、基準文書に含まれるキーワードの類語を用いて特定した類似文書だけでは、類似文書の数が足りないような場合に、より多くの類似文書を特定することができるようになる。

本発明による情報処理装置等によれば、軽い処理によって、基準文書に類似する文書である類似文書を選択することができる。また、その選択された類似文書を用いて、例えば、言語モデルを生成したり、翻訳モデルを生成したりすることができうる。

以下、本発明による情報処理装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。

（実施の形態１）
本発明の実施の形態１による情報処理装置について、図面を参照しながら説明する。本実施の形態による情報処理装置は、基準文書に類似する文書である類似文書を選択するものである。

図１は、本実施の形態による情報処理装置１の構成を示すブロック図である。本実施の形態による情報処理装置１は、基準文書受付部１１と、類語辞書記憶部１２と、類語取得部１３と、コーパス記憶部１４と、類似文書特定部１５と、類似情報算出部１６と、選択部１７と、部分モデル生成部１８と、部分モデル蓄積部１９と、全体モデル生成部２０と、全体モデル記憶部２１と、線形補間部２２と、補間モデル出力部２３とを備える。

基準文書受付部１１は、基準文書を受け付ける。基準文書は、キーワードを含む文書である。基準文書は、例えば、１または２以上のキーワードのみを含む文書であってもよく、キーワードと、そのキーワードを含む１以上の文を含む文書（この場合には、１以上の文にキーワードが埋め込まれていることになる）であってもよく、あるいは、キーワードと、そのキーワードを含まない１以上の文を含む文書（この場合には、１以上の文と別途、キーワードが存在することになる）であってもよい。そのキーワードは、基準文書のタイトルであってもよい。また、例えば、基準文書において、キーワードがあらわに示されていてもよく（例えば、基準文書において、マークアップ言語やレコード、カンマなどを用いて、キーワードとその他のものとが区別されている場合など）、あるいは、そうでなくてもよい（例えば、基準文書に含まれる名詞がキーワードである場合など）。本実施の形態では、基準文書が、１以上の文と、その１以上の文のタイトルであるキーワードとを含む場合について説明する。基準文書の受け付けは、結果として基準文書を取得することができるのであれば、その方法を問わない。例えば、基準文書は、後述するコーパス記憶部１４で記憶されているものであり、基準文書の受け付けは、コーパス記憶部１４において、基準文書を識別することができる情報、例えば、基準文書のＩＤなどを受け付けることであってもよい。

基準文書受付部１１は、例えば、入力デバイス（例えば、キーボードやマウス、タッチパネルなど）から入力された基準文書を受け付けてもよく、有線もしくは無線の通信回線を介して送信された基準文書を受信してもよく、所定の記録媒体（例えば、光ディスクや磁気ディスク、半導体メモリなど）から読み出された基準文書を受け付けてもよい。なお、基準文書受付部１１は、受け付けを行うためのデバイス（例えば、モデムやネットワークカードなど）を含んでもよく、あるいは含まなくてもよい。また、基準文書受付部１１は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

類語辞書記憶部１２では、類語辞書（シソーラス）が記憶される。ここで、類語辞書は、例えば、ある単語と、その単語に関係する単語とを対応付けている情報である。その関係は、例えば、同義関係であってもよく、類義関係であってもよく、上位・下位の関係であってもよく、部分・全体の関係であってもよく、あるいは、それらの任意の２以上の関係の組合せであってもよい。

類語辞書記憶部１２に類語辞書が記憶される過程は問わない。例えば、記録媒体を介して類語辞書が類語辞書記憶部１２で記憶されるようになってもよく、通信回線等を介して送信された類語辞書が類語辞書記憶部１２で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された類語辞書が類語辞書記憶部１２で記憶されるようになってもよい。類語辞書記憶部１２での記憶は、ＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。類語辞書記憶部１２は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスクなど）によって実現されうる。

類語取得部１３は、基準文書受付部１１が受け付けた基準文書に含まれるキーワードの類語を取得する。類語取得部１３は、例えば、基準文書においてキーワードがあらわに示されている場合には、基準文書からそのキーワードを取得する。また、類語取得部１３は、例えば、基準文書から名詞を抽出することによって、キーワードを取得してもよい（この場合には、その抽出された名詞がキーワードとなる）。なお、類語取得部１３は、例えば、基準文書に対して形態素解析を行い、品詞が名詞である形態素を抽出することによって、名詞を抽出することができる。この場合に、名詞として、固有名詞以外の名詞を抽出してもよい。なお、形態素解析のシステムとして、日本語の場合には、例えば、奈良先端科学技術大学院大学で開発された「ＣｈａＳｅｎ（茶筌）」（ｈｔｔｐ：／／ｃｈａｓｅｎ．ｎａｉｓｔ．ｊｐ）等が知られている。また、英語の場合には、英単語に品詞を付与するソフトウェアとして、例えば、「ＴｎＴ」（ｈｔｔｐ：／／ｗｗｗ．ｃｏｌｉ．ｕｎｉ−ｓａａｒｌａｎｄ．ｄｅ／〜ｔｈｏｒｓｔｅｎ／ｔｎｔ／）や「ＢｒｉｌｌＴａｇｇｅｒ」（ｈｔｔｐ：／／ｗｗｗ．ｃｓ．ｊｈｕ．ｅｄｕ／〜ｂｒｉｌｌ／）等が知られている。また、類語取得部１３は、例えば、基準文書がキーワードのみを含むものである場合には、基準文書そのものをキーワード、あるいは、キーワードの集合としてもよい。

また、類語取得部１３は、類語辞書記憶部１２で記憶されている類語辞書を用いて、基準文書から取得したキーワードに対応する類語を取得する。類語辞書において、ある単語と、その単語に対応する類語とが対応付けられている場合には、類語取得部１３は、類語辞書において、基準文書から取得したキーワードに対応付けられている類語を取得してもよい。この類語は、前述のように、例えば、基準文書から取得されたキーワードの同義語であってもよく、類義語であってもよく、上位語であってもよく、下位語であってもよく、キーワードを部分として含む全体語であってもよく、キーワードの部分である部分語であってもよい。

なお、本実施の形態では、類語取得部１３が類語辞書を用いて類語を取得する場合について説明するが、そうでなくてもよい。例えば、ある単語に対応する類語を取得する他の装置や構成要素を用いて、類語を取得してもよい。その場合には、類語取得部１３は、その装置や構成要素に対してキーワードを渡し、その後に、その装置や構成要素からそのキーワードに対応する類語を受け取ることによって、類語を取得してもよい。その装置は、例えば、情報処理装置１と通信可能なサーバであってもよい。

また、類語取得部１３は、後述する類似文書特定部１５が特定した類似文書のキーワードの類語をも取得してもよく、そうでなくてもよい。特定された類似文書のキーワードの類語をも取得する場合の処理については後述する。

コーパス記憶部１４では、コーパスが記憶される。このコーパスは、２以上の文を少なくとも含む文書を複数有するものである。なお、このコーパスから言語モデルを生成したり、翻訳モデルを生成したりするため、このコーパスは大規模なものであることが好適である。また、このコーパスは、単一言語のコーパスであってもよく、２以上の言語の対訳コーパスであってもよい。本実施の形態では、このコーパスが単一言語のものであり、情報処理装置１において言語モデルが生成される場合について説明する。一方、実施の形態２では、このコーパスが対訳コーパスであり、情報処理装置１において翻訳モデルが生成される場合について説明する。このコーパスの有する文書は、１または２以上のキーワードを含むものであってもよい。また、文書に含まれるキーワードは、その文書のタイトルであってもよい。このコーパスは、例えば、ニュースのコーパスであってもよく、Ｗｉｋｉｐｅｄｉａ（登録商標）等の百科事典のコーパスであってもよく、その他のコーパスであってもよい。コーパスが新聞や百科事典である場合には、１個の記事が１個の文書であってもよい。

コーパス記憶部１４にコーパスが記憶される過程は問わない。例えば、記録媒体を介してコーパスがコーパス記憶部１４で記憶されるようになってもよく、通信回線等を介して送信されたコーパスがコーパス記憶部１４で記憶されるようになってもよく、あるいは、入力デバイスを介して入力されたコーパスがコーパス記憶部１４で記憶されるようになってもよい。コーパス記憶部１４での記憶は、ＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。コーパス記憶部１４は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスクなど）によって実現されうる。

類似文書特定部１５は、コーパスの有する文書であって、類語取得部１３が取得した類語を含む文書である類似文書を特定する。類似文書特定部１５は類語取得部１３によって取得された類語が、文書のいずれかの箇所に含まれる類似文書を特定してもよく、あるいは、文書のあらかじめ決められた箇所に含まれる類似文書を特定してもよい。文書のあらかじめ決められた箇所とは、例えば、キーワードの箇所であってもよい。すなわち、類似文書特定部１５は、類語取得部１３が取得した類語がキーワードに含まれる文書である類似文書を特定してもよい。類語がキーワードに含まれる文書とは、例えば、その類語が１以上のキーワードのいずれかと一致する文書であってもよく、その類語が１以上のキーワードのいずれかに含まれる文書であってもよい。また、類似文書に含まれるキーワードは、例えば、類似文書のタイトルであってもよい。

また、類語取得部１３が、類似文書特定部１５によって特定された類似文書のキーワードの類語をも取得する場合には、類似文書特定部１５は、類語取得部１３が取得した、類似文書のキーワードの類語がキーワードに含まれる文書である類似文書をも特定してもよい。

なお、文書を特定するとは、その特定した文書を図示しない記録媒体に蓄積することであってもよく、あるいは、その特定した文書に対応付けてフラグ等を設定することであってもよい。このように、結果として類似文書特定部１５が特定した類似文書がどれであるのかを知ることができるのであれば、その類似文書の特定の方法は問わない。

類似情報算出部１６は、類似文書と基準文書との類似性に関する情報である類似情報を算出する。すなわち、類似情報算出部１６によって、基準文書と類似文書との類似性に関する値が算出されることになる。この類似情報は、両文書の類似性を知ることができる情報であれば、その内容を問わない。例えば、類似情報の示す値の大きい方が類似性が高くてもよく、あるいは、類似情報の示す値の小さい方が類似性が高くてもよい。類似情報は、例えば、ユークリッド距離（ｅｕｃｌｉｄｄｉｓｔａｎｃｅ）であってもよく、ピアソン距離（ｐｅａｒｓｏｎｄｉｓｔａｎｃｅ）であってもよく、タニモト係数（ｔａｎｉｍｏｔｏｃｏｅｆｆｉｃｉｅｎｔ）であってもよく、その他の情報であってもよい。これらの値の算出方法についてはすでに公知であるため、詳細な説明を省略する。なお、類似情報がユークリッド距離、ピアソン距離である場合には、類似情報の示す値の小さい方が、類似度が高いことになる。また、類似情報がタニモト係数である場合には、類似情報の示す値は、０から１の実数であり、その類似情報の示す値の大きい方が、類似度が高いことになる。類似情報がユークリッド距離やピアソン距離、タニモト係数である場合に、類似情報算出部１６は、類似文書や基準文書から名詞を抽出し、その抽出した名詞を用いて、それらの類似情報を算出してもよい。

選択部１７は、類似情報算出部１６が算出した類似情報を用いて、基準文書と類似性の高い類似文書を選択する。この選択では、例えば、基準文書と類似性の高いものから順に、あらかじめ決められている個数の類似文書を選択してもよく、あらかじめ決められている類似性の値（しきい値）よりも高い類似性を有する類似文書を選択してもよい。そのしきい値は、例えば、あらかじめ設定された値であってもよく、あるいは、得られた類似性に応じて定められてもよい。後者の場合には、例えば、しきい値は、類似性の最大値に０．９などの値をかけた値であってもよく（類似性の高い方が類似情報が大きくなる場合）、あるいは、類似性の０でない最小値に１．１などの値をかけた値であってもよい（類似性の高い方が類似情報が小さくなる場合）。選択部１７が類似文書を選択するとは、例えば、選択した類似文書を識別する情報を図示しない記録媒体に蓄積することであってもよく、その選択した類似文書そのものを図示しない記録媒体に蓄積することであってもよく、あるいは、その選択した類似文書に対応付けてフラグ等を設定することであってもよい。

部分モデル生成部１８は、選択部１７が選択した類似文書のモデルである部分モデルを生成する。なお、本実施の形態では、部分モデル生成部１８が、選択された類似文書の言語モデルである部分言語モデルを生成する場合について説明する。一方、実施の形態２では、部分モデル生成部１８が、選択された類似文書と、その類似文書と対訳関係にある文書との翻訳モデルである部分翻訳モデルを生成する場合について説明する。言語モデルや翻訳モデルを生成する方法はすでに公知であり、その詳細な説明を省略する。

部分モデル蓄積部１９は、部分モデル生成部１８が生成した部分モデルを記録媒体に蓄積する。この記録媒体は、例えば、半導体メモリや、光ディスク、磁気ディスク等であり、部分モデル蓄積部１９が有していてもよく、あるいは部分モデル蓄積部１９の外部に存在してもよい。また、この記録媒体は、部分言語モデルを一時的に記憶するものであってもよく、そうでなくてもよい。なお、本実施の形態では、部分モデル蓄積部１９が、部分モデル生成部１８が生成した言語モデルである部分言語モデルを蓄積する場合について説明する。一方、実施の形態２では、部分モデル蓄積部１９が、部分モデル生成部１８が生成した翻訳モデルである部分翻訳モデルを蓄積する場合について説明する。

全体モデル生成部２０は、コーパス記憶部１４で記憶されているコーパスのモデルである全体モデルを生成し、後述する全体モデル記憶部２１に蓄積する。なお、本実施の形態では、全体モデル生成部２０が、コーパスの言語モデルである全体言語モデルを生成し、全体モデル記憶部２１に蓄積する場合について説明する。一方、実施の形態２では、全体モデル生成部２０が、コーパスの翻訳モデルである全体翻訳モデルを生成し、全体モデル記憶部２１に蓄積する場合について説明する。言語モデルや翻訳モデルを生成する方法はすでに公知であり、その詳細な説明を省略する。

全体モデル記憶部２１では、コーパス記憶部１４で記憶されているコーパスのモデルである全体モデルが記憶される。本実施の形態では、全体モデルが、コーパスの言語モデルである全体言語モデルである場合について説明する。一方、実施の形態２では、全体モデルが、コーパスの翻訳モデルである全体翻訳モデルである場合について説明する。全体モデル記憶部２１での記憶は、ＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。全体モデル記憶部２１は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスクなど）によって実現されうる。

線形補間部２２は、部分モデル蓄積部１９が蓄積した部分モデルと、全体モデル記憶部２１で記憶されている全体モデルとを線形補間して補間モデルを生成する。本実施の形態では、部分言語モデルと、全体言語モデルとが線形補間されて補間言語モデルが生成される場合について説明する。実施の形態２では、部分翻訳モデルと、全体翻訳モデルとが線形補間されて補間翻訳モデルが生成される場合について説明する。

例えば、部分言語モデルにおいて、単語Ａ，単語Ｂ，単語Ｃが、その順番で出現する３ｇｒａｍ確率がＰ１であり、全体言語モデルにおいて、単語Ａ，単語Ｂ，単語Ｃが、その順番で出現する３ｇｒａｍ確率がＰ２であり、部分言語モデルに対する線形補間の重みがλであり、全体言語モデルに対する線形補間の重みが（１−λ）である場合には、線形補間後の補間言語モデルにおいて、単語Ａ，単語Ｂ，単語Ｃが、その順番で出現する３ｇｒａｍ確率Ｐは、次式のようになる
Ｐ＝λ×Ｐ１＋（１−λ）×Ｐ２

また、例えば、部分翻訳モデルにおいて、原言語の単語Ａを目的言語の単語Ｂに翻訳する確率がＰ１であり、全体翻訳モデルにおいて、原言語の単語Ａを目的言語の単語Ｂに翻訳する確率がＰ２であり、部分翻訳モデルに対する線形補間の重みがλであり、全体翻訳モデルに対する線形補間の重みが（１−λ）である場合には、線形補間後の補間翻訳モデルにおいて、原言語の単語Ａを目的言語の単語Ｂに翻訳する確率Ｐは、次式のようになる。
Ｐ＝λ×Ｐ１＋（１−λ）×Ｐ２

なお、線形補間で用いられる重みを示す情報が図示しない記録媒体で記憶されており、線形補間部２２は、その重みを示す情報を読み出して、線形補間の際に用いてもよい。

補間モデル出力部２３は、線形補間部２２が生成した補間モデル（本実施の形態では、補間言語モデルであり、実施の形態２では、補間翻訳モデルである）を出力する。ここで、この出力は、例えば、表示デバイス（例えば、ＣＲＴや液晶ディスプレイなど）への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。なお、補間モデル出力部２３は、出力を行うデバイス（例えば、表示デバイスやプリンタなど）を含んでもよく、あるいは含まなくてもよい。また、補間モデル出力部２３は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

なお、類語辞書記憶部１２と、コーパス記憶部１４と、部分モデル蓄積部１９が部分モデルを蓄積する記録媒体と、全体モデル記憶部２１との任意の２以上の記憶部や記録媒体は、同一の記録媒体によって実現されてもよく、あるいは、別々の記録媒体によって実現されてもよい。前者の場合には、例えば、類語辞書を記憶している領域が類語辞書記憶部１２となり、コーパスを記憶している領域がコーパス記憶部１４となる。

次に、本実施の形態による情報処理装置１の動作について、図２のフローチャートを用いて説明する。

（ステップＳ１０１）基準文書受付部１１は、基準文書を受け付けたかどうか判断する。そして、基準文書を受け付けた場合には、ステップＳ１０２に進み、そうでない場合には、基準文書を受け付けるまでステップＳ１０１の処理を繰り返す。

（ステップＳ１０２）類語取得部１３は、基準文書受付部１１が基準文書を受け付けたことに伴って類語を取得する場合（すなわち、ステップＳ１０１からステップＳ１０２に進んだ場合）には、基準文書に含まれるキーワードの１または２以上の類語を取得する。また、類語取得部１３は、類似文書が特定されたことに伴って類語を取得する場合（すなわち、ステップＳ１０４からステップＳ１０２に戻った場合）には、特定された類似文書のキーワードの類語を取得する。

（ステップＳ１０３）類似文書特定部１５は、類語取得部１３が取得した類語を含む文書である類似文書を特定する。一の類語を含む複数の類似文書が存在する場合には、類似文書特定部１５は、その各類似文書を特定するものとする。また、ステップＳ１０２において、２以上の類語が取得された場合には、類似文書特定部１５は、その各類語に対して、類似文書を特定する処理を行うものとする。

（ステップＳ１０４）類似文書特定部１５は、類似文書の特定を終了するかどうか判断する。そして、終了する場合には、ステップＳ１０５に進み、そうでない場合には、ステップＳ１０２に戻る。なお、類似文書特定部１５は、例えば、特定した類似文書の合計数があらかじめ決められた数を超えた場合に、類似文書の特定を終了すると判断してもよく、ステップＳ１０２からステップＳ１０４までのループをあらかじめ決められた数だけ回った場合（すなわち、基準文書を基準としてある類似文書が特定されるまでに取得された類語の数があらかじめ決められた数を超えた場合）に、類似文書の特定を終了すると判断してもよく、あるいは、その他の条件によって類似文書の特定を終了すると判断してもよい。

（ステップＳ１０５）類似情報算出部１６は、類似文書特定部１５が特定した各類似文書について、基準文書受付部１１が受け付けた基準文書との類似情報を算出する。

（ステップＳ１０６）選択部１７は、類似情報を用いて、基準文書との類似性の高い類似文書を選択する。選択部１７は、例えば、類似情報算出部１６が算出した類似情報と類似文書との対応についてソートを行い、類似性の高い方から所定数の類似文書を選択してもよく、所定のしきい値よりも類似性の高い類似情報に対応する類似文書の全てを選択してもよい。

（ステップＳ１０７）部分モデル生成部１８は、選択部１７が選択した類似文書のモデルである部分モデルを生成する。

（ステップＳ１０８）部分モデル蓄積部１９は、部分モデル生成部１８が生成した部分モデルを記録媒体に蓄積する。

（ステップＳ１０９）全体モデル生成部２０は、コーパスのモデルである全体モデルを生成し、全体モデル記憶部２１に蓄積する。

（ステップＳ１１０）線形補間部２２は、部分モデル蓄積部１９が蓄積した部分モデルと、全体モデル記憶部２１で記憶されている全体モデルとを線形補間することにより、補間モデルを生成する。

（ステップＳ１１１）補間モデル出力部２３は、線形補間部２２が生成した補間モデルを出力する。そして、ステップＳ１０１に戻る。

なお、前述のように、本実施の形態では、部分モデルは、部分言語モデルであり、全体モデルは、全体言語モデルである。一方、実施の形態２では、部分モデルは、部分翻訳モデルであり、全体モデルは、全体翻訳モデルである。
また、図２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

また、図２のフローチャートにおいて、基準文書を受け付けた回数が２回目以上である場合などのように、すでに全体モデル記憶部２１で全体モデルが記憶されている場合には、コーパスの内容が変わっていない限り、ステップＳ１０９の処理をスキップして、ステップＳ１０８からステップＳ１１０に進んでもよい。

次に、本実施の形態による情報処理装置１の実験例について説明する。まず、単純に言語モデルを生成した場合（以下、「言語モデル実験」とする）と、翻訳を行って目的言語の言語モデルを生成した場合（以下、「翻訳実験」とする）とについて説明する。

［言語モデル実験］
本実験では、テストセットの文書に類似する類似文書を用いて言語モデルのアダプテーションを行い、言語モデルの性能が向上することを確認する。

本実験では、コーパスに含まれる文書、及び基準文書として、Ｗｉｋｉｐｅｄｉａ（登録商標）の文書（この文書は、「記事」と呼ばれることもある）を用いた。すなわち、４０万件程度のＷｉｋｉｐｅｄｉａ（登録商標）の記事がコーパス記憶部１４で記憶されている。また、各文書において、タイトルがキーワードであるとする。したがって、例えば、タイトル「形態素解析」と、形態素解析に関する説明文とによって、ひとつの文書が構成されることになる。

この実験では、そのコーパス記憶部１４で記憶されているコーパスから、１００個の文書をランダムに選択し、その選択した１００個の文書をテストセットとした。したがって、このテストセットに含まれる各文書が基準文書である。本実験では、テストセットに含まれる各文書について、以下の処理を行った。

まず、その基準文書を情報処理装置１に入力すると、基準文書受付部１１はその基準文書を受け付け、類語取得部１３と類似情報算出部１６とに渡した（ステップＳ１０１）。すると、類語取得部１３は、基準文書のタイトルであるキーワードを取得し、そのタイトルの類語を取得し、その類語を類似文書特定部１５に渡した（ステップＳ１０２）。本実験では、類語辞書を用いるのではなく、ウェブ上で提供されているサービスであるＷｉｋｉｐｅｄｉａ−ＬａｂＴｈｅｓａｕｒｕｓ（ｈｔｔｐ：／／ｗｉｋｉｐｅｄｉａ−ｌａｂ．ｏｒｇ：８０８０／ＷｉｋｉｐｅｄｉａＴｈｅｓａｕｒｕｓＶ２／）を用いてキーワードに対応する類語を取得した。類似文書特定部１５は、受け取った類語がタイトルであるコーパスに含まれる文書である類似文書を特定した（ステップＳ１０３）。なお、この特定の際に、基準文書を特定しないようにする（この実験例では、評価を行うために基準文書を特定しないようにしたが、評価を行わないのであれば、基準文書を特定してもよい）。

この実験例では、特定した類似文書が２０００個になるまで、処理を繰り返した。したがって、特定した類似文書が２０００個に満たない場合には、類語取得部１３は、１回目に特定した１または２以上の類似文書のタイトルであるキーワードの類語を取得する（ステップＳ１０２）。そして、類似文書特定部１５は、その取得された類語がタイトルである類似文書を特定した（ステップＳ１０３）。なお、本実験では、類似文書特定部１５が、同一の類似文書を２回以上特定することがないようにした。すなわち、特定された２０００個の類似文書は、全て異なるものである。

２０００個の類似文書が特定されると（ステップＳ１０４）、類似情報算出部１６は、その２０００個の類似文書と、基準文書との類似情報を算出した（ステップＳ１０５）。その類似情報として、ユークリッド距離、ピアソン距離、タニモト係数のそれぞれを算出した。そして、選択部１７は、類似情報ごとに、類似度の高い方から１０００個の類似文書を選択した（ステップＳ１０６）。

その後、部分モデル生成部１８は、類似情報ごとの１０００個の類似文書を用いて、部分言語モデルを生成し（ステップＳ１０７）、部分モデル蓄積部１９が、それらの部分言語モデルを蓄積した（ステップＳ１０８）。すなわち、類似情報がユークリッド距離の場合の部分言語モデルと、類似情報がピアソン距離の場合の部分言語モデルと、類似情報がタニモト係数の場合の部分言語モデルとが蓄積されたことになる。なお、この部分モデル生成部１８が生成した言語モデルは、５ｇｒａｍである。本実験で使用する全ての言語モデルは、５ｇｒａｍであるとする。また、この部分モデル生成部１８は、ＳＲＩの言語モデルツールキット（ＳＲＩＬＭ−ＴｈｅＳＲＩＬａｎｇｕａｇｅＭｏｄｅｌｉｎｇＴｏｏｌｋｉｔ、ｈｔｔｐ：／／ｗｗｗ．ｓｐｅｅｃｈ．ｓｒｉ．ｃｏｍ／ｐｒｏｊｅｃｔｓ／ｓｒｉｌｍ／）のｎｇｒａｍ−ｃｏｕｎｔを用いて言語モデルを生成した。

全体モデル生成部２０は、コーパス記憶部１４で記憶されている約４０万件のＷｉｋｉｐｅｄｉａ（登録商標）の文書を用いて、全体言語モデルを生成し、全体モデル記憶部２１に蓄積した（ステップＳ１０９）。

その後、線形補間部２２は、前述のλを０から１まで０．１ずつ変化させながら、３個の部分言語モデルと、全体言語モデルとの線形補間を行い（ステップＳ１１０）、補間モデル出力部２３は、その線形補間後の補間言語モデルを図示しない記録媒体に蓄積した（ステップＳ１１１）。また、その補間言語モデルを用いて、基準文書のパープレキシティー（ｐｅｒｐｌｅｘｉｔｙ）を算出した。なお、本実験では、言語モデルの線形補間に、前述のＳＲＩのｎｇｒａｍを用いた。

なお、この一連の処理が、テストセットの各基準文書について行われることになる。本実験で用いた言語資源に関する情報は、図３で示されるとおりである。また、算出したパープレキシティーのテストセットでの平均値を求めてプロットしたものが図４で示されるグラフである。図４において、「線形補間の重み」は、前述のλである。したがって、線形補間の重みが「０」である場合には、補間言語モデルは、全体言語モデル（ベースライン）となり、線形補間の重みが「１」である場合には、補間言語モデルは、部分言語モデルとなる。図４を参照すれば、線形補間の重み＝０．４で線形補間した場合に、補間言語モデルの精度が最も高くなることが分かる（パープレキシティーの値の低い方が、類似性が高く、よりよいモデルであることを示すことになる）。また、類似情報がタニモト係数である場合が、モデルの性能が最もよく、全体言語モデルと線形補間しない場合（重みが１．０の場合）でも、全体言語モデルと同等の性能が得られることが分かった。

［翻訳実験］
この翻訳実験では、機械翻訳の目的言語側の言語モデルのアダプテーションについての評価を行った。この場合には翻訳も行うため、情報処理装置１は、図５で示されるように、前述の各構成要素に加えて、翻訳前基準文書受付部３１と、翻訳部３２とをさらに備えている。

翻訳前基準文書受付部３１は、第２言語（原言語）の文書であり、キーワードを含む文書である翻訳前基準文書を受け付ける。この翻訳前基準文書は、言語が異なる以外は、前述の基準文書と同様のものである。なお、この翻訳前基準文書は、これ自体がユーザの入力した文書であってもよく、あるいは、ユーザの入力した文書から抽出された名詞の集合である名詞群であってもよい。また、翻訳前基準文書受付部３１は、翻訳全基準文書を受け付ける以外は、基準文書受付部１１と同様のものである。

翻訳前基準文書受付部３１は、例えば、入力デバイス（例えば、キーボードやマウス、タッチパネルなど）から入力された翻訳前基準文書を受け付けてもよく、有線もしくは無線の通信回線を介して送信された翻訳前基準文書を受信してもよく、所定の記録媒体（例えば、光ディスクや磁気ディスク、半導体メモリなど）から読み出された翻訳前基準文書を受け付けてもよい。なお、翻訳前基準文書受付部３１は、受け付けを行うためのデバイス（例えば、モデムやネットワークカードなど）を含んでもよく、あるいは含まなくてもよい。また、翻訳前基準文書受付部３１は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

翻訳部３２は、翻訳前基準文書受付部３１が受け付けた第２言語の翻訳前基準文書を第１言語（目的言語）の文書に翻訳する。この翻訳は、例えば、機械翻訳であってもよく、翻訳前基準文書が名詞の集合である名詞群である場合には、辞書引きであってもよい。機械翻訳である場合には、統計的機械翻訳であってもよく、ルールベースの機械翻訳であってもよく、その他の機械翻訳であってもよい。また、辞書引きとは、互いに対訳関係にある第１言語の単語と第２言語の単語とを対応付ける辞書を用いて、一方の言語の単語を、他方の言語の単語に変換することである。

なお、この場合には、基準文書受付部１１は、翻訳前基準文書受付部３１が受け付けた翻訳前基準文書が翻訳部３２によって翻訳された文書である基準文書を受け付けることになる。

また、図５で示される情報処理装置１の場合には、図６のフローチャートのように動作するものとする。図６のフローチャートにおいて、ステップＳ２０１〜Ｓ２０３以外の処理は、図２のフローチャートと同様であり、その説明を省略する。

（ステップＳ２０１）翻訳前基準文書受付部３１は、翻訳前基準文書を受け付けたかどうか判断する。そして、翻訳前基準文書を受け付けた場合には、ステップＳ２０２に進み、そうでない場合には、翻訳前基準文書を受け付けるまでステップＳ２０１の処理を繰り返す。

（ステップＳ２０２）翻訳部３２は、翻訳前基準文書受付部３１が受け付けた第１言語の翻訳前基準文書を、第２言語の文書に翻訳する。この翻訳後の文書が基準文書である。

（ステップＳ２０３）基準文書受付部１１は、翻訳部３２が翻訳した文書である基準文書を受け付ける。

次に、本実験について説明する。本実験でも、Ｗｉｋｉｐｅｄｉａ（登録商標）の記事を用いた。すなわち、前述の実験と同様に、約４０万件のＷｉｋｉｐｅｄｉａ（登録商標）の記事がコーパス記憶部１４で記憶されている。また、その記事のうちの一部が対訳済みであり、その対訳済みの記事をテストセットとして用いた。

まず、全体モデル生成部２０が、コーパス記憶部１４で記憶されているコーパスを用いて全体言語モデルを生成し、全体モデル記憶部２１に蓄積したとする。また、Ｗｉｋｉｐｅｄｉａ（登録商標）の記事から作られた日英対訳コーパス（この対訳コーパスでは、文単位でのアライメントが取られている）を用いて翻訳モデルを生成し、図示しない記録媒体に蓄積した。そして、テストセットの英語の記事を翻訳前基準文書として情報処理装置１に入力した。すると、翻訳前基準文書受付部３１は、その翻訳前基準文書を受け付け（ステップＳ２０１）、翻訳部３２に渡す。翻訳部３２は、図示しない経路を介して全体モデル記憶部２１で記憶されている全体言語モデルと、図示しない記録媒体で記憶されている翻訳モデルとを読み出し、それらを用いて翻訳前基準文書に対して統計的機械翻訳を行い、基準文書受付部１１に渡した（ステップＳ２０２）。この統計的機械翻訳のツールとしては、Ｃｌｅｏｐａｔｒａ（ＡＴＲが作成したデコーダ）を用いた。

基準文書受付部１１は、翻訳後の文書である基準文書を受け付けると（ステップＳ２０３）、その基準文書を類語取得部１３と類似情報算出部１６とに渡した。なお、本実験では、翻訳のノイズが多いため、タイトルをキーワードとして用いるのではなく、基準文書に含まれる名詞のうち、頻度の上位から５個の名詞をキーワードとして用いた。したがって、類語取得部１３は、基準文書について形態素解析を行い、品詞が名詞（なお、固有名詞等の不適切な名詞は除いた）である形態素を頻度の降順に並べ、上位から５個の名詞を取得した。そして、類語取得部１３は、前述の実験と同様にウェブ上で提供されているサービスを用いることによって取得した名詞の類語を取得し、その類語を類似文書特定部１５に渡した（ステップＳ１０２）。この後、類似文書が２０００個特定され、それらについて、基準文書との類似情報が算出され、類似文書が選択された処理は、前述の言語モデル実験の場合と同様であり、その説明を省略する。なお、本実験でも、類似情報の計算を、ユークリッド距離、ピアソン距離、タニモト係数のそれぞれを用いて行った。また、前述の実験結果から、線形補間の重みが「０．４」である場合の性能が最もよいことがわかっているため、本実験では、線形補間を行う場合には、その重みを「０．４」に設定した。

また、線形補間した補間言語モデルと、線形補間していない全体言語モデル、部分言語モデルを用いて、再度、テストセットに対して統計的機械翻訳を行った。なお、この際に用いる翻訳モデルは、翻訳前基準文書の翻訳で用いたものと同じものである。そして、その翻訳結果に対して自動評価を行った。このたび用いた対訳テストセットについての情報は、図７で示されるとおりである。また、自動評価を行ったＢＬＵＥとＮＩＳＴの結果は、図８で示されるとおりであり、全指標の自動評価のランキングは、図９で示されるとおりである。図９では、評価値そのものを示しているのではなく、評価値の順序を示している。なお、ベースライン言語モデルとは、全体言語モデルのことである。図８、図９から、例えば、ＮＩＳＴでは、類似情報がタニモト係数であり、線形補間の重みを０．４とした場合が、もっとも評価値のよいことがわかる。また、図９の結果から、類似情報をピアソン距離やタニモト係数として、線形補間の重みを０．４または１．０とした場合には、ベースライン言語モデルよりも訳質がよいこと、すなわち、補間言語モデルあるいは部分言語モデルのほうが全体言語モデルよりも性能が高いことがわかる。

以上のように、本実施の形態による情報処理装置１によれば、基準文書に類似する類似文書を選択し、その選択した類似文書を用いて言語モデルを生成することによって、基準文書の分野における性能の高い言語モデルを得ることができることが分かった。特に、言語モデル実験によって、計算量の少ないタニモト係数を類似情報として用いた場合には、部分言語モデルと全体言語モデルとの補間を行わなくても、部分言語モデルのみによって全体言語モデルと同程度の性能を実現できることが分かった。したがって、その場合には、全体言語モデルよりも規模の小さいモデルである部分言語モデルを全体言語モデルの代わりに使用することができ、言語モデルを用いた計算を行う際の処理負荷が軽くなるメリットが得られる。また、全体言語モデルと部分言語モデルとを補間した場合には、全体言語モデルよりも性能がよくなっていることが分かる。その場合に、部分言語モデルの割合が９割以下であること（すなわち、線形補間の際の部分言語モデルの重みが０．９より小さく、全体言語モデルの重みが０．１より大きいこと）が好適である。また、翻訳実験によって、基準文書に類似する類似文書を選択することによって生成された部分言語モデルを使用することは、統計的機械翻訳においても有効であることが確かめられた。

また、本実施の形態による情報処理装置１では、類似情報の算出時に、基準文書と類似文書との類似性に関する情報を算出するため、コーパスから生成された言語モデルを用いてパープレキシティーを算出するなどの処理を行う必要がない。そのため、類似情報の算出の負荷が、コーパスを用いて類似情報を算出する場合に比べて軽いものとなり、容易に部分言語モデルを生成することができるようになる。

また、本実施の形態による情報処理装置１では、処理を行いたい分野から選択した一の文書を基準文書として用いることによって、その分野に適した部分モデル等を生成することができるようになる。その分野は、例えば、経済分野や、政治分野、特定の技術分野、特定の文化の分野など、どのような分野であってもよい。

なお、本実施の形態による情報処理装置１によって生成された補間言語モデルをどのように用いてもよいことは言うまでもない。例えば、形態素解析に用いてもよく、統計的機械翻訳に用いてもよく、音声認識等に用いてもよい。

（実施の形態２）
本発明の実施の形態２による情報処理装置について説明する。本実施の形態による情報処理装置は、対訳コーパスを用いて翻訳モデルを生成するものである。

本実施の形態による情報処理装置の構成も、以下に説明する差異以外は、実施の形態１の図１または図５で示される情報処理装置１の構成と同様であるとする。ただし、コーパス記憶部１４で記憶されているコーパスは、対訳関係にある第１言語の文書と第２言語の文書とを対応付けるものである。また、基準文書、類似文書は、第１言語の文書であるとする。また、部分モデル生成部１８は、選択部１７が選択した第１言語の類似文書と、その第１言語の類似文書と対訳関係にある第２言語の文書であって、コーパス記憶部１４で記憶されているコーパスの有する文書との翻訳モデルである部分翻訳モデルを生成する。また、部分モデル蓄積部１９は、部分モデル生成部１８が生成した部分翻訳モデルを記録媒体に蓄積する。また、全体モデル生成部２０は、コーパス記憶部１４で記憶されているコーパスの翻訳モデルである全体翻訳モデルを生成し、全体モデル記憶部２１に蓄積する。したがって、全体モデル記憶部２１では、コーパス記憶部１４で記憶されているコーパスの翻訳モデルである全体翻訳モデルが記憶されることになる。また、線形補間部２２は、部分翻訳モデルと、全体翻訳モデルとを線形補間して補間翻訳モデルを生成する。また、補間モデル出力部２３は、線形補間部２２が生成した補間翻訳モデルを出力する。ここで、第１言語と第２言語とは異なる言語であり、それらの言語の種類は問わない。第１言語や第２言語は、例えば、日本語や英語、フランス語、ドイツ語、中国語、ロシア語などであってもよい。

また、本実施の形態による情報処理装置１の動作は、図２または図６のフローチャートと同様であり、その説明を省略する。ただし、図１で示される情報処理装置１の場合には、基準文書が受け付けられ、その基準文書と同じ言語である類似文書の特定や選択が行われることによって、部分翻訳モデルが生成されることになる。一方、図５で示される情報処理装置１の場合には、翻訳前基準文書が受け付けられ、その翻訳前基準文書と異なる言語である類似文書の特定や選択が行われることによって、部分翻訳モデルが生成されることになる。

なお、その両方の手法を用いて部分翻訳モデルを生成してもよい。例えば、図１において、基準文書受付部１１は、対訳関係にある第１言語の基準文書と、第２言語の基準文書とを受け付けてもよい。この場合には、類語取得部１３は、第１言語の基準文書に含まれるキーワードの第１言語の類語を取得すると共に、第２言語の基準文書に含まれるキーワードの第２言語の類語をも取得する。また、類似文書特定部１５は、第１言語の類語を用いた類似文書の特定を行うと共に、第２言語の類語を用いた類似文書の特定をも行う。また、類似情報算出部は、第１言語の類似文書と第１言語の基準文書との類似情報を算出すると共に、第２言語の類似文書と第２言語の基準文書との類似情報を算出する。そして、選択部１７は、それらの類似情報を用いて、第１言語の基準文書と類似性の高い第１言語の類似文書を選択すると共に、第２言語の基準文書と類似性の高い第２言語の類似文書をも選択する。この選択の際には、例えば、選択部１７は、第１言語での類似情報と、第２言語での類似情報との両方をマージして、類似性の高い類似文書を選択してもよく、または、第１言語での類似情報を用いた選択と、第２言語での類似情報を用いた選択とのそれぞれを別個に行ってもよい。前者の場合には、選択された第１言語の類似文書と、第２言語の類似文書との比率は分からないが、後者の場合には、第１言語の類似文書の選択数と、第２言語の類似文書の選択数とを同じにしておくことによって、両者を同じ比率にすることも可能である。また、この選択の際には、互いに対訳関係にある第１言語の類似文書と、第２言語の類似文書とをそれぞれ選択してしまう可能性もある。したがって、例えば、１０００個の類似文書を選択したとしても、翻訳コーパスを生成する際に用いられる対訳関係にある文書の対は１０００個よりも少なくなってしまう場合がありうる。そのようにならないようにするために、選択部１７は、まず、コーパス記憶部１４で記憶されている対訳関係にある文書の対に対して、算出された類似情報を対応付ける処理を行い、２個の類似情報が対応付けられた文書の対に対しては、１個の類似情報のみとなるように類似情報を変更してもよい。この類似情報の変更の方法は、例えば、２個の類似情報のうち、類似性の高い類似情報に変更することでもよく、類似性の低い類似情報に変更することでもよく、あるいは、両類似情報の類似性が中間となるように類似情報を変更すること（例えば、類似情報の平均を取ること）でもよい。そして、その変更後の類似情報を用いて文書の対の選択を行い、その選択された文書の対を用いて部分翻訳モデルを生成するようにしてもよい。

以上のように、本実施の形態による情報処理装置１によれば、実施の形態１の情報処理装置１と同様に、より性能の高い部分翻訳モデルを生成することができ、結果として、よりよい性能の補間翻訳モデルを生成することができる。したがって、その補間翻訳モデルを用いることによって、翻訳の精度がより向上すると考えられる。

なお、上記各実施の形態において、情報処理装置１は、全体モデル生成部２０を備えていなくてもよい。その場合には、例えば、情報処理装置１の外部で全体言語モデルや全体翻訳モデルなどの全体モデルが生成され、全体モデル記憶部２１に蓄積されてもよい。その場合に、全体モデルが全体モデル記憶部２１で記憶されるようになる過程は問わない。

また、上記各実施の形態において、線形補間を行わなくてもよい。線形補間を行わない場合には、情報処理装置１は、全体モデル生成部２０や、全体モデル記憶部２１、線形補間部２２、補間モデル出力部２３を備えていなくてもよい。その場合には、部分モデル蓄積部１９が蓄積した部分言語モデルや部分翻訳モデルなどの部分モデルが情報処理装置１の外部で用いられることによって、補間言語モデルや補間翻訳モデルなどの補間モデルが生成されてもよい。したがって、その場合には、情報処理装置１は、部分モデルを出力する図示しない部分モデル出力部を備えていてもよい。

また、上記各実施の形態において、部分モデルの生成を行わなくてもよい。部分モデルの生成を行わない場合には、情報処理装置１は、部分モデル生成部１８や、部分モデル蓄積部１９、全体モデル生成部２０、全体モデル記憶部２１、線形補間部２２、補間モデル出力部２３を備えていなくてもよい。その場合には、選択部１７の選択した類似文書が情報処理装置１の外部で用いられることによって、部分言語モデルや部分翻訳モデルなどの部分モデルが生成されてもよい。したがって、その場合には、情報処理装置１は、選択結果を示す情報を出力する選択結果出力部を備えていてもよい。ここで、選択結果を示す情報は、例えば、選択された類似文書そのものであってもよく、選択された類似文書を識別する情報であってもよい。

また、上記各実施の形態による情報処理装置１では、１個の基準文書を用いて部分モデル等を生成する場合について説明したが、２個以上の基準文書を用いて部分モデル等を生成してもよい。例えば、２個以上の基準文書を用いる場合には、それらの基準文書ごとに前述のようにして類似文書の特定や、類似情報の算出を行い、それらの類似文書をまとめた上で、類似文書の選択を行ってもよい。このようにすることで、複数の分野にまたがる部分モデル等を生成することも可能となりうる。

また、上記各実施の形態において、コーパス、文書、基準文書、翻訳前基準文書、類似文書、部分言語モデル、部分翻訳モデル、部分モデル、全体言語モデル、全体翻訳モデル、全体モデル、補間言語モデル、補間翻訳モデル、補間モデル等は、本来は、コーパスの情報、文書の情報、基準文書の情報などと記載すべきであるが、単に、コーパス等と記載した。

また、上記実施の形態では、情報処理装置１がスタンドアロンである場合について説明したが、情報処理装置は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、出力部や受付部は、通信回線を介して入力を受け付けたり、情報を出力したりしてもよい。

また、上記実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。

また、上記実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりした情報や、各構成要素が処理で用いるしきい値や数式、アドレス等の情報等は、上記説明で明記していない場合であっても、図示しない記録媒体において、一時的に、あるいは長期にわたって保持されていてもよい。また、その図示しない記録媒体への情報の蓄積を、各構成要素、あるいは、図示しない蓄積部が行ってもよい。また、その図示しない記録媒体からの情報の読み出しを、各構成要素、あるいは、図示しない読み出し部が行ってもよい。

また、上記実施の形態において、各構成要素等で用いられる情報、例えば、各構成要素が処理で用いるしきい値やアドレス、各種の設定値等の情報がユーザによって変更されてもよい場合には、上記説明で明記していない場合であっても、ユーザが適宜、それらの情報を変更できるようにしてもよく、あるいは、そうでなくてもよい。それらの情報をユーザが変更可能な場合には、その変更は、例えば、ユーザからの変更指示を受け付ける図示しない受付部と、その変更指示に応じて情報を変更する図示しない変更部とによって実現されてもよい。その図示しない受付部による変更指示の受け付けは、例えば、入力デバイスからの受け付けでもよく、通信回線を介して送信された情報の受信でもよく、所定の記録媒体から読み出された情報の受け付けでもよい。

また、上記実施の形態において、情報処理装置１に含まれる２以上の構成要素が通信デバイスや入力デバイス等を有する場合に、２以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。

また、上記実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをＣＰＵ等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、キーワードを含む文書である基準文書を受け付ける基準文書受付部、前記基準文書受付部が受け付けた基準文書に含まれるキーワードの類語を取得する類語取得部、２以上の文を少なくとも含む文書を複数有するコーパスが記憶されるコーパス記憶部で記憶されているコーパスの有する文書であって、前記類語取得部が取得した類語を含む文書である類似文書を特定する類似文書特定部、前記類似文書と前記基準文書との類似性に関する情報である類似情報を算出する類似情報算出部、前記類似情報を用いて、前記基準文書と類似性の高い類似文書を選択する選択部、として機能させるためのプログラムである。

なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を受け付ける受付部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。

また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体（例えば、ＣＤ−ＲＯＭなどの光ディスクや磁気ディスク、半導体メモリなど）に記録されたプログラムが読み出されることによって実行されてもよい。また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。

また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

図１０は、上記プログラムを実行して、上記実施の形態による情報処理装置１を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。

図１０において、コンピュータシステム９００は、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブ９０５、ＦＤ（Ｆｌｏｐｐｙ（登録商標）Ｄｉｓｋ）ドライブ９０６を含むコンピュータ９０１と、キーボード９０２と、マウス９０３と、モニタ９０４とを備える。

図１１は、コンピュータシステム９００の内部構成を示す図である。図１１において、コンピュータ９０１は、ＣＤ−ＲＯＭドライブ９０５、ＦＤドライブ９０６に加えて、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９１１と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ９１２と、ＭＰＵ９１１に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９１３と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク９１４と、ＭＰＵ９１１、ＲＯＭ９１２等を相互に接続するバス９１５とを備える。なお、コンピュータ９０１は、ＬＡＮへの接続を提供する図示しないネットワークカードを含んでいてもよい。

コンピュータシステム９００に、上記実施の形態による情報処理装置１の機能を実行させるプログラムは、ＣＤ−ＲＯＭ９２１、またはＦＤ９２２に記憶されて、ＣＤ−ＲＯＭドライブ９０５、またはＦＤドライブ９０６に挿入され、ハードディスク９１４に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ９０１に送信され、ハードディスク９１４に記憶されてもよい。プログラムは実行の際にＲＡＭ９１３にロードされる。なお、プログラムは、ＣＤ−ＲＯＭ９２１やＦＤ９２２、またはネットワークから直接、ロードされてもよい。

プログラムは、コンピュータ９０１に、上記実施の形態による情報処理装置１の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム９００がどのように動作するのかについては周知であり、詳細な説明は省略する。

また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上より、本発明による情報処理装置等によれば、軽い処理によって基準文書に対応したモデルを生成することができ、言語モデルや翻訳モデルを生成するシステム等として有用である。

本発明の実施の形態１による情報処理装置の構成を示すブロック図同実施の形態による情報処理装置の動作を示すフローチャート同実施の形態における実験で用いる言語資源の一例を示す図同実施の形態における実験結果の一例を示す図同実施の形態による情報処理装置の構成を示すブロック図同実施の形態による情報処理装置の動作を示すフローチャート同実施の形態における実験で用いる言語資源の一例を示す図同実施の形態における実験結果の一例を示す図同実施の形態における実験結果の一例を示す図同実施の形態におけるコンピュータシステムの外観一例を示す模式図同実施の形態におけるコンピュータシステムの構成の一例を示す図

符号の説明

１情報処理装置
１１基準文書受付部
１２類語辞書記憶部
１３類語取得部
１４コーパス記憶部
１５類似文書特定部
１６類似情報算出部
１７選択部
１８部分モデル生成部
１９部分モデル蓄積部
２０全体モデル生成部
２１全体モデル記憶部
２２線形補間部
２３補間モデル出力部
３１翻訳前基準文書受付部
３２翻訳部

Claims

キーワードを含む文書である基準文書を受け付ける基準文書受付部と、
前記基準文書受付部が受け付けた基準文書に含まれるキーワードの類語を取得する類語取得部と、
２以上の文を少なくとも含む文書を複数有するコーパスが記憶されるコーパス記憶部と、
前記コーパスの有する文書であって、前記類語取得部が取得した類語を含む文書である類似文書を特定する類似文書特定部と、
前記類似文書と前記基準文書との類似性に関する情報である類似情報を算出する類似情報算出部と、
前記類似情報を用いて、前記基準文書と類似性の高い類似文書を選択する選択部と、を備えた情報処理装置。
前記選択部が選択した類似文書の言語モデルである部分言語モデルを生成する部分モデル生成部と、
前記部分モデル生成部が生成した部分言語モデルを蓄積する部分モデル蓄積部と、をさらに備えた、請求項１記載の情報処理装置。
前記コーパス記憶部で記憶されているコーパスの言語モデルである全体言語モデルが記憶される全体モデル記憶部と、
前記部分モデル蓄積部が蓄積した部分言語モデルと、前記全体モデル記憶部で記憶されている全体言語モデルとを線形補間して補間言語モデルを生成する線形補間部と、
前記線形補間部が生成した補間言語モデルを出力する補間モデル出力部と、をさらに備えた、請求項２記載の情報処理装置。
前記コーパス記憶部で記憶されているコーパスの言語モデルである全体言語モデルを生成し、前記全体モデル記憶部に蓄積する全体モデル生成部をさらに備えた、請求項３記載の情報処理装置。
前記コーパス記憶部で記憶されているコーパスは、対訳関係にある第１言語の文書と第２言語の文書とを対応付けるコーパスであり、
前記基準文書、前記類似文書は、第１言語の文書である、請求項１記載の情報処理装置。
第２言語の文書であり、キーワードを含む文書である翻訳前基準文書を受け付ける翻訳前基準文書受付部と、
前記翻訳前基準文書受付部が受け付けた翻訳前基準文書を第１言語の文書に翻訳する翻訳部と、をさらに備え、
前記基準文書受付部は、前記翻訳前基準文書が翻訳された文書である基準文書を受け付ける、請求項５記載の情報処理装置。
前記選択部が選択した第１言語の類似文書と、当該第１言語の類似文書と対訳関係にある第２言語の文書であって、前記コーパス記憶部で記憶されているコーパスの有する文書との翻訳モデルである部分翻訳モデルを生成する部分モデル生成部と、
前記部分モデル生成部が生成した部分翻訳モデルを蓄積する部分モデル蓄積部と、をさらに備えた、請求項５または請求項６記載の情報処理装置。
前記コーパス記憶部で記憶されているコーパスの翻訳モデルである全体翻訳モデルが記憶される全体モデル記憶部と、
前記部分モデル蓄積部が蓄積した部分翻訳モデルと、前記全体モデル記憶部で記憶されている全体翻訳モデルとを線形補間して補間翻訳モデルを生成する線形補間部と、
前記線形補間部が生成した補間翻訳モデルを出力する補間モデル出力部と、をさらに備えた、請求項７記載の情報処理装置。
前記コーパス記憶部で記憶されているコーパスの翻訳モデルである全体翻訳モデルを生成し、前記全体モデル記憶部に蓄積する全体モデル生成部をさらに備えた、請求項８記載の情報処理装置。
前記コーパスの有する文書は、キーワードを含むものであり、
前記類似文書特定部は、前記類語取得部が取得した類語がキーワードに含まれる文書である類似文書を特定する、請求項１から請求項９のいずれか記載の情報処理装置。
前記コーパスの有する文書が含むキーワードは、当該文書のタイトルである、請求項１０記載の情報処理装置。
前記類語取得部は、前記類似文書特定部が特定した類似文書のキーワードの類語をも取得し、
前記類似文書特定部は、前記類語取得部が取得した、類似文書のキーワードの類語がキーワードに含まれる文書である類似文書をも特定する、請求項１０または請求項１１記載の情報処理装置。
基準文書受付部と、類語取得部と、２以上の文を少なくとも含む文書を複数有するコーパスが記憶されるコーパス記憶部と、類似文書特定部と、類似情報算出部と、選択部とを用いて処理する情報処理方法であって、
前記基準文書受付部が、キーワードを含む文書である基準文書を受け付ける基準文書受付ステップと、
前記類語取得部が、前記基準文書受付ステップで受け付けた基準文書に含まれるキーワードの類語を取得する類語取得ステップと、
前記類似文書特定部が、前記コーパスの有する文書であって、前記類語取得ステップで取得した類語を含む文書である類似文書を特定する類似文書特定ステップと、
前記類似情報算出部が、前記類似文書と前記基準文書との類似性に関する情報である類似情報を算出する類似情報算出ステップと、
前記選択部が、前記類似情報を用いて、前記基準文書と類似性の高い類似文書を選択する選択ステップと、を備えた情報処理方法。
コンピュータを、
キーワードを含む文書である基準文書を受け付ける基準文書受付部、
前記基準文書受付部が受け付けた基準文書に含まれるキーワードの類語を取得する類語取得部、
２以上の文を少なくとも含む文書を複数有するコーパスが記憶されるコーパス記憶部で記憶されているコーパスの有する文書であって、前記類語取得部が取得した類語を含む文書である類似文書を特定する類似文書特定部、
前記類似文書と前記基準文書との類似性に関する情報である類似情報を算出する類似情報算出部、
前記類似情報を用いて、前記基準文書と類似性の高い類似文書を選択する選択部、として機能させるためのプログラム。