JP2010097318A - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP2010097318A
JP2010097318A JP2008266204A JP2008266204A JP2010097318A JP 2010097318 A JP2010097318 A JP 2010097318A JP 2008266204 A JP2008266204 A JP 2008266204A JP 2008266204 A JP2008266204 A JP 2008266204A JP 2010097318 A JP2010097318 A JP 2010097318A
Authority
JP
Japan
Prior art keywords
document
unit
model
similar
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008266204A
Other languages
English (en)
Inventor
Keishi Yasuda
圭志 安田
Eiichiro Sumida
英一郎 隅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2008266204A priority Critical patent/JP2010097318A/ja
Publication of JP2010097318A publication Critical patent/JP2010097318A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】基準文書に適合したモデルを生成する情報処理装置を提供する。
【解決手段】キーワードを含む基準文書を受け付ける基準文書受付部11と、基準文書受付部11が受け付けた基準文書に含まれるキーワードの類語を取得する類語取得部13と、2以上の文を少なくとも含む文書を複数有するコーパスが記憶されるコーパス記憶部14と、そのコーパスの有する文書であって、類語取得部13が取得した類語を含む文書である類似文書を特定する類似文書特定部15と、類似文書と基準文書との類似性に関する情報である類似情報を算出する類似情報算出部16と、その類似情報を用いて、基準文書と類似性の高い類似文書を選択する選択部17と、を備える。
【選択図】図1

Description

本発明は、基準文書に類似する文書である類似文書を選択する情報処理装置等に関する。
従来の情報処理装置において、大規模なコーパスから小規模なコーパスを選択することが行われていた(例えば、特許文献1参照)。
特開2008−226104号公報
しかしながら、上記特許文献1に記載された従来の情報処理装置においては、例えば、コーパスのエントロピーやパープレキシティーを用いて類似情報を算出し、その類似情報を用いて小規模なコーパスの選択を行っていたため、処理量が非常に多く、簡単に小規模なコーパスを生成することができないという問題があった。
本発明は、上記問題を解決するためになされたものであり、軽い処理によって、基準文書に類似する文書である類似文書を選択することができる情報処理装置等を提供することを目的とする。
上記目的を達成するため、本発明による情報処理装置は、キーワードを含む文書である基準文書を受け付ける基準文書受付部と、前記基準文書受付部が受け付けた基準文書に含まれるキーワードの類語を取得する類語取得部と、2以上の文を少なくとも含む文書を複数有するコーパスが記憶されるコーパス記憶部と、前記コーパスの有する文書であって、前記類語取得部が取得した類語を含む文書である類似文書を特定する類似文書特定部と、前記類似文書と前記基準文書との類似性に関する情報である類似情報を算出する類似情報算出部と、前記類似情報を用いて、前記基準文書と類似性の高い類似文書を選択する選択部と、を備えたものである。
このような構成により、基準文書と類似する文書である類似文書を選択することができる。したがって、この選択された類似文書を用いて言語モデルや翻訳モデルを生成することにより、基準文書や、その基準文書と同様の分野に属する文書に適したモデルを生成することができる。
また、本発明による情報処理装置では、前記選択部が選択した類似文書の言語モデルである部分言語モデルを生成する部分モデル生成部と、前記部分モデル生成部が生成した部分言語モデルを蓄積する部分モデル蓄積部と、をさらに備えてもよい。
このような構成により、基準文書や、その基準文書と同様の分野に属する文書に適した部分言語モデルを生成することができる。
また、本発明による情報処理装置では、前記コーパス記憶部で記憶されているコーパスの言語モデルである全体言語モデルが記憶される全体モデル記憶部と、前記部分モデル蓄積部が蓄積した部分言語モデルと、前記全体モデル記憶部で記憶されている全体言語モデルとを線形補間して補間言語モデルを生成する線形補間部と、前記線形補間部が生成した補間言語モデルを出力する補間モデル出力部と、をさらに備えてもよい。
このような構成により、部分言語モデルと全体言語モデルとを適切に線形補間することによって、基準文書や、その基準文書と同様の分野に属する文書に適した補間言語モデルを生成することができる。
また、本発明による情報処理装置では、前記コーパス記憶部で記憶されているコーパスの言語モデルである全体言語モデルを生成し、前記全体モデル記憶部に蓄積する全体モデル生成部をさらに備えてもよい。
このような構成により、全体言語モデルの生成をも情報処理装置において行うことができる。
また、本発明による情報処理装置では、前記コーパス記憶部で記憶されているコーパスは、対訳関係にある第1言語の文書と第2言語の文書とを対応付けるコーパスであり、前記基準文書、前記類似文書は、第1言語の文書であってもよい。
このような構成により、基準文書や、その基準文書と同様の分野に属する文書に適した翻訳モデルを生成することができる。
また、本発明による情報処理装置では、第2言語の文書であり、キーワードを含む文書である翻訳前基準文書を受け付ける翻訳前基準文書受付部と、前記翻訳前基準文書受付部が受け付けた翻訳前基準文書を第1言語の文書に翻訳する翻訳部と、をさらに備え、前記基準文書受付部は、前記翻訳前基準文書が翻訳された文書である基準文書を受け付けてもよい。
このような構成により、第2言語の翻訳前基準文書を第1言語の基準文書に翻訳して用いることができる。
また、本発明による情報処理装置では、前記選択部が選択した第1言語の類似文書と、当該第1言語の類似文書と対訳関係にある第2言語の文書であって、前記コーパス記憶部で記憶されているコーパスの有する文書との翻訳モデルである部分翻訳モデルを生成する部分モデル生成部と、前記部分モデル生成部が生成した部分翻訳モデルを蓄積する部分モデル蓄積部と、をさらに備えてもよい。
このような構成により、基準文書や、その基準文書と同様の分野に属する文書に適した部分翻訳モデルを生成することができる。
また、本発明による情報処理装置では、前記コーパス記憶部で記憶されているコーパスの翻訳モデルである全体翻訳モデルが記憶される全体モデル記憶部と、前記部分モデル蓄積部が蓄積した部分翻訳モデルと、前記全体モデル記憶部で記憶されている全体翻訳モデルとを線形補間して補間翻訳モデルを生成する線形補間部と、前記線形補間部が生成した補間翻訳モデルを出力する補間モデル出力部と、をさらに備えてもよい。
このような構成により、部分翻訳モデルと全体翻訳モデルとを適切に線形補間することによって、基準文書や、その基準文書と同様の分野に属する文書に適した補間翻訳モデルを生成することができる。
また、本発明による情報処理装置では、前記コーパス記憶部で記憶されているコーパスの翻訳モデルである全体翻訳モデルを生成し、前記全体モデル記憶部に蓄積する全体モデル生成部をさらに備えてもよい。
このような構成により、全体翻訳モデルの生成をも情報処理装置において行うことができる。
また、本発明による情報処理装置では、前記コーパスの有する文書は、キーワードを含むものであり、前記類似文書特定部は、前記類語取得部が取得した類語がキーワードに含まれる文書である類似文書を特定してもよい。
また、本発明による情報処理装置では、前記コーパスの有する文書が含むキーワードは、当該文書のタイトルであってもよい。
また、本発明による情報処理装置では、前記類語取得部は、前記類似文書特定部が特定した類似文書のキーワードの類語をも取得し、前記類似文書特定部は、前記類語取得部が取得した、類似文書のキーワードの類語がキーワードに含まれる文書である類似文書をも特定してもよい。
このような構成により、例えば、基準文書に含まれるキーワードの類語を用いて特定した類似文書だけでは、類似文書の数が足りないような場合に、より多くの類似文書を特定することができるようになる。
本発明による情報処理装置等によれば、軽い処理によって、基準文書に類似する文書である類似文書を選択することができる。また、その選択された類似文書を用いて、例えば、言語モデルを生成したり、翻訳モデルを生成したりすることができうる。
以下、本発明による情報処理装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。
(実施の形態1)
本発明の実施の形態1による情報処理装置について、図面を参照しながら説明する。本実施の形態による情報処理装置は、基準文書に類似する文書である類似文書を選択するものである。
図1は、本実施の形態による情報処理装置1の構成を示すブロック図である。本実施の形態による情報処理装置1は、基準文書受付部11と、類語辞書記憶部12と、類語取得部13と、コーパス記憶部14と、類似文書特定部15と、類似情報算出部16と、選択部17と、部分モデル生成部18と、部分モデル蓄積部19と、全体モデル生成部20と、全体モデル記憶部21と、線形補間部22と、補間モデル出力部23とを備える。
基準文書受付部11は、基準文書を受け付ける。基準文書は、キーワードを含む文書である。基準文書は、例えば、1または2以上のキーワードのみを含む文書であってもよく、キーワードと、そのキーワードを含む1以上の文を含む文書(この場合には、1以上の文にキーワードが埋め込まれていることになる)であってもよく、あるいは、キーワードと、そのキーワードを含まない1以上の文を含む文書(この場合には、1以上の文と別途、キーワードが存在することになる)であってもよい。そのキーワードは、基準文書のタイトルであってもよい。また、例えば、基準文書において、キーワードがあらわに示されていてもよく(例えば、基準文書において、マークアップ言語やレコード、カンマなどを用いて、キーワードとその他のものとが区別されている場合など)、あるいは、そうでなくてもよい(例えば、基準文書に含まれる名詞がキーワードである場合など)。本実施の形態では、基準文書が、1以上の文と、その1以上の文のタイトルであるキーワードとを含む場合について説明する。基準文書の受け付けは、結果として基準文書を取得することができるのであれば、その方法を問わない。例えば、基準文書は、後述するコーパス記憶部14で記憶されているものであり、基準文書の受け付けは、コーパス記憶部14において、基準文書を識別することができる情報、例えば、基準文書のIDなどを受け付けることであってもよい。
基準文書受付部11は、例えば、入力デバイス(例えば、キーボードやマウス、タッチパネルなど)から入力された基準文書を受け付けてもよく、有線もしくは無線の通信回線を介して送信された基準文書を受信してもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された基準文書を受け付けてもよい。なお、基準文書受付部11は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、基準文書受付部11は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
類語辞書記憶部12では、類語辞書(シソーラス)が記憶される。ここで、類語辞書は、例えば、ある単語と、その単語に関係する単語とを対応付けている情報である。その関係は、例えば、同義関係であってもよく、類義関係であってもよく、上位・下位の関係であってもよく、部分・全体の関係であってもよく、あるいは、それらの任意の2以上の関係の組合せであってもよい。
類語辞書記憶部12に類語辞書が記憶される過程は問わない。例えば、記録媒体を介して類語辞書が類語辞書記憶部12で記憶されるようになってもよく、通信回線等を介して送信された類語辞書が類語辞書記憶部12で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された類語辞書が類語辞書記憶部12で記憶されるようになってもよい。類語辞書記憶部12での記憶は、RAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。類語辞書記憶部12は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
類語取得部13は、基準文書受付部11が受け付けた基準文書に含まれるキーワードの類語を取得する。類語取得部13は、例えば、基準文書においてキーワードがあらわに示されている場合には、基準文書からそのキーワードを取得する。また、類語取得部13は、例えば、基準文書から名詞を抽出することによって、キーワードを取得してもよい(この場合には、その抽出された名詞がキーワードとなる)。なお、類語取得部13は、例えば、基準文書に対して形態素解析を行い、品詞が名詞である形態素を抽出することによって、名詞を抽出することができる。この場合に、名詞として、固有名詞以外の名詞を抽出してもよい。なお、形態素解析のシステムとして、日本語の場合には、例えば、奈良先端科学技術大学院大学で開発された「ChaSen(茶筌)」(http://chasen.naist.jp)等が知られている。また、英語の場合には、英単語に品詞を付与するソフトウェアとして、例えば、「TnT」(http://www.coli.uni−saarland.de/〜thorsten/tnt/)や「Brill Tagger」(http://www.cs.jhu.edu/〜brill/)等が知られている。また、類語取得部13は、例えば、基準文書がキーワードのみを含むものである場合には、基準文書そのものをキーワード、あるいは、キーワードの集合としてもよい。
また、類語取得部13は、類語辞書記憶部12で記憶されている類語辞書を用いて、基準文書から取得したキーワードに対応する類語を取得する。類語辞書において、ある単語と、その単語に対応する類語とが対応付けられている場合には、類語取得部13は、類語辞書において、基準文書から取得したキーワードに対応付けられている類語を取得してもよい。この類語は、前述のように、例えば、基準文書から取得されたキーワードの同義語であってもよく、類義語であってもよく、上位語であってもよく、下位語であってもよく、キーワードを部分として含む全体語であってもよく、キーワードの部分である部分語であってもよい。
なお、本実施の形態では、類語取得部13が類語辞書を用いて類語を取得する場合について説明するが、そうでなくてもよい。例えば、ある単語に対応する類語を取得する他の装置や構成要素を用いて、類語を取得してもよい。その場合には、類語取得部13は、その装置や構成要素に対してキーワードを渡し、その後に、その装置や構成要素からそのキーワードに対応する類語を受け取ることによって、類語を取得してもよい。その装置は、例えば、情報処理装置1と通信可能なサーバであってもよい。
また、類語取得部13は、後述する類似文書特定部15が特定した類似文書のキーワードの類語をも取得してもよく、そうでなくてもよい。特定された類似文書のキーワードの類語をも取得する場合の処理については後述する。
コーパス記憶部14では、コーパスが記憶される。このコーパスは、2以上の文を少なくとも含む文書を複数有するものである。なお、このコーパスから言語モデルを生成したり、翻訳モデルを生成したりするため、このコーパスは大規模なものであることが好適である。また、このコーパスは、単一言語のコーパスであってもよく、2以上の言語の対訳コーパスであってもよい。本実施の形態では、このコーパスが単一言語のものであり、情報処理装置1において言語モデルが生成される場合について説明する。一方、実施の形態2では、このコーパスが対訳コーパスであり、情報処理装置1において翻訳モデルが生成される場合について説明する。このコーパスの有する文書は、1または2以上のキーワードを含むものであってもよい。また、文書に含まれるキーワードは、その文書のタイトルであってもよい。このコーパスは、例えば、ニュースのコーパスであってもよく、Wikipedia(登録商標)等の百科事典のコーパスであってもよく、その他のコーパスであってもよい。コーパスが新聞や百科事典である場合には、1個の記事が1個の文書であってもよい。
コーパス記憶部14にコーパスが記憶される過程は問わない。例えば、記録媒体を介してコーパスがコーパス記憶部14で記憶されるようになってもよく、通信回線等を介して送信されたコーパスがコーパス記憶部14で記憶されるようになってもよく、あるいは、入力デバイスを介して入力されたコーパスがコーパス記憶部14で記憶されるようになってもよい。コーパス記憶部14での記憶は、RAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。コーパス記憶部14は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
類似文書特定部15は、コーパスの有する文書であって、類語取得部13が取得した類語を含む文書である類似文書を特定する。類似文書特定部15は類語取得部13によって取得された類語が、文書のいずれかの箇所に含まれる類似文書を特定してもよく、あるいは、文書のあらかじめ決められた箇所に含まれる類似文書を特定してもよい。文書のあらかじめ決められた箇所とは、例えば、キーワードの箇所であってもよい。すなわち、類似文書特定部15は、類語取得部13が取得した類語がキーワードに含まれる文書である類似文書を特定してもよい。類語がキーワードに含まれる文書とは、例えば、その類語が1以上のキーワードのいずれかと一致する文書であってもよく、その類語が1以上のキーワードのいずれかに含まれる文書であってもよい。また、類似文書に含まれるキーワードは、例えば、類似文書のタイトルであってもよい。
また、類語取得部13が、類似文書特定部15によって特定された類似文書のキーワードの類語をも取得する場合には、類似文書特定部15は、類語取得部13が取得した、類似文書のキーワードの類語がキーワードに含まれる文書である類似文書をも特定してもよい。
なお、文書を特定するとは、その特定した文書を図示しない記録媒体に蓄積することであってもよく、あるいは、その特定した文書に対応付けてフラグ等を設定することであってもよい。このように、結果として類似文書特定部15が特定した類似文書がどれであるのかを知ることができるのであれば、その類似文書の特定の方法は問わない。
類似情報算出部16は、類似文書と基準文書との類似性に関する情報である類似情報を算出する。すなわち、類似情報算出部16によって、基準文書と類似文書との類似性に関する値が算出されることになる。この類似情報は、両文書の類似性を知ることができる情報であれば、その内容を問わない。例えば、類似情報の示す値の大きい方が類似性が高くてもよく、あるいは、類似情報の示す値の小さい方が類似性が高くてもよい。類似情報は、例えば、ユークリッド距離(euclid distance)であってもよく、ピアソン距離(pearson distance)であってもよく、タニモト係数(tanimoto coefficient)であってもよく、その他の情報であってもよい。これらの値の算出方法についてはすでに公知であるため、詳細な説明を省略する。なお、類似情報がユークリッド距離、ピアソン距離である場合には、類似情報の示す値の小さい方が、類似度が高いことになる。また、類似情報がタニモト係数である場合には、類似情報の示す値は、0から1の実数であり、その類似情報の示す値の大きい方が、類似度が高いことになる。類似情報がユークリッド距離やピアソン距離、タニモト係数である場合に、類似情報算出部16は、類似文書や基準文書から名詞を抽出し、その抽出した名詞を用いて、それらの類似情報を算出してもよい。
選択部17は、類似情報算出部16が算出した類似情報を用いて、基準文書と類似性の高い類似文書を選択する。この選択では、例えば、基準文書と類似性の高いものから順に、あらかじめ決められている個数の類似文書を選択してもよく、あらかじめ決められている類似性の値(しきい値)よりも高い類似性を有する類似文書を選択してもよい。そのしきい値は、例えば、あらかじめ設定された値であってもよく、あるいは、得られた類似性に応じて定められてもよい。後者の場合には、例えば、しきい値は、類似性の最大値に0.9などの値をかけた値であってもよく(類似性の高い方が類似情報が大きくなる場合)、あるいは、類似性の0でない最小値に1.1などの値をかけた値であってもよい(類似性の高い方が類似情報が小さくなる場合)。選択部17が類似文書を選択するとは、例えば、選択した類似文書を識別する情報を図示しない記録媒体に蓄積することであってもよく、その選択した類似文書そのものを図示しない記録媒体に蓄積することであってもよく、あるいは、その選択した類似文書に対応付けてフラグ等を設定することであってもよい。
部分モデル生成部18は、選択部17が選択した類似文書のモデルである部分モデルを生成する。なお、本実施の形態では、部分モデル生成部18が、選択された類似文書の言語モデルである部分言語モデルを生成する場合について説明する。一方、実施の形態2では、部分モデル生成部18が、選択された類似文書と、その類似文書と対訳関係にある文書との翻訳モデルである部分翻訳モデルを生成する場合について説明する。言語モデルや翻訳モデルを生成する方法はすでに公知であり、その詳細な説明を省略する。
部分モデル蓄積部19は、部分モデル生成部18が生成した部分モデルを記録媒体に蓄積する。この記録媒体は、例えば、半導体メモリや、光ディスク、磁気ディスク等であり、部分モデル蓄積部19が有していてもよく、あるいは部分モデル蓄積部19の外部に存在してもよい。また、この記録媒体は、部分言語モデルを一時的に記憶するものであってもよく、そうでなくてもよい。なお、本実施の形態では、部分モデル蓄積部19が、部分モデル生成部18が生成した言語モデルである部分言語モデルを蓄積する場合について説明する。一方、実施の形態2では、部分モデル蓄積部19が、部分モデル生成部18が生成した翻訳モデルである部分翻訳モデルを蓄積する場合について説明する。
全体モデル生成部20は、コーパス記憶部14で記憶されているコーパスのモデルである全体モデルを生成し、後述する全体モデル記憶部21に蓄積する。なお、本実施の形態では、全体モデル生成部20が、コーパスの言語モデルである全体言語モデルを生成し、全体モデル記憶部21に蓄積する場合について説明する。一方、実施の形態2では、全体モデル生成部20が、コーパスの翻訳モデルである全体翻訳モデルを生成し、全体モデル記憶部21に蓄積する場合について説明する。言語モデルや翻訳モデルを生成する方法はすでに公知であり、その詳細な説明を省略する。
全体モデル記憶部21では、コーパス記憶部14で記憶されているコーパスのモデルである全体モデルが記憶される。本実施の形態では、全体モデルが、コーパスの言語モデルである全体言語モデルである場合について説明する。一方、実施の形態2では、全体モデルが、コーパスの翻訳モデルである全体翻訳モデルである場合について説明する。全体モデル記憶部21での記憶は、RAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。全体モデル記憶部21は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
線形補間部22は、部分モデル蓄積部19が蓄積した部分モデルと、全体モデル記憶部21で記憶されている全体モデルとを線形補間して補間モデルを生成する。本実施の形態では、部分言語モデルと、全体言語モデルとが線形補間されて補間言語モデルが生成される場合について説明する。実施の形態2では、部分翻訳モデルと、全体翻訳モデルとが線形補間されて補間翻訳モデルが生成される場合について説明する。
例えば、部分言語モデルにおいて、単語A,単語B,単語Cが、その順番で出現する3gram確率がP1であり、全体言語モデルにおいて、単語A,単語B,単語Cが、その順番で出現する3gram確率がP2であり、部分言語モデルに対する線形補間の重みがλであり、全体言語モデルに対する線形補間の重みが(1−λ)である場合には、線形補間後の補間言語モデルにおいて、単語A,単語B,単語Cが、その順番で出現する3gram確率Pは、次式のようになる
P=λ×P1+(1−λ)×P2
また、例えば、部分翻訳モデルにおいて、原言語の単語Aを目的言語の単語Bに翻訳する確率がP1であり、全体翻訳モデルにおいて、原言語の単語Aを目的言語の単語Bに翻訳する確率がP2であり、部分翻訳モデルに対する線形補間の重みがλであり、全体翻訳モデルに対する線形補間の重みが(1−λ)である場合には、線形補間後の補間翻訳モデルにおいて、原言語の単語Aを目的言語の単語Bに翻訳する確率Pは、次式のようになる。
P=λ×P1+(1−λ)×P2
なお、線形補間で用いられる重みを示す情報が図示しない記録媒体で記憶されており、線形補間部22は、その重みを示す情報を読み出して、線形補間の際に用いてもよい。
補間モデル出力部23は、線形補間部22が生成した補間モデル(本実施の形態では、補間言語モデルであり、実施の形態2では、補間翻訳モデルである)を出力する。ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。なお、補間モデル出力部23は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、補間モデル出力部23は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
なお、類語辞書記憶部12と、コーパス記憶部14と、部分モデル蓄積部19が部分モデルを蓄積する記録媒体と、全体モデル記憶部21との任意の2以上の記憶部や記録媒体は、同一の記録媒体によって実現されてもよく、あるいは、別々の記録媒体によって実現されてもよい。前者の場合には、例えば、類語辞書を記憶している領域が類語辞書記憶部12となり、コーパスを記憶している領域がコーパス記憶部14となる。
次に、本実施の形態による情報処理装置1の動作について、図2のフローチャートを用いて説明する。
(ステップS101)基準文書受付部11は、基準文書を受け付けたかどうか判断する。そして、基準文書を受け付けた場合には、ステップS102に進み、そうでない場合には、基準文書を受け付けるまでステップS101の処理を繰り返す。
(ステップS102)類語取得部13は、基準文書受付部11が基準文書を受け付けたことに伴って類語を取得する場合(すなわち、ステップS101からステップS102に進んだ場合)には、基準文書に含まれるキーワードの1または2以上の類語を取得する。また、類語取得部13は、類似文書が特定されたことに伴って類語を取得する場合(すなわち、ステップS104からステップS102に戻った場合)には、特定された類似文書のキーワードの類語を取得する。
(ステップS103)類似文書特定部15は、類語取得部13が取得した類語を含む文書である類似文書を特定する。一の類語を含む複数の類似文書が存在する場合には、類似文書特定部15は、その各類似文書を特定するものとする。また、ステップS102において、2以上の類語が取得された場合には、類似文書特定部15は、その各類語に対して、類似文書を特定する処理を行うものとする。
(ステップS104)類似文書特定部15は、類似文書の特定を終了するかどうか判断する。そして、終了する場合には、ステップS105に進み、そうでない場合には、ステップS102に戻る。なお、類似文書特定部15は、例えば、特定した類似文書の合計数があらかじめ決められた数を超えた場合に、類似文書の特定を終了すると判断してもよく、ステップS102からステップS104までのループをあらかじめ決められた数だけ回った場合(すなわち、基準文書を基準としてある類似文書が特定されるまでに取得された類語の数があらかじめ決められた数を超えた場合)に、類似文書の特定を終了すると判断してもよく、あるいは、その他の条件によって類似文書の特定を終了すると判断してもよい。
(ステップS105)類似情報算出部16は、類似文書特定部15が特定した各類似文書について、基準文書受付部11が受け付けた基準文書との類似情報を算出する。
(ステップS106)選択部17は、類似情報を用いて、基準文書との類似性の高い類似文書を選択する。選択部17は、例えば、類似情報算出部16が算出した類似情報と類似文書との対応についてソートを行い、類似性の高い方から所定数の類似文書を選択してもよく、所定のしきい値よりも類似性の高い類似情報に対応する類似文書の全てを選択してもよい。
(ステップS107)部分モデル生成部18は、選択部17が選択した類似文書のモデルである部分モデルを生成する。
(ステップS108)部分モデル蓄積部19は、部分モデル生成部18が生成した部分モデルを記録媒体に蓄積する。
(ステップS109)全体モデル生成部20は、コーパスのモデルである全体モデルを生成し、全体モデル記憶部21に蓄積する。
(ステップS110)線形補間部22は、部分モデル蓄積部19が蓄積した部分モデルと、全体モデル記憶部21で記憶されている全体モデルとを線形補間することにより、補間モデルを生成する。
(ステップS111)補間モデル出力部23は、線形補間部22が生成した補間モデルを出力する。そして、ステップS101に戻る。
なお、前述のように、本実施の形態では、部分モデルは、部分言語モデルであり、全体モデルは、全体言語モデルである。一方、実施の形態2では、部分モデルは、部分翻訳モデルであり、全体モデルは、全体翻訳モデルである。
また、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
また、図2のフローチャートにおいて、基準文書を受け付けた回数が2回目以上である場合などのように、すでに全体モデル記憶部21で全体モデルが記憶されている場合には、コーパスの内容が変わっていない限り、ステップS109の処理をスキップして、ステップS108からステップS110に進んでもよい。
次に、本実施の形態による情報処理装置1の実験例について説明する。まず、単純に言語モデルを生成した場合(以下、「言語モデル実験」とする)と、翻訳を行って目的言語の言語モデルを生成した場合(以下、「翻訳実験」とする)とについて説明する。
[言語モデル実験]
本実験では、テストセットの文書に類似する類似文書を用いて言語モデルのアダプテーションを行い、言語モデルの性能が向上することを確認する。
本実験では、コーパスに含まれる文書、及び基準文書として、Wikipedia(登録商標)の文書(この文書は、「記事」と呼ばれることもある)を用いた。すなわち、40万件程度のWikipedia(登録商標)の記事がコーパス記憶部14で記憶されている。また、各文書において、タイトルがキーワードであるとする。したがって、例えば、タイトル「形態素解析」と、形態素解析に関する説明文とによって、ひとつの文書が構成されることになる。
この実験では、そのコーパス記憶部14で記憶されているコーパスから、100個の文書をランダムに選択し、その選択した100個の文書をテストセットとした。したがって、このテストセットに含まれる各文書が基準文書である。本実験では、テストセットに含まれる各文書について、以下の処理を行った。
まず、その基準文書を情報処理装置1に入力すると、基準文書受付部11はその基準文書を受け付け、類語取得部13と類似情報算出部16とに渡した(ステップS101)。すると、類語取得部13は、基準文書のタイトルであるキーワードを取得し、そのタイトルの類語を取得し、その類語を類似文書特定部15に渡した(ステップS102)。本実験では、類語辞書を用いるのではなく、ウェブ上で提供されているサービスであるWikipedia−Lab Thesaurus(http://wikipedia−lab.org:8080/WikipediaThesaurusV2/)を用いてキーワードに対応する類語を取得した。類似文書特定部15は、受け取った類語がタイトルであるコーパスに含まれる文書である類似文書を特定した(ステップS103)。なお、この特定の際に、基準文書を特定しないようにする(この実験例では、評価を行うために基準文書を特定しないようにしたが、評価を行わないのであれば、基準文書を特定してもよい)。
この実験例では、特定した類似文書が2000個になるまで、処理を繰り返した。したがって、特定した類似文書が2000個に満たない場合には、類語取得部13は、1回目に特定した1または2以上の類似文書のタイトルであるキーワードの類語を取得する(ステップS102)。そして、類似文書特定部15は、その取得された類語がタイトルである類似文書を特定した(ステップS103)。なお、本実験では、類似文書特定部15が、同一の類似文書を2回以上特定することがないようにした。すなわち、特定された2000個の類似文書は、全て異なるものである。
2000個の類似文書が特定されると(ステップS104)、類似情報算出部16は、その2000個の類似文書と、基準文書との類似情報を算出した(ステップS105)。その類似情報として、ユークリッド距離、ピアソン距離、タニモト係数のそれぞれを算出した。そして、選択部17は、類似情報ごとに、類似度の高い方から1000個の類似文書を選択した(ステップS106)。
その後、部分モデル生成部18は、類似情報ごとの1000個の類似文書を用いて、部分言語モデルを生成し(ステップS107)、部分モデル蓄積部19が、それらの部分言語モデルを蓄積した(ステップS108)。すなわち、類似情報がユークリッド距離の場合の部分言語モデルと、類似情報がピアソン距離の場合の部分言語モデルと、類似情報がタニモト係数の場合の部分言語モデルとが蓄積されたことになる。なお、この部分モデル生成部18が生成した言語モデルは、5gramである。本実験で使用する全ての言語モデルは、5gramであるとする。また、この部分モデル生成部18は、SRIの言語モデルツールキット(SRILM−The SRI Language Modeling Toolkit、http://www.speech.sri.com/projects/srilm/)のngram−countを用いて言語モデルを生成した。
全体モデル生成部20は、コーパス記憶部14で記憶されている約40万件のWikipedia(登録商標)の文書を用いて、全体言語モデルを生成し、全体モデル記憶部21に蓄積した(ステップS109)。
その後、線形補間部22は、前述のλを0から1まで0.1ずつ変化させながら、3個の部分言語モデルと、全体言語モデルとの線形補間を行い(ステップS110)、補間モデル出力部23は、その線形補間後の補間言語モデルを図示しない記録媒体に蓄積した(ステップS111)。また、その補間言語モデルを用いて、基準文書のパープレキシティー(perplexity)を算出した。なお、本実験では、言語モデルの線形補間に、前述のSRIのngramを用いた。
なお、この一連の処理が、テストセットの各基準文書について行われることになる。本実験で用いた言語資源に関する情報は、図3で示されるとおりである。また、算出したパープレキシティーのテストセットでの平均値を求めてプロットしたものが図4で示されるグラフである。図4において、「線形補間の重み」は、前述のλである。したがって、線形補間の重みが「0」である場合には、補間言語モデルは、全体言語モデル(ベースライン)となり、線形補間の重みが「1」である場合には、補間言語モデルは、部分言語モデルとなる。図4を参照すれば、線形補間の重み=0.4で線形補間した場合に、補間言語モデルの精度が最も高くなることが分かる(パープレキシティーの値の低い方が、類似性が高く、よりよいモデルであることを示すことになる)。また、類似情報がタニモト係数である場合が、モデルの性能が最もよく、全体言語モデルと線形補間しない場合(重みが1.0の場合)でも、全体言語モデルと同等の性能が得られることが分かった。
[翻訳実験]
この翻訳実験では、機械翻訳の目的言語側の言語モデルのアダプテーションについての評価を行った。この場合には翻訳も行うため、情報処理装置1は、図5で示されるように、前述の各構成要素に加えて、翻訳前基準文書受付部31と、翻訳部32とをさらに備えている。
翻訳前基準文書受付部31は、第2言語(原言語)の文書であり、キーワードを含む文書である翻訳前基準文書を受け付ける。この翻訳前基準文書は、言語が異なる以外は、前述の基準文書と同様のものである。なお、この翻訳前基準文書は、これ自体がユーザの入力した文書であってもよく、あるいは、ユーザの入力した文書から抽出された名詞の集合である名詞群であってもよい。また、翻訳前基準文書受付部31は、翻訳全基準文書を受け付ける以外は、基準文書受付部11と同様のものである。
翻訳前基準文書受付部31は、例えば、入力デバイス(例えば、キーボードやマウス、タッチパネルなど)から入力された翻訳前基準文書を受け付けてもよく、有線もしくは無線の通信回線を介して送信された翻訳前基準文書を受信してもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された翻訳前基準文書を受け付けてもよい。なお、翻訳前基準文書受付部31は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、翻訳前基準文書受付部31は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
翻訳部32は、翻訳前基準文書受付部31が受け付けた第2言語の翻訳前基準文書を第1言語(目的言語)の文書に翻訳する。この翻訳は、例えば、機械翻訳であってもよく、翻訳前基準文書が名詞の集合である名詞群である場合には、辞書引きであってもよい。機械翻訳である場合には、統計的機械翻訳であってもよく、ルールベースの機械翻訳であってもよく、その他の機械翻訳であってもよい。また、辞書引きとは、互いに対訳関係にある第1言語の単語と第2言語の単語とを対応付ける辞書を用いて、一方の言語の単語を、他方の言語の単語に変換することである。
なお、この場合には、基準文書受付部11は、翻訳前基準文書受付部31が受け付けた翻訳前基準文書が翻訳部32によって翻訳された文書である基準文書を受け付けることになる。
また、図5で示される情報処理装置1の場合には、図6のフローチャートのように動作するものとする。図6のフローチャートにおいて、ステップS201〜S203以外の処理は、図2のフローチャートと同様であり、その説明を省略する。
(ステップS201)翻訳前基準文書受付部31は、翻訳前基準文書を受け付けたかどうか判断する。そして、翻訳前基準文書を受け付けた場合には、ステップS202に進み、そうでない場合には、翻訳前基準文書を受け付けるまでステップS201の処理を繰り返す。
(ステップS202)翻訳部32は、翻訳前基準文書受付部31が受け付けた第1言語の翻訳前基準文書を、第2言語の文書に翻訳する。この翻訳後の文書が基準文書である。
(ステップS203)基準文書受付部11は、翻訳部32が翻訳した文書である基準文書を受け付ける。
次に、本実験について説明する。本実験でも、Wikipedia(登録商標)の記事を用いた。すなわち、前述の実験と同様に、約40万件のWikipedia(登録商標)の記事がコーパス記憶部14で記憶されている。また、その記事のうちの一部が対訳済みであり、その対訳済みの記事をテストセットとして用いた。
まず、全体モデル生成部20が、コーパス記憶部14で記憶されているコーパスを用いて全体言語モデルを生成し、全体モデル記憶部21に蓄積したとする。また、Wikipedia(登録商標)の記事から作られた日英対訳コーパス(この対訳コーパスでは、文単位でのアライメントが取られている)を用いて翻訳モデルを生成し、図示しない記録媒体に蓄積した。そして、テストセットの英語の記事を翻訳前基準文書として情報処理装置1に入力した。すると、翻訳前基準文書受付部31は、その翻訳前基準文書を受け付け(ステップS201)、翻訳部32に渡す。翻訳部32は、図示しない経路を介して全体モデル記憶部21で記憶されている全体言語モデルと、図示しない記録媒体で記憶されている翻訳モデルとを読み出し、それらを用いて翻訳前基準文書に対して統計的機械翻訳を行い、基準文書受付部11に渡した(ステップS202)。この統計的機械翻訳のツールとしては、Cleopatra(ATRが作成したデコーダ)を用いた。
基準文書受付部11は、翻訳後の文書である基準文書を受け付けると(ステップS203)、その基準文書を類語取得部13と類似情報算出部16とに渡した。なお、本実験では、翻訳のノイズが多いため、タイトルをキーワードとして用いるのではなく、基準文書に含まれる名詞のうち、頻度の上位から5個の名詞をキーワードとして用いた。したがって、類語取得部13は、基準文書について形態素解析を行い、品詞が名詞(なお、固有名詞等の不適切な名詞は除いた)である形態素を頻度の降順に並べ、上位から5個の名詞を取得した。そして、類語取得部13は、前述の実験と同様にウェブ上で提供されているサービスを用いることによって取得した名詞の類語を取得し、その類語を類似文書特定部15に渡した(ステップS102)。この後、類似文書が2000個特定され、それらについて、基準文書との類似情報が算出され、類似文書が選択された処理は、前述の言語モデル実験の場合と同様であり、その説明を省略する。なお、本実験でも、類似情報の計算を、ユークリッド距離、ピアソン距離、タニモト係数のそれぞれを用いて行った。また、前述の実験結果から、線形補間の重みが「0.4」である場合の性能が最もよいことがわかっているため、本実験では、線形補間を行う場合には、その重みを「0.4」に設定した。
また、線形補間した補間言語モデルと、線形補間していない全体言語モデル、部分言語モデルを用いて、再度、テストセットに対して統計的機械翻訳を行った。なお、この際に用いる翻訳モデルは、翻訳前基準文書の翻訳で用いたものと同じものである。そして、その翻訳結果に対して自動評価を行った。このたび用いた対訳テストセットについての情報は、図7で示されるとおりである。また、自動評価を行ったBLUEとNISTの結果は、図8で示されるとおりであり、全指標の自動評価のランキングは、図9で示されるとおりである。図9では、評価値そのものを示しているのではなく、評価値の順序を示している。なお、ベースライン言語モデルとは、全体言語モデルのことである。図8、図9から、例えば、NISTでは、類似情報がタニモト係数であり、線形補間の重みを0.4とした場合が、もっとも評価値のよいことがわかる。また、図9の結果から、類似情報をピアソン距離やタニモト係数として、線形補間の重みを0.4または1.0とした場合には、ベースライン言語モデルよりも訳質がよいこと、すなわち、補間言語モデルあるいは部分言語モデルのほうが全体言語モデルよりも性能が高いことがわかる。
以上のように、本実施の形態による情報処理装置1によれば、基準文書に類似する類似文書を選択し、その選択した類似文書を用いて言語モデルを生成することによって、基準文書の分野における性能の高い言語モデルを得ることができることが分かった。特に、言語モデル実験によって、計算量の少ないタニモト係数を類似情報として用いた場合には、部分言語モデルと全体言語モデルとの補間を行わなくても、部分言語モデルのみによって全体言語モデルと同程度の性能を実現できることが分かった。したがって、その場合には、全体言語モデルよりも規模の小さいモデルである部分言語モデルを全体言語モデルの代わりに使用することができ、言語モデルを用いた計算を行う際の処理負荷が軽くなるメリットが得られる。また、全体言語モデルと部分言語モデルとを補間した場合には、全体言語モデルよりも性能がよくなっていることが分かる。その場合に、部分言語モデルの割合が9割以下であること(すなわち、線形補間の際の部分言語モデルの重みが0.9より小さく、全体言語モデルの重みが0.1より大きいこと)が好適である。また、翻訳実験によって、基準文書に類似する類似文書を選択することによって生成された部分言語モデルを使用することは、統計的機械翻訳においても有効であることが確かめられた。
また、本実施の形態による情報処理装置1では、類似情報の算出時に、基準文書と類似文書との類似性に関する情報を算出するため、コーパスから生成された言語モデルを用いてパープレキシティーを算出するなどの処理を行う必要がない。そのため、類似情報の算出の負荷が、コーパスを用いて類似情報を算出する場合に比べて軽いものとなり、容易に部分言語モデルを生成することができるようになる。
また、本実施の形態による情報処理装置1では、処理を行いたい分野から選択した一の文書を基準文書として用いることによって、その分野に適した部分モデル等を生成することができるようになる。その分野は、例えば、経済分野や、政治分野、特定の技術分野、特定の文化の分野など、どのような分野であってもよい。
なお、本実施の形態による情報処理装置1によって生成された補間言語モデルをどのように用いてもよいことは言うまでもない。例えば、形態素解析に用いてもよく、統計的機械翻訳に用いてもよく、音声認識等に用いてもよい。
(実施の形態2)
本発明の実施の形態2による情報処理装置について説明する。本実施の形態による情報処理装置は、対訳コーパスを用いて翻訳モデルを生成するものである。
本実施の形態による情報処理装置の構成も、以下に説明する差異以外は、実施の形態1の図1または図5で示される情報処理装置1の構成と同様であるとする。ただし、コーパス記憶部14で記憶されているコーパスは、対訳関係にある第1言語の文書と第2言語の文書とを対応付けるものである。また、基準文書、類似文書は、第1言語の文書であるとする。また、部分モデル生成部18は、選択部17が選択した第1言語の類似文書と、その第1言語の類似文書と対訳関係にある第2言語の文書であって、コーパス記憶部14で記憶されているコーパスの有する文書との翻訳モデルである部分翻訳モデルを生成する。また、部分モデル蓄積部19は、部分モデル生成部18が生成した部分翻訳モデルを記録媒体に蓄積する。また、全体モデル生成部20は、コーパス記憶部14で記憶されているコーパスの翻訳モデルである全体翻訳モデルを生成し、全体モデル記憶部21に蓄積する。したがって、全体モデル記憶部21では、コーパス記憶部14で記憶されているコーパスの翻訳モデルである全体翻訳モデルが記憶されることになる。また、線形補間部22は、部分翻訳モデルと、全体翻訳モデルとを線形補間して補間翻訳モデルを生成する。また、補間モデル出力部23は、線形補間部22が生成した補間翻訳モデルを出力する。ここで、第1言語と第2言語とは異なる言語であり、それらの言語の種類は問わない。第1言語や第2言語は、例えば、日本語や英語、フランス語、ドイツ語、中国語、ロシア語などであってもよい。
また、本実施の形態による情報処理装置1の動作は、図2または図6のフローチャートと同様であり、その説明を省略する。ただし、図1で示される情報処理装置1の場合には、基準文書が受け付けられ、その基準文書と同じ言語である類似文書の特定や選択が行われることによって、部分翻訳モデルが生成されることになる。一方、図5で示される情報処理装置1の場合には、翻訳前基準文書が受け付けられ、その翻訳前基準文書と異なる言語である類似文書の特定や選択が行われることによって、部分翻訳モデルが生成されることになる。
なお、その両方の手法を用いて部分翻訳モデルを生成してもよい。例えば、図1において、基準文書受付部11は、対訳関係にある第1言語の基準文書と、第2言語の基準文書とを受け付けてもよい。この場合には、類語取得部13は、第1言語の基準文書に含まれるキーワードの第1言語の類語を取得すると共に、第2言語の基準文書に含まれるキーワードの第2言語の類語をも取得する。また、類似文書特定部15は、第1言語の類語を用いた類似文書の特定を行うと共に、第2言語の類語を用いた類似文書の特定をも行う。また、類似情報算出部は、第1言語の類似文書と第1言語の基準文書との類似情報を算出すると共に、第2言語の類似文書と第2言語の基準文書との類似情報を算出する。そして、選択部17は、それらの類似情報を用いて、第1言語の基準文書と類似性の高い第1言語の類似文書を選択すると共に、第2言語の基準文書と類似性の高い第2言語の類似文書をも選択する。この選択の際には、例えば、選択部17は、第1言語での類似情報と、第2言語での類似情報との両方をマージして、類似性の高い類似文書を選択してもよく、または、第1言語での類似情報を用いた選択と、第2言語での類似情報を用いた選択とのそれぞれを別個に行ってもよい。前者の場合には、選択された第1言語の類似文書と、第2言語の類似文書との比率は分からないが、後者の場合には、第1言語の類似文書の選択数と、第2言語の類似文書の選択数とを同じにしておくことによって、両者を同じ比率にすることも可能である。また、この選択の際には、互いに対訳関係にある第1言語の類似文書と、第2言語の類似文書とをそれぞれ選択してしまう可能性もある。したがって、例えば、1000個の類似文書を選択したとしても、翻訳コーパスを生成する際に用いられる対訳関係にある文書の対は1000個よりも少なくなってしまう場合がありうる。そのようにならないようにするために、選択部17は、まず、コーパス記憶部14で記憶されている対訳関係にある文書の対に対して、算出された類似情報を対応付ける処理を行い、2個の類似情報が対応付けられた文書の対に対しては、1個の類似情報のみとなるように類似情報を変更してもよい。この類似情報の変更の方法は、例えば、2個の類似情報のうち、類似性の高い類似情報に変更することでもよく、類似性の低い類似情報に変更することでもよく、あるいは、両類似情報の類似性が中間となるように類似情報を変更すること(例えば、類似情報の平均を取ること)でもよい。そして、その変更後の類似情報を用いて文書の対の選択を行い、その選択された文書の対を用いて部分翻訳モデルを生成するようにしてもよい。
以上のように、本実施の形態による情報処理装置1によれば、実施の形態1の情報処理装置1と同様に、より性能の高い部分翻訳モデルを生成することができ、結果として、よりよい性能の補間翻訳モデルを生成することができる。したがって、その補間翻訳モデルを用いることによって、翻訳の精度がより向上すると考えられる。
なお、上記各実施の形態において、情報処理装置1は、全体モデル生成部20を備えていなくてもよい。その場合には、例えば、情報処理装置1の外部で全体言語モデルや全体翻訳モデルなどの全体モデルが生成され、全体モデル記憶部21に蓄積されてもよい。その場合に、全体モデルが全体モデル記憶部21で記憶されるようになる過程は問わない。
また、上記各実施の形態において、線形補間を行わなくてもよい。線形補間を行わない場合には、情報処理装置1は、全体モデル生成部20や、全体モデル記憶部21、線形補間部22、補間モデル出力部23を備えていなくてもよい。その場合には、部分モデル蓄積部19が蓄積した部分言語モデルや部分翻訳モデルなどの部分モデルが情報処理装置1の外部で用いられることによって、補間言語モデルや補間翻訳モデルなどの補間モデルが生成されてもよい。したがって、その場合には、情報処理装置1は、部分モデルを出力する図示しない部分モデル出力部を備えていてもよい。
また、上記各実施の形態において、部分モデルの生成を行わなくてもよい。部分モデルの生成を行わない場合には、情報処理装置1は、部分モデル生成部18や、部分モデル蓄積部19、全体モデル生成部20、全体モデル記憶部21、線形補間部22、補間モデル出力部23を備えていなくてもよい。その場合には、選択部17の選択した類似文書が情報処理装置1の外部で用いられることによって、部分言語モデルや部分翻訳モデルなどの部分モデルが生成されてもよい。したがって、その場合には、情報処理装置1は、選択結果を示す情報を出力する選択結果出力部を備えていてもよい。ここで、選択結果を示す情報は、例えば、選択された類似文書そのものであってもよく、選択された類似文書を識別する情報であってもよい。
また、上記各実施の形態による情報処理装置1では、1個の基準文書を用いて部分モデル等を生成する場合について説明したが、2個以上の基準文書を用いて部分モデル等を生成してもよい。例えば、2個以上の基準文書を用いる場合には、それらの基準文書ごとに前述のようにして類似文書の特定や、類似情報の算出を行い、それらの類似文書をまとめた上で、類似文書の選択を行ってもよい。このようにすることで、複数の分野にまたがる部分モデル等を生成することも可能となりうる。
また、上記各実施の形態において、コーパス、文書、基準文書、翻訳前基準文書、類似文書、部分言語モデル、部分翻訳モデル、部分モデル、全体言語モデル、全体翻訳モデル、全体モデル、補間言語モデル、補間翻訳モデル、補間モデル等は、本来は、コーパスの情報、文書の情報、基準文書の情報などと記載すべきであるが、単に、コーパス等と記載した。
また、上記実施の形態では、情報処理装置1がスタンドアロンである場合について説明したが、情報処理装置は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、出力部や受付部は、通信回線を介して入力を受け付けたり、情報を出力したりしてもよい。
また、上記実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。
また、上記実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりした情報や、各構成要素が処理で用いるしきい値や数式、アドレス等の情報等は、上記説明で明記していない場合であっても、図示しない記録媒体において、一時的に、あるいは長期にわたって保持されていてもよい。また、その図示しない記録媒体への情報の蓄積を、各構成要素、あるいは、図示しない蓄積部が行ってもよい。また、その図示しない記録媒体からの情報の読み出しを、各構成要素、あるいは、図示しない読み出し部が行ってもよい。
また、上記実施の形態において、各構成要素等で用いられる情報、例えば、各構成要素が処理で用いるしきい値やアドレス、各種の設定値等の情報がユーザによって変更されてもよい場合には、上記説明で明記していない場合であっても、ユーザが適宜、それらの情報を変更できるようにしてもよく、あるいは、そうでなくてもよい。それらの情報をユーザが変更可能な場合には、その変更は、例えば、ユーザからの変更指示を受け付ける図示しない受付部と、その変更指示に応じて情報を変更する図示しない変更部とによって実現されてもよい。その図示しない受付部による変更指示の受け付けは、例えば、入力デバイスからの受け付けでもよく、通信回線を介して送信された情報の受信でもよく、所定の記録媒体から読み出された情報の受け付けでもよい。
また、上記実施の形態において、情報処理装置1に含まれる2以上の構成要素が通信デバイスや入力デバイス等を有する場合に、2以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。
また、上記実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、キーワードを含む文書である基準文書を受け付ける基準文書受付部、前記基準文書受付部が受け付けた基準文書に含まれるキーワードの類語を取得する類語取得部、2以上の文を少なくとも含む文書を複数有するコーパスが記憶されるコーパス記憶部で記憶されているコーパスの有する文書であって、前記類語取得部が取得した類語を含む文書である類似文書を特定する類似文書特定部、前記類似文書と前記基準文書との類似性に関する情報である類似情報を算出する類似情報算出部、前記類似情報を用いて、前記基準文書と類似性の高い類似文書を選択する選択部、として機能させるためのプログラムである。
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を受け付ける受付部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。
また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
図10は、上記プログラムを実行して、上記実施の形態による情報処理装置1を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。
図10において、コンピュータシステム900は、CD−ROM(Compact Disk Read Only Memory)ドライブ905、FD(Floppy(登録商標) Disk)ドライブ906を含むコンピュータ901と、キーボード902と、マウス903と、モニタ904とを備える。
図11は、コンピュータシステム900の内部構成を示す図である。図11において、コンピュータ901は、CD−ROMドライブ905、FDドライブ906に加えて、MPU(Micro Processing Unit)911と、ブートアッププログラム等のプログラムを記憶するためのROM912と、MPU911に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)913と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク914と、MPU911、ROM912等を相互に接続するバス915とを備える。なお、コンピュータ901は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。
コンピュータシステム900に、上記実施の形態による情報処理装置1の機能を実行させるプログラムは、CD−ROM921、またはFD922に記憶されて、CD−ROMドライブ905、またはFDドライブ906に挿入され、ハードディスク914に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ901に送信され、ハードディスク914に記憶されてもよい。プログラムは実行の際にRAM913にロードされる。なお、プログラムは、CD−ROM921やFD922、またはネットワークから直接、ロードされてもよい。
プログラムは、コンピュータ901に、上記実施の形態による情報処理装置1の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム900がどのように動作するのかについては周知であり、詳細な説明は省略する。
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上より、本発明による情報処理装置等によれば、軽い処理によって基準文書に対応したモデルを生成することができ、言語モデルや翻訳モデルを生成するシステム等として有用である。
本発明の実施の形態1による情報処理装置の構成を示すブロック図 同実施の形態による情報処理装置の動作を示すフローチャート 同実施の形態における実験で用いる言語資源の一例を示す図 同実施の形態における実験結果の一例を示す図 同実施の形態による情報処理装置の構成を示すブロック図 同実施の形態による情報処理装置の動作を示すフローチャート 同実施の形態における実験で用いる言語資源の一例を示す図 同実施の形態における実験結果の一例を示す図 同実施の形態における実験結果の一例を示す図 同実施の形態におけるコンピュータシステムの外観一例を示す模式図 同実施の形態におけるコンピュータシステムの構成の一例を示す図
符号の説明
1 情報処理装置
11 基準文書受付部
12 類語辞書記憶部
13 類語取得部
14 コーパス記憶部
15 類似文書特定部
16 類似情報算出部
17 選択部
18 部分モデル生成部
19 部分モデル蓄積部
20 全体モデル生成部
21 全体モデル記憶部
22 線形補間部
23 補間モデル出力部
31 翻訳前基準文書受付部
32 翻訳部

Claims (14)

  1. キーワードを含む文書である基準文書を受け付ける基準文書受付部と、
    前記基準文書受付部が受け付けた基準文書に含まれるキーワードの類語を取得する類語取得部と、
    2以上の文を少なくとも含む文書を複数有するコーパスが記憶されるコーパス記憶部と、
    前記コーパスの有する文書であって、前記類語取得部が取得した類語を含む文書である類似文書を特定する類似文書特定部と、
    前記類似文書と前記基準文書との類似性に関する情報である類似情報を算出する類似情報算出部と、
    前記類似情報を用いて、前記基準文書と類似性の高い類似文書を選択する選択部と、を備えた情報処理装置。
  2. 前記選択部が選択した類似文書の言語モデルである部分言語モデルを生成する部分モデル生成部と、
    前記部分モデル生成部が生成した部分言語モデルを蓄積する部分モデル蓄積部と、をさらに備えた、請求項1記載の情報処理装置。
  3. 前記コーパス記憶部で記憶されているコーパスの言語モデルである全体言語モデルが記憶される全体モデル記憶部と、
    前記部分モデル蓄積部が蓄積した部分言語モデルと、前記全体モデル記憶部で記憶されている全体言語モデルとを線形補間して補間言語モデルを生成する線形補間部と、
    前記線形補間部が生成した補間言語モデルを出力する補間モデル出力部と、をさらに備えた、請求項2記載の情報処理装置。
  4. 前記コーパス記憶部で記憶されているコーパスの言語モデルである全体言語モデルを生成し、前記全体モデル記憶部に蓄積する全体モデル生成部をさらに備えた、請求項3記載の情報処理装置。
  5. 前記コーパス記憶部で記憶されているコーパスは、対訳関係にある第1言語の文書と第2言語の文書とを対応付けるコーパスであり、
    前記基準文書、前記類似文書は、第1言語の文書である、請求項1記載の情報処理装置。
  6. 第2言語の文書であり、キーワードを含む文書である翻訳前基準文書を受け付ける翻訳前基準文書受付部と、
    前記翻訳前基準文書受付部が受け付けた翻訳前基準文書を第1言語の文書に翻訳する翻訳部と、をさらに備え、
    前記基準文書受付部は、前記翻訳前基準文書が翻訳された文書である基準文書を受け付ける、請求項5記載の情報処理装置。
  7. 前記選択部が選択した第1言語の類似文書と、当該第1言語の類似文書と対訳関係にある第2言語の文書であって、前記コーパス記憶部で記憶されているコーパスの有する文書との翻訳モデルである部分翻訳モデルを生成する部分モデル生成部と、
    前記部分モデル生成部が生成した部分翻訳モデルを蓄積する部分モデル蓄積部と、をさらに備えた、請求項5または請求項6記載の情報処理装置。
  8. 前記コーパス記憶部で記憶されているコーパスの翻訳モデルである全体翻訳モデルが記憶される全体モデル記憶部と、
    前記部分モデル蓄積部が蓄積した部分翻訳モデルと、前記全体モデル記憶部で記憶されている全体翻訳モデルとを線形補間して補間翻訳モデルを生成する線形補間部と、
    前記線形補間部が生成した補間翻訳モデルを出力する補間モデル出力部と、をさらに備えた、請求項7記載の情報処理装置。
  9. 前記コーパス記憶部で記憶されているコーパスの翻訳モデルである全体翻訳モデルを生成し、前記全体モデル記憶部に蓄積する全体モデル生成部をさらに備えた、請求項8記載の情報処理装置。
  10. 前記コーパスの有する文書は、キーワードを含むものであり、
    前記類似文書特定部は、前記類語取得部が取得した類語がキーワードに含まれる文書である類似文書を特定する、請求項1から請求項9のいずれか記載の情報処理装置。
  11. 前記コーパスの有する文書が含むキーワードは、当該文書のタイトルである、請求項10記載の情報処理装置。
  12. 前記類語取得部は、前記類似文書特定部が特定した類似文書のキーワードの類語をも取得し、
    前記類似文書特定部は、前記類語取得部が取得した、類似文書のキーワードの類語がキーワードに含まれる文書である類似文書をも特定する、請求項10または請求項11記載の情報処理装置。
  13. 基準文書受付部と、類語取得部と、2以上の文を少なくとも含む文書を複数有するコーパスが記憶されるコーパス記憶部と、類似文書特定部と、類似情報算出部と、選択部とを用いて処理する情報処理方法であって、
    前記基準文書受付部が、キーワードを含む文書である基準文書を受け付ける基準文書受付ステップと、
    前記類語取得部が、前記基準文書受付ステップで受け付けた基準文書に含まれるキーワードの類語を取得する類語取得ステップと、
    前記類似文書特定部が、前記コーパスの有する文書であって、前記類語取得ステップで取得した類語を含む文書である類似文書を特定する類似文書特定ステップと、
    前記類似情報算出部が、前記類似文書と前記基準文書との類似性に関する情報である類似情報を算出する類似情報算出ステップと、
    前記選択部が、前記類似情報を用いて、前記基準文書と類似性の高い類似文書を選択する選択ステップと、を備えた情報処理方法。
  14. コンピュータを、
    キーワードを含む文書である基準文書を受け付ける基準文書受付部、
    前記基準文書受付部が受け付けた基準文書に含まれるキーワードの類語を取得する類語取得部、
    2以上の文を少なくとも含む文書を複数有するコーパスが記憶されるコーパス記憶部で記憶されているコーパスの有する文書であって、前記類語取得部が取得した類語を含む文書である類似文書を特定する類似文書特定部、
    前記類似文書と前記基準文書との類似性に関する情報である類似情報を算出する類似情報算出部、
    前記類似情報を用いて、前記基準文書と類似性の高い類似文書を選択する選択部、として機能させるためのプログラム。
JP2008266204A 2008-10-15 2008-10-15 情報処理装置、情報処理方法、及びプログラム Pending JP2010097318A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008266204A JP2010097318A (ja) 2008-10-15 2008-10-15 情報処理装置、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008266204A JP2010097318A (ja) 2008-10-15 2008-10-15 情報処理装置、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2010097318A true JP2010097318A (ja) 2010-04-30

Family

ID=42258967

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008266204A Pending JP2010097318A (ja) 2008-10-15 2008-10-15 情報処理装置、情報処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2010097318A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015184749A (ja) * 2014-03-20 2015-10-22 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015184749A (ja) * 2014-03-20 2015-10-22 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Similar Documents

Publication Publication Date Title
JP5106636B2 (ja) テキストセグメントを有する文書から用語を抽出するためのシステム
EP3016002A1 (en) Non-factoid question-and-answer system and method
JP2006252382A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US8204736B2 (en) Access to multilingual textual resources
US20050273316A1 (en) Apparatus and method for translating Japanese into Chinese and computer program product
JP2009217689A (ja) 情報処理装置、情報処理方法、及びプログラム
Radoev et al. A language adaptive method for question answering on French and English
WO2010109594A1 (ja) 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法
JP5331023B2 (ja) 重要語抽出装置、重要語抽出方法及び重要語抽出プログラム
JP4945015B2 (ja) 文書検索システム、文書検索プログラム、および文書検索方法
JP2010204864A (ja) 情報処理装置及び不満解決商品発見方法及びプログラム
JP6106489B2 (ja) 語義解析装置、及びプログラム
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
JP2007164635A (ja) 同義語彙獲得方法及び装置及びプログラム
JP5499546B2 (ja) 重要語抽出方法、装置、プログラム、記録媒体
JP3937741B2 (ja) 文書の標準化
JP2010097318A (ja) 情報処理装置、情報処理方法、及びプログラム
JP2009265770A (ja) 重要文提示システム
Oostdijk et al. Constructing a broad-coverage lexicon for text mining in the patent domain
JP2006190072A (ja) 自動換言装置、自動換言方法及び換言処理プログラム
JP2008276561A (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JP2007148630A (ja) 特許分析装置、特許分析システム、特許分析方法およびプログラム
JP2012243130A (ja) 情報検索装置、方法、及びプログラム
JP2004178351A (ja) 数量表現検索装置