JP4087829B2 - 結合価辞書拡張装置、方法、およびプログラム - Google Patents

結合価辞書拡張装置、方法、およびプログラム Download PDF

Info

Publication number
JP4087829B2
JP4087829B2 JP2004289788A JP2004289788A JP4087829B2 JP 4087829 B2 JP4087829 B2 JP 4087829B2 JP 2004289788 A JP2004289788 A JP 2004289788A JP 2004289788 A JP2004289788 A JP 2004289788A JP 4087829 B2 JP4087829 B2 JP 4087829B2
Authority
JP
Japan
Prior art keywords
natural language
dictionary
combination
valence
heading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004289788A
Other languages
English (en)
Other versions
JP2006106926A (ja
Inventor
早苗 藤田
フランシス・ボンド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004289788A priority Critical patent/JP4087829B2/ja
Publication of JP2006106926A publication Critical patent/JP2006106926A/ja
Application granted granted Critical
Publication of JP4087829B2 publication Critical patent/JP4087829B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、自然言語処理技術に関し、特に自然言語処理で用いられる、格フレーム情報や選択制限情報を持つ結合価辞書を拡張する辞書拡張技術に関する。
近年、インターネットの発達やコンピュータなどの計算機の普及が進み、自然言語で書かれた電子化文書が大量に流通するようになっている。これに伴い、これら電子化文書を計算機で解析し、自動要約、機械翻訳、情報検索などの情報処理を行ったり、あるいは電子化文書を計算機で生成するといった需要が増加している。
こうした自然言語で書かれた電子化文書についての情報処理すなわち自然言語処理を行う場合、語と語の対応関係だけでなく、用言が要求する格要素に関する格フレーム情報などの詳細な情報を持つ結合価辞書が用いられる。この結合価辞書とは、例えば動詞や形容詞などの述語がどのような主語や目的語をとるかという知識構造情報を、格フレーム情報として用言ごとに記述したものである。
したがって、精度の高い自然言語処理を行うには、多くの用言に関するフレーム情報を持つ大規模で品質のよい結合価辞書が必要となり、こうした結合価辞書の効率的な作成が求められている。
品質のよい結合価辞書を得るには人手による作成がよいと云われているが(例えば、非特許文献1など参照)、作業量が膨大となるため、結合価辞書を人手で作成するにはコストと人手と時間が非常にかかる。特に、精度の高い自然言語処理を行うためには、結合価辞書に付与する情報量も増大するため、なるべく人手を介さず自動的に、あるいは半自動的に品質のよい結合価辞書を作成することが望まれる。
結合価辞書の自動的な作成方法としてコーパス(corpus)を利用する方法がある。コーパスとは、電子化文書のことである。従来、コーパスを利用する方法としては、コーパスを構文解析して用言と格要素との間の関係を取り出し、用言と格要素の組合せを学習し、さらに格要素をシソーラス(thesaurus)などを用いて一般化し、各用言に対する格フレーム情報として取得する等の方法が提案されている(例えば、非特許文献2など参照)。
なお、出願人は、本明細書に記載した先行技術文献情報で特定される先行技術文献以外には、本発明に関連する先行技術文献を出願時までに発見するには至らなかった。
白井ら,「日英機械翻訳に必要な結合価パターン対の数とその収集方法」,情報処理学会研究報告,自然言語処理研究会,95-NL-110-7,pp.43-50 河原、黒橋,「用言の直前の各要素の組を単位とする格フレームの自動構築」,自然言語処理,2002,Vol.9,No.1,p.3-20 Ann Copestake,"Implementing Typed Feature Structure Grammars",2002,CSLI Publications
しかしながら、このような従来技術では、結合価辞書を完全に自動構築した場合、その品質が保証できないという問題がある。
一般に、完全に自動構築した結合価辞書の精度の上限は約80%であると云われており(例えば、非特許文献3など参照)、実用に耐え得る高品質な結合価辞書を作成することは困難である。
また、機械翻訳や多言語検索などに利用するために、2言語の結合価情報を持ち、各言語間に対応関係を示すリンクがあるような結合価辞書を構築したい場合、コーパス利用を前提とする従来技術では対応できないという問題点がある。
本発明はこのような課題を解決するためのものであり、大規模な結合価辞書を実用に耐え得る高い品質で効率的に拡張することができる結合価辞書拡張装置、方法、およびプログラムを提供することを目的としている。
このような目的を達成するために、本発明にかかる結合価辞書拡張装置は、自然言語で用いられる用言ごとに当該用言の知識構造を示す格フレーム情報をレコードとして持つ結合価辞書を記憶する記憶部と、この記憶部から結合価辞書を読み出して情報処理することにより当該結合価辞書を拡張する演算処理部とを有する結合価辞書拡張装置であって、記憶部に、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報とを含むレコードを有する結合価辞書と、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しと、当該用言に関する第1自然言語とは異なる第2自然言語の対訳表現とを含むレコードを有する第1自然言語対第2自然言語対訳辞書と、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しと、当該用言に関する第1自然言語および第2自然言語とは異なる中間自然言語の対訳表現とを含むレコードを有する第1自然言語対中間自然言語対訳辞書とを記憶し、演算処理部に、第1自然言語対第2自然言語対訳辞書に基づいて、同一第2自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せから第1自然言語組合せリスト1を作成する第1自然言語組合せリスト1作成部と、第1自然言語対中間自然言語対訳辞書に基づいて、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2を作成する第1自然言語組合せリスト2作成部と、第1自然言語組合せリスト1の組合せのうち、いずれか一方の見出しについてのみ当該見出しを持つレコードが結合価辞書に登録されている組合せを辞書拡張候補として抽出する対象第1自然言語抽出部と、辞書拡張候補として抽出された組合せのうち第1自然言語組合せリスト2に登録されている組合せを辞書拡張対象として選択する第1自然言語組合せリスト2検索部と、辞書拡張対象として選択された組合せについて、当該組合せの一方の見出しを持つレコードを結合価辞書から複写元エントリとして取得して、この複写元エントリに含まれる第1自然言語の見出しを組合せの他方の見出しで置換することにより新たなレコードを作成し、この新たなレコードを結合価辞書へ追加登録する辞書拡張管理部とを備えている。
この際、記憶部で、第1自然言語対中間自然言語対訳辞書として、互いに異なる複数の中間言語に関する第1自然言語対中間自然言語対訳辞書をそれぞれ記憶し、第1自然言語組合せリスト2作成部で、各第1自然言語対中間自然言語対訳辞書ごとに、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2をそれぞれ作成し、第1自然言語組合せリスト2検索部で、辞書拡張候補として抽出された組合せのうち各第1自然言語組合せリスト2のいずれかに登録されている組合せを辞書拡張対象として選択するようにしてもよい。
あるいは、記憶部で、第1自然言語対中間自然言語対訳辞書として、互いに異なる複数の中間言語に関する第1自然言語対中間自然言語対訳辞書をそれぞれ記憶し、第1自然言語組合せリスト2作成部で、各第1自然言語対中間自然言語対訳辞書ごとに、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2をそれぞれ作成し、と第1自然言語組合せリスト2検索部で、辞書拡張候補として抽出された組合せのうち各第1自然言語組合せリスト2のすべてに登録されている組合せを辞書拡張対象として選択するようにしてもよい。
また、結合価辞書が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報と第2自然言語の見出しとを含むレコードを有し、第1自然言語組合せリスト1作成部で、第1自然言語組合せリスト1を作成する際、結合価辞書のレコードごとに、当該レコードの第1自然言語の見出しと、第1自然言語対第2自然言語対訳辞書のうち当該レコードの第2自然言語の見出しを持つレコードの第1自然言語の見出しとの組合せから第1自然言語組合せリスト1を作成するようにしてもよい。
また、結合価辞書が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報と第2自然言語の見出しとを含むレコードを有し、第1自然言語組合せリスト1作成部で、第1自然言語組合せリスト1を作成する際、2つの見出しと当該第2自然言語の見出しとから第1自然言語組合せリスト1を作成し、辞書拡張管理部で、結合価辞書から複写元エントリを取得する際、辞書拡張対象として選択された組合せについて、当該組合せの一方の見出しと第2自然言語の見出しとを持つレコードを結合価辞書から複写元エントリとして取得するようにしてもよい。
また、本発明にかかる結合価辞書拡張方法は、自然言語で用いられる用言ごとに当該用言の知識構造を示す格フレーム情報をレコードとして持つ結合価辞書を記憶する記憶部と、この記憶部から結合価辞書を読み出して情報処理することにより当該結合価辞書を自動的に拡張する演算処理部とを有する辞書拡張装置が、演算処理部で結合価辞書を自動的に拡張する結合価辞書拡張方法であって、記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報とを含むレコードを有する結合価辞書を記憶する結合価辞書記憶ステップと、記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しと、当該用言に関する第1自然言語とは異なる第2自然言語の対訳表現とを含むレコードを有する第1自然言語対第2自然言語対訳辞書を記憶する第1自然言語対第2自然言語対訳辞書記憶ステップと、記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しと、当該用言に関する第1自然言語および第2自然言語とは異なる中間自然言語の対訳表現とを含むレコードを有する第1自然言語対中間自然言語対訳辞書を記憶する第1自然言語対中間自然言語対訳辞書記憶ステップと、演算処理部が、第1自然言語対第2自然言語対訳辞書に基づいて、同一第2自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せから第1自然言語組合せリスト1を作成する第1自然言語組合せリスト1作成ステップと、演算処理部が、第1自然言語対中間自然言語対訳辞書に基づいて、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2を作成する第1自然言語組合せリスト2作成ステップと、演算処理部が、第1自然言語組合せリスト1の組合せのうち、いずれか一方の見出しについてのみ当該見出しを持つレコードが結合価辞書に登録されている組合せを辞書拡張候補として抽出する対象第1自然言語抽出ステップと、演算処理部が、辞書拡張候補として抽出された組合せのうち第1自然言語組合せリスト2に登録されている組合せを辞書拡張対象として選択する第1自然言語組合せリスト2検索ステップと、演算処理部が、辞書拡張対象として選択された組合せについて、当該組合せの一方の見出しを持つレコードを結合価辞書から複写元エントリとして取得して、この複写元エントリに含まれる第1自然言語の見出しを組合せの他方の見出しで置換することにより新たなレコードを作成し、この新たなレコードを結合価辞書へ追加登録する辞書拡張管理ステップとを備えている。
この際、第1自然言語対中間自然言語対訳辞書記憶ステップとして、記憶部が、第1自然言語対中間自然言語対訳辞書として、互いに異なる複数の中間言語に関する第1自然言語対中間自然言語対訳辞書をそれぞれ記憶するステップを用い、第1自然言語組合せリスト2作成ステップとして、演算処理部が、各第1自然言語対中間自然言語対訳辞書ごとに、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2をそれぞれ作成するステップを用い、第1自然言語組合せリスト2検索ステップとして、演算処理部が、辞書拡張候補として抽出された組合せのうち各第1自然言語組合せリスト2のいずれかに登録されている組合せを辞書拡張対象として選択するステップを用いてもよい。
あるいは、第1自然言語対中間自然言語対訳辞書記憶ステップとして、記憶部が、第1自然言語対中間自然言語対訳辞書として、互いに異なる複数の中間言語に関する第1自然言語対中間自然言語対訳辞書をそれぞれ記憶するステップを用い、第1自然言語組合せリスト2作成ステップとして、演算処理部が、各第1自然言語対中間自然言語対訳辞書ごとに、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2をそれぞれ作成するステップを用い、第1自然言語組合せリスト2検索ステップとして、演算処理部が、辞書拡張候補として抽出された組合せのうち各第1自然言語組合せリスト2のすべてに登録されている組合せを辞書拡張対象として選択するステップを用いてもよい。
また、結合価辞書記憶ステップとして、記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報と第2自然言語の見出しとを含むレコードを有する結合価辞書を記憶するステップを用い、第1自然言語組合せリスト1作成ステップとして、演算処理部が、第1自然言語組合せリスト1を作成する際、結合価辞書のレコードごとに、当該レコードの第1自然言語の見出しと、第1自然言語対第2自然言語対訳辞書のうち当該レコードの第2自然言語の見出しを持つレコードの第1自然言語の見出しとの組合せから第1自然言語組合せリスト1を作成するステップを用いてもよい。
また、結合価辞書記憶ステップとして、記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報と第2自然言語の見出しとを含むレコードを有する結合価辞書を記憶するステップを用い、第1自然言語組合せリスト1作成ステップとして、演算処理部が、第1自然言語組合せリスト1を作成する際、2つの見出しと当該第2自然言語の見出しとから第1自然言語組合せリスト1を作成するステップを用い、辞書拡張管理ステップとして、演算処理部が、結合価辞書から複写元エントリを取得する際、辞書拡張対象として選択された組合せについて、当該組合せの一方の見出しと第2自然言語の見出しとを持つレコードを結合価辞書から複写元エントリとして取得するステップを用いてもよい。
また、本発明にかかるプログラムは、自然言語で用いられる用言ごとに当該用言の知識構造を示す格フレーム情報をレコードとして持つ結合価辞書を記憶する記憶部と、この記憶部から結合価辞書を読み出して情報処理することにより当該結合価辞書を自動的に拡張する演算処理部とを有する辞書拡張装置のコンピュータに、記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報とを含むレコードを有する結合価辞書を記憶する結合価辞書記憶ステップと、記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しと、当該用言に関する第1自然言語とは異なる第2自然言語の対訳表現とを含むレコードを有する第1自然言語対第2自然言語対訳辞書を記憶する第1自然言語対第2自然言語対訳辞書記憶ステップと、記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しと、当該用言に関する第1自然言語および第2自然言語とは異なる中間自然言語の対訳表現とを含むレコードを有する第1自然言語対中間自然言語対訳辞書を記憶する第1自然言語対中間自然言語対訳辞書記憶ステップと、演算処理部が、第1自然言語対第2自然言語対訳辞書に基づいて、同一第2自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せから第1自然言語組合せリスト1を作成する第1自然言語組合せリスト1作成ステップと、演算処理部が、第1自然言語対中間自然言語対訳辞書に基づいて、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2を作成する第1自然言語組合せリスト2作成ステップと、演算処理部が、第1自然言語組合せリスト1の組合せのうち、いずれか一方の見出しについてのみ当該見出しを持つレコードが結合価辞書に登録されている組合せを辞書拡張候補として抽出する対象第1自然言語抽出ステップと、演算処理部が、辞書拡張候補として抽出された組合せのうち第1自然言語組合せリスト2に登録されている組合せを辞書拡張対象として選択する第1自然言語組合せリスト2検索ステップと、演算処理部が、辞書拡張対象として選択された組合せについて、当該組合せの一方の見出しを持つレコードを結合価辞書から複写元エントリとして取得して、この複写元エントリに含まれる第1自然言語の見出しを組合せの他方の見出しで置換することにより新たなレコードを作成し、この新たなレコードを結合価辞書へ追加登録する辞書拡張管理ステップとを実行させる。
この際、第1自然言語対中間自然言語対訳辞書記憶ステップとして、記憶部が、第1自然言語対中間自然言語対訳辞書として、互いに異なる複数の中間言語に関する第1自然言語対中間自然言語対訳辞書をそれぞれ記憶するステップと、第1自然言語組合せリスト2作成ステップとして、演算処理部が、各第1自然言語対中間自然言語対訳辞書ごとに、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2をそれぞれ作成するステップと、第1自然言語組合せリスト2検索ステップとして、演算処理部が、辞書拡張候補として抽出された組合せのうち各第1自然言語組合せリスト2のいずれかに登録されている組合せを辞書拡張対象として選択するステップとを実行させるようにしてもよい。
あるいは、第1自然言語対中間自然言語対訳辞書記憶ステップとして、記憶部が、第1自然言語対中間自然言語対訳辞書として、互いに異なる複数の中間言語に関する第1自然言語対中間自然言語対訳辞書をそれぞれ記憶するステップと、第1自然言語組合せリスト2作成ステップとして、演算処理部が、各第1自然言語対中間自然言語対訳辞書ごとに、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2をそれぞれ作成するステップと、第1自然言語組合せリスト2検索ステップとして、演算処理部が、辞書拡張候補として抽出された組合せのうち各第1自然言語組合せリスト2のすべてに登録されている組合せを辞書拡張対象として選択するステップとを実行させるようにしてもよい。
また、結合価辞書記憶ステップとして、記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報と第2自然言語の見出しとを含むレコードを有する結合価辞書を記憶するステップと、第1自然言語組合せリスト1作成ステップとして、演算処理部が、第1自然言語組合せリスト1を作成する際、結合価辞書のレコードごとに、当該レコードの第1自然言語の見出しと、第1自然言語対第2自然言語対訳辞書のうち当該レコードの第2自然言語の見出しを持つレコードの第1自然言語の見出しとの組合せから第1自然言語組合せリスト1を作成するステップとを実行させるようにしてもよい。
また、結合価辞書記憶ステップとして、記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報と第2自然言語の見出しとを含むレコードを有する結合価辞書を記憶するステップと、第1自然言語組合せリスト1作成ステップとして、演算処理部が、第1自然言語組合せリスト1を作成する際、2つの見出しと当該第2自然言語の見出しとから第1自然言語組合せリスト1を作成するステップと、辞書拡張管理ステップとして、演算処理部が、結合価辞書から複写元エントリを取得する際、辞書拡張対象として選択された組合せについて、当該組合せの一方の見出しと第2自然言語の見出しとを持つレコードを結合価辞書から複写元エントリとして取得するステップとを実行させるようにしてもよい。
本発明によれば、例えば人手で作成あるいは修正された高品質な第1自然言語の結合価辞書があれば、一般的には結合価辞書より比較的構築が容易と云われる第1自然言語対第2自然言語の対訳辞書と第1自然言語対中間自然言語の対訳辞書とを用いて、元の高品質を維持したまま第1自然言語の結合価辞書を自動処理により拡張することができる。
次に、本発明の実施の形態について図面を参照して説明する。
[第1の実施の形態]
まず、図1を参照して、本発明の第1の実施の形態にかかる結合価辞書拡張装置について説明する。図1は本発明の第1の実施の形態にかかる結合価辞書拡張装置の構成を示すブロック図である。
本発明の第1の実施の形態にかかる結合価辞書拡張装置10は、互いに異なる2種類の自然言語を含む結合価辞書について、これら自然言語とは異なる第3の中間自然言語とそれぞれの自然言語との対訳辞書に基づき、中間自然言語を仲立ちとして元の結合価辞書を拡張する処理を行う装置である。
この結合価辞書拡張装置10には、全体として情報処理を行うコンピュータからなり、画面表示部11、操作入力部12、入出力インターフェース部(以下、入出力I/F部という)13、記憶部14、および演算処理部15が設けられている。
画面表示部11は、LCDやCRTなどからなり、演算処理部15からの指示に基づき操作画面や処理結果画面などの各種情報を画面表示する画面表示装置である。
操作入力部12は、キーボードやマウスなどからなり、オペレータからの指示操作を検出して演算処理部15へ出力する操作入力装置である。
入出力I/F部13は、通信回線を介して接続された外部装置や記録媒体と演算処理部15との間で辞書やプログラムなどの各種情報をやり取りする回路部である。
記憶部14は、ハードディスクやメモリなどからなり、演算処理部15での処理動作に用いる各種情報やプログラム14Pを記憶する記憶装置である。演算処理部15での処理動作に用いる各種情報としては、結合価辞書データベース(以下、結合価辞書DBという)14A、第1自然言語対第2自然言語対訳辞書データベース(以下、第1自然言語対第2自然言語対訳辞書DBという)14B、第1自然言語対中間自然言語対訳辞書データベース(以下、第1自然言語対中間自然言語対訳辞書DBという)14C、第1自然言語組合せリスト1データベース(以下、第1自然言語組合せリスト1DBという)14D、および第1自然言語組合せリスト2データベース(以下、第1自然言語組合せリスト2DBという)14Eがある。
結合価辞書DB14Aは、1つ以上の第1自然言語の結合価辞書、あるいは第1自然言語対第2自然言語の結合価辞書を格納するデータベースである。この結合価辞書には、第1自然言語の用言ごとに辞書レコードが設けられており、各辞書レコードには、当該用言に関する第1自然言語の見出しおよびその品詞や、格フレーム情報などのエントリが含まれている。
また、結合価辞書DB14Aに格納されている結合価辞書が第1自然言語対第2自然言語の結合価辞書である場合、各辞書レコードには、上記エントリに加えて第1自然言語の対訳表現である第2自然言語の見出しおよびその品詞や、格フレーム情報などのエントリが含まれている。なお、格フレーム情報とは、例えば動詞や形容詞などの述語がどのような主語や目的語をとるかという知識構造情報であり、共起する用言と名詞や名詞句条件とを記述したものである。
第1自然言語対第2自然言語対訳辞書DB14Bは、1つ以上の第1自然言語対第2自然言語の対訳辞書を格納するデータベースである。この対訳辞書には、第1自然言語の用言ごとに辞書レコードが設けられており、各辞書レコードには、当該用言に関する第1自然言語の見出しおよびその品詞を持つ第1自然言語エントリと、その第1自然言語エントリの対訳表現である第2自然言語の見出しを持つ第2自然言語エントリとが含まれている。
第1自然言語対中間自然言語対訳辞書DB14Cは、1つ以上の第1自然言語対中間自然言語の対訳辞書を格納するデータベースである。この対訳辞書には、第1自然言語の用言ごとに辞書レコードが設けられており、各辞書レコードには、当該用言に関する第1自然言語の見出しを持つ第1自然言語エントリと、その第1自然言語見出しの対訳表現である中間自然言語の見出しを持つ中間自然言語エントリとが含まれている。
第1自然言語組合せリスト1DB14Dは、第1自然言語組合せリスト1を格納するデータベースである。この第1自然言語組合せリスト1は、第1自然言語対第2自然言語対訳辞書DB14Bに格納されている第1自然言語対第2自然言語の対訳辞書のうち、同一第2自然言語の見出しを対訳表現として持つ、互いに異なる2つの第1自然言語エントリの組合せから構成されている。
第1自然言語組合せリスト2DB14Eは、第1自然言語組合せリスト2を格納するデータベースである。この第1自然言語組合せリスト2は、第1自然言語対中間自然言語対訳辞書DB14Cに格納されている第1自然言語対中間自然言語の対訳辞書のうち、同一中間自然言語の見出しを対訳表現として持つ、互いに異なる2つの第1自然言語エントリの組合せから構成されている。
演算処理部15は、CPUなどのマイクロプロセッサとその周辺回路を有し、記憶部14のプログラム14Pを読み込んで実行することにより、上記ハードウェア資源とプログラムとを協働させて各種機能手段を実現する。
この機能手段としては、第1自然言語組合せリスト1作成部15A、第1自然言語組合せリスト2作成部15B、対象第1自然言語抽出部15C、第1自然言語組合せリスト2検索部15D、および辞書拡張管理部15Eがある。
第1自然言語組合せリスト1作成部15Aは、記憶部14の第1自然言語対第2自然言語対訳辞書DB14Bに予め格納されている第1自然言語対第2自然言語の対訳辞書に基づいて、同一第2自然言語の見出しを対訳表現として持つ、互いに異なる2つの第1自然言語エントリの組合せから、第1自然言語組合せリスト1を作成する機能と、この第1自然言語組合せリスト1を記憶部14の第1自然言語組合せリスト1DB14Dへ格納する機能とを有している。
第1自然言語組合せリスト2作成部15Bは、記憶部14の第1自然言語対中間自然言語対訳辞書DB14Cに予め格納されている第1自然言語対中間自然言語の対訳辞書に基づいて、同一中間自然言語の見出しを対訳表現として持つ、互いに異なる2つの第1自然言語エントリの組合せから、第1自然言語組合せリスト2を作成する機能と、この第1自然言語組合せリスト2を記憶部14の第1自然言語組合せリスト2DB14Eへ格納する機能とを有している。
対象第1自然言語抽出部15Cは、記憶部14の結合価辞書DB14Aの結合価辞書と第1自然言語組合せリスト1DB14Dの第1自然言語組合せリスト1とを参照し、第1自然言語組合せリスト1に含まれる2つの第1自然言語エントリの組合せについて、当該組合せのいずれか一方の第1自然言語エントリについてのみ当該見出しを含む結合価辞書レコードが結合価辞書に登録されていることを確認する機能と、この確認が得られた組合せを辞書拡張候補として第1自然言語組合せリスト2検索部15Dへ出力する機能とを有している。
第1自然言語組合せリスト2検索部15Dは、記憶部14の第1自然言語組合せリスト2DB14Eの第1自然言語組合せリスト2を参照し、対象第1自然言語抽出部15Cから辞書拡張候補として出力された組合せについて、当該組合せをなす2つの第1自然言語エントリが第1自然言語組合せリスト2の組合せとして登録されていることを確認する機能と、この確認が得られた組合せを辞書拡張対象として辞書拡張管理部15Eへ出力する機能とを有している。
辞書拡張管理部15Eは、複写元エントリ選択部15Fと結合価情報複写実行部15Gとから構成されている。複写元エントリ選択部15Fは、第1自然言語組合せリスト2検索部15Dから辞書拡張対象として出力された組合せについて、当該組合せに含まれる2つの第1自然言語エントリのうち、一方の第1自然言語エントリの見出し含む結合価辞書レコードの結合価情報を記憶部14の結合価辞書DB14Aの結合価辞書20から複写元エントリとして抽出する機能と、抽出した複写元エントリと上記他方の第1自然言語エントリからなる拡張用第1自然言語エントリとの組合せを結合価情報複写実行部15Gへ辞書拡張対象として出力する機能とを有している。ここで、結合価情報とは、その結合価辞書レコードに含まれる、見出しおよびその品詞、格フレーム情報等の情報すべてを指している。
結合価情報複写実行部15Gは、複写元エントリ選択部15Fから出力された複写元エントリと拡張用第1自然言語エントリとの組合せについて、その複写元エントリの第1自然言語の見出しを拡張用第1自然言語エントリの見出しへ置換することにより、複写元エントリの結合価情報を拡張用第1自然言語見出しの結合価情報として複写する機能と、複写された拡張用第1自然言語見出しの結合価情報を新規拡張用結合価辞書レコードとして記憶部14の結合価辞書DB14Aの結合価辞書20へ追加登録する機能とを有している。
[結合価辞書]
次に、図2を参照して、本発明の第1の実施の形態にかかる結合価辞書拡張装置10で用いられる結合価辞書について詳細に説明する。図2は、本発明の第1の実施の形態にかかる結合価辞書拡張装置10で用いられる結合価辞書を示す説明図である。ここでは、結合価辞書DB14Aに格納される結合価辞書20として、第1自然言語対第2自然言語の結合価辞書からなる場合が例として示されており、この結合価辞書20を構成する複数の第1自然言語対第2自然言語対訳辞書レコードが示されている。
第1自然言語対第2自然言語の結合価辞書の具体例としては、例えば第1自然言語が日本語で、第2自然言語が英語の場合、ALT−J/Eのパターン対辞書(NTT,「日英機械翻訳技術」,NTT R&D vol.46,pp107-141,1997)などの結合価辞書が利用できる。
一方、第1自然言語だけの結合価辞書の具体例としては、例えば第1自然言語が日本語の場合、IPAL(情報処理振興事業協会、「計算機用日本語基本動詞辞書IPAL(Basic Verbs)」,解説編&辞書編,1987)や、EDR電子化辞書(日本電子化辞書研究所,http://www.iijnet.or.jp/edr/J_index.html)などの結合価辞書が利用できる。
第1自然言語対第2自然言語の結合価辞書の各レコードには、日本語見出しおよびその品詞と格フレーム情報とを含む日本語エントリ(第1自然言語エントリ)と、英語側の見出しおよびその品詞と格フレーム情報とを含む英語エントリ(第2自然言語エントリ)とが登録されている。
例えば、図2の第1自然言語対第2自然言語の結合価辞書レコードP1には、日本語見出し「着る」およびその品詞「動詞」と、格フレーム情報「N1が N2を 着る」とが日本語エントリとして登録されており、英語見出し”wear”およびその品詞「動詞」と、格フレーム情報”N1 wear N2”が英語エントリとして登録されている。ここで、N1およびN2は、名詞あるいは名詞句を示している。
また、図2の例では、第1自然言語対第2自然言語の結合価辞書のレコードのうち、その日本語エントリには、選択制限<主体>や<衣服>の情報も登録されている。この選択制限は、格フレームのN1やN2として当てはまる、名詞あるいは名詞句の条件を定義している。ここで、例えば図2の結合価辞書レコードP1において、日本語見出し「着る」およびその品詞「動詞」と、格フレーム情報「N1 がN2を 着る」と、英語見出し”wear”およびその品詞「動詞」と、格フレーム情報”N1 wear N2”と、選択制限<主体>や<衣服>の情報とまで、すべてを含めて結合価情報と呼ぶ。
また、図2の例では、日本語見出し「着る」を持つ結合価辞書レコードとして、結合価辞書レコードP1の他に結合価辞書レコードP2が登録されている。また、見本語見出し「弱る」の結合価辞書レコードとしてP3とP4が、「浮かべる」の結合価辞書レコードとしてP5とP6が、それぞれ登録されている。
なお、第1自然言語エントリや第2自然言語エントリは上記構成に限定されるものではなく、前述した各エントリに加えて当該用言に関する他の情報を示すエントリを任意に加えてもよい。
[第1自然言語対第2自然言語対訳辞書]
次に、図3を参照して、本発明の第1の実施の形態にかかる結合価辞書拡張装置10で用いられる第1自然言語対第2自然言語対訳辞書について詳細に説明する。図3は、本発明の第1の実施の形態にかかる結合価辞書拡張装置10で用いられる第1自然言語対第2自然言語対訳辞書を示す説明図である。ここでは、第1自然言語対第2自然言語対訳辞書DB14Bに格納される対訳辞書21の例として、対訳辞書21を構成する複数の第1自然言語対第2自然言語対訳辞書レコードが示されている。
第1自然言語対第2自然言語の対訳辞書の具体例としては、例えば第1自然言語が日本語で、第2自然言語が英語の場合、ALT−J/Eのパターン対辞書(NTT,「日英機械翻訳技術」,NTT R&D vol.46,pp107-141,1997)や、EDICT(Breen,"Building an electronic Japanese-English dictionary",Japanese Studies Association of Australia Conference,1995,http://www.csse.monash.edu.au/jwb/jsaa-paper/hpaper.html)、さらには英辞郎(道端編,「英辞郎」,アルク,2002,http://www.alc.co.jp/)などの結合価辞書が利用できる。
第1自然言語対第2自然言語の対訳辞書の各レコードには、少なくとも日本語見出しおよびその日本語品詞を含む日本語エントリ(第1自然言語エントリ)と、その日本語エントリの対訳表現である英語エントリ(第2自然言語エントリ)とが登録されている。
例えば、図3の第1自然言語対第2自然言語の対訳辞書レコードには、日本語見出し「纏う」に対して、その品詞「動詞」と対訳表現”wear”や”lap”が日本語エントリとして登録されており、日本語見出し「着る」に対して、その品詞「動詞」と対訳表現”wear”や”put(on)”が英語エントリとして登録されている。
また、日本語見出し「弱る」に対して、その品詞「動詞」と対訳表現”wear(out)”や”weaken”が登録されており、日本語見出し「(笑いを)浮かべる」に対して、その品詞「動詞」と対訳表現”wear(a smile)”が日本語エントリとして登録されており、日本語見出し「美しい」に対して、その品詞「形容詞」と対訳表現”beautiful”が英語エントリとして登録されている。
なお、第1自然言語エントリや第2自然言語エントリは上記構成に限定されるものではなく、前述した各エントリに加えて当該用言に関する他の情報を示すエントリを任意に加えてもよい。
[第1自然言語対中間自然言語対訳辞書]
次に、図4を参照して、本発明の第1の実施の形態にかかる結合価辞書拡張装置10で用いられる第1自然言語対中間自然言語対訳辞書について詳細に説明する。図4は、本発明の第1の実施の形態にかかる結合価辞書拡張装置10で用いられる第1自然言語対中間自然言語対訳辞書を示す説明図である。ここでは、第1自然言語対中間自然言語対訳辞書DB14Cに格納される対訳辞書22の例として、対訳辞書22を構成する複数の第1自然言語対中間自然言語対訳辞書レコードが示されている。
第1自然言語対中間自然言語の対訳辞書の具体例としては、例えば第1自然言語が日本語で、中間自然言語が中国語の場合、日中辞書(Shogakukan & Peking Shomoinshokan,eds.Ri-Zhong Cidian日中辞書,Shogakukan,1987)などの対訳辞書が利用できる。また、中間自然言語が仏語の場合、日仏辞書(Desperrier,Jean-Marc,"Analyze of the results of a collaborative project for the creation of a Japanese-French dictionary",in Proceedings of Papillon 2002 Workshop(CDROM),http://dico.fj.free.fr/dico.php,2002)などの対訳辞書が利用できる。また、中間自然言語が独語の場合、日独辞書(Apel,Ulrich,"WaDokuJT- A Japanese-German Dictionary Database",in Proceedings of Papillon 2002 Workshop(CDROM),http://www.babbletower.net/,2002)などの対訳辞書が利用できる。
第1自然言語対中間自然言語の対訳辞書の各レコードには、少なくとも日本語見出しを含む日本語エントリ(第1自然言語エントリ)と、その日本語エントリの対訳表現である中間語エントリ(中間自然言語エントリ)とが登録されている。
例えば、図4の第1自然言語対中間自然言語の対訳辞書レコードには、日本語見出し「纏う」に対して、その対訳表現「穿」や「怪」が日本語エントリとして登録されており、また、日本語見出し「着る」に対して、その対訳表現「穿」や「覚鞭」が中間語エントリとして登録されている。
なお、これら図2〜図4では、日本語見出しが動詞の場合を例として示されているが、必ずしも動詞である必要はなく形容詞などでもよい。また、図4の例では、中国語の例は単語であったが、必ずしも単語である必要はなく、複数の単語を含んでいてよい。さらに、品詞については動詞や形容詞など何でもよく、日本語見出しの品詞と一致する必要もない。
また前述した第1自然言語エントリ、第2自然言語エントリ、および中間言語エントリは上記構成に限定されるものではなく、前述した各エントリに加えて当該用言に関する他の情報を示すエントリを任意に加えてもよい。
また、図2の結合価辞書DB14Aに格納される第1自然言語対第2自然言語の結合価辞書20は1つである必要はなく、複数の辞書を格納してもよく、例えばALT−J/Eの結合価辞書とIPALの両方を格納することが考えられる。
また、図3の第1自然言語対第2自然言語対訳辞書DB14Bに格納される第1自然言語対第2自然言語の対訳辞書21についても1つである必要はなく、複数の辞書を格納してもよく、例えばALT−J/Eの日英対象辞書とEDICの両方を格納することが考えられる。
また、図4の第1自然言語対中間自然言語対訳辞書DB14Cに格納される第1自然言語対中間自然言語の対訳辞書22についても1つである必要はなく、複数の辞書を格納してもよい。
さらに、中間自然言語も1つである必要はなく、複数の自然言語を中間自然言語として利用してもよい。例えば前述した日中辞書、日独辞書、日仏辞書をすべて格納することが考えられる。
[第1の実施の形態の動作]
次に、図5および図6を参照して、本発明の第1の実施の形態にかかる結合価辞書拡張装置10の動作について説明する。図5は、本発明の第1の実施の形態にかかる結合価辞書拡張装置10の演算処理部15で実行される結合価辞書拡張処理を示すフローチャートである。図6は、本発明の第1の実施の形態にかかる結合価辞書拡張装置10の演算処理部15で実行される結合価辞書拡張処理を示す動作フローである。
以下では、第1自然言語が日本語で、第2自然言語が英語で、中間自然言語が中国語である場合を例として説明する。但し、第1自然言語、第2自然言語、中間自然言語の組合せは、第1、第2、中間自然言語がそれぞれ異なる言語であればよく、タイ語と中国語とスペイン語や、ドイツ語とフランス語とロシア語などいずれの言語の組合せにも適用できる。
結合価辞書拡張装置10の演算処理部15は、操作入力部12で検出されたオペレータによる結合価辞書拡張処理の開始指示操作に応じて、記憶部14のプログラム14Pを読み込んで実行することにより、図5の結合価辞書拡張処理を開始する。
なお、結合価辞書拡張処理の開始に先だって、結合価辞書DB14A、第1自然言語対第2自然言語対訳辞書DB14B、および第1自然言語対中間自然言語対訳辞書DB14Cが、予め記憶部14に格納されているものとする。
まず、演算処理部15は、第1自然言語組合せリスト1作成部15Aにより、記憶部14の第1自然言語対第2自然言語対訳辞書DB14Bに格納されている、1つまたは複数の第1自然言語対第2自然言語の対訳辞書21から、対訳表現として同一第2自然言語を持ち、互いの見出しが異なる2つの対訳辞書レコードから、第1自然言語エントリ1と第1自然言語エントリ2とを抽出する(ステップ100)。そして、抽出した第1自然言語エントリ1と第1自然言語エントリ2との組合せから、第1自然言語組合せリスト1(23)を作成し(ステップ101)、得られた第1自然言語組合せリスト1(23)を記憶部14の第1自然言語組合せリスト1DB14Dへ格納する(ステップ102)。
前述した図3を参照して、第1自然言語組合せリスト1作成部15Aの動作を具体的に説明する。図3の第1自然言語対第2自然言語の対訳辞書21には、同一英語”wear”を対訳表現として含む日本語見出しとして「纏う」、「着る」、「弱る」、および「(笑いを)浮かべる」を持つレコードが登録されている。第1自然言語組合せリスト1作成部15Aは、このような対訳表現として同一第2自然言語の見出し”wear”を持つレコードの第1自然言語の見出し群、すなちわ「纏う」、「着る」、「弱る」、および「(笑いを)浮かべる」からなる関連自然言語エントリのうち、互いの見出しが異なる2つの関連自然言語エントリを第1自然言語エントリ1および第1自然言語エントリ2として抽出する。
そして、抽出した第1自然言語エントリ1と第1自然言語エントリ2との組合せを第1自然言語組合せリスト1(23)に登録する。図7は、第1自然言語組合せリスト1作成部15Aで作成された第1自然言語組合せリスト1(23)の構成例である。ここでは、4つの関連自然言語エントリ「纏う」、「着る」、「弱る」、「(笑いを)浮かべる」から生成された全6つの組合せが登録されている。なお、図7には、各組合せに対して対応する第2自然言語の見出しが第2自然言語エントリとして含まれているが、本実施の形態では、結合価辞書DB14Aの結合価辞書20として第1自然言語の結合価辞書も用いられることを想定しており、後続の処理で第2自然言語の対訳表現を利用していないことから、図7に示した第2自然言語エントリを第1自然言語組合せリスト1(23)として出力する必要はない。
また、上記例では、第2自然言語の動詞や形容詞である見出し(”wear out”なら”wear”)が同一であることを、関連自然言語エントリとしての抽出基準すなわち第1自然言語組合せリスト1(23)の作成条件としたが、作成したい品詞が動詞であれば動詞のみを用い、作成したい品詞が形容詞であれば形容詞のみを用いることを条件に加えてもよい。また、例えば品詞情報が付与されている対訳辞書を利用する場合には、第2自然言語の品詞が同一であることを条件に加えたり、読みが付与されている場合には、第2自然言語の読みが同一であることを条件に加えたり、あるいは、品詞が動詞や形容詞である見出しだけでなく、第2自然言語が全く同一(”wear out”なら”wear out”)という条件のみを利用することなども考えられる。
このようにして、第1自然言語組合せリスト1作成部15Aにより、同一第2自然言語”wear”を持つ関連自然言語エントリの組合せがすべて抽出されて、これら組合せが第1自然言語組合せリスト1(23)に登録される。
そして、第1自然言語組合せリスト1作成部15Aにより、処理対象となる第1自然言語対第2自然言語の対訳辞書ごとに、その対訳辞書に格納されているすべての第2自然言語について、関連自然言語エントリの組合せが抽出されて第1自然言語組合せリスト1(23)に登録され、その第1自然言語組合せリスト1(23)が記憶部14の第1自然言語組合せリスト1DB14Dへ格納される。
次に、演算処理部15は、第1自然言語組合せリスト2作成部15Bにより、記憶部14の第1自然言語対中間自然言語対訳辞書DB14Cに格納されている、1つまたは複数の第1自然言語対中間自然言語の対訳辞書22から、対訳表現として同一中間自然言語を持ち、互いの見出しが異なる2つの対訳辞書レコードから、第1自然言語エントリ3と第1自然言語エントリ4とを抽出する(ステップ110)。そして、抽出した第1自然言語エントリ3と第1自然言語エントリ4との組合せから、第1自然言語組合せリスト2(24)を作成し(ステップ111)、得られた第1自然言語組合せリスト2(24)を記憶部14の第1自然言語組合せリスト2DB14Eへ格納する(ステップ112)。
前述した図4を参照して、第1自然言語組合せリスト2作成部15Bの動作を具体的に説明する。図4の第1自然言語対中間自然言語の対訳辞書22には、同一中国語「穿」を対訳表現として含む日本語見出しとして「纏う」と「着る」を持つレコードが登録されている。第1自然言語組合せリスト2作成部15Bは、このような対訳表現として同一中間自然言語の見出し「穿」を持つレコードの第1自然言語の見出し群、すなわち「纏う」および「着る」からなる関連自然言語エントリのうち、互いの見出しが異なる2つの関連自然言語エントリを第1自然言語エントリ3および第1自然言語エントリ4として抽出する。
そして、これら抽出した第1自然言語エントリ3と第1自然言語エントリ4との組合せを第1自然言語組合せリスト2(24)に登録する。図8は、第1自然言語組合せリスト2作成部15Bで作成された第1自然言語組合せリスト2(24)の構成例である。ここでは、2つの関連自然言語エントリ「纏う」および「着る」から生成された全1つの組合せが登録されている。
なお、上記例では、単純に中間自然言語が同一かどうかを、関連自然言語エントリとしての抽出基準すなわち第1自然言語組合せリスト2(24)の作成条件としたが、例えば品詞情報が付与されている対訳辞書を利用する場合には品詞が同一であることを条件に加えたり、読みが付与されている場合には読みが同一であることを条件に加えたり、あるいは、中間自然言語が全く同じでなくとも動詞や形容詞が同一だという条件のみを利用することなども考えられる。
このようにして、第1自然言語組合せリスト2作成部15Bにより、同じ中間自然言語「穿」を持つ関連自然言語エントリの組合せがすべて抽出されて、これら組合せが第1自然言語組合せリスト2(24)に登録される。
そして、第1自然言語組合せリスト2作成部15Bにより、処理対象となる第1自然言語対中間自然言語の対訳辞書ごとに、その対訳辞書に格納されているすべての中間自然言語について、関連自然言語エントリの組合せが抽出されて第1自然言語組合せリスト2(24)に登録され、その第1自然言語組合せリスト2が記憶部14の第1自然言語組合せリスト2DB14Eへ格納される。
なお、第1自然言語組合せリスト1作成部15Aによるステップ100〜102の処理と、第1自然言語組合せリスト2作成部15Bによるステップ110〜112の処理について、それぞれ処理の順序に制限はなく、いずれを先に実行してもよく、両者を並列的に実行してもよい。
次に、演算処理部15は、対象第1自然言語抽出部15Cにより、記憶部14の第1自然言語組合せリスト1DB14Dから第1自然言語組合せリスト1(23)を取得する(ステップ120)。そして、第1自然言語組合せリスト1(23)内に、未処理の組合せが残っている場合は(ステップ121:YES)、この組合せについて、次のステップ122〜128により結合価辞書拡張判定処理を実行する。
結合価辞書拡張判定処理において、演算処理部15は、まず、対象第1自然言語抽出部15Cにより、ステップ120で取得した第1自然言語組合せリスト1(23)から未処理の組合せとして、第1自然言語エントリ1および第1自然言語エントリ2の組合せ(見出しS1,見出しS2)を取得する(ステップ122)。
そして、取得した2つの第1自然言語エントリのうち、いずれか一方の第1自然言語エントリの見出しについてのみ、その見出しを持つ結合価辞書レコードが結合価辞書DB14Aの結合価辞書20に登録されていることを確認する(ステップ123)。
したがって、第1自然言語エントリ1(23)の見出しS1を持つ結合価辞書レコードと第1自然言語エントリ2の見出しS2を持つ結合価辞書レコードの両者が結合価辞書DB14Aの結合価辞書20に登録されている場合には(ステップ123:NO)、当該第1自然言語組合せにより結合価辞書20を拡張する必要がないことから、ステップ121へ戻って次の組合せの処理へ移行する。
例えば、図7の第1自然言語組合せリスト1(23)のうち、「着る,弱る」、「着る,(笑いを)浮かべる」、「弱る,(笑いを)浮かべる」の各組合せについては、それぞれのエントリの見出しを持つ結合価辞書レコードの両方が、図2の結合価辞書DB14Aの結合価辞書20に登録されていることから、辞書拡張候補として相応しくないと判断される。
また、上記両者とも結合価辞書DB14Aの結合価辞書20に登録されていない場合には(ステップ123:NO)、当該組合せにより結合価辞書20を拡張することができないため、ステップ121へ戻って次の組合せの処理へ移行する。なお、図7の第1自然言語組合せリスト1(23)のうち、この判断に該当する組合せはない。
一方、取得した組合せのうち、第1自然言語エントリ1の見出しS1を持つ結合価辞書レコードが結合価辞書20に登録されており、かつ第1自然言語エントリ2の見出しS2を持つ結合価辞書レコードが結合価辞書20に登録されていない場合、およびこの逆の場合には、当該組合せが辞書拡張候補として相応しいと判断され(ステップ123:YES)、当該組合せの第1自然言語エントリ1および第1自然言語エントリ2を、辞書拡張候補25として第1自然言語組合せリスト2検索部15Dへ出力する。
例えば、図7の第1自然言語組合せリスト1(23)のうち、「着る,纏う」、「弱る,纏う」、「(笑いを)浮かべる,纏う」の各組合せについては、それぞれ「着る」、「弱る」、「(笑いを)浮かべる」の見出しを持つ結合価辞書レコードのみが、図2の結合価辞書DB14Aに登録されていることから、辞書拡張候補として相応しいと判断される。図9は、辞書拡張候補25の出力例である。
続いて、演算処理部15は、第1自然言語組合せリスト2検索部15Dにより、対象第1自然言語抽出部15Cで抽出された辞書拡張候補25の組合せについて、その第1自然言語エントリ1および第1自然言語エントリ2が、記憶部14の第1自然言語組合せリスト2DB14Eの第1自然言語組合せリスト2(24)に格納されている第1自然言語組合せリスト2に登録されているか確認する(ステップ124)。
ここで、上記辞書拡張候補の組合せが第1自然言語組合せリスト2(24)に登録されていない場合は(ステップ124:NO)、当該辞書拡張候補25の組合せにより結合価辞書20を拡張することができないため、ステップ121へ戻って次の組合せの処理へ移行する。
一方、上記組合せが第1自然言語組合せリスト2(24)に登録されている場合は(ステップ124:YES)、当該辞書拡張候補25の組合せにより結合価辞書DB14Aの結合価辞書20を拡張すべきと判断し、当該辞書拡張候補25の組合せの第1自然言語エントリ1および第1自然言語エントリ2を辞書拡張対象26として辞書拡張管理部15Eへ出力する。
例えば、図8の第1自然言語組合せリスト2(24)には、「纏う,着る」の組合せしか登録されていないため、対象第1自然言語抽出部15Cで抽出された「着る,纏う」、「弱る,纏う」、「(笑いを)浮かべる,纏う」の各組合せのうち、「着る,纏う」のみが辞書拡張対象26として選択される。図10は、辞書拡張対象26の出力例である。
次に、演算処理部15は、辞書拡張管理部15Eの複写元エントリ選択部15Fにより、第1自然言語組合せリスト2検索部15Dで検索された辞書拡張対象26の組合せについて、第1自然言語エントリ1および第1自然言語エントリ2のうち、その一方の見出しを持つ結合価辞書レコードを、結合価辞書DB14Aの結合価辞書20から複写元エントリ27として取得する(ステップ125)。
この際、第1自然言語組合せリスト2検索部15Dで検索された辞書拡張対象26の組合せが「着る,纏う」の場合、「着る」を見出しとする結合価辞書レコードP1が結合価辞書DB14Aの結合価辞書20に登録されていることから、図2に示す「着る」を見出しとする結合価辞書レコードP1が複写元エントリ27として取得される。
次に、演算処理部15は、辞書拡張管理部15Eの結合価情報複写実行部15Gにより、複写元エントリ選択部15Fで取得された複写元エントリ27について、その複写元エントリに含まれるすべての情報を抽出し、この複写元エントリ27の見出しを、辞書拡張対象のうち上記他方の第1自然言語エントリの見出し、すなわち新規拡張用見出しと置換することにより、複写元エントリ27の結合価情報を持ち、新規拡張用見出しを見出しとする新規拡張用結合価辞書レコード28を作成する(ステップ126)。図11は、新規拡張用結合価辞書レコード28の構成例である。
そして、この新規拡張用結合価辞書レコード28を記憶部14の結合価辞書DB14Aの結合価辞書20へ追加登録し(ステップ127)、ステップ121へ戻って次の第1自然言語組合せの処理へ移行する。
したがって、辞書拡張対象26の組合せが「着る,纏う」で、「着る」見出しとする結合価辞書レコードP1が複写元エントリとして取得された場合、その複写元レコードP1(27)の見出しである「着る」が新規拡張用見出し「纏う」へと置換されるとともに、その他の結合価情報が複写され、「纏う」と”wear”を見出しとする新規拡張用結合価辞書レコードP10(28)が作成され、記憶部14の結合価辞書DB14Aの結合価辞書20へ追加登録される。
なお、結合価辞書DB14Aの結合価辞書20が第1自然言語対第2自然言語対訳辞書ではなく、第1自然言語の情報しか持たない場合には、日本語見出しや日本語品詞などだけが一致する結合価辞書レコードを複写元エントリとして抽出することが考えられる。また、作成した結合価辞書レコードに対しては、人手でチェックを入れることも考えられる。
このように、本実施の形態では、第1自然言語組合せリスト1作成部15Aにより、第1自然言語対第2自然言語対訳辞書DB14Bの対訳辞書21に基づいて、同一第2自然言語見出しを対訳表現として持つ、互いに異なる2つの第1自然言語エントリの組合せから、第1自然言語組合せリスト1(23)を作成するとともに、第1自然言語組合せリスト2作成部15Bにより、第1自然言語対中間自然言語対訳辞書DB14Bの対訳辞書23に基づいて、同一中間自然言語見出しを対訳表現として持つ、互いに異なる2つの第1自然言語エントリの組合せから、第1自然言語組合せリスト2(24)を作成するようにしたものである。
そして、対象第1自然言語抽出部15Cにより、第1自然言語組合せリスト1(23)の組合せのうち、いずれか一方の第1自然言語エントリの見出しについてのみ当該見出しを持つ結合価辞書レコードが結合価辞書20に登録されている組合せを辞書拡張候補25として抽出し、第1自然言語組合せリスト2検索部15Dにより、辞書拡張候補25として抽出された組合せのうち、第1自然言語組合せリスト2(24)に登録されている組合せを辞書拡張対象26として選択し、辞書拡張管理部15Eで、辞書拡張対象26として選択された組合せについて、当該組合せの一方の第1自然言語エントリの見出しを持つ結合価辞書レコードを結合価辞書20から複写元エントリ27として取得し、この複写元エントリ27に含まれる第1自然言語エントリの見出しを当該組合せの他方の第1自然言語エントリの見出しで置換することにより新規拡張用結合価辞書レコード28を作成して、結合価辞書20へ追加登録するようにしたものである。
したがって、例えば人手で作成あるいは修正された高品質な第1自然言語の結合価辞書があれば、一般的には結合価辞書より比較的構築が容易と云われる第1自然言語対第2自然言語の対訳辞書と第1自然言語対中間自然言語の対訳辞書とを用いて、元の高品質を維持したまま第1自然言語の結合価辞書を自動処理により拡張することができる。
この際、第1自然言語組合せリスト2作成部15Bにおいて、互いに異なる中間自然言語に関する第1自然言語対中間自然言語の対訳辞書21を複数用いて第1自然言語組合せリスト2(24)を作成してもよく、拡張対象となる第1自然言語を容易に増加させることができる。
また、第1自然言語組合せリスト2検索部15Dにおいて、辞書拡張候補25の組合せのうち、複数の中間自然言語ごとに作成した第1自然言語組合せリスト2(24)のすべてに共通して出現する組合せのみを辞書拡張対象26として選択するようにしてもよく、より精度の高い拡張を行うことができる。
また、本実施の形態では、結合価辞書DB14Aの結合価辞書20が第1自然言語対第2自然言語対訳辞書から構成されている場合を例として説明したが、これに限定されるものではなく、結合価辞書20が第1自然言語の結合価辞書から構成されている場合でも、前述と同様に本実施の形態を適用でき、同様の作用効果が得られる。
[第2の実施の形態]
次に、本発明の第2の実施の形態にかかる結合価辞書拡張装置について説明する。
前述した第1の実施の形態では、結合価辞書DB14Aの結合価辞書20として第1自然言語の結合価辞書も用いられることを想定し、第1自然言語組合せリスト1作成部15Aで、第1自然言語対第2自然言語対訳辞書DB14Bから第1自然言語組合せリスト1(23)を作成する場合について説明した。
本実施の形態は、結合価辞書DB14Aの結合価辞書として第1自然言語に対応する第2自然言語が含まれる結合価辞書を用いることを前提とし、第1自然言語組合せリスト1作成部15Aで第1自然言語対第2自然言語対訳辞書DB14Bから第1自然言語組合せリスト1(23)を作成する際、結合価辞書DB14Aの結合価辞書20に登録されている各結合価辞書レコードの第1自然言語と第2自然言語との対応関係を利用して第1自然言語組合せリスト1を作成するようにしたものである。
すなわち、本実施の形態にかかる結合価辞書拡張装置において、演算処理部15の第1自然言語組合せリスト1作成部15Aは、結合価辞書DB14Aの結合価辞書20に登録されている各結合価辞書レコードの第1自然言語エントリと、第1自然言語対第2自然言語対訳辞書DB14Bの対訳辞書21のうち当該結合価辞書レコードの第2自然言語エントリの見出しを持つ対訳辞書レコードの第1自然言語エントリの見出しとの組合せのうち、結合価辞書20に結合価辞書レコードとして登録されていない組合せから、第1自然言語組合せリスト1(23)を作成する機能と、この第1自然言語組合せリスト1(23)を記憶部14の第1自然言語組合せリスト1DB14Dへ格納する機能とを有している。
したがって、本実施の形態によれば、第1自然言語組合せリスト1作成部15Aにおいて、結合価辞書DB14Aの結合価辞書20に登録されている各結合価辞書レコードが持つ、第1自然言語と第2自然言語との対応関係に基づき、第1自然言語組合せリスト1(23)が作成されるため、第1自然言語組合せリスト1(23)の各組合せとして、必ず結合価辞書20に登録されていない組合せを選択でき、第1自然言語組合せリスト1(23)の内容が辞書拡張候補25と一致することになる。したがって、第1自然言語組合せリスト2検索部15Dは、第1自然言語組合せリスト1(23)を辞書拡張候補25として用いることができ、前述した第1の実施の形態における対象第1自然言語抽出部15Cでの抽出処理を省くことができる。
これにより、元となる結合価辞書DB14Aの結合価辞書20が第1自然言語と第2自然言語の結合価情報を持ち、互いに対応関係がとられている場合、第1自然言語と第2自然言語の両言語を含む結合価辞書を効率的に拡張することができる。また、第1自然言語組合せリスト1作成部において、元となる結合価辞書の情報を利用できるため、より精度の高い辞書拡張を行うことができる。
また、以上の各実施の形態において、第1自然言語組合せリスト1や第2自然言語組合せリスト2として、第1自然言語の見出し以外の付加情報、例えば第2自然言語の見出し、あるいは第1自然言語の品詞や読みなどの付加情報を含むエントリの組合せから上記リストを作成する場合について説明したが、結合価辞書拡張処理でこれら付加情報を利用しない場合、第1自然言語の見出しのみの組合せから第1自然言語組合せリスト1や第2自然言語組合せリスト2を作成してもよい。
また、以上の各実施の形態において、複写元エントリ選択部15Fにより結合価辞書DB14Aの結合価辞書20から、所望の複写元エントリを抽出する際、第1自然言語組合せリスト2検索部15Dからの辞書拡張対象26の組合せに、第1自然言語エントリに対応する第2自然言語エントリが含まれている場合、その第1自然言語エントリの見出しと第2自然言語エントリの見出しの両方を含む結合価辞書レコードを結合価辞書20から検索し、その結合価辞書レコードを複写元エントリ27として取得するようにしてもよい。
これにより、より高い精度で新規拡張用結合価辞書レコード28を作成することができ、元の高品質を維持したまま第1自然言語の結合価辞書を自動処理により拡張することができる。
なお、複写元エントリの候補は、第1自然言語組合せリスト1作成部15A作成に結合価辞書を利用した場合には、そのまま保持しておくことが考えられる。また、結合価辞書DB14Aの結合価辞書が第1自然言語の情報のみを含んでいる場合には、日本語見出しや日本語品詞などだけが一致する結合価辞書エントリを複写元エントリとして抽出することが考えられる。また、作成した結合価辞書エントリに対しては、人手でチェックを入れることも考えられる。
本発明の第1の実施の形態にかかる結合価辞書拡張装置の構成を示すブロック図である。 本発明の第1の実施の形態にかかる結合価辞書拡張装置で用いられる結合価辞書を示す説明図である。 本発明の第1の実施の形態にかかる結合価辞書拡張装置で用いられる第1自然言語対第2自然言語対訳辞書を示す説明図である。 本発明の第1の実施の形態にかかる結合価辞書拡張装置で用いられる第1自然言語対中間自然言語対訳辞書を示す説明図である。 本発明の第1の実施の形態にかかる結合価辞書拡張装置の演算処理部で実行される結合価辞書拡張処理を示すフローチャートである。 本発明の第1の実施の形態にかかる結合価辞書拡張装置の演算処理部で実行される結合価辞書拡張処理を示す動作フローである。 第1自然言語組合せリスト1の構成例である。 第1自然言語組合せリスト2の構成例である。 辞書拡張候補の出力例である。 辞書拡張対象の出力例である。 新規拡張用結合価辞書レコードの構成例である。
符号の説明
10…結合価辞書拡張装置、11…画面表示部、12…操作入力部、13…入出力I/F部、14…記憶部、14A…結合価辞書DB、14B…第1自然言語対第2自然言語対訳辞書DB、14C…第1自然言語対中間自然言語対訳辞書DB、14D…第1自然言語組合せリスト1DB、14E…第1自然言語組合せリスト2DB、14P…プログラム、15…演算処理部、15A…第1自然言語組合せリスト1作成部、15B…第1自然言語組合せリスト2作成部、15C…対象第1自然言語抽出部、15D…第1自然言語組合せリスト2検索部、15E…辞書拡張管理部、15F…複写元エントリ選択部、15G…結合価情報複写実行部、20…結合価情報、21…対訳辞書(第1自然言語対第2自然言語対訳辞書)、22…対訳辞書(第1自然言語対中間自然言語対訳辞書)、23…第1自然言語組合せリスト1、24…第1自然言語組合せリスト2、25…辞書拡張候補、26…辞書拡張対象、27…複写元エントリ、28…新規拡張用結合価辞書レコード。

Claims (15)

  1. 自然言語で用いられる用言ごとに当該用言の知識構造を示す格フレーム情報をレコードとして持つ結合価辞書を記憶する記憶部と、この記憶部から前記結合価辞書を読み出して情報処理することにより当該結合価辞書を拡張する演算処理部とを有する結合価辞書拡張装置であって、
    前記記憶部は、
    第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報とを含むレコードを有する結合価辞書と、
    第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しと、当該用言に関する前記第1自然言語とは異なる第2自然言語の対訳表現とを含むレコードを有する第1自然言語対第2自然言語対訳辞書と、
    第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しと、当該用言に関する第1自然言語および第2自然言語とは異なる中間自然言語の対訳表現とを含むレコードを有する第1自然言語対中間自然言語対訳辞書と、
    を記憶し、
    前記演算処理部は、
    前記第1自然言語対第2自然言語対訳辞書に基づいて、同一第2自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せから第1自然言語組合せリスト1を作成する第1自然言語組合せリスト1作成部と、
    前記第1自然言語対中間自然言語対訳辞書に基づいて、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2を作成する第1自然言語組合せリスト2作成部と、
    第1自然言語組合せリスト1の組合せのうち、いずれか一方の見出しについてのみ当該見出しを持つレコードが前記結合価辞書に登録されている組合せを辞書拡張候補として抽出する対象第1自然言語抽出部と、
    前記辞書拡張候補として抽出された組合せのうち前記第1自然言語組合せリスト2に登録されている組合せを辞書拡張対象として選択する第1自然言語組合せリスト2検索部と、
    前記辞書拡張対象として選択された組合せについて、当該組合せの一方の見出しを持つレコードを前記結合価辞書から複写元エントリとして取得して、この複写元エントリに含まれる第1自然言語の見出しを前記組合せの他方の見出しで置換することにより新たなレコードを作成し、この新たなレコードを前記結合価辞書へ追加登録する辞書拡張管理部と
    を備えることを特徴とする結合価辞書拡張装置。
  2. 請求項1に記載の結合価辞書拡張装置において、
    前記記憶部は、前記第1自然言語対中間自然言語対訳辞書として、互いに異なる複数の中間言語に関する第1自然言語対中間自然言語対訳辞書をそれぞれ記憶し、
    前記第1自然言語組合せリスト2作成部は、前記各第1自然言語対中間自然言語対訳辞書ごとに、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2をそれぞれ作成し、
    前記第1自然言語組合せリスト2検索部は、前記辞書拡張候補として抽出された組合せのうち前記各第1自然言語組合せリスト2のいずれかに登録されている組合せを辞書拡張対象として選択する
    ことを特徴とする結合価辞書拡張装置。
  3. 請求項1に記載の結合価辞書拡張装置において、
    前記記憶部は、前記第1自然言語対中間自然言語対訳辞書として、互いに異なる複数の中間言語に関する第1自然言語対中間自然言語対訳辞書をそれぞれ記憶し、
    前記第1自然言語組合せリスト2作成部は、前記各第1自然言語対中間自然言語対訳辞書ごとに、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2をそれぞれ作成し、
    前記と第1自然言語組合せリスト2検索部は、前記辞書拡張候補として抽出された組合せのうち前記各第1自然言語組合せリスト2のすべてに登録されている組合せを辞書拡張対象として選択する
    ことを特徴とする結合価辞書拡張装置。
  4. 請求項1に記載の結合価辞書拡張装置において、
    前記結合価辞書は、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報と前記第2自然言語の見出しとを含むレコードを有し、
    前記第1自然言語組合せリスト1作成部は、前記第1自然言語組合せリスト1を作成する際、前記結合価辞書のレコードごとに、当該レコードの第1自然言語の見出しと、前記第1自然言語対第2自然言語対訳辞書のうち当該レコードの第2自然言語の見出しを持つレコードの第1自然言語の見出しとの組合せから前記第1自然言語組合せリスト1を作成することを特徴とする結合価辞書拡張装置。
  5. 請求項1に記載の結合価辞書拡張装置において、
    前記結合価辞書は、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報と前記第2自然言語の見出しとを含むレコードを有し、
    前記第1自然言語組合せリスト1作成部は、前記第1自然言語組合せリスト1を作成する際、前記2つの見出しと当該第2自然言語の見出しとから前記第1自然言語組合せリスト1を作成し、
    前記辞書拡張管理部は、前記結合価辞書から複写元エントリを取得する際、前記辞書拡張対象として選択された組合せについて、当該組合せの一方の見出しと第2自然言語の見出しとを持つレコードを前記結合価辞書から複写元エントリとして取得する
    ことを特徴とする結合価辞書拡張装置。
  6. 自然言語で用いられる用言ごとに当該用言の知識構造を示す格フレーム情報をレコードとして持つ結合価辞書を記憶する記憶部と、この記憶部から前記結合価辞書を読み出して情報処理することにより当該結合価辞書を自動的に拡張する演算処理部とを有する辞書拡張装置が、前記演算処理部で前記結合価辞書を自動的に拡張する結合価辞書拡張方法であって、
    前記記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報とを含むレコードを有する結合価辞書を記憶する結合価辞書記憶ステップと、
    前記記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しと、当該用言に関する前記第1自然言語とは異なる第2自然言語の対訳表現とを含むレコードを有する第1自然言語対第2自然言語対訳辞書を記憶する第1自然言語対第2自然言語対訳辞書記憶ステップと、
    前記記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しと、当該用言に関する第1自然言語および第2自然言語とは異なる中間自然言語の対訳表現とを含むレコードを有する第1自然言語対中間自然言語対訳辞書を記憶する第1自然言語対中間自然言語対訳辞書記憶ステップと、
    前記演算処理部が、前記第1自然言語対第2自然言語対訳辞書に基づいて、同一第2自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せから第1自然言語組合せリスト1を作成する第1自然言語組合せリスト1作成ステップと、
    前記演算処理部が、前記第1自然言語対中間自然言語対訳辞書に基づいて、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2を作成する第1自然言語組合せリスト2作成ステップと、
    前記演算処理部が、第1自然言語組合せリスト1の組合せのうち、いずれか一方の見出しについてのみ当該見出しを持つレコードが前記結合価辞書に登録されている組合せを辞書拡張候補として抽出する対象第1自然言語抽出ステップと、
    前記演算処理部が、前記辞書拡張候補として抽出された組合せのうち前記第1自然言語組合せリスト2に登録されている組合せを辞書拡張対象として選択する第1自然言語組合せリスト2検索ステップと、
    前記演算処理部が、前記辞書拡張対象として選択された組合せについて、当該組合せの一方の見出しを持つレコードを前記結合価辞書から複写元エントリとして取得して、この複写元エントリに含まれる第1自然言語の見出しを前記組合せの他方の見出しで置換することにより新たなレコードを作成し、この新たなレコードを前記結合価辞書へ追加登録する辞書拡張管理ステップと
    を備えることを特徴とする結合価辞書拡張方法。
  7. 請求項6に記載の結合価辞書拡張方法において、
    前記第1自然言語対中間自然言語対訳辞書記憶ステップは、前記記憶部が、前記第1自然言語対中間自然言語対訳辞書として、互いに異なる複数の中間言語に関する第1自然言語対中間自然言語対訳辞書をそれぞれ記憶するステップからなり、
    前記第1自然言語組合せリスト2作成ステップは、前記演算処理部が、前記各第1自然言語対中間自然言語対訳辞書ごとに、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2をそれぞれ作成するステップからなり、
    前記第1自然言語組合せリスト2検索ステップは、前記演算処理部が、前記辞書拡張候補として抽出された組合せのうち前記各第1自然言語組合せリスト2のいずれかに登録されている組合せを辞書拡張対象として選択するステップからなる
    ことを特徴とする結合価辞書拡張方法。
  8. 請求項6に記載の結合価辞書拡張方法において、
    前記第1自然言語対中間自然言語対訳辞書記憶ステップは、前記記憶部が、前記第1自然言語対中間自然言語対訳辞書として、互いに異なる複数の中間言語に関する第1自然言語対中間自然言語対訳辞書をそれぞれ記憶するステップからなり、
    前記第1自然言語組合せリスト2作成ステップは、前記演算処理部が、前記各第1自然言語対中間自然言語対訳辞書ごとに、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2をそれぞれ作成するステップからなり、
    前記第1自然言語組合せリスト2検索ステップは、前記演算処理部が、前記辞書拡張候補として抽出された組合せのうち前記各第1自然言語組合せリスト2のすべてに登録されている組合せを辞書拡張対象として選択するステップからなる
    ことを特徴とする結合価辞書拡張方法。
  9. 請求項6に記載の結合価辞書拡張方法において、
    前記結合価辞書記憶ステップは、前記記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報と前記第2自然言語の見出しとを含むレコードを有する結合価辞書を記憶するステップからなり、
    前記第1自然言語組合せリスト1作成ステップは、前記演算処理部が、前記第1自然言語組合せリスト1を作成する際、前記結合価辞書のレコードごとに、当該レコードの第1自然言語の見出しと、前記第1自然言語対第2自然言語対訳辞書のうち当該レコードの第2自然言語の見出しを持つレコードの第1自然言語の見出しとの組合せから前記第1自然言語組合せリスト1を作成するステップからなる
    ことを特徴とする結合価辞書拡張方法。
  10. 請求項6に記載の結合価辞書拡張方法において、
    前記結合価辞書記憶ステップは、前記記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報と前記第2自然言語の見出しとを含むレコードを有する結合価辞書を記憶するステップからなり、
    前記第1自然言語組合せリスト1作成ステップは、前記演算処理部が、前記第1自然言語組合せリスト1を作成する際、前記2つの見出しと当該第2自然言語の見出しとから前記第1自然言語組合せリスト1を作成するステップからなり、
    前記辞書拡張管理ステップは、前記演算処理部が、前記結合価辞書から複写元エントリを取得する際、前記辞書拡張対象として選択された組合せについて、当該組合せの一方の見出しと第2自然言語の見出しとを持つレコードを前記結合価辞書から複写元エントリとして取得するステップからなる
    ことを特徴とする結合価辞書拡張方法。
  11. 自然言語で用いられる用言ごとに当該用言の知識構造を示す格フレーム情報をレコードとして持つ結合価辞書を記憶する記憶部と、この記憶部から前記結合価辞書を読み出して情報処理することにより当該結合価辞書を自動的に拡張する演算処理部とを有する辞書拡張装置のコンピュータに、
    前記記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報とを含むレコードを有する結合価辞書を記憶する結合価辞書記憶ステップと、
    前記記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しと、当該用言に関する前記第1自然言語とは異なる第2自然言語の対訳表現とを含むレコードを有する第1自然言語対第2自然言語対訳辞書を記憶する第1自然言語対第2自然言語対訳辞書記憶ステップと、
    前記記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しと、当該用言に関する第1自然言語および第2自然言語とは異なる中間自然言語の対訳表現とを含むレコードを有する第1自然言語対中間自然言語対訳辞書を記憶する第1自然言語対中間自然言語対訳辞書記憶ステップと、
    前記演算処理部が、前記第1自然言語対第2自然言語対訳辞書に基づいて、同一第2自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せから第1自然言語組合せリスト1を作成する第1自然言語組合せリスト1作成ステップと、
    前記演算処理部が、前記第1自然言語対中間自然言語対訳辞書に基づいて、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2を作成する第1自然言語組合せリスト2作成ステップと、
    前記演算処理部が、第1自然言語組合せリスト1の組合せのうち、いずれか一方の見出しについてのみ当該見出しを持つレコードが前記結合価辞書に登録されている組合せを辞書拡張候補として抽出する対象第1自然言語抽出ステップと、
    前記演算処理部が、前記辞書拡張候補として抽出された組合せのうち前記第1自然言語組合せリスト2に登録されている組合せを辞書拡張対象として選択する第1自然言語組合せリスト2検索ステップと、
    前記演算処理部が、前記辞書拡張対象として選択された組合せについて、当該組合せの一方の見出しを持つレコードを前記結合価辞書から複写元エントリとして取得して、この複写元エントリに含まれる第1自然言語の見出しを前記組合せの他方の見出しで置換することにより新たなレコードを作成し、この新たなレコードを前記結合価辞書へ追加登録する辞書拡張管理ステップと
    を実行させるプログラム。
  12. 請求項11に記載のプログラムにおいて、
    前記第1自然言語対中間自然言語対訳辞書記憶ステップとして、前記記憶部が、前記第1自然言語対中間自然言語対訳辞書として、互いに異なる複数の中間言語に関する第1自然言語対中間自然言語対訳辞書をそれぞれ記憶するステップと、
    前記第1自然言語組合せリスト2作成ステップとして、前記演算処理部が、前記各第1自然言語対中間自然言語対訳辞書ごとに、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2をそれぞれ作成するステップと、
    前記第1自然言語組合せリスト2検索ステップとして、前記演算処理部が、前記辞書拡張候補として抽出された組合せのうち前記各第1自然言語組合せリスト2のいずれかに登録されている組合せを辞書拡張対象として選択するステップと
    を実行させるプログラム。
  13. 請求項11に記載のプログラムにおいて、
    前記第1自然言語対中間自然言語対訳辞書記憶ステップとして、前記記憶部が、前記第1自然言語対中間自然言語対訳辞書として、互いに異なる複数の中間言語に関する第1自然言語対中間自然言語対訳辞書をそれぞれ記憶するステップと、
    前記第1自然言語組合せリスト2作成ステップとして、前記演算処理部が、前記各第1自然言語対中間自然言語対訳辞書ごとに、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2をそれぞれ作成するステップと、
    前記第1自然言語組合せリスト2検索ステップとして、前記演算処理部が、前記辞書拡張候補として抽出された組合せのうち前記各第1自然言語組合せリスト2のすべてに登録されている組合せを辞書拡張対象として選択するステップと
    を実行させるプログラム。
  14. 請求項11に記載のプログラムにおいて、
    前記結合価辞書記憶ステップとして、前記記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報と前記第2自然言語の見出しとを含むレコードを有する結合価辞書を記憶するステップと、
    前記第1自然言語組合せリスト1作成ステップとして、前記演算処理部が、前記第1自然言語組合せリスト1を作成する際、前記結合価辞書のレコードごとに、当該レコードの第1自然言語の見出しと、前記第1自然言語対第2自然言語対訳辞書のうち当該レコードの第2自然言語の見出しを持つレコードの第1自然言語の見出しとの組合せから前記第1自然言語組合せリスト1を作成するステップと
    を実行させるプログラム。
  15. 請求項11に記載のプログラムにおいて、
    前記結合価辞書記憶ステップとして、前記記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報と前記第2自然言語の見出しとを含むレコードを有する結合価辞書を記憶するステップと、
    前記第1自然言語組合せリスト1作成ステップとして、前記演算処理部が、前記第1自然言語組合せリスト1を作成する際、前記2つの見出しと当該第2自然言語の見出しとから前記第1自然言語組合せリスト1を作成するステップと、
    前記辞書拡張管理ステップとして、前記演算処理部が、前記結合価辞書から複写元エントリを取得する際、前記辞書拡張対象として選択された組合せについて、当該組合せの一方の見出しと第2自然言語の見出しとを持つレコードを前記結合価辞書から複写元エントリとして取得するステップと
    を実行させるプログラム。
JP2004289788A 2004-10-01 2004-10-01 結合価辞書拡張装置、方法、およびプログラム Expired - Fee Related JP4087829B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004289788A JP4087829B2 (ja) 2004-10-01 2004-10-01 結合価辞書拡張装置、方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004289788A JP4087829B2 (ja) 2004-10-01 2004-10-01 結合価辞書拡張装置、方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2006106926A JP2006106926A (ja) 2006-04-20
JP4087829B2 true JP4087829B2 (ja) 2008-05-21

Family

ID=36376625

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004289788A Expired - Fee Related JP4087829B2 (ja) 2004-10-01 2004-10-01 結合価辞書拡張装置、方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP4087829B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241986A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 一种数据处理方法和终端

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241986A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 一种数据处理方法和终端
CN108241986B (zh) * 2016-12-23 2021-12-24 北京国双科技有限公司 一种数据处理方法和终端

Also Published As

Publication number Publication date
JP2006106926A (ja) 2006-04-20

Similar Documents

Publication Publication Date Title
JP4654745B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US20070233460A1 (en) Computer-Implemented Method for Use in a Translation System
Storrer et al. Automated detection and annotation of term definitions in German text corpora.
JP2005507525A (ja) 機械翻訳
JP2008522332A (ja) 自動的に文書を拡充するシステムおよび方法
JP2008083952A (ja) 辞書作成支援システム、方法及びプログラム
KR100918338B1 (ko) 복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트 생성 방법, 장치 및 프로그램을 저장한 기록 매체
Chiarcos et al. Analyzing middle high German syntax with RDF and SPARQL
Seretan et al. A tool for multi-word collocation extraction and visualization in multilingual corpora
Kermes et al. YAC-A Recursive Chunker for Unrestricted German Text.
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
JP4087829B2 (ja) 結合価辞書拡張装置、方法、およびプログラム
Dombrowski et al. Language Is Not a Default Setting: Countering DH’s English Problem
JP5499546B2 (ja) 重要語抽出方法、装置、プログラム、記録媒体
JP4869281B2 (ja) 機械翻訳装置、プログラム及び方法
Borin et al. Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information
JP4845857B2 (ja) 機械翻訳装置及び機械翻訳プログラム
WO2009144890A1 (ja) 翻訳前換言規則生成システム
JP4812811B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP4588417B2 (ja) 翻訳装置
JP3437782B2 (ja) 機械翻訳方法及びその装置並びに機械翻訳プログラムを記憶した媒体
JP4417967B2 (ja) 用例データベース及び用例検索システム
JP3236027B2 (ja) 機械翻訳装置
JP2009059290A (ja) 外国語文書作成支援装置、外国語文書作成支援方法および外国語文書作成支援プログラム
JP5073423B2 (ja) 訳語検索支援装置、訳語検索支援方法および訳語検索支援プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080221

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110228

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110228

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120229

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130228

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees