JP4087829B2 - 結合価辞書拡張装置、方法、およびプログラム - Google Patents
結合価辞書拡張装置、方法、およびプログラム Download PDFInfo
- Publication number
- JP4087829B2 JP4087829B2 JP2004289788A JP2004289788A JP4087829B2 JP 4087829 B2 JP4087829 B2 JP 4087829B2 JP 2004289788 A JP2004289788 A JP 2004289788A JP 2004289788 A JP2004289788 A JP 2004289788A JP 4087829 B2 JP4087829 B2 JP 4087829B2
- Authority
- JP
- Japan
- Prior art keywords
- natural language
- dictionary
- combination
- valence
- heading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
こうした自然言語で書かれた電子化文書についての情報処理すなわち自然言語処理を行う場合、語と語の対応関係だけでなく、用言が要求する格要素に関する格フレーム情報などの詳細な情報を持つ結合価辞書が用いられる。この結合価辞書とは、例えば動詞や形容詞などの述語がどのような主語や目的語をとるかという知識構造情報を、格フレーム情報として用言ごとに記述したものである。
品質のよい結合価辞書を得るには人手による作成がよいと云われているが(例えば、非特許文献1など参照)、作業量が膨大となるため、結合価辞書を人手で作成するにはコストと人手と時間が非常にかかる。特に、精度の高い自然言語処理を行うためには、結合価辞書に付与する情報量も増大するため、なるべく人手を介さず自動的に、あるいは半自動的に品質のよい結合価辞書を作成することが望まれる。
白井ら,「日英機械翻訳に必要な結合価パターン対の数とその収集方法」,情報処理学会研究報告,自然言語処理研究会,95-NL-110-7,pp.43-50 河原、黒橋,「用言の直前の各要素の組を単位とする格フレームの自動構築」,自然言語処理,2002,Vol.9,No.1,p.3-20 Ann Copestake,"Implementing Typed Feature Structure Grammars",2002,CSLI Publications
一般に、完全に自動構築した結合価辞書の精度の上限は約80%であると云われており(例えば、非特許文献3など参照)、実用に耐え得る高品質な結合価辞書を作成することは困難である。
また、機械翻訳や多言語検索などに利用するために、2言語の結合価情報を持ち、各言語間に対応関係を示すリンクがあるような結合価辞書を構築したい場合、コーパス利用を前提とする従来技術では対応できないという問題点がある。
[第1の実施の形態]
まず、図1を参照して、本発明の第1の実施の形態にかかる結合価辞書拡張装置について説明する。図1は本発明の第1の実施の形態にかかる結合価辞書拡張装置の構成を示すブロック図である。
本発明の第1の実施の形態にかかる結合価辞書拡張装置10は、互いに異なる2種類の自然言語を含む結合価辞書について、これら自然言語とは異なる第3の中間自然言語とそれぞれの自然言語との対訳辞書に基づき、中間自然言語を仲立ちとして元の結合価辞書を拡張する処理を行う装置である。
画面表示部11は、LCDやCRTなどからなり、演算処理部15からの指示に基づき操作画面や処理結果画面などの各種情報を画面表示する画面表示装置である。
操作入力部12は、キーボードやマウスなどからなり、オペレータからの指示操作を検出して演算処理部15へ出力する操作入力装置である。
入出力I/F部13は、通信回線を介して接続された外部装置や記録媒体と演算処理部15との間で辞書やプログラムなどの各種情報をやり取りする回路部である。
また、結合価辞書DB14Aに格納されている結合価辞書が第1自然言語対第2自然言語の結合価辞書である場合、各辞書レコードには、上記エントリに加えて第1自然言語の対訳表現である第2自然言語の見出しおよびその品詞や、格フレーム情報などのエントリが含まれている。なお、格フレーム情報とは、例えば動詞や形容詞などの述語がどのような主語や目的語をとるかという知識構造情報であり、共起する用言と名詞や名詞句条件とを記述したものである。
第1自然言語対中間自然言語対訳辞書DB14Cは、1つ以上の第1自然言語対中間自然言語の対訳辞書を格納するデータベースである。この対訳辞書には、第1自然言語の用言ごとに辞書レコードが設けられており、各辞書レコードには、当該用言に関する第1自然言語の見出しを持つ第1自然言語エントリと、その第1自然言語見出しの対訳表現である中間自然言語の見出しを持つ中間自然言語エントリとが含まれている。
第1自然言語組合せリスト2DB14Eは、第1自然言語組合せリスト2を格納するデータベースである。この第1自然言語組合せリスト2は、第1自然言語対中間自然言語対訳辞書DB14Cに格納されている第1自然言語対中間自然言語の対訳辞書のうち、同一中間自然言語の見出しを対訳表現として持つ、互いに異なる2つの第1自然言語エントリの組合せから構成されている。
この機能手段としては、第1自然言語組合せリスト1作成部15A、第1自然言語組合せリスト2作成部15B、対象第1自然言語抽出部15C、第1自然言語組合せリスト2検索部15D、および辞書拡張管理部15Eがある。
次に、図2を参照して、本発明の第1の実施の形態にかかる結合価辞書拡張装置10で用いられる結合価辞書について詳細に説明する。図2は、本発明の第1の実施の形態にかかる結合価辞書拡張装置10で用いられる結合価辞書を示す説明図である。ここでは、結合価辞書DB14Aに格納される結合価辞書20として、第1自然言語対第2自然言語の結合価辞書からなる場合が例として示されており、この結合価辞書20を構成する複数の第1自然言語対第2自然言語対訳辞書レコードが示されている。
一方、第1自然言語だけの結合価辞書の具体例としては、例えば第1自然言語が日本語の場合、IPAL(情報処理振興事業協会、「計算機用日本語基本動詞辞書IPAL(Basic Verbs)」,解説編&辞書編,1987)や、EDR電子化辞書(日本電子化辞書研究所,http://www.iijnet.or.jp/edr/J_index.html)などの結合価辞書が利用できる。
例えば、図2の第1自然言語対第2自然言語の結合価辞書レコードP1には、日本語見出し「着る」およびその品詞「動詞」と、格フレーム情報「N1が N2を 着る」とが日本語エントリとして登録されており、英語見出し”wear”およびその品詞「動詞」と、格フレーム情報”N1 wear N2”が英語エントリとして登録されている。ここで、N1およびN2は、名詞あるいは名詞句を示している。
なお、第1自然言語エントリや第2自然言語エントリは上記構成に限定されるものではなく、前述した各エントリに加えて当該用言に関する他の情報を示すエントリを任意に加えてもよい。
次に、図3を参照して、本発明の第1の実施の形態にかかる結合価辞書拡張装置10で用いられる第1自然言語対第2自然言語対訳辞書について詳細に説明する。図3は、本発明の第1の実施の形態にかかる結合価辞書拡張装置10で用いられる第1自然言語対第2自然言語対訳辞書を示す説明図である。ここでは、第1自然言語対第2自然言語対訳辞書DB14Bに格納される対訳辞書21の例として、対訳辞書21を構成する複数の第1自然言語対第2自然言語対訳辞書レコードが示されている。
例えば、図3の第1自然言語対第2自然言語の対訳辞書レコードには、日本語見出し「纏う」に対して、その品詞「動詞」と対訳表現”wear”や”lap”が日本語エントリとして登録されており、日本語見出し「着る」に対して、その品詞「動詞」と対訳表現”wear”や”put(on)”が英語エントリとして登録されている。
なお、第1自然言語エントリや第2自然言語エントリは上記構成に限定されるものではなく、前述した各エントリに加えて当該用言に関する他の情報を示すエントリを任意に加えてもよい。
次に、図4を参照して、本発明の第1の実施の形態にかかる結合価辞書拡張装置10で用いられる第1自然言語対中間自然言語対訳辞書について詳細に説明する。図4は、本発明の第1の実施の形態にかかる結合価辞書拡張装置10で用いられる第1自然言語対中間自然言語対訳辞書を示す説明図である。ここでは、第1自然言語対中間自然言語対訳辞書DB14Cに格納される対訳辞書22の例として、対訳辞書22を構成する複数の第1自然言語対中間自然言語対訳辞書レコードが示されている。
例えば、図4の第1自然言語対中間自然言語の対訳辞書レコードには、日本語見出し「纏う」に対して、その対訳表現「穿」や「怪」が日本語エントリとして登録されており、また、日本語見出し「着る」に対して、その対訳表現「穿」や「覚鞭」が中間語エントリとして登録されている。
また前述した第1自然言語エントリ、第2自然言語エントリ、および中間言語エントリは上記構成に限定されるものではなく、前述した各エントリに加えて当該用言に関する他の情報を示すエントリを任意に加えてもよい。
また、図3の第1自然言語対第2自然言語対訳辞書DB14Bに格納される第1自然言語対第2自然言語の対訳辞書21についても1つである必要はなく、複数の辞書を格納してもよく、例えばALT−J/Eの日英対象辞書とEDICの両方を格納することが考えられる。
さらに、中間自然言語も1つである必要はなく、複数の自然言語を中間自然言語として利用してもよい。例えば前述した日中辞書、日独辞書、日仏辞書をすべて格納することが考えられる。
次に、図5および図6を参照して、本発明の第1の実施の形態にかかる結合価辞書拡張装置10の動作について説明する。図5は、本発明の第1の実施の形態にかかる結合価辞書拡張装置10の演算処理部15で実行される結合価辞書拡張処理を示すフローチャートである。図6は、本発明の第1の実施の形態にかかる結合価辞書拡張装置10の演算処理部15で実行される結合価辞書拡張処理を示す動作フローである。
以下では、第1自然言語が日本語で、第2自然言語が英語で、中間自然言語が中国語である場合を例として説明する。但し、第1自然言語、第2自然言語、中間自然言語の組合せは、第1、第2、中間自然言語がそれぞれ異なる言語であればよく、タイ語と中国語とスペイン語や、ドイツ語とフランス語とロシア語などいずれの言語の組合せにも適用できる。
なお、結合価辞書拡張処理の開始に先だって、結合価辞書DB14A、第1自然言語対第2自然言語対訳辞書DB14B、および第1自然言語対中間自然言語対訳辞書DB14Cが、予め記憶部14に格納されているものとする。
そして、第1自然言語組合せリスト1作成部15Aにより、処理対象となる第1自然言語対第2自然言語の対訳辞書ごとに、その対訳辞書に格納されているすべての第2自然言語について、関連自然言語エントリの組合せが抽出されて第1自然言語組合せリスト1(23)に登録され、その第1自然言語組合せリスト1(23)が記憶部14の第1自然言語組合せリスト1DB14Dへ格納される。
そして、第1自然言語組合せリスト2作成部15Bにより、処理対象となる第1自然言語対中間自然言語の対訳辞書ごとに、その対訳辞書に格納されているすべての中間自然言語について、関連自然言語エントリの組合せが抽出されて第1自然言語組合せリスト2(24)に登録され、その第1自然言語組合せリスト2が記憶部14の第1自然言語組合せリスト2DB14Eへ格納される。
そして、取得した2つの第1自然言語エントリのうち、いずれか一方の第1自然言語エントリの見出しについてのみ、その見出しを持つ結合価辞書レコードが結合価辞書DB14Aの結合価辞書20に登録されていることを確認する(ステップ123)。
例えば、図7の第1自然言語組合せリスト1(23)のうち、「着る,弱る」、「着る,(笑いを)浮かべる」、「弱る,(笑いを)浮かべる」の各組合せについては、それぞれのエントリの見出しを持つ結合価辞書レコードの両方が、図2の結合価辞書DB14Aの結合価辞書20に登録されていることから、辞書拡張候補として相応しくないと判断される。
一方、上記組合せが第1自然言語組合せリスト2(24)に登録されている場合は(ステップ124:YES)、当該辞書拡張候補25の組合せにより結合価辞書DB14Aの結合価辞書20を拡張すべきと判断し、当該辞書拡張候補25の組合せの第1自然言語エントリ1および第1自然言語エントリ2を辞書拡張対象26として辞書拡張管理部15Eへ出力する。
この際、第1自然言語組合せリスト2検索部15Dで検索された辞書拡張対象26の組合せが「着る,纏う」の場合、「着る」を見出しとする結合価辞書レコードP1が結合価辞書DB14Aの結合価辞書20に登録されていることから、図2に示す「着る」を見出しとする結合価辞書レコードP1が複写元エントリ27として取得される。
そして、この新規拡張用結合価辞書レコード28を記憶部14の結合価辞書DB14Aの結合価辞書20へ追加登録し(ステップ127)、ステップ121へ戻って次の第1自然言語組合せの処理へ移行する。
また、第1自然言語組合せリスト2検索部15Dにおいて、辞書拡張候補25の組合せのうち、複数の中間自然言語ごとに作成した第1自然言語組合せリスト2(24)のすべてに共通して出現する組合せのみを辞書拡張対象26として選択するようにしてもよく、より精度の高い拡張を行うことができる。
次に、本発明の第2の実施の形態にかかる結合価辞書拡張装置について説明する。
前述した第1の実施の形態では、結合価辞書DB14Aの結合価辞書20として第1自然言語の結合価辞書も用いられることを想定し、第1自然言語組合せリスト1作成部15Aで、第1自然言語対第2自然言語対訳辞書DB14Bから第1自然言語組合せリスト1(23)を作成する場合について説明した。
これにより、より高い精度で新規拡張用結合価辞書レコード28を作成することができ、元の高品質を維持したまま第1自然言語の結合価辞書を自動処理により拡張することができる。
Claims (15)
- 自然言語で用いられる用言ごとに当該用言の知識構造を示す格フレーム情報をレコードとして持つ結合価辞書を記憶する記憶部と、この記憶部から前記結合価辞書を読み出して情報処理することにより当該結合価辞書を拡張する演算処理部とを有する結合価辞書拡張装置であって、
前記記憶部は、
第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報とを含むレコードを有する結合価辞書と、
第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しと、当該用言に関する前記第1自然言語とは異なる第2自然言語の対訳表現とを含むレコードを有する第1自然言語対第2自然言語対訳辞書と、
第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しと、当該用言に関する第1自然言語および第2自然言語とは異なる中間自然言語の対訳表現とを含むレコードを有する第1自然言語対中間自然言語対訳辞書と、
を記憶し、
前記演算処理部は、
前記第1自然言語対第2自然言語対訳辞書に基づいて、同一第2自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せから第1自然言語組合せリスト1を作成する第1自然言語組合せリスト1作成部と、
前記第1自然言語対中間自然言語対訳辞書に基づいて、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2を作成する第1自然言語組合せリスト2作成部と、
第1自然言語組合せリスト1の組合せのうち、いずれか一方の見出しについてのみ当該見出しを持つレコードが前記結合価辞書に登録されている組合せを辞書拡張候補として抽出する対象第1自然言語抽出部と、
前記辞書拡張候補として抽出された組合せのうち前記第1自然言語組合せリスト2に登録されている組合せを辞書拡張対象として選択する第1自然言語組合せリスト2検索部と、
前記辞書拡張対象として選択された組合せについて、当該組合せの一方の見出しを持つレコードを前記結合価辞書から複写元エントリとして取得して、この複写元エントリに含まれる第1自然言語の見出しを前記組合せの他方の見出しで置換することにより新たなレコードを作成し、この新たなレコードを前記結合価辞書へ追加登録する辞書拡張管理部と
を備えることを特徴とする結合価辞書拡張装置。 - 請求項1に記載の結合価辞書拡張装置において、
前記記憶部は、前記第1自然言語対中間自然言語対訳辞書として、互いに異なる複数の中間言語に関する第1自然言語対中間自然言語対訳辞書をそれぞれ記憶し、
前記第1自然言語組合せリスト2作成部は、前記各第1自然言語対中間自然言語対訳辞書ごとに、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2をそれぞれ作成し、
前記第1自然言語組合せリスト2検索部は、前記辞書拡張候補として抽出された組合せのうち前記各第1自然言語組合せリスト2のいずれかに登録されている組合せを辞書拡張対象として選択する
ことを特徴とする結合価辞書拡張装置。 - 請求項1に記載の結合価辞書拡張装置において、
前記記憶部は、前記第1自然言語対中間自然言語対訳辞書として、互いに異なる複数の中間言語に関する第1自然言語対中間自然言語対訳辞書をそれぞれ記憶し、
前記第1自然言語組合せリスト2作成部は、前記各第1自然言語対中間自然言語対訳辞書ごとに、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2をそれぞれ作成し、
前記と第1自然言語組合せリスト2検索部は、前記辞書拡張候補として抽出された組合せのうち前記各第1自然言語組合せリスト2のすべてに登録されている組合せを辞書拡張対象として選択する
ことを特徴とする結合価辞書拡張装置。 - 請求項1に記載の結合価辞書拡張装置において、
前記結合価辞書は、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報と前記第2自然言語の見出しとを含むレコードを有し、
前記第1自然言語組合せリスト1作成部は、前記第1自然言語組合せリスト1を作成する際、前記結合価辞書のレコードごとに、当該レコードの第1自然言語の見出しと、前記第1自然言語対第2自然言語対訳辞書のうち当該レコードの第2自然言語の見出しを持つレコードの第1自然言語の見出しとの組合せから前記第1自然言語組合せリスト1を作成することを特徴とする結合価辞書拡張装置。 - 請求項1に記載の結合価辞書拡張装置において、
前記結合価辞書は、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報と前記第2自然言語の見出しとを含むレコードを有し、
前記第1自然言語組合せリスト1作成部は、前記第1自然言語組合せリスト1を作成する際、前記2つの見出しと当該第2自然言語の見出しとから前記第1自然言語組合せリスト1を作成し、
前記辞書拡張管理部は、前記結合価辞書から複写元エントリを取得する際、前記辞書拡張対象として選択された組合せについて、当該組合せの一方の見出しと第2自然言語の見出しとを持つレコードを前記結合価辞書から複写元エントリとして取得する
ことを特徴とする結合価辞書拡張装置。 - 自然言語で用いられる用言ごとに当該用言の知識構造を示す格フレーム情報をレコードとして持つ結合価辞書を記憶する記憶部と、この記憶部から前記結合価辞書を読み出して情報処理することにより当該結合価辞書を自動的に拡張する演算処理部とを有する辞書拡張装置が、前記演算処理部で前記結合価辞書を自動的に拡張する結合価辞書拡張方法であって、
前記記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報とを含むレコードを有する結合価辞書を記憶する結合価辞書記憶ステップと、
前記記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しと、当該用言に関する前記第1自然言語とは異なる第2自然言語の対訳表現とを含むレコードを有する第1自然言語対第2自然言語対訳辞書を記憶する第1自然言語対第2自然言語対訳辞書記憶ステップと、
前記記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しと、当該用言に関する第1自然言語および第2自然言語とは異なる中間自然言語の対訳表現とを含むレコードを有する第1自然言語対中間自然言語対訳辞書を記憶する第1自然言語対中間自然言語対訳辞書記憶ステップと、
前記演算処理部が、前記第1自然言語対第2自然言語対訳辞書に基づいて、同一第2自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せから第1自然言語組合せリスト1を作成する第1自然言語組合せリスト1作成ステップと、
前記演算処理部が、前記第1自然言語対中間自然言語対訳辞書に基づいて、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2を作成する第1自然言語組合せリスト2作成ステップと、
前記演算処理部が、第1自然言語組合せリスト1の組合せのうち、いずれか一方の見出しについてのみ当該見出しを持つレコードが前記結合価辞書に登録されている組合せを辞書拡張候補として抽出する対象第1自然言語抽出ステップと、
前記演算処理部が、前記辞書拡張候補として抽出された組合せのうち前記第1自然言語組合せリスト2に登録されている組合せを辞書拡張対象として選択する第1自然言語組合せリスト2検索ステップと、
前記演算処理部が、前記辞書拡張対象として選択された組合せについて、当該組合せの一方の見出しを持つレコードを前記結合価辞書から複写元エントリとして取得して、この複写元エントリに含まれる第1自然言語の見出しを前記組合せの他方の見出しで置換することにより新たなレコードを作成し、この新たなレコードを前記結合価辞書へ追加登録する辞書拡張管理ステップと
を備えることを特徴とする結合価辞書拡張方法。 - 請求項6に記載の結合価辞書拡張方法において、
前記第1自然言語対中間自然言語対訳辞書記憶ステップは、前記記憶部が、前記第1自然言語対中間自然言語対訳辞書として、互いに異なる複数の中間言語に関する第1自然言語対中間自然言語対訳辞書をそれぞれ記憶するステップからなり、
前記第1自然言語組合せリスト2作成ステップは、前記演算処理部が、前記各第1自然言語対中間自然言語対訳辞書ごとに、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2をそれぞれ作成するステップからなり、
前記第1自然言語組合せリスト2検索ステップは、前記演算処理部が、前記辞書拡張候補として抽出された組合せのうち前記各第1自然言語組合せリスト2のいずれかに登録されている組合せを辞書拡張対象として選択するステップからなる
ことを特徴とする結合価辞書拡張方法。 - 請求項6に記載の結合価辞書拡張方法において、
前記第1自然言語対中間自然言語対訳辞書記憶ステップは、前記記憶部が、前記第1自然言語対中間自然言語対訳辞書として、互いに異なる複数の中間言語に関する第1自然言語対中間自然言語対訳辞書をそれぞれ記憶するステップからなり、
前記第1自然言語組合せリスト2作成ステップは、前記演算処理部が、前記各第1自然言語対中間自然言語対訳辞書ごとに、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2をそれぞれ作成するステップからなり、
前記第1自然言語組合せリスト2検索ステップは、前記演算処理部が、前記辞書拡張候補として抽出された組合せのうち前記各第1自然言語組合せリスト2のすべてに登録されている組合せを辞書拡張対象として選択するステップからなる
ことを特徴とする結合価辞書拡張方法。 - 請求項6に記載の結合価辞書拡張方法において、
前記結合価辞書記憶ステップは、前記記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報と前記第2自然言語の見出しとを含むレコードを有する結合価辞書を記憶するステップからなり、
前記第1自然言語組合せリスト1作成ステップは、前記演算処理部が、前記第1自然言語組合せリスト1を作成する際、前記結合価辞書のレコードごとに、当該レコードの第1自然言語の見出しと、前記第1自然言語対第2自然言語対訳辞書のうち当該レコードの第2自然言語の見出しを持つレコードの第1自然言語の見出しとの組合せから前記第1自然言語組合せリスト1を作成するステップからなる
ことを特徴とする結合価辞書拡張方法。 - 請求項6に記載の結合価辞書拡張方法において、
前記結合価辞書記憶ステップは、前記記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報と前記第2自然言語の見出しとを含むレコードを有する結合価辞書を記憶するステップからなり、
前記第1自然言語組合せリスト1作成ステップは、前記演算処理部が、前記第1自然言語組合せリスト1を作成する際、前記2つの見出しと当該第2自然言語の見出しとから前記第1自然言語組合せリスト1を作成するステップからなり、
前記辞書拡張管理ステップは、前記演算処理部が、前記結合価辞書から複写元エントリを取得する際、前記辞書拡張対象として選択された組合せについて、当該組合せの一方の見出しと第2自然言語の見出しとを持つレコードを前記結合価辞書から複写元エントリとして取得するステップからなる
ことを特徴とする結合価辞書拡張方法。 - 自然言語で用いられる用言ごとに当該用言の知識構造を示す格フレーム情報をレコードとして持つ結合価辞書を記憶する記憶部と、この記憶部から前記結合価辞書を読み出して情報処理することにより当該結合価辞書を自動的に拡張する演算処理部とを有する辞書拡張装置のコンピュータに、
前記記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報とを含むレコードを有する結合価辞書を記憶する結合価辞書記憶ステップと、
前記記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しと、当該用言に関する前記第1自然言語とは異なる第2自然言語の対訳表現とを含むレコードを有する第1自然言語対第2自然言語対訳辞書を記憶する第1自然言語対第2自然言語対訳辞書記憶ステップと、
前記記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しと、当該用言に関する第1自然言語および第2自然言語とは異なる中間自然言語の対訳表現とを含むレコードを有する第1自然言語対中間自然言語対訳辞書を記憶する第1自然言語対中間自然言語対訳辞書記憶ステップと、
前記演算処理部が、前記第1自然言語対第2自然言語対訳辞書に基づいて、同一第2自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せから第1自然言語組合せリスト1を作成する第1自然言語組合せリスト1作成ステップと、
前記演算処理部が、前記第1自然言語対中間自然言語対訳辞書に基づいて、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2を作成する第1自然言語組合せリスト2作成ステップと、
前記演算処理部が、第1自然言語組合せリスト1の組合せのうち、いずれか一方の見出しについてのみ当該見出しを持つレコードが前記結合価辞書に登録されている組合せを辞書拡張候補として抽出する対象第1自然言語抽出ステップと、
前記演算処理部が、前記辞書拡張候補として抽出された組合せのうち前記第1自然言語組合せリスト2に登録されている組合せを辞書拡張対象として選択する第1自然言語組合せリスト2検索ステップと、
前記演算処理部が、前記辞書拡張対象として選択された組合せについて、当該組合せの一方の見出しを持つレコードを前記結合価辞書から複写元エントリとして取得して、この複写元エントリに含まれる第1自然言語の見出しを前記組合せの他方の見出しで置換することにより新たなレコードを作成し、この新たなレコードを前記結合価辞書へ追加登録する辞書拡張管理ステップと
を実行させるプログラム。 - 請求項11に記載のプログラムにおいて、
前記第1自然言語対中間自然言語対訳辞書記憶ステップとして、前記記憶部が、前記第1自然言語対中間自然言語対訳辞書として、互いに異なる複数の中間言語に関する第1自然言語対中間自然言語対訳辞書をそれぞれ記憶するステップと、
前記第1自然言語組合せリスト2作成ステップとして、前記演算処理部が、前記各第1自然言語対中間自然言語対訳辞書ごとに、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2をそれぞれ作成するステップと、
前記第1自然言語組合せリスト2検索ステップとして、前記演算処理部が、前記辞書拡張候補として抽出された組合せのうち前記各第1自然言語組合せリスト2のいずれかに登録されている組合せを辞書拡張対象として選択するステップと
を実行させるプログラム。 - 請求項11に記載のプログラムにおいて、
前記第1自然言語対中間自然言語対訳辞書記憶ステップとして、前記記憶部が、前記第1自然言語対中間自然言語対訳辞書として、互いに異なる複数の中間言語に関する第1自然言語対中間自然言語対訳辞書をそれぞれ記憶するステップと、
前記第1自然言語組合せリスト2作成ステップとして、前記演算処理部が、前記各第1自然言語対中間自然言語対訳辞書ごとに、同一中間自然言語見出しを対訳表現として持つ互いに異なる2つのレコードの第1自然言語の見出しの組合せからなる第1自然言語組合せリスト2をそれぞれ作成するステップと、
前記第1自然言語組合せリスト2検索ステップとして、前記演算処理部が、前記辞書拡張候補として抽出された組合せのうち前記各第1自然言語組合せリスト2のすべてに登録されている組合せを辞書拡張対象として選択するステップと
を実行させるプログラム。 - 請求項11に記載のプログラムにおいて、
前記結合価辞書記憶ステップとして、前記記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報と前記第2自然言語の見出しとを含むレコードを有する結合価辞書を記憶するステップと、
前記第1自然言語組合せリスト1作成ステップとして、前記演算処理部が、前記第1自然言語組合せリスト1を作成する際、前記結合価辞書のレコードごとに、当該レコードの第1自然言語の見出しと、前記第1自然言語対第2自然言語対訳辞書のうち当該レコードの第2自然言語の見出しを持つレコードの第1自然言語の見出しとの組合せから前記第1自然言語組合せリスト1を作成するステップと
を実行させるプログラム。 - 請求項11に記載のプログラムにおいて、
前記結合価辞書記憶ステップとして、前記記憶部が、第1自然言語の用言ごとに、当該用言に関する第1自然言語の見出しおよびその品詞と当該用言に関する格フレーム情報と前記第2自然言語の見出しとを含むレコードを有する結合価辞書を記憶するステップと、
前記第1自然言語組合せリスト1作成ステップとして、前記演算処理部が、前記第1自然言語組合せリスト1を作成する際、前記2つの見出しと当該第2自然言語の見出しとから前記第1自然言語組合せリスト1を作成するステップと、
前記辞書拡張管理ステップとして、前記演算処理部が、前記結合価辞書から複写元エントリを取得する際、前記辞書拡張対象として選択された組合せについて、当該組合せの一方の見出しと第2自然言語の見出しとを持つレコードを前記結合価辞書から複写元エントリとして取得するステップと
を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004289788A JP4087829B2 (ja) | 2004-10-01 | 2004-10-01 | 結合価辞書拡張装置、方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004289788A JP4087829B2 (ja) | 2004-10-01 | 2004-10-01 | 結合価辞書拡張装置、方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006106926A JP2006106926A (ja) | 2006-04-20 |
JP4087829B2 true JP4087829B2 (ja) | 2008-05-21 |
Family
ID=36376625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004289788A Expired - Fee Related JP4087829B2 (ja) | 2004-10-01 | 2004-10-01 | 結合価辞書拡張装置、方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4087829B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108241986A (zh) * | 2016-12-23 | 2018-07-03 | 北京国双科技有限公司 | 一种数据处理方法和终端 |
-
2004
- 2004-10-01 JP JP2004289788A patent/JP4087829B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108241986A (zh) * | 2016-12-23 | 2018-07-03 | 北京国双科技有限公司 | 一种数据处理方法和终端 |
CN108241986B (zh) * | 2016-12-23 | 2021-12-24 | 北京国双科技有限公司 | 一种数据处理方法和终端 |
Also Published As
Publication number | Publication date |
---|---|
JP2006106926A (ja) | 2006-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4654745B2 (ja) | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム | |
US20070233460A1 (en) | Computer-Implemented Method for Use in a Translation System | |
Storrer et al. | Automated detection and annotation of term definitions in German text corpora. | |
JP2005507525A (ja) | 機械翻訳 | |
JP2008522332A (ja) | 自動的に文書を拡充するシステムおよび方法 | |
JP2008083952A (ja) | 辞書作成支援システム、方法及びプログラム | |
KR100918338B1 (ko) | 복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트 생성 방법, 장치 및 프로그램을 저장한 기록 매체 | |
Chiarcos et al. | Analyzing middle high German syntax with RDF and SPARQL | |
Seretan et al. | A tool for multi-word collocation extraction and visualization in multilingual corpora | |
Kermes et al. | YAC-A Recursive Chunker for Unrestricted German Text. | |
JP5025603B2 (ja) | 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法 | |
JP4087829B2 (ja) | 結合価辞書拡張装置、方法、およびプログラム | |
Dombrowski et al. | Language Is Not a Default Setting: Countering DH’s English Problem | |
JP5499546B2 (ja) | 重要語抽出方法、装置、プログラム、記録媒体 | |
JP4869281B2 (ja) | 機械翻訳装置、プログラム及び方法 | |
Borin et al. | Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information | |
JP4845857B2 (ja) | 機械翻訳装置及び機械翻訳プログラム | |
WO2009144890A1 (ja) | 翻訳前換言規則生成システム | |
JP4812811B2 (ja) | 機械翻訳装置及び機械翻訳プログラム | |
JP4588417B2 (ja) | 翻訳装置 | |
JP3437782B2 (ja) | 機械翻訳方法及びその装置並びに機械翻訳プログラムを記憶した媒体 | |
JP4417967B2 (ja) | 用例データベース及び用例検索システム | |
JP3236027B2 (ja) | 機械翻訳装置 | |
JP2009059290A (ja) | 外国語文書作成支援装置、外国語文書作成支援方法および外国語文書作成支援プログラム | |
JP5073423B2 (ja) | 訳語検索支援装置、訳語検索支援方法および訳語検索支援プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080221 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110228 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110228 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120229 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130228 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |