JP3580760B2 - 自動編集装置及び方法並びにこれに利用される記憶媒体 - Google Patents
自動編集装置及び方法並びにこれに利用される記憶媒体 Download PDFInfo
- Publication number
- JP3580760B2 JP3580760B2 JP2000156765A JP2000156765A JP3580760B2 JP 3580760 B2 JP3580760 B2 JP 3580760B2 JP 2000156765 A JP2000156765 A JP 2000156765A JP 2000156765 A JP2000156765 A JP 2000156765A JP 3580760 B2 JP3580760 B2 JP 3580760B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- syntax tree
- syntax
- rule table
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【発明が属する技術分野】
本発明は、機械翻訳システムなどの自然言語処理システムに適用され、ある自然言語文を構文解析して他の自然言語文に翻訳する前に、通常の表現形式とは異なる特有の形式をしている文を検索して通常の表現形式の文に書き換える自動編集装置及び方法並びにこれに利用される記憶媒体に関する。
【0002】
【従来の技術】
近年、WWW(ワールド・ワイド・ウェブ)を通じて英字新聞記事に接する機会が増えてきたことに伴い、より正確に英字新聞記事を日本語に翻訳する必要性が高まってきている。英字新聞記事は見出し(ヘッドライン)と本文から構成されるが、見出しは記事の最も重要な情報を伝える表現であるため、見出しを正確に翻訳することは他の表現の翻訳に比べてより一層重要である。
【0003】
英字新聞記事の見出しは、できるだけ少ない文字数でできるだけ多くの情報を伝えるためや、読者の注意を引くために、通常の文の表現形式とは異なる特有の形式をしている。このため、従来の英日機械翻訳システムでは適切に翻訳できない場合が多い。その原因は主に、見出し特有の表現に対して構文解析を適切に行うことができないことにある。これは、機械翻訳システムの構文解析規則が、標準的な表現を扱うことを前提に記述されいると考えられる。
【0004】
この問題に対し、文献「英字新聞記事見出し翻訳の自動前編集による改善」(言語処理学会第5回年次大会発表論文集、1999年3月、458〜461頁)の記載によれば、英字新聞記事の見出しを通常の表現形式に書き換える自動前編集系を既存の機械翻訳システムに追加することによって翻訳の品質の改善を図っている。
【0005】
上記文献(以下、先行技術と呼ぶ)によれば、例えば、見出し特有の表現のうち比較的高い頻度で見られるbe動詞の省略現象に対象を絞り、be動詞が省略されている見出しにbe動詞を正しく補う方法が開示されている。
例えば、“Sales up sharply in June”という見出しは、通常の機械翻訳システムでは適切に構文解析できない可能性が高いが、この自動前編集方法によって、例えば“Sales are up sharply in June”のように、be動詞“are”を補えば、従来の機械翻訳システムでも適切な翻訳が得られるようになる。
【0006】
【発明か解決しようとする課題】
上記の先行技術は、例えば、be動詞を補うべき見出し(be動詞が省略されているもの)と補うべきでない見出し(省略されていないもの)とを区別することはできる。しかし、先行技術は、be動詞の時制や相(aspect)の決定を行うことはできないので、be動詞の屈折形の生成はできない。
例えば、見出し“Sales up sharply in June”に補うbe動詞の時制(tense )は、“現在時制”に固定されているため、つまり“am”、“are ”、“is”のいずれかしか生成されない。本来、同じ文書中の他の文に記述されている内容から、be動詞は、現在形の“are”ではなく、過去形の“were”とすべきであるが、このような時制処理は実現されていない。
【0007】
本発明は以上の事情を考慮してなされたものであり、例えば、自然言語の文書から必要な単語を省略した特有表現の文を検索した際に、特有表現の文に対して省略された単語を推測して補完するとともに同じ文書中の他の通常表現の文の時制形態や相形態を認識し、必要な単語を補完した文の形態を認識した時制形態や相形態に書き換えることができる自動編集装置及び方法並びにこれに利用される記憶媒体を提供する。
【0008】
【課題を解決するための手段】
本発明は、辞書テーブル、形態素解析規則テーブル、単語補完規則テーブル、構文解析規則テーブル及び構文木マッチング規則テーブルを記憶したテーブルメモリと、自然言語で記述された複数の文からなる文書を入力する入力部と、辞書テーブル及び形態素解析規則テーブルを参照し、入力された文書中の各文に対して形態素解析を行う形態素解析部と、単語補完規則テーブルを参照し、形態素解析された各文のうち、必要な単語が省略された特有表現の文か通常表現の文かを判定し、特有表現の文ならば、省略された単語を推測して補完する単語補完部と、構文解析規則テーブルを参照し、規則テーブル形態素解析された各文を構文解析し、構文解析結果を構文木として出力する構文解析部と、構文木マッチング規則テーブルを参照し、特有表現の文の構文木と通常表現の文の構文木がマッチするか否かを判定し、二つの構文木がマッチした場合、通常表現の文の構文木から時制形態や相形態を認識する認識部と、必要な単語を補完した文の形態を認識した時制形態や相形態に書き換える書き換え部とを備えたことを特徴とする自動編集装置である。
【0009】
本発明によれば、自然言語の文書から必要な単語を省略した特有表現の文を検索した際に、特有表現の文に対して省略された単語を推測して補完するとともに同じ文書中の他の通常表現の文の時制形態や相形態を認識し、必要な単語を補完した文の形態を認識した時制形態や相形態に書き換えることができる。よって、本発明の自動編集装置を機械翻訳装置に用いることにより、自然言語文の翻訳の品質を向上することができる。
【0010】
前記特有表現の文の構文木が文書中の表題文の構文木であり、通常表現の文の構文木が表題文に対応する文書中のいずれか1つの文の構文木である構成にしてもよい。
【0011】
前記特有表現の文の構文木が文書中の新聞記事の見出しの構文木であり、通常表現の構文木が新聞記事の見出しに対応した文書中のいずれか1つの文の構文木である構成にしてもよい。
【0012】
前記書き換え部は、特有表現の文の構文木の節の形態を、通常表現の文の構文木の節の制形態や相形態に書き換える構成にしてもよい。
【0013】
前記特有表現の文が文書中の英字新聞記事の見出しであり、英字新聞記事の見出しの省略された必要な単語がbe動詞である構成にしてもよい。
【0014】
本発明の別の観点によれば、辞書テーブル、形態素解析規則テーブル、単語補完規則テーブル、構文解析規則テーブル及び構文木マッチング規則テーブルをテーブルメモリに記憶し、入力部を用いて、自然言語で記述された複数の文からなる文書を入力し、形態素解析部を用いて、辞書テーブル及び形態素解析規則テーブルを参照し、入力された文書中の各文に対して形態素解析を行い、単語補完部を用いて、単語補完規則テーブルを参照し、形態素解析された各文のうち、必要な単語が省略された特有表現の文か通常表現の文かを判定し、特有表現の文ならば、省略された単語を推測して補完し、構文解析部を用いて、構文解析規則テーブルを参照し、形態素解析された各文を構文解析し、構文解析結果を構文木として出力し、認識部を用いて、構文木マッチング規則テーブルを参照し、特有表現の文の構文木と通常表現の文の構文木がマッチするか否かを判定し、二つの構文木がマッチした場合、通常表現の文の構文木から時制形態や相形態を認識し、書き換え部を用いて、必要な単語を補完した文の形態を認識した時制形態や相形態に書き換えることを特徴とする自動編集方法が提供される。
【0015】
特に、英字新聞記事の見出しは、述語の時制や相や態などに関する情報が頻繁に省略される。しかし、時制や相や態などの決定に必要な情報は、英字新聞記事の本文中には明示されていることが多いので、英字新聞記事の本文中の文を参照することにより、見出しに明示されていない時制や相や態などを決定することができる。
【0016】
具体的には、見出しの構文木と記事本文中の各文の構文木とのマッチングを調べ、もし、見出しの構文木とマッチする文が存在する場合、その文のマッチ部分の時制や相や態などを見出しの時制や相や態などとする。
例えば、英字新聞記事の見出しを構文解析し、通常の表現形式に書き換える、be動詞の屈折形を、人称と数に基づいて区別するだけでなく、時制や相も考慮に入れて決定することができる。
【0017】
本発明は、このような考え方に基づくものであるが、この考えは次のように一般化できる。通常の表現形式とは異なる特有の形式をしている文を、通常の表現形式の文に書き換える際、その文に明示されていない必要な情報は、文書中の他の文で明示されている可能性があるので、必要な情報を発見することによって、文の書き換え精度を向上させることができる。
【0018】
以下、本発明の自然言語の自動編集機能を、英字新聞記事の見出しを対象とした場合について説明するが、本発明は、英字新聞記事の見出しに限らず、他の種類の文書のタイトル(表題)及び文章や文節の表題などの編集を対象とすることもでき、さらには一般の文を対象とすることもできる。
【0019】
【本発明の実施の形態】
以下、図に示す実施例に基づいて本発明を詳述する。なお、本発明はこれによって限定されるものではない。
【0020】
図1は本発明の一実施例である自動編集装置の構成を示すブロック図である。図1に示すように、本発明の自動編集装置は、制御部1、入力部2、出力部3、テーブルメモリ4、プログラムメモリ5、バッファメモリ6、制御プログラムデータ及びアドレスデータを転送するバス7、記憶媒体8から構成されている。
【0021】
制御部1は、例えば、コンピュータのCPU(中央処理装置)から構成され、プログラムメモリ5から制御プログラムを読み出し、この制御プログラムによりバス7を介して各部を制御することにより本発明の自動編集機能を実現する。入力部2は、例えば、キーボード、マウス、ペン、タブレット、スキャナ、文字認識装置などの入力装置や、通信回線と接続されている通信装置、記憶媒体読取装置などから構成され、入力部2は自然言語で記述された文書の入力、自動編集開始の指示、文書データの通信、制御プログラムのインストールなどを行う。
【0022】
出力部3は、例えば、CRT(陰極線管)ディスプレイ、LCD(液晶ディスプレイ)、PD(プラズマディスプレイ)などからなる表示装置や、サーマルプリンタ、レーザプリンタなどからなる印字装置、または通信回線と接続されている通信装置で構成され、出力部3は、入力部2による入力結果、制御部1の制御により、自動編集結果や翻訳結果を表示装置に表示したり、印字装置を介して印字したり、通信装置を介して送信する。
【0023】
テーブルメモリ4は、例えば、マスクROM、EPROM、EEPROM、フラッシュROM等による半導体メモリ、あるいは磁気テープやカセットテープ等のテープ系、フロッピーディスクやハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD等の光ディスクのディスク系、ICカード(メモリカードも含む)/光カード等のカード系等を含めた記憶媒体から構成される
【0024】
また、テーブルメモリ4は、単語、品詞情報を記憶した辞書テーブル4a、文書を形態素解析するための形態素解析規則を記憶した形態素解析規則テーブル4b、見出しのbe動詞などの単語を補完するための単語補完規則を記憶した単語補完規則テーブル4c、文を構文解析するための構文解析規則を記憶した構文解析規則テーブル4d、構文木マッチングを行うための構文木マッチング規則を記憶した構文木マッチング規則テーブル4e、類義語を記憶した類義語辞書テーブル4fとして機能する。
【0025】
プログラムメモリ5は、例えば、マスクROM、EPROM、EEPROM、フラッシュROM等による半導体メモリ、あるいは磁気テープやカセットテープ等のテープ系、フロッピーディスクやハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD等の光ディスクのディスク系、ICカード(メモリカードも含む)/光カード等のカード系等を含めた記憶媒体から構文される。
【0026】
また、プログラムメモリ5は、形態素解析部5a、単語補完部5b、構文解析部5c、認識部5d、書き換え部5eとして機能する各制御プログラムを記憶している。
【0027】
バッファメモリ6は、例えば、RAM、EEPROM、フラッシュROM等による半導体メモリ、あるいは磁気テープやカセットテープ等のテープ系、フロッピーディスクやハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD等の光ディスクのディスク系、ICカード(メモリカードも含む)/光カード等のカード系等を含めた記憶媒体から構文される。
【0028】
また、バッファメモリ6は、入力部1より入力された文書を記憶する文書バッファ6a、形態素解析結果を記憶する形態素解析結果バッファ6b、単語補完結果を記憶する単語補完結果バッファ6c、構文解析結果を記憶する構文解析結果バッファ6d、書き換え結果を記憶する書き換え結果バッファ6eとして機能する領域に備えている。
書き換え結果バッファ6eに記憶されている内容は、バス7を介して出力部3に出力される。
【0029】
また、図1において、形態素解析部5aは、文書バッファ6aに記憶されている各文に対して、辞書テーブル4aと形態素解析規則テーブル4bとを参照しながら形態素解析を行い、文中の各語について品詞などの形態素・語彙属性を出力する。その形態素解析結果をバッファメモリ6中の形態素解析結果バッファ6bに記憶する。
【0030】
単語補完部5bは、形態素解析結果バッファ6bに記憶されている形態素解析結果に対して、単語補完規則テーブル4cを参照しながら必要な単語の補完を行い、補完した単語を単語補完結果バッファ6cに記憶する。
例えば、単語補完部5bは、英字新聞記事の見出しのbe動詞を補完することができるが、このbe動詞補完処理は、入力された文書が英字新聞記事の見出しである場合にのみ必要な処理である。
【0031】
構文解析部5cは、形態素解析結果バッファ6bや単語補完結果バッファ6cに記憶されている形態素、語彙属性列に対して、構文解析規則テーブル4dを参照しながら構文解析を行い、構文解析結果から得られた構文木を構文解析結果バッファ6dに記憶する。
【0032】
認識部5dは、構文解析結果バッファ6dに記憶されている各構文木に対して、構文木マッチング規則テーブル4eと類義語辞書テーブル4fを参照しながら、二つの構文木(特有表現の文の構文木と通常表現の文の構文木)がマッチするか否かを判定し、二つの構文木がマッチした場合、単語を補完しない通常表現の文の構文木から時制形態や相形態を認識する。
書き換え部5eは、二つの構文木のマッチに成功した場合、特有表現の文の構文木の節の形態を、通常表現の文の構文木の節の時制形態や相形態に書き換え、その書き換え結果を書き換え結果バッファ6eに記憶する。つまり、書き換え部5eは、必要な単語を補完した文の形態を、認識部5dで認識した時制形態や相形態に書き換える。
【0033】
また、本発明の自動編集機能を実現するために、辞書テーブル4a、形態素解析規則テーブル4b、単語補完規則テーブル4c、構文解析規則テーブル4d及び構文木マッチング規則テーブル4eをテーブルメモリ4に記憶する機能と、入力部2を用いて、自然言語で記述された複数の文からなる文書を入力する機能と、形態素解析部5aを用いて、辞書テーブル4a及び形態素解析規則テーブル4bを参照し、入力された文書中の各文に対して形態素解析を行う機能と、単語補完部5bを用いて、単語補完規則テーブル4cを参照し、形態素解析された各文のうち、必要な単語が省略された特有表現の文か通常表現の文かを判定し、特有表現の文ならば、省略された単語を推測して補完する機能と、構文解析部5cを用いて、構文解析規則テーブル4dを参照し、形態素解析された各文を構文解析し、構文解析結果を構文木として出力する機能と、認識部5dを用いて、構文木マッチング規則テーブル4eを参照し、特有表現の文の構文木と通常表現の文の構文木がマッチするか否かを判定し、二つの構文木がマッチした場合、通常表現の文の構文木から時制形態や相形態を認識する機能と、書き換え部5eを用いて、必要な単語を補完した文の形態を認識した時制形態や相形態に書き換える機能とをコンピュータに実行させる自動編集プログラムを記憶した記憶媒体8を利用してもよい。
【0034】
記憶媒体8は、例えば、マスクROM、EPROM、EEPROM、フラッシュROM等による半導体メモリ、あるいは磁気テープやカセットテープ等のテープ系、フロッピーディスクやハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD等の光ディスクのディスク系、ICカード(メモリカードも含む)/光カード等のカード系等を含めた本体と分離可能なメディアで構成した固定的にプログラムを担持する記憶媒体を示し、記憶媒体8に本発明の自然言語自動編集プログラムを記憶し、入力部2の記憶媒体読取装置を介してバッファメモリ6の予備領域に自動編集プログラムをインストールすることにより本発明の自動編集機能を実現してもよい。
【0035】
また、この記憶媒体8は、本自動編集装置がインターネットを含めた外部の通信ネットワークとの接続可能な通信装置を備えている場合には、その通信装置を介して通信ネットワークからプログラムをダウンロードするように流動的にプログラムを担持する媒体であってもよい。なお、このように通信ネットワークからプログラムをダウンロードする場合には、そのダウンロード用プログラムは予め本体装置に格納しておくか、あるいは別な記憶媒体からインストールされるものであってもよい。なお、記憶媒体8に格納されている内容としてはプログラムに限定されず、データであってもよい。
【0036】
図2は本実施例の自動編集装置の処理手順を示すフローチャートである。図2に用いて、本発明の自動編集装置の処理手順を、英字新聞記事の見出し書き換え処理として説明する。
Step1:形態素解析部5aは、文書バッファ6aに記憶されている英字新聞記事の見出し(ヘッドライン)に対して、辞書テーブル4aと形態素解析規則テーブル4bを参照しながら形態素解析を行う。その形態素解析結果を形態素解析結果バッファ6bに記憶する。
【0037】
この形態素解析は、非常によく知られている一般的な技術であり、例えば、文献「自然言語処理」(長尾眞 岩波書店1997)などに解説があるので、説明は略す。
【0038】
Step2:単語補完部5bは、単語補完規則テーブル4cを参照しながら、形態素解析結果に対して、見出しにbe動詞の補完が必要な場合に先行技術に基づいてbe動詞を補完する。このbe動詞補完処理が行われた見出しは、単語補完結果バッファ6cに記憶される。
【0039】
例えば、見出し“Sales up sharply in June”に対して処理を行うと、“Sales are up sharply in June”を形態素解析して得られる結果と同じ結果が単語補完結果バッファ6cに記憶される。
また、“Government approves‘bridge bank’scheme”という見出しを処理した場合、この見出しに対しては、be動詞は補完されないので、単語補完結果バッファ6cには形態素解析結果バッファ6bの内容と同じ内容が記憶される。
【0040】
Step3:構文解析部5cは、構文解析規則テーブル4dを参照しながら、単語補完結果に対して構文解析を行い、その構文解析結果(新聞記事の見出しの構文木)を構文解析結果バッファ6dに記憶する。構文解析処理も、形態素解析処理と同じく公知の技術であるので、説明は省略する。
Step4:制御部1は、現在、処理中の文が新聞記事の本文中の何番目の文であるかを示すカウンタの数値iを1にセットする。
【0041】
Step5:形態素解析部5aは、新聞記事の本文中の第i番目の文に対して辞書テーブル4aと形態素解析規則テーブル4bを参照しながら形態素解析を行い、その形態素解析結果を形態素解析結果バッファ6bに記憶する。続いて、構文解析部5cは、形態素解析結果に対して構文解析規則テーブル4dを参照しながら、構文解析を行い、その構文解析結果(新聞記事の本文中の第i番目の文の構文木)を構文解析結果バッファ6dに記憶する。
【0042】
Step6:認識部5dは、構文木マッチング規則テーブル4eと類義語辞書テーブル4fを参照しながら、構文解析結果に対して、見出しの構文木と、新聞記事の本文中の第i番目の文の構文木とがマッチするかどうかを調べる。マッチすれば、Step7の処理へ移行し、マッチしなければ、Step8の処理へ移行する。
Step7:認識部5dは、第i文のマッチした構文木の時制を、見出しのマッチした構文木の時制に決定し、書き換え部5eは、補完したbe動詞に対し、時制処理が行って処理を終える。
【0043】
Step8:処理の終了条件を調べ、もし、終了条件が成り立てば処理を終える。もし、終了条件が成り立たなければ、Step9へ移行する。
Step9:もし、終了条件が成り立たなければ、文カウンターiを1増やしてStep5に戻る。終了するかどうかは、カウンタの数値iがある一定値nを越えるかどうかで判断する。
【0044】
nとしては、処理対象の記事の全文数をとってもよいし、あるいは記事の第一段落に含まれる文数をとってもよいし、あるいは、見出しが記事の第一文とマッチする可能性は、他の文とマッチする可能性よりもかなり高いので、n=1としてもよい。
【0045】
ここで、Step6の処理について、下記に示す英字新聞記事の自動編集例を挙げながら詳細に説明する。なお、Hは見出しを示し、Siは記事本文の第i文を示すものとする。
H Government approves‘bridge bank’scheme
S1 The government on Thursday approved a“bridge bank ”plan to take over banks that fail and extend loans to sound borrowers.
S2 The plan was based on a draft appoved and announced by ruling Liberal Democratic Party earlier in the day.
【0046】
Step5までの処理において、上記の英字新聞記事の見出しの構文解析と第一文の構文解析が終了しており、図3に示す英字新聞記事の構文木が得られているものとする。
図3は本実施例の構文解析結果から取得した新聞記事の構文木の構造例を示す図である。図3(a)は見出しの構文木の構造例を示す。図3(b)は第一文の構文木の構造例を示す。図3に示すように、構文木の枝には節点とその子節点との関係を示すラベルが付与されている。
【0047】
例えば、ラベル“AGT”は、子節点“government”が、節点“apporove”の行為者格であることを意味し、“OBJ”、“TIME”、及び“GOAL”は、それぞれ目的格、時間格、目標格を意味する。
図3(b)において、第一文の構文木の“take over”を根節点とする部分構文木の構造は省略する。
【0048】
ここで、構文木の包含関係を次のように定める。
定義:構文木Xが、構文木Yに含まれるとは、以下の関係を満たす場合をいう。Xの根節点(親節点を持たない節点)R自体あるいはRの類義語がY上に存在する。このとき、R自体あるいはRの類義語を根節点とするYの部分構文木をZとすると、XとZが次の条件1または条件2を満たす。
【0049】
条件1:Xの根節点Rが終端節点(子節点を持たない節点)ならば、R自体あるいはRの類義語がZの根節点である。
条件2:Xの根節点Rが非終端節点ならば、R自体あるいはRの類義語がZの根節点であり、かつ、Rのすべての子節点N1,N2,……,Nn について、RとNi(1≦i≦n)との関係がZにおいて成立する。さらに、この関係を満たすZの部分構文木をZiとするとき、Niを根節点とするXの部分構文木をXiと、Ziとの間で条件1または2が成り立つ。この定義は、構文木マッチング規則テーブル4eに記憶されている。(なお、上の説明では条件を自然言語で記載しているが、実際には自動編集装置が一義に認識可能なデータ形式で符号化して記憶されていることは言うまでもない。)
【0050】
Step6の構文木のマッチング処理では、新聞記事の見出しの構文木と、新聞記事の本文中の第i番目の文の構文木の間で、上記の定義に定めた包含関係が成り立つ場合、二つの構文木がマッチするものとみなす。なお、格節点に対応する語句の類義語は、類義語辞書テーブル4fによって求めることができるものとする。
【0051】
今、図3の見出しHの構文木をXとし、記事第一文S1 の構文木をYとする。このとき、Xの根節点“approve”はYの根節点として存在するので、Yそのものが部分構文木Zとなる。
XとZについて条件1または2が成り立つかを調べる。明らかに、Xの根節点とZの根節点は一致する。Xにおける根節点“approve”とその子節点との関係“AGT”、“OBJ”は、Zにおいても成り立っている。
【0052】
従って、“government”を根節点とするXの部分構文木X1と、同じく“government”を根節点とするZの部分構文木Z1 との間で、条件1または条件2が成り立つかを調べると、条件1が成り立つことがわかる。
【0053】
同様に、“scheme”を根節点とするXの部分構文木X2と、“plan”を根節点とするZの部分構文木Z2との間で条件が成り立つかどうかを調べるが、類義語辞書テーブル4fに“scheme”と“plan”が類義語関係にあることが記述されているものとする。これら二つの部分構文木X2とZ2も条件を満たすことがわかる。
【0054】
以上の処理により、見出しHの構文木が第一文S1の構文木に含まれることになり、図2のStep6からStep7へ移行し、第一文の構文木のマッチ部分の時制を見出しのマッチした構文木の時制に決定して書き換えると、見出しは、“Government approved‘bridge bank’scheme”と書き換えられる。
【0055】
新聞記事の見出しでは、過去の事柄も現在形で表現されることが多いため、“approve”の時制をそのまま現在と解釈することは正しくない。この問題に対して、本発明によれば、見出しでは、通常明示されていない時制情報を新聞記事の本文中の文から得ることが可能となり、時制を正しく解釈することができる。
【0056】
【発明の効果】
本発明によれば、自然言語の文書から必要な単語を省略した特有表現の文を検索した際に、特有表現の文に対して省略された単語を推測して補完するとともに同じ文書中の他の通常表現の文の時制形態や相形態を認識し、必要な単語を補完した文の形態を認識した時制形態や相形態に書き換えることができる。よって、本発明の自動編集装置を機械翻訳装置に用いることにより、自然言語文の翻訳の品質を向上することができる。
【図面の簡単な説明】
【図1】本発明の一実施例である自動編集装置の構成を示すブロック図である。
【図2】本実施例の自動編集装置の処理手順を示すフローチャートである。
【図3】本実施例の構文解析結果から取得した新聞記事の構文木の一例を示す図である。
【符号の説明】
1 制御部
2 入力部
3 出力部
4 テーブルメモリ
4a 辞書テーブル
4b 形態素解析規則テーブル
4c 単語補完規則テーブル
4e 構文木マッチング規則テーブル
4d 類義語辞書テーブル
5 プログラムメモリ
5a 形態素解析部
5b 単語補完部
5c 構文解析部
5d 認識部
5e 書き換え部
6 バッファメモリ
6a 文書バッファ
6b 形態素解析結果バッファ
6c 単語補完結果バッファ
6d 構文解析結果バッファ
6e 書き換え結果バッファ
7 バスライン
8 記憶媒体
Claims (8)
- 辞書テーブル、形態素解析規則テーブル、構文解析規則テーブル及び構文木マッチング規則テーブルを記憶したテーブルメモリと、
自然言語で記述された複数の文からなる文書を入力する入力部と、
辞書テーブル及び形態素解析規則テーブルを参照し、入力された文書中の各文に対して形態素解析を行う形態素解析部と、
構文解析規則テーブルを参照し、形態素解析された各文を構文解析し、構文解析結果を構文木として出力する構文解析部と、
構文木マッチング規則テーブルを参照し、見出しの文の構文木と本文中の文の構文木がマッチするか否かを判定し、二つの構文木がマッチした場合、本文中の文の構文木の時制形態や相形態を認識する認識部と、
見出しの文の時制形態や相形態を、認識した時制形態や相形態に書き換える書き換え部とを備えたことを特徴とする自動編集装置。 - 前記テーブルメモリは、単語補完規則テーブルを更に記憶し、
前記単語補完規則テーブルを参照し、形態素解析された各文のうち、必要な単語が省略された特有表現の文か通常表現の文かを判定し、特有表現の文ならば、省略された単語を推測して補完する単語補完部を更に備え、
前記認識部は、構文木マッチング規則テーブルを参照し、特有表現の文の構文木と通常表現の文の構文木がマッチするか否かを判定し、二つの構文木がマッチした場合、通常表現の文の構文木の時制形態や相形態を認識し、
前記書き換え部は、必要な単語を補完した文の時制形態や相形態を、認識した時制形態や相形態に書き換えることを特徴とする請求項1に記載の自動編集装置。 - 前記特有表現の文の構文木が文書中の表題文の構文木であり、通常表現の文の構文木が表題文に対応する文書中のいずれか1つの文の構文木であることを特徴とする請求項2記載の自動編集装置。
- 前記特有表現の文の構文木が文書中の新聞記事の見出しの構文木であり、通常表現の構文木が新聞記事の見出しに対応した文書中のいずれか1つの文の構文木であることを特徴とする請求項2記載の自動編集装置。
- 前記書き換え部は、特有表現の文の構文木の節の時制形態や相形態を、通常表現の文の構文木の節の時制形態や相形態に書き換えることを特徴とする請求項2記載の自動編集装置。
- 前記単語補完部は、前記単語補完規則テーブルを参照し、形態素解析された各文のうち、be動詞が省略された特有表現の文か通常表現の文かを判定し、特有表現の文ならば、省略されたbe動詞を推測して補完することを特徴とする請求項2記載の自動編集装置。
- 辞書テーブル、形態素解析規則テーブル、構文解析規則テーブル及び構文木マッチング規則テーブルをテーブルメモリに記憶し、
入力部を用いて、自然言語で記述された複数の文からなる文書を入力し、
形態素解析部を用いて、辞書テーブル及び形態素解析規則テーブルを参照し、入力された文書中の各文に対して形態素解析を行い、
構文解析部を用いて、構文解析規則テーブルを参照し、形態素解析された各文を構文解析し、構文解析結果を構文木として出力し、
認識部を用いて、構文木マッチング規則テーブルを参照し、見出しの文の構文木と本文中の文の構文木がマッチするか否かを判定し、二つの構文木がマッチした場合、本文中の文の構文木から時制形態や相形態を認識し、
書き換え部を用いて、見出しの文の時制形態や相形態を、認識した時制形態や相形態に書き換えることを特徴とする自動編集方法。 - 自動編集装置に利用される記憶媒体であって、
辞書テーブル、形態素解析規則テーブル、構文解析規則テーブル及び構文木マッチング規則テーブルをテーブルメモリに記憶する機能と、
入力部を用いて、自然言語で記述された複数の文からなる文書を入力する機能と、
形態素解析部を用いて、辞書テーブル及び形態素解析規則テーブルを参照し、入力された文書中の各文に対して形態素解析を行う機能と、
構文解析部を用いて、構文解析規則テーブルを参照し、形態素解析された各文を構文解析し、構文解析結果を構文木として出力する機能と、
認識部を用いて、構文木マッチング規則テーブルを参照し、見出しの文の構文木と本文中の文の構文木がマッチするか否かを判定し、二つの構文木がマッチした場合、本文中の文の構文木から時制形態や相形態を認識する機能と、
書き換え部を用いて、見出しの文の時制形態や相形態を、認識した時制形態や相形態に書き換える機能とをコンピュータに実行させる自動編集プログラムを記憶した記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000156765A JP3580760B2 (ja) | 2000-05-26 | 2000-05-26 | 自動編集装置及び方法並びにこれに利用される記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000156765A JP3580760B2 (ja) | 2000-05-26 | 2000-05-26 | 自動編集装置及び方法並びにこれに利用される記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001337945A JP2001337945A (ja) | 2001-12-07 |
JP3580760B2 true JP3580760B2 (ja) | 2004-10-27 |
Family
ID=18661505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000156765A Expired - Fee Related JP3580760B2 (ja) | 2000-05-26 | 2000-05-26 | 自動編集装置及び方法並びにこれに利用される記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3580760B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4720309B2 (ja) * | 2005-06-15 | 2011-07-13 | 富士ゼロックス株式会社 | 文書読取システム |
JP5533377B2 (ja) * | 2010-07-13 | 2014-06-25 | 富士通株式会社 | 音声合成装置、音声合成プログラムおよび音声合成方法 |
CN110287491B (zh) * | 2019-06-25 | 2024-01-12 | 北京百度网讯科技有限公司 | 事件名生成方法及装置 |
-
2000
- 2000-05-26 JP JP2000156765A patent/JP3580760B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001337945A (ja) | 2001-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3220560B2 (ja) | 機械翻訳装置 | |
US5890103A (en) | Method and apparatus for improved tokenization of natural language text | |
JP3476237B2 (ja) | 構文解析装置 | |
US6243670B1 (en) | Method, apparatus, and computer readable medium for performing semantic analysis and generating a semantic structure having linked frames | |
US6269189B1 (en) | Finding selected character strings in text and providing information relating to the selected character strings | |
US7243305B2 (en) | Spelling and grammar checking system | |
US9122674B1 (en) | Use of annotations in statistical machine translation | |
US5784489A (en) | Apparatus and method for syntactic signal analysis | |
US20080103757A1 (en) | Technique for improving accuracy of machine translation | |
JPH07325828A (ja) | 文法チェックシステム | |
JPH1074203A (ja) | 大文字及び非強調テキストの語彙処理の方法及びシステム | |
US6424982B1 (en) | System and method for parsing a document using one or more break characters | |
US8327265B1 (en) | System and method for parsing a document | |
US7398210B2 (en) | System and method for performing analysis on word variants | |
US5299124A (en) | Translation machine capable of analyzing syntactic of sentence | |
CA2504111A1 (en) | Critiquing clitic pronoun ordering in french | |
US8041556B2 (en) | Chinese to english translation tool | |
US6385569B1 (en) | Translator, translating method and recording medium having translating program recorded thereon | |
JP3580760B2 (ja) | 自動編集装置及び方法並びにこれに利用される記憶媒体 | |
JP2003323425A (ja) | 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム | |
US20020133331A1 (en) | Correcting incomplete negation errors in French language text | |
JP2000268034A (ja) | テキスト自動前編集装置及び方法並びにこれに利用される記憶媒体 | |
Ouersighni | Robust rule-based approach in Arabic processing | |
JPH07200592A (ja) | 文章処理装置 | |
JP3696765B2 (ja) | 辞書作成装置、辞書作成方法、辞書作成プログラムを記録したコンピュータで読取可能な記録媒体および翻訳装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040601 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040706 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040720 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070730 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080730 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080730 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090730 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100730 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110730 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110730 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120730 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120730 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130730 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |