JP2001117919A - 自然言語文自動前編集装置及び方法並びにこれに利用される記憶媒体 - Google Patents

自然言語文自動前編集装置及び方法並びにこれに利用される記憶媒体

Info

Publication number
JP2001117919A
JP2001117919A JP29990499A JP29990499A JP2001117919A JP 2001117919 A JP2001117919 A JP 2001117919A JP 29990499 A JP29990499 A JP 29990499A JP 29990499 A JP29990499 A JP 29990499A JP 2001117919 A JP2001117919 A JP 2001117919A
Authority
JP
Japan
Prior art keywords
sentence
natural language
editing
input
language sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP29990499A
Other languages
English (en)
Inventor
Takehiko Yoshimi
毅彦 吉見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP29990499A priority Critical patent/JP2001117919A/ja
Publication of JP2001117919A publication Critical patent/JP2001117919A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 自然言語処理システムに適用する自然言語文
の前編集を、より精度が高く、より高速に行うことを可
能にする。 【解決手段】 自然言語の単語について品詞情報などの
語彙属性を含む形態素情報を記憶した形態素情報テーブ
ルと、形態素情報に基づいた自然言語文の前編集規則を
記憶した前編集規則テーブルと、自然言語文及びその前
編集指示を入力する入力部と、形態素情報テーブルを参
照し、入力された自然言語文の各単語に対して形態素解
析を行い、各単語の形態素情報を抽出する形態素解析部
と、入力された自然言語文が特殊表現の文か否かを形態
素解析結果から得られた形態素情報と前編集規則テーブ
ルの前編集規則に基づいて判断するとともに特殊表現の
文であれば標準的表現の文に書き換えて前編集する前編
集部と、前編集された自然言語文を出力する出力部とか
ら構成される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自然言語で記述さ
れた文を自然言語処理システムに入力する際に、特殊な
表現文であれば、意味を変えない範囲で標準的な表現文
に前編集して自然言語処理システムの処理精度、処理速
度の向上を図る自然言語文前編集装置及び方法並びにこ
れに利用される記憶媒体に関する。
【0002】
【従来の技術】従来から実務で運用されている機械翻訳
システムなどの実用的な自然言語処理システムとして
は、例えば、科学技術論文、特許明細書、電子機器の取
り扱い説明書、報道記事など多種多様な内容を待つ文書
を処理対象としている。通常、機械翻訳システムで、こ
のように多種多様な内容を持つ文書を解析するための規
則は、標準的な表現に対応することを目的に記述されて
いる。しかしながら、文書の分野や種類によっては、標
準的な表現とは異なる特殊な表現形式が多用されること
があるため、このような表現形式の自然言語文を従来の
機械翻訳システムで適切に翻訳することは困難である。
その原因は、主に、特殊な表現文に対する構文解析が適
切に行えないことにある。
【0003】既存の構文解析規則を用いて適切に扱えな
い表現文の翻訳に対する対応策として、一部例外的に特
殊な表現文が扱えるように構文解析規則を拡張する方法
が採用されている。例えば、入力文に対して構文解析を
行い、その構文解析結果(構文木)に含まれる冗長な表
現文に対して書き換え処理を行う従来例1として、「自
然言語変換方法」(特開平5―108709号公報)、
さらに従来例2として、「日英機械翻訳における原文自
動書き替え型翻訳方式とその効果」(情報処理学会論文
誌36巻1号12―21頁)などが知られている。
【0004】
【発明が解決しようとする課題】しかしながら、特殊な
表現形式の入力文が扱えるように既存の構文解析規則を
拡張する方法には、次のような問題がある。 (1)整合性の問題:実用システムでは構文解析規則の
規模が非常に大きくなっているため、既存規則との整合
性を保ちながら新たな構文解析規則を追加することは容
易ではない。 (2)汎用性の問題:特殊な表現を扱うための構文解析
規則と、標準的な表現を扱うための構文解析規則とを混
在させると、既存の構文解析規則の汎用性が損なわれ
る。
【0005】従来例1の「自然言語変換方法」や従来例
2の「日英機械翻訳における原文自動書き替え型翻訳方
式とその効果」に示される方法では、構文解析規則の整
合性、汎用性に対する問題は少ないが、これらには次の
ような問題がある。 (3)頑健性の問題:現状では、十分精度の高い構文解
析を実現することは困難であり、構文解析が失敗するこ
とが多い。この構文解析の失敗により、結果が何も出力
されない場合や、あるいは誤った解析結果が出力された
場合、正しい書き替え結果が得られないという点で前編
集の頑健性(信頼性)が低い。 (4)処理効率の問題:適用条件として構文解析規則を
記述し、入力文の構文解析結果(構文木)と適用条件と
のマッチングを調べる処理は、一般にそれほど単純なも
のではない。このため、特に適用条件の情報量や、構文
木の数が膨大になった場合、処理速度の低下が予想され
る。
【0006】本発明は以上の事情を考慮してなされたも
のであり、例えば、形態素情報テーブルと前編集規則テ
ーブルを用いて、自然言語処理システムに適用する自然
言語文の前編集を行うことにより、構成解析規則の追加
による整合性、汎用性の問題、構文解析による前編集の
信頼性、構文解析による情報量の増大の問題を解決し、
構文解析による前編集に比べてより精度が高く、より高
速に行うことができる自然言語文自動前編集装置及び方
法並びにこれに利用される記憶媒体を提供する。
【0007】
【課題を解決するための手段】本発明は、自然言語の単
語について品詞情報などの語彙属性を含む形態素情報を
記憶した形態素情報テーブルと、形態素情報に基づいた
自然言語文の前編集規則を記憶した前編集規則テーブル
と、自然言語文及びその前編集指示を入力する入力部
と、形態素情報テーブルを参照し、入力された自然言語
文の各単語に対して形態素解析を行い、各単語の形態素
情報を抽出する形態素解析部と、入力された自然言語文
が特殊表現の文か否かを形態素解析結果から得られた形
態素情報と前編集規則テーブルの前編集規則に基づいて
判断するとともに特殊表現の文であれば標準的表現の文
に書き換える前編集部と、書き換えた前編集文を出力す
る出力部とを備えたことを特徴とする自然言語文自動前
編集装置である。
【0008】本発明によれば、形態素情報テーブルと前
編集規則テーブルを用いて、自然言語処理システムに適
用する自然言語文の前編集を行うことにより、構成解析
規則の追加による整合性、汎用性の問題、構文解析によ
る前編集の信頼性、構文解析による情報量の増大の問題
を解決し、構文解析による前編集に比べてより精度が高
く、高速に行うことが可能になる。なぜなら、構文木の
マッチングに比べて形態素情報のマッチングは単純であ
るため、高い精度が得られ、形態素解析結果の情報量
は、一般に、構文解析結果の情報量に比べて遥かに小さ
いため、高速な処理が可能となる。つまり、形態素解析
や構文解析の既存規則は変更せず、特殊な表現文を標準
的な表現文に書き換えるための前編集規則を、既存規則
から独立させた形式で記憶することにより、既存規則の
汎用性、整合性を維持し、既存規則による処理も適切に
行うことができる。
【0009】前記前編集規則テーブルは、前編集する入
力文に対し、本来明示されるべき必要語句が省略されて
いる場合に必要語句を補完する省略語句補完規則、実質
的に意味がない冗長語句が含んでいる場合に冗長語句を
削除する冗長語句削除規則、複雑な表現の語句が含んで
いる場合に意味を変えないで簡潔な表現の語句に置換す
る語句置換規則、長文である場合に複数の短文に分割す
る文分割規則、前編集記号を挿入して、節や句の範囲及
び品詞や従属先を指示する前編集記号挿入規則の少なく
とも1つ以上記憶した構成にしてもよい。
【0010】この構成によれば、前編集する入力文に対
し、必要語句が省略されているならば、必要な語句を補
完し、冗長語句が含んでいるならば、冗長語句を省略
し、複雑な表現の語句があれば、意味を変えないで簡潔
な表現の語句に置換し、長文であるならば、複数の短文
に分割し、要求に応じて、節や句、品詞、従属先を指示
する前編集記号を挿入する前編集が可能になる。
【0011】前記前編集された自然言語文が自然言語イ
ンターフェイスに入力される入力文であってもよい。こ
の構成によれば、自然言語インターフェイスは、この前
編集された自然言語文を入力文とすることにより、入力
文の解析や変換の精度及び処理速度の向上が期待でき
る。
【0012】前記前編集された自然言語文が機械翻訳装
置に入力される入力文であってもよいる。この構成によ
れば、機械翻訳装置は、この前編集された自然言語文を
入力文とすることにより、解析、翻訳の精度及び処理速
度の向上が期待できる。
【0013】本発明の別の観点によれば、形態素情報テ
ーブルを用いて、自然言語の単語について品詞情報など
の語彙属性を含む形態素情報を記憶し、前編集規則テー
ブルを用いて、形態素情報に基づいた自然言語文の前編
集規則を記憶し、入力部を用いて、自然言語文及びその
前編集指示を入力し、形態素解析部を用いて、形態素情
報テーブルを参照し、入力された自然言語文の各単語に
対して形態素解析を行い、各単語の形態素情報を抽出
し、前編集部を用いて、入力された自然言語文が特殊表
現の文か否かを形態素解析結果から得られた形態素情報
と前編集規則テーブルの前編集規則に基づいて判断する
とともに特殊表現の文であれば標準的表現の文に書き換
え、出力部を用いて、書き換えた前編集文を出力するこ
とを特徴とする自然言語文自動前編集方法が提供され
る。
【0014】また、本発明の別の観点によれば、形態素
情報テーブルを用いて、自然言語の単語について品詞情
報などの語彙属性を含む形態素情報を記憶する機能と、
前編集規則テーブルを用いて、形態素情報に基づいた自
然言語文の前編集規則を記憶する機能と、入力部を用い
て、自然言語文及びその前編集指示を入力する機能と、
形態素解析部を用いて、形態素情報テーブルを参照し、
入力された自然言語文の各単語に対して形態素解析を行
い、各単語の形態素情報を抽出する機能と、前編集部を
用いて、入力された自然言語文が特殊表現の文か否かを
形態素解析結果から得られた形態素情報と前編集規則テ
ーブルの前編集規則に基づいて判断するとともに特殊表
現の文であれば標準的表現の文に書き換える機能と、出
力部を用いて、書き換えた前編集文を出力する機能とを
コンピュータに実行させる自然言語文前編集プログラム
を記憶した記憶媒体が提供される。
【0015】
【発明の実施の形態】以下、図に示す実施例に基づいて
本発明を詳述する。なお、本発明はこれによって限定さ
れるものではない。
【0016】図1は本発明の一実施例である自然言語文
自動前編集装置の構成を示すブロック図である。図1に
示すように、自然言語文自動前編集装置は、制御部1、
入力部2、出力部3、プログラムメモリ4、テーブルメ
モリ5、バッファメモリ6、記憶媒体7、バスライン8
から構成されている。
【0017】制御部1は、コピュータのCPU(中央処
理装置)で構成され、バスライン8を介してプログラム
メモリ4に記憶された制御プログラムによって各部を制
御する。
【0018】入力部2は、例えば、キーボード、マウ
ス、ペン、タブレット、スキャナーなどの入力装置、文
字認識装置、記憶媒体読取装置、または通信回線と接続
されている通信装置などから構成され、自然言語で記述
された文の入力、前編集処理の指示、他の情報処理端末
とのデータ通信、制御プログラムのインストールなどを
行う。
【0019】出力部3は、CRT(陰極線管)ディスプ
レイ、LCD(液晶ディスプレイ)、PD(プラズマデ
ィスプレイ)などからなる表示装置や、サーマルプリン
タ、レーザプリンタなどからなる印刷装置で構成され、
入力部2による入力結果、制御部1の制御による変換結
果を表示装置に表示したり、印刷装置を介して印刷した
りする。
【0020】テーブルメモリ4は、例えば、マスクRO
M、EPROM、EEPROM、フラッシュROM等に
よる半導体メモリ、あるいは磁気テープやカセットテー
プ等のテープ系、フロッピーディスクやハードディスク
等の磁気ディスクやCD−ROM/MO/MD/DVD
等の光ディスクのディスク系、ICカード(メモリカー
ドも含む)/光カード等のカード系等を含む記憶媒体で
構成される。
【0021】このテーブルメモリ4には、単語、品詞情
報、語彙属性、形態素情報を記憶した辞書テーブル(形
態素情報テーブルとして機能する)4a、前編集する入
力文に対し、本来明示されるべき必要語句が省略されて
いる場合に必要語句を補完する省略語句補完規則、実質
的に意味がない冗長語句が含んでいる場合に冗長語句を
削除する冗長語句削除規則、複雑な表現の語句が含んで
いる場合に意味を変えないで簡潔な表現の語句に置換す
る語句置換規則、長文である場合に複数の短文に分割す
る文分割規則、前編集記号を挿入して、節や句の範囲及
び品詞や従属先を指示する前編集記号挿入規則を記憶し
た前編集規則テーブル4bとして機能するテーブル領域
を備えている。
【0022】プログラムメモリ5は、例えば、マスクR
OM、EPROM、EEPROM、フラッシュROM等
による半導体メモリ、あるいは磁気テープやカセットテ
ープ等のテープ系、フロッピーディスクやハードディス
ク等の磁気ディスクやCD−ROM/MO/MD/DV
D等の光ディスクのディスク系、ICカード(メモリカ
ードも含む)/光カード等のカード系等を含む記憶媒体
で構成される。
【0023】このプログラムメモリ5には、辞書テーブ
ル4aを参照し、文バッファ6aに記憶されている文に
対して、テーブルメモリ4中の辞書テーブル4aを参照
しながら形態素解析を行い、文中の各語について品詞な
どの語彙属性(形態素情報)を抽出し、その形態素解析
結果をバッファメモリ6中の形態素解析結果バッファ6
bに記憶する形態素解析部5a、形態素解析結果バッフ
ァ6bに記億されている形態素解析結果と、前編集規則
テーブル4bに記憶されている前編集規則とに基づいて
書き換えを行い、この書き換えた前編集文を、バッファ
メモリ6中の前編集結果バッファ6cに記憶する前編集
部5bとして機能するプログラム領域を備えている。
【0024】バッファメモリ6は、例えば、RAM、E
EPROM、フラッシュROM等による半導体メモリ、
あるいは磁気テープやカセットテープ等のテープ系、フ
ロッピーディスクやハードディスク等の磁気ディスクや
CD−ROM/MO/MD/DVD等の光ディスクのデ
ィスク系、ICカード(メモリカードも含む)/光カー
ド等のカード系等を含む記憶媒体から構成される。
【0025】このバッファメモリ6は、入力部2によっ
て入力された書き換え対象文を記憶する文バッファ6
a、形態素解析部5aによって形態素解析された単語の
品詞情報などの語彙属性を含む形態素情報を記憶する形
態素解析結果バッファ6b、前編集部5bによって書き
換えられた前編集文を記憶する前編集結果バッファ6c
として機能するバッファ領域に備えている。前編集結果
バッファ6cに記憶されている前編集文は、例えば、出
力部3によって機械翻訳システムなどの自然言語処理シ
ステムへ送られる。
【0026】7はマスクROM、EPROM、EEPR
OM、フラッシュROM等による半導体メモリ、あるい
は磁気テープやカセットテープ等のテープ系、フロッピ
ーディスクやハードディスク等の磁気ディスクやCD−
ROM/MO/MD/DVD等の光ディスクのディスク
系、ICカード(メモリカードも含む)/光カード等の
カード系等を含めた本体と分離可能なメディアで構成し
た固定的にプログラムを担持する記憶媒体を示す。
【0027】記憶媒体7に、形態素情報テーブル4aを
用いて、自然言語の単語について品詞情報などの語彙属
性を含む形態素情報を記憶する機能と、前編集規則テー
ブル4bを用いて、形態素情報に基づいた自然言語文の
前編集規則を記憶する機能と、入力部2を用いて、自然
言語文及びその前編集指示を入力する機能と、形態素解
析部5aを用いて、形態素情報テーブル4aを参照し、
入力された自然言語文の各単語に対して形態素解析を行
い、各単語の形態素情報を抽出する機能と、前編集部5
bを用いて、入力された自然言語文が特殊表現の文か否
かを形態素解析結果から得られた形態素情報と前編集規
則テーブル4bの前編集規則に基づいて判断するととも
に特殊表現の文であれば標準的表現の文に書き換える機
能と、出力部3を用いて、書き換えた前編集文を出力す
る機能とを制御部1のコンピュータに実行させる自然言
語文前編集プログラムを記憶してもよい。この自然言語
文前編集プログラムを、記憶媒体読取装置を介してプロ
グラムメモリ5の予備領域にインストールすることによ
り本発明の自然言語文前編集機能を実現してもよい。
【0028】また、この記憶媒体は、自然言語文前編集
装置がインターネットを含めた外部の通信ネットワーク
との接続可能な通信装置を備えている場合には、その通
信装置を介して通信ネットワークからプログラムをダウ
ンロードするように流動的にプログラムを担持する媒体
であってもよい。なお、このように通信ネットワークか
らプログラムをダウンロードする場合には、そのダウン
ロード用プログラムは予め本体装置に格納しておくか、
あるいは別な記憶媒体からインストールされるものであ
ってもよい。なお、記憶媒体に格納されている内容とし
てはプログラムに限定されず、データであってもよい。
【0029】図2は本実施例の自然言語文自動前編集処
理の手順を示すフローチャートである。図2において、
STEP1:形態素解析部5aによって文バッファ6a
から入力文を読み出し、入力文の形態素解析を行い、入
力文に含まれる各単語について品詞などの語彙属性を抽
出し、形態素解析結果バッファ6bに記憶する。形態素
解析については、例えば、文献「自然言語処理」(長尾
眞 岩波書店1997)などに解説がある。
【0030】STEP2:1入力文に含まれる単語数を
カウントするカウンタのカウント値iに1をセットす
る。STEP3:単語数のカウント値iがn+1になっ
たか比較し、カウント値iがn+1になれば、前編集部
5bによる前編集処理を終了する。“n”は入力文に含
まれる単語数である。
【0031】STEP4:前編集部5bによって形態素
解析結果バッファ6bに記憶された入力文の先頭から―
語づつ順に、第i番目の単語を着目語として読み出し、
第i番目の着目語を前編集規則テーブル4bに記憶され
た適用条件(前編集規則)とのマッチングを行い、マッ
チングに成功した表現に対して書き換えを実行し、書き
換えた単語を前編集結果バッファ6cに記憶する。ST
EP5:第i番目の単語の書き換えが実行されたら、カ
ウント値iを1増加してSTEP3に戻り、STEP3
〜STEP5による書き換え処理を繰り返す。
【0032】ここで、図1の前編集規則テーブル4bに
記憶した省略語句補完規則、冗長語句削除規則、語句変
換規則、文分割規則、前編集記号挿入規則について説明
する。省略語句補完規則は、入力文において本来明示さ
れるべき語句が省略されている場合に、そのような語句
を入力文に追加するための規則である。冗長語句削除規
則は、存在してもしなくても入力文の意味に実質的な違
いが出ない冗長語句を削除するものであり、この規則の
適用によって文の長さが短くなるので、本発明から前編
集された自然言語文を受け取る自然言語処理システムに
おいて解析効率の向上が期待できる。
【0033】語句置換規則は、冗長語句を削除すること
はできないが、その冗長語句とほぼ同じ意味を表すより
簡潔に表現する語句に置換するためのものである。文分
割規則は、長文の構文解析は失敗しやすいので、長文を
複数の短文に分割することによって構文解析の失敗を防
止することが期待できる。
【0034】前編集記号挿入規則は、本発明の自然言語
文前編集装置によって前編集された自然言語文を受け取
る自然言語処理システムが解釈(理解)することができ
る記号を挿入するものであり、原言語表現の補完・削除
・置換では適切な前編集ができない場合に利用される。
前編集記号を挿入することによって、多品詞語の品詞
を指定したり、節や句の範囲や従属先を指定することが
でき、これによつて解釈の暖味性(解釈候補数)が絞ら
れるため、解析の精度と速度の向上が期待できる。
【0035】ここで、省略語句を補完する処理例を説明
する。入力文において本来明示されるべき語句が省略さ
れる現象は、文献「新聞英語」(上野田守 布施敏夫
朝日出版社 1978)や、「時事英語」(堀内克明
朝日出版社 1979)や、「英字新聞の読み方」(富
田春生連合出版 1994)などにおいて指摘されてい
るように、新聞記事で特に頻繁に見られる。
【0036】図3は本実施例の前編集規則テーブルに記
憶された省略語句補完規則の一例を示す図である。図3
に示す省略語句補完規則は、(1)着目語(図2のST
EP4の第i語)が、曜日を表す“Monday”,“Tuesda
y”,“Wednesday”,“Thursday”,“Friday”“Saturda
y”,“Sunday”のいずれであり、かつ、(2)着目語の
直前に存在する語の品詞が、前置詞、形容詞、冠詞、接
続詞のいずれでもない場合に、着目語の直前に前置詞
“on”を挿入する書き換え操作を実行することを意味す
る。
【0037】前編集部5bでの前編集処理は次のように
行われる。図2のSTEP3〜STEP5の処理ループ
において、入力文の先頭から―語づつ順に、前編集規則
テーブル4bに記憶された各適用条件(前編集規則)と
のマッチングを行い、マッチングに成功した表現に対し
て書き換えを実行する。なお、STEP3の“n”は入
力文に含まれる単語の数である。
【0038】例えば、次の入力文1は、英字新聞では頻
繁に見られる「曜日の前の前置詞“on"の省略」という
現象を含んでいる。 入力文l:Peru will put into effect Monday a forei
gn exchangerationing system。 入力文1を前編集する場合、i=6で“Monday”が着目
語となったとき適用条件が満たされるので、次のような
標準的な出力文1に書き換えられる。 出力文l:Peru will put into effect on Monday a fo
reign exchangerationging system。
【0039】従来の自然言語処理システムに上記の入力
文1をそのまま入力した場合、適切な解析結果が得られ
ない可能性が高いが、本発明によって書き換えた出力文
1を従来の自然言語処理システムに入力しても、正しい
解析結果が得られるようになる。よって、従来の自然言
語処理システムの既存部分をほとんど変更する必要がな
い。
【0040】これに対して、次のような入力文2は、i
=8で、適用条件のうち着目語に関する部分は満たされ
るが、直前の語の品詞に対する条件が満たされないので
書き換えられない。 入力文2:He commented in a television interview o
n Friday's aggeementto lower the interest margin。 よって、入力文2の場合は、そのまま入力してもよい。
【0041】図4は本発明の自然言語文自動前編集装置
の適用システムの一例を示す図である。本発明の自然言
語文自動前編集装置は、自然言語処理システムとは独立
であり、本発明の自然言語文前編集装置から出力される
前編集された自然言語文を利用するシステムとして、例
えば、図4に示すように、下記の適用システムがある。
【0042】例えば、自然言語インターフェイスが、自
然言語文を取り扱う前に、本発明の自然言語文自動前編
集装置を用いて自然言語文の前編集を行うことができる
ので、処理精度と処理速度の向上が期待できる。また、
機械翻訳システムが、自然言語文の機械翻訳を開始する
前に、本発明の自然言語文自動前編集装置を用いて自然
言語文の前編集を行うことができるので、翻訳精度と処
理速度の向上が期待できる。
【0043】また、文書検索システムが、自然言語文の
検索を開始する前に、本発明の自然言語文自動前編集装
置を用いて自然言語文の前編集を行うことができので、
検索精度と処理速度の向上が期待できる。また、文書要
約システムが、自然言語文を自動要約する前に、本発明
の自然言語文自動前編集装置を用いて自然言語文を前編
集を行うことができるので、要約精度と処理速度の向上
が期待できる。
【0044】
【発明の効果】本発明によれば、形態素情報テーブルと
前編集規則テーブルを用いて、自然言語処理システムに
適用する自然言語文の前編集を行うことにより、構成解
析規則の追加による整合性、汎用性の問題、構文解析に
よる前編集の信頼性、構文解析による情報量の増大の問
題を解決し、構文解析による前編集に比べてより精度が
高く、高速に行うことが可能になる。
【図面の簡単な説明】
【図1】本発明の一実施例である自然言語文自動前編集
装置の構成を示すブロック図である。
【図2】本実施例の自然言語文自動前編集処理の手順を
示すフローチャートである。
【図3】本実施例の前編集規則テーブルに記憶された省
略語句補完規則の一例を示す図である。
【図4】本発明の自然言語文自動前編集装置の適用シス
テムの一例を示す図である。
【符号の説明】
1 制御部 2 入力部 3 出力部 4 テーブルメモリ 4a 辞書テーブル 4b 前編集規則テーブル 5 プログラムメモリ 5a 形態素解析部 5b 前編集部 6 バッファメモリ 6a 文バッファ 6b 形態素解析結果バッファ 6c 前編集結果バッファ 7 記憶媒体 8 バスライン

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 自然言語の単語について品詞情報などの
    語彙属性を含む形態素情報を記憶した形態素情報テーブ
    ルと、形態素情報に基づいた自然言語文の前編集規則を
    記憶した前編集規則テーブルと、自然言語文及びその前
    編集指示を入力する入力部と、形態素情報テーブルを参
    照し、入力された自然言語文の各単語に対して形態素解
    析を行い、各単語の形態素情報を抽出する形態素解析部
    と、入力された自然言語文が特殊表現の文か否かを形態
    素解析結果から得られた形態素情報と前編集規則テーブ
    ルの前編集規則に基づいて判断するとともに特殊表現の
    文であれば標準的表現の文に書き換えて前編集する前編
    集部と、前編集された自然言語文を出力する出力部とを
    備えたことを特徴とする自然言語文自動前編集装置。
  2. 【請求項2】 前記前編集規則テーブルは、前編集する
    入力文に対し、本来明示されるべき必要語句が省略され
    ている場合に必要語句を補完する省略語句補完規則、実
    質的に意味がない冗長語句が含んでいる場合に冗長語句
    を削除する冗長語句削除規則、複雑な表現の語句が含ん
    でいる場合に意味を変えないで簡潔な表現の語句に置換
    する語句置換規則、長文である場合に複数の短文に分割
    する文分割規則、前編集記号を挿入して、節や句の範囲
    及び品詞や従属先を指示する前編集記号挿入規則の少な
    くとも1つ以上記憶したことを特徴とする請求項1記載
    の自然言語文自動前編集装置。
  3. 【請求項3】 前記前編集された自然言語文が自然言語
    インターフェイスに入力される入力文であることを特徴
    とする請求項1記載の自然言語文自動前編集装置。
  4. 【請求項4】 前記前編集された自然言語文が機械翻訳
    装置に入力される入力文であることを特徴とする請求項
    1記載の自然言語文自動前編集装置。
  5. 【請求項5】 形態素情報テーブルを用いて、自然言語
    の単語について品詞情報などの語彙属性を含む形態素情
    報を記憶し、前編集規則テーブルを用いて、形態素情報
    に基づいた自然言語文の前編集規則を記憶し、入力部を
    用いて、自然言語文及びその前編集指示を入力し、形態
    素解析部を用いて、形態素情報テーブルを参照し、入力
    された自然言語文の各単語に対して形態素解析を行い、
    各単語の形態素情報を抽出し、前編集部を用いて、入力
    された自然言語文が特殊表現の文か否かを形態素解析結
    果から得られた形態素情報と前編集規則テーブルの前編
    集規則に基づいて判断するとともに特殊表現の文であれ
    ば標準的表現の文に書き換えて前編集し、出力部を用い
    て、前編集された自然言語文を出力することを特徴とす
    る自然言語文自動前編集方法。
  6. 【請求項6】 形態素情報テーブルを用いて、自然言語
    の単語について品詞情報などの語彙属性を含む形態素情
    報を記憶する機能と、前編集規則テーブルを用いて、形
    態素情報に基づいた自然言語文の前編集規則を記憶する
    機能と、入力部を用いて、自然言語文及びその前編集指
    示を入力する機能と、形態素解析部を用いて、形態素情
    報テーブルを参照し、入力された自然言語文の各単語に
    対して形態素解析を行い、各単語の形態素情報を抽出す
    る機能と、前編集部を用いて、入力された自然言語文が
    特殊表現の文か否かを形態素解析結果から得られた形態
    素情報と前編集規則テーブルの前編集規則に基づいて判
    断するとともに特殊表現の文であれば標準的表現の文に
    書き換えて前編集する機能と、出力部を用いて、前編集
    された自然言語文を出力する機能とをコンピュータに実
    行させる自然言語文前編集プログラムを記憶した記憶媒
    体。
JP29990499A 1999-10-21 1999-10-21 自然言語文自動前編集装置及び方法並びにこれに利用される記憶媒体 Pending JP2001117919A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29990499A JP2001117919A (ja) 1999-10-21 1999-10-21 自然言語文自動前編集装置及び方法並びにこれに利用される記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29990499A JP2001117919A (ja) 1999-10-21 1999-10-21 自然言語文自動前編集装置及び方法並びにこれに利用される記憶媒体

Publications (1)

Publication Number Publication Date
JP2001117919A true JP2001117919A (ja) 2001-04-27

Family

ID=17878347

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29990499A Pending JP2001117919A (ja) 1999-10-21 1999-10-21 自然言語文自動前編集装置及び方法並びにこれに利用される記憶媒体

Country Status (1)

Country Link
JP (1) JP2001117919A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011145844A (ja) * 2010-01-14 2011-07-28 Nippon Telegr & Teleph Corp <Ntt> 述部機能表現正規化方法、その装置及びプログラム
JP2020190970A (ja) * 2019-05-23 2020-11-26 株式会社日立製作所 文書処理装置およびその方法、プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011145844A (ja) * 2010-01-14 2011-07-28 Nippon Telegr & Teleph Corp <Ntt> 述部機能表現正規化方法、その装置及びプログラム
JP2020190970A (ja) * 2019-05-23 2020-11-26 株式会社日立製作所 文書処理装置およびその方法、プログラム

Similar Documents

Publication Publication Date Title
US5587902A (en) Translating system for processing text with markup signs
US9400786B2 (en) Computer-implemented method, computer software and apparatus for use in a translation system
EP1406181B1 (en) Document revision support
US6539348B1 (en) Systems and methods for parsing a natural language sentence
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US20090076792A1 (en) Text editing apparatus and method
JP2007265458A (ja) 複数の圧縮オプションを生成する方法およびコンピュータ
US20020129066A1 (en) Computer implemented method for reformatting logically complex clauses in an electronic text-based document
JP2000259635A (ja) 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体
JP2001117919A (ja) 自然言語文自動前編集装置及び方法並びにこれに利用される記憶媒体
US7389220B2 (en) Correcting incomplete negation errors in French language text
JP2000268034A (ja) テキスト自動前編集装置及び方法並びにこれに利用される記憶媒体
JP3580760B2 (ja) 自動編集装置及び方法並びにこれに利用される記憶媒体
US5640581A (en) CD-ROM information editing apparatus
JPH0883280A (ja) 文書処理装置
JPH05290030A (ja) 文書処理装置
JP3389313B2 (ja) 機械翻訳装置
JP3933406B2 (ja) 代名詞書換装置及び方法並びにこれに利用されるプログラム
JPH08235180A (ja) 機械翻訳装置
JP4023384B2 (ja) 自然言語翻訳方法及び装置及び自然言語翻訳プログラム
Iqbal et al. Compound Sentence Segmentation and Sentence Boundary Detection in Urdu.
JP2002183133A (ja) 固有名詞抽出装置、固有名詞抽出方法及び記憶媒体
JPH07200592A (ja) 文章処理装置
JPH05225232A (ja) テキスト自動前編集装置
JPH11184866A (ja) 自然言語統計データベース装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061023

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080219

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080421

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080603