JP2546516B2 - 情報抽出装置 - Google Patents

情報抽出装置

Info

Publication number
JP2546516B2
JP2546516B2 JP5230702A JP23070293A JP2546516B2 JP 2546516 B2 JP2546516 B2 JP 2546516B2 JP 5230702 A JP5230702 A JP 5230702A JP 23070293 A JP23070293 A JP 23070293A JP 2546516 B2 JP2546516 B2 JP 2546516B2
Authority
JP
Japan
Prior art keywords
document
context
vocabulary
knowledge
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP5230702A
Other languages
English (en)
Other versions
JPH0785095A (ja
Inventor
伸一 土井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP5230702A priority Critical patent/JP2546516B2/ja
Priority to US08/304,945 priority patent/US5774845A/en
Publication of JPH0785095A publication Critical patent/JPH0785095A/ja
Application granted granted Critical
Publication of JP2546516B2 publication Critical patent/JP2546516B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は自然言語で記述された文
書を解析し、予め与えられた分野の情報を抽出し、一定
の形式で出力する情報抽出システムに関する。
【0002】
【従来の技術】文書から特定の情報を抽出し、一定の形
式で出力する情報抽出の手法には、従来、キーワードの
出現状況を利用する手法や、構文解析を利用する手法が
ある。キーワードを利用する手法は抽出すべき情報の分
野や出力すべき形式に関係するキーワードを予め与え、
入力文書内におけるキーワードの出現や共起を基に情報
抽出を行う手法である。しかしキーワードが出現・共起
する範囲を文書全体としてしまうと、文書中で直接の関
係にはないキーワード間の関係を多くとってしまう。
【0003】一方構文解析を利用する方法は、構文解析
によって得られた構文木を再度解析して、意味に依らな
い一定の解釈木を生成しようとするものである。しかし
現在の技術では文書全体を一度に解析することは困難で
ある。
【0004】
【発明が解決しようとする課題】上記いずれの技術で
も、文書全体を直接の情報抽出の対象とすると、抽出精
度や実現性の面で課題がある。従って、まず文書を段
落、文、節などの文書セグメントに分割して、その文書
セグメントを対象として情報を抽出し、その後各文書セ
グメントから得られた情報間の構造を比較して関係を認
定し、文書全体の情報を合成することが考えられてい
る。しかし、関係を認定するための十分な指標は与えら
れていない。
【0005】本発明の目的は、文書中の他の要素に言及
する表現形式である照応表現と先行詞、あるいは省略と
その補完要素の間の関係を決定する文脈処理を行うこと
により、文書セグメントから得られた情報間の関係を認
定することで、正しい情報を数多く、且つ正確に抽出す
ることができる情報抽出装置を提供することにある。
【0006】
【課題を解決するための手段】本発明は、自然言語で記
述された文書を入力として受けつける文書入力部と、前
記文書入力部から入力された文書を文書セグメントに分
割する文書分割部と、文書内の文脈を規定する語彙に関
する知識を格納した文脈規定語彙知識格納部と、前記文
書分割部によって得られた文書セグメントから文書セグ
メント情報を抽出するとともに、前記文脈規定語彙知識
格納部に格納された文脈規定語彙知識を参照して、文書
セグメント中に文書内の文脈を規定する語彙が存在する
か否かを認定し、存在する場合には、抽出した文書セグ
メント情報に前記文脈規定語彙知識格納部に格納された
文脈規定語彙知識を付記する情報抽出部と、文書内の文
脈を規定する語彙間の関係を計算する規則を格納する文
脈規定語彙間関係計算規則格納部と、前記文脈規定語彙
間関係計算規則格納部に格納された文脈規定語彙間関係
計算規則を参照して、前記情報抽出部によって抽出さ
れ、文脈規定語彙知識を付記された文書セグメント情報
間の関係を計算して、前記文書入力部から入力された文
書に対する文書情報を合成する情報合成部と、前記情報
合成部によって合成された文書情報を出力する情報出力
部を備えていることを特徴とする。
【0007】
【実施例】次に本発明について図面を参照して説明す
る。
【0008】図1は本発明の一実施例を示すブロック図
である。図1を参照すると本発明は、自然言語で記述さ
れた文書を入力として受けつける文書入力部1と、前記
文書入力部1から入力された文書を文書セグメントに分
割する文書分割部2と、文書内の文脈を規定する語彙に
関する知識を格納した文脈規定語彙知識格納部6と、前
記文書分割部2によって得られた文書セグメントから文
書セグメント情報を抽出するとともに、前記文脈規定語
彙知識格納部6に格納された文脈規定語彙知識を参照し
て、文書セグメント中に文書内の文脈を規定する語彙が
存在するか否かを認定し、存在する場合には、抽出した
文書セグメント情報に前記文脈規定語彙知識格納部6に
格納された文脈規定語彙知識を付記する情報抽出部3
と、文書内の文脈を規定する語彙間の関係を計算する規
則を格納する文脈規定語彙間関係計算規則格納部7と、
前記文脈規定語彙間関係計算規則格納部7に格納された
文脈規定語彙間関係計算規則を参照して、前記情報抽出
部3によって抽出され、文脈規定語彙知識を付記された
文書セグメント情報間の関係を計算して、前記文書入力
部1から入力された文書に対する文書情報を合成する情
報合成部4と、前記情報合成部4によって合成された文
書情報を出力する情報出力部5とから構成される。
【0009】次に図1を参照して、本発明の実施例の動
作について説明する。
【0010】本発明の一実施例として、日本語の文書か
ら半導体製造工程の一つであるエッチングやリソグラフ
ィーに関する装置をどの企業が開発、製造や販売してい
るか、あるいは利用しているかという情報を抽出するこ
とを考える。すなわち「××××がエッチング装置を開
発した。」という入力文から、”企業…××××、装置
…エッチング装置、関係…開発”という情報を抽出する
場合である。ここで関係の項には、開発、製造、販売、
利用の中から当てはまるもののいくつかが入り、企業、
装置にはそれぞれ関係欄の関係にある企業と装置が埋め
られる。これにさらに、装置が対応するデバイス等の情
報を付加したのが、抽出すべき情報である。文書セグメ
ントとしては文を例にとる。また照応表現及び省略され
る要素については、企業と装置の名称に対応するものだ
けを考えるとする。
【0011】例えば、「××××××××社は××××
××と合弁会社を設立すると発表した。同社は従来エッ
チング装置を販売してきた。」という文書が文書入力部
1から入力されたとする。この文書はまず文書分割部2
によって「××××××××社は××××××と合弁会
社を設立すると発表した。」と「同社は従来エッチング
装置を販売してきた。」という2つの文に分割される。
【0012】次に情報抽出部3が、文脈規定語彙知識格
納部6を参照して、半導体製造工程に関する情報と、文
中の文脈規定語彙に関する情報を各文から抽出する。第
一文には直接半導体製造工程に言及する情報は記述され
ていない。しかしこの場合、照応表現の先行詞及び省略
の補完要素になりうる企業名“××××××××社”と
“××××××”が、その出現環境とともに抽出され
る。一方第2文からは、「企業…同社(照応表現)、装
置…エッチング装置、関係…販売」という情報が抽出さ
れる。続いて情報合成部4が、文脈規定語彙間関係計算
規則格納部6に格納された文脈規定語彙間関係計算規則
を参照して、各文に対する情報の合成を行う。ここで
「企業に関する照応表現に関しては、前方に先行詞とな
り得る企業名を探しに行き、最も近い位置に存在するも
のを先行詞とする。ただし同一の文中に複数の先行詞候
補が存在する場合には、動詞の『が格』に対応するもの
を優先する」という文脈規定語彙間関係計算規則によ
り、ここでの“同社”は、“××××××”ではなく
“××××××××社”を指していると解析する。これ
により、文書全体に対する情報として、”企業…×××
×××××社、装置…×××××装置、関係…販売”と
いう情報が合成される。最後に情報出力部5がこの文書
情報を出力する。
【0013】なお、企業名、装置名、関係を表す用言と
いうキーワードの出現のみを用いる方法では、上記の例
で「×××××装置を開発した」のが“×××××××
×社”なのか“××××××”なのかは決定できない。
【0014】また、「×××××××××××××××
××(×××)は二十三日、量産性の高い全自動反応性
イオンエッチング装置を開発した。この装置は四メガビ
ットダイナミックRAMまで処理できる。」という文書
が入力されたとすると、照応表現“この装置”が直前の
反応性イオンエッチング装置を指すことを情報合成部4
で認定することで、”企業…××××××××××××
×××××、装置…反応性イオンエッチング装置”、”
関係…開発、対応デバイス…DRAM、デバイスサイズ
…4M”という情報を抽出できる。
【0015】上記の例では照応表現とその先行詞が個体
としても同一のものを指示すると解析したが、表現によ
っては非同一指示と解釈すべきものもある。例えば、
「日本企業では最大手のニコンが今年夏に新型のステッ
パーを発売した。××××も同様の機種を発売してお
り、現在半導体メーカーが性能評価をしている。」とい
う文書が入力されたとする。ここで、”企業…×××
×、装置…ステッパー、関係…発売”という情報を抽出
するには、“この装置”の場合と同様に、“同様の機
種”という照応表現が直前の装置であるステッパーを指
していることを解析すればよい。しかしこのステッパー
は「×××が発売したステッパー」とは個体としては別
のものである。従って属性だけをコピーして、別の装置
として扱わなければならない。本発明では、文脈規定語
彙知識格納部6に「接頭辞“同”や連体詞“この”を伴
った照応表現は同一指示であり、形容動詞“同種の”を
伴った照応表現は非同一指示である」という知識を格納
して、文脈規定語彙間関係計算規則格納部7に照応表現
が同一指示か非同一指示かによって異なった関係計算規
則を格納しておくことにより、対処できる。
【0016】また自然言語では、既知の要素は省略され
ることも多い。例えば「×××××××はドライエッチ
ング装置で東南アジア地域の四五%のシェアを持つ。日
本では住友金属工業と提携してエッチング装置を販売し
ている。」という文書では、第二文において企業名が省
略されている。この場合、「“販売”という関係を表す
用言は『が格』が必須であり、そこには企業名が来る」
という知識を記述しておくことによって省略の存在を認
定し、その補完要素が第一文に出現している“××××
×××”であることを決定することで、”企業…×××
××××、装置…ドライエッチング装置、関係…製造、
販売””企業…×××××××、××××××、装置…
エッチング装置、関係…製造、販売”という2種の情報
を抽出できる。
【0017】なおここでは、実施例として照応表現につ
いて接頭辞“同”や連体詞“この”、形容動詞“同種
の”を伴ったものだけを取り上げたが、この発明は、他
にも同一の名詞による指示や強調構文等の構文構造によ
る指示、欧米語での定冠詞による指示等、様々な照応関
係を利用することができる。
【0018】
【発明の効果】本発明では、文書中の他の要素に言及す
る表現形式である照応表現と先行詞、あるいは省略とそ
の補完要素の間の関係を決定する文脈処理を行うことに
より、文書セグメントから得られた情報間の関係を認定
することで、正しい情報を数多く、且つ正確に抽出する
ことができる。
【図面の簡単な説明】
【図1】本発明の一実施例であるブロック図を説明する
図である。
【符合の説明】
1 文書入力部 2 文書分割部 3 情報抽出部 4 情報合成部 5 情報出力部 6 文脈規定語彙知識格納部 7 文脈規定語彙間関係計算規則格納部

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 自然言語で記述された文書を入力として
    受けつける文書入力部と、前記文書入力部から入力され
    た文書を文書セグメントに分割する文書分割部と、文書
    内の文脈を規定する語彙に関する知識を格納した文脈規
    定語彙知識格納部と、前記文書分割部によって得られた
    文書セグメントから文書セグメント情報を抽出するとと
    もに、前記文脈規定語彙知識格納部に格納された文脈規
    定語彙知識を参照して、文書セグメント中に文書内の文
    脈を規定する語彙が存在するか否かを認定し、存在する
    場合には、抽出した文書セグメント情報に前記文脈規定
    語彙知識格納部に格納された文脈規定語彙知識を付記す
    る情報抽出部と、文書内の文脈を規定する語彙間の関係
    を計算する規則を格納する文脈規定語彙間関係計算規則
    格納部と、前記文脈規定語彙間関係計算規則格納部に格
    納された文脈規定語彙間関係計算規則を参照して、前記
    情報抽出部によって抽出され、文脈規定語彙知識を付記
    された文書セグメント情報間の関係を計算して、前記文
    書入力部から入力された文書に対する文書情報を合成す
    る情報合成部と、前記情報合成部によって合成された文
    書情報を出力する情報出力部を備えていることを特徴と
    する情報抽出装置。
  2. 【請求項2】 前記文脈規定語彙知識格納部には、文書
    中の他の要素に言及する表現形式である照応表現に関す
    る知識と、照応表現に対応する先行詞となり得る語彙に
    関する知識が格納され、前記文脈規定語彙間関係計算規
    則格納部には、照応表現に対応する先行詞を決定する規
    則が格納されていることを特徴とする請求項1記載の情
    報抽出装置。
  3. 【請求項3】 前記文脈規定語彙知識格納部には、文書
    中の他の要素に言及する表現形式である照応表現に関す
    る知識と、照応表現が同一指示か非同一指示かを判断す
    る知識と、照応表現に対応する先行詞となり得る語彙に
    関する知識が格納され、前記文脈規定語彙間関係計算規
    則格納部には、照応表現に対応する先行詞を決定する規
    則と、照応表現が同一指示か非同一指示かによって処理
    を変更する規則が格納されていることを特徴とする請求
    項2記載の情報抽出装置。
  4. 【請求項4】 前記文脈規定語彙知識格納部には、文書
    中に省略が存在するか否かを判断する知識と、省略に対
    応する補完要素となり得る語彙に関する知識が格納さ
    れ、前記文脈規定語彙間関係計算規則格納部には、省略
    に対応する補完要素を決定する規則が格納されているこ
    とを特徴とする請求項1、2又は3記載の情報抽出装
    置。
JP5230702A 1993-09-17 1993-09-17 情報抽出装置 Expired - Lifetime JP2546516B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP5230702A JP2546516B2 (ja) 1993-09-17 1993-09-17 情報抽出装置
US08/304,945 US5774845A (en) 1993-09-17 1994-09-13 Information extraction processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5230702A JP2546516B2 (ja) 1993-09-17 1993-09-17 情報抽出装置

Publications (2)

Publication Number Publication Date
JPH0785095A JPH0785095A (ja) 1995-03-31
JP2546516B2 true JP2546516B2 (ja) 1996-10-23

Family

ID=16911982

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5230702A Expired - Lifetime JP2546516B2 (ja) 1993-09-17 1993-09-17 情報抽出装置

Country Status (1)

Country Link
JP (1) JP2546516B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2019229364A1 (en) * 2019-09-11 2021-03-25 Tao Chen Word processor

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
土井、安藤、村木"キーワードと構文構造に基づく情報抽出システムにおける文脈処理"情報処理学会第47回全国大会講演論文集VOL.3,NO.2M−2(1993−9−27)PP.3−81〜82.

Also Published As

Publication number Publication date
JPH0785095A (ja) 1995-03-31

Similar Documents

Publication Publication Date Title
US5774845A (en) Information extraction processor
CN109616096B (zh) 多语种语音解码图的构建方法、装置、服务器和介质
JPH0630066B2 (ja) テーブル型言語翻訳方法
JP2009151777A (ja) 音声言語パラレルコーパスのアライメント方法及び装置
CN113157959A (zh) 基于多模态主题补充的跨模态检索方法、装置及系统
US11907656B2 (en) Machine based expansion of contractions in text in digital media
JP2007011775A (ja) 辞書作成装置、辞書作成方法、プログラム及び記録媒体
JP2546516B2 (ja) 情報抽出装置
WO2020012813A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP4007413B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2010092169A (ja) 情報処理装置及びプログラム
JP2004287683A (ja) 評価表現抽出装置、プログラム、記憶媒体及び評価表現抽出方法
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
CN117094329B (zh) 一种用于解决语音歧义的语音翻译方法及装置
JP2840258B2 (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
JP3972697B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JPH0225215B2 (ja)
Tiwari et al. NL2RT: A Tool to Translate Natural Language Text into Requirements Templates (RTs)
JP2715875B2 (ja) 多言語要約生成装置
JPS63136260A (ja) 機械翻訳システムにおける文生成処理方式
CN116306698A (zh) 一种基于修辞结构理论的篇章机器翻译方法及系统
CN117725151A (zh) 基于改良模板的语义搜索方法及系统
CN118467695A (zh) 基于大模型的数据处理方法、装置、电子设备及存储介质
Grif et al. Analyses of computer Russian sign language translation system with implemented semantic analyses unit
CN116541496A (zh) 话术模板生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19960618