JPS608981A - 自然言語の意味抽出装置 - Google Patents

自然言語の意味抽出装置

Info

Publication number
JPS608981A
JPS608981A JP58116766A JP11676683A JPS608981A JP S608981 A JPS608981 A JP S608981A JP 58116766 A JP58116766 A JP 58116766A JP 11676683 A JP11676683 A JP 11676683A JP S608981 A JPS608981 A JP S608981A
Authority
JP
Japan
Prior art keywords
word
semantics
adder
unit
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58116766A
Other languages
English (en)
Inventor
Toshiaki Yoshino
利明 吉野
Yoshio Izumida
泉田 義男
Hiroshi Ishikawa
博 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP58116766A priority Critical patent/JPS608981A/ja
Publication of JPS608981A publication Critical patent/JPS608981A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 発明の技術分野 本発明は、自然語文の意味解析をハードウェアで実現す
る自然言語の意味抽出装置に関する。
従来技術と問題点 自然語文の意味解析、抽出は例えば音声またはカナで入
力された日本語文をカナ漢字混じりの文にする又は該日
本語文が質問文であってそれに自動解答するなどにおい
て必要である。従来の自然語文の意味解析・抽出は、入
力文の構文解析後に統語規則を用いて解析木を生成し、
その木の構造より入力文の意味を抽出するのが一般的で
ある。ところがこのような方式では、数多くの統語規則
を格納するための大量の記憶域を必要とし、さらに規則
の検索のために時間を要するという欠点がある。
日本語でデータベースを検索する場合を考えると、検索
語はキーワードを並べたような文である。
例えば販売、賃貸対象の不動産をメモリに記憶させてデ
ータベースとし、顧客にこれを自由に検索させて所望の
物件をめさせるシステムでは、検索文はr2000万円
程度の中原駅附近のマンションは」等となり、対象物の
種類(マンション)、場所(中原駅附近)、および価格
(2’OOO万円)なる、当該種類の検索には頻繁に用
いられるキーワードの幾つかを並べたものとなる。従っ
てこの種の自然語文の意味解析・抽出には、統語規則を
用いての解析木生成などよりもっと効率的な解析方法が
あるはずである。
発明の目的 本発明はか\る観点によりなされたもので、自然語文の
意味解析をハードウェアで実現することにより、高速か
つ能率的な意味抽出を可能とするものである。
発明の構成 本発明は、自然言語の単語列を入力として各単語に意味
情報を付加するアダーと、意味情報が付加された単語複
数個を、不要な単語は削除して1つの意味単位文節にま
とめるコンボーザと、該意味単位文節の意味情報を参照
して該意味単位文節を対応する抽出装置に送るセレクタ
とを備え、一連の単語列からキーワードになる単語を抽
出するようにしてなることを特徴とするが、以下図示の
実施例を参照しながらこれを詳細に説明する。
発明の実施例 第1図は本発明の一実施例を示すブロック図で、Aはキ
ーワードアダー、Cはコンポーザ、Sはセレクタ、Ei
 (i=1〜n)は抽出装置、Mはメモリである。アダ
ーAは入力単語列(単語に分割された自然語文)中の単
語を一つずつ読みこみ、それが意味情報を持つべきかを
判定し、そうであれば相当するマーカを単語に付加する
。これは入力単語を辞書の各単語と比較して一致するも
のをめ、一致した辞書単語に意味情報が併記されておれ
ば該意味情報(マーカ)を入力単語に付加するという方
法で行なう。コンポーザCは該マーカをチェックし、か
つ後述のように付加・削除しながら複数個の単語を意味
単位文節にもとめる。意味単位文節はそれぞれ一つのマ
ーカを持つ。セレクタSはマーカをみながら、意味単位
文節を相当する抽出装置Eiに送る。抽出装置Eiは意
味単位文節中より、値、単位その他の条件を判定し、メ
モリMに格納する。
具体例を説明すると、前述のr2000万円の中原駅附
近のマンションは?」という自然語文は、r2000万
/円/の/中原駅/附近/の/マンション/は/?」と
いう単語に分割されて処理される。r2000万」とい
う単語は数を表わすので、アダーAはこれにVALUE
を付加する。この場合のマーカ(意味情報)は数とVA
LUEである。次の「円」という単語は単位を表わし、
且つ価格に関するものであるからこれにはマーカとして
PRI CEを付加する。続く「の」は単なる助詞であ
るからマーカは付さない。以下同様にして「中原駅」に
は5TATIONとVALUEを、また「マンション」
にはMANS I ONを付す。
残りの「附近」 (名詞)「の」 (助詞)「は」(助
詞)はいずれも検索上の意味を持たないのでマーカは付
さない。これらの分類は、データベース専用の(たとえ
ば不動産の)単語辞書を参照することにより行われる。
第2図は本発明の具体例で、mlはバブルメモリを使用
した上記の辞書である。バブルメモリmlには、意味解
析のためのキーワードとその単語のもつ意味情報を記憶
している。入力単語がメモリm1の単語に等しいとキー
ワードアダーKAはその意味情報(前述のマーカ)を入
力単語に付加する。AC+はゲート開閉のためのアダー
コント7 0−ラである。このキーワードアダーKAとコントロー
ラAC+およびメモリm1は1つの機能ブロックを構成
する。続く数値チェッカNC1単位チェッカUCI、U
C2とアダーコントローラAC2も1つの機能ブロック
を構成する。これらのチェッカUC1,NC,UC2は
シフトレジスタのように動作するデータバッファないし
レジスタを内蔵し、入力単語はこの順に入力する。即ち
第1 (先頭)の単語がUC2にあるとき第2の単語は
NCに、第3の単語はUC+にあり、各々は自己の所に
入力した単語データが数値か単位か等をチェックする機
能を有する。そして、ブロック全体としては数値チェッ
カNGに数値がきたかどうかをチェックし、数値なら単
位チェッカUC+が単位か、そうでなければ単位チェッ
カUC2が単位かを判定し、どちらかが単位であれば数
値と単位で一つの意味情報を持つように、後方にある方
をシフトして1つに纏める。つまり、キーワードアダー
KAに入力した単語列は順次UC+NC。
U C21B C21・・・・・・という経路でシフト
されるつ− から、単位チェッカNCに数値がきたらそしてそれが価
格であるならr2000万」 「円」のように、数値r
2000万」の後方に単位「円」があるはずで、なけれ
ば「¥2000万」と入力されたかも知れないので数値
r2000万」の前方の単語を単位チェッカーUC2で
チェックし、数値の前後いずれかに単位があればこれら
は価格に関する単語列と判断し、後方にある単位(前者
の場合、または数値(後者の場合)をシフトして1単語
にする。以上が第1図のアダーAの具体例である。
続(ベーシソクコンボーザBCI、BC2とベーシソク
コンポーザコントローラBCCも1つの機能ブロックを
構成する。ページソクコンポーザBC2は意味情報を持
たない単語(例えば前述の「の」 「附近」等)がくる
とそれを次段のヘーシソクコンポーザBC1ヘシフトし
、そこの単語と結合する。なお意味情報のない「の」、
「附近」などは検索には格別用をなさないので、これら
は消してもよい。ヘーシソクコンポーザBC2に意味情
報を持つ単語が来るとBCI、SC2ともシフトする。
次のコンプレソクスコンボーザCC1コンプレックスコ
ンボーザコントローラ(ゲート制御装置)CCCおよび
バブルメモリm2も1つの機能ブロックを構成する。こ
のバブルメモリm2には結合できる意味情報と助詞の関
係がパターンとして登録してあり、それと同じ意味情報
の並びの文節列が表われると、それらを結合し、意味情
報はメモリm2に登録された新しいものになる。
ベーシソクコンボーザBC2からコンプレックスコンポ
ーザCCまでが第1図のコンポーザCの具体例で、残り
のブロックは第1図と同様である。
但し、SCはセレクタコントローラ、CTLは全体のコ
ントローラ、m3ば第1図のMに相当するメモリである
上述した処理の他の例は、例えば「価格が2000万円
」という検索文の場合には、「価格」にPRICEを付
し、またr2000万円]にPRICEとVALUEを
付し、更にそれらの間の助詞が「が」であるためこれら
の単語をPRTCF。
でまとめる。また「バスで10分」という場合は、「バ
ス」にbustimeを、また「10」にVALUE、
更に「分」にtimeを付して全体をbustimeで
まとめる。これらの処理に必要な情報は辞書メモリm2
に格納されている。
かくして抽出されたキーワードはセレクタSで選択され
、抽出装置Eiを通してメモリm3に書込まれる。例え
ば抽出装置E1がPRI CEに関するものであればメ
モリm3の該当する領域にはr2000万」が、また抽
出装置E2が5TATrONに関するものであればメモ
リm3の該当する領域には「中原」が、・・・・・・と
いうようにである。
そして、最終的に得られたメモリm3の内容をキーワー
ドとしてデータベースが検索される。実際にはこれらの
キーワードをデータベース検索用のコマンドに直す。
発明の効果 以上述べたように本発明によれば、自然語文の意味解析
を、単語に意味情報を付加するアダー、意味情報が付加
された単語をまとめるコンボーザ、および意味情報毎に
単語を分類して出力するセレクタ等のハードウェアで実
現したので、データベース検索用の単語列のようにキー
ワードの配列に近い単語列からの高速且つ能率的に意味
抽出を行うことが可能となる。
【図面の簡単な説明】
第1図は本発明の一実施例を示す概略ブロック図、第2
図はその具体例を示す詳細ブロック図である。 図中、Aはアダー、Cはコンボーザ、Sはセレクタ、E
iは抽出装置、Mはメモリである。 出願人 富士通株式会社 代理人弁理士 青 柳 稔 0

Claims (1)

    【特許請求の範囲】
  1. 自然言語の単語列を入力として各単語に意味情報を付加
    するアダーと、意味情報が付加された単語複数個を、不
    要な単語は削除して1つの意味単位文節にまとめるコン
    ボーザと、該意味単位文節の意味情報を参照して該意味
    単位文節を対応する抽出装置に送るセレクタとを備え、
    一連の単語列からキーワードになる単語を抽出するよう
    にしてなることを特徴とする自然言語の意味抽出装置。
JP58116766A 1983-06-28 1983-06-28 自然言語の意味抽出装置 Pending JPS608981A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58116766A JPS608981A (ja) 1983-06-28 1983-06-28 自然言語の意味抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58116766A JPS608981A (ja) 1983-06-28 1983-06-28 自然言語の意味抽出装置

Publications (1)

Publication Number Publication Date
JPS608981A true JPS608981A (ja) 1985-01-17

Family

ID=14695200

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58116766A Pending JPS608981A (ja) 1983-06-28 1983-06-28 自然言語の意味抽出装置

Country Status (1)

Country Link
JP (1) JPS608981A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6446831A (en) * 1987-08-17 1989-02-21 Nippon Telegraph & Telephone Automatic key word extracting device
JPH01112331A (ja) * 1987-10-26 1989-05-01 Nippon Telegr & Teleph Corp <Ntt> キーワード重要度自動評価装置
US5099425A (en) * 1988-12-13 1992-03-24 Matsushita Electric Industrial Co., Ltd. Method and apparatus for analyzing the semantics and syntax of a sentence or a phrase
KR20200092491A (ko) * 2019-01-11 2020-08-04 연세대학교 산학협력단 자연어 문장을 기반으로 하는 변환 이미지 생성 장치, 방법 및 이를 이용하는 변환 이미지 생성 시스템

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6446831A (en) * 1987-08-17 1989-02-21 Nippon Telegraph & Telephone Automatic key word extracting device
JPH01112331A (ja) * 1987-10-26 1989-05-01 Nippon Telegr & Teleph Corp <Ntt> キーワード重要度自動評価装置
US5099425A (en) * 1988-12-13 1992-03-24 Matsushita Electric Industrial Co., Ltd. Method and apparatus for analyzing the semantics and syntax of a sentence or a phrase
KR20200092491A (ko) * 2019-01-11 2020-08-04 연세대학교 산학협력단 자연어 문장을 기반으로 하는 변환 이미지 생성 장치, 방법 및 이를 이용하는 변환 이미지 생성 시스템

Similar Documents

Publication Publication Date Title
Smadja Macrocoding the lexicon with co-occurrence knowledge
Drouin Term extraction using non-technical corpora as a point of leverage
Mauldin Conceptual information retrieval: A case study in adaptive partial parsing
AU768495B2 (en) Method and system for topical segmentation, segment significance and segment function
US6061675A (en) Methods and apparatus for classifying terminology utilizing a knowledge catalog
US6523030B1 (en) Sort system for merging database entries
US6295529B1 (en) Method and apparatus for indentifying clauses having predetermined characteristics indicative of usefulness in determining relationships between different texts
US5541838A (en) Translation machine having capability of registering idioms
US20070106499A1 (en) Natural language search system
JPS5844536A (ja) 文書検索装置
Mauldin Information retrieval by text skimming
Budi et al. Association rules mining for name entity recognition
Gopan et al. Comparative study on different approaches in keyword extraction
Ibekwe-Sanjuan Terminological variation, a means of identifying research topics from texts
JP2572314B2 (ja) キーワード抽出装置
Gelbart et al. FLEXICON: An evaluation of a statistical ranking model adapted to intelligent legal text management
JPS608981A (ja) 自然言語の意味抽出装置
JP2894301B2 (ja) 文脈情報を用いた文書検索方法および装置
Croft et al. TREC-2 routing and ad-hoc retrieval evaluation using the INQUERY system
Bourbakis et al. An SPN based methodology for document understanding
JP4259726B2 (ja) パラレルシソーラスの生成プログラムを記録した記録媒体、パラレルシソーラスを記録した記録媒体及びパラレルシソーラスナビゲーションプログラムを記録した記録媒体
Cherfi et al. Towards a text mining methodology using frequent itemsets and association rule extraction
Saetia et al. Enhancing Thai Keyphrase Extraction Using Syntactic Relations: An Adoption of Universal Dependencies Framework
Bookstein et al. Information retrieval tools for literary analysis
Yeh Comparing two trainable grammatical relations finders