JPS5833993B2 - キ−ワ−ド抽出装置 - Google Patents

キ−ワ−ド抽出装置

Info

Publication number
JPS5833993B2
JPS5833993B2 JP55133704A JP13370480A JPS5833993B2 JP S5833993 B2 JPS5833993 B2 JP S5833993B2 JP 55133704 A JP55133704 A JP 55133704A JP 13370480 A JP13370480 A JP 13370480A JP S5833993 B2 JPS5833993 B2 JP S5833993B2
Authority
JP
Japan
Prior art keywords
keyword
words
keywords
section
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP55133704A
Other languages
English (en)
Other versions
JPS5759277A (en
Inventor
紀芳 菊地
正光 佐藤
裕美 斎藤
雅人 野寄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
Agency of Industrial Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency of Industrial Science and Technology filed Critical Agency of Industrial Science and Technology
Priority to JP55133704A priority Critical patent/JPS5833993B2/ja
Publication of JPS5759277A publication Critical patent/JPS5759277A/ja
Publication of JPS5833993B2 publication Critical patent/JPS5833993B2/ja
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 本発明は文字コード列化して入力された文章から自動的
にそのキーワードを抽出するキーワード抽出装置に関す
る。
近年、電子計算機を中心とした情報処理システムの発展
が著しく、日本語に対する処理システムも漢字入出力装
置を中心として幅広く開発されている。
このような情勢にあって今後、日本語情報の機械検索、
自動抄録、機械翻訳、更には日本語によるマン・マシン
・コミュニケーション等、高度の言語情報処理システム
の開発が強く望まれてくるものと思われる。
ところがこのような言語情報処理を可能とする為には、
日本語文章を解析し、その内容を機械的に把握できるよ
うにする必要があるが、未だ各種業務の実情に応じた効
果的な手段が提唱されていない。
ところで、文章解析によって文章中から自動的にキーワ
ードを抽出することが従来より種々研究・実験されてい
る。
例えば文章中に出現する語句を統計的に調べてキーワー
ドを検索したり、あるいは相当数のキーワードを予め登
録したキーワード表を参照して文章中の語句との対比に
よりキーワード検索するもの等がある。
熟年ら前者方式では文章の表現内容を統計計算のみで正
確に把握することが困難な問題があり、また後者方式に
あっては表現形式の相違による誤差や、キーワードとし
て抽出される語句が単一の単語や文節の語に限られる等
の問題があった。
しかして、日本語文章は、特に語と語とをいくつか連結
した形の複合語が良く用いられる。
このような複合語は一般に複数の文節に分解して表現す
ることができ、例えば「絶縁膜形成方法」と云うもので
は「絶縁する膜を形成する方法」として表現することも
できる。
これらは同じ意味を有するものであるから、文章中から
キーワードを抽出する場合、単に単語や文節単位でのキ
ーワード表対比だけでは、その検索が曖昧なものとなり
易く、キーワードとして適切なものを見落す虞れが生じ
た。
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、文章中に含まれる単語や文節の
語のみにとられれることなく、複合語や、複合語として
表現可能な複数の連結された単語からなる語句をも対象
として適切なキーワードを効果的に抽出することのでき
るキーワード抽出装置を提供せんことにある。
即ち本発明は文章解析によって得られた文節の係り受は
関係に従って連結された単語により構成される複合語を
用いてキーワード表に登録されたキーワードとの対比を
行うことにより、上述した目的を効果的に達成したもの
である。
以下、図面を参照して本発明の実施例につき説明する。
第1図は本装置の概略構成図で、大略的には文章入力部
1、文章解析部2、キーワード抽出部3、キーワード出
力部4、そしてこれらの各部を相互に関連して制御する
コントローラ5により構成される。
文章入力部1は、日本語文章を文字コード列として入力
する入力装置11.上記入力文字コード列を読込む読込
み回路12、そしてこの読込み回路12により上記読込
み文字コード列が書込まれる文章保存用のメモリ13と
により構成される。
入力装置11は例えば鍵盤装置、タブレット装置、カナ
・漢字変換装置、OCR,あるいは磁気テープ装置等か
らなり、日本語文章を所定の文字コード列に変換して人
力するものである。
このような入力装置11を介して文字コード列として入
力された日本語文章のデータ信号は、読込み回路12に
て所定の前処理を受けたのち、メモリ13に書込まれる
このメモリ13は、コアメモリ、ICメモリあるいは磁
気ディスクメモリ等からなり、上記日本語文章をそのキ
ーワード抽出処理終了まで保存記憶している。
しかして、文章保存中メモリ13に蓄積記憶された日本
語文章はコントローラ5の制御を受けて文章解析部2に
順次読出される。
この文章解析部2は、単語辞書メモリ21を備えた文章
解析回路22およびこの文章解析回路22で解析された
前記日本語文章の解析結果を記憶保持する文章解析結果
保存用メモリ23により構成される。
単語辞書メモ’J 216tコアメモリやICメモリ、
磁気ディスクメモリ等からなるもので、構文解析に必要
な単語を文法情報および語の係り受は接続の機能情報と
共に記憶している。
上記係り受は接続の機能情報は、例えば名詞単語につい
てろその意味分類上の「カテゴリ」であり、また用語、
即ち動詞単語、形容詞単語、形容動詞単語等の「桁構造
」を示すものである。
しかして文章解析回路22は、前記文章保存用メモリ1
3に記憶された文章から個々の語を切出して入力し、前
記単語辞書メモリ21を検索して、その対応する文法情
報および係り受は接続の機能情報をそれぞれ求めている
このようにして求められた各情報は上記切出された語と
共に一旦解析結果保存用メモリ23に書込まれる。
しかるのち、同メモリ23に書込まれた上記各情報は再
び文章解析回路22に読出され、上記係り受lげ接続関
係の機能情報に従って各署の間の相互の係り受は関係が
決定されている。
そして、これらの係り受は関係もまた、前記解析結果保
存用メモリ23に先の解析結果と共に書込まれる。
つまり、例えば用言については、その各構造を参照し、
これによって指定される格助詞をその直後に伴い、しか
もその格について桁構造の中で限定されたカテゴリを有
する名詞語を前記用言より前文の中で探し、その見出さ
れた名詞文節を同用言の係り受は接続関係にあると解析
して、この解析結果を保存用メモリ23に格納している
次表第1表は用言の桁構造の一例を示すもので、第2表
は名詞のカテゴリの一例を示すものである。
従って、このような格構造に従えば、例えば「基板 上
に マスク 作用 を もつ 被膜を 作り・・・・
・・・・・ 」 なる語の単位に切出された文章に対して、第1表に示さ
れる格構造の指定によって、先ず、「もつ」と云う動詞
が要求する格助詞「を」と、そのカテゴリ「機能」を有
する名詞は文章中の「作用」であると解析される。
また同様にして「作り」が要求する格助詞「を」および
そのカテゴリ「形成物」によって示される名詞は、上記
文章中の「被膜」であると解析される。
また別の解析にあっては、隣り合う名詞語関係から「基
板上に→作り」、「マスク作用を→もつ」、「被膜を→
作り」と云う係り受は関係が導き出される。
しかして、このような文章解析を実行する文章解析回路
22は、例えばメモリ21のアドレスを指定する読出し
回路や語対比回路、カウンタ、各種のレジスタ等によっ
て実現される。
かくして文章解析回路22により得られた全文章に亘る
解析結果が解析結果保存用メモリ23に格納記憶される
さて、キーワード抽出部3は、上記文章解析部2により
得られた解析結果に基づいてその文中に含まれる適正な
キーワードを抽出している。
即ちキーワード抽出部3は、コアメモリアやICメモリ
等の各種大容量メモリからなり、且つ予め相当数のキー
ワードを登録記憶したキーワード表31を備えたキーワ
ード抽出回路32と、このキーワード抽出回路32によ
って抽出されたキーワードを記憶する抽出結果保存用メ
モリ33とにより構成される。
キーワード抽出回路32は前記文章解析結果保存用メモ
リ23に記憶されたデータ(係り受は情報等)を参照し
て、互いに係り受は接続関係にある語を連結して複合語
を生成している。
そして、この複合語をキーワード表31に登録されたキ
ーワードと逐次対比してその一致比較を行い、一致結果
を得たキーワードを選択的に抽出して前記抽出結果保存
用メモリ33に書込んでいる。
このキーワード抽出が全文章に亘って行われ、その結果
が順次メモリ33に書き込まれる。
しかるのち、この抽出結果保存用メモリ33に書込まれ
た抽出キーワードは、キーワード出力部4を構成する抽
出結果出力回路41に読出され、プリンタやディスプレ
イ等の出力装置42を介して出力される。
尚、コントローラ5はこれらの一連した信号処理(解析
処理)を制御するコンピュータ等からなるものである。
またこのコントローラ5を構成するコンピュータにて、
上記解析処理の一部およびデータ出力等を行わせるよう
にしてもよいことは勿論のことである。
さて、本装置の最も特徴とするキーワード抽出は、前記
キーワード抽出部3において次のように行われる。
以下、このキーワード抽出につき例を挙げて説明する。
文章解析結果保存用メモリ23においては、文章中の各
々の語は、それらが互いに接続関係にある情報としてポ
インタコードを伴って記憶されている。
またその接続関係はフラッグにより示されている。
つまりこのフラッグによって、名詞語と名詞語、名詞語
と用言語、用言語と名詞語の接続関係が示され、また名
詞語と名詞語あるいは用言語と用言語の並列関係が示さ
れている。
このようなフラッグを伴うポインタコードに従って、上
記の如く文章解析された日本語文章に対して、次のよう
にキーワード抽出処理がなされる。
(a) 先ず文章の文末の語から順にその文頭に向っ
て、順次係り受は関係に基づき複合語をV¥或する。
即ち成る語に係る語、更にこの語に係る語と云うように
順次係り受は関係にある語を接続して複合語を作成する
尚この場合、名詞の後に接続する語としては助詞、およ
び助動詞を除き、且つす変動詞以外の動詞も除き、上記
す変動詞にあってはその名詞語幹のみを採用する。
Cb) 次に上述の如く求められた複合語とキーワー
ド表31iこ登録されたキーワードとの参照比較を行い
、上記複合語を構成する語を最も多く含むキーワードを
抽出し、これをメモリ33に書込む。
尚、複合語と同一キーワードが存在する場合、これを抽
出することは勿論のことである。
(c)次に、前記(a)項で求められた複合語中から(
b)項で抽出されたキーワードに対応した複合語を除く
ものにおいて、これを改めて複合語としてキーワード表
31を参照して同様にキーワードを抽出する。
つまり別のキーワードを求める。
この処理を複合語に対応するキーワードをキーワード表
31に見出せなくなる迄繰返し行う。
但し、先に決定したキーワードと同じものは出力される
ことはない。
(d) 一方、(a)項で求められた複合語以外に、
文末側に対して別の係り受は関係にある語が存在する場
合、これらの別の係り受は接続関係にある語を互いに接
続して改めて複合語を作成する。
そして、これらの複合語に対して(a)(c)項に示す
手順(処理)に従ってそのキーワードをそれぞれ抽出す
る。
(e) 次に以とのキーワード抽出に用いた語と並列
接続関係にある語が存在するとき、その語を起点として
(a′)−(d)項に示すキーワード抽出を今一度行う
(f) これらの処理を文章の文頭に至る迄繰返し行
うことにより、文章全体に亘るキーワード抽出が行われ
ることになる。
ちなみに、このような処理を行うキーワード抽出回路3
2は、文章解析結果保存用メモリ23から係り受は接続
および並列接続の関係等の文章解析結果を読み出す読出
し回路、キーワード表31よりキーワードを順次読出す
読出し回路、また語(キーワードと複合語)の比較を行
う比較回路、語番号および語の比較結果を計数する09
72回路、抽出キーワードをメモリ33に書込む書込み
回路、および各種データ処理に要するレジスタを以って
構成される。
尚、これらの機能をコンピュータに持たせてソフトウェ
ア処理するようにしても良いことは勿論のことである。
かくして本装置によれば文章を解析して、その係り受は
関係等の解析結果に基づき複合語を生成してキーワード
抽出を行うので、文章に適したキーワードを効果的に抽
出することができる。
従って文章内容の把握の正確化を図ることができ、認識
処理の簡易化を図り得る等の効果を奏する。
第2図は文章解析された日本語文章の構造を示す例であ
る。
同文章は、特許請求の範囲としてのクレーム文であって
、次に示すものである。
「定められた回路素子が一主面に形成された半導体基板
と、該基板上に選択的に付着された絶縁層と、前記半導
体基板から導出され、前記絶縁被膜上に形成された金属
と、該金属上に選択的に被着された絶縁層形成可能な物
質とを含み、前記金属の前記物質の被着されない露出部
分に陽極酸化された絶縁層を有することを特徴とする半
導体装置。
」従ってこのような文章にあっては第2図中矢印でそれ
ぞれ示すように「定められた」が「回路素子を」に係り
、この「回路素子を」が「形成された」に係り、またこ
の「形成された」には「−主面に」が係り、この「形成
された」が「半導体基板と、」に係ると云うようにその
係り受は接続関係が解析される。
以下の語句についても同様にその係り受は接続関係が解
析される。
そして更に各署に対する並列接続関係が半導体基板と、
」と「絶縁被膜と、」と云うように図中■■〜■で示す
ように解析される。
しかして、この文章解析結果に従い、その文末語である
「特徴 半導体装置」に対して、(i) 陽極酸化
絶縁層 こと 特徴 半導体装置 (11)前記 物質 被着 露出部分 こと 特徴半導
体装置 (iii) 前記 金属 露出部分 こと 特徴 半
導体装置 なる複合語作成結果を得る。
また図中■に示す並列接続関係から (1■)絶縁層形成可能 物質 (V) 選択的 被着 物質 (■1)該金属上 被着 物質 等の複合語作成結果を得る。
従゛つてこれらの複合語より、例・えば(1)項から「
半導体装置」と1陽極酸化絶縁層」なるキーワードが抽
出される。
次に(11)項からは、先に「半導体装置」なるキーワ
ードが既に抽出されていることから格別新たなキーワー
ドが抽出されることがなく、以下(iii)項より「金
属露出部分」、(iv)項より「絶縁層形成可能物質」
等として順次キーワードが抽出することが可能となる。
尚、文章中から指示語の解釈を補い、更に多くの語を結
合するようにしてもよい。
またキーワード表中の見出し語に対してその出力語を工
夫して、このようにすれば更に効果的なキーワード抽出
が可能となり、正確な文章把握を可能とする。
かくして本発明によれば極めて実用性の高い、効果的な
キーワード抽出ができ、その信頼性も高いので各種文章
処理システムに多大な効果を奏する。
尚、本発明は上記実施例に限定されるものではない。
例えば登録キーワードの形態や、文字コード列の形態等
は仕様に応じて定めればよいものである。
要するに本発明はその要旨を逸脱しない範囲で種々変形
して実施することができる。
【図面の簡単な説明】
第1図は本発明の一実施例を示す装置の概略構成図、第
2図(J文章の解析結果を模式的に示した図である。 1・・・文章入力部、2・・・文章解析部、3・・・キ
ーワード抽出部、4・・・キーワード出力部、5・・・
コントローフ。

Claims (1)

  1. 【特許請求の範囲】 1 日本語文章を文字コード列として人力するための文
    章入力部と、入力された文章の構文を解析して語相互間
    の係り受は関係を求める文章解析部と、この文章解析部
    より得られた上記係り受は関係にある語を用いて前記文
    章中のキーワードを抽出するキーワード抽出部と、この
    キーワード抽出部にて抽出された上記キーワードを表示
    又は印字するキーワード出力部とを有し、 前記キーワード抽出部が、予め登録されたキーワードを
    収容したキーワード表と、前記文章解析部より得られた
    係り受は関係にある語を連結してなる複数の複合語を順
    次生成する手段と、この手段により得られる各複合語と
    前記キーワード表に登録されたすべてのキーワードとの
    一致を検出する手段と、この手段により一致が検出され
    た複合語を前記文章中のキーワードとして前記キーワー
    ド出力部へ供給する手段とを備えたことを特徴とするキ
    ーワード抽出装置。
JP55133704A 1980-09-27 1980-09-27 キ−ワ−ド抽出装置 Expired JPS5833993B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP55133704A JPS5833993B2 (ja) 1980-09-27 1980-09-27 キ−ワ−ド抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP55133704A JPS5833993B2 (ja) 1980-09-27 1980-09-27 キ−ワ−ド抽出装置

Publications (2)

Publication Number Publication Date
JPS5759277A JPS5759277A (en) 1982-04-09
JPS5833993B2 true JPS5833993B2 (ja) 1983-07-23

Family

ID=15110933

Family Applications (1)

Application Number Title Priority Date Filing Date
JP55133704A Expired JPS5833993B2 (ja) 1980-09-27 1980-09-27 キ−ワ−ド抽出装置

Country Status (1)

Country Link
JP (1) JPS5833993B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60209874A (ja) * 1984-04-03 1985-10-22 Sanyo Electric Co Ltd 情報フアイル装置
JPS61243531A (ja) * 1985-04-22 1986-10-29 Nec Corp 情報検索方式
JP4308543B2 (ja) * 2003-02-04 2009-08-05 株式会社リコー キーフレーズ表現抽出装置、キーフレーズ表現抽出方法およびその方法をコンピュータに実行させるプログラム

Also Published As

Publication number Publication date
JPS5759277A (en) 1982-04-09

Similar Documents

Publication Publication Date Title
Vasiliev Natural language processing with Python and spaCy: A practical introduction
US5680628A (en) Method and apparatus for automated search and retrieval process
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US7822597B2 (en) Bi-dimensional rewriting rules for natural language processing
Srihari et al. Infoxtract: A customizable intermediate level information extraction engine
Cussens Part-of-speech tagging using Progol
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JP2002215617A (ja) 品詞タグ付けをする方法
JPH0242572A (ja) 共起関係辞書生成保守方法
Ezhilarasi et al. Depicting a Neural Model for Lemmatization and POS Tagging of words from Palaeographic stone inscriptions
Bronikowska et al. The use of electronic historical dictionary data in corpus design
Uchimoto et al. Morphological analysis of the Corpus of Spontaneous Japanese
Gupta et al. Advanced machine learning techniques in natural language processing for Indian languages
Hirpassa et al. Improving part-of-speech tagging in Amharic language using deep neural network
Priyadarshi et al. A study on the performance of recurrent neural network based models in Maithili part of speech tagging
JPS5833993B2 (ja) キ−ワ−ド抽出装置
Silberztein Text indexation with INTEX
Ezhilarasi et al. Designing the neural model for POS tag classification and prediction of words from ancient stone inscription script
Sukhahuta et al. Information extraction strategies for Thai documents
JPS59140582A (ja) 自然言語翻訳援助方式
US20090150141A1 (en) Method and system for learning second or foreign languages
JPH06259423A (ja) 要約自動作成方式
JPH0215904B2 (ja)
Gataullin et al. Context-based rules for grammatical disambiguation in the tatar language
JP2812511B2 (ja) キーワード抽出装置