JPH0391077A - Keyword index generating system - Google Patents

Keyword index generating system

Info

Publication number
JPH0391077A
JPH0391077A JP1228672A JP22867289A JPH0391077A JP H0391077 A JPH0391077 A JP H0391077A JP 1228672 A JP1228672 A JP 1228672A JP 22867289 A JP22867289 A JP 22867289A JP H0391077 A JPH0391077 A JP H0391077A
Authority
JP
Japan
Prior art keywords
word
words
keyword index
keyword
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1228672A
Other languages
Japanese (ja)
Inventor
Koji Akiyama
幸司 秋山
Masahiro Kawasaki
正博 川崎
Juichiro Yamazaki
山崎 重一郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP1228672A priority Critical patent/JPH0391077A/en
Publication of JPH0391077A publication Critical patent/JPH0391077A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To improve the retrieving rate of a desired sentence by reading out a word showing the abstract conception of a selected word and a word showing the abstract conception of a selected word and a word showing a conception, to which a name belongs, and outputting those words to a keyword index update part together with the selected words. CONSTITUTION:A word development part 16 reads out the word showing the abstract conception of the word selected by a word selection part 12, and the word showing the conception, to which the name belongs, from a storing means 15 and outputs those words to a keyword index update part 13 together with the selected words. Thus, the extremely concrete conception is developed from the selected word to the word showing the more abstract conception or developed from the name to the word showing the conception and not only the original word but also these developed word groups can be attached as the keyword of a record unit text and registered to a keyword index 14. Thus, even the word showing the conception not existent in the record unit text of the sentence can be registered to the keyword index as well and the retrieving rate of the desired sentence can be more improved.

Description

【発明の詳細な説明】 (概要) テキストベースから所望の文章を検索するために用いら
れるキーワード索引の生成方式に関し、所望の文章の検
索率をより向上することを目的とし、 文章の記録単位テキストを単語分割手段により単語分割
し、その分割された単語の中から単語選別部によりキー
ワードになり得る単語だけを選別してキーワード索引更
新部によりキーワード歯弓に登録するキーワード索引生
成方式において、キーワードになり得る各単語について
各々その単語のより抽象的な概念及び名称が属する概念
を表す単語群を予め記憶している記憶手段と、前記単語
選別部により選別された単語に基づき該記憶手段から該
選別された単語の抽象的な概念を示す単語及び名称が属
する概念を示す単語を読み出し、それらを該選別された
単語と共に前記キーワード索引更新部へ出力する単語展
開部とを具備するよう構成する。
[Detailed Description of the Invention] (Summary) The purpose of this invention is to further improve the retrieval rate of a desired text with respect to a keyword index generation method used to search for a desired text from a text base. In the keyword index generation method, a word division means divides the word into words, a word sorting unit selects only words that can become keywords from the divided words, and the keyword index updating unit registers the words in the keyword arch. a storage means that stores in advance a group of words representing a more abstract concept of each possible word and a concept to which the name belongs; and a selection method from the storage means based on the words selected by the word selection section. The present invention is configured to include a word expansion section that reads out words indicating the abstract concept of the selected word and words indicating the concept to which the name belongs, and outputs them together with the selected words to the keyword index updating section.

(産業上の利用分野) 本発明はキーワード索引生成方式に係り、特にテキスト
ベースから所望の文章を検索するために用いられるキー
ワード索引の生成方式に関する。
(Industrial Application Field) The present invention relates to a keyword index generation method, and more particularly to a keyword index generation method used to search for a desired sentence from a text base.

(従来の技術) 大量の文章をある単位テキスト(例えば一つの文あるい
は段落など)毎に記録したテキストベースから所望の文
章を検索する方式として、キーワード検索方式が知られ
ている。このキーワード検索方式は、文章の各記録単位
テキスト毎にその内容を表すキーワード群を付加し、こ
のようなキーワードから各記録単位テキストへの写像を
与える索引を構成することにより、キーワード群の中か
ら該当するキーワードを用いて所望の文章を検索するも
のである。
(Prior Art) A keyword search method is known as a method for searching for a desired sentence from a text base in which a large amount of sentences are recorded in units of text (for example, one sentence or paragraph). This keyword search method adds a keyword group representing the content to each recording unit text of a sentence, and constructs an index that provides mapping from such keywords to each recording unit text. A desired sentence is searched using a corresponding keyword.

しかし、大量の文章に対してこのようなキーワードを人
手で付加することは、膨大な工数が必要であるため、従
来、計算機と辞書を用いた単語分割処理によって得られ
た単語群から自立語を抽出してキーワードとする方式(
フリーターム方式)が行なわれている。
However, manually adding such keywords to a large amount of text requires a huge amount of man-hours, so traditionally, independent words were extracted from word groups obtained by word segmentation using a computer and dictionary. Method of extracting keywords (
A free-term system is in place.

〔発明が解決しようとする課題〕[Problem to be solved by the invention]

上記のフリーターム方式では、文章中に現れる単語をそ
のままキーワードとするため、一般に物の名称(固有名
詞)や非常に具体的な概念を表す単語がキーワードにな
る傾向が強い。一方、テキストへ−スの検索者の立場か
らは、物の名称や具体的な概念を表す単語が不明である
ことが多く、そのため抽象的な概念を表す単語がキーワ
ードとしてテキストベース検索装置に入力される傾向が
ある。
In the above-mentioned free-term method, words that appear in a sentence are used as keywords, so there is a strong tendency for keywords to be the names of things (proper nouns) or words that represent very specific concepts. On the other hand, from the standpoint of text-based searchers, the names of objects and words expressing concrete concepts are often unknown, so words expressing abstract concepts are input as keywords into text-based search devices. There is a tendency to

従って、従来はフリーターム方式によって生成されたキ
ーワード索引を用いる場合、検索者が検索対象である文
章の分野について良く知っているか、若しくは検索者自
身がより具体的なキーワードを概念体系(シソーラス)
によって調べない限り、所望の文章が検索されない可能
性が高いという欠点がある。
Therefore, when using a keyword index conventionally generated by the free-term method, it is necessary for the searcher to be familiar with the field of text that is the target of the search, or to search for more specific keywords using a concept system (thesaurus).
The disadvantage is that there is a high possibility that the desired text will not be retrieved unless it is searched by .

本発明は上記の点に鑑みてなされたもので、所望の文章
の検索率をより向上し得るキーワード索引生成方式を提
供することを目的とする。
The present invention has been made in view of the above points, and an object of the present invention is to provide a keyword index generation method that can further improve the search rate for desired sentences.

〔課題を解決するための手段〕[Means to solve the problem]

第1図は本発明の原理ブロック図を示す。本発明は文章
の記録単位テキストを単語分割手段11により単語分割
し、その分割された単語の中から単語選別部12により
キーワードになり得る単語だけを選別してキーワード索
引更新部13によりキーワード索引14に登録するキー
ワード索引生成方式において、記憶手段15と単語展開
部16とを具備するようにしたものである。
FIG. 1 shows a block diagram of the principle of the present invention. In the present invention, a recorded unit text of a sentence is divided into words by a word division means 11, and from the divided words, a word selection unit 12 selects only words that can become keywords, and a keyword index update unit 13 creates a keyword index 14. This is a keyword index generation method for registering a keyword index, which is equipped with a storage means 15 and a word expansion section 16.

ここで、上記の記憶手段15は、キーワードになり得る
各単語について各々その単語のより抽象的な概念及び名
称が属する概念を表す単語群を予め記憶している。
Here, the storage means 15 stores in advance, for each word that can be a keyword, a group of words representing a more abstract concept of the word and a concept to which the name belongs.

また、1語展開部16は単語選別部12により選別され
た単語の抽象的な概念を示す単語及び名称が属する概念
を示す単語を記憶手段15から読み出し、それらを上記
選別された単語と共にキーワード索引更新部13へ出力
する。
In addition, the one-word expansion unit 16 reads out from the storage unit 15 words indicating the abstract concept of the word selected by the word selection unit 12 and words indicating the concept to which the name belongs, and uses them together with the selected words in the keyword index. It is output to the update unit 13.

〔作用〕[Effect]

本発明では、従来の7リ一ターム方式によるキーワード
索引生成方式と同様にして分割された単語群を、予め記
憶手段15に用意した概念分類体系、並びに各種名称を
付された物が属する概念の知識を単語展間部16によっ
て用いることにより、非常に具体的な概念を表す選別さ
れた単語からより抽象的な概念を表す単語へ展開し、あ
るいは名称から概念を表す単語へ展開し、もとの単語だ
けでなく、これら展開された単語群も記録単位テキスト
のキーワードとして付加してキーワード索引14に登録
する。
In the present invention, the word groups divided in the same manner as the conventional 7-term keyword index generation method are used in a concept classification system prepared in advance in the storage means 15, as well as concepts to which objects with various names belong. Knowledge is used by the word processor 16 to expand from selected words representing very specific concepts to words representing more abstract concepts, or from names to words representing concepts. Not only the words , but also these expanded word groups are added as keywords of the recording unit text and registered in the keyword index 14 .

従って、本発明によれば、文章の記録単位テキスト中に
は存在しない概念を表す単語も、キーワード索引14に
登録することができる。
Therefore, according to the present invention, words representing concepts that do not exist in the recording unit text of a sentence can also be registered in the keyword index 14.

〔実施例〕 第2図は本発明方式の一実施例を適用した文章検索装置
のブロック図を示す。同図中、第1図と同一構成部分に
は同一符号を付しである。第2図において、17は単語
分割部、18は単語辞書で、これらは単語分割手段11
を構成している。また、19は概念分類体系知識で、入
力された単語のより抽象的な概念を表す単語が予め記憶
されている。
[Embodiment] FIG. 2 shows a block diagram of a text retrieval device to which an embodiment of the system of the present invention is applied. In the figure, the same components as in FIG. 1 are given the same reference numerals. In FIG. 2, 17 is a word division unit, 18 is a word dictionary, and these are connected to the word division means 11.
It consists of Reference numeral 19 is conceptual classification system knowledge, in which words representing more abstract concepts than the input words are stored in advance.

20は名称−概念関連知識で、入力された単語の名称が
属する概念を表す単語が予め記憶されている。これらの
概念分類体系知識19及び名称−概念関連知120は記
憶手段15を構成している。
Reference numeral 20 denotes name-concept related knowledge, in which words representing the concept to which the name of the input word belongs are stored in advance. These concept classification system knowledge 19 and name-concept related knowledge 120 constitute the storage means 15.

また、21は文章入力部、22は文章登録部、23はテ
キストベース、24はキーワード検索装置である。
Further, 21 is a text input section, 22 is a text registration section, 23 is a text base, and 24 is a keyword search device.

次に本実施例の動作について説明する。検索対象である
文章は文章入力部21により適当な記録単位テキストに
分けられる。分けられた記録単位テキストは文章登録部
22によってテキストベースに登録されると共に、単語
辞書18を用いた単語分割部17によって単語列に変換
される。
Next, the operation of this embodiment will be explained. The text to be searched is divided into appropriate recording unit texts by the text input section 21. The divided recording unit text is registered in the text base by the text registration section 22, and is converted into a word string by the word division section 17 using the word dictionary 18.

この単語列は単語選別部12によってキーワードになり
つる単語のみが選択されてから単語展間部16に入力さ
れる。単語展開部16は概念分類体系知識19及び名称
−概念関連知識20を用い、単語選別部12により選別
されて入力された単語(キーワード)から抽象的な単語
あるいは名称が属する概念を表す単語を求め、これら求
めた単語群(R開された単語群)をもとの単語(キーワ
ード)と共にキーワード索引更新部13へ送る。
This word string is input to the word selection section 16 after the word selection section 12 selects only words that can be used as keywords. The word development unit 16 uses concept classification system knowledge 19 and name-concept related knowledge 20 to find abstract words or words representing the concept to which the name belongs from the words (keywords) selected and input by the word selection unit 12. , these obtained word groups (R-opened word groups) are sent to the keyword index updating unit 13 together with the original words (keywords).

キーワード索引更新部13は入力された単語群をキーワ
ード索引14に更新登録する。キーワード検索装置24
はテキストベースの検索者により操作され、キーワード
索引14の中から検索者の指示したキーワードを検索し
、そのキーワードに対応する記録単位テキストをテキス
トベース23から読み出す。ここで、キーワード索引1
4には前記したように記録単位テキスト中の単語だけで
なく、記録単位テキスト中には存在しない概念を表す単
語もキーワードとして生成されて登録されているから、
検索者が入力したキーワードが所望の記録単位テキスト
中に存在しなくても、記録単位アキスト中の単語の抽象
的概念あるいは名称が属する概念を表す単語である場合
には所望の記録単位テキストを検索することができる。
The keyword index update unit 13 updates and registers the input word group in the keyword index 14. Keyword search device 24
is operated by a text-based searcher to search the keyword index 14 for a keyword specified by the searcher, and read out the recording unit text corresponding to the keyword from the text base 23. Here, keyword index 1
4, as mentioned above, not only words in the recording unit text but also words representing concepts that do not exist in the recording unit text are generated and registered as keywords.
Even if the keyword entered by the searcher does not exist in the desired recording unit text, the desired recording unit text can be searched if it is a word that represents an abstract concept or a concept to which the name belongs in the word in the recording unit aquist. can do.

従って、従来よりも本実施例の方がより所望の記録単位
テキストの検索率を向上することができる。
Therefore, the present embodiment can improve the retrieval rate of a desired recording unit text more than the conventional method.

次に本実施例による文章検索動作についてより具体的に
説明する。例えば新聞記事見出し文をアキストベース2
3に登録する時、文章入力部21によって分けられた記
録単位テキストが第3図に示すものであるものとする。
Next, the text search operation according to this embodiment will be explained in more detail. For example, write a newspaper article headline using Acistbase 2.
3, it is assumed that the recording unit texts divided by the text input section 21 are as shown in FIG.

この記録単位テキストを単語分割部17.単語辞118
及び単語展開部16によって従来と同様に単語分割及び
単語選別を行なうと、選別された結果は第4図に示す如
くになる。
This recording unit text is processed by the word dividing unit 17. Vocabulary 118
When the word expansion unit 16 performs word division and word selection in the same manner as in the prior art, the selection results are as shown in FIG.

本実施例は更に第5図に示されるような上位語。The present embodiment further uses hypernyms as shown in FIG.

関連語が概念を表す単語別に分類された概念分類体系知
識19と、第6図に示されるような名称と名称が属する
概念を表す41藷が格納された名称概念関連知識20と
を用いて単語展開部16で単語展開を行なう。これによ
り、第4図中の「富士通」からは第6図かられかるよう
に「コンピュータメーカ」が、第4図中(7)rFM−
TOWNS、1からは第6図の名称−概念関連知識20
より「パソコン」が、第4図中の「MPU」からは第5
図の概念分類体系知識19よりrLsIJと「コンピュ
ータ」とが夫々展開される。従って、単語展開部16に
よって第7図に示す如き単語群がキーワードとして得ら
れる。
The concept classification system knowledge 19 in which related words are classified by word representing the concept, and the name concept related knowledge 20 in which names and 41 categories representing the concepts to which the names belong, as shown in FIG. 6, are stored. A word expansion section 16 performs word expansion. As a result, from "Fujitsu" in Figure 4 to "Computer Manufacturer" as shown in Figure 6, (7) rFM-
TOWNS, from 1 to the name of Figure 6 - concept related knowledge 20
"PC" in Figure 4 is "MPU" in Figure 5.
From the concept classification system knowledge 19 in the figure, rLsIJ and "computer" are respectively expanded. Therefore, the word expansion section 16 obtains a word group as shown in FIG. 7 as a keyword.

これらの単語群はキーワード索引更新部13によって第
8図(B)に示すようにキーワード索引14に登録され
る。キーワード索引14は、テキストベース23に格納
された記録単位テキストヘのポインタ情報を持っている
。従って、第3図に示した記録単位テキストが第8図(
A)に示す如くテキストベース23の番号10206の
位置に格納される場合は、上記第7図の単語群(キーワ
ード群)は第8図(B)に示す如く同じテキスト番号1
0206と共にキーワード索引14に登録される。
These word groups are registered in the keyword index 14 by the keyword index updating unit 13 as shown in FIG. 8(B). The keyword index 14 has pointer information to the recording unit text stored in the text base 23. Therefore, the recording unit text shown in Figure 3 is changed to Figure 8 (
When stored in the position of number 10206 in the text base 23 as shown in A), the word group (keyword group) in Fig. 7 is stored in the same text number 1 as shown in Fig. 8 (B).
It is registered in the keyword index 14 along with 0206.

キーワード検索装置24は検索者から与えられたキーワ
ードに対応する記録単位テキストを、このキーワード索
引14を用いて取得する。これにより、本実施例によれ
ば、第3図に示した記録単位テキストを検索する場合、
従来方式では検索することができなかった「コンピュー
タメーカ」。
The keyword search device 24 uses the keyword index 14 to obtain a recording unit text corresponding to the keyword given by the searcher. As a result, according to this embodiment, when searching the recording unit text shown in FIG.
``Computer manufacturers'' that could not be searched using conventional methods.

「パソコンJ、rLsIJ及び「コンピュータ」のいず
れかをキーワードとして入力したときでも、検索するこ
とができる。
You can also search by entering any of "PC J, rLsIJ," and "Computer" as keywords.

(発明の効果) 上述の如く、本発明によれば、記録単位テキスト中には
存在しない概念を示す単語もキーワード索引に登録する
ため、フリーターム方式によるキーワード索引生成に比
べて、検索率を向上でき、検索の漏れを少なくすること
ができる等の特長を有するものである。
(Effects of the Invention) As described above, according to the present invention, words representing concepts that do not exist in the recording unit text are also registered in the keyword index, so the search rate is improved compared to keyword index generation using the free term method. This feature has the advantage of being able to reduce search omissions.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の原理ブロック図、 第2図は本発明の一実施例を適用した文章検索装置のブ
ロック図、 第3図は文章入力部で切り出された記録単位テキストの
一例を示す図、 第4図は単語分割及び単語選別された結果の一例を示す
図、 第5図は概念分類体系知識の内容例を示す図、第6図は
名称−概念関連知識の内容例を示す図、第7図は単語展
開部によって得られたキーワード群の一例を示す図、 第8図は第2図中のテキストベース及びキーワード索引
の内容の一例を示す図である。 図において、 11は単語分割手段、 12は単語選別部、 13はキーワード索引更新部、 14はキーワード索引、 15は記憶手段、 16は単語展開部、 19は概念分類体系知識、 20は名称−概念関連知識 を示す。
FIG. 1 is a block diagram of the principle of the present invention. FIG. 2 is a block diagram of a text retrieval device to which an embodiment of the present invention is applied. FIG. 3 is a diagram showing an example of recording unit text cut out by the text input section. , Figure 4 is a diagram showing an example of the results of word segmentation and word selection, Figure 5 is a diagram showing an example of the content of concept classification system knowledge, Figure 6 is a diagram showing an example of the content of name-concept related knowledge, FIG. 7 is a diagram showing an example of a keyword group obtained by the word expansion section, and FIG. 8 is a diagram showing an example of the contents of the text base and keyword index in FIG. 2. In the figure, 11 is word division means, 12 is word selection section, 13 is keyword index update section, 14 is keyword index, 15 is storage means, 16 is word expansion section, 19 is concept classification system knowledge, 20 is name-concept Demonstrate relevant knowledge.

Claims (1)

【特許請求の範囲】 文章の記録単位テキストを単語分割手段(11)により
単語分割し、その分割された単語の中から単語選別部(
12)によりキーワードになり得る単語だけを選別して
キーワード索引更新部(13)によりキーワード索引(
14)に登録するキーワード索引生成方式において、 キーワードになり得る各単語について各々その単語のよ
り抽象的な概念及び名称が属する概念を表す単語群を予
め記憶している記憶手段(15)と、 前記単語選別部(12)により選別された単語に基づき
該記憶手段(15)から該選別された単語の抽象的な概
念を示す単語及び名称が属する概念を示す単語を読み出
し、それらを該選別された単語と共に前記キーワード索
引更新部(13)へ出力する単語展開部(16)と、 を具備することを特徴とするキーワード索引生成方式。
[Claims] A recording unit text of a sentence is divided into words by a word division means (11), and a word selection unit (11) selects words from among the divided words.
12) selects only words that can be used as keywords, and the keyword index update unit (13) creates a keyword index (
14) In the keyword index generation method registered in 14), for each word that can be a keyword, a storage means (15) that stores in advance a group of words representing a more abstract concept of that word and a concept to which the name belongs; Based on the words selected by the word selection section (12), words representing the abstract concept of the selected words and words representing the concept to which the name belongs are read out from the storage means (15), and these are read out from the storage means (15), and words representing the concept to which the name belongs are read out from the storage means (15). A keyword index generation method, comprising: a word expansion unit (16) that outputs the words together with the keyword index update unit (13).
JP1228672A 1989-09-04 1989-09-04 Keyword index generating system Pending JPH0391077A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1228672A JPH0391077A (en) 1989-09-04 1989-09-04 Keyword index generating system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1228672A JPH0391077A (en) 1989-09-04 1989-09-04 Keyword index generating system

Publications (1)

Publication Number Publication Date
JPH0391077A true JPH0391077A (en) 1991-04-16

Family

ID=16880006

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1228672A Pending JPH0391077A (en) 1989-09-04 1989-09-04 Keyword index generating system

Country Status (1)

Country Link
JP (1) JPH0391077A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728834A (en) * 1993-07-12 1995-01-31 Sony Corp Information retrieving device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728834A (en) * 1993-07-12 1995-01-31 Sony Corp Information retrieving device

Similar Documents

Publication Publication Date Title
US5099426A (en) Method for use of morphological information to cross reference keywords used for information retrieval
JP2929963B2 (en) Document search device, word index creation method, and document search method
US4775956A (en) Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US6131082A (en) Machine assisted translation tools utilizing an inverted index and list of letter n-grams
JP2896634B2 (en) Full-text registered word search device and full-text registered word search method
JPH11120203A (en) Method for combining data base and device for retrieving document from data base
JP2742115B2 (en) Similar document search device
JP2001043236A (en) Synonym extracting method, document retrieving method and device to be used for the same
JPH0628403A (en) Document retrieving device
JPH0484271A (en) Intra-information retrieval device
JPH0391077A (en) Keyword index generating system
JP2002132789A (en) Document retrieving method
JPH02253474A (en) Text base retrieving method
JPH08115340A (en) Document retrieval device and generating device for index file used for the same
JPH07296005A (en) Japanese text registration/retrieval device
JPH1145256A (en) Document retrieval device and computer-readable recording medium where program making computer function as same device is recorded
JPH07168848A (en) Word dictionary retrieval device
JPH0821031B2 (en) Language analyzer
JP3585944B2 (en) Data processing method and apparatus
JPH03229367A (en) Text base retrieving system
JPH0410062A (en) Document retrieving method equipped with vocaburary extension function
JPH05165889A (en) Document retrieval device
JPH11203312A (en) Device for retrieving keyword, device for retrieving document, recording medium for recording keyword retrieval program and recording medium for recording document retrieval program
JPH06309368A (en) Document retrieving device