JPH03122768A - Indexing supporting system - Google Patents

Indexing supporting system

Info

Publication number
JPH03122768A
JPH03122768A JP1260694A JP26069489A JPH03122768A JP H03122768 A JPH03122768 A JP H03122768A JP 1260694 A JP1260694 A JP 1260694A JP 26069489 A JP26069489 A JP 26069489A JP H03122768 A JPH03122768 A JP H03122768A
Authority
JP
Japan
Prior art keywords
index
extracted
words
thesaurus
index word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1260694A
Other languages
Japanese (ja)
Inventor
Tetsuya Morita
哲也 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP1260694A priority Critical patent/JPH03122768A/en
Publication of JPH03122768A publication Critical patent/JPH03122768A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To improve the reproducing ratio of retrieval by providing the indexing supporting device with a thesaurus holding the relating information of plural index words and a relating index word retrieving part for retrieving a relating index word for an extracted index word in a reference. CONSTITUTION:The relating index word retrieved from the thesaurus 5 by the relating index word retrieving part 6 is also displayed and selected together with an extracted index word extracted from the reference to be registered at the time of selecting the index word by a result displaying/selecting part 3. Even in the case of a phrase other than the ones included in the reference, the relating phrase is properly applied to the reference as an index word to form a data base. Since a user can more properly expressed the concept of the reference, the selecting margin of index words can be expanded at the time of retrieving the reference and the reproducing ratio of retrieval can be improved.

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、データベースに登録しようとする文献から抽
出された索引語の候補の中から、利用者が索引語として
適切と思われるものを選択し、その文献とともにデータ
ベースに登録を行うようにした索引付は支援装置に関す
る。
[Detailed Description of the Invention] Industrial Application Field The present invention allows a user to select an index word that is considered appropriate from among index word candidates extracted from documents to be registered in a database. The indexing that registers the documents in the database is related to the support device.

従来の技術 一般に、この種の自動索引付けの研究は、文献或いは文
献集合の内容をよく表現し、かつ、文献或いは文献集合
間の識別が十分に行える単語列を索引語として個々の文
献に付与することを目的としている。
Conventional technology In general, this type of automatic indexing research is based on assigning a word string to each document as an index term that well expresses the content of a document or document set and that can sufficiently identify documents or document sets. It is intended to.

例えば、文献■「自動索引付は研究の動向」(情報処理
学会誌、Vol、25.隘9,1984)や、文献■「
日本語文献における重要語の自動抽出」 (情報処理学
会誌、Vol、  l 7. N11L2.  l 9
76)に示されるように、IBM社のSTA I R8
,米国DDCの機械補助索引、JICSTのJAKAS
、京都大学のSMARTシステム等は、文献中から単語
を切り出し、不要語除去や文法規則等を適用して幾つか
の索引語候補を利用者に提示するシステムである。
For example, the literature ■ ``Automatic indexing is a research trend'' (Information Processing Society of Japan Journal, Vol. 25, 9, 1984) and the literature ■ ``
"Automatic extraction of important words in Japanese literature" (Information Processing Society of Japan Journal, Vol. l 7. N11L2. l 9
76), IBM's STA I R8
, U.S. DDC mechanical auxiliary index, JICST JAKAS
, Kyoto University's SMART system, etc. are systems that extract words from documents, apply unnecessary word removal, grammatical rules, etc., and present several index word candidates to the user.

第2図はこのような従来の自動索引抽出装置のシステム
構成を示すもので、文書ファイルlを索引自動抽出部2
により解析して索引語候補(抽出索引語)を自動抽出し
、その結果を結果表示・選択部3において利用者に対し
て表示させ、登録作業者に表示されている候補中から適
切と思われる索引語を選択させることにより、各文書に
対する索引付けを行い、データベースとしてインデック
スファイル4を作成するものである。
Figure 2 shows the system configuration of such a conventional automatic index extraction device.
automatically extracts index word candidates (extracted index words), displays the results to the user in the result display/selection section 3, and selects the candidate that seems appropriate from among the candidates displayed to the registration operator. By selecting index words, each document is indexed and an index file 4 is created as a database.

発明が解決しようとする課題 ところが、これらの従来システムでは、登録しようとす
る文献に付与できる索引語なる語句は、その文献内に現
れた語句のみである。厳密には、表記のゆれや同義語処
理によって文献内の索引語候補と同一でない表記のもの
が付与される場合もあるが、これらは同一語として認識
されて登録されるため、本質的には文献内の語句のみが
索引として付与されることには変りない。
Problems to be Solved by the Invention However, in these conventional systems, the only index terms that can be assigned to a document to be registered are words that appear in the document. Strictly speaking, spellings that are not the same as the index word candidates in the document may be assigned due to variations in spelling or synonym processing, but these are recognized and registered as the same word, so essentially There is no change in the fact that only the words and phrases in the documents are added as indexes.

このような限られた索引語の付与によると、検索時にも
これらの索引語を厳密に入力して検索しなければならず
、検索の再現率が低く、或いは検索洩れが多発しやすい
一因となる。
Due to the assignment of such limited index terms, these index terms must be entered strictly during the search, which is one reason why the recall rate of the search is low or the search is likely to be overlooked frequently. Become.

課題を解決するための手段 請求項1記載の発明では、索引語と各索引語間の関係情
報とを保持したシソーラスと、データベースに登録しよ
うとする文献から抽出された抽出索引語に関連する関連
索引語を前記シソーラスより検索する関連索引語検索部
と、結果表示・選択部とよりなり、抽出された抽出索引
語と検索された関連索引語とを結果表示・選択部に表示
させて、この結果表示・選択部により選択された索引語
を、登録しようとする前記文献とともに前記データベー
スに格納させるように構成した。
Means for Solving the Problems The invention according to claim 1 provides a thesaurus that holds index terms and relationship information between each index term, and relationships related to extracted index terms extracted from documents to be registered in a database. It consists of a related index word search section that searches for index words from the thesaurus, and a result display/selection section. The index word selected by the result display/selection section is configured to be stored in the database together with the document to be registered.

請求項2記載の発明では、請求項1記載の発明の関連索
引語検索部に代えて、データベースに登録しようとする
文献から抽出された抽出索引語に関連する関連索引語を
前記シソーラスより検索するとともに所定の計算式によ
りこの関連索引語の前記文献に対する重要度を前記シソ
ーラスを参照して計算して関連索引語の関速度順一覧を
作成する関連索引語検索部とし、抽出された抽出索引語
の一覧と作成された関連索引語の関速度順一覧とを結果
表示・選択部に表示させて、この結果表示・選択部によ
り選択された索引語を、登録しようとする前記文献とと
もに前記データベースに格納させるように構成した。
In the invention set forth in claim 2, instead of the related index word search unit of the invention set forth in claim 1, the thesaurus is searched for related index words related to extracted index words extracted from documents to be registered in the database. and a related index term search unit that calculates the importance of this related index term with respect to the document using a predetermined calculation formula with reference to the thesaurus and creates a list of related index terms in order of relative speed, and extracts the extracted index term. and the created list of related index terms in order of relative speed are displayed in the result display/selection section, and the index terms selected by the result display/selection section are stored in the database together with the document to be registered. It was configured to be stored.

作用 結果表示・選択部による索引語の選択時に、登録しよう
とする文献から抽出された抽出索引語とともに、関連索
引語検索部によりシソーラスから検索された関連索引語
も表示されて選択に供されるため、文献中身外の語句で
あっても関連するものを適宜索引語としてその文献に付
与してデータベース化させることができる。よって、利
用者は文献の持つ概念をより適切に表現でき、文献検索
に際しての索引語の選択の余地が広がり、検索の再現率
が向上するものとなる。
When an index word is selected by the action result display/selection section, the related index word searched from the thesaurus by the related index word search section is displayed along with the extracted index word extracted from the document to be registered for selection. Therefore, even if the words and phrases are outside the content of a document, related words can be appropriately assigned to the document as index terms and compiled into a database. Therefore, the user can more appropriately express the concept of the document, and the room for selecting index words when searching for documents is expanded, and the recall rate of the search is improved.

特に、関連索引語の重要度をシソーラスを参照して計算
し関連索引語の関速度順一覧を作成して、抽出索引語の
一覧とともに結果表示させて選択に供することにより、
関連の大きい関連索引語について落ちのない登録が可能
となり、より適切な索引語付与ができる。よって、従来
方式では検索条件の不完全性により検索洩れとなってい
たような文献についても検索可能となる。
In particular, by calculating the importance of related index terms with reference to a thesaurus, creating a list of related index terms in order of relative speed, and displaying the results along with a list of extracted index terms for selection.
It is possible to register all related index terms that are highly related, and more appropriate index terms can be assigned. Therefore, it becomes possible to search for documents that would otherwise have been missed due to incomplete search conditions in the conventional method.

実施例 本発明の一実施例を第1図に基づいて説明する。Example An embodiment of the present invention will be described based on FIG.

第2図で示した部分と同一部分は同一符号を用い、説明
も省略する。本実施例は、第2図のシステム構成に加え
、まず、既存の全ての索引語とともに、各索引語間の関
係情報を保持したシソーラス5が設けられている。ここ
に、索引語間の関係情報とは、例えば上位語/下位語/
関連語等に関する情報である。また、索引自動抽出部2
により文書ファイルを解析して得られる索引語候補(抽
出索引語)についてこのシソーラス5を参照して関連す
る関連索引語を検索する関連索引語抽出部6が設けられ
ている。
Components that are the same as those shown in FIG. 2 are designated by the same reference numerals, and explanations thereof will be omitted. In this embodiment, in addition to the system configuration shown in FIG. 2, a thesaurus 5 is provided which holds all existing index terms as well as relationship information between each index term. Here, the relationship information between index words includes, for example, hypernym/hyponym/
This is information about related words, etc. In addition, the index automatic extraction unit 2
A related index word extraction unit 6 is provided which searches for related index words by referring to the thesaurus 5 for index word candidates (extracted index words) obtained by analyzing a document file.

このような構成において、登録すべき文書が索引自動抽
出部2に入力されると、形態素解析が行われ各文章が単
語単位に分割される。これらの単語群に対して表記のゆ
れの除去/同義語の統一表記への変換/不要語の除去が
行われ、索引語候補(抽出索引語)が生成される。つい
で、関連索引語検索部6はシソーラス5を参照して、抽
出索引語に対して関連する関連索引語を検索する。検索
後、登録しようとする文書に対するこれらの関連索引語
の重要度を所定の計算式により算出する。
In such a configuration, when a document to be registered is input to the automatic index extraction section 2, morphological analysis is performed and each sentence is divided into words. For these word groups, removal of spelling variations, conversion of synonyms to unified notation, and removal of unnecessary words are performed to generate index word candidates (extracted index words). Next, the related index word search unit 6 refers to the thesaurus 5 and searches for a related index word related to the extracted index word. After the search, the importance of these related index terms for the document to be registered is calculated using a predetermined formula.

重要度は、例えば下記のような計算式により求ぬれる。The degree of importance can be determined, for example, using the following formula.

まず、重要度は[0,1]の間の値をとり、0は無関係
を示し、1は最も関係があることを示す。
First, the importance takes a value between [0, 1], where 0 indicates unrelated and 1 indicates most related.

二二に、登録しようとする文書dから抽出された索引語
の重要度はlとされる。また、この文書d中に存在しな
い索引語iの重要度Rd(i)は、文書dから抽出され
た全ての索引語数をN、索引語iがシソーラス5におい
て前記関係情報を持つ索引語jの集合をAd(i)、索
引語jの文書d中の出現頻度をNd(j)、文書d中の
索引語の延べ出現頻度数をNa1lとすると、 Rd(i)= Σ N d (j )/ Na1lJε
Ad(i) により求められる。また、関係省(上位/下位/関連等
)の違いによって仮想的な文書中の出現頻度を定義でき
る。例えば、上位関係は0,9、下位関係は0.3、関
連語関係は1.0を、各々文書中の出現頻度Nd(j)
に乗じた値N’d(j)を上式のN d (j )に代
入し、また、N a l lにはN′d(j)の総和N
’ all を代入すればよい。
Second, the importance of the index word extracted from the document d to be registered is assumed to be l. Furthermore, the importance level Rd(i) of an index word i that does not exist in this document d is calculated as follows: N is the total number of index words extracted from document d, and the importance level Rd(i) of index word i that does not exist in this document d is determined by If the set is Ad(i), the frequency of appearance of index word j in document d is Nd(j), and the total frequency of appearance of index word in document d is Na1l, then Rd(i) = Σ N d (j) / Na1lJε
It is determined by Ad(i). Furthermore, the frequency of appearance in a virtual document can be defined depending on the difference in related ministries (superior/lower/related, etc.). For example, the appearance frequency Nd(j) in a document is 0,9 for a superordinate relationship, 0.3 for a subordinate relationship, and 1.0 for a related word relationship.
Substitute the value N'd(j) multiplied by
' Just substitute all.

このような重要度の計算後、関連索引語について関速度
順一覧が作成され、結果表示・選択部3では、抽出索引
語の一覧とともにこの関連索引語の関速度順一覧が利用
者に表示され、選択に供される。
After such importance calculation, a list of related index words in order of relative speed is created, and the result display/selection unit 3 displays this list of related index words in order of relative speed to the user along with a list of extracted index words. , offered for selection.

発明の効果 本発明は、上述したように索引語間の関連情報を保持し
たシソーラスと、文献中の抽出索引語に対する関連索引
語を検索する関連索引語検索部とを設けたので、結果表
示・選択部による索引語の選択時に、抽出索引語ととも
に関連索引語も表示されて選択に供されるため、文献中
以外の語句であっても関連するものを適宜索引語として
その文献に付与してデータベース化させることができ、
よって、利用者は文献の持つ概念をより適切に表現でき
1文献検索に際しての索引語の選択の余地を広げること
ができ、検索の再現率を向上させることjτでき、特に
、請求項2記載の発明によれば、関連索引語の重要度を
シソーラスを参照して計算し関連索引語の関速度順一覧
を作成して、抽出索引語の一覧とともに結果表示させて
選択に供するので、重要度の高い関連索引語について落
ちのない登録が可能となり、より適切な索引語付与がで
き、よって、従来方式では検索条件の不完全性により検
索洩れとなっていたような文献についても検索可能とす
ることができる。
Effects of the Invention As described above, the present invention includes a thesaurus that holds related information between index words and a related index word search section that searches for related index words for extracted index words in documents. When the selection unit selects an index term, related index terms are displayed together with the extracted index term for selection, so even if the words are not in the document, related terms can be added to the document as an index term as appropriate. It can be made into a database,
Therefore, the user can more appropriately express the concept of the document, expand the scope for selecting index words when searching for documents, and improve the recall rate of the search. According to the invention, the importance of related index terms is calculated with reference to a thesaurus, a list of related index terms in order of relative speed is created, and the results are displayed together with a list of extracted index terms for selection. It is possible to register highly related index terms without omission, and to assign more appropriate index terms, thereby making it possible to search for documents that would otherwise have been missed due to incomplete search conditions in the conventional method. I can do it.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の一実施例を示すブロック図、第2図は
従来例を示すブロック図である。
FIG. 1 is a block diagram showing one embodiment of the present invention, and FIG. 2 is a block diagram showing a conventional example.

Claims (1)

【特許請求の範囲】 1、索引語と各索引語間の関係情報とを保持したシソー
ラスと、データベースに登録しようとする文献から抽出
された抽出索引語に関連する関連索引語を前記シソーラ
スより検索する関連索引語検索部と、結果表示・選択部
とよりなり、抽出された抽出索引語と検索された関連索
引語とを結果表示・選択部に表示させて、この結果表示
・選択部により選択された索引語を、登録しようとする
前記文献とともに前記データベースに格納させるように
したことを特徴とする索引付け支援装置。 2、索引語と各索引語間の関係情報とを保持したシソー
ラスと、データベースに登録しようとする文献から抽出
された抽出索引語に関連する関連索引語を前記シソーラ
スより検索するとともに所定の計算式によりこの関連索
引語の前記文献に対する重要度を前記シソーラスを参照
して計算して関連索引語の関速度順一覧を作成する関連
索引語検索部と、結果表示・選択部とよりなり、抽出さ
れた抽出索引語の一覧と作成された関連索引語の関速度
順一覧とを結果表示・選択部に表示させて、この結果表
示・選択部により選択された索引語を、登録しようとす
る前記文献とともに前記データベースに格納させるよう
にしたことを特徴とする索引付け支援装置。
[Claims] 1. A thesaurus that holds index terms and relational information between each index term, and a search from the thesaurus for related index terms related to extracted index terms extracted from documents to be registered in the database. The extracted index words and searched related index words are displayed in the result display/selection part and selected by the result display/selection part. 1. An indexing support device, characterized in that said index words are stored in said database together with said documents to be registered. 2. A thesaurus that holds index terms and relational information between each index term, and a search for related index terms related to the extracted index terms extracted from the documents to be registered in the database from the thesaurus and a predetermined calculation formula. The system includes a related index word search unit that calculates the importance of this related index term with respect to the document with reference to the thesaurus and creates a list of related index terms in order of relative speed, and a result display/selection unit. The list of extracted index terms and the created list of related index terms in order of relative speed are displayed in the result display/selection unit, and the index terms selected by the result display/selection unit are registered. An indexing support device characterized in that the indexing support device is configured to store the same information in the database.
JP1260694A 1989-10-05 1989-10-05 Indexing supporting system Pending JPH03122768A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1260694A JPH03122768A (en) 1989-10-05 1989-10-05 Indexing supporting system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1260694A JPH03122768A (en) 1989-10-05 1989-10-05 Indexing supporting system

Publications (1)

Publication Number Publication Date
JPH03122768A true JPH03122768A (en) 1991-05-24

Family

ID=17351479

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1260694A Pending JPH03122768A (en) 1989-10-05 1989-10-05 Indexing supporting system

Country Status (1)

Country Link
JP (1) JPH03122768A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021073590A (en) * 2017-06-01 2021-05-13 株式会社インタラクティブソリューションズ Document information storage device for search

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62247462A (en) * 1986-04-18 1987-10-28 Sanyo Electric Co Ltd Information filing device
JPS62257528A (en) * 1986-05-01 1987-11-10 Nec Corp Method for adding key word of information retrieval system
JPH01217623A (en) * 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> Automatic key word generating device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62247462A (en) * 1986-04-18 1987-10-28 Sanyo Electric Co Ltd Information filing device
JPS62257528A (en) * 1986-05-01 1987-11-10 Nec Corp Method for adding key word of information retrieval system
JPH01217623A (en) * 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> Automatic key word generating device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021073590A (en) * 2017-06-01 2021-05-13 株式会社インタラクティブソリューションズ Document information storage device for search

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP3691844B2 (en) Document processing method
JP3820242B2 (en) Question answer type document search system and question answer type document search program
JP4076520B2 (en) Translation support program and word mapping program
EP0378848A2 (en) Method for use of morphological information to cross reference keywords used for information retrieval
JPH11110416A (en) Method and device for retrieving document from data base
JP2960936B2 (en) Dependency analyzer
JPH05324719A (en) Document retrieval system
JPH03122768A (en) Indexing supporting system
JPH03123971A (en) Indexing support device
JPH07134720A (en) Method and device for presenting relative information in sentence preparing system
JPH08115340A (en) Document retrieval device and generating device for index file used for the same
JPH07296005A (en) Japanese text registration/retrieval device
JPH08305695A (en) Document processor
JPH05181912A (en) Document retrieving device
JP2003263458A (en) Method and device for analyzing text
JPH08241328A (en) Method and device for storing and displaying relative item, and data base retrieval system
JPH0290364A (en) Method and system for mechanical translation
JPH0540783A (en) Natural language analysis device
JP2628775B2 (en) Dictionary creation device
JP2005208852A (en) Summary registering apparatus, summary registration method and program
JPH041853A (en) Document retrieving device
JPH06215038A (en) Data base retrieving device
JPH06168272A (en) Related term preparing device
JPH0342774A (en) Information processing device