JP2000112953A - Literature retrieval method and its system - Google Patents

Literature retrieval method and its system

Info

Publication number
JP2000112953A
JP2000112953A JP10278389A JP27838998A JP2000112953A JP 2000112953 A JP2000112953 A JP 2000112953A JP 10278389 A JP10278389 A JP 10278389A JP 27838998 A JP27838998 A JP 27838998A JP 2000112953 A JP2000112953 A JP 2000112953A
Authority
JP
Japan
Prior art keywords
index
document
search
user
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10278389A
Other languages
Japanese (ja)
Inventor
Hirotaka Shibata
裕隆 柴田
Kiichi Komata
貴一 小俣
Jun Taruishi
純 垂石
Hidehiko Nakamura
英彦 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Frontech Ltd
Original Assignee
Fujitsu Frontech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Frontech Ltd filed Critical Fujitsu Frontech Ltd
Priority to JP10278389A priority Critical patent/JP2000112953A/en
Publication of JP2000112953A publication Critical patent/JP2000112953A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To improve a reproduction rate while the precision of retrieval is highly maintained. SOLUTION: A computer 1 reads patent literature (primary information) from a data base 3, extracts secondary information on a bibliographical item and an index word and stores them in an auxiliary storage device 7. A user inputs a retrieval expression by using a keyboard 4 and a pointing device 5 while he views a display device 2. When the method of the coappearance of the index word is regulated by an OR approximate operator in the retrieval expression, the computer 1 refers the inputted index word with the index word extracted from literature with a sentence range designated by the operator as a reference unit. Literature from which matched index words among the prescribed number of the index words, which is decided to originally be matched, and the index words which the user designates to be matched are extracted is selected as fitted literature.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、多くの文献のなか
からユーザが所望する情報が記述されている適合文献を
検索するための技術に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a technique for searching a large number of documents for a compatible document in which information desired by a user is described.

【0002】[0002]

【従来の技術】今日では、情報化社会を迎えたこともあ
って、情報の重要性が非常に高まっている。様々な活動
を行うためには、適切な情報を入手し、それを効果的、
且つ効率的に活用しなければならなくなっている。
2. Description of the Related Art Today, the importance of information has been greatly increased due to the arrival of the information society. In order to carry out various activities, obtain appropriate information and use it effectively,
And it has to be used efficiently.

【0003】例えば、技術文献は、技術動向調査や研究
開発期間の短縮化といった観点から必須の情報である。
しかし、特許文献(公開公報や公告公報)が日本国内だ
けでも年間に50〜60万件が発行されていることから
も明らかなように、技術文献の量は非常に膨大である。
その特許文献は、最新の技術情報が開示されているとい
う以外に、大型化・多発化する特許係争事件を未然に防
止するという意味からも非常に重要な情報である。その
ため、膨大な情報のなかから重要な情報を選択する情報
(文献)検索の重要性も非常に高まってきている。
[0003] For example, technical literature is essential information from the viewpoint of technology trend survey and shortening of R & D period.
However, as is clear from the fact that 500,000 to 600,000 patent documents (public publications and publications) are issued annually in Japan alone, the volume of technical literature is extremely large.
The patent document is very important information not only because it discloses the latest technical information, but also from the viewpoint of preventing patent litigation cases, which are becoming larger and more frequent. For this reason, the importance of information (document) retrieval for selecting important information from a vast amount of information is also increasing very much.

【0004】[0004]

【発明が解決しようとする課題】文献検索は、索引語
(キーワード)を抽出した文献のなかで、ユーザ(情報
要求者、オペレータ、或いは検索代行者)が入力した検
索式中の全ての索引語が指定された論理関係で存在して
いる文献を適合文献として検索(選択)することで行わ
れている。
A document search is performed by extracting all index words in a search formula input by a user (information requester, operator, or search agent) from documents from which index words (keywords) are extracted. Is performed by searching (selecting) documents that exist in the specified logical relationship as relevant documents.

【0005】その検索式は、普通、使用する索引語を決
定し、その決定した索引語間の関係を、演算子を用いて
規定することで作成される。その演算子の種類は、大別
して、論理(ブール)演算子、近接演算子、及び比較演
算子等に分けることができる。ここで、論理演算子は複
数の索引語間の共出現関係を規定する演算子、近接演算
子は索引語の共出現の仕方を規定する演算子である。最
後の比較演算子は索引語の範囲を指定する演算子であ
り、検索の範囲を限定したいときなどに使用される。
[0005] The search formula is usually created by deciding the index words to be used and defining the relationship between the decided index words using an operator. The types of the operators can be roughly classified into a logical (Boolean) operator, a proximity operator, a comparison operator, and the like. Here, the logical operator is an operator that defines a co-occurrence relationship between a plurality of index terms, and the proximity operator is an operator that defines a manner in which index terms co-occur. The last comparison operator is an operator for specifying the range of the index word, and is used when it is desired to limit the range of the search.

【0006】上記近接演算子は、場所的に近接して存在
する複数の索引語間には概念的なつながりがあるとの前
提に基づいて導入された演算子であり、それらの索引語
が共に出現する場所の範囲を指定するようになってい
る。その近接演算子を検索式中に用いて、複数の索引語
が共出現する範囲、その順序等を規定することにより、
検索の精度を高めることが可能である。
[0006] The proximity operator is an operator introduced based on the premise that there is a conceptual connection between a plurality of index words that are located close to each other. The range of the place where it appears is specified. By using the proximity operator in a search expression to define the range in which multiple index terms co-occur, their order, etc.,
It is possible to improve the accuracy of the search.

【0007】しかし、索引語は、ある概念を間接的に表
現するものであり、概念と索引語の対応関係は通常は多
対多である。索引語から概念を一意的に特定することは
普通はできない。従来の文献検索(システム)で導入さ
れている近接演算子は、基本的に複数(二つ)の索引語
が共に出現する場所の範囲を単に規定しているだけであ
る。このため、近接演算子を検索式に用いた場合、検索
の精度を向上させる一方では、複数の索引語での検索範
囲を相乗的に狭める方向に作用して、ユーザにとって有
用な適合文献の検索もれを増加させる、即ち再現率を低
下させるという問題点があった。
However, an index word indirectly expresses a certain concept, and the correspondence between the concept and the index word is usually many-to-many. It is not usually possible to uniquely identify a concept from an index term. The proximity operator introduced in the conventional document search (system) basically only defines the range of places where a plurality of (two) index words appear together. For this reason, when the proximity operator is used in a search expression, the search accuracy is improved, while the search range of a plurality of index words is synergistically narrowed, and a search for a relevant document useful for the user is performed. There has been a problem that leakage is increased, that is, recall is reduced.

【0008】本発明の課題は、検索の精度を高く維持さ
せつつ、再現率を向上させられるようにすることにあ
る。
An object of the present invention is to improve the recall while maintaining high search accuracy.

【0009】[0009]

【課題を解決するための手段】本発明の文献検索方法
は、ユーザにより入力された索引語を文献から抽出した
索引語と照合することにより適合文献を検索するために
用いられることを前提する方法であって、予め定めた文
章範囲に限定して照合される索引語をユーザが複数、検
索条件として指定した場合に、該複数の索引語を、文献
から抽出された文章範囲に出現した索引語と照合し、索
引語間の照合により、複数の索引語のなかで予め定めた
規則から特定される索引語が少なくとも一致した索引語
が抽出された文献を、少なくとも適合文献として選択す
る。
SUMMARY OF THE INVENTION A document retrieval method according to the present invention is based on the premise that it is used to retrieve a matching document by matching an index word input by a user with an index word extracted from the document. When the user specifies a plurality of index words to be matched only in a predetermined text range as search conditions, the plurality of index words are extracted from the text range extracted from the document. Then, a document in which an index term that matches at least an index term specified from a predetermined rule among a plurality of index terms by matching between index terms is extracted is selected as at least a matching document.

【0010】なお、上記の方法において、文章範囲は、
予め複数用意した選択肢のなかからユーザに選択させる
ことにより定めた範囲である、ことが望ましい。また、
規則としては、複数の索引語のなかで文献から抽出され
た索引語と少なくとも一致すべき索引語をユーザに指定
させる、或いは/及び、複数の索引語のなかで文献から
抽出された索引語と位置関係を含めて一致すべき索引語
をユーザに指定させる、ことが望ましい。その位置関係
としては、文章範囲内で2つ以上の索引語が出現する順
序をユーザに指定可能とさせる、ことが望ましい。上記
選択肢は、少なくとも、1つのセンテンス、及び段落を
含む、ことが望ましい。
[0010] In the above method, the sentence range is:
It is desirable that the range is determined by allowing the user to select from a plurality of options prepared in advance. Also,
As a rule, the user may specify an index term that should at least match an index term extracted from a document among a plurality of index terms, and / or It is desirable to have the user specify an index word to be matched including the positional relationship. As the positional relationship, it is desirable to allow the user to specify the order in which two or more index words appear in the text range. Desirably, the options include at least one sentence and paragraph.

【0011】本発明の文献検索システムは、ユーザによ
り入力された索引語を文献から抽出した索引語と照合す
ることにより適合文献を検索することを前提とし、予め
定めた文章範囲に限定して照合される索引語をユーザが
複数、検索条件として入力できる検索条件入力手段と、
検索条件入力手段により文章範囲に限定して照合される
索引語をユーザが複数入力した場合に、該複数の索引語
を、文献から抽出された文章範囲に出現した索引語と照
合する照合手段と、検索条件入力手段により入力された
文章範囲に限定して照合される複数の索引語のなかで、
予め定めた規則から特定される索引語が少なくとも一致
したと照合手段が照合した索引語が抽出された文献を、
少なくとも適合文献として選択する選択手段と、を具備
する。
The document search system of the present invention is based on the premise that a matching document is searched by matching an index word input by a user with an index word extracted from the document, and the matching is limited to a predetermined sentence range. Search condition input means by which the user can input a plurality of index words to be searched as search conditions;
When the user inputs a plurality of index words to be limited to the sentence range by the search condition input unit, the matching unit matches the plurality of index words with the index words appearing in the sentence range extracted from the document. , Among a plurality of index words that are limited to the sentence range input by the search condition input means,
The document from which the index term collated by the collation unit is extracted with at least the index term specified from the predetermined rule is extracted,
Selecting means for selecting at least a relevant document.

【0012】なお、上記の構成において、文章範囲は、
予め複数用意した選択肢のなかからユーザに検索条件入
力手段により選択させる、ことが望ましい。また、規則
としては、複数の索引語のなかで文献から抽出された索
引語と少なくとも一致すべき索引語を検索条件入力手段
によりユーザに指定させる、或いは/及び、複数の索引
語のなかで文献から抽出された索引語と位置関係を含め
て一致すべき索引語をユーザに検索条件入力手段により
指定させる、ことが望ましい。その位置関係としては、
文章範囲内で2つ以上の索引語が出現する順序をユーザ
に指定可能とさせる、ことが望ましい。上記選択肢は、
少なくとも、1つのセンテンス、及び段落を含む、こと
が望ましい。
[0012] In the above configuration, the sentence range is:
It is desirable to allow the user to select from a plurality of options prepared in advance by the search condition input unit. Further, as a rule, the search condition input means allows the user to specify an index word that should at least match an index word extracted from a document among a plurality of index words, and / or It is desirable to have the user specify an index word to be matched including the positional relationship with the index word extracted from the search condition using the search condition input means. As the positional relationship,
It is desirable to allow the user to specify the order in which two or more index terms appear within the text range. The above options are
It is desirable to include at least one sentence and paragraph.

【0013】本発明の記録媒体は、ユーザにより入力さ
れた索引語を文献から抽出した索引語と照合することに
より適合文献を検索するシステムを構成するコンピュー
タが読み取り可能であることを前提とし、予め定めた文
章範囲に限定して照合される索引語をユーザが複数、検
索条件として入力できる手段と、入力できる手段により
文章範囲に限定して照合される索引語をユーザが複数入
力した場合に、該複数の索引語を、文献から抽出された
文章範囲に出現した索引語と照合する手段と、入力でき
る手段により入力された文章範囲に限定して照合される
複数の索引語のなかで、予め定めた規則から特定される
索引語が少なくとも一致したと照合する手段により照合
された索引語が抽出された文献を、少なくとも適合文献
として選択する手段と、を実現させるためのプログラム
を記録している。
The recording medium of the present invention is premised on that it is readable by a computer constituting a system for retrieving a compatible document by matching an index word input by a user with an index word extracted from the document. When the user inputs a plurality of index words to be matched only in the defined sentence range as a search condition, and the user inputs a plurality of index words to be matched only in the sentence range by the input means, Means for matching the plurality of index words with an index word appearing in a sentence range extracted from the document, and among a plurality of index words matched only for the sentence range input by means capable of inputting, A method of selecting, as at least a conforming document, a document from which an index term collated by a means for collating with at least an index term specified by a predetermined rule is extracted. When records the program for realizing.

【0014】本発明の文献検索方法、及びそのシステム
では、文章範囲が限定されて照合される複数の索引語を
ユーザが検索条件として指定すると、該複数の索引語
を、文献から抽出された該文章範囲に出現した索引語と
照合し、複数の索引語のなかで予め定めた規則から特定
される索引語が少なくとも一致した索引語が抽出された
文献を、少なくとも適合文献として選択する。
In the document search method and system according to the present invention, when a user specifies a plurality of index words to be collated with a limited sentence range, the plurality of index words are extracted from the document. A document in which an index word that matches at least an index word specified by a predetermined rule among a plurality of index words is extracted is selected as a matching document at least.

【0015】複数の索引語を検索条件に用いた場合、索
引語間の概念的なつながりをより正確に表現(指定)で
きるようになる。その一方で、規則を定めてそれに基づ
き複数の索引語のなかで必ず一致すべき索引語を特定す
ると、複数の索引語を用いた規定を満たす条件に許容範
囲を設けることになって、概念を表現する索引語の違い
が検索結果に影響を及ぼす度合いが小さくなり検索もれ
は少なくなる。これらのことから、検索の精度を高く維
持させつつ、再現率を向上させられるようになる。
When a plurality of index words are used as a search condition, the conceptual connection between the index words can be more accurately expressed (designated). On the other hand, when a rule is defined and an index word that must match among a plurality of index words is specified based on the rule, an allowable range is set for a condition that satisfies the rule using the plurality of index words. The degree to which the difference in the expressed index words affects the search result is reduced, and the search omission is reduced. From these facts, it is possible to improve the recall while maintaining high search accuracy.

【0016】[0016]

【発明の実施の形態】以下、図面を参照しながら、本発
明の実施の形態につき詳細に説明する。図1は、本実施
の形態による文献検索システムの構成図である。
Embodiments of the present invention will be described below in detail with reference to the drawings. FIG. 1 is a configuration diagram of a document search system according to the present embodiment.

【0017】そのシステムは、特許文献を対象に検索を
行うためのものであり、システム全体の制御を行うコン
ピュータ1に、各種周辺機器を接続して構築されてい
る。具体的には、例えばCRT、或いはLCDである表
示装置2、後述する一次情報データベースを有するデー
タベース3、オペレータやユーザ(情報要求者、オペレ
ータ、或いは検索代行者等)が各種のデータやコマンド
等を入力するためのキーボード4やポインティングデバ
イス(以降、その代表であるマウスと呼ぶ)5、記録紙
上に画像を形成するプリンタ6、及び例えば外付けのハ
ードディスク装置である補助記憶装置(外部記憶装置)
7がコンピュータ1に接続されている。
The system is for searching for patent documents, and is constructed by connecting various peripheral devices to a computer 1 for controlling the entire system. Specifically, for example, a display device 2 such as a CRT or an LCD, a database 3 having a primary information database described later, and an operator or a user (information requester, operator, search agent, etc.) transmit various data and commands, etc. A keyboard 4 for inputting, a pointing device (hereinafter referred to as a mouse as a representative thereof) 5, a printer 6 for forming an image on recording paper, and an auxiliary storage device (external storage device) such as an external hard disk device
7 is connected to the computer 1.

【0018】なお、図1に示すシステムは、1台のコン
ピュータを用いて特許文献検索用に構築されたものであ
るが、当然のことながら、LANや公衆網等の何らかの
ネットワークを用いて複数のコンピュータを接続させて
一つのシステムを構築しても良い。その特許文献につい
ては、便宜的に、特に断らない限り、日本の特許庁が公
開の目的で発行した公報を前提とし、実用新案の公開公
報や公告公報も含む意味で用いることにする。
Although the system shown in FIG. 1 is constructed for searching patent documents using one computer, it is needless to say that a plurality of networks are used by using some kind of network such as LAN and public network. One system may be constructed by connecting computers. For the sake of convenience, unless otherwise specified, the patent documents are assumed to be published by the Japanese Patent Office for the purpose of disclosure, and will be used in the sense that they also include published and published gazettes of utility models.

【0019】それらの公報は、現在では普通CD−RO
Mに記録されて発行される。このことから、以降、公報
が記録されたCD−ROM3b、及びそれを複数搭載で
きるCD−ROMオートチェンジャ(以降、オートチェ
ンジャと略す)3aが、データベース3に対応するハー
ドウェアであるとして説明する。
[0019] These publications are now commonly referred to as CD-ROs.
M and is issued. Accordingly, the following description is based on the assumption that the CD-ROM 3b on which the publication is recorded and the CD-ROM autochanger (hereinafter abbreviated as "autochanger") 3a on which a plurality of the publications can be mounted are hardware corresponding to the database 3.

【0020】図2は、上記システムの機能ブロック図で
ある。文献検索に特に関わる機能を抜粋して機能的構成
を示したものである。図2も参照しつつ、本実施の形態
による文献検索システムの構成、及び動作について説明
する。
FIG. 2 is a functional block diagram of the above system. The figure shows a functional configuration by extracting functions particularly related to document search. The configuration and operation of the document search system according to the present embodiment will be described with reference to FIG.

【0021】上述したように、図1に示すオートチェン
ジャ3aには、特許文献が記録されたCD−ROM3b
が搭載される。その特許文献は、例えば日本であれば特
許庁が公開の目的で発行した公報であることから一次情
報(一次資料)である。このため、オートチェンジャ3
aに搭載されたCD−ROM(に記録されたデータ)3
bが一次情報データベース(ファクト・データベース)
11に対応する。
As described above, the autochanger 3a shown in FIG. 1 has a CD-ROM 3b on which a patent document is recorded.
Is mounted. The patent document is primary information (primary material) because, for example, in Japan, it is a gazette issued by the JPO for the purpose of disclosure. For this reason, the autochanger 3
CD-ROM mounted on a (data recorded on) 3
b is the primary information database (fact database)
Corresponds to 11.

【0022】なお、一次情報データベースを構築させ
る、或いはそのデータを格納させる媒体は、CD−RO
M3bに限定されるものではない。光磁気ディスクやD
VD、或いは磁気テープ等の他の種類の媒体であっても
良く、複数の種類が異なる媒体であっても良い。何らか
のネットワーク(LANや公衆網等)を介して、他の業
者等が提供する一次情報のデータベースにアクセスでき
るようにしても良い。
The medium for constructing the primary information database or storing the data is CD-RO.
It is not limited to M3b. Magneto-optical disk or D
Other types of media such as VD or magnetic tape may be used, and a plurality of types of media may be different. A database of primary information provided by another company or the like may be made accessible via some network (LAN, public network, or the like).

【0023】対象範囲指定部12は、特許文献のなかで
キーワードを抽出する対象範囲をオペレータ(システム
の管理者等)が指定するためのものである。その範囲
は、特許文献の範囲と、特許文献内での範囲とに分けて
指定するようになっている。具体的には、特許文献の範
囲は、出願日(或いは公開日)、国際特許分類、出願人
等で指定し、特許文献内での範囲は、例えば全文、特許
請求の範囲(クレーム)のみ、及び要約文のみ、の3つ
のなかから一つを選択することで指定するようになって
いる。それら指定結果がキーワード抽出部13に送られ
る。この対象範囲指定部12は、図1において、コンピ
ュータ1、表示装置2、キーボード4、及びマウス5が
対応する。
The target range designating section 12 is for an operator (system administrator or the like) to specify a target range for extracting a keyword from the patent document. The range is specified separately for the range of the patent document and the range in the patent document. Specifically, the scope of a patent document is specified by the filing date (or publication date), international patent classification, applicant, etc. The range within the patent document is, for example, the full text, only the claims (claims), And only the abstract sentence is selected by selecting one of the three. The designated results are sent to the keyword extracting unit 13. 1, the computer 1, the display device 2, the keyboard 4, and the mouse 5 correspond to the target range designation unit 12.

【0024】キーワード抽出部13は、対象範囲指定部
12から送られた指定結果、即ちオペレータが指示した
対象範囲を示す情報に従って、一次情報データベース1
1に格納されている特許文献毎に索引語(キーワード)
を抽出し、それを二次情報データベース14に格納す
る。このようにキーワードの抽出を行うキーワード抽出
部13には、図1のコンピュータ1、オートチェンジャ
3a、及び補助記憶装置7が対応する。なお、一次情報
データベース11はCD−ROM3bとして提供される
ことを前提としていることから、キーワード抽出部13
によるキーワードの抽出は、通常、CD−ROM3b単
位で行われる。
The keyword extracting unit 13 performs the primary information database 1 according to the specification result sent from the target range specifying unit 12, ie, the information indicating the target range specified by the operator.
Index words (keywords) for each patent document stored in
And stores it in the secondary information database 14. The computer 1, the autochanger 3a, and the auxiliary storage device 7 in FIG. 1 correspond to the keyword extraction unit 13 that extracts keywords in this way. Since the primary information database 11 is provided on the CD-ROM 3b, the keyword extraction unit 13
Is usually performed in units of the CD-ROM 3b.

【0025】補助記録装置7は、主に、上記二次情報デ
ータベース14を記録するために用いられる。このた
め、補助記録装置7が備えた、或いはそれに備えられる
記憶媒体(に記憶されたデータ)が二次情報データベー
ス14に対応する。
The auxiliary recording device 7 is mainly used for recording the secondary information database 14. Therefore, the storage medium (data stored in) the auxiliary recording device 7 or provided therein corresponds to the secondary information database 14.

【0026】その二次情報データベースは、CD−RO
M3bに記録された特許文献(一次情報)を探索するた
めに利用する二次情報をデータとして格納したものであ
る。その二次情報のデータとして、特許文献から抽出し
たキーワード群の他に、例えば出願番号、公開番号、出
願日、公開日、出願人、発明者、及び国際特許分類等の
書誌的事項が格納される。それらのデータを手がかりと
して、適合文献が探索される。
The secondary information database is a CD-RO
Secondary information used to search for patent documents (primary information) recorded in M3b is stored as data. As data of the secondary information, bibliographic items such as an application number, a publication number, an application date, a publication date, an applicant, an inventor, and an international patent classification are stored in addition to the keyword group extracted from the patent document. You. Relevant documents are searched using these data as clues.

【0027】検索条件入力部15は、二次情報データベ
ース14を参照して適合文献を探索するための検索条件
(検索式等)をユーザ(情報要求者、或いは検索代行者
等)が入力するためのものである。図1において、コン
ピュータ1、表示装置2、キーボード4、及びマウス5
が対応する。
The search condition input unit 15 is used by a user (information requester, search agent, or the like) to input search conditions (a search formula or the like) for searching for a suitable document with reference to the secondary information database 14. belongs to. 1, a computer 1, a display device 2, a keyboard 4, and a mouse 5 are shown.
Corresponds.

【0028】本実施の形態では、従来の文献検索システ
ムに導入されていた各種の演算子に加えて、以下のよう
な演算子を導入している。ここではその演算子を便宜的
に論理和(OR)近接演算子と呼ぶことにする。
In the present embodiment, the following operators are introduced in addition to the various operators introduced in the conventional document retrieval system. Here, the operator is called a logical sum (OR) proximity operator for convenience.

【0029】その論理和近接演算子は、例えば「(F)
A’・B・<C・D>」のように使用する。A〜Dは用
語(キーワード)であり、「・」は論理和近接演算子で
用語間の関係を規定する範囲をシステムが認識するため
の識別子であり、括弧内の「F」は、それらの用語A〜
Dが出現する文章範囲を指定するための記号である。そ
の「F」は、段落を表している。文章範囲記号には、
「F」の他に、「S」、「W」、「C」、及び「A」を
用意している。「S」は句点から次の句点までの文(セ
ンテンス)、「W」はその前に付加される数字で指定さ
れた語数(数字が付加されていない場合は1語(2つの
用語が隣り合っている)と解釈され、「10W」と記載
された場合には10語と解釈される)、「C」は特許請
求の範囲に記載された文章、「A」は要約文に記載され
た文章を各々表している。
The logical OR proximity operator is, for example, “(F)
A'.B. <CD >>. A to D are terms (keywords), "." Is an identifier by which the system recognizes a range defining a relationship between terms by a logical disjunction operator, and "F" in parentheses is those of them. Terms A ~
This is a symbol for designating a text range in which D appears. The “F” represents a paragraph. Text range symbols include:
In addition to “F”, “S”, “W”, “C”, and “A” are prepared. "S" is a sentence (sentence) from the period to the next period, and "W" is the number of words specified by the number added before it (one word if no number is added (two words are adjacent to each other). And "10W" is interpreted as 10 words), "C" is the text described in the claims, and "A" is the text described in the abstract. Respectively.

【0030】「’」はそれが付加された用語が必ず存在
(一致)していなければならないことを示す記号(必須
記号)である。「<」と「>」は、それらによって括ら
れた複数の用語がそこに記載された順序で必ず存在(一
致)していなければならないことを指定するために用い
られる記号(順序指定用記号)である。
"'" Is a symbol (indispensable symbol) indicating that the term to which it is added must exist (match). "<" And ">" are symbols used to specify that a plurality of terms enclosed by them must exist (match) in the order described therein (order designation symbols) It is.

【0031】それらの記号(オプション)が用いられて
いない場合、本実施の形態では少なくとも1つの用語が
存在(一致)していれば良いとしている。即ち論理和近
接演算子により規定された複数の用語の共出現の条件を
満たしているとしている。それらの記号(オプション)
が用いられていない場合には、それらの記号によって一
致すべきとユーザが指定した用語の数を更に加算した数
の用語が一致していなければならないとしている。従っ
て、例えば必須記号を一つ用いると、少なくとも2(=
1+1)つの用語が一致していなければならないという
ことになる。
In the case where these symbols (options) are not used, in the present embodiment, it is sufficient that at least one term exists (coincides). In other words, it is assumed that the condition of co-occurrence of a plurality of terms defined by the logical sum proximity operator is satisfied. Those symbols (optional)
If no is used, it is stated that the number of terms that have been added by the number of terms specified by the user to be matched by those symbols must match. Therefore, for example, if one essential symbol is used, at least 2 (=
1 + 1) two terms must match.

【0032】概念と索引語の対応関係は通常は多対多で
あることから、或る概念を表現するために決定した索引
語が、実際に適合文献である特許文献中に記載されてい
るとは限らない。このため、従来のように、複数の索引
語の共出現の仕方を単に固定的に規定すると、検索もれ
を増大させてしまう可能性が高かった。それを回避する
ために、従来では近接演算子で扱う索引語数を2として
いたが、2つの索引語では、それらの間の概念的なつな
がりを普通はあまり表すことはできない。例えば「コン
ピュータ」と「設計」が同じ文章(センテンス)に出現
することを規定しても、「コンピュータの設計」と「コ
ンピュータによる設計」のように、全く異なる概念を表
す文章が記載された特許文献を検索してしまう。これ
は、検索ノイズが生じ易いことを意味する。このことか
ら明らかなように、従来は実質的には精度をあまり高く
することはできなかった。
Since the correspondence between a concept and an index word is usually many-to-many, it is assumed that an index word determined to express a certain concept is actually described in a patent document which is a relevant document. Not necessarily. For this reason, as in the related art, if the manner of co-occurrence of a plurality of index words is simply fixed, there is a high possibility that search omissions will increase. In order to avoid this, conventionally the number of index words handled by the proximity operator is set to two, but two index words cannot usually express much conceptual connection between them. For example, even if it is stipulated that “computer” and “design” appear in the same sentence (sentence), a patent that describes a completely different concept such as “computer design” and “computer design” is described. Search for references. This means that search noise is likely to occur. As is evident from this, it has not been possible to substantially increase the accuracy in the past.

【0033】これに対し、本実施の形態のように、索引
語の語数を2に制限しないことで、索引語間の概念的な
つながりをより正確に指定できるようになる。このた
め、概念についての表現力が向上することになる。例え
ば、コンピュータで設計する対象を索引語として追加す
れば、「コンピュータの設計」という文章が単に記載さ
れているような文献は検索しないようにすることができ
る。これは、精度を容易により向上させることができる
ことを意味する。
On the other hand, by not limiting the number of index words to two as in the present embodiment, conceptual connections between index words can be specified more accurately. Therefore, the expressive power of the concept is improved. For example, if an object to be designed by computer is added as an index word, it is possible not to search for documents in which the text "computer design" is simply described. This means that the accuracy can be easily improved.

【0034】その一方では、指定した文章範囲で必ず出
現しなくてはならない索引語を指定できるようにしたこ
とで、識別力の高い索引語はそれを有効に用いることが
できる。その反面では、指定した文章範囲で必ず出現し
なくても良い索引語を指定できるようにしたことになる
から、言い換えれば、複数の索引語を用いた規定を満た
す条件に許容範囲を設けつつ、その許容範囲を変化させ
られるようにしたことになるから、概念を表現する索引
語(文献から抽出した索引語とユーザが検索式に記載し
た索引語)の違いによる検索もれを少なくすることがで
きるということになる。
On the other hand, index words that must appear in the specified text range can be specified, so that index words with high discrimination can be used effectively. On the other hand, it is possible to specify an index word that does not necessarily appear in the specified sentence range. In other words, while providing an allowable range for the condition that satisfies the rule using a plurality of index words, Since the allowable range can be changed, it is possible to reduce search omission due to a difference between an index term expressing a concept (an index term extracted from a document and an index term described by a user in a search formula). You can do it.

【0035】例えば記録紙等の媒体の2重搬送を防止す
るためのものについて記載された文献を検索するため
に、「媒体・2重・搬送・防止・機構」の5つの索引語
を選択したとしても、その5つの索引語によって表現さ
れる概念が記載されている文献(実際上の適合文献)
で、その概念を表現するのにそれらの索引語を用いてい
るとは必ずしも限らない。「2重・搬送・防止・機構」
や「媒体・2重・搬送・防止・装置」、或いは「媒体・
多重・繰り出し・回避・機構」といったような語句を用
いて概念を表現している場合が考えられる。そのような
語句が用いられている文献は、従来では検索することが
できない。しかし、本実施の形態では、全ての索引語が
必ず一致しなくても良いため、そのような語句が用いら
れている文献であっても適合文献として検索することが
できる。
For example, in order to search a document describing a method for preventing double conveyance of a medium such as a recording paper, five index words of “medium, double, conveyance, prevention, mechanism” were selected. Document that describes the concept represented by the five index terms (actually relevant documents)
Therefore, these index words are not always used to express the concept. "Double, transport, prevention, mechanism"
Or "medium / double / transport / prevention / device" or "medium /
The concept may be expressed using a phrase such as “multiple / extending / avoidance / mechanism”. Documents using such phrases cannot be searched conventionally. However, in the present embodiment, since all index words do not necessarily have to match, even a document in which such a term is used can be searched as a matching document.

【0036】これらのことから明らかなように、本実施
の形態では、実質的に、再現率および精度を共により向
上させることが容易に実現できるようになっている。順
位指定用記号を必要に応じて用いた場合には、それによ
って識別力が向上するため、特に精度を更に向上させる
ことができる。
As is apparent from the above, in the present embodiment, it is possible to easily easily substantially improve the recall and accuracy. When the order designation symbol is used as necessary, the discrimination power is improved thereby, and the accuracy can be particularly improved.

【0037】なお、本実施の形態では、論理和近接演算
子で出現の仕方を規定した複数の用語(索引語)のなか
で、最小限1つの用語が存在、即ち文献から抽出された
用語と一致していれば規定した出現の条件を満たしてい
るとしているが、その一致すべき用語の数をユーザが指
定した用語の数に応じて変化させるようにしても良い。
例えば3つの用語までは1つ、4つから6つの用語では
2つ、それ以上では3つといったように、一致すべき用
語の数を変化させても良い。更には、ユーザが一致すべ
き用語の数を指定できるようにしても良い。
In the present embodiment, at least one term exists among a plurality of terms (index terms) defining the manner of appearance by the logical disjunction operator, that is, a term extracted from a document and If they match, the specified condition of appearance is satisfied. However, the number of terms to be matched may be changed according to the number of terms specified by the user.
For example, the number of terms to be matched may be changed, such as one for up to three terms, two for four to six terms, and three for more. Further, the user may be able to specify the number of terms to be matched.

【0038】また、順序指定用記号(「<」と「>」)
を用いて、それらで括った用語がその順序で存在してい
なければならないことを指定(規定)できるようにして
いるが、その他に、順序に関わらずに隣り合っていなけ
ればならない用語を指定(規定)したり、或いは/及
び、存在していなければならない用語の語間を指定(規
定)できるようにしても良い。用語の語間を指定できる
ようにした場合には、それら、或いはそのうちの一方が
1センテンス中に複数回、出現することもあることか
ら、言い換えれば、該当する語間が複数存在しているこ
とも有り得ることから、必要に応じて精度をより向上さ
せられるように、用語の出現順序等も合わせて指定でき
るようにしても良い。当然のことながら、それら以外の
用語間の位置関係を指定(規定)できるようにしても良
い。
Further, symbols for specifying the order (“<” and “>”)
Is used to specify (prescribe) that the terms enclosed by them must exist in that order, but also specify the terms that must be adjacent regardless of order ( May be specified or / and / or the interval between terms that must be present may be specified (defined). If the word spacing can be specified, it or one of them may appear more than once in one sentence. In other words, there must be more than one corresponding word spacing. Therefore, the order in which terms appear may be specified together so that the accuracy can be further improved as necessary. As a matter of course, the positional relationship between other terms may be specified (defined).

【0039】指定した文章範囲に出現する可能性がある
用語の他に、それと共に出現する可能性がない、或いは
その可能性が著しく低いと考えられる用語を別に指定で
きるようにしても良い。これらのことから明らかなよう
に、様々な変形を行うことが可能である。
In addition to terms that may appear in the designated text range, terms that are unlikely to appear together with them or that are considered to be extremely unlikely may be separately designated. As apparent from these, various modifications can be made.

【0040】上述したように、検索条件入力部15で
は、論理和近接演算子を用いて検索式(検索条件)を作
成することができるようになっている。その検索条件
が、検索条件入力部15から検索抽出部16に送られ
る。
As described above, the search condition input unit 15 can create a search expression (search condition) by using the logical OR proximity operator. The search condition is sent from the search condition input unit 15 to the search and extraction unit 16.

【0041】その検索抽出部16は、二次情報データベ
ース14を参照して、検索条件入力部15から送られた
検索条件(検索式)で規定された索引語が全て存在する
適合文献を探索する。その検索式には様々な演算子を用
いることができるが、その検索式中に上記論理和近接演
算子が使われていた場合、その倫理和近接演算子によっ
て一致すべきと規定された索引語と抽出された索引語が
少なくとも一致していることが適合文献の必要条件(当
然のことながら、(必要)十分条件となることもある)
となる。このため、適合文献にはその必要条件を少なく
とも満たしている文献が選択される。このような適合文
献の検索を行う検索抽出部16は、図1において、コン
ピュータ1、及び補助記憶装置7が対応する。
The search / extraction section 16 refers to the secondary information database 14 to search for a suitable document in which all index words specified by the search condition (search formula) sent from the search condition input section 15 exist. . Although various operators can be used in the search expression, if the above-mentioned logical OR proximity operator is used in the search expression, an index term specified to be matched by the ethical OR proximity operator And at least the extracted index terms must match (required, of course, may be sufficient)
Becomes For this reason, a document that satisfies at least the necessary conditions is selected as the relevant document. In FIG. 1, the computer 1 and the auxiliary storage device 7 correspond to the search and extraction unit 16 that searches for such a suitable document.

【0042】ところで、二次情報データベース14に格
納された索引語は、文献から抽出した語句であることか
らフリータームである。フリータームでは、同じ用語で
もそれが表現している概念の差が大きくなりやすい。こ
れは、検索もれが生じやすいことを意味する。これを回
避するために、本実施の形態では、整理・統制された用
語での検索を行えるようにしている。
The index term stored in the secondary information database 14 is a free term because it is a word extracted from a document. In a free term, the difference in the concept that the same term expresses tends to increase. This means that search leakage is likely to occur. In order to avoid this, in the present embodiment, it is possible to perform a search using terms that are arranged and controlled.

【0043】ユーザは、シソーラス(索引語として登録
されたディスクリプタ(統制語)、その同義語・準同義
語である非ディスクリプタ、上位語、下位語、関連語、
語間の関係の種類を示す記号、見出し語の意味範囲や使
い方を示すスコープ・ノートなどから構成された検索語
彙集)を参照することにより、検索条件入力部15で統
制語を索引語として入力することができる。このことか
ら、検索条件の一つとして、整理・統制された用語(以
降、これも統制語と呼ぶことにする)での検索を行うか
否かをユーザに選択させるようにしている。統制語を選
択すると、入力された索引語は統制語として扱ってい
る。
The user can input a thesaurus (descriptor (control word) registered as an index word, a non-descriptor that is a synonym / semi-synonym, an upper word, a lower word, a related word,
A controlled term is input as an index word in the search condition input unit 15 by referring to a search vocabulary composed of a symbol indicating a type of relation between words, a scope note indicating a meaning range and usage of a headword, and the like. can do. For this reason, as one of the search conditions, the user is made to select whether or not to perform a search using arranged and controlled terms (hereinafter also referred to as controlled words). When a controlled word is selected, the input index word is treated as a controlled word.

【0044】検索条件入力部15を介してユーザが統制
語での検索を指示した場合、検索抽出部16は、二次情
報データベース14に格納されている索引語を統制語に
変換、或いはユーザが参照するシソーラスに応じて用意
した同義語辞書や上位語辞書等を参照して、索引語間の
照合を行って適合文献を検索する。それにより、再現率
をより向上できるようにしている。
When the user instructs a search using a controlled word via the search condition input unit 15, the search and extraction unit 16 converts the index word stored in the secondary information database 14 into a controlled word, or By referring to a synonym dictionary, a high-level word dictionary, or the like prepared according to the thesaurus to be referred to, collation between index terms is performed to search for a matching document. Thereby, the recall can be further improved.

【0045】検索抽出部16は、上述したようにして行
う検索が終了すると、その検索結果を表示装置2に表示
する。その検索結果は、検索条件入力部15を介してプ
リントアウトすることが指定されていた場合、或いは、
検索後にプリントアウトが指示された場合、プリンタ6
からプリントアウトさせる。
Upon completion of the search performed as described above, the search extraction unit 16 displays the search result on the display device 2. If the search result is specified to be printed out via the search condition input unit 15, or
When printout is instructed after the search, the printer 6
To print out.

【0046】その検索条件入力部15では、一次情報デ
ータベース11に格納された特許文献自体のプリントア
ウトを指示できるようになっている。検索された特許文
献を指定してプリントアウトが指示されたり、或いは単
に特許文献を指定してプリントアウトが指示された場
合、検索抽出部16は指定された特許文献のデータを一
次情報データベース11から読み出し、それをプリンタ
6に出力してプリントさせる。
The search condition input section 15 is capable of instructing a printout of the patent document itself stored in the primary information database 11. When the printout is instructed by designating the searched patent document, or when the printout is instructed simply by designating the patent document, the search and extraction unit 16 retrieves the data of the designated patent document from the primary information database 11. The data is read out and output to the printer 6 for printing.

【0047】上述したような文献検索に関わる処理を実
行することにより、本実施の形態ではユーザに必要な情
報を検索して提供する。なお、図2に示す対象範囲指定
部12、キーワード抽出部13、検索条件入力部15、
及び検索抽出部16の各部の機能は、コンピュータ1に
搭載されたCPUが、そのコンピュータ1に内蔵された
ハードディスク装置(共に図示せず)に記憶されている
プログラムを実行することで実現される。
In the present embodiment, necessary information is searched for and provided to the user by executing the processing related to the document search as described above. Note that the target range specifying unit 12, the keyword extracting unit 13, the search condition input unit 15, and the
The function of each unit of the search and extraction unit 16 is realized when the CPU mounted on the computer 1 executes a program stored in a hard disk device (both not shown) built in the computer 1.

【0048】次に、上記した各部12、13、15、及
び16の機能を実現するコンピュータ1の動作につい
て、図3、及び図4に示す各種フローチャートを参照し
て詳細に説明する。
Next, the operation of the computer 1 for realizing the functions of the units 12, 13, 15, and 16 will be described in detail with reference to various flowcharts shown in FIGS.

【0049】図3は、索引語抽出処理のフローチャート
である。この処理は、例えばオペレータがキーボード
4、或いはマウス5を介して索引語の抽出を指示した場
合に、図2に示す対象範囲指定部12、及びキーワード
抽出部13の機能を実現させるために実行される。
FIG. 3 is a flowchart of the index term extraction process. This processing is executed to realize the functions of the target range specifying unit 12 and the keyword extracting unit 13 shown in FIG. 2 when, for example, the operator instructs the extraction of the index word via the keyboard 4 or the mouse 5. You.

【0050】先ず、ステップS1では、キーボード4、
或いはマウス5を介してオペレータに索引語を抽出する
対象範囲を入力させる。それにより、上述したように、
特許文献の範囲と、特許文献内での範囲とに分けて対象
範囲を指定させる。続くステップS2では、その入力が
終了、即ち索引語の抽出が指示されたか否か判定する。
オペレータがその指示を行っていない場合、その判定は
NOとなってステップS1に戻る。そうでない場合に
は、その判定はYESとなってステップS3に移行す
る。
First, in step S1, the keyboard 4,
Alternatively, the operator is caused to input, via the mouse 5, a target range for extracting an index word. Thereby, as described above,
The target range is designated by dividing the range into the patent document and the range in the patent document. In a succeeding step S2, it is determined whether or not the input has been completed, that is, whether or not extraction of the index word has been instructed.
If the operator has not issued the instruction, the determination is NO and the process returns to step S1. Otherwise, the determination is yes and the process moves to step S3.

【0051】ステップS3では、オペレータが指定した
対象範囲に対応するCD−ROM3b(一次情報データ
ベース14)のデータをオートチェンジャ3aにより読
み出し、各文献毎に索引語を抽出して補助記憶装置7に
格納、即ち二次情報データベース14に索引語を格納す
る。
In step S3, the data of the CD-ROM 3b (primary information database 14) corresponding to the target range designated by the operator is read out by the autochanger 3a, an index word is extracted for each document, and stored in the auxiliary storage device 7. That is, the index words are stored in the secondary information database 14.

【0052】上記索引語の抽出は、具体的には例えば以
下のようにして行っている。コンピュータ1に内蔵のハ
ードディスク装置には、自立語辞書、付属語辞書、同義
語辞書、上位語辞書、構文規則、各種テーブル等の文章
解析用の各種辞書類が格納されている。同義語辞書や上
位語辞書等は、上述したように、文献検索時にも参照さ
れる辞書である。
The extraction of the above-mentioned index words is specifically performed as follows, for example. The hard disk device built in the computer 1 stores various dictionaries for text analysis such as an independent word dictionary, an auxiliary word dictionary, a synonym dictionary, a high-order word dictionary, syntax rules, and various tables. As described above, the synonym dictionary, the high-order word dictionary, and the like are dictionaries that are also referred to during document search.

【0053】索引語の抽出は、各特許文献毎に、上記各
種辞書類を参照して用語を切り出し、そのなかから重要
語を特定し、その特定した重要語を索引語とすることで
行っている。それにより、例えばタイトルを構成する語
句、文を主題化する助詞及び複合辞(「は」、「に
は」、「とは」など)の直前の漢字、カタカナ文字で構
成される2文字以上の語句、予め定義した重要度判定規
則(例えば、「によって」、「により」、「による
と」、「として」、「にとって」といった語の直前の用
語はそれを含む文にとって重要性が高いとする規則)に
該当する語句は重要語(索引語)として特定している。
また、切り出した用語の出現頻度を調べ、きわめて頻繁
に出現したり、或いは出現頻度が比較的に少なくない用
語、言い換えれば、高頻度語と低頻度語の間の出現頻度
をもった用語も重要語(索引語)として特定している。
The extraction of the index word is performed by extracting a term for each patent document with reference to the various dictionaries, specifying an important word from the extracted words, and using the specified important word as an index word. I have. Thereby, for example, two or more characters composed of a kanji character and a katakana character immediately before a word constituting a title, a particle which subjects a sentence, and a compound lexical character (“ha”, “ni”, “toha”, etc.) A phrase or a pre-defined importance determination rule (eg, a term immediately preceding a word such as “by,” “by,” “by,” “as,” “to” is considered to be more important to the sentence containing it The phrase corresponding to (rule) is specified as an important word (index word).
It is also important to examine the frequency of occurrence of the cut-out terms, and to find the terms that appear very frequently or have a relatively low frequency of appearance, in other words, terms that have a frequency of appearance between high-frequency words and low-frequency words. It is specified as a word (index word).

【0054】上述したようにして抽出した索引語は、論
理和近接演算子等の演算子によって索引語間の関係が規
定された検索に対応できるように、それが出現した場所
に応じて文章範囲毎にまとめる(索引語間の位置関係を
示す情報を別に生成しても良い)。このとき、用語間の
語数を示す情報(語間情報と呼ぶ)も合わせて取得す
る。これらが終了すると、ステップS3からステップS
4に移行する。
The index words extracted as described above are sentence range according to the location where they appear so that they can correspond to a search in which the relation between index words is defined by an operator such as a logical OR proximity operator. (Information indicating the positional relationship between index words may be separately generated). At this time, information indicating the number of words between terms (called inter-word information) is also acquired. When these steps are completed, steps S3 to S
Move to 4.

【0055】そのステップS4では、単に文献中から抽
出した索引語と、上記のように文献単位毎にまとめた索
引語群(ここでは、語間情報も含む)を補助記憶装置7
に格納、即ちそれらを二次情報として二次情報データベ
ース14に格納する。それが終了した後、一連の処理が
終了する。
In step S4, the auxiliary storage device 7 simply stores the index words extracted from the document and the index word group (including the inter-word information in this case) compiled for each document unit as described above.
, Ie, they are stored in the secondary information database 14 as secondary information. After that, a series of processing ends.

【0056】なお、図3には特に示していないが、出願
日や公開日、出願人等の書誌情報も、索引語の抽出に合
わせて行っている。それにより、索引語抽出処理の実行
後には、オペレータが指定した範囲の特許文献に関する
二次情報は全て二次情報データベース14に格納され
る。
Although not particularly shown in FIG. 3, bibliographic information such as the date of application, the date of publication, and the applicant is also made in accordance with the extraction of index words. Thus, after the execution of the index word extraction processing, all the secondary information on the patent documents in the range specified by the operator is stored in the secondary information database 14.

【0057】図4は、検索処理のフローチャートであ
る。この処理は、例えばユーザがキーボード4、或いは
マウス5を介して文献検索を指示した場合に、図2に示
す検索条件入力部15、及び検索抽出部16の機能を実
現させるために実行される。
FIG. 4 is a flowchart of the search process. This process is executed to realize the functions of the search condition input unit 15 and the search extraction unit 16 shown in FIG. 2 when, for example, the user instructs a document search via the keyboard 4 or the mouse 5.

【0058】先ず、ステップS11では、キーボード
4、或いはマウス5を介してオペレータに検索条件(主
に検索式)を入力させる。このとき、ユーザは、上述の
論理和近接演算子を用いた検索式を入力することができ
る。続くステップS12では、その入力が終了、即ち検
索の実行が指示されたか否か判定する。ユーザがその指
示を行っていない場合、その判定はNOとなってステッ
プS11に戻る。そうでない場合には、その判定はYE
SとなってステップS13に移行する。
First, in step S11, the operator is caused to input search conditions (mainly search expressions) via the keyboard 4 or the mouse 5. At this time, the user can input a search expression using the above-mentioned OR proximity operator. In a succeeding step S12, it is determined whether or not the input has been completed, that is, whether or not a search execution has been instructed. If the user has not given the instruction, the determination is NO and the process returns to step S11. Otherwise, the decision is YE
In S, the process moves to step S13.

【0059】ステップS13では、補助記憶装置7から
二次情報データベース14のデータを読み出し、各文献
毎に、ユーザが入力した検索条件(検索式)の規定に従
って索引語の照合を行い、規定された索引語が全て存在
する適合文献を抽出する。このとき、その検索式中に近
接演算子が存在していた場合、それで指定されている文
章範囲で索引語の照合を行って適合文献を抽出する。ユ
ーザが索引語を統制語として照合するのを指示した場合
には、上述したように、同義語辞書や上位語辞書等を参
照して、二次情報データベース14から読み出した索引
語の概念と上下関係、或いは類似関係にある概念の用語
を考慮した索引語間の照合を行って適合文献を抽出す
る。このようにして、ユーザが指定した範囲の特許文献
との照合を順次行い、その範囲での照合結果に基づく適
合文献を全て抽出すると、ステップS14に移行する。
In step S13, the data of the secondary information database 14 is read from the auxiliary storage device 7, and for each document, index words are collated in accordance with the rules of the search condition (search formula) input by the user. Relevant documents in which all index words exist are extracted. At this time, if the proximity operator exists in the search expression, the matching term is collated in the text range specified by the proximity operator to extract a matching document. When the user instructs to collate the index word as a controlled word, the concept of the index word read from the secondary information database 14 and the upper and lower Relevant documents are extracted by collating between index terms in consideration of terms of concepts having similar or similar relationships. In this way, the collation with the patent documents in the range designated by the user is sequentially performed, and when all the matching documents based on the collation results in the range are extracted, the process proceeds to step S14.

【0060】ステップS14では、上述したようにして
行った検索結果を出力する。具体的には、表示装置2に
検索結果を表示し、予めユーザに指示されていれば、そ
の検索結果をプリンタ6にプリントアウトさせる。それ
が終了した後、一連の処理が終了する。
In step S14, the result of the search performed as described above is output. Specifically, the search result is displayed on the display device 2 and, if instructed by the user in advance, the search result is printed out on the printer 6. After that, a series of processing ends.

【0061】なお、本実施の形態では、特許文献を対象
にして検索を行っているが、本発明が対象とする文献は
特許文献だけに限定されるものではない。特許文献に代
表される科学文献だけでなく、経済や産業といったこと
に関する文献や、新聞記事といったものでも検索の対象
とすることができる。
In the present embodiment, the search is performed for patent documents, but the present invention is not limited to patent documents. Not only scientific literature typified by patent literature, but also literature related to economy and industry, newspaper articles, and the like can be searched.

【0062】文献検索を行ううえで必要なハードウェア
を備えたコンピュータ(システム)には、図3、及び図
4に示すフローチャート、或いは少なくとも図4に示す
フローチャートを実現するためのプログラムをロードす
ることで本実施の形態のようなシステムを実現させるこ
とができる。このことから、そのプログラムをCD−R
OMやDVD、フロッピーディスク、或いは光磁気ディ
スク等の記録媒体に記録して配布しても良い。或いは、
或いは、何らかのネットワーク(例えば公衆網)を介し
て配信するようにしても良い。
A computer (system) having hardware necessary for performing a document search is loaded with a program for realizing the flowcharts shown in FIGS. 3 and 4 or at least the flowchart shown in FIG. Thus, the system as in the present embodiment can be realized. From this, the program can be stored on CD-R
The data may be recorded on a recording medium such as an OM, a DVD, a floppy disk, or a magneto-optical disk and distributed. Or,
Alternatively, distribution may be performed via some network (for example, a public network).

【0063】[0063]

【発明の効果】以上説明したように本発明は、文章範囲
が限定されて照合される複数の索引語をユーザが検索条
件として指定すると、該複数の索引語を、文献から抽出
された該文章範囲に出現した索引語と照合し、複数の索
引語のなかで予め定めた規則から特定される索引語が少
なくとも一致した索引語が抽出された文献を、少なくと
も適合文献として選択する。このため、検索の精度を高
く維持させつつ、再現率を向上させることができる。
As described above, according to the present invention, when a user specifies a plurality of index words to be collated with a limited sentence range as a search condition, the plurality of index words are extracted from the document extracted from the document. A document from which an index term that matches at least an index term specified by a predetermined rule among a plurality of index terms is extracted is selected as a matching document at least. For this reason, it is possible to improve the recall while maintaining high search accuracy.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本実施の形態による文献検索システムの構成図
である。
FIG. 1 is a configuration diagram of a document search system according to an embodiment.

【図2】本実施の形態による文献検索システムの機能ブ
ロック図である。
FIG. 2 is a functional block diagram of the document search system according to the embodiment;

【図3】索引語抽出処理のフローチャートである。FIG. 3 is a flowchart of an index term extraction process.

【図4】検索処理のフローチャートである。FIG. 4 is a flowchart of a search process.

【符号の説明】[Explanation of symbols]

1 コンピュータ 2 表示装置 3 データベース 3a CD−ROMオートチェンジャ 3b CD−ROM 4 キーボード 5 ポインティングデバイス 7 補助記憶装置 11 一次情報データベース 12 対象範囲指定部 13 キーワード抽出部 14 二次情報データベース 15 検索条件入力部 16 検索抽出部 DESCRIPTION OF SYMBOLS 1 Computer 2 Display device 3 Database 3a CD-ROM autochanger 3b CD-ROM 4 Keyboard 5 Pointing device 7 Auxiliary storage device 11 Primary information database 12 Target range specification part 13 Keyword extraction part 14 Secondary information database 15 Search condition input part 16 Search Extractor

───────────────────────────────────────────────────── フロントページの続き (72)発明者 垂石 純 東京都稲城市矢野口1776番地 富士通機電 株式会社内 (72)発明者 中村 英彦 東京都稲城市矢野口1776番地 富士通機電 株式会社内 Fターム(参考) 5B075 ND03 NK04 NK06 NK35 NK37 NK50 PP02 PP03 PP23 PQ02 PQ03 QS01 UU06  ──────────────────────────────────────────────────続 き Continuing on the front page (72) Inventor Jun Tarishi 1776 Yanoguchi, Inagi-shi, Tokyo Fujitsu Kiden Co., Ltd. (72) Inventor Hidehiko Nakamura 1776 Yanoguchi, Inagi-shi, Tokyo Fujitsu Kiden F-term (reference) 5B075 ND03 NK04 NK06 NK35 NK37 NK50 PP02 PP03 PP23 PQ02 PQ03 QS01 UU06

Claims (13)

【特許請求の範囲】[Claims] 【請求項1】 ユーザにより入力された索引語を文献か
ら抽出した索引語と照合することにより適合文献を検索
するための方法であって、 予め定めた文章範囲に限定して照合される索引語をユー
ザが複数、検索条件として指定した場合に、 該複数の索引語を、前記文献から抽出された前記文章範
囲に出現した索引語と照合し、 前記索引語間の照合により、前記複数の索引語のなかで
予め定めた規則から特定される索引語が少なくとも一致
した索引語が抽出された文献を、少なくとも前記適合文
献として選択する、 ことを特徴とする文献検索方法
1. A method for searching for a matching document by matching an index word input by a user with an index word extracted from a document, wherein the matching is performed only in a predetermined sentence range. When the user specifies a plurality of search terms as search conditions, the plurality of index terms are checked against index terms appearing in the sentence range extracted from the document, and the plurality of index terms are checked by matching between the index terms. Selecting a document from which an index word at least matching an index word specified by a predetermined rule is extracted as at least the relevant document.
【請求項2】 前記文章範囲は、予め複数用意した選択
肢のなかからユーザに選択させることにより定めた範囲
である、 ことを特徴とする請求項1記載の文献検索方法。
2. The document search method according to claim 1, wherein the sentence range is a range determined by allowing a user to select from a plurality of options prepared in advance.
【請求項3】 前記規則として、前記複数の索引語のな
かで前記文献から抽出された索引語と少なくとも一致す
べき索引語をユーザに指定させる、 ことを特徴とする請求項1、または2記載の文献検索方
法。
3. The method according to claim 1, wherein the rule is that a user designates an index term that should at least match an index term extracted from the document among the plurality of index terms. Literature search method.
【請求項4】 前記規則として、前記複数の索引語のな
かで前記文献から抽出された索引語と位置関係を含めて
一致すべき索引語をユーザに指定させる、 ことを特徴とする請求項1、2、または3記載の文献検
索方法。
4. The method according to claim 1, wherein, as the rule, a user designates an index word to be matched with the index word extracted from the document including a positional relationship among the plurality of index words. Document search method described in 2, 3 or 3.
【請求項5】 前記位置関係として、前記文章範囲内で
2つ以上の索引語が出現する順序をユーザに指定可能と
させた、 ことを特徴とする請求項4記載の文献検索方法。
5. The document search method according to claim 4, wherein, as the positional relationship, a user can specify an order in which two or more index words appear in the sentence range.
【請求項6】 前記選択肢は、少なくとも、1つのセン
テンス、及び段落を含む、 ことを特徴とする請求項2記載の文献検索方法。
6. The document search method according to claim 2, wherein the options include at least one sentence and a paragraph.
【請求項7】 ユーザにより入力された索引語を文献か
ら抽出した索引語と照合することにより適合文献を検索
するシステムであって、 予め定めた文章範囲に限定して照合される索引語をユー
ザが複数、検索条件として入力できる検索条件入力手段
と、 前記検索条件入力手段により前記文章範囲に限定して照
合される索引語をユーザが複数入力した場合に、該複数
の索引語を、前記文献から抽出された前記文章範囲に出
現した索引語と照合する照合手段と、 前記検索条件入力手段により入力された前記文章範囲に
限定して照合される複数の索引語のなかで、予め定めた
規則から特定される索引語が少なくとも一致したと前記
照合手段が照合した索引語が抽出された文献を、少なく
とも前記適合文献として選択する選択手段と、 を具備したことを特徴とする文献検索システム。
7. A system for searching for a matching document by matching an index term input by a user with an index term extracted from a document, wherein the matching is performed only in a predetermined text range. A plurality of search condition input means capable of inputting a plurality of search terms as search conditions, and when the user inputs a plurality of index terms limited to the sentence range by the search condition input means, A matching means for matching with an index word appearing in the sentence range extracted from the sentence, and a predetermined rule among a plurality of index words matched only for the sentence range input by the search condition input means. And selecting means for selecting, as at least the relevant document, a document from which the index word collated by the collating means is at least matched with the index word specified from. Document retrieval system according to claim.
【請求項8】 前記文章範囲は、予め複数用意した選択
肢のなかからユーザに前記検索条件入力手段により選択
させる、 ことを特徴とする請求項7記載の文献検索システム。
8. The document retrieval system according to claim 7, wherein the user is allowed to select the sentence range from a plurality of options prepared in advance by the search condition input unit.
【請求項9】 前記規則として、前記複数の索引語のな
かで前記文献から抽出された索引語と少なくとも一致す
べき索引語を前記検索条件入力手段によりユーザに指定
させる、 ことを特徴とする請求項7、または8記載の文献検索シ
ステム。
9. The search condition input unit, as a rule, causes a user to specify an index word that should at least match an index word extracted from the document among the plurality of index words. Item 7 or 8, a document search system.
【請求項10】 前記規則として、前記複数の索引語の
なかで前記文献から抽出された索引語と位置関係を含め
て一致すべき索引語をユーザに前記検索条件入力手段に
より指定させる、 ことを特徴とする請求項7、8、または9記載の文献検
索システム。
10. The method according to claim 1, wherein, as the rule, a user specifies an index word to be matched with an index word extracted from the document including a positional relationship among the plurality of index words by the search condition input unit. 10. The document search system according to claim 7, 8, or 9.
【請求項11】 前記位置関係として、前記文章範囲内
で2つ以上の索引語が出現する順序をユーザに指定可能
とさせた、 ことを特徴とする請求項10記載の文献検索システム。
11. The document retrieval system according to claim 10, wherein, as the positional relationship, an order in which two or more index words appear in the sentence range can be specified by a user.
【請求項12】 前記選択肢は、少なくとも、1つのセ
ンテンス、及び段落を含む、 ことを特徴とする請求項8記載の文献検索システム。
12. The document search system according to claim 8, wherein the options include at least one sentence and a paragraph.
【請求項13】 ユーザにより入力された索引語を文献
から抽出した索引語と照合することにより適合文献を検
索するシステムを構成するコンピュータが読み取り可能
な記録媒体であって、 予め定めた文章範囲に限定して照合される索引語をユー
ザが複数、検索条件として入力できる手段と、 前記入力できる手段により前記文章範囲に限定して照合
される索引語をユーザが複数入力した場合に、該複数の
索引語を、前記文献から抽出された前記文章範囲に出現
した索引語と照合する手段と、 前記入力できる手段により入力された前記文章範囲に限
定して照合される複数の索引語のなかで、予め定めた規
則から特定される索引語が少なくとも一致したと前記照
合する手段により照合された索引語が抽出された文献
を、少なくとも前記適合文献として選択する手段と、 を実現させるためのプログラムを記録したコンピュータ
読み取り可能な記録媒体。
13. A computer-readable recording medium constituting a system for searching a matching document by matching an index word inputted by a user with an index word extracted from a document, wherein the computer-readable recording medium has a predetermined text range. Means for allowing the user to input a plurality of index words to be collated in a limited manner as search conditions; and when the user inputs a plurality of index words to be collated and limited to the sentence range by the input means, the plurality of Means for matching an index word with an index word appearing in the sentence range extracted from the document; and among a plurality of index words matched only for the sentence range input by the input enabled means, The document from which the index term matched by the matching means is extracted at least to match the index term specified from the predetermined rule is defined as at least the matching document. A computer-readable recording medium on which a program for realizing the above is recorded.
JP10278389A 1998-09-30 1998-09-30 Literature retrieval method and its system Pending JP2000112953A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10278389A JP2000112953A (en) 1998-09-30 1998-09-30 Literature retrieval method and its system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10278389A JP2000112953A (en) 1998-09-30 1998-09-30 Literature retrieval method and its system

Publications (1)

Publication Number Publication Date
JP2000112953A true JP2000112953A (en) 2000-04-21

Family

ID=17596672

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10278389A Pending JP2000112953A (en) 1998-09-30 1998-09-30 Literature retrieval method and its system

Country Status (1)

Country Link
JP (1) JP2000112953A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004206552A (en) * 2002-12-26 2004-07-22 Casio Comput Co Ltd Information display control device and its program
JP2005316947A (en) * 2004-03-31 2005-11-10 Casio Comput Co Ltd Information display control apparatus, server and program
JP2005339150A (en) * 2004-05-26 2005-12-08 Mitsubishi Electric Corp Document retrieval device
US7403889B2 (en) 2002-12-26 2008-07-22 Casio Computer Co., Ltd. Electronic dictionary with example sentences
US8641605B2 (en) 2006-07-04 2014-02-04 Olympus Medical Systems Corp. Endoscope
CN111767373A (en) * 2020-06-30 2020-10-13 平安国际智慧城市科技股份有限公司 Document retrieval method, document retrieval device, electronic equipment and storage medium
JP2022073949A (en) * 2020-10-30 2022-05-17 ソプラ株式会社 Conversation sentence search system for security id

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0628403A (en) * 1992-07-09 1994-02-04 Mitsubishi Electric Corp Document retrieving device
JPH06309368A (en) * 1993-04-20 1994-11-04 Fuji Xerox Co Ltd Document retrieving device
JPH06348756A (en) * 1993-06-03 1994-12-22 Ricoh Co Ltd Index preparing device and index utilizing device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0628403A (en) * 1992-07-09 1994-02-04 Mitsubishi Electric Corp Document retrieving device
JPH06309368A (en) * 1993-04-20 1994-11-04 Fuji Xerox Co Ltd Document retrieving device
JPH06348756A (en) * 1993-06-03 1994-12-22 Ricoh Co Ltd Index preparing device and index utilizing device

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004206552A (en) * 2002-12-26 2004-07-22 Casio Comput Co Ltd Information display control device and its program
US7403889B2 (en) 2002-12-26 2008-07-22 Casio Computer Co., Ltd. Electronic dictionary with example sentences
JP2005316947A (en) * 2004-03-31 2005-11-10 Casio Comput Co Ltd Information display control apparatus, server and program
JP4715204B2 (en) * 2004-03-31 2011-07-06 カシオ計算機株式会社 Information display control device and program
JP2005339150A (en) * 2004-05-26 2005-12-08 Mitsubishi Electric Corp Document retrieval device
US8641605B2 (en) 2006-07-04 2014-02-04 Olympus Medical Systems Corp. Endoscope
CN111767373A (en) * 2020-06-30 2020-10-13 平安国际智慧城市科技股份有限公司 Document retrieval method, document retrieval device, electronic equipment and storage medium
JP2022073949A (en) * 2020-10-30 2022-05-17 ソプラ株式会社 Conversation sentence search system for security id
JP7132576B2 (en) 2020-10-30 2022-09-07 ソプラ株式会社 Security ID Conversation Search System

Similar Documents

Publication Publication Date Title
US4775956A (en) Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
EP0530993B1 (en) An iterative technique for phrase query formation and an information retrieval system employing same
JP3132738B2 (en) Text search method
US6269189B1 (en) Finding selected character strings in text and providing information relating to the selected character strings
US5995962A (en) Sort system for merging database entries
WO2005059771A1 (en) Translation judgment device, method, and program
JPS5850071A (en) Document excerpt memory
US7440938B2 (en) Method and apparatus for calculating similarity among documents
US8554539B2 (en) Method for analyzing morpheme using additional information and morpheme analyzer for executing the method
JPH0628403A (en) Document retrieving device
JP2000112953A (en) Literature retrieval method and its system
US20060248037A1 (en) Annotation of inverted list text indexes using search queries
JP4640593B2 (en) Multilingual document search device, multilingual document search method, and multilingual document search program
JP3612769B2 (en) Information search apparatus and information search method
JP7103763B2 (en) Information processing system and information processing method
JPH10207910A (en) Related word dictionary preparing device
JP2001331515A (en) Word thesaurus structuring method and computer software program product for making computer system structure word thesaurus
JPH0934905A (en) Key sentence extraction system, selection system and sentence retrieval system
JP4452527B2 (en) Document search device, document search method, and document search program
JP3848014B2 (en) Document search method and document search apparatus
JP2011076194A (en) System, method and program for creating topic concrete expression dictionary
JP2002132789A (en) Document retrieving method
JP2004318381A (en) Similarity computing method, similarity computing program, and computer-readable storage medium storing it
JP2002251401A (en) Device, method and storage media for retrieving document
JP2003223465A (en) Patent document retrieval method

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040615

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050111