JP2002366557A - Retrieval device, computer program and recording medium - Google Patents

Retrieval device, computer program and recording medium

Info

Publication number
JP2002366557A
JP2002366557A JP2001176074A JP2001176074A JP2002366557A JP 2002366557 A JP2002366557 A JP 2002366557A JP 2001176074 A JP2001176074 A JP 2001176074A JP 2001176074 A JP2001176074 A JP 2001176074A JP 2002366557 A JP2002366557 A JP 2002366557A
Authority
JP
Japan
Prior art keywords
word
speech
list
words
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001176074A
Other languages
Japanese (ja)
Inventor
Daisuke Miyagawa
大助 宮川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JAPAN CHINA IND COMM CO Ltd
JAPAN CHINA INDUSTRIAL COMMUNICATIONS CO Ltd
Original Assignee
JAPAN CHINA IND COMM CO Ltd
JAPAN CHINA INDUSTRIAL COMMUNICATIONS CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JAPAN CHINA IND COMM CO Ltd, JAPAN CHINA INDUSTRIAL COMMUNICATIONS CO Ltd filed Critical JAPAN CHINA IND COMM CO Ltd
Priority to JP2001176074A priority Critical patent/JP2002366557A/en
Publication of JP2002366557A publication Critical patent/JP2002366557A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PROBLEM TO BE SOLVED: To exactly extract a sentence including objects such as words and phrases to conform to retrieval conditions from a document. SOLUTION: This retrieval device is provided with a text dividing means 1 to divide an English text document 100 to be retrieved by every sentence, a retrieval condition accepting means 2 to accept part or the entire part of the objects to be extracted, information in relation to parts of speech such a names, conjugation forms of parts of speech of the objects or only a piece of information in relation to the parts of speech as the retrieval conditions, lists 5, 6 in which original forms and irregular change forms of words are registered by every part of speech such as nouns, verbs and adjectives, a retrieving means 3 to retrieve the document to be retrieved by referring to the lists 5, 6 and a retrieval result presenting means 4 to extract and present the sentence including the objects conforming to the retrieval conditions.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文書を検索して、
検索条件に一致する目的語を含むセンテンスを抽出し、
目的語を含む検索結果のセンテンスを提示する検索装
置、この装置をコンピュータで実現するためのコンピュ
ータプログラム、及びこのコンピュータプログラムが記
録されている記録媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention
Extract sentences that contain the object that matches the search criteria,
The present invention relates to a search device that presents a sentence of a search result including an object, a computer program for realizing the device with a computer, and a recording medium on which the computer program is recorded.

【0002】[0002]

【従来の技術】文書の中から単語を検索する機能とし
て、ワープロソフトのような文書作成、編集用のソフト
ウェアでは、文書を検索して、予め指定されたキーワー
ドに一致する語の位置にジャンプする検索機能がある。
このとき、検索条件の指定方法として、キーワードの文
字列全部を指定する方法以外に、キーワードの文字列の
一部だけを指定する方法もある。
2. Description of the Related Art As a function of searching for a word in a document, document creation and editing software such as word processing software searches the document and jumps to a position of a word that matches a keyword specified in advance. There is a search function.
At this time, as a method of designating the search condition, there is a method of designating only a part of the keyword character string in addition to a method of designating the entire character string of the keyword.

【0003】また、他の例として、インターネット上で
公開されている膨大な数のホームページの中から、予め
指定されたキーワードを含むページのURL 、概要等の一
覧をユーザに提示する検索エンジンがある。この検索エ
ンジンでは、複数のキーワードの設定を可能にしてお
り、キーワード以外に、AND 条件、OR条件、絞り込み等
の設定によって、これらのキーワードの両方を含むペー
ジ、いずれかのキーワードを含むページの情報を網羅し
て一覧表示する。
As another example, there is a search engine that presents a list of URLs, outlines, and the like of pages including a keyword specified in advance from a huge number of homepages published on the Internet to a user. . In this search engine, it is possible to set multiple keywords. In addition to keywords, AND conditions, OR conditions, refinement, etc., settings of pages that include both of these keywords, information of pages that include any of these keywords Is displayed in a list.

【0004】[0004]

【発明が解決しようとする課題】以上のように、従来の
検索機能では、文書内のキーワードが出現する位置にジ
ャンプしたり、キーワードを含むページ(ファイル)の
URL 、概要等の一覧表示はするが、キーワードが出現す
るセンテンスを全て抽出して提示する機能は提供してい
ない。このような検索機能は、例えば、語法研究のため
の用例データの蓄積、小説のような文書における用語の
使用傾向、作家の文体等の分析に有用である。
As described above, according to the conventional search function, a user can jump to a position where a keyword appears in a document, or search for a page (file) containing the keyword.
Although it displays a list of URLs and summaries, it does not provide a function for extracting and presenting all sentences in which keywords appear. Such a search function is useful for, for example, accumulating example data for grammar research, analyzing the use tendency of a term in a document such as a novel, the style of a writer, and the like.

【0005】また、従来の検索機能では、例えば、英文
の中から形容詞の最上級だけを抽出しようとして“* e
st”(* は任意の文字列)というキーワードを設定した
場合、形容詞の最上級だけではなく名詞等、検索対象外
の単語まで抽出してしまうので検索効率が低い。
[0005] In addition, in the conventional search function, for example, in order to extract only the highest adjective from an English sentence, "* e
When the keyword "st" (* is an arbitrary character string) is set, not only the highest level of adjectives but also words that are not searched, such as nouns, are extracted, so that the search efficiency is low.

【0006】更に、複数のキーワードの全てを含むホー
ムページのURL 、概要等の情報を一覧表示する機能は提
供されているが、複数のキーワードの出現順は指定でき
ない。また文字列以外の品詞、活用形等の属性情報をキ
ーワードとして検索しようとする場合、10数個の記号を
利用する正規表現法と呼ばれる書式を応用すれば、ある
程度まで設定が可能であるが、不規則活用形までカバー
することはかなり困難である。また正規表現法の習得に
は深い知識と経験が必要である。更に正規表現法で設定
した条件文は専門家以外には理解し難く、視認性が悪
い。
Further, although a function of displaying a list of information such as a URL and an outline of a home page including all of a plurality of keywords is provided, the order of appearance of the plurality of keywords cannot be specified. Also, when trying to search for attribute information such as part of speech other than a character string, inflected forms, etc. as a keyword, it is possible to set up to a certain extent by applying a format called a regular expression method that uses more than 10 symbols, It is quite difficult to cover irregular usage. Also, learning the regular expression method requires deep knowledge and experience. Further, the conditional sentence set by the regular expression method is difficult to understand by anyone other than the expert, and the visibility is poor.

【0007】本発明はこのような問題点を解決するため
になされたものであって、単語を品詞別に登録してある
リストを設け、検索対象の文書をセンテンス単位に区切
り、文字列だけでなく、品詞、活用形等の品詞に関連す
る情報を合わせて又はこの情報だけを検索条件として設
定できるように、また複数項目からなる検索条件の場合
は項目の出現順、検索対象外の語の数又は有無等の夾雑
条件を検索条件として設定できるようにすることによ
り、文書の中から、検索条件に一致する単語、連語、相
関語等の目的語を含むセンテンスを的確に抽出できる検
索装置、この装置をコンピュータで実現するためのコン
ピュータプログラム、及びこのコンピュータプログラム
が記録されている記録媒体の提供を目的とする。
The present invention has been made in order to solve such a problem. A list in which words are registered for each part of speech is provided, a document to be searched is divided into sentence units, and not only a character string but also a character string is used. So that information related to the part of speech, such as part of speech, inflected forms, etc., can be combined or set as a search condition. In the case of a search condition consisting of multiple items, the order of appearance of the items, the number of words not searched Or a search device capable of accurately extracting sentences including object words such as words, collocations, and correlated words that match the search conditions from a document by enabling setting of impurity conditions such as presence or absence as search conditions. It is an object of the present invention to provide a computer program for realizing the apparatus by a computer, and a recording medium on which the computer program is recorded.

【0008】[0008]

【課題を解決するための手段】第1発明の検索装置は、
文書を検索して検索条件に一致する目的語を抽出する検
索装置において、単語を品詞別に登録してあるリスト
と、文書をセンテンス毎に区切る手段と、前記目的語の
一部もしくは全部、及び/又は前記目的語の品詞に関連
する情報を検索条件として受け付ける手段と、前記リス
トを参照して文書を検索し、検索条件に一致した目的語
を含むセンテンスを抽出して提示する手段とを備えるこ
とを特徴とする。
According to a first aspect of the present invention, there is provided a retrieval apparatus comprising:
In a retrieval apparatus for retrieving documents and extracting object words that match search conditions, a list in which words are registered by part of speech, means for separating documents into sentences, a part or all of the object words, and / or Or means for receiving information relating to the part of speech of the object as a search condition, and means for searching a document by referring to the list, extracting and presenting a sentence including the object word that matches the search condition. It is characterized by.

【0009】第2発明の検索装置は、第1発明に加え
て、提示した検索結果のセンテンスに、該センテンスが
出現する前記文書の箇所を対応付けて提示する手段を更
に備えることを特徴とする。
[0009] In addition to the first invention, the search device of the second invention is characterized by further comprising means for associating a sentence of the presented search result with a location of the document where the sentence appears, and presenting the sentence. .

【0010】第3発明の検索装置は、第1又は第2発明
の前記目的語が連続的な複数の単語の組み合わせからな
る連語であり、該複数の単語のそれぞれの一部もしくは
全部、及び/又は該複数の単語の品詞に関連する情報に
加えて、該複数の単語の出現順を規定する情報を検索条
件として受け付けるべくなしてあることを特徴とする。
[0010] In the search device of the third invention, the object of the first or second invention is a collocation consisting of a combination of a plurality of continuous words, and a part or all of each of the plurality of words, and / or Alternatively, in addition to the information relating to the parts of speech of the plurality of words, information defining the order of appearance of the plurality of words is received as a search condition.

【0011】第4発明の検索装置は、第3発明の前記複
数の単語の間に夾雑する検索対象外の単語の数又は有無
を規定する情報を検索条件として受け付けるべくなして
あることを特徴とする。
[0011] A search device according to a fourth invention is characterized in that the search device according to the third invention is adapted to accept, as a search condition, information defining the number or presence / absence of a non-search target word intermingled between the plurality of words. I do.

【0012】第5発明の検索装置は、第1乃至第4発明
のいずれかにおいて、文法に従って単語の形が変化する
品詞の前記リストに、単語の原形及び不規則な変化形の
それぞれのリストを含み、品詞に関連する情報を含む検
索条件に一致するか否かの判定対象となっている着目語
が原形及び不規則な変化形のリストのいずれにも存在し
ない場合は該着目語が規則的な変化形であるか否かを判
定する手段と、規則的な変化形であると判定した場合は
該着目語から原形の文字列を逆生成する手段とを更に備
え、逆生成した原形の文字列が前記リストに存在するか
否かに基づいて、前記着目語が検索対象の目的語である
か否かを判定すべくなしてあることを特徴とする。
A search device according to a fifth aspect of the present invention is the search device according to any one of the first to fourth aspects, wherein the list of the parts of speech in which the form of the word changes in accordance with the grammar includes the list of the original form of the word and the list of the irregular change. If the target word that is included in the list of the original and irregular variations does not exist as a target for determining whether or not it matches the search condition including the information related to the part of speech, the target word is a regular one. Means for determining whether or not the original form of the original character string is determined. It is characterized in that it is determined whether or not the target word is a search target object based on whether or not a column exists in the list.

【0013】第6発明のコンピュータプログラムは、単
語が品詞別に登録されているリストを参照し、文書を検
索して検索条件に一致する目的語を抽出するコンピュー
タで使用されるコンピュータプログラムにおいて、コン
ピュータを、文書をセンテンス毎に区切る手段、前記目
的語の一部もしくは全部、及び/又は前記目的語の品詞
に関連する情報を検索条件として受け付ける手段、並び
に前記リストを参照して文書を検索し、検索条件に一致
した目的語を含むセンテンスを抽出して提示する手段と
して機能させることを特徴とする。
[0013] A computer program according to a sixth aspect of the present invention is a computer program used in a computer that searches a document by referring to a list in which words are registered by part of speech and extracts object words that match search conditions. Means for dividing a document into sentences, means for receiving part or all of the object and / or information relating to the part of speech of the object as a search condition, and searching for the document with reference to the list. It is characterized by functioning as a means for extracting and presenting a sentence containing an object matching the condition.

【0014】第7発明のコンピュータプログラムは、第
6発明に加えて、コンピュータを、提示した検索結果の
センテンスに、該センテンスが出現する前記文書の箇所
を対応付けて提示する手段として機能させることを特徴
とする。
According to a seventh aspect of the present invention, in addition to the sixth aspect, the computer program causes the computer to function as means for presenting a sentence of the presented search result in association with a location of the document where the sentence appears. Features.

【0015】第8発明のコンピュータプログラムは、第
6又は第7発明の前記目的語が連続的な複数の単語の組
み合わせからなる連語である場合、コンピュータを、該
複数の単語のそれぞれの一部もしくは全部、及び/又は
該複数の単語の品詞に関連する情報に加えて、該複数の
単語の出現順を規定する情報を検索条件として受け付け
る手段として機能させることを特徴とする。
According to an eighth aspect of the present invention, in the computer program according to the sixth or seventh aspect, when the object is a collocation consisting of a combination of a plurality of continuous words, the computer program causes the computer to execute a part or a part of each of the plurality of words. The present invention is characterized in that it functions as a means for receiving, as a search condition, information defining the order of appearance of the plurality of words, in addition to all and / or information related to the parts of speech of the plurality of words.

【0016】第9発明のコンピュータプログラムは、コ
ンピュータを、第8発明の前記複数の単語の間に夾雑す
る検索対象外の単語の数又は有無を規定する情報を検索
条件として受け付ける手段として機能させることを特徴
とする。
A computer program according to a ninth invention causes the computer to function as means for accepting, as a search condition, information defining the number or presence / absence of non-search words intermingled between the plurality of words of the eighth invention. It is characterized by.

【0017】第10発明のコンピュータプログラムは、第
6乃至第9発明のいずれかにおいて、文法に従って単語
の形が変化する品詞の前記リストに、単語の原形及び不
規則な変化形のそれぞれのリストを含む場合、コンピュ
ータを、品詞に関連する情報を含む検索条件に一致する
か否かの判定対象となっている着目語が原形及び不規則
な変化形のリストのいずれにも存在しない場合は該着目
語が規則的な変化形であるか否かを判定する手段、規則
的な変化形であると判定した場合は該着目語から原形の
文字列を逆生成する手段、並びに、逆生成した原形の文
字列が前記リストに存在するか否かに基づいて、前記着
目語が検索対象の目的語であるか否かを判定する手段と
して機能させることを特徴とする。
A computer program according to a tenth aspect of the present invention is the computer program according to any one of the sixth to ninth aspects, wherein the list of the parts of speech in which the form of the word changes according to the grammar includes the list of the original form of the word and the list of the irregular form. If the term is not included in the list of the original form and the irregular variation form, the computer is re-evaluated. Means for determining whether or not the word is a regular variation; means for inverting the original character string from the target word if it is determined to be a regular variation; and It is characterized by functioning as a means for determining whether or not the target word is a search target object based on whether or not a character string exists in the list.

【0018】第11発明の記録媒体は、単語が品詞別に登
録されているリストを参照し、文書を検索して検索条件
に一致する目的語をコンピュータに抽出させるコンピュ
ータプログラムが記録されており、コンピュータでの読
み取りが可能な記録媒体において、コンピュータに、文
書をセンテンス毎に区切らせるプログラムコード手段
と、コンピュータに、前記目的語の一部もしくは全部、
及び/又は前記目的語の品詞に関連する情報を検索条件
として受け付けさせるプログラムコード手段と、コンピ
ュータに、前記リストを参照して文書を検索し、検索条
件に一致した目的語を含むセンテンスを抽出して提示さ
せるプログラムコード手段とを含むコンピュータプログ
ラムが記録されていることを特徴とする。
The recording medium according to the eleventh aspect of the present invention stores a computer program for causing a computer to search for a document by referring to a list in which words are registered for each part of speech and to extract a target word that matches a search condition. In a readable recording medium, a computer has a program code means for dividing a document into sentences, and a computer has a part or all of the object,
And / or program code means for receiving information relating to the part of speech of the object as a search condition, and causing a computer to search for a document by referring to the list and extract a sentence including the object word that matches the search condition. Computer program including a program code means to be presented.

【0019】本発明では、検索対象の文書をセンテンス
毎に区切り、抽出すべき目的語の一部、又は全部と、そ
の目的語の品詞名、活用形等の品詞に関連する情報、又
は品詞に関連する情報だけを検索条件として受け付け、
単語が名詞、動詞、形容詞等の品詞別に登録されている
リストを参照して文書を検索し、検索条件に一致した目
的語を含むセンテンスを抽出して提示する。
According to the present invention, a document to be searched is divided for each sentence, and a part or all of an object to be extracted and information related to the part of speech such as a part of speech name, an inflected form or the like of the object word, or a part of speech. Only relevant information is accepted as search criteria,
The document is searched by referring to a list in which words are registered for each part of speech such as a noun, a verb, and an adjective, and a sentence including an object word that matches the search condition is extracted and presented.

【0020】従って、抽出したい目的語を的確に抽出で
きる。また目的語の前後の語がわかり、例えばセンテン
ス内での目的語の使われ方、近接語の親和性、文体の傾
向等の分析に有用である。
Therefore, the object to be extracted can be accurately extracted. In addition, the words before and after the object are understood, and are useful for analyzing, for example, how the object is used in the sentence, affinity of close words, tendency of style, and the like.

【0021】また本発明では、提示した検索結果のセン
テンスのクリック等に応じて、検出結果のセンテンスが
出現する文書の箇所を、強調表示、色の変化等で対応付
けて提示する。
Further, in the present invention, in response to a click on a sentence of the presented search result, a portion of the document where the sentence of the detected result appears is presented in association with highlighting, color change, or the like.

【0022】従って、目的語を含むセンテンスの前後関
係を知ることができ、例えば文体の傾向の分析に有用で
ある。
Therefore, the context of a sentence including an object can be known, which is useful, for example, for analyzing the tendency of style.

【0023】また本発明では、目的語が、所謂連語であ
る場合、各単語の一部か全部と、複数の単語の品詞名、
活用形等の品詞に関連する情報、又は連語を形成する品
詞に関連する情報だけに加えて、複数の単語の出現順を
規定する情報を検索条件として受け付ける。
In the present invention, when the object is a so-called collocation, part or all of each word, the part of speech name of a plurality of words,
In addition to information relating to parts of speech such as inflected forms or information relating to parts of speech forming a collocation, information defining the order of appearance of a plurality of words is accepted as a search condition.

【0024】従って、「a〜」「b〜」「c〜」といっ
た順序で複数項目の検索条件を設定した場合、検索対象
外の「b〜a〜c〜」「a〜c〜b〜」「b〜c〜a
〜」といった出現順の連語、又はセンテンス内、複数の
センテンスに離れて出現する単語群は除外して、「a〜
b〜c〜」といった出現順の連語のみの的確な検索結果
が得られる。
Therefore, when a plurality of search conditions are set in the order of "a-", "b-", "c-", "b-a-c-", "a-c-b-""B-c-a
~), Or a group of words appearing separately in a plurality of sentences within a sentence, such as a sentence such as
An accurate search result of only the collocations in the order of appearance such as "bc" is obtained.

【0025】また本発明では、上述のような検索条件を
設定する場合に、複数の単語の間に夾雑する検索対象外
の単語の数又は有無を規定する情報を検索条件として受
け付ける。
According to the present invention, when the above-described search condition is set, information defining the number or the presence or absence of a non-search target word intermingled between a plurality of words is accepted as the search condition.

【0026】従って、「so〜that」といったように、複
数の単語を組み合わせて使用されるが、間に任意の語が
夾雑するような連語も的確に抽出することができる。
Therefore, although a plurality of words are used in combination, such as "so-that", collocations in which an arbitrary word is interposed therebetween can be accurately extracted.

【0027】また本発明では、動詞及び助動詞の三人称
単数現在形、過去形、過去分詞形、ing形や、形容詞及
び副詞の比較級、最上級や、人称代名詞の格変化形等、
原形以外の規則的又は不規則な変化形を有する品詞の場
合、不規則な変化形の単語だけをリストに登録してお
き、例えば動詞の場合は、着目語の語尾に「s/es/ed/in
g 」があるとか、形容詞及び副詞の場合は語尾に「er/e
st」があるとかによって、規則的な変化形であるか否か
を判定し、規則的な変化形であると判定した場合は、こ
れらの語尾を取り除いた原形の文字列を逆生成し、逆生
成した文字列が原形のリストに存在するか否かに基づい
て、検索条件を満足する目的語であるか否かを判定す
る。
Also, in the present invention, the third person singular present tense, past tense, past participle, and ing of verbs and auxiliary verbs, comparative classes of adjectives and adverbs, superlative forms, and inflected forms of personal pronouns, etc.
In the case of a part-of-speech having a regular or irregular variation other than the original form, only the word of the irregular variation is registered in the list, and for example, in the case of a verb, "s / es / ed / in
g ”or adjectives and adverbs ending with“ er / e ”
It is determined whether it is a regular variation based on the existence of `` st '', and if it is determined that it is a regular variation, the original character string with these endings removed is reversely generated, and the reverse Based on whether the generated character string exists in the original list, it is determined whether or not the object satisfies the search condition.

【0028】従って、活用法に従った規則的な変化形の
単語をリストに登録しておく必要がなくなり、記憶量の
削減によってメモリの有効利用が図れる。
Therefore, it is not necessary to register regularly changing words in the list in accordance with the usage, and the memory can be effectively used by reducing the storage amount.

【0029】[0029]

【発明の実施の形態】図1は本発明の検索装置(以下、
本発明装置という)のブロック図である。テキスト分割
手段1は、例えばインターネットで一般に公開されてい
る小説のような英文テキスト文書100 を、ピリオド又は
クエスチョンマーク又はエクスクラメーションマークが
出現する位置で区切ってセンテンス単位に分割し、各セ
ンテンスの識別が可能なようにシリアル番号等を付与し
て保存する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS FIG.
FIG. 2 is a block diagram of the present invention device. The text dividing means 1 divides an English text document 100 such as a novel which is publicly available on the Internet into sentence units by dividing the document at a position where a period, a question mark, or an exclamation mark appears, and identifies each sentence. And save it with a serial number etc.

【0030】検索条件受け付け手段2は、後述するよう
なレイアウトの条件設定画面(図2参照)をユーザ・イ
ンタフェースとして提供し、条件設定枠においてユーザ
が各欄に入力した文字列や、ポップアップリストの中か
ら選択した品詞名、変化形(活用形)、Group (自動
詞、他動詞等の種類又はユーザが予め任意の単語を登録
しておいた単語リストのファイル名)、ラジオボタンの
選択による複数の条件項目の出現順指定の有無、任意語
として定義した「*」等の記号を利用した、連語におけ
る夾雑語、この記号に数字を組み合わせた夾雑語の数等
を検索条件として受け付ける。
The search condition accepting means 2 provides a layout condition setting screen (see FIG. 2) as described later as a user interface, and displays a character string entered by a user in each column in a condition setting frame or a pop-up list. Part-of-speech names selected from among them, inflected forms (inflected forms), Groups (types of intransitive verbs, transitive verbs, etc. or file names of word lists in which the user has registered any words in advance), and multiple conditions by selecting radio buttons Whether or not the appearance order of the items is specified, the number of the contaminating words in the collocation using a symbol such as “*” defined as an arbitrary word, and the number of the contaminating words obtained by combining this symbol with a number are received as search conditions.

【0031】検索手段3は、設定された検索条件に基づ
き、名詞、自動詞、他動詞、形容詞等の品詞別に単語が
登録されている品詞別単語リスト(原形)5、また文法
に従って語形が不規則に変化する単語の不規則変化形
が、名詞、他動詞、自動詞、形容詞比較級、形容詞最上
級、代名詞の格変化形等の品詞別に登録されている品詞
別単語リスト(不規則変化形)6、動詞及び助動詞の三
単原、過去形、過去分詞形、 ing形、また形容詞及び副
詞の比較級及び最上級、代名詞の格変化形等の規則的な
変化形を含む英語の規則活用形が記述されている規則活
用ファイル7のいずれかを参照し、テキスト分割手段1
によりセンテンス単位に分割された英文テキストデータ
を検索して検索条件に一致する目的語を含むセンテンス
を抽出する。
Based on the set search conditions, the search means 3 includes a part-of-speech word list (original form) 5 in which words are registered for each part of speech such as a noun, an intransitive verb, a transitive verb, an adjective, etc. The part-of-speech word list (irregular variant) 6, which is registered for each part-of-speech such as noun, transitive verb, intransitive verb, adjective comparative grade, superlative adjective, inflectional form of pronoun, etc. It describes the three basic forms of the auxiliary verb, the past tense, the past participle, the ing form, and the regular use forms of the adjectives and adverbs, including the comparative grades and superlative forms, and the prosodic inflection forms. The text division unit 1 refers to one of the rule utilization files 7
Retrieves English text data divided into sentence units, and extracts sentences containing object words that match the search conditions.

【0032】また 検索手段3は、抽出したセンテンス
を、英文テキストデータのセンテンスとのリンク付けを
可能にする情報(例えばセンテンスのシリアル番号、キ
ーワード存在位置等)とともに保存する。
The search means 3 stores the extracted sentence together with information (for example, a serial number of the sentence, a keyword existing position, etc.) enabling linking with the sentence of the English text data.

【0033】検索結果提示手段4は、本例では、図3に
示すように、最大5種類の検索結果をそれぞれ別の画面
に提示する機能を有し、また検索結果の提示画面におい
て検索結果のセンテンスがクリックされた場合は、検出
結果のセンテンスが出現する英文テキスト文書の箇所
を、強調表示、色の変化等で検出結果のセンテンスと対
応付けて提示する。
In this example, the search result presenting means 4 has a function of presenting up to five types of search results on separate screens as shown in FIG. When the sentence is clicked, the location of the English text document where the sentence of the detection result appears is presented in association with the sentence of the detection result by highlighting, color change, or the like.

【0034】図2は検索条件の設定画面のレイアウト図
である。本例では、1つの条件に、最大8項目(8カラ
ム)を設定することができる。条件の内容としては、文
字列、品詞、動詞及び助動詞の三単現(三人称単数現在
形)・過去形・過去分詞形・ ing形と、形容詞及び副詞
の比較級・最上級における「er/est」、人称代名詞の格
変化といった変化形(活用形)、Group (自動詞、他動
詞等の種類又はユーザが予め任意の単語を登録しておい
た単語リストのファイル名)の設定が可能である。なお
品詞の設定においては、品詞名の一覧からなるポップア
ップリストの中からの選択による設定を可能にするユー
ザ・インタフェースを提供する。
FIG. 2 is a layout diagram of a search condition setting screen. In this example, up to eight items (eight columns) can be set for one condition. The contents of the condition include the character string, part-of-speech, verb, and auxiliary verb in triads (third-person singular present tense), past tense, past participle, and ing form, as well as comparisons of adjectives and adverbs, and "er / est"", A variation (inflectional form) such as a personal pronoun's case change, and a Group (a type of intransitive verb, transitive verb, etc., or a file name of a word list in which the user has registered an arbitrary word in advance) can be set. In the setting of the part of speech, a user interface is provided which enables setting by selection from a pop-up list including a list of part of speech names.

【0035】なお、文字列に関して、1つのセル内で指
定できる完全単語文字列は1語に限らず、例えば「/」
で区切った任意の数語を一括指定することができる。こ
のような指定によって、その位置における複数語のOR検
索を指定することができる。例えば1つのカラムにおい
て、文字列の1つのセル内に「take/get/put」、品詞に
「動詞」、変化形(活用形)に「過去形及び過去分詞
形」を指定した場合、take又はget 又はput の過去形及
び過去分詞形が検索抽出される。
Note that the complete word character string that can be specified in one cell is not limited to one word, and for example, "/"
Any number of words separated by can be specified collectively. With such a specification, an OR search of a plurality of words at that position can be specified. For example, in one column, if "take / get / put" is specified in one cell of the character string, "verb" is specified in the part of speech, and "past tense and past participle" are specified in the inflected (conjugated) form, take or The past tense and past participle of get or put are retrieved and extracted.

【0036】また変化形(活用形)に関して、例えば、
活用形(変化形)の指定を、動詞の場合は、0:原形、1:
三単原(=現在形)、2:過去形、3:過去分詞形、4: ing
形、また助動詞の場合は、0:現在形、1:過去・過去分詞
形、2: ing形、また形容詞(副詞)の場合は、0:原形、
1:比較級、2:最上級といったように定義しておき、該当
する選択肢の一覧からなるポップアップリストの中から
の選択による設定を可能にするユーザ・インタフェース
を提供する。
Regarding the variation (conjugation type), for example,
In the case of a verb, specify the inflected form (variant): 0: original form, 1:
Santangen (= present tense), 2: past tense, 3: past participle, 4: ing
For adjectives and auxiliary verbs, 0: present tense, 1: past / past participle, 2: ing, and for adjectives (adverbs), 0: original,
Provide a user interface that can be set by selecting from a pop-up list consisting of a list of applicable choices, such as 1: comparative grade, 2: superlative.

【0037】このとき、全ての活用形が検索条件として
選択された場合は変化形の欄は空欄にし、いずれかの活
用形が選択された場合は、活用形に対応した数字(列)
を表記する。
At this time, if all of the inflected forms are selected as the search conditions, the column of the modified form is blank, and if any of the inflected forms is selected, a number (column) corresponding to the inflected form is used.
Notation.

【0038】また、複数語のOR検索は、上述のような文
字列のセルで「/」記号を利用して指定する以外に、ユ
ーザが単語を予め登録して作成した品詞別の参照用ファ
イルのファイル名をGroup のセルで指定することで、参
照用ファイルに登録されている複数の単語のOR検索を指
定することが可能である。
In addition, in the OR search of a plurality of words, in addition to specifying using the "/" symbol in a cell of a character string as described above, a part-of-speech-based reference file created by a user by pre-registering words. By specifying the file name in the Group cell, it is possible to specify the OR search of multiple words registered in the reference file.

【0039】このように、従来の正規表現方式では、検
索条件の設定でユーザは煩雑な記号群を駆使しなければ
ならず、またコンピュータ処理においても複雑なトーク
ン解析を必要としたのに比べ、本発明では、検索条件を
2次元配列のグリッド形式で指定できるので、視認性に
優れているとともに、条件の指定作業が格段に容易であ
り、コンピュータ処理においても条件解析処理の負担を
軽減する。
As described above, in the conventional regular expression method, the user has to make full use of complicated symbol groups in setting search conditions, and also requires a complicated token analysis in computer processing. According to the present invention, the search condition can be specified in a two-dimensional array grid format, so that the visibility is excellent, the operation of specifying the condition is much easier, and the load of the condition analysis process in computer processing is reduced.

【0040】「指定順/順不同」のラジオボタンで条件
項目の出現順の指定/非指定を設定できる。その他、
「抽出元」として「全文」を含む10種類の範囲指定が可
能であり、また「抽出先」として、後述する10面の中か
ら提示画面を指定することが可能である。
The designation order / non-designation of the appearance order of the condition items can be set by a radio button of “designation order / out of order”. Others
Ten types of ranges including “all text” can be specified as “extraction source”, and a presentation screen can be specified from ten screens described later as “extraction destination”.

【0041】なお、図2の検索条件として、「英文」
「が以下(設定された条件)」「を含む」場合以外に、
「英文」「が以下」「で始まる」、「英文」「が以下」
「で終る」、「英文」「が以下」「を含まない」といっ
た指定も可能である。
Note that the search condition in FIG.
Unless "is below (set conditions)" or "contains"
"English", "below", "begins with", "English", "below"
It is also possible to specify "end with", "English", "below" or "does not include".

【0042】更に、文字列の欄に関して、文字を特定し
ないあいまい指定を可能にする。「*」は1文字以上の
任意の文字列とし、文字との組み合わせ方法を、例えば
以下のように定義する。 「a*」:aで始まる単語 「*a」:aで終わる単語 「a*b」:aで始まりbで終わる単語 「a*b*」:aで始まりbを含む単語 「*a*b」:aを含みbで終わる単語 なお、上述の「a」「b」は任意の文字を示し、その数
は2文字以上であってもよいものとする。
Further, it is possible to make an ambiguous designation without specifying a character in the character string field. “*” Is an arbitrary character string of one or more characters, and a combination method with the characters is defined as follows, for example. "A *": word starting with a "* a": word ending with a "a * b": word starting with a and ending with b "a * b *": word starting with a and containing b "* a * b"": Word including a and ending with b Note that the above-mentioned" a "and" b "indicate arbitrary characters, and the number may be two or more characters.

【0043】また、「*」は、品詞を指定せずに数字と
組み合わせた場合、以下のような夾雑条件を指定するも
のと定義する。指定語が2語以上あって、2語の間隔
(夾雑語の数又は有無)を指定したい場合、「*」と数
字とを組み合わせて指定する。ここで、「n」「m」は
任意の数字を表す。 「*」:2語間の間隔は自由(夾雑語がなくてもよい) 「*n」:2語間の夾雑語がn語であるものに限る 「*n−m」:2語間の夾雑語がn語〜m語であるもの
に限る 「*−n」:2語間の夾雑語がないかn個以下であるも
のに限る 「*n−」:2語間の夾雑語がn語以上であるものに限
"*" Is defined as specifying the following contaminant condition when combined with a numeral without specifying the part of speech. When there are two or more specified words and it is desired to specify the interval between two words (the number or presence or absence of foreign words), specify "*" in combination with a number. Here, “n” and “m” represent arbitrary numbers. "*": The interval between two words is free (there is no need to have any foreign words) "* n": Limited to n words between the two words "* nm": Between two words "* -N": limited to words with no or less than n words between two words "* n-": n is a word between two words Must be at least words

【0044】更に、「*」を第1文字の範囲(例えば
「x-z 」)と組み合わせて、「x-z*」と指定すること
で、任意の文字列ではあるが、「x」又は「y」又は
「z」で始まる文字列のみを検索抽出するという条件を
指定することができる。
Further, by combining "*" with the range of the first character (for example, "xz") and designating it as "xz *", any character string, "x" or "y" or A condition that only character strings starting with “z” are searched and extracted can be specified.

【0045】以上のような「条件」を2組設定すること
もでき、2組の条件の間にAND 条件又はOR条件を指定す
ることができる。また過去に設定した検索条件の「履
歴」は所定件数分、保存される。
Two sets of the above "conditions" can be set, and an AND condition or an OR condition can be specified between the two sets of conditions. “History” of search conditions set in the past is stored for a predetermined number.

【0046】図3は検索結果の提示画面のレイアウト図
である。図中、矢符Aの機能は検索結果のコロケーショ
ン表示機能である。キーワード及びその前後の任意のワ
ードでのソーティングを可能にした機能であり、キーワ
ードを縦に揃えることで、連語生成状況の通覧分析を可
能にする。
FIG. 3 is a layout diagram of a search result presentation screen. In the figure, the function of arrow A is a function of displaying collocation of search results. This function enables sorting of keywords and arbitrary words before and after the keywords. By aligning the keywords vertically, it is possible to analyze the collocation generation situation.

【0047】矢符Bの機能は、コロケーションの軸とす
る対象語を切り替える機能である。例えば「a」「b」
「c」の3要素を検索条件とした目的語を含むセンテン
スを抽出した場合、縦に揃える軸を「a」「b」「c」
の間で任意に切り替えることができ、各要素について連
語生成状況を分析することができる機能である。
The function of arrow B is a function of switching a target word to be used as a collocation axis. For example, "a""b"
When a sentence containing an object using the three elements “c” as a search condition is extracted, the axes to be aligned vertically are “a”, “b”, and “c”.
It is a function that can be arbitrarily switched between and can analyze the collocation generation situation for each element.

【0048】矢符Cは、抽出したセンテンスと、原文で
の出現位置がリンク付けされており、抽出結果のコロケ
ーション表示(A)でセンテンス(反転表示されている
センテンス)がクリックされると、別のウィンドウに表
示されている原文の、対応するセンテンスが太字等で強
調表示される。これにより、抽出文の前後文が簡単に参
照できる。このとき、原文上の当該センテンス内の条件
要素(to buy)を、例えば赤色で表示する。
The arrow C links the extracted sentence and the appearance position in the original sentence. When the sentence (inverted sentence) is clicked in the collocation display (A) of the extraction result, another arrow C is displayed. The corresponding sentence of the original text displayed in the window is highlighted in bold or the like. Thereby, the sentence before and after the extracted sentence can be easily referred to. At this time, the condition element (to buy) in the sentence in the original text is displayed, for example, in red.

【0049】矢符Dは、検索条件に一致する単語、連語
を含むセンテンスの原文内での密度分布を示す機能であ
る。ここで、全横幅は原文の全センテンス数に相当し、
縦幅は6センテンス分に相当し、ヒット文があれば該当
位置を赤で表示する。この機能は作家の文体研究等に応
用できる。
The arrow D is a function showing the density distribution in the original sentence of a sentence including words and collocations that match the search condition. Here, the total width corresponds to the total number of sentences in the original text,
The vertical width corresponds to 6 sentences, and if there is a hit sentence, the corresponding position is displayed in red. This function can be applied to writer's style studies.

【0050】矢符Eは抽出結果を10面分、重層的に保持
する機能が設けられていることを示しており、タブのク
リックで画面の切り替え表示が可能である。この機能
は、抽出結果を更に絞り込んだり、同じ原文から別の条
件で目的語を抽出したような場合、それらの結果を10面
分保持でき、検索結果を見比べることができる機能であ
る。
An arrow E indicates that a function for holding the extraction results in a multi-layered manner for ten faces is provided, and the screen can be switched and displayed by clicking a tab. This function is a function that can further narrow down the extraction results or extract object words from the same original text under different conditions, can hold those results for 10 pages, and compare the search results.

【0051】次に、本発明装置の検索手順を、図4の条
件設定例の図、及び図5乃至8のフローチャートに基づ
いて説明する。
Next, the search procedure of the apparatus of the present invention will be described with reference to the condition setting example shown in FIG. 4 and the flowcharts shown in FIGS.

【0052】まず、設定された検索条件に基づいて各カ
ラムの分岐先のルーチンを選択する手順を、図5のフロ
ーチャートに基づいて説明する。例えば、図4(a) 〜
(c) のように検索条件が設定されると、まず第1カラム
の文字列欄の文字列を判定し(S1)、文字列に「*」が含
まれているか否かを判定する(S2)。「*」が含まれてい
ない場合(NOの場合)は、第1カラムの品詞欄を参照
し、品詞の指定が有るか否かを判定する(S3)。
First, a procedure for selecting a branch destination routine of each column based on the set search conditions will be described with reference to the flowchart of FIG. For example, FIG.
When the search condition is set as shown in (c), first, the character string in the character string column of the first column is determined (S1), and it is determined whether "*" is included in the character string (S2). ). If “*” is not included (in the case of NO), it is determined whether or not a part of speech is specified by referring to the part of speech column of the first column (S3).

【0053】ステップS3の判定の結果、品詞の指定があ
る場合(YES の場合) は、このカラムに対して「品詞属
性付き完全単語検査ルーチン」の「選定ルーチンフラ
グ」を設定する(S4)。「品詞属性付き完全単語検査ルー
チン」は、指定文字列を原形とする単語で、品詞、活用
形指定に合致する単語を含むセンテンスを抽出するルー
チンである。例えば、図4(a) のような設定条件で、後
述する図6のような手順を実行するルーチンである。
When the part of speech is specified as a result of the determination in step S3 (in the case of YES), the "selection routine flag" of the "complete word inspection routine with part of speech attribute" is set for this column (S4). The “complete word inspection routine with part-of-speech attribute” is a routine that extracts a sentence including a word having a designated character string as its original form and including a word that matches the part-of-speech and inflected form designation. For example, this is a routine for executing a procedure as shown in FIG. 6 described below under the setting conditions as shown in FIG.

【0054】一方、ステップS3の判定の結果、品詞の指
定がない場合(NOの場合)は、このカラムに対して「品
詞属性なし完全単語検査ルーチン」の「選定ルーチンフ
ラグ」を設定する(S5)。「品詞属性なし完全単語検査ル
ーチン」は、指定文字列と完全に一致する単語が含まれ
る全てのセンテンスを抽出するルーチンである。
On the other hand, if the result of determination in step S3 indicates that no part of speech is specified (NO), the "selection routine flag" of the "complete word inspection routine without part of speech attribute" is set for this column (S5). ). The "complete word inspection routine without part-of-speech attribute" is a routine for extracting all sentences including a word that completely matches the specified character string.

【0055】また、ステップS2の判定の結果、文字列に
「*」が含まれている場合(YES の場合)は、文字列が
「*」のみであるか否かを判定する(S6)。ステップS6の
判定の結果、文字列が「*」のみである場合(YES の場
合)は、品詞欄を参照し、品詞の指定が有るか否かを判
定する(S7)。
If it is determined in step S2 that the character string contains "*" (YES), it is determined whether the character string is only "*" (S6). If the result of determination in step S6 is that the character string is only "*" (in the case of YES), it is determined whether or not a part of speech is specified by referring to the part of speech column (S7).

【0056】品詞の指定が有る場合(YES の場合)は、
このカラムに対して「品詞属性付き完全任意単語検査ル
ーチン」の「選定ルーチンフラグ」を設定する(S8)。
「品詞属性付き完全任意単語検査ルーチン」は、品詞及
び活用形の指定に一致し、文字列が特定されない単語が
含まれる全てのセンテンスを抽出するルーチンである。
例えば、図4(b) の第1、第2及び第3カラムのような
設定条件で、後述する図7及び図8のような手順を実行
するルーチンである。
When the part of speech is specified (in the case of YES),
The “selection routine flag” of the “complete arbitrary word inspection routine with part of speech attribute” is set for this column (S8).
The “complete arbitrary word inspection routine with part of speech attribute” is a routine that extracts all sentences that match the designation of part of speech and inflected forms and include a word whose character string is not specified.
For example, this is a routine for executing a procedure as shown in FIGS. 7 and 8 described below under setting conditions such as the first, second, and third columns in FIG. 4B.

【0057】一方、ステップS7の判定の結果、品詞の指
定がない場合(NOの場合)は、このカラムに対して「語
数不問型夾雑語処理ルーチン」の「選定ルーチンフラ
グ」を設定する(S9)。「語数不問型夾雑語処理ルーチ
ン」は、指定単語が2語以上あり、2語の間隔が自由で
ある場合、即ち、夾雑語の数及び有無を問わない連語あ
るいは相関語が含まれる全てのセンテンスを抽出するル
ーチンである。
On the other hand, if the result of determination in step S7 indicates that no part of speech is specified (NO), the "selection routine flag" of the "word count-independent foreign word processing routine" is set for this column (S9). ). The “word count-independent foreign word processing routine” is executed when there are two or more specified words and the interval between the two words is free, that is, all sentences including collocations or correlated words regardless of the number and presence of the foreign words. Is a routine for extracting.

【0058】ステップS2及びS6の判定の結果、文字列に
「*」が含まれている(YES の場合)が、「*」のみで
ない場合(NOの場合)は、「a*」等のように、文字が
特定されている「あいまい型」であるか否かを判定する
(S10) 。
As a result of the determination in steps S2 and S6, if the character string contains "*" (in the case of YES), but is not only "*" (in the case of NO), a character string such as "a *" is used. To determine if the character is a specified "ambiguous type"
(S10).

【0059】ステップS10 の判定の結果、「あいまい
型」であると判定した場合(YES の場合)は、品詞欄を
参照して、品詞の指定が有るか否かを判定する(S11) 。
品詞の指定が有る場合は、このカラムに対して「品詞属
性付きあいまい単語検査ルーチン」の「選定ルーチンフ
ラグ」を設定する(S12) 。「品詞属性付きあいまい単語
検査ルーチン」は、特定文字を含む単語で、且つ品詞及
び活用形の指定に一致する単語が含まれる全てのセンテ
ンスを抽出するルーチンである。例えば、図4(c) の第
1カラムのような設定条件で、後述する図9のような手
順を実行するルーチンである。
As a result of the determination in step S10, when it is determined that the type is "ambiguous type" (in the case of YES), it is determined whether or not a part of speech is specified by referring to the part of speech column (S11).
If the part of speech is specified, the "selection routine flag" of the "ambiguous word inspection routine with part of speech attribute" is set for this column (S12). The “ambiguous word inspection routine with part-of-speech attribute” is a routine that extracts all sentences that include a specific character and include a word that matches the part-of-speech and inflected form designation. For example, this is a routine for executing a procedure as shown in FIG. 9 described below under setting conditions as in the first column of FIG. 4C.

【0060】ステップS10 及びS11 の判定の結果、「あ
いまい型」である(YES の場合)が、品詞指定がない場
合(NOの場合)は、このカラムに対して「品詞属性なし
あいまい単語検査ルーチン」の「選定ルーチンフラグ」
を設定する(S13) 。「品詞属性なしあいまい単語検査ル
ーチン」は、特定文字を含む単語が含まれる全てのセン
テンスを抽出するルーチンである。
As a result of the determination in steps S10 and S11, if the type is "ambiguous type" (YES), but no part of speech is specified (NO), the "ambiguous word inspection routine without part of speech attribute""Selection routine flag"
Is set (S13). The “ambiguous word inspection routine without part of speech attribute” is a routine for extracting all sentences including a word including a specific character.

【0061】ステップS10 の判定の結果、「あいまい
型」でない場合(NOの場合)は、文字列欄の「*」に数
字が組み合わされている「夾雑語指定型」であると判定
し、このカラムに対して「語数指定夾雑語処理ルーチ
ン」の「選定ルーチンフラグ」を設定する(S14) 。「語
数指定夾雑語処理ルーチン」は、指定単語が2語以上あ
り、2語の間隔が指定される連語あるいは相関語が含ま
れる全てのセンテンスを抽出するルーチンである。
If the result of the determination in step S10 is not "ambiguous type" (in the case of NO), it is determined that the character is a "contaminant word designation type" in which "*" in the character string column is combined with a number. The "selection routine flag" of the "word number designation impurity word processing routine" is set for the column (S14). The "word number designation impurity word processing routine" is a routine for extracting all sentences including a collocation word or a correlated word in which there are two or more designated words and an interval between two words is designated.

【0062】同様に、第2カラム以下の各カラムのルー
チン選択処理を行い、各カラムに「選定ルーチンフラ
グ」を設定する。
Similarly, a routine selection process is performed for each column below the second column, and a “selection routine flag” is set for each column.

【0063】図6は、文字列の全てを特定し、且つ品詞
指定が有る単語が検索条件の場合(図4(a) )の検索手
順を示すフローチャートである。図4(a) において、
「変化形」の欄に指定がない場合は、「原形、三単現、
過去形、過去分詞形、 ing形の全てが条件であることを
示しており、又「品詞」が「動詞」で「種類(Group) 」
に指定がない場合は、「自動詞、他動詞」の両方が条件
であることを示している。
FIG. 6 is a flowchart showing a search procedure when all the character strings are specified and the word having the part of speech designation is a search condition (FIG. 4A). In FIG. 4 (a),
If there is no designation in the "Variant" column,
It indicates that all of the past tense, past participle and ing are conditions, and that "part of speech" is "verb" and "type (Group)"
Indicates that both of "intransitive verb and transitive verb" are conditions.

【0064】センテンス冒頭の1語を主着目語に設定し
(S401)、第1カラムの「選定ルーチンフラグ」を参照し
て、動詞の「品詞属性付き完全単語検査ルーチン」へ分
岐して、まず主着目語が自動詞及び他動詞の原形リスト
に存在するか否かを判定し(S402)、動詞原形リストに存
在する場合はヒット処理(S406)へ移行する。
One word at the beginning of the sentence is set as the main target word.
(S401), referring to the "selection routine flag" in the first column, branch to the "complete word inspection routine with part of speech attribute" of the verb, and first determine whether the main target word exists in the intact list of intransitive verbs and transitive verbs Is determined (S402), and if it exists in the verb prototype list, the process proceeds to hit processing (S406).

【0065】一方、ステップS402の判定の結果、主着目
語が自動詞及び他動詞の原形リストに存在しない場合
は、自動詞及び他動詞の不規則変化形リストに存在する
か否かを判定し(S403)、動詞不規則変化形リストに存在
する場合はヒット処理(S406)へ移行する。
On the other hand, if the result of the determination in step S402 indicates that the main target word does not exist in the original intransitive verb and transitive verb list, it is determined whether or not it exists in the irregular invariant list of intransitive verbs and transitive verbs (S403). If it exists in the irregular verb variation list, the process proceeds to hit processing (S406).

【0066】一方、ステップS403の判定の結果、主着目
語が自動詞及び他動詞の不規則変化形リストに存在しな
い場合は、主着目語の語尾に「s/es/ed/ing 」が有るか
否かを判定する(S404)。
On the other hand, if the result of the determination in step S403 indicates that the main target word does not exist in the irregular inflection list of the intransitive verb and the transitive verb, whether or not “s / es / ed / ing” is at the end of the main target word Is determined (S404).

【0067】主着目語の語尾に「s/es/ed/ing 」が有る
場合は、動詞の規則活用法に従い、原形文字列を逆生成
し(S405)、ステップS402に戻って、逆生成した原形文字
列が動詞原形リストに存在するか否かを判定する。ここ
で、動詞原形リストに存在すれば、ヒット処理(S406)へ
移行する。
If the main target word has "s / es / ed / ing" at the end, the original character string is inversely generated in accordance with the verb rule utilization method (S405), and the process returns to step S402 to generate the inversely generated character string. It is determined whether the prototype character string exists in the verb prototype list. Here, if it exists in the verb prototype list, the process proceeds to hit processing (S406).

【0068】ステップS404の判定の結果、主着目語の語
尾に「s/es/ed/ing 」がないか、又はステップS405にお
いて逆生成した原形文字列が動詞原形リストに存在しな
い場合は、ノーヒット処理(S407)へ移行する。
If the result of determination in step S404 is that there is no "s / es / ed / ing" at the end of the main target word, or if the original character string inversely generated in step S405 does not exist in the verb original list, a no hit Move to processing (S407).

【0069】ヒット処理(S406)又はノーヒット処理(S40
7)が終了すると、主着目語を1つ右の語に設定し(S40
8)、設定すべき右の語が存在していたか否かに基づいて
センテンスの最後か否かを判定する(S409)。
Hit processing (S406) or no hit processing (S40)
When step 7) is completed, the main target word is set to the next right word (S40).
8) It is determined whether or not the sentence is the last based on whether or not the right word to be set exists (S409).

【0070】センテンスの最後でない場合は、ヒット処
理で終わったのであれば、次の主着目語に対して、次の
カラムに設定されている「選定ルーチンフラグ」に対応
するルーチンの処理を実行し、またノーヒット処理で終
わったのであれば、ステップS402に戻り、次の主着目語
に対して前述のようなステップS402〜S409の処理を繰り
返す。一方、ステップS409の判定の結果、センテンスの
最後である場合(YESの場合)は、対象センテンスを次の
センテンスに設定し(S410)、設定すべき次のセンテンン
スが存在していたか否かに基づいて文書(検索範囲)の
最後か否かを判定する(S411)。
If it is not the end of the sentence, and if the hit processing is completed, the processing of the routine corresponding to the "selection routine flag" set in the next column is executed for the next main target word. If no hit processing is completed, the process returns to step S402, and the above-described processing of steps S402 to S409 is repeated for the next main target word. On the other hand, if the result of the determination in step S409 is that the sentence is the last sentence (in the case of YES), the target sentence is set to the next sentence (S410), and based on whether or not the next sentence to be set exists. Then, it is determined whether or not it is the end of the document (search range) (S411).

【0071】文書の最後でない場合は、ステップS401に
戻り、次のセンテンスの各着目語に対して、前述のよう
なステップS401〜S409の処理を繰り返す。一方、ステッ
プS411の判定の結果、文書(検索範囲)の最後である場
合(YESの場合) は、検索処理を終了する。
If it is not the end of the document, the process returns to step S401, and the above-described processes of steps S401 to S409 are repeated for each target word of the next sentence. On the other hand, if the result of determination in step S411 is that the document is at the end of the document (search range) (YES), the search process ends.

【0072】図7及び図8は、文字列を特定しない、品
詞指定だけの連語が検索条件の場合(図4(b) )の検索
手順を示すフローチャートである。本例では、「助動詞
+動詞+前置詞」の構造(例:「had gone with 」、
「will abondon on 」等)を含むセンテンスを全て抽出
する場合を例に説明する。
FIGS. 7 and 8 are flowcharts showing a search procedure in the case where a collocation word which does not specify a character string but only a part of speech is a search condition (FIG. 4 (b)). In this example, the structure of "auxiliary verb + verb + preposition" (for example, "had gone with",
An example will be described in which all sentences including “will abondon on” are extracted.

【0073】センテンス冒頭の1語を主着目語に設定し
(S801)、第1カラムの「選定ルーチンフラグ」を参照
し、助動詞の「品詞属性付き完全任意単語検査ルーチ
ン」へ分岐して、まず主着目語が助動詞の原形リストに
存在するか否かを判定し(S802)、助動詞原形リストに存
在しない場合は助動詞の不規則変化形リストに存在する
か否かを判定する(S803)。
One word at the beginning of the sentence is set as the main target word.
(S801), referring to the “selection routine flag” in the first column, branching to the auxiliary verb “complete arbitrary word inspection routine with part-of-speech attribute”, first determining whether the main target word exists in the auxiliary verb original list. It is determined (S802), and if it is not present in the auxiliary verb original form list, it is determined whether or not it is present in the irregularly changed auxiliary verb list (S803).

【0074】主着目語が助動詞の原形リストにも不規則
変化形リストにも存在しない場合は、主着目語を1つ右
の語に設定し(S809)、ステップS802に戻り、次の主着目
語に対する処理を開始する。
If the main word of interest does not exist in the auxiliary verb original form list or the irregular variation list, the main word of interest is set to the next right word (S809), and the flow returns to step S802 to return to the next main attention word. Start processing word.

【0075】主着目語が助動詞の原形リスト又は不規則
変化形リストに存在する場合は、第2カラムの「選定ル
ーチンフラグ」を参照し、動詞の「品詞属性付き完全任
意単語検査ルーチン」へ分岐して、まず主着目語の1つ
右の語が動詞原形リスト2種(自動詞及び他動詞)に存
在するか否かを判定し(S804)、動詞原形リスト2種のい
ずれかに存在する場合はステップS810へ移行する。
If the main word of interest is present in the auxiliary verb original or irregular variation list, reference is made to the "selection routine flag" in the second column to branch to the verb "complete arbitrary word inspection routine with part of speech attribute". Then, first, it is determined whether or not the word to the right of the main target word exists in two types of verb intact lists (intransitive verb and transitive verb) (S804). Move to step S810.

【0076】一方、ステップS804の判定の結果、この語
が動詞原形リスト2種のいずれにも存在しない場合は、
動詞の不規則変化形リスト2種(自動詞及び他動詞)に
存在するか否かを判定し(S805)、動詞不規則変化形リス
ト2種のいずれかに存在する場合はステップS810へ移行
する。
On the other hand, if the result of determination in step S804 is that this word does not exist in either of the two verb intact lists,
It is determined whether or not there are two types of irregularly changed verbs (intransitive verb and transitive verb) (S805). If it is found in one of the two types of irregularly changed verbs, the process proceeds to step S810.

【0077】一方、ステップS805の判定の結果、この語
が動詞不規則変化形リスト2種のいずれにも存在しない
場合は、この語の語尾に「s/es/ed/ing 」が有るか否か
を判定する(S806)。
On the other hand, as a result of the determination in step S805, if this word does not exist in any of the two types of irregular verb variations, it is determined whether or not “s / es / ed / ing” is at the end of this word. Is determined (S806).

【0078】この語の語尾に「s/es/ed/ing 」が有る場
合は、動詞の規則活用法に従い、原形文字列を逆生成し
(S807)、逆生成した原形文字列が動詞原形リストに存在
するか否かを判定する(S808)。動詞原形リストに存在す
る場合はステップS810へ移行する。
If the word ends with "s / es / ed / ing", the original character string is inversely generated according to the verb rule usage.
(S807), it is determined whether or not the reversely generated prototype character string exists in the verb prototype list (S808). If it exists in the verb prototype list, the process proceeds to step S810.

【0079】ステップS806の判定の結果、この語の語尾
に「s/es/ed/ing 」がない場合か、又はステップS808の
判定の結果、ステップS807において逆生成した原形文字
列が動詞原形リストに存在しない場合は、主着目語を1
つ右の語に設定し(S809)、ステップS802へ戻り、次の主
着目語に対する処理を開始する。
As a result of the determination in step S806, if there is no “s / es / ed / ing” at the end of this word, or as a result of the determination in step S808, the original character string reversely generated in step S807 is If it does not exist in the
The next right word is set (S809), and the process returns to step S802 to start processing for the next main target word.

【0080】主着目語とその1つ右の語が該当する品詞
のリストに存在していた場合、更に第3カラムの「選定
ルーチンフラグ」を参照し、前置詞の「品詞属性付き完
全任意単語検査ルーチン」、即ち1つ右の語が前置詞リ
ストに存在するか否かを判定するルーチンへ分岐し(S81
0)、前置詞リストに存在する場合は、ヒット処理後、次
のセンテンスを対象に設定し(S811)、設定すべき対象セ
ンテンスが存在していたか否かに基づいて文書(検索範
囲)の最後か否かを判定する(S812)。
If the main word of interest and the word to the right of it are present in the corresponding part of speech list, the third column is further referred to as “selection routine flag”, and the preposition “complete arbitrary word inspection with part of speech attribute” is performed. Routine ", that is, a routine for determining whether the word to the right is present in the preposition list (S81).
0), if it exists in the preposition list, after hit processing, the next sentence is set as a target (S811), and based on whether or not the target sentence to be set exists, whether the end of the document (search range) is determined. It is determined whether or not it is (S812).

【0081】文書の最後でない場合は、ステップS801に
戻り、次のセンテンスの各着目語に対して、前述のよう
なステップS801〜S810の処理を繰り返す。一方、ステッ
プS812の判定の結果、文書(検索範囲)の最後である場
合(YESの場合) は、検索処理を終了する。
If it is not the end of the document, the flow returns to step S801, and the above-described processing of steps S801 to S810 is repeated for each target word of the next sentence. On the other hand, if the result of determination in step S812 is that the document is at the end of the document (search range) (YES), the search process ends.

【0082】ステップS810の判定の結果、主着目語とそ
の1つ右の語が該当する品詞のリストに存在していた
が、更に1つ右の語が前置詞リストに存在していなかっ
た場合は、ステップS810での判定対象の語の次がピリオ
ド又はクエスチョンマーク又はエクスクラメーションマ
ークであるか否かに基づいて、センテンスの最後か否か
を判定する(S813)。
As a result of the determination in step S810, if the main target word and the word to the right of it are present in the corresponding part of speech list, but the word to the further right is not present in the preposition list, Based on whether the word following the word to be determined in step S810 is a period, a question mark, or an exclamation mark, it is determined whether the sentence is at the end (S813).

【0083】センテンスの最後でない場合は、主着目語
を1つ右の語に設定し(S809)、ステップS802へ戻り、次
の主着目語に対する処理を開始する。一方、ステップS8
13の判定の結果、センテンスの最後であった場合(YESの
場合) は、ノーヒット処理後、次のセンテンスを対象に
設定し(S814)、設定すべき対象センテンスが存在してい
たか否かに基づいて文書(検索範囲)の最後か否かを判
定する(S812)。
If it is not the last sentence, the main word of interest is set to the next word to the right (S809), and the process returns to step S802 to start the processing for the next main word of interest. Meanwhile, step S8
If the result of the determination in step 13 is the end of the sentence (in the case of YES), after the no hit processing, the next sentence is set as a target (S814), and based on whether or not the target sentence to be set exists. Then, it is determined whether or not the end of the document (search range) (S812).

【0084】文書が最後でない場合は、ステップS801に
戻り、次のセンテンスの各着目語に対して、前述のよう
なステップS802〜S810の処理を繰り返す。一方、ステッ
プS812の判定の結果、文書(検索範囲)の最後である場
合(YESの場合) は、検索処理を終了する。
If the document is not the last, the process returns to step S801, and the above-described processes of steps S802 to S810 are repeated for each target word of the next sentence. On the other hand, if the result of determination in step S812 is that the document is at the end of the document (search range) (YES), the search process ends.

【0085】図9は、文字列の一部を特定し、且つ品詞
及び活用指定が有る単語が検索条件の場合(図4(c) )
の検索手順を示すフローチャートである。本例では、
「p」で始まる形容詞の比較級又は最上級が含まれてい
る(即ち、形容詞の原形は除外する)センテンスを全て
抽出する場合を例に説明する。
FIG. 9 shows a case where a part of a character string is specified, and a word having a part of speech and a use designation is a search condition (FIG. 4 (c)).
6 is a flowchart showing a search procedure of the search. In this example,
A case will be described as an example in which all sentences including a comparative level or the highest grade of an adjective beginning with “p” are included (that is, the original form of the adjective is excluded).

【0086】センテンス冒頭の1語を主着目語に設定し
(S1201) 、主着目語が「p」で始まる語であるか否かを
判定する(S1202) 。主着目語が「p」で始まる語の場合
は、第1カラムの「選定ルーチンフラグ」を参照し、形
容詞の「品詞属性付きあいまい単語検査ルーチン」へ分
岐して、まず主着目語が形容詞原形リストに存在するか
否かを判定する(S1203) 。主着目語が形容詞原形リスト
に存在する場合(有りの場合) は検索条件を満たしてい
ないので、ノーヒット処理(S1204) を実行し、主着目語
を1つ右の語に設定する(S1210) 。
The first word of the sentence is set as the main target word.
(S1201), it is determined whether or not the main target word is a word starting with “p” (S1202). If the main word of interest is a word beginning with "p", the first column is referred to as "selection routine flag", and branching to the adjective "ambiguous word check routine with part-of-speech attribute" is performed. It is determined whether it exists in the list (S1203). If the main term of interest is present in the adjective prototype list (if present), the search condition is not satisfied, so no-hit processing (S1204) is executed, and the main term of interest is set to the next right word (S1210).

【0087】また、ステップS1203 の判定の結果、
「p」で始まる主着目語が形容詞原形リストに存在しな
い場合(なしの場合) は、形容詞不規則変化形リスト2
種(比較級及び最上級)に存在するか否かを判定する(S
1205) 。一方、主着目語が形容詞不規則変化形リスト2
種のいずれか、又は両方に存在した場合は、ヒット処理
(S1206) を実行し、主着目語を1つ右の語に設定する(S
1210) 。
Also, as a result of the determination in step S1203,
If the subject word starting with "p" does not exist in the adjective prototype list (if none), the adjective irregular variant list 2
Determine whether or not it is present in the species (comparative and superlative) (S
1205). On the other hand, the main target word is the adjective irregular variation list 2
Hit processing if present in one or both species
(S1206) to set the main target word to the next right word (S1206).
1210).

【0088】また、ステップS1205 の判定の結果、主着
目語が形容詞不規則変化形リスト2種のいずれにも存在
しない場合は、主着目語の語尾に「er/est」があるか否
かを判定し(S1207) 、語尾に「er/est」がない場合は、
主着目語を1つ右の語に設定する(S1210) 。
If the result of the determination in step S1205 shows that the main word of interest does not exist in either of the two adjective irregular variation lists, it is determined whether the ending of the main word of interest has "er / est". It is determined (S1207), and if there is no `` er / est '' at the end,
The main target word is set to the next right word (S1210).

【0089】一方、ステップS1207 の判定の結果、主着
目語の語尾に「er/est」がある場合は、形容詞規則活用
法に従い、原形文字列を逆生成し(S1208) 、逆生成した
原形文字列が形容詞原形リストに存在するか否かを判定
する(S1209) 。形容詞原形リストに存在する場合は、ヒ
ット処理(S1206) を実行し、主着目語を1つ右の語に設
定する(S1210) 。
On the other hand, as a result of the determination in step S1207, if the main target word has “er / est” at the end, the original character string is inversely generated according to the adjective rule utilization method (S1208), and the inversely generated original character It is determined whether or not the column exists in the adjective prototype list (S1209). If it exists in the adjective original form list, hit processing (S1206) is executed, and the main target word is set to the next right word (S1210).

【0090】ステップS1209 の判定の結果、ステップS1
208 において逆生成した原形文字列が形容詞原形リスト
に存在しない場合は、主着目語を1つ右の語に設定する
(S1210) 。また、ステップS1202 の判定の結果、主着目
語が「p」で始まる語でない場合は、主着目語を1つ右
の語に設定する(S1210) 。
As a result of the determination in step S1209, step S1
If the original character string inversely generated in step 208 does not exist in the adjective prototype list, the main target word is set to the next word to the right
(S1210). If the result of determination in step S1202 is that the main word of interest is not a word starting with "p", the main word of interest is set to the next right word (S1210).

【0091】設定した1つ右の語がピリオドであるか否
かに基づいて、センテンスの最後か否かを判定し(S121
1) 、センテンスの最後でない場合は、ヒット処理で終
わったのであれば、次の主着目語に対して、次のカラム
に設定されている「選定ルーチンフラグ」に対応するル
ーチンの処理を実行し、またノーヒット処理で終わった
のであれば、ステップS1202 に戻り、次の主着目語に対
して、前述のようなステップS1202 〜S1211 の処理を繰
り返す。
Based on whether the set right word is a period or not, it is determined whether or not the sentence is at the end (S121).
1) If the sentence is not at the end, if the hit processing is completed, the processing of the routine corresponding to the “selection routine flag” set in the next column is executed for the next main target word. If no hit processing has been completed, the process returns to step S1202, and the above-described steps S1202 to S1211 are repeated for the next main target word.

【0092】一方、ステップS1211 の判定の結果、セン
テンスの最後である場合は、対象センテンスを次のセン
テンスに設定し(S1212) 、設定すべき次のセンテンスが
存在していたか否かに基づいて、文書(検索範囲)の最
後か否かを判定する(S1213)。
On the other hand, if the result of determination in step S1211 is that the sentence is the last sentence, the target sentence is set to the next sentence (S1212), and based on whether or not the next sentence to be set exists. It is determined whether or not it is the end of the document (search range) (S1213).

【0093】文書が最後でない場合は、ステップS1201
に戻り、次のセンテンスの各着目語に対して、前述のよ
うなステップS1202 〜S1211 の処理を繰り返す。一方、
ステップS1213 の判定の結果、文書(検索範囲)の最後
である場合(YESの場合) は、検索処理を終了する。
If the document is not the last, step S1201
The process of steps S1202 to S1211 is repeated for each target word of the next sentence. on the other hand,
If the result of determination in step S1213 is that the document is at the end of the document (search range) (YES), the search process ends.

【0094】なお、以上の説明では検索対象が英文の場
合を例にして説明したが、言語の種類は英語に限るもの
ではなく、本発明は他の種類の言語にも適用可能であ
る。
In the above description, the case where the search target is an English sentence is described as an example. However, the type of language is not limited to English, and the present invention can be applied to other types of languages.

【0095】また、検索処理の手順は本例の手順に限る
ものではなく、他の手順を適用することも可能である。
Further, the procedure of the search processing is not limited to the procedure of the present example, and other procedures can be applied.

【0096】以上のような英文検索のコンピュータプロ
グラムはコンピュータにプレインストールして提供する
ことも、またCD-ROM、MO等の可搬型記録媒体で提供する
ことも可能である。さらに回線経由で提供することも可
能である。
The computer program for English sentence retrieval described above can be provided by being preinstalled on a computer, or can be provided on a portable recording medium such as a CD-ROM or MO. Further, it can be provided via a line.

【0097】[0097]

【発明の効果】以上のように、本発明では、単語を品詞
別に登録してあるリストを設け、検索対象の文書をセン
テンス単位に区切り、文字列だけでなく、品詞、活用形
等の品詞に関連する情報を合わせて又はこの情報だけを
検索条件として設定できるように、また複数項目からな
る検索条件の場合は項目の出現順、検索対象外の語の数
又は有無等の夾雑条件を検索条件として設定できるよう
にしたので、文書の中から、検索条件に一致する単語、
連語、相関語等の目的語を含むセンテンスを的確に抽出
できるという優れた効果を奏する。
As described above, according to the present invention, a list in which words are registered for each part of speech is provided, and documents to be searched are separated into sentence units, and not only character strings but also parts of speech such as parts of speech and inflected forms are used. In order to be able to set related information together or only this information as a search condition, and in the case of a search condition consisting of multiple items, the search conditions are set as the appearance order of items, the number or presence or absence of words not to be searched, etc. So that words that match the search criteria,
This has an excellent effect that sentences including object words such as collocation words and correlated words can be accurately extracted.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明装置のブロック図である。FIG. 1 is a block diagram of the device of the present invention.

【図2】検索条件の設定画面のレイアウト図である。FIG. 2 is a layout diagram of a search condition setting screen.

【図3】検索結果の提示画面のレイアウト図である。FIG. 3 is a layout diagram of a search result presentation screen.

【図4】検索条件の設定例の図である。FIG. 4 is a diagram illustrating a setting example of a search condition.

【図5】設定された検索条件に基づいて分岐先のルーチ
ンを選択する手順のフローチャートである。
FIG. 5 is a flowchart of a procedure for selecting a branch destination routine based on a set search condition.

【図6】文字列の全てを特定し、且つ品詞指定が有る単
語が検索条件の場合の検索手順を示すフローチャートで
ある。
FIG. 6 is a flowchart illustrating a search procedure when all of the character strings are specified and a word having a part of speech designation is a search condition.

【図7】文字列を特定しない、品詞指定だけの連語が検
索条件の場合の検索手順を示すフローチャート(その
1)である。
FIG. 7 is a flowchart (No. 1) illustrating a search procedure in the case where a collocation word that does not specify a character string but only specifies a part of speech is a search condition.

【図8】文字列を特定しない、品詞指定だけの連語が検
索条件の場合の検索手順を示すフローチャート(その
2)である。
FIG. 8 is a flowchart (part 2) illustrating a search procedure in the case where a collocation word that does not specify a character string but only specifies part of speech is a search condition.

【図9】文字列の一部を特定し、且つ品詞及び活用指定
が有る単語が検索条件の場合の検索手順を示すフローチ
ャートである。
FIG. 9 is a flowchart illustrating a search procedure in which a part of a character string is specified and a word having a part of speech and a use designation is a search condition.

【符号の説明】[Explanation of symbols]

1 テキスト分割手段 2 検索条件受け付け手段 3 検索手段 4 検索結果提示手段 5 品詞別単語リスト(原形) 6 品詞別単語リスト(不規則変化形) 7 規則活用ファイル 100 英文テキスト文書 DESCRIPTION OF SYMBOLS 1 Text division means 2 Search condition acceptance means 3 Search means 4 Search result presentation means 5 Part-of-speech word list (original form) 6 Part-of-speech word list (irregular variation form) 7 Rule utilization file 100 English text document

Claims (11)

【特許請求の範囲】[Claims] 【請求項1】 文書を検索して検索条件に一致する目的
語を抽出する検索装置において、 単語を品詞別に登録してあるリストと、 文書をセンテンス毎に区切る手段と、 前記目的語の一部もしくは全部、及び/又は前記目的語
の品詞に関連する情報を検索条件として受け付ける手段
と、 前記リストを参照して文書を検索し、検索条件に一致し
た目的語を含むセンテンスを抽出して提示する手段とを
備えることを特徴とする検索装置。
1. A retrieval apparatus for retrieving a document and extracting an object that matches a retrieval condition, a list in which words are registered for each part of speech, means for dividing the document into sentences, and a part of the object Or a means for receiving information relating to the part of speech of the object as a search condition, and searching for a document by referring to the list, extracting and presenting a sentence including the object word that matches the search condition And a search device.
【請求項2】 提示した検索結果のセンテンスに、該セ
ンテンスが出現する前記文書の箇所を対応付けて提示す
る手段を更に備えることを特徴とする請求項1記載の検
索装置。
2. The retrieval apparatus according to claim 1, further comprising means for associating a sentence of the presented search result with a location of the document where the sentence appears, and presenting the sentence.
【請求項3】 前記目的語が連続的な複数の単語の組み
合わせからなる連語であり、該複数の単語のそれぞれの
一部もしくは全部、及び/又は該複数の単語の品詞に関
連する情報に加えて、該複数の単語の出現順を規定する
情報を検索条件として受け付けるべくなしてあることを
特徴とする請求項1又は2記載の検索装置。
3. The object word is a collocation consisting of a combination of a plurality of continuous words, and includes a part or all of each of the plurality of words and / or information related to the part of speech of the plurality of words. 3. The search device according to claim 1, wherein information defining the order of appearance of the plurality of words is received as a search condition.
【請求項4】 前記複数の単語の間に夾雑する検索対象
外の単語の数又は有無を規定する情報を検索条件として
受け付けるべくなしてあることを特徴とする請求項3記
載の検索装置。
4. The search device according to claim 3, wherein information defining the number or presence / absence of non-search-target words contaminated between the plurality of words is received as a search condition.
【請求項5】 文法に従って単語の形が変化する品詞の
前記リストに、単語の原形及び不規則な変化形のそれぞ
れのリストを含み、品詞に関連する情報を含む検索条件
に一致するか否かの判定対象となっている着目語が原形
及び不規則な変化形のリストのいずれにも存在しない場
合は該着目語が規則的な変化形であるか否かを判定する
手段と、規則的な変化形であると判定した場合は該着目
語から原形の文字列を逆生成する手段とを更に備え、逆
生成した原形の文字列が前記リストに存在するか否かに
基づいて、前記着目語が検索対象の目的語であるか否か
を判定すべくなしてあることを特徴とする請求項1乃至
4のいずれかに記載の検索装置。
5. The list of parts of speech in which the form of a word changes in accordance with the grammar includes a list of the original form of the word and a list of irregular forms of the word, and determines whether or not the search condition includes information relating to the part of speech. Means for determining whether or not the word of interest is a regular variation if neither the original word nor the list of irregular variations is present; Means for inversely generating a character string of the original form from the word of interest when it is determined to be a variant, based on whether or not the character string of the inversely generated original form exists in the list, The search device according to any one of claims 1 to 4, wherein it is determined whether or not is an object to be searched.
【請求項6】 単語が品詞別に登録されているリストを
参照し、文書を検索して検索条件に一致する目的語を抽
出するコンピュータで使用されるコンピュータプログラ
ムにおいて、 コンピュータを、 文書をセンテンス毎に区切る手段、 前記目的語の一部もしくは全部、及び/又は前記目的語
の品詞に関連する情報を検索条件として受け付ける手
段、並びに前記リストを参照して文書を検索し、検索条
件に一致した目的語を含むセンテンスを抽出して提示す
る手段として機能させるためのコンピュータプログラ
ム。
6. A computer program used in a computer for searching a document by referring to a list in which words are registered for each part of speech and extracting an object that matches a search condition. Means for delimiting, part or all of the object, and / or means for receiving information relating to the part of speech of the object as a search condition, and object searching for a document by referring to the list and matching the search condition A computer program for functioning as a means for extracting and presenting a sentence including:
【請求項7】 コンピュータを、提示した検索結果のセ
ンテンスに、該センテンスが出現する前記文書の箇所を
対応付けて提示する手段として機能させることを特徴と
する請求項6記載のコンピュータプログラム。
7. The computer program according to claim 6, wherein the computer is caused to function as means for presenting a sentence of the presented search result in association with a location of the document where the sentence appears.
【請求項8】 前記目的語が連続的な複数の単語の組み
合わせからなる連語である場合、コンピュータを、該複
数の単語のそれぞれの一部もしくは全部、及び/又は該
複数の単語の品詞に関連する情報に加えて、該複数の単
語の出現順を規定する情報を検索条件として受け付ける
手段として機能させることを特徴とする請求項6又は7
記載のコンピュータプログラム。
8. When the object is a collocation consisting of a combination of a plurality of consecutive words, the computer associates a part or all of each of the plurality of words and / or a part of speech of the plurality of words. 8. A function as a means for receiving, as search conditions, information defining the order of appearance of the plurality of words, in addition to the information to be performed.
Computer program as described.
【請求項9】 コンピュータを、前記複数の単語の間に
夾雑する検索対象外の単語の数又は有無を規定する情報
を検索条件として受け付ける手段として機能させること
を特徴とする請求項8記載のコンピュータプログラム。
9. The computer according to claim 8, wherein the computer functions as a means for receiving, as a search condition, information defining the number or presence or absence of a non-search target word intermingled between the plurality of words. program.
【請求項10】 文法に従って単語の形が変化する品詞
の前記リストに、単語の原形及び不規則な変化形のそれ
ぞれのリストを含む場合、コンピュータを、品詞に関連
する情報を含む検索条件に一致するか否かの判定対象と
なっている着目語が原形及び不規則な変化形のリストの
いずれにも存在しない場合は該着目語が規則的な変化形
であるか否かを判定する手段、規則的な変化形であると
判定した場合は該着目語から原形の文字列を逆生成する
手段、並びに、逆生成した原形の文字列が前記リストに
存在するか否かに基づいて、前記着目語が検索対象の目
的語であるか否かを判定する手段として機能させること
を特徴とする請求項6乃至9のいずれかに記載のコンピ
ュータプログラム。
10. When the list of parts of speech in which the form of a word changes according to the grammar includes a list of the original form of the word and a list of irregular forms of the word, the computer matches the search condition including information related to the part of speech. Means for determining whether or not the word of interest is a regular variation, if the word of interest that is the determination target of whether to perform is not present in any of the original form and the list of irregular variations, Means for inversely generating a character string of the original form from the word of interest when it is determined that the character string is a regular variation; and determining whether or not the character string of the inversely generated original form exists in the list. The computer program according to any one of claims 6 to 9, wherein the computer program is caused to function as means for determining whether a word is an object to be searched.
【請求項11】 単語が品詞別に登録されているリスト
を参照し、文書を検索して検索条件に一致する目的語を
コンピュータに抽出させるコンピュータプログラムが記
録されており、コンピュータでの読み取りが可能な記録
媒体において、 コンピュータに、文書をセンテンス毎に区切らせるプロ
グラムコード手段と、 コンピュータに、前記目的語の一部もしくは全部、及び
/又は前記目的語の品詞に関連する情報を検索条件とし
て受け付けさせるプログラムコード手段と、 コンピュータに、前記リストを参照して文書を検索し、
検索条件に一致した目的語を含むセンテンスを抽出して
提示させるプログラムコード手段とを含むコンピュータ
プログラムが記録されていることを特徴とする記録媒
体。
11. A computer program for causing a computer to search for a document by referring to a list in which words are registered for each part of speech, and to cause a computer to extract an object that matches the search condition, is readable by the computer. In a recording medium, a program code means for causing a computer to delimit a document for each sentence, and a program for causing a computer to receive, as a search condition, part or all of the object and / or information relating to the part of speech of the object Code means, and a computer for searching for a document by referring to the list,
A program code for extracting and presenting a sentence including an object matching the search condition, and a program code for causing the sentence to be presented.
JP2001176074A 2001-06-11 2001-06-11 Retrieval device, computer program and recording medium Pending JP2002366557A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001176074A JP2002366557A (en) 2001-06-11 2001-06-11 Retrieval device, computer program and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001176074A JP2002366557A (en) 2001-06-11 2001-06-11 Retrieval device, computer program and recording medium

Publications (1)

Publication Number Publication Date
JP2002366557A true JP2002366557A (en) 2002-12-20

Family

ID=19017115

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001176074A Pending JP2002366557A (en) 2001-06-11 2001-06-11 Retrieval device, computer program and recording medium

Country Status (1)

Country Link
JP (1) JP2002366557A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005259088A (en) * 2004-03-15 2005-09-22 Kousaku Ookubo System and computer software program for it for visually processing target information in relation with knowledge accumulation

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005259088A (en) * 2004-03-15 2005-09-22 Kousaku Ookubo System and computer software program for it for visually processing target information in relation with knowledge accumulation

Similar Documents

Publication Publication Date Title
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
US20050081146A1 (en) Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
JP4502114B2 (en) Database search device
Ogden et al. Document Thumbnail Visualization for Rapid Relevance Judgments: When do They Pay Off?
JP4719921B2 (en) Data display device and data display program
JPH0944523A (en) Relative word display device
JPH0844771A (en) Information retrieval device
JP2008077252A (en) Document ranking method, document retrieval method, document ranking device, document retrieval device, and recording medium
JP2007293377A (en) Input/output device for separating subjective page and non-subjective page
JPH09319767A (en) Synonym dictionary registering method
JP2000250908A (en) Support device for production of electronic book
JP2004157965A (en) Search support device and method, program and recording medium
JP2002366557A (en) Retrieval device, computer program and recording medium
JP3398729B2 (en) Automatic keyword extraction device and automatic keyword extraction method
JP2004334699A (en) Text evaluation device, text evaluation method, program, and storage medium
Pantelia ‘Noûs, INTO CHAOS’: THE CREATION OF THE THESAURUS OF THE GREEK LANGUAGE
JP4525224B2 (en) Document management program, document management method, and document management apparatus
JP2005316590A (en) Information retrieval device
JPH07134720A (en) Method and device for presenting relative information in sentence preparing system
JP3710463B2 (en) Translation support dictionary device
JPH10340271A (en) Document abstract preparation device, and storage medium where document abstract generation program is recorded
JP5259462B2 (en) Apparatus, method and program for supporting search
JP5262190B2 (en) Input completion device and input completion program
Welgama Automatic text summarization for sinhala