JPH096796A - Method and device for generating collation pattern - Google Patents

Method and device for generating collation pattern

Info

Publication number
JPH096796A
JPH096796A JP7150585A JP15058595A JPH096796A JP H096796 A JPH096796 A JP H096796A JP 7150585 A JP7150585 A JP 7150585A JP 15058595 A JP15058595 A JP 15058595A JP H096796 A JPH096796 A JP H096796A
Authority
JP
Japan
Prior art keywords
pattern
matching
information
text
collation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7150585A
Other languages
Japanese (ja)
Inventor
Hideaki Iwamoto
秀明 岩本
Masahiro Oku
雅博 奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP7150585A priority Critical patent/JPH096796A/en
Publication of JPH096796A publication Critical patent/JPH096796A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE: To provide a method and device for generating collation pattern with which burden for a user to prepare a collation pattern is canceled, at the same time, the construction of huge knowledge for collation is unnecessitated as well and the pattern with high collation accuracy is generated. CONSTITUTION: This device is provided with a suitability discriminating means 1 for judging whether the user is suitable for an entire text or one part of the text as the result of collation due to text collating processing or not and a collation pattern generating means 6 for generating a collation pattern 10 only from suitability information 8 of the text, for which it is judged by the suitability discriminating means 1 that the user is suitable, and unsuitability information 9 of the text for which the user is judged unsuitable.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、照合パターン生成方法
及び装置に係り、特に、情報検索や情報抽出を行う際
に、入力されたパターンや、生成されたパターンを用い
て照合パターンを形成して照合を行い、その照合結果か
ら適切な照合パターンを生成する照合パターン生成方法
及び装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a collation pattern generation method and apparatus, and more particularly to a collation pattern formed by using an input pattern or a generated pattern when performing information retrieval or information extraction. The present invention relates to a collation pattern generation method and apparatus for collating and collating and generating an appropriate collation pattern from the collation result.

【0002】[0002]

【従来の技術】従来は、情報検索や情報抽出等に必要な
テキスト照合処理のための手掛かりとして、テキスト中
の人名、会社名及び製品名等の比較的一般的な固有名詞
やそのテキストの内容を表す比較的専門的な普通名詞あ
るいは、動詞、形容詞、形容動詞等の用言をキーワード
として用いている。テキスト照合処理においては、この
キーワードを一つまたは複数用いて、それらを組み合わ
せて検索式や抽出パターンと呼ばれる照合パターンを作
成し、そのパターンを用いて照合を行っている。
2. Description of the Related Art Conventionally, relatively common proper nouns such as a person's name, a company name, a product name, etc. in a text and the contents of the text are used as clues for a text matching process necessary for information retrieval or information extraction. It uses relatively specialized common nouns or verbs, adjectives, and adjectives such as adjectives as keywords. In the text matching process, one or a plurality of these keywords are used to combine them to create a matching pattern called a search formula or an extraction pattern, and matching is performed using the pattern.

【0003】検索式や抽出パターンを生成する従来の照
合パターン生成装置は、その入力形式から大きく次の2
つに分類される。 ユーザが照合パターンを直接入力する装置; ユーザが自然言語によって入力する装置; のユーザが照合パターンを直接入力する装置は、ユー
ザの入力を照合パターンとして、直接テキスト照合処理
を行う装置である。ユーザは、自分自身でキーワードを
1つまたは複数想起し、それらを組み合わせて検索式や
抽出パターンの照合パターンを作成する。
A conventional collation pattern generation device for generating a retrieval formula or an extraction pattern is largely classified into the following two types according to its input format.
Classified into one. The device in which the user directly inputs the collation pattern; the device in which the user inputs in natural language; and the device in which the user directly inputs the collation pattern are devices that directly perform the text collation processing using the user's input as the collation pattern. The user recalls one or a plurality of keywords by himself / herself and combines them to create a search expression or a matching pattern of an extraction pattern.

【0004】のユーザが自然言語によって入力する装
置は、ユーザによる自然言語入力もしくは、それに制限
を加えたものからキーワードやキーワード間関係等の照
合用情報を抽出する装置である。この装置は、予め個々
のユーザが持つ知識及びそのテキストが持つ知識ならび
にそれらの知識の間の対応関係に関する知識等のさまざ
まな照合用知識を構築しておく。この照合用知識は、ユ
ーザが入力するであろうキーワードとテキスト側の語彙
との対応付けがされているため、この照合用知識を参照
して、ユーザ側の語彙及びその語彙間の関係とテキスト
側の語彙及びその語彙間の関係を対応付ける。
The user's device for inputting in natural language is a device for extracting collating information such as a keyword and a relationship between keywords from a user's natural language input or a limited one. This device builds in advance various collating knowledge such as knowledge held by individual users, knowledge held by the text, and knowledge regarding correspondence between the knowledge. Since this matching knowledge is associated with the keywords that the user may input and the vocabulary on the text side, the matching knowledge is referenced to refer to the vocabulary on the user side and the relationship between the vocabulary and the text. Correlate side vocabularies and relationships between them.

【0005】[0005]

【発明が解決しようとする課題】しかしながら、上記従
来の方法には、以下のような問題がある。上記ののユ
ーザが検索式や抽出パターン等を生成して照合パターン
を直接入力する装置は、ユーザ自身が、検索式や抽出パ
ターンを自分自身で作成しなければならなため、ユーザ
の負担が大きい。また、照合しようとするテキスト側の
語彙及びその語彙間の関係がユーザにとっては明らかで
ないため、適切なパターンを生成できず、照合精度が低
くなる。
However, the above conventional method has the following problems. The above-mentioned device in which the user generates a search expression or an extraction pattern and directly inputs the matching pattern requires a user to create the search expression or the extraction pattern by himself or herself, which imposes a heavy burden on the user. . Further, since the vocabulary on the text side to be matched and the relationship between the vocabularies are not clear to the user, an appropriate pattern cannot be generated and the matching accuracy becomes low.

【0006】また、上記ののユーザが自然言語によっ
て入力する装置は、ユーザによる自然言語入力から抽出
した照合用情報とは、予め構築された照合用知識によっ
て間接的にしか対応しておらず、ユーザは通常この照合
用知識を参照できない。このために、ユーザは満足のい
く出力結果を得ることができない場合、その原因が入力
のどこにあるのか特定できず、照合パターンの変更もし
くは、改良を容易に行うことができないという問題があ
る。
Further, the above-mentioned apparatus for the user to input in the natural language only indirectly corresponds to the matching information extracted from the natural language input by the user by the matching knowledge built in advance, The user usually cannot refer to this matching knowledge. For this reason, when the user cannot obtain a satisfactory output result, it is not possible to specify where the cause is in the input, and it is difficult to change or improve the collation pattern.

【0007】本発明は、上記の点に鑑みなされたもの
で、上記従来の問題点を解決し、ユーザの照合パターン
を作成する負担を解消すると同時に膨大な照合用知識の
構築をも不要とし、かつ、照合精度の高いパターンを生
成すると同時にその照合処理の繰り返しによる精度の漸
新的な向上を可能とする照合パターン生成方法及び装置
を提供することを目的とする。
The present invention has been made in view of the above points, solves the above-mentioned conventional problems, eliminates the burden of creating a collation pattern for a user, and at the same time eliminates the need for constructing a vast amount of collation knowledge. Moreover, it is an object of the present invention to provide a matching pattern generation method and device that can generate a pattern with high matching accuracy and at the same time make it possible to gradually improve the accuracy by repeating the matching process.

【0008】[0008]

【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。本発明は、テキスト照合処理
の照合パターンを生成する照合パターン生成方法におい
て、テキスト照合処理による照合結果が入力されると
(ステップ1)、照合結果であるテキスト全体またはテ
キストの一部に対してユーザが適合または不適合の判断
を行い(ステップ2)、ユーザが適合と判断した場合に
は、テキスト全体またはテキストの一部からなる適合情
報を取得し(ステップ3)、ユーザが不適合と判断した
場合にはテキスト全体またはテキストの一部からなる不
適合情報を取得し(ステップ4)、適合情報及び不適合
情報のみから、キーワード論理式や正規表現として表さ
れる照合パターンを生成する(ステップ5)。
FIG. 1 is a diagram for explaining the principle of the present invention. According to the present invention, in a collation pattern generation method for generating a collation pattern for text collation processing, when a collation result obtained by the text collation processing is input (step 1), the entire text or a part of the text which is the collation result is input by the user. Judges conformity or nonconformity (step 2), and if the user judges that it is conforming, acquires the conformance information consisting of the whole text or a part of the text (step 3). Acquires the incompatibility information consisting of the entire text or a part of the text (step 4), and generates a matching pattern represented as a keyword logical expression or a regular expression from only the compatibility information and the incompatibility information (step 5).

【0009】また、本発明は、ユーザが適合と判断した
テキスト全体またはテキストの一部の適合情報を読み込
み、適合情報に共通な部分情報を抽出し、部分情報の長
さと頻度によって順位付けし、該順序に従って適合情報
と1対1に対応するパターンが得られるまで、適合情報
における部分情報の現れ方をパターン化して、適合パタ
ーンとし、適合パターン間のパターン包含関係を特定し
て、記憶手段に蓄積し、ユーザが不適合と判断したテキ
スト全体またはテキストの一部の不適合情報を読み込
み、記憶手段に蓄積されているパターン包含関係の適合
パターンで不適合情報を照合し、照合に成功した適合パ
ターンを不適合パターンとして記憶手段から除去し、不
適合パターンを除去した記憶部から包含関係の最上位に
ある全てのパターンを取り出し、選択形式で結合して照
合パターンとして出力する一連の処理をくりかえす。
Further, according to the present invention, the matching information of the whole text or a part of the text judged by the user to match is read, partial information common to the matching information is extracted, and ranking is performed according to the length and frequency of the partial information. Until the pattern corresponding to the matching information and the one-to-one correspondence is obtained according to the order, the appearance of the partial information in the matching information is patterned into a matching pattern, the pattern inclusion relationship between the matching patterns is specified, and stored in the storage means. The non-conformance information that has been accumulated and read by the user as non-conformance is read, and the non-conformance information is collated with the conformance pattern of the pattern inclusion relation stored in the storage means, and the conformance pattern that has been successfully collated is non-conformance. All patterns at the top of the inclusion relations from the storage unit that has been removed as a pattern from the storage means and the incompatible pattern has been removed. Extraction, repeated series of processes to output as the matching pattern bonded at selected format.

【0010】また、本発明は、照合パターン10とし
て、キーワード論理式または正規表現を用いる。図2
は、本発明の原理構成図である。本発明は、テキスト照
合処理の照合パターンを生成する照合パターン生成装置
において、テキスト照合処理による照合結果であるテキ
スト全体またはテキストの一部に対してユーザが適合ま
たは不適合の判断を行う適合判定手段1と、適合判定手
段1によりユーザが適合と判断したテキスト全体または
テキストの一部からなる適合情報8と、ユーザが不適合
と判断したテキスト全体またはテキストの一部からなる
不適合情報9のみから、キーワード論理式や正規表現と
して表される照合パターン10を生成する照合パターン
生成手段6とを有する。
Further, the present invention uses a keyword logical expression or a regular expression as the matching pattern 10. FIG.
FIG. 3 is a principle configuration diagram of the present invention. According to the present invention, in a collation pattern generation device for generating a collation pattern of a text collation process, a conformity determination means 1 for a user to determine conformity or nonconformity with respect to the whole text or a part of the text which is the collation result of the text collation process. And the matching information 8 consisting of the whole text or a part of the text judged by the matching judgment means 1 to be suitable by the user, and the non-matching information 9 consisting of the whole text or a part of the text judged to be unmatched by the user, based on the keyword logic. It has a matching pattern generating means 6 for generating a matching pattern 10 represented as an expression or a regular expression.

【0011】また、本発明は、適合判定手段1により、
適合と判断された適合情報8を蓄積する適合情報蓄積手
段と、適合判定手段1により不適合と判断された不適合
情報9を蓄積する不適合情報蓄積手段と、適合情報蓄積
手段から適合情報8を読み込む適合情報読み込み手段
と、適合情報8から共通部分情報を抽出してパターン化
する適合パターン構成手段と、適合パターン構成手段に
よりパターン化された適合パターン間の包含関係を特定
するパターン包含関係特定手段と、パターン包含関係特
定手段により特定したパターン間の包含関係を蓄積する
パターン包含関係蓄積手段と、不適合情報蓄積手段から
不適合情報9を読み込む不適合情報読み込み手段と、不
適合情報読み込み手段により読み込まれた不適合情報9
をパターン包含関係蓄積手段に蓄積されているパターン
で照合し、照合に成功したパターンをパターン包含関係
蓄積手段から取り除く不適合パターン除去手段と、パタ
ーン包含関係蓄積手段に蓄積されている、不適合情報と
は照合しない適合パターンから、それらの間のパターン
包含関係の中で最上位にある全てのパターンを取り出す
最上位パターン取出手段と、最上位パターン取出手段に
より取り出された全ての最上位パターンを選択形式で結
合し、照合パターンとして出力する照合パターン出力手
段とを含む。
Further, according to the present invention, by the conformity determining means 1,
Conformance information accumulating means for accumulating the conformity information 8 judged to be conforming, nonconformance information accumulating means for accumulating the nonconformance information 9 judged to be nonconforming by the conformity judging means 1, and conformance reading the conformance information 8 from the conformance information accumulating means. An information reading means, a conforming pattern forming means for extracting common part information from the conforming information 8 to form a pattern, and a pattern inclusion relation specifying means for specifying an inclusion relation between the matching patterns patterned by the matching pattern forming means, The pattern inclusion relationship accumulating unit that accumulates the inclusion relationship between the patterns specified by the pattern inclusion relationship specifying unit, the incompatibility information reading unit that reads the incompatibility information 9 from the incompatibility information storage unit, and the incompatibility information 9 that is read by the incompatibility information reading unit.
Is compared with the pattern stored in the pattern inclusion relation accumulating unit, and the unsatisfactory pattern removing unit that removes the successfully collated pattern from the pattern inclusion relationship accumulating unit and the incompatibility information accumulated in the pattern inclusion relationship accumulating unit. From the matching patterns that do not match, the top-level pattern extraction means that extracts all the top-level patterns in the pattern inclusion relationship between them and all the top-level patterns that are extracted by the top-level pattern extraction means are selected. And a collation pattern output means for combining and outputting as a collation pattern.

【0012】[0012]

【作用】本発明は、照合結果に対するユーザの適合・不
適合判断に着目し、その適合・不適合情報のみから照合
パターンを生成する。従って、ユーザが再度照合を試み
る際には、照合結果に対する適・不適判断のみを行えば
よいことになり、照合パターンの作成というユーザの負
担を解消することが可能である。
The present invention focuses on the user's conformity / nonconformity judgment with respect to the collation result, and generates the collation pattern only from the conformity / nonconformity information. Therefore, when the user tries to perform the collation again, it is only necessary to determine the suitability or improperness of the collation result, and it is possible to eliminate the burden on the user of creating the collation pattern.

【0013】また、本発明は、適合情報と照合するパタ
ーンを列挙し、不適合パターンを照合の対象として不適
合情報とは照合しないパターンに絞り込む。これによ
り、照合誤りの少ない適合パターンを網羅することが可
能となる。また、パターン包含関係特定部で、それらの
適合パターンの包含関係を特定し、パターン包含関係に
おける全ての最上位パターンを取り出す。これにより、
適合パターンの中で最も照合洩れの少ないパターンを取
り出すことができる。従って、照合パターン出力部で精
度の高いパターンを生成することが可能である。
Further, the present invention enumerates the patterns to be matched with the matching information, and narrows down the unmatched patterns as patterns to be matched to the patterns not to be matched with the unmatched information. As a result, it is possible to cover the matching patterns with few matching errors. In addition, the pattern inclusion relation specifying unit specifies the inclusion relation of those matching patterns, and extracts all the top patterns in the pattern inclusion relation. This allows
It is possible to take out the pattern with the smallest matching omission among the matching patterns. Therefore, the collation pattern output unit can generate a highly accurate pattern.

【0014】また、本発明は、適合情報から共通部分情
報を抽出して適合情報をパターン化し、不適合情報と照
合するパターンを取り除くことにより、照合パターン
は、適合・不適合情報のみから生成され、膨大な照合用
知識の構築が不要である。さらに、本発明は、照合パタ
ーンの生成、照合処理、照合結果に対する適・不適の判
断の各処理を繰り返すことにより、生成したパターンに
よる照合精度を漸進的に高めることが可能である。
Further, according to the present invention, the common part information is extracted from the matching information, the matching information is patterned, and the pattern to be matched with the unmatching information is removed, so that the matching pattern is generated only from the matching / non-matching information, and is huge. It is not necessary to build accurate matching knowledge. Further, according to the present invention, it is possible to gradually improve the matching accuracy by the generated pattern by repeating the generation of the matching pattern, the matching processing, and the processing of determining whether the matching result is appropriate or not.

【0015】[0015]

【実施例】以下、図面と共に本発明の実施例を詳細に説
明する。図3は、本発明を適用したテキスト照合システ
ムの構成を示す。同図に示すテキスト照合システムに本
発明の照合パターン生成装置が含まれている。テキスト
照合システムは、既存のテキスト照合装置1、照合パタ
ーン生成装置6、ユーザ評価読み込み部7、適合情報蓄
積部8及び、不適合情報蓄積部9より構成される。
Embodiments of the present invention will now be described in detail with reference to the drawings. FIG. 3 shows the configuration of a text matching system to which the present invention is applied. The text matching system shown in the figure includes a matching pattern generation device of the present invention. The text collation system includes an existing text collation device 1, a collation pattern generation device 6, a user evaluation reading unit 7, a conformance information storage unit 8 and an incompatibility information storage unit 9.

【0016】テキスト照合装置1は、キーワード論理式
や正規表現等の照合パターン2を入力として、その照合
パターン2でテキストベース3に蓄積されたテキストを
照合するテキスト照合部4とその照合に成功したテキス
ト全体または、その一部を出力する照合結果出力部5よ
り構成される。
The text collating apparatus 1 receives a collation pattern 2 such as a keyword logical expression or a regular expression, and collates the text stored in the text base 3 with the collation pattern 2 and succeeds in the collation. The comparison result output unit 5 outputs the entire text or a part of the text.

【0017】本発明により構成されている照合パターン
生成装置6は、既存のテキスト照合装置1による出力結
果であるテキスト全体または、その一部に対するユーザ
の適合・不適合判断を読み込むユーザ評価読み込み部7
と、ユーザ評価読み込み部7によって、適合情報として
分別されたテキスト全体または、一部を蓄積する適合情
報蓄積部8と、ユーザ評価読み込み部7によって不適合
情報として分別されたテキスト全体または、その一部を
蓄積する不適合情報蓄積部9を用いて既存のテキスト照
合装置1を組み合わせ、その適合情報・不適合情報のみ
から照合パターン10を生成する。既存のテキスト照合
装置1への入力としてその照合パターン10を出力し、
既存のテキスト照合装置1は、この照合パターン10を
用いて再度照合を行う。
The collation pattern generation device 6 constructed according to the present invention is a user evaluation reading unit 7 for reading the conformity / nonconformity judgment of the user with respect to the entire text output by the existing text collation device 1 or a part thereof.
And a matching information storage unit 8 that stores all or part of the text classified as matching information by the user evaluation reading unit 7, and all or part of text that is classified as unmatching information by the user evaluation reading unit 7. The existing text collation device 1 is combined by using the nonconformance information storage unit 9 that stores, and the collation pattern 10 is generated only from the conformance information / nonconformance information. The matching pattern 10 is output as an input to the existing text matching device 1,
The existing text matching device 1 performs matching again using this matching pattern 10.

【0018】図4は、本発明の一実施例の照合パターン
生成処理装置の構成図である。照合パターン生成装置
は、適合情報読み込み部11、適合パターン構成部1
2、パターン包含関係特定部13、パターン包含関係蓄
積部14、不適合情報読み込み部15、不適合パターン
除去部16、最上位パターン取り出し部17及び照合パ
ターン出力部18より構成される。
FIG. 4 is a block diagram of a collation pattern generation processing apparatus according to an embodiment of the present invention. The matching pattern generation device includes a matching information reading unit 11 and a matching pattern forming unit 1.
2, the pattern inclusion relationship specifying unit 13, the pattern inclusion relationship storage unit 14, the incompatibility information reading unit 15, the incompatibility pattern removal unit 16, the highest level pattern extraction unit 17, and the collation pattern output unit 18.

【0019】適合情報読み込み部11は、適合情報蓄積
部8よりユーザが適合と判断したテキスト全体またはそ
の一部の情報を読み込み、適合パターン構成部12に転
送する。適合パターン構成部12は、適合情報から共通
部分情報を抽出し、適合情報と共通部分情報を抽出して
パターン化することからパターンを構成する。
The matching information reading unit 11 reads the entire text or a part of the information judged by the user as matching from the matching information storage unit 8 and transfers it to the matching pattern forming unit 12. The matching pattern forming unit 12 forms a pattern by extracting common part information from the matching information, and extracting the matching information and the common part information to form a pattern.

【0020】パターン包含関係特定部13は、適合パタ
ーン構成部12によりパターン化された適合パターン間
の包含関係を特定し、パターン包含関係蓄積部14に転
送する。パターン包含関係蓄積部14は、パターン包含
関係特定部13で特定された適合パターン間の包含関係
を蓄積する。
The pattern inclusion relation specifying unit 13 specifies the inclusion relation between the matching patterns patterned by the matching pattern forming unit 12 and transfers it to the pattern containing relation accumulating unit 14. The pattern inclusion relation accumulating unit 14 accumulates the inclusion relation between the matching patterns identified by the pattern inclusion relation identifying unit 13.

【0021】不適合情報読み込み部15は、ユーザが不
適合と判断したテキスト全体またはその一部を不適合情
報蓄積部9から読み込む。不適合パターン除去部16
は、不適合情報読み込み部15から読み込んだ不適合情
報をパターン包含関係蓄積部14に蓄積されているパタ
ーンと照合し、一致したパターンをパターン包含関係蓄
積部14より取り除く。
The incompatibility information reading unit 15 reads the entire text or a part thereof determined by the user as incompatible from the incompatibility information storage unit 9. Incompatible pattern removing unit 16
Compares the incompatibility information read from the incompatibility information reading unit 15 with the pattern stored in the pattern inclusion relationship storage unit 14, and removes the matched pattern from the pattern inclusion relationship storage unit 14.

【0022】最上位パターン取り出し部17は、パター
ン包含関係蓄積部14に残っている不適合情報とは一致
しなかった適合パターンから、それらの間のパターン包
含関係の中で最上位にある全てのパターンを取り出す。
照合パターン出力部18は、最上位パターン取り出し部
17により取り出された全ての最上位パターンを選択形
式で結合し、照合パターンとして出力する。
The highest-level pattern extraction unit 17 selects all the patterns at the highest level among the pattern inclusion relationships between the matching patterns that do not match the mismatch information remaining in the pattern inclusion relationship storage unit 14. Take out.
The matching pattern output unit 18 combines all the uppermost patterns extracted by the uppermost pattern extracting unit 17 in a selection format and outputs them as a matching pattern.

【0023】次に、上記の構成の動作を説明する。図5
は、本発明の一実施例の照合パターン生成処理のフロー
チャートである。 ステップ101) 適合情報読み込み部11が適合情報
蓄積部8より適合情報を読み込む。
Next, the operation of the above configuration will be described. FIG.
6 is a flowchart of a matching pattern generation process according to an embodiment of the present invention. Step 101) The matching information reading unit 11 reads the matching information from the matching information storage unit 8.

【0024】ステップ102) 適合パターン構成部1
2が、適合情報に出現する全ての文字列を数え上げ、そ
れらの文字列(部分情報)の重なり(その部分情報の長
さと頻度との積)を求める。部分情報の中で頻度2以上
のもの(共通部分情報)を重なりの大きさによって順位
付けし、先頭の共通部分情報をパターン構成要素として
採用する。
Step 102) Matching pattern construction unit 1
2 counts all the character strings appearing in the matching information, and obtains the overlap of these character strings (partial information) (the product of the length and frequency of the partial information). Among the partial information, those having a frequency of 2 or more (common partial information) are ranked according to the size of the overlap, and the leading common partial information is adopted as the pattern constituent element.

【0025】ステップ103) 次に、適合パターン構
成部12は、パターン構成要素の適合情報における現れ
方を適合パターンとして構成する。 ステップ104) さらに、適合パターン構成部12に
おいて、適合パターンと適合情報とが1対1に対応して
いるかどうかを調べ、対応していれば、ステップ106
に移行し、対応していなければステップ105に移行す
る。
Step 103) Next, the conforming pattern construction unit 12 composes the appearance of the pattern constituent elements in the conforming information as a conforming pattern. (Step 104) Further, in the conforming pattern forming unit 12, it is checked whether or not the conforming pattern and the conforming information have a one-to-one correspondence.
To step 105, and if they do not correspond, step 105 is performed.

【0026】ステップ105) さらに、適合パターン
構成部12は、共通部分情報の順序に従って、共通部分
情報の次候補をパターン構成要素として採用し、ステッ
プ103を再び実行する。 ステップ106) パターン包含関係特定部13におい
て、適合パターン間のパターン包含関係を特定する。
Step 105) Further, the conforming pattern construction unit 12 adopts the next candidate of the common part information as a pattern constituent element in the order of the common part information, and executes step 103 again. Step 106) The pattern inclusion relation specifying unit 13 specifies the pattern inclusion relation between the matching patterns.

【0027】ステップ107) パターン包含関係蓄積
部14において、適合パターン及びそれらの間の包含関
係を蓄積する。 ステップ108) 不適合情報読み込み部15は、不適
合情報を不適合情報蓄積部9より読み込む。
Step 107) The pattern inclusion relation accumulating unit 14 accumulates the matching patterns and the inclusion relation between them. Step 108) The nonconformance information reading unit 15 reads the nonconformity information from the nonconformance information storage unit 9.

【0028】ステップ109) 不適合パターン除去部
16において、不適合情報をパターン包含関係蓄積部1
4に蓄積している適合パターンで照合し、照合に成功し
た適合パターンを不適合パターンとしてパターン包含関
係蓄積部14から除去する。 ステップ110) 最上位パターン取り出し部17にお
いて、不適合パターンを除去したパターン包含関係蓄積
部14からそれぞれの包含関係の最上位にある全てのパ
ターンを取り出す。
Step 109) In the nonconforming pattern removing section 16, the nonconforming information is stored in the pattern inclusion relation storing section 1
The matching pattern stored in 4 is matched, and the matching pattern that has been successfully matched is removed from the pattern inclusion relationship storage unit 14 as an unmatched pattern. Step 110) The highest-level pattern extraction unit 17 extracts all the patterns at the highest levels of the respective inclusion relationships from the pattern inclusion relationship storage unit 14 from which the incompatible patterns have been removed.

【0029】ステップ111) 照合パターン出力部1
8において、全ての最上位パターンを選択形式で結合
し、照合パターンとして出力する。以下、上記の図4及
び図5に従って具体的に説明する。 [第1の具体例]最初に、キーワード論理式を照合パタ
ーンとして用いる際の照合の例とパターン間の包含関係
とについて説明する。以下に示す具体例の適合パターン
がキーワードの論理式からなる例を説明する。図6は、
本発明の一実施例のパターン包含関係を説明するための
図である。
Step 111) Collation pattern output unit 1
In 8, all the top patterns are combined in a selection format and output as a matching pattern. Hereinafter, a detailed description will be given with reference to FIGS. [First Specific Example] First, an example of collation when a keyword logical expression is used as a collation pattern and an inclusion relation between patterns will be described. An example in which the matching pattern of the specific example shown below is composed of a logical expression of keywords will be described. FIG.
It is a figure for demonstrating the pattern inclusion relationship of one Example of this invention.

【0030】文例) 『7月の新車販売、再び前年割れ ABC自動車販売協会連合会が3日まとめた軽自動車を
除く7月の新車販売台数(速報)は、前年同月に比べ
5.6%減の54万1599台となった。6月の新車販
売台数が前年同月を上回ったため「新車販売の低迷は底
を打った」とみて、7月のボーナス商戦に期待していた
だけに、……』 上記の文例において、キーワードの論理式は、任意のキ
ーワードを“∧”(論理積)や“∨”(論理
和)、“(”、“)”を組み合わせて構成する。例え
ば、キーワード論理式 「7月の新車販売∧前年割れ」 は、“7月の新車販売”と“前年割れ”とを両方とも含
む情報を照合する。
[Example] [New vehicle sales in July, again below the previous year] The number of new vehicle sales in July (preliminary) excluding minicars summarized by the Association of ABC Motor Sales Association on the 3rd (preliminary report) decreased by 5.6% from the same month last year. 541,599 units. As new car sales in June exceeded the same month last year, we expected that the new car sales slumped to the bottom, and we hoped for the bonus sales in July .... ”In the above example, the keyword logical formula was used. Is a combination of arbitrary keywords such as “∧” (logical product), “∨” (logical sum), and “(”, “)”. For example, the keyword formula “New vehicle sales in July ∧ YoY decrease” matches information that includes both “New vehicle sales in July” and “YoY decrease”.

【0031】このキーワード論理式は、 (a) 『7月の新車販売、再び前年割れ』 という情報とは照合すると判断するが、 (b) 『自動車販売協会がまとめた7月の新車販売台
数は、54万1599台となった』 という情報とは、情報(b)が“7月の新車販売”を含
んでも“前年割れ”を含まないため、照合しない。
It is judged that this keyword formula is (a) "New car sales in July, again below the previous year", but (b) "The number of new car sales in July compiled by the Automobile Sales Association is , 541,599 units are not included in the information (b), which includes "new car sales in July" but does not include "decrease in previous year".

【0032】また、キーワード論理式 “車販売∧7月の新車販売” は、情報(a)が、“7月の新車販売”を含み、“車販
売”を含まないため、情報(a)とは照合しないが、情
報(b)がキーワード“車販売”と“7月の新車販売”
との両方を含むため、情報(b)とは照合する。
The keyword formula "car sales ∧ new car sales in July" includes the information (a) because the information (a) includes "new car sales in July" and does not include "car sales". Information (b) is the keyword "car sales" and "new car sales in July"
Since both and are included, it is checked against the information (b).

【0033】ここで、キーワード論理式 “7月の新車販売∧前年割れ” と照合する情報の集合をAとし、キーワード論理式 “車販売∧7月の新車販売” とを照合する集合をBとする。さらに、“7月の新車販
売”というキーワード論理式と照合する情報の集合をU
とすると、集合A,B及びUの関係は、図6のようにな
る。集合UがA(あるいはB)を含むとき、即ち、それ
らが次のような関係にあるとき、 A(あるいはB)⊆U キーワード論理式 “7月の新車販売” は、キーワード論理式 “7月の新車販売∧前年割れ(或いは“車販売∧7月の
新車販売”) を包含すると呼ぶ。
Here, A is a set of information to be matched with the keyword formula "New car sales in July ∧ YoY sales", and B is a set to be matched with the keyword formula "Car sales ∧ New cars in July". To do. In addition, the set of information to be matched with the keyword logical expression "new car sales in July" is U
Then, the relationship between the sets A, B and U is as shown in FIG. When the set U includes A (or B), that is, when they have the following relationship, A (or B) ⊆ U keyword formula "new car sales in July" is the keyword formula "July New car sales ∧ fall below the previous year (or “car sales ∧ new car sales in July”) are included.

【0034】照合パターンとしてこのようなキーワード
論理式を生成する例を図7〜図11を用いて説明する。 (1) 適合情報読み込み部11は、図7に示す4件の
適合情報蓄積部8より適合情報を読み込む(ステップ1
01)。
An example of generating such a keyword logical expression as a matching pattern will be described with reference to FIGS. (1) The matching information reading unit 11 reads the matching information from the four matching information storage units 8 shown in FIG. 7 (step 1
01).

【0035】(2) 適合パターン構成部12は、適合
情報から共通部分情報とその重なりを求める。図9は、
本発明の一実施例の適合パターン構成部により抽出され
た共通部分情報の例を示す。同図の例では、重なりが最
も大きいのは、「車販売」であるので、パターン構成要
素として「車販売」を採用する(ステップ102)。
(2) The conforming pattern construction unit 12 obtains common part information and its overlap from the conforming information. FIG.
The example of the common part information extracted by the matching pattern structure part of one Example of this invention is shown. In the example of the figure, since "car sales" has the largest overlap, "car sales" is adopted as the pattern component (step 102).

【0036】(3) 次に、適合パターン構成部12に
おいて、適合情報にパターン構成要素が含まれるかを調
べる。適合情報に含まれる全てのパターン構成要素を
“∧”で結ぶ。ここでは、パターン構成要素が1種類し
かないので、適合情報におけるパターン構成要素の現れ
方は、図7の適合情報1〜4に対して、 1: 車販売 2: 車販売 3: 車販売 4: 車販売 のように表され、結局「車販売」という1種類の適合パ
ターンを得る(ステップ103)。
(3) Next, the matching pattern construction unit 12 checks whether or not the matching information includes a pattern constituent element. All pattern components included in the conformance information are connected by "∧". Here, since there is only one type of pattern component, the appearance of the pattern component in the matching information is as follows: 1: car sales 2: car sales 3: car sales 4: It is represented as "car sales", and eventually one kind of matching pattern "car sales" is obtained (step 103).

【0037】(4) さらに、適合パターン構成部12
において、適合パターン“車販売”は、4種類の情報を
持つ適合情報と1対1には対応しないので、ステップ1
05を実行する(ステップ104)。 (5) さらに、適合パターン構成部12において、次
に重なりの大きい共通部分情報である「中古車販売に
も」と「7月の新車販売」とをパターン構成要素として
採用し、ステップ103を再び実行する(ステップ10
5)。
(4) Furthermore, the conforming pattern forming unit 12
In step 1, the matching pattern “car sales” does not correspond to the matching information having four types of information on a one-to-one basis.
05 is executed (step 104). (5) Further, in the adaptive pattern configuration unit 12, the common portion information having the next largest overlap, “for used car sale” and “new car sale for July” are adopted as pattern components, and step 103 is performed again. Execute (step 10)
5).

【0038】(6) 次に、適合パターン構成部12に
おいて、パターン構成要素「車販売」ならびに「中古車
販売にも」及び「7月の新車販売」が適合情報に含まれ
るか含まれないかをパターンに表す(ステップ10
3)。これにより、適合パターンは、図7の適合情報1
〜4に対して、 1: 中古車販売にも 2: 車販売∧中古車販売にも 3: 7月の新車販売 4: 車販売∧7月の新車販売 のように表される。
(6) Next, whether or not the pattern information "car sales", "used car sales", and "new car sales in July" are included in the matching information in the matching pattern construction unit 12 In a pattern (step 10
3). As a result, the matching pattern is the matching information 1 in FIG.
For example, it is represented as follows: 1: Selling used cars 2: Selling cars ∧ Selling used cars 3: Selling new cars in July 4: Car sales ∧ Selling new cars in July

【0039】(7) さらに、適合パターン構成部12
において、適合パターン“中古車販売にも”及び“7月
の新車販売”は、適合情報中それぞれ2つの情報と対応
する。従って、適合パターンと適合情報とは1対1に対
応しないので、ステップ105に移行する(ステップ1
04)。
(7) Further, the adaptive pattern forming unit 12
In, the matching patterns “also used car sales” and “new car sales in July” correspond to two pieces of information in the matching information. Therefore, since the matching pattern and the matching information do not have a one-to-one correspondence, the process moves to step 105 (step 1
04).

【0040】(8) さらに、適合パターン構成部12
において、次に重なりの大きい共通部分情報である「月
の」と「前年割れ」とをパターン構成要素として採用
し、ステップ103を再度実行する。 (9) 次に、適合パターン構成部12において、パタ
ーン構成要素「車販売」、「中古車販売にも」、「7月
の新車販売」、「月の」及び「前年割れ」が適用情報に
含まれているかいないかをパターンに表す。これによ
り、適合パターンは、図7の適合情報1〜4に対して、 1: 中古車販売にも∧月の∧前年割れ 2: 車販売∧中古車販売にも 3: 7月の新車販売∧前年割れ 4: 車販売∧7月の新車販売 のように表される(ステップ103)。
(8) Furthermore, the conforming pattern forming unit 12
In step 2, the common part information having the next largest overlap, “monthly” and “less than the previous year” are adopted as pattern components, and step 103 is executed again. (9) Next, in the adaptive pattern configuration unit 12, the pattern components “car sales”, “used car sales also”, “new car sales in July”, “monthly”, and “year-on-year decrease” are applicable information. The pattern indicates whether it is included or not. As a result, the conformance patterns are as follows for the conformance information 1 to 4 in Fig. 1: 1: Used car sales ∧ Month ∧ YoY decrease 2: Car sales ∧ Used car sales 3: New car sales in July ∧ YoY decrease 4: Car sales ∧ New car sales in July are represented (step 103).

【0041】(10) さらに、適合パターン構成部1
2において、適合パターンは、適合情報のそれぞれの情
報と1対1に対応するので、ステップ106を実行する
(ステップ104)。 (11) パターン包含関係特定部13において、適合
パターンを得られた順に異なるパターンだけからなる配
列に並べる。
(10) Furthermore, the conforming pattern forming section 1
In 2, the matching pattern has a one-to-one correspondence with each piece of matching information, so step 106 is executed (step 104). (11) In the pattern inclusion relationship specifying unit 13, the matching patterns are arranged in an array including only different patterns in the order in which they are obtained.

【0042】「車販売」 「中古車販売にも」 「車販売∧中古車販売にも」 「7月の新車販売」 「車販売∧7月の新車販売」 「中古車販売にも∧月の∧前年割れ」 「7月の新車販売∧前年割れ」 この適合パターン間の包含関係を特定する(ステップ1
06)。
"Car sales""Used car sales""Car sales ∧ Used car sales""July new car sales""Car sales ∧ July new car sales""Used car sales ∧ Month sales ∧ Decrease of previous year ”“ New car sales in July ∧ Decrease of previous year ”Identify the inclusion relationship between these conformance patterns (Step 1
06).

【0043】(12) パターン包含関係蓄積部14に
おいて、図10に示すような適合パターン間の包含関係
を一時的に蓄積しておく(ステップ107)。 (13) 不適合情報読み込み部15は、不適合情報蓄
積装置9より図8に示す不適合情報を取得する(ステッ
プ108)。
(12) In the pattern inclusion relation accumulating unit 14, the inclusion relation between the matching patterns as shown in FIG. 10 is temporarily accumulated (step 107). (13) The incompatibility information reading unit 15 acquires the incompatibility information shown in FIG. 8 from the incompatibility information storage device 9 (step 108).

【0044】(14) 不適合パターン除去部16にお
いて、不適合情報とパターン包含関係蓄積部14に蓄積
された適合パターンを照合させる。これにより適合パタ
ーンの中で 「車販売」 「中古車販売にも」 の2つが不適合情報と照合に成功することがわかり、こ
れらをパターン包含関係蓄積部14から取り除くと、パ
ターン包含関係蓄積部14の内容は、図11に示すよう
になる(ステップ109)。図11の図中に点線で囲ん
で示すように3つの包含関係a,b,cが含まれてい
る。それぞれ、包含関係aの最上位パターンは、「7月
の新車販売」、包含関係bの最上位パターンは、「中古
車にも∧月の∧前年割れ」、包含関係cの最上位パター
ンは、「車販売∧中古車販売にも」である。
(14) In the nonconforming pattern removing unit 16, the nonconforming information is collated with the conforming pattern accumulated in the pattern inclusion relation accumulating unit 14. As a result, it was found that two of the matching patterns “car sales” and “used car sales” succeeded in collating with the nonconformance information, and when these are removed from the pattern inclusion relationship storage unit 14, the pattern inclusion relationship storage unit 14 11 is as shown in FIG. 11 (step 109). As shown by being surrounded by a dotted line in the drawing of FIG. 11, three inclusion relationships a, b, and c are included. The top level pattern of the inclusion relationship a is "new car sales in July", the top level pattern of the inclusion relationship b is "even used cars ∧ months ∧ less than the previous year", and the top level pattern of the inclusion relationship c is "Car sales ∧ also used car sales".

【0045】(15) 最上位パターン取り出し部17
は、不適合パターンを取り除いたパターン包含関係蓄積
部14から、最も照合洩れが少なくなるように、不適合
パターンを取り除いた図11に示すそれぞれの包含関係
の最上位に位置するすべての最上位パターン 「車販売∧中古車販売にも」 「7月の新車販売」 「中古車販売にも∧月の∧前年割れ」 を取り出す(ステップ110)。
(15) Top-level pattern extracting section 17
Is a pattern inclusion relationship accumulating unit 14 from which non-conforming patterns are removed, and all top-level patterns “cars” located at the top of each inclusion relationship shown in FIG. "Sale ∧ Used car sales""July new car sales""Used car sales ∧ Month ∧ YoY decrease" (step 110).

【0046】(16) 照合パターン出力部18におい
て、取り出された最上位パターンを“∨”(論理和)で
結合し、最終的な照合パターン (車販売∧中古車販売にも)∨7月の新車販売∨(中古
車販売にも∧月の∧前年割れ) を出力する(ステップ111)。
(16) In the collation pattern output section 18, the extracted highest-ranking patterns are combined by "∨" (logical sum) to obtain the final collation pattern (also for car sales ∧ used car sales) ∨ July New car sales ∨ (also used car sales ∧ month ∧ year-on-year decrease) is output (step 111).

【0047】以上の処理により、ユーザの照合パターン
を作成する負担を解消すると同時に膨大な照合用知識の
構築をも不要とし、かつ、照合精度の高いパターンを生
成すると同時に、その照合処理の繰り返しによる精度の
漸進的な向上が可能となる。さらに第2の具体例を以下
に示す。
By the above processing, the burden of creating a collation pattern on the user is eliminated, and at the same time, it is not necessary to construct a huge amount of collation knowledge, and at the same time a pattern with high collation accuracy is generated, the collation processing is repeated. A gradual improvement in accuracy is possible. A second specific example will be shown below.

【0048】[第2の具体例]まず、キーワード論理式
を照合パターンとして用いる際の照合の例をパターン間
の包含関係とについて説明する。以下に、適合パターン
が正規表現で表されている例を示す。
[Second Specific Example] First, an example of collation when a keyword logical expression is used as a collation pattern will be described with respect to the inclusion relation between patterns. An example in which the matching pattern is represented by a regular expression is shown below.

【0049】第2の具体例においても前述の第1の具体
例と同様の包含関係を有するものとする。正規表現は、
任意の文字列を“.”(任意の1文字)や“*”(0回
以上の繰り返し)、“|”(選択)、“(”、“)”を
組み合わせて構成する。例えば、正規表現 「7月の新車販売.*前年割れ」 は、“7月の新車販売”と“前年割れ”とをその順序で
含む適合情報または、その一部と照合する。
The second specific example also has the same inclusion relation as that of the first specific example. The regular expression is
An arbitrary character string is formed by combining "." (Any one character), "*" (repeated zero or more times), "|" (selection), and "(", ")". For example, the regular expression "new car sales in July. * Less than last year" is matched with the matching information including "new car sales in July" and "lower than last year" in that order, or a part thereof.

【0050】この正規表現は、 (a)『7月の新車販売、再び前年割れ』 という情報とは照合するが、 (b)『自動車販売協会がまとめた7月の新車販売台数
は、54万1599台となった。』 という情報とは、情報(b)が“7月の新車販売”を含
んでも、“前年割れ”を含まないため、照合しない。
This regular expression matches (a) "new car sales in July, again below the previous year", but (b) "new car sales in July compiled by the Automobile Sales Association is 540,000. It became 1599 units. Even if the information (b) includes "new vehicle sales in July", it does not include "new year sales" and is not checked.

【0051】また、正規表現 “車販売.*7月の新車販売” は、情報(a)が“7月の新車販売”を含み、“車販
売”を含まないため、情報(a)とは照合しないが、情
報(b)が文字列“車販売”と“7月の新車販売”とを
両方ともその順序で含むため、情報(b)とは照合す
る。
The regular expression "car sales. * New car sales in July" includes information "a new car sales in July" and does not include "car sales". Although not collated, the information (b) is collated with the information (b) because both the character strings “car sale” and “new car sale in July” are included in that order.

【0052】ここで、正規表現 “7月の新車販売.*前年割れ” と照合する情報の集合をAとし、正規表現 “車販売.*7月の新車販売” と照合する集合をBとする。さらに、 “7月の新車販売” という正規表現と照合する情報の集合をUとすると、集
合A,B及びUの関係は、図6のようになる。集合Uが
A(あるいはB)を含むとき、即ち、それらが次のよう
な関係にあるとき、 A(あるいはB)⊆U 正規表現“7月の新車販売”は、正規表現“7月の新車
販売.*前年割れ”(あるいは、“車販売.*7月の新
車販売”)を包含すると呼ぶことにする。
Here, let A be the set of information that is matched with the regular expression "new car sales in July. * YoY decrease", and B be the set that is matched with the regular expression "car sales. * New car sales in July". . Further, if the set of information to be matched with the regular expression "new car sales in July" is U, the relationship between sets A, B and U is as shown in FIG. When the set U includes A (or B), that is, when they have the following relationship, A (or B) ⊆ U The regular expression "new car sale in July" is the regular expression "new car in July". Sales. * YoY decrease (or "car sales. * New car sales in July") are included.

【0053】照合パターンとして、このような正規表現
を生成する例を前述の図7〜図9及び図12及び図13
を用いて説明する。(1) 適合情報読み込み部11
は、図7に示す適合情報蓄積部8の情報を読み込む(ス
テップ101)。
An example of generating such a regular expression as a matching pattern is shown in FIGS. 7 to 9 and FIGS.
This will be described with reference to FIG. (1) Compliance information reading unit 11
Reads the information in the matching information storage unit 8 shown in FIG. 7 (step 101).

【0054】(2) 適合パターン構成部12におい
て、図9に示すように、適合情報から共通部分情報とそ
の重なりを求める。まず、パターン構成要素として「車
販売」を採用する(ステップ102)。 (3) 次に、適合パターン構成部12において、適合
情報上でのパターン構成要素の分布を正規表現で表す。
ここでは、パターン構成要素が1種類しかないので、適
合情報におけるパターン構成要素の現れ方は、図7に示
す適合情報1〜4に対して、 1: .*車販売.* 2: .*車販売.*車販売* 3: .*車販売.* 4: .*車販売.*車販売* のように表され、2種類の適合パターンを得る(ステッ
プ103)。
(2) As shown in FIG. 9, the conforming pattern forming section 12 obtains common part information and its overlap from the conforming information. First, "car sales" is adopted as a pattern component (step 102). (3) Next, the matching pattern forming unit 12 represents the distribution of the pattern constituent elements on the matching information by a regular expression.
Here, since there is only one type of pattern constituent element, the appearance of the pattern constituent element in the matching information is as follows with respect to the matching information 1 to 4 shown in FIG. * Car sales. * 2 :. * Car sales. * Car sales * 3: * Car sales. * 4 :. * Car sales. It is represented as * car sales * and two types of matching patterns are obtained (step 103).

【0055】(4) さらに、適合パターン構成部12
において、適合パターン“.*車販売.*“ 及び“車
販売.*”は、4種類の情報を持つ適合情報と1対1に
は対応しないので、ステップ105を実行する(ステッ
プ104)。 (5) さらに、適合パターン構成部12において、次
に重なりの大きい共通部分情報である「中古車販売に
も」と「7月の新車販売」とをパターン構成要素として
採用し、ステップ103を再び実行する(ステップ10
5)。
(4) Furthermore, the conforming pattern forming unit 12
In the above, since the matching patterns “. * Car sales. *” And “car sales. *” Do not correspond to the matching information having four types of information on a one-to-one basis, step 105 is executed (step 104). (5) Further, in the adaptive pattern configuration unit 12, the common portion information having the next largest overlap, “for used car sale” and “new car sale for July” are adopted as pattern components, and step 103 is performed again. Execute (step 10)
5).

【0056】(6) 次に、適合パターン構成部12に
おいて、適合情報上でのパターン構成要素「車販売」な
らびに「中古車販売にも」及び「7月の新車販売」の分
布をパターンに表す。これにより、適合パターンは、図
7の適合情報1〜4に対して 1: .*中古車販売にも.* 2: .*車販売.*中古車販売にも.* 3: .*7月の新車販売.* 4: .*車販売.*7月の新車販売.* のように表される(ステップ103)。
(6) Next, the matching pattern construction unit 12 represents the distribution of the pattern components "car sales" and "used car sales" and "new car sales in July" on the matching information as patterns. . As a result, the conforming pattern corresponds to the conforming information 1 to 4 in FIG. * Also used car sales. * 2 :. * Car sales. * Also used car sales. * 3 :. * New car sales in July. * 4 :. * Car sales. * New car sales in July. It is expressed as * (step 103).

【0057】(7) さらに、適合パターン構成部12
において、適合パターン “.*中古車販売にも.*” 及び “.*7月の新車販売.*” は、適合情報中それぞれ2つの情報と対応する。従っ
て、適合パターンと適合情報とは1対1に対応しないの
で、ステップ105を実行する(ステップ104)。
(7) Further, the adaptive pattern forming unit 12
In, the conformance patterns “. * Used car sales. *” And “. * New car sales in July. *” Correspond to two pieces of information in the conformance information. Therefore, since the matching pattern and the matching information do not have a one-to-one correspondence, step 105 is executed (step 104).

【0058】(8) さらに、適合パターン構成部12
において、次に重なりの大きい共通部分情報である「月
の」と「前年割れ」とをパターン構成要素として採用
し、ステップ103を実行する(ステップ105)。 (9) 次に、適合パターン構成部12において、適合
情報上でのパターン構成要素「車販売」、「中古車販売
にも」、「7月の新車販売」、「月の」及び「前年割
れ」の分布をパターンに表す。これにより、適合パター
ンは、図7の適合情報1〜4に対して 1: 中古車販売にも.*月の.*前年割れ 2: 車販売.*中古車販売にも 3: 7月の新車販売.*前年割れ 4: 車販売.*7月の新車販売 のように表される(ステップ103)。
(8) Further, the adaptive pattern construction unit 12
In, the common part information having the next largest overlap, “monthly” and “less than the previous year” are adopted as pattern components, and step 103 is executed (step 105). (9) Next, in the conforming pattern configuration unit 12, the pattern constituent elements “car sales”, “used car sales also”, “new car sales in July”, “monthly” and “year-on-year decrease” on the conformance information. The distribution of "" is represented in a pattern. As a result, the matching pattern is as follows for the matching information 1 to 4 in FIG. * Of the month. * YoY change 2: Car sales. * Used car sales also 3: New car sales in July. * YoY decline 4: Car sales. * Expressed as new car sales in July (step 103).

【0059】(10) さらに、適合パターン構成部1
2において、適合パターンは、適合情報のそれぞれの情
報と1対1に対応するので、ステップ106を実行する
(ステップ104)。 (11) パターン包含関係特定部13において、適合
パターンを得られた順に異なるパターンだけからなる配
列に並べる。
(10) Furthermore, the conforming pattern construction unit 1
In 2, the matching pattern has a one-to-one correspondence with each piece of matching information, so step 106 is executed (step 104). (11) In the pattern inclusion relationship specifying unit 13, the matching patterns are arranged in an array including only different patterns in the order in which they are obtained.

【0060】『.*車販売.*』 『.*車販売.*車販売.*』 『.*中古車販売にも.*』 『.*車販売.*中古車販売にも.*』 『.*7月の新車販売.*』 『.*車販売.*7月の新車販売.*』 『中古車販売にも.*月の.*前年割れ』 『7月の新車販売.*前年割れ.*』 この適合パターン間の包含関係を特定する(ステップ1
06)。
“. * Car sales. * ”“. * Car sales. * Car sales. * ”“. * Also used car sales. * ”“. * Car sales. * Also used car sales. * ”“. * New car sales in July. * ”“. * Car sales. * New car sales in July. * "" For used car sales. * Of the month. * YoY lower ”" New car sales in July. * YoY decrease. * ”The inclusion relation between these matching patterns is specified (step 1
06).

【0061】(12) パターン包含関係蓄積部14に
おいて、上記の適合パターンを図12に示す適合パター
ン間の包含関係を形成し、パターン包含関係蓄積部14
に一時的に蓄積しておく(ステップ107)。 (13) 不適合情報読み込み部15において、不適合
情報蓄積部9から図8に示す不適合情報を読み出す(ス
テップ108)。
(12) The pattern inclusion relation accumulating unit 14 forms an inclusion relation between the matching patterns shown in FIG.
(Step 107). (13) The incompatibility information reading unit 15 reads out the incompatibility information shown in FIG. 8 from the incompatibility information storage unit 9 (step 108).

【0062】(14) 不適合パターン除去部16にお
いて、不適合情報とパターン包含関係蓄積部14に蓄積
された適合パターンを照合させる。これにより、適合パ
ターンの中で、 『.*車販売.*』 『.*中古車販売にも.*』 の2つの適合パターンが不適合情報と照合に成功するこ
とがわかる。これらをパターン包含関係蓄積部14から
取り除くと、パターン包含関係蓄積部14の内容は、図
13のようになる(ステップ109)。図13は、図中
に点線で囲んで示すように、3つの包含関係d,e,f
が含まれている。それぞれ、包含関係dの最上位パター
ンは、「.*7月の新車販売.*」、包含関係eの最上
位パターンは、「中古車にも.*月の.*前年割れ」、
包含関係fの最上位パターンは、「.*車販売.*車販
売.*」である。
(14) In the nonconforming pattern removing unit 16, the nonconforming information is collated with the conforming pattern accumulated in the pattern inclusion relation accumulating unit 14. Thereby, in the matching pattern, ". * Car sales. * ”“. * Also used car sales. It can be seen that the two matching patterns “*” succeed in matching with the non-matching information. When these are removed from the pattern inclusion relation accumulating unit 14, the contents of the pattern inclusion relation accumulating unit 14 become as shown in FIG. 13 (step 109). FIG. 13 shows three inclusion relations d, e, and f as surrounded by a dotted line in the figure.
It is included. The top level pattern of the inclusion relationship d is “. * New vehicle sales in July. *”, And the top level pattern of the inclusion relationship e is “For used cars.
The highest-level pattern of the inclusion relation f is “. * Car sales. * Car sales. *”.

【0063】(15) 最上位パターン取り出し部17
において、不適合パターンを取り除いたパターン包含関
係蓄積部14から、最も照合洩れが少なくなるように、
不適合パターンを取り除いた図13に示すそれぞれの包
含関係の最上位に位置する全ての最上位パターン 『.*車販売.*中古車販売にも.*』 『.*7月の新車販売.*』 『中古車販売にも.*月の.*前年割れ』 を取り出す。
(15) Top-level pattern extracting section 17
In order to minimize the omission of collation from the pattern inclusion relationship storage unit 14 in which the nonconforming pattern is removed,
All the topmost patterns located at the top of the respective inclusion relations shown in FIG. * Car sales. * Also used car sales. * ”“. * New car sales in July. * "" For used car sales. * Of the month. * Under the previous year '.

【0064】(16) 照合パターン出力部18におい
て、これを“|”(選択)で結合し、最終的な照合パタ
ーン 『(車販売.*中古車販売にも)|7月の新車販売|
(中古車販売にも.*月の.*前年割れ)』 を出力する。
(16) In the collation pattern output unit 18, these are combined by "|" (selection), and the final collation pattern "(car sales. * Used car sales also) | new car sales in July |
(For used car sales. * Month. * YoY decrease)

【0065】以上の処理により、ユーザ照合パターンを
作成する負担を解消すると同時に膨大な照合用知識の構
築をも不要とし、かつ、照合精度の高いパターンを生成
すると同時に、その照合処理の繰り返しによる精度の漸
進的な向上が可能となる。なお、本発明は、上記の実施
例に限定されることなく、特許請求の範囲内で種々変更
・応用が可能である。
By the above processing, the burden of creating a user collation pattern is eliminated, at the same time it is not necessary to build a huge amount of collation knowledge, and a pattern with high collation accuracy is generated, and at the same time, the accuracy of the collation processing is repeated. It becomes possible to gradually improve. It should be noted that the present invention is not limited to the above-described embodiment, but can be variously modified and applied within the scope of the claims.

【0066】[0066]

【発明の効果】上述のように本発明の照合パターン生成
方法及び装置によれば、取得した照合結果についてユー
ザが当該照合結果が適合情報であるか、不適合情報であ
るかを判定して蓄積しておき、適合情報に共通する部分
情報を抽出して、適合情報と1対1に対応するパターン
が得られるまで部分情報の出現状況をパターン化して適
合パターン間のパターン包含関係を決定して、蓄積して
おく。そこで、不適合情報をパターン包含関係内の適合
パターンと照合して成功したパターンをパターン包含関
係から除去していき、最終的に残ったパターンの最上位
にあるパターンを照合パターンとすることにより、不適
合なパターンが照合パターンとして用いられることがな
い。
As described above, according to the matching pattern generation method and apparatus of the present invention, the user determines whether the acquired matching result is the matching information or the non-matching information and accumulates it. The partial information common to the matching information is extracted, the appearance situation of the partial information is patterned until the pattern corresponding to the matching information and the one-to-one correspondence is obtained, and the pattern inclusion relationship between the matching patterns is determined. Accumulate. Therefore, the nonconformance information is collated with the conforming pattern in the pattern inclusion relation, the successful pattern is removed from the pattern inclusion relation, and the pattern at the top of the finally remaining pattern is set as the collation pattern. Pattern is never used as a matching pattern.

【0067】また、本発明は、不適合情報と照合され、
一致した適合パターンは、不適合パターンとみなして、
蓄積されているパターン包含関係から削除され、最終的
に残ったパターンから照合パターンを取得するため、ユ
ーザの照合パターンを作成する負担が軽減されると共
に、照合精度の高い漸進的な向上を可能とする照合パタ
ーンを生成することができる。
The present invention also collates nonconformance information,
Matched matching patterns are regarded as non-conforming patterns,
Since the collation patterns are acquired from the patterns that are finally deleted and are deleted from the stored pattern inclusion relationships, the burden of creating the collation patterns for the user is reduced, and the collation accuracy can be improved gradually. A matching pattern can be generated.

【0068】また、ユーザにより判断された適合情報と
不適合情報のみから照合パターンを生成するため、膨大
な照合用知識は不要となる。
Further, since the matching pattern is generated only from the matching information and the mismatching information judged by the user, a huge amount of matching knowledge is unnecessary.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の原理を説明するための図である。FIG. 1 is a diagram for explaining the principle of the present invention.

【図2】本発明の原理構成図である。FIG. 2 is a principle configuration diagram of the present invention.

【図3】本発明を適用したテキスト照合装置の構成図で
ある。
FIG. 3 is a configuration diagram of a text matching device to which the present invention is applied.

【図4】本発明の一実施例の照合パターン生成装置の構
成図である。
FIG. 4 is a configuration diagram of a matching pattern generation device according to an embodiment of the present invention.

【図5】本発明の一実施例の照合パターン生成処理のフ
ローチャートである。
FIG. 5 is a flowchart of matching pattern generation processing according to an embodiment of the present invention.

【図6】本発明の一実施例のパターン包含関係を説明す
るための図である。
FIG. 6 is a diagram for explaining a pattern inclusion relationship according to an embodiment of the present invention.

【図7】本発明の一実施例の適合情報の例を示す図であ
る。
FIG. 7 is a diagram showing an example of matching information according to an embodiment of the present invention.

【図8】本発明の一実施例の不適合情報の例を示す図で
ある。
FIG. 8 is a diagram showing an example of incompatibility information according to an embodiment of the present invention.

【図9】本発明の一実施例の適合パターン構成部により
抽出された共通部分情報の例を示す図である。
FIG. 9 is a diagram showing an example of common part information extracted by a matching pattern forming unit according to an embodiment of the present invention.

【図10】本発明の一実施例の適合パターン(キーワー
ド論理式)包含関係の例を示す図である。
FIG. 10 is a diagram showing an example of a matching pattern (keyword logical expression) inclusion relationship according to an embodiment of the present invention.

【図11】本発明の一実施例の不適合パターンを除去し
た適合パターン(キーワード論理式)包含関係の例を示
す図である。
FIG. 11 is a diagram showing an example of a conforming pattern (keyword logical expression) inclusion relation in which an unconforming pattern is removed according to an embodiment of the present invention.

【図12】本発明の一実施例の適合パターン(正規表
現)包含関係例を示す図である。
FIG. 12 is a diagram showing an example of a conforming pattern (regular expression) inclusion relationship according to an embodiment of the present invention.

【図13】本発明の不適合パターンを除去した適合パタ
ーン(正規表現)包含関係例を示す図である。
FIG. 13 is a diagram showing an example of a conforming pattern (regular expression) inclusion relation in which the nonconforming pattern of the present invention is removed.

【符号の説明】[Explanation of symbols]

1 テキスト照合装置、適合判定手段 2 照合パターン 3 テキストベース 4 テキスト照合部 5 照合結果出力部 6 照合パターン生成装置、照合パターン生成手段 7 ユーザ評価読み込み部 8 適合情報蓄積部、適合情報 9 不適合情報蓄積部、不適合情報 10 照合パターン 11 適合情報読み込み部 12 適合パターン構成部 13 パターン包含関係特定部 14 パターン包含関係蓄積部 15 不適合情報読み込み部 16 不適合パターン除去部 17 最上位パターン取り出し部 18 照合パターン出力部 DESCRIPTION OF SYMBOLS 1 text collation device, conformity determination means 2 collation pattern 3 text base 4 text collation unit 5 collation result output unit 6 collation pattern generation device, collation pattern generation unit 7 user evaluation reading unit 8 conformity information accumulation unit, conformance information 9 nonconformance information accumulation Part, non-conformance information 10 Matching pattern 11 Matching information reading unit 12 Matching pattern forming unit 13 Pattern inclusion relationship specifying unit 14 Pattern inclusion relationship accumulating unit 15 Non-matching information reading unit 16 Non-matching pattern removing unit 17 Top-level pattern extracting unit 18 Matching pattern output unit

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 テキスト照合処理の照合パターンを生成
する照合パターン生成方法において、 前記テキスト照合処理による照合結果であるテキスト全
体またはテキストの一部に対してユーザが適合または不
適合の判断を行い、 前記ユーザが適合と判断したテキスト全体またはテキス
トの一部からなる適合情報と、前記ユーザが不適合と判
断したテキスト全体またはテキストの一部からなる不適
合情報のみから、照合パターンを生成することを特徴と
する照合パターン生成方法。
1. A collation pattern generation method for generating a collation pattern of text collation processing, wherein the user judges conformity or nonconformity with respect to the entire text or a part of the text which is the collation result by the text collation processing, The matching pattern is generated only from the matching information consisting of the entire text or a part of the text judged by the user and the unmatching information consisting of the whole text or a part of the text judged to be unsuitable by the user. Matching pattern generation method.
【請求項2】 ユーザが適合と判断した前記テキスト全
体または前記テキストの一部の適合情報を読み込み、 前記適合情報に共通な部分情報を抽出し、 前記部分情報の長さと頻度によって順位付けし、該順序
に従って前記適合情報と1対1に対応するパターンが得
られるまで、前記適合情報における前記部分情報の現れ
方をパターン化して、適合パターンとし、 前記適合パターン間のパターン包含関係を特定して、記
憶手段に蓄積し、 ユーザが不適合と判断した前記テキスト全体または前記
テキストの一部の不適合情報を読み込み、 前記記憶手段に蓄積されている前記パターン包含関係の
適合パターンで前記不適合情報を照合し、照合に成功し
た適合パターンを不適合パターンとして前記記憶手段か
ら除去し、 前記不適合パターンを除去した前記記憶部から包含関係
の最上位にある全てのパターンを取り出し、 選択形式で結合して照合パターンとして出力する、 一連の処理を繰り返す請求項1記載の照合パターン生成
方法。
2. The matching information of the entire text or a part of the text that the user has determined to be matching is read, partial information common to the matching information is extracted, and ranking is performed according to the length and frequency of the partial information. The appearance of the partial information in the matching information is patterned into a matching pattern until a pattern corresponding to the matching information in a one-to-one correspondence is obtained according to the order, and a pattern inclusion relationship between the matching patterns is specified. , The non-conformance information accumulated in the storage means and read by the user as the non-conformance of the whole text or a part of the text, and the non-conformance information is collated with the conformity pattern of the pattern inclusion relation stored in the storage means. , The matching pattern that has been successfully matched is removed from the storage means as a non-matching pattern, and the non-matching pattern is removed. The collation pattern generation method according to claim 1, wherein all patterns at the highest level of the inclusion relation are taken out from the storage unit, combined in a selected format, and output as a collation pattern.
【請求項3】 前記照合パターンとして、キーワード論
理式または正規表現を用いる請求項1、または2記載の
照合パターン生成方法。
3. The matching pattern generation method according to claim 1, wherein a keyword logical expression or a regular expression is used as the matching pattern.
【請求項4】 テキスト照合処理の照合パターンを生成
する照合パターン生成装置において、 前記テキスト照合処理による照合結果であるテキスト全
体またはテキストの一部に対してユーザが適合または不
適合の判断を行う適合判定手段と、 前記適合判定手段により前記ユーザが適合と判断したテ
キスト全体またはテキストの一部からなる適合情報と、
前記ユーザが不適合と判断したテキスト全体またはテキ
ストの一部からなる不適合情報のみから、照合パターン
を生成する照合パターン生成手段とを有することを特徴
とする照合パターン生成装置。
4. A matching pattern generation device for generating a matching pattern of a text matching process, wherein the user judges whether the whole text or a part of the text that is the matching result of the text matching process is matched or unmatched. Means, and matching information consisting of the whole text or a part of the text judged by the user to be matching by the matching determining means,
A collation pattern generation device comprising: a collation pattern generation means for generating a collation pattern from only the nonconformance information consisting of the whole text or a part of the text judged by the user as nonconformity.
【請求項5】 前記適合判定手段により、適合と判断さ
れた前記適合情報を蓄積する適合情報蓄積手段と、 前記適合判定手段により不適合と判断された不適合情報
を蓄積する不適合情報蓄積手段と、 前記適合情報蓄積手段から前記適合情報を読み込む適合
情報読み込み手段と、 前記適合情報から共通部分情報を抽出してパターン化す
る適合パターン構成手段と、 前記適合パターン構成手段によりパターン化された適合
パターン間の包含関係を特定するパターン包含関係特定
手段と、 前記パターン包含関係特定手段により特定したパターン
間の包含関係を蓄積するパターン包含関係蓄積手段と、 前記不適合情報蓄積手段から前記不適合情報を読み込む
不適合情報読み込み手段と、 前記不適合情報読み込み手段により読み込まれた前記不
適合情報を前記パターン包含関係蓄積手段に蓄積されて
いるパターンで照合し、照合に成功したパターンを前記
パターン包含関係蓄積手段から取り除く不適合パターン
除去手段と、 前記パターン包含関係蓄積手段に蓄積されている、前記
不適合情報とは照合しない適合パターンから、それらの
間のパターン包含関係の中で最上位にある全てのパター
ンを取り出す最上位パターン取出手段と、 前記最上位パターン取出手段により取り出された全ての
最上位パターンを選択形式で結合し、照合パターンとし
て出力する照合パターン出力手段とを含む請求項4記載
の照合パターン生成装置。
5. The conformity information accumulating means for accumulating the conformity information judged to be conforming by the conformity judging means, the nonconformity information accumulating means for accumulating the nonconformity information judged to be nonconformity by the conformity judging means, Between the matching information reading unit that reads the matching information from the matching information storage unit, the matching pattern forming unit that extracts common part information from the matching information to form a pattern, and the matching pattern that is patterned by the matching pattern forming unit Pattern inclusion relation specifying means for specifying an inclusion relation, pattern inclusion relation storing means for storing the inclusion relation between the patterns specified by the pattern inclusion relation specifying means, and nonconformance information reading for reading the nonconformance information from the nonconformance information storage means Means and the incompatibility read by the incompatibility information reading means Information is collated with the pattern stored in the pattern inclusion relation accumulating means, and the pattern that has been successfully collated is removed from the pattern inclusion relation accumulating means, and the nonconforming pattern accumulating means is accumulated in the pattern inclusion relation accumulating means. From the matching patterns that are not matched with the non-matching information, the highest-level pattern extracting unit that extracts all the highest-level patterns in the pattern inclusion relationship between them, and the highest-level pattern extracting unit that extracts all the highest-level patterns. The collation pattern generation device according to claim 4, further comprising collation pattern output means for combining the upper patterns in a selection format and outputting as a collation pattern.
【請求項6】 前記照合パターンとして、キーワード論
理式または正規表現を用いる請求項4または5記載の照
合パターン生成装置。
6. The collation pattern generation device according to claim 4, wherein a keyword logical expression or a regular expression is used as the collation pattern.
JP7150585A 1995-06-16 1995-06-16 Method and device for generating collation pattern Pending JPH096796A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7150585A JPH096796A (en) 1995-06-16 1995-06-16 Method and device for generating collation pattern

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7150585A JPH096796A (en) 1995-06-16 1995-06-16 Method and device for generating collation pattern

Publications (1)

Publication Number Publication Date
JPH096796A true JPH096796A (en) 1997-01-10

Family

ID=15500108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7150585A Pending JPH096796A (en) 1995-06-16 1995-06-16 Method and device for generating collation pattern

Country Status (1)

Country Link
JP (1) JPH096796A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10240762A (en) * 1997-02-28 1998-09-11 Matsushita Electric Ind Co Ltd Information filter device and data base re-constructing device and information filtering method and initialization method
KR20160041273A (en) * 2014-10-07 2016-04-18 인포뱅크 주식회사 Apparatus and method for searching information
KR20160041267A (en) * 2014-10-07 2016-04-18 인포뱅크 주식회사 Apparatus and method for searching information

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10240762A (en) * 1997-02-28 1998-09-11 Matsushita Electric Ind Co Ltd Information filter device and data base re-constructing device and information filtering method and initialization method
KR20160041273A (en) * 2014-10-07 2016-04-18 인포뱅크 주식회사 Apparatus and method for searching information
KR20160041267A (en) * 2014-10-07 2016-04-18 인포뱅크 주식회사 Apparatus and method for searching information

Similar Documents

Publication Publication Date Title
TW490654B (en) Method and system of automatically extracting new word
US6654744B2 (en) Method and apparatus for categorizing information, and a computer product
US8176050B2 (en) Method and apparatus of supporting creation of classification rules
US5463773A (en) Building of a document classification tree by recursive optimization of keyword selection function
CN109299245B (en) Method and device for recalling knowledge points
CN102576358B (en) Word pair acquisition device, word pair acquisition method, and program
JP3323180B2 (en) Decision tree changing method and data mining device
CN110032623B (en) Method and device for matching question of user with title of knowledge point
JP2001515623A (en) Automatic text summary generation method by computer
EP0784285B1 (en) Method, apparatus and computer program product for generating a classification tree
JPH08166970A (en) Method for highlight enphasis of document image by using coded word token
JP3244005B2 (en) Information filtering apparatus and information filtering method
KR101782120B1 (en) Apparatus and method for recommending financial instruments based on consultation information and data clustering
JP3344953B2 (en) Information filtering apparatus and information filtering method
JP2002007433A (en) Information sorter, information sorting method, computer readable recording medium recorded with information sorting program and information sorting program
US6233352B1 (en) Information processing method and apparatus
JPH096796A (en) Method and device for generating collation pattern
JP2006251975A (en) Text sorting method and program by the method, and text sorter
JP5020513B2 (en) Pattern recognition apparatus, pattern recognition method, pattern recognition program, and recording medium
CN115904920A (en) Test case recommendation method and device, terminal and storage medium
Verma et al. Machine-learning-based image feature selection
JP4128033B2 (en) Profile data retrieval apparatus and program
JP3244084B2 (en) Keyword search formula generation apparatus and keyword search formula generation method
JPH0743728B2 (en) Summary sentence generation method
Belton et al. Outranking methods