JP2000276472A - Method and device for similar information collation and recording medium for recording similar information collation program - Google Patents

Method and device for similar information collation and recording medium for recording similar information collation program

Info

Publication number
JP2000276472A
JP2000276472A JP11078125A JP7812599A JP2000276472A JP 2000276472 A JP2000276472 A JP 2000276472A JP 11078125 A JP11078125 A JP 11078125A JP 7812599 A JP7812599 A JP 7812599A JP 2000276472 A JP2000276472 A JP 2000276472A
Authority
JP
Japan
Prior art keywords
pattern
collation
matching
information
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11078125A
Other languages
Japanese (ja)
Other versions
JP3955410B2 (en
Inventor
Masahiko Tokunaga
雅彦 徳永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AdIn Research Inc
Original Assignee
AdIn Research Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AdIn Research Inc filed Critical AdIn Research Inc
Priority to JP07812599A priority Critical patent/JP3955410B2/en
Publication of JP2000276472A publication Critical patent/JP2000276472A/en
Application granted granted Critical
Publication of JP3955410B2 publication Critical patent/JP3955410B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To obtain a similar information collation device which discriminates the similarity of information by pattern collation in the case that a noise is generated in a minute pattern partially coinciding in a collation pattern to break up the minute pattern. SOLUTION: A similar information collation device 1 is provided with a means 10 which generates first and second patterns represented by the positions and features of the elements from information to be collated, a means 20 which generates a collation map 30 consisting of collation positions whose coordinates are pairs of positions of first and second elements having the same features in the first and second patterns, a means 40 which evaluates the continuity of each of routes where neighboring collation positions in the collation map 30 are successively connected, and a means 40 which discriminates the degree of coincidence between the first and second patterns on the basis of the continuity of each route.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、パターンとして表
現できる情報の類似性を判定する類似情報照合装置及び
類似情報照合方法に係わり、特に、コンピュータで情報
処理される種々のパターンの照合技術に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a similar information collating apparatus and a similar information collating method for determining the similarity of information that can be expressed as a pattern, and more particularly to a technique for collating various patterns processed by a computer.

【0002】[0002]

【従来の技術】文字、図形、画像、音声、或いは、一般
的な記号のような情報は、その情報を構成する要素が位
置と特徴とによって表現することができる。このよう
に、要素の特徴に着目したときに各要素の特徴が時空間
的に関連して配置される情報は、所謂パターンと呼ばれ
る。従来より、このパターンをコンピュータで処理する
ため各種のパターン情報処理方式が提案されている。パ
ターン情報処理の過程において、類似した情報の合致度
を評価すべき状況、例えば、文字情報の場合に、類似文
字列を検索することは頻繁に要求される。そのため、情
報の類似性を判定する方式として、情報の要素をパター
ンとして表現し、パターン間の関連性を評価するパター
ン照合方式が知られている。
2. Description of the Related Art Information such as characters, figures, images, sounds, or general symbols can be represented by the position and characteristics of the elements constituting the information. As described above, information in which the features of each element are arranged in a spatiotemporal manner when focusing on the features of the elements is called a so-called pattern. Conventionally, various pattern information processing methods have been proposed for processing this pattern by a computer. In the process of pattern information processing, it is frequently required to search for a similar character string in a situation where the degree of matching of similar information should be evaluated, for example, in the case of character information. Therefore, as a method of determining the similarity of information, a pattern matching method is known in which elements of information are expressed as patterns and the relevance between the patterns is evaluated.

【0003】従来のパターン照合方式の例として、文字
列照合システムについて説明する。例えば、文字列照合
システムを利用する従来の高速全文検索技術は、“第2
部高速全文検索の要素技術 カギを握るインデクス処
理”、日経バイト、1996年10月号、ページ158
−167に記載されている。この引用文献に記載されて
いる従来の典型的な照合システムは、照合文字列及び被
照合文字列を固定長の微小な部分に分割する。ここで、
用語「照合文字列」及び「被照合文字列」の用法を簡単
に説明すると、例えば、文字列Aと類似した文字列Bを
文書Cの中から見つける場合に、文字列Aが「照合文字
列」であり、文書Cの中の文字列Bが「被照合文字列」
である。次に、照合システムは、照合文字列の微小部分
が被照合文字列の微小部分文字列群に含まれるかどうか
を判定し、当該微小部分文字列を含む被照合文字列を照
合文字列に類似した文字列として出力する。
As an example of a conventional pattern matching method, a character string matching system will be described. For example, a conventional high-speed full-text search technology using a character string matching system is described in “2nd.
Elemental Technology for High-speed Full-text Search in Nippon Express, The Index Processing That Holds the Key, "Nikkei Byte, October 1996, page 158
-167. The conventional typical collation system described in this reference divides the collation character string and the collated character string into small portions of fixed length. here,
The usage of the terms “collation character string” and “character string to be collated” will be briefly described. For example, when a character string B similar to the character string A is found in the document C, the character string A becomes “collation character string”. , And the character string B in the document C is a “character string to be verified”.
It is. Next, the collation system determines whether the minute part of the collation character string is included in the minute part character string group of the collated character string, and determines that the collated character string including the minute part character string is similar to the collation character string. Is output as a converted character string.

【0004】このようなタイプの照合システムは、文字
列の中の微小部分が完全一致する文字列の有無を判定す
る。そのため、文字列の一部が欠落した場合、文字列の
一部が他の文字列で置換された場合、或いは、文字列の
中に他の文字列が混入した場合のように、照合文字列若
しくは被照合文字列に局部的な変形が生じた場合に、変
形した箇所の周辺の微小文字列が一致しないため、文字
列が照合しないと判定される。このように従来技術の第
1のタイプの照合システムでは、文字列の局所的な変形
を許容できないという欠点がある。
A collation system of this type determines whether there is a character string in which a minute part in the character string completely matches. Therefore, when a part of a character string is missing, a part of a character string is replaced with another character string, or a case where another character string is mixed in a character string, Alternatively, when a local deformation occurs in the collated character string, it is determined that the character strings are not collated because the minute character strings around the deformed portion do not match. As described above, the first type of collation system of the related art has a disadvantage that local deformation of a character string cannot be tolerated.

【0005】[0005]

【発明が解決しようとする課題】本発明は、上述の従来
の照合システムの問題点に鑑み、情報の類似性を判定す
る類似情報照合装置において、照合される情報に対応し
た第1のパターン或いは第2のパターン内で、部分的に
一致する微小パターンが一部欠落、他のパターンとの置
換、或いは、他のパターンによる混入などによって、パ
ターンの全域に分散された場合でも、パターンの照合を
行うことにより情報の類似性を判定することができる類
似情報照合装置、類似情報照合方法及び類似情報照合プ
ログラムを記録した記録媒体の提供を目的とする。
SUMMARY OF THE INVENTION The present invention has been made in view of the above-mentioned problems of the conventional collating system, and has been described in the context of a similar information collating apparatus which determines the similarity of information. In the second pattern, even when a minute pattern that partially matches is partially dispersed, replaced with another pattern, or mixed in with another pattern, the pattern matching is performed even if it is dispersed throughout the pattern. It is an object of the present invention to provide a similar information collation device, a similar information collation method, and a recording medium on which a similar information collation program is recorded, which can determine the similarity of information by performing the same.

【0006】[0006]

【課題を解決するための手段】上記の目的を達成するた
め、本発明は、パターンの照合位置を追跡し、離間した
照合位置を許容する連続性の概念を導入し、この連続性
を評価して照合の漏れを防止する。図1は本発明の原理
構成図である。本発明の情報の類似性を判定する類似情
報照合装置1は、照合されるべき第1の情報及び第2の
情報から、情報の要素の位置及び特徴により表されるパ
ターンとして、上記第1の情報に対応する第1のパター
ン及び上記第2の情報に対応する第2のパターンを生成
するパターン生成手段10と、上記第1のパターン及び
上記第2のパターンの中で同じ特徴を有する上記第1の
パターンに属する第1の要素及び上記第2のパターンに
属する第2の要素の夫々の位置の対を座標とする照合位
置により構成される照合マップ30を作成する照合マッ
プ生成手段20と、上記照合マップ30内で近傍にある
上記照合位置が順次に連結された経路毎に上記経路の連
続性を評価する連続性評価手段40と、上記経路毎に評
価された連続性に基づいて上記第1のパターンと上記第
2のパターンの合致度を判定するパターン照合手段50
とを含む。
In order to achieve the above object, the present invention introduces a concept of continuity which tracks a pattern matching position and allows a separated matching position, and evaluates this continuity. To prevent omission of verification. FIG. 1 is a diagram showing the principle of the present invention. The similarity information matching device 1 for determining the similarity of information according to the present invention uses the first information and the second information to be compared as a pattern represented by the position and characteristic of an element of the information. Pattern generating means 10 for generating a first pattern corresponding to information and a second pattern corresponding to the second information; and a second pattern having the same characteristics among the first pattern and the second pattern. A collation map generating means 20 for producing a collation map 30 composed of a collation position using a pair of respective positions of a first element belonging to one pattern and a second element belonging to the second pattern as coordinates, A continuity evaluating means for evaluating the continuity of the route for each of the routes in which the matching positions in the vicinity in the matching map are sequentially connected, and the continuity evaluating means for evaluating the continuity evaluated for each of the routes. Patterns and the determining pattern matching means for matching of the second pattern 50
And

【0007】上記照合マップ作成手段20は、同じ特徴
を有する上記第1の要素及び上記第2の要素の複数の組
合せに対し、個別に上記照合位置を作成することを特徴
とする。また、上記パターン照合手段50は、上記照合
位置毎に該照合位置を通過する上記経路に対し評価され
た連続性の中で最も高い連続性を該照合位置の評価値と
して設定する手段と、上記照合位置毎に設定された評価
値に基づいて上記第1のパターンと上記第2のパターン
の合致度を計算する手段とを有する。
[0007] The collation map creating means 20 is characterized in that the collation positions are individually created for a plurality of combinations of the first element and the second element having the same characteristics. Further, the pattern matching means 50 sets, for each of the matching positions, the highest continuity among the continuities evaluated for the path passing through the matching position as an evaluation value of the matching position, Means for calculating a degree of coincidence between the first pattern and the second pattern based on an evaluation value set for each collation position.

【0008】さらに、上記パターン生成手段10は、上
記パターンとして表される上記情報の少なくとも一部の
要素に対し、上記少なくとも一部の元の要素の特徴を置
換可能な特徴を有する同義的な要素を生成する手段と、
上記同義的な要素が上記元の要素と同時に列挙されるよ
う上記パターンを生成する手段とを有し、上記照合マッ
プ生成手段20と、上記連続性評価手段30と、上記パ
ターン照合手段40とは、同時に列挙された上記同義的
な要素を上記元の要素と並行して処理するよう適合され
ていることを特徴とする。
[0008] Further, the pattern generating means 10 is a synonymous element having a feature capable of replacing a feature of the at least part of the original element with respect to at least a part of the information represented as the pattern. Means for generating
Means for generating the pattern so that the synonymous elements are listed at the same time as the original element. The matching map generating means 20, the continuity evaluating means 30, and the pattern matching means 40 , Characterized in that the synonymous elements listed at the same time are adapted to be processed in parallel with the original elements.

【0009】また、上記照合マップ生成手段20は、上
記要素が数値を表現する特徴を有する場合に、数値の表
す値が一致する場合に同じ特徴であると判定する手段を
有するように構成してもよい。図2は、上記本発明の目
的を達成する情報の要素の位置及び特徴により表される
第1のパターンと第2のパターンを照合することにより
情報の類似性を判定する類似情報照合方法の動作フロー
チャートである。同図に示す如く、本発明の類似情報照
合方法は、上記第1のパターン及び上記第2のパターン
を入力する段階(ステップ1)と、上記第1のパターン
及び上記第2のパターンの中で同じ特徴を有する上記第
1のパターンに属する第1の要素及び上記第2のパター
ンに属する第2の要素を検出する段階(ステップ2)
と、上記検出された第1の要素及び第2の要素の夫々の
位置の対を座標とする照合マップを作成する照合マップ
生成段階(ステップ3)と、上記照合マップ内で近傍に
ある上記照合位置を順次に連結することにより経路を生
成する経路生成段階(ステップ4)と、上記生成された
経路毎に上記経路の連続性を評価する連続性評価段階
(ステップ5)と、上記経路毎に評価された連続性に基
づいて上記第1のパターンと上記第2のパターンの合致
度を判定するパターン照合段階(ステップ6)とを含
む。
The collation map generation means 20 is configured to include a means for judging that the element has the same characteristic when the element has a characteristic expressing a numerical value and the value represented by the numerical value matches. Is also good. FIG. 2 shows an operation of a similarity information matching method for determining the similarity of information by comparing a first pattern and a second pattern represented by the positions and characteristics of information elements to achieve the object of the present invention. It is a flowchart. As shown in the drawing, the similar information collating method of the present invention comprises the steps of inputting the first pattern and the second pattern (step 1), and includes the steps of inputting the first pattern and the second pattern. Detecting a first element belonging to the first pattern and a second element belonging to the second pattern having the same characteristics (step 2)
A matching map generating step of creating a matching map having coordinates of pairs of the positions of the detected first element and the detected second element (step 3); and a step of generating the matching map in the vicinity of the matching map. A route generation step of generating a route by sequentially connecting positions (step 4), a continuity evaluation step of evaluating the continuity of the route for each of the generated routes (step 5), A pattern matching step (step 6) of determining a matching degree between the first pattern and the second pattern based on the evaluated continuity.

【0010】また、情報の類似性を判定する類似情報照
合システムにおいて、情報の類似性を判定する上記の本
発明の類似情報照合装置及び方法は、コンピュータが読
み取り可能な記録媒体に記録したプログラム(ソフトウ
ェア)として実現してもよい。したがって、本発明は、
情報の類似性を判定する類似情報照合プログラムを記録
したコンピュータが読み取り可能な記録媒体を含む。上
記類似情報照合プログラムは、照合されるべき第1の情
報及び第2の情報から、情報の要素の位置及び特徴によ
り表されるパターンとして、上記第1の情報に対応する
第1のパターン及び上記第2の情報に対応する第2のパ
ターンを生成させるパターン生成コードと、上記第1の
パターン及び上記第2のパターンの中で同じ特徴を有す
る上記第1のパターンに属する第1の要素及び上記第2
のパターンに属する第2の要素の夫々の位置の対を座標
とする照合位置により構成される照合マップを作成させ
る照合マップ生成コードと、上記照合マップ内で近傍に
ある上記照合位置が順次に連結された経路毎に上記経路
の連続性を評価させる連続性評価コードと、上記経路毎
に評価された連続性に基づいて上記第1のパターンと上
記第2のパターンの合致度を判定させるパターン照合コ
ードとを含むことを特徴とする。
Further, in the similar information collating system for judging the similarity of information, the similar information collating apparatus and method of the present invention for judging the similarity of information according to the present invention provide a computer-readable storage medium storing a program ( Software). Therefore, the present invention
It includes a computer-readable recording medium that records a similarity information collation program that determines the similarity of information. The similarity information collation program extracts a first pattern corresponding to the first information from the first information and the second information to be collated as a pattern represented by a position and a characteristic of an element of the information. A pattern generation code for generating a second pattern corresponding to the second information; a first element belonging to the first pattern having the same feature in the first pattern and the second pattern; Second
The collation map generation code for creating a collation map composed of the collation positions each having a pair of the positions of the second elements belonging to the pattern and the collation positions adjacent in the collation map are sequentially connected. Pattern matching for evaluating the continuity of the route for each of the determined routes, and pattern matching for determining the degree of matching between the first pattern and the second pattern based on the continuity evaluated for each of the routes And a code.

【0011】[0011]

【発明の実施の形態】以下、添付図面を参照して本発明
の一実施例による文字列照合システムを説明する。本実
施例の文字列照合システムは、被検索文書ファイルに保
存された被検索文書の中からオペレータが入力した検索
文と類似した文を含む被検索文書をオペレータに提示す
るシステムである。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS A character string collating system according to one embodiment of the present invention will be described below with reference to the accompanying drawings. The character string matching system according to the present embodiment is a system for presenting a searched document including a sentence similar to the search sentence input by the operator from the searched documents stored in the searched document file to the operator.

【0012】図3は、本発明の一実施例による文字列照
合システムの概略的な構成図であり、図4は、この文字
列照合システムの動作フローチャートである。文字列照
合システムは、ステップ10においてオペレータから入
力された検索文を受ける照合データ生成部110を有す
る。また、照合データ生成部110は、検索文を照合に
適した照合データとしての照合文字列に変換する(ステ
ップ20)。文字列照合システムは、ステップ20にお
いて被検索文書ファイル140から被検索文書を取り出
し、照合文字列との照合に適した被照合文字列及び被照
合文字列が属する被検索文書の文書識別番号を含む被照
合データを生成する被照合データ生成部130を更に有
する。
FIG. 3 is a schematic configuration diagram of a character string collating system according to an embodiment of the present invention, and FIG. 4 is an operation flowchart of the character string collating system. The character string collation system includes a collation data generator 110 that receives a search sentence input by an operator in step 10. The collation data generation unit 110 converts the search sentence into a collation character string as collation data suitable for collation (step 20). In step 20, the character string matching system extracts the searched document from the searched document file 140, and includes the matched character string suitable for matching with the matched character string and the document identification number of the searched document to which the matched character string belongs. It further has a data-to-be-collated generating unit 130 that generates data to be collated.

【0013】照合データとしての照合文字列及び被照合
データとしての被照合文字列は、種々の情報を表現する
パターンの中で、特に、文字情報を表現するパターンで
ある。文字列内の各文字がパターンの要素に対応する。
要素は、その文字の特徴としての文字コードと、その文
字の文字列内における位置とによって表される。また、
文字列照合システムは照合マップ生成部150を更に有
し、照合マップ生成部150は、照合データ生成部11
0からの照合文字列と、被照合データ生成部130から
の被照合文字列とを受け、共通文字を検出し(ステップ
30)、照合マップを作成、出力する(ステップ4
0)。
The collation character string as collation data and the collation character string as collation data are patterns expressing character information, among patterns expressing various information. Each character in the string corresponds to an element of the pattern.
The element is represented by a character code as a characteristic of the character and a position of the character in the character string. Also,
The character string collation system further includes a collation map generation unit 150, and the collation map generation unit 150
Receiving the collation character string from 0 and the collation character string from the collation data generation unit 130, a common character is detected (step 30), and a collation map is created and output (step 4).
0).

【0014】照合マップは、照合文字列及び被照合文字
列に共通して含まれる共通文字の照合文字列及び被照合
文字列での位置を夫々X座標及びY座標として表される
位置(X,Y)を照合位置として有するマップである。
照合マップは、パターンとして文字列が採用される場合
には2次元のマップとして構築することができる。文字
列照合システムは連続性評価部160及び検索結果出力
部170を更に有する。連続性評価部160は、照合マ
ップ生成部150によって作成、出力された照合マップ
を受け、照合文字列と被照合文字列とを照合し、照合結
果を検索結果出力部に渡す。そのため、連続性評価部1
60は、照合マップ内で、照合位置から近傍の照合位置
を順次に追跡することにより一連の照合位置を含む経路
を形成し(ステップ50)、経路毎に連続性の値を計算
し(ステップ60)、各照合位置に対する評価値とし
て、その照合位置を通過する経路の連続性の値の中で最
高の連続性の値を選択し(ステップ70)、照合文字列
の各文字についての照合位置の評価値を集計する(ステ
ップ80)。この集計結果は、照合文字列と被照合文字
列の類似性を表している。
In the collation map, the positions of the common characters included in the collation character string and the collated character string in the collation character string and the collated character string are represented as X coordinates and Y coordinates, respectively (X, Y). Y) is a map having Y) as a collation position.
The collation map can be constructed as a two-dimensional map when a character string is adopted as a pattern. The character string collation system further includes a continuity evaluation unit 160 and a search result output unit 170. The continuity evaluation unit 160 receives the collation map created and output by the collation map generation unit 150, collates the collation character string with the collated character string, and passes the collation result to the search result output unit. Therefore, the continuity evaluation unit 1
60 sequentially forms a path including a series of collation positions by sequentially tracking collation positions near the collation position in the collation map (step 50), and calculates a continuity value for each path (step 60). ), As an evaluation value for each collation position, the highest continuity value among the continuity values of the route passing through the collation position is selected (step 70), and the collation position of each character of the collation character string is determined. The evaluation values are totaled (step 80). This total result indicates the similarity between the collation character string and the collated character string.

【0015】検索結果出力部170は、連続性評価部1
60から照合結果を受け、照合文字列と類似していると
判定された被照合文字列を含む被検索文書に関する情報
を被検索文書ファイル140から取り出し、オペレータ
に通知する(ステップ90)。以下、本発明の一実施例
の文字列照合システムについて詳述する。
The search result output unit 170 is a continuity evaluation unit 1
Receiving the collation result from 60, information relating to the retrieved document including the collated character string determined to be similar to the collated character string is extracted from the retrieved document file 140 and notified to the operator (step 90). Hereinafter, a character string collation system according to an embodiment of the present invention will be described in detail.

【0016】図5は本例における文字列照合システムの
照合データ生成部110の構成図である。同図に示す如
く、照合データ生成部110は、検索文を入力し、検索
文拡張辞書120を参照して拡張検索文を出力する検索
文拡張部111と、検索拡張部を入力して正規化拡張検
索文に変換する検索文正規化部112と、正規化拡張検
索文を入力して数値表現部分を同じ形式に変換し、最終
的な照合データとしての照合文字列を出力する数値表現
置き換え部113とを有する。
FIG. 5 is a block diagram of the collation data generation unit 110 of the character string collation system in this embodiment. As shown in the figure, a collation data generation unit 110 inputs a search sentence, and outputs a search sentence expansion unit 111 by referring to a search sentence expansion dictionary 120. A search sentence normalizing unit 112 for converting into an extended search sentence, and a numeric expression replacing unit for inputting the normalized extended search sentence, converting the numerical expression part into the same format, and outputting a collation character string as final collation data 113.

【0017】検索文拡張部111は、オペレータから検
索文(例えば、「文書検索の高速化」)が入力され、検
索文の中の文字列(例えば、「検索」)を置き換え可能
な文字列が検索文拡張辞書120内に存在するかどうか
を判定し、置き換え可能な文字列(例えば、「抽出」)
が検索文拡張辞書120内に存在する場合に、その置き
換え可能な文字列(「抽出」)を、文字列(「検索」)
の同義語として検索文に付加し、拡張検索文を出力す
る。置き換え可能な文字列が存在しない場合には、入力
された検索文がそのまま拡張検索文として出力される。
この場合の拡張検索文は、「文書{検索|抽出}の高速
化」のように表現され、{文字列a|文字列b}の部分
が拡張された部分であり、文字列aと文字列bが同義語
であることを表す。
The search sentence expansion unit 111 receives a search sentence (eg, “speed-up of document search”) from the operator and generates a character string that can replace a character string (eg, “search”) in the search sentence. It is determined whether it exists in the search sentence expansion dictionary 120, and a replaceable character string (for example, “extract”)
Is present in the search sentence expansion dictionary 120, the replaceable character string (“extraction”) is converted into a character string (“search”).
Is added to the search sentence as a synonym for, and an extended search sentence is output. If there is no replaceable character string, the input search sentence is output as it is as an extended search sentence.
The extended search sentence in this case is expressed as “speedup of document {search | extraction}”, where {character string a | character string b} is an extended part, and character string a and character string b represents a synonym.

【0018】検索文正規化部112は、検索文拡張部1
11から出力された拡張検索文を入力し、拡張検索文内
の文字の正規化を行い、正規化拡張検索文を出力する。
文字の正規化とは、例えば、英数字カナの半角文字から
全角文字への変換、英字の小文字から大文字への変換、
或いは、句読点、改行制御文字及び伸張音等の検索の際
に無視されるべきノイズ文字の削除等の処理を意味す
る。
The search sentence normalizing unit 112 includes a search sentence expanding unit 1
The extended search sentence output from 11 is input, characters in the extended search sentence are normalized, and a normalized extended search sentence is output.
Character normalization is, for example, conversion of half-width characters of alphanumeric kana to full-width characters, conversion of lowercase letters to uppercase letters,
Alternatively, it means processing such as deletion of noise characters that should be ignored when searching for punctuation marks, line feed control characters, extended sounds, and the like.

【0019】数値表現置き換え部113は、検索文正規
化部112から出力された正規化拡張検索文を受け、正
規化拡張検索文中に数値により定量表現された部分文字
列が存在するかどうかを判定する。定量表現された部分
文字列が存在する場合、その部分文字列を値に変換し、
正規化拡張検索文中の定量表現部分が値によって置換さ
れた最終的な照合データとしての照合文字列を作成、出
力する。
The numerical expression replacement unit 113 receives the normalized expanded search sentence output from the search sentence normalizing unit 112, and determines whether or not a partial character string quantitatively expressed by a numerical value exists in the normalized expanded search sentence. I do. If there is a substring expressed quantitatively, convert the substring to a value,
Creates and outputs a collation character string as final collation data in which the quantitative expression part in the normalized extended search sentence is replaced by a value.

【0020】図6は本例における文字列照合システムの
被照合データ生成部130の構成図である。同図に示す
如く、被照合データ生成部130は、被検索文書ファイ
ル140から、検索に必要な全ての被検索文書を読み出
し、出力する被検索文書読み込み部131を有する。被
照合データ生成部130は、被検索文書正規化部132
及び数値表現置き換え部133を更に有する。
FIG. 6 is a configuration diagram of the collated data generation unit 130 of the character string collation system in this example. As shown in the figure, the matching data generation unit 130 has a searched document reading unit 131 that reads all the searched documents required for the search from the searched document file 140 and outputs the read documents. The data-to-be-verified unit 130 is a unit for normalizing the document to be searched 132
And a numerical expression replacement unit 133.

【0021】被検索文書正規化部132は、被検索文書
読み込み部131から被検索文書を入力し、被検索文書
内の文字の正規化を行い、正規化被検索文書を出力す
る。文字の正規化については、検索文正規化部112で
説明した通りである。また、数値表現置き換え部133
は、被検索文書正規化部132から正規化被検索文書を
受け、正規化被検索文書中に数値により定量表現された
部分文字列が存在する場合に、その部分文字列を値に変
換し、正規化被検索文書中の定量表現部分が値によって
置換された最終的な被照合データとしての被照合文字列
を作成、出力する。
The search target document normalizing section 132 receives the search target document from the search target document reading section 131, normalizes characters in the search target document, and outputs a normalized search target document. The normalization of characters is as described in the search sentence normalization unit 112. In addition, the numerical expression replacement unit 133
Receives the normalized search target document from the search target document normalization unit 132, and if there is a substring quantitatively represented by a numerical value in the normalized search target document, converts the substring into a value; It creates and outputs a collated character string as final collated data in which the quantitative expression part in the normalized searched document is replaced by a value.

【0022】次に、本発明の一実施例による文字列照合
システムの照合マップ生成部150の機能について詳述
する。図3に示される如く、照合マップ生成部150
は、照合データ生成部110及び被照合データ生成部1
30に接続され、照合データとしての照合文字列及び被
照合データとしての被照合文字列を夫々から受け、照合
マップを生成するよう機能する。
Next, the function of the matching map generator 150 of the character string matching system according to one embodiment of the present invention will be described in detail. As shown in FIG.
Are the collation data generation unit 110 and the collation target data generation unit 1
And a function of receiving a collation character string as collation data and a collation character string as collation data from each, and generating a collation map.

【0023】照合マップ生成部150は、最初に、照合
文字列と被照合文字列の双方に共通して含まれる文字、
すなわち、共通文字を検出する。例えば、照合文字列を
「文書検索の高速化」とし、被照合文字列を「高速な文
書の検索を行う」とすると、共通文字は、「高」、
「速」、「文」、「書」、「の」、「検」及び「索」で
ある。次に、照合文字列における共通文字の位置をY座
標とし、被照合文字列における共通文字の位置をX座標
とする照合位置により構成される照合マップを生成す
る。
First, the collation map generation unit 150 first generates a character included in both the collation character string and the collated character string,
That is, a common character is detected. For example, if the collation character string is “speed up document search” and the collated character string is “search for high-speed document”, the common characters are “high”,
"Quick", "sentence", "call", "no", "inspection" and "search". Next, a collation map is generated that includes collation positions where the position of the common character in the collation character string is the Y coordinate and the position of the common character in the collation character string is the X coordinate.

【0024】図7は、照合マップの概念がよりよく理解
されるように、一例として、上記の照合文字列及び被照
合文字列に対し生成された照合マップを視覚的に表現し
た説明図である。同図において“○”で示される点が照
合位置に対応する。本例では、簡単のため、被照合文字
列は同義語を含まない場合を想定している。一方、既に
説明した通り、検索文拡張部111において、照合文字
列「文書検索の高速化」が拡張検索文「文書{検索|抽
出}の高速化」の形として同義語を含むように拡張され
ている場合、図8に示すような照合マップが得られる。
この場合、検索文字列内での共通文字の位置を表すY座
標は補正される。すなわち、「検」と「抽」のY座標、
並びに、「索」と「出」のY座標は一致するように補正
される。
FIG. 7 is an explanatory diagram showing, by way of example, a collation map generated for the collation character string and the collated character string, so that the concept of the collation map is better understood. . In the figure, a point indicated by “○” corresponds to the collation position. In this example, for the sake of simplicity, it is assumed that the collated character string does not include a synonym. On the other hand, as described above, in the search sentence expansion unit 111, the collation character string “speed up document search” is expanded to include a synonym in the form of the expanded search sentence “speed up document {search | extraction}”. , A matching map as shown in FIG. 8 is obtained.
In this case, the Y coordinate representing the position of the common character in the search character string is corrected. In other words, the Y coordinate of “test” and “extraction”,
In addition, the Y coordinates of the “line” and the “go” are corrected so as to match.

【0025】かくして、照合マップ生成部150は、照
合文字列中の共通文字の位置を表すY座標値と、照合文
字列に同義語が含まれる場合の共通文字の位置の補正値
であるY補正値と、被照合文字列中の共通文字の位置を
表すX座標値と、被照合データに対応する文書識別番号
とを照合マップとして出力する。連続性評価部160
は、総合マップ生成部150から照合マップを入力す
る。連続性評価部160では、文書識別番号毎に、照合
文字列と被照合文字列の類似性が評価される。そのた
め、連続性評価部160は、最初に、照合マップ内の照
合位置を追跡し、全ての照合位置に連続性評価値を付与
し、次に、同じ照合文字列内の文字に対し存在し得る複
数の照合位置の連続性評価値の中から最大値を照合文字
列内の当該文字の連続性評価値として選択する。最後
に、照合文字列内の文字毎に得られた連続性評価値を照
合文字列全体に関して集計し、正規化し、得られた値を
照合文字列と被照合文字列の合致度とする。合致度は、
文書識別番号と共に連続性評価部160から検索結果出
力部170に送られる。
Thus, the collation map generator 150 generates a Y coordinate value representing the position of the common character in the collation character string and a Y correction value which is a correction value of the position of the common character when the collation character string contains a synonym. A value, an X coordinate value representing the position of a common character in the collated character string, and a document identification number corresponding to the collated data are output as a collation map. Continuity evaluation unit 160
Inputs the collation map from the comprehensive map generation unit 150. The continuity evaluation unit 160 evaluates the similarity between the collated character string and the collated character string for each document identification number. Therefore, the continuity evaluation unit 160 first tracks the collation position in the collation map, assigns a continuity evaluation value to all collation positions, and then exists for characters in the same collation character string. The maximum value is selected as the continuity evaluation value of the character in the collation character string from the continuity evaluation values of the plurality of collation positions. Lastly, the continuity evaluation value obtained for each character in the collation character string is totaled and normalized for the entire collation character string, and the obtained value is used as the matching degree between the collation character string and the collated character string. The degree of match is
The continuity evaluation unit 160 sends the search result output unit 170 together with the document identification number.

【0026】以下、連続性評価について詳述する。図9
は、本発明の一実施例による文字列照合システムにおい
て行われる連続性評価のための経路追跡の説明図であ
る。経路追跡処理は、図7に示された照合マップの照合
位置に関して、一つの照合位置から有効距離内にある他
の照合位置を探し、リンクを張る。この経路追跡処理を
繰り返すことにより、照合マップ内の照合位置は、分岐
を含む幾つかの経路に分類される。図9には、「高」か
ら「速」への経路と、「書」から「の」の分岐及び
「書」から「検」を経由して「索」に至る分岐を含む
「文」と「書」を含む経路とが示されている。
Hereinafter, the continuity evaluation will be described in detail. FIG.
FIG. 4 is an explanatory diagram of path tracking for continuity evaluation performed in the character string collation system according to one embodiment of the present invention. In the route tracking processing, with respect to the collation positions in the collation map shown in FIG. 7, another collation position within an effective distance from one collation position is searched for and a link is established. By repeating this route tracking process, the matching position in the matching map is classified into several routes including branches. FIG. 9 shows a path from “high” to “fast”, and a “sentence” including a branch from “sho” to “no” and a branch from “sho” through “ken” to “search”. The path including the “book” is shown.

【0027】図10は、照合位置の典型的な4通りの連
続性の形を説明する図である。一般に、連続した文字列
が照合している箇所では、照合位置のリンクは右下45
度の方向に並ぶ。同図の(A)は、全ての照合位置が右
下45度方向に並ぶ完全一致の場合を示す図である。同
図の(B)は、データの(1字)欠落がある場合を示
し、(C)はデータの(1字)置換がある場合を示し、
(D)はデータの(2字)混入がある場合を示す図であ
る。これらのリンクを追跡することにより、データの欠
落、置換、混入が生じている場合でも、連続性を保った
まま照合を評価することができる。
FIG. 10 is a diagram for explaining four typical types of continuity of the collation position. In general, where a continuous character string is collated, the link of the collation position is the lower right 45
Line up in the direction of degrees. FIG. 7A is a diagram showing a case where all the matching positions are completely matched in the lower right direction at 45 degrees. (B) of the figure shows a case where there is (one character) missing in data, (C) shows a case where there is (one character) replacement of data,
(D) is a diagram showing a case where data (two characters) is mixed. By tracking these links, the collation can be evaluated while maintaining continuity even when data is missing, replaced, or mixed.

【0028】連続性評価部160は、経路の生成に続い
て合致度の算出処理を行う。ここで、照合位置間のリン
クに重みを付けるため、全ての文字について文字種別
(タイプ)を設定し、照合位置の各文字を分類する。本
例において、文字種別として、「漢字」と「かな」の2
種類に分類する場合を想定すると、漢字:「高」「速」
「文」「書」「検」「索」かな:「の」のような分類が
なされる。次に、リンクの前後の文字の文字種別t1及
びt2に応じて、文字種間のリンクの重みを以下の通り
設定する。 文字種間の重み(Wt )= f(t1 ,t2 =W11 (t1 =漢字、t2 =漢字の場合) =W12 (t1 =漢字、t2 =かなの場合) =W21 (t1 =かな、t2 =漢字の場合) =W22 (t1 =かな、t2 =かなの場合) また、リンクには、リンクの長さ(リンクの前後の照合
位置間の距離)に応じた重みを設定する。例えば、リン
クの長さによる重みは以下の通り表される。 リンクの長さによる重み(Wl )= g(x1 ,y1 ,x2 ,y2 )=1/{(x2 −x1 2 +(y2 −y1 2 } 最後に、上記の文字種間の重み(Wt )とリンクの長さ
による重み(Wl )とを結合することにより、一つのリ
ンクについての以下の評価値が得られる。 1リンクの評価値= v=Wt ・Wl =f(t1 ,t2 )・g(x1 ,y1 ,x2 ,y2 ) 連続性評価部160では、次に、照合マップ内の経路追
跡によって獲得された経路上の全てのリンクに対し、リ
ンクの評価値を集計し、一つの経路全体の評価値を得
る。この一つの経路の評価値Vは、例えば、次の式に従
って計算することができる。
The continuity evaluation unit 160 performs a process of calculating the degree of matching following the generation of the route. Here, in order to weight the link between the collation positions, a character type (type) is set for all the characters, and each character at the collation position is classified. In this example, two character types, “Kanji” and “Kana”, are used.
Assuming the case of classification into types, kanji: "high""fast"
"Sentence", "Book", "Check", "Kana": Kana is classified as "No". Next, according to the character types t1 and t2 of the characters before and after the link, the weight of the link between the character types is set as follows. Weight between character types (W t ) = f (t 1 , t 2 ) = W11 (when t 1 = Kanji, t 2 = Kanji) = W12 (When t 1 = Kanji, t 2 = Kana) = W21 (T 1 = Kana, t 2 = Kanji) = W22 (T 1 = Kana, t 2 = Kana) Also, a weight is set for the link according to the length of the link (the distance between the collation positions before and after the link). For example, the weight according to the link length is expressed as follows. Weight by link length (W l ) = g (x 1 , y 1 , x 2 , y 2 ) = 1 / {(x 2 −x 1 ) 2 + (y 2 −y 1 ) 2 } Finally, By combining the weight (W t ) between the character types and the weight (W l ) based on the length of the link, the following evaluation value for one link is obtained. 1 link evaluation value = v = W t · W l = f (t 1, t 2) · g in (x 1, y 1, x 2, y 2) continuity evaluation unit 160, then the lookup map For all the links on the route obtained by the route tracing, the evaluation values of the links are totaled, and the evaluation value of one entire route is obtained. The evaluation value V of this one route can be calculated according to the following formula, for example.

【0029】[0029]

【数1】 式中、kは着目経路上のリンクのインデックス、nは着
目経路上のリンクの総数+1、vk は着目経路上の各リ
ンクの評価値を表す。かくして得られた一つの経路の評
価値Vは、着目経路上の各照合位置に照合位置の評価値
xyとして設定される。また、経路が分岐を含む場合に
は、例えば、分岐毎に計算された経路の評価値の中で最
も評価値の高い分岐を含む経路が有効であるとして選択
することができる。このようにして、照合マップ内で生
成された全ての経路に対して上記の一つの経路の評価値
Vを求めることにより、照合マップの内の全ての照合位
置に関して照合位置の評価値Vxyが得られる。
(Equation 1) In the equation, k is the index of the link on the path of interest, n is the total number of links on the path of interest + 1, and v k is the evaluation value of each link on the path of interest. The evaluation value V of one path thus obtained is set as an evaluation value Vxy of the collation position at each collation position on the path of interest . When the route includes a branch, for example, a route including a branch having the highest evaluation value among the evaluation values of the routes calculated for each branch can be selected as valid. In this way, by calculating the evaluation value V of the above one path for all the paths generated in the collation map, the evaluation value V xy of the collation position is obtained for all the collation positions in the collation map. can get.

【0030】次に、照合文字列中の各文字列に関する評
価値を得る。例えば、図7に示される如く、照合文字列
中の文字に対応する照合位置が高々1個しかない場合に
は、対応する照合位置が存在する照合文字列中の文字の
評価値として、その照合位置の評価値を設定し、照合文
字列中のそれ以外の文字の評価値は零とする。また、照
合文字列中の文字に対応する照合位置が2個以上存在す
る場合には、対応する照合位置の評価値の中で最大の評
価値をその文字の評価値として設定する。かくして、照
合文字列中の全ての文字に対し連続性の評価値を得るこ
とができる。
Next, an evaluation value for each character string in the collation character string is obtained. For example, as shown in FIG. 7, when there is at most one collation position corresponding to the character in the collation character string, the collation position is determined as the evaluation value of the character in the collation character string where the corresponding collation position exists. The evaluation value of the position is set, and the evaluation values of other characters in the collation character string are set to zero. If there are two or more collation positions corresponding to the character in the collation character string, the largest evaluation value among the evaluation values of the corresponding collation positions is set as the evaluation value of the character. Thus, the continuity evaluation value can be obtained for all the characters in the collation character string.

【0031】最後に、照合文字列全体として被照合文字
列との合致度を求めるため、照合文字列中の全ての文字
に関する連続性の評価値を集計して集計値を得る。連続
性評価値の集計値Vtotal は、例えば、次式に従って計
算される。
Finally, in order to determine the degree of matching of the entire collation character string with the collated character string, the continuity evaluation values of all the characters in the collation character string are totaled to obtain a total value. The total value V total of the continuity evaluation values is calculated, for example, according to the following equation.

【0032】[0032]

【数2】 照合文字列全体としての被照合文字列との合致度は、例
えば、この連続性評価値の集計値Vtotal を完全一致の
場合の連続性評価値の集計値Vequal で除算した値によ
って表される。 合致度=Vtotal /Vequal 合致度をこのように表現することにより、連続性評価値
の集計値は完全一致の場合に最大値1.0をとる。この
ようにして得られた合致度は、文書識別番号と共に、照
合結果として次の検索結果出力部170に送られる。
(Equation 2)For example, the degree of matching with the matched string as the entire matched string is
For example, the total value V of the continuity evaluation valuetotalAn exact match of
Total value V of continuity evaluation value in caseequalBy the value divided by
Is expressed. Matching degree = Vtotal/ Vequal  By expressing the degree of coincidence in this way, the continuity evaluation value
Takes the maximum value of 1.0 in the case of a perfect match. this
The matching degree obtained in this way is referenced together with the document identification number.
The result is sent to the next search result output unit 170 as a combined result.

【0033】図11は本発明の一実施例による文字列照
合システムの検索結果出力部の構成図である。同図に示
されるように、検索結果出力部170は、照合結果変換
部171と、検索結果表示部172と、検索結果選択部
173と、文書表示部174とを含む。照合結果変換部
171は、連続性評価部160から、上記合致度及び文
書識別番号を照合結果として入力し、文書識別番号に基
づいて照合結果に対応する文書の見出し、要約情報等を
被検索文書ファイル140から読み込み、合致度の順に
照合結果の文書に関する情報を並べ換え、検索結果とし
て出力する。
FIG. 11 is a configuration diagram of a search result output unit of the character string collating system according to one embodiment of the present invention. As shown in the figure, the search result output section 170 includes a collation result conversion section 171, a search result display section 172, a search result selection section 173, and a document display section 174. The matching result conversion unit 171 inputs the matching degree and the document identification number from the continuity evaluation unit 160 as the matching result, and based on the document identification number, searches the document heading, summary information, and the like corresponding to the matching result for the searched document. The information is read from the file 140, and the information on the document as the collation result is rearranged in the order of the matching degree, and is output as the retrieval result.

【0034】検索結果表示部172は、照合結果変換部
171から検索結果を入力し、この検索結果をディスプ
レイなどの表示装置に表示させ、次の段の検索結果選択
部173に検索結果を渡す。検索結果選択部173は、
検索結果表示部172から検索結果を入力し、また、検
索結果表示に応じたオペレータからの指示を入力し、オ
ペレータから読み込むべき文書が指定された場合、指定
された文書を被検索文書ファイル140から読み込み、
選択文書として出力する。
The search result display unit 172 inputs the search result from the collation result conversion unit 171, displays the search result on a display device such as a display, and passes the search result to the search result selection unit 173 in the next stage. The search result selection unit 173
A search result is input from the search result display unit 172, and an instruction from the operator corresponding to the search result display is input. When a document to be read is specified by the operator, the specified document is read from the search target document file 140. Loading,
Output as selected document.

【0035】文書表示部174は、検索結果選択部17
3から出力された選択文書を入力し、読み込まれた選択
文書をディスプレイなどの表示装置に表示させる。本発
明の一実施例による文字列照合システムは、図3乃至1
1を参照して説明した構成及び動作に従って、オペレー
タから入力された検索文を被検索文書ファイルに格納さ
れた文書と照合し、検索文に類似した被検索文を含む文
書をオペレータに提示することができる。
The document display unit 174 includes the search result selection unit 17
The selected document output from 3 is input, and the read selected document is displayed on a display device such as a display. The character string matching system according to one embodiment of the present invention is shown in FIGS.
In accordance with the configuration and operation described with reference to 1, the search text input by the operator is compared with the document stored in the search target document file, and a document including the search text similar to the search text is presented to the operator. Can be.

【0036】次に、本発明の一実施例の文字列照合シス
テムにおいて、特に、検索文拡張部111が拡張検索文
を出力した場合の処理を説明する。本例では、検索文
「文書検索の高速化」において、文字列「検索」の同義
語「抽出」が存在する場合を考える。既に説明したよう
に、照合データが同義語を含む場合、複数の照合データ
「文書検索の高速化」及び「文書抽出の高速化」が存在
すると解釈される。また、 同義データ正規表現:文書{検索|抽出}の高速化 を用いることにより同義語が照合データ内に列挙して表
現されるような拡張検索文が作成される。このように照
合データが同義語を含む場合、照合データは、同じ位置
にある同義語の中の一つの同義語が選択されたとして処
理される。図12は、図8に示された同義語を含む照合
マップにおける経路追跡の説明図である。経路追跡の際
の有効距離は、実際に生成された照合マップに配置され
た経路上の照合位置間の距離と、一つの同義語が選択さ
れたとして処理された場合に生成される理論上の照合マ
ップ上での照合位置間の距離との差違を表す距離補正値
を考慮して計算される。
Next, in the character string collating system according to the embodiment of the present invention, a process when the search sentence expanding unit 111 outputs an extended search sentence will be described. In this example, it is assumed that a synonym “extraction” of the character string “search” exists in the search sentence “speed-up of document search”. As described above, when the collation data includes a synonym, it is interpreted that there are a plurality of collation data “speed-up document search” and “speed-up document extraction”. In addition, by using the synonym data regular expression: speeding up document {search | extraction}, an extended search sentence is created in which synonyms are enumerated in the collation data. When the collation data includes a synonym, the collation data is processed as if one of the synonyms at the same position is selected. FIG. 12 is an explanatory diagram of the path tracking in the matching map including the synonyms shown in FIG. The effective distance at the time of route tracking is the distance between the matching positions on the route actually arranged in the matching map generated, and the theoretical distance generated when one synonym is selected and processed. It is calculated in consideration of a distance correction value indicating a difference from a distance between collation positions on the collation map.

【0037】最後に、本発明の一実施例による文字列照
合システムの数値表現置き換え部113又は133にお
いて、照合文字列又は被照合文字列中の定量表現が数値
に置換された場合の処理について説明する。図13は、
類似定量文字照合の処理手順のフローチャートである。
第1に、照合文字列又は被照合文字列から、数値により
定量表現された部分文字列を抽出する(ステップ10
0)。第2に、抽出された部分文字列を値に変換する
(ステップ101)。第3に、変換された値に基づいて
数値の合致度を計算する(ステップ102)。
Lastly, a description will be given of a process in the case where the numerical expression in the collation character string or the collated character string is replaced with a numerical value in the numerical expression replacement unit 113 or 133 of the character string collation system according to one embodiment of the present invention. I do. FIG.
It is a flowchart of the processing procedure of similar quantitative character collation.
First, a partial character string quantitatively expressed by a numerical value is extracted from the collation character string or the collated character string (step 10).
0). Second, the extracted partial character string is converted into a value (step 101). Third, the degree of matching of numerical values is calculated based on the converted values (step 102).

【0038】ここで、数値により定量表現された部分文
字列の抽出は、文字列内に数値表現文字が連続して出現
した部分を検出し、取り出すことにより行われる。例え
ば、以下のような文字が数値表現文字として検出され
る。 1 2 3 4 5 6 7 8 9 0 一 二 三 四 五 六 七 八 九 零 十 百 千 万 ・・・・ 合致度は、照合文字列から得られた値(Vs)と、被照
合文字列から得られた値(Vd)とに基づいて以下の式
に従って計算することができる。
Here, the extraction of a partial character string quantitatively expressed by a numerical value is performed by detecting and extracting a portion where a numerically expressed character continuously appears in the character string. For example, the following characters are detected as numerical expression characters. 1 2 3 4 5 6 7 8 9 0 1 2 4 5 6 7 8 7 9 9 0 10 million ... The degree of matching is calculated from the value (Vs) obtained from the collation character string and the collated character string. It can be calculated according to the following equation based on the obtained value (Vd).

【0039】[0039]

【数3】 図14は、類似定量文字照合処理の説明図である。同図
には、照合文字列及び被照合文字列、定量表現による部
分文字列、部分文字列から変換された数値、並びに、変
換された数値の合致度が示されている。したがって、本
発明の一実施例によれば、コンピュータを利用した文字
列照合システムにおいて、照合文字列或いは被照合文字
列内に部分文字列の欠落、他の文字列との置換、他の文
字列の混入などによって、部分的に一致する文字列が分
散した場合に、文字列の照合を行うことができる。
(Equation 3) FIG. 14 is an explanatory diagram of the similar quantitative character collation processing. The figure shows a collation character string and a collation target character string, a partial character string by a quantitative expression, a numerical value converted from the partial character string, and a degree of matching between the converted numerical values. Therefore, according to an embodiment of the present invention, in a character string collating system using a computer, a partial character string is missing in a collated character string or a collated character string, replacement with another character string, another character string. When character strings that partially match are scattered due to mixing of characters, character string collation can be performed.

【0040】また、本発明の一実施例による文字列照合
システムの構成は、上記の実施例で説明された例に限定
されることなく、文字列照合システムの各々の構成要件
をソフトウェア(プログラム)で構築し、ディスク装置
等に記録しておき、必要に応じて文字列照合システムの
コンピュータにインストールして文字列照合を行うこと
も可能である。さらに、構築されたプログラムをフロッ
ピー(登録商標)ディスクやCD−ROM等の可搬記録
媒体に格納し、このような文字列照合システムを用いる
場面で汎用的に使用することも可能である。
Further, the configuration of the character string collating system according to one embodiment of the present invention is not limited to the example described in the above embodiment, and each component of the character string collating system is defined by software (program). It is also possible to record the data in a disk device or the like, install it in a computer of a character string collating system as needed, and perform character string collation. Furthermore, the constructed program can be stored in a portable recording medium such as a floppy (registered trademark) disk or CD-ROM, and can be used for general purposes in a case where such a character string collation system is used.

【0041】本発明は、上記の実施例に限定されること
なく、特許請求の範囲内で種々変更・応用が可能であ
る。
The present invention is not limited to the above embodiment, but can be variously modified and applied within the scope of the claims.

【0042】[0042]

【発明の効果】上述の如く、本発明によれば、パターン
照合を行う際に、パターンの照合位置を追跡し、照合位
置が離間していてもパターンの連続性を評価することが
できる。したがって、照合パターン或いは被照合パター
ンにおいて一部のパターンが欠落し、他のパターンと置
換され、若しくは、他のパターンが混入される等の影響
によって、照合パターンと被照合パターンとの間で部分
的に一致するパターンが分散して存在する場合でも、照
合が行える。そのため、本発明によれば、オペレータが
被照合パターンの内容を熟知していなくても、漏れの無
い照合が実現され、オペレータの負担が軽減される利点
が得られる。
As described above, according to the present invention, when performing pattern matching, the pattern matching position can be tracked, and the continuity of the pattern can be evaluated even if the matching positions are separated. Therefore, a part of the matching pattern or the to-be-checked pattern is missing, replaced with another pattern, or mixed with another pattern. Can be collated even if there are patterns that are distributed. Therefore, according to the present invention, even if the operator is not familiar with the content of the pattern to be verified, verification without omission is realized, and an advantage that the burden on the operator is reduced is obtained.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の原理構成図である。FIG. 1 is a principle configuration diagram of the present invention.

【図2】本発明の類似情報照合方法の動作フローチャー
トである。
FIG. 2 is an operation flowchart of the similarity information matching method of the present invention.

【図3】本発明の一実施例による文字列照合システムの
概略的な構成図である。
FIG. 3 is a schematic configuration diagram of a character string collation system according to an embodiment of the present invention.

【図4】本発明の一実施例による文字列照合システムの
動作フローチャートである。
FIG. 4 is an operation flowchart of the character string collation system according to one embodiment of the present invention.

【図5】本発明の一実施例による文字列照合システムの
照合データ生成部の構成図である。
FIG. 5 is a configuration diagram of a collation data generation unit of the character string collation system according to one embodiment of the present invention.

【図6】本発明の一実施例による文字列照合システムの
被照合データ生成部の構成図である。
FIG. 6 is a configuration diagram of a collated data generation unit of the character string collation system according to one embodiment of the present invention.

【図7】本発明の一実施例による照合マップを視覚的に
表現した説明図である。
FIG. 7 is an explanatory diagram visually representing a matching map according to an embodiment of the present invention.

【図8】同義語を含む場合の照合マップの説明図であ
る。
FIG. 8 is an explanatory diagram of a matching map when a synonym is included.

【図9】本発明の一実施例による文字列照合システムに
おいて行われる連続性評価のための経路追跡の説明図で
ある。
FIG. 9 is an explanatory diagram of path tracking for continuity evaluation performed in the character string collating system according to one embodiment of the present invention.

【図10】照合位置の連続性を説明する図である。FIG. 10 is a diagram for explaining the continuity of collation positions.

【図11】本発明の一実施例による文字列照合システム
の検索結果出力部の構成図である。
FIG. 11 is a configuration diagram of a search result output unit of the character string collation system according to one embodiment of the present invention.

【図12】図8に示された同義語を含む照合マップにお
ける経路追跡の説明図である。
FIG. 12 is an explanatory diagram of route tracking in a collation map including the synonyms shown in FIG. 8;

【図13】類似定量文字照合の処理手順のフローチャー
トである。
FIG. 13 is a flowchart of a processing procedure for similar quantitative character matching.

【図14】類似定量文字照合処理の説明図である。FIG. 14 is an explanatory diagram of a similar quantitative character collation process.

【符号の説明】[Explanation of symbols]

1 類似情報照合装置 10 パターン生成手段 20 照合マップ作成手段 30 照合マップ 40 連続性評価手段 50 パターン照合手段 DESCRIPTION OF SYMBOLS 1 Similar information collation apparatus 10 Pattern generation means 20 Collation map creation means 30 Collation map 40 Continuity evaluation means 50 Pattern collation means

Claims (11)

【特許請求の範囲】[Claims] 【請求項1】 情報の類似性を判定する類似情報照合装
置において、 照合されるべき第1の情報及び第2の情報から、情報の
要素の位置及び特徴により表されるパターンとして、上
記第1の情報に対応する第1のパターン及び上記第2の
情報に対応する第2のパターンを生成するパターン生成
手段と、 上記第1のパターン及び上記第2のパターンの中で同じ
特徴を有する上記第1のパターンに属する第1の要素及
び上記第2のパターンに属する第2の要素の夫々の位置
の対を座標とする照合位置により構成される照合マップ
を作成する照合マップ生成手段と、 上記照合マップ内で近傍にある上記照合位置が順次に連
結された経路毎に上記経路の連続性を評価する連続性評
価手段と、 上記経路毎に評価された連続性に基づいて上記第1のパ
ターンと上記第2のパターンの合致度を判定するパター
ン照合手段とを含む、類似情報照合装置。
1. A similarity information matching device for determining the similarity of information, wherein the first information and the second information to be matched are used as a pattern represented by a position and a characteristic of an element of the information. Pattern generating means for generating a first pattern corresponding to the first information and a second pattern corresponding to the second information, and a second pattern having the same feature in the first pattern and the second pattern. A collation map generating means for producing a collation map composed of a collation position having coordinates of pairs of positions of a first element belonging to one pattern and a second element belonging to the second pattern; A continuity evaluation means for evaluating the continuity of the route for each of the paths in which the matching positions in the vicinity are sequentially connected, and the first pattern based on the continuity evaluated for each of the routes. The matching of the emission and the second pattern and a determining pattern matching means, similarity information collating apparatus.
【請求項2】 上記照合マップ作成手段は、同じ特徴を
有する上記第1の要素及び上記第2の要素の複数の組合
せに対し、個別に上記照合位置を作成することを特徴と
する請求項1記載の類似情報照合装置。
2. The collation map creating means creates the collation positions individually for a plurality of combinations of the first element and the second element having the same characteristics. Described similarity collation device.
【請求項3】 上記パターン照合手段は、 上記照合位置毎に該照合位置を通過する上記経路に対し
評価された連続性の中で最も高い連続性を該照合位置の
評価値として設定する手段と、 上記照合位置毎に設定された評価値に基づいて上記第1
のパターンと上記第2のパターンの合致度を計算する手
段とを有する、請求項1又は2記載の類似情報照合装
置。
3. The pattern matching means sets, for each of the matching positions, the highest continuity among continuities evaluated for the path passing through the matching position as an evaluation value of the matching position. Based on the evaluation value set for each of the collation positions,
3. The similarity information matching device according to claim 1, further comprising: means for calculating a degree of coincidence between the second pattern and the second pattern.
【請求項4】 上記パターン生成手段は、上記パターン
として表される上記情報の少なくとも一部の要素に対
し、上記少なくとも一部の元の要素の特徴を置換可能な
特徴を有する同義的な要素を生成する手段と、 上記同義的な要素が上記元の要素と同時に列挙されるよ
う上記パターンを生成する手段とを有し、 上記照合マップ生成手段と、上記連続性評価手段と、上
記パターン照合手段とは、同時に列挙された上記同義的
な要素を上記元の要素と並行して処理するよう適合され
ていることを特徴とする請求項1乃至3のうちいずれか
一項記載の類似情報照合装置。
4. The pattern generating means according to claim 1, wherein at least a part of the information represented as the pattern is replaced with a synonymous element having a characteristic capable of replacing a characteristic of the at least part of the original element. Generating means; and means for generating the pattern so that the synonymous elements are listed at the same time as the original element. The matching map generating means, the continuity evaluating means, and the pattern matching means 4. The similarity matching apparatus according to claim 1, wherein the synonymous elements listed at the same time are adapted to be processed in parallel with the original elements. .
【請求項5】 上記照合マップ生成手段は、上記要素が
数値を表現する特徴を有する場合に、数値の表す値が一
致する場合に同じ特徴であると判定する手段を有するこ
とを特徴とする請求項1乃至4のうちいずれか一項記載
の類似情報照合装置。
5. The method according to claim 1, wherein said collation map generating means has means for judging that said element has the same characteristic when said element has a characteristic expressing a numerical value, when said element has a characteristic expressing a numerical value. Item 5. The similarity information matching device according to any one of Items 1 to 4.
【請求項6】 情報の要素の位置及び特徴により表され
る第1のパターンと第2のパターンを照合することによ
り情報の類似性を判定する類似情報照合方法において、 上記第1のパターン及び上記第2のパターンを入力する
段階と、 上記第1のパターン及び上記第2のパターンの中で同じ
特徴を有する上記第1のパターンに属する第1の要素及
び上記第2のパターンに属する第2の要素を検出する段
階と、 上記検出された第1の要素及び第2の要素の夫々の位置
の対を座標とする照合マップを作成する照合マップ生成
段階と、 上記照合マップ内で近傍にある上記照合位置を順次に連
結することにより経路を生成する経路生成段階と、 上記生成された経路毎に上記経路の連続性を評価する連
続性評価段階と、 上記経路毎に評価された連続性に基づいて上記第1のパ
ターンと上記第2のパターンの合致度を判定するパター
ン照合段階とを含む、類似情報照合方法。
6. A similarity information matching method for determining similarity of information by comparing a first pattern and a second pattern represented by positions and characteristics of information elements, wherein the first pattern and the Inputting a second pattern; and a first element belonging to the first pattern and a second element belonging to the second pattern having the same characteristics among the first pattern and the second pattern. Detecting an element; generating a verification map having coordinates of pairs of the detected positions of the first element and the second element; and generating a verification map having coordinates in the vicinity of the verification map. A path generation step of generating a path by sequentially connecting collation positions; a continuity evaluation step of evaluating the continuity of the path for each of the generated paths; and a continuity evaluated for each of the paths. A pattern matching step of determining a degree of matching between the first pattern and the second pattern based on the pattern matching step.
【請求項7】 情報の類似性を判定する類似情報照合プ
ログラムを記録したコンピュータが読み取り可能な記録
媒体において、 上記類似情報照合プログラムは、 照合されるべき第1の情報及び第2の情報から、情報の
要素の位置及び特徴により表されるパターンとして、上
記第1の情報に対応する第1のパターン及び上記第2の
情報に対応する第2のパターンを生成させるパターン生
成コードと、 上記第1のパターン及び上記第2のパターンの中で同じ
特徴を有する上記第1のパターンに属する第1の要素及
び上記第2のパターンに属する第2の要素の夫々の位置
の対を座標とする照合位置により構成される照合マップ
を作成させる照合マップ生成コードと、 上記照合マップ内で近傍にある上記照合位置が順次に連
結された経路毎に上記経路の連続性を評価させる連続性
評価コードと、 上記経路毎に評価された連続性に基づいて上記第1のパ
ターンと上記第2のパターンの合致度を判定させるパタ
ーン照合コードとを含む、記録媒体。
7. A computer-readable recording medium having recorded thereon a similarity information collation program for judging the similarity of information, wherein the similarity information collation program comprises: a first information and a second information to be collated; A pattern generation code for generating a first pattern corresponding to the first information and a second pattern corresponding to the second information as the pattern represented by the position and the characteristic of the element of the information; And a collation position having coordinates of a pair of positions of a first element belonging to the first pattern and a second element belonging to the second pattern having the same feature in the second pattern and the second pattern. A collation map generating code for creating a collation map composed of: Recording medium, comprising: a continuity evaluation code for evaluating the continuity of a pattern; and a pattern matching code for determining a degree of matching between the first pattern and the second pattern based on the continuity evaluated for each path. .
【請求項8】 上記照合マップ作成コードは、同じ特徴
を有する上記第1の要素及び上記第2の要素の複数の組
合せに対し、個別に上記照合位置を作成させることを特
徴とする類似情報照合プログラムを記録した請求項7記
載の記録媒体。
8. The similarity information collation method according to claim 1, wherein the collation map creation code causes the collation position to be created individually for a plurality of combinations of the first element and the second element having the same characteristics. The recording medium according to claim 7, wherein the program is recorded.
【請求項9】 上記パターン照合コードは、 上記照合位置毎に該照合位置を通過する上記経路に対し
評価された連続性の中で最も高い連続性を該照合位置の
評価値として設定させるコードと、 上記照合位置毎に設定された評価値に基づいて上記第1
のパターンと上記第2のパターンの合致度を計算させる
コードとを有する類似情報照合プログラムを記録した請
求項7又は8記載の記録媒体。
9. A code for setting the highest continuity among the continuities evaluated for the route passing through the matching position for each of the matching positions as an evaluation value of the matching position for each of the matching positions. Based on the evaluation value set for each of the collation positions,
9. The recording medium according to claim 7, wherein a similarity information matching program having a pattern for calculating the degree of matching between the second pattern and the second pattern is recorded.
【請求項10】 上記パターン生成コードは、上記パタ
ーンとして表される上記情報の少なくとも一部の要素に
対し、上記少なくとも一部の元の要素の特徴を置換可能
な特徴を有する同義的な要素を生成させるコードと、 上記同義的な要素が上記元の要素と同時に列挙されるよ
う上記パターンを生成させるコードとを有し、 同時に列挙された上記同義的な要素が上記元の要素と並
行して処理されるよう適合されていることを特徴とする
類似情報照合プログラムを記録した請求項7乃至9のう
ちいずれか一項記載の記録媒体。
10. The pattern generation code according to claim 1, wherein at least a part of the information represented as the pattern has a synonymous element having a characteristic capable of replacing a characteristic of the at least some original element. And a code for generating the pattern so that the synonymous elements are enumerated at the same time as the original element. The synonymous elements enumerated at the same time are in parallel with the original element. The recording medium according to any one of claims 7 to 9, wherein a similarity information collation program is adapted to be processed.
【請求項11】 上記照合マップ生成コードは、上記要
素が数値を表現する特徴を有する場合に、数値の表す値
が一致する場合に同じ特徴であると判定させるコードを
有することを特徴とする類似情報照合プログラムを記録
した請求項7乃至10のうちいずれか一項記載の記録媒
体。
11. The similarity characteristic that the collation map generation code has a code that, when the element has a characteristic expressing a numerical value, determines that the element has the same characteristic when the value represented by the numerical value matches. The recording medium according to any one of claims 7 to 10, wherein the information collation program is recorded.
JP07812599A 1999-03-23 1999-03-23 Similar information collating device, similar information collating method, and recording medium recording similar information collating program Expired - Lifetime JP3955410B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP07812599A JP3955410B2 (en) 1999-03-23 1999-03-23 Similar information collating device, similar information collating method, and recording medium recording similar information collating program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP07812599A JP3955410B2 (en) 1999-03-23 1999-03-23 Similar information collating device, similar information collating method, and recording medium recording similar information collating program

Publications (2)

Publication Number Publication Date
JP2000276472A true JP2000276472A (en) 2000-10-06
JP3955410B2 JP3955410B2 (en) 2007-08-08

Family

ID=13653174

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07812599A Expired - Lifetime JP3955410B2 (en) 1999-03-23 1999-03-23 Similar information collating device, similar information collating method, and recording medium recording similar information collating program

Country Status (1)

Country Link
JP (1) JP3955410B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004213535A (en) * 2003-01-08 2004-07-29 Adoin Kenkyusho:Kk System, method and program for customer information cleaning
JP2015165435A (en) * 2008-10-23 2015-09-17 アビニシオ テクノロジー エルエルシー Data recording in graph-based computations
JP2019215786A (en) * 2018-06-14 2019-12-19 Zホールディングス株式会社 Evaluation device, evaluation method, and evaluation program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004213535A (en) * 2003-01-08 2004-07-29 Adoin Kenkyusho:Kk System, method and program for customer information cleaning
JP2015165435A (en) * 2008-10-23 2015-09-17 アビニシオ テクノロジー エルエルシー Data recording in graph-based computations
JP2017107588A (en) * 2008-10-23 2017-06-15 アビニシオ テクノロジー エルエルシー Fuzzy data operations
JP2019215786A (en) * 2018-06-14 2019-12-19 Zホールディングス株式会社 Evaluation device, evaluation method, and evaluation program
JP7042701B2 (en) 2018-06-14 2022-03-28 ヤフー株式会社 Evaluation device, evaluation method and evaluation program

Also Published As

Publication number Publication date
JP3955410B2 (en) 2007-08-08

Similar Documents

Publication Publication Date Title
US6501855B1 (en) Manual-search restriction on documents not having an ASCII index
US5745745A (en) Text search method and apparatus for structured documents
JP2726568B2 (en) Character recognition method and device
EP0844583B1 (en) Method and apparatus for character recognition
US7991709B2 (en) Method and apparatus for structuring documents utilizing recognition of an ordered sequence of identifiers
US20120197908A1 (en) Method and apparatus for associating a table of contents and headings
JP3480404B2 (en) Vocabulary major classification device, its major category classification method, and recording medium recording its control program
JPH0797373B2 (en) Document matching system
JPH11110416A (en) Method and device for retrieving document from data base
US20110029303A1 (en) Word classification system, method, and program
US7197697B1 (en) Apparatus for retrieving information using reference reason of document
JP2007122403A (en) Device, method, and program for automatically extracting document title and relevant information
JPH087033A (en) Method and device for processing information
JP2008225695A (en) Character recognition error correction device and program
JP3598711B2 (en) Document filing device
JP2000276472A (en) Method and device for similar information collation and recording medium for recording similar information collation program
JP3975825B2 (en) Character recognition error correction method, apparatus and program
JPH09198404A (en) Method and device for processing document
JP3767180B2 (en) Document structure analysis method and apparatus, and storage medium storing document structure analysis program
JP2932667B2 (en) Information retrieval method and information storage device
KR102601932B1 (en) System and method for extracting data from document for each company using fingerprints and machine learning
JPH06103402A (en) Business card recognizing device
JPH10307839A (en) Text retrieving device and its method
US10515297B2 (en) Recognition device, recognition method, and computer program product
JPH09259132A (en) Device and method for information registration and retrieval

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060815

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070109

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070301

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070502

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100511

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110511

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120511

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120511

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130511

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130511

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term