JP2786380B2 - キーワード照合検索処理方法 - Google Patents
キーワード照合検索処理方法Info
- Publication number
- JP2786380B2 JP2786380B2 JP4211882A JP21188292A JP2786380B2 JP 2786380 B2 JP2786380 B2 JP 2786380B2 JP 4211882 A JP4211882 A JP 4211882A JP 21188292 A JP21188292 A JP 21188292A JP 2786380 B2 JP2786380 B2 JP 2786380B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- character
- similarity
- matching
- record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
る、キーワードの照合によって検索を行うための処理方
法、特に同一の対象を表す被検索キーワードに、短縮し
た呼称など複数の異なる名前が使用されている可能性が
あるような、曖昧性のある場合においても、妥当な照合
結果を得るようにしたキーワード照合検索処理方法に関
する。
ドによって検索を行う場合のキーワードの照合は、検索
対象のレコードのキーワードと検索キーワードとの、か
な文字、漢字、英字、数字、記号等のコード(本明細書
において、それらを文字と総称する)からなる文字列を
比較することによって行われる。
又は末尾)の文字から順次比較し、通常は両キーワード
の文字列が完全に一致するか、又は少なくとも検索キー
ワードと一致する文字列が被検索キーワードに連続して
含まれる場合のみを照合に成功したとする。
ようにするためには、それらのレコードのキーワードが
正しい同一の文字列になっていなければならないこと
は、当然である。
に、同一の会社を表す名前として、「スス"ムシキ"ンコウ」を
「スス"キ"ン」と呼ぶような類で、正式の全名称と、その一
部のみに短縮した略称のような名前とが、共に日常的に
通用していることがあり、それらがキーワードにも使用
されていることがある。
る場合、前記のような照合方法による検索では検索結果
が保証されなくなるので、レコードのキーワードとなる
データについては、例えば事前に適当な前処理を行っ
て、キーワードを整理するようなことが必要になる。
ワードを、そのまま検索対象とすることができるように
するためのキーワード照合検索処理方法を目的とする。
示す処理の流れ図である。図はキーワード照合検索処理
方法の構成であって、図1(a)に示す第1の発明では、
第1の文字列のキーワードと、第1の文字列と同数以上
の文字数を有する第2の文字列のキーワードとを照合す
るに際し、文字列の一方から他方に向かって文字位置の
順に順次減少するように定めた重みを設ける。
文字の配列順を保持して、両該文字列間で一致する文字
を検出する。処理ステップ2で、第2の文字列上の該一
致文字の文字位置について、該重みの和を求めて評価値
とする。
位置についての該重みの総和を基準評価値とする。処理
ステップ4で、該評価値を該基準評価値で除した商を照
合重要度とし、処理ステップ5で該照合重要度によって
求める所定の値を類似度とし、該類似度により両該キー
ワード間の類似性を評価する。
ップ10で第1及び第2の文字列を比較し、両該文字列の
指定の一端から連続して一致した文字数によって求める
所定の値を連続一致率とする。
重要度を求め、処理ステップ12でその照合重要度と該連
続一致率との積を前記類似度として、両該キーワード間
の類似性を評価する。
ドを含むレコード群から、所要のレコードを検索するに
際し、検索キーワードと、候補条件と、選択条件とを指
定する。
該レコードのキーワードとについて、前記第1又は第2
の発明の類似度を求める。処理ステップ21で、該類似度
の値が該候補条件を満足する該キーワードを有する該レ
コードを抽出して候補レコード群とする。
いて、該選択条件を満足する該レコードを決定する。
索対象のキーワードとの完全一致の有無のみで単純に判
定するのでなく、本発明の類似度が計算され、類似度の
大きさによって両キーワードの一致の程度が示される。
ワードである可能性の高いものを抽出することが可能に
なり、キーワードを整理する等の前処理を行う必要無し
に、検索漏れを防止し、又逆にいたずらに検索条件を緩
めて不必要なデータまで取り出すことも避けることがで
きる。
要度をそのまま使用し、或いは照合重要度と連続一致率
との積を使用することができる。又、連続一致率には、
前記第2の発明に示す連続一致文字数をそのまま使用す
るか、或いは連続一致文字数を前記第2の文字列の長さ
で除した商を使用することができる。
ら、別の選択条件によってレコードを選択するようにす
れば、目的のレコードを効率よく取り出すことができ
る。
一例を示す処理の流れ図である。本実施例では重みとし
て、第i桁(i=1,2...)の重みwiを下記の指数関数で求め
る値とする。
けとると、処理ステップ31でその長さを比較して、一方
をキーワードK1、それと同じか長い方をキーワードK2と
して、それらの長さをN1、N2とし、処理ステップ32で変
数i1を1、i2を0に設定する等の初期設定を行う。
理ステップ34でi2を+1し、処理ステップ35で前記重み
計算式のi=i2としてwiを求め、処理ステップ36で基準評
価値(初期値を0とする)にwiを加える。
ら、処理ステップ38でK1の第i1桁と、K2の第i2桁とを比
較し、一致しなければ処理ステップ33に戻り、前記のよ
うにしてK2のみを1桁先へ進める。
39で評価値 (初期値を0とする)に先に計算されている
重みwiを加え、処理ステップ40でi1を+1し、処理ステ
ップ33に戻る。
理ステップ37でi1=N1を検出すると、比較処理は終わる
ので処理ステップ33へ戻り、ここで未だi2≠N2であれ
ば、処理ステップ33〜37のループにより、i2=N2となる
まで基準評価値に重みを累積する。
理ステップ41に進み、その時求められている評価値を基
準評価値で割って商を、照合重要度として求めて処理を
終わる。
の流れ図であり、処理ステップ50で2個のキーワードを
受けとると、処理ステップ51でその長さを比較して、一
方の長さをN1、それと同じか長い方の長さをN2とし、処
理ステップ52で変数iを0に設定する等の初期設定を行
う。
理ステップ54でiを+1し、処理ステップ55で両キーの
第i桁を比較し、一致すれば処理ステップ53に戻って、
前記のようにiを進め、i=N1になるまで一致が続く間
この処理を繰り返す。
理ステップ56でiを−1し、処理ステップ57でiをN1で
割った商を連続一致率とする。又、一致が続く間に処理
ステップ53でi=N1に達したことを検出すれば、処理ス
テップ57でその時のiの値により連続一致率を求める。
文字列の先頭から比較する、いわゆる前方一致型の照合
としたが、両文字列の末尾から比較する後方一致型の照
合も、殆ど同様の手順で実行できる。
ードを検索する場合の処理例を示す処理の流れ図であ
り、処理ステップ60で指定のファイルから全レコードを
読み込むと、処理ステップ61で検索条件として、検索キ
ーワード、候補条件及び選択条件を入力する。
字とレコードのキーワードの先頭文字に一致するものが
あるか予備チェックを行い、そのようなレコードが無い
場合には、この検索は終了する。但し、この処理は検索
内容によっては、必要がない場合もある。
て類似度を求める。類似度は例えば前記図2により説明
した方法で求める照合重要度と、前記図2により説明し
た方法で求める連続一致率との積とする。
し、ソート結果について処理ステップ65で、所与の候補
条件によって候補レコード群を決める。この候補条件
は、例えばソート結果の順位の先頭から10位以内、或い
は類似度の値を指定して、指定値以上というようにす
る。
て、処理ステップ66で、所与の選択条件によりレコード
を絞る。この選択条件としては、例えば請求書発行業務
のための検索であれば、支払い期限や請求金額について
の条件が使用できる。
5(a)のようなレコードについて、検索キーワードとし
て「カワホ"カスカヘ"」が与えられた場合には、(b)に示すよう
に、前記図2及び図3で説明した処理による照合重要度
及び連続一致率が求められ、両者の積として類似度を得
ることができる。
以上というような候補条件で、図5(c)のように候補レ
コード群が得られ、更に例えば支払い期限が「920302」
から10日以内という選択条件でレコードを選ぶことがで
きる。
よれば、計算機の検索処理において、曖昧性のあるキー
ワードを、そのまま検索対象として、妥当な検索結果を
求めることができるという著しい工業的効果がある。
プ
Claims (3)
- 【請求項1】 第1の文字列のキーワードと、第1の文
字列と同数以上の文字数を有する第2の文字列のキーワ
ードとを照合するに際し、 文字列の一方から他方に向かって文字位置の順に順次減
少するように定めた重みを設け、 第1及び第2の文字列の文字の配列順を保持して、両該
文字列間で一致する文字を検出し(1)、 第2の文字列上の該一致文字の文字位置について、該重
みの和を求めて評価値とし(2)、 第2の文字列の全文字位置についての該重みの総和を基
準評価値とし(3)、 該評価値を該基準評価値で除した商を照合重要度とし
(4)、 該照合重要度によって求める所定の値を類似度とし、該
類似度により両該キーワード間の類似性を評価する(5)
ように構成されていることを特徴とするキーワード照合
検索処理方法。 - 【請求項2】 第1及び第2の文字列を比較し、両該文
字列の指定の一端から連続して一致した文字数によって
求める所定の値を連続一致率とし(10)、 前記照合重要度と該連続一致率との積を前記類似度とす
る(11、12)、請求項1記載のキーワード照合検索処理方
法。 - 【請求項3】 キーワードを含むレコード群から、所要
のレコードを検索するに際し、 検索キーワードと、候補条件と、選択条件とを指定し、 該検索キーワードと各該レコードのキーワードとについ
て、請求項1又は請求項2記載の類似度を求め(20)、 該類似度の値が該候補条件を満足する該キーワードを有
する該レコードを抽出して候補レコード群とし(21)、 該候補レコード群について、該選択条件を満足する該レ
コードを決定する(22)ように構成されていることを特徴
とするキーワード照合検索処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4211882A JP2786380B2 (ja) | 1992-08-10 | 1992-08-10 | キーワード照合検索処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4211882A JP2786380B2 (ja) | 1992-08-10 | 1992-08-10 | キーワード照合検索処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06314307A JPH06314307A (ja) | 1994-11-08 |
JP2786380B2 true JP2786380B2 (ja) | 1998-08-13 |
Family
ID=16613193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4211882A Expired - Lifetime JP2786380B2 (ja) | 1992-08-10 | 1992-08-10 | キーワード照合検索処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2786380B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3725373B2 (ja) * | 1999-08-04 | 2005-12-07 | 富士通株式会社 | 単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP4705430B2 (ja) * | 2005-07-29 | 2011-06-22 | チームラボ株式会社 | 距離の概念に基づく言語処理装置 |
JP2008077125A (ja) * | 2006-09-19 | 2008-04-03 | Seiko Precision Inc | インターフェース回路。 |
JP5301862B2 (ja) * | 2008-03-28 | 2013-09-25 | 株式会社野村総合研究所 | 著作物比較システム |
-
1992
- 1992-08-10 JP JP4211882A patent/JP2786380B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH06314307A (ja) | 1994-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0510634B1 (en) | Data base retrieval system | |
JP2607818B2 (ja) | コンピュータシステム内にレコードが記憶されているか否かを判定する方法及び装置 | |
US5357431A (en) | Character string retrieval system using index and unit for making the index | |
US5394487A (en) | Forms recognition management system and method | |
US7945552B2 (en) | System of effectively searching text for keyword, and method thereof | |
US20120041955A1 (en) | Enhanced identification of document types | |
JP2832988B2 (ja) | データ検索システム | |
JP2002520712A (ja) | データ検索システムと方法およびサーチ・エンジンにおけるその使用 | |
US20070208733A1 (en) | Query Correction Using Indexed Content on a Desktop Indexer Program | |
EP2631815A1 (en) | Method and device for ordering search results, method and device for providing information | |
JP2833580B2 (ja) | 全文インデックス作成装置および全文データベース検索装置 | |
KR960018993A (ko) | 정보 검색 방법 및 시스템 | |
JP2786380B2 (ja) | キーワード照合検索処理方法 | |
US6070169A (en) | Method and system for the determination of a particular data object utilizing attributes associated with the object | |
CN112748811A (zh) | 一种英文单词输入方法及装置 | |
JP3370787B2 (ja) | 文字配列検索方法 | |
JPH05257982A (ja) | 文字列認識方法 | |
Veretennikov | Using additional indexes for fast full-text search of phrases that contain frequently used words | |
JP2001092841A (ja) | クラスター分析処理方法およびクラスター分析プログラムを記録した記録媒体 | |
JP3534471B2 (ja) | マージソート方法及びマージソート装置 | |
JP3715413B2 (ja) | 類似文書検索装置および類似文書検索方法 | |
JP2519129B2 (ja) | マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置 | |
Cannon | OPCOL: An Optimal Text Collation Algorithm | |
JP2682448B2 (ja) | 索引検索方式 | |
JPH09212523A (ja) | 全文検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100529 Year of fee payment: 12 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100529 Year of fee payment: 12 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100529 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130529 Year of fee payment: 15 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130529 Year of fee payment: 15 |