JP2786380B2 - キーワード照合検索処理方法 - Google Patents

キーワード照合検索処理方法

Info

Publication number
JP2786380B2
JP2786380B2 JP4211882A JP21188292A JP2786380B2 JP 2786380 B2 JP2786380 B2 JP 2786380B2 JP 4211882 A JP4211882 A JP 4211882A JP 21188292 A JP21188292 A JP 21188292A JP 2786380 B2 JP2786380 B2 JP 2786380B2
Authority
JP
Japan
Prior art keywords
keyword
character
similarity
matching
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP4211882A
Other languages
English (en)
Other versions
JPH06314307A (ja
Inventor
浩 小野寺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu FIP Corp
Original Assignee
Fujitsu FIP Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu FIP Corp filed Critical Fujitsu FIP Corp
Priority to JP4211882A priority Critical patent/JP2786380B2/ja
Publication of JPH06314307A publication Critical patent/JPH06314307A/ja
Application granted granted Critical
Publication of JP2786380B2 publication Critical patent/JP2786380B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、計算機の処理におけ
る、キーワードの照合によって検索を行うための処理方
法、特に同一の対象を表す被検索キーワードに、短縮し
た呼称など複数の異なる名前が使用されている可能性が
あるような、曖昧性のある場合においても、妥当な照合
結果を得るようにしたキーワード照合検索処理方法に関
する。
【0002】
【従来の技術と発明が解決しようとする課題】キーワー
ドによって検索を行う場合のキーワードの照合は、検索
対象のレコードのキーワードと検索キーワードとの、か
な文字、漢字、英字、数字、記号等のコード(本明細書
において、それらを文字と総称する)からなる文字列を
比較することによって行われる。
【0003】その場合に、両文字列を所要の一端(先頭
又は末尾)の文字から順次比較し、通常は両キーワード
の文字列が完全に一致するか、又は少なくとも検索キー
ワードと一致する文字列が被検索キーワードに連続して
含まれる場合のみを照合に成功したとする。
【0004】従って、必要なレコードの検索漏れが無い
ようにするためには、それらのレコードのキーワードが
正しい同一の文字列になっていなければならないこと
は、当然である。
【0005】一方、会社名等にしばしば見られるよう
に、同一の会社を表す名前として、「スス"ムシキ"ンコウ」を
「スス"キ"ン」と呼ぶような類で、正式の全名称と、その一
部のみに短縮した略称のような名前とが、共に日常的に
通用していることがあり、それらがキーワードにも使用
されていることがある。
【0006】このようにキーワードに曖昧性が予想され
る場合、前記のような照合方法による検索では検索結果
が保証されなくなるので、レコードのキーワードとなる
データについては、例えば事前に適当な前処理を行っ
て、キーワードを整理するようなことが必要になる。
【0007】本発明は、前記のような曖昧性のあるキー
ワードを、そのまま検索対象とすることができるように
するためのキーワード照合検索処理方法を目的とする。
【0008】
【課題を解決するための手段】図1は、本発明の構成を
示す処理の流れ図である。図はキーワード照合検索処理
方法の構成であって、図1(a)に示す第1の発明では、
第1の文字列のキーワードと、第1の文字列と同数以上
の文字数を有する第2の文字列のキーワードとを照合す
るに際し、文字列の一方から他方に向かって文字位置の
順に順次減少するように定めた重みを設ける。
【0009】処理ステップ1で第1及び第2の文字列の
文字の配列順を保持して、両該文字列間で一致する文字
を検出する。処理ステップ2で、第2の文字列上の該一
致文字の文字位置について、該重みの和を求めて評価値
とする。
【0010】処理ステップ3で、第2の文字列の全文字
位置についての該重みの総和を基準評価値とする。処理
ステップ4で、該評価値を該基準評価値で除した商を照
合重要度とし、処理ステップ5で該照合重要度によって
求める所定の値を類似度とし、該類似度により両該キー
ワード間の類似性を評価する。
【0011】図1(b)に示す第2の発明では、処理ステ
ップ10で第1及び第2の文字列を比較し、両該文字列の
指定の一端から連続して一致した文字数によって求める
所定の値を連続一致率とする。
【0012】処理ステップ11で、前記のようにして照合
重要度を求め、処理ステップ12でその照合重要度と該連
続一致率との積を前記類似度として、両該キーワード間
の類似性を評価する。
【0013】図1(c)に示す第3の発明では、キーワー
ドを含むレコード群から、所要のレコードを検索するに
際し、検索キーワードと、候補条件と、選択条件とを指
定する。
【0014】処理ステップ20で、該検索キーワードと各
該レコードのキーワードとについて、前記第1又は第2
の発明の類似度を求める。処理ステップ21で、該類似度
の値が該候補条件を満足する該キーワードを有する該レ
コードを抽出して候補レコード群とする。
【0015】処理ステップ22で、該候補レコード群につ
いて、該選択条件を満足する該レコードを決定する。
【0016】
【作用】本発明の処理方法により、検索キーワードと検
索対象のキーワードとの完全一致の有無のみで単純に判
定するのでなく、本発明の類似度が計算され、類似度の
大きさによって両キーワードの一致の程度が示される。
【0017】従って、類似度によって、検索目的のキー
ワードである可能性の高いものを抽出することが可能に
なり、キーワードを整理する等の前処理を行う必要無し
に、検索漏れを防止し、又逆にいたずらに検索条件を緩
めて不必要なデータまで取り出すことも避けることがで
きる。
【0018】類似度としては、前記第1の発明の照合重
要度をそのまま使用し、或いは照合重要度と連続一致率
との積を使用することができる。又、連続一致率には、
前記第2の発明に示す連続一致文字数をそのまま使用す
るか、或いは連続一致文字数を前記第2の文字列の長さ
で除した商を使用することができる。
【0019】このようにして抽出した候補レコード群か
ら、別の選択条件によってレコードを選択するようにす
れば、目的のレコードを効率よく取り出すことができ
る。
【0020】
【実施例】図2は、本発明の照合重要度を求める処理の
一例を示す処理の流れ図である。本実施例では重みとし
て、第i桁(i=1,2...)の重みwiを下記の指数関数で求め
る値とする。
【0021】wi=e-0.1(i-1) 図2において、処理ステップ30で2個のキーワードを受
けとると、処理ステップ31でその長さを比較して、一方
をキーワードK1、それと同じか長い方をキーワードK2と
して、それらの長さをN1、N2とし、処理ステップ32で変
数i1を1、i2を0に設定する等の初期設定を行う。
【0022】処理ステップ33で識別してi2≠N2なら、処
理ステップ34でi2を+1し、処理ステップ35で前記重み
計算式のi=i2としてwiを求め、処理ステップ36で基準評
価値(初期値を0とする)にwiを加える。
【0023】次に処理ステップ37で識別してi1≠N1な
ら、処理ステップ38でK1の第i1桁と、K2の第i2桁とを比
較し、一致しなければ処理ステップ33に戻り、前記のよ
うにしてK2のみを1桁先へ進める。
【0024】K1とK2の文字が一致すれば、処理ステップ
39で評価値 (初期値を0とする)に先に計算されている
重みwiを加え、処理ステップ40でi1を+1し、処理ステ
ップ33に戻る。
【0025】以上のようにして処理する桁を進めて、処
理ステップ37でi1=N1を検出すると、比較処理は終わる
ので処理ステップ33へ戻り、ここで未だi2≠N2であれ
ば、処理ステップ33〜37のループにより、i2=N2となる
まで基準評価値に重みを累積する。
【0026】処理ステップ33でi2=N2を検出すると、処
理ステップ41に進み、その時求められている評価値を基
準評価値で割って商を、照合重要度として求めて処理を
終わる。
【0027】図3は、連続一致率を求める処理例の処理
の流れ図であり、処理ステップ50で2個のキーワードを
受けとると、処理ステップ51でその長さを比較して、一
方の長さをN1、それと同じか長い方の長さをN2とし、処
理ステップ52で変数iを0に設定する等の初期設定を行
う。
【0028】処理ステップ53で識別してi≠N1なら、処
理ステップ54でiを+1し、処理ステップ55で両キーの
第i桁を比較し、一致すれば処理ステップ53に戻って、
前記のようにiを進め、i=N1になるまで一致が続く間
この処理を繰り返す。
【0029】処理ステップ55で不一致を検出すれば、処
理ステップ56でiを−1し、処理ステップ57でiをN1で
割った商を連続一致率とする。又、一致が続く間に処理
ステップ53でi=N1に達したことを検出すれば、処理ス
テップ57でその時のiの値により連続一致率を求める。
【0030】以上図2及び図3で説明した処理では、両
文字列の先頭から比較する、いわゆる前方一致型の照合
としたが、両文字列の末尾から比較する後方一致型の照
合も、殆ど同様の手順で実行できる。
【0031】図4は、本発明を適用してファイルのレコ
ードを検索する場合の処理例を示す処理の流れ図であ
り、処理ステップ60で指定のファイルから全レコードを
読み込むと、処理ステップ61で検索条件として、検索キ
ーワード、候補条件及び選択条件を入力する。
【0032】処理ステップ62で検索キーワードの先頭文
字とレコードのキーワードの先頭文字に一致するものが
あるか予備チェックを行い、そのようなレコードが無い
場合には、この検索は終了する。但し、この処理は検索
内容によっては、必要がない場合もある。
【0033】次に、処理ステップ63で各レコードについ
て類似度を求める。類似度は例えば前記図2により説明
した方法で求める照合重要度と、前記図2により説明し
た方法で求める連続一致率との積とする。
【0034】処理ステップ64で類似度の高い順にソート
し、ソート結果について処理ステップ65で、所与の候補
条件によって候補レコード群を決める。この候補条件
は、例えばソート結果の順位の先頭から10位以内、或い
は類似度の値を指定して、指定値以上というようにす
る。
【0035】以上により決定する候補レコード群につい
て、処理ステップ66で、所与の選択条件によりレコード
を絞る。この選択条件としては、例えば請求書発行業務
のための検索であれば、支払い期限や請求金額について
の条件が使用できる。
【0036】図5は、処理の一例を示す図であって、図
5(a)のようなレコードについて、検索キーワードとし
て「カワホ"カスカヘ"」が与えられた場合には、(b)に示すよう
に、前記図2及び図3で説明した処理による照合重要度
及び連続一致率が求められ、両者の積として類似度を得
ることができる。
【0037】従って、この結果から例えば類似度が0.15
以上というような候補条件で、図5(c)のように候補レ
コード群が得られ、更に例えば支払い期限が「920302」
から10日以内という選択条件でレコードを選ぶことがで
きる。
【0038】
【発明の効果】以上の説明から明らかなように本発明に
よれば、計算機の検索処理において、曖昧性のあるキー
ワードを、そのまま検索対象として、妥当な検索結果を
求めることができるという著しい工業的効果がある。
【図面の簡単な説明】
【図1】 本発明の構成を示す処理の流れ図
【図2】 照合重要度を求める処理例の流れ図
【図3】 連続一致率を求める処理例の流れ図
【図4】 本発明の検索処理例の流れ図
【図5】 本発明の処理例を説明する図
【符号の説明】 1〜5、10〜12、20〜22、30〜41、50〜57 処理ステッ

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 第1の文字列のキーワードと、第1の文
    字列と同数以上の文字数を有する第2の文字列のキーワ
    ードとを照合するに際し、 文字列の一方から他方に向かって文字位置の順に順次減
    少するように定めた重みを設け、 第1及び第2の文字列の文字の配列順を保持して、両該
    文字列間で一致する文字を検出し(1)、 第2の文字列上の該一致文字の文字位置について、該重
    みの和を求めて評価値とし(2)、 第2の文字列の全文字位置についての該重みの総和を基
    準評価値とし(3)、 該評価値を該基準評価値で除した商を照合重要度とし
    (4)、 該照合重要度によって求める所定の値を類似度とし、該
    類似度により両該キーワード間の類似性を評価する(5)
    ように構成されていることを特徴とするキーワード照合
    検索処理方法。
  2. 【請求項2】 第1及び第2の文字列を比較し、両該文
    字列の指定の一端から連続して一致した文字数によって
    求める所定の値を連続一致率とし(10)、 前記照合重要度と該連続一致率との積を前記類似度とす
    る(11、12)、請求項1記載のキーワード照合検索処理方
    法。
  3. 【請求項3】 キーワードを含むレコード群から、所要
    のレコードを検索するに際し、 検索キーワードと、候補条件と、選択条件とを指定し、 該検索キーワードと各該レコードのキーワードとについ
    て、請求項1又は請求項2記載の類似度を求め(20)、 該類似度の値が該候補条件を満足する該キーワードを有
    する該レコードを抽出して候補レコード群とし(21)、 該候補レコード群について、該選択条件を満足する該レ
    コードを決定する(22)ように構成されていることを特徴
    とするキーワード照合検索処理方法。
JP4211882A 1992-08-10 1992-08-10 キーワード照合検索処理方法 Expired - Lifetime JP2786380B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4211882A JP2786380B2 (ja) 1992-08-10 1992-08-10 キーワード照合検索処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4211882A JP2786380B2 (ja) 1992-08-10 1992-08-10 キーワード照合検索処理方法

Publications (2)

Publication Number Publication Date
JPH06314307A JPH06314307A (ja) 1994-11-08
JP2786380B2 true JP2786380B2 (ja) 1998-08-13

Family

ID=16613193

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4211882A Expired - Lifetime JP2786380B2 (ja) 1992-08-10 1992-08-10 キーワード照合検索処理方法

Country Status (1)

Country Link
JP (1) JP2786380B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3725373B2 (ja) * 1999-08-04 2005-12-07 富士通株式会社 単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP4705430B2 (ja) * 2005-07-29 2011-06-22 チームラボ株式会社 距離の概念に基づく言語処理装置
JP2008077125A (ja) * 2006-09-19 2008-04-03 Seiko Precision Inc インターフェース回路。
JP5301862B2 (ja) * 2008-03-28 2013-09-25 株式会社野村総合研究所 著作物比較システム

Also Published As

Publication number Publication date
JPH06314307A (ja) 1994-11-08

Similar Documents

Publication Publication Date Title
EP0510634B1 (en) Data base retrieval system
JP2607818B2 (ja) コンピュータシステム内にレコードが記憶されているか否かを判定する方法及び装置
US5357431A (en) Character string retrieval system using index and unit for making the index
US5394487A (en) Forms recognition management system and method
US7945552B2 (en) System of effectively searching text for keyword, and method thereof
US20120041955A1 (en) Enhanced identification of document types
JP2832988B2 (ja) データ検索システム
JP2002520712A (ja) データ検索システムと方法およびサーチ・エンジンにおけるその使用
US20070208733A1 (en) Query Correction Using Indexed Content on a Desktop Indexer Program
EP2631815A1 (en) Method and device for ordering search results, method and device for providing information
JP2833580B2 (ja) 全文インデックス作成装置および全文データベース検索装置
KR960018993A (ko) 정보 검색 방법 및 시스템
JP2786380B2 (ja) キーワード照合検索処理方法
US6070169A (en) Method and system for the determination of a particular data object utilizing attributes associated with the object
CN112748811A (zh) 一种英文单词输入方法及装置
JP3370787B2 (ja) 文字配列検索方法
JPH05257982A (ja) 文字列認識方法
Veretennikov Using additional indexes for fast full-text search of phrases that contain frequently used words
JP2001092841A (ja) クラスター分析処理方法およびクラスター分析プログラムを記録した記録媒体
JP3534471B2 (ja) マージソート方法及びマージソート装置
JP3715413B2 (ja) 類似文書検索装置および類似文書検索方法
JP2519129B2 (ja) マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置
Cannon OPCOL: An Optimal Text Collation Algorithm
JP2682448B2 (ja) 索引検索方式
JPH09212523A (ja) 全文検索方法

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100529

Year of fee payment: 12

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100529

Year of fee payment: 12

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100529

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130529

Year of fee payment: 15

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130529

Year of fee payment: 15