JP2010102676A

JP2010102676A - 複数の単語より構成される検索文字列のあいまい検索方法

Info

Publication number: JP2010102676A
Application number: JP2008296119A
Authority: JP
Inventors: Shin Sogami; 美晋曽我; Nobunori Kitsutaka; 宣徳橘鷹; Kazuhiko Uemoto; 和彦上本; Yoshitaka Miyazaki; 嘉隆宮崎
Original assignee: Hiroshima Dia System Co Ltd
Current assignee: Hiroshima Dia System Co Ltd
Priority date: 2008-10-23
Filing date: 2008-10-23
Publication date: 2010-05-06

Abstract

【課題】英語表記された電子化文書中から文字列を検索する方法において、複数の単語および空白文字により構成される入力文字列あるいは被検索文字列に誤字、脱字などの綴り間違いがある場合には完全一致検索、前方一致検索、後方一致検索では適切な抽出結果を得ることはできない。
【解決手段】複数の単語および空白文字により構成される入力文字列から連続する数個の単語を一部切り出し、１個から複数個の代替文字（ワイルドカード）を空白文字、タブ文字を除く連続する２個以上の文字に対して当てはめて、検索キー文字列とする。この検索キー文字列のワイルドカード文字部分、およびその他の部分に正規表現パターンマッチングを用いてあいまい検索することにより、複数の綴り間違いがある被検索文字列より、一致する可能性のあるものを抽出することを可能とする。
【選択図】図２

Description

本発明は英文表記された複数の単語より構成される検索文字列のあいまい検索方法に関する。

社名・人名など複数の単語にて英文表記された二つのリスト同士から名称突合せをおこない、一致するものがないか検索するシステムにおいて、いずれかのリストに文字欠け、文字過多、文字位置前後、誤入力等の綴り間違いがある場合には、完全一致検索では検索結果が得られない。また、前方一致検索、後方一致検索では抽出範囲が広すぎる可能性があり適切な検索結果が得られない。

以上に述べた、完全一致検索、前方一致検索、後方一致検索による検索方法ではヒューマンエラーによる検索文字列、披検索文字列の文字綴り間違い等には対応できない。

本発明では、このようなヒューマンエラーが発生した場合でも検索を可能とするものであり、前述のリストにおいて一致する可能性のあるものを抽出することを目的とする。

複数の単語および空白から構成される入力文字列から数語の連続する単語を抽出し、２文字以上の連続する文字に代替文字（ワイルドカード文字）で置換し検索キー文字列とする。ワイルドカード文字は１個から複数個設定し、被検索文字列とパターンマッチングを行う。ワイルドカード文字は順次移動してパターンマッチングすることにより、入力文字列、被検索文字列に綴り間違いがあったとしても検索を可能とする。ワイルドカード文字を複数個設定することにより、同時に複数個所の綴り間違いがあったとしても検索することができる。

図１は本発明の一実施例の構成図を示す。入力部１は複数の単語により構成される英文表記された英文リスト５のある一行の文字列が入力される。入力部２も同様に英文リスト６のある一行が入力される。検索部３は本発明による手順に従い検索処理を行い、出力部４に検索結果を出力する。

図２は本発明の一実施例の動作手順を説明するためのフローチャートである。本フローチャートでは入力部１に入力された複数の単語より構成される１行、入力部２に入力された同様の１行が本発明による検索方法にて一致する可能性のあるものとして抽出される手順を示したものである。

ステップ１で英文リスト５から文字列１行を抽出する。ステップ２で被検索文字列１行を英文リスト２から抽出する。

ステップ３でステップ１にて抽出した１行から連続するＮ個（Ｎ≧２）の単語を抽出する。図３はＮ＝３の場合の例示である。この例ではＩｎｔｅｒｎａｔｉｏ［ｍ］ａｌの［］内部分がｎの誤入力、またＡｂｃｄｅｆｇ［ｉｈ］の［］内部分がｈｉの誤入力を想定している。

ステップ４でＮ個の単語に亘って空白、タブ文字を除く連続するＭ個（Ｍ≧２）の文字にＪ個（Ｊ≧１）のワイルドカード文字を設定する。図４はＮ＝３、Ｍ＝２、Ｊ＝２の場合の例示である。図４４−１はＩｎとｔｅにワイルドカード文字を設定した場合、４−２はＩｎとｅｒにワイルドカード文字を設定した場合を示している。４−３、４−４も同様にｍａｇｉ，ｍａｉｈに設定した場合である。

図５はパターンマッチング処理を行う様子を示したものである。ステップ５ではワイルドカードが施された検索キー文字列を以って、ステップ２で抽出した被検索文字列（図５５−５）とパターンマッチング処理を行う。一致しておれば抽出結果として出力する。ステップ４で生成したパターン文字列を当てはめてみると５−４のみがパターンマッチングすることがわかる。

ステップ６では、判別処理を行う。ステップ５で一致しない場合はステップ４で抽出したＮ個の単語に対して、重複しない検索パターンで空白、タブ文字を除く連続するＭ個（Ｍ≧２）の文字にＪ個のワイルドカードの設定が可能かどうか判別し、可能ならばステップ４に戻りこれを繰り返す。（図４、図５では４例を示している。）

ステップ７では、判別処理を行う。ステップ６ですべての検索パターンのパターンマッチングを試行し、いずれも一致しない場合には図６に示す、ステップ１で抽出した１行から、ステップ３で抽出した単語群と重複しない、連続するＮ個の単語群が抽出可能か識別し、可能ならばステップ３に戻りこれを繰り返す。可能でないならば、ステップ１、ステップ２で抽出した検索文字列、被検索文字列には一致する可能性が無いと判別されたこととなる。

輸出企業において、輸出先企業が『輸出規制先リスト』に記載されているか否かを確認することは非常に重要な作業であるが、自社の取引先リストに企業名称の綴りを誤って記載したまま、確認作業してしまう可能性を完全に排除することは極めて困難である。

特に、Ｌｉｔｔｌｅの場合のＴＴの繰り返しや、Ｃｏｍｍｕｎｉｃａｔｉｏｎの場合のＭＭの繰り返しや、ＳｙｓｔｅｍｓをＳｙｓｔｅｍとして記載してしまう語尾の単数・複数変化、ＤｅｌｈｉをＤｅｌｉｈと記載してしまう文字順交代などの綴り間違いは、起こし易い間違いであるが、本発明による検索ではこれら綴り間違いがあっても、検出することができる。

本発明の一実施例を示す構成図本発明の実施方法を示すフローチャート図入力文字列から検索文字列要素を抽出することを示す図検索パターンの設定方法を示す図パターンマッチング実施を示す図入力文字列から次の検索文字列要素を取り出すことを示す図

Claims

英語表記された電子化文書中から文字列を検索する方法において、複数の単語および空白文字により構成される入力文字列あるいは被検索文字列に誤字、脱字などの綴り間違いがあっても一致する可能性があるものを抽出することを特徴とする、あいまい検索方法。
上記検索方法においては、複数の単語および空白文字により構成される入力文字列から連続する数単語を一部切り出し、１個から複数個の代替文字（ワイルドカード）を空白文字、タブ文字を除く連続する２文字以上の文字に対して当てはめて、検索キー文字列とすることを特徴とする、あいまい検索方法。
上記代替文字（ワイルドカード）においては、正規表現によるパターンマッチングにより検索を行うことを特徴とする、あいまい検索方法。