JP2010102676A - 複数の単語より構成される検索文字列のあいまい検索方法 - Google Patents

複数の単語より構成される検索文字列のあいまい検索方法 Download PDF

Info

Publication number
JP2010102676A
JP2010102676A JP2008296119A JP2008296119A JP2010102676A JP 2010102676 A JP2010102676 A JP 2010102676A JP 2008296119 A JP2008296119 A JP 2008296119A JP 2008296119 A JP2008296119 A JP 2008296119A JP 2010102676 A JP2010102676 A JP 2010102676A
Authority
JP
Japan
Prior art keywords
character string
characters
search
words
search method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008296119A
Other languages
English (en)
Inventor
Shin Sogami
美晋 曽我
Nobunori Kitsutaka
宣徳 橘鷹
Kazuhiko Uemoto
和彦 上本
Yoshitaka Miyazaki
嘉隆 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hiroshima Dia System Co Ltd
Original Assignee
Hiroshima Dia System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hiroshima Dia System Co Ltd filed Critical Hiroshima Dia System Co Ltd
Priority to JP2008296119A priority Critical patent/JP2010102676A/ja
Publication of JP2010102676A publication Critical patent/JP2010102676A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 英語表記された電子化文書中から文字列を検索する方法において、複数の単語および空白文字により構成される入力文字列あるいは被検索文字列に誤字、脱字などの綴り間違いがある場合には完全一致検索、前方一致検索、後方一致検索では適切な抽出結果を得ることはできない。
【解決手段】 複数の単語および空白文字により構成される入力文字列から連続する数個の単語を一部切り出し、1個から複数個の代替文字(ワイルドカード)を空白文字、タブ文字を除く連続する2個以上の文字に対して当てはめて、検索キー文字列とする。この検索キー文字列のワイルドカード文字部分、およびその他の部分に正規表現パターンマッチングを用いてあいまい検索することにより、複数の綴り間違いがある被検索文字列より、一致する可能性のあるものを抽出することを可能とする。
【選択図】図2

Description

本発明は英文表記された複数の単語より構成される検索文字列のあいまい検索方法に関する。
社名・人名など複数の単語にて英文表記された二つのリスト同士から名称突合せをおこない、一致するものがないか検索するシステムにおいて、いずれかのリストに文字欠け、文字過多、文字位置前後、誤入力等の綴り間違いがある場合には、完全一致検索では検索結果が得られない。また、前方一致検索、後方一致検索では抽出範囲が広すぎる可能性があり適切な検索結果が得られない。
以上に述べた、完全一致検索、前方一致検索、後方一致検索による検索方法ではヒューマンエラーによる検索文字列、披検索文字列の文字綴り間違い等には対応できない。
本発明では、このようなヒューマンエラーが発生した場合でも検索を可能とするものであり、前述のリストにおいて一致する可能性のあるものを抽出することを目的とする。
複数の単語および空白から構成される入力文字列から数語の連続する単語を抽出し、2文字以上の連続する文字に代替文字(ワイルドカード文字)で置換し検索キー文字列とする。ワイルドカード文字は1個から複数個設定し、被検索文字列とパターンマッチングを行う。ワイルドカード文字は順次移動してパターンマッチングすることにより、入力文字列、被検索文字列に綴り間違いがあったとしても検索を可能とする。ワイルドカード文字を複数個設定することにより、同時に複数個所の綴り間違いがあったとしても検索することができる。
図1は本発明の一実施例の構成図を示す。入力部1は複数の単語により構成される英文表記された英文リスト5のある一行の文字列が入力される。入力部2も同様に英文リスト6のある一行が入力される。検索部3は本発明による手順に従い検索処理を行い、出力部4に検索結果を出力する。
図2は本発明の一実施例の動作手順を説明するためのフローチャートである。本フローチャートでは入力部1に入力された複数の単語より構成される1行、入力部2に入力された同様の1行が本発明による検索方法にて一致する可能性のあるものとして抽出される手順を示したものである。
ステップ1で英文リスト5から文字列1行を抽出する。ステップ2で被検索文字列1行を英文リスト2から抽出する。
ステップ3でステップ1にて抽出した1行から連続するN個(N≧2)の単語を抽出する。図3はN=3の場合の例示である。この例ではInternatio[m]alの[]内部分がnの誤入力、またAbcdefg[ih]の[]内部分がhiの誤入力を想定している。
ステップ4でN個の単語に亘って空白、タブ文字を除く連続するM個(M≧2)の文字にJ個(J≧1)のワイルドカード文字を設定する。図4はN=3、M=2、J=2の場合の例示である。図4 4−1はInとteにワイルドカード文字を設定した場合、4−2はInとerにワイルドカード文字を設定した場合を示している。4−3、4−4も同様にma gi,ma ihに設定した場合である。
図5はパターンマッチング処理を行う様子を示したものである。ステップ5ではワイルドカードが施された検索キー文字列を以って、ステップ2で抽出した被検索文字列(図55−5)とパターンマッチング処理を行う。一致しておれば抽出結果として出力する。ステップ4で生成したパターン文字列を当てはめてみると5−4のみがパターンマッチングすることがわかる。
ステップ6では、判別処理を行う。ステップ5で一致しない場合はステップ4で抽出したN個の単語に対して、重複しない検索パターンで空白、タブ文字を除く連続するM個(M≧2)の文字にJ個のワイルドカードの設定が可能かどうか判別し、可能ならばステップ4に戻りこれを繰り返す。(図4、図5では4例を示している。)
ステップ7では、判別処理を行う。ステップ6ですべての検索パターンのパターンマッチングを試行し、いずれも一致しない場合には図6に示す、ステップ1で抽出した1行から、ステップ3で抽出した単語群と重複しない、連続するN個の単語群が抽出可能か識別し、可能ならばステップ3に戻りこれを繰り返す。可能でないならば、ステップ1、ステップ2で抽出した検索文字列、被検索文字列には一致する可能性が無いと判別されたこととなる。
輸出企業において、輸出先企業が『輸出規制先リスト』に記載されているか否かを確認することは非常に重要な作業であるが、自社の取引先リストに企業名称の綴りを誤って記載したまま、確認作業してしまう可能性を完全に排除することは極めて困難である。
特に、Littleの場合のTTの繰り返しや、Communicationの場合のMMの繰り返しや、SystemsをSystemとして記載してしまう語尾の単数・複数変化、DelhiをDelihと記載してしまう文字順交代などの綴り間違いは、起こし易い間違いであるが、本発明による検索ではこれら綴り間違いがあっても、検出することができる。
本発明の一実施例を示す構成図 本発明の実施方法を示すフローチャート図 入力文字列から検索文字列要素を抽出することを示す図 検索パターンの設定方法を示す図 パターンマッチング実施を示す図 入力文字列から次の検索文字列要素を取り出すことを示す図

Claims (3)

  1. 英語表記された電子化文書中から文字列を検索する方法において、複数の単語および空白文字により構成される入力文字列あるいは被検索文字列に誤字、脱字などの綴り間違いがあっても一致する可能性があるものを抽出することを特徴とする、あいまい検索方法。
  2. 上記検索方法においては、複数の単語および空白文字により構成される入力文字列から連続する数単語を一部切り出し、1個から複数個の代替文字(ワイルドカード)を空白文字、タブ文字を除く連続する2文字以上の文字に対して当てはめて、検索キー文字列とすることを特徴とする、あいまい検索方法。
  3. 上記代替文字(ワイルドカード)においては、正規表現によるパターンマッチングにより検索を行うことを特徴とする、あいまい検索方法。
JP2008296119A 2008-10-23 2008-10-23 複数の単語より構成される検索文字列のあいまい検索方法 Pending JP2010102676A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008296119A JP2010102676A (ja) 2008-10-23 2008-10-23 複数の単語より構成される検索文字列のあいまい検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008296119A JP2010102676A (ja) 2008-10-23 2008-10-23 複数の単語より構成される検索文字列のあいまい検索方法

Publications (1)

Publication Number Publication Date
JP2010102676A true JP2010102676A (ja) 2010-05-06

Family

ID=42293245

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008296119A Pending JP2010102676A (ja) 2008-10-23 2008-10-23 複数の単語より構成される検索文字列のあいまい検索方法

Country Status (1)

Country Link
JP (1) JP2010102676A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457695A (zh) * 2019-07-30 2019-11-15 海南省火蓝数据有限公司 一种在线文字纠错方法及系统
CN112868001A (zh) * 2018-10-04 2021-05-28 昭和电工株式会社 文档检索装置、文档检索程序、文档检索方法
CN112868001B (zh) * 2018-10-04 2024-04-26 株式会社力森诺科 文档检索装置、文档检索程序、文档检索方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112868001A (zh) * 2018-10-04 2021-05-28 昭和电工株式会社 文档检索装置、文档检索程序、文档检索方法
CN112868001B (zh) * 2018-10-04 2024-04-26 株式会社力森诺科 文档检索装置、文档检索程序、文档检索方法
CN110457695A (zh) * 2019-07-30 2019-11-15 海南省火蓝数据有限公司 一种在线文字纠错方法及系统
CN110457695B (zh) * 2019-07-30 2023-05-12 安徽火蓝数据有限公司 一种在线文字纠错方法及系统

Similar Documents

Publication Publication Date Title
CN106202153B (zh) 一种es搜索引擎的拼写纠错方法及系统
CN107688803B (zh) 字符识别中识别结果的校验方法和装置
Yerra et al. A sentence-based copy detection approach for web documents
de Oliveira et al. Fs-ner: a lightweight filter-stream approach to named entity recognition on twitter data
US8583415B2 (en) Phonetic search using normalized string
JP2016538666A (ja) 自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法
Leonandya et al. A semi-supervised algorithm for Indonesian named entity recognition
CN104572632A (zh) 一种确定具有专名译文的词汇的翻译方向的方法
Alzahrani Arabic plagiarism detection using word correlation in N-Grams with K-overlapping approach
KR101663038B1 (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
JP2010128774A (ja) 固有表現抽出装置、その方法およびプログラム
JP2010102676A (ja) 複数の単語より構成される検索文字列のあいまい検索方法
CN110309258B (zh) 一种输入检查方法、服务器和计算机可读存储介质
Iqbal et al. Urdu spell checking: Reverse edit distance approach
CN107203512B (zh) 用于从用户的自然语言输入中提取关键元素的方法
Ruiz et al. Lexical normalization of spanish tweets with rule-based components and language models
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
KS et al. Automatic error detection and correction in malayalam
Aldabbas et al. Arabic light stemmer based on regular expression
JP3396734B2 (ja) コーパス誤りの検出・修正処理装置,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体
Adhikari et al. A vowel based word splitter to improve performance of existing Nepali morphological analyzers on words borrowed from Sanskrit
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
JP2704945B2 (ja) 重複表現処理装置
Krishnapriya et al. Design of a POS tagger using conditional random fields for Malayalam
Alfred et al. Improved automatic spell checker for malay blog