JP2010102676A - 複数の単語より構成される検索文字列のあいまい検索方法 - Google Patents
複数の単語より構成される検索文字列のあいまい検索方法 Download PDFInfo
- Publication number
- JP2010102676A JP2010102676A JP2008296119A JP2008296119A JP2010102676A JP 2010102676 A JP2010102676 A JP 2010102676A JP 2008296119 A JP2008296119 A JP 2008296119A JP 2008296119 A JP2008296119 A JP 2008296119A JP 2010102676 A JP2010102676 A JP 2010102676A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- characters
- search
- words
- search method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 英語表記された電子化文書中から文字列を検索する方法において、複数の単語および空白文字により構成される入力文字列あるいは被検索文字列に誤字、脱字などの綴り間違いがある場合には完全一致検索、前方一致検索、後方一致検索では適切な抽出結果を得ることはできない。
【解決手段】 複数の単語および空白文字により構成される入力文字列から連続する数個の単語を一部切り出し、1個から複数個の代替文字(ワイルドカード)を空白文字、タブ文字を除く連続する2個以上の文字に対して当てはめて、検索キー文字列とする。この検索キー文字列のワイルドカード文字部分、およびその他の部分に正規表現パターンマッチングを用いてあいまい検索することにより、複数の綴り間違いがある被検索文字列より、一致する可能性のあるものを抽出することを可能とする。
【選択図】図2
【解決手段】 複数の単語および空白文字により構成される入力文字列から連続する数個の単語を一部切り出し、1個から複数個の代替文字(ワイルドカード)を空白文字、タブ文字を除く連続する2個以上の文字に対して当てはめて、検索キー文字列とする。この検索キー文字列のワイルドカード文字部分、およびその他の部分に正規表現パターンマッチングを用いてあいまい検索することにより、複数の綴り間違いがある被検索文字列より、一致する可能性のあるものを抽出することを可能とする。
【選択図】図2
Description
本発明は英文表記された複数の単語より構成される検索文字列のあいまい検索方法に関する。
社名・人名など複数の単語にて英文表記された二つのリスト同士から名称突合せをおこない、一致するものがないか検索するシステムにおいて、いずれかのリストに文字欠け、文字過多、文字位置前後、誤入力等の綴り間違いがある場合には、完全一致検索では検索結果が得られない。また、前方一致検索、後方一致検索では抽出範囲が広すぎる可能性があり適切な検索結果が得られない。
以上に述べた、完全一致検索、前方一致検索、後方一致検索による検索方法ではヒューマンエラーによる検索文字列、披検索文字列の文字綴り間違い等には対応できない。
本発明では、このようなヒューマンエラーが発生した場合でも検索を可能とするものであり、前述のリストにおいて一致する可能性のあるものを抽出することを目的とする。
複数の単語および空白から構成される入力文字列から数語の連続する単語を抽出し、2文字以上の連続する文字に代替文字(ワイルドカード文字)で置換し検索キー文字列とする。ワイルドカード文字は1個から複数個設定し、被検索文字列とパターンマッチングを行う。ワイルドカード文字は順次移動してパターンマッチングすることにより、入力文字列、被検索文字列に綴り間違いがあったとしても検索を可能とする。ワイルドカード文字を複数個設定することにより、同時に複数個所の綴り間違いがあったとしても検索することができる。
図1は本発明の一実施例の構成図を示す。入力部1は複数の単語により構成される英文表記された英文リスト5のある一行の文字列が入力される。入力部2も同様に英文リスト6のある一行が入力される。検索部3は本発明による手順に従い検索処理を行い、出力部4に検索結果を出力する。
図2は本発明の一実施例の動作手順を説明するためのフローチャートである。本フローチャートでは入力部1に入力された複数の単語より構成される1行、入力部2に入力された同様の1行が本発明による検索方法にて一致する可能性のあるものとして抽出される手順を示したものである。
ステップ1で英文リスト5から文字列1行を抽出する。ステップ2で被検索文字列1行を英文リスト2から抽出する。
ステップ3でステップ1にて抽出した1行から連続するN個(N≧2)の単語を抽出する。図3はN=3の場合の例示である。この例ではInternatio[m]alの[]内部分がnの誤入力、またAbcdefg[ih]の[]内部分がhiの誤入力を想定している。
ステップ4でN個の単語に亘って空白、タブ文字を除く連続するM個(M≧2)の文字にJ個(J≧1)のワイルドカード文字を設定する。図4はN=3、M=2、J=2の場合の例示である。図4 4−1はInとteにワイルドカード文字を設定した場合、4−2はInとerにワイルドカード文字を設定した場合を示している。4−3、4−4も同様にma gi,ma ihに設定した場合である。
図5はパターンマッチング処理を行う様子を示したものである。ステップ5ではワイルドカードが施された検索キー文字列を以って、ステップ2で抽出した被検索文字列(図55−5)とパターンマッチング処理を行う。一致しておれば抽出結果として出力する。ステップ4で生成したパターン文字列を当てはめてみると5−4のみがパターンマッチングすることがわかる。
ステップ6では、判別処理を行う。ステップ5で一致しない場合はステップ4で抽出したN個の単語に対して、重複しない検索パターンで空白、タブ文字を除く連続するM個(M≧2)の文字にJ個のワイルドカードの設定が可能かどうか判別し、可能ならばステップ4に戻りこれを繰り返す。(図4、図5では4例を示している。)
ステップ7では、判別処理を行う。ステップ6ですべての検索パターンのパターンマッチングを試行し、いずれも一致しない場合には図6に示す、ステップ1で抽出した1行から、ステップ3で抽出した単語群と重複しない、連続するN個の単語群が抽出可能か識別し、可能ならばステップ3に戻りこれを繰り返す。可能でないならば、ステップ1、ステップ2で抽出した検索文字列、被検索文字列には一致する可能性が無いと判別されたこととなる。
輸出企業において、輸出先企業が『輸出規制先リスト』に記載されているか否かを確認することは非常に重要な作業であるが、自社の取引先リストに企業名称の綴りを誤って記載したまま、確認作業してしまう可能性を完全に排除することは極めて困難である。
特に、Littleの場合のTTの繰り返しや、Communicationの場合のMMの繰り返しや、SystemsをSystemとして記載してしまう語尾の単数・複数変化、DelhiをDelihと記載してしまう文字順交代などの綴り間違いは、起こし易い間違いであるが、本発明による検索ではこれら綴り間違いがあっても、検出することができる。
Claims (3)
- 英語表記された電子化文書中から文字列を検索する方法において、複数の単語および空白文字により構成される入力文字列あるいは被検索文字列に誤字、脱字などの綴り間違いがあっても一致する可能性があるものを抽出することを特徴とする、あいまい検索方法。
- 上記検索方法においては、複数の単語および空白文字により構成される入力文字列から連続する数単語を一部切り出し、1個から複数個の代替文字(ワイルドカード)を空白文字、タブ文字を除く連続する2文字以上の文字に対して当てはめて、検索キー文字列とすることを特徴とする、あいまい検索方法。
- 上記代替文字(ワイルドカード)においては、正規表現によるパターンマッチングにより検索を行うことを特徴とする、あいまい検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008296119A JP2010102676A (ja) | 2008-10-23 | 2008-10-23 | 複数の単語より構成される検索文字列のあいまい検索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008296119A JP2010102676A (ja) | 2008-10-23 | 2008-10-23 | 複数の単語より構成される検索文字列のあいまい検索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010102676A true JP2010102676A (ja) | 2010-05-06 |
Family
ID=42293245
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008296119A Pending JP2010102676A (ja) | 2008-10-23 | 2008-10-23 | 複数の単語より構成される検索文字列のあいまい検索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010102676A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457695A (zh) * | 2019-07-30 | 2019-11-15 | 海南省火蓝数据有限公司 | 一种在线文字纠错方法及系统 |
CN112868001A (zh) * | 2018-10-04 | 2021-05-28 | 昭和电工株式会社 | 文档检索装置、文档检索程序、文档检索方法 |
CN112868001B (zh) * | 2018-10-04 | 2024-04-26 | 株式会社力森诺科 | 文档检索装置、文档检索程序、文档检索方法 |
-
2008
- 2008-10-23 JP JP2008296119A patent/JP2010102676A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112868001A (zh) * | 2018-10-04 | 2021-05-28 | 昭和电工株式会社 | 文档检索装置、文档检索程序、文档检索方法 |
CN112868001B (zh) * | 2018-10-04 | 2024-04-26 | 株式会社力森诺科 | 文档检索装置、文档检索程序、文档检索方法 |
CN110457695A (zh) * | 2019-07-30 | 2019-11-15 | 海南省火蓝数据有限公司 | 一种在线文字纠错方法及系统 |
CN110457695B (zh) * | 2019-07-30 | 2023-05-12 | 安徽火蓝数据有限公司 | 一种在线文字纠错方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106202153B (zh) | 一种es搜索引擎的拼写纠错方法及系统 | |
CN107688803B (zh) | 字符识别中识别结果的校验方法和装置 | |
Yerra et al. | A sentence-based copy detection approach for web documents | |
de Oliveira et al. | Fs-ner: a lightweight filter-stream approach to named entity recognition on twitter data | |
US8583415B2 (en) | Phonetic search using normalized string | |
JP2016538666A (ja) | 自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法 | |
Leonandya et al. | A semi-supervised algorithm for Indonesian named entity recognition | |
CN104572632A (zh) | 一种确定具有专名译文的词汇的翻译方向的方法 | |
Alzahrani | Arabic plagiarism detection using word correlation in N-Grams with K-overlapping approach | |
KR101663038B1 (ko) | 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법 | |
JP2010128774A (ja) | 固有表現抽出装置、その方法およびプログラム | |
JP2010102676A (ja) | 複数の単語より構成される検索文字列のあいまい検索方法 | |
CN110309258B (zh) | 一种输入检查方法、服务器和计算机可读存储介质 | |
Iqbal et al. | Urdu spell checking: Reverse edit distance approach | |
CN107203512B (zh) | 用于从用户的自然语言输入中提取关键元素的方法 | |
Ruiz et al. | Lexical normalization of spanish tweets with rule-based components and language models | |
JP5911931B2 (ja) | 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体 | |
KS et al. | Automatic error detection and correction in malayalam | |
Aldabbas et al. | Arabic light stemmer based on regular expression | |
JP3396734B2 (ja) | コーパス誤りの検出・修正処理装置,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体 | |
Adhikari et al. | A vowel based word splitter to improve performance of existing Nepali morphological analyzers on words borrowed from Sanskrit | |
JP2003331214A (ja) | 文字認識誤り訂正方法、装置及びプログラム | |
JP2704945B2 (ja) | 重複表現処理装置 | |
Krishnapriya et al. | Design of a POS tagger using conditional random fields for Malayalam | |
Alfred et al. | Improved automatic spell checker for malay blog |