JP5846340B2 - 文字列検索装置 - Google Patents
文字列検索装置 Download PDFInfo
- Publication number
- JP5846340B2 JP5846340B2 JP2015537549A JP2015537549A JP5846340B2 JP 5846340 B2 JP5846340 B2 JP 5846340B2 JP 2015537549 A JP2015537549 A JP 2015537549A JP 2015537549 A JP2015537549 A JP 2015537549A JP 5846340 B2 JP5846340 B2 JP 5846340B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- rule
- edit distance
- search
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 claims description 52
- 238000000605 extraction Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 4
- 238000000034 method Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000001174 ascending effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
また、非特許文献1にはある文字列を別の文字列に変換する置換ルールに重み付けをする技術が開示されている。
非特許文献1に記載されているような2つの文字列間の類似度を類似文字列重みルール(置換ルール)に定義して、この類似度に基づいて重み付き編集距離を計算する場合、誤り等のパターンは大量に存在するため大量の類似文字列重みルールが必要になる。重み付き編集距離の計算処理では、計算処理中の文字列に対して適用するか否かを、これらの大量の類似文字列重みルールについて判定しなければならない。このため、重み付き編集距離の計算処理における類似文字列重みルールの適用可否判定の処理量が非常に大きいという課題があった。
図1はこの発明の実施の形態1に係る文字列検索装置の構成図である。この発明の実施の形態1の文字列検索装置は、重みルール抽出部101、ルール記憶部102、適用ルール記憶部103、編集距離計算部104、辞書105、距離順整列部106とから構成される。重みルール抽出部101は、使用者により入力された入力文字列110をもとに、ルール記憶部102から入力文字列110に関係する類似文字列重みルールを抽出して適用ルール記憶部103に記憶する。
また、類似文字列重みルールは、2つの文字列(第1の文字列と第2の文字列)の類似度を定義した規則であり、検索文字列と他の文字列の重み付き編集距離を計算する際に用いられる。
また、ルール記憶部102、適用ルール記憶部103、辞書105は、RAM(Random Access Memory)などの揮発性の記憶媒体や、HDD(Hard Disc Drive)などの不揮発性の記憶媒体を用いて構成すればよい。あるいは、通信回線を経由して遠隔で読み書きされるように構成しても良いし、着脱可能なデバイスを用いるようにしても良い。
これらの類似文字列重みルールは事前に手作業で定義するようにしても良いし、誤入力の例などを多数収集し、機械学習などの統計的な手法を用いて構成されるようにしても良い。
図5の適用ルール記憶部103に記憶された類似文字列重みルールの例は、入力文字列110が”CHA”の3文字であった場合で、図2に例示したルール記憶部102に記憶された類似文字列重みルールから抽出された類似文字列重みルールを示している。
上述の通り、重みルール抽出部101は入力文字列110の先頭から末尾までの各文字位置について、先頭の文字から当該文字位置までの部分文字列を参照し、これら部分文字列の末尾の文字を含む一部と類似文字列重みルールの左辺文字列202が一致するものを抽出する。
この結果として、図5では各文字位置対応に抽出された類似文字列重みルールが分類されている。
なお、入力文字列110の文字数が5文字であれば図5の表において入力文字位置が4と5の行が追加されることになる。
例えば図5に示した例の場合で2文字目の”H”に関しては、ルール番号201=41のルールがRule[2][1]に、ルール番号201=42のルールがRule[2][2]にというように配列に格納され、また、ルール数206=6がNR[2]に記憶される。
なお、ST301を実施する前にStr1とStr2が一致しているか否かを判定して、一致している場合にはST302以降の処理を実施しないようにしても良い。
同様に、上記の変数iに基づくループ処理内で変数jの初期値を1とし、変数jの値を1ずつカウントアップしながら、ステップST303からステップST309までの処理を|Str2|回繰り返す。
次に、編集距離計算用テーブルのM[i,j]の更新を行う(ST404)。この処理では、M[i,j]、M[i-len1,j-len2]+rule_scoreの2つの値を比較して、小さい方の値でM[i,j]を更新する。
また、ST402で適用可と判定されなかった場合はST405に遷移する。
このようにして図6、図7に示した処理フローを終了し、最終的にM[|Str1|,|Str2|]に格納された値が、入力文字列110と見出し文字列との重み付き編集距離となる。
ST308(すなわち図7のST401)を開始し、k=1のとき、Rule[2][1]に格納された右辺文字列203(”CQ”)とStr2のj=2文字目で終わる部分文字列(”CQ”)が一致するので、ST402の判定結果は真(Y)となる。
また、この実施の形態ではアルファベットの入力文字列を用いて説明したが、この発明は入力文字列をアルファベットに限定されるものではなく、他の言語の文字列(例えば、ひらがなや漢字)であっても良い。
図9はこの発明の実施の形態2に係る文字列検索装置の構成図である。実施の形態1の文字列検索装置の違いは、編集距離計算部104aが外部より設定された距離上限値112に基づいて、編集距離計算を途中で打ち切る機能を有する点である。これ以外の重みルール抽出部101、ルール記憶部102、適用ルール記憶部103、辞書105、距離準整列部106、入力文字列110、類似文字列リスト111については実施の形態1と同様である。
具体的には、MinLは以下のように求めることができる。Rule[p][r](Z≦p≦|Str1|、1≦r≦p番目の文字のルール数206)に格納された左辺文字列の文字数の最大値をMaxLenpとしたとき、ST307ではM[p-MaxLenp,q](0≦q≦|Str2|)が参照される可能性がある。よって、Z≦p≦|Str1|の範囲でp-MaxLenpの最小値がMinLとなる。
Claims (5)
- 1文字以上の文字からなる第1の文字列と第2の文字列の類似度が定義された複数の類似文字列重みルールの中から、入力された検索文字列に前記第1の文字列が含まれる前記類似文字列重みルールを抽出する重みルール抽出部と、
前記重みルール抽出部において抽出された前記類似文字列重みルールを用いて、前記検索文字列と前記検索文字列を検索する辞書から取得された見出し文字列との重み付き編集距離を計算する編集距離計算部と、
を備えたことを特徴とする文字列検索装置。 - 前記重みルール抽出部において抽出された前記類似文字列重みルールを記憶する適用ルール記憶部を備えたことを特徴とする請求項1に記載の文字列検索装置。
- 前記適用ルール記憶部は、
前記検索文字列の各文字位置について、当該文字位置を末尾とする前記検索文字列の一部分の文字列と前記第1の文字列が一致する前記抽出された類似文字列重みルールを、当該文字位置に対応する前記抽出された類似文字列重みルールとして記憶することを特徴とする請求項2に記載の文字列検索装置。 - 前記編集距離計算部において前記重み付き編集距離の計算が行われた前記見出し文字列を計算された前記重み付き編集距離が近い順に整列する距離順整列部を備えたことを特徴とする請求項1から請求項3のいずれか一項に記載の文字列検索装置。
- 前記編集距離計算部は、
前記重み付き編集距離の計算において、算出される前記重み付き編集距離が予め定められた距離上限値以上になることを判断すると、前記重み付き編集距離の計算を中断し、前記判断をした時点の前記重み付き編集距離の計算値を計算結果とすることを特徴とする請求項1に記載の文字列検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015537549A JP5846340B2 (ja) | 2013-09-20 | 2014-08-21 | 文字列検索装置 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013195257 | 2013-09-20 | ||
JP2013195257 | 2013-09-20 | ||
JP2015537549A JP5846340B2 (ja) | 2013-09-20 | 2014-08-21 | 文字列検索装置 |
PCT/JP2014/004285 WO2015040793A1 (ja) | 2013-09-20 | 2014-08-21 | 文字列検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5846340B2 true JP5846340B2 (ja) | 2016-01-20 |
JPWO2015040793A1 JPWO2015040793A1 (ja) | 2017-03-02 |
Family
ID=52688465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015537549A Active JP5846340B2 (ja) | 2013-09-20 | 2014-08-21 | 文字列検索装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5846340B2 (ja) |
WO (1) | WO2015040793A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326484A (zh) * | 2016-08-31 | 2017-01-11 | 北京奇艺世纪科技有限公司 | 搜索词纠错方法及装置 |
CN109902098A (zh) * | 2019-01-23 | 2019-06-18 | 平安科技(深圳)有限公司 | 相似案例查找和排序方法、服务器及计算机可读存储介质 |
JP7485030B2 (ja) * | 2020-06-11 | 2024-05-16 | 日本電気株式会社 | 検索装置、検索方法、およびプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004062893A (ja) * | 2002-06-28 | 2004-02-26 | Microsoft Corp | 重み付き編集距離に基づく例文の自動検索用システムおよび方法 |
JP2005011078A (ja) * | 2003-06-19 | 2005-01-13 | Patolis Corp | 類似単語検索装置、この方法、このプログラム、このプログラムを記録した記録媒体、および情報検索システム |
JP2006039866A (ja) * | 2004-07-26 | 2006-02-09 | Patolis Corp | 類似単語検索装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、情報検索装置 |
JP2011197716A (ja) * | 2010-03-17 | 2011-10-06 | Fuji Xerox Co Ltd | パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム |
-
2014
- 2014-08-21 JP JP2015537549A patent/JP5846340B2/ja active Active
- 2014-08-21 WO PCT/JP2014/004285 patent/WO2015040793A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004062893A (ja) * | 2002-06-28 | 2004-02-26 | Microsoft Corp | 重み付き編集距離に基づく例文の自動検索用システムおよび方法 |
JP2005011078A (ja) * | 2003-06-19 | 2005-01-13 | Patolis Corp | 類似単語検索装置、この方法、このプログラム、このプログラムを記録した記録媒体、および情報検索システム |
JP2006039866A (ja) * | 2004-07-26 | 2006-02-09 | Patolis Corp | 類似単語検索装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、情報検索装置 |
JP2011197716A (ja) * | 2010-03-17 | 2011-10-06 | Fuji Xerox Co Ltd | パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2015040793A1 (ja) | 2017-03-02 |
WO2015040793A1 (ja) | 2015-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI664540B (zh) | Search word error correction method and device, and weighted edit distance calculation method and device | |
US20110071833A1 (en) | Speech retrieval apparatus and speech retrieval method | |
KR20050005523A (ko) | 단어 상관 방법 및 장치 | |
US11531693B2 (en) | Information processing apparatus, method and non-transitory computer readable medium | |
CN102725790A (zh) | 识别词典制作装置及声音识别装置 | |
KR20210016767A (ko) | 음성 인식 방법 및 음성 인식 장치 | |
JP2019082931A (ja) | 検索装置、類似度算出方法、およびプログラム | |
US11568150B2 (en) | Methods and apparatus to improve disambiguation and interpretation in automated text analysis using transducers applied on a structured language space | |
JP5846340B2 (ja) | 文字列検索装置 | |
KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
CN115688779A (zh) | 一种基于自监督深度学习的地址识别方法 | |
KR20210056131A (ko) | 법령 분야 질의 응답 방법 및 장치 | |
JP5355483B2 (ja) | 略語完全語復元装置とその方法と、プログラム | |
JP7534673B2 (ja) | 機械学習プログラム、機械学習方法および自然言語処理装置 | |
Tyers et al. | What shall we do with an hour of data? Speech recognition for the un-and under-served languages of Common Voice | |
JP6261669B2 (ja) | クエリ校正システムおよび方法 | |
JP3983000B2 (ja) | 複合語分割装置、及び日本語辞書作成装置 | |
US11482214B1 (en) | Hypothesis generation and selection for inverse text normalization for search | |
JP2018055224A (ja) | データ生成装置、方法、及びプログラム | |
JP2009157458A (ja) | インデックス作成装置、その方法、プログラム及び記録媒体 | |
JP4915499B2 (ja) | 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム | |
CN117421392B (zh) | 一种基于词级对齐的代码搜索方法及装置 | |
JP5866084B2 (ja) | 検索装置 | |
Yamashita et al. | A Comparison of Entity Matching Methods between English and Japanese Katakana | |
JP5700566B2 (ja) | スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20151021 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151027 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151109 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5846340 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |