JP4698738B2 - 複数セグメント文字列の検索 - Google Patents
複数セグメント文字列の検索 Download PDFInfo
- Publication number
- JP4698738B2 JP4698738B2 JP2008545958A JP2008545958A JP4698738B2 JP 4698738 B2 JP4698738 B2 JP 4698738B2 JP 2008545958 A JP2008545958 A JP 2008545958A JP 2008545958 A JP2008545958 A JP 2008545958A JP 4698738 B2 JP4698738 B2 JP 4698738B2
- Authority
- JP
- Japan
- Prior art keywords
- string
- segment
- query
- character
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims 4
- 238000013507 mapping Methods 0.000 claims 3
- 238000000605 extraction Methods 0.000 claims 2
- 230000006870 function Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 14
- NQLVQOSNDJXLKG-UHFFFAOYSA-N prosulfocarb Chemical compound CCCN(CCC)C(=O)SCC1=CC=CC=C1 NQLVQOSNDJXLKG-UHFFFAOYSA-N 0.000 description 3
- 241000282836 Camelus dromedarius Species 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
Description
Claims (12)
- 情報を自律的に処理するための方法であって、
プロセッサが、クエリ文字列を受け取る前に、複数の文字列の各々について文字列テーブルを作成するステップであって、
前記文字列内に含まれる各文字列セグメントを、文字列内の隣接する文字間の変化
に基づいて識別するステップと、
前記識別された文字列セグメントを含む文字列に対する各識別された文字列セグメ
ントのマッピングを、前記文字列テーブルに加えるステップと、
を含む文字列テーブルを作成するステップと、
プロセッサが、受け取った各クエリ文字列について、
前記クエリ文字列中に含まれる各クエリセグメントを、クエリ文字列内の隣接する
文字間の変化に基づいて識別するステップと、
前記クエリ文字列のクエリセグメントを、前記文字列テーブル内の文字列セグメン
トと比較するステップと、
前記クエリ文字列のクエリセグメントと前記文字列テーブル内の文字列セグメント
との比較に基づいて、前記クエリ文字列に一致する前記複数の文字列における文字列
を、検索結果として選択するステップと
以下のステップによってスコアを与えるステップと、
前記検索結果における各文字列について、前記検索結果における文字列を選択
するステップ、
前記選択された文字列の各文字列セグメントについて、前記選択された文字列
における文字列セグメントを選択するステップ、
前記クエリ文字列の各クエリセグメントについて、前記クエリ文字列における
クエリセグメントを選択するステップであって、
前記選択されたクエリセグメントが前記選択された文字列セグメント
と正確に一致すると判定された場合に、前記選択された文字列セグメ
ント及び前記選択されたクエリセグメントについて、正確に一致する
量によってセグメントスコアを調整するステップ、
前記選択されたクエリセグメントが前記選択された文字列セグメン
トと正確に一致しないと判定された場合及び前記選択されたクエリセ
グメントが前記選択された文字列セグメントの冒頭部分と一致すると
判定された場合に、前記選択された文字列セグメント及び前記選択さ
れたクエリセグメントについて、一致する長さに基づいてセグメント
スコアを調整するステップ、
前記選択された文字列セグメント及び前記選択されたクエリセグメ
ントについて、前記選択された文字列における前記選択された文字列
セグメントの位置に基づいてセグメントスコアを調整するステップ、
前記選択された文字列について、前記選択された文字列セグメント
及び前記選択されたクエリセグメントについての前記調整されたスコ
アに基づいて文字列スコアを調整するステップ、
とを含む前記クエリ文字列におけるクエリセグメントを選択するステップと、
プロセッサが、前記検索結果の各文字列と関連付けられた前記文字列スコアに基づいて
前記検索結果を順位付けして、前記検索結果をその関連付けられた文字列スコアに基づいてスコアの高いものから低いものへと整理するステップと、
を含むことを特徴とする方法。 - 前記クエリ文字列が前記クエリセグメントの最後に特殊文字を含んでいる場合、前記クエリセグメントと正確に一致する文字列セグメントを含んでいる前記文字列のみが検索結果として選択されることを特徴とする請求項1に記載の方法。
- 前記クエリ文字列が前記クエリ文字列の最後に特殊文字を含んでいる場合、前記クエリ文字列中のすべてのクエリセグメントと正確に一致する文字列セグメントを含んでいる文字列のみが検索結果として選択されることを特徴とする請求項1に記載の方法。
- プロセッサ及びメモリを備えた、文字列を格納及び取り出すシステムであって、
前記文字列内の隣接する文字間の変化に基づいて、前記文字列の少なくとも1つの文字列セグメントを識別し、前記識別された少なくとも1つの文字列セグメントと前記文字列との間のマッピングを文字列テーブルに格納することにより、複数の文字列のそれぞれを索引付ける、文字列テーブル作成コンポーネントと、
クエリ文字列を受け取るクエリ受取コンポーネントと、
受け取ったクエリ文字列を該受け取ったクエリ文字列内の隣接する文字間の変化に基づいてセグメントに分割するセグメント抽出コンポーネントであって、前記受け取ったクエリ文字列の各文字は前記受け取ったクエリ文字列の1つのセグメントに属する、セグメント抽出コンポーネントと、
文字列セグメントと前記文字列テーブルに格納された文字列との間の前記マッピングに基づいて、前記受け取ったクエリ文字列のセグメントと一致する前記複数の文字列内の文字列を選択するクエリ処理コンポーネントと
を備えることを特徴とするシステム。 - 前記文字列テーブル内の前記文字列を変更する文字列テーブル更新コンポーネントをさらに含むことを特徴とする請求項4に記載のシステム。
- 情報を自律的に処理するための方法であって、
プロセッサが、複数のマルチセグメント文字列を含むコンピュータプログラムリストを受け取るステップであって、前記マルチセグメント文字列の各文字は前記マルチセグメント文字列の1つのセグメントに正確に属し、前記コンピュータプログラムリストの各マルチセグメント文字列は前記マルチセグメント文字列内の隣接する文字間の変化に基づいて区分される、ステップと、
プロセッサが、セグメントエントリの索引を作成するステップであって、
各エントリは、
前記コンピュータプログラムリストの複数の文字列の中の少なくとも1つに含
まれる、大文字で始まって小文字で終わるセグメントを識別するセグメント文字
列、及び、
前記識別されたセグメントを含む前記コンピュータプログラムリストの複数の
文字列それぞれに対する参照
を含み、
セグメントエントリの前記索引は、
クエリ文字列を受け取る前に作成され、
クエリ文字列のクエリセグメントと少なくとも部分的に一致するセグメントを含む
前記コンピュータプログラムリストの文字列を識別するのに使用され、
前記クエリ文字列の前記クエリセグメントは、前記クエリ文字列内の隣接する文字間の変化に基づいて識別される、
ことを特徴とする方法。 - 前記セグメントエントリはB木に格納されることを特徴とする請求項6に記載の方法。
- 情報を自律的に処理するための方法であって、
プロセッサが、ソフトウェア開発プロジェクト内の文字列を識別する要求を受け取る前に、少なくとも部分的に文字列テーブルを作成するステップであって、
前記ソフトウェア開発プロジェクトの各文字列について、
前記ソフトウェア開発プロジェクトの文字列内で識別された少なくとも1つの区
切り条件のセットに基づいて前記ソフトウェア開発プロジェクトの前記文字列のセ
グメントを識別し、
前記ソフトウェア開発プロジェクトの前記文字列の前記識別されたセグメントの
それぞれと前記ソフトウェア開発プロジェクトの前記文字列との間の関連性を、前
記文字列テーブルに格納する
ことによって作成するステップと、
前記文字列テーブルを作成した後、プロセッサが、
前記ソフトウェア開発プロジェクト内の文字列を識別する要求を受け取るステップ
であって、各要求はクエリ文字列を含む、受け取るステップと、
前記クエリ文字列内の識別された少なくとも1つの区切り条件のセットに基づいて
受け取った要求の前記クエリ文字列のクエリセグメントを識別するステップと、
前記受け取った要求の前記クエリ文字列の識別されたクエリセグメントのそれぞれ
について、前記受け取った要求の前記クエリ文字列の前記識別されたクエリセグメン
トを含む前記ソフトウェア開発プロジェクト内の文字列を識別するために前記文字列
テーブルを使用する
ことを特徴とする方法。 - 前記クエリ文字列内のクエリセグメントと検索結果におけるセグメントとが一致する数に基づいて検索結果を順位付けることをさらに含むことを特徴とする請求項8に記載の方法。
- 検索結果の文字列内のセグメントが出現する順番と前記クエリ文字列内のクエリセグメントが出現する順番に基づいて検索結果を順位付けることをさらに含むことを特徴とする請求項8に記載の方法。
- 前記ソフトウェア開発プロジェクトの前記文字列は前記ソフトウェア開発プロジェクトの記号を含み、該記号は公表されたAPIによって公開された文字列を含むことを特徴とする請求項8に記載の方法。
- 前記文字列テーブル内の各文字列セグメントは、大文字で始まって小文字で終わることを特徴とする請求項4に記載のシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/311,891 US7756859B2 (en) | 2005-12-19 | 2005-12-19 | Multi-segment string search |
US11/311,891 | 2005-12-19 | ||
PCT/US2006/062012 WO2007076269A2 (en) | 2005-12-19 | 2006-12-13 | Multi-segment string search |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009520283A JP2009520283A (ja) | 2009-05-21 |
JP4698738B2 true JP4698738B2 (ja) | 2011-06-08 |
Family
ID=38195167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008545958A Active JP4698738B2 (ja) | 2005-12-19 | 2006-12-13 | 複数セグメント文字列の検索 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7756859B2 (ja) |
EP (1) | EP1964004A4 (ja) |
JP (1) | JP4698738B2 (ja) |
WO (1) | WO2007076269A2 (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7657423B1 (en) | 2003-10-31 | 2010-02-02 | Google Inc. | Automatic completion of fragments of text |
US20100121870A1 (en) * | 2008-07-03 | 2010-05-13 | Erland Unruh | Methods and systems for processing complex language text, such as japanese text, on a mobile device |
US9148477B2 (en) * | 2009-01-29 | 2015-09-29 | Qualcomm Incorporated | Methods and apparatus for communicating in a wireless system |
EP2264626B1 (de) * | 2009-06-19 | 2021-02-24 | Siemens Aktiengesellschaft | Verfahren und Vorrichtung zum speichereffizienten Suchen mindestens eines Anfragedatenelementes |
CN101957828B (zh) * | 2009-07-20 | 2013-03-06 | 阿里巴巴集团控股有限公司 | 一种对搜索结果进行排序的方法和装置 |
US8538935B2 (en) * | 2009-09-25 | 2013-09-17 | Formrouter Inc. | One-to-one and one-to-many relationships in databases |
US9392005B2 (en) | 2010-05-27 | 2016-07-12 | Samsung Sds Co., Ltd. | System and method for matching pattern |
US9171311B2 (en) * | 2010-08-31 | 2015-10-27 | Microsoft Technology Licensing, Llc | Maintaining targetable user inventory for digital advertising |
US8407245B2 (en) * | 2010-11-24 | 2013-03-26 | Microsoft Corporation | Efficient string pattern matching for large pattern sets |
US9195716B2 (en) * | 2013-02-28 | 2015-11-24 | Facebook, Inc. | Techniques for ranking character searches |
JP6511874B2 (ja) * | 2015-03-09 | 2019-05-15 | 富士通株式会社 | コンピュータプログラム、検索装置及び検索方法 |
CA3003061A1 (en) * | 2015-10-26 | 2017-05-04 | Intelliresponse Systems Inc. | System and method for determining common subsequences |
US11429586B2 (en) * | 2016-12-22 | 2022-08-30 | Sap Se | Expression update validation |
US10747819B2 (en) | 2018-04-20 | 2020-08-18 | International Business Machines Corporation | Rapid partial substring matching |
US10169451B1 (en) | 2018-04-20 | 2019-01-01 | International Business Machines Corporation | Rapid character substring searching |
US10782968B2 (en) | 2018-08-23 | 2020-09-22 | International Business Machines Corporation | Rapid substring detection within a data element string |
US10732972B2 (en) | 2018-08-23 | 2020-08-04 | International Business Machines Corporation | Non-overlapping substring detection within a data element string |
US10996951B2 (en) | 2019-09-11 | 2021-05-04 | International Business Machines Corporation | Plausibility-driven fault detection in string termination logic for fast exact substring match |
US11042371B2 (en) | 2019-09-11 | 2021-06-22 | International Business Machines Corporation | Plausability-driven fault detection in result logic and condition codes for fast exact substring match |
CN112597345B (zh) * | 2020-10-30 | 2023-05-12 | 深圳市检验检疫科学研究院 | 一种实验室数据自动采集与匹配方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020169755A1 (en) * | 2001-05-09 | 2002-11-14 | Framroze Bomi Patel | System and method for the storage, searching, and retrieval of chemical names in a relational database |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6126176A (ja) * | 1984-07-17 | 1986-02-05 | Nec Corp | 言語処理用辞書 |
US5469354A (en) * | 1989-06-14 | 1995-11-21 | Hitachi, Ltd. | Document data processing method and apparatus for document retrieval |
AU620994B2 (en) * | 1989-07-12 | 1992-02-27 | Digital Equipment Corporation | Compressed prefix matching database searching |
US5276616A (en) * | 1989-10-16 | 1994-01-04 | Sharp Kabushiki Kaisha | Apparatus for automatically generating index |
US5867812A (en) * | 1992-08-14 | 1999-02-02 | Fujitsu Limited | Registration apparatus for compound-word dictionary |
US5768423A (en) * | 1994-09-02 | 1998-06-16 | Panasonic Technologies Inc. | Trie structure based method and apparatus for indexing and searching handwritten databases with dynamic search sequencing |
US5995921A (en) * | 1996-04-23 | 1999-11-30 | International Business Machines Corporation | Natural language help interface |
US5978797A (en) * | 1997-07-09 | 1999-11-02 | Nec Research Institute, Inc. | Multistage intelligent string comparison method |
US6018735A (en) * | 1997-08-22 | 2000-01-25 | Canon Kabushiki Kaisha | Non-literal textual search using fuzzy finite-state linear non-deterministic automata |
US6108444A (en) * | 1997-09-29 | 2000-08-22 | Xerox Corporation | Method of grouping handwritten word segments in handwritten document images |
US6240409B1 (en) * | 1998-07-31 | 2001-05-29 | The Regents Of The University Of California | Method and apparatus for detecting and summarizing document similarity within large document sets |
DE19960081A1 (de) * | 1999-06-09 | 2000-12-14 | Grateach Gmbh | Suchmaschine |
US7483828B2 (en) * | 2001-03-16 | 2009-01-27 | Meaningful Machines, L.L.C. | Multilingual database creation system and method |
US6785677B1 (en) * | 2001-05-02 | 2004-08-31 | Unisys Corporation | Method for execution of query to search strings of characters that match pattern with a target string utilizing bit vector |
US7610189B2 (en) * | 2001-10-18 | 2009-10-27 | Nuance Communications, Inc. | Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal |
US20050131926A1 (en) | 2003-12-10 | 2005-06-16 | Siemens Corporate Research Inc. | Method of hybrid searching for extensible markup language (XML) documents |
US20050149499A1 (en) * | 2003-12-30 | 2005-07-07 | Google Inc., A Delaware Corporation | Systems and methods for improving search quality |
US7277029B2 (en) * | 2005-06-23 | 2007-10-02 | Microsoft Corporation | Using language models to expand wildcards |
-
2005
- 2005-12-19 US US11/311,891 patent/US7756859B2/en active Active
-
2006
- 2006-12-13 JP JP2008545958A patent/JP4698738B2/ja active Active
- 2006-12-13 WO PCT/US2006/062012 patent/WO2007076269A2/en active Application Filing
- 2006-12-13 EP EP06840236A patent/EP1964004A4/en not_active Ceased
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020169755A1 (en) * | 2001-05-09 | 2002-11-14 | Framroze Bomi Patel | System and method for the storage, searching, and retrieval of chemical names in a relational database |
Also Published As
Publication number | Publication date |
---|---|
WO2007076269A3 (en) | 2008-05-02 |
EP1964004A4 (en) | 2010-10-20 |
JP2009520283A (ja) | 2009-05-21 |
US7756859B2 (en) | 2010-07-13 |
WO2007076269A2 (en) | 2007-07-05 |
US20070150469A1 (en) | 2007-06-28 |
EP1964004A2 (en) | 2008-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4698738B2 (ja) | 複数セグメント文字列の検索 | |
US11423216B2 (en) | Providing extraction results for a particular field | |
US10783318B2 (en) | Facilitating modification of an extracted field | |
US10102253B2 (en) | Minimizing index maintenance costs for database storage regions using hybrid zone maps and indices | |
US7085761B2 (en) | Program for changing search results rank, recording medium for recording such a program, and content search processing method | |
US7827181B2 (en) | Click distance determination | |
US20120310630A1 (en) | Tokenization platform | |
US20150149879A1 (en) | Advanced field extractor with multiple positive examples | |
CN107153647B (zh) | 进行数据压缩的方法、装置、系统和计算机程序产品 | |
US9020951B2 (en) | Methods for indexing and searching based on language locale | |
US20070174261A1 (en) | Database retrieval apparatus, retrieval method, storage medium, and progam | |
JP4237813B2 (ja) | 構造化文書管理システム | |
CN116150093A (zh) | 一种对象存储列举对象的实现方法及电子设备 | |
US10963476B2 (en) | Searching and visualizing data for a network search based on relationships within the data | |
JP2675958B2 (ja) | 情報検索用計算機システム及びその記憶装置の動作方法 | |
Olsson | Using Elasticsearch for full-text searches on unstructured data | |
KR100434718B1 (ko) | 문서 색인 시스템 및 그 방법 | |
JP4304226B2 (ja) | 構造化文書管理システム、構造化文書管理方法及びプログラム | |
JP2001134598A (ja) | T木インデックス構築方法及びt木インデックス検索方法及びt木インデックス構築装置及びt木インデックス検索装置及びt木インデックス構築プログラムを格納した記憶媒体及びt木インデックス検索プログラムを格納した記憶媒体 | |
KR100797848B1 (ko) | 표지 데이터를 이용한 데이터 검색 방법 및 시스템 | |
CN113449522A (zh) | 一种文本模糊匹配方法和装置 | |
KR20190064750A (ko) | 토픽맵 구성 방법, 이를 이용한 의도 기반 검색 서비스 제공 방법 및 그 장치 | |
JP2008077673A (ja) | 構造化文書管理システム | |
JPH10198704A (ja) | データベースシステム | |
JP2002063202A (ja) | 情報検索システムおよび方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100914 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110301 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4698738 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |