JP2013536519A - 多数のデータレコードをサーチする方法及びサーチエンジン - Google Patents
多数のデータレコードをサーチする方法及びサーチエンジン Download PDFInfo
- Publication number
- JP2013536519A JP2013536519A JP2013525253A JP2013525253A JP2013536519A JP 2013536519 A JP2013536519 A JP 2013536519A JP 2013525253 A JP2013525253 A JP 2013525253A JP 2013525253 A JP2013525253 A JP 2013525253A JP 2013536519 A JP2013536519 A JP 2013536519A
- Authority
- JP
- Japan
- Prior art keywords
- term
- probability
- terms
- subset
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3322—Query formulation using system suggestions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (13)
- 多数(D)のデータレコード(dl)をサーチするコンピュータ実装方法であって、
−少なくとも1つのサーチ用語(qi)を含むサーチクエリ(Q)を受け取り、
−前記サーチ用語(qi)に類似するか又は同一である用語(tj)を含むサブセット(V)を、基準セット(T)から特定し、
−前記サブセット(V)内のそれぞれの用語(tj)ごとに、
−前記サーチ用語(qi)に対する類似性の尺度(Aj)を決定し、
−前記用語(tj)の存在の確率(pj)を決定し、
−前記用語(tj)によって左右される重み付け分布(Xj)を、前記サブセット(V)内の前記用語(tk)に対して適用し、この場合、類似性についての高い尺度(Ak)を有する用語(tk)が、類似性についての低い尺度(Ak)を有する用語(tk)よりも強力に重み付けされ、且つ、
−前記用語(tj)の変更済みの確率(p’j、p”j)を、前記サブセット(V)内の前記用語(tk)の前記重み付けされた確率から決定し、
−前記データレコード(dl)を、前記サーチクエリ(Q)に対するその関連性(R)について等級付けし、この場合に、
−前記サブセット(V)内の前記用語(tj)が前記データレコード(dl)内に存在しているかどうかを決定するためのチェックを実行し、且つ、
−前記サブセット(V)内の用語(tj)が前記データレコード(dl)内に実際に存在する場合、前記用語(tj)の低い変更済みの確率(p’j、p”j)により、前記データレコード(dl)の高い関連性等級が結果的にもたらされ、且つ、
−少なくとも1つのデータレコードサブセットがその関連性等級(R)に基づいて出力される、方法。 - 前記重み付け分布(Xj)は、用語(tj)の前記変更済みの確率(p’j、p”j)の前記決定が、前記用語(tj)の前記確率(pj)それ自身と、前記ある用語(tj)よりも類似性についての高い尺度(Ak)を有するその他の用語(tk)の確率(pk)と、を考慮するような形態を有することを特徴とする請求項1に記載の方法。
- 第2の用語(tk)の確率(pk)が第1の用語(ti)の前記変更済みの確率(p’i、p”i)内に納まる前記重み付け(Xj)がシグモイド関数の評価によって決定され、前記評価の中心は、前記第2の用語(ti)の前記類似性の尺度(Aj)からの前記第1の用語(tj)の前記類似性の尺度(Ak)の減算であることを特徴とする請求項1に記載の方法。
- 前記重み付け分布(Xj)は、用語(tj)の前記変更済みの確率(p’j、p”j)の前記決定において、類似性についての低い尺度(Ak)を有する低い重み付けを有するその他の用語(tk)の確率(pk)をも考慮するような形態を有しており、類似性についての低い尺度を有する別の用語(tk)の前記重み付けは、前記変更済みの確率(p’j、p”j)が決定される前記用語(tj)の前記類似性の尺度(Aj)と前記その他の用語(tk)の前記類似性の尺度(Ak)の間の差によって左右されることを特徴とする請求項1又は2に記載の方法。
- 前記変更済みの確率(p’j、p”j)の前記決定は、データレコード当たりの用語の数の分布を考慮する中間ステップの挿入を伴うことを特徴とする請求項1乃至4のいずれかに記載の方法。
- データレコード(dl)の前記等級は、前記関連する用語(tj)の前記変更済みの確率(p’j、p”j)の対数の絶対値から得られることを特徴とする請求項1乃至5のいずれかに記載の方法。
- 前記サブセット(V)内の用語(tj)の前記確率(pj)は、前記用語(tj)と関連する前記確率(pj)が、前記基準セット(T)内又は前記データレコード(dl)内における前記用語(tj)の存在の頻度から事前に特定されると共にメモリ(11)内に保存され、且つ、前記用語(tj)の前記保存された確率(pj)が前記メモリ(11)から読み取られることによって決定されることを特徴とする請求項1乃至6のいずれかに記載の方法。
- 前記データレコード(dl)の前記関連性等級付けは、データレコードが、前記サブセット(V)内の用語(tj)がこのデータレコード内に頻繁に存在する際に、高く等級付けされることを伴うことを特徴とする請求項1乃至7のいずれかに記載の方法。
- 前記データレコード(dl)は、それぞれ、複数のフィールドを含み、且つ、データレコード(dl)の前記関連性(rl)は、前記サブセット(V)内の用語(tj)が前記データレコード(dl)内において存在しているフィールドに基づいて更に等級付けされることを特徴とする請求項1乃至8のいずれかに記載の方法。
- 前記サーチクエリ(Q)は、複数のサーチ用語(qi)を含み、且つ、
部分的等級が、それぞれのサーチ用語(qi)ごとに、別個に決定され、且つ、
更なる部分的等級が、前記サーチ用語(qi)から編集された前記サーチクエリ(Q)について決定され、且つ、
前記サーチクエリ(Q)の前記等級(R)は、前記部分的等級から決定されることを特徴とする請求項1乃至9のいずれかに記載の方法。 - プログラムコードがコンピュータによって実行されるときに請求項1乃至10のいずれかに記載の方法を実行する該プログラムコードを有するコンピュータプログラムプロダクト。
- コンピュータによって実行することができるサーチエンジンであって、
−少なくとも1つのサーチ用語(qi)を含むサーチクエリ(Q)を受け取るための受け取りユニット(4)と、
−前記サーチ用語(qi)に類似するか又は同一である用語(tj)を含むサブセット(V)を特定するための手段(5)と、
−前記サブセット(V)内のそれぞれの用語(tj)について変更済みの確率(p’j、p”j)を決定するための手段(6〜8)であって、
−前記サーチ用語(qi)に対する類似性の尺度(Aj)を決定し、
−前記用語(tj)の存在の確率(pj)を決定し、
−前記用語(ti)によって左右される重み付け分布(X)を前記サブセット(V)内の前記用語(tk)に対して適用し、この場合に、類似性についての高い尺度(tk)を有する前記用語(tk)が、類似性についての低い尺度(Ak)を有する用語(tk)よりも強力に重み付けされ、且つ、
−前記サブセット(V)内の前記用語(tk)の前記重み付けされた確率から前記用語(tj)の前記変更済みの確率(p’j、p”j)を決定する、のに用いることができる手段(6〜8)と、
−前記サーチクエリ(Q)に対するその関連性についてデータレコード(dl)を等級付けするための等級付けユニット(9)であって、
−前記サブセット(V)内の前記用語(tj)が前記データレコード(dl)内に存在しているかどうかをチェックすることが可能であり、且つ、
−前記サブセット(V)内の用語(tj)が前記データレコード(di)内に実際に存在する場合、前記用語(tj)の低い変更済みの確率(p’j、p”j)によって、前記データレコード(dl)の高い等級付け(rl)が結果的にもたらされる、等級付けユニット(9)と、
−少なくとも1つのデータレコードサブセットをその関連性等級(R)に基づいて出力するための出力ユニット(10)と、
を有するサーチエンジン。 - 前記サーチエンジンは、用語(tj)を含む基準セット(T)又は前記データレコード(dl)内に存在する前記用語(tj)を含むセットと、前記用語(tj)と関連する前記確率(pj)と、を保存するメモリ(11)を有することを特徴とする請求項12に記載のサーチエンジン。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP20100174043 EP2423830A1 (de) | 2010-08-25 | 2010-08-25 | Verfahren zum Suchen in einer Vielzahl von Datensätzen und Suchmaschine |
EP10174043.9 | 2010-08-25 | ||
PCT/EP2011/064163 WO2012025439A1 (de) | 2010-08-25 | 2011-08-17 | Verfahren zum suchen in einer vielzahl von datensätzen und suchmaschine |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013536519A true JP2013536519A (ja) | 2013-09-19 |
JP5890413B2 JP5890413B2 (ja) | 2016-03-22 |
Family
ID=42791041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013525253A Active JP5890413B2 (ja) | 2010-08-25 | 2011-08-17 | 多数のデータレコードをサーチする方法及びサーチエンジン |
Country Status (7)
Country | Link |
---|---|
US (1) | US9087119B2 (ja) |
EP (1) | EP2423830A1 (ja) |
JP (1) | JP5890413B2 (ja) |
CN (1) | CN103098052B (ja) |
BR (1) | BR112013004243A2 (ja) |
RU (1) | RU2013112783A (ja) |
WO (1) | WO2012025439A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9335885B1 (en) * | 2011-10-01 | 2016-05-10 | BioFortis, Inc. | Generating user interface for viewing data records |
EP3089097A1 (de) | 2015-04-28 | 2016-11-02 | Omikron Data Quality GmbH | Verfahren zum erzeugen von prioritätsdaten für produkte |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001134588A (ja) * | 1999-11-04 | 2001-05-18 | Ricoh Co Ltd | 文書検索装置 |
JP2005309760A (ja) * | 2004-04-21 | 2005-11-04 | Nippon Telegr & Teleph Corp <Ntt> | 検索語ランキング算出方法及び装置及びプログラム |
JP2008541233A (ja) * | 2005-05-04 | 2008-11-20 | グーグル・インコーポレーテッド | オリジナルのユーザ入力に基づくユーザ入力の提案および絞込み |
US20100070506A1 (en) * | 2008-03-18 | 2010-03-18 | Korea Advanced Institute Of Science And Technology | Query Expansion Method Using Augmented Terms for Improving Precision Without Degrading Recall |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5724571A (en) * | 1995-07-07 | 1998-03-03 | Sun Microsystems, Inc. | Method and apparatus for generating query responses in a computer-based document retrieval system |
JP4174687B2 (ja) | 1996-09-24 | 2008-11-05 | セイコーエプソン株式会社 | 照明装置及び液晶表示装置 |
NO983175L (no) | 1998-07-10 | 2000-01-11 | Fast Search & Transfer Asa | Soekesystem for gjenfinning av data |
NO992269D0 (no) | 1999-05-10 | 1999-05-10 | Fast Search & Transfer Asa | S°kemotor med todimensjonalt skalerbart, parallell arkitektur |
JP2001043236A (ja) * | 1999-07-30 | 2001-02-16 | Matsushita Electric Ind Co Ltd | 類似語抽出方法、文書検索方法及びこれらに用いる装置 |
US20030120630A1 (en) | 2001-12-20 | 2003-06-26 | Daniel Tunkelang | Method and system for similarity search and clustering |
US7599914B2 (en) | 2004-07-26 | 2009-10-06 | Google Inc. | Phrase-based searching in an information retrieval system |
US20080077570A1 (en) * | 2004-10-25 | 2008-03-27 | Infovell, Inc. | Full Text Query and Search Systems and Method of Use |
CN101535945A (zh) * | 2006-04-25 | 2009-09-16 | 英孚威尔公司 | 全文查询和搜索系统及其使用方法 |
DK2035965T3 (da) | 2006-06-16 | 2013-04-22 | Omikron Data Quality Gmbh | Fremgangsmåde til automatisk at vurdere ligheden af to tegnstrenge der er lagret i en computer |
US20080082511A1 (en) * | 2006-08-31 | 2008-04-03 | Williams Frank J | Methods for providing, displaying and suggesting results involving synonyms, similarities and others |
US7739264B2 (en) * | 2006-11-15 | 2010-06-15 | Yahoo! Inc. | System and method for generating substitutable queries on the basis of one or more features |
US7630972B2 (en) | 2007-01-05 | 2009-12-08 | Yahoo! Inc. | Clustered search processing |
US7693902B2 (en) | 2007-05-02 | 2010-04-06 | Yahoo! Inc. | Enabling clustered search processing via text messaging |
-
2010
- 2010-08-25 EP EP20100174043 patent/EP2423830A1/de not_active Ceased
-
2011
- 2011-08-17 BR BR112013004243A patent/BR112013004243A2/pt not_active IP Right Cessation
- 2011-08-17 WO PCT/EP2011/064163 patent/WO2012025439A1/de active Application Filing
- 2011-08-17 CN CN201180040712.0A patent/CN103098052B/zh not_active Expired - Fee Related
- 2011-08-17 JP JP2013525253A patent/JP5890413B2/ja active Active
- 2011-08-17 US US13/818,180 patent/US9087119B2/en active Active
- 2011-08-17 RU RU2013112783/08A patent/RU2013112783A/ru unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001134588A (ja) * | 1999-11-04 | 2001-05-18 | Ricoh Co Ltd | 文書検索装置 |
JP2005309760A (ja) * | 2004-04-21 | 2005-11-04 | Nippon Telegr & Teleph Corp <Ntt> | 検索語ランキング算出方法及び装置及びプログラム |
JP2008541233A (ja) * | 2005-05-04 | 2008-11-20 | グーグル・インコーポレーテッド | オリジナルのユーザ入力に基づくユーザ入力の提案および絞込み |
US20100070506A1 (en) * | 2008-03-18 | 2010-03-18 | Korea Advanced Institute Of Science And Technology | Query Expansion Method Using Augmented Terms for Improving Precision Without Degrading Recall |
Also Published As
Publication number | Publication date |
---|---|
US20130151499A1 (en) | 2013-06-13 |
CN103098052B (zh) | 2017-05-24 |
WO2012025439A1 (de) | 2012-03-01 |
JP5890413B2 (ja) | 2016-03-22 |
BR112013004243A2 (pt) | 2016-07-26 |
RU2013112783A (ru) | 2014-09-27 |
CN103098052A (zh) | 2013-05-08 |
EP2423830A1 (de) | 2012-02-29 |
US9087119B2 (en) | 2015-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8880548B2 (en) | Dynamic search interaction | |
TWI557664B (zh) | Product information publishing method and device | |
JP5391633B2 (ja) | オントロジー空間を規定するタームの推奨 | |
CN110598086B (zh) | 文章推荐方法、装置、计算机设备及存储介质 | |
JP4850845B2 (ja) | 方法、システムおよびメモリ装置 | |
EP2395443B1 (en) | Query rewriting with entity detection | |
JP5423030B2 (ja) | ワードセットに関係するワードの決定 | |
CN110377886A (zh) | 项目查重方法、装置、设备及存储介质 | |
US20130110839A1 (en) | Constructing an analysis of a document | |
US8032469B2 (en) | Recommending similar content identified with a neural network | |
US20060184517A1 (en) | Answers analytics: computing answers across discrete data | |
CN110147421B (zh) | 一种目标实体链接方法、装置、设备及存储介质 | |
US8200671B2 (en) | Generating a dictionary and determining a co-occurrence context for an automated ontology | |
CN107844533A (zh) | 一种智能问答系统及分析方法 | |
WO2008106667A1 (en) | Searching heterogeneous interrelated entities | |
CN107038173A (zh) | 应用查询方法和装置、相似应用检测方法和装置 | |
JP6053131B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US20100185623A1 (en) | Topical ranking in information retrieval | |
CN101840397A (zh) | 词义消歧方法和系统 | |
CN113449187A (zh) | 基于双画像的产品推荐方法、装置、设备及存储介质 | |
US10198497B2 (en) | Search term clustering | |
JP5057474B2 (ja) | オブジェクト間の競合指標計算方法およびシステム | |
JP2020512651A (ja) | 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体 | |
US20150127657A1 (en) | Method and Computer for Indexing and Searching Structures | |
CN105164672A (zh) | 内容分类 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140729 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150605 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150804 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160218 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5890413 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |