JP2010198288A - 検索方法及び装置 - Google Patents
検索方法及び装置 Download PDFInfo
- Publication number
- JP2010198288A JP2010198288A JP2009042098A JP2009042098A JP2010198288A JP 2010198288 A JP2010198288 A JP 2010198288A JP 2009042098 A JP2009042098 A JP 2009042098A JP 2009042098 A JP2009042098 A JP 2009042098A JP 2010198288 A JP2010198288 A JP 2010198288A
- Authority
- JP
- Japan
- Prior art keywords
- text
- words
- independent words
- similarity
- independent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 114
- 238000004364 calculation method Methods 0.000 claims abstract description 83
- 238000010586 diagram Methods 0.000 description 35
- 244000205754 Colocasia esculenta Species 0.000 description 32
- 235000006481 Colocasia esculenta Nutrition 0.000 description 32
- 238000006243 chemical reaction Methods 0.000 description 16
- 239000013598 vector Substances 0.000 description 9
- 206010011469 Crying Diseases 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000001174 ascending effect Effects 0.000 description 5
- 238000007639 printing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】本方法は、記憶装置に格納されている入力テキストから自立語を抽出するステップと、抽出された自立語を条件として入力テキストとの類似度が、記憶装置に格納されている類似度閾値以上となる、既存テキスト中の自立語語数の範囲を特定する範囲特定ステップと、自立語語数が自立語語数の範囲内である既存テキストに限定して、記憶装置に格納されている、当該既存テキスト中の自立語と抽出された自立語とを用いて当該既存テキストと入力テキストの類似度を算出し、記憶装置に格納する類似度算出ステップと、記憶装置に格納された類似度が類似度閾値以上となる既存テキストを特定するステップとを含む。
【選択図】図1
Description
cos(A,B)=A・B/(|A||B|)1/2
A及びBは、それぞれテキストに含まれる単語のバイナリベクトルであり、A・Bは、AとBの内積である。バイナリベクトルの場合には、A・Bは、AとBに共通に含まれる単語数であり、共通出現単語数格納部に格納されている値と一致する。|A|はAの長さであり、ここではAに含まれる単語(ここでは自立語)の数であり、|B|はBの長さであり、ここではBに含まれる単語の数である。|A||B|は、Aの長さとBの長さの積である。
第1の実施の形態について図4乃至図15を用いて説明する。
本実施の形態では、絞り込み後のテキストをより簡単に特定できるようにして、処理を高速化するものである。具体的には、インデックスDBに格納されるデータを、単語数毎に生成する。
本実施の形態では、さらに比較対象テキストのサイズ範囲を絞り込む方法を採用する。本実施の形態に係る検索装置の構成は、インデックス変換部16を有しない部分を除き、図4で示した機能ブロック図と同じである。従って本実施の形態では、図4をベースに説明する。但し、各処理部は以下で述べるような異なる処理を実施する。
第3の実施の形態では、ステップS137において前もってインデックスDB14を、入力テキストから抽出された単語で検索する例を示したが、インデックスDB14の検索回数は増加してしまう。そこで例えば図30に示すような処理を採用するようにしても良い。
例えば第2の実施の形態のように、サイズ別インデックスDBを採用する場合においても、第3の実施の形態のように、入力テキストから抽出された単語がインデックスDBに登録されているか否かに応じてサイズ範囲を変更するようにしても良い。さらに、第4の実施の形態を第2の実施の形態に適用しても良い。
ステップS47の説明で示した(1)式がどのようにして得られるのかについて説明する。なお、入力テキストの単語数は|A|で表され、|Bi|は比較対象テキストの単語数を表しているものとする。
上で述べた実施の形態では、類似度の計算はコサイン類似度ということで説明した。しかし、類似度計算については他の計算方法を採用することも可能である。例えば、バイナリベクトルではなく、各単語について出現する回数まで考慮してコサイン類似度を算出するようにしても良い。以下、出現回数を考慮する場合について前提条件から説明する。
例えば、テキストAにおいて「太郎」が1回、「花子」が2回、「泣く」が1回出現する場合、A={太郎:1,花子:2,泣く:1}と表記するものとする。ここで、「:」の後の数字が出現回数である。
A・Bi=(Aにおける「太郎」の出現回数)×(Biにおける「太郎」の出現回数)+(Aにおける「花子」の出現回数)×(Biにおける「花子の出現回数)+(Aにおける「泣く」の出現回数)×(Biにおける「泣く」の出現回数)=(1×1)+(2×3)+(1×1)=8
単語カウンタZは、入力テキストAとインデックス対象テキストBiとの内積の最大値となる。
記憶装置に格納されている入力テキストから自立語を抽出するステップと、
抽出された前記自立語を条件として前記入力テキストとの類似度が、前記記憶装置に格納されている類似度閾値以上となる、既存テキスト中の自立語語数の範囲を特定する範囲特定ステップと、
自立語語数が前記自立語語数の範囲内である既存テキストに限定して、前記記憶装置に格納されている、当該既存テキスト中の自立語と抽出された前記自立語とを用いて当該既存テキストと前記入力テキストの類似度を算出し、前記記憶装置に格納する類似度算出ステップと、
前記記憶装置に格納された前記類似度が前記類似度閾値以上となる前記既存テキストを特定するステップと、
を含み、コンピュータに実行される検索方法。
前記範囲特定ステップが、
前記入力テキストと前記既存テキストとの類似度を算出するための類似度算出式に基づき予め規定され且つ前記入力テキスト中の自立語の語数を変数として類似度が類似度閾値以上となる前記既存テキスト中の自立語語数の範囲を算出する算式を用いて、抽出された前記自立語の語数を入力として前記類似度閾値以上となる前記既存テキスト中の自立語語数の範囲を算出する範囲算出ステップ
を含む付記1記載の検索方法。
前記範囲算出ステップにおいて、
いずれかの前記既存テキストに出現する、前記入力テキスト内の自立語のみの語数を、前記自立語語数の範囲の上限値算出のための入力としてさらに用いて、前記既存テキスト中の自立語語数の範囲を算出する
付記2記載の検索方法。
前記類似度算出ステップが、
前記既存テキストに出現する自立語毎に当該自立語を含む前記既存テキストの識別子が当該自立語を含む前記既存テキスト中の自立語語数順に列挙されている、前記記憶装置内のインデックス格納部を、抽出された前記自立語で検索して、一致する前記自立語について前記自立語語数が前記自立語語数の範囲内である前記既存テキストの識別子を順に抽出するステップ、
を含む付記1記載の検索方法。
前記類似度算出ステップが、
前記既存テキストに出現する自立語毎に当該自立語を含む前記既存テキストの識別子が列挙されており且つ前記既存テキスト中の自立語語数毎に設けられている、前記記憶装置内のインデックス格納部のうち、前記自立語語数の範囲に含まれる自立語語数についてのインデックス格納部を選択するステップと、
選択された前記インデックス格納部を、抽出された前記自立語で検索して、一致する前記自立語を含む前記既存テキストの識別子を抽出するステップと、
を含む付記1記載の検索方法。
前記類似度算出ステップが、
抽出された前記既存テキストの識別子について、一致する前記自立語の語数をカウントするステップと、
前記既存テキストの識別子に対応付けて当該既存テキスト中の自立語語数が格納されているテキストサイズ格納部から、抽出された前記既存テキストの識別子に対応付けられている当該既存テキスト中の自立語語数を読み出し、当該既存テキスト中の自立語語数と、前記入力テキストから抽出された前記自立語の語数と、一致する前記自立語の語数とから、前記既存テキストと前記入力テキストとの類似度を算出するステップと、
をさらに含む付記4又は5記載の検索方法。
前記範囲算出ステップが、
前記インデックス格納部を、前記入力テキストから抽出された前記自立語で検索して一致する自立語の語数を特定するステップと、
前記入力テキストと既存テキストとの類似度を算出するための類似度算出式に基づき予め規定され且つ前記入力テキスト中の自立語の語数を変数として類似度が類似度閾値以上となる前記既存テキスト中の自立語語数の範囲を算出する算式を用いて、特定された前記自立語の語数を入力として前記類似度閾値以上となる前記既存テキスト中の自立語語数の範囲を算出するステップと、
を含む付記4乃至6のいずれか1つ記載の検索方法。
前記類似度算出ステップが、
前記インデックス格納部を、前記入力テキストから抽出された前記自立語で検索して一致する自立語が登録されていないことを検出した場合に、前記入力テキストから抽出された前記自立語から、登録されていない自立語を除いたものを条件として前記入力テキストとの類似度が、前記記憶装置に格納されている類似度閾値以上となる、前記既存テキスト中の自立語語数の範囲を再設定するステップ
をさらに含む付記4又は5記載の検索方法。
付記1乃至8のいずれか1つ記載の検索方法をコンピュータに実行させるためのプログラム。
記憶装置に格納されている入力テキストから自立語を抽出する手段と、
抽出された前記自立語を条件として前記入力テキストとの類似度が、前記記憶装置に格納されている類似度閾値以上となる、既存テキスト中の自立語語数の範囲を特定する範囲特定手段と、
自立語語数が前記自立語語数の範囲内である既存テキストに限定して、前記記憶装置に格納されている、当該既存テキスト中の自立語と抽出された前記自立語とを用いて当該既存テキストと前記入力テキストの類似度を算出し、前記記憶装置に格納する類似度算出手段と、
前記記憶装置に格納された前記類似度が前記類似度閾値以上となる前記既存テキストを特定する手段と、
を有する検索装置。
13 インデックス生成部 14 インデックスDB
15 テキストサイズDB 16 インデックス変換部
17 共通出現単語数算出部 18 検索入力テキスト格納部
19 共通出現単語数格納部 20 類似度閾値格納部
21 類似テキスト選択処理部 22 テキストID格納部
23 出力部
Claims (7)
- 記憶装置に格納されている入力テキストから自立語を抽出するステップと、
抽出された前記自立語を条件として前記入力テキストとの類似度が、前記記憶装置に格納されている類似度閾値以上となる、既存テキスト中の自立語語数の範囲を特定する範囲特定ステップと、
自立語語数が前記自立語語数の範囲内である既存テキストに限定して、前記記憶装置に格納されている、当該既存テキスト中の自立語と抽出された前記自立語とを用いて当該既存テキストと前記入力テキストの類似度を算出し、前記記憶装置に格納する類似度算出ステップと、
前記記憶装置に格納された前記類似度が前記類似度閾値以上となる前記既存テキストを特定するステップと、
を含み、コンピュータに実行される検索方法。 - 前記範囲特定ステップが、
前記入力テキストと前記既存テキストとの類似度を算出するための類似度算出式に基づき予め規定され且つ前記入力テキスト中の自立語の語数を変数として類似度が類似度閾値以上となる前記既存テキスト中の自立語語数の範囲を算出する算式を用いて、抽出された前記自立語の語数を入力として前記類似度閾値以上となる前記既存テキスト中の自立語語数の範囲を算出する範囲算出ステップ
を含む請求項1記載の検索方法。 - 前記範囲算出ステップにおいて、
いずれかの前記既存テキストに出現する、前記入力テキスト内の自立語のみの語数を、前記自立語語数の範囲の上限値算出のための入力としてさらに用いて、前記既存テキスト中の自立語語数の範囲を算出する
請求項2記載の検索方法。 - 前記類似度算出ステップが、
前記既存テキストに出現する自立語毎に当該自立語を含む前記既存テキストの識別子が当該自立語を含む前記既存テキスト中の自立語語数順に列挙されている、前記記憶装置内のインデックス格納部を、抽出された前記自立語で検索して、一致する前記自立語について前記自立語語数が前記自立語語数の範囲内である前記既存テキストの識別子を順に抽出するステップ、
を含む請求項1記載の検索方法。 - 前記類似度算出ステップが、
前記既存テキストに出現する自立語毎に当該自立語を含む前記既存テキストの識別子が列挙されており且つ前記既存テキスト中の自立語語数毎に設けられている、前記記憶装置内のインデックス格納部のうち、前記自立語語数の範囲に含まれる自立語語数についてのインデックス格納部を選択するステップと、
選択された前記インデックス格納部を、抽出された前記自立語で検索して、一致する前記自立語を含む前記既存テキストの識別子を抽出するステップと、
を含む請求項1記載の検索方法。 - 請求項1乃至5のいずれか1つ記載の検索方法をコンピュータに実行させるためのプログラム。
- 記憶装置に格納されている入力テキストから自立語を抽出する手段と、
抽出された前記自立語を条件として前記入力テキストとの類似度が、前記記憶装置に格納されている類似度閾値以上となる、既存テキスト中の自立語語数の範囲を特定する範囲特定手段と、
自立語語数が前記自立語語数の範囲内である既存テキストに限定して、前記記憶装置に格納されている、当該既存テキスト中の自立語と抽出された前記自立語とを用いて当該既存テキストと前記入力テキストの類似度を算出し、前記記憶装置に格納する類似度算出手段と、
前記記憶装置に格納された前記類似度が前記類似度閾値以上となる前記既存テキストを特定する手段と、
を有する検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009042098A JP5245908B2 (ja) | 2009-02-25 | 2009-02-25 | 検索方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009042098A JP5245908B2 (ja) | 2009-02-25 | 2009-02-25 | 検索方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010198288A true JP2010198288A (ja) | 2010-09-09 |
JP5245908B2 JP5245908B2 (ja) | 2013-07-24 |
Family
ID=42822958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009042098A Expired - Fee Related JP5245908B2 (ja) | 2009-02-25 | 2009-02-25 | 検索方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5245908B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012164193A (ja) * | 2011-02-08 | 2012-08-30 | Nippon Telegr & Teleph Corp <Ntt> | 類似文書判定方法、類似文書判定装置及び類似文書判定プログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1153396A (ja) * | 1997-07-29 | 1999-02-26 | Just Syst Corp | 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法 |
JPH1166086A (ja) * | 1997-08-19 | 1999-03-09 | Fujitsu Ltd | 類似文書検索装置および類似文書検索方法 |
JP2002073681A (ja) * | 2000-08-28 | 2002-03-12 | Hitachi Ltd | 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体 |
-
2009
- 2009-02-25 JP JP2009042098A patent/JP5245908B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1153396A (ja) * | 1997-07-29 | 1999-02-26 | Just Syst Corp | 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法 |
JPH1166086A (ja) * | 1997-08-19 | 1999-03-09 | Fujitsu Ltd | 類似文書検索装置および類似文書検索方法 |
JP2002073681A (ja) * | 2000-08-28 | 2002-03-12 | Hitachi Ltd | 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体 |
Non-Patent Citations (3)
Title |
---|
CSNG200900334023; 森康弘、外2名: 'XML文書検索のための類似度計算の効率化手法' DEWS2005論文集 [online] , 20050502, p.1-8, (社)電子情報通信学会データ工学研究専門委員会 * |
JPN6013011625; Marios Hadjieleftheriou、外3名: 'Fast Indexes and Algorithms for Set Similarity Selection Queries' Data Engineering, 2008. ICDE 2008. IEEE 24th International Conference on [online] , 20080412, p.267-276 * |
JPN6013011626; 森康弘、外2名: 'XML文書検索のための類似度計算の効率化手法' DEWS2005論文集 [online] , 20050502, p.1-8, (社)電子情報通信学会データ工学研究専門委員会 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012164193A (ja) * | 2011-02-08 | 2012-08-30 | Nippon Telegr & Teleph Corp <Ntt> | 類似文書判定方法、類似文書判定装置及び類似文書判定プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5245908B2 (ja) | 2013-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162695B (zh) | 一种信息推送的方法及设备 | |
CN104462085B (zh) | 检索关键词纠错方法及装置 | |
JP4429236B2 (ja) | 分類ルール作成支援方法 | |
JP5316158B2 (ja) | 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体 | |
EP2945071B1 (en) | Index generating device and method, and search device and search method | |
US10613785B1 (en) | Scalable binning for big data deduplication | |
US20110184932A1 (en) | Search using proximity for clustering information | |
JP2006018829A (ja) | 自動分類生成 | |
JP2008027072A (ja) | データベース分析プログラム、データベース分析装置、データベース分析方法 | |
CN108376129A (zh) | 一种纠错方法及装置 | |
US20150234848A1 (en) | Methods and systems for efficient representation of file sets | |
US20190362187A1 (en) | Training data creation method and training data creation apparatus | |
US8140546B2 (en) | Computer system for performing aggregation of tree-structured data, and method and computer program product therefor | |
CN107273546B (zh) | 仿冒应用检测方法以及系统 | |
JP5245908B2 (ja) | 検索方法及び装置 | |
JP2012022499A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US9600565B2 (en) | Data structure, index creation device, data search device, index creation method, data search method, and computer-readable recording medium | |
CN115982390B (zh) | 一种产业链构建和迭代扩充开发方法 | |
WO2023081032A1 (en) | Query-based database redaction | |
JP2011090463A (ja) | 文書検索システム、情報処理装置およびプログラム | |
JP6081609B2 (ja) | データ分析システム及びその方法 | |
CN104615605B (zh) | 用于预测数据对象的类目的方法和装置 | |
JP2009230483A (ja) | 情報検索方法、プログラム及び装置 | |
CN113569027B (zh) | 一种文档标题处理方法、装置及电子设备 | |
JP5652519B2 (ja) | 情報検索方法、プログラム及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111006 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130301 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130312 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130325 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5245908 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160419 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees | ||
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |