JP2008541272A5 - - Google Patents

Download PDF

Info

Publication number
JP2008541272A5
JP2008541272A5 JP2008511259A JP2008511259A JP2008541272A5 JP 2008541272 A5 JP2008541272 A5 JP 2008541272A5 JP 2008511259 A JP2008511259 A JP 2008511259A JP 2008511259 A JP2008511259 A JP 2008511259A JP 2008541272 A5 JP2008541272 A5 JP 2008541272A5
Authority
JP
Japan
Prior art keywords
list
token
signature
score
tokens
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008511259A
Other languages
English (en)
Other versions
JP5072832B2 (ja
JP2008541272A (ja
Filing date
Publication date
Priority claimed from US11/361,340 external-priority patent/US7516130B2/en
Priority claimed from US11/361,447 external-priority patent/US7747642B2/en
Application filed filed Critical
Priority claimed from PCT/US2006/017846 external-priority patent/WO2006122086A2/en
Publication of JP2008541272A publication Critical patent/JP2008541272A/ja
Publication of JP2008541272A5 publication Critical patent/JP2008541272A5/ja
Application granted granted Critical
Publication of JP5072832B2 publication Critical patent/JP5072832B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

一般に、開示の実施形態は、ドキュメントに関連した少なくとも1つの署名を生成するシステムおよび方法を記述する。その署名は、例えば、企業コンピューティングシステムにおいて、サーチクエリにとって適切な結果を得るために用いられる。一実施形態では、テキストからなるドキュメントは、トークンセット(トークン集合)を生成するために受信され、解析される。トークンセットは複数のトークンを含む。各トークンは、予め定められた文字特性により分けられたドキュメント内のテキストに対応する。スコアは、そのドキュメント内のテキストの頻度および分布に基づいて、トークンセット内の各トークン毎に計算される。そして、各トークンは、計算されたスコアに基づいてランク付けされる。ランク付けされたトークンのサブセット(部分集合)が選択され、署名は、選択されたトークンの各発生(出現)毎に生成される。そして、署名の選択されたリストは出力される。システムおよび処理をさらにここで説明する。
その処理は、第2のトークンリスト(L2)を形成するために、新しい第1のトークンリスト(L1)の各ユニークなトークンを選択する(または取り出す)(ステップ330)。第2のトークンリストL2の各トークンに、その処理は、第1のトークンリストL1における出現位置をマークし(ステップ335)、以下のセットを生成する。
1=(t1,t2,...,tn
2=(T1,T2,...,Tm
ここで、複数の出現位置をマークするために、Ti〜<P(i,1),P(i,2),...,P(i,Si)>を意味し、ここで、i=1,...,mであり、S1+S2+...+Sm=nであ
次に、その処理は、計算されたスコアにより第2のトークンリストL2をソートし(ステップ345)、そのリスト(L2)からスコアによるトップNトークンを選択する(あるいは取り出す)(ステップ350)。なお、「N」はいずれかの整数であればよく、システム内に予め定められてもよく、あるいはシステムへの入力として選択されてもよい。第2のトークンリストL2からのスコアによるトップNトークンは、第3のトークンリストL3を作成する。第3のトークンリストL3の各トークンTj に、L1におけるその出現およびその近隣の複数トークンから署名を生成する(ステップ355)。また、この処理は、以下のように表示され得る。
各k {P(j,1),P(j,2),....,P(j,Si)}に、L1 内におけるその近隣のd個のトークンを取り出し、それらを鎖状につないで、k-d+...+tk-1+tk+tk+1+...+tk+dストリングを形成す
このストリングをエンコードすることは、1つの署名Fj,kを我々に与える。
第3のトークンリストL3 の各Tj に、理は、リスト(Fj,1,Fj,2,...Fj,Sj)をソートし、このソートされたリストからトップMの署名を選択する(ステップ360)。なお、「M」はいずれかの整数であればよく、システム内に予め定められてもよく、あるいはシステムへの入力として選択されてもよい。次に、第3のトークンリストL3のすべての構成要素について、合計(N・M)個ある選択された署名、集められ(あるいは収集され)る(ステップ365)。そして、理は、署名のコレクションを出力する(ステップ370)。
そして、その処理は、UTF−8アルファベット内の各文字cの発生(出現)を記録するために、標準化されたドキュメントをスキャンする(ステップ415)。発生(出現)の位置は、P(1,c),P(2,c),...,P(n,c)として示される。その処理は、以下を用いて文字cのためのランク付きのスコアを計算(あるいは生成)する。
スコア(c)=Sqrt(n)・{P(n,c)−P(1,c)}/Sqrt(D)
ここで、D={P(2,c)−P(1,c)}2+{P(3,c)−P(2,c)}2+...+{P(n,c)−P(n−1,c)}2である。スコア関数は、その頻度によってテキスト内の文字の重要性を測定する。また、スコア関数は、ドキュメント全体に均等に分布した文字がより良いスコアを得ることを確実にする。これを達成する計算は、以下を含む。
{P(n,c)−P(1,c)}/Sqrt(D)
その処理は、ソートされた第2のリストL2(c)からトップのK(c)トリプレットを選択する(あるいは取り出す)(ステップ455)。ここで、K(c)≦R・N(c)である。これは、第3のリストL3(c)を形成する。第3のリストL3(c)の各トリプレット(m,v,p)に、理は、発生(出現)位置pを囲む近隣の複数文字ハッシュ値を生成するハッシュ関数hash(p)によりそのハッシュ値を計算する(ステップ460)。適用可能なハッシュ関数の例は、従来のラビン−カープ(Karp-Rabin)ハッシュ関数であればよい。近隣の複数文字の数は、CHAR_NEIGHBORにより決定される。その処理は、ハッシュ値により第3のリストL3(c)をソートし(ステップ465)、第4のリストL4(c)を形成するために、ソートされたリストL3(c)のトップからNトリプレットまでを選択する(取り上げる)(ステップ470)。なお、「N」はいずれかの整数であればよく、システム内に予め定められてもよく、あるいは上述のようにシステムへの入力として選択されてもよい。L4(c)の各トリプレット(m,v,p)に、理は、発生位置pを囲む複数文字を用いて署名を生成し、それを署名リストSに追加する(ステップ475)。そして、その処理は、署名リストSを出力する(ステップ485)。なお、上述の処理は繰り返しであり、そのため、リストL内のすべての文字cのために繰り返される。
JP2008511259A 2005-05-09 2006-05-08 署名生成および関連性を有するマッチングエンジン Active JP5072832B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US67931405P 2005-05-09 2005-05-09
US60/679,314 2005-05-09
US11/361,447 2006-02-24
US11/361,340 US7516130B2 (en) 2005-05-09 2006-02-24 Matching engine with signature generation
US11/361,340 2006-02-24
US11/361,447 US7747642B2 (en) 2005-05-09 2006-02-24 Matching engine for querying relevant documents
PCT/US2006/017846 WO2006122086A2 (en) 2005-05-09 2006-05-08 Matching engine with signature generation and relevance detection

Publications (3)

Publication Number Publication Date
JP2008541272A JP2008541272A (ja) 2008-11-20
JP2008541272A5 true JP2008541272A5 (ja) 2012-03-15
JP5072832B2 JP5072832B2 (ja) 2012-11-14

Family

ID=37397221

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008511259A Active JP5072832B2 (ja) 2005-05-09 2006-05-08 署名生成および関連性を有するマッチングエンジン

Country Status (3)

Country Link
JP (1) JP5072832B2 (ja)
CN (1) CN101248433B (ja)
WO (1) WO2006122086A2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7516130B2 (en) * 2005-05-09 2009-04-07 Trend Micro, Inc. Matching engine with signature generation
US7860853B2 (en) * 2007-02-14 2010-12-28 Provilla, Inc. Document matching engine using asymmetric signature generation
JP5372853B2 (ja) 2010-07-08 2013-12-18 株式会社日立製作所 デジタルシーケンス特徴量算出方法及びデジタルシーケンス特徴量算出装置
JP5617674B2 (ja) * 2011-02-14 2014-11-05 日本電気株式会社 文書間類似度算出装置、文書間類似度算出方法、及び、文書間類似度算出プログラム
CN107798637A (zh) * 2016-08-30 2018-03-13 北京国双科技有限公司 同案异判文书的获取方法及装置
CN112580108B (zh) * 2020-12-10 2024-04-19 深圳证券信息有限公司 签名和印章完整性验证方法及计算机设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5325091A (en) * 1992-08-13 1994-06-28 Xerox Corporation Text-compression technique using frequency-ordered array of word-number mappers
JP2758826B2 (ja) * 1994-03-02 1998-05-28 株式会社リコー 文書検索装置
JPH09293079A (ja) * 1996-04-18 1997-11-11 Internatl Business Mach Corp <Ibm> 情報検索方法、情報検索装置及び情報検索プログラムを格納する記憶媒体
EP0961210A1 (en) * 1998-05-29 1999-12-01 Xerox Corporation Signature file based semantic caching of queries
US6493709B1 (en) * 1998-07-31 2002-12-10 The Regents Of The University Of California Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment
CN1369839A (zh) * 2001-02-16 2002-09-18 意蓝科技股份有限公司 文件关联性判定系统与方法
US6584470B2 (en) * 2001-03-01 2003-06-24 Intelliseek, Inc. Multi-layered semiotic mechanism for answering natural language questions using document retrieval combined with information extraction
JP2002269116A (ja) * 2001-03-13 2002-09-20 Ricoh Co Ltd 文書検索システム及びプログラム
JP3719666B2 (ja) * 2001-07-12 2005-11-24 松下電器産業株式会社 文書照合装置
US7139756B2 (en) * 2002-01-22 2006-11-21 International Business Machines Corporation System and method for detecting duplicate and similar documents

Similar Documents

Publication Publication Date Title
Su et al. Plagiarism detection using the Levenshtein distance and Smith-Waterman algorithm
Wang et al. Crowder: Crowdsourcing entity resolution
Whidden et al. Supertrees based on the subtree prune-and-regraft distance
JP2008541272A5 (ja)
CN106708947B (zh) 一种基于大数据的网络文章转发识别方法
Reinanda et al. Document filtering for long-tail entities
Karakasidis et al. A sorted neighborhood approach to multidimensional privacy preserving blocking
Liu et al. Multi-keyword ranked searchable encryption with the wildcard keyword for data sharing in cloud computing
EP3826000B1 (en) Automatic preparation of a new midi file
CN108733745A (zh) 一种基于医学知识的查询扩展方法
Tsoumakas et al. Effective stacking of distributed classifiers
CN103761298B (zh) 一种基于分布式架构的实体匹配方法
CN106126495A (zh) 一种基于大规模语料提词方法和装置
Xue et al. Phishing sites detection based on Url Correlation
US20080056497A1 (en) Method of generating anti-collusion fingerprint codes using
CN111008285B (zh) 一种基于论文关键属性网络的作者消歧方法
WO2006122086A3 (en) Matching engine with signature generation and relevance detection
Cambouropoulos et al. A pattern extraction algorithm for abstract melodic representations that allow partial overlapping of intervallic categories
Efimov et al. Kdd cup 2013-author-paper identification challenge: second place team
Blanco et al. On the number of pancake stacks requiring four flips to be sorted
Unger et al. Elxa: Scalable privacy-preserving plagiarism detection
Yang et al. Identifying influential spreaders based on diffusion K-truss decomposition
Das et al. An Upper Bound For Sorting Permutations With A Transposition Tree
Qin Data mining method based on computer forensics-based ID3 algorithm
Skopik et al. Generating Character-Based Templates for Log Data