JP2008541272A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2008541272A5 JP2008541272A5 JP2008511259A JP2008511259A JP2008541272A5 JP 2008541272 A5 JP2008541272 A5 JP 2008541272A5 JP 2008511259 A JP2008511259 A JP 2008511259A JP 2008511259 A JP2008511259 A JP 2008511259A JP 2008541272 A5 JP2008541272 A5 JP 2008541272A5
- Authority
- JP
- Japan
- Prior art keywords
- list
- token
- signature
- score
- tokens
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Description
一般に、開示の実施形態は、ドキュメントに関連した少なくとも1つの署名を生成するシステムおよび方法を記述する。その署名は、例えば、企業コンピューティングシステムにおいて、サーチクエリにとって適切な結果を得るために用いられる。一実施形態では、テキストからなるドキュメントは、トークンセット(トークン集合)を生成するために受信され、解析される。トークンセットは複数のトークンを含む。各トークンは、予め定められた文字特性により分けられたドキュメント内のテキストに対応する。スコアは、そのドキュメント内のテキストの頻度および分布に基づいて、トークンセット内の各トークン毎に計算される。そして、各トークンは、計算されたスコアに基づいてランク付けされる。ランク付けされたトークンのサブセット(部分集合)が選択され、署名は、選択されたトークンの各発生(出現)毎に生成される。そして、署名の選択されたリストは出力される。システムおよび処理をさらにここで説明する。
その処理は、第2のトークンリスト(L2)を形成するために、新しい第1のトークンリスト(L1)の各ユニークなトークンを選択する(または取り出す)(ステップ330)。第2のトークンリストL2の各トークン毎に、その処理は、第1のトークンリストL1における出現位置をマークし(ステップ335)、以下のセットを生成する。
L1=(t1,t2,...,tn)
L2=(T1,T2,...,Tm)
ここで、複数の出現位置をマークするために、Ti〜<P(i,1),P(i,2),...,P(i,Si)>を意味し、ここで、i=1,...,mであり、S1+S2+...+Sm=nである。
L1=(t1,t2,...,tn)
L2=(T1,T2,...,Tm)
ここで、複数の出現位置をマークするために、Ti〜<P(i,1),P(i,2),...,P(i,Si)>を意味し、ここで、i=1,...,mであり、S1+S2+...+Sm=nである。
次に、その処理は、計算されたスコアにより第2のトークンリストL2をソートし(ステップ345)、そのリスト(L2)からスコアによるトップNトークンを選択する(あるいは取り出す)(ステップ350)。なお、「N」はいずれかの整数であればよく、システム内に予め定められてもよく、あるいはシステムへの入力として選択されてもよい。第2のトークンリストL2からのスコアによるトップNトークンは、第3のトークンリストL3を作成する。第3のトークンリストL3の各トークンTj 毎に、L1におけるその出現およびその近隣の複数トークンから署名を生成する(ステップ355)。また、この処理は、以下のように表示され得る。
各k ∈{P(j,1),P(j,2),....,P(j,Si)}毎に、L1 内におけるその近隣の2d個のトークンを取り出し、それらを鎖状につないで、tk-d+...+tk-1+tk+tk+1+...+tk+dの1ストリングを形成する。
この1ストリングをエンコードすることは、1つの署名Fj,kを我々に与える。
各k ∈{P(j,1),P(j,2),....,P(j,Si)}毎に、L1 内におけるその近隣の2d個のトークンを取り出し、それらを鎖状につないで、tk-d+...+tk-1+tk+tk+1+...+tk+dの1ストリングを形成する。
この1ストリングをエンコードすることは、1つの署名Fj,kを我々に与える。
第3のトークンリストL3 内の各Tj 毎に、処理は、リスト(Fj,1,Fj,2,...Fj,Sj)をソートし、このソートされたリストからトップMの署名を選択する(ステップ360)。なお、「M」はいずれかの整数であればよく、システム内に予め定められてもよく、あるいはシステムへの入力として選択されてもよい。次に、第3のトークンリストL3のすべての構成要素について、合計(N・M)個ある、該選択された署名が、集められ(あるいは収集され)る(ステップ365)。そして、処理は、署名のコレクションを出力する(ステップ370)。
そして、その処理は、UTF−8アルファベット内の各文字cの発生(出現)を記録するために、標準化されたドキュメントをスキャンする(ステップ415)。発生(出現)の位置は、P(1,c),P(2,c),...,P(n,c)として示される。その処理は、以下を用いて文字cのためのランク付きのスコアを計算(あるいは生成)する。
スコア(c)=Sqrt(n)・{P(n,c)−P(1,c)}/Sqrt(D)
ここで、D={P(2,c)−P(1,c)}2+{P(3,c)−P(2,c)}2+...+{P(n,c)−P(n−1,c)}2である。スコア関数は、その頻度によってテキスト内の文字の重要性を測定する。また、スコア関数は、ドキュメント全体に均等に分布した文字がより良いスコアを得ることを確実にする。これを達成する計算は、以下を含む。
{P(n,c)−P(1,c)}/Sqrt(D)
スコア(c)=Sqrt(n)・{P(n,c)−P(1,c)}/Sqrt(D)
ここで、D={P(2,c)−P(1,c)}2+{P(3,c)−P(2,c)}2+...+{P(n,c)−P(n−1,c)}2である。スコア関数は、その頻度によってテキスト内の文字の重要性を測定する。また、スコア関数は、ドキュメント全体に均等に分布した文字がより良いスコアを得ることを確実にする。これを達成する計算は、以下を含む。
{P(n,c)−P(1,c)}/Sqrt(D)
その処理は、ソートされた第2のリストL2(c)からトップのK(c)トリプレットを選択する(あるいは取り出す)(ステップ455)。ここで、K(c)≦R・N(c)である。これは、第3のリストL3(c)を形成する。第3のリストL3(c)の各トリプレット(m,v,p)毎に、処理は、発生(出現)位置pを囲む近隣の複数文字でハッシュ値を生成するハッシュ関数hash(p)によりそのハッシュ値を計算する(ステップ460)。適用可能なハッシュ関数の例は、従来のラビン−カープ(Karp-Rabin)ハッシュ関数であればよい。近隣の複数文字の数は、CHAR_NEIGHBORにより決定される。その処理は、ハッシュ値により第3のリストL3(c)をソートし(ステップ465)、第4のリストL4(c)を形成するために、ソートされたリストL3(c)のトップからNトリプレットまでを選択する(取り上げる)(ステップ470)。なお、「N」はいずれかの整数であればよく、システム内に予め定められてもよく、あるいは上述のようにシステムへの入力として選択されてもよい。L4(c)の各トリプレット(m,v,p)毎に、処理は、発生位置pを囲む複数文字を用いて署名を生成し、それを署名リストSに追加する(ステップ475)。そして、その処理は、署名リストSを出力する(ステップ485)。なお、上述の処理は繰り返しであり、そのため、リストL内のすべての文字cのために繰り返される。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US67931405P | 2005-05-09 | 2005-05-09 | |
US60/679,314 | 2005-05-09 | ||
US11/361,447 | 2006-02-24 | ||
US11/361,340 US7516130B2 (en) | 2005-05-09 | 2006-02-24 | Matching engine with signature generation |
US11/361,340 | 2006-02-24 | ||
US11/361,447 US7747642B2 (en) | 2005-05-09 | 2006-02-24 | Matching engine for querying relevant documents |
PCT/US2006/017846 WO2006122086A2 (en) | 2005-05-09 | 2006-05-08 | Matching engine with signature generation and relevance detection |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2008541272A JP2008541272A (ja) | 2008-11-20 |
JP2008541272A5 true JP2008541272A5 (ja) | 2012-03-15 |
JP5072832B2 JP5072832B2 (ja) | 2012-11-14 |
Family
ID=37397221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008511259A Active JP5072832B2 (ja) | 2005-05-09 | 2006-05-08 | 署名生成および関連性を有するマッチングエンジン |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP5072832B2 (ja) |
CN (1) | CN101248433B (ja) |
WO (1) | WO2006122086A2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7516130B2 (en) * | 2005-05-09 | 2009-04-07 | Trend Micro, Inc. | Matching engine with signature generation |
US7860853B2 (en) * | 2007-02-14 | 2010-12-28 | Provilla, Inc. | Document matching engine using asymmetric signature generation |
JP5372853B2 (ja) | 2010-07-08 | 2013-12-18 | 株式会社日立製作所 | デジタルシーケンス特徴量算出方法及びデジタルシーケンス特徴量算出装置 |
JP5617674B2 (ja) * | 2011-02-14 | 2014-11-05 | 日本電気株式会社 | 文書間類似度算出装置、文書間類似度算出方法、及び、文書間類似度算出プログラム |
CN107798637A (zh) * | 2016-08-30 | 2018-03-13 | 北京国双科技有限公司 | 同案异判文书的获取方法及装置 |
CN112580108B (zh) * | 2020-12-10 | 2024-04-19 | 深圳证券信息有限公司 | 签名和印章完整性验证方法及计算机设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5325091A (en) * | 1992-08-13 | 1994-06-28 | Xerox Corporation | Text-compression technique using frequency-ordered array of word-number mappers |
JP2758826B2 (ja) * | 1994-03-02 | 1998-05-28 | 株式会社リコー | 文書検索装置 |
JPH09293079A (ja) * | 1996-04-18 | 1997-11-11 | Internatl Business Mach Corp <Ibm> | 情報検索方法、情報検索装置及び情報検索プログラムを格納する記憶媒体 |
EP0961210A1 (en) * | 1998-05-29 | 1999-12-01 | Xerox Corporation | Signature file based semantic caching of queries |
US6493709B1 (en) * | 1998-07-31 | 2002-12-10 | The Regents Of The University Of California | Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment |
CN1369839A (zh) * | 2001-02-16 | 2002-09-18 | 意蓝科技股份有限公司 | 文件关联性判定系统与方法 |
US6584470B2 (en) * | 2001-03-01 | 2003-06-24 | Intelliseek, Inc. | Multi-layered semiotic mechanism for answering natural language questions using document retrieval combined with information extraction |
JP2002269116A (ja) * | 2001-03-13 | 2002-09-20 | Ricoh Co Ltd | 文書検索システム及びプログラム |
JP3719666B2 (ja) * | 2001-07-12 | 2005-11-24 | 松下電器産業株式会社 | 文書照合装置 |
US7139756B2 (en) * | 2002-01-22 | 2006-11-21 | International Business Machines Corporation | System and method for detecting duplicate and similar documents |
-
2006
- 2006-05-08 WO PCT/US2006/017846 patent/WO2006122086A2/en active Application Filing
- 2006-05-08 CN CN2006800227288A patent/CN101248433B/zh active Active
- 2006-05-08 JP JP2008511259A patent/JP5072832B2/ja active Active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Su et al. | Plagiarism detection using the Levenshtein distance and Smith-Waterman algorithm | |
Wang et al. | Crowder: Crowdsourcing entity resolution | |
Whidden et al. | Supertrees based on the subtree prune-and-regraft distance | |
JP2008541272A5 (ja) | ||
CN106708947B (zh) | 一种基于大数据的网络文章转发识别方法 | |
Reinanda et al. | Document filtering for long-tail entities | |
Karakasidis et al. | A sorted neighborhood approach to multidimensional privacy preserving blocking | |
Liu et al. | Multi-keyword ranked searchable encryption with the wildcard keyword for data sharing in cloud computing | |
EP3826000B1 (en) | Automatic preparation of a new midi file | |
CN108733745A (zh) | 一种基于医学知识的查询扩展方法 | |
Tsoumakas et al. | Effective stacking of distributed classifiers | |
CN103761298B (zh) | 一种基于分布式架构的实体匹配方法 | |
CN106126495A (zh) | 一种基于大规模语料提词方法和装置 | |
Xue et al. | Phishing sites detection based on Url Correlation | |
US20080056497A1 (en) | Method of generating anti-collusion fingerprint codes using | |
CN111008285B (zh) | 一种基于论文关键属性网络的作者消歧方法 | |
WO2006122086A3 (en) | Matching engine with signature generation and relevance detection | |
Cambouropoulos et al. | A pattern extraction algorithm for abstract melodic representations that allow partial overlapping of intervallic categories | |
Efimov et al. | Kdd cup 2013-author-paper identification challenge: second place team | |
Blanco et al. | On the number of pancake stacks requiring four flips to be sorted | |
Unger et al. | Elxa: Scalable privacy-preserving plagiarism detection | |
Yang et al. | Identifying influential spreaders based on diffusion K-truss decomposition | |
Das et al. | An Upper Bound For Sorting Permutations With A Transposition Tree | |
Qin | Data mining method based on computer forensics-based ID3 algorithm | |
Skopik et al. | Generating Character-Based Templates for Log Data |