JP5184438B2 - Document signature generation apparatus, document signature generation method, and document signature generation program for detecting similar documents - Google Patents
Document signature generation apparatus, document signature generation method, and document signature generation program for detecting similar documents Download PDFInfo
- Publication number
- JP5184438B2 JP5184438B2 JP2009118477A JP2009118477A JP5184438B2 JP 5184438 B2 JP5184438 B2 JP 5184438B2 JP 2009118477 A JP2009118477 A JP 2009118477A JP 2009118477 A JP2009118477 A JP 2009118477A JP 5184438 B2 JP5184438 B2 JP 5184438B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- importance
- word
- vector
- document signature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、Web全文検索エンジンのインデックスを構成するような大規模文書集合に含まれる類似文書を検出するための文書署名生成技術に関する。 The present invention relates to a document signature generation technique for detecting similar documents included in a large-scale document set that constitutes an index of a Web full-text search engine.
大規模文書集合に含まれる文書から効率的に文書を検索する技術として、文書署名を用いる方法が古くから知られている。たとえば、非特許文献1では複数の文書署名作成法が紹介されている。文書署名は元文書集合と比較して小容量であり、また、文書署名を利用することで元文書集合を利用するよりも高速に文書を検索することができる。
As a technique for efficiently retrieving documents from documents included in a large-scale document set, a method using a document signature has been known for a long time. For example, Non-Patent
文書署名法を類似文書検索に適用するため、非特許文献2では、非特許文献1で紹介されている“Superimposed Coding”法を拡張し、単語の出現頻度を考慮した文書署名生成技術を紹介している。
In order to apply the document signature method to similar document retrieval, Non-Patent Document 2 introduces a document signature generation technique that takes into account the appearance frequency of words by extending the “Superimposed Coding” method introduced in Non-Patent
ここで、非特許文献2で紹介されている技術を利用してFビット長の文書署名を生成する方法を示す。まず、文書に含まれる各単語についてFビットのハッシュ値を計算する。次に、各ハッシュ値をビット列として扱い、ビットが1となっている位置の要素を1、ビットが0となっている位置の要素を−1、とするような、各要素が{−1,1}であるF要素のベクトルに各ビット列を変換する。これで、各単語がF要素のベクトルで表現されたことになる。さらに、各ベクトルの同じ位置にある要素の和を計算し、その和が非負であれば1、負であれば0、を要素とするF要素のベクトルを求める。このベクトルの要素をビット列としたものが文書署名となる。 Here, a method of generating an F-bit document signature using the technique introduced in Non-Patent Document 2 will be described. First, an F-bit hash value is calculated for each word included in the document. Next, each hash value is treated as a bit string, and each element is {-1, 1 at the position where the bit is 1 and -1 at the position where the bit is 0. Convert each bit string to a vector of F elements that is 1}. Thus, each word is expressed by a vector of F elements. Further, the sum of the elements at the same position of each vector is calculated, and a vector of F elements having 1 as an element if the sum is non-negative and 0 as an element is obtained. A document signature is obtained by converting the elements of this vector into a bit string.
本発明では、類似文書検索のための文書署名生成法としての背景技術がもつ2つの課題を解決する。以下、2つの課題を、それぞれ、課題1、課題2として述べる。
The present invention solves two problems of the background art as a document signature generation method for retrieving similar documents. Hereinafter, the two problems will be described as a
課題1は、背景技術が文書中の全ての単語を同等に扱うため、大きな違いも小さな違いも同等に扱うことである。その一例として、次の2組の文を挙げる。
(例1−a) 私は大阪に行きました。 (Example 1-a) I went to Osaka.
(例1−b) 私は大阪へ行きました。 (Example 1-b) I went to Osaka.
(例2−a) 私は東京へ行きました。 (Example 2-a) I went to Tokyo.
(例2−b) 私は大阪へ行きました。 (Example 2-b) I went to Osaka.
例1−aと例1−bは「に」と「へ」の1語のみの違いである。また、例2−aと例2−bも同様に「東京」と「大阪」の1語のみの違いである。背景技術では各単語の扱いは同等のため、例1−aと例1−bとの違い、あるいは、例2−aと例2−bとの違いについて差をつけない。しかし、例1−aと例1−bとが類似文書であるのに対して、例2−aと例2−bとは類似文書ではない。 Example 1-a and Example 1-b are the only differences between “ni” and “to”. Similarly, Example 2-a and Example 2-b are different from each other by only one word “Tokyo” and “Osaka”. In the background art, since each word is handled in the same way, the difference between Example 1-a and Example 1-b or the difference between Example 2-a and Example 2-b is not different. However, Example 1-a and Example 1-b are similar documents, whereas Example 2-a and Example 2-b are not similar documents.
課題2は、背景技術が文書中の語順を考慮しないので、文の順番が入れ替わっているものに対しても同じ文書署名を生成することである。その一例として次の2文を挙げる。 Problem 2 is to generate the same document signature even for sentences in which the order of sentences is changed because the background art does not consider the order of words in the document. The following two sentences are given as an example.
(例3−a) 私は大阪に行きました。その後、東京に行きました。 (Example 3-a) I went to Osaka. After that, I went to Tokyo.
(例3−b) 私は東京に行きました。その後、大阪に行きました。 (Example 3-b) I went to Tokyo. After that, I went to Osaka.
背景技術では語順を考慮しないため、例3−aと例3−bに対して同じ文書署名を生成する。背景技術では、これらの文書を類似文書とせず文書署名で区別したいという要求に応えられない。 Since the background technology does not consider the word order, the same document signature is generated for Example 3-a and Example 3-b. In the background art, it is not possible to meet the request for distinguishing these documents by document signatures instead of similar documents.
課題1に対しては、文書署名を計算する際に各単語の重要度を考慮する。具体的には、非特許技術2で各単語をビット列とし、さらに、ベクトルに変換する際に各要素を{−1,1}としているところを、単語の重要度に応じて{−wt,wt}とする。ただし、wtは各単語の重要度を数値化したもので、重要な単語ほど大きく、重要でない単語ほど小さくする。
For
課題2に対しては、出現位置に応じて各単語の文書署名への寄与度を決定する。具体的には、非特許技術2で各単語をビット列とし、さらに、ベクトルに変換する際に各要素を{−1,1}としているところを、単語の出現位置に応じて{−wp,wp}とする。ただし、wpは出現位置による寄与度を数値化したもの(出現位置に応じた重要度)である。一般に、文書の先頭に重要な情報が集中する傾向があるので、wpは出現位置が前の単語ほど大きく、後ろの単語ほど小さくする。 For assignment 2, the degree of contribution of each word to the document signature is determined according to the appearance position. Specifically, in Non-Patent Technology 2, each word is converted into a bit string, and each element is set to {−1, 1} when converted into a vector, and {−w p , Let w p }. However, w p is a numerical value of the degree of contribution due to the appearance position (importance corresponding to the appearance position). In general, since important information tends to concentrate at the beginning of a document, w p is made larger in the preceding word and smaller in the following word.
課題1と課題2とを同時に解決するには、非特許技術2で各単語をビット列とし、さらに、ベクトルに変換する際に各要素を{−1,1}としているところを、単語の重要度と出現位置に応じて{−wtwp,wtwp}とする。
To solve
本発明の請求項1に記載の類似文書を検出するための文書署名生成装置は、文書に含まれる各単語の重要度wt又は前記各単語の出現位置に応じた重要度wpのうち少なくともいずれか一方を計算して重要度wを求める重要度算出手段と、前記重要度算出手段により求められた各単語の重要度wに応じて、各単語について{−w,w}を要素とするベクトルを生成し、前記生成されたベクトルからF要素の文書署名ベクトルを求め、該文書署名ベクトルを文書署名情報とする文書署名計算手段と、を備えたことを特徴としている。
The document signature generation apparatus for detecting a similar document according to
(1)本発明によれば、課題1を解決することができ、これにより、文書署名を生成する際に瑣末な単語の違いに影響されなくなる。背景技術では文書中の単語の違いにより異なる文書署名を生成していた場合でも、本発明により、類似文書に対して同じ文書署名を生成できるようになる場合が増える。本発明の文書署名を利用することで、背景技術より多くの類似文書を検出できる。
(2)また本発明によれば、課題2を解決することができ、これにより、文書署名を生成する際に、文書中の語順の違いを考慮することができる。背景技術では、語順が異なるだけの複数文書に対して同じ文書署名を生成していたが、本発明では、語順が異なる場合は異なる文書署名を生成する。背景技術は語順が異なるだけの文書を類似文書として誤検出することがあったが、本発明の文書署名を利用することで、そのような誤検出を回避できる。
(1) According to the present invention,
(2) Further, according to the present invention, the problem 2 can be solved, and therefore, the difference in word order in the document can be taken into account when generating the document signature. In the background art, the same document signature is generated for a plurality of documents having different word orders. However, in the present invention, different document signatures are generated if the word orders are different. In the background art, there are cases where a document having only a different word order is erroneously detected as a similar document. However, such erroneous detection can be avoided by using the document signature of the present invention.
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。図1は本発明の文書署名生成装置の一実施形態例のブロック図であり、図中、破線矢印はデータの流れを、実線矢印は処理の流れを示す。 Hereinafter, embodiments of the present invention will be described with reference to the drawings, but the present invention is not limited to the following embodiments. FIG. 1 is a block diagram of an embodiment of a document signature generating apparatus according to the present invention. In the figure, a broken line arrow indicates a data flow, and a solid line arrow indicates a processing flow.
図1において、100は文書集合データベースであり、類似文書検出対象の文書を保存した記憶装置である。
In FIG. 1,
200は文書集合データベース100に保存された各文書に含まれる各単語の重要度wtを計算する単語統計情報計算手段である。
300は単語重要度データベースであり、単語統計情報計算手段200により計算された各単語に対する重要度wtを保存する記憶装置である。
400は、文書集合データベース100に保存された各文書に含まれる各単語の出現位置に応じた重要度wpを求めるとともに、該重要度wpと単語重要度データベース300に保存された重要度wtに基づいて、文書集合に含まれる各文書について文書署名を計算する文書署名計算手段である。
400 obtains the importance w p according to the appearance position of each word included in each document stored in the document set
500は、文書署名データベースであり、各文書に対する文書署名を保存する記憶装置である。
前記単語統計情報計算手段200および文書署名計算手段400の後述する各機能は例えばコンピュータによって達成される。
Each function to be described later of the word statistical
また本発明の重要度算出手段は、単語統計情報計算手段200が各単語の重要度wtを求め、文書署名計算手段400が各単語の出現位置に応じた重要度wpを求めることで達成される。 The importance calculation means of the present invention is achieved by the word statistical information calculation means 200 obtaining the importance w t of each word and the document signature calculation means 400 obtaining the importance w p according to the appearance position of each word. Is done.
次に上記のように構成された装置の動作を説明する。まず、単語統計情報計算手段200が単語の重要度を計算する。単語統計情報計算手段200は、文書集合データベース100から文書を読み込み、形態素解析器により各文書に含まれる単語を抽出する。
Next, the operation of the apparatus configured as described above will be described. First, the word statistical information calculation means 200 calculates the importance of a word. The word statistical information calculation means 200 reads a document from the document set
次に、各単語のIDF(逆文頻度)を計算し、IDFを各単語tの重要度wt(下記式(1))として単語重要度データベース300に記録する。
Next, the IDF (reverse sentence frequency) of each word is calculated, and the IDF is recorded in the
ここで、式(1)のidfは単語tのIDFを、Nは集合文書に含まれる文書の総数を示し、dftは単語tを含む文書数を示す。 Here, the IDF of idf word t of formula (1), N denotes the total number of documents in the set document, df t is the number of documents that contain term t.
次に、文書署名計算手段400が、図2に示すフローチャートに沿って、文書集合に含まれる各文書について文書署名を計算する。文書署名計算手段400は、文書集合データベース100から文書を読み込み、形態素解析器により各文書に含まれる単語を抽出する(ステップS1)。形態素解析器を利用できない場合は、例えばn−gramを単語として抽出してよい。
Next, the document signature calculation means 400 calculates a document signature for each document included in the document set according to the flowchart shown in FIG. The document
次いで、抽出した各単語についてハッシュ関数を用いてFビットのハッシュ値を計算する(ステップS2)。ハッシュ関数には、似た単語から近いハッシュ値が生成されない、ハッシュ値の衝突が容易に起きない、という条件を満たす関数を利用する。MD5(Message Digest Algorithm 5)、SHA(Secure Hash Algorithm)−1、SHA−256といった標準化されたハッシュ関数は、これらの条件を満たす。つづいて、単語重要度データベース300から各単語の単語重要度を取得する。
Next, an F-bit hash value is calculated for each extracted word using a hash function (step S2). As the hash function, a function that satisfies the conditions that a hash value close to similar words is not generated and that hash value collisions do not easily occur is used. Standardized hash functions such as MD5 (Message Digest Algorithm 5), SHA (Secure Hash Algorithm) -1, and SHA-256 satisfy these conditions. Subsequently, the word importance of each word is acquired from the
さらに、単語の出現位置pに応じた重要度wpを計算する。実施例では、文書の先頭に近いほど重要であるとして、文書長をN語である文書において単語がp番目に出現したとすると、
wp=(N−p)/N …(2)
であるwpを出現位置の重要度とする。
Further, the importance w p corresponding to the word appearance position p is calculated. In the embodiment, assuming that the closer to the beginning of the document, the more important it is, and assuming that the word appears pth in a document whose document length is N words,
w p = (N−p) / N (2)
Let w p be the importance of the appearance position.
そして、各単語について、各単語のハッシュ値をビット列として扱い、ビットが0となっている位置の要素を−wtwp、ビットが1となっている位置の要素をwtwp、とするようなF要素ベクトル(第1のベクトル)を求める(ステップS3)。ここで、単語の出現位置に応じた重要度wpを利用しない場合はwp=1、単語重要度wtを利用しない場合はwt=1とする。 For each word, the hash value of each word is treated as a bit string, the element at the position where the bit is 0 is −w t w p , the element at the position where the bit is 1 is w t w p , and so on. An F element vector (first vector) is calculated (step S3). Here, w p = 1 when not using the importance w p corresponding to the appearance position of the word, and w t = 1 when not using the word importance w t .
さらに、各F要素ベクトルの同じ位置にある要素の和を計算して新たなベクトル(第2のベクトル)とし(ステップS4)、その和が非負であれば1、負であれば0、を要素とするF要素の文書署名ベクトルを求める(ステップS5)。最後にこの文書署名ベクトルをFビットのビット列としたものを文書署名として文書署名データベース500に格納する(ステップS6)。
Further, the sum of the elements at the same position of each F element vector is calculated to be a new vector (second vector) (step S4). If the sum is non-negative, 1 is set, and if the sum is negative, 0 is set. A document signature vector of the F element is obtained (step S5). Finally, the document signature vector converted into an F-bit bit string is stored in the
尚、前記文書署名計算手段400により計算されたハッシュ値は、例えば図示省略のメモリに格納して利用するように構成しても良い。
It should be noted that the hash value calculated by the document
また、本実施形態の文書署名生成装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の文書署名生成方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。 In addition, the present invention can be realized by configuring some or all of the functions of each means in the document signature generating apparatus of the present embodiment by a computer program and executing the program using the computer. It is needless to say that the procedure in the document signature generation method of the above can be configured by a computer program and the program can be executed by the computer, and a program for realizing the function by the computer can be read by the computer, For example, FD (Floppy (registered trademark) Disk), MO (Magneto-Optical disk), ROM (Read Only Memory), memory card, CD (Compact Disk) -ROM, DVD (Digital Versati) e Disk) -ROM, CD-R, CD-RW, HDD, and recorded in a removable disk, or stored, it is possible or distribute. It is also possible to provide the above program through a network such as the Internet or electronic mail.
100…文書集合データベース
200…単語統計情報計算手段
300…単語重要度データベース
400…文書署名計算手段
500…文書署名データベース
DESCRIPTION OF
Claims (5)
文書に含まれる各単語の重要度wt又は前記各単語の出現位置に応じた重要度wpのうち少なくともいずれか一方を計算して重要度wを求める重要度算出手段と、
前記重要度算出手段により求められた各単語の重要度wに応じて、各単語について{−w,w}を要素とするベクトルを生成し、前記生成されたベクトルからF要素の文書署名ベクトルを求め、該文書署名ベクトルを文書署名情報とする文書署名計算手段と、を備えたことを特徴とする類似文書を検出するための文書署名生成装置。 An apparatus for generating document signature information for detecting a similar document,
Importance calculating means for calculating importance w by calculating at least one of importance w t of each word included in the document or importance w p corresponding to the appearance position of each word;
A vector having {−w, w} as an element is generated for each word according to the importance w of each word obtained by the importance calculating means, and a document signature vector of F element is generated from the generated vector. A document signature generation apparatus for detecting a similar document characterized by comprising: a document signature calculation means that obtains the document signature vector as document signature information.
文書に含まれる各単語についてFビットのハッシュ値を計算し、
前記重要度算出手段により求められた各単語の重要度wtおよび各単語の出現位置に応じた重要度wpに基づいて、前記計算されたハッシュ値をビット列として扱い、ビットが0となっている位置の要素を−wtwp、ビットが1となっている位置の要素をwtwpとする第1のベクトルを求め、
前記第1のベクトルの同じ位置にある要素の和を計算して第2のベクトルを求め、
前記第2のベクトルの非負の要素を1、負の要素を0とするF要素の文書署名ベクトルを求めることを特徴とする請求項1に記載の類似文書を検出するための文書署名生成装置。 The document signature calculation means
Calculate an F-bit hash value for each word contained in the document;
Based on the importance w t of each word obtained by the importance calculation means and the importance w p according to the appearance position of each word, the calculated hash value is treated as a bit string, and the bit becomes 0 Find a first vector with the element at the position -w t w p and the element at the position where the bit is 1 w t w p ,
Calculating a sum of elements at the same position of the first vector to obtain a second vector;
2. The document signature generation apparatus for detecting a similar document according to claim 1, wherein a document signature vector of an F element in which a non-negative element of the second vector is 1 and a negative element is 0 is obtained.
重要度算出手段が、文書に含まれる各単語の重要度wt又は前記各単語の出現位置に応じた重要度wpのうち少なくともいずれか一方を計算して重要度wを求める重要度算出ステップと、
文書署名計算手段が、前記重要度算出手段により求められた各単語の重要度wに応じて、各単語について{−w,w}を要素とするベクトルを生成し、前記生成されたベクトルからF要素の文書署名ベクトルを求め、該文書署名ベクトルを文書署名情報とする文書署名計算ステップと、を備えたことを特徴とする類似文書を検出するための文書署名生成方法。 A method of generating document signature information for detecting similar documents,
Importance calculation step in which the importance calculation means calculates importance w by calculating at least one of importance w t of each word included in the document or importance w p corresponding to the appearance position of each word When,
The document signature calculating means generates a vector having {−w, w} as an element for each word according to the importance w of each word obtained by the importance calculating means, and F is generated from the generated vector. A document signature generation method for detecting a similar document, comprising: obtaining a document signature vector of an element; and a document signature calculation step using the document signature vector as document signature information.
文書に含まれる各単語についてFビットのハッシュ値を計算するステップと、
前記重要度算出手段により求められた各単語の重要度wtおよび各単語の出現位置に応じた重要度wpに基づいて、前記計算されたハッシュ値をビット列として扱い、ビットが0となっている位置の要素を−wtwp、ビットが1となっている位置の要素をwtwpとする第1のベクトルを求めるステップと、
前記第1のベクトルの同じ位置にある要素の和を計算して第2のベクトルを求めるステップと、
前記第2のベクトルの非負の要素を1、負の要素を0とするF要素の文書署名ベクトルを求めるステップとを備えたことを特徴とする請求項3に記載の類似文書を検出するための文書署名生成方法。 The document signature calculation step includes:
Calculating an F-bit hash value for each word contained in the document;
Based on the importance w t of each word obtained by the importance calculation means and the importance w p according to the appearance position of each word, the calculated hash value is treated as a bit string, and the bit becomes 0 Obtaining a first vector having an element at a certain position as −w t w p and an element at a position where the bit is 1 as w t w p ;
Calculating a sum of elements at the same position of the first vector to obtain a second vector;
A method for detecting a similar document according to claim 3, further comprising: obtaining a document signature vector of an F element in which the non-negative element of the second vector is 1 and the negative element is 0. Document signature generation method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009118477A JP5184438B2 (en) | 2009-05-15 | 2009-05-15 | Document signature generation apparatus, document signature generation method, and document signature generation program for detecting similar documents |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009118477A JP5184438B2 (en) | 2009-05-15 | 2009-05-15 | Document signature generation apparatus, document signature generation method, and document signature generation program for detecting similar documents |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010267108A JP2010267108A (en) | 2010-11-25 |
JP5184438B2 true JP5184438B2 (en) | 2013-04-17 |
Family
ID=43364020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009118477A Expired - Fee Related JP5184438B2 (en) | 2009-05-15 | 2009-05-15 | Document signature generation apparatus, document signature generation method, and document signature generation program for detecting similar documents |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5184438B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120124581A (en) | 2011-05-04 | 2012-11-14 | 엔에이치엔(주) | Method, device and computer readable recording medium for improvded detection of similar documents |
KR101671227B1 (en) * | 2015-05-22 | 2016-11-01 | 줌인터넷 주식회사 | Apparatus for detecting duplication and similarity of documents, method thereof and computer recordable medium storing the method |
JP7193000B2 (en) * | 2019-08-30 | 2022-12-20 | 富士通株式会社 | Similar document search method, similar document search program, similar document search device, index information creation method, index information creation program, and index information creation device |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1196170A (en) * | 1997-09-17 | 1999-04-09 | Toshiba Corp | Data base generating method, method and device for information retrieval, and recording medium |
US7809695B2 (en) * | 2004-08-23 | 2010-10-05 | Thomson Reuters Global Resources | Information retrieval systems with duplicate document detection and presentation functions |
-
2009
- 2009-05-15 JP JP2009118477A patent/JP5184438B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010267108A (en) | 2010-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lim et al. | Malwaretextdb: A database for annotated malware articles | |
US9355171B2 (en) | Clustering of near-duplicate documents | |
WO2017092316A1 (en) | Abstract production method and apparatus | |
US20130074198A1 (en) | Methods and systems to fingerprint textual information using word runs | |
JP2018530047A (en) | Method and system for identifying similarity between filtering criteria and data items in a set of stream documents | |
GB2483358A (en) | Markov parsing of email message using annotations | |
US11328006B2 (en) | Word semantic relation estimation device and word semantic relation estimation method | |
US11194967B2 (en) | Unsupervised on-the-fly named entity resolution in dynamic corpora | |
WO2017121355A1 (en) | Search processing method and device | |
CA2809021C (en) | Systems and methods for lexicon generation | |
JP2017532690A (en) | Method and apparatus for removing duplicate web pages | |
JP5184438B2 (en) | Document signature generation apparatus, document signature generation method, and document signature generation program for detecting similar documents | |
Bouarara et al. | Machine learning tool and meta-heuristic based on genetic algorithms for plagiarism detection over mail service | |
CN113111178B (en) | Method and device for disambiguating homonymous authors based on expression learning without supervision | |
JP2010182238A (en) | Citation detection device, device and method for creating original document database, program and recording medium | |
JP2011028379A (en) | Program and device for converting data structure | |
JP2009151746A (en) | Collaborative tagging system and method for information resources | |
US20150332173A1 (en) | Learning method, information conversion device, and recording medium | |
US20220377095A1 (en) | Apparatus and method for detecting web scanning attack | |
JP4845575B2 (en) | Similarity evaluation apparatus and program | |
JP5618968B2 (en) | Similar page detection device, similar page detection method, and similar page detection program | |
JP2015103101A (en) | Text summarization device, method, and program | |
US10698871B2 (en) | System and method for fingerprinting-based conversation threading | |
US11544317B1 (en) | Identifying content items in response to a text-based request | |
JP5879150B2 (en) | Phrase detection device and program thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110829 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130116 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5184438 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160125 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |