JP5618968B2 - 類似ページ検出装置、類似ページ検出方法、類似ページ検出プログラム - Google Patents

類似ページ検出装置、類似ページ検出方法、類似ページ検出プログラム Download PDF

Info

Publication number
JP5618968B2
JP5618968B2 JP2011247978A JP2011247978A JP5618968B2 JP 5618968 B2 JP5618968 B2 JP 5618968B2 JP 2011247978 A JP2011247978 A JP 2011247978A JP 2011247978 A JP2011247978 A JP 2011247978A JP 5618968 B2 JP5618968 B2 JP 5618968B2
Authority
JP
Japan
Prior art keywords
sentence
page
hash
word
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011247978A
Other languages
English (en)
Other versions
JP2013105273A (ja
Inventor
高橋 大和
大和 高橋
杉崎 正之
正之 杉崎
内山 匡
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011247978A priority Critical patent/JP5618968B2/ja
Publication of JP2013105273A publication Critical patent/JP2013105273A/ja
Application granted granted Critical
Publication of JP5618968B2 publication Critical patent/JP5618968B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G06F17/30

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、記載内容が類似しているWebページを検出する技術に関する。
近年では、インターネットが一般化したことにより、Web上の情報量は飛躍的に増加している。そのため、現在では、これら大量の情報を効率よく整理して扱う技術が必須となっている。
類似ページの検出方法としては、従来、例えば下記非特許文献1に記載のものが知られている。
柴田知秀、姜ナウン、黒橋禎夫、「同一文抽出に基づく類似ページの検出と分類」、人工知能学会論文誌、25巻1号F(2010年)、pp.224−232
非特許文献1では、文単位で類似ページを検出することで、包含関係、一部重複、同一などを判定しているが、これは基本的には文単位で内容が一致している場合のみ検出ができる。
発明者らは、大量のWebページに記載されている情報の中で、類似しているページを整理しておくことで、様々な情報処理を効率よく行えると考えている。特に、Web情報を検索するといった利用例を考えた場合、ある単語で検索した結果では、類似した概要文となるページがある場合は、まとまっていた方が便利である。この類似とは、完全に同一な文ではなく、ある程度似ている場合も類似と扱われていることが望ましいと考えられる。
その観点では、前述の非特許文献1に記載の手法では、基本的には同一内容の場合のみ類似として扱われるため、不十分であるといえる。
本発明は上記課題を解決するものであり、その目的は、記載内容が類似しているWebページを検出することで、大量の情報の整理や統合を効率的に行える類似ページ検出装置、方法、プログラムを提供することにある。
本発明では、類似ページを検出するために、文単位かつ文を構成する上で特徴となるであろう単語を抽出し、その単語列を基にハッシュ(異なるデータである場合は異なった値となることが保証される値変換方式:MD5,SHA256など)を計算する。この値が同じ場合は類似している文が含まれている、ということで、記述内容が類似しているページ群を検出することができる。
文を構成する上で、特徴となる単語は、名詞や形容詞語幹、動詞語幹等が挙げられる。これは、語尾などの活用する部分は、言い替えなどで多様性が考えられるが、類似しているかという判断の場合、重視する度合いは低いと考えられるからである。ここで、特徴となる単語のことを「選別語」とする。
また、文は長さがまちまちであることは自然なことであるが、基本的には、長い文からは上記選別語が多く抽出でき、短い文は少なくなる。特に、「選別語」が一個だった場合は数多くのページに類似文が現れるであろうことは容易に予想できる。これは、類似ページを見つける計算を行う上でも無駄となるため、「選別語」が任意の個数より少ない場合はハッシュを計算しないことで類似判定処理の回数が減り、結果、処理が高速になると考えられる。
ただし、「選別語」の種類、特に名詞に関しては、その意味により重視の度合いが違うと考えられる。特に情報検索を考えた場合、たくさんの文書に現れるような一般名詞よりも、専門分野でよく使われるような単語や人物・製品に関する名前といった固有名詞の方が重要である。
この重要性を反映するために、先の「選別語」において、固有名詞が出現しない、かつ、任意の個数(「選別語しきい値」とする)より少ない場合はハッシュの計算を行わず、固有名詞が含まれる場合には、後続する文の「選別語」も加えたものからハッシュを計算することとする。
これは、利用例として挙げた情報検索においては、提示される概要文は一文とは限らず、ある程度の長さを持つ。よって、固有名詞が含まれているが短い文であった場合は、この任意の長さ(「文長しきい値」とする)の範囲内で、後続の文の「選別語」も加味することで、類似ページの取りこぼしを防ぐ。
以上の方法でページに含まれている文毎にハッシュを計算し、同一のハッシュ値を持つページ群を取りまとめることで、類似ページの情報を効率よく取得することができる。
本発明の類似ページ検出装置は、Web上の情報から類似しているWebページを検出する類似ページ検出装置であって、Webページの情報が格納されたWebページ情報データベースと、前記Webページ情報データベース内のWebページ情報を取り出して、各ページの各文毎に形態素解析を行い、文を構成する上で特徴となる単語を表す選別語を抽出し、前記抽出された選別語の数が、設定された選別語しきい値よりも大である場合は当該抽出された選別語群のハッシュ値を計算し、前記選別語の数が前記選別語しきい値よりも小さい場合であって、固有名詞からなる重要語が存在し且つ原文の長さが設定した文長しきい値を超えていないときは、当該文およびその次の文を統合した文から抽出した選別語群のハッシュ値を計算するハッシュ計算手段と、前記計算されたハッシュ値と、当該ページのURL、そのページの何文目かを示す文番号および当該文に重要語が有るか無いかの情報とを組として記録するハッシュ記録手段と、前記ハッシュ記録手段に記録された情報に基づいて、同一ハッシュ値を持つページ群をまとめて、類似ページ群を検出するハッシュ集約手段と、を備えたことを特徴としている。
本発明によれば、類似ページ群の検出を効率よく行なうことができ、これによって大量の情報の整理や統合を効率的に行なうことが可能となる。
また、固有名詞が含まれているが短い文であった場合に、類似ページの取りこぼしを防ぐことができる。
本発明の類似ページ検出装置の実施形態例を示す構成図。 本発明の類似ページ検出方法の実施形態例におけるハッシュ計算処理の流れを示すフローチャート。 本発明の類似ページ検出方法の実施形態例におけるハッシュ計算処理の流れの続きを示すフローチャート。 本発明の類似ページ検出方法の実施形態例におけるハッシュ計算処理の流れの続きを示すフローチャート。 本発明の類似ページ検出方法の実施形態例におけるハッシュ計算処理の流れの続きを示すフローチャート。 本発明の類似ページ検出方法の実施形態例におけるハッシュ集約処理の流れを示すフローチャート。 本発明の類似ページ検出装置の実施形態例におけるWebページの例を示す説明図。
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。図1は本発明の実施形態例における類似ページ検出装置100の構成を示している。
図2〜図5は本発明の類似ページ検出方法の実施形態例におけるハッシュ計算処理の流れを示すフローチャート、図6は本実施形態例におけるハッシュ集約処理の流れを示すフローチャートである。
図1において、110は、例えば図7に示すWebページの情報が格納されたWebページ情報データベースである。120は、前記Webページ情報データベース110内のWebページ情報を取り出して、各ページの各文毎に形態素解析を行い、文を構成する上で特徴となる単語を表す選別語を抽出し、該抽出された選別語の数に応じて後述する図2〜図5のハッシュ計算処理を行なうハッシュ計算手段としてのハッシュ計算装置である。
130は、重要度の高い固有名詞や、重要語として扱いたい単語、長めの単語列などが格納された重要語データベースである。
140は、ハッシュ計算装置120により抽出された選別語群に重要語が含まれており、且つその原文の長さが予め設定した文長しきい値を超えていないときに、文中の必要な品詞又は重要語と原文がハッシュ計算装置120によって登録される重要語一時記録装置である。
150は、前記ハッシュ計算装置120によって計算されたハッシュ値と、当該ページのURL、そのページの何文目かを示す文番号および当該文に重要語が有るか無いかの情報との組が、ハッシュ計算装置120によってページ単位で記録されるページ単位ハッシュ一時記録装置である。
160は、ページ単位ハッシュ一時記録装置150の記録内容が、1ページ毎にハッシュ計算装置120によって転送され記録されるハッシュ記録装置である。この際、ハッシュ計算装置120は、ページ単位ハッシュ一時記録装置150内のハッシュ値をページ単位で整理し、同一ハッシュ値を持つ文がある場合は、文書の先頭に近い方のみをハッシュ記録装置160に登録し、全て異なるハッシュ値が記録されている場合はそのまま転送してハッシュ記録装置160に記録する。
前記ページ単位ハッシュ一時記録装置150およびハッシュ記録装置160によって本発明のハッシュ記録手段を構成している。
170は、ハッシュ記録装置160に記録された情報について、同一ハッシュ値を持つWebページをまとめて、類似ページ群を検出し、類似ページ群記録装置180へ記録する、ハッシュ集約手段としてのハッシュ集約装置である。
本実施形態例の類似ページ検出装置100は、例えばコンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばROM,RAM,CPU、入力装置、出力装置、通信インターフェース、ハードディスク、記録媒体およびその駆動装置を備えている。
このハードウェアリソースとソフトウェアリソース(OS、アプリケーションなど)との協働の結果、類似ページ検出装置100は、図1に示すように、Webページ情報データベース110、ハッシュ計算装置120、重要語データベース130、重要語一時記録装置140、ページ単位ハッシュ一時記録装置150、ハッシュ記録装置160、ハッシュ集約装置170および類似ページ群記録装置180を実装する。
前記Webページ情報データベース110、重要語データベース130、重要語一時記録装置140、ページ単位ハッシュ一時記録装置150、ハッシュ記録装置160および類似ページ群記録装置180は、ハードディスクあるいはRAMなどの保存手段・記憶手段に構築されているものとする。
尚、Webページ情報データベース110は、実装せず外部設置とし、ネットワークを介して接続するように構成してもよい。
図2はハッシュ計算装置120が行う処理を表し、ステップS1ではWebページを全部読み出したか否かを判定し、判定結果がNoの場合、ステップS2においてWebページ情報データベース110から1ページ分の情報を読み出し、ステップS3において次の文はあるか否かを判定し、有る場合はステップS4において、1文毎に単語の品詞情報を検査し、必要な品詞、もしくは重要語であれば選別語群として重要語一時記録装置140に記録する。重要語一次記録装置140に選別語が記録されている場合は、記録内容に選別語を追加する。ステップS5では、選別語が選別語しきい値よりも多いか少ないかを判定する。
図3のステップS6は、図2のステップS5の判定の結果、選別語が選別語しきい値よりも多い場合と、後述する選別語の統合により原文の長さが文長しきい値を超えた場合に(図4のステップS10,S12の処理の後に)、ハッシュ計算装置120が、選別語を整列させて、ハッシュ値を計算し、ページ単位ハッシュ一時記録装置150へ登録し、重要語一時記録装置140をクリアする処理を示している。
図4は、図2のステップS5の判定の結果、選別語が選別語しきい値より少ない場合に、ハッシュ計算装置120が行う処理を表し、ステップS7では選別語群に重要語が含まれているか否かを判定し、含まれている場合はステップS10において、原文の長さは文長しきい値を超えているか否かを判定し、超えていない場合はステップS11において選別語を重要語一時記録装置140へ登録し、超えている場合はステップS12において重要語一時記録装置140をクリアする。
図5は、図2のステップS3の判定の結果、次の文が無いと判定された場合にハッシュ計算装置120が行なう処理を表し、ステップS8では、ページ単位ハッシュ一時記録装置150の記録内容に対して、ページ単位でハッシュ値の整理を行い、同一ハッシュ値を持つ文がある場合は、文書の先頭に近い方のみをハッシュ記録装置160に登録し、ステップS9ではページ単位ハッシュ一時記録装置150をクリアする。
図6は、図2のステップS1の判定結果がYesである(Webページを全部読み出した)場合にハッシュ集約装置170が行なう処理を表し、ステップS13では、ハッシュ記録装置160に記録された情報について、同一ハッシュ値を持つWebページをまとめ、類似ページ群記録装置180へ記録し、処理を終了する。
次に、上記のように構成された装置の詳細を説明する。ハッシュ計算装置120は、Webページの情報をWebページ情報データベース110から取り出し、各文毎に処理を行う。文毎に形態素解析を行い、「選別語」として別途設定しておいた品詞となった語を抽出する。本実施例では「選別語」の対象を「一般名詞」、「動詞語幹」、「形容詞語幹」、「重要語」とする。また、「選別語しきい値」を3、「文長しきい値」を30文字とする。
「重要語」は、一般的には、利用する形態素解析器のユーザ辞書機能を利用する。「重要語」として扱いたい単語や長めの単語列などを重要語データベース130として追加して形態素解析に反映されるようにする。表3に示すような、一般的には「ヨツハシ/カメラ」と分割される単語を「ヨツハシカメラ」と登録しておくことで、一つの「重要語」として扱えるようにする。
Figure 0005618968
また、カタカナ語やアルファベット語を重要語に類する単語として扱う機能を持つ形態素解析器を用いてもよい。
もしくは、形態素解析を行った結果に対して、重要語データベース130のエントリが含まれていた場合は、その単語を「重要語」として扱う処理を追加してもよい。以下、具体的な処理の流れを図2〜図6を参照しながら説明する。
まず図7(a)に示すページの1文目として、TITLEである「今日は誕生日」に対して、ハッシュ計算装置120が形態素解析処理を行い、「今日(一般名詞)/は(助詞)/誕生日(一般名詞)」という結果を得る(図2のステップS1〜S4)。一文目からは、「今日/誕生日」という選別語群を得るが、「選別語しきい値」の数に満たず、「重要語」も含まれないので、ハッシュ値は計算されないことになる(図2のステップS5,図4のステップS7)。
次に、2文目である「PS3を誕生日プレゼントにもらった。」を同様に処理する。形態素解析により、「PS3(重要語)/を(助詞)/誕生日(一般名詞)/プレゼント(一般名詞)/に(助詞)/もら(動詞語幹)/っ(動詞活用)/た(助動詞)/。(文末)」が得られ、「PS3/誕生日/プレゼント/もら」が選別語群となる(図2のステップS3,S4)。
選別語の数が「選別語しきい値」より多いため、この選別語群を辞書順で整列させ、ハッシュ値を計算する(図2のステップS5,図3のステップS6)。ここでは、ハッシュ計算手法としてMD5を用いることとする。ハッシュ値として、「1234567890」を得る。この選別語群には、重要語が含まれるが、「選別語しきい値」より多かったため、重要語一時記録装置140へは登録されない。結果として、ハッシュ値、URL、何文目かを示す文番号と重要語の有無を表す数値を組として、ページ単位ハッシュ一時記録装置150に記録する。
次に、3文目である「とても嬉しい。」を同様に処理する(図2のステップS3,S4)。形態素解析により、「とても(副詞)/嬉し(形容詞語幹)/い(活用語尾)/。(文末)」が得られ、「嬉し」が選別語群となるが、「選別語しきい値」よりも少なく、「重要語」も含まれないため、ハッシュ値は計算されない(図2のステップS5,図4のステップS7)。
次に、4文目である「早速、近所のヨツバシカメラへ行ってtorunenを購入して、色々と設定、繋げて、今日の映画特集を録画してみた。」を同様に処理する。形態素解析により、「早速(副詞)/、/近所(一般名詞)/の(助詞)/ヨツバシカメラ(重要語)/へ(助詞)/行(動詞語幹)/っ(動詞活用)/て(活用語尾)/torunen(重要語)/を(助詞)/購入(動詞語幹)/し(動詞語幹)/て(活用語尾)/、(読点)/色々(副詞)/と(助詞)/設定(動詞語幹)/、(読点)/繋げ(動詞語幹)/て(活用語尾)/、(読点)/今日(一般名詞)/の(助詞)/映画(一般名詞)/特集(一般名詞)/を(助詞)/録画(動詞語幹)/し(動詞語幹)/て(活用語尾)/み(動詞語幹)/た(活用語尾)/。(文末)」が得られ、「近所/ヨツバシカメラ/行/torunen/購入/し/設定/繋げ/今日/映画/特集/録画/し/み」が選別語群となる(図2のステップS3,S4)。
選別語の数が「選別語しきい値」より多いため、この選別語群を辞書順で整列させ、ハッシュ値を計算し、「0987654321」を得る(図2のステップS5,図3のステップS6)。
この選別語群には、重要語が含まれるが、「選別語しきい値」より多かったため、重要語一時記録装置140へは登録されず、ハッシュ値、URL、何文目かを示す文番号と重要語の有無を表す数値を組として、ページ単位ハッシュ一時記録装置150に記録する。
上記で、1ページ(図7(a)に示すページ)分のハッシュ値計算が完了することになる(図2のステップS3の判定結果が無となる)ので、図5のステップS8において、このハッシュ値をまとめる。ページ単位ハッシュ一時記録装置150には、すべて異なるハッシュ値が記録されているので、このままハッシュ記録装置160へ転送される。そして図5のステップS9において、ハッシュ計算装置120がページ単位ハッシュ一時記録装置150をクリアする。
次のページ(図7(b)に示すページ)も同様に処理する。1文目として、TITLEである「誕生日おめでとう!」に対してハッシュ計算装置120が形態素解析処理を行い(図2のステップS1〜S4)、「誕生日(一般名詞)/おめでとう(定型詞)/!(感嘆詞)」という結果を得る。一文目からは、「誕生日」という選別語群を得るが、「選別語しきい値」の数に満たず、「重要語」も含まれないので、ハッシュ値は計算されないことになる(図2のステップS5,図4のステップS7)。
次に、2文目である「usr1さん、おめでとう!」を同様に処理する。形態素解析により、「usr1(重要語)/さん(一般名詞)/、(読点)/おめでとう(定型詞)/!(感嘆詞)」が得られ、「usr1/さん」が選別語群となる(図2のS3,S4)。選別語の数が「選別語しきい値」より少ないのでハッシュ値は計算されないが、「重要語」を含み(図2のステップS5,図4のステップS7)、且つ2文目の原文長が文長しきい値の30文字を超えていないため、重要語一時記録装置140に選別語群である「usr1/さん」と原文の長さである13文字を記録する。
次に、3文目である「> PS3を誕生日プレゼントにもらった。」を同様に処理する。形態素解析により、「>(記号)/ (空白)/PS3(重要語)/を(助詞)/誕生日(一般名詞)/プレゼント(一般名詞)/に(助詞)/もら(動詞語幹)/っ(動詞活用)/た(助動詞)/。(文末)」が得られ、「PS3/誕生日/プレゼント/もら」が選別語群となる(図2のステップS3,S4)。 選別語の数が「選別語しきい値」より多いため、この選別語群を辞書順で整列させ、ハッシュ値を計算して「1234567890」を得る。続けて、重要語一時記録装置140には、2文目から抽出された選別語群が登録されているので、ハッシュ計算装置120は、2文目と3文目から抽出された選別語を統合する。 この時、2文目の選別語数が選別語しきい値より少なく且つ「重要語」を含んでいることから、図2のステップS5,図4のステップS7が実行され、そして原文の長さが、2文目の13文字に3文目の20文字が加えられて「文長しきい値」である30文字を超えるので、図4のステップS10の判定結果がYesとなる。そこで図4のステップS12において重要語一時記録装置140をクリアした後、図3のステップS6において、別途前記統合された選別語群を辞書順に整列させ、ハッシュ値を計算して、ページ単位ハッシュ一時記録装置150に記録する。
以下、同様な処理を行った後の、ハッシュ記録装置160の内容を表1に示す。
Figure 0005618968
すべてのページに対してハッシュ計算の処理を行った後、図6のステップS13においてハッシュ集約装置170がハッシュ集約処理を行う。
ここでは、ハッシュ記録装置160に記録されたハッシュ値を基に、同じハッシュ値を持つレコードをまとめていく。この処理は、全体の量が少ない場合は、ハッシュ値を基にソートで整列を行い、同値のものをまとめることになる。全体の量が多い場合は、MapReduceといった分散処理ソフトウェアを使えば同じハッシュ値を持つページ群をまとめることができる。最後に、URL毎に整理を行い、類似ページ群記録装置180に出力し記録する。表2に本実施例における出力結果例を示す。
Figure 0005618968
以上のように本実施形態例によれば、Webページ間の類似度を、当該ページの文から抽出した複数の特徴となる単語(選別語)についてのハッシュ値に基づいて判断することにより、完全一致でないページ同士についても類似しているものとして整理、記録することができる。
また、選別語の数が前記選別語しきい値よりも小さい場合であっても、固有名詞からなる重要語が存在し且つ原文の長さが設定した文長しきい値を超えていないときは、当該文およびその次の文を統合した文から抽出した選別語群のハッシュ値を計算するので、重要語が含まれているが短い文である場合に、類似ページの取りこぼしを防ぐことができる。
尚、図1のWebページ情報データベース110にはHTMLデータそのものを蓄積しておき、別途、本文抽出、文区切り、形態素解析などを行なうページ解析処理装置を追加して構成しても良い。
また、本実施形態の類似ページ検出装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の類似ページ検出方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
100…類似ページ検出装置
110…Webページ情報データベース
120…ハッシュ計算装置
130…重要語データベース
140…重要語一時記録装置
150…ページ単位ハッシュ一時記録装置
160…ハッシュ記録装置
170…ハッシュ集約装置
180…類似ページ群記録装置

Claims (3)

  1. Web上の情報から類似しているWebページを検出する類似ページ検出装置であって、
    Webページの情報が格納されたWebページ情報データベースと、
    前記Webページ情報データベース内のWebページ情報を取り出して、各ページの各文毎に形態素解析を行い、文を構成する上で特徴となる単語を表す選別語を抽出し、前記抽出された選別語の数が、設定された選別語しきい値よりも大である場合は当該抽出された選別語群のハッシュ値を計算し、前記選別語の数が前記選別語しきい値よりも小さい場合であって、固有名詞からなる重要語が存在し且つ原文の長さが設定した文長しきい値を超えていないときは、当該文およびその次の文を統合した文から抽出した選別語群のハッシュ値を計算するハッシュ計算手段と、
    前記計算されたハッシュ値と、当該ページのURL、そのページの何文目かを示す文番号および当該文に重要語が有るか無いかの情報とを組として記録するハッシュ記録手段と、
    前記ハッシュ記録手段に記録された情報に基づいて、同一ハッシュ値を持つページ群をまとめて、類似ページ群を検出するハッシュ集約手段と、を備えたことを特徴とする類似ページ検出装置。
  2. Web上の情報から類似しているWebページを検出する類似ページ検出方法であって、
    ハッシュ計算手段が、Webページの情報が格納されたWebページ情報データベース内のWebページ情報を取り出して、各ページの各文毎に形態素解析を行い、文を構成する上で特徴となる単語を表す選別語を抽出するステップと、前記抽出された選別語の数が、設定された選別語しきい値よりも大である場合は当該抽出された選別語群のハッシュ値を計算するステップと、前記選別語の数が前記選別語しきい値よりも小さい場合であって、固有名詞からなる重要語が存在し且つ原文の長さが設定した文長しきい値を超えていないときは、当該文およびその次の文を統合した文から抽出した選別語群のハッシュ値を計算するステップと、前記計算されたハッシュ値と、当該ページのURL、そのページの何文目かを示す文番号および当該文に重要語が有るか無いかの情報とを組としてハッシュ記録手段に記録するステップと、
    ハッシュ集約手段が、前記ハッシュ記録手段に記録された情報に基づいて、同一ハッシュ値を持つページ群をまとめて、類似ページ群を検出するハッシュ集約ステップと、を備えたことを特徴とする類似ページ検出方法。
  3. コンピュータを請求項1に記載の各手段として機能させる類似ページ検出プログラム。
JP2011247978A 2011-11-11 2011-11-11 類似ページ検出装置、類似ページ検出方法、類似ページ検出プログラム Expired - Fee Related JP5618968B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011247978A JP5618968B2 (ja) 2011-11-11 2011-11-11 類似ページ検出装置、類似ページ検出方法、類似ページ検出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011247978A JP5618968B2 (ja) 2011-11-11 2011-11-11 類似ページ検出装置、類似ページ検出方法、類似ページ検出プログラム

Publications (2)

Publication Number Publication Date
JP2013105273A JP2013105273A (ja) 2013-05-30
JP5618968B2 true JP5618968B2 (ja) 2014-11-05

Family

ID=48624778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011247978A Expired - Fee Related JP5618968B2 (ja) 2011-11-11 2011-11-11 類似ページ検出装置、類似ページ検出方法、類似ページ検出プログラム

Country Status (1)

Country Link
JP (1) JP5618968B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015184877A (ja) * 2014-03-24 2015-10-22 株式会社日立ソリューションズ データ処理装置、データ処理プログラム
JP2019060217A (ja) * 2017-09-27 2019-04-18 株式会社Lixil 床構造施工用具及び床構造施工方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7809695B2 (en) * 2004-08-23 2010-10-05 Thomson Reuters Global Resources Information retrieval systems with duplicate document detection and presentation functions
US8977949B2 (en) * 2007-10-11 2015-03-10 Nec Corporation Electronic document equivalence determination system and equivalence determination method
TW201027375A (en) * 2008-10-20 2010-07-16 Ibm Search system, search method and program

Also Published As

Publication number Publication date
JP2013105273A (ja) 2013-05-30

Similar Documents

Publication Publication Date Title
TW201027375A (en) Search system, search method and program
Albishre et al. Effective 20 newsgroups dataset cleaning
US7284006B2 (en) Method and apparatus for browsing document content
CN110019820B (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN107145476A (zh) 一种基于改进tf‑idf关键词提取算法
US8037403B2 (en) Apparatus, method, and computer program product for extracting structured document
WO2015024429A1 (zh) 获取网页中影视主体的方法及装置
JP5618968B2 (ja) 類似ページ検出装置、類似ページ検出方法、類似ページ検出プログラム
JP3921837B2 (ja) 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法
JP2004086845A (ja) 電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
JP2010250439A (ja) 検索システム、データ生成方法、プログラムおよびプログラムを記録した記録媒体
Lin et al. Combining a segmentation-like approach and a density-based approach in content extraction
JP2013222418A (ja) パッセージ分割方法、装置、及びプログラム
JP2010286888A (ja) 情報収集システムおよび情報収集方法ならびにそのプログラム
CN114302227A (zh) 基于容器采集的网络视频采集与解析的方法和系统
JP2007241568A (ja) 話題画像抽出方法及び装置及びプログラム
JP2009140411A (ja) 文章要約装置および文章要約方法
JP5308918B2 (ja) キーワード抽出方法、キーワード抽出装置およびキーワード抽出プログラム
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP2012079121A (ja) マイクロブログテキスト分類装置及び方法及びプログラム
JP7116940B2 (ja) オープンデータを効率的に構造化し補正する方法及びプログラム
da Rocha et al. Polarity classification on web-based reviews using Support Vector Machine
JP5557791B2 (ja) マイクロブログテキスト分類装置、マイクロブログテキスト分類方法、及びプログラム
EP2812814A1 (fr) Procede d'identification d'un ensemble de phrases d'un document numerique, procede de generation d'un document numerique, dispositif associe

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140909

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140916

R150 Certificate of patent or registration of utility model

Ref document number: 5618968

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees