JP5618968B2 - 類似ページ検出装置、類似ページ検出方法、類似ページ検出プログラム - Google Patents
類似ページ検出装置、類似ページ検出方法、類似ページ検出プログラム Download PDFInfo
- Publication number
- JP5618968B2 JP5618968B2 JP2011247978A JP2011247978A JP5618968B2 JP 5618968 B2 JP5618968 B2 JP 5618968B2 JP 2011247978 A JP2011247978 A JP 2011247978A JP 2011247978 A JP2011247978 A JP 2011247978A JP 5618968 B2 JP5618968 B2 JP 5618968B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- page
- hash
- word
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G06F17/30—
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
110…Webページ情報データベース
120…ハッシュ計算装置
130…重要語データベース
140…重要語一時記録装置
150…ページ単位ハッシュ一時記録装置
160…ハッシュ記録装置
170…ハッシュ集約装置
180…類似ページ群記録装置
Claims (3)
- Web上の情報から類似しているWebページを検出する類似ページ検出装置であって、
Webページの情報が格納されたWebページ情報データベースと、
前記Webページ情報データベース内のWebページ情報を取り出して、各ページの各文毎に形態素解析を行い、文を構成する上で特徴となる単語を表す選別語を抽出し、前記抽出された選別語の数が、設定された選別語しきい値よりも大である場合は当該抽出された選別語群のハッシュ値を計算し、前記選別語の数が前記選別語しきい値よりも小さい場合であって、固有名詞からなる重要語が存在し且つ原文の長さが設定した文長しきい値を超えていないときは、当該文およびその次の文を統合した文から抽出した選別語群のハッシュ値を計算するハッシュ計算手段と、
前記計算されたハッシュ値と、当該ページのURL、そのページの何文目かを示す文番号および当該文に重要語が有るか無いかの情報とを組として記録するハッシュ記録手段と、
前記ハッシュ記録手段に記録された情報に基づいて、同一ハッシュ値を持つページ群をまとめて、類似ページ群を検出するハッシュ集約手段と、を備えたことを特徴とする類似ページ検出装置。 - Web上の情報から類似しているWebページを検出する類似ページ検出方法であって、
ハッシュ計算手段が、Webページの情報が格納されたWebページ情報データベース内のWebページ情報を取り出して、各ページの各文毎に形態素解析を行い、文を構成する上で特徴となる単語を表す選別語を抽出するステップと、前記抽出された選別語の数が、設定された選別語しきい値よりも大である場合は当該抽出された選別語群のハッシュ値を計算するステップと、前記選別語の数が前記選別語しきい値よりも小さい場合であって、固有名詞からなる重要語が存在し且つ原文の長さが設定した文長しきい値を超えていないときは、当該文およびその次の文を統合した文から抽出した選別語群のハッシュ値を計算するステップと、前記計算されたハッシュ値と、当該ページのURL、そのページの何文目かを示す文番号および当該文に重要語が有るか無いかの情報とを組としてハッシュ記録手段に記録するステップと、
ハッシュ集約手段が、前記ハッシュ記録手段に記録された情報に基づいて、同一ハッシュ値を持つページ群をまとめて、類似ページ群を検出するハッシュ集約ステップと、を備えたことを特徴とする類似ページ検出方法。 - コンピュータを請求項1に記載の各手段として機能させる類似ページ検出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011247978A JP5618968B2 (ja) | 2011-11-11 | 2011-11-11 | 類似ページ検出装置、類似ページ検出方法、類似ページ検出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011247978A JP5618968B2 (ja) | 2011-11-11 | 2011-11-11 | 類似ページ検出装置、類似ページ検出方法、類似ページ検出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013105273A JP2013105273A (ja) | 2013-05-30 |
JP5618968B2 true JP5618968B2 (ja) | 2014-11-05 |
Family
ID=48624778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011247978A Expired - Fee Related JP5618968B2 (ja) | 2011-11-11 | 2011-11-11 | 類似ページ検出装置、類似ページ検出方法、類似ページ検出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5618968B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015184877A (ja) * | 2014-03-24 | 2015-10-22 | 株式会社日立ソリューションズ | データ処理装置、データ処理プログラム |
JP2019060217A (ja) * | 2017-09-27 | 2019-04-18 | 株式会社Lixil | 床構造施工用具及び床構造施工方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7809695B2 (en) * | 2004-08-23 | 2010-10-05 | Thomson Reuters Global Resources | Information retrieval systems with duplicate document detection and presentation functions |
US8977949B2 (en) * | 2007-10-11 | 2015-03-10 | Nec Corporation | Electronic document equivalence determination system and equivalence determination method |
TW201027375A (en) * | 2008-10-20 | 2010-07-16 | Ibm | Search system, search method and program |
-
2011
- 2011-11-11 JP JP2011247978A patent/JP5618968B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013105273A (ja) | 2013-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW201027375A (en) | Search system, search method and program | |
Albishre et al. | Effective 20 newsgroups dataset cleaning | |
US7284006B2 (en) | Method and apparatus for browsing document content | |
CN110019820B (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
CN107145476A (zh) | 一种基于改进tf‑idf关键词提取算法 | |
US8037403B2 (en) | Apparatus, method, and computer program product for extracting structured document | |
WO2015024429A1 (zh) | 获取网页中影视主体的方法及装置 | |
JP5618968B2 (ja) | 類似ページ検出装置、類似ページ検出方法、類似ページ検出プログラム | |
JP3921837B2 (ja) | 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法 | |
JP2004086845A (ja) | 電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体 | |
JP2007011973A (ja) | 情報検索装置及び情報検索プログラム | |
JP2010250439A (ja) | 検索システム、データ生成方法、プログラムおよびプログラムを記録した記録媒体 | |
Lin et al. | Combining a segmentation-like approach and a density-based approach in content extraction | |
JP2013222418A (ja) | パッセージ分割方法、装置、及びプログラム | |
JP2010286888A (ja) | 情報収集システムおよび情報収集方法ならびにそのプログラム | |
CN114302227A (zh) | 基于容器采集的网络视频采集与解析的方法和系统 | |
JP2007241568A (ja) | 話題画像抽出方法及び装置及びプログラム | |
JP2009140411A (ja) | 文章要約装置および文章要約方法 | |
JP5308918B2 (ja) | キーワード抽出方法、キーワード抽出装置およびキーワード抽出プログラム | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
JP2012079121A (ja) | マイクロブログテキスト分類装置及び方法及びプログラム | |
JP7116940B2 (ja) | オープンデータを効率的に構造化し補正する方法及びプログラム | |
da Rocha et al. | Polarity classification on web-based reviews using Support Vector Machine | |
JP5557791B2 (ja) | マイクロブログテキスト分類装置、マイクロブログテキスト分類方法、及びプログラム | |
EP2812814A1 (fr) | Procede d'identification d'un ensemble de phrases d'un document numerique, procede de generation d'un document numerique, dispositif associe |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140221 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140829 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140909 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140916 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5618968 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |