JP6749865B2 - 情報収集装置、および、情報収集方法 - Google Patents
情報収集装置、および、情報収集方法 Download PDFInfo
- Publication number
- JP6749865B2 JP6749865B2 JP2017112629A JP2017112629A JP6749865B2 JP 6749865 B2 JP6749865 B2 JP 6749865B2 JP 2017112629 A JP2017112629 A JP 2017112629A JP 2017112629 A JP2017112629 A JP 2017112629A JP 6749865 B2 JP6749865 B2 JP 6749865B2
- Authority
- JP
- Japan
- Prior art keywords
- web page
- information
- keyword
- collected
- url
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
また、上記の実施形態で述べた情報収集装置1の機能を実現する情報収集プログラムを所望の情報処理装置(コンピュータ)にインストールすることによって実装できる。例えば、パッケージソフトウェアやオンラインソフトウェアとして提供される情報収集プログラムを情報処理装置に実行させることにより、情報処理装置を情報収集装置1として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistants)等がその範疇に含まれる。また、情報収集装置1を、クラウドサーバに実装してもよい。
11 URL収集部
12 ウェブページ収集部
13 関連性判定部
14 保管処理部
15 情報保管部
16 判定ロジック更新部
Claims (5)
- SNS(Social Networking Service)を含むウェブページ群から、指定されたキーワードに関連するウェブページのURLを収集するURL収集部と、
前記収集されたURLのウェブページを収集するウェブページ収集部と、
指定されたキーワードと関連するウェブページの機械学習の結果を用いて、前記収集されたウェブページのリンク記載に用いられる文字列、メタ情報、および、前記ウェブページのコンテキストに基づき、前記収集されたウェブページが、前記指定されたキーワードに関連するウェブページか否かを判定する関連性判定処理を行う関連性判定部とを備え、
前記関連性判定部は、
前記指定されたキーワードと関連すると判定されたウェブページのリンク先のウェブページに対して、前記関連性判定処理を行う
ことを特徴とする情報収集装置。 - 前記情報収集装置は、さらに、
前記指定されたキーワードと関連するウェブページのURLのURL文字列の機械学習の結果を用いて、前記収集されたURLの文字列に基づき、前記収集されたURLのうち、前記指定されたキーワードとの関連度が所定値以上のウェブページのURLを選択するURL選択部を備え、
前記ウェブページ収集部は、
前記選択されたURLのウェブページを収集する
ことを特徴とする請求項1に記載の情報収集装置。 - 前記関連性判定部は、
前記関連性判定処理を行う際、前記収集されたウェブページのリンク記載に用いられる文字列、メタ情報、および、前記ウェブページのコンテキストに対し、前記指定されたキーワードと関連するウェブページの機械学習の結果を用いた重み付けを行った上で、前記収集されたウェブページと前記指定されたキーワードとの類似度を算出し、前記算出した類似度が所定値以上の場合、前記収集されたウェブページが、前記指定されたキーワードに関連するウェブページであると判定する
ことを特徴とする請求項1に記載の情報収集装置。 - 前記情報収集装置は、さらに、
前記ウェブページと、当該ウェブページが前記指定されたキーワードに関連するか否かを示すラベル情報とを対応付けた情報を記憶する記憶部と、
前記ウェブページのラベル情報の修正指示に基づき、前記記憶部における前記ウェブページのラベル情報を修正するラベル修正部と、
前記ラベル情報の修正後のウェブページに対し、機械学習を行うことにより、前記関連性判定部で用いる重み付けの値を更新する重み付け値更新部と
を備えることを特徴とする請求項3に記載の情報収集装置。 - SNS(Social Networking Service)を含むウェブページ群から、指定されたキーワードに関連するウェブページのURLを収集するURLを収集するステップと、
前記収集されたURLのウェブページを収集するステップと、
指定されたキーワードと関連するウェブページの機械学習の結果を用いて、前記収集されたウェブページのリンク記載に用いられる文字列、メタ情報、および、前記ウェブページのコンテキストに基づき、前記収集されたウェブページが、前記指定されたキーワードに関連するウェブページか否かを判定する関連性判定処理を行うステップと、
前記指定されたキーワードと関連すると判定されたウェブページのリンク先のウェブページに対して、前記関連性判定処理を行うステップと
を情報収集装置が実行することを特徴とする情報収集方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017112629A JP6749865B2 (ja) | 2017-06-07 | 2017-06-07 | 情報収集装置、および、情報収集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017112629A JP6749865B2 (ja) | 2017-06-07 | 2017-06-07 | 情報収集装置、および、情報収集方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018206189A JP2018206189A (ja) | 2018-12-27 |
JP6749865B2 true JP6749865B2 (ja) | 2020-09-02 |
Family
ID=64958033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017112629A Active JP6749865B2 (ja) | 2017-06-07 | 2017-06-07 | 情報収集装置、および、情報収集方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6749865B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115374334B (zh) * | 2022-10-26 | 2023-01-06 | 墨责(北京)科技传播有限公司 | 基于机器学习的网页采集页面的正文页采集方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005346598A (ja) * | 2004-06-07 | 2005-12-15 | Sangaku Renkei Kiko Kyushu:Kk | ウェブ情報収集装置とウェブクローラープログラム、及びウェブ情報収集方法 |
CN101399818B (zh) * | 2007-09-25 | 2012-08-29 | 日电(中国)有限公司 | 基于导航路径信息的主题相关网页过滤方法和系统 |
-
2017
- 2017-06-07 JP JP2017112629A patent/JP6749865B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018206189A (ja) | 2018-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10110658B2 (en) | Automatic genre classification determination of web content to which the web content belongs together with a corresponding genre probability | |
US8799310B2 (en) | Method and system for processing a uniform resource locator | |
KR101315554B1 (ko) | 웹 페이지에 키워드를 할당하기 위한 방법 및 장치 | |
US8595204B2 (en) | Spam score propagation for web spam detection | |
CN106844640B (zh) | 一种网页数据分析处理方法 | |
JP2017010514A (ja) | 検索エンジン及びその実現方法 | |
JP6827116B2 (ja) | ウェブページのクラスタリング方法及び装置 | |
US20160140344A1 (en) | Security information management system and security information management method | |
US20090083266A1 (en) | Techniques for tokenizing urls | |
CN102737021B (zh) | 搜索引擎及其实现方法 | |
CN110069693B (zh) | 用于确定目标页面的方法和装置 | |
US11431749B2 (en) | Method and computing device for generating indication of malicious web resources | |
JP2015144011A (ja) | 代表者の信頼度を用いた検索結果順位化装置および方法 | |
US20220035870A1 (en) | Seed expansion in social network using graph neural network | |
US9336316B2 (en) | Image URL-based junk detection | |
JP6749865B2 (ja) | 情報収集装置、および、情報収集方法 | |
WO2023192130A1 (en) | Artificial intelligence engine for generating semantic directions for websites for entity targeting | |
Moumtzidou et al. | Discovery of environmental nodes in the web | |
KR20200119534A (ko) | 유해 콘텐츠 웹 페이지 url 필터링 장치 | |
KR20120090131A (ko) | 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 | |
CN110825976B (zh) | 网站页面的检测方法、装置、电子设备及介质 | |
JP4959032B1 (ja) | ウェブページ解析装置およびウェブページ解析用プログラム | |
CN111581950A (zh) | 同义名称词的确定方法和同义名称词的知识库的建立方法 | |
CN104063491B (zh) | 一种检测页面篡改的方法及装置 | |
JP2011248500A (ja) | Webページ収集装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190620 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200701 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200811 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200812 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6749865 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |