JP5830159B2 - グループ化装置およびエレメント抽出装置 - Google Patents
グループ化装置およびエレメント抽出装置 Download PDFInfo
- Publication number
- JP5830159B2 JP5830159B2 JP2014254357A JP2014254357A JP5830159B2 JP 5830159 B2 JP5830159 B2 JP 5830159B2 JP 2014254357 A JP2014254357 A JP 2014254357A JP 2014254357 A JP2014254357 A JP 2014254357A JP 5830159 B2 JP5830159 B2 JP 5830159B2
- Authority
- JP
- Japan
- Prior art keywords
- address
- key
- grouping
- link
- address key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Webページのアドレスをグループ化するためのグループ化プログラムであって、
コンピュータを、
特定のアドレスからWebページを取得するWebページ取得手段、
前記Webページからリンクを抽出し、抽出した各リンクのアドレスを区切り文字で分割して第1のアドレスキーを生成する第1のアドレスキー生成手段、
前記第1のアドレスキーを生成したリンクから取得されるWebページからリンクを抽出し、抽出した各リンクのアドレスを区切り文字で分割して第2のアドレスキーを生成する第2のアドレスキー生成手段、
前記第1のアドレスキーと前記第2のアドレスキーとの間で一致するキーを照合し、当該一致するキーの出現順序が同じである組み合わせ数を計数し、その結果に基づいて類似度を算出する類似度算出手段、
前記類似度がしきい値以上であると判断されたリンクのアドレスを、特定のアドレス群として関連付けるグループ化手段、
として機能させることを特徴とする。
前記類似度算出手段が、
前記第1のアドレスキーと前記第2のアドレスキーとの間で、第1のアドレスキーを構成するキーの1つと一致するキーが第2のアドレスキーを構成するキーの中に存在するか否かを前方から照合し、
第2のアドレスキーを構成するキーの中に対応するキーが存在する場合には、第1および第2のアドレスキーにおいて一致するとして検出されたキーの次のキーから、後方に向けて一致するキーの組み合わせ数を計数し、
第1のアドレスキーを構成するキーの総数に対する前記第2のアドレスキーとの間で対応付けられたキーの組み合わせ数の割合を類似度として算出する、
ことを特徴とする。
前記特定のアドレスから所定数のリンク階層数まで、類似度がしきい値以上のリンクのアドレスを、特定のアドレス群として関連付けるグループ化探索手段であって、
前記グループ化手段により特定のアドレス群として関連付けられた前記アドレスから取得したWebページからリンクを抽出し、抽出した各リンクのアドレスを区切り文字で分割して第3のアドレスキーを生成し、前記第1のアドレスキーと前記第3のアドレスキーとの間で、一致するアドレスキーの数を計数し、その結果に基づいて類似度を算出するグループ化探索手段、
を備えたこと、を特徴とする。
前記第1のアドレスキー生成手段または前記第2のアドレスキー生成手段が、少なくとも第1のアドレスキーまたは第2のアドレスキーを生成する前に、前記特定のアドレスにおいてユーザーを特定する識別子だけを置き換えたアドレスであると判断されたアドレスを削除する、
ことを特徴とする。
前記第1のアドレスキー生成手段または前記第2のアドレスキー生成手段が、少なくとも第1のアドレスキーまたは第2のアドレスキーを生成する前に、削除対象として登録されたアドレスに一致すると判定されたアドレスを削除する、
ことを特徴とするグループ化プログラム。
前記特定のアドレスを、サーバにアクセスすることにより所定時間毎に自動的に蓄積するアドレス蓄積手段、
を備えた、ことを特徴とする。
Webページから所定のエレメントを抽出するためのエレメント抽出プログラムであって、
コンピュータを、
Webページを表示領域に展開するWebページ展開手段、
各エレメントの表示範囲を特定する座標を取得する座標取得手段、
前記表示領域上に、エレメントの配置方向に複数の点を配置し、当該配置した点を表示範囲に含むエレメントを選択するエレメント選択手段、
選択した前記エレメントの階層構造を順に配列するエレメント配列手段、
前記エレメントの各階層構造をタグ単位で分割して階層キーを生成する階層キー生成手段、
隣接するエレメントの間で、一致する階層キーの数を計数し、その結果に基づいて類似度を算出する類似度算出手段、
前記類似度に基づいて、2以上の隣接するエレメントの階層構造を特定し、当該階層構造に対応する内容データをWebページから取得する内容データ取得手段、
として機能させることを特徴とする。
コンピュータを、さらに、
隣接するエレメントの前記階層構造の類似度の平均を上位方向に算出して類似度ピラミッドを生成し、前記類似度がしきい値以上であるか否かを検出し、検出された類似度の底辺に含まれるエレメントの階層構造のうち、所定のルールに合致する階層構造を特定し、当該階層構造に対応する内容データをWebページから取得する内容データ取得手段、
として機能させることを特徴とする。
前記内容データ取得手段が、
類似度ピラミッドの底辺に含まれるエレメントのうち、隣接するエレメントが包含関係にあるかを判断し、
隣接するエレメントが包含関係にない場合には、各階層構造について対応する内容データを取得する、
ことを特徴とする。
前記エレメント抽出手段が、
類似度ピラミッドの底辺に含まれるエレメントのうち、隣接するエレメントの階層構造が包含関係にあるかを判断し、
隣接するエレメントが包含関係にある場合には、テキスト差分がしきい値以下の場合に、包含される下位の階層構造を削除して、包含する上位の階層構造に対応する内容データを取得し、
隣接するエレメントが包含関係にある場合には、テキスト差分がしきい値を超える場合に、包含する上位の階層構造を削除して、包含される下位の階層構造に対応する内容データを取得する、
ことを特徴とする。
前記エレメント選択手段が、前記表示領域上において、所定方向に等間隔で複数の点を配置し、配置した点を表示範囲に含むエレメントを選択する、
ことを特徴とする。
前記エレメント選択手段が、前記表示領域上において、前記所定方向に垂直の直線上に複数の点を配置し、同一直線上に配置した点を最も多く表示範囲に含むエレメントを選択する、
ことを特徴とする。
前記エレメント抽出手段が、エレメントに含まれるAタグのURLまたは自然言語でマッチングして得た属性を、エレメントに関連付けて記憶した、
ことを特徴とする。
近年、モバイルインターネットにおけるネットサイトには様々な問題が指摘されており、ネットパトロールシステムを自動化し、ネットサイトにおける子供たちの行動を継続的に監視し、また問題がある子供を的確に指導することが課題となっている。
まず、図1などを用いて、本発明のグループ化装置100について説明する。図1は本発明のグループ化装置100のブロック図である。
図3に、グループ化装置100のハードウェア構成を示す。グループ化処理装置100は、図2に示すCPU20、RAM22、ディスプレイ24、ハードディスク26、キーボード/マウス28、記録媒体ドライブ30を備えたコンピュータで構成される。
図4は、グループ化プログラム32(図3)による処理を示すフローチャートである。
なお、上記実施形態では、リンク階層数を1または2までとしたが、これに限定されるものではなく、3以上(例えば、10リンク)のリンク階層先まで探索してもよい。
本発明のエレメント抽出装置200は、Webページから所定のエレメント抽出するために、図15に示すWebページ展開手段52、座標取得手段54、エレメント選択手段56、エレメント配列手段58、階層キー生成手段60、類似度算出手段62、内容データ取得手段64を備える。これらの手段を用いることで、Webページの中に膨大な数のエレメントが含まれる場合でも、重要なエレメントだけを抽出すための記事抽出ルールが、Webページ毎に自動的に決定されるため,汎用性の高い記事抽出が可能となる。
図16に、エレメント抽出装置200のハードウェア構成を示す。エレメント抽出装置200は、図16に示すCPU20、RAM22、ディスプレイ24、ハードディスク26、キーボード/マウス28、記録媒体ドライブ30を備えたコンピュータで構成される。
図17は、エレメント抽出プログラム38(図16)による処理を示すフローチャートである。なお、以下の例では、掲示板のページに複数人の書き込みがあった場合に、ユーザーによって書き込まれた内容の単位で、テキストを抽出する場合について説明する。
なお、上記実施形態では、掲示板ページから書き込みデータを抽出する場合を例に説明したが、これに限定されるものではなく、他の要素(ニュース記事など)の抽出に用いてもよい。
(i)個人領域として特定し、または分割されたデータから抽出される言葉からSupport Vector Machine (SVM)を用いたサンプリングを行って分離平面を生成し、対象となるユーザーのページで用いられる言葉について当該分離平面との距離を算出することで、対象ユーザーの有害度を算出することができる。
まず、ネット上に存在するユーザーの中から典型的な有害者と無害者と考えられる者を選び出す。その上で、複数の有害者について、プロフィール・日記内の頻出単語を抽出する。同様に、複数の無害者について、プロフィール・日記内の頻出単語を抽出する。その上で、これら有害者および無害者を、全ての頻出単語の出現数を軸とする多次元空間(図30Aに示す)上にプロットする。その際、有害人と無害人とを区別してプロットする。この多次元空間上において、SVMの手法を用いて、分離平面が決定される。
つぎに、対象者のプロフ・日記内に含まれる単語の数を計数し、上記多次元空間上にプロットする。プロットされた対象者(△で示す)が、分離平面のどちら側にあるかで、有害または無害のユーザーを判定することができる。実施形態では、有害側にプロットされた対象者の全てを有害と判断するのではなく、分離平面からの距離がしきい値以上離れている場合のみ有害と判断する。分離平面からの距離がしきい値以内の場合は、無害と取り扱う。
最後に、有害と判断された対象者について、以下の式から有害度を算出する。
ここで、非行辞書とは、非行に関連すると考えられる単語を予め登録しておいた辞書である。対象者のプロフ・日記内の非行単語の数を計数する。
Claims (9)
- Webページのアドレスをグループ化するためのグループ化プログラムであって、
コンピュータを、
特定のアドレスからWebページを取得するWebページ取得手段、
前記Webページからリンクを抽出し、抽出した各リンクのアドレスを区切り文字で分割して第1のアドレスキーを生成する第1のアドレスキー生成手段、
前記第1のアドレスキーを生成したリンクから取得されるWebページからリンクを抽出し、抽出した各リンクのアドレスを区切り文字で分割して第2のアドレスキーを生成する第2のアドレスキー生成手段、
前記第1のアドレスキーと前記第2のアドレスキーとの間で一致するキーを照合し、当該一致するキーの出現順序が同じである組み合わせ数を計数し、その結果に基づいて類似度を算出する類似度算出手段、
前記類似度がしきい値以上であると判断されたリンクのアドレスを、特定のアドレス群として関連付けるグループ化手段、
として機能させることを特徴とするグループ化プログラム。 - 請求項1のグループ化プログラムにおいて、
前記類似度算出手段は、
前記第1のアドレスキーと前記第2のアドレスキーとの間で、第1のアドレスキーを構成するキーの1つと一致するキーが第2のアドレスキーを構成するキーの中に存在するか否かを前方から照合し、
第2のアドレスキーを構成するキーの中に対応するキーが存在する場合には、第1および第2のアドレスキーにおいて一致するとして検出されたキーの次のキーから、後方に向けて一致するキーの組み合わせ数を計数し、
第1のアドレスキーを構成するキーの総数に対する前記第2のアドレスキーとの間で対応付けられたキーの組み合わせ数の割合を類似度として算出する、
ことを特徴とするグループ化プログラム。 - 請求項1または請求項2のグループ化プログラムにおいて、コンピュータを、さらに、
前記特定のアドレスから所定のリンク階層数まで、類似度がしきい値以上のリンクのアドレスを、特定のアドレス群として関連付けるグループ化探索手段であって、
前記グループ化手段により特定のアドレス群として関連付けられた前記アドレスから取得したWebページからリンクを抽出し、抽出した各リンクのアドレスを区切り文字で分割して第3のアドレスキーを生成し、前記第1のアドレスキーと前記第3のアドレスキーとの間で、一致するアドレスキーの数を計数し、その結果に基づいて類似度を算出するグループ化探索手段として機能させることを特徴とするグループ化プログラム。 - 請求項1〜3のいずれかのグループ化プログラムにおいて、
前記第1のアドレスキー生成手段または前記第2のアドレスキー生成手段が、少なくとも第1のアドレスキーまたは第2のアドレスキーを生成する前に、前記特定のアドレスにおいてユーザーを特定する識別子だけを置き換えたアドレスであると判断されたアドレスを削除する、
ことを特徴とするグループ化プログラム。 - 請求項1〜4のいずれかのグループ化プログラムにおいて、
前記第1のアドレスキー生成手段または前記第2のアドレスキー生成手段が、少なくとも第1のアドレスキーまたは第2のアドレスキーを生成する前に、削除対象として登録されたアドレスに一致すると判定されたアドレスを削除する、
ことを特徴とするグループ化プログラム。 - 請求項1〜5のいずれかのグループ化プログラムにおいて、コンピュータを、さらに、
前記特定のアドレスを、プロフサーバにアクセスすることにより所定時間毎に自動的に蓄積するアドレス蓄積手段として機能させることを特徴とするグループ化プログラム。 - 請求項1〜5のいずれかのグループ化プログラムにおいて、
前記グループ化手段は、前記リンクの階層ごとに、当該階層に属するアドレスを抽出することを特徴とするグループ化プログラム。 - Webページのアドレスをグループ化するためのグループ化装置であって、
特定のアドレスからWebページを取得するWebページ取得手段と、
前記Webページからリンクを抽出し、抽出した各リンクのアドレスを区切り文字で分割して第1のアドレスキーを生成する第1のアドレスキー生成手段と、
前記第1のアドレスキーを生成したリンクに対応するWebページからリンクを抽出し、抽出した各リンクのアドレスを区切り文字で分割して第2のアドレスキーを生成する第2のアドレスキー生成手段と、
前記第1のアドレスキーと前記第2のアドレスキーとの間で一致するキーを照合し、当該一致するキーの出現順序が同じである組み合わせ数を計数し、その結果に基づいて類似度を算出する類似度算出手段、
前記類似度がしきい値以上のリンクのアドレスを、特定のアドレス群として関連付けるグループ化手段と、
を備えたこと、を特徴とするグループ化装置。 - コンピュータにより、Webページのアドレスをグループ化するためのグループ化方法であって、前記コンピュータが、
特定のアドレスからWebページを取得し、
前記Webページからリンクを抽出し、抽出した各リンクのアドレスを区切り文字で分割して第1のアドレスキーを生成し、
前記第1のアドレスキーを生成したリンクに対応するWebページからリンクを抽出し、抽出した各リンクのアドレスを区切り文字で分割して第2のアドレスキーを生成し、
前記第1のアドレスキーと前記第2のアドレスキーとの間で一致するキーを照合し、当該一致するキーの出現順序が同じである組み合わせ数を計数し、その結果に基づいて類似度を算出し、
前記類似度がしきい値以上のリンクのアドレスを、特定のアドレス群として関連付けること、
を特徴とするグループ化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014254357A JP5830159B2 (ja) | 2014-12-16 | 2014-12-16 | グループ化装置およびエレメント抽出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014254357A JP5830159B2 (ja) | 2014-12-16 | 2014-12-16 | グループ化装置およびエレメント抽出装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011031228A Division JP5669611B2 (ja) | 2011-02-16 | 2011-02-16 | グループ化装置およびエレメント抽出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015053087A JP2015053087A (ja) | 2015-03-19 |
JP5830159B2 true JP5830159B2 (ja) | 2015-12-09 |
Family
ID=52702002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014254357A Active JP5830159B2 (ja) | 2014-12-16 | 2014-12-16 | グループ化装置およびエレメント抽出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5830159B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4176969A1 (en) | 2020-07-03 | 2023-05-10 | Cosmo Oil Co., Ltd. | Hydrogenation treatment catalyst for hydrocarbon oil, method for producing hydrogenation treatment catalyst for hydrocarbon oil, and hydrogenation treatment method for hydrocarbon oil |
-
2014
- 2014-12-16 JP JP2014254357A patent/JP5830159B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015053087A (ja) | 2015-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Au Yeung et al. | Studying how the past is remembered: towards computational history through large scale text mining | |
CN103226578B (zh) | 面向医学领域的网站识别和网页细分类的方法 | |
US9430569B2 (en) | System and method for aggregating and ranking data from a plurality of web sites | |
CN103544176B (zh) | 用于生成多个页面所对应的页面结构模板的方法和设备 | |
EP2657853A1 (en) | Webpage information detection method and system | |
KR101775883B1 (ko) | 정보 스트림의 정보를 처리하는 방법 및 시스템 | |
CN102156737B (zh) | 一种中文网页主题内容的提取方法 | |
CN102119383A (zh) | 便利内容检索服务系统内本体和语言模型生成的信息获取和汇聚方法及子系统 | |
CN105975547B (zh) | 基于内容与位置特征的近似web文档检测方法 | |
KR20150059208A (ko) | 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치 및 그 방법 | |
Ghankutkar et al. | Modelling machine learning for analysing crime news | |
JP4769151B2 (ja) | 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 | |
CN114692593B (zh) | 一种网络信息安全监测预警方法 | |
JP5669611B2 (ja) | グループ化装置およびエレメント抽出装置 | |
JP2007286861A (ja) | 文書構造抽出方法および文書検索方法 | |
CN105404697A (zh) | 社交网站交互行为收集检测方法 | |
CN107908749B (zh) | 一种基于搜索引擎的人物检索系统及方法 | |
JP5830159B2 (ja) | グループ化装置およびエレメント抽出装置 | |
CN110309387A (zh) | 一种大数据资讯聚合阅读推荐方法 | |
KR20120090131A (ko) | 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 | |
JP5478229B2 (ja) | データ解析システム、及びその方法 | |
KR101440385B1 (ko) | 인디케이터를 이용한 정보 관리 장치 | |
JPWO2017077902A1 (ja) | データ処理装置、データ処理方法、及び、プログラム | |
John et al. | Methods for removing noise from web pages: a review | |
JP6135327B2 (ja) | 情報処理装置、文書データ整理装置、文書提示方法、およびコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141216 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150814 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150824 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150904 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151005 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151023 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5830159 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |