JP2021189984A - 分類装置、データ分析システム、分類処理プログラム、及び分類処理方法 - Google Patents

分類装置、データ分析システム、分類処理プログラム、及び分類処理方法 Download PDF

Info

Publication number
JP2021189984A
JP2021189984A JP2020097382A JP2020097382A JP2021189984A JP 2021189984 A JP2021189984 A JP 2021189984A JP 2020097382 A JP2020097382 A JP 2020097382A JP 2020097382 A JP2020097382 A JP 2020097382A JP 2021189984 A JP2021189984 A JP 2021189984A
Authority
JP
Japan
Prior art keywords
classification
information
page
text
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020097382A
Other languages
English (en)
Inventor
勇威 垣内
Yui Kakiuchi
崇広 鎌谷
Takahiro Kamatani
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wacul Inc
Original Assignee
Wacul Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wacul Inc filed Critical Wacul Inc
Priority to JP2020097382A priority Critical patent/JP2021189984A/ja
Publication of JP2021189984A publication Critical patent/JP2021189984A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】ページ情報のグルーピングを自動的に効率よく行う分類装置、データ分析システム、分類処理プログラム、及び分類処理方法を提供すること。【解決手段】ウェブサイトにおけるウェブページに紐付くページ情報を分類モデルの入力とし、入力としたページ情報を性質の類似性に基づく複数のグループのうちの何れかに分類する分類処理手段を有する分類装置。分類モデルは、過去における複数のページ情報を用いた機械学習により生成されたものである。【選択図】図1

Description

本発明は、ウェブサイトにおけるウェブページに紐付くページ情報を分類する分類装置、データ分析システム、分類処理プログラム、及び分類処理方法に関する。
ウェブサイトは、企業の取り扱う商品やサービスの宣伝の他、それらの取引にも利用されている。そのため、ウェブサイトの運営者等は、ウェブサイトの各ウェブページに対するユーザの閲覧行動を、各ウェブページに紐付くページ情報から解析し、その解析結果から課題を見出して、種々の改善を行っている。ただし、ページ情報は大量に発生するため、解析精度及び解析速度を上げるためには、類似性に基づくページ情報のグルーピング(分類処理)が必要となる。例えば、特許文献1の分析システムは、類似の性質を示すページや類似の検索キーワードをグルーピングした後で、所定の分析処理を行うようになっている。
特開2016−201080号公報
しかしながら、特許文献1のような従来の構成では、ページやキーワードの類似性に関する設定を手作業で行う必要があるため、大量に発生するページ情報のグルーピングには適さない、という実情がある。
本発明は、上述のような課題を解決するためになされたものであり、ページ情報のグルーピングを自動的に効率よく行う分類装置、データ分析システム、分類処理プログラム、及び分類処理方法を提供することを目的とする。
本発明の一態様に係る分類装置は、ウェブサイトにおけるウェブページに紐付くページ情報を、過去における複数の前記ページ情報を用いた機械学習により生成された分類モデルの入力とし、入力とした前記ページ情報を性質の類似性に基づく複数のグループのうちの何れかに分類する分類処理手段を有するものである。
本発明の一態様に係るデータ分析システムは、上記の分類装置と、分類装置による分類で得られたデータに分析処理を施す分析装置と、を有するものである。
本発明の一態様に係る分類処理プログラムは、ウェブサイトにおけるウェブページに紐付くページ情報を収集して分類する分類装置に搭載されたコンピュータを、過去における複数のページ情報を用いた機械学習により分類モデルを生成する学習処理手段、及び分類対象であるページ情報を、前記分類モデルの入力とし、入力としたページ情報を性質の類似性に基づく複数のグループのうちの何れかに分類する分類処理手段、として機能させるためのものである。
本発明の一態様に係る分類処理方法は、ウェブサイトにおけるウェブページに紐付くページ情報を収集して分類する分類装置が、過去における複数の前記ページ情報を用いた機械学習により分類モデルを生成する学習処理工程と、分類対象である前記ページ情報を、前記分類モデルの入力とし、入力としたページ情報を性質の類似性に基づく複数のグループのうちの何れかに分類する分類処理工程と、を有している。
本発明は、過去における複数のページ情報に基づく分類モデルの入力としたページ情報を、性質の類似性に基づく複数のグループのうちの何れかに分類するようになっている。よって、ウェブページに紐付くページ情報のグルーピングを手作業によらず自動的に行うことができるため、処理の迅速化及び効率化を図ることができる。
本発明の実施の形態1に係るデータ分析システム及びその周辺機器等の構成例を示すブロック図である。 図1の管理装置の機能的な構成を例示したブロック図である。 図1の端末装置の機能的な構成を例示したブロック図である。 図1のデータ分析システムの機能的な構成を例示したブロック図である。 図1のデータ分析システムの動作を例示したフローチャートである。 本発明の実施の形態2(3〜5)に係るデータ分析システム及びその周辺機器等の構成例を示すブロック図である。 図6のデータ分析システムの機能的な構成を例示したブロック図である。 本発明の実施の形態3に係るデータ分析システムの機能的な構成を例示したブロック図である。 図6の端末装置の表示部などに表示されるウェブページを例示した説明図である。 図9のウェブページ中の各オブジェクトに対応するパーツ情報のみを画像として抽出したワイヤフレーム画像を例示した説明図である。 本発明の実施の形態4に係るデータ分析システムの機能的な構成を例示したブロック図である。 図11の分類装置におけるデータの流れを分類処理方法の各工程に対応づけて例示した説明図である。 本発明の実施の形態4の変形例4aに係るデータ分析システムの機能的な構成を例示したブロック図である。 本発明の実施の形態4の変形例4bに係るデータ分析システムの機能的な構成を例示したブロック図である。 本発明の実施の形態4の変形例4cに係るデータ分析システムの機能的な構成を例示したブロック図である。 本発明の実施の形態5に係るデータ分析システムの機能的な構成を例示したブロック図である。 本発明の実施の形態5の変形例5aに係るデータ分析システムの機能的な構成を例示したブロック図である。 本発明の実施の形態5の変形例5bに係るデータ分析システムの機能的な構成を例示したブロック図である。
実施の形態1.
図1を参照し、本実施の形態1におけるデータ分析システム及びその周辺機器等の構成例について説明する。図1に示すように、データ分析システム100は、分類装置10と、分析装置20と、を有している。データ分析システム100と、管理装置30と、サービス提供システム40と、解析システム50と、端末装置80とは、インターネットなどのネットワークNを介して通信可能に接続されている。すなわち、データ分析システム100は、管理装置30、サービス提供システム40、解析システム50、及び端末装置80との間で有線又は無線による通信を行うことができる。
管理装置30は、ウェブサイトの運営者等、つまりサービス提供システム40を用いて商品やサービスの販売を行う運営者等が管理するPC(Personal Computer)である。PCには、タブレットPC、ノートPC、デスクトップ型PCなどが含まれる。もっとも、管理装置30は、スマートフォン又はタブレット端末などのモバイル端末であってもよい。
サービス提供システム40は、ECサイト(Electronic Commerce site)などのウェブサイトを介して商品やサービスの情報を端末装置80等に提供するWebサーバである。サービス提供システム40が提供するウェブサイトは、ネットワークNを介して端末装置80等から閲覧することができる。サービス提供システム40は、クラウドコンピューティングに基づくクラウドサーバ又は物理サーバなどにより構成される。
解析システム50は、ウェブサイトのアクセス解析を行う機能を備えたものであり、例えば、Google(登録商標)提供のアクセス解析ツールであるGoogleアナリティクス(GA)のサーバがこれに相当する。アクセス解析とは、ウェブサイトにおけるコンバージョン(CV:Conversion)の数を増やすために、ウェブサイトの訪問者であるユーザの特性や行動を分析することである。コンバージョンは、ウェブサイトの目的となるゴール、つまりウェブサイトでユーザに達成してもらいたい行動のことであり、登録、商品やサービスの購入、申し込み、資料請求、予約の実施などを指す。
解析システム50は、ネットワークを介してのユーザの行動を示す行動データを、サービス提供システム40等から逐次又は定期的に収集する。そして、本実施の形態1の解析システム50は、収集した行動データにアクセス解析を施すことにより、ネットワークN上に存在する情報資源の位置を示すアドレス情報を生成して蓄積する。解析システム50は、データ分析システム100からの要求に応じてアドレス情報を返送する。解析システム50は、クラウドコンピューティングに基づくクラウドサーバ又は物理サーバなどにより構成される。
端末装置80は、ユーザにより使用されるモバイル端末又はPCである。端末装置80は、ユーザの操作に応じて、ウェブサイトへのアクセスやログインなどを行うと共に、ウェブサイト内の種々の情報を表示し、売買取引の中継などを行う。ユーザは、1又は複数の端末装置80を使用し、ネットワークNを介してサービス提供システム40にアクセスする。
データ分析システム100は、ウェブサイトにおけるウェブページに紐付くページ情報として、ウェブページの位置を示すアドレス情報を取得し、取得したアドレス情報に分類処理を施した上で、所定の分析処理を行うものである。データ分析システム100は、クラウドコンピューティングに基づくクラウドサーバ、もしくは物理サーバ、又はこれらを組み合わせたシステムなどにより構成される。なお、データ分析システム100は、PCにより構成してもよい。以降では、ウェブサイトのことを「サイト」ともいい、ウェブページのことを「ページ」ともいう。
次に、図2を参照して、管理装置30の機能的な構成について説明する。管理装置30は、管理通信部31と、管理制御部32と、管理記憶部33、入力部34と、表示部35と、を有している。管理記憶部33には、管理制御部32の動作プログラムの他、種々の情報が記憶される。管理記憶部33は、RAM(Random Access Memory)及びROM(Read Only Memory)、フラッシュメモリ等のPROM(Programmable ROM)、又はHDD(Hard Disk Drive)などにより構成される。
入力部34は、例えば、キーボードと、マウス又はトラックボールなどのポインティングデバイスと、を含んで構成される。入力部34は、ユーザによる入力操作を受け付け、入力操作の内容に応じた操作信号を管理制御部32へ送信する。表示部35は、例えば液晶ディスプレイ(LCD:Liquid Crystal Display)からなり、管理制御部32からの指示により種々の情報を表示する。
管理制御部32は、情報処理手段32aと、表示処理手段32bと、を有している。情報処理手段32aは、表示部35への表示に関する操作を受け付けると、該操作に応じた制御信号を表示処理手段32bへ出力する。表示処理手段32bは、情報処理手段32aからの制御信号に応じて、表示部35に文字や画像などを表示させる。
管理制御部32は、CPU(Central Processing Unit)又はGPU(Graphics Processing
Unit)などの演算装置と、こうした演算装置と協働して上記の各種機能を実現させる動作プログラムとにより構成することができる。なお、管理装置30は、入力部34及び表示部35の代わりに、文字又は画像等を表示する表示パネルと、該表示パネルに積層されてタッチ操作を検出する検出手段と、を含むタッチパネルを有していてもよい。管理装置30は、タッチパネルと、マウス又はキーボード等とを併せ持つものであってもよい。
次いで、図3を参照して、端末装置80の機能的な構成について説明する。端末装置80は、端末通信部81と、端末制御部82と、端末記憶部83、入力部84と、表示部85と、を有している。端末記憶部83には、端末制御部82の動作プログラムの他、種々の情報が記憶される。端末記憶部83は、RAM及びROM、フラッシュメモリ等のPROM、又はHDDなどにより構成される。
入力部84は、例えば、キーボードと、マウス又はトラックボールなどのポインティングデバイスと、を含んで構成される。入力部84は、ユーザによる入力操作を受け付け、入力操作の内容に応じた操作信号を端末制御部82へ送信する。表示部85は、例えば液晶ディスプレイからなり、端末制御部82からの指示により種々の情報を表示する。
端末制御部82は、情報処理手段82aと、表示処理手段82bと、を有している。情報処理手段82aは、表示部85への表示に関する操作を受け付けると、該操作に応じた制御信号を表示処理手段82bへ出力する。表示処理手段82bは、情報処理手段82aからの制御信号に応じて、表示部85に文字や画像などを表示させる。
端末制御部82は、CPU又はGPUなどの演算装置と、こうした演算装置と協働して上記の各種機能を実現させる動作プログラムとにより構成することができる。なお、端末装置80は、入力部84及び表示部85の代わりに、文字又は画像等を表示する表示パネルと、該表示パネルに積層されてタッチ操作を検出する検出手段と、を含むタッチパネルを有していてもよい。端末装置80は、タッチパネルと、マウス又はキーボード等とを併せ持つものであってもよい。
次に、図4を参照し、データ分析システム100の機能的な構成について説明する。図4に示すように、分類装置10は、サイトにおけるページに紐付くページ情報を分類するものである。分類装置10は、通信部11と、制御部12と、分類用記憶部13と、を有している。通信部11は、制御部12及び分析処理部22が、ネットワークNに接続された機器等との間で有線又は無線による通信を行うためのインタフェースである。
分類用記憶部13は、分類処理プログラムP1を含む制御部12の動作プログラムの他、ページ情報の分類処理に関連する種々のデータを記憶する。例えば、分類用記憶部13には、ユーザの閲覧行動が反映されたページ情報が記憶される。分類用記憶部13には、ページ情報を分類(グルーピング)するためのアドレス分類モデルM1が格納される。
制御部12は、収集処理手段12aと、学習処理手段12cと、分類処理手段12dと、を有している。収集処理手段12aは、ページ情報の送信を要求する要求信号を定期的に解析システム50へ送信し、解析システム50から返送される複数のページ情報を分類用記憶部13に記憶させる。本実施の形態1において、収集処理手段12aは、サイトにおけるページの位置を示すアドレス情報を、ページ情報として逐次又は定期的に収集して分類用記憶部13に記憶させる。ここで、情報資源には、サイト内のページが含まれ、アドレス情報は、URL(Uniform Resource Locator)に相当する。
学習処理手段12cは、分類用記憶部13に記憶された複数のページ情報を用いての機械学習により、ページ情報への分類設定を行うアドレス分類モデルM1を生成する。つまり、学習処理手段12cは、過去における複数のページ情報を入力とする機械学習により、ページ情報の性質の類似性に基づくグルーピングを行うアドレス分類モデルM1を構築する。アドレス分類モデルM1は、入力されたページ情報を複数のグループのうちの何れかに分類し、分類先のグループに固有の識別タグである分類タグを付す学習済みモデルである。ページ情報のグループとは、類似の性質を示すページ情報が属するグループのことである。ページ情報の性質の類似性は、ページの性質の類似性に対応している。すなわち、ページ情報のグループとしては、商品詳細のページのグループ、会社説明のページのグループ、資料請求のページのグループ、商品詳細のページのグループなどがある。
ここで、収集処理手段12aは、複数のページ情報を経時的に収集して分類用記憶部13に蓄積させるようになっている。そして、学習処理手段12cは、設定されたタイミングで、分類用記憶部13に新たに蓄積された複数のページ情報を取得すると共に、取得した複数のページ情報を入力とし、アドレス分類モデルM1の更新処理を実行する。
本実施の形態1において、学習処理手段12cは、DNN(Deep Neural Network)を用いた教師あり学習によりアドレス分類モデルM1を生成するようになっている。学習処理手段12cは、教師なし学習又は半教師あり学習によりアドレス分類モデルM1を生成するものであってもよい。学習処理手段12cは、GBDT (Gradient Boosting Decision Tree)を用いた機械学習によりアドレス分類モデルM1を生成してもよい。学習処理手段12cは、キャラクタレベルCNN(Character-level
Convolutional Neural Network)を用いた機械学習によりアドレス分類モデルM1を生成してもよい。加えて、学習処理手段12cは、線形回帰、ロジスティック回帰、又は決定木などの回帰の手法によりアドレス分類モデルM1を生成するものであってよい。さらに、学習処理手段12cは、ランダムフォレスト又はサポートベクターマシンなどの分類の手法によりアドレス分類モデルM1を生成するものであってよい。もっとも、学習処理手段12cは、上述した複数の機械学習を組み合わせた手法によりアドレス分類モデルM1を生成してもよい。
分類処理手段12dは、サイトにおけるページに紐付くページ情報を、過去における複数のページ情報を用いた機械学習により生成されたアドレス分類モデルM1の入力とするものである。そして、分類処理手段12dは、アドレス分類モデルM1の入力としたページ情報を、性質の類似性に基づく複数のグループのうちの何れかに分類するものである。より具体的に、分類処理手段12dは、分類対象である複数のアドレス情報を、順次アドレス分類モデルM1の入力とする。そして、分類処理手段12dは、入力としたアドレス情報を複数のグループのうちの何れかに分類し、分類先のグループの分類タグを該アドレス情報に付して分類データを生成する。つまり、分類処理手段12dは、類似の性質を示すページ情報には共通の分類タグを付し、異なる性質を示すページ情報には、相互に異なる分類タグを付すことになる。分類処理手段12dは、アドレス情報に分類タグを付して生成した分類データを、分析用記憶部23に記憶させてもよく、分析処理部22へ出力してもよい。本実施の形態1の分類データは「アドレス分類データ」とも称する。
(アドレス情報の取得方法)
ここで、ページ情報としてのアドレス情報の、分類装置10による取得パターンについて説明する。分類装置10は、サービス提供システム40が提供するサイトとの間で、解析システム50を介しての連携(例えばサイトとのGA連携:以下システム連携という。)がとれている場合、解析システム50のAPI(Application Programming Interface)を利用し、サイト内に含まれるページのURLを列挙させて取得することができる。その際、分類装置10は、各ページのPV数(ページビュー数)などの情報も取得することができ、こうした情報をグルーピングに利用することができる。
一方で、システム連携がとれていない場合でも、分類装置10は、例えば下記の2つの手法により、ページのURLを直接収集することができる。
(1) サイト内のページを再帰的にクロールする手法:
例えば、サイトのトップページを最初にクロールし、そこに含まれるサイト内のリンクを収集し、それらもクロールする、というように、再帰的にクロールすることによりアドレス情報を収集することができる。かかる手法を採る場合、サイト内のページを再帰的にクロールするクローリング機能を収集処理手段12aにもたせてもよく、クローリング機能をもつ外部サーバなどからクローリング後のアドレス情報を収集処理手段12aが収集してもよい。
(2)サイトマップを活用する手法:
幾つかのサイトは、XMLサイトマップ(sitemap.xml)にサイト内のページのURLが列挙されている場合がある。すなわち、このような場合、収集処理手段12aは、XMLサイトマップからアドレス情報を収集することができる。
このように、分類装置10は、システム連携がとれていない場合でも、インターネットに公開されているデータであれば、取得することができる。ただし、この場合は、各ページのPV数などの情報については取得することができない。つまり、分類装置10は、学習処理手段12cによる学習処理、及び分類処理手段12dによる分類処理に、各ページのPV数などの情報を利用することができない。そのため、グルーピングの精度の観点からは、システム連携がとれている方が好ましい。
また、図4に示すように、分析装置20は、分類装置10による分類で得られた分類データに分析処理を施すものである。分析装置20は、分析処理部22と、分析用記憶部23と、を有している。分析用記憶部23は、分析処理プログラム23pを含む分析処理部22の動作プログラムの他、分類データの分析処理に関連する種々のデータを記憶する。分析処理部22は、分類処理手段12dにより生成された分類データに対し、入口分析処理などの種々の分析処理を実行する。
入口分析処理とは、同一の流入元での入口ページ間のCVR(Conversion Rate)を比較し、入口ページの重要度を評価する処理である。入口ページとは、分析対象となるサイトを訪問したユーザが最初に閲覧したページのことである。流入元は、分析対象となるサイトの入口ページを訪問する際の経由元のことである。流入元には、ユーザのおおよその特性が表れる。流入元には、E-mail経由、Facebook(登録商標)経由、検索エンジン経由、他のサイトに貼られたリンク経由、ブラウザのブックマーク経由、及びURLの直打ち、などがある。CVRは、サイトの訪問者が該サイトの目標達成となる行動をどの程度とったかを表す指標であり、コンバージョン率ともいう。
分析処理部22は、入口ページのグループ単位で入口分析処理を行うこともできる。例えば、分析処理部22は、同じ流入元のグループ内で、相対的にCVRが高い入口ページと、相対的にCVRが低い入口ページとを判別する。そして、入口ページへのリンクをユーザが設定可能な場合、分析処理部22は、よりCVRの高い入口ページへの誘導を推奨する推奨情報を管理装置30へ送信する。分析処理部22は、推奨情報に応じて設定変更した場合のCVRの伸びしろ等を示す改善情報を、推奨情報と共に管理装置30へ送信してもよい。
一方、入口ページへのリンクをユーザが設定できない場合(入口ページが外部サイトなどによって決定されている場合など)、分析処理部22は、相対的にCVRが低い入口ページを、相対的にCVRが高い入口ページの態様に寄せる提案に係る提案情報を管理装置30へ送信する。分析処理部22は、提案情報に応じて設定変更した場合のCVRの伸びしろ等を示す改善情報を、推奨情報と共に管理装置30へ送信してもよい。
管理装置30の表示処理手段32bは、推奨情報又は提案情報に基づく情報を表示部35に表示させる。これにより、運営者等は、CVR等を高めるための施策を採ることができる。表示処理手段32bは、分析処理部22から改善情報が送信された場合、改善情報に基づく情報を表示部35に表示させてもよい。
分類用記憶部13及び分析用記憶部23は、RAM及びROM、フラッシュメモリ等のPROM、又はHDDなどにより構成することができる。制御部12は、CPU又はGPUなどの演算装置と、こうした演算装置と協働して上記の各種機能を実現させる分類処理プログラムP1とにより構成することができる。すなわち、分類処理プログラムP1は、コンピュータとしての制御部12及び分類用記憶部13を、収集処理手段12a、学習処理手段12c、及び分類処理手段12dとして機能させるためのプログラムである。同様に、分析処理部22は、CPU又はGPUなどの演算装置と、こうした演算装置と協働して上記の各種機能を実現させる分析処理プログラム23pとにより構成することができる。
図2では、各機能を明確に分けて説明するために、分類用記憶部13と分析用記憶部23とを別構成とし、制御部12と分析処理部22とを別構成として示したが、これに限定されない。例えば、制御部12と分析処理部22とは、1つの演算装置で構成してもよく、SoC(System-on-a-Chip)として1つのチップで形成してもよい。同様に、分類用記憶部13と分析用記憶部23とは、一体的な構成であってもよい。以降の各図及びこれらに対応する説明についても同様である。
次に、図5を参照して、分類装置10による分類処理方法について説明する。ここでは、分類処理手段12dが行う分類処理工程の一例について説明する。つまり、分類処理方法のうち、学習処理手段12cが行う学習処理工程は、図5の処理の前提となっている。
まず、分類処理手段12dは、分類対象として分類用記憶部13に記憶されているページ情報を取得する(ステップS101)。次いで、分類処理手段12dは、取得したページ情報をアドレス分類モデルM1の入力とする(ステップS102)。そして、分類処理手段12dは、アドレス分類モデルM1により、入力としたページ情報の属するグループの識別タグを該ページ情報に付して分類データを生成し、生成した分類データを分類用記憶部13又は分析用記憶部23に記憶させる(ステップS103)。
分類処理手段12dは、分類対象のページ情報が分類用記憶部13に残存しているか否かを判定する(ステップS104)。分類処理手段12dは、分類対象のページ情報が存在すれば(ステップS104/Yes)、ステップS101の処理へ移行する。分類処理手段12dは、分類対象のページ情報が存在しなければ(ステップS104/No)、分類処理を終了する。
ここで、本実施の形態1における分類処理方法の概要について補足する。分類処理方法は、過去における複数のページ情報を用いた機械学習によりアドレス分類モデルM1を生成する学習処理工程と、分類対象であるページ情報をアドレス分類モデルM1の入力とし、入力としたページ情報を、性質の類似性に基づく複数のグループのうちの何れかに分類する分類処理工程と、を有している。
以上のように、本実施の形態1の分類装置10は、サイトにおけるページに紐付くページ情報をアドレス分類モデルM1の入力とすることで、入力としたページ情報を、性質の類似性に基づく複数のグループのうちの何れかに分類する分類処理手段12dを有している。分類処理手段12dは、アドレス分類モデルM1の入力としたページ情報に、分類先のグループの識別タグを付すようになっている。よって、分析対象のページに紐付くページ情報のグルーピングを自動的に効率よく行うことができるため、処理の迅速化及び効率化を図ることができる。
また、本実施の形態1のページ情報は、ネットワークN上に存在する情報資源の位置を示す情報であり、URLに相当するアドレス情報である。ここで、アドレス情報は、特に、システム連携がとれている場合、又はXMLサイトマップ(sitemap.xml)にサイト内のページのURLが列挙されている場合等において、容易かつ迅速に取得することができる。そして、データの構成上、アドレス情報の分類処理は、比較的短時間で行うことができる。なお、制御部12は、学習処理手段12cを有さなくてもよい。この場合、分類装置10は、外部で構築されたアドレス分類モデルM1を分類用記憶部13に格納し、これを分類処理手段12dに利用させるとよい。
実施の形態2.
図6及び図7を参照して、本実施の形態2におけるデータ分析システム200及びその周辺機器等の構成例について説明する。前述した実施の形態1と同等の構成及び構成部材については同一の符号を付して説明は省略する。
図6に示すように、本実施の形態2のデータ分析システム200は、ネットワークNを介して、クローリングシステム60との通信を行うようになっている。本実施の形態2のクローリングシステム60は、サイト内のページをクロールすることにより、該ページのテキストデータを取得する機能を有している。クローリングシステム60は、サイトが複数のページで構成されている場合、ページごとのテキストデータを取得する。
図7に示すように、本実施の形態2における分類装置110の制御部112は、収集処理手段112aと、前処理手段112bと、学習処理手段112cと、分類処理手段112dと、を有している。収集処理手段112aは、サイトにおけるページ内のテキストの情報であるテキストデータを、逐次又は定期的にクローリングシステム60から収集し、収集したテキストデータを分類用記憶部13に記憶させる。
前処理手段112bは、サイトにおけるページ内のテキストの情報であるテキストデータに解析処理を施して、ページ情報としての解析データを生成するものである。本実施の形態4における前処理手段112bは、分類用記憶部13に記憶されているテキストデータに形態素解析処理を施すことにより、ページ情報としての解析データを生成する。形態素解析とは、自然言語で書かれたテキストデータを、言語上の最小単位である形態素に分割し(分かち書きし)、各形態素のそれぞれの品詞や変化などを判別することである。すなわち、前処理手段112bは、テキストデータから分割した各形態素のそれぞれに、動詞、名詞、形容詞などの品詞の情報を付して整理した解析データを分類用記憶部13に記憶させる。前処理手段112bは、各形態素のそれぞれに品詞の情報を付して整理する際、ベクトル表現への変換や、予め登録された頻出語に基づく重み付けなどの処理を行ってもよい。
学習処理手段112cは、分類用記憶部13に記憶された複数の解析データを用いた機械学習により、解析データへの分類設定を行うテキスト分類モデルM2を生成する。すなわち、学習処理手段112cは、過去における複数の解析データを入力とする機械学習により、解析データの性質の類似性に基づくグルーピングを行うテキスト分類モデルM2を構築する。学習処理手段112cは、上述した学習処理手段12cと同様に、テキスト分類モデルM2の更新処理を実行する。学習処理手段112cは、実施の形態1の学習処理手段12cと同様、DNNを用いた学習などの種々の機械学習の手法により、もしくは複数の機械学習を組み合わせた手法により、テキスト分類モデルM2を生成することができる。
分類処理手段112dは、解析データをテキスト分類モデルM2の入力とし、入力とした解析データを性質の類似性に基づく複数のグループのうちの何れかに分類するものである。すなわち、分類処理手段112dは、分類対象である複数の解析データを順次テキスト分類モデルM2の入力とする。そして、分類処理手段112dは、入力とした解析データを複数のグループのうちの何れかに分類すると共に、分類先のグループの分類タグを付して分類データを生成する。本実施の形態2の分類データは「テキスト分類データ」とも称する。
本実施の形態2の分類用記憶部13は、分類処理プログラムP2を含む制御部112の動作プログラムの他、ページ情報としての解析データの分類処理に関連する種々のデータを記憶する。また、分類用記憶部13には、解析データを分類するためのテキスト分類モデルM2が格納される。分類処理プログラムP2は、コンピュータとしての制御部112及び分類用記憶部13を、収集処理手段112a、前処理手段112b、学習処理手段112c、及び分類処理手段112dとして機能させるためのプログラムである。他の構成及び代替構成については、前述した実施の形態1と同様である。また、分類装置110による分類処理方法のうち、学習処理手段112cが行う学習処理工程、及び分類処理手段112dが行う分類処理工程は、図5に基づく説明等と同様である。
以上のように、本実施の形態2の分類装置110は、ページ情報としての解析データをテキスト分類モデルM2の入力とし、入力とした解析データを複数のグループのうちの何れかに分類する分類処理手段112dを有している。よって、分析対象のページに紐付くページ情報のグルーピングを自動的に効率よく行うことができるため、処理の迅速化及び効率化を図ることができる。また、本実施の形態2のページ情報は、ウェブページ内のテキストの情報であるテキストデータであり、テキストデータからは、アドレス情報からよりも、ウェブページのグルーピングに有用な情報が多く得られる。そのため、ウェブページのグルーピングをより高精度に行うことができる。他の効果等については、前述した実施の形態1と同様である。
ところで、図7に基づく上記の説明では、制御部112が前処理手段112bを有する例を示したが、制御部112は、前処理手段112bを有しない構成としてもよい。学習処理手段112cは、過去における複数のテキストデータを入力とする機械学習によりテキスト分類モデルM2を構築するようにしてもよい。この場合、学習処理手段112cは、例えばキャラクタレベルCNNを用いた機械学習により、テキストデータの性質の類似性に基づくグルーピングを行うテキスト分類モデルM2を生成する。したがって、分類処理手段112dは、分類対象である複数のテキストデータを順次テキスト分類モデルM2の入力とする。そして、分類処理手段112dは、入力としたテキストデータを複数のグループのうちの何れかに分類すると共に、分類先のグループの分類タグを付して分類データを生成する。
また、前処理手段112bは、テキストデータ中から不要データを削除して解析データを生成するものであってもよい。不要データとは、例えば数値又は改行などの、テキスト分類モデルM2の訓練及び該モデルでの予測に必要のない文字等である。この場合、学習処理手段112cは、過去における複数の解析データを入力とする機械学習によりテキスト分類モデルM2を構築するものとなる。分類処理手段112dは、分類対象である複数の解析データを順次テキスト分類モデルM2の入力とし、入力とした解析データを複数のグループのうちの何れかに分類して分類先のグループの分類タグを付して分類データを生成する。
実施の形態3.
図6、図8〜図10を参照して、本実施の形態3におけるデータ分析システム300及びその周辺機器等の構成例について説明する。上述した実施の形態1及び2と同等の構成及び構成部材については同一の符号を付して説明は省略する。
本実施の形態3のクローリングシステム60は、サイト内のページをクロールすることにより、該ページ内の各オブジェクトの情報を含む表示関連データを取得する機能を有している。クローリングシステム60は、サイトが複数のページで構成されている場合、各ページそれぞれの表示関連データを取得する。ここで、オブジェクトとは、コンピュータ上で操作や処理の対象となる何らかの実体である。オブジェクトには、表示画面上にアイコンなどの形で表示されるデータ集合や操作要素、及び表示画面上に配置される個々の図形などが含まれる。例えば、オブジェクトは、Document Object Model(DOM)の要素であってもよい。
図8に示すように、本実施の形態3における分類装置210の制御部212は、収集処理手段212aと、前処理手段212bと、学習処理手段212cと、分類処理手段212dと、を有している。収集処理手段212aは、サイトにおけるページの内容物の情報であって、該ページの各オブジェクトの情報を含む表示関連データを、逐次又は定期的にクローリングシステム60から収集し、収集した表示関連データを分類用記憶部13に記憶させる。
前処理手段212bは、サイトにおけるページの各オブジェクトの情報を含む表示関連データから、オブジェクトごとに、その種別を示す種別情報と、その位置及びサイズを示す配置情報との組み合わせによる識別情報を生成する。すなわち、前処理手段212bは、表示関連データが有する各オブジェクトのそれぞれについて、種別情報と配置情報とを組み合わせて識別情報を生成する。例えば、ウェブページのオブジェクトに関し、オブジェクトの種別が26種類存在し、位置及びサイズを示す配置情報が1024種類存在する場合、オブジェクトの識別情報は、26624(26×1024)種類存在することになる。もっとも、オブジェクトの種別は、27種類以上もしくは25種類以下に設定されてもよく、配置情報は、1025種類以上もしくは1023種類以下に設定されてもよい。
そして、前処理手段212bは、生成したオブジェクトごとの識別情報に基づき、ページ情報としてのフレーム特徴量(ワイヤフレーム特徴量)を生成する。一例として、前処理手段212bは、生成した各識別情報をBoW(Bag-of-Words)などのベクトル表現に変換し、例えばトピックモデルの一種であるLDA(Latent
Dirichlet Allocation)を用いて変換後のデータの次元削減を行うことにより、フレーム特徴量を生成する。もっとも、前処理手段212bは、上記に限らず、ベクトル表現に変換したデータの次元削減の手法として、例えば、オートエンコーダ(Autoencoder)などの教師なし学習を採り入れたものであってもよい。
ここで、図9及び図10を用いて、フレーム特徴量の生成処理を概念的に説明する。例えば、図9の表示画面85xでは、背景としての写真のオブジェクト91aと、複数の写真がスライドショー形式で切り替わる設定のオブジェクト91bと、リンクが貼られている写真のオブジェクト91cと、を例示している。また、表示画面85xでは、単純文字のオブジェクト92と、リンクが貼られている文字又はロゴのオブジェクト93と、リンクが貼られている文字が複数並べられたオブジェクト94と、単純文字が複数並べられたオブジェクト95と、を例示している。加えて、表示画面85xでは、複数の文字などを表形式で整理したオブジェクト96と、文字を含むバーのオブジェクト97と、を例示している。
図9では、写真のオブジェクトに斜線を施し、リンクが貼られているオブジェクトを矩形で示し、リンクが貼られているオブジェクトを丸みを帯びた矩形で示している。オブジェクト94は、いわゆるメニューバーなどである。図9では、オブジェクト96の中で色彩が付されているものをオブジェクト96aとしている。オブジェクトには、上記以外にも様々な種別が存在し、オブジェクトの種別は、さらに細かく設定してもよく、もっと大まかに設定してもよい。
図9のようなウェブページについて、各オブジェクトの種別に対応するパーツ情報だけを画像として抽出すると、図10に例示するようなワイヤフレーム画像となる。パーツ情報は、ウェブページのソースコードに含まれる、少なくとも1つのタグを含んだ情報であり、オブジェクトの種別を示す種別情報に対応する。すなわち、前処理手段212bは、ウェブページをワイヤフレーム画像に変換した後、該ワイヤフレーム画像から、固定長ベクトルの埋め込み表現(ベクトル表現)であるフレーム特徴量をページ情報として生成するものである。
学習処理手段212cは、分類用記憶部13に記憶された複数のフレーム特徴量を用いた機械学習により、フレーム特徴量への分類設定を行うページ分類モデルM3を生成する。すなわち、学習処理手段212cは、過去における複数のフレーム特徴量を入力とする機械学習により、フレーム特徴量の性質の類似性に基づくグルーピングを行うページ分類モデルM3を構築する。学習処理手段212cは、上述した学習処理手段12cと同様に、ページ分類モデルM3の更新処理を実行する。学習処理手段212cは、実施の形態1の学習処理手段12cと同様、DNNを用いた学習などの種々の機械学習の手法により、もしくは複数の機械学習を組み合わせた手法により、ページ分類モデルM3を生成することができる。
分類処理手段212dは、フレーム特徴量を、過去における複数のフレーム特徴量を用いた機械学習により生成されたページ分類モデルM3の入力とし、入力としたフレーム特徴量を、性質の類似性に基づく複数のグループのうちの何れかに分類するものである。すなわち、分類処理手段212dは、分類対象である複数のフレーム特徴量を順次ページ分類モデルM3の入力とする。そして、分類処理手段212dは、入力としたフレーム特徴量を複数のグループのうちの何れかに分類すると共に、分類先のグループの分類タグを付して分類データを生成する。本実施の形態3の分類データは「ページ分類データ」とも称する。
本実施の形態3の分類用記憶部13は、分類処理プログラムP3を含む制御部212の動作プログラムの他、ページ情報としてのフレーム特徴量の分類処理に関連する種々のデータを記憶する。また、分類用記憶部13には、フレーム特徴量を分類するためのページ分類モデルM3が格納される。分類処理プログラムP3は、コンピュータとしての制御部212及び分類用記憶部13を、収集処理手段212a、前処理手段212b、学習処理手段212c、及び分類処理手段212dとして機能させるためのプログラムである。他の構成及び代替構成については、上述した実施の形態1及び2と同様である。また、分類装置210による分類処理方法のうち、学習処理手段212cが行う学習処理工程、及び分類処理手段212dが行う分類処理工程は、図5に基づく説明等と同様である。
以上のように、本実施の形態3の分類装置210は、ページ情報としてのフレーム特徴量をページ分類モデルM3の入力とし、入力としたフレーム特徴量を複数のグループのうちの何れかに分類する分類処理手段212dを有している。よって、分析対象のページに紐付くページ情報のグルーピングを自動的に効率よく行うことができるため、処理の迅速化及び効率化を図ることができる。
ところで、ウェブページの内容物を示す表示関連データからは、アドレス情報からよりも、ウェブページのグルーピングに有用な情報が多く得られる。しかしながら、一般にウェブページは可変長であることから、表示関連データをそのままグルーピングに用いるのは困難である。なぜなら、画像を入力とする機械学習手法は、一般に、入力画像サイズが固定されており、可変長の画像に対応しているものは少ないためである。併せて、画像を無理に固定のサイズに縮小すると、分類処理において本来的に必要な情報を失い、分類処理の性能が悪化する恐れがあるためでもある。つまり、こうした事情から、これまでのページグルーピングには、表示関連データが用いられていない。
この点、本実施の形態3の前処理手段212bは、分析対象である可変長のウェブページに対応する表示関連データから、オブジェクトごとの、種別情報と配置情報との組み合わせによる識別情報を生成する。そして、前処理手段212bは、生成したオブジェクトごとの識別情報に基づいてフレーム特徴量を生成する。すなわち、前処理手段212bは、機械学習の入力データとして使用できるように、表示関連データを、固定長のベクトル表現に変換する機能を有している。つまり、前処理手段212bは、可変長のウェブページに対応する表示関連データに対し、ベクトル表現への次元圧縮(次元削減)を施すことにより、フレーム特徴量を生成するようになっている。そのため、ウェブページのグルーピングの更なる高精度化を図ることができる。
実施の形態4.
図11を参照して、本実施の形態4におけるデータ分析システム400及びその周辺機器等の構成例について説明する。上述した実施の形態1〜3と同等の構成及び構成部材については同一の符号を付して説明は省略する。
図11に示すように、本実施の形態4における分類装置310の制御部312は、収集処理手段312aと、前処理手段312bと、学習処理手段312cと、分類処理手段312dと、を有している。収集処理手段312aは、ページ情報としてのアドレス情報と、テキストデータと、表示関連データとを、逐次又は定期的に収集し、収集した各情報を分類用記憶部13に記憶させる。
前処理手段312bは、テキスト前処理手段B2と、ページ前処理手段B3と、を有している。テキスト前処理手段B2は、上述した実施の形態2の前処理手段112bと同様に機能する。すなわち、テキスト前処理手段B2は、テキストデータに解析処理を施して、ページ情報としての解析データを生成するものである。ページ前処理手段B3は、上述した実施の形態3の前処理手段212bと同様に機能する。すなわち、ページ前処理手段B3は、分類対象のページに対応する表示関連データから、オブジェクトごとの、種別情報と配置情報との組み合わせによる識別情報を生成し、生成したオブジェクトごとの識別情報に基づいて、ページ情報としてのフレーム特徴量を生成する。
学習処理手段312cは、アドレス学習手段C1と、テキスト学習手段C2と、ページ学習手段C3と、統括学習手段Cxと、を有している。アドレス学習手段C1は、上述した実施の形態1の学習処理手段12cと同様に学習済みモデルを生成し、更新する。すなわち、アドレス学習手段C1は、過去における複数のアドレス情報を入力とする機械学習により、入力としたアドレス情報からアドレス特徴量を抽出して出力するアドレス分類モデルM10を構築する。アドレス特徴量は、アドレス情報に分類タグを付したアドレス分類データであってもよく、アドレス分類データとは異なる態様の情報であってもよい。
アドレス学習手段C1は、例えば、DNNの隠れ層(中間層)の出力ベクトルを埋め込み表現としたものを、アドレス分類データとは異なる態様のアドレス特徴量として抽出し、これを統括学習手段Cxに利用させてもよい。この場合、アドレス学習手段C1は、アドレス分類モデルM10におけるDNNの隠れ層の、出力層の1つ手前の層などの出力ベクトルを埋め込み表現としたアドレス特徴量を抽出する。また、アドレス分類モデルM10におけるDNNの出力層に、活性化関数の一種であるSoftMax関数を採用している場合は、SoftMax関数によってグループごとの確率が出力される。よって、この場合、アドレス学習手段C1は、各グループそれぞれの確率ベクトルを、アドレス分類データとは異なる態様のアドレス特徴量として抽出してもよい。
さらに、アドレス学習手段C1は、キャラクタレベルCNNを用いる構成の場合、例えば、キャラクタレベルCNNの隠れ層の出力ベクトルを埋め込み表現としたものを、アドレス分類データとは異なる態様のアドレス特徴量として抽出してもよい。また、アドレス分類モデルM10におけるキャラクタレベルCNNの出力層にSoftMax関数を採用している場合、アドレス学習手段C1は、各グループそれぞれの確率ベクトルを、アドレス分類データとは異なる態様のアドレス特徴量として抽出してもよい。
テキスト学習手段C2は、上述した実施の形態2の学習処理手段112cと同様に学習済みモデルを生成し、更新する。すなわち、テキスト学習手段C2は、過去における複数の解析データを入力とする機械学習により、入力とした解析データからテキスト特徴量を抽出して出力するテキスト分類モデルM20を構築する。テキスト特徴量は、解析データに分類タグを付したテキスト分類データであってもよく、テキスト分類データが生成される途中の埋め込み表現(ベクトル表現)などの中間的な表現の情報であってもよい。
ページ学習手段C3は、上述した実施の形態3の学習処理手段212cと同様に学習済みモデルを生成し、更新する。すなわち、ページ学習手段C3は、過去における複数のフレーム特徴量を入力とする機械学習により、入力としたフレーム特徴量からページ特徴量を抽出して出力するページ分類モデルM30を構築する。ページ特徴量は、フレーム特徴量に分類タグを付したページ分類データであってもよく、ページ分類データが生成される途中の埋め込み表現(ベクトル表現)などの中間的な表現の情報であってもよい。
統括学習手段Cxは、アドレス分類手段D1により生成されたアドレス特徴量と、テキスト分類手段D2により生成されたテキスト特徴量と、ページ分類手段D3により生成されたページ特徴量と、を入力とする機械学習により、入力とした各情報に対応するウェブページを分類する統括分類モデルM4を生成するものである。本実施の形態4において、統括学習手段Cxは、GBDTを用いた機械学習により統括分類モデルM4を生成するようになっている。
分類処理手段312dは、アドレス分類手段D1と、テキスト分類手段D2と、ページ分類手段D3と、統括分類手段Dxと、を有している。アドレス分類手段D1は、上述した実施の形態1の分類処理手段12dと同様に分類処理を実行する。すなわち、アドレス分類手段D1は、分類対象のページに対応するアドレス情報をアドレス分類モデルM10の入力として、アドレス特徴量を抽出する。
テキスト分類手段D2は、上述した実施の形態2の分類処理手段112dと同様に分類処理を実行する。すなわち、テキスト分類手段D2は、分類対象のページに対応する解析データをテキスト分類モデルM20の入力として、テキスト特徴量を抽出する。ページ分類手段D3は、上述した実施の形態3の分類処理手段212dと同様に分類処理を実行する。すなわち、ページ分類手段D3は、分類対象のページに対応するフレーム特徴量をページ分類モデルM30の入力としてページ特徴量を抽出する。
統括分類手段Dxは、ウェブページごとのアドレス特徴量、テキスト特徴量、及びページ特徴量を用いて、各ウェブページのグルーピングを行うものである。より具体的に、統括分類手段Dxは、分類対象であるウェブページに紐付けられたアドレス特徴量、テキスト特徴量、及びページ特徴量を統括分類モデルM4の入力とし、該ウェブページを、性質の類似性に基づく複数のグループのうちの何れかに分類するものである。すなわち、統括分類手段Dxは、分類対象である複数のウェブページに紐付けられた各特徴量を順次統括分類モデルM4の入力とする。そして、統括分類手段Dxは、入力とした各特徴量に紐付くウェブページを複数のグループのうちの何れかに分類すると共に、分類先のグループの分類タグを該ウェブページを示す情報に付して分類データを生成する。本実施の形態4の分類データは「統括分類データ」とも称する。
ところで、テキスト分類手段D2及びページ分類手段D3は、クローリング及び前処理を経たデータを用いるため、テキスト分類手段D2又はページ分類手段D3による1ページ当たりの処理時間は、アドレス分類手段D1の1ページ当たりの処理時間よりも長くなる。また、アドレス分類手段D1とテキスト分類手段D2とページ分類手段D3とが行う処理内容は、それぞれ異なっているため、同一のページに対する分類処理に要する時間もそれぞれ異なる。1ページ当たりの分類処理に要する時間は、概ね、アドレス分類手段D1、テキスト分類手段D2、ページ分類手段D3の順に長くなる。したがって、アドレス分類手段D1の処理速度に合わせて全体的な分類処理を行うと、テキスト分類手段D2及びページ分類手段D3での遅延分のデータが、未処理の欠損データ(欠損値)となる。
そこで、本実施の形態4では、GBDTに基づく統括分類モデルM4が弱学習器として内包する複数の決定木の中に、「欠損データであるか否か?」という条件分岐を設定している。そのため、統括分類手段Dxは、テキスト分類手段D2及びページ分類手段D3における欠損データも、統括分類モデルM4の入力とすることができる。
本実施の形態4の分類用記憶部13は、分類処理プログラムP4を含む制御部312の動作プログラムの他、ページ情報としてのフレーム特徴量の分類処理に関連する種々のデータを記憶する。また、分類用記憶部13には、アドレス情報からアドレス特徴量を抽出するためのアドレス分類モデルM10と、解析データ等からテキスト特徴量を抽出するためのテキスト分類モデルM20と、フレーム特徴量からページ特徴量を抽出するためのページ分類モデルM30と、が格納される。さらに、分類用記憶部13には、アドレス特徴量、テキスト特徴量、及びページ特徴量を入力として分類データを生成する統括分類モデルM4が格納される。分類処理プログラムP4は、コンピュータとしての制御部312及び分類用記憶部13を、収集処理手段312a、前処理手段312b、学習処理手段312c、及び分類処理手段312dとして機能させるためのプログラムである。他の構成及び代替構成については、上述した実施の形態1〜3と同様である。また、分類装置310による分類処理方法のうち、学習処理手段312cが行う学習処理工程、及び分類処理手段312dが行う分類処理工程の基本的な流れは、図5に基づく説明等と同様である。
次に、図12を参照して、本実施の形態4における分類処理方法の各工程について説明する。ここでは、学習処理手段312cによって各分類モデルを生成する学習処理工程については省略する。なお、図12における横並びの各工程は、並行して行われる。
〔収集処理工程〕
図12に示すように、収集処理手段312aは、外部から逐次又は定期的にアドレス情報、テキストデータ、及び表示関連データを収集し、収集した各データを分類用記憶部13に記憶させる。その際、収集処理手段312aは、同じウェブページに対応するアドレス情報とテキストデータと表示関連データとを紐付けて分類用記憶部13に記憶させる。
〔前処理工程〕
前処理手段312bは、テキストデータに対する形態素解析をもとに解析データを生成する。あるいは前処理手段312bは、テキストデータ中から不要データを削除して解析データを生成する(テキスト前処理工程)。
前処理手段312bは、分類対象のページに対応する表示関連データから、オブジェクトごとの、種別情報と配置情報との組み合わせによる識別情報を生成し、生成したオブジェクトごとの識別情報に基づいてフレーム特徴量を生成する(ページ前処理工程)。
〔分類処理工程〕
分類処理手段312dは、アドレス分類手段D1により、分類対象のページに対応するアドレス情報をアドレス分類モデルM10の入力としてアドレス特徴量を抽出する(アドレス分類工程)。
分類処理手段312dは、テキスト分類手段D2により、分類対象のページに対応する解析データをテキスト分類モデルM20の入力としてテキスト特徴量を抽出する(テキスト分類工程)。
分類処理手段312dは、ページ分類手段D3により、分類対象のページに対応するフレーム特徴量をページ分類モデルM30の入力としてページ特徴量を抽出する(ページ分類工程)。
分類処理手段312dは、分類対象である複数のウェブページに紐付けられたアドレス特徴量、テキスト特徴量、及びページ特徴量を、順次統括分類モデルM4の入力とする。そして、分類処理手段312dは、入力とした各特徴量に紐付くウェブページを複数のグループのうちの何れかに分類すると共に、分類先のグループの分類タグを該ウェブページを示す情報に付して分類データを生成する(統括分類工程)。
以上のように、本実施の形態4の分類装置310によっても、分析対象のウェブページのグルーピングを自動的に効率よく行うことができるため、処理の迅速化及び効率化を図ることができる。また、分類装置310は、アドレス情報をアドレス分類モデルM10の入力としてアドレス特徴量を抽出するアドレス分類手段D1と、解析データをテキスト分類モデルM20の入力としてテキスト特徴量を抽出するテキスト分類手段D2と、フレーム特徴量をページ分類モデルM30の入力としてページ特徴量を抽出するページ分類手段D3と、を有している。また、分類装置310は、ウェブページごとのアドレス特徴量、テキスト特徴量、及びページ特徴量を用いて、各ウェブページのグルーピングを行う統括分類手段Dxを有している。すなわち、分類装置310は、アドレス情報、テキストデータ、及び表示関連データという3つの情報を用いた2段階の分類処理により、1つの閲覧データを用いる構成では得られない情報を機械学習及び分類処理に反映させることができる。そのため、ウェブページのグルーピングの精度向上を図ることができる。
上記の説明では、統括学習手段CxがGBDTを用いた機械学習により統括分類モデルM4を生成する例を示したが、これに限定されない。統括学習手段Cxは、DNNを用いた学習などの種々の機械学習の手法により、もしくは複数の機械学習を組み合わせた手法により、統括分類モデルM4を生成してもよい。
ところで、分類装置310は、テキスト前処理手段B2を有しない構成としてもよい。この場合、テキスト学習手段C2は、過去における複数のテキストデータを入力とする機械学習により、入力としたテキストデータからテキスト特徴量を抽出するテキスト分類モデルM20を構築する。すなわち、テキスト分類手段D2は、分類対象のページに対応するテキストデータをテキスト分類モデルM20の入力としてテキスト特徴量を生成する。
<変形例4a>
図13を参照して、実施の形態4の変形例4aにおけるデータ分析システム400Aの構成例について説明する。本変形例4aにおける制御部312は、収集処理手段312aと、テキスト前処理手段B2と、学習処理手段312cと、分類処理手段312dと、を有している。本変形例4aの学習処理手段312cは、アドレス学習手段C1と、テキスト学習手段C2と、統括学習手段Cxaと、を有している。本変形例4aの分類処理手段312dは、アドレス分類手段D1と、テキスト分類手段D2と、統括分類手段Dxaと、を有している。本変形例4aの収集処理手段312aは、ページ情報としてのアドレス情報と、テキストデータとを、逐次又は定期的に収集し、収集した各情報を分類用記憶部13に記憶させる。
統括学習手段Cxaは、アドレス分類手段D1により生成されたアドレス特徴量と、テキスト分類手段D2により生成されたテキスト特徴量とを入力とする機械学習により、入力とした各特徴量に対応するウェブページを分類する統括分類モデルM41を生成する。統括分類手段Dxaは、分類対象である複数のウェブページに紐付けられたアドレス特徴量及びテキスト特徴量を、順次統括分類モデルM41の入力とする。そして、統括分類手段Dxaは、入力とした各特徴量に紐付くウェブページを複数のグループのうちの何れかに分類すると共に、分類先のグループの分類タグを該ウェブページを示す情報に付して分類データを生成する。
以上のように、本変形例4aの分類装置310は、アドレス情報及びテキストデータという2つの情報を用いた2段階の分類処理により、1つの閲覧データを用いる構成では得られない情報を機械学習及び分類処理に反映させることができる。したがって、ウェブページのグルーピングの精度向上を図ることができる。ところで、分類装置310は、テキスト前処理手段B2を有しない構成としてもよい。この場合、テキスト学習手段C2は、過去における複数のテキストデータを入力とする機械学習により、入力としたテキストデータからテキスト特徴量を抽出するテキスト分類モデルM20を構築する。
<変形例4b>
図14を参照して、実施の形態4の変形例4bにおけるデータ分析システム400Bの構成例について説明する。本変形例4bにおける制御部312は、収集処理手段312aと、ページ前処理手段B3と、学習処理手段312cと、分類処理手段312dと、を有している。本変形例4bの学習処理手段312cは、アドレス学習手段C1と、ページ学習手段C3と、統括学習手段Cxbと、を有している。本変形例4bの分類処理手段312dは、アドレス分類手段D1と、ページ分類手段D3と、統括分類手段Dxbと、を有している。本変形例4bの収集処理手段312aは、ページ情報としてのアドレス情報と、表示関連データとを、逐次又は定期的に収集し、収集した各情報を分類用記憶部13に記憶させる。
統括学習手段Cxbは、アドレス分類手段D1により生成されたアドレス特徴量と、ページ分類手段D3により生成されたページ特徴量とを入力とする機械学習により、入力とした各特徴量に対応するウェブページを分類する統括分類モデルM42を生成する。統括分類手段Dxbは、分類対象である複数のウェブページに紐付けられたアドレス特徴量及びページ特徴量を、順次統括分類モデルM42の入力とする。そして、統括分類手段Dxbは、入力とした各特徴量に紐付くウェブページを複数のグループのうちの何れかに分類すると共に、分類先のグループの分類タグを該ウェブページを示す情報に付して分類データを生成する。
以上のように、本変形例4bの分類装置310は、アドレス情報及び表示関連データという2つの情報を用いた2段階の分類処理により、1つの閲覧データを用いる構成では得られない情報を機械学習及び分類処理に反映させることができる。したがって、ウェブページのグルーピングの精度向上を図ることができる。
<変形例4c>
図15を参照して、実施の形態4の変形例4cにおけるデータ分析システム400Cの構成例について説明する。本変形例4cにおける制御部312は、収集処理手段312aと、前処理手段312bと、学習処理手段312cと、分類処理手段312dと、を有している。本変形例4cの学習処理手段312cは、テキスト学習手段C2と、ページ学習手段C3と、統括学習手段Cxcと、を有している。本変形例4bの分類処理手段312dは、テキスト分類手段D2と、ページ分類手段D3と、統括分類手段Dxcと、を有している。本変形例4cの収集処理手段312aは、テキストデータと表示関連データとを逐次又は定期的に収集し、収集した各情報を分類用記憶部13に記憶させる。
統括学習手段Cxcは、テキスト分類手段D2により生成されたテキスト特徴量と、ページ分類手段D3により生成されたページ特徴量とを入力とする機械学習により、入力とした各特徴量に対応するウェブページを分類する統括分類モデルM43を生成する。統括分類手段Dxcは、分類対象である複数のウェブページに紐付けられたテキスト特徴量及びページ特徴量を、順次統括分類モデルM43の入力とする。そして、統括分類手段Dxcは、入力とした各特徴量に紐付くウェブページを複数のグループのうちの何れかに分類すると共に、分類先のグループの分類タグを該ウェブページを示す情報に付して分類データを生成する。
以上のように、本変形例4cの分類装置310は、テキストデータ及び表示関連データという2つの情報を用いた2段階の分類処理により、1つの閲覧データを用いる構成では得られない情報を機械学習及び分類処理に反映させることができる。したがって、ウェブページのグルーピングの精度向上を図ることができる。ところで、分類装置310は、テキスト前処理手段B2を有しない構成としてもよい。この場合、テキスト学習手段C2は、過去における複数のテキストデータを入力とする機械学習により、入力としたテキストデータからテキスト特徴量を抽出するテキスト分類モデルM20を構築する。
実施の形態5.
図16を参照して、本実施の形態5におけるデータ分析システム500及びその周辺機器等の構成例について説明する。上述した実施の形態1〜4と同等の構成及び構成部材については同一の符号を付して説明は省略する。
図16に示すように、本実施の形態5における分類装置410の制御部412は、収集処理手段312aと、前処理手段312bと、学習処理手段412cと、分類処理手段412dと、を有している。
学習処理手段412cは、過去における複数組の、ウェブページの位置を示すアドレス情報、該ウェブページに対応する解析データ、及び該ウェブページに対応するフレーム特徴量を入力とする機械学習により、入力とした各情報に紐付くウェブページを分類して分類データを生成する分類モデルM5を構築する。学習処理手段412cは、実施の形態1の学習処理手段12cと同様、DNNを用いた学習などの種々の機械学習の手法により、もしくは複数の機械学習を組み合わせた手法により、分類モデルM5を生成することができる。
分類処理手段412dは、ウェブページの位置を示すアドレス情報、該ウェブページに対応する解析データ、及び該ウェブページに対応するフレーム特徴量を、ページ情報として分類モデルM5の入力とする。そして、分類処理手段412dは、分類モデルM5の入力としたページ情報に紐付くウェブページを複数のグループのうちの何れかに分類すると共に、分類先のグループの分類タグを該ウェブページを示す情報に付して分類データを生成する。
本実施の形態5の分類用記憶部13は、分類処理プログラムP5を含む制御部412の動作プログラムの他、ページ情報の分類処理に関連する種々のデータを記憶する。また、分類用記憶部13には、ページ情報を分類するための分類モデルM5が格納される。分類処理プログラムP5は、コンピュータとしての制御部412及び分類用記憶部13を、収集処理手段312a、前処理手段312b、学習処理手段412c、及び分類処理手段412dとして機能させるためのプログラムである。他の構成及び代替構成については、上述した実施の形態1〜4と同様である。また、分類装置410による分類処理方法のうち、学習処理手段412cが行う学習処理工程、及び分類処理手段412dが行う分類処理工程の基本的な流れは、図5に基づく説明等と同様である。
以上のように、本実施の形態5の分類装置410によっても、分析対象のウェブページのグルーピングを自動的に効率よく行うことができるため、処理の迅速化及び効率化を図ることができる。また、分類処理手段412dは、ウェブページごとのアドレス情報、解析データ、及びフレーム特徴量を分類モデルM5の入力とし、入力とした各情報に紐付くウェブページを複数のグループのうちの何れかに分類する。すなわち、分類装置410によれば、アドレス情報、テキストデータ、及び表示関連データという3つの情報を用いた分類処理により、1つの閲覧データを用いる構成では得られない情報を機械学習及び分類処理に反映させることができる。そのため、ウェブページのグルーピングの精度向上を図ることができる。
ところで、分類装置410は、テキスト前処理手段B2を有しない構成としてもよい。この場合、学習処理手段412cは、過去におけるウェブページごとのアドレス情報、テキストデータ、及びフレーム特徴量を入力とする機械学習により、入力とした各情報に紐付くウェブページを分類する分類モデルM5を構築する。分類処理手段412dは、ウェブページごとのアドレス情報、テキストデータ、及びフレーム特徴量を、ページ情報として分類モデルM5の入力とし、入力とした各情報に紐付くウェブページを複数のグループのうちの何れかに分類する。
また、収集処理手段312aは、変形例4cと同様、テキストデータと表示関連データとを逐次又は定期的に収集するものであってもよい。
かかる構成において、分類装置410がテキスト前処理手段B2を有する場合、学習処理手段412cは、過去におけるウェブページごとの解析データ及びフレーム特徴量を入力とする機械学習により、入力とした各情報に紐付くウェブページを分類する分類モデルM5を構築する。そして、分類処理手段412dは、ウェブページごとの解析データ及びフレーム特徴量を、ページ情報として分類モデルM5の入力とし、入力とした各情報に紐付くウェブページを複数のグループのうちの何れかに分類する。
かかる構成において、分類装置410がテキスト前処理手段B2を有しない場合、学習処理手段412cは、過去におけるウェブページごとのテキストデータ及びフレーム特徴量を入力とする機械学習により、入力とした各情報に紐付くウェブページを分類する分類モデルM5を構築する。分類処理手段412dは、ウェブページごとのテキストデータ及びフレーム特徴量を、ページ情報として分類モデルM5の入力とし、入力とした各情報に紐付くウェブページを複数のグループのうちの何れかに分類する。
<変形例5a>
図17を参照して、本実施の形態5の変形例5aにおけるデータ分析システム500Aの構成例について説明する。本変形例5aの収集処理手段312aは、変形例4aと同様、アドレス情報とテキストデータとを逐次又は定期的に収集する。したがって、学習処理手段412cは、過去における複数組の、ウェブページの位置を示すアドレス情報、及び該ウェブページに対応する解析データを入力とする機械学習により、入力とした各情報に紐付くウェブページを分類する分類モデルM5を構築する。分類処理手段412dは、ウェブページの位置を示すアドレス情報、及び該ウェブページに対応する解析データを、ページ情報として分類モデルM5の入力とし、入力としたページ情報に紐付くウェブページを複数のグループのうちの何れかに分類する。
以上のように、本変形例5aの分類装置410は、アドレス情報及びテキストデータという2つの情報を用いた分類処理により、1つの閲覧データを用いる構成では得られない情報を機械学習及び分類処理に反映させることができる。したがって、ウェブページのグルーピングの精度向上を図ることができる。ところで、分類装置410は、テキスト前処理手段B2を有しない構成としてもよい。この場合、学習処理手段412cは、過去におけるウェブページごとのアドレス情報及びテキストデータを入力とする機械学習により、入力とした各情報に紐付くウェブページを分類する分類モデルM5を構築する。分類処理手段412dは、ウェブページごとのアドレス情報及びテキストデータを、ページ情報として分類モデルM5の入力とし、入力としたページ情報に紐付くウェブページを複数のグループのうちの何れかに分類する。
<変形例5b>
図18を参照して、本実施の形態5の変形例5bにおけるデータ分析システム500Bの構成例について説明する。本変形例5bの収集処理手段312aは、変形例4bと同様、アドレス情報と表示関連データとを逐次又は定期的に収集する。したがって、学習処理手段412cは、過去における複数組の、ウェブページの位置を示すアドレス情報、及び該ウェブページに対応する表示関連データを入力とする機械学習により、入力とした各情報に紐付くウェブページを分類する分類モデルM5を構築する。分類処理手段412dは、ウェブページごとのアドレス情報及びフレーム特徴量を、ページ情報として分類モデルM5の入力とし、入力としたページ情報に紐付くウェブページを複数のグループのうちの何れかに分類する。
以上のように、本変形例5bの分類装置410は、アドレス情報及び表示関連データという2つの情報を用いた分類処理により、1つの閲覧データを用いる構成では得られない情報を機械学習及び分類処理に反映させることができる。したがって、ウェブページのグルーピングの精度向上を図ることができる。
上述した各実施の形態は、分類装置、データ分析システム、分類処理プログラム、及び分類処理方法における好適な具体例であり、本発明の技術的範囲は、これらの態様に限定されるものではない。例えば、上記の説明では、収集処理手段がクローリングシステム60からテキストデータ及び表示関連データを収集する例を示したが、これに限定されない。収集処理手段は、サイト内のページをクロールすることにより、該ページのテキストデータ及び表示関連データのうちの少なくとも一方を取得する機能を有していてもよい。
10、110、210、310、410 分類装置、11 通信部、12、112、212、312、412 制御部、12a、112a、212a、312a 収集処理手段、12c、112c、212c、312c、412c 学習処理手段、12d、112d、212d、312d、412d 分類処理手段、13 分類用記憶部、20 分析装置、22 分析処理部、23 分析用記憶部、23p 分析処理プログラム、30 管理装置、31 管理通信部、32 管理制御部、32a 情報処理手段、32b 表示処理手段、33 管理記憶部、34、84 入力部、35、85 表示部、40 サービス提供システム、50 解析システム、60 クローリングシステム、80 端末装置、81 端末通信部、82 端末制御部、82a 情報処理手段、82b 表示処理手段、83 端末記憶部、85x 表示画面、91a、91b、91c、92、93、94、95、96、96a、97 オブジェクト、100、200、300、400、400A〜400C、500、500A、500B データ分析システム、112b、212b、312b、412b 前処理手段、B2 テキスト前処理手段、B3 ページ前処理手段、C1 アドレス学習手段、C2 テキスト学習手段、C3 ページ学習手段、Cx、Cxa〜Cxc 統括学習手段、D1 アドレス分類手段、D2 テキスト分類手段、D3 ページ分類手段、Dx、Dxa〜Dxc 統括分類手段、M1、M10 アドレス分類モデル、M2、M20 テキスト分類モデル、M3、M30 ページ分類モデル、M4、M41、M42、M43 統括分類モデル、M5 分類モデル、N ネットワーク、P1〜P5 分類処理プログラム。

Claims (22)

  1. ウェブサイトにおけるウェブページに紐付くページ情報を、過去における複数の前記ページ情報を用いた機械学習により生成された分類モデルの入力とし、入力とした前記ページ情報を性質の類似性に基づく複数のグループのうちの何れかに分類する分類処理手段を有する、分類装置。
  2. 前記ページ情報は、前記ウェブページの位置を示すアドレス情報である、請求項1に記載の分類装置。
  3. 前記ページ情報は、前記ウェブページ内のテキストの情報であるテキストデータである、請求項1に記載の分類装置。
  4. 前記ウェブページ内のテキストの情報であるテキストデータに解析処理を施して、前記ページ情報としての解析データを生成する前処理手段を有する、請求項1に記載の分類装置。
  5. 前記ウェブページの各オブジェクトの情報を含む表示関連データから、オブジェクトごとに、該オブジェクトの種別を示す種別情報と、該オブジェクトの位置及びサイズを示す配置情報との組み合わせによる識別情報を生成し、生成したオブジェクトごとの識別情報に基づいて前記ページ情報としてのフレーム特徴量を生成する前処理手段を有する、請求項1に記載の分類装置。
  6. 前記分類処理手段は、
    前記ページ情報としての前記ウェブページの位置を示すアドレス情報を、過去における複数の前記アドレス情報を用いた機械学習により生成されたアドレス分類モデルの入力としてアドレス特徴量を抽出するアドレス分類手段と、
    前記ページ情報としての前記ウェブページ内のテキストの情報であるテキストデータを、過去における複数の前記テキストデータを用いた機械学習により生成されたテキスト分類モデルの入力としてテキスト特徴量を抽出するテキスト分類手段と、
    前記ウェブページごとの前記アドレス特徴量及び前記テキスト特徴量を用いて、各ウェブページのグルーピングを行う統括分類手段と、を有する、請求項1に記載の分類装置。
  7. 前記ウェブページ内のテキストの情報であるテキストデータに解析処理を施して、前記ページ情報としての解析データを生成するテキスト前処理手段を有し、
    前記分類処理手段は、
    前記ページ情報としての前記ウェブページの位置を示すアドレス情報を、過去における複数の前記アドレス情報を用いた機械学習により生成されたアドレス分類モデルの入力としてアドレス特徴量を抽出するアドレス分類手段と、
    前記解析データを、過去における複数の前記解析データを用いた機械学習により生成されたテキスト分類モデルの入力としてテキスト特徴量を抽出するテキスト分類手段と、
    前記ウェブページごとの前記アドレス特徴量及び前記テキスト特徴量を用いて、各ウェブページのグルーピングを行う統括分類手段と、を有する、請求項1に記載の分類装置。
  8. 前記ウェブページの各オブジェクトの情報を含む表示関連データから、オブジェクトごとに、該オブジェクトの種別を示す種別情報と、該オブジェクトの位置及びサイズを示す配置情報との組み合わせによる識別情報を生成すると共に、生成したオブジェクトごとの識別情報に基づいて前記ページ情報としてのフレーム特徴量を生成する前処理手段を有し、
    前記分類処理手段は、
    前記ウェブページの位置を示すアドレス情報を、過去における複数の前記アドレス情報を用いた機械学習により生成されたアドレス分類モデルの入力としてアドレス特徴量を抽出するアドレス分類手段と、
    前記フレーム特徴量を、過去における複数の前記フレーム特徴量を用いた機械学習により生成されたページ分類モデルの入力としてページ特徴量を抽出するページ分類手段と、
    前記ウェブページごとの前記アドレス特徴量及び前記ページ特徴量を用いて、各ウェブページのグルーピングを行う統括分類手段と、を有する、請求項1に記載の分類装置。
  9. 前記ウェブページの各オブジェクトの情報を含む表示関連データから、オブジェクトごとに、該オブジェクトの種別を示す種別情報と、該オブジェクトの位置及びサイズを示す配置情報との組み合わせによる識別情報を生成すると共に、生成したオブジェクトごとの識別情報に基づいて前記ページ情報としてのフレーム特徴量を生成する前処理手段を有し、
    前記分類処理手段は、
    前記ページ情報としての前記ウェブページ内のテキストの情報であるテキストデータを、過去における複数の前記テキストデータを用いた機械学習により生成されたテキスト分類モデルの入力としてテキスト特徴量を抽出するテキスト分類手段と、
    前記フレーム特徴量を、過去における複数の前記フレーム特徴量を用いた機械学習により生成されたページ分類モデルの入力としてページ特徴量を抽出するページ分類手段と、
    前記ウェブページごとの前記テキスト特徴量及び前記ページ特徴量を用いて、各ウェブページのグルーピングを行う統括分類手段と、を有する、請求項1に記載の分類装置。
  10. 前記ウェブページ内のテキストの情報であるテキストデータに解析処理を施して、前記ページ情報としての解析データを生成するテキスト前処理手段と、
    前記ウェブページの各オブジェクトの情報を含む表示関連データから、オブジェクトごとに、該オブジェクトの種別を示す種別情報と、該オブジェクトの位置及びサイズを示す配置情報との組み合わせによる識別情報を生成すると共に、生成したオブジェクトごとの識別情報に基づいて前記ページ情報としてのフレーム特徴量を生成するページ前処理手段と、を有し、
    前記分類処理手段は、
    前記解析データを、過去における複数の前記解析データを用いた機械学習により生成されたテキスト分類モデルの入力としてテキスト特徴量を抽出するテキスト分類手段と、
    前記フレーム特徴量を、過去における複数の前記フレーム特徴量を用いた機械学習により生成されたページ分類モデルの入力としてページ特徴量を抽出するページ分類手段と、
    前記ウェブページごとの前記テキスト特徴量及び前記ページ特徴量を用いて、各ウェブページのグルーピングを行う統括分類手段と、を有する、請求項1に記載の分類装置。
  11. 前記ウェブページの各オブジェクトの情報を含む表示関連データから、オブジェクトごとに、該オブジェクトの種別を示す種別情報と、該オブジェクトの位置及びサイズを示す配置情報との組み合わせによる識別情報を生成すると共に、生成したオブジェクトごとの識別情報に基づいて前記ページ情報としてのフレーム特徴量を生成する前処理手段を有し、
    前記分類処理手段は、
    前記ページ情報としての前記ウェブページの位置を示すアドレス情報を、過去における複数の前記アドレス情報を用いた機械学習により生成されたアドレス分類モデルの入力としてアドレス特徴量を抽出するアドレス分類手段と、
    前記ページ情報としての前記ウェブページ内のテキストの情報であるテキストデータを、過去における複数の前記テキストデータを用いた機械学習により生成されたテキスト分類モデルの入力としてテキスト特徴量を抽出するテキスト分類手段と、
    前記フレーム特徴量を、過去における複数の前記フレーム特徴量を用いた機械学習により生成されたページ分類モデルの入力としてページ特徴量を抽出するページ分類手段と、
    前記ウェブページごとの前記アドレス特徴量及び前記テキスト特徴量を用いて、各ウェブページのグルーピングを行う統括分類手段と、を有する、請求項1に記載の分類装置。
  12. 前記ウェブページ内のテキストの情報であるテキストデータに解析処理を施して、前記ページ情報としての解析データを生成するテキスト前処理手段と、
    前記ウェブページの各オブジェクトの情報を含む表示関連データから、オブジェクトごとに、該オブジェクトの種別を示す種別情報と、該オブジェクトの位置及びサイズを示す配置情報との組み合わせによる識別情報を生成すると共に、生成したオブジェクトごとの識別情報に基づいて前記ページ情報としてのフレーム特徴量を生成するページ前処理手段と、を有し、
    前記分類処理手段は、
    前記ページ情報としての前記ウェブページの位置を示すアドレス情報を、過去における複数の前記アドレス情報を用いた機械学習により生成されたアドレス分類モデルの入力としてアドレス特徴量を抽出するアドレス分類手段と、
    前記解析データを、過去における複数の前記解析データを用いた機械学習により生成されたテキスト分類モデルの入力としてテキスト特徴量を抽出するテキスト分類手段と、
    前記フレーム特徴量を、過去における複数の前記フレーム特徴量を用いた機械学習により生成されたページ分類モデルの入力としてページ特徴量を抽出するページ分類手段と、
    前記ウェブページごとの前記アドレス特徴量及び前記テキスト特徴量を用いて、各ウェブページのグルーピングを行う統括分類手段と、を有する、請求項1に記載の分類装置。
  13. 前記分類処理手段は、
    前記ウェブページの位置を示すアドレス情報、及び該ウェブページ内のテキストの情報であるテキストデータを、前記ページ情報として前記分類モデルの入力とし、入力とした前記ページ情報を複数の前記グループのうちの何れかに分類するものである、請求項1に記載の分類装置。
  14. 前記ウェブページ内のテキストの情報であるテキストデータに解析処理を施して解析データを生成する前処理手段を有し、
    前記分類処理手段は、
    前記ウェブページの位置を示すアドレス情報、及び該ウェブページに対応する前記解析データを、前記ページ情報として前記分類モデルの入力とし、入力とした前記ページ情報を複数の前記グループのうちの何れかに分類するものである、請求項1に記載の分類装置。
  15. 前記ウェブページの各オブジェクトの情報を含む表示関連データから、オブジェクトごとに、該オブジェクトの種別を示す種別情報と、該オブジェクトの位置及びサイズを示す配置情報との組み合わせによる識別情報を生成し、生成したオブジェクトごとの識別情報に基づいてフレーム特徴量を生成するページ前処理手段を有し、
    前記分類処理手段は、
    前記ウェブページの位置を示すアドレス情報、及び該ウェブページに対応する前記フレーム特徴量を、前記ページ情報として前記分類モデルの入力とし、入力とした前記ページ情報を複数の前記グループのうちの何れかに分類するものである、請求項1に記載の分類装置。
  16. 前記ウェブページの各オブジェクトの情報を含む表示関連データから、オブジェクトごとに、該オブジェクトの種別を示す種別情報と、該オブジェクトの位置及びサイズを示す配置情報との組み合わせによる識別情報を生成し、生成したオブジェクトごとの識別情報に基づいてフレーム特徴量を生成する、前処理手段を有し、
    前記分類処理手段は、
    前記ウェブページ内のテキストの情報であるテキストデータ、及び該ウェブページに対応する前記フレーム特徴量を、前記ページ情報として前記分類モデルの入力とし、入力とした前記ページ情報を複数の前記グループのうちの何れかに分類するものである、請求項1に記載の分類装置。
  17. 前記ウェブページ内のテキストの情報であるテキストデータに解析処理を施して、前記ページ情報としての解析データを生成するテキスト前処理手段と、
    前記ウェブページの各オブジェクトの情報を含む表示関連データから、オブジェクトごとに、該オブジェクトの種別を示す種別情報と、該オブジェクトの位置及びサイズを示す配置情報との組み合わせによる識別情報を生成し、生成したオブジェクトごとの識別情報に基づいてフレーム特徴量を生成するページ前処理手段と、を有し、
    前記分類処理手段は、
    前記ウェブページに対応する前記解析データ、及び該ウェブページに対応する前記フレーム特徴量を、前記ページ情報として前記分類モデルの入力とし、入力とした前記ページ情報を複数の前記グループのうちの何れかに分類するものである、請求項1に記載の分類装置。
  18. 前記ウェブページの各オブジェクトの情報を含む表示関連データから、オブジェクトごとに、該オブジェクトの種別を示す種別情報と、該オブジェクトの位置及びサイズを示す配置情報との組み合わせによる識別情報を生成し、生成したオブジェクトごとの識別情報に基づいてフレーム特徴量を生成する前処理手段を有し、
    前記分類処理手段は、
    前記ウェブページの位置を示すアドレス情報、該ウェブページ内のテキストの情報であるテキストデータ、及び該ウェブページに対応する前記フレーム特徴量を、前記ページ情報として前記分類モデルの入力とし、入力とした前記ページ情報を複数の前記グループのうちの何れかに分類するものである、請求項1に記載の分類装置。
  19. 前記ウェブページ内のテキストの情報であるテキストデータに解析処理を施して、前記ページ情報としての解析データを生成するテキスト前処理手段と、
    前記ウェブページの各オブジェクトの情報を含む表示関連データから、オブジェクトごとに、該オブジェクトの種別を示す種別情報と、該オブジェクトの位置及びサイズを示す配置情報との組み合わせによる識別情報を生成し、生成したオブジェクトごとの識別情報に基づいてフレーム特徴量を生成するページ前処理手段と、を有し、
    前記分類処理手段は、
    前記ウェブページの位置を示すアドレス情報、該ウェブページに対応する前記解析データ、及び該ウェブページに対応する前記フレーム特徴量を、前記ページ情報として前記分類モデルの入力とし、入力とした前記ページ情報を複数の前記グループのうちの何れかに分類するものである、請求項1に記載の分類装置。
  20. 請求項1〜19の何れか一項に記載の分類装置と、
    前記分類装置による分類で得られたデータに分析処理を施す分析装置と、を有するデータ分析システム。
  21. ウェブサイトにおけるウェブページに紐付くページ情報を収集して分類する分類装置に搭載されたコンピュータを、
    過去における複数の前記ページ情報を用いた機械学習により分類モデルを生成する学習処理手段、
    及び分類対象である前記ページ情報を、前記分類モデルの入力とし、入力とした前記ページ情報を性質の類似性に基づく複数のグループのうちの何れかに分類する分類処理手段、として機能させるための、分類処理プログラム。
  22. ウェブサイトにおけるウェブページに紐付くページ情報を収集して分類する分類装置が、
    過去における複数の前記ページ情報を用いた機械学習により分類モデルを生成する学習処理工程と、
    分類対象である前記ページ情報を、前記分類モデルの入力とし、入力とした前記ページ情報を性質の類似性に基づく複数のグループのうちの何れかに分類する分類処理工程と、を有する分類処理方法。
JP2020097382A 2020-06-04 2020-06-04 分類装置、データ分析システム、分類処理プログラム、及び分類処理方法 Pending JP2021189984A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020097382A JP2021189984A (ja) 2020-06-04 2020-06-04 分類装置、データ分析システム、分類処理プログラム、及び分類処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020097382A JP2021189984A (ja) 2020-06-04 2020-06-04 分類装置、データ分析システム、分類処理プログラム、及び分類処理方法

Publications (1)

Publication Number Publication Date
JP2021189984A true JP2021189984A (ja) 2021-12-13

Family

ID=78849696

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020097382A Pending JP2021189984A (ja) 2020-06-04 2020-06-04 分類装置、データ分析システム、分類処理プログラム、及び分類処理方法

Country Status (1)

Country Link
JP (1) JP2021189984A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102571350B1 (ko) * 2023-03-24 2023-08-29 (주)유알피 딥러닝 모델 기반 태깅 기술을 활용한 맞춤형 분석보고서 제공방법 및 그 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102571350B1 (ko) * 2023-03-24 2023-08-29 (주)유알피 딥러닝 모델 기반 태깅 기술을 활용한 맞춤형 분석보고서 제공방법 및 그 장치

Similar Documents

Publication Publication Date Title
Hu et al. Predicting hotel review helpfulness: The impact of review visibility, and interaction between hotel stars and review ratings
Tang et al. Big data in forecasting research: a literature review
CN107506402B (zh) 搜索结果的排序方法、装置、设备及计算机可读存储介质
KR102155739B1 (ko) 질의응답 데이터 셋을 적응적으로 재사용하는 챗봇 서비스 제공 방법, 서버, 및 시스템
CN106250464B (zh) 排序模型的训练方法及装置
CN108874992A (zh) 舆情分析方法、系统、计算机设备和存储介质
WO2011080899A1 (ja) 情報推薦方法
WO2019024755A1 (zh) 网页信息提取方法、装置、系统及电子设备
CN110825956A (zh) 一种信息流推荐方法、装置、计算机设备及存储介质
KR102155768B1 (ko) 학습을 통하여 진화하는 질의응답 데이터 셋을 이용한 쇼핑몰 질의응답 추천 서비스 제공 방법
Das et al. A CV parser model using entity extraction process and big data tools
Anglin Gather-narrow-extract: A framework for studying local policy variation using web-scraping and natural language processing
KR101667199B1 (ko) 키워드 검색을 통한 웹 페이지의 상대적 품질 지수 평가 장치
CN113918794B (zh) 企业网络舆情效益分析方法、系统、电子设备及存储介质
Wei et al. Sentiment classification of Chinese Weibo based on extended sentiment dictionary and organisational structure of comments
US11269896B2 (en) System and method for automatic difficulty level estimation
de Carvalho et al. An automated corpus annotation experiment in Brazilian Portuguese for sentiment analysis in public security
Shi et al. EKGTF: A knowledge-enhanced model for optimizing social network-based meteorological briefings
US20170235835A1 (en) Information identification and extraction
CN108595466B (zh) 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法
Bu et al. An FAR-SW based approach for webpage information extraction
JP2021189984A (ja) 分類装置、データ分析システム、分類処理プログラム、及び分類処理方法
Nguyen et al. Estimating county health indices using graph neural networks
Le Fur et al. Do vintage scores by regions matters? The case of French wine regions
Xu et al. Research on Tibetan hot words, sensitive words tracking and public opinion classification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240419