JP5527845B2 - 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法 - Google Patents

文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法 Download PDF

Info

Publication number
JP5527845B2
JP5527845B2 JP2010185321A JP2010185321A JP5527845B2 JP 5527845 B2 JP5527845 B2 JP 5527845B2 JP 2010185321 A JP2010185321 A JP 2010185321A JP 2010185321 A JP2010185321 A JP 2010185321A JP 5527845 B2 JP5527845 B2 JP 5527845B2
Authority
JP
Japan
Prior art keywords
information
markup language
score value
document
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010185321A
Other languages
English (en)
Other versions
JP2012043285A (ja
Inventor
和史 池田
正 柳原
一則 松本
智弘 小野
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2010185321A priority Critical patent/JP5527845B2/ja
Publication of JP2012043285A publication Critical patent/JP2012043285A/ja
Application granted granted Critical
Publication of JP5527845B2 publication Critical patent/JP5527845B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、特定カテゴリに文書情報を分類する技術に関する。特に、インターネット上で、違法・有害サイトによって公開されている文書情報を検出する技術に関する。
インターネットの普及により、ブログ、掲示板又はクチコミコメントを公開するWebサイトを通じた一般ユーザによる情報発信は増加傾向にある。このようなWebサイトの増加に伴い、いわゆる違法・有害サイトも増加している。「違法・有害サイト」とは、例えば、犯罪予告や薬物の売買のような法規範に反する行為を助長する情報を含むサイトや、猥褻、残虐及び暴力的な情報を含むサイト、不当な勧誘目的のサイトを意味する。このような違法・有害サイトには、インターネットを介して、一般のユーザが容易にアクセスすることができる。近年、違法・有害サイトによる、犯罪の助長、犯罪者との接触による被害、個人情報の流出及び青少年の健全な育成の妨げといったことが社会問題となっている。現状では、このような違法・有害サイトの監視は、目視によるものが主流となっているが、サイトの内容は逐次更新されていくため、監視負担が大きい。
従来、違法・有害サイトであると判断してのアクセスを制御するフィルタリングの技術がある(例えば特許文献1参照)。この技術によれば、予めキーワードやURL(Uniform Resource Locator)を予め登録しておき、そのキーワードやURLが含まれているWebサイトに対する端末からのアクセスが拒否される。しかし、予め登録しておくキーワードやURLを常に更新する必要があり、時間とコストを要する。
これに対して、キーワードやURLを自動的に抽出し、フィルタリングする技術がある(例えば特許文献2参照)。この技術によれば、漏れのないキーワード・フィルタリングによって違法・有害サイトを検出することができると共に、人手を介さないためにコストを低減することができる。
また、教師画像を用いた学習モデルに基づいて、画像の特徴量を抽出し、違法・有害サイトを検出する技術がある(例えば特許文献3参照)。この技術によれば、画像の色や輪郭といった特徴量に基づくクラスタリングにより、撮影条件や採光条件に影響されることなく、高度に違法・有害サイトを検出することができる。
更に、Webページの更新日時やリンク先の情報の差分を定期的に観測することによって、Webページの改ざんやスパムコメントの登録のような異常を検出する技術がある(例えば特許文献4参照)。この技術によれば、Webページを目視によって監視する必要がなく、監視負担を軽減できる。
更に、学習用文書情報を用いて、有害な文書情報に偏って出現する有害キーワードを統計的に抽出した後、判定対象の文書情報にそれら有害キーワードが含まれているか否かを検出する技術がある(例えば非特許文献1参照)。
更に、Webページの外形的特徴(例えば画像数やリンク数など)を判定に利用する技術もある(例えば非特許文献2参照)。
特開2007−128119号公報 特開2009−037420号公報 特開2009−211388号公報 特開2009−230663号公報
柳原正、松本一則、小野智弘、滝嶋康弘、「トピック判定におけるn-gramの組み合わせ手法の検討」、第7回情報科学技術フォーラム(FIT2008)論文集 本田崇智、山本雅人、川村秀憲、大内東、「Webサイトの自動分類に向けた特徴分析とキーワード抽出に関する研究」、情報処理学会研究報告ICS,no. 78,pp.1-4,2005、[online]、[平成22年7月17日検索]、インターネット<URL:http://ci.nii.ac.jp/naid/110002702285> 長岡技術科学大学、自然言語処理研究室、「C4.5」、[online]、[平成22年7月17日検索]、インターネット<URL:http://nlp.nagaokaut.ac.jp/C4%EF%BC%8E5> 吉田光男、山本幹雄、「教師情報を必要としないニュースページ群からのコンテンツ自動抽出」、日本データベース学会論文誌、vol.8, no.1, pp.29-34, 2009、[online]、[平成22年7月17日検索]、インターネット<URL:http://www.dbsj.org/Japanese/DBSJLetters/vol8/no1/dbsj-journal-08-01-029.pdf> 鈴木義一郎、「情報量基準による統計解析入門」、講談社サイエンティフィク、pp.80-96、講談社、東京、1995 K.Matsumoto and K.Hashimoto, "Schema Design for Causal LawMining from Incomplete Database," Proc. of Discovery Science: SecondInternational Conference (DS'99), pp.91-102, 1999、[online]、[平成22年7月17日検索]、インターネット<URL:http://www.springerlink.com/content/21wxy3nvjtw194vg/>
特許文献2に記載された技術によれば、キーワードの抽出及びマッチングのような言語解析に、多くの処理時間及び処理負荷を要する。同様に、特許文献3に記載された技術によれば、画像のダウンロード及び画像解析に、多くの処理時間及び処理負荷を要する。また、特許文献4に記載された技術によれば、Webページの差分に基づいて、Webページの異常を検出することはできるが、違法・有害か否かを判定することはできない。
非特許文献1に記載された技術によれば、Webページによっては、文章的特徴を有する文章情報が少なかったり、文章情報の内容自体は無害であるが、画像やリンク先のような外形的特徴が有害である場合には、正しく判定することができない。
非特許文献2に記載された技術によれば、人手によって違法・有害サイトを観測する必要があり、抽出可能な特徴が、観測者の主観や閲覧したWebサイトに大きく依存する。そのために、違法・有害サイトの検出に、十分な判定性能を得ることが難しい。
そこで、本発明は、Web文書情報について、特定カテゴリ(例えば違法・有害性)に基づく判定精度を高めることができる文書分類プログラム、サーバ及び方法を提供することを目的とする。
本発明によれば、文章情報及びマークアップ言語(Markup Language)によって記述された文書情報が、特定カテゴリに含まれるか否かを判定するようにコンピュータを機能させる文書分類プログラムであって、
解析対象となる対象文書情報を、文章情報とマークアップ言語情報とに分離する文書情報分離手段と、
文章情報及びマークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの対象特徴量を生成する特徴量生成手段と、
特定カテゴリに含まれる多数の文章情報における学習特徴量を予め教師データとして学習したサポートベクタマシン(Support Vector Machine)を用いて、対象文書情報の対象特徴量を入力し、当該対象文書情報が特定カテゴリに属する割合に基づく文章スコア値を導出する文章スコア値導出手段と、
特定カテゴリに含まれる多数のマークアップ言語情報における学習特徴量を予め教師データとして学習したサポートベクタマシンを用いて、対象文書情報のマークアップ言語情報の対象特徴量を入力し、当該対象文書情報が特定カテゴリに属する割合に基づくマークアップ言語スコア値を導出するマークアップ言語スコア値導出手段と、
文章スコア値及びマークアップ言語スコア値を論理式に基づいて組み合わせた総合スコア値を導出し、該総合スコア値が所定閾値以上となる場合、当該対象文書情報を真と判定する総合スコア値導出手段と、
総合スコア値導出手段によって真と判定された対象文書情報は、特定カテゴリに含まれるものとして分類するカテゴリ分類手段と
してコンピュータを機能させ、文章情報又はマークアップ言語情報の一方を判定要素とした場合よりも高い適合率又は再現率とすることを特徴とする。
本発明の文書分類プログラムにおける他の実施形態によれば、特徴量生成手段は、
文章情報及びマークアップ言語情報それぞれから、文字列を抽出する文字列抽出手段と、
学習文書情報に基づく文字列を登録する学習文字列登録手段と、
文章情報及びマークアップ言語情報それぞれについて、学習文字列登録手段に登録された文字列の出現回数を計数する出現回数計数手段と、
文章情報及びマークアップ言語情報それぞれについて、文字列要素毎の出現回数を表す多次元ベクトルの文字列特徴量を生成する特徴量生成手段と
してコンピュータを更に機能させることも好ましい。
本発明の文書分類プログラムにおける他の実施形態によれば、
特定カテゴリに属する複数の学習文書情報を入力し、
文書情報分離手段は、更に、学習文書情報を、文章情報とマークアップ言語情報とに分離し、
文字列特徴量生成手段は、学習文書情報の文章情報及びマークアップ言語情報それぞれについて、文字列抽出手段と、出現回数計数手段と、特徴量生成手段とを実行することによって、それぞれの当該学習特徴量を文章スコア値導出手段及びマークアップ言語スコア値導出手段へ出力すると共に、多数の文字列から特定カテゴリに基づく特定文字列を統計的に検出する学習文字列検出手段を更に有し、
学習文字列登録手段は、学習文字列検出手段によって検出された文字列を登録する
ようにコンピュータを更に機能させることも好ましい。
本発明の文書分類プログラムにおける他の実施形態によれば、
文書情報は、SGML(Standard Generalized Markup Language)、HTML(HyperText Markup Language)、XML(eXtensible Markup Language)、XHTML(eXtensible HyperText Markup Language)又はTexによって記述されており、
文章情報は、文書情報からタグ要素を除く、文章的特徴を有するテキストであり、
マークアップ言語情報は、文書情報のタグ要素に含まれ、外形的特徴を有するテキストであり、
タグ要素は、画像、音声及び文章のコンテンツ要素に対する囲み文字列であって、マークアップ言語における文章構造及び修飾情報を指定するものである
ようにコンピュータを更に機能させることも好ましい。
本発明の文書分類プログラムにおける他の実施形態によれば、学習文書情報は、違法・有害と判断された多数の文書情報、又は、ユーザによって特定カテゴリとして収集された多数の文書情報であるようにコンピュータを更に機能させることも好ましい。
本発明によれば、文章情報及びマークアップ言語によって記述された文書情報を、他の公開サーバからネットワークを介して取得し、当該文書情報が特定カテゴリに含まれるか否かを判定する文書解析サーバであって、
特定カテゴリに含まれる多数の文章情報における学習特徴量を予め教師データとして学習したサポートベクタマシン(Support Vector Machine)を用いて、対象文書情報の対象特徴量を入力し、当該対象文書情報が特定カテゴリに属する割合に基づく文章スコア値を導出する文章スコア値導出手段と、
特定カテゴリに含まれる多数のマークアップ言語情報における学習特徴量を予め教師データとして学習したサポートベクタマシンを用いて、対象文書情報のマークアップ言語情報の対象特徴量を入力し、当該対象文書情報が特定カテゴリに属する割合に基づくマークアップ言語スコア値を導出するマークアップ言語スコア値導出手段と、
文章スコア値及びマークアップ言語スコア値を論理式に基づいて組み合わせた総合スコア値を導出し、該総合スコア値が所定閾値以上となる場合、当該対象文書情報を真と判定する総合スコア値導出手段と、
総合スコア値導出手段によって真と判定された対象文書情報は、特定カテゴリに含まれるものとして分類するカテゴリ分類手段と
を有し、文章情報又はマークアップ言語情報の一方を判定要素とした場合よりも高い適合率又は再現率とすることを特徴とする。
本発明によれば、文章情報及びマークアップ言語によって記述された文書情報が、特定カテゴリに含まれるか否かを判定する装置における文書分類方法であって、
解析対象となる対象文書情報を、文章情報とマークアップ言語情報とに分離する第1のステップと、
文章情報及びマークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの特徴量を生成する第2のステップと、
特定カテゴリに含まれる多数の文章情報における学習特徴量を予め教師データとして学習したサポートベクタマシン(Support Vector Machine)を用いて、対象文書情報の対象特徴量を入力し、当該対象文書情報が特定カテゴリに属する割合に基づく文章スコア値を導出する第3のステップと、
特定カテゴリに含まれる多数のマークアップ言語情報における学習特徴量を予め教師データとして学習したサポートベクタマシンを用いて、対象文書情報のマークアップ言語情報の対象特徴量を入力し、当該対象文書情報が特定カテゴリに属する割合に基づくマークアップ言語スコア値を導出する第4のステップと、
文章スコア値及びマークアップ言語スコア値を論理式に基づいて組み合わせた総合スコア値を導出し、該総合スコア値が所定閾値以上となる場合、当該対象文書情報を真と判定する第5のステップと、
総合スコア値導出手段によって真と判定された対象文書情報は、特定カテゴリに含まれるものとして分類する第6のステップと
を有し、文章情報又はマークアップ言語情報の一方を判定要素とした場合よりも高い適合率又は再現率とすることを特徴とする。
本発明の文書分類プログラム、サーバ及び方法によれば、Web文書情報における文章的特徴及び外形的特徴を組み合わせて、特定カテゴリ(例えば違法・有害性)に属するか否かを判定することによって、その判定精度を高めることができる。
文書情報の概観説明図である。 本発明における文書分類プログラムの機能構成図である。 文書情報の分離を表す説明図である。 図2の特徴量判定部における他の実施形態に基づく機能構成図である。 本発明における文書解析サーバのシステム構成図である。 本発明におけるシステムのシーケンス図である。 本発明の効果を表すグラフである。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
本発明における文書分類プログラムは、文章情報及びマークアップ言語(Markup Language)によって記述された文書情報が、特定カテゴリに含まれるか否かを判定するようにコンピュータを機能させる。「特定カテゴリ」とは、例えば違法・有害性であってもよいし、ユーザによって特定カテゴリと判断されたものであってもよい。
「文章情報」とは、文書情報からタグ要素を除く、文章的特徴を有するテキストである。
「マークアップ言語」は、コンピュータ言語の一種で、フォントサイズや文字の色のような外形的特徴に関する指定をテキストとして記述する言語である。外形的特徴の指定は、マークアップ(markup)と称される。Web文書情報の外形的特徴となるタグ要素として、例えば、例えば、背景色、フォントサイズ、画像数、リンク数、画像リンク数、リンク先のURL(Uniform Resource Locator)、フレーム数、javascript(登録商標)の利用回数、表の要素数がある。タグ要素は、画像、音声及び文章のコンテンツ要素に対する囲み文字列であって、マークアップ言語における文章構造及び修飾情報を指定するものである
マークアップ言語には、例えば、SGML、HTML、XML、XHTML又はTexがある。
図1は、文書情報の概観説明図である。
図1(a)によれば、文章情報として「著作権なんが無視して、ダウンロードしましょう!」となっており、文章的特徴に違法・有害性はない。一方で、外形的特徴に違法・有害性がある。図1(b)によれば、文章情報として「ようこそ、皆さんの老後の幸せをかなえるサイトです!」となっており、文章的特徴に違法・有害性がある。一方で、外形的特徴に違法・有害性はない。
本発明によれば、図1(a)及び(b)のような、文章的特徴若しくは外形的特徴の一方に違法・有害性があるか、又は、文章的特徴及び外形的特徴の両方に有害性があるかを判定することによって、違法・有害性の判定精度を高めることができる。
図1(c)には、図1(b)に基づくソースコードが表されている。図1(c)によれば、文章、画像及び音声のようなコンテンツ要素と共に、文章構造及び修飾情報を指定するタグ要素を含む。タグ要素について、背景色は、「bgcolor=」という表現で定義される。「bgcolor=」の値を参照することで、背景色の値(色)を取得できる。同様に、フォントは「font face=」、リンクは「a href=」、画像は「img src=」又はフレームは「FRAME」という表現で定義される。
図1(d)によれば、タグ設定例が表されている。同じタグ要素を設定する場合でも、複数の設定方法がある。例えば、背景色を設定する場合、「background-color:***;」のようにページの背景色のみを設定するものであってもよいし、「<body bgcolor=””text=””link=””alink=””vlink=””>」のようにページの背景色と共にテキスト色を指定するものであってもよい。
尚、後述の中で、「文字列」との用語は、文章情報における形態素分析された語を意味すると共に、マークアップ言語情報における区切り文字(例えば、\t , . / ! ” = % & { } [ ] _ 等)を除く英文字(例えば、bgcolor、a hrefや、URL自体)も意味する。
図2は、本発明における文書分類プログラムの機能構成図である。図3は、文書情報の分離を表す説明図である。
図2によれば、文書情報分離部11と、文字列特徴量生成部12と、特徴量判定部13と、カテゴリ分類部14とを有する。これら機能部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、装置における文書分類方法としても理解される。
文書情報分離部11は、解析対象となる対象文書情報と、特定カテゴリに属する複数の学習文書情報とをそれぞれ、入力する。特定カテゴリに属する複数の学習文書情報を蓄積する学習文書蓄積部を備えていることも好ましい。特定カテゴリに属する学習文書情報は、違法・有害と判断された文書情報、又は、ユーザによって特定カテゴリとして収集された文書情報である。そして、文書情報分離部11は、対象文書情報及び学習文書情報それぞれについて、文章情報とマークアップ言語情報とに分離する(図3(a)、(b)、(c)参照)。全てテキストベースで、分離される。
文字列特徴量生成部12は、文書情報分離部11から文章情報及びマークアップ言語情報それぞれを入力する。そして、文字列特徴量生成部12は、文章情報及びマークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの特徴量を生成する。
文字列特徴量生成部12は、文字列抽出部121と、出現回数計数部122と、特徴量生成部123と、学習文字列検出部124と、学習文字列登録部125とを有する。
文字列抽出部121は、文章情報及びマークアップ言語情報それぞれから、文字列を抽出する(図3(d)(e)参照)。文字列の抽出には、例えばオープンソースの形態素解析エンジン「MeCab」を用いることができる。
出現回数計数部122は、文章情報及びマークアップ言語情報それぞれについて、学習文字列登録部125に登録された文字列の出現回数を計数する。
特徴量生成部123は、文章情報及びマークアップ言語情報それぞれについて、文字列要素毎の出現回数を表す多次元ベクトルの文字列特徴量を生成する。特徴量は、以下のように表される。
多次元ベクトル:(s1, s2,・・・・,s100, s101,・・・)
(文字列要素):「著作権」「老後」 「black」「face.gif」
(出現回数) : 10 2 15 8
生成された文字列特徴量は、特徴量判定部13へ出力される。
学習文字列検出部124は、多数の文字列から特定カテゴリに基づく特定文字列を統計的に検出する(例えば非特許文献1参照)。非特許文献1によれば、キーワードリスト生成方法の技術が開示されている。この技術は、人手によって違法・有害/無害のラベルが付与された学習用文書を形態素解析によって単語分割し、違法・有害な文書情報に偏って出現する単語をキーワードリストに登録する。ある単語wが違法・有害な文書に偏って出現する度合いを表す指標E(w)は、AIC(赤池情報基準)を用いて算出する(例えば非特許文献5参照)。以下の表1のように4つの値を、学習文書に出現した全ての単語について導出する。
N(w) :単語wが出現する回数
N( ̄w):単語wが出現しない回数
( ̄:not)
11(w):ある単語wが出現する文書が違法・有害である場合の数
12(w):ある単語wが出現する文書が無害である場合の数
21(w):ある単語wが出現しない文書が違法・有害である場合の数
22(w):ある単語wが出現しない文書が無害である場合の数
Figure 0005527845
非特許文献1によれば、単語wが違法・有害な文書に偏って出現する度合E(w)を、非特許文献6に基づいて、AICの独立モデルに対する値AIC_IM及び従属モデルに対する値AIC_DMを用いて、以下のように定義している。
11(w)/N(w)>N12(w)/N( ̄w)のとき、
E(w)=AIC_IM(w)−AIC_DM(w)
11(w)/N(w)≦N12(w)/N( ̄w)のとき、
E(w)=AIC_DM(w)−AIC_IM(w)
ここで、AIC_IM(w)、AIC_DM(w)はそれぞれ、非特許文献5の記載に基づいて、以下のように算出される。
AIC_IM(w)=-2×MLL_IM+2×2
MLL_IM=Np(w)logNp(w)+N(w)logN(w)+Nn(w)logNn(w)
+N( ̄w)logN( ̄w)−2NlogN
AIC_DM(w)=-2×MLL_DM+2×3
MLL_DM=N11(w)logN11(w)+N12(w)logN12=(w)+N21(w)logN21(w)
+N22(w)logN22(w)−NlogN
この計算によって得られた違法・有害性の高いキーワードリストの一部を、以下の表に表す。
Figure 0005527845
学習文書として、Webサイト22万ページ(違法・有害11万ページ、無害11万ページ)に対して、人手によって違法・有害/無害のラベルを付与したものを利用した。ここでは、キーワードは、違法・有害性の高さを表すE(w)値が高い順にランキングされている。しかしながら、このキーワードリストだけでは、上位のランクであっても、無害文書が検出されるキーワードが含まれている。
学習文字列登録部125は、学習文字列検出部124によって検出された文字列を登録する。
特徴量判定部13は、対象文書情報の対象特徴量が、特定カテゴリに含まれる複数の学習文書情報から得られた学習特徴量の所定範囲内に属するか否かを判定する。特徴量判定部13の識別エンジンは、サポートベクタマシン(Support Vector Machine)の識別エンジンであってもよいし、ルールベースの識別エンジンであってもよいし(例えばC4.5、非特許文献3参照)。
ルールベースの識別エンジンによれば、対象特徴量の多次元ベクトルの変数値が、特定カテゴリの学習特徴量の多次元ベクトルにおける変数値の所定範囲内に属するか否かを判定するルールベースの識別エンジンによれば、学習文書情報から明確なルールを生成した後、対象文書情報のカテゴリを分類する。
「C4.5」とは、クラス分類に用いるための決定木を生成するアルゴリズムであって、統計学的クラス分類器である。これは、情報エントロピの概念を用いて、教師データのセットから決定木を生成する。教師データは、既にクラス分類されたサンプルである。各サンプルは、属性や特徴を表す多次元ベクトル(x1,x2,...,xn)によって表される。
一方で、サポートベクタマシンの識別エンジンによれば、明確なルールを生成せず、外見上ブラックボックスであるが、特定カテゴリ毎の学習特徴量をサポートベクトルとして生成する。従って、特徴量判定部13は、外見上ブラックボックス的な既存の学習識別器を用いて実現することができる。
「サポートベクタマシン」とは、教師有り学習を用いる識別アルゴリズムであって、パターン認識に適用される。サポートベクタマシンは、線形入力素子を用いて2クラスのパターン識別器を構成するものであって、学習サンプルから、各特徴値との距離を算出することによって、線形入力素子のパラメータを学習する。サポートベクタマシンの識別エンジンは、抽出された複数の学習特徴量を教師データとして学習し、対象特徴量が、特定カテゴリの学習特徴量に属するか否かを判定する。
カテゴリ分類部14は、特徴量判定部13によって真と判定された対象文書情報は、特定カテゴリに含まれるものとして分類する。
図4は、図2の特徴量判定部における他の実施形態に基づく機能構成図である。
図4によれば、特徴量判定部13は、文章スコア値導出部131と、ML(Markup Language)スコア値導出部132と、総合スコア値導出部133とを有する。
文章スコア値導出部131は、文章情報について、識別エンジンを用いて、学習文章特徴量に対する対象文章特徴量の類似割合(有害割合)に基づく文章スコア値を導出する。
ML文章スコア値導出部132は、マークアップ言語情報について、識別エンジンを用いて、学習ML特徴量に対する対象ML特徴量の類似割合に基づくMLスコア値を導出する。
ここで、文章スコア値導出部131及びML文章スコア値導出部132はそれぞれ、サポートベクタマシン又はルールベースのような識別エンジンを有する。これによって、識別エンジンに一度に入力する特徴量数を減らすことができ、処理の高速化が期待できる。
総合スコア値導出部133は、文章スコア値及びMLスコア値を論理式に基づいて組み合わせた総合スコア値を導出する。その総合スコア値が所定閾値以上となる場合、当該対象文書情報を真と判定する。例えば、以下のような実施形態がある。
第1の論理式の組み合わせた総合スコア値は、以下のように導出される。
if(TH>SH and TD>SD):適合率の向上(論理積)
if(TH>SH or TD>SD) :再現率の向上(論理和)
SD:有害割合を表す文章スコア値
SH:有害割合を表すMLスコア値
TD:文章スコア値について有害と判定する第1の閾値
TH:MLスコア値について有害と判定する第2の閾値
TH>SH:真/偽
TD>SD:真/偽
第2の論理式の組み合わせた総合スコア値は、以下のように導出される。
if(Score>Threshold):真/偽
Score=α・SH×β・SD:適合率(論理積)
Score=α・SH+β・SD:再現率(論理和)
Threshold:所定閾値
図5は、本発明における文書解析サーバのシステム構成図である。
図5によれば、文書解析サーバ10は、前述した文書分類プログラムをプロセッサで実行することによって文書分類機能を実現する。文書解析サーバ10は、インターネットを介して、Webサーバ2と通信する。また、そのWebサーバ2は、端末3から送信された対象文書情報としてのWeb文書情報を蓄積し且つ公開している。文書解析サーバ10の解析対象文書入力部は、通信インタフェース部を介して、多数のWebサーバ2から対象文書情報を受信する。その対象文書情報は、文書分類機能へ出力される。文書分類機能は、学習文章情報の学習特徴量に基づいて、その対象文書情報を特定カテゴリに分類する。例えば、Webサーバ2から受信した対象文書情報を、違法・有害サイトのカテゴリに分類することができる。
図6は、本発明におけるシステムのシーケンス図である。
(S601)文書分類機能は、学習文書情報を、文章情報とマークアップ言語情報とに分離する。図2の文章情報分離部11と同様に機能する。また、文書分類機能は、学習文書情報の文章情報及びマークアップ言語情報それぞれから文字列を抽出し、それら文字列を登録する。図2の学習文字列検出部124及び学習文字列登録部125と同様に機能する。
(S602)学習文書情報の文章情報及びマークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの特徴量を生成する。図2の文字列特徴量生成部12と同様に機能する。
(S611)端末3は、利用者の操作に応じて、対象文書情報であるWeb文書情報を、Webサーバ2へ送信する。
(S612)文書解析サーバ10は、Webサーバ2から対象文書情報を受信する。
(S613)文書分類機能は、対象文書情報を、文章情報とマークアップ言語情報とに分離する。図2の文章情報分離部11と同様に機能する。
(S614)対象文書情報の文章情報及びマークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの特徴量を生成する。図2の文字列特徴量生成部12と同様に機能する。
(S615)対象文書情報の対象特徴量が、特定カテゴリに含まれる多数の学習文書情報から得られた学習特徴量の所定範囲内に属するか否かを判定する。図2の特徴量判定部13と同様に機能する。
(S616)そして、S615によって真と判定された対象文書情報は、特定カテゴリに含まれるものとして分類する。図2のカテゴリ分類部14と同様に機能する。
以上、詳細に説明したように、本発明の文書分類プログラム、サーバ及び方法によれば、Web文書情報における文章的特徴及び外形的特徴を組み合わせて、特定カテゴリ(例えば違法・有害性)に属するか否かを判定することによって、その判定精度を高めることができる。本発明によれば、文章的特徴によって違法・有害性を判定すると共に、文章や画像の解析が困難な文書情報であっても、外形的特徴によって更に違法・有害性を判定することができる。
図7は、有害と判定する割当を表すグラフである。
図7によれば、10,000Webページについて、人手によって違法・有害/無害を判定して予備実験の結果が表されている。このグラフによれば、文章的特徴に基づく違法・有害性の判定と、外形的特徴に基づく違法・有害性の判定とが、必ずしも一致しないことが理解できる。
図7のグラフによれば、縦軸に、再現率(Recall)が30%〜90%で表されており、横軸に、各再現率における違法・有害性の判定割合を表す。
(1)文章的特徴(文章情報)の場合でのみ違法・有害と判定されたWebページの割合
(2)外形的特徴(マークアップ言語情報)の場合でのみ違法・有害と判定されたWebページの割合
(3)文章的特徴及び外形的特徴の両方の場合で違法・有害と判定されたWebページの割合
図7のグラフによれば、再現率が高いほど、(1)(2)の割合よりも、(3)の割合が高い。ここで、再現率90%であっても、(1)(2)の割合が存在することが理解できる。この結果から、文章的特徴及び外形的特徴の両方を組み合わせて、違法・有害性を判定することは有効であること考えられる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 文書分類プログラム
10 文書解析サーバ
11 文書情報分離部
12 文字列特徴量生成部
121 文字列抽出部
122 出現回数計数部
123 特徴量生成部
124 学習文字列検出部
125 学習文字列登録部
13 特徴量判定部
131 文章スコア値導出部
132 MLスコア値導出部
133 総合スコア値導出部
14 カテゴリ分類部
2 Webサーバ
3 端末

Claims (7)

  1. 文章情報及びマークアップ言語(Markup Language)によって記述された文書情報が、特定カテゴリに含まれるか否かを判定するようにコンピュータを機能させる文書分類プログラムであって、
    解析対象となる対象文書情報を、前記文章情報と前記マークアップ言語情報とに分離する文書情報分離手段と、
    前記文章情報及び前記マークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの対象特徴量を生成する特徴量生成手段と、
    前記特定カテゴリに含まれる多数の文章情報における学習特徴量を予め教師データとして学習したサポートベクタマシン(Support Vector Machine)を用いて、前記対象文書情報の対象特徴量を入力し、当該対象文書情報が前記特定カテゴリに属する割合に基づく文章スコア値を導出する文章スコア値導出手段と、
    前記特定カテゴリに含まれる多数のマークアップ言語情報における学習特徴量を予め教師データとして学習したサポートベクタマシンを用いて、前記対象文書情報のマークアップ言語情報の対象特徴量を入力し、当該対象文書情報が前記特定カテゴリに属する割合に基づくマークアップ言語スコア値を導出するマークアップ言語スコア値導出手段と、
    前記文章スコア値及び前記マークアップ言語スコア値を論理式に基づいて組み合わせた総合スコア値を導出し、該総合スコア値が所定閾値以上となる場合、当該対象文書情報を真と判定する総合スコア値導出手段と、
    前記総合スコア値導出手段によって真と判定された前記対象文書情報は、前記特定カテゴリに含まれるものとして分類するカテゴリ分類手段と
    してコンピュータを機能させ、文章情報又はマークアップ言語情報の一方を判定要素とした場合よりも高い適合率又は再現率とすることを特徴とすることを特徴とする文書分類プログラム。
  2. 前記特徴量生成手段は、
    前記文章情報及びマークアップ言語情報それぞれから、文字列を抽出する文字列抽出手段と、
    学習文書情報に基づく文字列を登録する学習文字列登録手段と、
    前記文章情報及びマークアップ言語情報それぞれについて、前記学習文字列登録手段に登録された文字列の出現回数を計数する出現回数計数手段と、
    前記文章情報及びマークアップ言語情報それぞれについて、文字列要素毎の出現回数を表す多次元ベクトルの文字列特徴量を生成する特徴量生成手段と
    してコンピュータを更に機能させることを特徴とする請求項1に記載の文書分類プログラム。
  3. 前記特定カテゴリに属する複数の学習文書情報を入力し、
    前記文書情報分離手段は、更に、前記学習文書情報を、文章情報とマークアップ言語情報とに分離し、
    前記文字列特徴量生成手段は、前記学習文書情報の文章情報及びマークアップ言語情報それぞれについて、前記文字列抽出手段と、前記出現回数計数手段と、前記特徴量生成手段とを実行することによって、それぞれの当該学習特徴量を前記文章スコア値導出手段及び前記マークアップ言語スコア値導出手段へ出力すると共に、多数の前記文字列から前記特定カテゴリに基づく特定文字列を統計的に検出する学習文字列検出手段を更に有し、
    前記学習文字列登録手段は、前記学習文字列検出手段によって検出された文字列を登録する
    ようにコンピュータを更に機能させることを特徴とする請求項2に記載の文書分類プログラム。
  4. 前記文書情報は、SGML(Standard Generalized Markup Language)、HTML(HyperText Markup Language)、XML(eXtensible Markup Language)、XHTML(eXtensible HyperText Markup Language)又はTexによって記述されており、
    前記文章情報は、前記文書情報からタグ要素を除く、文章的特徴を有するテキストであり、
    前記マークアップ言語情報は、前記文書情報のタグ要素に含まれ、外形的特徴を有するテキストであり、
    前記タグ要素は、画像、音声及び文章のコンテンツ要素に対する囲み文字列であって、前記マークアップ言語における文章構造及び修飾情報を指定するものである
    ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載の文書分類プログラム。
  5. 前記学習文書情報は、違法・有害と判断された多数の文書情報、又は、ユーザによって特定カテゴリとして収集された多数の文書情報であるようにコンピュータを機能させることを特徴とする請求項1から4のいずれか1項に記載の文書分類プログラム。
  6. 文章情報及びマークアップ言語によって記述された文書情報を、他の公開サーバからネットワークを介して取得し、当該文書情報が特定カテゴリに含まれるか否かを判定する文書解析サーバであって、
    前記特定カテゴリに含まれる多数の文章情報における学習特徴量を予め教師データとして学習したサポートベクタマシン(Support Vector Machine)を用いて、前記対象文書情報の対象特徴量を入力し、当該対象文書情報が前記特定カテゴリに属する割合に基づく文章スコア値を導出する文章スコア値導出手段と、
    前記特定カテゴリに含まれる多数のマークアップ言語情報における学習特徴量を予め教師データとして学習したサポートベクタマシンを用いて、前記対象文書情報のマークアップ言語情報の対象特徴量を入力し、当該対象文書情報が前記特定カテゴリに属する割合に基づくマークアップ言語スコア値を導出するマークアップ言語スコア値導出手段と、
    前記文章スコア値及び前記マークアップ言語スコア値を論理式に基づいて組み合わせた総合スコア値を導出し、該総合スコア値が所定閾値以上となる場合、当該対象文書情報を真と判定する総合スコア値導出手段と、
    前記総合スコア値導出手段によって真と判定された前記対象文書情報は、前記特定カテゴリに含まれるものとして分類するカテゴリ分類手段と
    を有し、文章情報又はマークアップ言語情報の一方を判定要素とした場合よりも高い適合率又は再現率とすることを特徴とする文書解析サーバ。
  7. 文章情報及びマークアップ言語によって記述された文書情報が、特定カテゴリに含まれるか否かを判定する装置における文書分類方法であって、
    解析対象となる対象文書情報を、前記文章情報と前記マークアップ言語情報とに分離する第1のステップと、
    前記文章情報及び前記マークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの特徴量を生成する第2のステップと、
    前記特定カテゴリに含まれる多数の文章情報における学習特徴量を予め教師データとして学習したサポートベクタマシン(Support Vector Machine)を用いて、前記対象文書情報の対象特徴量を入力し、当該対象文書情報が前記特定カテゴリに属する割合に基づく文章スコア値を導出する第3のステップと、
    前記特定カテゴリに含まれる多数のマークアップ言語情報における学習特徴量を予め教師データとして学習したサポートベクタマシンを用いて、前記対象文書情報のマークアップ言語情報の対象特徴量を入力し、当該対象文書情報が前記特定カテゴリに属する割合に基づくマークアップ言語スコア値を導出する第4のステップと、
    前記文章スコア値及び前記マークアップ言語スコア値を論理式に基づいて組み合わせた総合スコア値を導出し、該総合スコア値が所定閾値以上となる場合、当該対象文書情報を真と判定する第5のステップと、
    前記総合スコア値導出手段によって真と判定された前記対象文書情報は、前記特定カテゴリに含まれるものとして分類する第6のステップと
    を有し、文章情報又はマークアップ言語情報の一方を判定要素とした場合よりも高い適合率又は再現率とすることを特徴とする文書分類方法。
JP2010185321A 2010-08-20 2010-08-20 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法 Expired - Fee Related JP5527845B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010185321A JP5527845B2 (ja) 2010-08-20 2010-08-20 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010185321A JP5527845B2 (ja) 2010-08-20 2010-08-20 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法

Publications (2)

Publication Number Publication Date
JP2012043285A JP2012043285A (ja) 2012-03-01
JP5527845B2 true JP5527845B2 (ja) 2014-06-25

Family

ID=45899485

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010185321A Expired - Fee Related JP5527845B2 (ja) 2010-08-20 2010-08-20 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法

Country Status (1)

Country Link
JP (1) JP5527845B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6869833B2 (ja) * 2017-07-05 2021-05-12 Kddi株式会社 識別装置、識別方法、識別プログラム、モデル生成装置、モデル生成方法及びモデル生成プログラム
WO2020240637A1 (ja) * 2019-05-24 2020-12-03 日本電信電話株式会社 学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム
JP7131704B2 (ja) * 2019-05-28 2022-09-06 日本電信電話株式会社 抽出装置、抽出方法及び抽出プログラム
WO2021229786A1 (ja) * 2020-05-15 2021-11-18 日本電信電話株式会社 学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラム
CN113095039A (zh) * 2021-03-09 2021-07-09 智慧芽信息科技(苏州)有限公司 对文件自定义字段标引的处理方法、装置、服务器
KR102550923B1 (ko) * 2021-10-25 2023-07-04 주식회사 투링크 유해 사이트 차단 시스템 및 그 방법
CN115296823B (zh) * 2022-09-29 2023-02-03 佛山蚕成科技有限公司 一种可信数字徽章安全认证方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000268040A (ja) * 1999-03-15 2000-09-29 Ntt Data Corp 情報分類方式
JP4226261B2 (ja) * 2002-04-12 2009-02-18 三菱電機株式会社 構造化文書種別判定システム及び構造化文書種別判定方法
JP4994199B2 (ja) * 2007-11-26 2012-08-08 ヤフー株式会社 機械学習装置及び機械学習方法
JP4959603B2 (ja) * 2008-02-21 2012-06-27 ネットスター株式会社 ドキュメントを解析するためのプログラム,装置および方法
JP4915021B2 (ja) * 2008-09-10 2012-04-11 ヤフー株式会社 検索装置、および検索装置の制御方法

Also Published As

Publication number Publication date
JP2012043285A (ja) 2012-03-01

Similar Documents

Publication Publication Date Title
CN110516067B (zh) 基于话题检测的舆情监控方法、系统及存储介质
Gokulakrishnan et al. Opinion mining and sentiment analysis on a twitter data stream
WO2019227710A1 (zh) 网络舆情的分析方法、装置及计算机可读存储介质
JP5527845B2 (ja) 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法
CN110046260B (zh) 一种基于知识图谱的暗网话题发现方法和系统
CN111950273B (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
TWI424325B (zh) 使用有機物件資料模型來組織社群智慧資訊的系統及方法
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
CN110334202A (zh) 基于新闻应用软件的用户兴趣标签构建方法及相关设备
CN111914087B (zh) 一种舆情分析方法
KR20120108095A (ko) 소셜 데이터 분석 시스템
CN111324801B (zh) 基于热点词的司法领域热点事件发现方法
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
Qiu et al. Advanced sentiment classification of tibetan microblogs on smart campuses based on multi-feature fusion
Suchdev et al. Twitter sentiment analysis using machine learning and knowledge-based approach
Carey et al. HTML web content extraction using paragraph tags
Tyagi et al. Sentiment analysis of product reviews using support vector machine learning algorithm
CN112989208A (zh) 一种信息推荐方法、装置、电子设备及存储介质
Yamamoto et al. Multidimensional sentiment calculation method for Twitter based on emoticons
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
Fernandes et al. Analysis of product Twitter data though opinion mining
Hu et al. Embracing information explosion without choking: Clustering and labeling in microblogging
Saravanan et al. Extraction of Core Web Content from Web Pages using Noise Elimination.
Munot et al. Conceptual framework for abstractive text summarization
Yin et al. Research of integrated algorithm establishment of a spam detection system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130304

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140409

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140411

R150 Certificate of patent or registration of utility model

Ref document number: 5527845

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees