JP5527845B2

JP5527845B2 - 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法

Info

Publication number: JP5527845B2
Application number: JP2010185321A
Authority: JP
Inventors: 和史池田; 正柳原; 一則松本; 智弘小野; 康弘滝嶋
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2010-08-20
Filing date: 2010-08-20
Publication date: 2014-06-25
Anticipated expiration: 2030-08-20
Also published as: JP2012043285A

Description

本発明は、特定カテゴリに文書情報を分類する技術に関する。特に、インターネット上で、違法・有害サイトによって公開されている文書情報を検出する技術に関する。

インターネットの普及により、ブログ、掲示板又はクチコミコメントを公開するＷｅｂサイトを通じた一般ユーザによる情報発信は増加傾向にある。このようなＷｅｂサイトの増加に伴い、いわゆる違法・有害サイトも増加している。「違法・有害サイト」とは、例えば、犯罪予告や薬物の売買のような法規範に反する行為を助長する情報を含むサイトや、猥褻、残虐及び暴力的な情報を含むサイト、不当な勧誘目的のサイトを意味する。このような違法・有害サイトには、インターネットを介して、一般のユーザが容易にアクセスすることができる。近年、違法・有害サイトによる、犯罪の助長、犯罪者との接触による被害、個人情報の流出及び青少年の健全な育成の妨げといったことが社会問題となっている。現状では、このような違法・有害サイトの監視は、目視によるものが主流となっているが、サイトの内容は逐次更新されていくため、監視負担が大きい。

従来、違法・有害サイトであると判断してのアクセスを制御するフィルタリングの技術がある（例えば特許文献１参照）。この技術によれば、予めキーワードやＵＲＬ(Uniform Resource Locator)を予め登録しておき、そのキーワードやＵＲＬが含まれているＷｅｂサイトに対する端末からのアクセスが拒否される。しかし、予め登録しておくキーワードやＵＲＬを常に更新する必要があり、時間とコストを要する。

これに対して、キーワードやＵＲＬを自動的に抽出し、フィルタリングする技術がある（例えば特許文献２参照）。この技術によれば、漏れのないキーワード・フィルタリングによって違法・有害サイトを検出することができると共に、人手を介さないためにコストを低減することができる。

また、教師画像を用いた学習モデルに基づいて、画像の特徴量を抽出し、違法・有害サイトを検出する技術がある（例えば特許文献３参照）。この技術によれば、画像の色や輪郭といった特徴量に基づくクラスタリングにより、撮影条件や採光条件に影響されることなく、高度に違法・有害サイトを検出することができる。

更に、Ｗｅｂページの更新日時やリンク先の情報の差分を定期的に観測することによって、Ｗｅｂページの改ざんやスパムコメントの登録のような異常を検出する技術がある（例えば特許文献４参照）。この技術によれば、Ｗｅｂページを目視によって監視する必要がなく、監視負担を軽減できる。

更に、学習用文書情報を用いて、有害な文書情報に偏って出現する有害キーワードを統計的に抽出した後、判定対象の文書情報にそれら有害キーワードが含まれているか否かを検出する技術がある（例えば非特許文献１参照）。

更に、Ｗｅｂページの外形的特徴（例えば画像数やリンク数など）を判定に利用する技術もある（例えば非特許文献２参照）。

特開２００７−１２８１１９号公報特開２００９−０３７４２０号公報特開２００９−２１１３８８号公報特開２００９−２３０６６３号公報

柳原正、松本一則、小野智弘、滝嶋康弘、「トピック判定におけるn-gramの組み合わせ手法の検討」、第７回情報科学技術フォーラム（FIT2008）論文集本田崇智、山本雅人、川村秀憲、大内東、「Webサイトの自動分類に向けた特徴分析とキーワード抽出に関する研究」、情報処理学会研究報告ICS，no. 78，pp.1-4，2005、[online]、［平成２２年７月１７日検索］、インターネット＜URL:http://ci.nii.ac.jp/naid/110002702285＞長岡技術科学大学、自然言語処理研究室、「Ｃ４．５」、[online]、［平成２２年７月１７日検索］、インターネット＜URL:http://nlp.nagaokaut.ac.jp/C4%EF%BC%8E5＞吉田光男、山本幹雄、「教師情報を必要としないニュースページ群からのコンテンツ自動抽出」、日本データベース学会論文誌、vol.8, no.1, pp.29-34, 2009、[online]、［平成２２年７月１７日検索］、インターネット＜URL:http://www.dbsj.org/Japanese/DBSJLetters/vol8/no1/dbsj-journal-08-01-029.pdf＞鈴木義一郎、「情報量基準による統計解析入門」、講談社サイエンティフィク、pp.80-96、講談社、東京、１９９５ K.Matsumoto and K.Hashimoto, "Schema Design for Causal LawMining from Incomplete Database," Proc. of Discovery Science: SecondInternational Conference (DS'99), pp.91-102, 1999、[online]、［平成２２年７月１７日検索］、インターネット＜URL:http://www.springerlink.com/content/21wxy3nvjtw194vg/＞

特許文献２に記載された技術によれば、キーワードの抽出及びマッチングのような言語解析に、多くの処理時間及び処理負荷を要する。同様に、特許文献３に記載された技術によれば、画像のダウンロード及び画像解析に、多くの処理時間及び処理負荷を要する。また、特許文献４に記載された技術によれば、Ｗｅｂページの差分に基づいて、Ｗｅｂページの異常を検出することはできるが、違法・有害か否かを判定することはできない。

非特許文献１に記載された技術によれば、Ｗｅｂページによっては、文章的特徴を有する文章情報が少なかったり、文章情報の内容自体は無害であるが、画像やリンク先のような外形的特徴が有害である場合には、正しく判定することができない。

非特許文献２に記載された技術によれば、人手によって違法・有害サイトを観測する必要があり、抽出可能な特徴が、観測者の主観や閲覧したＷｅｂサイトに大きく依存する。そのために、違法・有害サイトの検出に、十分な判定性能を得ることが難しい。

そこで、本発明は、Ｗｅｂ文書情報について、特定カテゴリ（例えば違法・有害性）に基づく判定精度を高めることができる文書分類プログラム、サーバ及び方法を提供することを目的とする。

本発明によれば、文章情報及びマークアップ言語(Markup Language)によって記述された文書情報が、特定カテゴリに含まれるか否かを判定するようにコンピュータを機能させる文書分類プログラムであって、
解析対象となる対象文書情報を、文章情報とマークアップ言語情報とに分離する文書情報分離手段と、
文章情報及びマークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの対象特徴量を生成する特徴量生成手段と、
特定カテゴリに含まれる多数の文章情報における学習特徴量を予め教師データとして学習したサポートベクタマシン(Support Vector Machine)を用いて、対象文書情報の対象特徴量を入力し、当該対象文書情報が特定カテゴリに属する割合に基づく文章スコア値を導出する文章スコア値導出手段と、
特定カテゴリに含まれる多数のマークアップ言語情報における学習特徴量を予め教師データとして学習したサポートベクタマシンを用いて、対象文書情報のマークアップ言語情報の対象特徴量を入力し、当該対象文書情報が特定カテゴリに属する割合に基づくマークアップ言語スコア値を導出するマークアップ言語スコア値導出手段と、
文章スコア値及びマークアップ言語スコア値を論理式に基づいて組み合わせた総合スコア値を導出し、該総合スコア値が所定閾値以上となる場合、当該対象文書情報を真と判定する総合スコア値導出手段と、
総合スコア値導出手段によって真と判定された対象文書情報は、特定カテゴリに含まれるものとして分類するカテゴリ分類手段と
してコンピュータを機能させ、文章情報又はマークアップ言語情報の一方を判定要素とした場合よりも高い適合率又は再現率とすることを特徴とする。

本発明の文書分類プログラムにおける他の実施形態によれば、特徴量生成手段は、
文章情報及びマークアップ言語情報それぞれから、文字列を抽出する文字列抽出手段と、
学習文書情報に基づく文字列を登録する学習文字列登録手段と、
文章情報及びマークアップ言語情報それぞれについて、学習文字列登録手段に登録された文字列の出現回数を計数する出現回数計数手段と、
文章情報及びマークアップ言語情報それぞれについて、文字列要素毎の出現回数を表す多次元ベクトルの文字列特徴量を生成する特徴量生成手段と
してコンピュータを更に機能させることも好ましい。

本発明の文書分類プログラムにおける他の実施形態によれば、
特定カテゴリに属する複数の学習文書情報を入力し、
文書情報分離手段は、更に、学習文書情報を、文章情報とマークアップ言語情報とに分離し、
文字列特徴量生成手段は、学習文書情報の文章情報及びマークアップ言語情報それぞれについて、文字列抽出手段と、出現回数計数手段と、特徴量生成手段とを実行することによって、それぞれの当該学習特徴量を文章スコア値導出手段及びマークアップ言語スコア値導出手段へ出力すると共に、多数の文字列から特定カテゴリに基づく特定文字列を統計的に検出する学習文字列検出手段を更に有し、
学習文字列登録手段は、学習文字列検出手段によって検出された文字列を登録する
ようにコンピュータを更に機能させることも好ましい。

本発明の文書分類プログラムにおける他の実施形態によれば、
文書情報は、ＳＧＭＬ(Standard Generalized Markup Language)、ＨＴＭＬ(HyperText Markup Language)、ＸＭＬ(eXtensible Markup Language)、ＸＨＴＭＬ(eXtensible HyperText Markup Language)又はＴｅｘによって記述されており、
文章情報は、文書情報からタグ要素を除く、文章的特徴を有するテキストであり、
マークアップ言語情報は、文書情報のタグ要素に含まれ、外形的特徴を有するテキストであり、
タグ要素は、画像、音声及び文章のコンテンツ要素に対する囲み文字列であって、マークアップ言語における文章構造及び修飾情報を指定するものである
ようにコンピュータを更に機能させることも好ましい。

本発明の文書分類プログラムにおける他の実施形態によれば、学習文書情報は、違法・有害と判断された多数の文書情報、又は、ユーザによって特定カテゴリとして収集された多数の文書情報であるようにコンピュータを更に機能させることも好ましい。

本発明によれば、文章情報及びマークアップ言語によって記述された文書情報を、他の公開サーバからネットワークを介して取得し、当該文書情報が特定カテゴリに含まれるか否かを判定する文書解析サーバであって、
特定カテゴリに含まれる多数の文章情報における学習特徴量を予め教師データとして学習したサポートベクタマシン(Support Vector Machine)を用いて、対象文書情報の対象特徴量を入力し、当該対象文書情報が特定カテゴリに属する割合に基づく文章スコア値を導出する文章スコア値導出手段と、
特定カテゴリに含まれる多数のマークアップ言語情報における学習特徴量を予め教師データとして学習したサポートベクタマシンを用いて、対象文書情報のマークアップ言語情報の対象特徴量を入力し、当該対象文書情報が特定カテゴリに属する割合に基づくマークアップ言語スコア値を導出するマークアップ言語スコア値導出手段と、
文章スコア値及びマークアップ言語スコア値を論理式に基づいて組み合わせた総合スコア値を導出し、該総合スコア値が所定閾値以上となる場合、当該対象文書情報を真と判定する総合スコア値導出手段と、
総合スコア値導出手段によって真と判定された対象文書情報は、特定カテゴリに含まれるものとして分類するカテゴリ分類手段と
を有し、文章情報又はマークアップ言語情報の一方を判定要素とした場合よりも高い適合率又は再現率とすることを特徴とする。

本発明によれば、文章情報及びマークアップ言語によって記述された文書情報が、特定カテゴリに含まれるか否かを判定する装置における文書分類方法であって、
解析対象となる対象文書情報を、文章情報とマークアップ言語情報とに分離する第１のステップと、
文章情報及びマークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの特徴量を生成する第２のステップと、
特定カテゴリに含まれる多数の文章情報における学習特徴量を予め教師データとして学習したサポートベクタマシン(Support Vector Machine)を用いて、対象文書情報の対象特徴量を入力し、当該対象文書情報が特定カテゴリに属する割合に基づく文章スコア値を導出する第３のステップと、
特定カテゴリに含まれる多数のマークアップ言語情報における学習特徴量を予め教師データとして学習したサポートベクタマシンを用いて、対象文書情報のマークアップ言語情報の対象特徴量を入力し、当該対象文書情報が特定カテゴリに属する割合に基づくマークアップ言語スコア値を導出する第４のステップと、
文章スコア値及びマークアップ言語スコア値を論理式に基づいて組み合わせた総合スコア値を導出し、該総合スコア値が所定閾値以上となる場合、当該対象文書情報を真と判定する第５のステップと、
総合スコア値導出手段によって真と判定された対象文書情報は、特定カテゴリに含まれるものとして分類する第６のステップと
を有し、文章情報又はマークアップ言語情報の一方を判定要素とした場合よりも高い適合率又は再現率とすることを特徴とする。

本発明の文書分類プログラム、サーバ及び方法によれば、Ｗｅｂ文書情報における文章的特徴及び外形的特徴を組み合わせて、特定カテゴリ（例えば違法・有害性）に属するか否かを判定することによって、その判定精度を高めることができる。

文書情報の概観説明図である。本発明における文書分類プログラムの機能構成図である。文書情報の分離を表す説明図である。図２の特徴量判定部における他の実施形態に基づく機能構成図である。本発明における文書解析サーバのシステム構成図である。本発明におけるシステムのシーケンス図である。本発明の効果を表すグラフである。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

本発明における文書分類プログラムは、文章情報及びマークアップ言語(Markup Language)によって記述された文書情報が、特定カテゴリに含まれるか否かを判定するようにコンピュータを機能させる。「特定カテゴリ」とは、例えば違法・有害性であってもよいし、ユーザによって特定カテゴリと判断されたものであってもよい。

「文章情報」とは、文書情報からタグ要素を除く、文章的特徴を有するテキストである。

「マークアップ言語」は、コンピュータ言語の一種で、フォントサイズや文字の色のような外形的特徴に関する指定をテキストとして記述する言語である。外形的特徴の指定は、マークアップ(markup)と称される。Ｗｅｂ文書情報の外形的特徴となるタグ要素として、例えば、例えば、背景色、フォントサイズ、画像数、リンク数、画像リンク数、リンク先のＵＲＬ(Uniform Resource Locator)、フレーム数、javascript（登録商標）の利用回数、表の要素数がある。タグ要素は、画像、音声及び文章のコンテンツ要素に対する囲み文字列であって、マークアップ言語における文章構造及び修飾情報を指定するものである

マークアップ言語には、例えば、ＳＧＭＬ、ＨＴＭＬ、ＸＭＬ、ＸＨＴＭＬ又はＴｅｘがある。

図１は、文書情報の概観説明図である。

図１（ａ）によれば、文章情報として「著作権なんが無視して、ダウンロードしましょう！」となっており、文章的特徴に違法・有害性はない。一方で、外形的特徴に違法・有害性がある。図１（ｂ）によれば、文章情報として「ようこそ、皆さんの老後の幸せをかなえるサイトです！」となっており、文章的特徴に違法・有害性がある。一方で、外形的特徴に違法・有害性はない。

本発明によれば、図１（ａ）及び（ｂ）のような、文章的特徴若しくは外形的特徴の一方に違法・有害性があるか、又は、文章的特徴及び外形的特徴の両方に有害性があるかを判定することによって、違法・有害性の判定精度を高めることができる。

図１（ｃ）には、図１（ｂ）に基づくソースコードが表されている。図１（ｃ）によれば、文章、画像及び音声のようなコンテンツ要素と共に、文章構造及び修飾情報を指定するタグ要素を含む。タグ要素について、背景色は、「bgcolor=」という表現で定義される。「bgcolor=」の値を参照することで、背景色の値（色）を取得できる。同様に、フォントは「font face=」、リンクは「a href=」、画像は「img src=」又はフレームは「FRAME」という表現で定義される。

図１（ｄ）によれば、タグ設定例が表されている。同じタグ要素を設定する場合でも、複数の設定方法がある。例えば、背景色を設定する場合、「background-color:***;」のようにページの背景色のみを設定するものであってもよいし、「<body bgcolor=””text=””link=””alink=””vlink=””>」のようにページの背景色と共にテキスト色を指定するものであってもよい。

尚、後述の中で、「文字列」との用語は、文章情報における形態素分析された語を意味すると共に、マークアップ言語情報における区切り文字（例えば、\t , . / ! ” = % & { } [ ] _ 等）を除く英文字（例えば、bgcolor、a hrefや、URL自体）も意味する。

図２は、本発明における文書分類プログラムの機能構成図である。図３は、文書情報の分離を表す説明図である。

図２によれば、文書情報分離部１１と、文字列特徴量生成部１２と、特徴量判定部１３と、カテゴリ分類部１４とを有する。これら機能部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、装置における文書分類方法としても理解される。

文書情報分離部１１は、解析対象となる対象文書情報と、特定カテゴリに属する複数の学習文書情報とをそれぞれ、入力する。特定カテゴリに属する複数の学習文書情報を蓄積する学習文書蓄積部を備えていることも好ましい。特定カテゴリに属する学習文書情報は、違法・有害と判断された文書情報、又は、ユーザによって特定カテゴリとして収集された文書情報である。そして、文書情報分離部１１は、対象文書情報及び学習文書情報それぞれについて、文章情報とマークアップ言語情報とに分離する（図３（ａ）、（ｂ）、（ｃ）参照）。全てテキストベースで、分離される。

文字列特徴量生成部１２は、文書情報分離部１１から文章情報及びマークアップ言語情報それぞれを入力する。そして、文字列特徴量生成部１２は、文章情報及びマークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの特徴量を生成する。

文字列特徴量生成部１２は、文字列抽出部１２１と、出現回数計数部１２２と、特徴量生成部１２３と、学習文字列検出部１２４と、学習文字列登録部１２５とを有する。

文字列抽出部１２１は、文章情報及びマークアップ言語情報それぞれから、文字列を抽出する（図３（ｄ）（ｅ）参照）。文字列の抽出には、例えばオープンソースの形態素解析エンジン「ＭｅＣａｂ」を用いることができる。

出現回数計数部１２２は、文章情報及びマークアップ言語情報それぞれについて、学習文字列登録部１２５に登録された文字列の出現回数を計数する。

特徴量生成部１２３は、文章情報及びマークアップ言語情報それぞれについて、文字列要素毎の出現回数を表す多次元ベクトルの文字列特徴量を生成する。特徴量は、以下のように表される。
多次元ベクトル：（ｓ₁，ｓ₂，・・・・，ｓ₁₀₀，ｓ₁₀₁，・・・）
（文字列要素）：「著作権」「老後」「black」「face.gif」
（出現回数）： 10 2 15 8
生成された文字列特徴量は、特徴量判定部１３へ出力される。

学習文字列検出部１２４は、多数の文字列から特定カテゴリに基づく特定文字列を統計的に検出する（例えば非特許文献１参照）。非特許文献１によれば、キーワードリスト生成方法の技術が開示されている。この技術は、人手によって違法・有害／無害のラベルが付与された学習用文書を形態素解析によって単語分割し、違法・有害な文書情報に偏って出現する単語をキーワードリストに登録する。ある単語ｗが違法・有害な文書に偏って出現する度合いを表す指標Ｅ(w)は、ＡＩＣ（赤池情報基準）を用いて算出する（例えば非特許文献５参照）。以下の表１のように４つの値を、学習文書に出現した全ての単語について導出する。
Ｎ(w) ：単語wが出現する回数
Ｎ(￣w)：単語wが出現しない回数
（￣：not）
Ｎ₁₁(w)：ある単語wが出現する文書が違法・有害である場合の数
Ｎ₁₂(w)：ある単語wが出現する文書が無害である場合の数
Ｎ₂₁(w)：ある単語wが出現しない文書が違法・有害である場合の数
Ｎ₂₂(w)：ある単語wが出現しない文書が無害である場合の数

非特許文献１によれば、単語wが違法・有害な文書に偏って出現する度合Ｅ(w)を、非特許文献６に基づいて、ＡＩＣの独立モデルに対する値AIC_IM及び従属モデルに対する値AIC_DMを用いて、以下のように定義している。
Ｎ₁₁(w)／Ｎ(w)＞Ｎ₁₂(w)／Ｎ(￣w)のとき、
Ｅ(w)＝AIC_IM(w)−AIC_DM(w)
Ｎ₁₁(w)／Ｎ(w)≦Ｎ₁₂(w)／Ｎ(￣w)のとき、
Ｅ(w)＝AIC_DM(w)−AIC_IM(w)
ここで、AIC_IM(w)、AIC_DM(w)はそれぞれ、非特許文献５の記載に基づいて、以下のように算出される。
AIC_IM(w)＝-2×MLL_IM＋2×2
MLL_IM＝Ｎp(w)logＮp(w)＋Ｎ(w)logＮ(w)＋Ｎn(w)logＮn(w)
＋Ｎ(￣w)logＮ(￣w)−2ＮlogＮ
AIC_DM(w)＝-2×MLL_DM＋2×3
MLL_DM＝Ｎ₁₁(w)logＮ₁₁(w)＋Ｎ₁₂(w)logＮ₁₂＝(w)＋Ｎ₂₁(w)logＮ₂₁(w)
＋Ｎ₂₂(w)logＮ₂₂(w)−ＮlogＮ
この計算によって得られた違法・有害性の高いキーワードリストの一部を、以下の表に表す。

学習文書として、Ｗｅｂサイト２２万ページ（違法・有害１１万ページ、無害１１万ページ）に対して、人手によって違法・有害／無害のラベルを付与したものを利用した。ここでは、キーワードは、違法・有害性の高さを表すＥ(w)値が高い順にランキングされている。しかしながら、このキーワードリストだけでは、上位のランクであっても、無害文書が検出されるキーワードが含まれている。

学習文字列登録部１２５は、学習文字列検出部１２４によって検出された文字列を登録する。

特徴量判定部１３は、対象文書情報の対象特徴量が、特定カテゴリに含まれる複数の学習文書情報から得られた学習特徴量の所定範囲内に属するか否かを判定する。特徴量判定部１３の識別エンジンは、サポートベクタマシン(Support Vector Machine)の識別エンジンであってもよいし、ルールベースの識別エンジンであってもよいし（例えばＣ４．５、非特許文献３参照）。

ルールベースの識別エンジンによれば、対象特徴量の多次元ベクトルの変数値が、特定カテゴリの学習特徴量の多次元ベクトルにおける変数値の所定範囲内に属するか否かを判定するルールベースの識別エンジンによれば、学習文書情報から明確なルールを生成した後、対象文書情報のカテゴリを分類する。

「Ｃ４．５」とは、クラス分類に用いるための決定木を生成するアルゴリズムであって、統計学的クラス分類器である。これは、情報エントロピの概念を用いて、教師データのセットから決定木を生成する。教師データは、既にクラス分類されたサンプルである。各サンプルは、属性や特徴を表す多次元ベクトル(x₁,x₂,...,x_n)によって表される。

一方で、サポートベクタマシンの識別エンジンによれば、明確なルールを生成せず、外見上ブラックボックスであるが、特定カテゴリ毎の学習特徴量をサポートベクトルとして生成する。従って、特徴量判定部１３は、外見上ブラックボックス的な既存の学習識別器を用いて実現することができる。

「サポートベクタマシン」とは、教師有り学習を用いる識別アルゴリズムであって、パターン認識に適用される。サポートベクタマシンは、線形入力素子を用いて２クラスのパターン識別器を構成するものであって、学習サンプルから、各特徴値との距離を算出することによって、線形入力素子のパラメータを学習する。サポートベクタマシンの識別エンジンは、抽出された複数の学習特徴量を教師データとして学習し、対象特徴量が、特定カテゴリの学習特徴量に属するか否かを判定する。

カテゴリ分類部１４は、特徴量判定部１３によって真と判定された対象文書情報は、特定カテゴリに含まれるものとして分類する。

図４は、図２の特徴量判定部における他の実施形態に基づく機能構成図である。

図４によれば、特徴量判定部１３は、文章スコア値導出部１３１と、ＭＬ(Markup Language)スコア値導出部１３２と、総合スコア値導出部１３３とを有する。

文章スコア値導出部１３１は、文章情報について、識別エンジンを用いて、学習文章特徴量に対する対象文章特徴量の類似割合（有害割合）に基づく文章スコア値を導出する。

ＭＬ文章スコア値導出部１３２は、マークアップ言語情報について、識別エンジンを用いて、学習ＭＬ特徴量に対する対象ＭＬ特徴量の類似割合に基づくＭＬスコア値を導出する。

ここで、文章スコア値導出部１３１及びＭＬ文章スコア値導出部１３２はそれぞれ、サポートベクタマシン又はルールベースのような識別エンジンを有する。これによって、識別エンジンに一度に入力する特徴量数を減らすことができ、処理の高速化が期待できる。

総合スコア値導出部１３３は、文章スコア値及びＭＬスコア値を論理式に基づいて組み合わせた総合スコア値を導出する。その総合スコア値が所定閾値以上となる場合、当該対象文書情報を真と判定する。例えば、以下のような実施形態がある。

第１の論理式の組み合わせた総合スコア値は、以下のように導出される。
if（TH＞SH and TD＞SD）：適合率の向上（論理積）
if（TH＞SH or TD＞SD）：再現率の向上（論理和）
SD：有害割合を表す文章スコア値
SH：有害割合を表すＭＬスコア値
TD：文章スコア値について有害と判定する第１の閾値
TH：ＭＬスコア値について有害と判定する第２の閾値
TH＞SH：真／偽
TD＞SD：真／偽

第２の論理式の組み合わせた総合スコア値は、以下のように導出される。
if（Score＞Threshold）：真／偽
Score＝α・SH×β・SD：適合率（論理積）
Score＝α・SH＋β・SD：再現率（論理和）
Threshold：所定閾値

図５は、本発明における文書解析サーバのシステム構成図である。

図５によれば、文書解析サーバ１０は、前述した文書分類プログラムをプロセッサで実行することによって文書分類機能を実現する。文書解析サーバ１０は、インターネットを介して、Ｗｅｂサーバ２と通信する。また、そのＷｅｂサーバ２は、端末３から送信された対象文書情報としてのＷｅｂ文書情報を蓄積し且つ公開している。文書解析サーバ１０の解析対象文書入力部は、通信インタフェース部を介して、多数のＷｅｂサーバ２から対象文書情報を受信する。その対象文書情報は、文書分類機能へ出力される。文書分類機能は、学習文章情報の学習特徴量に基づいて、その対象文書情報を特定カテゴリに分類する。例えば、Ｗｅｂサーバ２から受信した対象文書情報を、違法・有害サイトのカテゴリに分類することができる。

図６は、本発明におけるシステムのシーケンス図である。

（Ｓ６０１）文書分類機能は、学習文書情報を、文章情報とマークアップ言語情報とに分離する。図２の文章情報分離部１１と同様に機能する。また、文書分類機能は、学習文書情報の文章情報及びマークアップ言語情報それぞれから文字列を抽出し、それら文字列を登録する。図２の学習文字列検出部１２４及び学習文字列登録部１２５と同様に機能する。
（Ｓ６０２）学習文書情報の文章情報及びマークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの特徴量を生成する。図２の文字列特徴量生成部１２と同様に機能する。

（Ｓ６１１）端末３は、利用者の操作に応じて、対象文書情報であるＷｅｂ文書情報を、Ｗｅｂサーバ２へ送信する。
（Ｓ６１２）文書解析サーバ１０は、Ｗｅｂサーバ２から対象文書情報を受信する。

（Ｓ６１３）文書分類機能は、対象文書情報を、文章情報とマークアップ言語情報とに分離する。図２の文章情報分離部１１と同様に機能する。
（Ｓ６１４）対象文書情報の文章情報及びマークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの特徴量を生成する。図２の文字列特徴量生成部１２と同様に機能する。

（Ｓ６１５）対象文書情報の対象特徴量が、特定カテゴリに含まれる多数の学習文書情報から得られた学習特徴量の所定範囲内に属するか否かを判定する。図２の特徴量判定部１３と同様に機能する。
（Ｓ６１６）そして、Ｓ６１５によって真と判定された対象文書情報は、特定カテゴリに含まれるものとして分類する。図２のカテゴリ分類部１４と同様に機能する。

以上、詳細に説明したように、本発明の文書分類プログラム、サーバ及び方法によれば、Ｗｅｂ文書情報における文章的特徴及び外形的特徴を組み合わせて、特定カテゴリ（例えば違法・有害性）に属するか否かを判定することによって、その判定精度を高めることができる。本発明によれば、文章的特徴によって違法・有害性を判定すると共に、文章や画像の解析が困難な文書情報であっても、外形的特徴によって更に違法・有害性を判定することができる。

図７は、有害と判定する割当を表すグラフである。

図７によれば、１０，０００Ｗｅｂページについて、人手によって違法・有害／無害を判定して予備実験の結果が表されている。このグラフによれば、文章的特徴に基づく違法・有害性の判定と、外形的特徴に基づく違法・有害性の判定とが、必ずしも一致しないことが理解できる。

図７のグラフによれば、縦軸に、再現率(Recall)が30％〜90％で表されており、横軸に、各再現率における違法・有害性の判定割合を表す。
（１）文章的特徴（文章情報）の場合でのみ違法・有害と判定されたＷｅｂページの割合
（２）外形的特徴（マークアップ言語情報）の場合でのみ違法・有害と判定されたＷｅｂページの割合
（３）文章的特徴及び外形的特徴の両方の場合で違法・有害と判定されたＷｅｂページの割合

図７のグラフによれば、再現率が高いほど、（１）（２）の割合よりも、（３）の割合が高い。ここで、再現率90％であっても、（１）（２）の割合が存在することが理解できる。この結果から、文章的特徴及び外形的特徴の両方を組み合わせて、違法・有害性を判定することは有効であること考えられる。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１文書分類プログラム
１０文書解析サーバ
１１文書情報分離部
１２文字列特徴量生成部
１２１文字列抽出部
１２２出現回数計数部
１２３特徴量生成部
１２４学習文字列検出部
１２５学習文字列登録部
１３特徴量判定部
１３１文章スコア値導出部
１３２ＭＬスコア値導出部
１３３総合スコア値導出部
１４カテゴリ分類部
２Ｗｅｂサーバ
３端末

Claims

文章情報及びマークアップ言語(Markup Language)によって記述された文書情報が、特定カテゴリに含まれるか否かを判定するようにコンピュータを機能させる文書分類プログラムであって、
解析対象となる対象文書情報を、前記文章情報と前記マークアップ言語情報とに分離する文書情報分離手段と、
前記文章情報及び前記マークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの対象特徴量を生成する特徴量生成手段と、
前記特定カテゴリに含まれる多数の文章情報における学習特徴量を予め教師データとして学習したサポートベクタマシン(Support Vector Machine)を用いて、前記対象文書情報の対象特徴量を入力し、当該対象文書情報が前記特定カテゴリに属する割合に基づく文章スコア値を導出する文章スコア値導出手段と、
前記特定カテゴリに含まれる多数のマークアップ言語情報における学習特徴量を予め教師データとして学習したサポートベクタマシンを用いて、前記対象文書情報のマークアップ言語情報の対象特徴量を入力し、当該対象文書情報が前記特定カテゴリに属する割合に基づくマークアップ言語スコア値を導出するマークアップ言語スコア値導出手段と、
前記文章スコア値及び前記マークアップ言語スコア値を論理式に基づいて組み合わせた総合スコア値を導出し、該総合スコア値が所定閾値以上となる場合、当該対象文書情報を真と判定する総合スコア値導出手段と、
前記総合スコア値導出手段によって真と判定された前記対象文書情報は、前記特定カテゴリに含まれるものとして分類するカテゴリ分類手段と
してコンピュータを機能させ、文章情報又はマークアップ言語情報の一方を判定要素とした場合よりも高い適合率又は再現率とすることを特徴とすることを特徴とする文書分類プログラム。
前記特徴量生成手段は、
前記文章情報及びマークアップ言語情報それぞれから、文字列を抽出する文字列抽出手段と、
学習文書情報に基づく文字列を登録する学習文字列登録手段と、
前記文章情報及びマークアップ言語情報それぞれについて、前記学習文字列登録手段に登録された文字列の出現回数を計数する出現回数計数手段と、
前記文章情報及びマークアップ言語情報それぞれについて、文字列要素毎の出現回数を表す多次元ベクトルの文字列特徴量を生成する特徴量生成手段と
してコンピュータを更に機能させることを特徴とする請求項１に記載の文書分類プログラム。
前記特定カテゴリに属する複数の学習文書情報を入力し、
前記文書情報分離手段は、更に、前記学習文書情報を、文章情報とマークアップ言語情報とに分離し、
前記文字列特徴量生成手段は、前記学習文書情報の文章情報及びマークアップ言語情報それぞれについて、前記文字列抽出手段と、前記出現回数計数手段と、前記特徴量生成手段とを実行することによって、それぞれの当該学習特徴量を前記文章スコア値導出手段及び前記マークアップ言語スコア値導出手段へ出力すると共に、多数の前記文字列から前記特定カテゴリに基づく特定文字列を統計的に検出する学習文字列検出手段を更に有し、
前記学習文字列登録手段は、前記学習文字列検出手段によって検出された文字列を登録する
ようにコンピュータを更に機能させることを特徴とする請求項２に記載の文書分類プログラム。
前記文書情報は、ＳＧＭＬ(Standard Generalized Markup Language)、ＨＴＭＬ(HyperText Markup Language)、ＸＭＬ(eXtensible Markup Language)、ＸＨＴＭＬ(eXtensible HyperText Markup Language)又はＴｅｘによって記述されており、
前記文章情報は、前記文書情報からタグ要素を除く、文章的特徴を有するテキストであり、
前記マークアップ言語情報は、前記文書情報のタグ要素に含まれ、外形的特徴を有するテキストであり、
前記タグ要素は、画像、音声及び文章のコンテンツ要素に対する囲み文字列であって、前記マークアップ言語における文章構造及び修飾情報を指定するものである
ようにコンピュータを機能させることを特徴とする請求項１から３のいずれか１項に記載の文書分類プログラム。
前記学習文書情報は、違法・有害と判断された多数の文書情報、又は、ユーザによって特定カテゴリとして収集された多数の文書情報であるようにコンピュータを機能させることを特徴とする請求項１から４のいずれか１項に記載の文書分類プログラム。
文章情報及びマークアップ言語によって記述された文書情報を、他の公開サーバからネットワークを介して取得し、当該文書情報が特定カテゴリに含まれるか否かを判定する文書解析サーバであって、
前記特定カテゴリに含まれる多数の文章情報における学習特徴量を予め教師データとして学習したサポートベクタマシン(Support Vector Machine)を用いて、前記対象文書情報の対象特徴量を入力し、当該対象文書情報が前記特定カテゴリに属する割合に基づく文章スコア値を導出する文章スコア値導出手段と、
前記特定カテゴリに含まれる多数のマークアップ言語情報における学習特徴量を予め教師データとして学習したサポートベクタマシンを用いて、前記対象文書情報のマークアップ言語情報の対象特徴量を入力し、当該対象文書情報が前記特定カテゴリに属する割合に基づくマークアップ言語スコア値を導出するマークアップ言語スコア値導出手段と、
前記文章スコア値及び前記マークアップ言語スコア値を論理式に基づいて組み合わせた総合スコア値を導出し、該総合スコア値が所定閾値以上となる場合、当該対象文書情報を真と判定する総合スコア値導出手段と、
前記総合スコア値導出手段によって真と判定された前記対象文書情報は、前記特定カテゴリに含まれるものとして分類するカテゴリ分類手段と
を有し、文章情報又はマークアップ言語情報の一方を判定要素とした場合よりも高い適合率又は再現率とすることを特徴とする文書解析サーバ。
文章情報及びマークアップ言語によって記述された文書情報が、特定カテゴリに含まれるか否かを判定する装置における文書分類方法であって、
解析対象となる対象文書情報を、前記文章情報と前記マークアップ言語情報とに分離する第１のステップと、
前記文章情報及び前記マークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの特徴量を生成する第２のステップと、
前記特定カテゴリに含まれる多数の文章情報における学習特徴量を予め教師データとして学習したサポートベクタマシン(Support Vector Machine)を用いて、前記対象文書情報の対象特徴量を入力し、当該対象文書情報が前記特定カテゴリに属する割合に基づく文章スコア値を導出する第３のステップと、
前記特定カテゴリに含まれる多数のマークアップ言語情報における学習特徴量を予め教師データとして学習したサポートベクタマシンを用いて、前記対象文書情報のマークアップ言語情報の対象特徴量を入力し、当該対象文書情報が前記特定カテゴリに属する割合に基づくマークアップ言語スコア値を導出する第４のステップと、
前記文章スコア値及び前記マークアップ言語スコア値を論理式に基づいて組み合わせた総合スコア値を導出し、該総合スコア値が所定閾値以上となる場合、当該対象文書情報を真と判定する第５のステップと、
前記総合スコア値導出手段によって真と判定された前記対象文書情報は、前記特定カテゴリに含まれるものとして分類する第６のステップと
を有し、文章情報又はマークアップ言語情報の一方を判定要素とした場合よりも高い適合率又は再現率とすることを特徴とする文書分類方法。