JP2007293377A

JP2007293377A - 主観的ページと非主観的ページを分離する入出力装置

Info

Publication number: JP2007293377A
Application number: JP2006071319A
Authority: JP
Inventors: Koichi Doi; 晃一土井; Akira Omori; 晃大森
Original assignee: Tokyo University of Science; Nara Institute of Science and Technology NUC
Current assignee: Tokyo University of Science; Nara Institute of Science and Technology NUC
Priority date: 2006-03-15
Filing date: 2006-03-15
Publication date: 2007-11-08

Abstract

【課題】Ｗｅｂページの情報検索において、主観的ページと非主観的ページを分離して検索者に提示する入出力装置を提供する。
【解決手段】テキストデータを入力する入力手段と、該入力手段によって入力されたテキストデータから単語の区切りと品詞の種類を解析するテキストデータ解析手段と、該テキストデータ解析手段によって解析された単語に所定の品詞が存在するか否かを判定する二値情報判定手段と、該二値情報判定手段で得られる二値情報を分類し機械学習する機械学習手段とを備え、主観的ページと非主観的ページを分離する。
【選択図】図１

Description

本発明は、インターネットにおけるＷｅｂページなどの情報検索技術に関するもので、特に、Ｗｅｂページを主観的ページと非主観的ページとに予め分離する入出力装置に関するものである。

インターネットの爆発的な普及により、現在、膨大なＷｅｂページが存在している状況となっている。それに伴い、ユーザが必要とする情報が含まれているＷｅｂページを探し出すには、多大な時間と労力が必要となっている。
そのため、インターネット上の膨大なＷｅｂページから目的とするページを検索できるサービスをするサイト（検索エンジン）が多数存在しており、ユーザはこれら検索エンジンを利用して必要とする情報を探している。この検索エンジンを利用した検索の場合、探したい情報が含まれるＷｅｂページに関係がありそうな単語を入力して、検索エンジンデータベースを参照し、単語あるいはそれを抽象化したものを手がかりとして情報検索している。

一方で、非特許文献１において、Ｗｅｂページを探索するための問題に対処すべく、Ｗｅｂページ作成者の意図という観点から、Ｗｅｂページ上のテキストを分類することによって、効率的にＷｅｂページを探索可能（効果的なブラウジングが可能）であることが指摘されている。また、非特許文献１では、意図という観点からテキスト分類するためには、テキスト中のどういった言語的情報（名詞、動詞などの品詞情報）が有効に機能するかを示唆している。
結論として、この非特許文献１には、Ｗｅｂページ作成者の意図という観点からの分類にとっては、名詞以外の品詞となる単語の頻度に着目することで、効率よく分類できることが報告されている。

「ＷＷＷ探索支援のための記述意図によるテキスト分類」（言語処理学会第９回年次大会発表論文集，ｐ５０５−５０８，木村託巳、山田寛康、島津彰（２００３）

現在のＷｅｂページの情報検索において、検索用のキーワードを入力しても、目的とするＷｅｂページがすぐにヒットすることは稀で、殆どの場合、検索エンジンを用いた検索結果には主観的なページと非主観的なページが混在して画面に表示出力されている。
例えば、検索エンジンとしてＧＯＯＧＬＥ（登録商標）を用いて、“ＸＸＸ大学”をキーワードにして検索すると、ＸＸＸ大学の公式ホームページとＸＸＸ大学に関する日記のページが混在して表示出力される。ユーザ（検索者）がＸＸＸ大学の住所を知りたいのであればＸＸＸ大学の公式ホームページの表示が必要であり、検索者がこれから入学を考えている学生であり、大学での生活の様子を知りたいのであれば、ＸＸＸ大学に関する日記のページが表示されるべきである。
このような要求を満足するためには、主観的ページ（日記のページなど）と非主観的ページ（大学の公式ホームページなど）を分離して検索者に提示する仕組みが必要となる。

上記問題点に鑑み、本発明は、Ｗｅｂページの情報検索において、主観的ページと非主観的ページを分離して検索者に提示する入出力装置を提供することを目的とする。

上記目的を達成するため、本発明の第１の観点の入出力装置は、テキストデータを入力する入力手段と、該入力手段によって入力されたテキストデータから単語の区切りと品詞の種類を解析するテキストデータ解析手段と、該テキストデータ解析手段によって解析された単語に所定の品詞が存在するか否かを判定する二値情報判定手段と、該二値情報判定手段で得られる二値情報を分類し機械学習する機械学習手段とを備え、主観的ページと非主観的ページを分離するようにしたことを特徴とするものである。
本発明者らは、膨大な数のＷｅｂページから、主観的ページと非主観的ページを自動的に分離することを目標として鋭意研究を行った結果、Ｗｅｂページに含まれるテキストデータ中の単語の出現回数（品詞の頻度）情報を用いないで、所定の品詞の存在有無のみの二値情報を用いて主観的と非主観的に分類することの方が、品詞の頻度を利用する従来法（上述の非特許文献１に開示されている方法）よりも、情報検索の性能が向上することの知見を得たのである。

ここで、情報検索の性能（テキスト分類法の性能）には、精度（Ｐ：Precision），再現率（Ｒ：recall）の数値から算出されるＦ値を性能指標として用いている。

また、上記のテキストデータ解析手段は、テキストデータを形態素解析装置によって品詞毎に分割する形態素解析手段を備えていることが好ましい。形態素解析 (Morphological analysis) は、与えられた文を形態素（テキストデータの中で分割可能な最小単位、ほぼ単語に相当する）に分ける処理であるが、この処理には、それぞれの形態素がどの品詞に対応するかという対応づけも含まれるため、単語の区切りと品詞の種類を同定することが可能となるからである。この形態素解析装置には様々なものがあるが、後述の実施例では、一例として、奈良先端科学技術大学院大学で開発された形態素解析ツールChaSen（茶筌）を用いている。

また、上記機械学習手段の機械学習アルゴリズムとしては、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）を用いることが好ましい。
ＳＶＭは汎化性能に優れており、また、高次元で複雑な分離問題に容易に対応可能であることから、多くの素性を扱うことができるからである。

また、上記機械学習手段の機械学習アルゴリズムとして、アダブースト（Ａｄａｂｏｏｓｔ）を用いて、かつ、品詞レベルで偏った単語を取り除くことがより好ましい。
ここで、アダブースト（Ａｄａｂｏｏｓｔ）とは、どの素性が分類に効果的であるかを知ることができるアルゴリズムで、結果として学習用データセット内で偏った素性の省略を行えるアルゴリズムである。
膨大な数のＷｅｂページを学習する中で、偏った学習にならないようにするために、偏った素性の省略を行うアルゴリズムであるアダブーストを用いるのである。このアダブーストを用いることで、汎用の（学習用データセット外の）Ｗｅｂページをより効率的に探索することが可能となる。

そして、このアダブーストを用いる場合、好ましくは、二値情報判定手段において、テキストデータ解析手段によって解析された単語群から、品詞の任意の部分集合（ｐｏｗｅｒｓｅｔ）を取り除いたものごとに、所定の品詞である単語が存在するか否かを判定する二値情報判定を行うことが良い。
取り除く品詞群は、好ましくは、一般的な名詞、サ変接続を行う名詞、記号やシンボル、固有名詞、若しくは未知語から選択されたいずれか又は全ての品詞がよい。
これにより、常に適切な判断を持続し、性能が高い判断が可能となるからである。

また、本発明の第２の観点の入出力装置は、テキストデータを入力する入力手段と、該入力手段によって入力されたテキストデータから単語の区切りと品詞の種類を解析するテキストデータ解析手段と、該テキストデータ解析手段によって解析されたテキスト文の語尾の単語の品詞が特定の品詞か否かを判定する二値情報判定手段と、該二値情報判定手段で得られる二値情報を分類し機械学習する機械学習手段とを備え、主観的ページと非主観的ページを分離するようにしたことを特徴とするものである。

この本発明の入出力装置では、テキストデータが日本語テキストデータ若しくは韓国語テキストデータであることが好ましい。
日本語テキストデータや韓国語テキストデータは、英語や中国語などと異なり、口語と文語の差が大きい言語であり、語尾などによって口語と文語を分類可能な言語であるからである。

また、テキストデータが日本語テキストデータの場合には、前記特定の品詞が、助詞及び助動詞であることが好ましい。情報検索の性能をより高めることができるからである。

また、本発明の検索エンジンは、上記の入出力装置を組み込んだＷｅｂページの検索エンジンであって、インターネット上のＷｅｂページの収集手段と、前記収集手段により収集されたＷｅｂページからＨＴＭＬタグを除去する除去手段と、前記除去手段により生成されたテキストデータの漢字コードを統一する統一手段とを備え、前記統一手段により生成された前記テキストデータが前記入出力装置に入力されることを特徴とする。
本発明の入出力装置をＷｅｂページなどの検索エンジンに利用することにより、Ｗｅｂページの情報検索において、主観的ページと非主観的ページを分離して検索者に提示する目的を達成させるものである。

また、本発明のＷｅｂブラウジング用端末は、上記の検索エンジンの結果を表示するＷｅｂ閲覧画面において、画面フレームに、主観的と非主観的のどちらか一方の意味を有する選択ボタン、若しくは、その両方の選択ボタンを備えたことを特徴とする。
ここで、画面フレームに、主観的と非主観的のどちらか一方の意味を有する選択ボタンとは、例えば、「主観的」というボタンで、ボタンを押す度に主観的ページの検索結果リスト要求と非主観的ページの検索結果リスト要求が切り替わるものである。
また、その両方の選択ボタンとは、例えば、「主観的」と「非主観的」が両方表示され、ラジオボタンなどで選択できるというようなものである。

本発明の入出力装置によれば、任意の日本語のＷｅｂページを主観的ページと非主観的ページに分類することができる。また、この分類は自動的に行えるため、検索エンジンに組み込むことが可能であり、更に、検索エンジンがＷｅｂページを収集する時に予め分類することができるため、検索時に分類を行うことがないことから検索時間に影響を与えることがない。
またＷｅｂページの閲覧者のユーザ・インターフェイスとして、「主観的」「非主観的」ボタンをＷｅｂ閲覧ソフト側に設けることで、簡単に操作が行えるといった効果もある。

以下、図面を参照しつつ、本発明の入出力装置の実施例を説明する。ただし、本発明の技術的範囲は以下の実施例に示した具体的な用途に限定されるものではない。

（学習用データセットの作成方法）
本発明の入出力装置の実施例を説明する前に、先ず本発明の入出力装置に使用する学習用データセットの作成方法について説明を行う。
学習用データセットの作成は、任意に収集した日本語のＷｅｂページを以下の１４のジャンルに分類することから始まる。
この分類する１４のジャンルというのは、予測、スローガン、批評、解説、ニュース、印象、情宣、Ｑ＆Ａ、ドキュメンテーション、広告、マニュアル、用語説明、案内・紹介、その他に属するＷｅｂページである。
そして、主観的なＷｅｂページとして、個々の意見または何かについての印象を示すものであると定義して、予測（例えば、株価予想）、スローガン（例えば、商品スローガン）、批評（例えば、社会的な批判）、印象（例えば、個人の経験の物語、日記）と情宣（例えば、政府の党組織）のジャンルを主観的ページと取り扱っている。
また、一方、非主観的なＷｅｂページとして、主観的でないＷｅｂページであると定義して、解説（例えば、自然法則とその解説）、ニュース（例えば、見出しまたはニュース記事）、ドキュメンテーション（例えば、研究報告、会議録、ゲームまたはスポーツの結果）、広告（例えば、製品またはサービスを特定する情報）、マニュアル（例えば、パソコンの取扱説明書）と用語説明（例えば、歴史上の人の、史跡の、または、文化的な遺産の説明）のジャンルを非主観的ページと取り扱っている。

以上の主観的ページと非主観的ページの収集と分類決定は、複数人で行い、各々の作業は手作業で独立して実施した。その結果、1,000の主観的ページと1,000の非主観的ページを含んだ学習用データセットを作成した。なお、各々のウェブページのジャンルについての決定は、複数人の人の間で一致している。

上述したように、主観的ページと非主観的ページを手作業で集め、二人以上の判断が一致したものをベースに学習用データセットを作成した。こうして作成した学習用データセットをクローズドな学習用データセットと定義した。

また一方、オープンなテスト用データセットとして、今回は既存のＷｅｂページ集合として、ＮＴＣＩＲ−３ＷＥＢ（以下、ＮＴＣＩＲ−３という。）を採用した。
ＮＴＣＩＲ−３は、「．ｊｐ」領域から主に集められるＷｅｂページから構成される。そのデータサイズはおよそ１２０ＧＢであり、11,034,409のＷｅｂページを含む集合である。ＮＴＣＩＲ−３からランダムにおよそ３４０のＷｅｂページを選定し、オープンなテスト用データセットを準備した。そして、クローズドな学習用データセットと同様に１４のジャンルに分類し、最終的に１００のＷｅｂページからなるオープンなテスト用データセットを作成した。

次に、それら学習用／テスト用データセットに存在するＷｅｂページからＨＴＭＬ（Hyper Text Markup Language）タグを取り除き、さらに漢字コードを統一した。
学習用／テスト用データセットの各ＷｅｂページデータからＨＴＭＬを取り除くのは、本発明の入出力装置では、日本語のテキストから単語、品詞の存在有無を判断して、主観的ページと非主観的ページを分離するためである。
漢字コードの統一には、ネットワークでメールやニュースの読み書きをするために作られた漢字コードの変換フィルタであるＮＫＦ（Network Kanji code conversion Filter）を用いて、ＥＵＣ（Extended Unix Code）の漢字コード体系に統一した。なお、統一する漢字コード体系は、他の漢字コード体系、例えば、JIS、Shift-JIS、Unicodeであっても構わない。（Unixは登録商標である。）
また、漢字コードを統一するのは、本発明の入出力装置のテキストデータ解析手段を簡素化するためである。今回は、予め漢字コードを統一した入力データを与えることとしたが、本発明の入出力装置の機能として漢字コードの変換処理機能を持たせてもよい。

（実施例１の入出力装置の構成）
実施例１にかかる本発明の入出力装置の構成を説明する。図１は、実施例１に係る入出力装置の基本構成を模式的に示した図である。
図１に示すように、実施例１に係る入出力装置は、テキストデータを入力する入力手段と、入力手段によって入力されたテキストデータから単語の区切りと品詞の種類を解析するテキストデータ解析手段と、テキストデータ解析手段によって解析された単語に所定の品詞が存在するか否かを判定する二値情報判定手段と、二値情報判定手段で得られる二値情報を分類し機械学習する機械学習手段とを備えており、Ｗｅｂページに含まれるテキストデータが入力されると、主観的ページと非主観的ページを分離判断して出力できる構成となっている。
ここで、所定の品詞が存在するか否かの判定について、以下に３つの例文を挙げながら入出力装置の処理について詳細に説明する。

例えば、次のテキストデータが実施例１に係る入出力装置に入力されたとする。
・例文Ａ：「クリアを押してから文を入力してください。」
・例文Ｂ：「ドラッグ＆ドロップでテキストをコピーできます。」
・例文Ｃ：「ファイルをドラッグすると解析を実行します。」

テキストデータが入力されると、入出力装置のテキストデータ解析手段が、入力されたテキストデータから単語の区切りと品詞の種類を解析する。解析内容を下記（１）〜（３）に示す。
（１）例文Ａの解析
「クリア（名詞−サ変接続）／を（助詞−格助詞−一般）／押し（動詞−自立）／て（助詞−接続助詞）／から（助詞−格助詞−一般）／文（名詞−一般）／を（助詞−格助詞−一般）／入力（名詞−サ変接続）／し（動詞−自立）／て（助詞−接続助詞）／ください（動詞−非自立）／。（記号−句点）」
（２）例文Ｂの解析
「ドラッグ（名詞−一般）／＆（記号−一般）／ドロップ（名詞−一般）／で（助詞−格助詞−一般）／テキスト（名詞−一般）／を（助詞−格助詞−一般）／コピー（名詞−サ変接続）／でき（動詞−自立）／ます（助動詞特殊・マス）／。（記号−句点）」
（３）例文Ｃの解析
「ファイル（名詞−一般）／を（助詞−格助詞−一般）／ドラッグ（名詞−一般）／する（動詞−自立）／と（助詞−格助詞−引用）／解析（名詞−サ変接続）／を（助詞−格助詞−一般）／実行（名詞−サ変接続）／し（動詞−自立）／ます（助動詞特殊・マス）／。（記号−句点）」

次に、入出力装置の二値情報判定手段で、テキストデータ解析手段によって解析された単語に所定の品詞が存在するか否かを判定する。
所定の品詞が、助詞であった場合、前述の（１）の例文Ａの例では、「クリア（名詞−サ変接続）／を（助詞−格助詞−一般）／押し（動詞−自立）／て（助詞−接続助詞）／から（助詞−格助詞−一般）／文（名詞−一般）／入力（名詞−サ変接続）／し（動詞−自立）／て（助詞−接続助詞）／ください（動詞−非自立）／。（記号−句点）」のように、単語の区切りと品詞の種類が解析されるので、所定の品詞である助詞は、を（助詞−格助詞−一般），て（助詞−接続助詞），から（助詞−格助詞−一般），て（助詞−接続助詞）の４語が出現していることがわかる。
これらのうち、を（助詞−格助詞−一般）と、て（助詞−接続助詞）が２回出現しているが、本実施例１の入出力装置では、それぞれを出現１回としてカウントしている。

そして入出力装置は、解析された単語に所定の品詞が存在するか否かを判定する二値情報判定結果から、主観的ページを正例、非主観的ページを負例として、機械学習を行うのである。
実施例１では、機械学習手段の機械学習アルゴリズムとして、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）を用いている。なお、後述する実施例２において、機械学習手段の機械学習アルゴリズムとして、アダブーストを用いて、かつ、品詞レベルで偏った単語を取り除くことを行っている。

（実施例１の入出力装置の情報検索の性能評価）
[性能評価結果１]
ＳＶＭ方法では素性とその重みはベクトルとして表される。そして、機械学習はベクトルに基づいて実行される。性能評価においては、２種類の重みを使っている。１つ目は、ブール値（１または０）であり、重みとして素性が存在するか否かである。２つ目のものは、素性がページ中で観察される頻度である。重みの与え方によるＳＶＭの性能比較を図２に示す。図２のグラフにおいて、水平軸は、全部のＷｅｂページの量のパーセンテージで、学習用テキストデータの量を示す。また垂直軸は、Ｆ値（性能指標）を示す。実線は、重みとしてブール値を使っているＳＶＭの性能を意味している。一方、点線は、重みとして頻度を使っているＳＶＭの性能を意味している。
重みとしてブール値を使っている場合（実線で示すもの）のＳＶＭの性能は、重みとして頻度を使っているＳＶＭの性能を常に上回っている。
これから、本発明の入出力装置が、従来法よりも情報検索性能が向上していることが理解されよう。

（実施例２の入出力装置の構成）
次に、実施例２にかかる本発明の入出力装置の構成を説明する。図３は、実施例２に係る入出力装置の基本構成を模式的に示した図である。
図３に示すように、実施例２に係る入出力装置は、
テキストデータを入力する入力手段と、
２）入力手段によって入力されたテキストデータから単語の区切りと品詞の種類を解析するテキストデータ解析手段と、
３）解析で得られた品詞の種類から、一般的な名詞（名詞−一般）、サ変接続を行う名詞（名詞−サ変接続）、記号やシンボル、固有名詞（名詞−固有名詞）、若しくは未知語を取り除く手段と、
４）取り除かれた後のテキストデータに所定の品詞が存在するか否かを判定する二値情報判定手段と、
５）二値情報判定手段で得られる二値情報を分類し機械学習する機械学習手段と、
を備えており、Ｗｅｂページに含まれるテキストデータが入力されると、主観的ページと非主観的ページを分離判断して出力できる構成となっている。

実施例１の入出力装置の構成と異なる点は、３）の特定の品詞を取り除く手段が設けられている点である。特定の品詞を取り除いて、所定の品詞が存在するか否かを判定する二値情報判定手段で、常に適切な判断を持続し、情報検索性能が高い判断が可能となるのである。

（実施例２の入出力装置の情報検索の性能評価）
[性能評価結果２]
次に、機械学習手段の機械学習アルゴリズムにＳＶＭとアダブーストの両方を用いて、日本語テキストデータを有するＷｅｂページを主観的ページと非主観的ページに分類した場合における性能評価結果について説明する。
本実施例２では、形態素解析を行っており、その形態素解析手段として、奈良先端科学技術大学院大学で開発された形態素解析ツールChaSen（茶筌）を用いている。ChaSen（茶筌）は、形態素（図中、Featureとして表す。）、品詞（ＰＯＳ：Part of speech）、発音，活用，連接情報を出力することから、今回は、機械学習のためにChaSen（茶筌）の出力結果に基づく３つのタイプの素性を利用した。各々の素性において使われるChaSen（茶筌）の出力は、下記表１で示される。

ここで、ＢＯＷ１（ＢＯＷ：Bag of word）は、素性としてChaSen（茶筌）の出力の形態素だけを使うことを意味する。この場合、形態素のつづり方が同じであれば、たとえ品詞が異なるとしても、同じ素性として扱われる。また、ＢＯＷ２は、素性として形態素と品詞のセットを使う。この場合、形態素のつづり方は同じであっても、品詞の部分が異なれば、別の一つの素性として扱われる。そして、ＢＯＷ３は、素性としてChaSen（茶筌）の全ての出力のセットを使う。

図４，５を参照して、ＳＶＭとアダブーストの検索分類性能の比較を示す。図４，図５はそれぞれクローズドな学習用データセットに関する検索分類性能の比較を示すグラフ図とオープンなテスト用データセットに関する検索分類性能の比較を示すグラフ図を示している。
これらの図表において、Ａは正確性（accuracy），Ｐは精度（precision），Ｒは再現率（recall），ＦはＦ値（性能指標）を意味している。本実施例においては、線形カーネル（ＳＶＭ１）と多項式のカーネル（ＳＶＭ２）を使用した。また、ＡＢはアダブーストを意味している。また、ＢＯＷ１，ＢＯＷ２，ＢＯＷ３は、上述したような素性のタイプを表している。なお、Ｐ（精度）とＲ（再現率）とＦ値（性能指標）の関係を図６に示す。

クローズドな学習用テキストデータを入力した場合、図４に示されるように、アダブーストを使用した実施例２の入出力装置による分類性能は、１００％という値を示している。
しかし、一方で、オープンなテスト用テキストデータを入力した場合、図５に示されるように、アダブーストを使用した実施例２の入出力装置による分類性能は低下している。
但し、ＳＶＭを使用する場合でも、ＳＶＭ１、ＳＶＭ２の結果からわかるように、オープンなテスト用テキストデータを入力した場合は分類性能が低下してしまう。
ここで、着目すべきは、オープンなテスト用テキストデータを入力した場合でも、図５に示されるように、アダブーストを使用した実施例２の入出力装置による精度（Ｐ）は、１００％を示している。オープンなテスト用テキストデータを入力した場合、未知のデータであるため当然Ｆ値や再現率（Ｒ）は低くなってしまう。ここではＦ値よりも正確性（Ａ：accuracy）の方が重要となる。Ｆ値は、正例を正例として判断できたかどうかしか評価していないが、正確性（Ａ：accuracy）の方は、正例は正例として、負例は負例として判断できたかどうかを評価するからである。図５に示されるように、正確性（Ａ：accuracy）は、７５％ぐらいの良い性能を示している。

次に、図７は、ＢＯＷ２の場合にアダブーストによって選ばれる仮説のうちのトップ5の品詞を示している。
図７から、ニュースページや日記ページに特有に現れる素性が、仮説に選ばれると考えた。
つまり、「日記」、「コメント」または「バック」は、日記のジャンルに属しているページに存在し、「バック」は、「トラックバック」または「バックナンバー」の形態素であった。
「問い合わせ」と「Ｃ」は、ニュースのジャンルに属しているページに存在し、「Ｃ」は、「著作権(Ｃ)」の形態素であった。これらの語は、主に、Ｗｅｂページのテキスト以外の部分で現れた。
上述の点を加味して、以下に説明するように、２つの方策により、ＳＶＭとアダブーストの分類性能の低下を回避することに成功した。

（方策１）一般的な名詞（名詞−一般）、サ変接続を行う名詞（名詞−サ変接続）、記号やシンボル、固有名詞（名詞−固有名詞）、若しくは未知語を取り除く。
（方策２）品詞が助詞または助動詞であるものを選ぶ。

上記のそれぞれの（方策１），（方策２）を使用して、クローズドな学習用データを入力した場合における、検索分類性能を示したテーブルを図８（方策１）（方策２）に示す。図８から、（方策１）と（方策２）とでは殆ど差はなく非常に高い性能値を示している。若干、（方策１）に比べて（方策２）は検索分類性能が２％〜３％低下していることが理解される。

また、上記のそれぞれの（方策１），（方策２）を使用して、オープンなテスト用データを入力した場合における、検索分類性能を示したテーブルを図９（方策１）（方策２）に示す。図９から、（方策１）に比べて（方策２）は検索分類性能が大幅に向上していることが理解される。

実施例１の入出力装置に対して、上記（方策１）と（方策２）を施したものと、実施例２の入出力装置に対して、上記（方策１）と（方策２）を施したものとについて、検索分類性能をまとめたものを下記表２と表３に示す。
収集したページに偏って出現する素性を取り除いた結果（アダブーストを使用したケース）、表３に示すような性能が得られた。また、表２，表３共に方策１の方が、方策２よりもＰ(精度)，Ｒ（再現率），Ｆ（評価指標Ｆ値）の値が大きいことがわかる。このことから、方策２のように助詞，助動詞だけではまだ情報が不足していることがわかる。また、副詞，形容詞などが影響していることが考えられる。

（実施例３の入出力装置の構成）
次に、実施例３にかかる本発明の入出力装置の構成を説明する。図１０は、実施例３に係る入出力装置の基本構成を模式的に示した図である。
図１０に示すように、実施例３の入出力装置は、テキストデータを入力する入力手段と、入力手段によって入力されたテキストデータから単語の区切りと品詞の種類を解析するテキストデータ解析手段と、テキストデータ解析手段によって解析されたテキスト文の語尾の単語の品詞が特定の品詞か否かを判定する二値情報判定手段と、二値情報判定手段で得られる二値情報を分類し機械学習する機械学習手段とを備えており、Ｗｅｂページに含まれるテキストデータが入力されると、主観的ページと非主観的ページを分離判断して出力できる構成となっている。
ここで、テキスト文の語尾の単語の品詞が特定の品詞か否かの判定について、以下に例文を挙げながら入出力装置の処理について説明する。

例えば、「今日はとてもいい天気だね」と「今日は非常によい天気です」のように、「とても」(副詞)，「非常に」(副詞)，「いい」(副詞)，「よい」(副詞)，「ね」(助詞)，「です」(判定詞)などのように口語と文語では出現する単語が異なるのである。

以上、実施例１〜実施例３に示した本発明の入出力装置によれば、任意の日本語テキストデータを含むＷｅｂページを主観的ページと非主観的ページに従来よりも高い性能で分類することができる。
最後に、本発明の入出力装置を利用したシステム概念図を図１１に示す。
図１１は、本発明の入出力装置を、インターネット上のＷｅｂページの検索エンジンに利用したシステムを示している。
本発明の入出力装置は、検索エンジンサーバ装置１に搭載されており、検索エンジンサーバ装置１はインターネット上のＷＷＷ（World Wide Web）サーバ装置３を探索してＷｅｂページを収集する。この収集されたＷｅｂページからＨＴＭＬタグが取り除かれ、更に、漢字コードが統一されて、本発明の入出力装置にテキストデータが入力される。
そして、本発明の入出力装置で上述したような形態素解析処理が行われて、インターネット上の各Ｗｅｂページに、主観的若しくは非主観的の属性が割り付けられるのである。
Ｗｅｂブラウジング用端末２は、検索エンジンの結果を表示するＷｅｂ閲覧画面において、画面フレームに、主観的と非主観的の意味を有する選択ボタンが設けられている。画面上で主観的ボタンが選択された場合、検索エンジンサーバ装置１から主観的ページの属性を有するＷｅｂページを表示することになる。
検索エンジンサーバ装置１内の本発明の入出力装置は、予めＷｅｂページを収集、ＨＴＭＬタグ除去、漢字コード統一、形態素解析処理を正例と負例について行い、そして形態素解析結果をＳＶＭに素性として与えて学習を行っている。そして学習結果をインターネット上のＷｅｂページ等の未知のデータに対して適用するのである。
以上、本発明の好ましい実施形態を図示して説明してきたが、本発明の技術的範囲を逸脱することなく種々の変更が可能であることは理解されるであろう。

本発明の入出力装置は、Ｗｅｂページなどの情報検索の用途において利用することができる。

実施例１に係る入出力装置の基本構成を模式的に示した図実施例１に係る入出力装置と品詞の頻度を利用する従来法（上述の非特許文献１に開示されている方法）との検索分類性能の比較を示すグラフ図実施例２に係る入出力装置の基本構成を模式的に示した図クローズドな学習用データセットに関する検索分類性能の比較を示すグラフ図オープンなテスト用データセットに関する検索分類性能の比較を示すグラフ図Ｐ（精度）とＲ（再現率）とＦ値（性能指標）の関係図アダブーストによって選択される仮説のトップ５を示すテーブルクローズドな学習用データセットに関する検索分類性能を示すテーブル（方策１と方策２）オープンなテスト用データセットに関する検索分類性能を示すテーブル（方策１と方策２）実施例３に係る入出力装置の基本構成を模式的に示した図本発明の入出力装置を利用したシステム概念図

符号の説明

１検索エンジンサーバ装置
２Ｗｅｂブラウジング用端末
３ＷＷＷサーバ装置
４インターネット

Claims

テキストデータを入力する入力手段と、該入力手段によって入力されたテキストデータから単語の区切りと品詞の種類を解析するテキストデータ解析手段と、該テキストデータ解析手段によって解析された単語に所定の品詞が存在するか否かを判定する二値情報判定手段と、該二値情報判定手段で得られる二値情報を分類し機械学習する機械学習手段とを備え、主観的ページと非主観的ページを分離するようにしたことを特徴とする入出力装置。
テキストデータを入力する入力手段と、該入力手段によって入力されたテキストデータから単語の区切りと品詞の種類を解析するテキストデータ解析手段と、該テキストデータ解析手段によって解析されたテキスト文の語尾の単語の品詞が特定の品詞か否かを判定する二値情報判定手段と、該二値情報判定手段で得られる二値情報を分類し機械学習する機械学習手段とを備え、主観的ページと非主観的ページを分離するようにしたことを特徴とする入出力装置。
前記テキストデータ解析手段は、前記テキストデータを形態素解析装置によって品詞毎に分割する形態素解析手段を備えていることを特徴とする請求項１又は２に記載の入出力装置。
前記機械学習手段の機械学習アルゴリズムとして、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）を用いることを特徴とする請求項１又は２に記載の入出力装置。
前記機械学習手段の機械学習アルゴリズムとして、アダブースト（Ａｄａｂｏｏｓｔ）を用いて、品詞レベルで偏った単語を取り除くことを特徴とする請求項１又は２に記載の入出力装置。
前記二値情報判定手段において、前記テキストデータ解析手段によって解析された単語群から、品詞の任意の部分集合（ｐｏｗｅｒｓｅｔ）を取り除いたものごとに、所定の品詞である単語が存在するか否かを判定する二値情報判定することを特徴とする請求項５に記載の入出力装置。
前記二値情報判定手段において、前記テキストデータ解析手段によって解析された単語から、一般的な名詞、サ変接続を行う名詞、記号やシンボル、固有名詞、若しくは未知語から選択されたいずれか又は全ての品詞を取り除いて、所定の品詞が存在するか否かを判定する二値情報判定することを特徴とする請求項５に記載の入出力装置。
前記テキストデータが日本語テキストデータ若しくは韓国語テキストデータであることを特徴とする請求項１乃至７のいずれか１項に記載の入出力装置。
前記テキストデータが日本語テキストデータであり、かつ、前記特定の品詞が、助詞及び助動詞であることを特徴とする請求項２に記載の入出力装置。
請求項１乃至９のいずれか１項の入出力装置を組み込んだＷｅｂページの検索エンジンであって、インターネット上のＷｅｂページの収集手段と、前記収集手段により収集されたＷｅｂページからＨＴＭＬタグを除去する除去手段と、前記除去手段により生成されたテキストデータの漢字コードを統一する統一手段とを備え、前記統一手段により生成された前記テキストデータが前記入出力装置に入力されることを特徴とする検索エンジン。
請求項１０に記載の検索エンジンの結果を表示するＷｅｂ閲覧画面において、画面フレームに、主観的と非主観的のどちらか一方の意味を有する選択ボタン、若しくは、その両方の選択ボタンを備えたことを特徴とするＷｅｂブラウジング用端末。