JP2007293377A - 主観的ページと非主観的ページを分離する入出力装置 - Google Patents

主観的ページと非主観的ページを分離する入出力装置 Download PDF

Info

Publication number
JP2007293377A
JP2007293377A JP2006071319A JP2006071319A JP2007293377A JP 2007293377 A JP2007293377 A JP 2007293377A JP 2006071319 A JP2006071319 A JP 2006071319A JP 2006071319 A JP2006071319 A JP 2006071319A JP 2007293377 A JP2007293377 A JP 2007293377A
Authority
JP
Japan
Prior art keywords
input
text data
speech
subjective
output device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006071319A
Other languages
English (en)
Inventor
Koichi Doi
晃一 土井
Akira Omori
晃 大森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokyo University of Science
Nara Institute of Science and Technology NUC
Original Assignee
Tokyo University of Science
Nara Institute of Science and Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo University of Science, Nara Institute of Science and Technology NUC filed Critical Tokyo University of Science
Priority to JP2006071319A priority Critical patent/JP2007293377A/ja
Publication of JP2007293377A publication Critical patent/JP2007293377A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】Webページの情報検索において、主観的ページと非主観的ページを分離して検索者に提示する入出力装置を提供する。
【解決手段】テキストデータを入力する入力手段と、該入力手段によって入力されたテキストデータから単語の区切りと品詞の種類を解析するテキストデータ解析手段と、該テキストデータ解析手段によって解析された単語に所定の品詞が存在するか否かを判定する二値情報判定手段と、該二値情報判定手段で得られる二値情報を分類し機械学習する機械学習手段とを備え、主観的ページと非主観的ページを分離する。
【選択図】図1

Description

本発明は、インターネットにおけるWebページなどの情報検索技術に関するもので、特に、Webページを主観的ページと非主観的ページとに予め分離する入出力装置に関するものである。
インターネットの爆発的な普及により、現在、膨大なWebページが存在している状況となっている。それに伴い、ユーザが必要とする情報が含まれているWebページを探し出すには、多大な時間と労力が必要となっている。
そのため、インターネット上の膨大なWebページから目的とするページを検索できるサービスをするサイト(検索エンジン)が多数存在しており、ユーザはこれら検索エンジンを利用して必要とする情報を探している。この検索エンジンを利用した検索の場合、探したい情報が含まれるWebページに関係がありそうな単語を入力して、検索エンジンデータベースを参照し、単語あるいはそれを抽象化したものを手がかりとして情報検索している。
一方で、非特許文献1において、Webページを探索するための問題に対処すべく、Webページ作成者の意図という観点から、Webページ上のテキストを分類することによって、効率的にWebページを探索可能(効果的なブラウジングが可能)であることが指摘されている。また、非特許文献1では、意図という観点からテキスト分類するためには、テキスト中のどういった言語的情報(名詞、動詞などの品詞情報)が有効に機能するかを示唆している。
結論として、この非特許文献1には、Webページ作成者の意図という観点からの分類にとっては、名詞以外の品詞となる単語の頻度に着目することで、効率よく分類できることが報告されている。
「WWW探索支援のための記述意図によるテキスト分類」(言語処理学会第9回年次大会発表論文集,p505−508,木村託巳、山田寛康、島津彰(2003)
現在のWebページの情報検索において、検索用のキーワードを入力しても、目的とするWebページがすぐにヒットすることは稀で、殆どの場合、検索エンジンを用いた検索結果には主観的なページと非主観的なページが混在して画面に表示出力されている。
例えば、検索エンジンとしてGOOGLE(登録商標)を用いて、“XXX大学”をキーワードにして検索すると、XXX大学の公式ホームページとXXX大学に関する日記のページが混在して表示出力される。ユーザ(検索者)がXXX大学の住所を知りたいのであればXXX大学の公式ホームページの表示が必要であり、検索者がこれから入学を考えている学生であり、大学での生活の様子を知りたいのであれば、XXX大学に関する日記のページが表示されるべきである。
このような要求を満足するためには、主観的ページ(日記のページなど)と非主観的ページ(大学の公式ホームページなど)を分離して検索者に提示する仕組みが必要となる。
上記問題点に鑑み、本発明は、Webページの情報検索において、主観的ページと非主観的ページを分離して検索者に提示する入出力装置を提供することを目的とする。
上記目的を達成するため、本発明の第1の観点の入出力装置は、テキストデータを入力する入力手段と、該入力手段によって入力されたテキストデータから単語の区切りと品詞の種類を解析するテキストデータ解析手段と、該テキストデータ解析手段によって解析された単語に所定の品詞が存在するか否かを判定する二値情報判定手段と、該二値情報判定手段で得られる二値情報を分類し機械学習する機械学習手段とを備え、主観的ページと非主観的ページを分離するようにしたことを特徴とするものである。
本発明者らは、膨大な数のWebページから、主観的ページと非主観的ページを自動的に分離することを目標として鋭意研究を行った結果、Webページに含まれるテキストデータ中の単語の出現回数(品詞の頻度)情報を用いないで、所定の品詞の存在有無のみの二値情報を用いて主観的と非主観的に分類することの方が、品詞の頻度を利用する従来法(上述の非特許文献1に開示されている方法)よりも、情報検索の性能が向上することの知見を得たのである。
ここで、情報検索の性能(テキスト分類法の性能)には、精度(P:Precision),再現率(R:recall)の数値から算出されるF値を性能指標として用いている。
また、上記のテキストデータ解析手段は、テキストデータを形態素解析装置によって品詞毎に分割する形態素解析手段を備えていることが好ましい。形態素解析 (Morphological analysis) は、与えられた文を形態素(テキストデータの中で分割可能な最小単位、ほぼ単語に相当する)に分ける処理であるが、この処理には、それぞれの形態素がどの品詞に対応するかという対応づけも含まれるため、単語の区切りと品詞の種類を同定することが可能となるからである。この形態素解析装置には様々なものがあるが、後述の実施例では、一例として、奈良先端科学技術大学院大学で開発された形態素解析ツールChaSen(茶筌)を用いている。
また、上記機械学習手段の機械学習アルゴリズムとしては、SVM(Support Vector Machine)を用いることが好ましい。
SVMは汎化性能に優れており、また、高次元で複雑な分離問題に容易に対応可能であることから、多くの素性を扱うことができるからである。
また、上記機械学習手段の機械学習アルゴリズムとして、アダブースト(Adaboost)を用いて、かつ、品詞レベルで偏った単語を取り除くことがより好ましい。
ここで、アダブースト(Adaboost)とは、どの素性が分類に効果的であるかを知ることができるアルゴリズムで、結果として学習用データセット内で偏った素性の省略を行えるアルゴリズムである。
膨大な数のWebページを学習する中で、偏った学習にならないようにするために、偏った素性の省略を行うアルゴリズムであるアダブーストを用いるのである。このアダブーストを用いることで、汎用の(学習用データセット外の)Webページをより効率的に探索することが可能となる。
そして、このアダブーストを用いる場合、好ましくは、二値情報判定手段において、テキストデータ解析手段によって解析された単語群から、品詞の任意の部分集合(power set)を取り除いたものごとに、所定の品詞である単語が存在するか否かを判定する二値情報判定を行うことが良い。
取り除く品詞群は、好ましくは、一般的な名詞、サ変接続を行う名詞、記号やシンボル、固有名詞、若しくは未知語から選択されたいずれか又は全ての品詞がよい。
これにより、常に適切な判断を持続し、性能が高い判断が可能となるからである。
また、本発明の第2の観点の入出力装置は、テキストデータを入力する入力手段と、該入力手段によって入力されたテキストデータから単語の区切りと品詞の種類を解析するテキストデータ解析手段と、該テキストデータ解析手段によって解析されたテキスト文の語尾の単語の品詞が特定の品詞か否かを判定する二値情報判定手段と、該二値情報判定手段で得られる二値情報を分類し機械学習する機械学習手段とを備え、主観的ページと非主観的ページを分離するようにしたことを特徴とするものである。
この本発明の入出力装置では、テキストデータが日本語テキストデータ若しくは韓国語テキストデータであることが好ましい。
日本語テキストデータや韓国語テキストデータは、英語や中国語などと異なり、口語と文語の差が大きい言語であり、語尾などによって口語と文語を分類可能な言語であるからである。
また、テキストデータが日本語テキストデータの場合には、前記特定の品詞が、助詞及び助動詞であることが好ましい。情報検索の性能をより高めることができるからである。
また、本発明の検索エンジンは、上記の入出力装置を組み込んだWebページの検索エンジンであって、インターネット上のWebページの収集手段と、前記収集手段により収集されたWebページからHTMLタグを除去する除去手段と、前記除去手段により生成されたテキストデータの漢字コードを統一する統一手段とを備え、前記統一手段により生成された前記テキストデータが前記入出力装置に入力されることを特徴とする。
本発明の入出力装置をWebページなどの検索エンジンに利用することにより、Webページの情報検索において、主観的ページと非主観的ページを分離して検索者に提示する目的を達成させるものである。
また、本発明のWebブラウジング用端末は、上記の検索エンジンの結果を表示するWeb閲覧画面において、画面フレームに、主観的と非主観的のどちらか一方の意味を有する選択ボタン、若しくは、その両方の選択ボタンを備えたことを特徴とする。
ここで、画面フレームに、主観的と非主観的のどちらか一方の意味を有する選択ボタンとは、例えば、「主観的」というボタンで、ボタンを押す度に主観的ページの検索結果リスト要求と非主観的ページの検索結果リスト要求が切り替わるものである。
また、その両方の選択ボタンとは、例えば、「主観的」と「非主観的」が両方表示され、ラジオボタンなどで選択できるというようなものである。
本発明の入出力装置によれば、任意の日本語のWebページを主観的ページと非主観的ページに分類することができる。また、この分類は自動的に行えるため、検索エンジンに組み込むことが可能であり、更に、検索エンジンがWebページを収集する時に予め分類することができるため、検索時に分類を行うことがないことから検索時間に影響を与えることがない。
またWebページの閲覧者のユーザ・インターフェイスとして、「主観的」「非主観的」ボタンをWeb閲覧ソフト側に設けることで、簡単に操作が行えるといった効果もある。
以下、図面を参照しつつ、本発明の入出力装置の実施例を説明する。ただし、本発明の技術的範囲は以下の実施例に示した具体的な用途に限定されるものではない。
(学習用データセットの作成方法)
本発明の入出力装置の実施例を説明する前に、先ず本発明の入出力装置に使用する学習用データセットの作成方法について説明を行う。
学習用データセットの作成は、任意に収集した日本語のWebページを以下の14のジャンルに分類することから始まる。
この分類する14のジャンルというのは、予測、スローガン、批評、解説、ニュース、印象、情宣、Q&A、ドキュメンテーション、広告、マニュアル、用語説明、案内・紹介、その他に属するWebページである。
そして、主観的なWebページとして、個々の意見または何かについての印象を示すものであると定義して、予測(例えば、株価予想)、スローガン(例えば、商品スローガン)、批評(例えば、社会的な批判)、印象(例えば、個人の経験の物語、日記)と情宣(例えば、政府の党組織)のジャンルを主観的ページと取り扱っている。
また、一方、非主観的なWebページとして、主観的でないWebページであると定義して、解説(例えば、自然法則とその解説)、ニュース(例えば、見出しまたはニュース記事)、ドキュメンテーション(例えば、研究報告、会議録、ゲームまたはスポーツの結果)、広告(例えば、製品またはサービスを特定する情報)、マニュアル(例えば、パソコンの取扱説明書)と用語説明(例えば、歴史上の人の、史跡の、または、文化的な遺産の説明)のジャンルを非主観的ページと取り扱っている。
以上の主観的ページと非主観的ページの収集と分類決定は、複数人で行い、各々の作業は手作業で独立して実施した。その結果、1,000の主観的ページと1,000の非主観的ページを含んだ学習用データセットを作成した。なお、各々のウェブページのジャンルについての決定は、複数人の人の間で一致している。
上述したように、主観的ページと非主観的ページを手作業で集め、二人以上の判断が一致したものをベースに学習用データセットを作成した。こうして作成した学習用データセットをクローズドな学習用データセットと定義した。
また一方、オープンなテスト用データセットとして、今回は既存のWebページ集合として、NTCIR−3 WEB(以下、NTCIR−3という。)を採用した。
NTCIR−3は、「.jp」領域から主に集められるWebページから構成される。そのデータサイズはおよそ120GBであり、11,034,409のWebページを含む集合である。NTCIR−3からランダムにおよそ340のWebページを選定し、オープンなテスト用データセットを準備した。そして、クローズドな学習用データセットと同様に14のジャンルに分類し、最終的に100のWebページからなるオープンなテスト用データセットを作成した。
次に、それら学習用/テスト用データセットに存在するWebページからHTML(Hyper Text Markup Language)タグを取り除き、さらに漢字コードを統一した。
学習用/テスト用データセットの各WebページデータからHTMLを取り除くのは、本発明の入出力装置では、日本語のテキストから単語、品詞の存在有無を判断して、主観的ページと非主観的ページを分離するためである。
漢字コードの統一には、ネットワークでメールやニュースの読み書きをするために作られた漢字コードの変換フィルタであるNKF(Network Kanji code conversion Filter)を用いて、EUC(Extended Unix Code)の漢字コード体系に統一した。なお、統一する漢字コード体系は、他の漢字コード体系、例えば、JIS、Shift-JIS、Unicodeであっても構わない。(Unixは登録商標である。)
また、漢字コードを統一するのは、本発明の入出力装置のテキストデータ解析手段を簡素化するためである。今回は、予め漢字コードを統一した入力データを与えることとしたが、本発明の入出力装置の機能として漢字コードの変換処理機能を持たせてもよい。
(実施例1の入出力装置の構成)
実施例1にかかる本発明の入出力装置の構成を説明する。図1は、実施例1に係る入出力装置の基本構成を模式的に示した図である。
図1に示すように、実施例1に係る入出力装置は、テキストデータを入力する入力手段と、入力手段によって入力されたテキストデータから単語の区切りと品詞の種類を解析するテキストデータ解析手段と、テキストデータ解析手段によって解析された単語に所定の品詞が存在するか否かを判定する二値情報判定手段と、二値情報判定手段で得られる二値情報を分類し機械学習する機械学習手段とを備えており、Webページに含まれるテキストデータが入力されると、主観的ページと非主観的ページを分離判断して出力できる構成となっている。
ここで、所定の品詞が存在するか否かの判定について、以下に3つの例文を挙げながら入出力装置の処理について詳細に説明する。
例えば、次のテキストデータが実施例1に係る入出力装置に入力されたとする。
・例文A:「クリアを押してから文を入力してください。」
・例文B:「ドラッグ&ドロップでテキストをコピーできます。」
・例文C:「ファイルをドラッグすると解析を実行します。」
テキストデータが入力されると、入出力装置のテキストデータ解析手段が、入力されたテキストデータから単語の区切りと品詞の種類を解析する。解析内容を下記(1)〜(3)に示す。
(1)例文Aの解析
「クリア(名詞−サ変接続)/を(助詞−格助詞−一般)/押し(動詞−自立)/て(助詞−接続助詞)/から(助詞−格助詞−一般)/文(名詞−一般)/を(助詞−格助詞−一般)/入力(名詞−サ変接続)/し(動詞−自立)/て(助詞−接続助詞)/ください(動詞−非自立)/。(記号−句点)」
(2)例文Bの解析
「ドラッグ(名詞−一般)/&(記号−一般)/ドロップ(名詞−一般)/で(助詞−格助詞−一般)/テキスト(名詞−一般)/を(助詞−格助詞−一般)/コピー(名詞−サ変接続)/でき(動詞−自立)/ます(助動詞 特殊・マス)/。(記号−句点)」
(3)例文Cの解析
「ファイル(名詞−一般)/を(助詞−格助詞−一般)/ドラッグ(名詞−一般)/する(動詞−自立)/と(助詞−格助詞−引用)/解析(名詞−サ変接続)/を(助詞−格助詞−一般)/実行(名詞−サ変接続)/し(動詞−自立)/ます(助動詞 特殊・マス)/。(記号−句点)」
次に、入出力装置の二値情報判定手段で、テキストデータ解析手段によって解析された単語に所定の品詞が存在するか否かを判定する。
所定の品詞が、助詞であった場合、前述の(1)の例文Aの例では、「クリア(名詞−サ変接続)/を(助詞−格助詞−一般)/押し(動詞−自立)/て(助詞−接続助詞)/から(助詞−格助詞−一般)/文(名詞−一般)/入力(名詞−サ変接続)/し(動詞−自立)/て(助詞−接続助詞)/ください(動詞−非自立)/。(記号−句点)」のように、単語の区切りと品詞の種類が解析されるので、所定の品詞である助詞は、を(助詞−格助詞−一般),て(助詞−接続助詞),から(助詞−格助詞−一般),て(助詞−接続助詞)の4語が出現していることがわかる。
これらのうち、を(助詞−格助詞−一般)と、て(助詞−接続助詞)が2回出現しているが、本実施例1の入出力装置では、それぞれを出現1回としてカウントしている。
そして入出力装置は、解析された単語に所定の品詞が存在するか否かを判定する二値情報判定結果から、主観的ページを正例、非主観的ページを負例として、機械学習を行うのである。
実施例1では、機械学習手段の機械学習アルゴリズムとして、SVM(Support Vector Machine)を用いている。なお、後述する実施例2において、機械学習手段の機械学習アルゴリズムとして、アダブーストを用いて、かつ、品詞レベルで偏った単語を取り除くことを行っている。
(実施例1の入出力装置の情報検索の性能評価)
[性能評価結果1]
SVM方法では素性とその重みはベクトルとして表される。そして、機械学習はベクトルに基づいて実行される。性能評価においては、2種類の重みを使っている。1つ目は、ブール値(1または0)であり、重みとして素性が存在するか否かである。2つ目のものは、素性がページ中で観察される頻度である。重みの与え方によるSVMの性能比較を図2に示す。図2のグラフにおいて、水平軸は、全部のWebページの量のパーセンテージで、学習用テキストデータの量を示す。また垂直軸は、F値(性能指標)を示す。実線は、重みとしてブール値を使っているSVMの性能を意味している。一方、点線は、重みとして頻度を使っているSVMの性能を意味している。
重みとしてブール値を使っている場合(実線で示すもの)のSVMの性能は、重みとして頻度を使っているSVMの性能を常に上回っている。
これから、本発明の入出力装置が、従来法よりも情報検索性能が向上していることが理解されよう。
(実施例2の入出力装置の構成)
次に、実施例2にかかる本発明の入出力装置の構成を説明する。図3は、実施例2に係る入出力装置の基本構成を模式的に示した図である。
図3に示すように、実施例2に係る入出力装置は、
テキストデータを入力する入力手段と、
2)入力手段によって入力されたテキストデータから単語の区切りと品詞の種類を解析するテキストデータ解析手段と、
3)解析で得られた品詞の種類から、一般的な名詞(名詞−一般)、サ変接続を行う名詞(名詞−サ変接続)、記号やシンボル、固有名詞(名詞−固有名詞)、若しくは未知語を取り除く手段と、
4)取り除かれた後のテキストデータに所定の品詞が存在するか否かを判定する二値情報判定手段と、
5)二値情報判定手段で得られる二値情報を分類し機械学習する機械学習手段と、
を備えており、Webページに含まれるテキストデータが入力されると、主観的ページと非主観的ページを分離判断して出力できる構成となっている。
実施例1の入出力装置の構成と異なる点は、3)の特定の品詞を取り除く手段が設けられている点である。特定の品詞を取り除いて、所定の品詞が存在するか否かを判定する二値情報判定手段で、常に適切な判断を持続し、情報検索性能が高い判断が可能となるのである。
(実施例2の入出力装置の情報検索の性能評価)
[性能評価結果2]
次に、機械学習手段の機械学習アルゴリズムにSVMとアダブーストの両方を用いて、日本語テキストデータを有するWebページを主観的ページと非主観的ページに分類した場合における性能評価結果について説明する。
本実施例2では、形態素解析を行っており、その形態素解析手段として、奈良先端科学技術大学院大学で開発された形態素解析ツールChaSen(茶筌)を用いている。ChaSen(茶筌)は、形態素(図中、Featureとして表す。)、品詞(POS:Part of speech)、発音,活用,連接情報を出力することから、今回は、機械学習のためにChaSen(茶筌)の出力結果に基づく3つのタイプの素性を利用した。各々の素性において使われるChaSen(茶筌)の出力は、下記表1で示される。
ここで、BOW1(BOW:Bag of word)は、素性としてChaSen(茶筌)の出力の形態素だけを使うことを意味する。この場合、形態素のつづり方が同じであれば、たとえ品詞が異なるとしても、同じ素性として扱われる。また、BOW2は、素性として形態素と品詞のセットを使う。この場合、形態素のつづり方は同じであっても、品詞の部分が異なれば、別の一つの素性として扱われる。そして、BOW3は、素性としてChaSen(茶筌)の全ての出力のセットを使う。
図4,5を参照して、SVMとアダブーストの検索分類性能の比較を示す。図4,図5はそれぞれクローズドな学習用データセットに関する検索分類性能の比較を示すグラフ図とオープンなテスト用データセットに関する検索分類性能の比較を示すグラフ図を示している。
これらの図表において、Aは正確性(accuracy),Pは精度(precision),Rは再現率(recall),FはF値(性能指標)を意味している。本実施例においては、線形カーネル(SVM1)と多項式のカーネル(SVM2)を使用した。また、ABはアダブーストを意味している。また、BOW1,BOW2,BOW3は、上述したような素性のタイプを表している。なお、P(精度)とR(再現率)とF値(性能指標)の関係を図6に示す。
クローズドな学習用テキストデータを入力した場合、図4に示されるように、アダブーストを使用した実施例2の入出力装置による分類性能は、100%という値を示している。
しかし、一方で、オープンなテスト用テキストデータを入力した場合、図5に示されるように、アダブーストを使用した実施例2の入出力装置による分類性能は低下している。
但し、SVMを使用する場合でも、SVM1、SVM2の結果からわかるように、オープンなテスト用テキストデータを入力した場合は分類性能が低下してしまう。
ここで、着目すべきは、オープンなテスト用テキストデータを入力した場合でも、図5に示されるように、アダブーストを使用した実施例2の入出力装置による精度(P)は、100%を示している。オープンなテスト用テキストデータを入力した場合、未知のデータであるため当然F値や再現率(R)は低くなってしまう。ここではF値よりも正確性(A:accuracy)の方が重要となる。F値は、正例を正例として判断できたかどうかしか評価していないが、正確性(A:accuracy)の方は、正例は正例として、負例は負例として判断できたかどうかを評価するからである。図5に示されるように、正確性(A:accuracy)は、75%ぐらいの良い性能を示している。
次に、図7は、BOW2の場合にアダブーストによって選ばれる仮説のうちのトップ5の品詞を示している。
図7から、ニュースページや日記ページに特有に現れる素性が、仮説に選ばれると考えた。
つまり、「日記」、「コメント」または「バック」は、日記のジャンルに属しているページに存在し、「バック」は、「トラックバック」または「バックナンバー」の形態素であった。
「問い合わせ」と「C」は、ニュースのジャンルに属しているページに存在し、「C」は、「著作権(C)」の形態素であった。これらの語は、主に、Webページのテキスト以外の部分で現れた。
上述の点を加味して、以下に説明するように、2つの方策により、SVMとアダブーストの分類性能の低下を回避することに成功した。
(方策1)一般的な名詞(名詞−一般)、サ変接続を行う名詞(名詞−サ変接続)、記号やシンボル、固有名詞(名詞−固有名詞)、若しくは未知語を取り除く。
(方策2)品詞が助詞または助動詞であるものを選ぶ。
上記のそれぞれの(方策1),(方策2)を使用して、クローズドな学習用データを入力した場合における、検索分類性能を示したテーブルを図8(方策1)(方策2)に示す。図8から、(方策1)と(方策2)とでは殆ど差はなく非常に高い性能値を示している。若干、(方策1)に比べて(方策2)は検索分類性能が2%〜3%低下していることが理解される。
また、上記のそれぞれの(方策1),(方策2)を使用して、オープンなテスト用データを入力した場合における、検索分類性能を示したテーブルを図9(方策1)(方策2)に示す。図9から、(方策1)に比べて(方策2)は検索分類性能が大幅に向上していることが理解される。
実施例1の入出力装置に対して、上記(方策1)と(方策2)を施したものと、実施例2の入出力装置に対して、上記(方策1)と(方策2)を施したものとについて、検索分類性能をまとめたものを下記表2と表3に示す。
収集したページに偏って出現する素性を取り除いた結果(アダブーストを使用したケース)、表3に示すような性能が得られた。また、表2,表3共に方策1の方が、方策2よりもP(精度),R(再現率),F(評価指標F値)の値が大きいことがわかる。このことから、方策2のように助詞,助動詞だけではまだ情報が不足していることがわかる。また、副詞,形容詞などが影響していることが考えられる。
(実施例3の入出力装置の構成)
次に、実施例3にかかる本発明の入出力装置の構成を説明する。図10は、実施例3に係る入出力装置の基本構成を模式的に示した図である。
図10に示すように、実施例3の入出力装置は、テキストデータを入力する入力手段と、入力手段によって入力されたテキストデータから単語の区切りと品詞の種類を解析するテキストデータ解析手段と、テキストデータ解析手段によって解析されたテキスト文の語尾の単語の品詞が特定の品詞か否かを判定する二値情報判定手段と、二値情報判定手段で得られる二値情報を分類し機械学習する機械学習手段とを備えており、Webページに含まれるテキストデータが入力されると、主観的ページと非主観的ページを分離判断して出力できる構成となっている。
ここで、テキスト文の語尾の単語の品詞が特定の品詞か否かの判定について、以下に例文を挙げながら入出力装置の処理について説明する。
例えば、「今日はとてもいい天気だね」と「今日は非常によい天気です」のように、「とても」(副詞),「非常に」(副詞),「いい」(副詞),「よい」(副詞),「ね」(助詞),「です」(判定詞)などのように口語と文語では出現する単語が異なるのである。
以上、実施例1〜実施例3に示した本発明の入出力装置によれば、任意の日本語テキストデータを含むWebページを主観的ページと非主観的ページに従来よりも高い性能で分類することができる。
最後に、本発明の入出力装置を利用したシステム概念図を図11に示す。
図11は、本発明の入出力装置を、インターネット上のWebページの検索エンジンに利用したシステムを示している。
本発明の入出力装置は、検索エンジンサーバ装置1に搭載されており、検索エンジンサーバ装置1はインターネット上のWWW(World Wide Web)サーバ装置3を探索してWebページを収集する。この収集されたWebページからHTMLタグが取り除かれ、更に、漢字コードが統一されて、本発明の入出力装置にテキストデータが入力される。
そして、本発明の入出力装置で上述したような形態素解析処理が行われて、インターネット上の各Webページに、主観的若しくは非主観的の属性が割り付けられるのである。
Webブラウジング用端末2は、検索エンジンの結果を表示するWeb閲覧画面において、画面フレームに、主観的と非主観的の意味を有する選択ボタンが設けられている。画面上で主観的ボタンが選択された場合、検索エンジンサーバ装置1から主観的ページの属性を有するWebページを表示することになる。
検索エンジンサーバ装置1内の本発明の入出力装置は、予めWebページを収集、HTMLタグ除去、漢字コード統一、形態素解析処理を正例と負例について行い、そして形態素解析結果をSVMに素性として与えて学習を行っている。そして学習結果をインターネット上のWebページ等の未知のデータに対して適用するのである。
以上、本発明の好ましい実施形態を図示して説明してきたが、本発明の技術的範囲を逸脱することなく種々の変更が可能であることは理解されるであろう。
本発明の入出力装置は、Webページなどの情報検索の用途において利用することができる。
実施例1に係る入出力装置の基本構成を模式的に示した図 実施例1に係る入出力装置と品詞の頻度を利用する従来法(上述の非特許文献1に開示されている方法)との検索分類性能の比較を示すグラフ図 実施例2に係る入出力装置の基本構成を模式的に示した図 クローズドな学習用データセットに関する検索分類性能の比較を示すグラフ図 オープンなテスト用データセットに関する検索分類性能の比較を示すグラフ図 P(精度)とR(再現率)とF値(性能指標)の関係図 アダブーストによって選択される仮説のトップ5を示すテーブル クローズドな学習用データセットに関する検索分類性能を示すテーブル(方策1と方策2) オープンなテスト用データセットに関する検索分類性能を示すテーブル(方策1と方策2) 実施例3に係る入出力装置の基本構成を模式的に示した図 本発明の入出力装置を利用したシステム概念図
符号の説明
1 検索エンジンサーバ装置
2 Webブラウジング用端末
3 WWWサーバ装置
4 インターネット

Claims (11)

  1. テキストデータを入力する入力手段と、該入力手段によって入力されたテキストデータから単語の区切りと品詞の種類を解析するテキストデータ解析手段と、該テキストデータ解析手段によって解析された単語に所定の品詞が存在するか否かを判定する二値情報判定手段と、該二値情報判定手段で得られる二値情報を分類し機械学習する機械学習手段とを備え、主観的ページと非主観的ページを分離するようにしたことを特徴とする入出力装置。
  2. テキストデータを入力する入力手段と、該入力手段によって入力されたテキストデータから単語の区切りと品詞の種類を解析するテキストデータ解析手段と、該テキストデータ解析手段によって解析されたテキスト文の語尾の単語の品詞が特定の品詞か否かを判定する二値情報判定手段と、該二値情報判定手段で得られる二値情報を分類し機械学習する機械学習手段とを備え、主観的ページと非主観的ページを分離するようにしたことを特徴とする入出力装置。
  3. 前記テキストデータ解析手段は、前記テキストデータを形態素解析装置によって品詞毎に分割する形態素解析手段を備えていることを特徴とする請求項1又は2に記載の入出力装置。
  4. 前記機械学習手段の機械学習アルゴリズムとして、SVM(Support Vector Machine)を用いることを特徴とする請求項1又は2に記載の入出力装置。
  5. 前記機械学習手段の機械学習アルゴリズムとして、アダブースト(Adaboost)を用いて、品詞レベルで偏った単語を取り除くことを特徴とする請求項1又は2に記載の入出力装置。
  6. 前記二値情報判定手段において、前記テキストデータ解析手段によって解析された単語群から、品詞の任意の部分集合(power set)を取り除いたものごとに、所定の品詞である単語が存在するか否かを判定する二値情報判定することを特徴とする請求項5に記載の入出力装置。
  7. 前記二値情報判定手段において、前記テキストデータ解析手段によって解析された単語から、一般的な名詞、サ変接続を行う名詞、記号やシンボル、固有名詞、若しくは未知語から選択されたいずれか又は全ての品詞を取り除いて、所定の品詞が存在するか否かを判定する二値情報判定することを特徴とする請求項5に記載の入出力装置。
  8. 前記テキストデータが日本語テキストデータ若しくは韓国語テキストデータであることを特徴とする請求項1乃至7のいずれか1項に記載の入出力装置。
  9. 前記テキストデータが日本語テキストデータであり、かつ、前記特定の品詞が、助詞及び助動詞であることを特徴とする請求項2に記載の入出力装置。
  10. 請求項1乃至9のいずれか1項の入出力装置を組み込んだWebページの検索エンジンであって、インターネット上のWebページの収集手段と、前記収集手段により収集されたWebページからHTMLタグを除去する除去手段と、前記除去手段により生成されたテキストデータの漢字コードを統一する統一手段とを備え、前記統一手段により生成された前記テキストデータが前記入出力装置に入力されることを特徴とする検索エンジン。
  11. 請求項10に記載の検索エンジンの結果を表示するWeb閲覧画面において、画面フレームに、主観的と非主観的のどちらか一方の意味を有する選択ボタン、若しくは、その両方の選択ボタンを備えたことを特徴とするWebブラウジング用端末。

JP2006071319A 2006-03-15 2006-03-15 主観的ページと非主観的ページを分離する入出力装置 Pending JP2007293377A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006071319A JP2007293377A (ja) 2006-03-15 2006-03-15 主観的ページと非主観的ページを分離する入出力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006071319A JP2007293377A (ja) 2006-03-15 2006-03-15 主観的ページと非主観的ページを分離する入出力装置

Publications (1)

Publication Number Publication Date
JP2007293377A true JP2007293377A (ja) 2007-11-08

Family

ID=38763983

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006071319A Pending JP2007293377A (ja) 2006-03-15 2006-03-15 主観的ページと非主観的ページを分離する入出力装置

Country Status (1)

Country Link
JP (1) JP2007293377A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011018867A1 (ja) * 2009-08-11 2011-02-17 日本電気株式会社 情報分類装置、情報分類方法、及びコンピュータ読み取り可能な記録媒体
JP2011048622A (ja) * 2009-08-27 2011-03-10 Nippon Telegr & Teleph Corp <Ntt> 高速二値分類システムと方法およびプログラム
JP2017107391A (ja) * 2015-12-09 2017-06-15 東邦瓦斯株式会社 テキストマイニング方法、及びテキストマイニングプログラム
JP2021135855A (ja) * 2020-02-28 2021-09-13 ヤフー株式会社 コンテンツ選択装置、コンテンツ選択方法、およびプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011018867A1 (ja) * 2009-08-11 2011-02-17 日本電気株式会社 情報分類装置、情報分類方法、及びコンピュータ読み取り可能な記録媒体
JP5692074B2 (ja) * 2009-08-11 2015-04-01 日本電気株式会社 情報分類装置、情報分類方法、及びプログラム
US9177260B2 (en) 2009-08-11 2015-11-03 Nec Corporation Information classification device, information classification method, and computer readable recording medium
JP2011048622A (ja) * 2009-08-27 2011-03-10 Nippon Telegr & Teleph Corp <Ntt> 高速二値分類システムと方法およびプログラム
JP2017107391A (ja) * 2015-12-09 2017-06-15 東邦瓦斯株式会社 テキストマイニング方法、及びテキストマイニングプログラム
JP2021135855A (ja) * 2020-02-28 2021-09-13 ヤフー株式会社 コンテンツ選択装置、コンテンツ選択方法、およびプログラム
JP7179033B2 (ja) 2020-02-28 2022-11-28 ヤフー株式会社 コンテンツ選択装置、コンテンツ選択方法、およびプログラム

Similar Documents

Publication Publication Date Title
Asghar et al. Sentence-level emotion detection framework using rule-based classification
Moussa et al. A survey on opinion summarization techniques for social media
KR101005337B1 (ko) 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법
WO2014208213A1 (ja) ノン・ファクトイド型質問応答システムおよび方法
Hua et al. Understanding and detecting supporting arguments of diverse types
Garg et al. Sentiment analysis of twitter feeds
Hu et al. Enhancing accessibility of microblogging messages using semantic knowledge
CN111538828A (zh) 文本情感分析方法、装置、计算机装置及可读存储介质
Adam et al. Sentiment analysis on movie review using Naïve Bayes
JP4426894B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
Carvalho et al. AffectPT-br: an Affective Lexicon based on LIWC 2015
Verhoeven et al. Gender profiling for Slovene Twitter communication: The influence of gender marking, content and style
Simaki et al. Identifying the Authors' National Variety of English in Social Media Texts.
JP3921837B2 (ja) 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法
JP2006134183A (ja) 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体
Tariku et al. Sentiment Mining and Aspect Based Summarization of Opinionated Afaan Oromoo News Text
Gupta A survey of text summarizers for Indian Languages and comparison of their performance
JP2007293377A (ja) 主観的ページと非主観的ページを分離する入出力装置
Jha et al. Hsas: Hindi subjectivity analysis system
Giri et al. A survey of automatic text summarization system for different regional language in India
Sahu et al. Detecting factual and non-factual content in news articles
JP4525433B2 (ja) 文書集約装置及びプログラム
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
WO2010103916A1 (ja) 文書の特徴語提示装置及び特徴語の優先度付与プログラム