JP5366179B2 - 情報の重要度推定システム及び方法及びプログラム - Google Patents

情報の重要度推定システム及び方法及びプログラム Download PDF

Info

Publication number
JP5366179B2
JP5366179B2 JP2008134888A JP2008134888A JP5366179B2 JP 5366179 B2 JP5366179 B2 JP 5366179B2 JP 2008134888 A JP2008134888 A JP 2008134888A JP 2008134888 A JP2008134888 A JP 2008134888A JP 5366179 B2 JP5366179 B2 JP 5366179B2
Authority
JP
Japan
Prior art keywords
information
importance
learning
data
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008134888A
Other languages
English (en)
Other versions
JP2009282795A (ja
Inventor
真樹 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2008134888A priority Critical patent/JP5366179B2/ja
Publication of JP2009282795A publication Critical patent/JP2009282795A/ja
Application granted granted Critical
Publication of JP5366179B2 publication Critical patent/JP5366179B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報の重要度を推定する技術に関する。例えば、二つの記事のうち、どちらの記事の方が重要であるかを推定できる。この推定は、ニュース表示システムなどで記事を重要な順に表示したい場合に利用できる。これは既に発行した新聞記事での記事の配置情報や被験者実験により収集した情報を学習データとして、教師有り機械学習法を利用することで、記事を重要な順番に並べ替えることができる。
新聞記事での記事の配置情報からは学習データを容易に作成できるという効果がある。被験者実験により収集した情報からはより高い精度(7割から9割の精度)を実現できるという効果がある。この両方の情報を組み合わせて利用することで、学習データの作成コストを下げながら精度を向上させるという効果を達成できる。
また、ニュース表示システムに限らず、情報を重要な順番に並べ替えたい場合に利用できる。例えば、風評を収集しこういう風評があるという注意情報を出す会社では、得られた風評の情報を重要度の高い風評の順番に並べ替えることができる。セキュリティ産業の市場規模は5000億円の規模であり、本発明は風評情報を重要度の順に並べ替えることができ、ニーズも大きい。
従来技術で新聞の記事同士の参照関係や、語られる内容の重なり具合を、記事同士のリンク情報とみなして、そのリンク情報を利用して重要な論文を求める技術はあった(非特許文献1参照)。このリンク情報に基づいて推定する方法では、内容面を利用する細かい学習が行えないという問題があった。
Yang Hu, Mingjing Li, Zhiwei Li, and Wei-Ying Ma. 2006. Discovering authoritative news sources and top news stories. In AIRS 2006, pages 230 - 243.
上記従来のリンク情報に基づいて推定する方法では、内容面を利用する細かい学習が行えないという問題があった。
本発明は上記問題点の解決を図り、本発明の手法では、教師有り機械学習法を利用することで内容の細かいところも利用できるようにすること、及び、入力の情報も自由に調整できるため、入力に分野の情報、人の情報、立場の情報を与え、分野の情報、人の情報、立場の情報もあわせた情報の重要度を求めることを目的とする。
図1は情報の重要度推定システムの説明図である。図1中、1は入力部(入力手段)、2は処理部(処理手段)、3は表示部(出力手段)、4は学習部(機械学習手段)、5は格納手段(学習データ)、6は追加情報である。
本発明は、前記従来の課題を解決するため次のような手段を有する。
予め重要度が分かっている複数の情報を学習データとして学習する機械学習手段4と、情報を入力する入力手段1と、情報の重要度を推定する処理手段2と、情報の重要度の出力を行う出力手段3とを備え、前記処理手段2は、前記入力手段1より入力された新たな情報を前記機械学習手段4の学習結果により重要度を推定し、前記出力手段3により出力する。このため、教師有り機械学習法を利用することで内容の細かいところも利用できるようにすること、及び、入力の情報も自由に調整できるため、入力に分野の情報、人の情報、立場の情報を与え、分野の情報、人の情報、立場の情報もあわせた情報の重要度を求めることができる。
本発明によれば次のような効果がある。
処理手段で、入力手段より入力された新たな情報を機械学習手段の学習結果により重要度を推定し、出力手段により出力するため、教師有り機械学習法を利用することで内容の細かいところも利用できるようにすることができ、入力の情報も自由に調整できるため、入力に分野の情報、人の情報、立場の情報を与え、分野の情報、人の情報、立場の情報もあわせた情報の重要度を求めることができる。
本発明は、二つの記事のうち、どちらの記事の方が重要であるかを推定できる。この推定には、教師有り機械学習の方法を利用する。教師有り機械学習の方法としては、サポートベクターマシン法(SVM)、最大エントロピー法(ME)などを利用する。素性(学習に用いる情報)には、記事中の単語、文字列、記事のタイトル中の単語、文字列などを利用する。
学習データには、被験者実験などのアンケート調査により収集したデータや、新聞の面情報を利用したデータを利用する。例えば、1面の記事は他の面の記事よりも重要であるという学習データを作成する。被験者実験によるデータの場合は、被験者に二つの記事を見せて、どちらが自分が重要と考えるかを答えてもらい、どちらの記事の方が重要であるかを記載した学習データを作成する。被験者実験で行うアンケート調査は、従来のアンケート調査と同様で、人間が直接アンケート項目に回答するものである。
学習データがあり、素性を定めると、教師有り機械学習の手法を用いる、どういう素性の場合に重要なのか重要でないか(例えば、単語を素性とすると、どういう単語がタイトルに出現していると重要で、どういう単語がタイトルに出現していると重要でないか)を機械が学習できる。そして、重要度を判定する、新しい記事からも素性を取り出し、学習結果からその素性のときに重要なのか重要でないか(例えば、単語を素性とすると、その記事から取り出した単語が重要かどうか)を調べてその記事の重要度を推定する。また、サポートベクターマシン法、最大エントロピー法などの教師有り機械学習法では、複数の素性を扱うことができるため、記事に出現する複数の単語の重要度を総合的に考慮して、記事全体の重要度を推定できる。
分野、人、立場ごとの重要度を推定するときには、入力に分野の情報の、人の情報、立場の情報も追加した学習データを作成する。アンケート調査の場合は、分野の情報、人の情報、立場の情報も問う調査項目も追加することで、これらの情報も含むデータを作成する。新聞記事データの場合は、例えば、日経新聞のデータを用いた場合の学習データを経済分野を重視する立場の場合の学習データとして利用する。素性にも、分野、人、立場の情報を追加する。これにより、分野、人、立場ごとの重要度を推定することができるようになる。
または、素性に、分野、人、立場の情報を追加せずに、分野、人、立場ごとに学習データを分割して、実際に現在知りたい、分野、人、立場の場合の学習データだけを用いて重要度を推定することで、その分野、人、立場の場合の重要度を推定するようにしてもよい。
以上の説明は、教師有り機械学習を用いる方法であるが、他の方法で求めてもよいし、他の方法(例えば、頻度法)で求めた情報を、機械学習の素性に加えてもよい。
(1):情報の重要度推定システムの説明
図1は情報の重要度推定システムの説明図である。図1において、情報の重要度推定システムには、入力部(入力手段)1、処理部(処理手段)2、表示部(出力手段)3、学習部4、学習データ(格納手段)5、追加情報6が設けてある。
入力部(入力手段)1は、記事の情報、分野の情報、人の情報、立場の情報等を入力する入力手段である。処理部(処理手段)2は、情報の重要度を推定する等の処理を行う処理手段である。表示部(出力手段)3は、記事の重要度を表示して出力する出力手段である。学習部4は、解(情報の重要度)と素性の集合との組から、どのような素性のときにどのような解になりやすいかを、教師有り機械学習法により学習する学習手段である。学習データ(格納手段)5は、機械学習を行うための学習データを格納する格納手段である。追加情報6は、頻度法など、他の手法で推定した重要度を学習の素性として追加するための情報追加手段である。
(2):情報の重要度推定処理の説明
図2は情報の重要度推定処理の説明図であり、図2(A) は機械学習処理フローチャートである。以下、図2(A) の処理S1〜S3にしたがって説明する。
S1:入力部1等から入力された重要度が分かっている学習データ5(情報)を格納手段に格納し、処理S2に移る。
S2:学習部4は、学習データ5(情報)から、素性(例えば、単語)を抽出し、どういう素性のときその情報が重要なのか、重要でないのかを学習して、処理S3に移る。
S3:学習部4は、学習結果を学習結果格納手段に格納し、この処理を終了する。
図2(B) は情報の重要度推定処理フローチャートである。以下、図2(B)の処理S11〜S13にしたがって説明する。
S11:入力部1から重要度を判定する新しい情報を入力し、処理S12に移る。
S12:処理部2は、入力された新しい情報から素性(例えば、単語)を取り出し、学習結果(学習結果格納手段)からその素性のときに重要なのか重要でないかを調べて、入力された新しい情報の重要度を推定し、処理S13に移る。
S13:処理部2は、推定した入力された新しい情報の重要度を表示部3に表示(出力)し、この処理を終了する。
(3):機械学習法の詳細な説明
図3は機械学習の手法を用いた情報の重要度推定システムの説明図である。重要度推定システムは、教師データ記憶手段5、解−素性対抽出手段11、機械学習手段12、学習結果記憶手段13、表現対抽出手段14、素性抽出手段15、解推定手段16、出力手段17を備える。
教師データ記憶手段5は、機械学習処理において使用される教師データ(学習データ)となるテキストデータを記憶する。例えば、教師データとして、テキストデータの文中に出現しているai、bi、ci(i=1,2,3,...)の対(表現対)を問題、重要情報対として抽出するべき表現対であるか否かの情報を解とする事例を記憶する。具体的には、テキストデータ中に現れるあらゆるai、bi、ciの対について、重要情報対として抽出すべき表現対(正例)であるか、抽出するべきでない表現対(負例)かのいずれかの解を示すタグを人手によって付与する。例えば、図4中に示すテキストデータ中の表現a1,a2,b1,b2,c1,c2に基づいて構成される表現対である(a1,b1,c1),(a1,b2,c1),...(a2,b2,c2)のそれぞれについて、正例か負例かの解を示すタグを付与する。
すなわち、本発明の実施の形態においては、例えば、
(a1,b1,c1)−解「正例」
(a1,b2,c1)−解「負例」


(a2,b2,c2)−解「負例」
といった、表現対と解との組を生成する。
解−素性対抽出手段11は、教師データ記憶手段5内に記憶されているテキストデータの事例から、解と素性の集合との組を抽出する。素性は、機械学習処理で使用する情報である。解−素性対抽出手段11は、素性として、例えば、あるテキストデータ中の、解が付与された各表現対についての、aiとbi、biとci、aiとciの間の距離(文字または単語数等)や、テキストデータ中におけるaiとbiとciの表現対を含む範囲や、ai、bi、ciそれぞれの前後の品詞情報等を用いる。また、解−素性対抽出手段11は、例えば、ai,bi,ciがテキストデータのタイトルに含まれるか等の情報や、aiとbi、biとci、aiとciの間に出現する品詞の情報や、aiが小数点を含むか、また、biが年、月、日か、また、ciが人名か地名かの情報を素性としてもよい。
また、本発明の実施の形態においては、記事中におけるai、bi、ciそれぞれの位置情報(面情報)を素性としてもよい。例えば、新聞等の記事においては、最初に出現する主要表現(又は1面情報)が重要となることが多いからである。
機械学習手段12は、解−素性対抽出手段11によって抽出された解と素性の集合との組から、どのような素性のときにどのような解になりやすいかを、教師有り機械学習法により学習する。その学習結果は、学習結果記憶手段13内に記憶される。
表現対抽出手段14は、主要表現抽出部によって抽出された主要表現(例えば、単位表現、時間表現、項目表現)を用いて、関連記事中の各記事に含まれるai(数量表現)、bi(時間表現)、ci(項目表現)という3種類の表現のあらゆる組み合わせ(表現対)を抽出する。なお、単位表現と連接して記事中に出現する数値と当該単位表現との組み合わせを数量表現とする。
素性抽出手段15は、解−素性対抽出手段11と同様の処理によって、表現対抽出手段14によって抽出された各表現対について、素性を抽出する。
解推定手段16は、学習結果記憶手段13の学習結果を参照して、各表現対について、その素性の集合の場合に、どのような解(分類先)になりやすいかの度合い(確信度)を推定する。
出力手段17は、解推定手段16の推定結果に基づいて、重要度の高い抽出すべき表現対(正例)となる度合いが高いと推定されたものを、重要度の高い対として抽出する。
ここで、機械学習手段12による機械学習の手法について説明する。機械学習の手法は、問題−解の組のセットを多く用意し、それで学習を行ない、どういう問題のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるようにする方法である(例えば、下記の参考文献(1)〜参考文献(3)参照)。
参考文献(1):村田真樹,機械学習に基づく言語処理,龍谷大学理工学部.招待講演.2004. http://www2.nict.go.jp/jt/a132/members/murata/ps/rk1-siryou.pdf
参考文献(2):サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳,村田真樹,馬青,内元清貴,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2000-78 ,2001年.
参考文献(3):SENSEVAL2J辞書タスクでのCRLの取り組み,村田真樹,内山将夫,内元清貴,馬青,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2001-40 ,2001年.
どういう問題のときに、という、問題の状況を機械に伝える際に、素性(解析に用いる情報で問題を構成する各要素)というものが必要になる。問題を素性によって表現するのである。例えば、日本語文末表現の時制の推定の問題において、問題:「彼が話す。」−−−解「現在」が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す」「。」となる。
すなわち、機械学習の手法は、素性の集合−解の組のセットを多く用意し、それで学習を行ない、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときもその問題から素性の集合を取り出し、その素性の場合の解を推測する方法である。
機械学習手段12は、機械学習の手法として、例えば、k近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いる。
k近傍法は、最も類似する一つの事例のかわりに、最も類似するk個の事例を用いて、このk個の事例での多数決によって分類先(解)を求める手法である。kは、あらかじめ定める整数の数字であって、一般的に、1から9の間の奇数を用いる。
シンプルベイズ法は、ベイズの定理にもとづいて各分類になる確率を推定し、その確率値が最も大きい分類を求める分類先とする方法である。
シンプルベイズ法において、文脈bで分類aを出力する確率は、以下の式(1)で与えられる。
Figure 0005366179
ただし、ここで文脈bは、あらかじめ設定しておいた素性fj (∈F,1≦j≦k)の集合である。p(b)は、文脈bの出現確率である。ここで、分類aに非依存であって定数のために計算しない。P(a)(ここでPはpの上部にチルダ)とP(fi |a)は、それぞれ教師データから推定された確率であって、分類aの出現確率、分類aのときに素性fi を持つ確率を意味する。P(fi |a)として最尤推定を行って求めた値を用いると、しばしば値がゼロとなり、式(2)の値がゼロで分類先を決定することが困難な場合が生じる。そのため、スームージングを行う。ここでは、以下の式(3)を用いてスームージングを行ったものを用いる。
Figure 0005366179
ただし、freq(fi ,a)は、素性fi を持ちかつ分類がaである事例の個数、freq(a)は、分類がaである事例の個数を意味する。
決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序でリストに蓄えておき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。
決定リスト方法では、あらかじめ設定しておいた素性fj ( ∈F,1≦j≦k)のうち、いずれか一つの素性のみを文脈として各分類の確率値を求める。ある文脈bで分類aを出力する確率は以下の式によって与えられる。
p(a|b)=p(a|fmax ) 式(4)
ただし、fmax は以下の式によって与えられる。
Figure 0005366179
また、P(ai |fj )(ここでPはpの上部にチルダ)は、素性fj を文脈に持つ場合の分類ai の出現の割合である。
最大エントロピー法は、あらかじめ設定しておいた素性fj (1≦j≦k)の集合をFとするとき、以下所定の条件式(式(6))を満足しながらエントロピーを意味する式(7)を最大にするときの確率分布p(a,b)を求め、その確率分布にしたがって求まる各分類の確率のうち、最も大きい確率値を持つ分類を求める分類先とする方法である。
Figure 0005366179
ただし、A、Bは分類と文脈の集合を意味し、gj (a,b)は文脈bに素性fj があって、なおかつ分類がaの場合1となり、それ以外で0となる関数を意味する。また、P(ai |fj )(ここでPはpの上部にチルダ)は、既知データでの(a,b)の出現の割合を意味する。
式(6)は、確率pと出力と素性の組の出現を意味する関数gをかけることで出力と素性の組の頻度の期待値を求めることになっており、右辺の既知データにおける期待値と、左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として、エントロピー最大化(確率分布の平滑化) を行なって、出力と文脈の確率分布を求めるものとなっている。
確率分布p(a、b)のうち、エントロピーを最大にする確率分布を推定すべき確率分布とする。これは、最も一様な分布となる。このような確率分布は唯一存在し、以下の確率分布 p* として記述される。
Figure 0005366179
ここで、λa,j は素性関数gj (a、b)のパラメータである。このパラメータは文脈bのもとで出力値aとなることを予測するのに素性fj がどれだけ重要な役割を果たすかを表している。訓練集合が与えられたとき、パラメータの推定にはImproved Iterative Scaling(IIS) アルゴリズム(Pietra,and Lafferty 1995) などが用いられる。学習コーパスから実際に式(8)の確率分布を求めるために、Ristadのツール(Ristad 1998 )を使っている。
最大エントロピー法の詳細については、以下の参考文献(4)および参考文献(5)に記載されている。
参考文献(4):Eric Sven Ristad, Maximum Entropy Modeling for Natural Language,(ACL/EACL Tutorial Program, Madrid, 1997)
参考文献(5):Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release 1.6beta, (http://www.mnemonic.com/software/memt,1998)
サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からなるデータを分類する手法である。
図5にサポートベクトルマシン法のマージン最大化の概念を示す図である。図5において、白丸は正例、黒丸は負例を意味し、実線は空間を分割する超平面を意味し、破線はマージン領域の境界を表す面を意味する。図5(A)は、正例と負例の間隔が狭い場合(スモールマージン)の概念図、図5(B)は、正例と負例の間隔が広い場合(ラージマージン)の概念図である。
このとき、二つの分類が正例と負例からなるものとすると、学習データにおける正例と負例の間隔(マージン) が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ、図5(B)に示すように、このマージンを最大にする超平面を求めそれを用いて分類を行なう。
基本的には上記のとおりであるが、通常、学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や、超平面の線形の部分を非線型にする拡張(カーネル関数の導入) がなされたものが用いられる。
この拡張された方法は、以下の識別関数を用いて分類することと等価であり、その識別関数の出力値が正か負かによって二つの分類を判別することができる。
Figure 0005366179
ただし、xは識別したい事例の文脈(素性の集合) を、xi とyj (i=1,…,l,yj ∈{1,−1})は学習データの文脈と分類先を意味し、関数sgnは、
sgn(x)=1(x≧0)
−1(otherwise )
であり、また、各αi は式(12)と式(13)の制約のもと式(11)を最大にする場合のものである。
Figure 0005366179
また、関数Kはカーネル関数と呼ばれ、様々なものが用いられるが、本形態では以下の多項式のものを用いる。
K(x,y)=(x・y+1)d 式(14)
C、dは実験的に設定される定数である。例えば、Cはすべての処理を通して1に固定した。また、dは、1と2の二種類を試している。ここで、αi >0となるxi は、サポートベクトルと呼ばれ、通常、式(10)の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。
なお、拡張されたサポートベクトルマシン法の詳細については、以下の参考文献(6)および参考文献(7)に記載されている。
参考文献(6):Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and other kernel-based learning methods,(Cambridge University Press,2000)
参考文献(7):Taku Kudoh, Tinysvm:Support Vector machines,(http://cl.aist-nara.ac.jp/taku-ku//software/Tiny SVM/index.html,2000)
サポートベクトルマシン法は、分類の数が2個のデータを扱うものである。したがって、分類の数が3個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンVSレスト法などの手法を組み合わせて用いることになる。
ペアワイズ法は、n個の分類を持つデータの場合に、異なる二つの分類先のあらゆるペア(n(n−1)/2個)を生成し、各ペアごとにどちらがよいかを二値分類器、すなわちサポートベクトルマシン法処理モジュールで求めて、最終的に、n(n−1)/2個の二値分類による分類先の多数決によって、分類先を求める方法である。
ワンVSレスト法は、例えば、a、b、cという三つの分類先があるときは、分類先aとその他、分類先bとその他、分類先cとその他、という三つの組を生成し、それぞれの組についてサポートベクトルマシン法で学習処理する。そして、学習結果による推定処理において、その三つの組のサポートベクトルマシンの学習結果を利用する。推定するべき候補が、その三つのサポートベクトルマシンではどのように推定されるかを見て、その三つのサポートベクトルマシンのうち、その他でないほうの分類先であって、かつサポートベクトルマシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例えば、ある候補が、「分類先aとその他」の組の学習処理で作成したサポートベクトルマシンにおいて分類先aの方の空間にあって、なおかつ、分離平面から最も離れた場合には、その候補の分類先は、aと推定する。
解推定手段16が推定する、各表現対についての、どのような解(分類先)になりやすいかの度合いの求め方は、機械学習手段12が機械学習の手法として用いる様々な方法によって異なる。
例えば、本発明の実施の形態において、機械学習手段12が、機械学習の手法としてk近傍法を用いる場合、機械学習手段12は、教師データの事例同士で、その事例から抽出された素性の集合のうち重複する素性の割合(同じ素性をいくつ持っているかの割合)にもとづく事例同士の類似度を定義して、前記定義した類似度と事例とを学習結果情報として学習結果記憶手段13に記憶しておく。
そして、解推定手段16は、表現対抽出手段14によって新しい表現対(の候補)が抽出されたときに、学習結果記憶手段13において定義された類似度と事例を参照して、表現対抽出手段14によって抽出された表現対の候補について、その候補の類似度が高い順にk個の事例を学習結果記憶手段13の事例から選択し、選択したk個の事例での多数決によって決まった分類先を、表現対の候補の分類先(解)として推定する。解推定手段16では、各表現対についての、どのような解(分類先)になりやすいかの度合いを、選択したk個の事例での多数決の票数、その分類先が獲得した票数とする。
また、機械学習手法として、シンプルベイズ法を用いる場合には、機械学習手段12は、教師データの事例について、前記事例の解と素性の集合との組を学習結果情報として学習結果記憶手段13に記憶する。そして、解推定手段16は、表現対抽出手段14によって新しい表現対(の候補)が抽出されたときに、学習結果記憶手段13の学習結果情報の解と素性の集合との組をもとに、ベイズの定理にもとづいて素性抽出手段15で取得した表現対の候補の素性の集合の場合の各分類になる確率を算出して、その確率の値が最も大きい分類を、その表現対の候補の素性の分類(解)と推定する。解推定手段16では、表現対の候補の素性の集合の場合にある解となるなりやすさの度合いを、各分類になる確率とする。
また、機械学習手法として決定リスト法を用いる場合には、機械学習手段12は、教師データの事例について、素性と分類先との規則を所定の優先順序で並べたリストを学習結果記憶手段13に記憶する。そして、表現対抽出手段14によって新しい表現対(の候補)が抽出されたときに、解推定手段16は、学習結果記憶手段13のリストの優先順位の高い順に、抽出された表現対の候補の素性と規則の素性とを比較し、素性が一致した規則の分類先をその候補の分類先(解)として推定する。解推定手段16では、表現対の候補の素性の集合の場合にある解aとなるなりやすさの度合いは、式(4)の値とする。
また、機械学習手法として最大エントロピー法を使用する場合には、機械学習手段12は、教師データの事例から解となりうる分類を特定し、所定の条件式を満足しかつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求めて学習結果記憶手段13に記憶する。そして、表現対抽出手段14によって新しい表現対(の候補)が抽出されたときに、解推定手段16は、学習結果記憶手段13の確率分布を利用して、抽出された表現対の候補の素性の集合についてその解となりうる分類の確率を求めて、最も大きい確率値を持つ解となりうる分類を特定し、その特定した分類をその候補の解と推定する。すなわち、解推定手段16では、表現対の候補の素性の集合の場合にある解となるなりやすさの度合いを、各分類になる確率とする。
また、機械学習手法としてサポートベクトルマシン法を使用する場合には、機械学習手段12は、教師データの事例から解となりうる分類を特定し、分類を正例と負例に分割して、カーネル関数を用いた所定の実行関数にしたがって事例の素性の集合を次元とする空間上で、その事例の正例と負例の間隔を最大にし、かつ正例と負例を超平面で分割する超平面を求めて学習結果記憶手段13に記憶する。そして表現対抽出手段14によって新しい表現対(の候補)が抽出されたときに、解推定手段16は、学習結果記憶手段13の超平面を利用して、抽出された表現対の候補の素性の集合が超平面で分割された空間において正例側か負例側のどちらにあるかを特定し、その特定された結果にもとづいて定まる分類を、その候補の解と推定する。すなわち、解推定手段16では、表現対の候補の素性の集合の場合にある解となるなりやすさの度合いを、分離平面からのその解の空間(正例(抽出するべき表現対)であれば正例の空間)での表現対の候補への距離の大きさとする。より詳しくは、抽出するべき表現対を正例、抽出するべきではない表現対を負例とする場合に、分離平面に対して正例側の空間に位置する事例が「抽出するべき事例」と判断され、その事例の分離平面からの距離をその事例の度合いとする。
ここでは、テキストデータの文中に出現しているai、bi、ci(i=1,2,3,...)の対(表現対)を問題、重要情報対として抽出するべき表現対であるか否かの情報を解とする場合で記載したが、これらの教師有り機械学習法は、情報の重要度を推定する問題など、教師データを用意でき、解の種類が有限の問題にはすべて応用できる。
例えば、情報の重要度を推定する問題だと、各記事に、記事が重要であるかどうかの情報を付与したデータを用意した場合、問題として、ある一つの記事が与えられ、その記事が重要であるかどうか(重要と重要でないの二分類)が解となる(問題種類A)。
そして、
問題 記事a -- 解「重要」
問題 記事b -- 解「重要」
問題 記事c -- 解「重要でない」
...
が教師データになる。
また、二つの記事対で、どちらの記事が重要であるかどうかの情報を付与したデータを用意した場合、問題として、ある二つの記事が与えられ、どちらの記事が重要であるかどうか(二つの記事の二分類)が解となる(問題種類B)。
そして、
問題 記事a1記事a2 -- 解「左の記事」
問題 記事b1記事b2 -- 解「右の記事」
問題 記事c1 記事c2 -- 解「右の記事」
...
が教師データになる。
前述の説明の、問題、解に相当するものを、ここでの問題、解に置き換えれば、ここでのものになる。複数の記事を与えてそれらを重要な記事の順に並べ替えることもできる。
例えば、問題種類Aの場合であれば、各記事について、重要である「分類」になるなりやすさの度合いを求めて、その度合いの大きい順に並べるとよい。
また、問題種類Bの場合であれば、すべての記事の対を作成して、各対についてどちらの記事が重要かを求める。各記事について、重要と求まった回数を数えて、この回数の大きい順に並べるとよい。
(4):単語の認識の説明
情報の重要度を推定するために、素性抽出手段等で単語の認識が必要になる。この単語の認識では、形態素解析システムを使用することができる。
a)形態素解析システムの説明
日本語を単語に分割するために、処理部2や学習部4の単語抽出部が行う形態素解析システムが必要になる。ここではChaSenについて説明する(奈良先端大で開発されている形態素解析システム 茶筌 http://chasen.aist-nara.ac.jp/index.html.jp で公開されている)。
これは、日本語文を分割し、さらに、各単語の品詞も推定してくれる。例えば、「学校へ行く」を入力すると以下の結果を得ることができる。
学校 ガッコウ 学校 名詞−一般
へ ヘ へ 助詞−格助詞−一般
行く イク 行く 動詞−自立 五段・カ行促音便 基本型
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
b)英語の品詞タグつけの説明
英語の品詞タグつけシステムとしては、次の Brillのものが有名である。
Eric Brill, Transformation-Based Error-Driven Learning and
Natural Language Processing: A Case Study in Part-of-Speech Tagging,
Computational Linguistics, Vol. 21, No. 4, p.543-565, 1995.
これは、英語文の各単語の品詞を推定してくれるものである。
(5):情報の重要度推定の具体的な説明
具体例にしたがって、情報の重要度を自動推定するシステムを説明する。情報の重要度を推定する技術は、記事のランキングや、重要な情報の自動収集など、種々の場面で役立つ重要なものである。ここでは,手始めに新聞の構成情報を利用して情報の重要度の推定を行った。例えば、新聞の1面は他の面よりも情報の重要度が高いと考えられるので、記事ペアのうち、どちらが1面であるかを特定する研究を行った。さらに、被験者実験を行い、被験者の重要と考える記事を特定する研究を行った。
a)新聞記事を用いた機械学習に基づく実験の説明
2006年度の毎日新聞、読売新聞、日経新聞の三社の朝刊の新聞記事データを利用した。そして、以下の三つの実験を行った。
実験A:1面記事かそれ以外の面の記事かを特定する。
実験B:1面トップ記事かそれ以外の面の記事かを特定する。
実験C:1面トップ記事か1面内の他の記事かを特定する。
1面記事は他の面よりも重要度が高いと考えられる。また、1面トップ記事はさらに重要度が高いと考えられる。このため、重要度に関する研究の手始めとしては上記実験を行った。2006年度のすべての日を使ったデータを作成した。実験Aは、1年分の1面記事として、各社約2000-3000 記事を利用し、それ以外の面の記事はそれ以外の面からランダムに1面記事と同数のものを取り出して、合計約4000-6000 記事を利用した。実験B、Cは、1年分の1面トップ記事として、各社約350 記事を利用し、それ以外の面の記事または1面内の他の記事は、その場所からランダムに1面トップ記事と同数のものを取り出して、合計約700 記事を利用した。
図6は素性の説明図である。図6において、素性1はタイトルにあった名詞、素性2はタイトルにあった名詞の分類語彙表(後述する)の番号の1,2,3,4,5,7桁(ただし番号は意味による変更後のものを用いる(以下の参考文献(7)参照))、素性3は本文の先頭の1文のみにあった名詞、素性4は本文の先頭の1文のみにあった名詞の分類語彙表の番号の1,2,3,4,5,7 桁、素性5は本文の先頭の1文を除いた本文にあった名詞、素性6は本文の先頭の1文を除いた本文にあった名詞の分類語彙表の番号の1,2,3,4,5,7桁、素性7はタイトルと本文のいずれかにあった名詞、素性8はタイトルと本文のいずれかにあった名詞の分類語彙表の番号の1,2,3,4,5,7 桁。
参考文献(7):村田真樹, 神崎享子, 内元清貴, 馬青, 井佐原均, 意味ソートmsort ―意味的並べかえ手法による辞書の構築例とタグつきコーパスの作成例と情報提示システム例―, 言語処理学会誌,Vol.7,No.1,(2000),pp.51−66.
機械学習法には、サポートベクターマシン法(SVM)(参考文献(7)参照)と最大エントロピー法(ME)(以下の参考文献(9)参照)を利用した。
参考文献(9):MasaoUtiyama,MaximumEntropyModelingPackage,(http://www.nict.go.jp/x/x161/mem-bers/mutiyama/software.html#maxent,2006).
サポートベクターマシン法では、d=1、C=1で実験した(参考文献(2)参照)(d=2の実験も行っている) 。素性としては、図6に示すものを用いた。まず、実験Aで、一つの記事を入力とし、それがどういう記事かを特定する実験を行った。実験は10分割クロスバリデーション(記事群を10分割して分割した一つの記事群の1記事をテストデータとする実験)で行った。その結果を図7に示している。図7は1記事入力の場合の実験Aの説明図である。図7の表の素性の列にある数字は、図6のうちその行の実験で用いた素性を意味する。
次に、実験Aで、二つの記事(1面記事とそれ以外の面の記事)を入力とし、どちらが1面記事かを特定する実験を行った。実験は10分割クロスバリデーションで行った。その結果を図8に示している。図8は記事ペア入力の場合の実験Aの説明図である。
この実験結果から、一つの記事について1面かそれ以外かを特定するよりも、二つの記事のペアを与えて、どちらが1面かを特定する方が簡単であることがわかった。次に、実験B、Cで、二つの記事(1面トップ記事とそうでない記事)を入力とし、どちらが1面トップ記事かを特定する実験を行った。実験は10分割クロスバリデーションで行った。その結果を図9と図10に示している。図9は記事ペア入力の場合の実験Bの説明図であり、図10は記事ペア入力の場合の実験Cの説明図である。
この実験A、B、Cの中では1面トップ記事かそれ以外の面の記事かを特定する実験Bの精度が比較的高いことがわかる。
b)アンケートデータを利用した機械学習に基づく実験の説明
次にアンケートデータを利用した実験を行った。アンケートは2007年11月に実施し、309人の被験者を対象に、56個の5組の新聞記事を与えてその5組を自分にとって重要な順に並べかえてもらった。56個の新聞記事の内訳は、異なる5個の日の新聞1面トップ記事(毎日新聞15個、読売新聞15個、日経新聞8個)が計38個、1面トップ記事を含む同じ日の1面内の5記事(各社2個ずつ)が計6個、同じ日の1面トップ記事と4個のランダムに取り出した1面以外の記事(各社2個ずつ)が計6個、同じ日の毎日新聞の1面トップ記事、次の記事、読売新聞の1面トップ記事、次の記事、日経新聞の1面トップ記事(この5記事の記事内容が重複しない日を選択)が計6個である。5組の並べ替えのデータから、10個のどちらが重要とされたかの情報を含む記事ペアを生成することで、56個のデータから、計560個の記事ペアを生成した。この記事ペアを実験に用いた。アンケートでは字数の制限のため記事の最初の約300文字のみを利用した。また、これにあわせて本節の実験では、すべての記事について最初の約300文字のみを利用した。ここで、全体データで被験者で多数決をとり、重要と答えられた数の多い方の記事を重要記事と考え、記事ペアを入力としてその重要記事を特定する実験を行った。実験は10分割クロスバリデーションで行った。その結果を図11に示している。
図11はアンケートデータでの実験の説明図である。図11では、さらに、重要記事と考えた被験者の割合が60%、70%、80%以上であったものだけで行った実験(それぞれの場合の実験で用いられた事例数は、290個、113個、17個である)も記載している。被験者の意見もわかれる、全データや「60%」などの実験結果では性能は悪いが、「80%」の実験では高い精度を実現している。
次に、新聞記事を学習データとして、アンケートデータをテストデータとした実験を行った。その結果を図12に示している。図12は新聞記事を学習データとしてアンケートデータをテストデータとした実験の説明図(80%以上被験者一致)である。また、新聞記事とアンケートデータを学習データとして、アンケートデータをテストデータとした実験を行った。これはアンケートデータ部分については10分割のクロスバリデーションで実験した。その結果を図13に示している。図13は新聞記事とアンケートデータを学習データとしてアンケートデータをテストデータとした実験の説明図(80%以上被験者一致)である。表中の混合は実験A、B、Cのすべてのデータを利用したものを意味し、全新聞社は全新聞社のデータを利用したものを意味する。これらの実験は、重要記事と考えた被験者の割合が80%以上であったものだけで行った。
新聞社データだけを学習データとして用いる図12では、毎日が88%をあげ高精度であり、次は82%の読売である。新聞社データから一般的な被験者が重要と思う記事を特定するには、毎日新聞、読売新聞の順に役立つことがわかる。実験環境がよいときには、一般的な被験者が重要と思う記事を特定するのに、新聞社データが利用でき、88%の精度で特定できることがわかった。また、そのときの新聞社は、毎日新聞で、実験の種類は実験Bであった。これは、2節の実験でも実験A、B、Cの中で実験Bが比較的性能がよかったが、それと関係があると思われる。実験Bは、1面トップ記事かそれ以外の面の記事かを特定するものであり、比較する2記事がかなりかけ離れたものであり、それが良い影響を与えたと思われる。新聞データとアンケートデータを利用する方法では、最高精度(94%)はアンケートデータだけを学習データに用いるものと同じであり、新聞データを学習データに追加で用いた効果は見ることはできなかった。
c)実験結果のまとめ
この実験では、機械学習を利用した重要度に関する実験を行った。新聞記事での実験により、1記事を与えて1面記事かどうかを特定するよりも、2記事を与えてそのどちらが1面記事かどうかを特定する方が簡単であることがわかった。また、実験A、B、Cと行ったが、1面トップ記事かそれ以外の面の記事かを特定する実験Bが最も高い精度をあげることがわかった。被験者を利用した実験では、被験者の一致率が高い記事ペア(一致率80%以上)については、94%と高い精度で重要記事を特定できた。また、そのような記事ペアは新聞記事だけからでも、88%と高い精度で重要記事を特定できた。このことは、新聞データが、被験者データの代用としてもある程度利用できることを意味する。今後はアンケートデータの分析も行いたいと考えている。例えば、テキストマイニングシステムSimpleminer (以下の参考文献(10)参照)を用いると、「ライブドア」の重要度が低く、「年金」の重要度が高いという結果を得た。ここでは重要と被験者が判断した記事のタイトルに偏って多く出現したものを重要度が高いとしている。アンケートを2007年11月に実施したため、今はほとんどの人が「ライブドア」事件に興味がなく、年金問題に興味があることがわかった。また、「殺人、死亡、病院、保険、金融、与党、改革、天下り」の重要度も高いこと、「選挙、工事、談合、野球」の重要度が低いこともわかった。
参考文献(10):村田真樹, 金丸敏幸, 一井康二, 白土保, 馬青, 井佐原均, テキストマイニングシステムsimpleminer の開発, 言語処理学会第14回年次大会,(2008).
d)サポートベクターマシン法でd=2で実験した場合の説明
上記サポートベクターマシン法でd=1、C=1の実験を行ったが、ここでは社告等の不要と思われる記事を除く処理を行って、d=2(C=1)で実験を行った。そして、機械学習の素性として、図6の1、3、5、7の全てを用いた。
図14は新聞記事の実験の説明図である。図14において、入力が1記事入力の場合の実験Aは図7の実験に対応し、入力が記事ペア入力の場合の実験Aの場合は図8の実験に、実験Bの場合は図9の実験に、実験Cの場合は図10の実験に対応する。
図15はアンケートデータでの実験の説明図である。図15の実験は、図11の実験に対応している。図16はアンケートデータをテストデータとした実験の説明図である。図16において、学習データが新聞記事のみの場合は図12の実験に対応し、学習データが新聞記事とアンケートデータの場合は図13の実験に対応している。図16の実験では、学習データとして、新聞記事のみの場合より新聞記事とアンケートデータを組み合わせた方が精度が向上している。そして、新聞記事のみでも最大94%の精度が得られている。また、新聞記事とアンケートデータの組み合わせでは、さらに精度がよく最大で100%が得られている。
(6):分類語彙表の説明
a)分類語彙表の構成
分類語彙表とはボトムアップ的に単語を意味に基づいて整理した表であり、各単語に対して分類番号という数字が付与される。分類語彙表の構成(国立国語研究所,分類語彙表,1964)は、例えば、以下のようなものである。
あい, 愛,1.3020,9,10,*,
あい, 相,3.112,1,10,*,
あい, 藍,1.502,6,40,,
あいいく, 愛育,1.3642,1,40,,
あいいん, 愛飲,1.3332,3,60,,
あいいん, 合印,1.3114,1,30,Y,
あいうち, あい打ち,1.357,4,30,,
あいかぎ, 合鍵,1.454,8,50,,
あいかわらず, 相変らず,3.165,2,10,*,
あいかん, 哀歓,1.3011,4,60,,
あいがん, 哀願,1.366,1,100,,
あいがん, 愛翫,1.3852,2,10,,
あいぎ, 合着,1.421,4,40,,
あいきょう, 愛郷,1.3020,11,170,,
あいきょう, 愛嬌,1.3030,4,40,,
分類語彙表は、上記の例のように、「,」 (コンマ)で区切ってあって、それぞれ、単語の読み、単語の見出し語、単語の分類番号、単語の分類番号の下位番号1、単語の分類番号の下位番号2、標本使用頻度が7以上の単語かどうかを示す情報である。
b)分類語彙表の変更の説明
図17は電子化された分類語彙表の説明図である。図17に示すように、電子化された分類語彙表では、各単語には10桁の分類番号が与えられている(書籍判の分類語彙表では分類番号は5桁までしかないが、電子化判では10桁存在する)。この10桁の分類番号は7レベルの階層構造を示しており、上位5レベルは分類番号の最初の5桁で表現され、6レベル目は次の2桁、最下層のレベルは最後の3桁で表現されている。
本発明者らは、前記の参考文献(8)で、このような分類語彙表の分類番号を名詞の意味素性に合わせて修正した。図18は名詞の意味素性と分類語彙表での分類番号の変換表である。図18の数字は分類番号の最初の何桁かを変換するためのものであり、例えば、1行目の "[1-3]56"や "511"は、分類番号の頭の3桁が "156"か "256"か "356"ならば511 に変換するということを意味している([1-3] は1,2,3 を意味している)。
この分類番号の変換により、図17に示した分類番号は、図19の分類語彙表の分類番号の変更例のように変換されることになる。図18から分かるように、この変換された分類番号において、上位2桁が“51”である単語は“動物”に関係する単語であることを意味し、上位2桁が“52”である単語は“人間”に関係する単語であることを意味する。
(7):単語の重要度の説明
機械学習では、ライブドアに関係する記事と、年金に関係する記事が入力されて、どちらが重要な記事かを計算機に判断させる。そうすると、記事内の単語を素性として取り出し、その素性を利用して、年金に関係する記事の方が重要と判断されて出力される。
システムは予めどういう単語がくると重要と判断するかは学習している。学習した素性の例を図20に示している。値(重要度の値)が大きいほど重要度が高いと判断するのに役立つ単語を意味する。
例えば、最大エントロピーの前の式(8)(9)において、αa,j の値が求まる。aは分類で、jは素性を意味しているので、今回はaは重要な方の記事(例えば、新聞の1面)の場合のa1と、重要でない方の記事(例えば、新聞の1面以外)の場合のa2の二種類となる。ここで、単語jの重要度は、次の式で求めることができる。
αa1,j/(αa1,j+αa2,j)
(8):教師有り機械学習手法を用いる方法以外の説明
教師有り機械学習手法を用いる方法以外の方法として以下の方法がある。
記事のタイトルに出現する単語を収集し、そこで高頻度に出現する単語を重要な概念と考えて、そういう単語をタイトルにより多く含む記事を重要な記事と考える。ただし、一般的な文書でも高頻度に出現する単語は、タイトルに高頻度に出現しても重要でない場合があるので、そういう単語は統計処理(例えば、有意差検定を用いる処理)などにより取り除いておく。なお、重要でないと思われる所定の単語を予め登録しておいて、取り除くようにすることもできる。
また、1面の記事のタイトルに出現する単語を収集し、そこで高頻度に出現する単語を重要な概念と考えて、そういう単語をタイトルにより多く含む記事を重要な記事と考える。ただし、一般的な文書や1面以外の記事のタイトルでも高頻度に出現する単語は、タイトルに高頻度に出現しても重要でない場合があるので、そういう単語は統計処理などにより取り除いておく。上記2段落の方法を頻度法と呼ぶ。
(頻度法の説明)
(a)オートマティックフィードバックを利用する場合の説明
ある文書群C(データベースに格納された)から単語Aを含む文書群Dを検索する。そして、この文書群Dに偏って多く出現する単語を単語群Bとする。
ある記事(文書)群Dに偏って出現する単語群Bの抽出方法の説明(解決法1)
例えば、コンピュータを含む記事群に偏って出現する単語群Bを抽出するときなどに使うことができる。記事群Dを包含するよりも大きい記事群をCとする。ここで記事群Cはデータベース全体でもいいし、一部でもよい。上述の解決法1にしたがえば、Cは「WINS」を含む記事群となる。
ただし、上述の解決法1も他の方法がありえて、「WINS」を含む記事群の中で、コンピュータを含む記事群に偏って出現する単語群Bを取り出すのではなく、データベース全体の記事群の中で、コンピュータを含む記事群に偏って出現する単語群Bを取り出し、その取り出した単語群Bを利用して処理してもよい。その場合はCはデータベース全体となる。
先ず、C中のBの出現率とD中のBの出現率を求める。
C中のBの出現率=C中のBの出現回数/C中の単語総数
D中のBの出現率=D中のBの出現回数/D中の単語総数
次に、D中のBの出現率/C中のBの出現率
を求めてこの値が大きいものほど、記事群Dに偏って出現する単語とする。
(b)ある記事群Dに偏って出現する単語群Bの抽出方法の説明
(有意差検定を利用する説明)
・二項検定の場合の説明
BのCでの出現数をNとする。BのDでの出現数をN1とする。
N2=N−N1とする。
BがCに現れたときにそれがD中に現れる確率を0.5 と仮定して、Nの総出現のうち、N2回以下、BがCに出現してDに出現しなかった確率を求める。
この確率は、
P1 =Σ C(N1+N2,x) * 0.5 ^(x) * 0.5 ^(N1+N2-x)
(ただし、Σは、x = 0 から x = N2 の和)
(ただし、C(A,B)は、A個の異なったものからB個のものを取り出す場合の数)
(ただし、^は、指数を意味する)
で表され、この確率の値が十分小さければ、N1とN2は等価な確率でない、すなわち、N1がN2に比べて有意に大きいことと判断できる。
5%検定なら
P1が5%よりも小さいこと、10%検定ならP1が10%よりも小さいこと、が有意に大きいかどうかの判断基準になる。
N1がN2に比べて有意に大きいと判断されたものを記事群Dに偏って出現する単語とする。また、P1が小さいものほど、記事群Dによく偏って出現する単語とする。
・カイ二乗検定の場合の説明
D中のBの出現回数をN1、D中の単語の総出現数をF1、
CにあってDにない、Bの出現回数をN2、
CにあってDにない、単語の総出現数をF2とする。
N=N1+N2として、
カイ二乗値 = (N * (F1 * (N2 - F2) - (N1 - F1) * F2 )^2 )/((F1 + F2)*(N - (F1 + F2)) * N1 * N2)
を求める。
そして、このカイ二乗値が大きいほどR1とR2は有意差があると言え、カイ二乗値が 3.84 よりも大きいとき危険率5%の有意差があると言え、カイ二乗値が 6.63 よりも大きいとき危険率1%の有意差があると言える。
N1 > N2 でかつ、カイ二乗値が大きいものほど、記事群Dによく偏って出現する単語とする。
・比の検定、正確に言うと、比率の差の検定の説明
p = (F1+F2)/(N1+N2)
p1 = R1
p2 = R2
として、
Z = | p1 - p2| / sqrt ( p * (1 - p) * (1/N1 + 1/N2) )
を求め、(ただし sqrt はルートを意味する) そして、Z が大きいほど、R1とR2は有意差があると言え、Zが 1.96 よりも大きいとき危険率5%の有意差があると言え、Zが 2.58 よりも大きいとき危険率1%の有意差があると言える。
N1 > N2 で、かつ、Zが大きいものほど、記事群Dによく偏って出現する単語とする。
これら三つの検定の方法と、先の単純に、D中のBの出現率/C中のBの出現率を求めて判定する方法を組み合わせてもよい。
例えば、危険率5%以上有意差があるもののうち、D中のBの出現率/C中のBの出現率、の値が大きいものほど記事群Dによく偏って出現する単語とする。
(単語の削除処理の説明)
上記の文書群Cを一般的文書、文書群Dをタイトルとして処理して、一般的文書よりも、タイトルに偏って多く出現する単語を取り出すことができる。
また、文書群Cを一般的文書、又は、1面以外の記事のタイトル、文書群Dを1面の記事のタイトルとして処理して、一般的文書や1面以外の記事のタイトルよりも、1面の記事のタイトルに偏って多く出現する単語を取り出すことができる。
そして、その取り出した単語以外の単語は、高頻度であっても重要でない可能性が高いので取り除く。
さらに、タイトル、または、1面タイトルに出現した頻度をFとする。ある記事Aが入力された場合、その記事Aのタイトルに含まれる単語すべてについて、log(F)を求めて、もっとも大きいこの値を、その記事の得点とする。したがって、この値が大きい記事ほど重要度の高い記事とすることができる。ただし、この計算で、先の頻度法における統計処理による、単語の削除処理による方法で、頻度が高くても一般的文書でも同様に頻度の高い単語は削除してから、上記計算を行う。
(関連度の説明)
重要度は次の式で表すこともできる。
重要度 = 代表性 × 関連度
この式では、代表性は、機械学習の方法で求まる重要度や、上記頻度法でもとまる得点を利用する。関連度は、ある事柄と分野、人、立場との関連度であり、以下のように計算する。
方法1
予め、分野、人、立場を意味する単語を登録しておく。登録した単語をn個とする。ある事柄の記事に、それら単語がどのくらい含まれているかを調べる。含まれていた単語の数をn1個とする。そして、n1/nを関連度とする。
方法2
予め、分野、人、立場を意味する単語を登録しておく。登録した単語tをn個とする。ある事柄の記事に、それら単語tとよく共起する単語が含まれているかを調べる。含まれていた単語tの数をn1個とする。そして、n1/nを関連度とする。
ただし、単語aとよく共起する単語bとは、ほかの大規模な自然言語テキストのデータベースにおいて、単語a,bが同じ記事や同じ文に所定の回数以上出現している場合を意味する。または、単語aとよく共起する単語bとは、ほかの大規模な自然言語テキストのデータベースにおいて、単語a,bが同じ記事や同じ文に出現した回数をnab、単語a,bのそれぞれの出現回数をna,nbとして、nab/na/nbが所定の値よりも大きい場合を意味する。
方法1、方法2は、関連度計算の方法の例を示したにすぎず、これに類似する方法で処理してもよい。
このように、頻度法により求まる値(代表性)と関連度をかけた値を使うことで、その分野、人、立場の場合の重要度を推定することもできる。
(9):言語横断の説明
情報の重要度推定システムでは、翻訳を行う(翻訳手段を用いる)ことで、他の言語の情報の重要度を推定することができる。翻訳方法は、訳語辞書で翻訳する方法と既存の翻訳システムで翻訳する方法がある。訳語辞書とは、例えば、
car --車
house --家
のように訳語が対になって表記されているもので、単語マッチで変換して利用する。
a)第一の言語データの情報の重要度を推定するシステムの説明
1) 第一の言語データの情報の重要度を推定するシステムにおいて、前記機械学習手段で、第二の言語データを第一の言語データに翻訳した翻訳データを用いて学習し、前記処理手段で、第一の言語データを用いて入力された新たな情報の重要度を推定する。このため、他の言語を学習データとして利用することができる。
2) 第一の言語データの情報の重要度を推定するシステムにおいて、前記機械学習手段で、第一の言語のデータと、第二の言語データを第一の言語のデータに翻訳した翻訳データの両方を用いて学習し、前記処理手段で、第一の言語データの入力された新たな情報の重要度を推定する。このため、第一の言語データに他の言語を含めて学習データとすることができる。
b)第二の言語データの情報の重要度を推定するシステムの説明
1) 第二の言語データの情報の重要度を推定するシステムにおいて、前記機械学習手段で、第一の言語のデータを用いて学習し、前記処理手段で、第二の言語のデータを第一の言語のデータに翻訳した翻訳データを用いて入力された新たな情報の重要度を推定する。このため、他の言語(第二の言語)の情報の重要度を推定することができる。
2) 第二の言語データの情報の重要度を推定するシステムにおいて、前記機械学習手段で、第二の言語データを第一の言語のデータに翻訳した翻訳データを用いて学習し、前記処理手段で、第二の言語データを第一の言語のデータに翻訳した翻訳データを用いて入力された新たな情報の重要度を推定する。このため、他の言語(第二の言語)で学習し、他の言語(第二の言語)の情報の重要度を推定することができる。
3) 第二の言語データの情報の重要度を推定するシステムにおいて、前記機械学習手段で、第一の言語のデータと、第二の言語のデータを第一の言語データに翻訳したデータの両方を用いて学習し、前記処理手段で、第二の言語のデータを第一の言語データに翻訳した翻訳データを用いて入力された新たな情報の重要度を推定する。このため、第一の言語データに他の言語(第二の言語)を含めて学習データとし、他の言語(第二の言語)の情報の重要度を推定することができる。
なお、値が大きいものほど取り出すことなどについて、「値が閾値以上のものを取り出す。値が大きいものを所定の値の個数以上のものを大きい順に取り出す。取り出されたものの値の最大値に対して所定の割合をかけた値を求め、その求めた値以上の値を持つものを取り出す。」のようにすることができる。また、これら閾値、所定の値を、あらかじめ定めることも、適宜ユーザが値を変更、設定できることも可能である。
このように、本発明は、商用のニュース表示システムなどで記事を重要な順に表示したい場合に利用できる。また、ニュース表示システムに限らず、情報を重要な順番に並べ替えたい場合に利用できる。そして、新聞記事から簡便に作成できる学習データも利用して、高性能な重要度の推定が可能である。
従来技術である、新聞の記事同士の参照関係や、語られる内容の重なり具合を、記事同士のリンク情報とみなして、そのリンク情報を利用して重要な論文を求める技術に比べて、本発明は教師あり機械学習を利用して、新聞の面情報と、被験者実験で集めたデータを教師データとして用いて、より重要度に関わる直接的な情報を用いるために、より高性能な重要度の推定が可能となる。また、教師有り機械学習法を用いるために、分野情報を素性に追加することで、分野ごとの重要度も容易に求めることができる。例えば、新聞記事の場合、1面に記事(重要記事)か、それ以外の面の記事(重要でない記事)かを判断できるとともに、1面記事である度合い(重要記事である確信度)も出力することができる。このため、複数の記事等の情報を入力してその情報を重要な順に並べ変えることもできる。
(10):プログラムインストールの説明
入力部(入力手段)1、処理部(処理手段)2、表示部(出力手段)3、学習部4、解−素性対抽出手段11、機械学習手段12、学習結果記憶手段13、表現対抽出手段14、素性抽出手段15、解推定手段16、出力手段17等は、プログラムで構成でき、主制御部(CPU)が実行するものであり、主記憶に格納されているものである。このプログラムは、一般的な、コンピュータ(情報処理装置)で処理されるものである。このコンピュータは、主制御部、主記憶、ファイル装置、表示装置、キーボード等の入力手段である入力装置などのハードウェアで構成されている。このコンピュータに、本発明のプログラムをインストールする。このインストールは、フロッピィ、光磁気ディスク等の可搬型の記録(記憶)媒体に、これらのプログラムを記憶させておき、コンピュータが備えている記録媒体に対して、アクセスするためのドライブ装置を介して、或いは、LAN等のネットワークを介して、コンピュータに設けられたファイル装置にインストールされる。そして、このファイル装置から処理に必要なプログラムステップを主記憶に読み出し、主制御部が実行するものである。
本発明の情報の重要度推定システムの説明図である。 本発明の情報の重要度推定処理の説明図である。 本発明の機械学習の手法を用いた情報の重要度推定システムの説明図である。 本発明のテキストデータの説明図である。 本発明のサポートベクトルマシン法のマージン最大化の概念を示す図である。 本発明の素性の説明図である。 本発明の1記事入力の場合の実験Aの説明図である。 本発明の記事ペア入力の場合の実験Aの説明図である。 本発明の記事ペア入力の場合の実験Bの説明図である。 本発明の記事ペア入力の場合の実験Cの説明図である。 本発明のアンケートデータでの実験の説明図である。 本発明の新聞記事を学習データとしてアンケートデータをテストデータとした実験の説明図(80%以上被験者一致)である。 本発明の新聞記事とアンケートデータを学習データとしてアンケートデータをテストデータとした実験の説明図(80%以上被験者一致)である。 本発明の新聞記事の実験の説明図である。 本発明のアンケートデータでの実験の説明図である。 本発明のアンケートデータをテストデータとした実験の説明図である。 本発明の電子化された分類語彙表の説明図である。 本発明の名詞の意味素性と分類語彙表での分類番号の変換表である。 本発明の分類語彙表の分類番号の変更例の説明図である。 本発明の単語の重要度の説明図である。
符号の説明
1 入力部(入力手段)
2 処理部(処理手段)
3 表示部(出力手段)
4 学習部(機械学習手段)
5 格納手段(学習データ)
6 追加情報

Claims (10)

  1. 予め重要度が分かっている複数の情報を学習データとして、該学習データから学習に用いるための素性を抽出し、どのような素性のときその情報が重要なのか、重要でないのかを学習する機械学習手段と、
    情報を入力する入力手段と、
    情報の重要度を推定する処理手段と、
    情報の重要度の出力を行う出力手段とを備え、
    前記機械学習手段は、予め単語の意味により分類付けられた意味情報を前記学習データの素性に追加して学習し、
    前記処理手段は、前記入力手段より入力された新たな情報を前記機械学習手段の学習結果で求めた重要度と、前記入力手段より入力された新たな情報とその分野、人又は立場の関連度を掛け合わせたものにより重要度を推定し、前記出力手段により出力することを特徴とした情報の重要度推定システム。
  2. 前記機械学習手段は、新聞での記載位置の情報を利用して学習することを特徴とした請求項1記載の情報の重要度推定システム。
  3. 前記機械学習手段は、人が重要度を判定した結果の情報と新聞での記載位置の情報の両方を利用して学習することを特徴とした請求項1又は2に記載の情報の重要度推定システム。
  4. 前記機械学習手段は、分野、人又は立場の情報を学習データとして追加して学習することを特徴とした請求項1〜のいずれかに記載の情報の重要度推定システム。
  5. 重要な情報に出現する単語を収集し、高頻度に出現する単語を重要な概念として、前記機械学習手段の学習データに追加することを特徴とした請求項1〜のいずれかに記載の情報の重要度推定システム。
  6. 重要な情報とその分野、人又は立場の関連度を求め、該求めた関連度を前記機械学習手段の学習データに追加することを特徴とした請求項記載の情報の重要度推定システム。
  7. 第二の言語データの情報の重要度を推定するシステムにおいて、前記機械学習手段で第一の言語データを用いて学習し、前記処理手段で第二の言語データを第一の言語のデータに翻訳した翻訳データを用いて入力された新たな情報の重要度を推定することを特徴とした請求項1〜のいずれかに記載の情報の重要度推定システム。
  8. 前記機械学習手段で、翻訳データを用いて学習することを特徴とした請求項1〜のいずれかに記載の情報の重要度推定システム。
  9. 機械学習手段で、予め重要度が分かっている複数の情報を学習データとして、該学習データから学習に用いるための素性を抽出し、どのような素性のときその情報が重要なのか、重要でないのかの学習に、予め単語の意味により分類付けられた意味情報を前記学習データの素性に追加して学習し、
    理手段で、入力手段より入力された新たな情報を前記機械学習手段の学習結果で求めた重要度と、前記入力手段より入力された新たな情報とその分野、人又は立場の関連度を掛け合わせたものにより重要度を推定し、出力手段により出力することを特徴とした情報の重要度推定方法。
  10. 予め重要度が分かっている複数の情報を学習データとして、該学習データから学習に用いるための素性を抽出し、どのような素性のときその情報が重要なのか、重要でないのかの学習に、予め単語の意味により分類付けられた意味情報を前記学習データの素性に追加して学習する機械学習手段と、
    情報を入力する入力手段と、
    情報の重要度の出力を行う出力手段と、
    前記入力手段より入力された新たな情報を前記機械学習手段の学習結果で求めた重要度と、前記入力手段より入力された新たな情報とその分野、人又は立場の関連度を掛け合わせたものにより重要度を推定し、前記出力手段により出力する処理手段として
    コンピュータを機能させるためのプログラム。
JP2008134888A 2008-05-23 2008-05-23 情報の重要度推定システム及び方法及びプログラム Expired - Fee Related JP5366179B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008134888A JP5366179B2 (ja) 2008-05-23 2008-05-23 情報の重要度推定システム及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008134888A JP5366179B2 (ja) 2008-05-23 2008-05-23 情報の重要度推定システム及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2009282795A JP2009282795A (ja) 2009-12-03
JP5366179B2 true JP5366179B2 (ja) 2013-12-11

Family

ID=41453179

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008134888A Expired - Fee Related JP5366179B2 (ja) 2008-05-23 2008-05-23 情報の重要度推定システム及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5366179B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6702035B2 (ja) * 2016-07-04 2020-05-27 富士通株式会社 クラス推定装置、クラス推定方法及びクラス推定プログラム
JP6719365B2 (ja) * 2016-11-15 2020-07-08 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
JP6592574B1 (ja) * 2018-09-21 2019-10-16 株式会社 日立産業制御ソリューションズ 記事解析装置、および、記事解析方法
JP7287992B2 (ja) * 2021-01-28 2023-06-06 ヤフー株式会社 情報処理装置、情報処理システム、情報処理方法、及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3472032B2 (ja) * 1995-04-24 2003-12-02 株式会社東芝 情報フィルタ装置及び情報フィルタ方法
JP3856778B2 (ja) * 2003-09-29 2006-12-13 株式会社日立製作所 複数言語を対象とした文書分類装置及び文書分類方法
JP4919386B2 (ja) * 2006-01-25 2012-04-18 独立行政法人情報通信研究機構 情報抽出・表示装置

Also Published As

Publication number Publication date
JP2009282795A (ja) 2009-12-03

Similar Documents

Publication Publication Date Title
Weiss et al. Text mining: predictive methods for analyzing unstructured information
Chen et al. A two-step resume information extraction algorithm
Sahu et al. Feature engineering and ensemble-based approach for improving automatic short-answer grading performance
US9355372B2 (en) Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus
JP4911599B2 (ja) 風評情報抽出装置及び風評情報抽出方法
JP6535858B2 (ja) 文書解析装置、プログラム
CN113961685A (zh) 信息抽取方法及装置
Zhang et al. Multilingual sentence categorization and novelty mining
Safrin et al. Sentiment analysis on online product review
Heyman et al. C-BiLDA extracting cross-lingual topics from non-parallel texts by distinguishing shared from unshared content
Golpar-Rabooki et al. Feature extraction in opinion mining through Persian reviews
Zheng et al. A review on authorship attribution in text mining
JP5366179B2 (ja) 情報の重要度推定システム及び方法及びプログラム
Agarwal et al. Topical analysis of migration coverage during lockdown in India by mainstream print media
Venčkauskas et al. Problems of authorship identification of the national language electronic discourse
George et al. Comparison of LDA and NMF topic modeling techniques for restaurant reviews
Akther et al. Compilation, analysis and application of a comprehensive Bangla Corpus KUMono
Trivedi et al. Capturing user sentiments for online Indian movie reviews: A comparative analysis of different machine-learning models
Torres et al. Support vector machines for semantic relation extraction in Spanish language
Chang et al. Incorporating word embedding into cross-lingual topic modeling
Nurlybayeva et al. Plagiarism detection in students’ answers using fp-growth algorithm
JP4919386B2 (ja) 情報抽出・表示装置
Pirovani et al. Indexing names of persons in a large dataset of a newspaper
Al Helal Topic Modelling and Sentiment Analysis with the Bangla Language: A Deep Learning Approach Combined with the Latent Dirichlet Allocation
JP5099498B2 (ja) データ処理装置及びデータ処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130827

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130905

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees