JP5366179B2

JP5366179B2 - 情報の重要度推定システム及び方法及びプログラム

Info

Publication number: JP5366179B2
Application number: JP2008134888A
Authority: JP
Inventors: 真樹村田
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2008-05-23
Filing date: 2008-05-23
Publication date: 2013-12-11
Anticipated expiration: 2028-05-23
Also published as: JP2009282795A

Description

本発明は、情報の重要度を推定する技術に関する。例えば、二つの記事のうち、どちらの記事の方が重要であるかを推定できる。この推定は、ニュース表示システムなどで記事を重要な順に表示したい場合に利用できる。これは既に発行した新聞記事での記事の配置情報や被験者実験により収集した情報を学習データとして、教師有り機械学習法を利用することで、記事を重要な順番に並べ替えることができる。

新聞記事での記事の配置情報からは学習データを容易に作成できるという効果がある。被験者実験により収集した情報からはより高い精度（７割から９割の精度）を実現できるという効果がある。この両方の情報を組み合わせて利用することで、学習データの作成コストを下げながら精度を向上させるという効果を達成できる。

また、ニュース表示システムに限らず、情報を重要な順番に並べ替えたい場合に利用できる。例えば、風評を収集しこういう風評があるという注意情報を出す会社では、得られた風評の情報を重要度の高い風評の順番に並べ替えることができる。セキュリティ産業の市場規模は５０００億円の規模であり、本発明は風評情報を重要度の順に並べ替えることができ、ニーズも大きい。

従来技術で新聞の記事同士の参照関係や、語られる内容の重なり具合を、記事同士のリンク情報とみなして、そのリンク情報を利用して重要な論文を求める技術はあった（非特許文献１参照）。このリンク情報に基づいて推定する方法では、内容面を利用する細かい学習が行えないという問題があった。
Yang Hu, Mingjing Li, Zhiwei Li, and Wei-Ying Ma. 2006. Discovering authoritative news sources and top news stories. In AIRS 2006, pages 230 - 243.

上記従来のリンク情報に基づいて推定する方法では、内容面を利用する細かい学習が行えないという問題があった。

本発明は上記問題点の解決を図り、本発明の手法では、教師有り機械学習法を利用することで内容の細かいところも利用できるようにすること、及び、入力の情報も自由に調整できるため、入力に分野の情報、人の情報、立場の情報を与え、分野の情報、人の情報、立場の情報もあわせた情報の重要度を求めることを目的とする。

図１は情報の重要度推定システムの説明図である。図１中、１は入力部（入力手段）、２は処理部（処理手段）、３は表示部（出力手段）、４は学習部（機械学習手段）、５は格納手段（学習データ）、６は追加情報である。

本発明は、前記従来の課題を解決するため次のような手段を有する。

予め重要度が分かっている複数の情報を学習データとして学習する機械学習手段４と、情報を入力する入力手段１と、情報の重要度を推定する処理手段２と、情報の重要度の出力を行う出力手段３とを備え、前記処理手段２は、前記入力手段１より入力された新たな情報を前記機械学習手段４の学習結果により重要度を推定し、前記出力手段３により出力する。このため、教師有り機械学習法を利用することで内容の細かいところも利用できるようにすること、及び、入力の情報も自由に調整できるため、入力に分野の情報、人の情報、立場の情報を与え、分野の情報、人の情報、立場の情報もあわせた情報の重要度を求めることができる。

本発明によれば次のような効果がある。

処理手段で、入力手段より入力された新たな情報を機械学習手段の学習結果により重要度を推定し、出力手段により出力するため、教師有り機械学習法を利用することで内容の細かいところも利用できるようにすることができ、入力の情報も自由に調整できるため、入力に分野の情報、人の情報、立場の情報を与え、分野の情報、人の情報、立場の情報もあわせた情報の重要度を求めることができる。

本発明は、二つの記事のうち、どちらの記事の方が重要であるかを推定できる。この推定には、教師有り機械学習の方法を利用する。教師有り機械学習の方法としては、サポートベクターマシン法（ＳＶＭ）、最大エントロピー法（ＭＥ）などを利用する。素性（学習に用いる情報）には、記事中の単語、文字列、記事のタイトル中の単語、文字列などを利用する。

学習データには、被験者実験などのアンケート調査により収集したデータや、新聞の面情報を利用したデータを利用する。例えば、１面の記事は他の面の記事よりも重要であるという学習データを作成する。被験者実験によるデータの場合は、被験者に二つの記事を見せて、どちらが自分が重要と考えるかを答えてもらい、どちらの記事の方が重要であるかを記載した学習データを作成する。被験者実験で行うアンケート調査は、従来のアンケート調査と同様で、人間が直接アンケート項目に回答するものである。

学習データがあり、素性を定めると、教師有り機械学習の手法を用いる、どういう素性の場合に重要なのか重要でないか（例えば、単語を素性とすると、どういう単語がタイトルに出現していると重要で、どういう単語がタイトルに出現していると重要でないか）を機械が学習できる。そして、重要度を判定する、新しい記事からも素性を取り出し、学習結果からその素性のときに重要なのか重要でないか（例えば、単語を素性とすると、その記事から取り出した単語が重要かどうか）を調べてその記事の重要度を推定する。また、サポートベクターマシン法、最大エントロピー法などの教師有り機械学習法では、複数の素性を扱うことができるため、記事に出現する複数の単語の重要度を総合的に考慮して、記事全体の重要度を推定できる。

分野、人、立場ごとの重要度を推定するときには、入力に分野の情報の、人の情報、立場の情報も追加した学習データを作成する。アンケート調査の場合は、分野の情報、人の情報、立場の情報も問う調査項目も追加することで、これらの情報も含むデータを作成する。新聞記事データの場合は、例えば、日経新聞のデータを用いた場合の学習データを経済分野を重視する立場の場合の学習データとして利用する。素性にも、分野、人、立場の情報を追加する。これにより、分野、人、立場ごとの重要度を推定することができるようになる。

または、素性に、分野、人、立場の情報を追加せずに、分野、人、立場ごとに学習データを分割して、実際に現在知りたい、分野、人、立場の場合の学習データだけを用いて重要度を推定することで、その分野、人、立場の場合の重要度を推定するようにしてもよい。

以上の説明は、教師有り機械学習を用いる方法であるが、他の方法で求めてもよいし、他の方法（例えば、頻度法）で求めた情報を、機械学習の素性に加えてもよい。

（１）：情報の重要度推定システムの説明
図１は情報の重要度推定システムの説明図である。図１において、情報の重要度推定システムには、入力部（入力手段）１、処理部（処理手段）２、表示部（出力手段）３、学習部４、学習データ（格納手段）５、追加情報６が設けてある。

入力部（入力手段）１は、記事の情報、分野の情報、人の情報、立場の情報等を入力する入力手段である。処理部（処理手段）２は、情報の重要度を推定する等の処理を行う処理手段である。表示部（出力手段）３は、記事の重要度を表示して出力する出力手段である。学習部４は、解（情報の重要度）と素性の集合との組から、どのような素性のときにどのような解になりやすいかを、教師有り機械学習法により学習する学習手段である。学習データ（格納手段）５は、機械学習を行うための学習データを格納する格納手段である。追加情報６は、頻度法など、他の手法で推定した重要度を学習の素性として追加するための情報追加手段である。

（２）：情報の重要度推定処理の説明
図２は情報の重要度推定処理の説明図であり、図２（Ａ) は機械学習処理フローチャートである。以下、図２（Ａ) の処理Ｓ１〜Ｓ３にしたがって説明する。

Ｓ１：入力部１等から入力された重要度が分かっている学習データ５（情報）を格納手段に格納し、処理Ｓ２に移る。

Ｓ２：学習部４は、学習データ５（情報）から、素性（例えば、単語）を抽出し、どういう素性のときその情報が重要なのか、重要でないのかを学習して、処理Ｓ３に移る。

Ｓ３：学習部４は、学習結果を学習結果格納手段に格納し、この処理を終了する。

図２（Ｂ) は情報の重要度推定処理フローチャートである。以下、図２（Ｂ）の処理Ｓ１１〜Ｓ１３にしたがって説明する。

Ｓ１１：入力部１から重要度を判定する新しい情報を入力し、処理Ｓ１２に移る。

Ｓ１２：処理部２は、入力された新しい情報から素性（例えば、単語）を取り出し、学習結果（学習結果格納手段）からその素性のときに重要なのか重要でないかを調べて、入力された新しい情報の重要度を推定し、処理Ｓ１３に移る。

Ｓ１３：処理部２は、推定した入力された新しい情報の重要度を表示部３に表示（出力）し、この処理を終了する。

（３）：機械学習法の詳細な説明
図３は機械学習の手法を用いた情報の重要度推定システムの説明図である。重要度推定システムは、教師データ記憶手段５、解−素性対抽出手段１１、機械学習手段１２、学習結果記憶手段１３、表現対抽出手段１４、素性抽出手段１５、解推定手段１６、出力手段１７を備える。

教師データ記憶手段５は、機械学習処理において使用される教師データ（学習データ）となるテキストデータを記憶する。例えば、教師データとして、テキストデータの文中に出現しているａｉ、ｂｉ、ｃｉ（ｉ＝１，２，３，．．．）の対（表現対）を問題、重要情報対として抽出するべき表現対であるか否かの情報を解とする事例を記憶する。具体的には、テキストデータ中に現れるあらゆるａｉ、ｂｉ、ｃｉの対について、重要情報対として抽出すべき表現対（正例）であるか、抽出するべきでない表現対（負例）かのいずれかの解を示すタグを人手によって付与する。例えば、図４中に示すテキストデータ中の表現ａ１，ａ２，ｂ１，ｂ２，ｃ１，ｃ２に基づいて構成される表現対である（ａ１，ｂ１，ｃ１），（ａ１，ｂ２，ｃ１），．．．（ａ２，ｂ２，ｃ２）のそれぞれについて、正例か負例かの解を示すタグを付与する。

すなわち、本発明の実施の形態においては、例えば、
（ａ１，ｂ１，ｃ１）−解「正例」
（ａ１，ｂ２，ｃ１）−解「負例」
・
・
（ａ２，ｂ２，ｃ２）−解「負例」
といった、表現対と解との組を生成する。

解−素性対抽出手段１１は、教師データ記憶手段５内に記憶されているテキストデータの事例から、解と素性の集合との組を抽出する。素性は、機械学習処理で使用する情報である。解−素性対抽出手段１１は、素性として、例えば、あるテキストデータ中の、解が付与された各表現対についての、ａｉとｂｉ、ｂｉとｃｉ、ａｉとｃｉの間の距離（文字または単語数等）や、テキストデータ中におけるａｉとｂｉとｃｉの表現対を含む範囲や、ａｉ、ｂｉ、ｃｉそれぞれの前後の品詞情報等を用いる。また、解−素性対抽出手段１１は、例えば、ａｉ，ｂｉ，ｃｉがテキストデータのタイトルに含まれるか等の情報や、ａｉとｂｉ、ｂｉとｃｉ、ａｉとｃｉの間に出現する品詞の情報や、ａｉが小数点を含むか、また、ｂｉが年、月、日か、また、ｃｉが人名か地名かの情報を素性としてもよい。

また、本発明の実施の形態においては、記事中におけるａｉ、ｂｉ、ｃｉそれぞれの位置情報（面情報）を素性としてもよい。例えば、新聞等の記事においては、最初に出現する主要表現（又は１面情報）が重要となることが多いからである。

機械学習手段１２は、解−素性対抽出手段１１によって抽出された解と素性の集合との組から、どのような素性のときにどのような解になりやすいかを、教師有り機械学習法により学習する。その学習結果は、学習結果記憶手段１３内に記憶される。

表現対抽出手段１４は、主要表現抽出部によって抽出された主要表現（例えば、単位表現、時間表現、項目表現）を用いて、関連記事中の各記事に含まれるａｉ（数量表現）、ｂｉ（時間表現）、ｃｉ（項目表現）という３種類の表現のあらゆる組み合わせ（表現対）を抽出する。なお、単位表現と連接して記事中に出現する数値と当該単位表現との組み合わせを数量表現とする。

素性抽出手段１５は、解−素性対抽出手段１１と同様の処理によって、表現対抽出手段１４によって抽出された各表現対について、素性を抽出する。

解推定手段１６は、学習結果記憶手段１３の学習結果を参照して、各表現対について、その素性の集合の場合に、どのような解（分類先）になりやすいかの度合い（確信度）を推定する。

出力手段１７は、解推定手段１６の推定結果に基づいて、重要度の高い抽出すべき表現対（正例）となる度合いが高いと推定されたものを、重要度の高い対として抽出する。

ここで、機械学習手段１２による機械学習の手法について説明する。機械学習の手法は、問題−解の組のセットを多く用意し、それで学習を行ない、どういう問題のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるようにする方法である（例えば、下記の参考文献（１）〜参考文献（３）参照）。

参考文献（１）：村田真樹，機械学習に基づく言語処理，龍谷大学理工学部．招待講演．2004. http://www2.nict.go.jp/jt/a132/members/murata/ps/rk1-siryou.pdf
参考文献（２）：サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳，村田真樹，馬青，内元清貴，井佐原均，電子情報通信学会言語理解とコミュニケーション研究会 NLC2000-78 ，2001年．
参考文献（３）：SENSEVAL2J辞書タスクでのＣＲＬの取り組み，村田真樹，内山将夫，内元清貴，馬青，井佐原均，電子情報通信学会言語理解とコミュニケーション研究会 NLC2001-40 ，2001年．
どういう問題のときに、という、問題の状況を機械に伝える際に、素性（解析に用いる情報で問題を構成する各要素）というものが必要になる。問題を素性によって表現するのである。例えば、日本語文末表現の時制の推定の問題において、問題：「彼が話す。」−−−解「現在」が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す」「。」となる。

すなわち、機械学習の手法は、素性の集合−解の組のセットを多く用意し、それで学習を行ない、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときもその問題から素性の集合を取り出し、その素性の場合の解を推測する方法である。

機械学習手段１２は、機械学習の手法として、例えば、ｋ近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いる。

ｋ近傍法は、最も類似する一つの事例のかわりに、最も類似するｋ個の事例を用いて、このｋ個の事例での多数決によって分類先（解）を求める手法である。ｋは、あらかじめ定める整数の数字であって、一般的に、１から９の間の奇数を用いる。

シンプルベイズ法は、ベイズの定理にもとづいて各分類になる確率を推定し、その確率値が最も大きい分類を求める分類先とする方法である。

シンプルベイズ法において、文脈ｂで分類ａを出力する確率は、以下の式（１）で与えられる。

ただし、ここで文脈ｂは、あらかじめ設定しておいた素性ｆ_j（∈Ｆ，１≦ｊ≦ｋ）の集合である。ｐ（ｂ）は、文脈ｂの出現確率である。ここで、分類ａに非依存であって定数のために計算しない。Ｐ（ａ）（ここでＰはｐの上部にチルダ）とＰ（ｆ_i｜ａ）は、それぞれ教師データから推定された確率であって、分類ａの出現確率、分類ａのときに素性ｆ_iを持つ確率を意味する。Ｐ（ｆ_i｜ａ）として最尤推定を行って求めた値を用いると、しばしば値がゼロとなり、式（２）の値がゼロで分類先を決定することが困難な場合が生じる。そのため、スームージングを行う。ここでは、以下の式（３）を用いてスームージングを行ったものを用いる。

ただし、ｆｒｅｑ（ｆ_i，ａ）は、素性ｆ_iを持ちかつ分類がａである事例の個数、ｆｒｅｑ（ａ）は、分類がａである事例の個数を意味する。

決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序でリストに蓄えておき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。

決定リスト方法では、あらかじめ設定しておいた素性ｆ_j( ∈Ｆ，１≦ｊ≦ｋ）のうち、いずれか一つの素性のみを文脈として各分類の確率値を求める。ある文脈ｂで分類ａを出力する確率は以下の式によって与えられる。

ｐ（ａ｜ｂ）＝ｐ（ａ｜ｆmax ）式（４）
ただし、ｆmax は以下の式によって与えられる。

また、Ｐ（ａ_i｜ｆ_j）（ここでＰはｐの上部にチルダ）は、素性ｆ_jを文脈に持つ場合の分類ａ_iの出現の割合である。

最大エントロピー法は、あらかじめ設定しておいた素性ｆ_j（１≦ｊ≦ｋ）の集合をＦとするとき、以下所定の条件式（式（６））を満足しながらエントロピーを意味する式（７）を最大にするときの確率分布ｐ（ａ，ｂ）を求め、その確率分布にしたがって求まる各分類の確率のうち、最も大きい確率値を持つ分類を求める分類先とする方法である。

ただし、Ａ、Ｂは分類と文脈の集合を意味し、ｇ_j（ａ，ｂ）は文脈ｂに素性ｆ_jがあって、なおかつ分類がａの場合１となり、それ以外で０となる関数を意味する。また、Ｐ（ａ_i｜ｆ_j）（ここでＰはｐの上部にチルダ）は、既知データでの（ａ，ｂ）の出現の割合を意味する。

式（６）は、確率ｐと出力と素性の組の出現を意味する関数ｇをかけることで出力と素性の組の頻度の期待値を求めることになっており、右辺の既知データにおける期待値と、左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として、エントロピー最大化（確率分布の平滑化) を行なって、出力と文脈の確率分布を求めるものとなっている。

確率分布ｐ（ａ、ｂ）のうち、エントロピーを最大にする確率分布を推定すべき確率分布とする。これは、最も一様な分布となる。このような確率分布は唯一存在し、以下の確率分布ｐ^*として記述される。

ここで、λ_a,jは素性関数ｇ_j（ａ、ｂ）のパラメータである。このパラメータは文脈ｂのもとで出力値ａとなることを予測するのに素性ｆ_jがどれだけ重要な役割を果たすかを表している。訓練集合が与えられたとき、パラメータの推定にはImproved Iterative Scaling(IIS) アルゴリズム（Pietra,and Lafferty 1995) などが用いられる。学習コーパスから実際に式（８）の確率分布を求めるために、Ristadのツール（Ristad 1998 ）を使っている。

最大エントロピー法の詳細については、以下の参考文献（４）および参考文献（５）に記載されている。

参考文献（４）：Eric Sven Ristad, Maximum Entropy Modeling for Natural Language,(ACL/EACL Tutorial Program, Madrid, 1997）
参考文献（５）：Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release 1.6beta, (http://www.mnemonic.com/software/memt,1998)
サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からなるデータを分類する手法である。

図５にサポートベクトルマシン法のマージン最大化の概念を示す図である。図５において、白丸は正例、黒丸は負例を意味し、実線は空間を分割する超平面を意味し、破線はマージン領域の境界を表す面を意味する。図５（Ａ）は、正例と負例の間隔が狭い場合（スモールマージン）の概念図、図５（Ｂ）は、正例と負例の間隔が広い場合（ラージマージン）の概念図である。

このとき、二つの分類が正例と負例からなるものとすると、学習データにおける正例と負例の間隔（マージン) が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ、図５（Ｂ）に示すように、このマージンを最大にする超平面を求めそれを用いて分類を行なう。

基本的には上記のとおりであるが、通常、学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や、超平面の線形の部分を非線型にする拡張（カーネル関数の導入) がなされたものが用いられる。
この拡張された方法は、以下の識別関数を用いて分類することと等価であり、その識別関数の出力値が正か負かによって二つの分類を判別することができる。

ただし、ｘは識別したい事例の文脈（素性の集合) を、ｘ_iとｙ_j（ｉ＝１，…，ｌ，ｙj ∈｛１，−１｝）は学習データの文脈と分類先を意味し、関数ｓｇｎは、
ｓｇｎ（ｘ）＝１（ｘ≧０）
−１（otherwise ）
であり、また、各α_iは式（１２）と式（１３）の制約のもと式（１１）を最大にする場合のものである。

また、関数Ｋはカーネル関数と呼ばれ、様々なものが用いられるが、本形態では以下の多項式のものを用いる。

Ｋ（ｘ，ｙ）＝（ｘ・ｙ＋１）^d 式（１４）
Ｃ、ｄは実験的に設定される定数である。例えば、Ｃはすべての処理を通して１に固定した。また、ｄは、１と２の二種類を試している。ここで、α_i＞０となるｘ_iは、サポートベクトルと呼ばれ、通常、式（１０）の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。

なお、拡張されたサポートベクトルマシン法の詳細については、以下の参考文献（６）および参考文献（７）に記載されている。

参考文献（６）：Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and other kernel-based learning methods,(Cambridge University Press,2000)
参考文献（７）：Taku Kudoh, Tinysvm:Support Vector machines,(http://cl.aist-nara.ac.jp/taku-ku//software/Tiny SVM/index.html,2000)
サポートベクトルマシン法は、分類の数が２個のデータを扱うものである。したがって、分類の数が３個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンＶＳレスト法などの手法を組み合わせて用いることになる。

ペアワイズ法は、ｎ個の分類を持つデータの場合に、異なる二つの分類先のあらゆるペア（ｎ（ｎ−１）／２個）を生成し、各ペアごとにどちらがよいかを二値分類器、すなわちサポートベクトルマシン法処理モジュールで求めて、最終的に、ｎ（ｎ−１）／２個の二値分類による分類先の多数決によって、分類先を求める方法である。

ワンＶＳレスト法は、例えば、ａ、ｂ、ｃという三つの分類先があるときは、分類先ａとその他、分類先ｂとその他、分類先ｃとその他、という三つの組を生成し、それぞれの組についてサポートベクトルマシン法で学習処理する。そして、学習結果による推定処理において、その三つの組のサポートベクトルマシンの学習結果を利用する。推定するべき候補が、その三つのサポートベクトルマシンではどのように推定されるかを見て、その三つのサポートベクトルマシンのうち、その他でないほうの分類先であって、かつサポートベクトルマシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例えば、ある候補が、「分類先ａとその他」の組の学習処理で作成したサポートベクトルマシンにおいて分類先ａの方の空間にあって、なおかつ、分離平面から最も離れた場合には、その候補の分類先は、ａと推定する。

解推定手段１６が推定する、各表現対についての、どのような解（分類先）になりやすいかの度合いの求め方は、機械学習手段１２が機械学習の手法として用いる様々な方法によって異なる。

例えば、本発明の実施の形態において、機械学習手段１２が、機械学習の手法としてｋ近傍法を用いる場合、機械学習手段１２は、教師データの事例同士で、その事例から抽出された素性の集合のうち重複する素性の割合（同じ素性をいくつ持っているかの割合）にもとづく事例同士の類似度を定義して、前記定義した類似度と事例とを学習結果情報として学習結果記憶手段１３に記憶しておく。

そして、解推定手段１６は、表現対抽出手段１４によって新しい表現対（の候補）が抽出されたときに、学習結果記憶手段１３において定義された類似度と事例を参照して、表現対抽出手段１４によって抽出された表現対の候補について、その候補の類似度が高い順にｋ個の事例を学習結果記憶手段１３の事例から選択し、選択したｋ個の事例での多数決によって決まった分類先を、表現対の候補の分類先（解）として推定する。解推定手段１６では、各表現対についての、どのような解（分類先）になりやすいかの度合いを、選択したｋ個の事例での多数決の票数、その分類先が獲得した票数とする。

また、機械学習手法として、シンプルベイズ法を用いる場合には、機械学習手段１２は、教師データの事例について、前記事例の解と素性の集合との組を学習結果情報として学習結果記憶手段１３に記憶する。そして、解推定手段１６は、表現対抽出手段１４によって新しい表現対（の候補）が抽出されたときに、学習結果記憶手段１３の学習結果情報の解と素性の集合との組をもとに、ベイズの定理にもとづいて素性抽出手段１５で取得した表現対の候補の素性の集合の場合の各分類になる確率を算出して、その確率の値が最も大きい分類を、その表現対の候補の素性の分類（解）と推定する。解推定手段１６では、表現対の候補の素性の集合の場合にある解となるなりやすさの度合いを、各分類になる確率とする。

また、機械学習手法として決定リスト法を用いる場合には、機械学習手段１２は、教師データの事例について、素性と分類先との規則を所定の優先順序で並べたリストを学習結果記憶手段１３に記憶する。そして、表現対抽出手段１４によって新しい表現対（の候補）が抽出されたときに、解推定手段１６は、学習結果記憶手段１３のリストの優先順位の高い順に、抽出された表現対の候補の素性と規則の素性とを比較し、素性が一致した規則の分類先をその候補の分類先（解）として推定する。解推定手段１６では、表現対の候補の素性の集合の場合にある解ａとなるなりやすさの度合いは、式（４）の値とする。

また、機械学習手法として最大エントロピー法を使用する場合には、機械学習手段１２は、教師データの事例から解となりうる分類を特定し、所定の条件式を満足しかつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求めて学習結果記憶手段１３に記憶する。そして、表現対抽出手段１４によって新しい表現対（の候補）が抽出されたときに、解推定手段１６は、学習結果記憶手段１３の確率分布を利用して、抽出された表現対の候補の素性の集合についてその解となりうる分類の確率を求めて、最も大きい確率値を持つ解となりうる分類を特定し、その特定した分類をその候補の解と推定する。すなわち、解推定手段１６では、表現対の候補の素性の集合の場合にある解となるなりやすさの度合いを、各分類になる確率とする。

また、機械学習手法としてサポートベクトルマシン法を使用する場合には、機械学習手段１２は、教師データの事例から解となりうる分類を特定し、分類を正例と負例に分割して、カーネル関数を用いた所定の実行関数にしたがって事例の素性の集合を次元とする空間上で、その事例の正例と負例の間隔を最大にし、かつ正例と負例を超平面で分割する超平面を求めて学習結果記憶手段１３に記憶する。そして表現対抽出手段１４によって新しい表現対（の候補）が抽出されたときに、解推定手段１６は、学習結果記憶手段１３の超平面を利用して、抽出された表現対の候補の素性の集合が超平面で分割された空間において正例側か負例側のどちらにあるかを特定し、その特定された結果にもとづいて定まる分類を、その候補の解と推定する。すなわち、解推定手段１６では、表現対の候補の素性の集合の場合にある解となるなりやすさの度合いを、分離平面からのその解の空間（正例（抽出するべき表現対）であれば正例の空間）での表現対の候補への距離の大きさとする。より詳しくは、抽出するべき表現対を正例、抽出するべきではない表現対を負例とする場合に、分離平面に対して正例側の空間に位置する事例が「抽出するべき事例」と判断され、その事例の分離平面からの距離をその事例の度合いとする。

ここでは、テキストデータの文中に出現しているａｉ、ｂｉ、ｃｉ（ｉ＝１，２，３，．．．）の対（表現対）を問題、重要情報対として抽出するべき表現対であるか否かの情報を解とする場合で記載したが、これらの教師有り機械学習法は、情報の重要度を推定する問題など、教師データを用意でき、解の種類が有限の問題にはすべて応用できる。

例えば、情報の重要度を推定する問題だと、各記事に、記事が重要であるかどうかの情報を付与したデータを用意した場合、問題として、ある一つの記事が与えられ、その記事が重要であるかどうか（重要と重要でないの二分類）が解となる（問題種類Ａ）。

そして、
問題記事ａ -- 解「重要」
問題記事ｂ -- 解「重要」
問題記事ｃ -- 解「重要でない」
．．．
が教師データになる。

また、二つの記事対で、どちらの記事が重要であるかどうかの情報を付与したデータを用意した場合、問題として、ある二つの記事が与えられ、どちらの記事が重要であるかどうか（二つの記事の二分類）が解となる（問題種類Ｂ）。

そして、
問題記事ａ１記事ａ2 -- 解「左の記事」
問題記事ｂ１記事ｂ２ -- 解「右の記事」
問題記事ｃ1 記事ｃ２ -- 解「右の記事」
．．．
が教師データになる。

前述の説明の、問題、解に相当するものを、ここでの問題、解に置き換えれば、ここでのものになる。複数の記事を与えてそれらを重要な記事の順に並べ替えることもできる。

例えば、問題種類Ａの場合であれば、各記事について、重要である「分類」になるなりやすさの度合いを求めて、その度合いの大きい順に並べるとよい。

また、問題種類Ｂの場合であれば、すべての記事の対を作成して、各対についてどちらの記事が重要かを求める。各記事について、重要と求まった回数を数えて、この回数の大きい順に並べるとよい。

（４）：単語の認識の説明
情報の重要度を推定するために、素性抽出手段等で単語の認識が必要になる。この単語の認識では、形態素解析システムを使用することができる。

ａ）形態素解析システムの説明
日本語を単語に分割するために、処理部２や学習部４の単語抽出部が行う形態素解析システムが必要になる。ここではChaSenについて説明する（奈良先端大で開発されている形態素解析システム茶筌 http://chasen.aist-nara.ac.jp/index.html.jp で公開されている）。

これは、日本語文を分割し、さらに、各単語の品詞も推定してくれる。例えば、「学校へ行く」を入力すると以下の結果を得ることができる。

学校ガッコウ学校名詞−一般
へヘへ助詞−格助詞−一般
行くイク行く動詞−自立五段・カ行促音便基本型
ＥＯＳ
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。

ｂ）英語の品詞タグつけの説明
英語の品詞タグつけシステムとしては、次の Brillのものが有名である。

Eric Brill, Transformation-Based Error-Driven Learning and
Natural Language Processing: A Case Study in Part-of-Speech Tagging,
Computational Linguistics, Vol. 21, No. 4, p.543-565, 1995.
これは、英語文の各単語の品詞を推定してくれるものである。

（５）：情報の重要度推定の具体的な説明
具体例にしたがって、情報の重要度を自動推定するシステムを説明する。情報の重要度を推定する技術は、記事のランキングや、重要な情報の自動収集など、種々の場面で役立つ重要なものである。ここでは，手始めに新聞の構成情報を利用して情報の重要度の推定を行った。例えば、新聞の１面は他の面よりも情報の重要度が高いと考えられるので、記事ペアのうち、どちらが１面であるかを特定する研究を行った。さらに、被験者実験を行い、被験者の重要と考える記事を特定する研究を行った。

ａ）新聞記事を用いた機械学習に基づく実験の説明
2006年度の毎日新聞、読売新聞、日経新聞の三社の朝刊の新聞記事データを利用した。そして、以下の三つの実験を行った。

実験Ａ：１面記事かそれ以外の面の記事かを特定する。

実験Ｂ：１面トップ記事かそれ以外の面の記事かを特定する。

実験Ｃ：１面トップ記事か１面内の他の記事かを特定する。

１面記事は他の面よりも重要度が高いと考えられる。また、１面トップ記事はさらに重要度が高いと考えられる。このため、重要度に関する研究の手始めとしては上記実験を行った。2006年度のすべての日を使ったデータを作成した。実験Ａは、１年分の１面記事として、各社約2000-3000 記事を利用し、それ以外の面の記事はそれ以外の面からランダムに１面記事と同数のものを取り出して、合計約4000-6000 記事を利用した。実験Ｂ、Ｃは、１年分の１面トップ記事として、各社約350 記事を利用し、それ以外の面の記事または１面内の他の記事は、その場所からランダムに１面トップ記事と同数のものを取り出して、合計約700 記事を利用した。

図６は素性の説明図である。図６において、素性１はタイトルにあった名詞、素性２はタイトルにあった名詞の分類語彙表（後述する）の番号の１，２，３，４，５，７桁（ただし番号は意味による変更後のものを用いる（以下の参考文献（７）参照））、素性３は本文の先頭の１文のみにあった名詞、素性４は本文の先頭の１文のみにあった名詞の分類語彙表の番号の１，２，３，４，５，7 桁、素性５は本文の先頭の１文を除いた本文にあった名詞、素性６は本文の先頭の１文を除いた本文にあった名詞の分類語彙表の番号の１，２，３，４，５，７桁、素性７はタイトルと本文のいずれかにあった名詞、素性８はタイトルと本文のいずれかにあった名詞の分類語彙表の番号の１，２，３，４，５，7 桁。

参考文献（７）：村田真樹, 神崎享子, 内元清貴, 馬青, 井佐原均, 意味ソートmsort ―意味的並べかえ手法による辞書の構築例とタグつきコーパスの作成例と情報提示システム例―, 言語処理学会誌,Vol.7,No.1,(2000),pp.51−66.
機械学習法には、サポートベクターマシン法（ＳＶＭ）（参考文献（７）参照）と最大エントロピー法（ＭＥ）（以下の参考文献（９）参照）を利用した。

参考文献（９）：MasaoUtiyama,MaximumEntropyModelingPackage,(http://www.nict.go.jp/x/x161/mem-bers/mutiyama/software.html#maxent,2006).
サポートベクターマシン法では、ｄ＝１、Ｃ＝１で実験した（参考文献（２）参照）（ｄ＝２の実験も行っている) 。素性としては、図６に示すものを用いた。まず、実験Ａで、一つの記事を入力とし、それがどういう記事かを特定する実験を行った。実験は１０分割クロスバリデーション（記事群を１０分割して分割した一つの記事群の１記事をテストデータとする実験）で行った。その結果を図７に示している。図７は１記事入力の場合の実験Ａの説明図である。図７の表の素性の列にある数字は、図６のうちその行の実験で用いた素性を意味する。

次に、実験Ａで、二つの記事（１面記事とそれ以外の面の記事）を入力とし、どちらが１面記事かを特定する実験を行った。実験は１０分割クロスバリデーションで行った。その結果を図８に示している。図８は記事ペア入力の場合の実験Ａの説明図である。

この実験結果から、一つの記事について１面かそれ以外かを特定するよりも、二つの記事のペアを与えて、どちらが１面かを特定する方が簡単であることがわかった。次に、実験Ｂ、Ｃで、二つの記事（１面トップ記事とそうでない記事）を入力とし、どちらが１面トップ記事かを特定する実験を行った。実験は１０分割クロスバリデーションで行った。その結果を図９と図１０に示している。図９は記事ペア入力の場合の実験Ｂの説明図であり、図１０は記事ペア入力の場合の実験Ｃの説明図である。

この実験Ａ、Ｂ、Ｃの中では１面トップ記事かそれ以外の面の記事かを特定する実験Ｂの精度が比較的高いことがわかる。

ｂ）アンケートデータを利用した機械学習に基づく実験の説明
次にアンケートデータを利用した実験を行った。アンケートは２００７年１１月に実施し、３０９人の被験者を対象に、５６個の５組の新聞記事を与えてその５組を自分にとって重要な順に並べかえてもらった。５６個の新聞記事の内訳は、異なる５個の日の新聞１面トップ記事（毎日新聞１５個、読売新聞１５個、日経新聞８個）が計３８個、１面トップ記事を含む同じ日の１面内の５記事（各社２個ずつ）が計６個、同じ日の１面トップ記事と４個のランダムに取り出した１面以外の記事（各社２個ずつ）が計６個、同じ日の毎日新聞の１面トップ記事、次の記事、読売新聞の１面トップ記事、次の記事、日経新聞の１面トップ記事（この５記事の記事内容が重複しない日を選択）が計６個である。５組の並べ替えのデータから、１０個のどちらが重要とされたかの情報を含む記事ペアを生成することで、56個のデータから、計５６０個の記事ペアを生成した。この記事ペアを実験に用いた。アンケートでは字数の制限のため記事の最初の約３００文字のみを利用した。また、これにあわせて本節の実験では、すべての記事について最初の約３００文字のみを利用した。ここで、全体データで被験者で多数決をとり、重要と答えられた数の多い方の記事を重要記事と考え、記事ペアを入力としてその重要記事を特定する実験を行った。実験は１０分割クロスバリデーションで行った。その結果を図１１に示している。

図１１はアンケートデータでの実験の説明図である。図１１では、さらに、重要記事と考えた被験者の割合が６０％、７０％、８０％以上であったものだけで行った実験（それぞれの場合の実験で用いられた事例数は、２９０個、１１３個、１７個である）も記載している。被験者の意見もわかれる、全データや「６０％」などの実験結果では性能は悪いが、「８０％」の実験では高い精度を実現している。

次に、新聞記事を学習データとして、アンケートデータをテストデータとした実験を行った。その結果を図１２に示している。図１２は新聞記事を学習データとしてアンケートデータをテストデータとした実験の説明図（８０％以上被験者一致）である。また、新聞記事とアンケートデータを学習データとして、アンケートデータをテストデータとした実験を行った。これはアンケートデータ部分については１０分割のクロスバリデーションで実験した。その結果を図１３に示している。図１３は新聞記事とアンケートデータを学習データとしてアンケートデータをテストデータとした実験の説明図（８０％以上被験者一致）である。表中の混合は実験Ａ、Ｂ、Ｃのすべてのデータを利用したものを意味し、全新聞社は全新聞社のデータを利用したものを意味する。これらの実験は、重要記事と考えた被験者の割合が８０％以上であったものだけで行った。

新聞社データだけを学習データとして用いる図１２では、毎日が８８％をあげ高精度であり、次は８２％の読売である。新聞社データから一般的な被験者が重要と思う記事を特定するには、毎日新聞、読売新聞の順に役立つことがわかる。実験環境がよいときには、一般的な被験者が重要と思う記事を特定するのに、新聞社データが利用でき、８８％の精度で特定できることがわかった。また、そのときの新聞社は、毎日新聞で、実験の種類は実験Ｂであった。これは、２節の実験でも実験Ａ、Ｂ、Ｃの中で実験Ｂが比較的性能がよかったが、それと関係があると思われる。実験Ｂは、１面トップ記事かそれ以外の面の記事かを特定するものであり、比較する２記事がかなりかけ離れたものであり、それが良い影響を与えたと思われる。新聞データとアンケートデータを利用する方法では、最高精度（９４％）はアンケートデータだけを学習データに用いるものと同じであり、新聞データを学習データに追加で用いた効果は見ることはできなかった。

ｃ）実験結果のまとめ
この実験では、機械学習を利用した重要度に関する実験を行った。新聞記事での実験により、１記事を与えて１面記事かどうかを特定するよりも、２記事を与えてそのどちらが１面記事かどうかを特定する方が簡単であることがわかった。また、実験Ａ、Ｂ、Ｃと行ったが、１面トップ記事かそれ以外の面の記事かを特定する実験Ｂが最も高い精度をあげることがわかった。被験者を利用した実験では、被験者の一致率が高い記事ペア（一致率８０％以上）については、９４％と高い精度で重要記事を特定できた。また、そのような記事ペアは新聞記事だけからでも、８８％と高い精度で重要記事を特定できた。このことは、新聞データが、被験者データの代用としてもある程度利用できることを意味する。今後はアンケートデータの分析も行いたいと考えている。例えば、テキストマイニングシステムSimpleminer （以下の参考文献（１０）参照）を用いると、「ライブドア」の重要度が低く、「年金」の重要度が高いという結果を得た。ここでは重要と被験者が判断した記事のタイトルに偏って多く出現したものを重要度が高いとしている。アンケートを２００７年１１月に実施したため、今はほとんどの人が「ライブドア」事件に興味がなく、年金問題に興味があることがわかった。また、「殺人、死亡、病院、保険、金融、与党、改革、天下り」の重要度も高いこと、「選挙、工事、談合、野球」の重要度が低いこともわかった。

参考文献（１０）：村田真樹, 金丸敏幸, 一井康二, 白土保, 馬青, 井佐原均, テキストマイニングシステムsimpleminer の開発, 言語処理学会第14回年次大会,(2008).
ｄ）サポートベクターマシン法でｄ＝２で実験した場合の説明
上記サポートベクターマシン法でｄ＝１、Ｃ＝１の実験を行ったが、ここでは社告等の不要と思われる記事を除く処理を行って、ｄ＝２（Ｃ＝１）で実験を行った。そして、機械学習の素性として、図６の１、３、５、７の全てを用いた。

図１４は新聞記事の実験の説明図である。図１４において、入力が１記事入力の場合の実験Ａは図７の実験に対応し、入力が記事ペア入力の場合の実験Ａの場合は図８の実験に、実験Ｂの場合は図９の実験に、実験Ｃの場合は図１０の実験に対応する。

図１５はアンケートデータでの実験の説明図である。図１５の実験は、図１１の実験に対応している。図１６はアンケートデータをテストデータとした実験の説明図である。図１６において、学習データが新聞記事のみの場合は図１２の実験に対応し、学習データが新聞記事とアンケートデータの場合は図１３の実験に対応している。図１６の実験では、学習データとして、新聞記事のみの場合より新聞記事とアンケートデータを組み合わせた方が精度が向上している。そして、新聞記事のみでも最大９４％の精度が得られている。また、新聞記事とアンケートデータの組み合わせでは、さらに精度がよく最大で１００％が得られている。

（６）：分類語彙表の説明
ａ）分類語彙表の構成
分類語彙表とはボトムアップ的に単語を意味に基づいて整理した表であり、各単語に対して分類番号という数字が付与される。分類語彙表の構成（国立国語研究所，分類語彙表，1964）は、例えば、以下のようなものである。

あい, 愛,1.3020,9,10,*,
あい, 相,3.112,1,10,*,
あい, 藍,1.502,6,40,,
あいいく, 愛育,1.3642,1,40,,
あいいん, 愛飲,1.3332,3,60,,
あいいん, 合印,1.3114,1,30,Y,
あいうち, あい打ち,1.357,4,30,,
あいかぎ, 合鍵,1.454,8,50,,
あいかわらず, 相変らず,3.165,2,10,*,
あいかん, 哀歓,1.3011,4,60,,
あいがん, 哀願,1.366,1,100,,
あいがん, 愛翫,1.3852,2,10,,
あいぎ, 合着,1.421,4,40,,
あいきょう, 愛郷,1.3020,11,170,,
あいきょう, 愛嬌,1.3030,4,40,,
分類語彙表は、上記の例のように、「，」 (コンマ）で区切ってあって、それぞれ、単語の読み、単語の見出し語、単語の分類番号、単語の分類番号の下位番号１、単語の分類番号の下位番号２、標本使用頻度が７以上の単語かどうかを示す情報である。

ｂ）分類語彙表の変更の説明
図１７は電子化された分類語彙表の説明図である。図１７に示すように、電子化された分類語彙表では、各単語には１０桁の分類番号が与えられている（書籍判の分類語彙表では分類番号は５桁までしかないが、電子化判では１０桁存在する）。この１０桁の分類番号は７レベルの階層構造を示しており、上位５レベルは分類番号の最初の５桁で表現され、６レベル目は次の２桁、最下層のレベルは最後の３桁で表現されている。

本発明者らは、前記の参考文献（８）で、このような分類語彙表の分類番号を名詞の意味素性に合わせて修正した。図１８は名詞の意味素性と分類語彙表での分類番号の変換表である。図１８の数字は分類番号の最初の何桁かを変換するためのものであり、例えば、１行目の "[1-3]56"や "511"は、分類番号の頭の３桁が "156"か "256"か "356"ならば511 に変換するということを意味している（[1-3] は1,2,3 を意味している）。

この分類番号の変換により、図１７に示した分類番号は、図１９の分類語彙表の分類番号の変更例のように変換されることになる。図１８から分かるように、この変換された分類番号において、上位２桁が“５１”である単語は“動物”に関係する単語であることを意味し、上位２桁が“５２”である単語は“人間”に関係する単語であることを意味する。

（７）：単語の重要度の説明
機械学習では、ライブドアに関係する記事と、年金に関係する記事が入力されて、どちらが重要な記事かを計算機に判断させる。そうすると、記事内の単語を素性として取り出し、その素性を利用して、年金に関係する記事の方が重要と判断されて出力される。

システムは予めどういう単語がくると重要と判断するかは学習している。学習した素性の例を図２０に示している。値（重要度の値）が大きいほど重要度が高いと判断するのに役立つ単語を意味する。

例えば、最大エントロピーの前の式（８）（９）において、αa,j の値が求まる。ａは分類で、ｊは素性を意味しているので、今回はａは重要な方の記事（例えば、新聞の１面）の場合のａ１と、重要でない方の記事（例えば、新聞の１面以外）の場合のａ２の二種類となる。ここで、単語ｊの重要度は、次の式で求めることができる。

αa1,j／（αa1,j＋αa2,j）
（８）：教師有り機械学習手法を用いる方法以外の説明
教師有り機械学習手法を用いる方法以外の方法として以下の方法がある。

記事のタイトルに出現する単語を収集し、そこで高頻度に出現する単語を重要な概念と考えて、そういう単語をタイトルにより多く含む記事を重要な記事と考える。ただし、一般的な文書でも高頻度に出現する単語は、タイトルに高頻度に出現しても重要でない場合があるので、そういう単語は統計処理（例えば、有意差検定を用いる処理）などにより取り除いておく。なお、重要でないと思われる所定の単語を予め登録しておいて、取り除くようにすることもできる。

また、１面の記事のタイトルに出現する単語を収集し、そこで高頻度に出現する単語を重要な概念と考えて、そういう単語をタイトルにより多く含む記事を重要な記事と考える。ただし、一般的な文書や１面以外の記事のタイトルでも高頻度に出現する単語は、タイトルに高頻度に出現しても重要でない場合があるので、そういう単語は統計処理などにより取り除いておく。上記２段落の方法を頻度法と呼ぶ。

（頻度法の説明）
（ａ）オートマティックフィードバックを利用する場合の説明
ある文書群Ｃ（データベースに格納された）から単語Ａを含む文書群Ｄを検索する。そして、この文書群Ｄに偏って多く出現する単語を単語群Ｂとする。

ある記事（文書）群Ｄに偏って出現する単語群Ｂの抽出方法の説明（解決法１）
例えば、コンピュータを含む記事群に偏って出現する単語群Ｂを抽出するときなどに使うことができる。記事群Ｄを包含するよりも大きい記事群をＣとする。ここで記事群Ｃはデータベース全体でもいいし、一部でもよい。上述の解決法１にしたがえば、Ｃは「ＷＩＮＳ」を含む記事群となる。

ただし、上述の解決法１も他の方法がありえて、「ＷＩＮＳ」を含む記事群の中で、コンピュータを含む記事群に偏って出現する単語群Ｂを取り出すのではなく、データベース全体の記事群の中で、コンピュータを含む記事群に偏って出現する単語群Ｂを取り出し、その取り出した単語群Ｂを利用して処理してもよい。その場合はＣはデータベース全体となる。

先ず、Ｃ中のＢの出現率とＤ中のＢの出現率を求める。

Ｃ中のＢの出現率＝Ｃ中のＢの出現回数／Ｃ中の単語総数
Ｄ中のＢの出現率＝Ｄ中のＢの出現回数／Ｄ中の単語総数
次に、Ｄ中のＢの出現率／Ｃ中のＢの出現率
を求めてこの値が大きいものほど、記事群Ｄに偏って出現する単語とする。

（ｂ）ある記事群Ｄに偏って出現する単語群Ｂの抽出方法の説明
（有意差検定を利用する説明）
・二項検定の場合の説明
ＢのＣでの出現数をＮとする。ＢのＤでの出現数をＮ１とする。

Ｎ２＝Ｎ−Ｎ１とする。

ＢがＣに現れたときにそれがＤ中に現れる確率を0.5 と仮定して、Ｎの総出現のうち、Ｎ２回以下、ＢがＣに出現してＤに出現しなかった確率を求める。

この確率は、
P1 =Σ C(N1+N2,x) * 0.5 ＾(x) * 0.5 ＾(N1+N2-x)
（ただし、Σは、x = 0 から x = N2 の和）
（ただし、C(A,B)は、Ａ個の異なったものからＢ個のものを取り出す場合の数)
（ただし、＾は、指数を意味する）
で表され、この確率の値が十分小さければ、Ｎ１とＮ２は等価な確率でない、すなわち、Ｎ１がＮ２に比べて有意に大きいことと判断できる。

５％検定なら
P1が５％よりも小さいこと、１０％検定ならP1が１０％よりも小さいこと、が有意に大きいかどうかの判断基準になる。

Ｎ１がＮ２に比べて有意に大きいと判断されたものを記事群Ｄに偏って出現する単語とする。また、P1が小さいものほど、記事群Ｄによく偏って出現する単語とする。

・カイ二乗検定の場合の説明
Ｄ中のＢの出現回数をＮ１、Ｄ中の単語の総出現数をＦ１、
ＣにあってＤにない、Ｂの出現回数をＮ２、
ＣにあってＤにない、単語の総出現数をＦ２とする。

Ｎ＝Ｎ１＋Ｎ２として、
カイ二乗値 = (N * (F1 * (N2 - F2) - (N1 - F1) * F2 )＾2 )/((F1 + F2)*(N - (F1 + F2)) * N1 * N2)
を求める。

そして、このカイ二乗値が大きいほどＲ１とＲ２は有意差があると言え、カイ二乗値が 3.84 よりも大きいとき危険率５％の有意差があると言え、カイ二乗値が 6.63 よりも大きいとき危険率１％の有意差があると言える。

N1 > N2 でかつ、カイ二乗値が大きいものほど、記事群Ｄによく偏って出現する単語とする。

・比の検定、正確に言うと、比率の差の検定の説明
p = (F1+F2)/(N1+N2)
p1 = R1
p2 = R2
として、
Z = ｜ p1 - p2｜ / sqrt ( p * (1 - p) * (1/N1 + 1/N2) )
を求め、（ただし sqrt はルートを意味する) そして、Z が大きいほど、Ｒ１とＲ２は有意差があると言え、Ｚが 1.96 よりも大きいとき危険率５％の有意差があると言え、Ｚが 2.58 よりも大きいとき危険率１％の有意差があると言える。

N1 > N2 で、かつ、Ｚが大きいものほど、記事群Ｄによく偏って出現する単語とする。

これら三つの検定の方法と、先の単純に、Ｄ中のＢの出現率／Ｃ中のＢの出現率を求めて判定する方法を組み合わせてもよい。

例えば、危険率５％以上有意差があるもののうち、Ｄ中のＢの出現率／Ｃ中のＢの出現率、の値が大きいものほど記事群Ｄによく偏って出現する単語とする。

（単語の削除処理の説明）
上記の文書群Ｃを一般的文書、文書群Ｄをタイトルとして処理して、一般的文書よりも、タイトルに偏って多く出現する単語を取り出すことができる。

また、文書群Ｃを一般的文書、又は、１面以外の記事のタイトル、文書群Ｄを１面の記事のタイトルとして処理して、一般的文書や１面以外の記事のタイトルよりも、１面の記事のタイトルに偏って多く出現する単語を取り出すことができる。

そして、その取り出した単語以外の単語は、高頻度であっても重要でない可能性が高いので取り除く。

さらに、タイトル、または、１面タイトルに出現した頻度をＦとする。ある記事Ａが入力された場合、その記事Ａのタイトルに含まれる単語すべてについて、log(F)を求めて、もっとも大きいこの値を、その記事の得点とする。したがって、この値が大きい記事ほど重要度の高い記事とすることができる。ただし、この計算で、先の頻度法における統計処理による、単語の削除処理による方法で、頻度が高くても一般的文書でも同様に頻度の高い単語は削除してから、上記計算を行う。

（関連度の説明）
重要度は次の式で表すこともできる。

重要度＝代表性 × 関連度
この式では、代表性は、機械学習の方法で求まる重要度や、上記頻度法でもとまる得点を利用する。関連度は、ある事柄と分野、人、立場との関連度であり、以下のように計算する。

方法１
予め、分野、人、立場を意味する単語を登録しておく。登録した単語をｎ個とする。ある事柄の記事に、それら単語がどのくらい含まれているかを調べる。含まれていた単語の数をｎ１個とする。そして、ｎ１／ｎを関連度とする。

方法２
予め、分野、人、立場を意味する単語を登録しておく。登録した単語ｔをｎ個とする。ある事柄の記事に、それら単語ｔとよく共起する単語が含まれているかを調べる。含まれていた単語ｔの数をｎ１個とする。そして、ｎ１／ｎを関連度とする。

ただし、単語ａとよく共起する単語ｂとは、ほかの大規模な自然言語テキストのデータベースにおいて、単語ａ，ｂが同じ記事や同じ文に所定の回数以上出現している場合を意味する。または、単語ａとよく共起する単語ｂとは、ほかの大規模な自然言語テキストのデータベースにおいて、単語ａ，ｂが同じ記事や同じ文に出現した回数をｎａｂ、単語ａ，ｂのそれぞれの出現回数をｎａ，ｎｂとして、ｎａｂ／ｎａ／ｎｂが所定の値よりも大きい場合を意味する。

方法１、方法２は、関連度計算の方法の例を示したにすぎず、これに類似する方法で処理してもよい。

このように、頻度法により求まる値（代表性）と関連度をかけた値を使うことで、その分野、人、立場の場合の重要度を推定することもできる。

（９）：言語横断の説明
情報の重要度推定システムでは、翻訳を行う（翻訳手段を用いる）ことで、他の言語の情報の重要度を推定することができる。翻訳方法は、訳語辞書で翻訳する方法と既存の翻訳システムで翻訳する方法がある。訳語辞書とは、例えば、
car --車
house --家
のように訳語が対になって表記されているもので、単語マッチで変換して利用する。

ａ）第一の言語データの情報の重要度を推定するシステムの説明
1) 第一の言語データの情報の重要度を推定するシステムにおいて、前記機械学習手段で、第二の言語データを第一の言語データに翻訳した翻訳データを用いて学習し、前記処理手段で、第一の言語データを用いて入力された新たな情報の重要度を推定する。このため、他の言語を学習データとして利用することができる。

2) 第一の言語データの情報の重要度を推定するシステムにおいて、前記機械学習手段で、第一の言語のデータと、第二の言語データを第一の言語のデータに翻訳した翻訳データの両方を用いて学習し、前記処理手段で、第一の言語データの入力された新たな情報の重要度を推定する。このため、第一の言語データに他の言語を含めて学習データとすることができる。

ｂ）第二の言語データの情報の重要度を推定するシステムの説明
1) 第二の言語データの情報の重要度を推定するシステムにおいて、前記機械学習手段で、第一の言語のデータを用いて学習し、前記処理手段で、第二の言語のデータを第一の言語のデータに翻訳した翻訳データを用いて入力された新たな情報の重要度を推定する。このため、他の言語（第二の言語）の情報の重要度を推定することができる。

2) 第二の言語データの情報の重要度を推定するシステムにおいて、前記機械学習手段で、第二の言語データを第一の言語のデータに翻訳した翻訳データを用いて学習し、前記処理手段で、第二の言語データを第一の言語のデータに翻訳した翻訳データを用いて入力された新たな情報の重要度を推定する。このため、他の言語（第二の言語）で学習し、他の言語（第二の言語）の情報の重要度を推定することができる。

3) 第二の言語データの情報の重要度を推定するシステムにおいて、前記機械学習手段で、第一の言語のデータと、第二の言語のデータを第一の言語データに翻訳したデータの両方を用いて学習し、前記処理手段で、第二の言語のデータを第一の言語データに翻訳した翻訳データを用いて入力された新たな情報の重要度を推定する。このため、第一の言語データに他の言語（第二の言語）を含めて学習データとし、他の言語（第二の言語）の情報の重要度を推定することができる。

なお、値が大きいものほど取り出すことなどについて、「値が閾値以上のものを取り出す。値が大きいものを所定の値の個数以上のものを大きい順に取り出す。取り出されたものの値の最大値に対して所定の割合をかけた値を求め、その求めた値以上の値を持つものを取り出す。」のようにすることができる。また、これら閾値、所定の値を、あらかじめ定めることも、適宜ユーザが値を変更、設定できることも可能である。

このように、本発明は、商用のニュース表示システムなどで記事を重要な順に表示したい場合に利用できる。また、ニュース表示システムに限らず、情報を重要な順番に並べ替えたい場合に利用できる。そして、新聞記事から簡便に作成できる学習データも利用して、高性能な重要度の推定が可能である。

従来技術である、新聞の記事同士の参照関係や、語られる内容の重なり具合を、記事同士のリンク情報とみなして、そのリンク情報を利用して重要な論文を求める技術に比べて、本発明は教師あり機械学習を利用して、新聞の面情報と、被験者実験で集めたデータを教師データとして用いて、より重要度に関わる直接的な情報を用いるために、より高性能な重要度の推定が可能となる。また、教師有り機械学習法を用いるために、分野情報を素性に追加することで、分野ごとの重要度も容易に求めることができる。例えば、新聞記事の場合、１面に記事（重要記事）か、それ以外の面の記事（重要でない記事）かを判断できるとともに、１面記事である度合い（重要記事である確信度）も出力することができる。このため、複数の記事等の情報を入力してその情報を重要な順に並べ変えることもできる。

（１０）：プログラムインストールの説明
入力部（入力手段）１、処理部（処理手段）２、表示部（出力手段）３、学習部４、解−素性対抽出手段１１、機械学習手段１２、学習結果記憶手段１３、表現対抽出手段１４、素性抽出手段１５、解推定手段１６、出力手段１７等は、プログラムで構成でき、主制御部（ＣＰＵ）が実行するものであり、主記憶に格納されているものである。このプログラムは、一般的な、コンピュータ（情報処理装置）で処理されるものである。このコンピュータは、主制御部、主記憶、ファイル装置、表示装置、キーボード等の入力手段である入力装置などのハードウェアで構成されている。このコンピュータに、本発明のプログラムをインストールする。このインストールは、フロッピィ、光磁気ディスク等の可搬型の記録（記憶）媒体に、これらのプログラムを記憶させておき、コンピュータが備えている記録媒体に対して、アクセスするためのドライブ装置を介して、或いは、ＬＡＮ等のネットワークを介して、コンピュータに設けられたファイル装置にインストールされる。そして、このファイル装置から処理に必要なプログラムステップを主記憶に読み出し、主制御部が実行するものである。

本発明の情報の重要度推定システムの説明図である。本発明の情報の重要度推定処理の説明図である。本発明の機械学習の手法を用いた情報の重要度推定システムの説明図である。本発明のテキストデータの説明図である。本発明のサポートベクトルマシン法のマージン最大化の概念を示す図である。本発明の素性の説明図である。本発明の１記事入力の場合の実験Ａの説明図である。本発明の記事ペア入力の場合の実験Ａの説明図である。本発明の記事ペア入力の場合の実験Ｂの説明図である。本発明の記事ペア入力の場合の実験Ｃの説明図である。本発明のアンケートデータでの実験の説明図である。本発明の新聞記事を学習データとしてアンケートデータをテストデータとした実験の説明図（８０％以上被験者一致）である。本発明の新聞記事とアンケートデータを学習データとしてアンケートデータをテストデータとした実験の説明図（８０％以上被験者一致）である。本発明の新聞記事の実験の説明図である。本発明のアンケートデータでの実験の説明図である。本発明のアンケートデータをテストデータとした実験の説明図である。本発明の電子化された分類語彙表の説明図である。本発明の名詞の意味素性と分類語彙表での分類番号の変換表である。本発明の分類語彙表の分類番号の変更例の説明図である。本発明の単語の重要度の説明図である。

符号の説明

１入力部（入力手段）
２処理部（処理手段）
３表示部（出力手段）
４学習部（機械学習手段）
５格納手段（学習データ）
６追加情報

Claims

予め重要度が分かっている複数の情報を学習データとして、該学習データから学習に用いるための素性を抽出し、どのような素性のときその情報が重要なのか、重要でないのかを学習する機械学習手段と、
情報を入力する入力手段と、
情報の重要度を推定する処理手段と、
情報の重要度の出力を行う出力手段とを備え、
前記機械学習手段は、予め単語の意味により分類付けられた意味情報を前記学習データの素性に追加して学習し、
前記処理手段は、前記入力手段より入力された新たな情報を前記機械学習手段の学習結果で求めた重要度と、前記入力手段より入力された新たな情報とその分野、人又は立場の関連度を掛け合わせたものにより重要度を推定し、前記出力手段により出力することを特徴とした情報の重要度推定システム。
前記機械学習手段は、新聞での記載位置の情報を利用して学習することを特徴とした請求項１記載の情報の重要度推定システム。
前記機械学習手段は、人が重要度を判定した結果の情報と新聞での記載位置の情報の両方を利用して学習することを特徴とした請求項１又は２に記載の情報の重要度推定システム。
前記機械学習手段は、分野、人又は立場の情報を学習データとして追加して学習することを特徴とした請求項１〜３のいずれかに記載の情報の重要度推定システム。
重要な情報に出現する単語を収集し、高頻度に出現する単語を重要な概念として、前記機械学習手段の学習データに追加することを特徴とした請求項１〜４のいずれかに記載の情報の重要度推定システム。
重要な情報とその分野、人又は立場の関連度を求め、該求めた関連度を前記機械学習手段の学習データに追加することを特徴とした請求項５記載の情報の重要度推定システム。
第二の言語データの情報の重要度を推定するシステムにおいて、前記機械学習手段で第一の言語データを用いて学習し、前記処理手段で第二の言語データを第一の言語のデータに翻訳した翻訳データを用いて入力された新たな情報の重要度を推定することを特徴とした請求項１〜６のいずれかに記載の情報の重要度推定システム。
前記機械学習手段で、翻訳データを用いて学習することを特徴とした請求項１〜７のいずれかに記載の情報の重要度推定システム。
機械学習手段で、予め重要度が分かっている複数の情報を学習データとして、該学習データから学習に用いるための素性を抽出し、どのような素性のときその情報が重要なのか、重要でないのかの学習に、予め単語の意味により分類付けられた意味情報を前記学習データの素性に追加して学習し、
処理手段で、入力手段より入力された新たな情報を前記機械学習手段の学習結果で求めた重要度と、前記入力手段より入力された新たな情報とその分野、人又は立場の関連度を掛け合わせたものにより重要度を推定し、出力手段により出力することを特徴とした情報の重要度推定方法。
予め重要度が分かっている複数の情報を学習データとして、該学習データから学習に用いるための素性を抽出し、どのような素性のときその情報が重要なのか、重要でないのかの学習に、予め単語の意味により分類付けられた意味情報を前記学習データの素性に追加して学習する機械学習手段と、
情報を入力する入力手段と、
情報の重要度の出力を行う出力手段と、
前記入力手段より入力された新たな情報を前記機械学習手段の学習結果で求めた重要度と、前記入力手段より入力された新たな情報とその分野、人又は立場の関連度を掛け合わせたものにより重要度を推定し、前記出力手段により出力する処理手段として
コンピュータを機能させるためのプログラム。