JP6153262B2

JP6153262B2 - 対象文章を象徴する簡易文を推定するプログラム、装置及びサーバ

Info

Publication number: JP6153262B2
Application number: JP2014044668A
Authority: JP
Inventors: 鈴木　雅実; 雅実鈴木; 滝嶋　康弘; 康弘滝嶋
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2014-03-07
Filing date: 2014-03-07
Publication date: 2017-06-28
Anticipated expiration: 2034-03-07
Also published as: JP2015170145A

Description

本発明は、対象文章の意味的内容を象徴する文を生成又は選択する技術に関する。

近年、テキスト要約技術の進歩によって、Ｗｅｂページに記述された長い対象文章も短時間で圧縮し、ブラウザで閲覧することができる。要約を更に進めると、そのような対象文章を、文やキーワードにまで凝縮させることもできる。但し、テキスト要約技術は、論理的な意味のまとまりを保持するものであっって、通常、パラグラフのような文章を生成するに留まる。

テキスト要約技術は、対象文章から単語を抽出し、それら単語を含む文を繋ぎ合わせて要約文章を生成する。最近では、複数の対象文章を要約するものもあるが、いずれにせよ論理的な文章として再構成するものが一般的である（例えば非特許文献１参照）。また、内容網羅性及び可読性の高い要約を生成するために、文要素に種々の素性を付与する技術もある（例えば特許文献１参照）。一方で、対象文章に対して各種のアノテーションを施すことによって、簡易に検索する技術もある（例えば非特許文献２参照）。この技術によれば、対象文章における語の分布や形式的特徴から、種々の属性を付与するものであって、アノテーションされた情報自体を人間が参照することは少ない。

人間が、原文となる対象文章を読むことなく、要約文章のみで理解するためには、要約文章には、ある程度の文章の長さが必要であり、原文の大意を反映することが必要である。しかし、その要求レベルに応じることは一般に非常に難度が高い。これに対して、検索結果の一覧等で表示される表題や目次的な情報を提示する技術もあるが、この技術によれば、そのリンク先を示すための中間段階の手掛り情報に過ぎない。

特開２０１１−２４３１６６号公報

難波英嗣・奥村学、「ここまで来たテキスト自動要約」、情報処理 Vol43、2002 No.12、[online]、［平成２６年２月１１日検索］、インターネット＜URL:http://www.ls.info.hiroshima-cu.ac.jp/~nanba/pdf/IPSJ-MGN431203_2002.pdf＞冨浦洋一・石田栄美、「学術論文検索の高度化のための論文アブストラクトのアノテーション」、テキストアノテーションワークショップ・コンテスト（国立情報学研究所）、2012、[online]、［平成２６年２月１１日検索］、インターネット＜URL:http://nlp.nii.ac.jp/tawc/papers/C03_tomiura.pdf＞独立行政法人・情報通信研究機構、「日本語ＷｏｒｄＮｅｔ」[online]、［平成２６年２月１１日検索］、インターネット＜URL:http://nlpwww.nict.go.jp/wn-ja/＞

例えば様々なニュース記事やブログ記事を、コンサイス表現としての「名言」「格言」「ことわざ」「俳句」「川柳」（以下「簡易文」という）でたとえることによって、利用者に、その内容を直感的に理解させることができる。ここで、本願の発明者らは、対象文章に、テキスト要約やアノテーションではなく、コンサイス表現としての簡易文を対応付けることはできないか？と考えた。即ち、ニュース記事やブログ文章のような対象文章から、人として共感できる「コンサイス表現」を検索することができないか？、と考えた。このようなコンサイス表現は、対象文章に出現する単語を単に組み合わせても得られるものではない。対象文章の意味的内容を凝縮した、納得性の高いコンサイス表現を明示することができなければ、利用者は、それを一見しただけで直感的に理解して共感することまではできない。

そこで、本発明は、対象文章を象徴的に表すコンサイス表現（簡易文）を推定することができるプログラム、装置及びサーバを提供することを目的とする。

本発明によれば、対象文章を象徴する簡易文を推定するようにコンピュータを機能させるプログラムであって、
複数の簡易文を予め記憶した簡易文記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
入力された対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、重要語と共起して出現する第１の連想語リストを抽出する第１の連想語抽出手段と、
簡易文記憶手段に記憶された簡易文毎に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、簡易文と共起して出現する第２の連想語リストの群を抽出する第２の連想語抽出手段と、
簡易文毎の第２の連想語リストの群の中で、第１の連想語リストに最も類似する第２の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第２の連想語リストに基づく簡易文を、対象文章を象徴するものとして出力する簡易文推定手段と
してコンピュータを機能させることを特徴とする。

本発明のプログラムにおける他の実施形態によれば、
簡易文は、名言、格言、ことわざ、俳句及び／又は川柳である
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
連想語リストマッチング手段は、
対象文章Ｘにおける第１の連想語リストの連想語毎に、複数の簡易文Ｃ_１〜Ｃ_ｎにおける各第２の連想語リストの連想語それぞれの意味的距離を検索し、当該距離が最短となる連想語ペアを導出し、連想語ペアの意味的距離の平均距離又は累積距離を算出し、
対象文章Ｘにおける第１の連想語リストに対して、平均距離又は累積距離が最も短い第２の連想語リストに基づく簡易文を選択する
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
コーパス文章記憶手段及び／又は連想語記憶手段は、複数のカテゴリに区分されており、
第１の連想語抽出手段及び／又は第２の連想語抽出手段は、入力された対象文章のカテゴリに応じて、コーパス文章記憶手段及び／又は連想語記憶手段から参照するカテゴリを選択する
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
簡易文推定手段は、対象文章に対して距離が短い順に所定数の簡易文を選択し、複数の簡易文を推定結果として出力する
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
重要語抽出手段は、ＴＦ−ＩＤＦ（Term Frequency - Inverse Document Frequency：単語の出現頻度−逆出現頻度）又はＤＦ(Document Frequency)を用いて、重要語を抽出する
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
大量の対象文章を記憶した対象文章データベースと、
入力されたクエリに対して、対象文章データベースを用いて、１つ以上の対象文章を検索し、当該対象文章を重要語抽出手段へ出力するする対象文章検索手段と
を有し、
簡易文推定手段は、各対象文章に対応する簡易文を検索結果として出力する
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
簡易文推定手段は、
各対象文章に簡易文を組み合わせて検索結果として出力するか、
又は、
複数の簡易文を出力すると共に、いずれかの簡易文をユーザに選択させ、選択された簡易文に対応する対象文章を改めて検索結果として出力する
ようにコンピュータを機能させることも好ましい。

本発明によれば、簡易文を象徴する対象文章を推定するようにコンピュータを機能させるプログラムであって、
複数の対象文章を予め記憶した対象文章記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
対象文章毎に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、重要語と共起して出現する第１の連想語リストの群を抽出する第１の連想語抽出手段と、
入力された簡易文に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、簡易文と共起して出現する第２の連想語リストを抽出する第２の連想語抽出手段と、
対象文章毎の第１の連想語リストの群の中で、第２の連想語リストに最も類似する第１の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第１の連想語リストに基づく対象文章を、簡易文を象徴するものとして出力する対象文章推定手段と
してコンピュータを機能させることを特徴とする。

本発明によれば、対象文章を象徴する簡易文を推定する装置であって、
複数の簡易文を予め記憶した簡易文記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、重要語と共起して出現する第１の連想語リストを抽出する第１の連想語抽出手段と、
簡易文記憶手段に記憶された簡易文毎に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、簡易文と共起して出現する第２の連想語リストの群を抽出する第２の連想語抽出手段と、
簡易文毎の第２の連想語リストの群の中で、第１の連想語リストに最も類似する第２の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第２の連想語リストに基づく簡易文を、対象文章を象徴するものとして出力する簡易文推定手段と
を有することを特徴とする。

本発明によれば、簡易文を象徴する対象文章を推定する装置であって、
複数の対象文章を予め記憶した対象文章記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
対象文章毎に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、重要語と共起して出現する第１の連想語リストの群を抽出する第１の連想語抽出手段と、
入力された簡易文に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、簡易文と共起して出現する第２の連想語リストを抽出する第２の連想語抽出手段と、
対象文章毎の第１の連想語リストの群の中で、第２の連想語リストに最も類似する第１の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第１の連想語リストに基づく対象文章を、簡易文を象徴するものとして出力する対象文章推定手段と
を有することを特徴とする。

本発明によれば、端末からクエリを受信し、該クエリに対応する１つ以上の対象文章を検索し、該対象文章を象徴する簡易文を推定し、該簡易文を端末へ返信するサーバであって、
大量の対象文章を記憶した対象文章データベースと、
複数の簡易文を予め記憶した簡易文記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
クエリに対して、対象文章データベースを用いて、１つ以上の対象文章を検索する対象文章検索手段と、
検索された対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、重要語と共起して出現する第１の連想語リストを抽出する第１の連想語抽出手段と、
簡易文記憶手段に記憶された簡易文毎に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、簡易文と共起して出現する第２の連想語リストの群を抽出する第２の連想語抽出手段と、
簡易文毎の第２の連想語リストの群の中で、第１の連想語リストに最も類似する第２の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第２の連想語リストに基づく簡易文を、対象文章を象徴する検索結果として出力する簡易文推定手段と、
を有することを特徴とする。

本発明のサーバにおける他の実施形態によれば、
簡易文推定手段は、
各対象文章に簡易文を組み合わせて検索結果として出力するか、
又は、
複数の簡易文を端末へ返信すると共に、ユーザによって選択された簡易文を受信し、該簡易文に対応する対象文章を改めて検索結果として返信する
ことも好ましい。

本発明によれば、端末から簡易文を受信し、該簡易文を象徴する対象文章を推定し、該対象文章を端末へ返信するサーバであって、
複数の対象文章を予め記憶した対象文章記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
対象文章毎に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、重要語と共起して出現する第１の連想語リストの群を抽出する第１の連想語抽出手段と、
入力された簡易文に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、簡易文と共起して出現する第２の連想語リストを抽出する第２の連想語抽出手段と、
対象文章毎の第１の連想語リストの群の中で、第２の連想語リストに最も類似する第１の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第１の連想語リストに基づく対象文章を、簡易文を象徴するものとして出力する対象文章推定手段と
を有することを特徴とする。

本発明のプログラム、装置及びサーバは、対象文章を象徴的に表すコンサイス表現（簡易文）を推定することができる。これによって、対象文章に接した利用者は、そのコンサイス表現を一見しただけで、その対象文章の意味的内容を直感的に理解することができる。

本発明における簡易文推定装置の機能構成図である。対象文章に対する処理を表す本発明のフローチャートである。簡易文に対する処理を表す本発明のフローチャートである。簡易文を入力することによって、対象文章を検索する対象文推定装置の機能構成図である。本発明における簡易文推定サーバを有するシステム構成図である。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

図１は、本発明における簡易文推定装置の機能構成図である。

簡易文推定装置１は、対象文章を入力し、その対象文章を象徴する簡易文を推定する。対象文章は、ニュース記事やブログ記事であってもよい。簡易文は、コンサイス表現であって、例えば名言、格言、ことわざ、俳句、川柳のようなものである。

簡易文推定装置１に、対象文章として、例えば以下のように単一話題のニュース記事が入力されたとする。
-------------------------------------------------------------------------------
タイトル「Ａ子のおば、乳がんで亡くなる」 2013/5/28 16:56
映画女優、Ａ子さん(37)の母方の叔母Ｂ子さんが2013年5月26日、埼玉県の病院で乳がんのため61歳で亡くなった。
Ａ子は14日に乳がんのリスクを高める遺伝子異変が見つかり、両乳房の切除・再建手術を受けたことを公表。Ｂ子さんは04年に乳がんと診断された後に、Ａ子さんと同様の遺伝子異変が見つかっていたという。」
-------------------------------------------------------------------------------
簡易文推定装置１は、入力されたこの「ニュース記事」（対象文章）を象徴する「ことわざ」（簡易文）を推定することができる。

図１によれば、簡易文推定装置１は、コーパス文章記憶部１０１と、連想語記憶部１０２と、重要語抽出部１１１と、第１の連想語抽出部１１２と、簡易文記憶部１２１と、第２の連想語抽出部１２２と、連想語リストマッチング部１３１と、簡易文推定部１３２とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行させることによって実現できる。また、これら機能の処理の流れは、装置を用いた簡易文推定方法としても理解できる。

図２は、対象文章に対する処理を表す本発明のフローチャートである。

［コーパス文章記憶部１０１］
コーパス文章記憶部１０１は、コーパス文章を記憶したものである。コーパス(corpus)とは、狭義には、自然言語の文章を構造化し大規模に集積したデータベースを意味するが、広義には、新聞ニュース記事やブログ記事のような流通する文章であってもよい。また、コーパス文章記憶部１０１は、簡易文推定装置１内に蓄積されたものであってもよいし、ネットワークを介して他のコーパスサーバを検索できるものであってもよい。

他の実施形態として、コーパス文章記憶部１０１は、大量のコーパス文章を、カテゴリに応じて区分して記憶していることも好ましい。簡易文推定装置１に入力された対象文章のカテゴリに応じて、参照すべきコーパス文章群も変更することによって、推定された簡易文における意味的内容の精度も高まる。

コーパス文章記憶部１０１が記憶すべきコーパス文章は、簡易文記憶部１２１に記憶された１つの簡易文と、連想語記憶部１０２に記憶された少なくとも１つの連想語との両方を、１つの文章内に含むものである。コーパス文章記憶部１０１は、簡易文と連想語との共起関係からなるコーパス文章のデータベースである。

図２によれば、コーパス文章として、例えば以下のようなものが記憶されている。
-------------------------------------------------------------------------------
（Ｃ１）「将来、遺伝子医療が発展し、病気が無くなるかもしれません」
（Ｃ２）「転ばぬ先の杖というね。怪我して後悔する前に、予防だね」
（Ｃ３）「感謝！これぞ渡りに船。この対策が良かったのは、まさに運かも」
（Ｃ４）「乳がんは、早期に検査すれば、怖くはありません」
（Ｃ５）「あ〜失格した。これだけ価値も評価も高いのに〜。玉に瑕ということか」
（Ｃ６）「勝手な予防より、異変に気付いて直ぐに診断することが大事」
・・・・・
-------------------------------------------------------------------------------

［連想語記憶部１０２］
連想語記憶部１０２は、任意の複数の連想語を記憶したものである。連想語は、単なる単語の群に過ぎないが、この連想語を介して、対象文章と簡易文との内容的な類似度を導出する。また、連想語記憶部１０２は、第１の連想語抽出部１１２と、第２の連想語抽出部１２２との両方から参照されるものであって、共通して１つのものである。
尚、他の実施形態として、連想語記憶部１０２は、テーマに関する「テーマ連想語」と、人の感情に関する「感情連想語」とに区分して記憶しておくことも好ましい。

図２によれば、連想語としては、例えば以下のようなものが設定されている。
-------------------------------------------------------------------------------
「検査」「手術」「後悔」「治療」「予防」「医師」「病気」「怪我」・・・
-------------------------------------------------------------------------------

［重要語抽出部１１１］
重要語抽出部１１１は、対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する。対象文章に陽に含まれる重要語は、その対象文章を特徴付けている。

重要語抽出部１１１は、最初に、対象文章から、形態素解析によって単語を抽出する。ここで、「形態素解析」とは、文章を、意味のある単語に区切り、辞書を利用して品詞や内容を判別する技術をいう。「形態素」とは、文章の要素のうち、意味を持つ最小の単位（単語を含む）を意味する。

次に、重要語抽出部１１１は、単語毎の出現頻度に応じて、特徴的な複数の重要語を抽出する。最も簡単な方法としては、単なる出現頻度＝出現回数であってもよい。また、重要語の所定数を、例えば上位１００個として抽出するものであってもよいし、重要語の割合を、例えば上位３０％として抽出するものであってもよい。

他の実施形態として、出現頻度は、自立語に注目したＴＦ−ＩＤＦ（Term Frequency - Inverse Document Frequency：単語の出現頻度−逆出現頻度）値であってもよい。ＴＦ−ＩＤＦとは、文章中に出現した単語がどのくらい特徴的であるかを識別するための指標をいう。ＴＦ(term frequency)は、その文章の中でその単語が出現した回数を表し、ＩＤＦ(inverse document frequency)は、コーパス全体の中でその文章を含む文章数の自然対数を表す。そして、ＴＦ値×ＩＤＦ値が、その文章中におけるその単語のＴＦ−ＩＤＦ値となる。高いＴＦ−ＩＤＦ値を持つ単語ほど、話題性が高い（重要）であると認識される。

更に、他の実施形態として、出現頻度は、当該重要語が出現する対象文章の数を表すＤＦ(Document Frequency)値であってもよい。例えば各対象文章について、その重要語の数となる。

更に、他の実施形態として、対象文章が複数のパラグラフ（段落）から構成されている場合、一般に、各パラグラフの先頭文は重要であることが多い。そこで、パラグラフ先頭部分に含まれる単語は、その重みωを例えば２倍に設定した重要語候補とすることもできる。

図２によれば、前述の対象文章の例からは、例えば以下の重要語が抽出されたとする。
-------------------------------------------------------------------------------
「女優」「叔母」「病院」「乳がん」「リスク」「遺伝子」
「異変」「乳房」「切除」「手術」「診断」
-------------------------------------------------------------------------------

［第１の連想語抽出部１１２］
第１の連想語抽出部１１２は、コーパス文章記憶部１０１を参照し、連想語記憶部１０２に記憶された連想語の中で、重要語と共起して出現する第１の連想語リストを抽出する。連想語は、対象文章の中に陽には表れないが、その対象文章の意味的内容を表す語である。

図２によれば、例えば前述の重要語の例から、以下のようなコーパス文章が参照される。
-------------------------------------------------------------------------------
（Ｃ１）「将来、［遺伝子］医療が発展し、［病気］が無くなるかもしれません」
（Ｃ４）「［乳がん］は、早期に［検査］すれば、怖くはありません」
（Ｃ６）「勝手な［予防］より、異変に気付いて直ぐに［診断］することが大事」
-------------------------------------------------------------------------------
Ｃ１には、重要語「遺伝子」と連想語「病気」とが共起して出現している。
Ｃ４には、重要語「乳がん」と連想語「検査」とが共起して出現している。
Ｃ６には、重要語「診断」と連想語「予防」とが共起して出現している。

これによって、以下のような第１の連想語リストが抽出される。
-------------------------------------------------------------------------------
（第１の連想語リスト）「病気」「検査」「予防」
-------------------------------------------------------------------------------

図３は、簡易文に対する処理を表す本発明のフローチャートである。

［簡易文記憶部１２１］
簡易文記憶部１２１は、複数の簡易文を予め記憶したものである。簡易文とは、「名言」「格言」「ことわざ」「俳句」「川柳」のような、直感的に人の感情様相を理解させる文である。コンサイス表現としての簡易文は、非常に短く、比喩的な表現が用いられることも多い。そのために、その簡易文に直接的に含まれる単語そのものを抽出しても、その簡易文の意図を特徴付けることにはならない。

図３によれば、簡易文として、例えば以下のようなものが記憶されているとする。
-------------------------------------------------------------------------------
「転ばぬ先の杖」（失敗しないよう、万が一に備えて予め十分な準備をしておくこと）
「渡りに船」（困っているときに、丁度よく助けになる人や環境に恵まれること）
「玉に瑕」（ほとんど完全に近いものなのに、わずかな欠点があること）
「猿も木から落ちる」（その道の名人でも、時には失敗をすることがあること）
・・・・・
-------------------------------------------------------------------------------

［第２の連想語抽出部１２２］
第２の連想語抽出部１２２は、簡易文記憶部１２１に記憶された簡易文毎に、コーパス文章記憶部１０１を参照し、連想語記憶部１０２に記憶された連想語の中で、簡易文と共起して出現する第２の連想語リストの群を抽出する。

図３によれば、コーパス文章として、例えば以下のようなものが参照される。
-------------------------------------------------------------------------------
（Ｃ２）「［転ばぬ先の杖］というね。［怪我］して［後悔］する前に、［予防］だね」
（Ｃ３）「［感謝］！これぞ［渡りに船］。この［対策］が良かったのは、まさに［運］かも」
（Ｃ５）「あ〜［失格］した。これだけ［価値］も［評価］も高いのに〜。［玉に瑕］ということか」
-------------------------------------------------------------------------------
Ｃ２には、簡易文「転ばぬ先の杖」と連想語「怪我」「後悔」「予防」が共起して出現している。
Ｃ３には、簡易文「渡りに船」と連想語「感謝」「対策」「運」とが共起して出現している。
Ｃ５には、簡易文「玉に瑕」と連想語「失格」「価値」「評価」とが共起して出現している。

これによって、以下のような第２の連想語リストが抽出される。
-------------------------------------------------------------------------------
（第２の連想語リスト）
「転ばぬ先の杖」：「怪我」「後悔」「予防」
「渡りに船」：「感謝」「対策」「運」
「玉に瑕」：「失格」「価値」「評価」
-------------------------------------------------------------------------------

このように、大量のコーパス文章の中で、その簡易文が引用されるコーパス文章を抽出し、且つ、それらコーパス文章の中でその簡易文の出現箇所の周辺に分布する、連想語記憶部１０２の連想語を抽出する。

他の実施形態として、コーパス文章記憶部１０１及び／又は連想語記憶部１０２は、複数のカテゴリに区分されていることも好ましい。この場合、第１の連想語抽出部１１２及び／又は第２の連想語抽出部１２２は、入力された対象文章のカテゴリに応じて、コーパス文章記憶部１０１及び／又は連想語記憶部位１０２から参照するカテゴリを選択する。対象文章（ニュース記事）のカテゴリ（ジャンル）が、例えば「病気」に関するものである場合、そのジャンルに区分されたコーパス文章及び／又は簡易文のみが抽出されることが好ましい。

［連想語リストマッチング部１３１］
連想語リストマッチング部１３１は、簡易文毎の第２の連想語リストの群の中で、第１の連想語リストに最も類似する第２の連想語リストを検索する。具体的には、以下のステップを実行する。また、第１の連想語リストに類似する複数の第２の連想語リストを順に、ランク付け（尤度順）するものであってもよい。連想語リスト間の類似度が高いほど、対象文章と簡易文との間で親和性が高いことを意味する。

対象文章ｘの第１の連想語リストＸ
Ｘ：（Ｗ_ｘ１，Ｗ_ｘ２，・・・，Ｗ_ｘｍ）
簡易文Ｃ_１〜Ｃ_ｎ毎の第２の連想語リストＹの群
Ｙ（Ｃ_１）：（Ｗ_１１，Ｗ_１２，・・・，Ｗ_１ｍ）
Ｙ（Ｃ_２）：（Ｗ_２１，Ｗ_２２，・・・，Ｗ_２ｍ）
・・・・・
Ｙ（Ｃ_ｎ）：（Ｗ_ｎ１，Ｗ_ｎ２，・・・，Ｗ_ｎｍ）
ここで、ｍは、尤度の信頼性を考慮して、３〜５程度の値であることが好ましい。

第１の連想語リストＸと、各第２の連想語リストＹ（Ｃ_ｎ）との間の類似度は、単語間の距離関係を統計的な出現頻度に基づいて導出した知識源データベースを参照することも好ましい。知識源データベースとしては、例えば日本語ＷｏｒｄＮｅｔがある（例えば非特許文献３参照）。

最初に、対象文章Ｘにおける第１の連想語リストの連想語毎に、複数の簡易文Ｃ_１〜Ｃ_ｎにおける各第２の連想語リストの連想語それぞれの意味的距離を検索し、当該距離が最短となる連想語ペアを導出し、連想語ペアの意味的距離の平均距離又は累積距離を算出する。
ＸとＹ（Ｃ_１）との連想語間の距離Ｐを、以下のように算出する。
（Ｓ１）Ｗ_ｘ１について、Ｗ_１１、Ｗ_１２、・・・、Ｗ_１ｍ毎に、以下の距離Ｐ_ｘ１を算出する。
Ｐ（Ｗ_ｘ１，Ｗ_１１）、Ｐ（Ｗ_ｘ１，Ｗ_１２）、・・・、Ｐ（Ｗ_ｘ１，Ｗ_１ｍ）
そして、Ｗ_ｘ１について、最も距離Ｐが短いＷ_１１〜Ｗ_１ｍを選択し、その距離Ｐ_ｘ１を記憶する。
（Ｓ２）Ｗ_ｘ２について、Ｗ_１１、Ｗ_１２、・・・、Ｗ_１ｍ毎に、以下の距離Ｐを算出する。
Ｐ（Ｗ_ｘ２，Ｗ_１１）、Ｐ（Ｗ_ｘ２，Ｗ_１２）、・・・、Ｐ（Ｗ_ｘ２，Ｗ_１ｍ）
そして、Ｗ_ｘ２について、最も距離Ｐが短いＷ_１１〜Ｗ_１ｍを選択し、その距離Ｐ_ｘ２を記憶する。
・・・・
（Ｓｍ）Ｗ_ｘｍについて、Ｗ_１１、Ｗ_１２、・・・、Ｗ_１ｍ毎に、以下の距離Ｐを算出する。
Ｐ（Ｗ_ｘｍ，Ｗ_１１）、Ｐ（Ｗ_ｘｍ，Ｗ_１２）、・・・、Ｐ（Ｗ_ｘｍ，Ｗ_１ｍ）
そして、Ｗ_ｘｎについて、最も距離Ｐが短いＷ_１１〜Ｗ_１ｍを選択し、その距離Ｐ_ｘｎを記憶する。
最後に、これら距離Ｐ_ｘ１〜Ｐ_ｘｎの平均距離Ｐ_Ａを、ＸとＹ（Ｃ_１）との間の距離とする。
次いで、Ｘに対して、Ｙ（Ｃ_２）〜Ｙ（Ｃ_ｎ）とのそれぞれについて連想語間の平均距離を算出する。

そして、最終的に、対象文章Ｘにおける第１の連想語リストに対して、平均距離又は累積距離が最も短い（連想語間で最も類似する）第２の連想語リストＹ（Ｃ）を選択する。尚、上位から所定数までのＹ（Ｃ）をランキング（尤度順）として導出するものであってもよい。

「転ばぬ先の杖」
＜対象文章：第１の連想語リスト＞＜簡易文：第２の連想語リスト＞最短距離
「検査」「後悔」 0.080
「予防」「予防」 0
「病気」「怪我」 0.046
［平均距離］：0.042
「渡りに船」
＜対象文章：第１の連想語リスト＞＜簡易文：第２の連想語リスト＞最短距離
「検査」「対策」 0.120
「予防」「感謝」 0.925
「病気」「運」 0.620
［平均距離］：0.555
「玉に瑕」
＜対象文章：第１の連想語リスト＞＜簡易文：第２の連想語リスト＞最短距離
「検査」「評価」 0.825
「予防」「価値」 0.988
「病気」「失格」 0.905
［平均距離］：0.906

他の実施形態として、平均距離ではなく、上位数件の最短距離における累積距離を用いてもよい。

［簡易文推定部１３２］
簡易文推定部１３２は、連想語リストマッチング部１３１によって検索された第２の連想語リストに基づく簡易文を、対象文章を象徴するものとして出力する。また、簡易文推定部１３２は、対象文章に対して距離が短い順に所定数の簡易文を選択し、複数の簡易文を推定結果として出力するものであってもよい。

図２及び図３によれば、平均距離が最も短い（最も類似する）簡易文「転ばぬ先の杖」が推定されて表示される。
-------------------------------------------------------------------------------
タイトル「Ａ子のおば、乳がんで亡くなる」 2013/5/28 16:56
コンサイス表現：「転ばぬ先の杖」
-------------------------------------------------------------------------------

利用者は、タイトル及びコンサイス表現を一見しただけで、その記事に目を通す優先度を判断することができる。コンサイス表現を、サブタイトルのように表示される。複数の簡易文をランキングとして抽出できた場合、例えばユーザがカーソルをコンサイス表現「転ばぬ先の杖」の上に持ってきた際に、他のコンサイス表現も、平均距離の短い順のリスト状に表示されるものであってもよい。

他の実施形態として、検索されたコンサイス表現（簡易文）について、更に、内容の極性（ポジティブ／ネガティブ）を示すアイコンのような副次的な特徴部分を、ユーザに更に明示することも好ましい。ユーザは、コンサイス表現に加えて、ポジティブ／ネガティブの感覚を直感的に理解することができる。

図４は、簡易文を入力することによって、対象文章を検索する対象文推定装置の機能構成図である。

図４によれば、図１と比較して、複数の対象文章を予め蓄積する対象文章蓄積部１１０を有する一方で、簡易文記憶部１２１を備えていない。ユーザに簡易文（コンサイス表現）のリストを明示し、ユーザの選択によって、１つの簡易文が入力されるものであってもよい。その他の機能構成部は、図１と基本的に同じ処理を実行する。但し、図１と比較して、複数の対象文章と１つの簡易文との構成になる点で、以下の構成要素の処理が異なる。

重要語抽出部１１１は、対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する。
第１の連想語抽出部１１２は、対象文章毎に、コーパス文章記憶部１０１を参照し、連想語記憶部１０２に記憶された連想語の中で、重要語と共起して出現する第１の連想語リストの群を抽出する。
第２の連想語抽出部１２２は、入力された簡易文に、コーパス文章記憶部１０１を参照し、連想語記憶部１０２に記憶された連想語の中で、簡易文と共起して出現する第２の連想語リストを抽出する。
連想語リストマッチング部１３１は、対象文章毎の第１の連想語リストの群の中で、第２の連想語リストに最も類似する第１の連想語リストを検索する。
対象文章推定部１３３は、連想語リストマッチング部１３１によって検索された第１の連想語リストに基づく対象文章を、簡易文を象徴するものとして出力する。

最終的に、図４によれば、例えば簡易文「転ばぬ先の杖」を入力することによって、対象文章「Ａ子のおば、乳がんでなくなる」のニュース記事が検索されることとなる。

他の実施形態として、利用者への提示順として、対象文章を最初に表示するのではなく、簡易文のリストを一定数表示して、利用者にその中から気になる表現を選択させることも好ましい。例えば新着のニュース群に対して予め、各ニュース記事に対応するコンサイス表現（簡易文）を導出しておき、その出現頻度順にソートしたリストを表示する。これによって、ユーザは、その日の出来事で話題となっている傾向をも確かめながら、簡易文を選択することによって、ニュース記事を閲覧することができる。

図５は、本発明における簡易文推定サーバを有するシステム構成図である。

簡易文推定サーバ１は、端末２からクエリを受信し、そのクエリに対応する「対象文章及び簡易文の組」を端末２へ返信する。簡易文推定サーバ１は、図５によれば、図１と比較して、対象文章データベース１４０及び対象文章検索部１４１のみが追加されている。
対象文章データベース１４０は、大量の対象文章を記憶している。
対象文章検索部１４１は、入力されたクエリに対して、対象文章データベースを用いて、１つ以上の対象文章を検索する。検索された当該対象文章は、重要語抽出部１１１へ出力される。
最終的に、簡易文推定部１３２は、以下の２つのパターンで、端末２へ、簡易文を返信する。
（１）各対象文章に簡易文を組み合わせて検索結果として出力する。
（２）最初に、クエリの検索結果となる対象文章に対する複数の簡易文のみを、端末２へ返信する。端末２を操作するユーザに対して、いずれかの簡易文を選択させる。そして、選択された簡易文に対応する対象文章を改めて検索結果として端末２へ返信する。

＜第１の実施形態＞
このようなシステムによれば、ユーザインタフェースとして、「クエリや対象文章に対応することわざ」を検索することができる。例えば、ユーザが、ニュースやブログ等の記事の一覧を眺めながら、短時間に興味の湧きそうな記事を選択しようとしているとする。このとき、記事タイトルと並置的に、サブタイトルとしての「ことわざ」を表示させることができる。
-------------------------------------------------------------------------------
タイトル「Ａ子のおば、乳がんで亡くなる」 -> ［転ばぬ先の杖］
-------------------------------------------------------------------------------
ユーザとしては、記事タイトルだけでなく、トピックの理解を助けるような一言（コンサイス表現）も手がかりにして、その記事に目を通す優先度を判断することができる。ユーザとしては、そのコンサイス表現が内容とよくマッチする場合には、それに印象付けて記事を記憶することに結びつく。

＜第２の実施形態＞
ユーザからクエリを受信した後、直ぐに、記事リストを提示するのではなく、中間段階として、記事に対応する「コンサイス表現」リストを提示する。ユーザは、複数のコンサイス表現の中から、いずれか１つのコンサイス表現を選択することができる。そして、そのコンサイス表現に対応する記事を改めてユーザへ提示する。例えば新着ニュース群に対して予め、各記事に対応するコンサイス表現（複数候補も可）を導出しておく。その頻度順にソートした結果を表示することにより、その日の出来事で話題となっている傾向を、コンサイス表現として眺めながら記事を選択することができる。

これら実施形態とも、従来技術によるテキスト内容の極性情報（ポジティブ／ネガティブ要素の判定）等と合わせて、より直観的に記事の輪郭を把握する助けとなり得る。

以上、詳細に説明したように、本発明のプログラム、装置及びサーバは、対象文章を象徴的に表すコンサイス表現（簡易文）を推定することができる。これによって、対象文章に接した利用者は、そのコンサイス表現を一見しただけで、その対象文章の意味的内容を直感的に理解することができる。この点で、従来技術におけるテキスト要約やアノテーションと大きく異なる。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１簡易文推定装置、サーバ
１０１コーパス文章記憶部
１０２連想語記憶部
１１１重要語抽出部
１１２第１の連想語抽出部
１２１簡易文記憶部
１２２第２の連想語抽出部
１３１連想語リストマッチング部
１３２簡易文推定部
１３３対象文章推定部
１４０対象文章データベース
１４１対象文章検索部
２端末

Claims

対象文章を象徴する簡易文を推定するようにコンピュータを機能させるプログラムであって、
複数の簡易文を予め記憶した簡易文記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
入力された対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記重要語と共起して出現する第１の連想語リストを抽出する第１の連想語抽出手段と、
前記簡易文記憶手段に記憶された簡易文毎に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記簡易文と共起して出現する第２の連想語リストの群を抽出する第２の連想語抽出手段と、
前記簡易文毎の第２の連想語リストの群の中で、第１の連想語リストに最も類似する第２の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第２の連想語リストに基づく簡易文を、前記対象文章を象徴するものとして出力する簡易文推定手段と
してコンピュータを機能させることを特徴とするプログラム。
前記簡易文は、名言、格言、ことわざ、俳句及び／又は川柳である
ようにコンピュータを機能させることを特徴とする請求項１に記載のプログラム。
前記連想語リストマッチング手段は、
対象文章Ｘにおける第１の連想語リストの連想語毎に、複数の簡易文Ｃ_１〜Ｃ_ｎにおける各第２の連想語リストの連想語それぞれの意味的距離を検索し、当該距離が最短となる連想語ペアを導出し、連想語ペアの意味的距離の平均距離又は累積距離を算出し、
対象文章Ｘにおける第１の連想語リストに対して、平均距離又は累積距離が最も短い第２の連想語リストに基づく簡易文を選択する
ようにコンピュータを機能させることを特徴とする請求項１又は２に記載のプログラム。
前記コーパス文章記憶手段及び／又は前記連想語記憶手段は、複数のカテゴリに区分されており、
第１の連想語抽出手段及び／又は第２の連想語抽出手段は、入力された対象文章のカテゴリに応じて、前記コーパス文章記憶手段及び／又は前記連想語記憶手段から参照するカテゴリを選択する
ようにコンピュータを機能させることを特徴とする請求項１から３のいずれか１項に記載のプログラム。
前記簡易文推定手段は、対象文章に対して距離が短い順に所定数の簡易文を選択し、複数の簡易文を推定結果として出力する
ようにコンピュータを機能させることを特徴とする請求項１から４のいずれか１項に記載のプログラム。
前記重要語抽出手段は、ＴＦ−ＩＤＦ（Term Frequency - Inverse Document Frequency：単語の出現頻度−逆出現頻度）又はＤＦ(Document Frequency)を用いて、重要語を抽出する
ようにコンピュータを機能させることを特徴とする請求項１から５のいずれか１項に記載のプログラム。
大量の対象文章を記憶した対象文章データベースと、
入力されたクエリに対して、前記対象文章データベースを用いて、１つ以上の対象文章を検索し、当該対象文章を前記重要語抽出手段へ出力するする対象文章検索手段と
を有し、
前記簡易文推定手段は、各対象文章に対応する簡易文を検索結果として出力する
ようにコンピュータを機能させることを特徴とする請求項１から６のいずれか１項に記載のプログラム。
前記簡易文推定手段は、
各対象文章に前記簡易文を組み合わせて検索結果として出力するか、
又は、
複数の前記簡易文を出力すると共に、いずれかの簡易文をユーザに選択させ、選択された簡易文に対応する前記対象文章を改めて検索結果として出力する
ようにコンピュータを機能させることを特徴とする請求項７に記載のプログラム。
簡易文を象徴する対象文章を推定するようにコンピュータを機能させるプログラムであって、
複数の対象文章を予め記憶した対象文章記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
対象文章毎に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記重要語と共起して出現する第１の連想語リストの群を抽出する第１の連想語抽出手段と、
入力された簡易文に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記簡易文と共起して出現する第２の連想語リストを抽出する第２の連想語抽出手段と、
前記対象文章毎の第１の連想語リストの群の中で、第２の連想語リストに最も類似する第１の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第１の連想語リストに基づく対象文章を、前記簡易文を象徴するものとして出力する対象文章推定手段と
してコンピュータを機能させることを特徴とするプログラム。
対象文章を象徴する簡易文を推定する装置であって、
複数の簡易文を予め記憶した簡易文記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
前記対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記重要語と共起して出現する第１の連想語リストを抽出する第１の連想語抽出手段と、
前記簡易文記憶手段に記憶された簡易文毎に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記簡易文と共起して出現する第２の連想語リストの群を抽出する第２の連想語抽出手段と、
前記簡易文毎の第２の連想語リストの群の中で、第１の連想語リストに最も類似する第２の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第２の連想語リストに基づく簡易文を、前記対象文章を象徴するものとして出力する簡易文推定手段と
を有することを特徴とする装置。
簡易文を象徴する対象文章を推定する装置であって、
複数の対象文章を予め記憶した対象文章記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
対象文章毎に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記重要語と共起して出現する第１の連想語リストの群を抽出する第１の連想語抽出手段と、
入力された簡易文に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記簡易文と共起して出現する第２の連想語リストを抽出する第２の連想語抽出手段と、
前記対象文章毎の第１の連想語リストの群の中で、第２の連想語リストに最も類似する第１の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第１の連想語リストに基づく対象文章を、前記簡易文を象徴するものとして出力する対象文章推定手段と
を有することを特徴とする装置。
端末からクエリを受信し、該クエリに対応する１つ以上の対象文章を検索し、該対象文章を象徴する簡易文を推定し、該簡易文を端末へ返信するサーバであって、
大量の対象文章を記憶した対象文章データベースと、
複数の簡易文を予め記憶した簡易文記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
前記クエリに対して、前記対象文章データベースを用いて、１つ以上の対象文章を検索する対象文章検索手段と、
検索された前記対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記重要語と共起して出現する第１の連想語リストを抽出する第１の連想語抽出手段と、
前記簡易文記憶手段に記憶された簡易文毎に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記簡易文と共起して出現する第２の連想語リストの群を抽出する第２の連想語抽出手段と、
前記簡易文毎の第２の連想語リストの群の中で、第１の連想語リストに最も類似する第２の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第２の連想語リストに基づく簡易文を、前記対象文章を象徴する検索結果として出力する簡易文推定手段と、
を有することを特徴とするサーバ。
前記簡易文推定手段は、
各対象文章に前記簡易文を組み合わせて検索結果として、端末へ返信するか、
又は、
複数の前記簡易文を端末へ返信すると共に、ユーザによって選択された簡易文を受信し、該簡易文に対応する前記対象文章を改めて検索結果として返信する
ことを特徴とする請求項１２に記載のサーバ。
端末から簡易文を受信し、該簡易文を象徴する対象文章を推定し、該対象文章を端末へ返信するサーバであって、
複数の対象文章を予め記憶した対象文章記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
対象文章毎に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記重要語と共起して出現する第１の連想語リストの群を抽出する第１の連想語抽出手段と、
入力された簡易文に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記簡易文と共起して出現する第２の連想語リストを抽出する第２の連想語抽出手段と、
前記対象文章毎の第１の連想語リストの群の中で、第２の連想語リストに最も類似する第１の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第１の連想語リストに基づく対象文章を、前記簡易文を象徴するものとして出力する対象文章推定手段と
を有することを特徴とするサーバ。