JP6153262B2 - 対象文章を象徴する簡易文を推定するプログラム、装置及びサーバ - Google Patents

対象文章を象徴する簡易文を推定するプログラム、装置及びサーバ Download PDF

Info

Publication number
JP6153262B2
JP6153262B2 JP2014044668A JP2014044668A JP6153262B2 JP 6153262 B2 JP6153262 B2 JP 6153262B2 JP 2014044668 A JP2014044668 A JP 2014044668A JP 2014044668 A JP2014044668 A JP 2014044668A JP 6153262 B2 JP6153262 B2 JP 6153262B2
Authority
JP
Japan
Prior art keywords
sentence
associative
word
associative word
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014044668A
Other languages
English (en)
Other versions
JP2015170145A (ja
Inventor
鈴木 雅実
雅実 鈴木
滝嶋 康弘
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2014044668A priority Critical patent/JP6153262B2/ja
Publication of JP2015170145A publication Critical patent/JP2015170145A/ja
Application granted granted Critical
Publication of JP6153262B2 publication Critical patent/JP6153262B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、対象文章の意味的内容を象徴する文を生成又は選択する技術に関する。
近年、テキスト要約技術の進歩によって、Webページに記述された長い対象文章も短時間で圧縮し、ブラウザで閲覧することができる。要約を更に進めると、そのような対象文章を、文やキーワードにまで凝縮させることもできる。但し、テキスト要約技術は、論理的な意味のまとまりを保持するものであっって、通常、パラグラフのような文章を生成するに留まる。
テキスト要約技術は、対象文章から単語を抽出し、それら単語を含む文を繋ぎ合わせて要約文章を生成する。最近では、複数の対象文章を要約するものもあるが、いずれにせよ論理的な文章として再構成するものが一般的である(例えば非特許文献1参照)。また、内容網羅性及び可読性の高い要約を生成するために、文要素に種々の素性を付与する技術もある(例えば特許文献1参照)。一方で、対象文章に対して各種のアノテーションを施すことによって、簡易に検索する技術もある(例えば非特許文献2参照)。この技術によれば、対象文章における語の分布や形式的特徴から、種々の属性を付与するものであって、アノテーションされた情報自体を人間が参照することは少ない。
人間が、原文となる対象文章を読むことなく、要約文章のみで理解するためには、要約文章には、ある程度の文章の長さが必要であり、原文の大意を反映することが必要である。しかし、その要求レベルに応じることは一般に非常に難度が高い。これに対して、検索結果の一覧等で表示される表題や目次的な情報を提示する技術もあるが、この技術によれば、そのリンク先を示すための中間段階の手掛り情報に過ぎない。
特開2011−243166号公報
難波英嗣・奥村学、「ここまで来たテキスト自動要約」、情報処理 Vol43、2002 No.12、[online]、[平成26年2月11日検索]、インターネット<URL:http://www.ls.info.hiroshima-cu.ac.jp/~nanba/pdf/IPSJ-MGN431203_2002.pdf> 冨浦洋一・石田栄美、「学術論文検索の高度化のための論文アブストラクトのアノテーション」、テキストアノテーションワークショップ・コンテスト(国立情報学研究所)、2012、[online]、[平成26年2月11日検索]、インターネット<URL:http://nlp.nii.ac.jp/tawc/papers/C03_tomiura.pdf> 独立行政法人・情報通信研究機構、「日本語WordNet」[online]、[平成26年2月11日検索]、インターネット<URL:http://nlpwww.nict.go.jp/wn-ja/>
例えば様々なニュース記事やブログ記事を、コンサイス表現としての「名言」「格言」「ことわざ」「俳句」「川柳」(以下「簡易文」という)でたとえることによって、利用者に、その内容を直感的に理解させることができる。ここで、本願の発明者らは、対象文章に、テキスト要約やアノテーションではなく、コンサイス表現としての簡易文を対応付けることはできないか?と考えた。即ち、ニュース記事やブログ文章のような対象文章から、人として共感できる「コンサイス表現」を検索することができないか?、と考えた。このようなコンサイス表現は、対象文章に出現する単語を単に組み合わせても得られるものではない。対象文章の意味的内容を凝縮した、納得性の高いコンサイス表現を明示することができなければ、利用者は、それを一見しただけで直感的に理解して共感することまではできない。
そこで、本発明は、対象文章を象徴的に表すコンサイス表現(簡易文)を推定することができるプログラム、装置及びサーバを提供することを目的とする。
本発明によれば、対象文章を象徴する簡易文を推定するようにコンピュータを機能させるプログラムであって、
複数の簡易文を予め記憶した簡易文記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
入力された対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、重要語と共起して出現する第1の連想語リストを抽出する第1の連想語抽出手段と、
簡易文記憶手段に記憶された簡易文毎に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、簡易文と共起して出現する第2の連想語リストの群を抽出する第2の連想語抽出手段と、
簡易文毎の第2の連想語リストの群の中で、第1の連想語リストに最も類似する第2の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第2の連想語リストに基づく簡易文を、対象文章を象徴するものとして出力する簡易文推定手段と
してコンピュータを機能させることを特徴とする。
本発明のプログラムにおける他の実施形態によれば、
簡易文は、名言、格言、ことわざ、俳句及び/又は川柳である
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
連想語リストマッチング手段は、
対象文章Xにおける第1の連想語リストの連想語毎に、複数の簡易文C〜Cにおける各第2の連想語リストの連想語それぞれの意味的距離を検索し、当該距離が最短となる連想語ペアを導出し、連想語ペアの意味的距離の平均距離又は累積距離を算出し、
対象文章Xにおける第1の連想語リストに対して、平均距離又は累積距離が最も短い第2の連想語リストに基づく簡易文を選択する
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
コーパス文章記憶手段及び/又は連想語記憶手段は、複数のカテゴリに区分されており、
第1の連想語抽出手段及び/又は第2の連想語抽出手段は、入力された対象文章のカテゴリに応じて、コーパス文章記憶手段及び/又は連想語記憶手段から参照するカテゴリを選択する
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
簡易文推定手段は、対象文章に対して距離が短い順に所定数の簡易文を選択し、複数の簡易文を推定結果として出力する
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
重要語抽出手段は、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)又はDF(Document Frequency)を用いて、重要語を抽出する
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
大量の対象文章を記憶した対象文章データベースと、
入力されたクエリに対して、対象文章データベースを用いて、1つ以上の対象文章を検索し、当該対象文章を重要語抽出手段へ出力するする対象文章検索手段と
を有し、
簡易文推定手段は、各対象文章に対応する簡易文を検索結果として出力する
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
簡易文推定手段は、
各対象文章に簡易文を組み合わせて検索結果として出力するか、
又は、
複数の簡易文を出力すると共に、いずれかの簡易文をユーザに選択させ、選択された簡易文に対応する対象文章を改めて検索結果として出力する
ようにコンピュータを機能させることも好ましい。
本発明によれば、簡易文を象徴する対象文章を推定するようにコンピュータを機能させるプログラムであって、
複数の対象文章を予め記憶した対象文章記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
対象文章毎に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、重要語と共起して出現する第1の連想語リストの群を抽出する第1の連想語抽出手段と、
入力された簡易文に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、簡易文と共起して出現する第2の連想語リストを抽出する第2の連想語抽出手段と、
対象文章毎の第1の連想語リストの群の中で、第2の連想語リストに最も類似する第1の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第1の連想語リストに基づく対象文章を、簡易文を象徴するものとして出力する対象文章推定手段と
してコンピュータを機能させることを特徴とする。
本発明によれば、対象文章を象徴する簡易文を推定する装置であって、
複数の簡易文を予め記憶した簡易文記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、重要語と共起して出現する第1の連想語リストを抽出する第1の連想語抽出手段と、
簡易文記憶手段に記憶された簡易文毎に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、簡易文と共起して出現する第2の連想語リストの群を抽出する第2の連想語抽出手段と、
簡易文毎の第2の連想語リストの群の中で、第1の連想語リストに最も類似する第2の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第2の連想語リストに基づく簡易文を、対象文章を象徴するものとして出力する簡易文推定手段と
を有することを特徴とする。
本発明によれば、簡易文を象徴する対象文章を推定する装置であって、
複数の対象文章を予め記憶した対象文章記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
対象文章毎に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、重要語と共起して出現する第1の連想語リストの群を抽出する第1の連想語抽出手段と、
入力された簡易文に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、簡易文と共起して出現する第2の連想語リストを抽出する第2の連想語抽出手段と、
対象文章毎の第1の連想語リストの群の中で、第2の連想語リストに最も類似する第1の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第1の連想語リストに基づく対象文章を、簡易文を象徴するものとして出力する対象文章推定手段と
を有することを特徴とする。
本発明によれば、端末からクエリを受信し、該クエリに対応する1つ以上の対象文章を検索し、該対象文章を象徴する簡易文を推定し、該簡易文を端末へ返信するサーバであって、
大量の対象文章を記憶した対象文章データベースと、
複数の簡易文を予め記憶した簡易文記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
クエリに対して、対象文章データベースを用いて、1つ以上の対象文章を検索する対象文章検索手段と、
検索された対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、重要語と共起して出現する第1の連想語リストを抽出する第1の連想語抽出手段と、
簡易文記憶手段に記憶された簡易文毎に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、簡易文と共起して出現する第2の連想語リストの群を抽出する第2の連想語抽出手段と、
簡易文毎の第2の連想語リストの群の中で、第1の連想語リストに最も類似する第2の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第2の連想語リストに基づく簡易文を、対象文章を象徴する検索結果として出力する簡易文推定手段と、
を有することを特徴とする。
本発明のサーバにおける他の実施形態によれば、
簡易文推定手段は、
各対象文章に簡易文を組み合わせて検索結果として出力するか、
又は、
複数の簡易文を端末へ返信すると共に、ユーザによって選択された簡易文を受信し、該簡易文に対応する対象文章を改めて検索結果として返信する
ことも好ましい。
本発明によれば、端末から簡易文を受信し、該簡易文を象徴する対象文章を推定し、該対象文章を端末へ返信するサーバであって、
複数の対象文章を予め記憶した対象文章記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
対象文章毎に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、重要語と共起して出現する第1の連想語リストの群を抽出する第1の連想語抽出手段と、
入力された簡易文に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、簡易文と共起して出現する第2の連想語リストを抽出する第2の連想語抽出手段と、
対象文章毎の第1の連想語リストの群の中で、第2の連想語リストに最も類似する第1の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第1の連想語リストに基づく対象文章を、簡易文を象徴するものとして出力する対象文章推定手段と
を有することを特徴とする。
本発明のプログラム、装置及びサーバは、対象文章を象徴的に表すコンサイス表現(簡易文)を推定することができる。これによって、対象文章に接した利用者は、そのコンサイス表現を一見しただけで、その対象文章の意味的内容を直感的に理解することができる。
本発明における簡易文推定装置の機能構成図である。 対象文章に対する処理を表す本発明のフローチャートである。 簡易文に対する処理を表す本発明のフローチャートである。 簡易文を入力することによって、対象文章を検索する対象文推定装置の機能構成図である。 本発明における簡易文推定サーバを有するシステム構成図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明における簡易文推定装置の機能構成図である。
簡易文推定装置1は、対象文章を入力し、その対象文章を象徴する簡易文を推定する。対象文章は、ニュース記事やブログ記事であってもよい。簡易文は、コンサイス表現であって、例えば名言、格言、ことわざ、俳句、川柳のようなものである。
簡易文推定装置1に、対象文章として、例えば以下のように単一話題のニュース記事が入力されたとする。
-------------------------------------------------------------------------------
タイトル「A子のおば、乳がんで亡くなる」 2013/5/28 16:56
映画女優、A子さん(37)の母方の叔母B子さんが2013年5月26日、埼玉県の病院で乳がんのため61歳で亡くなった。
A子は14日に乳がんのリスクを高める遺伝子異変が見つかり、両乳房の切除・再建手術を受けたことを公表。B子さんは04年に乳がんと診断された後に、A子さんと同様の遺伝子異変が見つかっていたという。」
-------------------------------------------------------------------------------
簡易文推定装置1は、入力されたこの「ニュース記事」(対象文章)を象徴する「ことわざ」(簡易文)を推定することができる。
図1によれば、簡易文推定装置1は、コーパス文章記憶部101と、連想語記憶部102と、重要語抽出部111と、第1の連想語抽出部112と、簡易文記憶部121と、第2の連想語抽出部122と、連想語リストマッチング部131と、簡易文推定部132とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行させることによって実現できる。また、これら機能の処理の流れは、装置を用いた簡易文推定方法としても理解できる。
図2は、対象文章に対する処理を表す本発明のフローチャートである。
[コーパス文章記憶部101]
コーパス文章記憶部101は、コーパス文章を記憶したものである。コーパス(corpus)とは、狭義には、自然言語の文章を構造化し大規模に集積したデータベースを意味するが、広義には、新聞ニュース記事やブログ記事のような流通する文章であってもよい。また、コーパス文章記憶部101は、簡易文推定装置1内に蓄積されたものであってもよいし、ネットワークを介して他のコーパスサーバを検索できるものであってもよい。
他の実施形態として、コーパス文章記憶部101は、大量のコーパス文章を、カテゴリに応じて区分して記憶していることも好ましい。簡易文推定装置1に入力された対象文章のカテゴリに応じて、参照すべきコーパス文章群も変更することによって、推定された簡易文における意味的内容の精度も高まる。
コーパス文章記憶部101が記憶すべきコーパス文章は、簡易文記憶部121に記憶された1つの簡易文と、連想語記憶部102に記憶された少なくとも1つの連想語との両方を、1つの文章内に含むものである。コーパス文章記憶部101は、簡易文と連想語との共起関係からなるコーパス文章のデータベースである。
図2によれば、コーパス文章として、例えば以下のようなものが記憶されている。
-------------------------------------------------------------------------------
(C1)「将来、遺伝子医療が発展し、病気が無くなるかもしれません」
(C2)「転ばぬ先の杖というね。怪我して後悔する前に、予防だね」
(C3)「感謝!これぞ渡りに船。この対策が良かったのは、まさに運かも」
(C4)「乳がんは、早期に検査すれば、怖くはありません」
(C5)「あ〜失格した。これだけ価値も評価も高いのに〜。玉に瑕ということか」
(C6)「勝手な予防より、異変に気付いて直ぐに診断することが大事」
・・・・・
-------------------------------------------------------------------------------
[連想語記憶部102]
連想語記憶部102は、任意の複数の連想語を記憶したものである。連想語は、単なる単語の群に過ぎないが、この連想語を介して、対象文章と簡易文との内容的な類似度を導出する。また、連想語記憶部102は、第1の連想語抽出部112と、第2の連想語抽出部122との両方から参照されるものであって、共通して1つのものである。
尚、他の実施形態として、連想語記憶部102は、テーマに関する「テーマ連想語」と、人の感情に関する「感情連想語」とに区分して記憶しておくことも好ましい。
図2によれば、連想語としては、例えば以下のようなものが設定されている。
-------------------------------------------------------------------------------
「検査」「手術」「後悔」「治療」「予防」「医師」「病気」「怪我」・・・
-------------------------------------------------------------------------------
[重要語抽出部111]
重要語抽出部111は、対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する。対象文章に陽に含まれる重要語は、その対象文章を特徴付けている。
重要語抽出部111は、最初に、対象文章から、形態素解析によって単語を抽出する。ここで、「形態素解析」とは、文章を、意味のある単語に区切り、辞書を利用して品詞や内容を判別する技術をいう。「形態素」とは、文章の要素のうち、意味を持つ最小の単位(単語を含む)を意味する。
次に、重要語抽出部111は、単語毎の出現頻度に応じて、特徴的な複数の重要語を抽出する。最も簡単な方法としては、単なる出現頻度=出現回数であってもよい。また、重要語の所定数を、例えば上位100個として抽出するものであってもよいし、重要語の割合を、例えば上位30%として抽出するものであってもよい。
他の実施形態として、出現頻度は、自立語に注目したTF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)値であってもよい。TF−IDFとは、文章中に出現した単語がどのくらい特徴的であるかを識別するための指標をいう。TF(term frequency)は、その文章の中でその単語が出現した回数を表し、IDF(inverse document frequency)は、コーパス全体の中でその文章を含む文章数の自然対数を表す。そして、TF値×IDF値が、その文章中におけるその単語のTF−IDF値となる。高いTF−IDF値を持つ単語ほど、話題性が高い(重要)であると認識される。
更に、他の実施形態として、出現頻度は、当該重要語が出現する対象文章の数を表すDF(Document Frequency)値であってもよい。例えば各対象文章について、その重要語の数となる。
更に、他の実施形態として、対象文章が複数のパラグラフ(段落)から構成されている場合、一般に、各パラグラフの先頭文は重要であることが多い。そこで、パラグラフ先頭部分に含まれる単語は、その重みωを例えば2倍に設定した重要語候補とすることもできる。
図2によれば、前述の対象文章の例からは、例えば以下の重要語が抽出されたとする。
-------------------------------------------------------------------------------
「女優」「叔母」「病院」「乳がん」「リスク」「遺伝子」
「異変」「乳房」「切除」「手術」「診断」
-------------------------------------------------------------------------------
[第1の連想語抽出部112]
第1の連想語抽出部112は、コーパス文章記憶部101を参照し、連想語記憶部102に記憶された連想語の中で、重要語と共起して出現する第1の連想語リストを抽出する。連想語は、対象文章の中に陽には表れないが、その対象文章の意味的内容を表す語である。
図2によれば、例えば前述の重要語の例から、以下のようなコーパス文章が参照される。
-------------------------------------------------------------------------------
(C1)「将来、[遺伝子]医療が発展し、[病気]が無くなるかもしれません」
(C4)「[乳がん]は、早期に[検査]すれば、怖くはありません」
(C6)「勝手な[予防]より、異変に気付いて直ぐに[診断]することが大事」
-------------------------------------------------------------------------------
C1には、重要語「遺伝子」と連想語「病気」とが共起して出現している。
C4には、重要語「乳がん」と連想語「検査」とが共起して出現している。
C6には、重要語「診断」と 連想語「予防」とが共起して出現している。
これによって、以下のような第1の連想語リストが抽出される。
-------------------------------------------------------------------------------
(第1の連想語リスト) 「病気」「検査」「予防」
-------------------------------------------------------------------------------
図3は、簡易文に対する処理を表す本発明のフローチャートである。
[簡易文記憶部121]
簡易文記憶部121は、複数の簡易文を予め記憶したものである。簡易文とは、「名言」「格言」「ことわざ」「俳句」「川柳」のような、直感的に人の感情様相を理解させる文である。コンサイス表現としての簡易文は、非常に短く、比喩的な表現が用いられることも多い。そのために、その簡易文に直接的に含まれる単語そのものを抽出しても、その簡易文の意図を特徴付けることにはならない。
図3によれば、簡易文として、例えば以下のようなものが記憶されているとする。
-------------------------------------------------------------------------------
「転ばぬ先の杖」(失敗しないよう、万が一に備えて予め十分な準備をしておくこと)
「渡りに船」 (困っているときに、丁度よく助けになる人や環境に恵まれること)
「玉に瑕」 (ほとんど完全に近いものなのに、わずかな欠点があること)
「猿も木から落ちる」(その道の名人でも、時には失敗をすることがあること)
・・・・・
-------------------------------------------------------------------------------
[第2の連想語抽出部122]
第2の連想語抽出部122は、簡易文記憶部121に記憶された簡易文毎に、コーパス文章記憶部101を参照し、連想語記憶部102に記憶された連想語の中で、簡易文と共起して出現する第2の連想語リストの群を抽出する。
図3によれば、コーパス文章として、例えば以下のようなものが参照される。
-------------------------------------------------------------------------------
(C2)「[転ばぬ先の杖]というね。[怪我]して[後悔]する前に、[予防]だね」
(C3)「[感謝]!これぞ[渡りに船]。この[対策]が良かったのは、まさに[運]かも」
(C5)「あ〜[失格]した。これだけ[価値]も[評価]も高いのに〜。[玉に瑕]ということか」
-------------------------------------------------------------------------------
C2には、簡易文「転ばぬ先の杖」と連想語「怪我」「後悔」「予防」が共起して出現している。
C3には、簡易文「渡りに船」と連想語「感謝」「対策」「運」とが共起して出現している。
C5には、簡易文「玉に瑕」と連想語「失格」「価値」「評価」とが共起して出現している。
これによって、以下のような第2の連想語リストが抽出される。
-------------------------------------------------------------------------------
(第2の連想語リスト)
「転ばぬ先の杖」:「怪我」「後悔」「予防」
「渡りに船」 :「感謝」「対策」「運」
「玉に瑕」 :「失格」「価値」「評価」
-------------------------------------------------------------------------------
このように、大量のコーパス文章の中で、その簡易文が引用されるコーパス文章を抽出し、且つ、それらコーパス文章の中でその簡易文の出現箇所の周辺に分布する、連想語記憶部102の連想語を抽出する。
他の実施形態として、コーパス文章記憶部101及び/又は連想語記憶部102は、複数のカテゴリに区分されていることも好ましい。この場合、第1の連想語抽出部112及び/又は第2の連想語抽出部122は、入力された対象文章のカテゴリに応じて、コーパス文章記憶部101及び/又は連想語記憶部位102から参照するカテゴリを選択する。対象文章(ニュース記事)のカテゴリ(ジャンル)が、例えば「病気」に関するものである場合、そのジャンルに区分されたコーパス文章及び/又は簡易文のみが抽出されることが好ましい。
[連想語リストマッチング部131]
連想語リストマッチング部131は、簡易文毎の第2の連想語リストの群の中で、第1の連想語リストに最も類似する第2の連想語リストを検索する。具体的には、以下のステップを実行する。また、第1の連想語リストに類似する複数の第2の連想語リストを順に、ランク付け(尤度順)するものであってもよい。連想語リスト間の類似度が高いほど、対象文章と簡易文との間で親和性が高いことを意味する。
対象文章xの第1の連想語リストX
X :(Wx1,Wx2,・・・,Wxm
簡易文C〜C毎の第2の連想語リストYの群
Y(C):(W11,W12,・・・,W1m
Y(C):(W21,W22,・・・,W2m
・・・・・
Y(C):(Wn1,Wn2,・・・,Wnm
ここで、mは、尤度の信頼性を考慮して、3〜5程度の値であることが好ましい。
第1の連想語リストXと、各第2の連想語リストY(C)との間の類似度は、単語間の距離関係を統計的な出現頻度に基づいて導出した知識源データベースを参照することも好ましい。知識源データベースとしては、例えば日本語WordNetがある(例えば非特許文献3参照)。
最初に、対象文章Xにおける第1の連想語リストの連想語毎に、複数の簡易文C〜Cにおける各第2の連想語リストの連想語それぞれの意味的距離を検索し、当該距離が最短となる連想語ペアを導出し、連想語ペアの意味的距離の平均距離又は累積距離を算出する。
XとY(C)との連想語間の距離Pを、以下のように算出する。
(S1)Wx1について、W11、W12、・・・、W1m毎に、以下の距離Px1を算出する。
P(Wx1,W11)、P(Wx1,W12)、・・・、P(Wx1,W1m
そして、Wx1について、最も距離Pが短いW11〜W1mを選択し、その距離Px1を記憶する。
(S2)Wx2について、W11、W12、・・・、W1m毎に、以下の距離Pを算出する。
P(Wx2,W11)、P(Wx2,W12)、・・・、P(Wx2,W1m
そして、Wx2について、最も距離Pが短いW11〜W1mを選択し、その距離Px2を記憶する。
・・・・
(Sm)Wxmについて、W11、W12、・・・、W1m毎に、以下の距離Pを算出する。
P(Wxm,W11)、P(Wxm,W12)、・・・、P(Wxm,W1m
そして、Wxnについて、最も距離Pが短いW11〜W1mを選択し、その距離Pxnを記憶する。
最後に、これら距離Px1〜Pxnの平均距離Pを、XとY(C)との間の距離とする。
次いで、Xに対して、Y(C)〜Y(C)とのそれぞれについて連想語間の平均距離を算出する。
そして、最終的に、対象文章Xにおける第1の連想語リストに対して、平均距離又は累積距離が最も短い(連想語間で最も類似する)第2の連想語リストY(C)を選択する。尚、上位から所定数までのY(C)をランキング(尤度順)として導出するものであってもよい。
「転ばぬ先の杖」
<対象文章:第1の連想語リスト> <簡易文:第2の連想語リスト> 最短距離
「検査」 「後悔」 0.080
「予防」 「予防」 0
「病気」 「怪我」 0.046
[平均距離]:0.042
「渡りに船」
<対象文章:第1の連想語リスト> <簡易文:第2の連想語リスト> 最短距離
「検査」 「対策」 0.120
「予防」 「感謝」 0.925
「病気」 「運」 0.620
[平均距離]:0.555
「玉に瑕」
<対象文章:第1の連想語リスト> <簡易文:第2の連想語リスト> 最短距離
「検査」 「評価」 0.825
「予防」 「価値」 0.988
「病気」 「失格」 0.905
[平均距離]:0.906
他の実施形態として、平均距離ではなく、上位数件の最短距離における累積距離を用いてもよい。
[簡易文推定部132]
簡易文推定部132は、連想語リストマッチング部131によって検索された第2の連想語リストに基づく簡易文を、対象文章を象徴するものとして出力する。また、簡易文推定部132は、対象文章に対して距離が短い順に所定数の簡易文を選択し、複数の簡易文を推定結果として出力するものであってもよい。
図2及び図3によれば、平均距離が最も短い(最も類似する)簡易文「転ばぬ先の杖」が推定されて表示される。
-------------------------------------------------------------------------------
タイトル「A子のおば、乳がんで亡くなる」 2013/5/28 16:56
コンサイス表現:「転ばぬ先の杖」
-------------------------------------------------------------------------------
利用者は、タイトル及びコンサイス表現を一見しただけで、その記事に目を通す優先度を判断することができる。コンサイス表現を、サブタイトルのように表示される。複数の簡易文をランキングとして抽出できた場合、例えばユーザがカーソルをコンサイス表現「転ばぬ先の杖」の上に持ってきた際に、他のコンサイス表現も、平均距離の短い順のリスト状に表示されるものであってもよい。
他の実施形態として、検索されたコンサイス表現(簡易文)について、更に、内容の極性(ポジティブ/ネガティブ)を示すアイコンのような副次的な特徴部分を、ユーザに更に明示することも好ましい。ユーザは、コンサイス表現に加えて、ポジティブ/ネガティブの感覚を直感的に理解することができる。
図4は、簡易文を入力することによって、対象文章を検索する対象文推定装置の機能構成図である。
図4によれば、図1と比較して、複数の対象文章を予め蓄積する対象文章蓄積部110を有する一方で、簡易文記憶部121を備えていない。ユーザに簡易文(コンサイス表現)のリストを明示し、ユーザの選択によって、1つの簡易文が入力されるものであってもよい。その他の機能構成部は、図1と基本的に同じ処理を実行する。但し、図1と比較して、複数の対象文章と1つの簡易文との構成になる点で、以下の構成要素の処理が異なる。
重要語抽出部111は、対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する。
第1の連想語抽出部112は、対象文章毎に、コーパス文章記憶部101を参照し、連想語記憶部102に記憶された連想語の中で、重要語と共起して出現する第1の連想語リストの群を抽出する。
第2の連想語抽出部122は、入力された簡易文に、コーパス文章記憶部101を参照し、連想語記憶部102に記憶された連想語の中で、簡易文と共起して出現する第2の連想語リストを抽出する。
連想語リストマッチング部131は、対象文章毎の第1の連想語リストの群の中で、第2の連想語リストに最も類似する第1の連想語リストを検索する。
対象文章推定部133は、連想語リストマッチング部131によって検索された第1の連想語リストに基づく対象文章を、簡易文を象徴するものとして出力する。
最終的に、図4によれば、例えば簡易文「転ばぬ先の杖」を入力することによって、対象文章「A子のおば、乳がんでなくなる」のニュース記事が検索されることとなる。
他の実施形態として、利用者への提示順として、対象文章を最初に表示するのではなく、簡易文のリストを一定数表示して、利用者にその中から気になる表現を選択させることも好ましい。例えば新着のニュース群に対して予め、各ニュース記事に対応するコンサイス表現(簡易文)を導出しておき、その出現頻度順にソートしたリストを表示する。これによって、ユーザは、その日の出来事で話題となっている傾向をも確かめながら、簡易文を選択することによって、ニュース記事を閲覧することができる。
図5は、本発明における簡易文推定サーバを有するシステム構成図である。
簡易文推定サーバ1は、端末2からクエリを受信し、そのクエリに対応する「対象文章及び簡易文の組」を端末2へ返信する。簡易文推定サーバ1は、図5によれば、図1と比較して、対象文章データベース140及び対象文章検索部141のみが追加されている。
対象文章データベース140は、大量の対象文章を記憶している。
対象文章検索部141は、入力されたクエリに対して、対象文章データベースを用いて、1つ以上の対象文章を検索する。検索された当該対象文章は、重要語抽出部111へ出力される。
最終的に、簡易文推定部132は、以下の2つのパターンで、端末2へ、簡易文を返信する。
(1)各対象文章に簡易文を組み合わせて検索結果として出力する。
(2)最初に、クエリの検索結果となる対象文章に対する複数の簡易文のみを、端末2へ返信する。端末2を操作するユーザに対して、いずれかの簡易文を選択させる。そして、選択された簡易文に対応する対象文章を改めて検索結果として端末2へ返信する。
<第1の実施形態>
このようなシステムによれば、ユーザインタフェースとして、「クエリや対象文章に対応することわざ」を検索することができる。例えば、ユーザが、ニュースやブログ等の記事の一覧を眺めながら、短時間に興味の湧きそうな記事を選択しようとしているとする。このとき、記事タイトルと並置的に、サブタイトルとしての「ことわざ」を表示させることができる。
-------------------------------------------------------------------------------
タイトル「A子のおば、乳がんで亡くなる」 -> [転ばぬ先の杖]
-------------------------------------------------------------------------------
ユーザとしては、記事タイトルだけでなく、トピックの理解を助けるような一言(コンサイス表現)も手がかりにして、その記事に目を通す優先度を判断することができる。ユーザとしては、そのコンサイス表現が内容とよくマッチする場合には、それに印象付けて記事を記憶することに結びつく。
<第2の実施形態>
ユーザからクエリを受信した後、直ぐに、記事リストを提示するのではなく、中間段階として、記事に対応する「コンサイス表現」リストを提示する。ユーザは、複数のコンサイス表現の中から、いずれか1つのコンサイス表現を選択することができる。そして、そのコンサイス表現に対応する記事を改めてユーザへ提示する。例えば新着ニュース群に対して予め、各記事に対応するコンサイス表現(複数候補も可)を導出しておく。その頻度順にソートした結果を表示することにより、その日の出来事で話題となっている傾向を、コンサイス表現として眺めながら記事を選択することができる。
これら実施形態とも、従来技術によるテキスト内容の極性情報(ポジティブ/ネガティブ要素の判定)等と合わせて、より直観的に記事の輪郭を把握する助けとなり得る。
以上、詳細に説明したように、本発明のプログラム、装置及びサーバは、対象文章を象徴的に表すコンサイス表現(簡易文)を推定することができる。これによって、対象文章に接した利用者は、そのコンサイス表現を一見しただけで、その対象文章の意味的内容を直感的に理解することができる。この点で、従来技術におけるテキスト要約やアノテーションと大きく異なる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 簡易文推定装置、サーバ
101 コーパス文章記憶部
102 連想語記憶部
111 重要語抽出部
112 第1の連想語抽出部
121 簡易文記憶部
122 第2の連想語抽出部
131 連想語リストマッチング部
132 簡易文推定部
133 対象文章推定部
140 対象文章データベース
141 対象文章検索部
2 端末

Claims (14)

  1. 対象文章を象徴する簡易文を推定するようにコンピュータを機能させるプログラムであって、
    複数の簡易文を予め記憶した簡易文記憶手段と、
    コーパス文章を記憶したコーパス文章記憶手段と、
    任意の複数の連想語を記憶した連想語記憶手段と、
    入力された対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
    前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記重要語と共起して出現する第1の連想語リストを抽出する第1の連想語抽出手段と、
    前記簡易文記憶手段に記憶された簡易文毎に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記簡易文と共起して出現する第2の連想語リストの群を抽出する第2の連想語抽出手段と、
    前記簡易文毎の第2の連想語リストの群の中で、第1の連想語リストに最も類似する第2の連想語リストを検索する連想語リストマッチング手段と、
    連想語リストマッチング手段によって検索された第2の連想語リストに基づく簡易文を、前記対象文章を象徴するものとして出力する簡易文推定手段と
    してコンピュータを機能させることを特徴とするプログラム。
  2. 前記簡易文は、名言、格言、ことわざ、俳句及び/又は川柳である
    ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。
  3. 前記連想語リストマッチング手段は、
    対象文章Xにおける第1の連想語リストの連想語毎に、複数の簡易文C〜Cにおける各第2の連想語リストの連想語それぞれの意味的距離を検索し、当該距離が最短となる連想語ペアを導出し、連想語ペアの意味的距離の平均距離又は累積距離を算出し、
    対象文章Xにおける第1の連想語リストに対して、平均距離又は累積距離が最も短い第2の連想語リストに基づく簡易文を選択する
    ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。
  4. 前記コーパス文章記憶手段及び/又は前記連想語記憶手段は、複数のカテゴリに区分されており、
    第1の連想語抽出手段及び/又は第2の連想語抽出手段は、入力された対象文章のカテゴリに応じて、前記コーパス文章記憶手段及び/又は前記連想語記憶手段から参照するカテゴリを選択する
    ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のプログラム。
  5. 前記簡易文推定手段は、対象文章に対して距離が短い順に所定数の簡易文を選択し、複数の簡易文を推定結果として出力する
    ようにコンピュータを機能させることを特徴とする請求項1から4のいずれか1項に記載のプログラム。
  6. 前記重要語抽出手段は、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)又はDF(Document Frequency)を用いて、重要語を抽出する
    ようにコンピュータを機能させることを特徴とする請求項1から5のいずれか1項に記載のプログラム。
  7. 大量の対象文章を記憶した対象文章データベースと、
    入力されたクエリに対して、前記対象文章データベースを用いて、1つ以上の対象文章を検索し、当該対象文章を前記重要語抽出手段へ出力するする対象文章検索手段と
    を有し、
    前記簡易文推定手段は、各対象文章に対応する簡易文を検索結果として出力する
    ようにコンピュータを機能させることを特徴とする請求項1から6のいずれか1項に記載のプログラム。
  8. 前記簡易文推定手段は、
    各対象文章に前記簡易文を組み合わせて検索結果として出力するか、
    又は、
    複数の前記簡易文を出力すると共に、いずれかの簡易文をユーザに選択させ、選択された簡易文に対応する前記対象文章を改めて検索結果として出力する
    ようにコンピュータを機能させることを特徴とする請求項7に記載のプログラム。
  9. 簡易文を象徴する対象文章を推定するようにコンピュータを機能させるプログラムであって、
    複数の対象文章を予め記憶した対象文章記憶手段と、
    コーパス文章を記憶したコーパス文章記憶手段と、
    任意の複数の連想語を記憶した連想語記憶手段と、
    対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
    対象文章毎に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記重要語と共起して出現する第1の連想語リストの群を抽出する第1の連想語抽出手段と、
    入力された簡易文に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記簡易文と共起して出現する第2の連想語リストを抽出する第2の連想語抽出手段と、
    前記対象文章毎の第1の連想語リストの群の中で、第2の連想語リストに最も類似する第1の連想語リストを検索する連想語リストマッチング手段と、
    連想語リストマッチング手段によって検索された第1の連想語リストに基づく対象文章を、前記簡易文を象徴するものとして出力する対象文章推定手段と
    してコンピュータを機能させることを特徴とするプログラム。
  10. 対象文章を象徴する簡易文を推定する装置であって、
    複数の簡易文を予め記憶した簡易文記憶手段と、
    コーパス文章を記憶したコーパス文章記憶手段と、
    任意の複数の連想語を記憶した連想語記憶手段と、
    前記対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
    前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記重要語と共起して出現する第1の連想語リストを抽出する第1の連想語抽出手段と、
    前記簡易文記憶手段に記憶された簡易文毎に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記簡易文と共起して出現する第2の連想語リストの群を抽出する第2の連想語抽出手段と、
    前記簡易文毎の第2の連想語リストの群の中で、第1の連想語リストに最も類似する第2の連想語リストを検索する連想語リストマッチング手段と、
    連想語リストマッチング手段によって検索された第2の連想語リストに基づく簡易文を、前記対象文章を象徴するものとして出力する簡易文推定手段と
    を有することを特徴とする装置。
  11. 簡易文を象徴する対象文章を推定する装置であって、
    複数の対象文章を予め記憶した対象文章記憶手段と、
    コーパス文章を記憶したコーパス文章記憶手段と、
    任意の複数の連想語を記憶した連想語記憶手段と、
    対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
    対象文章毎に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記重要語と共起して出現する第1の連想語リストの群を抽出する第1の連想語抽出手段と、
    入力された簡易文に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記簡易文と共起して出現する第2の連想語リストを抽出する第2の連想語抽出手段と、
    前記対象文章毎の第1の連想語リストの群の中で、第2の連想語リストに最も類似する第1の連想語リストを検索する連想語リストマッチング手段と、
    連想語リストマッチング手段によって検索された第1の連想語リストに基づく対象文章を、前記簡易文を象徴するものとして出力する対象文章推定手段と
    を有することを特徴とする装置。
  12. 端末からクエリを受信し、該クエリに対応する1つ以上の対象文章を検索し、該対象文章を象徴する簡易文を推定し、該簡易文を端末へ返信するサーバであって、
    大量の対象文章を記憶した対象文章データベースと、
    複数の簡易文を予め記憶した簡易文記憶手段と、
    コーパス文章を記憶したコーパス文章記憶手段と、
    任意の複数の連想語を記憶した連想語記憶手段と、
    前記クエリに対して、前記対象文章データベースを用いて、1つ以上の対象文章を検索する対象文章検索手段と、
    検索された前記対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
    前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記重要語と共起して出現する第1の連想語リストを抽出する第1の連想語抽出手段と、
    前記簡易文記憶手段に記憶された簡易文毎に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記簡易文と共起して出現する第2の連想語リストの群を抽出する第2の連想語抽出手段と、
    前記簡易文毎の第2の連想語リストの群の中で、第1の連想語リストに最も類似する第2の連想語リストを検索する連想語リストマッチング手段と、
    連想語リストマッチング手段によって検索された第2の連想語リストに基づく簡易文を、前記対象文章を象徴する検索結果として出力する簡易文推定手段と、
    を有することを特徴とするサーバ。
  13. 前記簡易文推定手段は、
    各対象文章に前記簡易文を組み合わせて検索結果として、端末へ返信するか、
    又は、
    複数の前記簡易文を端末へ返信すると共に、ユーザによって選択された簡易文を受信し、該簡易文に対応する前記対象文章を改めて検索結果として返信する
    ことを特徴とする請求項12に記載のサーバ。
  14. 端末から簡易文を受信し、該簡易文を象徴する対象文章を推定し、該対象文章を端末へ返信するサーバであって、
    複数の対象文章を予め記憶した対象文章記憶手段と、
    コーパス文章を記憶したコーパス文章記憶手段と、
    任意の複数の連想語を記憶した連想語記憶手段と、
    対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
    対象文章毎に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記重要語と共起して出現する第1の連想語リストの群を抽出する第1の連想語抽出手段と、
    入力された簡易文に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記簡易文と共起して出現する第2の連想語リストを抽出する第2の連想語抽出手段と、
    前記対象文章毎の第1の連想語リストの群の中で、第2の連想語リストに最も類似する第1の連想語リストを検索する連想語リストマッチング手段と、
    連想語リストマッチング手段によって検索された第1の連想語リストに基づく対象文章を、前記簡易文を象徴するものとして出力する対象文章推定手段と
    を有することを特徴とするサーバ。
JP2014044668A 2014-03-07 2014-03-07 対象文章を象徴する簡易文を推定するプログラム、装置及びサーバ Active JP6153262B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014044668A JP6153262B2 (ja) 2014-03-07 2014-03-07 対象文章を象徴する簡易文を推定するプログラム、装置及びサーバ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014044668A JP6153262B2 (ja) 2014-03-07 2014-03-07 対象文章を象徴する簡易文を推定するプログラム、装置及びサーバ

Publications (2)

Publication Number Publication Date
JP2015170145A JP2015170145A (ja) 2015-09-28
JP6153262B2 true JP6153262B2 (ja) 2017-06-28

Family

ID=54202830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014044668A Active JP6153262B2 (ja) 2014-03-07 2014-03-07 対象文章を象徴する簡易文を推定するプログラム、装置及びサーバ

Country Status (1)

Country Link
JP (1) JP6153262B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111857097B (zh) * 2020-07-27 2023-10-31 中国南方电网有限责任公司超高压输电公司昆明局 基于词频与逆文档频率的工控系统异常诊断信息识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010218216A (ja) * 2009-03-17 2010-09-30 Chugoku Electric Power Co Inc:The 類似文書検索システム、方法及びプログラム

Also Published As

Publication number Publication date
JP2015170145A (ja) 2015-09-28

Similar Documents

Publication Publication Date Title
JP5106636B2 (ja) テキストセグメントを有する文書から用語を抽出するためのシステム
JP4962967B2 (ja) Webページ検索サーバ及びクエリ推薦方法
KR101723862B1 (ko) 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치
US9852188B2 (en) Contextual search on multimedia content
US8812504B2 (en) Keyword presentation apparatus and method
JPWO2009096523A1 (ja) 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
JP6529133B2 (ja) 複数地域でのトピックの評価を分析する装置、プログラム及び方法
Miotto et al. eTACTS: a method for dynamically filtering clinical trial search results
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
JP2007264718A (ja) ユーザ興味分析装置、方法、プログラム
Li et al. A novel methodology for retrieving infographics utilizing structure and message content
Swapna et al. Finding thoughtful comments from social media
Panja Information Retrieval Systems in Healthcare: Understanding Medical Data Through Text Analysis
JP5146108B2 (ja) 文書重要度算出システム、文書重要度算出方法およびプログラム
Ramadhanti et al. Document similarity detection using indonesian language word2vec model
Li et al. Infographics retrieval: A new methodology
CN109902304A (zh) 信息处理方法、装置、存储介质和电子设备
JP5138621B2 (ja) 情報処理装置及び不満解決商品発見方法及びプログラム
JP6153262B2 (ja) 対象文章を象徴する簡易文を推定するプログラム、装置及びサーバ
JP2009223372A (ja) リコメンド装置、リコメンドシステム、リコメンド装置の制御方法、およびリコメンドシステムの制御方法
Samonte et al. Emotion detection in blog posts using keyword spotting and semantic analysis
JP2016162357A (ja) 商品に対するユーザの感情分析装置及びプログラム
KR20140056637A (ko) 분석 정보 제공 시스템 및 그 방법, 그리고 이에 적용되는 장치
Cameron et al. Semantics-empowered text exploration for knowledge discovery
JP2006139484A (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160707

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170529

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170529

R150 Certificate of patent or registration of utility model

Ref document number: 6153262

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150