JP6153262B2 - 対象文章を象徴する簡易文を推定するプログラム、装置及びサーバ - Google Patents
対象文章を象徴する簡易文を推定するプログラム、装置及びサーバ Download PDFInfo
- Publication number
- JP6153262B2 JP6153262B2 JP2014044668A JP2014044668A JP6153262B2 JP 6153262 B2 JP6153262 B2 JP 6153262B2 JP 2014044668 A JP2014044668 A JP 2014044668A JP 2014044668 A JP2014044668 A JP 2014044668A JP 6153262 B2 JP6153262 B2 JP 6153262B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- associative
- word
- associative word
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
複数の簡易文を予め記憶した簡易文記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
入力された対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、重要語と共起して出現する第1の連想語リストを抽出する第1の連想語抽出手段と、
簡易文記憶手段に記憶された簡易文毎に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、簡易文と共起して出現する第2の連想語リストの群を抽出する第2の連想語抽出手段と、
簡易文毎の第2の連想語リストの群の中で、第1の連想語リストに最も類似する第2の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第2の連想語リストに基づく簡易文を、対象文章を象徴するものとして出力する簡易文推定手段と
してコンピュータを機能させることを特徴とする。
簡易文は、名言、格言、ことわざ、俳句及び/又は川柳である
ようにコンピュータを機能させることも好ましい。
連想語リストマッチング手段は、
対象文章Xにおける第1の連想語リストの連想語毎に、複数の簡易文C1〜Cnにおける各第2の連想語リストの連想語それぞれの意味的距離を検索し、当該距離が最短となる連想語ペアを導出し、連想語ペアの意味的距離の平均距離又は累積距離を算出し、
対象文章Xにおける第1の連想語リストに対して、平均距離又は累積距離が最も短い第2の連想語リストに基づく簡易文を選択する
ようにコンピュータを機能させることも好ましい。
コーパス文章記憶手段及び/又は連想語記憶手段は、複数のカテゴリに区分されており、
第1の連想語抽出手段及び/又は第2の連想語抽出手段は、入力された対象文章のカテゴリに応じて、コーパス文章記憶手段及び/又は連想語記憶手段から参照するカテゴリを選択する
ようにコンピュータを機能させることも好ましい。
簡易文推定手段は、対象文章に対して距離が短い順に所定数の簡易文を選択し、複数の簡易文を推定結果として出力する
ようにコンピュータを機能させることも好ましい。
重要語抽出手段は、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)又はDF(Document Frequency)を用いて、重要語を抽出する
ようにコンピュータを機能させることも好ましい。
大量の対象文章を記憶した対象文章データベースと、
入力されたクエリに対して、対象文章データベースを用いて、1つ以上の対象文章を検索し、当該対象文章を重要語抽出手段へ出力するする対象文章検索手段と
を有し、
簡易文推定手段は、各対象文章に対応する簡易文を検索結果として出力する
ようにコンピュータを機能させることも好ましい。
簡易文推定手段は、
各対象文章に簡易文を組み合わせて検索結果として出力するか、
又は、
複数の簡易文を出力すると共に、いずれかの簡易文をユーザに選択させ、選択された簡易文に対応する対象文章を改めて検索結果として出力する
ようにコンピュータを機能させることも好ましい。
複数の対象文章を予め記憶した対象文章記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
対象文章毎に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、重要語と共起して出現する第1の連想語リストの群を抽出する第1の連想語抽出手段と、
入力された簡易文に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、簡易文と共起して出現する第2の連想語リストを抽出する第2の連想語抽出手段と、
対象文章毎の第1の連想語リストの群の中で、第2の連想語リストに最も類似する第1の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第1の連想語リストに基づく対象文章を、簡易文を象徴するものとして出力する対象文章推定手段と
してコンピュータを機能させることを特徴とする。
複数の簡易文を予め記憶した簡易文記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、重要語と共起して出現する第1の連想語リストを抽出する第1の連想語抽出手段と、
簡易文記憶手段に記憶された簡易文毎に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、簡易文と共起して出現する第2の連想語リストの群を抽出する第2の連想語抽出手段と、
簡易文毎の第2の連想語リストの群の中で、第1の連想語リストに最も類似する第2の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第2の連想語リストに基づく簡易文を、対象文章を象徴するものとして出力する簡易文推定手段と
を有することを特徴とする。
複数の対象文章を予め記憶した対象文章記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
対象文章毎に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、重要語と共起して出現する第1の連想語リストの群を抽出する第1の連想語抽出手段と、
入力された簡易文に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、簡易文と共起して出現する第2の連想語リストを抽出する第2の連想語抽出手段と、
対象文章毎の第1の連想語リストの群の中で、第2の連想語リストに最も類似する第1の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第1の連想語リストに基づく対象文章を、簡易文を象徴するものとして出力する対象文章推定手段と
を有することを特徴とする。
大量の対象文章を記憶した対象文章データベースと、
複数の簡易文を予め記憶した簡易文記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
クエリに対して、対象文章データベースを用いて、1つ以上の対象文章を検索する対象文章検索手段と、
検索された対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、重要語と共起して出現する第1の連想語リストを抽出する第1の連想語抽出手段と、
簡易文記憶手段に記憶された簡易文毎に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、簡易文と共起して出現する第2の連想語リストの群を抽出する第2の連想語抽出手段と、
簡易文毎の第2の連想語リストの群の中で、第1の連想語リストに最も類似する第2の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第2の連想語リストに基づく簡易文を、対象文章を象徴する検索結果として出力する簡易文推定手段と、
を有することを特徴とする。
簡易文推定手段は、
各対象文章に簡易文を組み合わせて検索結果として出力するか、
又は、
複数の簡易文を端末へ返信すると共に、ユーザによって選択された簡易文を受信し、該簡易文に対応する対象文章を改めて検索結果として返信する
ことも好ましい。
複数の対象文章を予め記憶した対象文章記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
対象文章毎に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、重要語と共起して出現する第1の連想語リストの群を抽出する第1の連想語抽出手段と、
入力された簡易文に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、簡易文と共起して出現する第2の連想語リストを抽出する第2の連想語抽出手段と、
対象文章毎の第1の連想語リストの群の中で、第2の連想語リストに最も類似する第1の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第1の連想語リストに基づく対象文章を、簡易文を象徴するものとして出力する対象文章推定手段と
を有することを特徴とする。
-------------------------------------------------------------------------------
タイトル「A子のおば、乳がんで亡くなる」 2013/5/28 16:56
映画女優、A子さん(37)の母方の叔母B子さんが2013年5月26日、埼玉県の病院で乳がんのため61歳で亡くなった。
A子は14日に乳がんのリスクを高める遺伝子異変が見つかり、両乳房の切除・再建手術を受けたことを公表。B子さんは04年に乳がんと診断された後に、A子さんと同様の遺伝子異変が見つかっていたという。」
-------------------------------------------------------------------------------
簡易文推定装置1は、入力されたこの「ニュース記事」(対象文章)を象徴する「ことわざ」(簡易文)を推定することができる。
コーパス文章記憶部101は、コーパス文章を記憶したものである。コーパス(corpus)とは、狭義には、自然言語の文章を構造化し大規模に集積したデータベースを意味するが、広義には、新聞ニュース記事やブログ記事のような流通する文章であってもよい。また、コーパス文章記憶部101は、簡易文推定装置1内に蓄積されたものであってもよいし、ネットワークを介して他のコーパスサーバを検索できるものであってもよい。
-------------------------------------------------------------------------------
(C1)「将来、遺伝子医療が発展し、病気が無くなるかもしれません」
(C2)「転ばぬ先の杖というね。怪我して後悔する前に、予防だね」
(C3)「感謝!これぞ渡りに船。この対策が良かったのは、まさに運かも」
(C4)「乳がんは、早期に検査すれば、怖くはありません」
(C5)「あ〜失格した。これだけ価値も評価も高いのに〜。玉に瑕ということか」
(C6)「勝手な予防より、異変に気付いて直ぐに診断することが大事」
・・・・・
-------------------------------------------------------------------------------
連想語記憶部102は、任意の複数の連想語を記憶したものである。連想語は、単なる単語の群に過ぎないが、この連想語を介して、対象文章と簡易文との内容的な類似度を導出する。また、連想語記憶部102は、第1の連想語抽出部112と、第2の連想語抽出部122との両方から参照されるものであって、共通して1つのものである。
尚、他の実施形態として、連想語記憶部102は、テーマに関する「テーマ連想語」と、人の感情に関する「感情連想語」とに区分して記憶しておくことも好ましい。
-------------------------------------------------------------------------------
「検査」「手術」「後悔」「治療」「予防」「医師」「病気」「怪我」・・・
-------------------------------------------------------------------------------
重要語抽出部111は、対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する。対象文章に陽に含まれる重要語は、その対象文章を特徴付けている。
-------------------------------------------------------------------------------
「女優」「叔母」「病院」「乳がん」「リスク」「遺伝子」
「異変」「乳房」「切除」「手術」「診断」
-------------------------------------------------------------------------------
第1の連想語抽出部112は、コーパス文章記憶部101を参照し、連想語記憶部102に記憶された連想語の中で、重要語と共起して出現する第1の連想語リストを抽出する。連想語は、対象文章の中に陽には表れないが、その対象文章の意味的内容を表す語である。
-------------------------------------------------------------------------------
(C1)「将来、[遺伝子]医療が発展し、[病気]が無くなるかもしれません」
(C4)「[乳がん]は、早期に[検査]すれば、怖くはありません」
(C6)「勝手な[予防]より、異変に気付いて直ぐに[診断]することが大事」
-------------------------------------------------------------------------------
C1には、重要語「遺伝子」と連想語「病気」とが共起して出現している。
C4には、重要語「乳がん」と連想語「検査」とが共起して出現している。
C6には、重要語「診断」と 連想語「予防」とが共起して出現している。
-------------------------------------------------------------------------------
(第1の連想語リスト) 「病気」「検査」「予防」
-------------------------------------------------------------------------------
簡易文記憶部121は、複数の簡易文を予め記憶したものである。簡易文とは、「名言」「格言」「ことわざ」「俳句」「川柳」のような、直感的に人の感情様相を理解させる文である。コンサイス表現としての簡易文は、非常に短く、比喩的な表現が用いられることも多い。そのために、その簡易文に直接的に含まれる単語そのものを抽出しても、その簡易文の意図を特徴付けることにはならない。
-------------------------------------------------------------------------------
「転ばぬ先の杖」(失敗しないよう、万が一に備えて予め十分な準備をしておくこと)
「渡りに船」 (困っているときに、丁度よく助けになる人や環境に恵まれること)
「玉に瑕」 (ほとんど完全に近いものなのに、わずかな欠点があること)
「猿も木から落ちる」(その道の名人でも、時には失敗をすることがあること)
・・・・・
-------------------------------------------------------------------------------
第2の連想語抽出部122は、簡易文記憶部121に記憶された簡易文毎に、コーパス文章記憶部101を参照し、連想語記憶部102に記憶された連想語の中で、簡易文と共起して出現する第2の連想語リストの群を抽出する。
-------------------------------------------------------------------------------
(C2)「[転ばぬ先の杖]というね。[怪我]して[後悔]する前に、[予防]だね」
(C3)「[感謝]!これぞ[渡りに船]。この[対策]が良かったのは、まさに[運]かも」
(C5)「あ〜[失格]した。これだけ[価値]も[評価]も高いのに〜。[玉に瑕]ということか」
-------------------------------------------------------------------------------
C2には、簡易文「転ばぬ先の杖」と連想語「怪我」「後悔」「予防」が共起して出現している。
C3には、簡易文「渡りに船」と連想語「感謝」「対策」「運」とが共起して出現している。
C5には、簡易文「玉に瑕」と連想語「失格」「価値」「評価」とが共起して出現している。
-------------------------------------------------------------------------------
(第2の連想語リスト)
「転ばぬ先の杖」:「怪我」「後悔」「予防」
「渡りに船」 :「感謝」「対策」「運」
「玉に瑕」 :「失格」「価値」「評価」
-------------------------------------------------------------------------------
連想語リストマッチング部131は、簡易文毎の第2の連想語リストの群の中で、第1の連想語リストに最も類似する第2の連想語リストを検索する。具体的には、以下のステップを実行する。また、第1の連想語リストに類似する複数の第2の連想語リストを順に、ランク付け(尤度順)するものであってもよい。連想語リスト間の類似度が高いほど、対象文章と簡易文との間で親和性が高いことを意味する。
X :(Wx1,Wx2,・・・,Wxm)
簡易文C1〜Cn毎の第2の連想語リストYの群
Y(C1):(W11,W12,・・・,W1m)
Y(C2):(W21,W22,・・・,W2m)
・・・・・
Y(Cn):(Wn1,Wn2,・・・,Wnm)
ここで、mは、尤度の信頼性を考慮して、3〜5程度の値であることが好ましい。
XとY(C1)との連想語間の距離Pを、以下のように算出する。
(S1)Wx1について、W11、W12、・・・、W1m毎に、以下の距離Px1を算出する。
P(Wx1,W11)、P(Wx1,W12)、・・・、P(Wx1,W1m)
そして、Wx1について、最も距離Pが短いW11〜W1mを選択し、その距離Px1を記憶する。
(S2)Wx2について、W11、W12、・・・、W1m毎に、以下の距離Pを算出する。
P(Wx2,W11)、P(Wx2,W12)、・・・、P(Wx2,W1m)
そして、Wx2について、最も距離Pが短いW11〜W1mを選択し、その距離Px2を記憶する。
・・・・
(Sm)Wxmについて、W11、W12、・・・、W1m毎に、以下の距離Pを算出する。
P(Wxm,W11)、P(Wxm,W12)、・・・、P(Wxm,W1m)
そして、Wxnについて、最も距離Pが短いW11〜W1mを選択し、その距離Pxnを記憶する。
最後に、これら距離Px1〜Pxnの平均距離PAを、XとY(C1)との間の距離とする。
次いで、Xに対して、Y(C2)〜Y(Cn)とのそれぞれについて連想語間の平均距離を算出する。
<対象文章:第1の連想語リスト> <簡易文:第2の連想語リスト> 最短距離
「検査」 「後悔」 0.080
「予防」 「予防」 0
「病気」 「怪我」 0.046
[平均距離]:0.042
「渡りに船」
<対象文章:第1の連想語リスト> <簡易文:第2の連想語リスト> 最短距離
「検査」 「対策」 0.120
「予防」 「感謝」 0.925
「病気」 「運」 0.620
[平均距離]:0.555
「玉に瑕」
<対象文章:第1の連想語リスト> <簡易文:第2の連想語リスト> 最短距離
「検査」 「評価」 0.825
「予防」 「価値」 0.988
「病気」 「失格」 0.905
[平均距離]:0.906
簡易文推定部132は、連想語リストマッチング部131によって検索された第2の連想語リストに基づく簡易文を、対象文章を象徴するものとして出力する。また、簡易文推定部132は、対象文章に対して距離が短い順に所定数の簡易文を選択し、複数の簡易文を推定結果として出力するものであってもよい。
-------------------------------------------------------------------------------
タイトル「A子のおば、乳がんで亡くなる」 2013/5/28 16:56
コンサイス表現:「転ばぬ先の杖」
-------------------------------------------------------------------------------
第1の連想語抽出部112は、対象文章毎に、コーパス文章記憶部101を参照し、連想語記憶部102に記憶された連想語の中で、重要語と共起して出現する第1の連想語リストの群を抽出する。
第2の連想語抽出部122は、入力された簡易文に、コーパス文章記憶部101を参照し、連想語記憶部102に記憶された連想語の中で、簡易文と共起して出現する第2の連想語リストを抽出する。
連想語リストマッチング部131は、対象文章毎の第1の連想語リストの群の中で、第2の連想語リストに最も類似する第1の連想語リストを検索する。
対象文章推定部133は、連想語リストマッチング部131によって検索された第1の連想語リストに基づく対象文章を、簡易文を象徴するものとして出力する。
対象文章データベース140は、大量の対象文章を記憶している。
対象文章検索部141は、入力されたクエリに対して、対象文章データベースを用いて、1つ以上の対象文章を検索する。検索された当該対象文章は、重要語抽出部111へ出力される。
最終的に、簡易文推定部132は、以下の2つのパターンで、端末2へ、簡易文を返信する。
(1)各対象文章に簡易文を組み合わせて検索結果として出力する。
(2)最初に、クエリの検索結果となる対象文章に対する複数の簡易文のみを、端末2へ返信する。端末2を操作するユーザに対して、いずれかの簡易文を選択させる。そして、選択された簡易文に対応する対象文章を改めて検索結果として端末2へ返信する。
このようなシステムによれば、ユーザインタフェースとして、「クエリや対象文章に対応することわざ」を検索することができる。例えば、ユーザが、ニュースやブログ等の記事の一覧を眺めながら、短時間に興味の湧きそうな記事を選択しようとしているとする。このとき、記事タイトルと並置的に、サブタイトルとしての「ことわざ」を表示させることができる。
-------------------------------------------------------------------------------
タイトル「A子のおば、乳がんで亡くなる」 -> [転ばぬ先の杖]
-------------------------------------------------------------------------------
ユーザとしては、記事タイトルだけでなく、トピックの理解を助けるような一言(コンサイス表現)も手がかりにして、その記事に目を通す優先度を判断することができる。ユーザとしては、そのコンサイス表現が内容とよくマッチする場合には、それに印象付けて記事を記憶することに結びつく。
ユーザからクエリを受信した後、直ぐに、記事リストを提示するのではなく、中間段階として、記事に対応する「コンサイス表現」リストを提示する。ユーザは、複数のコンサイス表現の中から、いずれか1つのコンサイス表現を選択することができる。そして、そのコンサイス表現に対応する記事を改めてユーザへ提示する。例えば新着ニュース群に対して予め、各記事に対応するコンサイス表現(複数候補も可)を導出しておく。その頻度順にソートした結果を表示することにより、その日の出来事で話題となっている傾向を、コンサイス表現として眺めながら記事を選択することができる。
101 コーパス文章記憶部
102 連想語記憶部
111 重要語抽出部
112 第1の連想語抽出部
121 簡易文記憶部
122 第2の連想語抽出部
131 連想語リストマッチング部
132 簡易文推定部
133 対象文章推定部
140 対象文章データベース
141 対象文章検索部
2 端末
Claims (14)
- 対象文章を象徴する簡易文を推定するようにコンピュータを機能させるプログラムであって、
複数の簡易文を予め記憶した簡易文記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
入力された対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記重要語と共起して出現する第1の連想語リストを抽出する第1の連想語抽出手段と、
前記簡易文記憶手段に記憶された簡易文毎に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記簡易文と共起して出現する第2の連想語リストの群を抽出する第2の連想語抽出手段と、
前記簡易文毎の第2の連想語リストの群の中で、第1の連想語リストに最も類似する第2の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第2の連想語リストに基づく簡易文を、前記対象文章を象徴するものとして出力する簡易文推定手段と
してコンピュータを機能させることを特徴とするプログラム。 - 前記簡易文は、名言、格言、ことわざ、俳句及び/又は川柳である
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。 - 前記連想語リストマッチング手段は、
対象文章Xにおける第1の連想語リストの連想語毎に、複数の簡易文C1〜Cnにおける各第2の連想語リストの連想語それぞれの意味的距離を検索し、当該距離が最短となる連想語ペアを導出し、連想語ペアの意味的距離の平均距離又は累積距離を算出し、
対象文章Xにおける第1の連想語リストに対して、平均距離又は累積距離が最も短い第2の連想語リストに基づく簡易文を選択する
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。 - 前記コーパス文章記憶手段及び/又は前記連想語記憶手段は、複数のカテゴリに区分されており、
第1の連想語抽出手段及び/又は第2の連想語抽出手段は、入力された対象文章のカテゴリに応じて、前記コーパス文章記憶手段及び/又は前記連想語記憶手段から参照するカテゴリを選択する
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のプログラム。 - 前記簡易文推定手段は、対象文章に対して距離が短い順に所定数の簡易文を選択し、複数の簡易文を推定結果として出力する
ようにコンピュータを機能させることを特徴とする請求項1から4のいずれか1項に記載のプログラム。 - 前記重要語抽出手段は、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)又はDF(Document Frequency)を用いて、重要語を抽出する
ようにコンピュータを機能させることを特徴とする請求項1から5のいずれか1項に記載のプログラム。 - 大量の対象文章を記憶した対象文章データベースと、
入力されたクエリに対して、前記対象文章データベースを用いて、1つ以上の対象文章を検索し、当該対象文章を前記重要語抽出手段へ出力するする対象文章検索手段と
を有し、
前記簡易文推定手段は、各対象文章に対応する簡易文を検索結果として出力する
ようにコンピュータを機能させることを特徴とする請求項1から6のいずれか1項に記載のプログラム。 - 前記簡易文推定手段は、
各対象文章に前記簡易文を組み合わせて検索結果として出力するか、
又は、
複数の前記簡易文を出力すると共に、いずれかの簡易文をユーザに選択させ、選択された簡易文に対応する前記対象文章を改めて検索結果として出力する
ようにコンピュータを機能させることを特徴とする請求項7に記載のプログラム。 - 簡易文を象徴する対象文章を推定するようにコンピュータを機能させるプログラムであって、
複数の対象文章を予め記憶した対象文章記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
対象文章毎に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記重要語と共起して出現する第1の連想語リストの群を抽出する第1の連想語抽出手段と、
入力された簡易文に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記簡易文と共起して出現する第2の連想語リストを抽出する第2の連想語抽出手段と、
前記対象文章毎の第1の連想語リストの群の中で、第2の連想語リストに最も類似する第1の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第1の連想語リストに基づく対象文章を、前記簡易文を象徴するものとして出力する対象文章推定手段と
してコンピュータを機能させることを特徴とするプログラム。 - 対象文章を象徴する簡易文を推定する装置であって、
複数の簡易文を予め記憶した簡易文記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
前記対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記重要語と共起して出現する第1の連想語リストを抽出する第1の連想語抽出手段と、
前記簡易文記憶手段に記憶された簡易文毎に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記簡易文と共起して出現する第2の連想語リストの群を抽出する第2の連想語抽出手段と、
前記簡易文毎の第2の連想語リストの群の中で、第1の連想語リストに最も類似する第2の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第2の連想語リストに基づく簡易文を、前記対象文章を象徴するものとして出力する簡易文推定手段と
を有することを特徴とする装置。 - 簡易文を象徴する対象文章を推定する装置であって、
複数の対象文章を予め記憶した対象文章記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
対象文章毎に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記重要語と共起して出現する第1の連想語リストの群を抽出する第1の連想語抽出手段と、
入力された簡易文に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記簡易文と共起して出現する第2の連想語リストを抽出する第2の連想語抽出手段と、
前記対象文章毎の第1の連想語リストの群の中で、第2の連想語リストに最も類似する第1の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第1の連想語リストに基づく対象文章を、前記簡易文を象徴するものとして出力する対象文章推定手段と
を有することを特徴とする装置。 - 端末からクエリを受信し、該クエリに対応する1つ以上の対象文章を検索し、該対象文章を象徴する簡易文を推定し、該簡易文を端末へ返信するサーバであって、
大量の対象文章を記憶した対象文章データベースと、
複数の簡易文を予め記憶した簡易文記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
前記クエリに対して、前記対象文章データベースを用いて、1つ以上の対象文章を検索する対象文章検索手段と、
検索された前記対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記重要語と共起して出現する第1の連想語リストを抽出する第1の連想語抽出手段と、
前記簡易文記憶手段に記憶された簡易文毎に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記簡易文と共起して出現する第2の連想語リストの群を抽出する第2の連想語抽出手段と、
前記簡易文毎の第2の連想語リストの群の中で、第1の連想語リストに最も類似する第2の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第2の連想語リストに基づく簡易文を、前記対象文章を象徴する検索結果として出力する簡易文推定手段と、
を有することを特徴とするサーバ。 - 前記簡易文推定手段は、
各対象文章に前記簡易文を組み合わせて検索結果として、端末へ返信するか、
又は、
複数の前記簡易文を端末へ返信すると共に、ユーザによって選択された簡易文を受信し、該簡易文に対応する前記対象文章を改めて検索結果として返信する
ことを特徴とする請求項12に記載のサーバ。 - 端末から簡易文を受信し、該簡易文を象徴する対象文章を推定し、該対象文章を端末へ返信するサーバであって、
複数の対象文章を予め記憶した対象文章記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
対象文章毎に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記重要語と共起して出現する第1の連想語リストの群を抽出する第1の連想語抽出手段と、
入力された簡易文に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記簡易文と共起して出現する第2の連想語リストを抽出する第2の連想語抽出手段と、
前記対象文章毎の第1の連想語リストの群の中で、第2の連想語リストに最も類似する第1の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第1の連想語リストに基づく対象文章を、前記簡易文を象徴するものとして出力する対象文章推定手段と
を有することを特徴とするサーバ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014044668A JP6153262B2 (ja) | 2014-03-07 | 2014-03-07 | 対象文章を象徴する簡易文を推定するプログラム、装置及びサーバ |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014044668A JP6153262B2 (ja) | 2014-03-07 | 2014-03-07 | 対象文章を象徴する簡易文を推定するプログラム、装置及びサーバ |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015170145A JP2015170145A (ja) | 2015-09-28 |
JP6153262B2 true JP6153262B2 (ja) | 2017-06-28 |
Family
ID=54202830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014044668A Active JP6153262B2 (ja) | 2014-03-07 | 2014-03-07 | 対象文章を象徴する簡易文を推定するプログラム、装置及びサーバ |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6153262B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111857097B (zh) * | 2020-07-27 | 2023-10-31 | 中国南方电网有限责任公司超高压输电公司昆明局 | 基于词频与逆文档频率的工控系统异常诊断信息识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010218216A (ja) * | 2009-03-17 | 2010-09-30 | Chugoku Electric Power Co Inc:The | 類似文書検索システム、方法及びプログラム |
-
2014
- 2014-03-07 JP JP2014044668A patent/JP6153262B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015170145A (ja) | 2015-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5106636B2 (ja) | テキストセグメントを有する文書から用語を抽出するためのシステム | |
JP4962967B2 (ja) | Webページ検索サーバ及びクエリ推薦方法 | |
KR101723862B1 (ko) | 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치 | |
US9852188B2 (en) | Contextual search on multimedia content | |
US8812504B2 (en) | Keyword presentation apparatus and method | |
JPWO2009096523A1 (ja) | 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム | |
JP6529133B2 (ja) | 複数地域でのトピックの評価を分析する装置、プログラム及び方法 | |
Miotto et al. | eTACTS: a method for dynamically filtering clinical trial search results | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
JP2007264718A (ja) | ユーザ興味分析装置、方法、プログラム | |
Li et al. | A novel methodology for retrieving infographics utilizing structure and message content | |
Swapna et al. | Finding thoughtful comments from social media | |
Panja | Information Retrieval Systems in Healthcare: Understanding Medical Data Through Text Analysis | |
JP5146108B2 (ja) | 文書重要度算出システム、文書重要度算出方法およびプログラム | |
Ramadhanti et al. | Document similarity detection using indonesian language word2vec model | |
Li et al. | Infographics retrieval: A new methodology | |
CN109902304A (zh) | 信息处理方法、装置、存储介质和电子设备 | |
JP5138621B2 (ja) | 情報処理装置及び不満解決商品発見方法及びプログラム | |
JP6153262B2 (ja) | 対象文章を象徴する簡易文を推定するプログラム、装置及びサーバ | |
JP2009223372A (ja) | リコメンド装置、リコメンドシステム、リコメンド装置の制御方法、およびリコメンドシステムの制御方法 | |
Samonte et al. | Emotion detection in blog posts using keyword spotting and semantic analysis | |
JP2016162357A (ja) | 商品に対するユーザの感情分析装置及びプログラム | |
KR20140056637A (ko) | 분석 정보 제공 시스템 및 그 방법, 그리고 이에 적용되는 장치 | |
Cameron et al. | Semantics-empowered text exploration for knowledge discovery | |
JP2006139484A (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160707 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170518 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170529 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170529 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6153262 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |