JP5331023B2 - 重要語抽出装置、重要語抽出方法及び重要語抽出プログラム - Google Patents

重要語抽出装置、重要語抽出方法及び重要語抽出プログラム Download PDF

Info

Publication number
JP5331023B2
JP5331023B2 JP2010029405A JP2010029405A JP5331023B2 JP 5331023 B2 JP5331023 B2 JP 5331023B2 JP 2010029405 A JP2010029405 A JP 2010029405A JP 2010029405 A JP2010029405 A JP 2010029405A JP 5331023 B2 JP5331023 B2 JP 5331023B2
Authority
JP
Japan
Prior art keywords
word
important word
feature
important
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010029405A
Other languages
English (en)
Other versions
JP2011165087A (ja
Inventor
真理子 川場
徹 平野
久子 浅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010029405A priority Critical patent/JP5331023B2/ja
Publication of JP2011165087A publication Critical patent/JP2011165087A/ja
Application granted granted Critical
Publication of JP5331023B2 publication Critical patent/JP5331023B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、テキスト中に出現する語の中から特に重要な語を抽出する技術に関する。
テキスト中に出現する語の中から特に重要な語を抽出する従来技術として、非特許文献1が知られている。非特許文献1では、主にテキスト中の語の出現頻度を用いる。例えば、図1のテキストの場合、出現頻度が最も多い「チョコレート」を重要語として取得する。
高村大也、奥村学著、「最大被覆問題とその変種による文書要約モデル」、人工知能学会論文誌、2008、Vol.23,No.6、pp.505-513
しかしながら、従来技術は出現頻度以外に基づき、重要語を適切に取得することができない場合があるという問題がある。
例えば、テキスト作成者(以下「著者」という)が気になっている語を重要語とする場合には、従来技術では、重要語を選択できない場合がある。著者はテキスト中で何度も気になっている語を述べることは少なく、気になっている語をより一般化した語を多用することが多いからである。図1のように、「トリュフ」という種類のチョコレートが好きな著者がテキスト内でこれについて述べる場合、「トリュフ」ではなく「チョコレート」という言葉を多用する。そのため、従来技術では、著者が気になっている「トリュフ」ではなく、「チョコレート」を重要語として選択する。このように語の出現頻度のみでは、テキスト中のトピックを見つけることはできるが、著者が気になっている語を見つけることはできない。
上記の課題を解決するために、本発明に係る重要語抽出技術は、入力テキストから1つ以上の名詞の連語または固有名詞である重要語候補を抽出し、入力テキストから入力テキスト作成者の行動を記述する際に現れる行動表現を特徴語として抽出し、重要語候補が備える性質を表す素性を、各重要語候補に対し1つ以上抽出し、機械学習により予め定められた分類ルールに基づき、素性を用いて重要度スコアを算出し、重要度スコアから重要語を決定する。素性を抽出する際に、行動表現に係る重要語候補であるか否かを表す係り受け構造情報を素性として、その重要語候補に付与する。
本発明は、行動表現に係る語か否かを素性とし、より柔軟に重要語を選択することができるという効果を奏する。
形態素解析前の入力テキスト例を示す図。 重要語抽出装置の構成例を示す図。 重要語抽出装置の処理フローを示す図。 形態素解析済みの入力テキスト例を示す図。 記憶部に記憶される重要語候補及びその素性の例を示す図。 (A)は記憶部に記憶される特徴語の例を、(B)は記憶部に記憶される行動表現のルール例を示す図。 係り受け構造の例を示す図。 重要語抽出装置のハードウェア構成を例示したブロック図。
本実施例は、行動表現に係る語や、指示語を受ける語は重要語である可能性が高いという日本語の語彙的特徴を利用する。また、重要語を含む文、及び、その前後の文に指示語を含む文に指示語が存在しやすいという日本語の語彙的特徴を利用する。
これらの語彙的特徴を考慮して、機械学習の素性として用いる。
以下、本発明の実施の形態について、詳細に説明する。
<重要語抽出装置100>
図2及び3を用いて実施例1に係る重要語抽出装置100を説明する。重要語抽出装置100は、入力部101、記憶部103、重要語候補抽出部110、特徴語抽出部120、素性抽出部130及び分類器140を有する。
重要語抽出装置100は、形態素解析済みの入力テキストTを入力とし、重要語J(p)及びその重要度スコアscore(J(p))を出力する。但し、p=1,2,…,Pであり、Pは選択された重要語の数を表す。
<入力部101及び記憶部103>
重要語抽出装置100は、入力部101を介して形態素解析済み入力テキストが入力される(s101)。例えば、「いつも色々なお店で買うけど、今日は銀座によったので、あのP社のトリュフを購入。」という文が、形態素解析済みの入力テキストとして、図4の状態で入力される。入力部101は、データが入力される入力インターフェース等である。
但し、重要語抽出装置100は、形態素解析が済んでいない入力テキストT’(図1参照)が入力されてもよい。その場合、入力部101を介して、図示しない形態素解析部に入力テキストT’が入力され、形態素解析部は、入力テキストT’に対し、既存の形態素解析手法により単語に区切り、各単語に品詞を付与し、形態素解析済みの入力テキストT(図4参照)を求め、重要語候補抽出部110と特徴語抽出部120に出力する。
記憶部103は、入出力される各データや演算過程の各データを、逐一、格納・読み出しする。それにより各演算処理が進められる。但し、必ずしも記憶部103に記憶しなければならないわけではなく、各部間で直接データを受け渡してもよい。
<重要語候補抽出部110>
重要語候補抽出部110は、図4のように形態素解析済みの入力テキストTを入力とし、この入力テキストTから1つ以上の名詞の連語または固有名詞である重要語候補j(1),…,j(M)を抽出し(s110)、これを素性抽出部130や記憶部103へ出力する。但し、Mは入力テキストTに含まれる重要語候補の種類数を表す。よって、重要語候補は重複しない。
例えば、重要語候補抽出部110は、形態素解析済みテキストTを入力とし、既存の固有表現抽出手法によって(参考文献1参照)、人名や地名、組織名などの固有物を表す表現を抽出し、重要語候補として出力する。
[参考文献1]今村賢治、斎藤邦子、浅野久子、「テキストからの知識抽出の基盤となる日本語基本解析技術」、NTT技術ジャーナル、社団法人電気通信協会、2008.6、pp.20-23
抽出した重要語候補に固有表現の種類(人名、地名、ブランド名等)を付与しても良い。さらに、1つ以上連続する名詞を抽出し、これも重要語候補として出力する。例えば、図4のテキストを入力とした場合、固有表現である「きょう(日付)」、「銀座(地名)」、「P社(組織)」、「トリュフ(名詞)」及び「お(冠名詞)/店(名詞)」を連続する名詞「お店(名詞)」とし、これらが重要語候補として出力される。但し、( )内は固有表現の種類を表す。例えば、図1の入力テキストを形態素解析した情報を入力とした場合、抽出した重要語候補を図5の1列目のように記憶部103に記憶する。
<特徴語抽出部120>
特徴語抽出部120は、形態素解析済みの入力テキストTから行動表現と指示語を特徴語h(1),…,h(N)として抽出し(s120)、素性抽出部130や記憶部103に出力する。但し、Nは入力テキストTに含まれる特徴語の数を表す。例えば、図1の入力テキストを形態素解析した情報を入力とした場合、抽出した特徴語を図6(A)のように記憶部103に記憶する。なお、行動表現とは、著者の行動を記述する際に現れる語である。行動表現は、主に自発的な動作を表す動詞の過去形、進行形、動作を表す名詞が該当する。書き手の体験の結果、得られたであろう感想を表すような形容詞の過去形等も含まれる。例えば、行動表現は、図6(B)のようなルールによって表すことができる(参考文献2参照)。
[参考文献2]池田佳代、田邊勝義、奥田英範、「体験表現を手がかりにしたBlogの体験情報の抽出」、電子情報通信学会第18回データ工学ワークショップ(DEWS2007)論文集、2007
例えば、特徴語抽出部120は、図示しない指示語抽出部と行動表現抽出部を備える。記憶部103は予め全ての指示語(例えば、「これ」、「この」、「あれ」等)を記憶しておき、指示語抽出部は、記憶部103を参照しながら、入力テキストTに含まれる指示語を抽出する。
記憶部103は予め全ての行動表現(例えば、「買った」、「使った」等)を記憶しておくか、または、図6(B)のように行動表現のルールを記憶しておく。
行動表現抽出部は、記憶部103に記憶されている行動表現自体を参照しながら、入力テキストTに含まれる行動表現を抽出するか、または、記憶部103に記憶されている行動表現のルール参照し、テキストTからルールに合致する語を抽出する。
<素性抽出部130>
素性抽出部130は、重要語候補が備える性質を表す素性を、各重要語候補に対し1つ以上抽出する(s130)。なお、素性とは、分類器における所定の解析処理のために用いる情報(例えば、種類、頻度、重み、係り受け構造情報、指示語情報、タイトル情報等)の一単位であって、重要語候補が備える性質を意味する。機械学習では、この素性によって現象をモデル化することで、確率的な振る舞いとしてルール間の依存関係を学習することができる。
例えば、素性抽出部130は、頻度付与部131、重み付与部133、係り受け構造情報付与部135、指示語情報付与部137及びタイトル情報付与部139を備える。
(頻度付与部131)
頻度付与部131は、入力テキストTと重要語候補j(m)(但し、m=1,2,…,M)を入力とし、入力テキストTから重要語候補j(m)の出現頻度(単語頻度)を数え上げ、出現頻度を素性α1(j(m))として、その重要語候補に付与し(s131)、出力する。図1の文書を形態素解析したものを入力テキストとした場合、各重要語候補の単語頻度は図5の2列目のようになる。
(重み付与部133)
重み付与部133は、重要語候補j(m)に対し予め定められた重みを素性α2(j(m))として、図5の4列目のように、その重要語候補に付与し(s133)、出力する。
例えば、記憶部103は予め語の重みを記憶しておく。重みとしては、例えば、検索エンジンにおいて検索クエリとして使われた頻度や検索クエリに使われた頻度の多いものから順にランキングした順位等、外部から得られる情報を用いる。また、例えば、ブログ及び新聞等に出現する頻度の多いものから順にランキングした順位等を重みとしてもよい。なお、重みは記憶部103に記憶したものでなくともよく、例えば、重要語抽出装置100が、通信回線等を介して、外部の単語の検索ランキング等が分かるサイトにアクセスできる場合には、サイトにアクセスし、各重要語候補に対するランキングを取得しそれを重みとする構成としてもよい。なお、この場合にも、重みはサイト等で予め定められているものと考えられる。また、重要語候補に対応する語が、記憶部103やサイトにない場合には、重みを予め決めておいた値(例えば「0」等)としてもよい。
(係り受け構造情報付与部135)
係り受け構造情報付与部135は、重要語候補j(m)と特徴語h(n)(但し、n=1,2,…,N)と形態素解析済みの入力テキストTを入力とし、係り受け構造情報を素性α3(j(m))として、その重要語候補に付与し(s135)、出力する。なお、係り受け構造情報とは、行動表現に係る重要語候補であるか否か、及び、指示語を受ける重要語候補であるか否かを表す情報である。
例えば、係り受け構造情報付与部135は、既存の係り受け解析手法によって(参考文献3参照)、重要語候補を文節にまとめ上げ、各文節間の係り受け構造を抽出する。
[参考文献3]長尾真、「自然言語処理」、岩波講座ソフトウェア科学15、岩波書店、1996/04
そして、各重要語候補が、
・特徴語抽出部にて抽出した指示語を受ける重要語候補である場合は2
・特徴語抽出部にて抽出した行動表現に係る重要語候補である場合は1
・その他の重要語候補である場合は0
を係り受け構造情報として、図5の3列目のように重要語候補と対応付けて出力する。「行動表現に係る」とは行動表現の主語、目的語、副詞となることを意味し、「指示語を受ける」とは指示語に修飾されることを意味する。なお、上記0〜2の値は、それぞれが識別できるものであれば他の数値や文字列でも良い。
例えば、入力が「きょう(名詞)/は(連用名詞)/銀座(名詞)/に(格助詞)/よ(動詞語幹)/っ(動詞活用語尾)/た(動詞接尾辞)/ので(接続接尾辞)/あの(連体詞)/
P社(名詞)/の(格助詞)/トリュフ(名詞)/を(格助詞)/購入(名詞)」の場合、図7のような係り受け構造が抽出される。
これは、重要語抽出部で取得できた重要語のうち、特徴語抽出部にて抽出した「買った」「つかった」などの行動表現に係っている重要語候補や指示語を受ける重要語候補を識別する目的がある。例えば、図5の3列目の結果からは、係り受け構造情報が「1(行動表現に係る重要語候補)」である「きょう」「トリュフ」が行動表現に係っている重要語候補であり、係り受け構造情報が「2(指示語を受ける重要語候補)」である「P社」が指示語を受ける重要語候補であることが分かる。
(指示語情報付与部137)
指示語情報付与部137は、特徴語に含まれる指示語と重要語候補j(m)と形態素解析済みの入力テキストTを入力とし、指示語情報を素性α4(j(m))として、図5の5列目のようにその重要語候補に付与し(s137)、出力する。なお、指示語情報とは、重要語候補を含む文に指示語が存在するか否か、及び、重要語候補を含む文の前後の文に指示語が存在するか否かを表す情報である。図5では、指示語情報の値は、
・重要語候補を含む文の前後の文に指示語が存在する場合は2
・重要語候補の含む文に指示語が存在する場合は1
・それ以外の場合は0
となっている。なお、この値は、上記3つの状態を識別できるものであれば他の値や文字列でも良い。
また、例えば、重要語を含む文の後の文(または、前の文)に指示語が特に存在しやすい場合に、必ずしも上述のルールに従って、素性の値を設けてなくともよい。つまり、重要語候補を含む文の前の文に指示語が存在する場合、重要語候補を含む文の後ろの文に指示語が存在する場合、重要語候補の含む文に指示語が存在する場合、それ以外の場合の4つに素性の値を設けてもよいし、「重要語候補を含む文の前の文に指示語が存在する場合」を除く3つに対し素性の値を設けてもよい。また、重要語候補を含む文の前後1つの文ではなく、前後2つ以上の文に指示語が存在するか否かを素性の値として設けてもよい。
(タイトル情報付与部139)
タイトル情報付与部139は、タイトルと重要語候補j(m)を入力とし、タイトル情報を素性α5(j(m))として、図5の6列目のようにその重要語候補に付与し(s139)、出力する。なお、タイトル情報とは、重要語候補がタイトルに含まれるか否かを表す情報である。
例えば、タイトル情報付与部139は、入力テキストにタイトルがついている場合、
・タイトルに含まれる重要語候補の場合は1
・タイトルに含まれない重要語候補の場合は0
をタイトル情報として付与する。図1のタイトルが「コーヒーのお供」であった場合には、図5の6列目のようになる。なお、入力テキストにタイトルがついていない場合には、タイトル付与部での処理を行わなくてもよいし、タイトルがついていない旨を表すタイトル情報(例えば2)を付与してもよいし、タイトルに含まれない重要語候補の場合と同じタイトル情報(例えば0)を付与してもよい。なお、タイトル情報付与部139は必須ではない。
<分類器140>
分類器140は、素性α1(j(m))〜α5(j(m))を入力とし、機械学習により予め定められた分類ルールに基づき(参考文献4参照)、素性を用いて重要度スコアscore(j(m))を算出する。
[参考文献4]甘利俊一、麻生英樹、津田宏治、村田昇、「パターン認識と学習の統計学―新しい概念と手法」、岩波書店、2003年4月
さらに、重要度スコアscore(j(m))から重要語J(p)を決定し(s140)、重要語J(p)及び重要度スコアscore(J(p))を出力する(s150)。重要度スコアscore(J(p))の値が一定値以上の場合に、その重要語候補を重要語としてもよいし、単一文書内において、重要度スコアscore(J(p))が所定の順位より上の重要語候補を重要語としてもよい。また上位数%の重要語候補を重要語としてもよい。
例えば、分類器140は、各重要語候補j(m)の素性α(j(m))=[α1(j(m)),α2(j(m)),α3(j(m)),α4(j(m)),α5(j(m))]を入力として、予め作成したモデル(分類ルール)f( )に基づき、重要度スコアを算出する。
score(j(m))=f(α(j(m)))
全ての重要語候補の重要度スコアを求め、重要度スコアから重要語を決定する。日本語の語彙的特徴を利用して、重要語(例えば、著者の気になっている語)を出力することができる。
<分類ルールの作成方法>
分類ルールf( )は、機械学習により予め学習しておく。すなわち、学習用のテキスト集合に対し、素性抽出部により抽出した重要語候補及び各重要語候補に付与された素性と、予め学習用のテキスト集合中の重要語候補に対して人手で重要語(例えば、著者の気になっている語)を表すラベルを付与したものを、学習データとして利用する。参考文献1等に記載の既知の機械学習により、素性が付与された重要語候補の中から重要語を選択するための分類ルールを学習する。
<効果>
行動表現に係る重要語候補か否かを素性とし、機械学習に重要語を選択することにより、出現頻度のみに重要語を選択していた従来技術に比べ、より柔軟に重要語を選択することができる
また、指示語を受ける重要語候補か否かを素性とすることで、さらに柔軟、かつ、適切に重要語を選択することができる。
重要語を含む文、及び、その前後の文に指示語を含む文に指示語が存在しやすいという日本語の語彙的特徴を利用することで、より適切に重要語を選択することができる。
従来技術で用いていた単語の頻度も、重要語を決定する上で、重要な要素となるため、機械学習の素性とすることで、より適切に重要語を選択することができる。但し、従来技術では、出現頻度が高いものが重要語であるという仮定の上で、重要語を決定していたが、本実施例では、単に出現頻度が多いものが重要語であるとは考えず、重要語になりやすい出現頻度があると仮定し、機械学習により学習する。このような構成により、より適切に重要語を選択することができる。
順位等からなる重みも重要語を決定する上で、重要な要素となるため、機械学習の素性とすることで、より適切に重要語を選択することができる。なお、頻度と同様に重みの値が高い(重い)ものが重要語であるとは考えず、重要語になりやすい重みを機械学習により学習する。
タイトルに含まれる重要語候補のほうが、重要語となる可能性が高いと考えられるため、タイトル情報を機械学習の素性とすることで、より適切に重要語を選択することができる。
これらの素性の係わり合いを考慮して重要語を選択することで、従来技術よりも柔軟、かつ、適切に重要語を選択することができる。
<ハードウェア構成>
図8に例示するように、この例の重要語抽出装置100は、それぞれCPU(Central Processing Unit)11、入力部12、出力部13、補助記憶装置14、ROM(Read Only Memory)15、RAM(Random Access Memory)16及びバス17を有している。
この例のCPU11は、制御部11a、演算部11b及びレジスタ11cを有し、レジスタ11cに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部12は、データが入力される入力インターフェース、キーボード、マウス等であり、出力部13は、データが出力される出力インターフェース、ディスプレイ、プリンタ等である。補助記憶装置14は、例えば、ハードディスク、半導体メモリ等であり、重要語抽出装置100としてコンピュータを機能させるためのプログラムや各種データが格納される。また、RAM16には、上記のプログラムや各種データが展開され、CUP11等から利用される。また、バス17は、CPU11、入力部12、出力部13、補助記憶装置14、ROM15及びRAM16を通信可能に接続する。なお、このようなハードウェアの具体例としては、例えば、パーソナルコンピュータの他、サーバ装置やワークステーション等を例示できる。
<プログラム構成>
上述のように、補助記憶装置14には、本実施例の重要語抽出装置100の各処理を実行するための各プログラムが格納される。重要語抽出プログラムを構成する各プログラムは、単一のプログラム列として記載されていてもよく、また、少なくとも一部のプログラムが別個のモジュールとしてライブラリに格納されていてもよい。
<ハードウェアとプログラムとの協働>
CPU11は、読み込まれたOSプログラムに従い、補助記憶装置14に格納されている上述のプログラムや各種データをRAM16に展開する。そして、このプログラムやデータが書き込まれたRAM16上のアドレスがCPU11のレジスタ11cに格納される。CPU11の制御部11aは、レジスタ11cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM16上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部11bに順次実行させ、その演算結果をレジスタ11cに格納していく。
図2は、このようにCPU11に上述のプログラムが読み込まれて実行されることにより構成される重要語抽出装置100の機能構成を例示したブロック図である。
ここで、記憶部103は、補助記憶装置14、RAM16、レジスタ11c、その他のバッファメモリやキャッシュメモリ等の何れか、あるいはこれらを併用した記憶領域に相当する。また、重要語候補抽出部110、特徴語抽出部120、素性抽出部130及び分類器140は、CPU11に重要語抽出プログラムを実行させることにより構成されるものである。
<変形例>
本実施例では、重要語抽出装置100は、重要語及び重要度スコアを出力しているが、少なくとも重要語を出力すればよい。
重要語候補抽出部110は、抽出した重要語候補に固有表現としての種類(例えば、人名、地名等)を、素性として、付与してもよい。このとき、分類器140は、この種類も機械学習の素性とすることができる。このような構成とすることで、例えば、著者が人名よりも地名を重要語としやすい傾向がある場合には、重要語として、地名が選択されやすくなる。
本実施例では、素性抽出部130で抽出する素性を頻度、重み、係り受け構造情報、指示語情報、タイトル情報の5つとしているが、少なくとも係り受け構造情報のうち、行動表現に係る重要語か否かを表す情報を素性とすれば、従来技術より柔軟な重要語の選択が可能となる。
本実施例では、係り受け構造情報付与部135で付与する係り受け構造情報が、1つの重要語候補に対し、1つの場合について説明しているが、1つの重要語候補に対し、二つの係り受け情報(例えば、1と2)を付与できる場合には、二つの係り受け情報を付与してもよい。また、1つの重要語候補に対し、同じ係り受け情報を2回以上付与できる場合は、1回だけ付与する場合と同様に処理してもよい。指示語情報付与部137で付与する指示語情報も同様である。
本発明は、単にテキスト文書の重要語を抽出する以外に、複数のテキスト文書から重要語を抽出し、その重要語から現在注目されているキーワードを求める際に利用できる。また、例えば、非特許文献1のようにテキスト文書から要約を作成する際に利用することなどができる。
100 重要語抽出装置
110 重要語候補抽出部
120 特徴語抽出部
130 素性抽出部
131 頻度付与部
133 重み付与部
135 係り受け構造情報付与部
137 指示語情報付与部
139 タイトル情報付与部
140 分類器

Claims (10)

  1. 入力テキストから1つ以上の名詞の連語または固有名詞である重要語候補を抽出する重要語候補抽出部と、
    前記入力テキストから入力テキスト作成者の行動を記述する際に現れる行動表現を特徴語として抽出する特徴語抽出部と、
    重要語候補が備える性質を表す素性を、各重要語候補に対し1つ以上抽出する素性抽出部と、
    機械学習により予め定められた分類ルールに基づき、前記素性を用いて重要度スコアを算出し、重要度スコアから重要語を決定する分類器と、を有し、
    前記素性抽出部は、
    前記行動表現に係る重要語候補であるか否かを表す係り受け構造情報を素性として、その重要語候補に付与する係り受け構造情報付与部と、を備え、
    前記行動表現は、入力テキスト作成者の自発的な動作を表す動詞の過去形、進行形、動作を表す名詞、体験の結果、得られたであろう感想を表すような形容詞の過去形、自己の試みを表す表現、経験そのものを表す表現、動詞の中でも入力テキスト作成者自身が行動したことを表す表現、動詞(名詞の動作を表す単語を含む)の中でも入力テキスト作成者自身が行為を継続中であることを表す表現、形容詞(名詞の動作を表す単語を含む)の中でも入力テキスト作成者の経験から得たことを表す表現の少なくとも何れか一つを含むものであり、
    前記特徴語抽出部は、予め行動表現自体を記録した記憶部を参照して、前記入力テキストに含まれる行動表現を抽出するか、または、行動表現のルールを記憶した記憶部を参照して、前記入力テキストから行動表現のルールに合致する語を抽出する、
    ことを特徴とする重要語抽出装置。
  2. 請求項1記載の重要語抽出装置であって、
    前記特徴語抽出部は、前記行動表現に加え、指示語を特徴語として抽出し、
    前記係り受け構造情報は、前記行動表現に係る重要語候補であるか否かを表すのに加え、前記指示語を受ける重要語候補であるか否かを表し、
    前記係り受け構造情報付与部は、前記係り受け構造情報を素性として、その重要語候補に付与する、
    ことを特徴とする重要語抽出装置。
  3. 請求項1または2記載の重要語抽出装置であって、
    前記特徴語抽出部は、前記行動表現に加え、指示語を特徴語として抽出し、
    前記素性抽出部は、さらに、
    重要語候補を含む文に指示語が存在するか否か、及び、重要語候補を含む文の前後の文に指示語が存在するか否かを表す指示語情報を素性として、その重要語候補に付与する指示語情報付与部と、を備える、
    ことを特徴とする重要語抽出装置。
  4. 請求項1から3の何れかに記載の重要語抽出装置であって、
    前記素性抽出部は、さらに、
    前記入力テキストから前記重要語候補の出現頻度を求め、素性として、その重要語候補に付与する頻度付与部と、を備える、
    ことを特徴とする重要語抽出装置。
  5. 請求項1から4の何れかに記載の重要語抽出装置であって、
    前記素性抽出部は、さらに
    前記重要語候補に対し予め定められた重みを素性として、その重要語候補に付与する重み付与部と、を備える、
    ことを特徴とする重要語抽出装置。
  6. 請求項1から5の何れかに記載の重要語抽出装置であって、
    前記素性抽出部は、さらに
    前記入力テキストのタイトルと重要語候補を用いて、重要語候補がタイトルに含まれるか否かを表すタイトル情報を、素性として、その重要語候補に付与するタイトル情報付与部と、を備える、
    ことを特徴とする重要語抽出装置。
  7. 請求項1から6の何れかに記載の重要語抽出装置であって、
    前記重要語候補抽出部は、重要語候補を抽出する際に、固有表現としての種類を、その重要語候補に素性として付与する、
    ことを特徴とする重要語抽出装置。
  8. 重要語抽出装置が、入力テキストから1つ以上の名詞の連語または固有名詞である重要語候補を抽出する重要語候補抽出ステップと、
    重要語抽出装置が、前記入力テキストから入力テキスト作成者の行動を記述する際に現れる行動表現を特徴語として抽出する特徴語抽出ステップと、
    重要語抽出装置が、重要語候補が備える性質を表す素性を、各重要語候補に対し1つ以上抽出する素性抽出ステップと、
    重要語抽出装置が、機械学習により予め定められた分類ルールに基づき、前記素性を用いて重要度スコアを算出し、重要度スコアから重要語を決定する分類ステップと、を有し、
    前記素性抽出ステップは、
    前記行動表現に係る重要語候補であるか否かを表す係り受け構造情報を素性として、その重要語候補に付与する係り受け構造情報付与ステップと、を備え、
    前記行動表現は、入力テキスト作成者の自発的な動作を表す動詞の過去形、進行形、動作を表す名詞、体験の結果、得られたであろう感想を表すような形容詞の過去形、自己の試みを表す表現、経験そのものを表す表現、動詞の中でも入力テキスト作成者自身が行動したことを表す表現、動詞(名詞の動作を表す単語を含む)の中でも入力テキスト作成者自身が行為を継続中であることを表す表現、形容詞(名詞の動作を表す単語を含む)の中でも入力テキスト作成者の経験から得たことを表す表現の少なくとも何れか一つを含むものであり、
    前記特徴語抽出ステップにおいて、重要語抽出装置は、予め行動表現自体を記録した記憶部を参照して、前記入力テキストに含まれる行動表現を抽出するか、または、行動表現のルールを記憶した記憶部を参照して、前記入力テキストから行動表現のルールに合致する語を抽出する、
    ことを特徴とする重要語抽出方法。
  9. 請求項8記載の重要語抽出方法であって、
    前記特徴語抽出ステップは、前記行動表現に加え、指示語を特徴語として抽出し、
    前記係り受け構造情報は、前記行動表現に係る重要語候補であるか否かを表すのに加え、前記指示語を受ける重要語候補であるか否かを表し、
    前記係り受け構造情報付与ステップは、前記係り受け構造情報を素性として、その重要語候補に付与する、
    ことを特徴とする重要語抽出方法。
  10. 請求項1から7の何れかに記載の重要語抽出装置として、コンピュータを機能させるためのプログラム。
JP2010029405A 2010-02-12 2010-02-12 重要語抽出装置、重要語抽出方法及び重要語抽出プログラム Active JP5331023B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010029405A JP5331023B2 (ja) 2010-02-12 2010-02-12 重要語抽出装置、重要語抽出方法及び重要語抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010029405A JP5331023B2 (ja) 2010-02-12 2010-02-12 重要語抽出装置、重要語抽出方法及び重要語抽出プログラム

Publications (2)

Publication Number Publication Date
JP2011165087A JP2011165087A (ja) 2011-08-25
JP5331023B2 true JP5331023B2 (ja) 2013-10-30

Family

ID=44595668

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010029405A Active JP5331023B2 (ja) 2010-02-12 2010-02-12 重要語抽出装置、重要語抽出方法及び重要語抽出プログラム

Country Status (1)

Country Link
JP (1) JP5331023B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6009317B2 (ja) * 2012-10-31 2016-10-19 Kddi株式会社 スキル評価方法および装置
US9262735B2 (en) 2013-08-12 2016-02-16 International Business Machines Corporation Identifying and amalgamating conditional actions in business processes
JP6230190B2 (ja) * 2014-01-09 2017-11-15 日本放送協会 重要語抽出装置、及びプログラム
KR101694727B1 (ko) * 2015-12-28 2017-01-10 주식회사 파수닷컴 인공 지능 기반 연관도 계산을 이용한 노트 제공 방법 및 장치
KR101781597B1 (ko) * 2016-01-15 2017-09-25 단국대학교 산학협력단 전자 출판물에 대한 정보를 생성하는 장치 및 방법
CN107526720A (zh) * 2016-06-17 2017-12-29 松下知识产权经营株式会社 意思生成方法、意思生成装置以及程序

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4576397B2 (ja) * 2006-11-08 2010-11-04 日本電信電話株式会社 評価情報抽出装置、評価情報抽出方法およびそのプログラム
JP4793931B2 (ja) * 2007-03-08 2011-10-12 日本電信電話株式会社 相互に関係する固有表現の組抽出装置及びその方法
JP5100203B2 (ja) * 2007-05-21 2012-12-19 日本放送協会 テキスト分析装置およびテキスト分析プログラム

Also Published As

Publication number Publication date
JP2011165087A (ja) 2011-08-25

Similar Documents

Publication Publication Date Title
US9639522B2 (en) Methods and apparatus related to determining edit rules for rewriting phrases
JP5331023B2 (ja) 重要語抽出装置、重要語抽出方法及び重要語抽出プログラム
JP6462970B1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
Soni et al. Sentiment analysis of customer reviews based on hidden markov model
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
JP5273735B2 (ja) テキスト要約方法、その装置およびプログラム
WO2012096388A1 (ja) 意外性判定システム、意外性判定方法およびプログラム
Poulston et al. Topic models and n–gram language models for author profiling
WO2019049483A1 (ja) 同義語辞書作成装置、同義語辞書作成プログラム及び同義語辞書作成方法
Lawrie et al. HC4: A new suite of test collections for ad hoc CLIR
JP2021068053A (ja) 生成装置、及び生成プログラム
JP4539616B2 (ja) 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
JP2008225846A (ja) 単語意味タグ付与装置および方法、プログラム並びに記録媒体
Ullah et al. Pattern and semantic analysis to improve unsupervised techniques for opinion target identification
JP5085584B2 (ja) 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム
JP2022178243A (ja) 画像生成装置、画像生成方法およびプログラム
JP5419906B2 (ja) 主題抽出装置、方法、及びプログラム
JP6805927B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP2022002034A (ja) 抽出方法、抽出プログラム、及び、抽出装置
JP6907703B2 (ja) 解析装置、解析方法、および解析プログラム
JP2004334690A (ja) 文字データ入出力装置、文字データ入出力方法、文字データ入出力プログラム、およびコンピュータ読み取り可能な記録媒体
JP6957388B2 (ja) 業務用語判別装置、及び業務用語判別方法
JP4410970B2 (ja) 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
JP2002351870A (ja) 形態素の解析方法

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110624

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120307

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130507

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130628

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130716

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130726

R150 Certificate of patent or registration of utility model

Ref document number: 5331023

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350