JP5331023B2 - 重要語抽出装置、重要語抽出方法及び重要語抽出プログラム - Google Patents
重要語抽出装置、重要語抽出方法及び重要語抽出プログラム Download PDFInfo
- Publication number
- JP5331023B2 JP5331023B2 JP2010029405A JP2010029405A JP5331023B2 JP 5331023 B2 JP5331023 B2 JP 5331023B2 JP 2010029405 A JP2010029405 A JP 2010029405A JP 2010029405 A JP2010029405 A JP 2010029405A JP 5331023 B2 JP5331023 B2 JP 5331023B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- important word
- feature
- important
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
以下、本発明の実施の形態について、詳細に説明する。
図2及び3を用いて実施例1に係る重要語抽出装置100を説明する。重要語抽出装置100は、入力部101、記憶部103、重要語候補抽出部110、特徴語抽出部120、素性抽出部130及び分類器140を有する。
<入力部101及び記憶部103>
重要語抽出装置100は、入力部101を介して形態素解析済み入力テキストが入力される(s101)。例えば、「いつも色々なお店で買うけど、今日は銀座によったので、あのP社のトリュフを購入。」という文が、形態素解析済みの入力テキストとして、図4の状態で入力される。入力部101は、データが入力される入力インターフェース等である。
<重要語候補抽出部110>
重要語候補抽出部110は、図4のように形態素解析済みの入力テキストTを入力とし、この入力テキストTから1つ以上の名詞の連語または固有名詞である重要語候補j(1),…,j(M)を抽出し(s110)、これを素性抽出部130や記憶部103へ出力する。但し、Mは入力テキストTに含まれる重要語候補の種類数を表す。よって、重要語候補は重複しない。
[参考文献1]今村賢治、斎藤邦子、浅野久子、「テキストからの知識抽出の基盤となる日本語基本解析技術」、NTT技術ジャーナル、社団法人電気通信協会、2008.6、pp.20-23
抽出した重要語候補に固有表現の種類(人名、地名、ブランド名等)を付与しても良い。さらに、1つ以上連続する名詞を抽出し、これも重要語候補として出力する。例えば、図4のテキストを入力とした場合、固有表現である「きょう(日付)」、「銀座(地名)」、「P社(組織)」、「トリュフ(名詞)」及び「お(冠名詞)/店(名詞)」を連続する名詞「お店(名詞)」とし、これらが重要語候補として出力される。但し、( )内は固有表現の種類を表す。例えば、図1の入力テキストを形態素解析した情報を入力とした場合、抽出した重要語候補を図5の1列目のように記憶部103に記憶する。
特徴語抽出部120は、形態素解析済みの入力テキストTから行動表現と指示語を特徴語h(1),…,h(N)として抽出し(s120)、素性抽出部130や記憶部103に出力する。但し、Nは入力テキストTに含まれる特徴語の数を表す。例えば、図1の入力テキストを形態素解析した情報を入力とした場合、抽出した特徴語を図6(A)のように記憶部103に記憶する。なお、行動表現とは、著者の行動を記述する際に現れる語である。行動表現は、主に自発的な動作を表す動詞の過去形、進行形、動作を表す名詞が該当する。書き手の体験の結果、得られたであろう感想を表すような形容詞の過去形等も含まれる。例えば、行動表現は、図6(B)のようなルールによって表すことができる(参考文献2参照)。
[参考文献2]池田佳代、田邊勝義、奥田英範、「体験表現を手がかりにしたBlogの体験情報の抽出」、電子情報通信学会第18回データ工学ワークショップ(DEWS2007)論文集、2007
例えば、特徴語抽出部120は、図示しない指示語抽出部と行動表現抽出部を備える。記憶部103は予め全ての指示語(例えば、「これ」、「この」、「あれ」等)を記憶しておき、指示語抽出部は、記憶部103を参照しながら、入力テキストTに含まれる指示語を抽出する。
<素性抽出部130>
素性抽出部130は、重要語候補が備える性質を表す素性を、各重要語候補に対し1つ以上抽出する(s130)。なお、素性とは、分類器における所定の解析処理のために用いる情報(例えば、種類、頻度、重み、係り受け構造情報、指示語情報、タイトル情報等)の一単位であって、重要語候補が備える性質を意味する。機械学習では、この素性によって現象をモデル化することで、確率的な振る舞いとしてルール間の依存関係を学習することができる。
(頻度付与部131)
頻度付与部131は、入力テキストTと重要語候補j(m)(但し、m=1,2,…,M)を入力とし、入力テキストTから重要語候補j(m)の出現頻度(単語頻度)を数え上げ、出現頻度を素性α1(j(m))として、その重要語候補に付与し(s131)、出力する。図1の文書を形態素解析したものを入力テキストとした場合、各重要語候補の単語頻度は図5の2列目のようになる。
(重み付与部133)
重み付与部133は、重要語候補j(m)に対し予め定められた重みを素性α2(j(m))として、図5の4列目のように、その重要語候補に付与し(s133)、出力する。
(係り受け構造情報付与部135)
係り受け構造情報付与部135は、重要語候補j(m)と特徴語h(n)(但し、n=1,2,…,N)と形態素解析済みの入力テキストTを入力とし、係り受け構造情報を素性α3(j(m))として、その重要語候補に付与し(s135)、出力する。なお、係り受け構造情報とは、行動表現に係る重要語候補であるか否か、及び、指示語を受ける重要語候補であるか否かを表す情報である。
[参考文献3]長尾真、「自然言語処理」、岩波講座ソフトウェア科学15、岩波書店、1996/04
そして、各重要語候補が、
・特徴語抽出部にて抽出した指示語を受ける重要語候補である場合は2
・特徴語抽出部にて抽出した行動表現に係る重要語候補である場合は1
・その他の重要語候補である場合は0
を係り受け構造情報として、図5の3列目のように重要語候補と対応付けて出力する。「行動表現に係る」とは行動表現の主語、目的語、副詞となることを意味し、「指示語を受ける」とは指示語に修飾されることを意味する。なお、上記0〜2の値は、それぞれが識別できるものであれば他の数値や文字列でも良い。
P社(名詞)/の(格助詞)/トリュフ(名詞)/を(格助詞)/購入(名詞)」の場合、図7のような係り受け構造が抽出される。
(指示語情報付与部137)
指示語情報付与部137は、特徴語に含まれる指示語と重要語候補j(m)と形態素解析済みの入力テキストTを入力とし、指示語情報を素性α4(j(m))として、図5の5列目のようにその重要語候補に付与し(s137)、出力する。なお、指示語情報とは、重要語候補を含む文に指示語が存在するか否か、及び、重要語候補を含む文の前後の文に指示語が存在するか否かを表す情報である。図5では、指示語情報の値は、
・重要語候補を含む文の前後の文に指示語が存在する場合は2
・重要語候補の含む文に指示語が存在する場合は1
・それ以外の場合は0
となっている。なお、この値は、上記3つの状態を識別できるものであれば他の値や文字列でも良い。
(タイトル情報付与部139)
タイトル情報付与部139は、タイトルと重要語候補j(m)を入力とし、タイトル情報を素性α5(j(m))として、図5の6列目のようにその重要語候補に付与し(s139)、出力する。なお、タイトル情報とは、重要語候補がタイトルに含まれるか否かを表す情報である。
・タイトルに含まれる重要語候補の場合は1
・タイトルに含まれない重要語候補の場合は0
をタイトル情報として付与する。図1のタイトルが「コーヒーのお供」であった場合には、図5の6列目のようになる。なお、入力テキストにタイトルがついていない場合には、タイトル付与部での処理を行わなくてもよいし、タイトルがついていない旨を表すタイトル情報(例えば2)を付与してもよいし、タイトルに含まれない重要語候補の場合と同じタイトル情報(例えば0)を付与してもよい。なお、タイトル情報付与部139は必須ではない。
<分類器140>
分類器140は、素性α1(j(m))〜α5(j(m))を入力とし、機械学習により予め定められた分類ルールに基づき(参考文献4参照)、素性を用いて重要度スコアscore(j(m))を算出する。
[参考文献4]甘利俊一、麻生英樹、津田宏治、村田昇、「パターン認識と学習の統計学―新しい概念と手法」、岩波書店、2003年4月
さらに、重要度スコアscore(j(m))から重要語J(p)を決定し(s140)、重要語J(p)及び重要度スコアscore(J(p))を出力する(s150)。重要度スコアscore(J(p))の値が一定値以上の場合に、その重要語候補を重要語としてもよいし、単一文書内において、重要度スコアscore(J(p))が所定の順位より上の重要語候補を重要語としてもよい。また上位数%の重要語候補を重要語としてもよい。
全ての重要語候補の重要度スコアを求め、重要度スコアから重要語を決定する。日本語の語彙的特徴を利用して、重要語(例えば、著者の気になっている語)を出力することができる。
<分類ルールの作成方法>
分類ルールf( )は、機械学習により予め学習しておく。すなわち、学習用のテキスト集合に対し、素性抽出部により抽出した重要語候補及び各重要語候補に付与された素性と、予め学習用のテキスト集合中の重要語候補に対して人手で重要語(例えば、著者の気になっている語)を表すラベルを付与したものを、学習データとして利用する。参考文献1等に記載の既知の機械学習により、素性が付与された重要語候補の中から重要語を選択するための分類ルールを学習する。
<効果>
行動表現に係る重要語候補か否かを素性とし、機械学習に重要語を選択することにより、出現頻度のみに重要語を選択していた従来技術に比べ、より柔軟に重要語を選択することができる
また、指示語を受ける重要語候補か否かを素性とすることで、さらに柔軟、かつ、適切に重要語を選択することができる。
<ハードウェア構成>
図8に例示するように、この例の重要語抽出装置100は、それぞれCPU(Central Processing Unit)11、入力部12、出力部13、補助記憶装置14、ROM(Read Only Memory)15、RAM(Random Access Memory)16及びバス17を有している。
<プログラム構成>
上述のように、補助記憶装置14には、本実施例の重要語抽出装置100の各処理を実行するための各プログラムが格納される。重要語抽出プログラムを構成する各プログラムは、単一のプログラム列として記載されていてもよく、また、少なくとも一部のプログラムが別個のモジュールとしてライブラリに格納されていてもよい。
<ハードウェアとプログラムとの協働>
CPU11は、読み込まれたOSプログラムに従い、補助記憶装置14に格納されている上述のプログラムや各種データをRAM16に展開する。そして、このプログラムやデータが書き込まれたRAM16上のアドレスがCPU11のレジスタ11cに格納される。CPU11の制御部11aは、レジスタ11cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM16上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部11bに順次実行させ、その演算結果をレジスタ11cに格納していく。
<変形例>
本実施例では、重要語抽出装置100は、重要語及び重要度スコアを出力しているが、少なくとも重要語を出力すればよい。
110 重要語候補抽出部
120 特徴語抽出部
130 素性抽出部
131 頻度付与部
133 重み付与部
135 係り受け構造情報付与部
137 指示語情報付与部
139 タイトル情報付与部
140 分類器
Claims (10)
- 入力テキストから1つ以上の名詞の連語または固有名詞である重要語候補を抽出する重要語候補抽出部と、
前記入力テキストから入力テキスト作成者の行動を記述する際に現れる行動表現を特徴語として抽出する特徴語抽出部と、
重要語候補が備える性質を表す素性を、各重要語候補に対し1つ以上抽出する素性抽出部と、
機械学習により予め定められた分類ルールに基づき、前記素性を用いて重要度スコアを算出し、重要度スコアから重要語を決定する分類器と、を有し、
前記素性抽出部は、
前記行動表現に係る重要語候補であるか否かを表す係り受け構造情報を素性として、その重要語候補に付与する係り受け構造情報付与部と、を備え、
前記行動表現は、入力テキスト作成者の自発的な動作を表す動詞の過去形、進行形、動作を表す名詞、体験の結果、得られたであろう感想を表すような形容詞の過去形、自己の試みを表す表現、経験そのものを表す表現、動詞の中でも入力テキスト作成者自身が行動したことを表す表現、動詞(名詞の動作を表す単語を含む)の中でも入力テキスト作成者自身が行為を継続中であることを表す表現、形容詞(名詞の動作を表す単語を含む)の中でも入力テキスト作成者の経験から得たことを表す表現の少なくとも何れか一つを含むものであり、
前記特徴語抽出部は、予め行動表現自体を記録した記憶部を参照して、前記入力テキストに含まれる行動表現を抽出するか、または、行動表現のルールを記憶した記憶部を参照して、前記入力テキストから行動表現のルールに合致する語を抽出する、
ことを特徴とする重要語抽出装置。 - 請求項1記載の重要語抽出装置であって、
前記特徴語抽出部は、前記行動表現に加え、指示語を特徴語として抽出し、
前記係り受け構造情報は、前記行動表現に係る重要語候補であるか否かを表すのに加え、前記指示語を受ける重要語候補であるか否かを表し、
前記係り受け構造情報付与部は、前記係り受け構造情報を素性として、その重要語候補に付与する、
ことを特徴とする重要語抽出装置。 - 請求項1または2記載の重要語抽出装置であって、
前記特徴語抽出部は、前記行動表現に加え、指示語を特徴語として抽出し、
前記素性抽出部は、さらに、
重要語候補を含む文に指示語が存在するか否か、及び、重要語候補を含む文の前後の文に指示語が存在するか否かを表す指示語情報を素性として、その重要語候補に付与する指示語情報付与部と、を備える、
ことを特徴とする重要語抽出装置。 - 請求項1から3の何れかに記載の重要語抽出装置であって、
前記素性抽出部は、さらに、
前記入力テキストから前記重要語候補の出現頻度を求め、素性として、その重要語候補に付与する頻度付与部と、を備える、
ことを特徴とする重要語抽出装置。 - 請求項1から4の何れかに記載の重要語抽出装置であって、
前記素性抽出部は、さらに
前記重要語候補に対し予め定められた重みを素性として、その重要語候補に付与する重み付与部と、を備える、
ことを特徴とする重要語抽出装置。 - 請求項1から5の何れかに記載の重要語抽出装置であって、
前記素性抽出部は、さらに
前記入力テキストのタイトルと重要語候補を用いて、重要語候補がタイトルに含まれるか否かを表すタイトル情報を、素性として、その重要語候補に付与するタイトル情報付与部と、を備える、
ことを特徴とする重要語抽出装置。 - 請求項1から6の何れかに記載の重要語抽出装置であって、
前記重要語候補抽出部は、重要語候補を抽出する際に、固有表現としての種類を、その重要語候補に素性として付与する、
ことを特徴とする重要語抽出装置。 - 重要語抽出装置が、入力テキストから1つ以上の名詞の連語または固有名詞である重要語候補を抽出する重要語候補抽出ステップと、
重要語抽出装置が、前記入力テキストから入力テキスト作成者の行動を記述する際に現れる行動表現を特徴語として抽出する特徴語抽出ステップと、
重要語抽出装置が、重要語候補が備える性質を表す素性を、各重要語候補に対し1つ以上抽出する素性抽出ステップと、
重要語抽出装置が、機械学習により予め定められた分類ルールに基づき、前記素性を用いて重要度スコアを算出し、重要度スコアから重要語を決定する分類ステップと、を有し、
前記素性抽出ステップは、
前記行動表現に係る重要語候補であるか否かを表す係り受け構造情報を素性として、その重要語候補に付与する係り受け構造情報付与ステップと、を備え、
前記行動表現は、入力テキスト作成者の自発的な動作を表す動詞の過去形、進行形、動作を表す名詞、体験の結果、得られたであろう感想を表すような形容詞の過去形、自己の試みを表す表現、経験そのものを表す表現、動詞の中でも入力テキスト作成者自身が行動したことを表す表現、動詞(名詞の動作を表す単語を含む)の中でも入力テキスト作成者自身が行為を継続中であることを表す表現、形容詞(名詞の動作を表す単語を含む)の中でも入力テキスト作成者の経験から得たことを表す表現の少なくとも何れか一つを含むものであり、
前記特徴語抽出ステップにおいて、重要語抽出装置は、予め行動表現自体を記録した記憶部を参照して、前記入力テキストに含まれる行動表現を抽出するか、または、行動表現のルールを記憶した記憶部を参照して、前記入力テキストから行動表現のルールに合致する語を抽出する、
ことを特徴とする重要語抽出方法。 - 請求項8記載の重要語抽出方法であって、
前記特徴語抽出ステップは、前記行動表現に加え、指示語を特徴語として抽出し、
前記係り受け構造情報は、前記行動表現に係る重要語候補であるか否かを表すのに加え、前記指示語を受ける重要語候補であるか否かを表し、
前記係り受け構造情報付与ステップは、前記係り受け構造情報を素性として、その重要語候補に付与する、
ことを特徴とする重要語抽出方法。 - 請求項1から7の何れかに記載の重要語抽出装置として、コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010029405A JP5331023B2 (ja) | 2010-02-12 | 2010-02-12 | 重要語抽出装置、重要語抽出方法及び重要語抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010029405A JP5331023B2 (ja) | 2010-02-12 | 2010-02-12 | 重要語抽出装置、重要語抽出方法及び重要語抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011165087A JP2011165087A (ja) | 2011-08-25 |
JP5331023B2 true JP5331023B2 (ja) | 2013-10-30 |
Family
ID=44595668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010029405A Active JP5331023B2 (ja) | 2010-02-12 | 2010-02-12 | 重要語抽出装置、重要語抽出方法及び重要語抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5331023B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6009317B2 (ja) * | 2012-10-31 | 2016-10-19 | Kddi株式会社 | スキル評価方法および装置 |
US9262735B2 (en) | 2013-08-12 | 2016-02-16 | International Business Machines Corporation | Identifying and amalgamating conditional actions in business processes |
JP6230190B2 (ja) * | 2014-01-09 | 2017-11-15 | 日本放送協会 | 重要語抽出装置、及びプログラム |
KR101694727B1 (ko) * | 2015-12-28 | 2017-01-10 | 주식회사 파수닷컴 | 인공 지능 기반 연관도 계산을 이용한 노트 제공 방법 및 장치 |
KR101781597B1 (ko) * | 2016-01-15 | 2017-09-25 | 단국대학교 산학협력단 | 전자 출판물에 대한 정보를 생성하는 장치 및 방법 |
CN107526720A (zh) * | 2016-06-17 | 2017-12-29 | 松下知识产权经营株式会社 | 意思生成方法、意思生成装置以及程序 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4576397B2 (ja) * | 2006-11-08 | 2010-11-04 | 日本電信電話株式会社 | 評価情報抽出装置、評価情報抽出方法およびそのプログラム |
JP4793931B2 (ja) * | 2007-03-08 | 2011-10-12 | 日本電信電話株式会社 | 相互に関係する固有表現の組抽出装置及びその方法 |
JP5100203B2 (ja) * | 2007-05-21 | 2012-12-19 | 日本放送協会 | テキスト分析装置およびテキスト分析プログラム |
-
2010
- 2010-02-12 JP JP2010029405A patent/JP5331023B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011165087A (ja) | 2011-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9639522B2 (en) | Methods and apparatus related to determining edit rules for rewriting phrases | |
JP5331023B2 (ja) | 重要語抽出装置、重要語抽出方法及び重要語抽出プログラム | |
JP6462970B1 (ja) | 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム | |
Soni et al. | Sentiment analysis of customer reviews based on hidden markov model | |
JP4347226B2 (ja) | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 | |
JP5273735B2 (ja) | テキスト要約方法、その装置およびプログラム | |
WO2012096388A1 (ja) | 意外性判定システム、意外性判定方法およびプログラム | |
Poulston et al. | Topic models and n–gram language models for author profiling | |
WO2019049483A1 (ja) | 同義語辞書作成装置、同義語辞書作成プログラム及び同義語辞書作成方法 | |
Lawrie et al. | HC4: A new suite of test collections for ad hoc CLIR | |
JP2021068053A (ja) | 生成装置、及び生成プログラム | |
JP4539616B2 (ja) | 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム | |
JP2008225846A (ja) | 単語意味タグ付与装置および方法、プログラム並びに記録媒体 | |
Ullah et al. | Pattern and semantic analysis to improve unsupervised techniques for opinion target identification | |
JP5085584B2 (ja) | 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム | |
JP2022178243A (ja) | 画像生成装置、画像生成方法およびプログラム | |
JP5419906B2 (ja) | 主題抽出装置、方法、及びプログラム | |
JP6805927B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
JP2022002034A (ja) | 抽出方法、抽出プログラム、及び、抽出装置 | |
JP6907703B2 (ja) | 解析装置、解析方法、および解析プログラム | |
JP2004334690A (ja) | 文字データ入出力装置、文字データ入出力方法、文字データ入出力プログラム、およびコンピュータ読み取り可能な記録媒体 | |
JP6957388B2 (ja) | 業務用語判別装置、及び業務用語判別方法 | |
JP4410970B2 (ja) | 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム | |
JP2002351870A (ja) | 形態素の解析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110624 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120307 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130430 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130507 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130628 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130716 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130726 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5331023 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |