JP6522446B2 - ラベル付与装置、方法およびプログラム - Google Patents

ラベル付与装置、方法およびプログラム Download PDF

Info

Publication number
JP6522446B2
JP6522446B2 JP2015132018A JP2015132018A JP6522446B2 JP 6522446 B2 JP6522446 B2 JP 6522446B2 JP 2015132018 A JP2015132018 A JP 2015132018A JP 2015132018 A JP2015132018 A JP 2015132018A JP 6522446 B2 JP6522446 B2 JP 6522446B2
Authority
JP
Japan
Prior art keywords
label
sentence data
labeling
data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015132018A
Other languages
English (en)
Other versions
JP2016126748A (ja
Inventor
恭子 小松
恭子 小松
広海 石先
広海 石先
一則 松本
一則 松本
服部 元
元 服部
滝嶋 康弘
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Publication of JP2016126748A publication Critical patent/JP2016126748A/ja
Application granted granted Critical
Publication of JP6522446B2 publication Critical patent/JP6522446B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、文章データにラベルを付与するラベル付与装置、方法およびプログラムに関する。
従来、ある事象に関連する事象間の因果関係を把握するために、Web文書から要因抽出等が行われている。例えば、非特許文献1は、事象間の因果関係を見つける手がかりとなる表現を基に、Web文書から要因を検索、抽出してさらに因果関係ネットワークを構築する手法を提案している。そのネットワークは因果関係の要因とその結果をノードとして配置し、有効グラフで関係を表現している。また、非特許文献2のように各テキスト中の単語の共起頻度をもとに分類を行う方式として、Bag of wordsによる方式が知られている。
一方、識別器を用いて固有表現を抽出する技術も知られている。例えば、特許文献1または非特許文献3は、ブログなどのCGM(Consumer Generated Media)といった文体が書き手に応じて様々で話題も幅広く移り変わりが早いテキストデータを対象に、識別器として単一のCRF(Conditional Random Field)を用いて固有表現を抽出する技術である。通常の固有表現抽出が文単位の確率値によりタグが付与されるのに対し、固有表現タグを個々の単語に付与し、タグ毎の信頼度を計算する点がポイントとなっている。
また、非特許文献5は、名詞のみ・形容詞のみ・名詞+形容詞のペアでネガティブな意味を持つものを不満表現候補とし、その中から、ネガティブな名詞とともに出現し、状態をポジティブに変化させる改善動作が共起しているものを、不満表現として抽出し、不満表現辞書を作成する技術が開示されている。そして非特許文献5記載の技術では、この不満表現辞書を用いて、要望を抽出している。
特開2010−128774号公報 特開2010−250814号公報
青野壮志、太田学、"要因検索による因果関係ネットワークの構築と因果知識の獲得"、[online]、DEIM Forum 2010 B9-1、[平成26年9月8日検索]、インターネット<URL:http://db-event.jpn.org/deim2010/proceedings/files/B9-1.pdf> Bag-of-words model, http://en.wikipedia.org/wiki/Bag-of-words_model CRFを用いたブログからの固有表現抽出、NTTサイバースペース研究所/NTTコミュニケーション科学基礎研究所、電子情報通信学会、Vol100、P50-P60 CRF 言語処理における識別モデルの発展-HMMからCRFまで-http://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved=0CB8QFjAA&url=http%3A%2F%2Fwww.geocities.co.jp%2FTechnopolis%2F5893%2Fpublication%2FNLP2006.pdf&ei=AqplVIftN6i7mAWr9YC4Cg&usg=AFQjCNEudNLUdp4O5ut7rfkCIWNmscZcZg&sig2=sxjS73rkYnyGbmhlsWTi7g&bvm=bv.79142246,d.dGY 坂井俊之、藤村考"ブログに記述された不満表現からの潜在ニーズの発見"、情報処理学会研究報告、2009年5月21日、[online]、[平成27年5月20日検索]、インターネット<URL:https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=62234&file_id=1&file_no=1>
上記の非特許文献1のような方式では、与えられたラベルをもとに対象文章が要因であるか事前に確率テーブルを作成して要因検出する必要がある。しかし、テーブルの記述が不足している場合、ラベルにすべての事象が含まれないなどの原因により、要因を検出することができない。
本発明は、このような事情に鑑みてなされたものであり、テーブルを用いずにラベル付与を行うことができるため、テーブルの記述が不足し、ラベルにすべての事象が含まれない等の事情に関係なく、高い精度でラベル付与を行うことができるラベル付与装置、方法およびプログラムを提供することを目的とする。
(1)上記の目的を達成するため、本発明のラベル付与装置は、文章データにラベルを付与するラベル付与装置であって、一群の文章データを分割する分割部と、前記分割された文章データのそれぞれから特徴語を抽出する特徴語抽出部と、前記抽出された特徴語と文章の性質を表す各ラベルとの関連性を表す関連値を算出する関連値算出部と、前記算出された関連値を参照しつつ、一定の基準に基づいて前記分割された文章データにラベルを割り当てるラベル割当部と、を備えることを特徴としている。
このように、テーブルを用いずにラベルの割り当てを行うことができるため、テーブルの記述が不足し、ラベルにすべての事象が含まれない等の事情に関係なく、高い精度でラベル付与を行うことができる。また、各特徴語に対する関連値を算出することで、各ラベルの判定に利用可能かを判断できる。関連値にAIC値を用いれば、絶対値が大きいほどラベル判定に役に立つことが判断できる。
(2)また、本発明のラベル付与装置は、前記識別器が特定する一定の基準に、前記一群の文章データの分割方法を特定する基準が含まれることを特徴としている。これにより、適した文章データの分割方法でラベル付与を行うことができる。
(3)また、本発明のラベル付与装置は、前記識別器が特定する一定の基準に、前記算出された関連値を参照する特徴語の採用方法を特定する基準が含まれることを特徴としている。これにより、例えば適当な数で関連値を参照する特徴語を採用し、ラベル付けを行うことができる。
(4)また、本発明のラベル付与装置は、前記識別器が特定する一定の基準に、前記分割された文章データの前後で参照する文章データの範囲を特定する基準が含まれることを特徴としている。これにより、適した範囲で分割された文章データの前後の文章データを参照してラベル付けを行うことができる。
(5)また、本発明のラベル付与装置は、前記特徴語抽出部は、品詞単位で単語が含まれたリストを用いて、品詞単位で構成される特徴語を抽出することを特徴としている。これにより、識別判定に使用できる単語が豊富になることで、パラメータセットの数が多くなり、識別器の数が増える。その結果、識別器の分類精度が上がり、検出精度を向上できる。
(6)また、本発明のラベル付与装置は、前記品詞単位でラベルに対応するリストは、助詞、助動詞または非自立の動詞もしくは形容詞を含むことを特徴としている。このように使用する品詞を増やすことで、各テキストより抽出される語数を増やし、検出精度を向上できる。
(7)また、本発明のラベル付与装置は、前記一群の文章データとして予め準備された学習データに対して、前記一定の基準を特定する識別器ごとに、前記割り当てられたラベルの妥当性を示す評価値を算出する評価部と、前記評価値に応じて、各ラベルに対していずれかの識別器を選択する識別器選択部と、を更に備え、前記ラベル割当部は、前記一群の文章データとして外部から収集されたデータに対して、前記選択された識別器を用いて、前記分割された文章データにラベルを割り当てることを特徴としている。このように複数の識別器を用いて各ラベルに対して適した識別器でラベル付けするため、ラベル付け全体の精度を向上できる。
(8)また、本発明のラベル付与装置は、前記評価部が、前記評価値として、前記割り当てられたラベルに対するF値を算出することを特徴としている。これにより、ラベル付与の信頼度を向上させることができる。
(9)また、本発明のラベル付与装置は、前記選択された識別器ごとに前記外部から収集されたデータの前記分割された文章データに割り当てられたラベルをもとに最終的なラベル判定を行う判定部を更に備えることを特徴としている。これにより、ラベルごとに選択された識別器を用いて、精度の高いラベル判定を行うことができる。
(10)また、本発明のラベル付与装置は、前記判定部が、前記各ラベルに対して選択された識別器により前記選択時に対象とされたラベルが割り当てられているときには、優先的に前記選択時に対象とされたラベルを採用することを特徴としている。これにより、特定のラベル専用の識別器でそのラベルが付与されるような信頼度が高い場合には、そのラベル付けを採用されやすくすることができる。
(11)また、本発明のラベル付与装置は、前記判定部が、前記各ラベルに対して選択された識別器のいずれによっても前記選択時に対象とされたラベルが割り当てられていないときには、前記選択時に対象とされていなくても割り当てられたラベルすべてを採用することを特徴としている。これにより、いずれの特定のラベル専用の識別器でもそのラベルが付与されない場合には、次善の対応としてそのラベル付けを採用されやすくすることができる。
(12)また、本発明のラベル付与装置は、前記一群の文章データとして予め準備された学習データに対して、前記一定の基準を特定する識別器ごとに、前記割り当てられたラベルの妥当性を示す評価値を算出する評価部と、前記識別器ごとの評価値を参照し、前記一群の文章データとして外部から収集されたデータに割り当てられたラベルに基づいて、前記外部から収集されたデータに対して最終的なラベル判定を行う判定部と、を更に備えることを特徴としている。
このように複数の識別器ごとのの評価値および割り当てられたラベルを用いて、最終的なラベル判定を行うため、ラベル付け全体の精度を向上できる。また、特徴語の数が増えた場合に、多数の識別器を用いて効率的にラベル付けできる。
(13)また、本発明のラベル付与装置は、前記判定部は、前記識別器ごとの評価値および前記外部から収集されたデータに割り当てられたラベルの組み合わせの分布に対して、SVMを用いて最終的なラベル判定を行うことを特徴としている。これにより、識別器、その評価値および割り当てられたラベルの組み合わせによる分布を客観的に評価し、尤もらしいラベルを割り当てることができる。
(14)また、本発明のラベル付与装置は、前記判定部は、前記分割された文章データの直前または直後の文章データに対して割り当てられたラベルを参照して、前記分割された文章データに対して最終的なラベル判定を行うことを特徴としている。このように前後の文章から得られるラベルの情報を考慮することで、さらにラベルの検出精度を高くすることができる。
(15)また、本発明の方法は、文章データにラベルを付与するラベル付与の方法であって、一群の文章データを分割するステップと、前記分割された文章データのそれぞれから特徴語を抽出するステップと、前記抽出された特徴語と文章の性質を表す各ラベルとの関連性を表す関連値を算出するステップと、前記算出された関連値を参照しつつ、一定の基準に基づいて前記分割された文章データにラベルを割り当てるステップと、を含むことを特徴としている。
このように、テーブルを用いずにラベルの割り当てを行うことができるため、テーブルの記述が不足し、ラベルにすべての事象が含まれない等の事情に関係なく、高い精度でラベル付与を行うことができる。
(16)また、本発明のプログラムは、文章データにラベルを付与するラベル付与のプログラムであって、一群の文章データを分割する処理と、前記分割された文章データのそれぞれから特徴語を抽出する処理と、前記抽出された特徴語と文章の性質を表す各ラベルとの関連性を表す関連値を算出する処理と、前記算出された関連値を参照しつつ、一定の基準に基づいて前記分割された文章データにラベルを割り当てる処理と、を含む一連の処理をコンピュータに実行させることを特徴としている。
このように、テーブルを用いずにラベルの割り当てを行うことができるため、テーブルの記述が不足し、ラベルにすべての事象が含まれない等の事情に関係なく、高い精度でラベル付与を行うことができる。
本発明によれば、テーブルを用いずにラベル付与を行うことができるため、テーブルの記述が不足し、ラベルにすべての事象が含まれない等の事情に関係なく、高い精度でラベル付与を行うことができる。
第1の実施形態のラベル付与システムの構成を示すブロック図である。 分割された文章データとそれぞれに付与されたラベルを示す表である。 特定のラベルに対する各単語のAIC値の一例を示す表である。 AIC値の算出に利用する表である。 各分割された文章データの単語出現頻度のマトリックス表である。 予備実験のパラメータセットを示す表である。 考慮される前後の文章データの一例を示す表である。 各識別器に対する各ラベルの評価値を示す表である。 各識別器の結果の一例を示す表である。 各分割された文章データに対して識別器が判定したラベルを示す表である。 第1の実施形態のラベル付与装置の動作を示すフローチャートである。 ラベル割り当ての処理の一例を示すフローチャートである。 識別器の評価、選択の処理の一例を示すフローチャートである。 ラベル判定の処理を示すフローチャートである。 シミュレーションの結果得られた比較例と実施例との精度を対比した表である。 抽出対象の品詞と文例を示す表である。 第3の実施形態のラベル付与システムの構成を示すブロック図である。 SVMへの入力データの一例を示す図である。 第3の実施形態のラベル付与装置の動作を示すフローチャートである。 識別器の評価、選択の処理の一例を示すフローチャートである。 ラベル判定の処理を示すフローチャートである。 シミュレーションの結果得られた比較例と実施例との精度を対比した表である。
以下に、本発明の実施の形態について、図面を参照しながら説明する。
<第1の実施形態>
[ラベル付与システムの構成]
図1は、ラベル付与システム100の構成を示すブロック図である。ラベル付与システム100は、データ収集部110、ラベル付与装置120、データベース作成部130および情報出力部140を備えている。なお、図1の例において、データ収集部110、データベース作成部130および情報出力部140は、ラベル付与装置120の外部に設けられているが、ラベル付与装置120の内部に設けられていてもよい。
データ収集部110は、外部からレビュー文、SNSの投稿、そのコメント等、様々なテキストデータ(文章データ)を収集する。収集単位は、適宜、エントリ単位、文章単位、句読点単位等にすることができる。なお、収集データには、ブログ等インターネット上の投稿文や一連のメール文章といったコミュニケーション文も含まれる。
ラベル付与装置120は、識別器設定部121、分割部122、特徴語抽出部123、関連値算出部124、ラベル割当部125、評価部126、識別器選択部127および判定部128を備えており、文章データにラベルを付与する。
識別器設定部121は、一連の処理を行う際に用いられる識別器を設定する。識別器設定部121では、各ラベルの識別精度が最大となるようなパラメータ(基準)が設定された識別器を2つ以上設定することが好ましい。識別器に設定された基準には、一群の文章データの分割方法を特定する基準が含まれることが好ましい。これにより、適した文章データの分割方法でラベル付与を行うことができる。
また、算出された関連値を参照する特徴語の採用方法を特定する基準が含まれていてもよい。これにより、例えば適当な数で関連値を参照する特徴語を採用し、ラベル付けを行うことができる。分割された文章データの前後で参照する文章データの範囲を特定する基準が含まれていてもよい。これにより、適した範囲で分割された文章データの前後の文章データを参照してラベル付けを行うことができる。
分割部122は、一定の基準で一群の文章データを分割する。適宜、句点・読点・文節・意味単位等の異なる分割方法dk(d1,d2,…)で同一文章を分割したテキスト群をそれぞれL(d1),L(d2),…と特定している。図2は、分割された文章データとそれぞれに付与されたラベルを示す表である。図2に示す例では、L(dk)={l1,l2,…,ln}の各テキストl1,l2,…,lnに、手作業等でラベルを付与しており、意味単位で分割した文章データに要望(Desire)/不満(Frustration)/要因(Cause)/その他(Other)のラベルを付与している。
特徴語抽出部123は、分割された文章データのそれぞれから特徴語を抽出する。特徴語抽出部123は、必要に応じて抽出された特徴語を選択する。例えば、tf-idfによる重要語を特定する、または形態素解析などから得られる語の中から品詞を限定することで選択できる。
まず、分割されたテキスト群(文章データ群)L(dk)={l1,l2,…,ln}を形態素解析し、テキストに含まれる単語を抽出する。ここで使用する分割されたテキスト群は、ラベル付けされたテキスト群であればよく、その分割方法は問わない。つまり分割されたテキストは、句点区切りのテキストでも、意味区切りのテキストでも構わない。
関連値算出部124は、抽出された特徴語と文章の性質を表す各ラベルとの関連性を表す関連値を算出する。各特徴語に対する関連値を算出することで、各ラベルの判定に利用可能かを判断できる。例えば、関連値にAIC(Akaike’s Information Criterion、赤池情報量基準:統計モデルの良さを評価するための指標)値を用いれば、絶対値が大きいほどラベル判定に役に立つことが判断できる。
関連値算出部124は、抽出された各特徴語について、関連値を算出する。関連値には、AIC値やベイズ情報量基準が挙げられる。図3は、特定のラベルに対する各単語のAIC値の一例を示す表である。
図4は、AIC値の算出に利用する表である。AIC値を算出する場合は、図4に示すように、(1)あるラベルに単語wiが存在するL(dk)中のテキスト数、(2)あるラベル以外に単語wiが存在するL(dk)中のテキスト数、(3)あるラベルに単語wiが存在しないL(dk)中のテキスト数、(4)あるラベル以外に単語wiが存在しないL(dk)中のテキスト数により算出できる。
図5は、各分割された文章データの単語出現頻度のマトリックス表である。上記の(1)〜(4)の値は、図5に示すような、各テキストの単語出現頻度のマトリックス表を作成することで得られる。
このように、各単語に対する関連値を算出する。例えば、関連値としてAIC値を用いれば、絶対値が大きいほどラベル判定に役に立つ語であるため、各ラベルの判定に利用可能かを判断可能となる。
ラベル割当部125は、算出された関連値を参照しつつ、一定の基準に基づいて分割された文章データにラベルを割り当てる。このように、テーブルを用いずにラベルの割り当てを行うことができるため、テーブルの記述が不足し、ラベルにすべての事象が含まれない等の事情に関係なくラベル付与を行うことができる。
ラベル割当部125は、識別器設定部で設定された複数の識別器で入力データのラベル付与を行う。図9は、各識別器の結果の一例を示す表である。入力データに対して、設定された複数の識別器でラベルを割り当てた例を示している。分割方法diで分割されたテキストL(di)={l1,l2,…}に対し、例えばl1は不満(F)用の識別器と要望(D)用の識別器では不満(F)ラベルが付与され、原因(C)用では要望(D)、その他(O)用では原因(C)が付与されている例である。
評価部126は、一群の文章データとして予め準備された学習データに対して、一定の基準を特定する識別器ごとに、割り当てられたラベルの妥当性を示す評価値を算出する。識別器として単一のCRFを用いて複数のパラメータを設定しラベル付けする際、特定のラベルに対して精度を最大化した場合、他のラベルの精度が低下する。そこで、複数の識別器について識別器ごとに割り当てられたラベルの妥当性を評価し、全体のラベル付けの精度を向上させることができる。評価値として、割り当てられたラベルに対するF値(後述)を算出することが好ましい。
図6は、予備実験のパラメータセットを示す表である。適切な識別器を複数設定するために、まず、各分割方式によって分割したテキスト群L(d1),L(d2),…それぞれについて、図6に示すような特徴語数(p)と考慮行数(q)を変動させた組み合わせ(パラメータセット)でCRFにより学習する。表の中の数値はパラメータセットのIDとする。
特徴語数(p)とは、前記特徴量生成部において抽出した特徴語のうち、実際のラベル付けに利用する特徴語の数である。つまり、ラベル付けにおいて、各テキストから特徴語を抽出し、特徴量の高いもの上位p件を利用して分析を行う。pは、各テキストliから抽出される特徴語数に依存する。例えば、図2に示されるl1〜l16の中で、各文章から一番多く特徴語を抽出できたテキストがl16(特徴語:機、時間、有効、活用、意識)で5つであった場合、設定可能なパラメータpの最大値は5となる。
考慮行数(q)とは、分割されたテキストliをラベル判定する際の確率計算に用いる前後の文の数である。図7は、考慮される前後の文章データの一例を示す表である。考慮する方法としては前述分のみを参照するもの、後述文のみを参照するもの、前述分および後述文両方を参照するものの3通りを考え、図7に示すi行目の1文に対し、前述q行分を考慮するものを前q行、前後述q行分を考慮するものを前後q行、後述q行分を考慮するものを後q行としている。
図6に示すパラメータセットで、CRFを適用しラベル付けされた結果について精度評価を行うことができる。精度はPrecision(適合率:全ラベルAのうちの、CRFでAと判定された割合)、Recall(再現率:CRFでAと判定されたうちの、正しく判別された割合)、F-value(F値:PrecisionとRecallの評価尺度。値が大きいほどよい。)を算出することで評価できる。
例えば、ラベルAについて、ラベルAの総数が1000件で、CRFによるラベルAの判別数が700件、CRFによる判別が正しい件数が500件であるとき、Precision = 500/1000、Recall = 700/1000で計算できる。また、このときF値 = 2/(1/Recall+1/Precision)で計算できる。
図8は、各識別器に対する各ラベルの評価値を示す表である。ある分割方式d2を用いた各パラメータセットでのCRFによる抽出精度例を図8に示す。図8に示す最左列はパラメータセット(実験)のIDであり、dk_p_mqとは、分割方式dk、パラメータp、q、前述後述参照方法m(m=0のとき前述分のみ、m=1のとき後述文のみ、m=3のとき前述文および後述文両方を考慮)を設定した時の結果を示している。各ラベル(不満(F)要望(D)原因(C))の抽出精度が記されている。このような結果が分割方法k個分ある。例えば、図8に示すF-value欄より、各ラベルの精度が高い実験IDは異なることがわかる。言い換えると、従来のように単一のCRFでは特定のラベルに対して精度を最大化した場合、他のラベルの精度が低下している。
各ラベルにおいて、(分割パターン×パラメータセット×前述後述参照方法)個分のCRFによる検出精度の比較を行うことで各CRFを評価する。たとえば、検出精度が最も高くなるCRFを、ラベル数分選択するなどが考えられる。具体的には、図8より原因Cラベルと不満Fラベルのための識別器には、ID:d2_01_01のCRFが選ばれ、要望Dラベル・その他Oラベルの識別器には、ID:d2_04_01のCRFが選ばれる(図中の太枠)、などである。そのほか、各識別器の検出精度に基づいて重みを算出し、ラベル付け計算に利用するなども考えられる。
識別器選択部127は、評価値に応じて、各ラベルに対していずれかの識別器を選択する。その結果、一群の文章データとして外部から収集されたデータに対して、選択された識別器を用いて、分割された文章データにラベルを割り当てることができる。このように複数の識別器を用いて各ラベルに対して適した識別器でラベル付けするため、ラベル付け全体の精度を向上できる。その結果、ラベル付与の信頼度を向上させることができる。
判定部128は、選択された識別器ごとに外部から収集されたデータの分割された文章データに割り当てられたラベルをもとに最終的なラベル判定を行う。また、判定部128は、付与されたラベルの信頼度を算出する。ラベル判定は、例えば以下の基準で判定する。(STEP 1)専用識別器で識別された専用ラベルをすべて採用する(例えば、図9に示すl2行)。すなわち、F用識別器でのFラベル付与、D用識別器でのDラベル付与を意味する。(STEP 2)STEP1で採用されず、すべての識別器で専用外ラベルが付いた場合、すべて採用する(例えば、図9に示すln行)。すなわち、F・C用識別器でD、D・O識別器でCの場合に、D、Cの両方を採用する。
このように、判定部128は、各ラベルに対して選択された識別器により選択時に対象とされたラベルが割り当てられているときには、優先的に選択時に対象とされたラベルを採用することが好ましい。これにより、特定のラベル専用の識別器でそのラベルが付与されるような信頼度が高い場合には、そのラベル付けを採用されやすくすることができる。
また、判定部128は、各ラベルに対して選択された識別器のいずれによっても選択時に対象とされたラベルが割り当てられていないときには、選択時に対象とされていなくても割り当てられたラベルすべてを採用することが好ましい。これにより、いずれの特定のラベル専用の識別器でもそのラベルが付与されない場合には、次善の対応としてそのラベル付けを採用されやすくすることができる。図10は、各分割された文章データに対して識別器が判定したラベルを示す表である。
ラベル付与の信頼度は以下の基準により3段階で付与できる。
・ラベルが1種の場合は、信頼度大とする。
・STEP1によるラベルで、2種以上ある場合は、信頼度中とする。
・STEP2によるラベルで、2種以上ある場合は、信頼度小とする。
また、複数のラベルが付与された場合、入力データ中に要望を表す助動詞である「たい」が出現する場合は、要望(D)を優先する。このように、入力データに出現した助動詞を利用して出力ラベルを限定してもよい。
データベース作成部130は、ラベルに基づいて、主観、原因およびこれらを分類する項目を用いてデータベースを作成する。例えば、キーワードを用いてデータベースを作成することで、系統的な情報を提供でき、特定の商品またはサービスの提供者は、容易に事業の状況を把握できる。主観または原因を分類する項目として、これらを分類するカテゴリを用いてもよい。また、主観または原因を分類する項目として、主観を抽出したテキストデータの情報源の属性を用いてもよい。
情報出力部140は、入力された情報をもとにデータベースの情報を加工して出力する。入力(検索語)としては、商品名やサービス名等の検索クエリが挙げられる。また、表示させる期間を設定することができる。この他に、属性別表示のプルダウンを用意する等して、グラフに反映させるデータを選択することもできる。
[ラベル付与システムの動作]
(全体動作)
上記のように構成されたラベル付与システム100の動作を説明する。図11は、ラベル付与システム100の動作を示すフローチャートである。図11に示すように、まず学習データをラベル付与装置120に入力する(ステップS1)。学習データは、例えば、レビュー文や、SNSの投稿とそのコメント等、収集された様々なテキストデータで構成されている。
このような学習データに対して、各パラメータセットを準備し識別器を設定する(ステップS2)。そして、各識別器により学習データを分割した文章データにラベルを割り当てる(ステップS3)。割り当てられたラベルの結果をもとに識別器の評価および選択を行う(ステップS4)。
一方で、外部から収集された文章データを入力する(ステップS5)。入力された文章データに対し、上記の処理で選択された識別器でラベルの割り当てを行う(ステップS6)。そして、割り当てられたラベルに対して最終的なラベル判定を行う(ステップS7)。ラベル判定された文章データをもとにデータベースを作成し、そのデータベースを用いて例えばマーケティングに有用な情報を出力し(ステップS8)、処理を終了する。
(ラベル割り当て)
次に、ラベル割り当ての処理を説明する。図12は、ラベル割り当ての処理の一例を示すフローチャートである。まず、入力された文章データを所定の基準で分割する(ステップS11)。分割された文章データを形態素解析する(ステップS12)。得られた形態素に対してラベルとの関連値を算出する(ステップS13)。
このようにして算出された関連値が閾値以上か否かを判定する(ステップS14)。閾値以上であれば、その形態素を特徴語として特定し抽出する(ステップS15)。閾値以上でなければ、ステップS16に進む。
すべての形態素について特徴語の特定が完了したか否かを判定する(ステップS16)。完了した場合には、抽出された特徴語を用いてラベルの割り当てを行い(ステップS17)、終了する。一方、完了していない場合にはステップS13に戻る。
(識別器の評価、選択)
次に、識別器の評価、選択の処理を説明する。図13は、識別器の評価、選択の処理の一例を示すフローチャートである。まず、パラメータセットを準備する(ステップS21)。準備したパラメータセットについて、すべてのパラメータの組合せについて文章データを識別器にかける(ステップS22)。そして、各ラベルの検出精度を表す評価値を比較し(ステップS23)、精度が最大となる条件の識別器を設定する(ステップS24)。
(ラベル判定)
次に、ラベル判定の処理を説明する。図14は、ラベル判定の処理を示すフローチャートである。まず、各識別器のラベル割当結果を比較する(ステップS31)そして、ラベル割当の信頼度を付与する(ステップS32)。なお、以上のラベル付与システムの動作は、コンピュータにプログラムを実行させることで行われる。
[実施例]
Bag of wordsを用いたラベル付与(比較例)とラベル付与装置120を用いたラベル付与(実施例)とをそれぞれ行い、各ラベル付与の精度を比較した。Bag of wordsによる方式は、各テキスト中の単語の共起頻度をもとに分類を行うものである。図15は、シミュレーションの結果得られた比較例と実施例との精度を対比した表である。図15に示すように、各ラベルについて実施例の方が、明らかに精度が高いことが実証された。
<第2の実施形態>
上記の実施形態のように、特徴語抽出の際には、tf-idfによる重要語を特定して抽出してもよいが、品詞単位で単語が含まれたリストを用いて、品詞単位で構成された特徴語を抽出してもよい。品詞単位で抽出することでパラメータセットの数が多くなり、識別器の数が増える。その結果、識別器の分類精度が上がり、検出精度を向上できる。
品詞単位でラベルに対応するリストは、自立の形容詞および動詞、一般名詞、人名、地域を除く名詞、名詞接続を除く接到詞を含んでいる。リストは、さらに助詞、助動詞または非自立の動詞もしくは形容詞を含むことが好ましい。このように使用する品詞を増やすことで、各テキストより抽出される語数を増やし、さらに検出精度を向上できる。なお、非自立とは、目的語のような他の単語とともに用いられて意味を生じる単語を指す。また、リストは、サービスの提供側により更新可能になっていることが好ましい。更新により新たに助詞等をリストに追加でき、さらにラベル判定の精度を高めることができる。
図16は、抽出対象の品詞と文例を示す表である。例えば、テキスト中に接続助詞の「ので」がある場合には、「ので」の前の部分に原因が記載されている可能性が高い。また、テキスト中に助動詞の「たい」がある場合には、そのテキストは要望を示している可能性が高い。このような関係を利用することができる。また、さらにテキスト中に「と思います」と記載があったときの助詞の「と」を不満の表れとして抽出するようにしてもよいし、その他句読点も考慮し、文の末尾が「。。」となっている場合に不満の表れとして抽出してもよい。
<第3の実施形態>
上記の実施形態(第1、第2の実施形態の組み合わせを含む)では、複数の識別器の出力値から最終的なラベルを判定する際に、予め定めたルールに基づいて判定を行っているが、複数の識別器の評価値、およびラベルの分布により、最終的なラベル判定を行ってもよい。これにより、不満・要望・原因のラベルの抽出精度がさらに向上する。
[ラベル付与システムの構成]
図17は、ラベル付与システム200の構成を示すブロック図である。ラベル付与システム200は、データ収集部110、ラベル付与装置220、データベース作成部130および情報出力部140を備えている。図1の例に対して同じ符号の各部は共通した機能を有している。
ラベル付与装置220は、識別器設定部121、分割部122、特徴語抽出部123、関連値算出部124、ラベル割当部125、評価部126、識別器選択部227および判定部228を備えている。ラベル付与装置220は、基本的にラベル付与装置120と共通する機能を有するが、識別器選択部227および判定部228については機能が異なる。
識別器選択部227は、割り当てられたラベルの評価を参照し、各ラベルについて評価が上位の識別器を複数選択する。予め識別器の数を絞っておくことで、効率的に高い精度でラベルを検出できる。なお、識別器選択部227を省き、識別器の数を絞らずに最終的なラベル判定を行ってもよい。
判定部228は、識別器ごとの評価値を参照し、一群の文章データとして外部から収集されたデータに割り当てられたラベルに基づいて、外部から収集されたデータに対して最終的なラベル判定を行う。これにより、ラベル付け全体の精度を向上できる。また、特徴語の数が増えた場合に、多数の識別器を用いて効率的にラベル付けできる。
また、ラベル判定の際には、SVM(Support Vector Machine)を用いることが好ましい。これにより、識別器、その評価値および割り当てられたラベルの組み合わせによる分布を客観的に評価し、尤もらしいラベルを割り当てることができる。
(SVMの利用例)
判定部228では、例えば要望判定SVM、不満判定SVM、原因判定SVM、その他判定SVMの4つ(複数)のSVMを用いることができる。そして、各SVMを特定のラベルの判定、例えば、要望(D)の判定にSVMを利用できる。図18は、SVMへの入力データの一例を示す図である。入力のフォーマットは、判定対象である分割テキストごとに、正解が特定のラベル(ここでは要望)であることを表す+1、またはそうでない(ここでは正解が要望以外である)ことを表す−1の値と、「実験ID:実験IDのCRF識別器におけるCRF判定で得られた確率値」を実験の数(CRF識別器の数)だけ羅列したものである。
ただし、+1または−1の値は、外部から収集されたテストデータの場合正解要素が不明なため、−1に揃えることとする。したがって正解値を表すフラグは、学習用入力データと評価用入力データで意味が異なる。学習用入力データは、各学習対象文(分割テキスト)の正解値(人手でラベル付けされた結果)が既知のため、各対象文が要望であれば「1」、要望以外であれば「−1」を入力とする。なお、確率値は、分割テキストに対して特定のラベルと判定される確率を示しており、各識別器の抽出精度(識別器ごとの評価値)および各識別器でラベル付けされた結果から得られる。
[ラベル付与システムの動作]
(全体動作)
上記のように構成されたラベル付与システム200の動作を説明する。図19は、ラベル付与システム200の動作を示すフローチャートである。図19に示すように、ラベル付与システム200の動作は、ラベル付与システム100の動作とほぼ同様であり、ステップT1〜T8は、ステップS1〜S8に対応している。ただし、識別器の選択の際には、各ラベルに対し識別器を一つに絞らない。また、ステップT3、T6のラベル割り当ての処理は、図12に示すステップS11〜S17と同じ処理により行うことができる。
(識別器の評価、選択)
次に、識別器の評価、選択の処理を説明する。図20は、識別器の評価、選択の処理の一例を示すフローチャートである。まず、パラメータセットを準備する(ステップT21)。準備したパラメータセットについて、すべてのパラメータの組合せについて文章データを識別器にかける(ステップT22)。そして、各ラベルの検出精度を表す評価値を評価し(ステップT23)、精度が上位の識別器を選択する(ステップT24)。
(ラベル判定)
次に、ラベル判定の処理を説明する。図21は、ラベル判定の処理を示すフローチャートである。まず、各識別器の学習データに対する評価と外部から収集されたデータに対する割り当てられたラベルの分布を入力としてSVMを適用する(ステップT31)そして、SVMの適用の結果、判定されたラベルを最終的なラベルとする(ステップT32)。なお、以上のラベル付与システムの動作は、コンピュータにプログラムを実行させることで行われる。
[実施例]
Bag of wordsを用いたラベル付与(比較例)とラベル付与装置220を用いたラベル付与(実施例)とをそれぞれ行い、各ラベル付与の精度を比較した。Bag of wordsによる方式は、各テキスト中の単語の共起頻度をもとに分類を行うものである。図22は、シミュレーションの結果得られた比較例と実施例との精度を対比した表である。図22に示すように、各ラベルについて実施例の方が、明らかに精度が高いことが実証された。また、特に助詞、助動詞、非自立の動詞および形容詞を含むリストを用いてラベルを割り当てた場合については、さらに要望ラベルの精度が向上した。
<第4の実施形態>
上記の実施形態(第1、第2の実施形態の組み合わせ、第2、第3の実施形態の組み合わせを含む)では、分割された文章データのみを対象として判定部が最終的なラベル判定を行うが、分割された文章データの直前または直後の文章データに対して割り当てられたラベルを参照して、分割された文章データに対して最終的なラベル判定を行ってもよい。このように前後の文章から得られるラベルの情報を考慮することで、さらにラベルの検出精度を高くすることができる。
100、200 ラベル付与システム
110 データ収集部
120、220 ラベル付与装置
121 識別器設定部
122 分割部
123 特徴語抽出部
124 関連値算出部
125 ラベル割当部
126 評価部
127、227 識別器選択部
128、228 判定部
130 データベース作成部
140 情報出力部

Claims (16)

  1. 文章データにラベルを付与するラベル付与装置であって、
    一群の文章データを分割する分割部と、
    前記分割された文章データのそれぞれから特徴語を抽出する特徴語抽出部と、
    前記抽出された特徴語と文章の性質を表す各ラベルとの関連性を表す関連値を算出する関連値算出部と、
    前記算出された関連値を参照しつつ、一定の基準に基づいて前記分割された文章データにラベルを割り当てるラベル割当部と、を備えることを特徴とするラベル付与装置。
  2. 前記識別器が特定する一定の基準には、前記一群の文章データの分割方法を特定する基準が含まれることを特徴とする請求項1記載のラベル付与装置。
  3. 前記識別器が特定する一定の基準には、前記算出された関連値を参照する特徴語の採用方法を特定する基準が含まれることを特徴とする請求項1または請求項2記載のラベル付与装置。
  4. 前記識別器が特定する一定の基準には、前記分割された文章データの前後で参照する文章データの範囲を特定する基準が含まれることを特徴とする請求項1から請求項3のいずれかに記載のラベル付与装置。
  5. 前記特徴語抽出部は、品詞単位で単語が含まれたリストを用いて、品詞単位で構成される特徴語を抽出することを特徴とする請求項1から請求項4のいずれかに記載のラベル付与装置。
  6. 前記品詞単位でラベルに対応するリストは、助詞、助動詞または非自立の動詞もしくは形容詞を含むことを特徴とする請求項5記載のラベル付与装置。
  7. 前記一群の文章データとして予め準備された学習データに対して、前記一定の基準を特定する識別器ごとに、前記割り当てられたラベルの妥当性を示す評価値を算出する評価部と、
    前記評価値に応じて、各ラベルに対していずれかの識別器を選択する識別器選択部と、を更に備え、
    前記ラベル割当部は、前記一群の文章データとして外部から収集されたデータに対して、前記選択された識別器を用いて、前記分割された文章データにラベルを割り当てることを特徴とする請求項1から請求項6のいずれかに記載のラベル付与装置。
  8. 前記評価部は、前記評価値として、前記割り当てられたラベルに対するF値を算出することを特徴とする請求項7記載のラベル付与装置。
  9. 前記選択された識別器ごとに前記外部から収集されたデータの前記分割された文章データに割り当てられたラベルをもとに最終的なラベル判定を行う判定部を更に備えることを特徴とする請求項8記載のラベル付与装置。
  10. 前記判定部は、前記各ラベルに対して選択された識別器により前記選択時に対象とされたラベルが割り当てられているときには、優先的に前記選択時に対象とされたラベルを採用することを特徴とする請求項9記載のラベル付与装置。
  11. 前記判定部は、前記各ラベルに対して選択された識別器のいずれによっても前記選択時に対象とされたラベルが割り当てられていないときには、前記選択時に対象とされていなくても割り当てられたラベルすべてを採用することを特徴とする請求項9または請求項10記載のラベル付与装置。
  12. 前記一群の文章データとして予め準備された学習データに対して、前記一定の基準を特定する識別器ごとに、前記割り当てられたラベルの妥当性を示す評価値を算出する評価部と、
    前記識別器ごとの評価値を参照し、前記一群の文章データとして外部から収集されたデータに割り当てられたラベルに基づいて、前記外部から収集されたデータに対して最終的なラベル判定を行う判定部と、を更に備えることを特徴とする請求項1から請求項7のいずれかに記載のラベル付与装置。
  13. 前記判定部は、前記識別器ごとの評価値および前記外部から収集されたデータに割り当てられたラベルの組み合わせの分布に対して、SVMを用いて最終的なラベル判定を行うことを特徴とする請求項12記載のラベル付与装置。
  14. 前記判定部は、前記分割された文章データの直前または直後の文章データに対して割り当てられたラベルを参照して、前記分割された文章データに対して最終的なラベル判定を行うことを特徴とする請求項9から請求項13のいずれかに記載のラベル付与装置。
  15. 文章データにラベルを付与するラベル付与の方法であって、
    一群の文章データを分割するステップと、
    前記分割された文章データのそれぞれから特徴語を抽出するステップと、
    前記抽出された特徴語と文章の性質を表す各ラベルとの関連性を表す関連値を算出するステップと、
    前記算出された関連値を参照しつつ、一定の基準に基づいて前記分割された文章データにラベルを割り当てるステップと、を含むことを特徴とする方法。
  16. 文章データにラベルを付与するラベル付与のプログラムであって、
    一群の文章データを分割する処理と、
    前記分割された文章データのそれぞれから特徴語を抽出する処理と、
    前記抽出された特徴語と文章の性質を表す各ラベルとの関連性を表す関連値を算出する処理と、
    前記算出された関連値を参照しつつ、一定の基準に基づいて前記分割された文章データにラベルを割り当てる処理と、を含む一連の処理をコンピュータに実行させることを特徴とするプログラム。
JP2015132018A 2014-12-26 2015-06-30 ラベル付与装置、方法およびプログラム Active JP6522446B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014266375 2014-12-26
JP2014266375 2014-12-26

Publications (2)

Publication Number Publication Date
JP2016126748A JP2016126748A (ja) 2016-07-11
JP6522446B2 true JP6522446B2 (ja) 2019-05-29

Family

ID=56359537

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015132018A Active JP6522446B2 (ja) 2014-12-26 2015-06-30 ラベル付与装置、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6522446B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6722565B2 (ja) * 2016-11-04 2020-07-15 Kddi株式会社 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム
JP6857212B2 (ja) * 2019-05-29 2021-04-14 株式会社日立製作所 文書検索システム、文書検索装置及び方法
CN111090987B (zh) * 2019-12-27 2021-02-05 北京百度网讯科技有限公司 用于输出信息的方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4976912B2 (ja) * 2007-04-27 2012-07-18 日本電信電話株式会社 ラベル付与方法、ラベル付与装置、ラベル付与プログラムおよびその記憶媒体
JP5286125B2 (ja) * 2009-03-24 2013-09-11 Kddi株式会社 単語境界決定装置および形態素解析装置
JP5462546B2 (ja) * 2009-08-06 2014-04-02 日本電信電話株式会社 コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム

Also Published As

Publication number Publication date
JP2016126748A (ja) 2016-07-11

Similar Documents

Publication Publication Date Title
US9542477B2 (en) Method of automated discovery of topics relatedness
Luyckx et al. The effect of author set size and data size in authorship attribution
US9424524B2 (en) Extracting facts from unstructured text
Miura et al. TeamX: A sentiment analyzer with enhanced lexicon mapping and weighting scheme for unbalanced data
Duwairi et al. Sentiment analysis for Arabizi text
US9645988B1 (en) System and method for identifying passages in electronic documents
JP2015505082A (ja) 情報ドメインに対する自然言語処理モデルの生成
CN111552766A (zh) 使用机器学习来表征在引用图形上应用的参考关系
Thushara et al. A model for auto-tagging of research papers based on keyphrase extraction methods
JP6522446B2 (ja) ラベル付与装置、方法およびプログラム
WO2015084757A1 (en) Systems and methods for processing data stored in a database
Yosef et al. Hyena-live: Fine-grained online entity type classification from natural-language text
Papadakis et al. Graph vs. bag representation models for the topic classification of web documents
Phan et al. A sentiment analysis method of objects by integrating sentiments from tweets
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
Balaguer et al. CatSent: a Catalan sentiment analysis website
Zou et al. Assessing software quality through web comment search and analysis
WO2023083176A1 (zh) 样本处理方法、设备及计算机可读存储介质
Hussain et al. A technique for perceiving abusive bangla comments
JP2004030202A (ja) 特徴語抽出システム
CN106462614B (zh) 信息分析系统、信息分析方法以及信息分析程序
Ma et al. API prober–a tool for analyzing web API features and clustering web APIs
CN109213830B (zh) 专业性技术文档的文档检索系统
WO2018220688A1 (ja) 辞書生成装置、辞書生成方法、及びプログラム
Rustagi et al. DiNer-on building multilingual disease-news profiler

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180307

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180329

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190424

R150 Certificate of patent or registration of utility model

Ref document number: 6522446

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150