JP6522446B2

JP6522446B2 - ラベル付与装置、方法およびプログラム

Info

Publication number: JP6522446B2
Application number: JP2015132018A
Authority: JP
Inventors: 恭子小松; 広海石先; 一則松本; 服部　元; 元服部; 滝嶋　康弘; 康弘滝嶋
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2014-12-26
Filing date: 2015-06-30
Publication date: 2019-05-29
Anticipated expiration: 2035-06-30
Also published as: JP2016126748A

Description

本発明は、文章データにラベルを付与するラベル付与装置、方法およびプログラムに関する。

従来、ある事象に関連する事象間の因果関係を把握するために、Ｗｅｂ文書から要因抽出等が行われている。例えば、非特許文献１は、事象間の因果関係を見つける手がかりとなる表現を基に、Ｗｅｂ文書から要因を検索、抽出してさらに因果関係ネットワークを構築する手法を提案している。そのネットワークは因果関係の要因とその結果をノードとして配置し、有効グラフで関係を表現している。また、非特許文献２のように各テキスト中の単語の共起頻度をもとに分類を行う方式として、Bag of wordsによる方式が知られている。

一方、識別器を用いて固有表現を抽出する技術も知られている。例えば、特許文献１または非特許文献３は、ブログなどのＣＧＭ（Consumer Generated Media）といった文体が書き手に応じて様々で話題も幅広く移り変わりが早いテキストデータを対象に、識別器として単一のＣＲＦ（Conditional Random Field）を用いて固有表現を抽出する技術である。通常の固有表現抽出が文単位の確率値によりタグが付与されるのに対し、固有表現タグを個々の単語に付与し、タグ毎の信頼度を計算する点がポイントとなっている。

また、非特許文献５は、名詞のみ・形容詞のみ・名詞＋形容詞のペアでネガティブな意味を持つものを不満表現候補とし、その中から、ネガティブな名詞とともに出現し、状態をポジティブに変化させる改善動作が共起しているものを、不満表現として抽出し、不満表現辞書を作成する技術が開示されている。そして非特許文献５記載の技術では、この不満表現辞書を用いて、要望を抽出している。

特開２０１０−１２８７７４号公報特開２０１０−２５０８１４号公報

青野壮志、太田学、"要因検索による因果関係ネットワークの構築と因果知識の獲得"、[online]、DEIM Forum 2010 B9-1、［平成26年9月8日検索］、インターネット<URL:http://db-event.jpn.org/deim2010/proceedings/files/B9-1.pdf> Bag-of-words model, http://en.wikipedia.org/wiki/Bag-of-words_model CRFを用いたブログからの固有表現抽出、NTTサイバースペース研究所／NTTコミュニケーション科学基礎研究所、電子情報通信学会、Ｖｏｌ１００、Ｐ５０-Ｐ６０ CRF 言語処理における識別モデルの発展-HMMからCRFまで-http://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved=0CB8QFjAA&url=http%3A%2F%2Fwww.geocities.co.jp%2FTechnopolis%2F5893%2Fpublication%2FNLP2006.pdf&ei=AqplVIftN6i7mAWr9YC4Cg&usg=AFQjCNEudNLUdp4O5ut7rfkCIWNmscZcZg&sig2=sxjS73rkYnyGbmhlsWTi7g&bvm=bv.79142246,d.dGY 坂井俊之、藤村考"ブログに記述された不満表現からの潜在ニーズの発見"、情報処理学会研究報告、２００９年５月２１日、[online]、［平成27年5月20日検索］、インターネット<URL:https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=62234&file_id=1&file_no=1>

上記の非特許文献１のような方式では、与えられたラベルをもとに対象文章が要因であるか事前に確率テーブルを作成して要因検出する必要がある。しかし、テーブルの記述が不足している場合、ラベルにすべての事象が含まれないなどの原因により、要因を検出することができない。

本発明は、このような事情に鑑みてなされたものであり、テーブルを用いずにラベル付与を行うことができるため、テーブルの記述が不足し、ラベルにすべての事象が含まれない等の事情に関係なく、高い精度でラベル付与を行うことができるラベル付与装置、方法およびプログラムを提供することを目的とする。

（１）上記の目的を達成するため、本発明のラベル付与装置は、文章データにラベルを付与するラベル付与装置であって、一群の文章データを分割する分割部と、前記分割された文章データのそれぞれから特徴語を抽出する特徴語抽出部と、前記抽出された特徴語と文章の性質を表す各ラベルとの関連性を表す関連値を算出する関連値算出部と、前記算出された関連値を参照しつつ、一定の基準に基づいて前記分割された文章データにラベルを割り当てるラベル割当部と、を備えることを特徴としている。

このように、テーブルを用いずにラベルの割り当てを行うことができるため、テーブルの記述が不足し、ラベルにすべての事象が含まれない等の事情に関係なく、高い精度でラベル付与を行うことができる。また、各特徴語に対する関連値を算出することで、各ラベルの判定に利用可能かを判断できる。関連値にＡＩＣ値を用いれば、絶対値が大きいほどラベル判定に役に立つことが判断できる。

（２）また、本発明のラベル付与装置は、前記識別器が特定する一定の基準に、前記一群の文章データの分割方法を特定する基準が含まれることを特徴としている。これにより、適した文章データの分割方法でラベル付与を行うことができる。

（３）また、本発明のラベル付与装置は、前記識別器が特定する一定の基準に、前記算出された関連値を参照する特徴語の採用方法を特定する基準が含まれることを特徴としている。これにより、例えば適当な数で関連値を参照する特徴語を採用し、ラベル付けを行うことができる。

（４）また、本発明のラベル付与装置は、前記識別器が特定する一定の基準に、前記分割された文章データの前後で参照する文章データの範囲を特定する基準が含まれることを特徴としている。これにより、適した範囲で分割された文章データの前後の文章データを参照してラベル付けを行うことができる。

（５）また、本発明のラベル付与装置は、前記特徴語抽出部は、品詞単位で単語が含まれたリストを用いて、品詞単位で構成される特徴語を抽出することを特徴としている。これにより、識別判定に使用できる単語が豊富になることで、パラメータセットの数が多くなり、識別器の数が増える。その結果、識別器の分類精度が上がり、検出精度を向上できる。

（６）また、本発明のラベル付与装置は、前記品詞単位でラベルに対応するリストは、助詞、助動詞または非自立の動詞もしくは形容詞を含むことを特徴としている。このように使用する品詞を増やすことで、各テキストより抽出される語数を増やし、検出精度を向上できる。

（７）また、本発明のラベル付与装置は、前記一群の文章データとして予め準備された学習データに対して、前記一定の基準を特定する識別器ごとに、前記割り当てられたラベルの妥当性を示す評価値を算出する評価部と、前記評価値に応じて、各ラベルに対していずれかの識別器を選択する識別器選択部と、を更に備え、前記ラベル割当部は、前記一群の文章データとして外部から収集されたデータに対して、前記選択された識別器を用いて、前記分割された文章データにラベルを割り当てることを特徴としている。このように複数の識別器を用いて各ラベルに対して適した識別器でラベル付けするため、ラベル付け全体の精度を向上できる。

（８）また、本発明のラベル付与装置は、前記評価部が、前記評価値として、前記割り当てられたラベルに対するＦ値を算出することを特徴としている。これにより、ラベル付与の信頼度を向上させることができる。

（９）また、本発明のラベル付与装置は、前記選択された識別器ごとに前記外部から収集されたデータの前記分割された文章データに割り当てられたラベルをもとに最終的なラベル判定を行う判定部を更に備えることを特徴としている。これにより、ラベルごとに選択された識別器を用いて、精度の高いラベル判定を行うことができる。

（１０）また、本発明のラベル付与装置は、前記判定部が、前記各ラベルに対して選択された識別器により前記選択時に対象とされたラベルが割り当てられているときには、優先的に前記選択時に対象とされたラベルを採用することを特徴としている。これにより、特定のラベル専用の識別器でそのラベルが付与されるような信頼度が高い場合には、そのラベル付けを採用されやすくすることができる。

（１１）また、本発明のラベル付与装置は、前記判定部が、前記各ラベルに対して選択された識別器のいずれによっても前記選択時に対象とされたラベルが割り当てられていないときには、前記選択時に対象とされていなくても割り当てられたラベルすべてを採用することを特徴としている。これにより、いずれの特定のラベル専用の識別器でもそのラベルが付与されない場合には、次善の対応としてそのラベル付けを採用されやすくすることができる。

（１２）また、本発明のラベル付与装置は、前記一群の文章データとして予め準備された学習データに対して、前記一定の基準を特定する識別器ごとに、前記割り当てられたラベルの妥当性を示す評価値を算出する評価部と、前記識別器ごとの評価値を参照し、前記一群の文章データとして外部から収集されたデータに割り当てられたラベルに基づいて、前記外部から収集されたデータに対して最終的なラベル判定を行う判定部と、を更に備えることを特徴としている。

このように複数の識別器ごとのの評価値および割り当てられたラベルを用いて、最終的なラベル判定を行うため、ラベル付け全体の精度を向上できる。また、特徴語の数が増えた場合に、多数の識別器を用いて効率的にラベル付けできる。

（１３）また、本発明のラベル付与装置は、前記判定部は、前記識別器ごとの評価値および前記外部から収集されたデータに割り当てられたラベルの組み合わせの分布に対して、ＳＶＭを用いて最終的なラベル判定を行うことを特徴としている。これにより、識別器、その評価値および割り当てられたラベルの組み合わせによる分布を客観的に評価し、尤もらしいラベルを割り当てることができる。

（１４）また、本発明のラベル付与装置は、前記判定部は、前記分割された文章データの直前または直後の文章データに対して割り当てられたラベルを参照して、前記分割された文章データに対して最終的なラベル判定を行うことを特徴としている。このように前後の文章から得られるラベルの情報を考慮することで、さらにラベルの検出精度を高くすることができる。

（１５）また、本発明の方法は、文章データにラベルを付与するラベル付与の方法であって、一群の文章データを分割するステップと、前記分割された文章データのそれぞれから特徴語を抽出するステップと、前記抽出された特徴語と文章の性質を表す各ラベルとの関連性を表す関連値を算出するステップと、前記算出された関連値を参照しつつ、一定の基準に基づいて前記分割された文章データにラベルを割り当てるステップと、を含むことを特徴としている。

このように、テーブルを用いずにラベルの割り当てを行うことができるため、テーブルの記述が不足し、ラベルにすべての事象が含まれない等の事情に関係なく、高い精度でラベル付与を行うことができる。

（１６）また、本発明のプログラムは、文章データにラベルを付与するラベル付与のプログラムであって、一群の文章データを分割する処理と、前記分割された文章データのそれぞれから特徴語を抽出する処理と、前記抽出された特徴語と文章の性質を表す各ラベルとの関連性を表す関連値を算出する処理と、前記算出された関連値を参照しつつ、一定の基準に基づいて前記分割された文章データにラベルを割り当てる処理と、を含む一連の処理をコンピュータに実行させることを特徴としている。

本発明によれば、テーブルを用いずにラベル付与を行うことができるため、テーブルの記述が不足し、ラベルにすべての事象が含まれない等の事情に関係なく、高い精度でラベル付与を行うことができる。

第１の実施形態のラベル付与システムの構成を示すブロック図である。分割された文章データとそれぞれに付与されたラベルを示す表である。特定のラベルに対する各単語のＡＩＣ値の一例を示す表である。ＡＩＣ値の算出に利用する表である。各分割された文章データの単語出現頻度のマトリックス表である。予備実験のパラメータセットを示す表である。考慮される前後の文章データの一例を示す表である。各識別器に対する各ラベルの評価値を示す表である。各識別器の結果の一例を示す表である。各分割された文章データに対して識別器が判定したラベルを示す表である。第１の実施形態のラベル付与装置の動作を示すフローチャートである。ラベル割り当ての処理の一例を示すフローチャートである。識別器の評価、選択の処理の一例を示すフローチャートである。ラベル判定の処理を示すフローチャートである。シミュレーションの結果得られた比較例と実施例との精度を対比した表である。抽出対象の品詞と文例を示す表である。第３の実施形態のラベル付与システムの構成を示すブロック図である。ＳＶＭへの入力データの一例を示す図である。第３の実施形態のラベル付与装置の動作を示すフローチャートである。識別器の評価、選択の処理の一例を示すフローチャートである。ラベル判定の処理を示すフローチャートである。シミュレーションの結果得られた比較例と実施例との精度を対比した表である。

以下に、本発明の実施の形態について、図面を参照しながら説明する。

＜第１の実施形態＞
［ラベル付与システムの構成］
図１は、ラベル付与システム１００の構成を示すブロック図である。ラベル付与システム１００は、データ収集部１１０、ラベル付与装置１２０、データベース作成部１３０および情報出力部１４０を備えている。なお、図１の例において、データ収集部１１０、データベース作成部１３０および情報出力部１４０は、ラベル付与装置１２０の外部に設けられているが、ラベル付与装置１２０の内部に設けられていてもよい。

データ収集部１１０は、外部からレビュー文、ＳＮＳの投稿、そのコメント等、様々なテキストデータ（文章データ）を収集する。収集単位は、適宜、エントリ単位、文章単位、句読点単位等にすることができる。なお、収集データには、ブログ等インターネット上の投稿文や一連のメール文章といったコミュニケーション文も含まれる。

ラベル付与装置１２０は、識別器設定部１２１、分割部１２２、特徴語抽出部１２３、関連値算出部１２４、ラベル割当部１２５、評価部１２６、識別器選択部１２７および判定部１２８を備えており、文章データにラベルを付与する。

識別器設定部１２１は、一連の処理を行う際に用いられる識別器を設定する。識別器設定部１２１では、各ラベルの識別精度が最大となるようなパラメータ（基準）が設定された識別器を２つ以上設定することが好ましい。識別器に設定された基準には、一群の文章データの分割方法を特定する基準が含まれることが好ましい。これにより、適した文章データの分割方法でラベル付与を行うことができる。

また、算出された関連値を参照する特徴語の採用方法を特定する基準が含まれていてもよい。これにより、例えば適当な数で関連値を参照する特徴語を採用し、ラベル付けを行うことができる。分割された文章データの前後で参照する文章データの範囲を特定する基準が含まれていてもよい。これにより、適した範囲で分割された文章データの前後の文章データを参照してラベル付けを行うことができる。

分割部１２２は、一定の基準で一群の文章データを分割する。適宜、句点・読点・文節・意味単位等の異なる分割方法dk(d1,d2,…)で同一文章を分割したテキスト群をそれぞれL(d1),L(d2),…と特定している。図２は、分割された文章データとそれぞれに付与されたラベルを示す表である。図２に示す例では、L(dk)={l1,l2,…,ln}の各テキストl1,l2,…,lnに、手作業等でラベルを付与しており、意味単位で分割した文章データに要望（Desire）／不満（Frustration）／要因（Cause）／その他（Other）のラベルを付与している。

特徴語抽出部１２３は、分割された文章データのそれぞれから特徴語を抽出する。特徴語抽出部１２３は、必要に応じて抽出された特徴語を選択する。例えば、tf-idfによる重要語を特定する、または形態素解析などから得られる語の中から品詞を限定することで選択できる。

まず、分割されたテキスト群（文章データ群）L(dk)={l1,l2,…,ln}を形態素解析し、テキストに含まれる単語を抽出する。ここで使用する分割されたテキスト群は、ラベル付けされたテキスト群であればよく、その分割方法は問わない。つまり分割されたテキストは、句点区切りのテキストでも、意味区切りのテキストでも構わない。

関連値算出部１２４は、抽出された特徴語と文章の性質を表す各ラベルとの関連性を表す関連値を算出する。各特徴語に対する関連値を算出することで、各ラベルの判定に利用可能かを判断できる。例えば、関連値にＡＩＣ（Akaike’s Information Criterion、赤池情報量基準：統計モデルの良さを評価するための指標）値を用いれば、絶対値が大きいほどラベル判定に役に立つことが判断できる。

関連値算出部１２４は、抽出された各特徴語について、関連値を算出する。関連値には、ＡＩＣ値やベイズ情報量基準が挙げられる。図３は、特定のラベルに対する各単語のＡＩＣ値の一例を示す表である。

図４は、ＡＩＣ値の算出に利用する表である。ＡＩＣ値を算出する場合は、図４に示すように、（１）あるラベルに単語wiが存在するL(dk)中のテキスト数、（２）あるラベル以外に単語wiが存在するL(dk)中のテキスト数、（３）あるラベルに単語wiが存在しないL(dk)中のテキスト数、（４）あるラベル以外に単語wiが存在しないL(dk)中のテキスト数により算出できる。

図５は、各分割された文章データの単語出現頻度のマトリックス表である。上記の（１）〜（４）の値は、図５に示すような、各テキストの単語出現頻度のマトリックス表を作成することで得られる。

このように、各単語に対する関連値を算出する。例えば、関連値としてＡＩＣ値を用いれば、絶対値が大きいほどラベル判定に役に立つ語であるため、各ラベルの判定に利用可能かを判断可能となる。

ラベル割当部１２５は、算出された関連値を参照しつつ、一定の基準に基づいて分割された文章データにラベルを割り当てる。このように、テーブルを用いずにラベルの割り当てを行うことができるため、テーブルの記述が不足し、ラベルにすべての事象が含まれない等の事情に関係なくラベル付与を行うことができる。

ラベル割当部１２５は、識別器設定部で設定された複数の識別器で入力データのラベル付与を行う。図９は、各識別器の結果の一例を示す表である。入力データに対して、設定された複数の識別器でラベルを割り当てた例を示している。分割方法diで分割されたテキストL(di)={l1,l2,…}に対し、例えばl1は不満(F)用の識別器と要望(D)用の識別器では不満(F)ラベルが付与され、原因(C)用では要望(D)、その他(O)用では原因(C)が付与されている例である。

評価部１２６は、一群の文章データとして予め準備された学習データに対して、一定の基準を特定する識別器ごとに、割り当てられたラベルの妥当性を示す評価値を算出する。識別器として単一のＣＲＦを用いて複数のパラメータを設定しラベル付けする際、特定のラベルに対して精度を最大化した場合、他のラベルの精度が低下する。そこで、複数の識別器について識別器ごとに割り当てられたラベルの妥当性を評価し、全体のラベル付けの精度を向上させることができる。評価値として、割り当てられたラベルに対するＦ値（後述）を算出することが好ましい。

図６は、予備実験のパラメータセットを示す表である。適切な識別器を複数設定するために、まず、各分割方式によって分割したテキスト群L(d1),L(d2),…それぞれについて、図６に示すような特徴語数(p)と考慮行数(q)を変動させた組み合わせ（パラメータセット）でＣＲＦにより学習する。表の中の数値はパラメータセットのＩＤとする。

特徴語数(p)とは、前記特徴量生成部において抽出した特徴語のうち、実際のラベル付けに利用する特徴語の数である。つまり、ラベル付けにおいて、各テキストから特徴語を抽出し、特徴量の高いもの上位p件を利用して分析を行う。pは、各テキストliから抽出される特徴語数に依存する。例えば、図２に示されるl1〜l16の中で、各文章から一番多く特徴語を抽出できたテキストがl16（特徴語：機、時間、有効、活用、意識）で５つであった場合、設定可能なパラメータpの最大値は５となる。

考慮行数(q)とは、分割されたテキストliをラベル判定する際の確率計算に用いる前後の文の数である。図７は、考慮される前後の文章データの一例を示す表である。考慮する方法としては前述分のみを参照するもの、後述文のみを参照するもの、前述分および後述文両方を参照するものの３通りを考え、図７に示すi行目の１文に対し、前述q行分を考慮するものを前q行、前後述q行分を考慮するものを前後q行、後述q行分を考慮するものを後q行としている。

図６に示すパラメータセットで、ＣＲＦを適用しラベル付けされた結果について精度評価を行うことができる。精度はPrecision（適合率：全ラベルＡのうちの、ＣＲＦでＡと判定された割合）、Recall（再現率：ＣＲＦでＡと判定されたうちの、正しく判別された割合）、F-value（F値：PrecisionとRecallの評価尺度。値が大きいほどよい。）を算出することで評価できる。

例えば、ラベルＡについて、ラベルＡの総数が１０００件で、ＣＲＦによるラベルＡの判別数が７００件、ＣＲＦによる判別が正しい件数が５００件であるとき、Precision = 500/1000、Recall = 700/1000で計算できる。また、このときＦ値 = 2/（1/Recall＋1/Precision）で計算できる。

図８は、各識別器に対する各ラベルの評価値を示す表である。ある分割方式d2を用いた各パラメータセットでのＣＲＦによる抽出精度例を図８に示す。図８に示す最左列はパラメータセット（実験）のＩＤであり、dk_p_mqとは、分割方式dk、パラメータp、q、前述後述参照方法m(m=0のとき前述分のみ、m=1のとき後述文のみ、m=3のとき前述文および後述文両方を考慮)を設定した時の結果を示している。各ラベル（不満(F)要望(D)原因(C)）の抽出精度が記されている。このような結果が分割方法k個分ある。例えば、図８に示すF-value欄より、各ラベルの精度が高い実験IDは異なることがわかる。言い換えると、従来のように単一のＣＲＦでは特定のラベルに対して精度を最大化した場合、他のラベルの精度が低下している。

各ラベルにおいて、（分割パターン×パラメータセット×前述後述参照方法）個分のＣＲＦによる検出精度の比較を行うことで各ＣＲＦを評価する。たとえば、検出精度が最も高くなるＣＲＦを、ラベル数分選択するなどが考えられる。具体的には、図８より原因Cラベルと不満Fラベルのための識別器には、ID：d2_01_01のＣＲＦが選ばれ、要望Dラベル・その他Oラベルの識別器には、ID:d2_04_01のＣＲＦが選ばれる（図中の太枠）、などである。そのほか、各識別器の検出精度に基づいて重みを算出し、ラベル付け計算に利用するなども考えられる。

識別器選択部１２７は、評価値に応じて、各ラベルに対していずれかの識別器を選択する。その結果、一群の文章データとして外部から収集されたデータに対して、選択された識別器を用いて、分割された文章データにラベルを割り当てることができる。このように複数の識別器を用いて各ラベルに対して適した識別器でラベル付けするため、ラベル付け全体の精度を向上できる。その結果、ラベル付与の信頼度を向上させることができる。

判定部１２８は、選択された識別器ごとに外部から収集されたデータの分割された文章データに割り当てられたラベルをもとに最終的なラベル判定を行う。また、判定部１２８は、付与されたラベルの信頼度を算出する。ラベル判定は、例えば以下の基準で判定する。（STEP 1)専用識別器で識別された専用ラベルをすべて採用する（例えば、図９に示すl2行）。すなわち、Ｆ用識別器でのＦラベル付与、Ｄ用識別器でのＤラベル付与を意味する。（STEP 2)STEP１で採用されず、すべての識別器で専用外ラベルが付いた場合、すべて採用する（例えば、図９に示すln行）。すなわち、Ｆ・Ｃ用識別器でＤ、Ｄ・Ｏ識別器でＣの場合に、Ｄ、Ｃの両方を採用する。

このように、判定部１２８は、各ラベルに対して選択された識別器により選択時に対象とされたラベルが割り当てられているときには、優先的に選択時に対象とされたラベルを採用することが好ましい。これにより、特定のラベル専用の識別器でそのラベルが付与されるような信頼度が高い場合には、そのラベル付けを採用されやすくすることができる。

また、判定部１２８は、各ラベルに対して選択された識別器のいずれによっても選択時に対象とされたラベルが割り当てられていないときには、選択時に対象とされていなくても割り当てられたラベルすべてを採用することが好ましい。これにより、いずれの特定のラベル専用の識別器でもそのラベルが付与されない場合には、次善の対応としてそのラベル付けを採用されやすくすることができる。図１０は、各分割された文章データに対して識別器が判定したラベルを示す表である。

ラベル付与の信頼度は以下の基準により３段階で付与できる。
・ラベルが1種の場合は、信頼度大とする。
・STEP１によるラベルで、２種以上ある場合は、信頼度中とする。
・STEP２によるラベルで、２種以上ある場合は、信頼度小とする。

また、複数のラベルが付与された場合、入力データ中に要望を表す助動詞である「たい」が出現する場合は、要望（Ｄ）を優先する。このように、入力データに出現した助動詞を利用して出力ラベルを限定してもよい。

データベース作成部１３０は、ラベルに基づいて、主観、原因およびこれらを分類する項目を用いてデータベースを作成する。例えば、キーワードを用いてデータベースを作成することで、系統的な情報を提供でき、特定の商品またはサービスの提供者は、容易に事業の状況を把握できる。主観または原因を分類する項目として、これらを分類するカテゴリを用いてもよい。また、主観または原因を分類する項目として、主観を抽出したテキストデータの情報源の属性を用いてもよい。

情報出力部１４０は、入力された情報をもとにデータベースの情報を加工して出力する。入力（検索語）としては、商品名やサービス名等の検索クエリが挙げられる。また、表示させる期間を設定することができる。この他に、属性別表示のプルダウンを用意する等して、グラフに反映させるデータを選択することもできる。

［ラベル付与システムの動作］
（全体動作）
上記のように構成されたラベル付与システム１００の動作を説明する。図１１は、ラベル付与システム１００の動作を示すフローチャートである。図１１に示すように、まず学習データをラベル付与装置１２０に入力する（ステップＳ１）。学習データは、例えば、レビュー文や、ＳＮＳの投稿とそのコメント等、収集された様々なテキストデータで構成されている。

このような学習データに対して、各パラメータセットを準備し識別器を設定する（ステップＳ２）。そして、各識別器により学習データを分割した文章データにラベルを割り当てる（ステップＳ３）。割り当てられたラベルの結果をもとに識別器の評価および選択を行う（ステップＳ４）。

一方で、外部から収集された文章データを入力する（ステップＳ５）。入力された文章データに対し、上記の処理で選択された識別器でラベルの割り当てを行う（ステップＳ６）。そして、割り当てられたラベルに対して最終的なラベル判定を行う（ステップＳ７）。ラベル判定された文章データをもとにデータベースを作成し、そのデータベースを用いて例えばマーケティングに有用な情報を出力し（ステップＳ８）、処理を終了する。

（ラベル割り当て）
次に、ラベル割り当ての処理を説明する。図１２は、ラベル割り当ての処理の一例を示すフローチャートである。まず、入力された文章データを所定の基準で分割する（ステップＳ１１）。分割された文章データを形態素解析する（ステップＳ１２）。得られた形態素に対してラベルとの関連値を算出する（ステップＳ１３）。

このようにして算出された関連値が閾値以上か否かを判定する（ステップＳ１４）。閾値以上であれば、その形態素を特徴語として特定し抽出する（ステップＳ１５）。閾値以上でなければ、ステップＳ１６に進む。

すべての形態素について特徴語の特定が完了したか否かを判定する（ステップＳ１６）。完了した場合には、抽出された特徴語を用いてラベルの割り当てを行い（ステップＳ１７）、終了する。一方、完了していない場合にはステップＳ１３に戻る。

（識別器の評価、選択）
次に、識別器の評価、選択の処理を説明する。図１３は、識別器の評価、選択の処理の一例を示すフローチャートである。まず、パラメータセットを準備する（ステップＳ２１）。準備したパラメータセットについて、すべてのパラメータの組合せについて文章データを識別器にかける（ステップＳ２２）。そして、各ラベルの検出精度を表す評価値を比較し（ステップＳ２３）、精度が最大となる条件の識別器を設定する（ステップＳ２４）。

（ラベル判定）
次に、ラベル判定の処理を説明する。図１４は、ラベル判定の処理を示すフローチャートである。まず、各識別器のラベル割当結果を比較する（ステップＳ３１）そして、ラベル割当の信頼度を付与する（ステップＳ３２）。なお、以上のラベル付与システムの動作は、コンピュータにプログラムを実行させることで行われる。

［実施例］
Bag of wordsを用いたラベル付与（比較例）とラベル付与装置１２０を用いたラベル付与（実施例）とをそれぞれ行い、各ラベル付与の精度を比較した。Bag of wordsによる方式は、各テキスト中の単語の共起頻度をもとに分類を行うものである。図１５は、シミュレーションの結果得られた比較例と実施例との精度を対比した表である。図１５に示すように、各ラベルについて実施例の方が、明らかに精度が高いことが実証された。

＜第２の実施形態＞
上記の実施形態のように、特徴語抽出の際には、tf-idfによる重要語を特定して抽出してもよいが、品詞単位で単語が含まれたリストを用いて、品詞単位で構成された特徴語を抽出してもよい。品詞単位で抽出することでパラメータセットの数が多くなり、識別器の数が増える。その結果、識別器の分類精度が上がり、検出精度を向上できる。

品詞単位でラベルに対応するリストは、自立の形容詞および動詞、一般名詞、人名、地域を除く名詞、名詞接続を除く接到詞を含んでいる。リストは、さらに助詞、助動詞または非自立の動詞もしくは形容詞を含むことが好ましい。このように使用する品詞を増やすことで、各テキストより抽出される語数を増やし、さらに検出精度を向上できる。なお、非自立とは、目的語のような他の単語とともに用いられて意味を生じる単語を指す。また、リストは、サービスの提供側により更新可能になっていることが好ましい。更新により新たに助詞等をリストに追加でき、さらにラベル判定の精度を高めることができる。

図１６は、抽出対象の品詞と文例を示す表である。例えば、テキスト中に接続助詞の「ので」がある場合には、「ので」の前の部分に原因が記載されている可能性が高い。また、テキスト中に助動詞の「たい」がある場合には、そのテキストは要望を示している可能性が高い。このような関係を利用することができる。また、さらにテキスト中に「と思います」と記載があったときの助詞の「と」を不満の表れとして抽出するようにしてもよいし、その他句読点も考慮し、文の末尾が「。。」となっている場合に不満の表れとして抽出してもよい。

＜第３の実施形態＞
上記の実施形態（第１、第２の実施形態の組み合わせを含む）では、複数の識別器の出力値から最終的なラベルを判定する際に、予め定めたルールに基づいて判定を行っているが、複数の識別器の評価値、およびラベルの分布により、最終的なラベル判定を行ってもよい。これにより、不満・要望・原因のラベルの抽出精度がさらに向上する。

［ラベル付与システムの構成］
図１７は、ラベル付与システム２００の構成を示すブロック図である。ラベル付与システム２００は、データ収集部１１０、ラベル付与装置２２０、データベース作成部１３０および情報出力部１４０を備えている。図１の例に対して同じ符号の各部は共通した機能を有している。

ラベル付与装置２２０は、識別器設定部１２１、分割部１２２、特徴語抽出部１２３、関連値算出部１２４、ラベル割当部１２５、評価部１２６、識別器選択部２２７および判定部２２８を備えている。ラベル付与装置２２０は、基本的にラベル付与装置１２０と共通する機能を有するが、識別器選択部２２７および判定部２２８については機能が異なる。

識別器選択部２２７は、割り当てられたラベルの評価を参照し、各ラベルについて評価が上位の識別器を複数選択する。予め識別器の数を絞っておくことで、効率的に高い精度でラベルを検出できる。なお、識別器選択部２２７を省き、識別器の数を絞らずに最終的なラベル判定を行ってもよい。

判定部２２８は、識別器ごとの評価値を参照し、一群の文章データとして外部から収集されたデータに割り当てられたラベルに基づいて、外部から収集されたデータに対して最終的なラベル判定を行う。これにより、ラベル付け全体の精度を向上できる。また、特徴語の数が増えた場合に、多数の識別器を用いて効率的にラベル付けできる。

また、ラベル判定の際には、ＳＶＭ（Support Vector Machine）を用いることが好ましい。これにより、識別器、その評価値および割り当てられたラベルの組み合わせによる分布を客観的に評価し、尤もらしいラベルを割り当てることができる。

（ＳＶＭの利用例）
判定部２２８では、例えば要望判定ＳＶＭ、不満判定ＳＶＭ、原因判定ＳＶＭ、その他判定ＳＶＭの４つ（複数）のＳＶＭを用いることができる。そして、各ＳＶＭを特定のラベルの判定、例えば、要望（Ｄ）の判定にＳＶＭを利用できる。図１８は、ＳＶＭへの入力データの一例を示す図である。入力のフォーマットは、判定対象である分割テキストごとに、正解が特定のラベル(ここでは要望)であることを表す＋１、またはそうでない(ここでは正解が要望以外である)ことを表す−１の値と、「実験ＩＤ：実験ＩＤのＣＲＦ識別器におけるＣＲＦ判定で得られた確率値」を実験の数（ＣＲＦ識別器の数）だけ羅列したものである。

ただし、＋１または−１の値は、外部から収集されたテストデータの場合正解要素が不明なため、−１に揃えることとする。したがって正解値を表すフラグは、学習用入力データと評価用入力データで意味が異なる。学習用入力データは、各学習対象文（分割テキスト）の正解値（人手でラベル付けされた結果）が既知のため、各対象文が要望であれば「１」、要望以外であれば「−１」を入力とする。なお、確率値は、分割テキストに対して特定のラベルと判定される確率を示しており、各識別器の抽出精度（識別器ごとの評価値）および各識別器でラベル付けされた結果から得られる。

［ラベル付与システムの動作］
（全体動作）
上記のように構成されたラベル付与システム２００の動作を説明する。図１９は、ラベル付与システム２００の動作を示すフローチャートである。図１９に示すように、ラベル付与システム２００の動作は、ラベル付与システム１００の動作とほぼ同様であり、ステップＴ１〜Ｔ８は、ステップＳ１〜Ｓ８に対応している。ただし、識別器の選択の際には、各ラベルに対し識別器を一つに絞らない。また、ステップＴ３、Ｔ６のラベル割り当ての処理は、図１２に示すステップＳ１１〜Ｓ１７と同じ処理により行うことができる。

（識別器の評価、選択）
次に、識別器の評価、選択の処理を説明する。図２０は、識別器の評価、選択の処理の一例を示すフローチャートである。まず、パラメータセットを準備する（ステップＴ２１）。準備したパラメータセットについて、すべてのパラメータの組合せについて文章データを識別器にかける（ステップＴ２２）。そして、各ラベルの検出精度を表す評価値を評価し（ステップＴ２３）、精度が上位の識別器を選択する（ステップＴ２４）。

（ラベル判定）
次に、ラベル判定の処理を説明する。図２１は、ラベル判定の処理を示すフローチャートである。まず、各識別器の学習データに対する評価と外部から収集されたデータに対する割り当てられたラベルの分布を入力としてＳＶＭを適用する（ステップＴ３１）そして、ＳＶＭの適用の結果、判定されたラベルを最終的なラベルとする（ステップＴ３２）。なお、以上のラベル付与システムの動作は、コンピュータにプログラムを実行させることで行われる。

［実施例］
Bag of wordsを用いたラベル付与（比較例）とラベル付与装置２２０を用いたラベル付与（実施例）とをそれぞれ行い、各ラベル付与の精度を比較した。Bag of wordsによる方式は、各テキスト中の単語の共起頻度をもとに分類を行うものである。図２２は、シミュレーションの結果得られた比較例と実施例との精度を対比した表である。図２２に示すように、各ラベルについて実施例の方が、明らかに精度が高いことが実証された。また、特に助詞、助動詞、非自立の動詞および形容詞を含むリストを用いてラベルを割り当てた場合については、さらに要望ラベルの精度が向上した。

＜第４の実施形態＞
上記の実施形態（第１、第２の実施形態の組み合わせ、第２、第３の実施形態の組み合わせを含む）では、分割された文章データのみを対象として判定部が最終的なラベル判定を行うが、分割された文章データの直前または直後の文章データに対して割り当てられたラベルを参照して、分割された文章データに対して最終的なラベル判定を行ってもよい。このように前後の文章から得られるラベルの情報を考慮することで、さらにラベルの検出精度を高くすることができる。

１００、２００ラベル付与システム
１１０データ収集部
１２０、２２０ラベル付与装置
１２１識別器設定部
１２２分割部
１２３特徴語抽出部
１２４関連値算出部
１２５ラベル割当部
１２６評価部
１２７、２２７識別器選択部
１２８、２２８判定部
１３０データベース作成部
１４０情報出力部

Claims

文章データにラベルを付与するラベル付与装置であって、
一群の文章データを分割する分割部と、
前記分割された文章データのそれぞれから特徴語を抽出する特徴語抽出部と、
前記抽出された特徴語と文章の性質を表す各ラベルとの関連性を表す関連値を算出する関連値算出部と、
前記算出された関連値を参照しつつ、一定の基準に基づいて前記分割された文章データにラベルを割り当てるラベル割当部と、を備えることを特徴とするラベル付与装置。
前記識別器が特定する一定の基準には、前記一群の文章データの分割方法を特定する基準が含まれることを特徴とする請求項１記載のラベル付与装置。
前記識別器が特定する一定の基準には、前記算出された関連値を参照する特徴語の採用方法を特定する基準が含まれることを特徴とする請求項１または請求項２記載のラベル付与装置。
前記識別器が特定する一定の基準には、前記分割された文章データの前後で参照する文章データの範囲を特定する基準が含まれることを特徴とする請求項１から請求項３のいずれかに記載のラベル付与装置。
前記特徴語抽出部は、品詞単位で単語が含まれたリストを用いて、品詞単位で構成される特徴語を抽出することを特徴とする請求項１から請求項４のいずれかに記載のラベル付与装置。
前記品詞単位でラベルに対応するリストは、助詞、助動詞または非自立の動詞もしくは形容詞を含むことを特徴とする請求項５記載のラベル付与装置。
前記一群の文章データとして予め準備された学習データに対して、前記一定の基準を特定する識別器ごとに、前記割り当てられたラベルの妥当性を示す評価値を算出する評価部と、
前記評価値に応じて、各ラベルに対していずれかの識別器を選択する識別器選択部と、を更に備え、
前記ラベル割当部は、前記一群の文章データとして外部から収集されたデータに対して、前記選択された識別器を用いて、前記分割された文章データにラベルを割り当てることを特徴とする請求項１から請求項６のいずれかに記載のラベル付与装置。
前記評価部は、前記評価値として、前記割り当てられたラベルに対するＦ値を算出することを特徴とする請求項７記載のラベル付与装置。
前記選択された識別器ごとに前記外部から収集されたデータの前記分割された文章データに割り当てられたラベルをもとに最終的なラベル判定を行う判定部を更に備えることを特徴とする請求項８記載のラベル付与装置。
前記判定部は、前記各ラベルに対して選択された識別器により前記選択時に対象とされたラベルが割り当てられているときには、優先的に前記選択時に対象とされたラベルを採用することを特徴とする請求項９記載のラベル付与装置。
前記判定部は、前記各ラベルに対して選択された識別器のいずれによっても前記選択時に対象とされたラベルが割り当てられていないときには、前記選択時に対象とされていなくても割り当てられたラベルすべてを採用することを特徴とする請求項９または請求項１０記載のラベル付与装置。
前記一群の文章データとして予め準備された学習データに対して、前記一定の基準を特定する識別器ごとに、前記割り当てられたラベルの妥当性を示す評価値を算出する評価部と、
前記識別器ごとの評価値を参照し、前記一群の文章データとして外部から収集されたデータに割り当てられたラベルに基づいて、前記外部から収集されたデータに対して最終的なラベル判定を行う判定部と、を更に備えることを特徴とする請求項１から請求項７のいずれかに記載のラベル付与装置。
前記判定部は、前記識別器ごとの評価値および前記外部から収集されたデータに割り当てられたラベルの組み合わせの分布に対して、ＳＶＭを用いて最終的なラベル判定を行うことを特徴とする請求項１２記載のラベル付与装置。
前記判定部は、前記分割された文章データの直前または直後の文章データに対して割り当てられたラベルを参照して、前記分割された文章データに対して最終的なラベル判定を行うことを特徴とする請求項９から請求項１３のいずれかに記載のラベル付与装置。
文章データにラベルを付与するラベル付与の方法であって、
一群の文章データを分割するステップと、
前記分割された文章データのそれぞれから特徴語を抽出するステップと、
前記抽出された特徴語と文章の性質を表す各ラベルとの関連性を表す関連値を算出するステップと、
前記算出された関連値を参照しつつ、一定の基準に基づいて前記分割された文章データにラベルを割り当てるステップと、を含むことを特徴とする方法。
文章データにラベルを付与するラベル付与のプログラムであって、
一群の文章データを分割する処理と、
前記分割された文章データのそれぞれから特徴語を抽出する処理と、
前記抽出された特徴語と文章の性質を表す各ラベルとの関連性を表す関連値を算出する処理と、
前記算出された関連値を参照しつつ、一定の基準に基づいて前記分割された文章データにラベルを割り当てる処理と、を含む一連の処理をコンピュータに実行させることを特徴とするプログラム。