JP6522446B2 - ラベル付与装置、方法およびプログラム - Google Patents
ラベル付与装置、方法およびプログラム Download PDFInfo
- Publication number
- JP6522446B2 JP6522446B2 JP2015132018A JP2015132018A JP6522446B2 JP 6522446 B2 JP6522446 B2 JP 6522446B2 JP 2015132018 A JP2015132018 A JP 2015132018A JP 2015132018 A JP2015132018 A JP 2015132018A JP 6522446 B2 JP6522446 B2 JP 6522446B2
- Authority
- JP
- Japan
- Prior art keywords
- label
- sentence data
- labeling
- data
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
[ラベル付与システムの構成]
図1は、ラベル付与システム100の構成を示すブロック図である。ラベル付与システム100は、データ収集部110、ラベル付与装置120、データベース作成部130および情報出力部140を備えている。なお、図1の例において、データ収集部110、データベース作成部130および情報出力部140は、ラベル付与装置120の外部に設けられているが、ラベル付与装置120の内部に設けられていてもよい。
・ラベルが1種の場合は、信頼度大とする。
・STEP1によるラベルで、2種以上ある場合は、信頼度中とする。
・STEP2によるラベルで、2種以上ある場合は、信頼度小とする。
(全体動作)
上記のように構成されたラベル付与システム100の動作を説明する。図11は、ラベル付与システム100の動作を示すフローチャートである。図11に示すように、まず学習データをラベル付与装置120に入力する(ステップS1)。学習データは、例えば、レビュー文や、SNSの投稿とそのコメント等、収集された様々なテキストデータで構成されている。
次に、ラベル割り当ての処理を説明する。図12は、ラベル割り当ての処理の一例を示すフローチャートである。まず、入力された文章データを所定の基準で分割する(ステップS11)。分割された文章データを形態素解析する(ステップS12)。得られた形態素に対してラベルとの関連値を算出する(ステップS13)。
次に、識別器の評価、選択の処理を説明する。図13は、識別器の評価、選択の処理の一例を示すフローチャートである。まず、パラメータセットを準備する(ステップS21)。準備したパラメータセットについて、すべてのパラメータの組合せについて文章データを識別器にかける(ステップS22)。そして、各ラベルの検出精度を表す評価値を比較し(ステップS23)、精度が最大となる条件の識別器を設定する(ステップS24)。
次に、ラベル判定の処理を説明する。図14は、ラベル判定の処理を示すフローチャートである。まず、各識別器のラベル割当結果を比較する(ステップS31)そして、ラベル割当の信頼度を付与する(ステップS32)。なお、以上のラベル付与システムの動作は、コンピュータにプログラムを実行させることで行われる。
Bag of wordsを用いたラベル付与(比較例)とラベル付与装置120を用いたラベル付与(実施例)とをそれぞれ行い、各ラベル付与の精度を比較した。Bag of wordsによる方式は、各テキスト中の単語の共起頻度をもとに分類を行うものである。図15は、シミュレーションの結果得られた比較例と実施例との精度を対比した表である。図15に示すように、各ラベルについて実施例の方が、明らかに精度が高いことが実証された。
上記の実施形態のように、特徴語抽出の際には、tf-idfによる重要語を特定して抽出してもよいが、品詞単位で単語が含まれたリストを用いて、品詞単位で構成された特徴語を抽出してもよい。品詞単位で抽出することでパラメータセットの数が多くなり、識別器の数が増える。その結果、識別器の分類精度が上がり、検出精度を向上できる。
上記の実施形態(第1、第2の実施形態の組み合わせを含む)では、複数の識別器の出力値から最終的なラベルを判定する際に、予め定めたルールに基づいて判定を行っているが、複数の識別器の評価値、およびラベルの分布により、最終的なラベル判定を行ってもよい。これにより、不満・要望・原因のラベルの抽出精度がさらに向上する。
図17は、ラベル付与システム200の構成を示すブロック図である。ラベル付与システム200は、データ収集部110、ラベル付与装置220、データベース作成部130および情報出力部140を備えている。図1の例に対して同じ符号の各部は共通した機能を有している。
判定部228では、例えば要望判定SVM、不満判定SVM、原因判定SVM、その他判定SVMの4つ(複数)のSVMを用いることができる。そして、各SVMを特定のラベルの判定、例えば、要望(D)の判定にSVMを利用できる。図18は、SVMへの入力データの一例を示す図である。入力のフォーマットは、判定対象である分割テキストごとに、正解が特定のラベル(ここでは要望)であることを表す+1、またはそうでない(ここでは正解が要望以外である)ことを表す−1の値と、「実験ID:実験IDのCRF識別器におけるCRF判定で得られた確率値」を実験の数(CRF識別器の数)だけ羅列したものである。
(全体動作)
上記のように構成されたラベル付与システム200の動作を説明する。図19は、ラベル付与システム200の動作を示すフローチャートである。図19に示すように、ラベル付与システム200の動作は、ラベル付与システム100の動作とほぼ同様であり、ステップT1〜T8は、ステップS1〜S8に対応している。ただし、識別器の選択の際には、各ラベルに対し識別器を一つに絞らない。また、ステップT3、T6のラベル割り当ての処理は、図12に示すステップS11〜S17と同じ処理により行うことができる。
次に、識別器の評価、選択の処理を説明する。図20は、識別器の評価、選択の処理の一例を示すフローチャートである。まず、パラメータセットを準備する(ステップT21)。準備したパラメータセットについて、すべてのパラメータの組合せについて文章データを識別器にかける(ステップT22)。そして、各ラベルの検出精度を表す評価値を評価し(ステップT23)、精度が上位の識別器を選択する(ステップT24)。
次に、ラベル判定の処理を説明する。図21は、ラベル判定の処理を示すフローチャートである。まず、各識別器の学習データに対する評価と外部から収集されたデータに対する割り当てられたラベルの分布を入力としてSVMを適用する(ステップT31)そして、SVMの適用の結果、判定されたラベルを最終的なラベルとする(ステップT32)。なお、以上のラベル付与システムの動作は、コンピュータにプログラムを実行させることで行われる。
Bag of wordsを用いたラベル付与(比較例)とラベル付与装置220を用いたラベル付与(実施例)とをそれぞれ行い、各ラベル付与の精度を比較した。Bag of wordsによる方式は、各テキスト中の単語の共起頻度をもとに分類を行うものである。図22は、シミュレーションの結果得られた比較例と実施例との精度を対比した表である。図22に示すように、各ラベルについて実施例の方が、明らかに精度が高いことが実証された。また、特に助詞、助動詞、非自立の動詞および形容詞を含むリストを用いてラベルを割り当てた場合については、さらに要望ラベルの精度が向上した。
上記の実施形態(第1、第2の実施形態の組み合わせ、第2、第3の実施形態の組み合わせを含む)では、分割された文章データのみを対象として判定部が最終的なラベル判定を行うが、分割された文章データの直前または直後の文章データに対して割り当てられたラベルを参照して、分割された文章データに対して最終的なラベル判定を行ってもよい。このように前後の文章から得られるラベルの情報を考慮することで、さらにラベルの検出精度を高くすることができる。
110 データ収集部
120、220 ラベル付与装置
121 識別器設定部
122 分割部
123 特徴語抽出部
124 関連値算出部
125 ラベル割当部
126 評価部
127、227 識別器選択部
128、228 判定部
130 データベース作成部
140 情報出力部
Claims (16)
- 文章データにラベルを付与するラベル付与装置であって、
一群の文章データを分割する分割部と、
前記分割された文章データのそれぞれから特徴語を抽出する特徴語抽出部と、
前記抽出された特徴語と文章の性質を表す各ラベルとの関連性を表す関連値を算出する関連値算出部と、
前記算出された関連値を参照しつつ、一定の基準に基づいて前記分割された文章データにラベルを割り当てるラベル割当部と、を備えることを特徴とするラベル付与装置。 - 前記識別器が特定する一定の基準には、前記一群の文章データの分割方法を特定する基準が含まれることを特徴とする請求項1記載のラベル付与装置。
- 前記識別器が特定する一定の基準には、前記算出された関連値を参照する特徴語の採用方法を特定する基準が含まれることを特徴とする請求項1または請求項2記載のラベル付与装置。
- 前記識別器が特定する一定の基準には、前記分割された文章データの前後で参照する文章データの範囲を特定する基準が含まれることを特徴とする請求項1から請求項3のいずれかに記載のラベル付与装置。
- 前記特徴語抽出部は、品詞単位で単語が含まれたリストを用いて、品詞単位で構成される特徴語を抽出することを特徴とする請求項1から請求項4のいずれかに記載のラベル付与装置。
- 前記品詞単位でラベルに対応するリストは、助詞、助動詞または非自立の動詞もしくは形容詞を含むことを特徴とする請求項5記載のラベル付与装置。
- 前記一群の文章データとして予め準備された学習データに対して、前記一定の基準を特定する識別器ごとに、前記割り当てられたラベルの妥当性を示す評価値を算出する評価部と、
前記評価値に応じて、各ラベルに対していずれかの識別器を選択する識別器選択部と、を更に備え、
前記ラベル割当部は、前記一群の文章データとして外部から収集されたデータに対して、前記選択された識別器を用いて、前記分割された文章データにラベルを割り当てることを特徴とする請求項1から請求項6のいずれかに記載のラベル付与装置。 - 前記評価部は、前記評価値として、前記割り当てられたラベルに対するF値を算出することを特徴とする請求項7記載のラベル付与装置。
- 前記選択された識別器ごとに前記外部から収集されたデータの前記分割された文章データに割り当てられたラベルをもとに最終的なラベル判定を行う判定部を更に備えることを特徴とする請求項8記載のラベル付与装置。
- 前記判定部は、前記各ラベルに対して選択された識別器により前記選択時に対象とされたラベルが割り当てられているときには、優先的に前記選択時に対象とされたラベルを採用することを特徴とする請求項9記載のラベル付与装置。
- 前記判定部は、前記各ラベルに対して選択された識別器のいずれによっても前記選択時に対象とされたラベルが割り当てられていないときには、前記選択時に対象とされていなくても割り当てられたラベルすべてを採用することを特徴とする請求項9または請求項10記載のラベル付与装置。
- 前記一群の文章データとして予め準備された学習データに対して、前記一定の基準を特定する識別器ごとに、前記割り当てられたラベルの妥当性を示す評価値を算出する評価部と、
前記識別器ごとの評価値を参照し、前記一群の文章データとして外部から収集されたデータに割り当てられたラベルに基づいて、前記外部から収集されたデータに対して最終的なラベル判定を行う判定部と、を更に備えることを特徴とする請求項1から請求項7のいずれかに記載のラベル付与装置。 - 前記判定部は、前記識別器ごとの評価値および前記外部から収集されたデータに割り当てられたラベルの組み合わせの分布に対して、SVMを用いて最終的なラベル判定を行うことを特徴とする請求項12記載のラベル付与装置。
- 前記判定部は、前記分割された文章データの直前または直後の文章データに対して割り当てられたラベルを参照して、前記分割された文章データに対して最終的なラベル判定を行うことを特徴とする請求項9から請求項13のいずれかに記載のラベル付与装置。
- 文章データにラベルを付与するラベル付与の方法であって、
一群の文章データを分割するステップと、
前記分割された文章データのそれぞれから特徴語を抽出するステップと、
前記抽出された特徴語と文章の性質を表す各ラベルとの関連性を表す関連値を算出するステップと、
前記算出された関連値を参照しつつ、一定の基準に基づいて前記分割された文章データにラベルを割り当てるステップと、を含むことを特徴とする方法。 - 文章データにラベルを付与するラベル付与のプログラムであって、
一群の文章データを分割する処理と、
前記分割された文章データのそれぞれから特徴語を抽出する処理と、
前記抽出された特徴語と文章の性質を表す各ラベルとの関連性を表す関連値を算出する処理と、
前記算出された関連値を参照しつつ、一定の基準に基づいて前記分割された文章データにラベルを割り当てる処理と、を含む一連の処理をコンピュータに実行させることを特徴とするプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014266375 | 2014-12-26 | ||
JP2014266375 | 2014-12-26 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016126748A JP2016126748A (ja) | 2016-07-11 |
JP6522446B2 true JP6522446B2 (ja) | 2019-05-29 |
Family
ID=56359537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015132018A Active JP6522446B2 (ja) | 2014-12-26 | 2015-06-30 | ラベル付与装置、方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6522446B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6722565B2 (ja) * | 2016-11-04 | 2020-07-15 | Kddi株式会社 | 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム |
JP6857212B2 (ja) * | 2019-05-29 | 2021-04-14 | 株式会社日立製作所 | 文書検索システム、文書検索装置及び方法 |
CN111090987B (zh) * | 2019-12-27 | 2021-02-05 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4976912B2 (ja) * | 2007-04-27 | 2012-07-18 | 日本電信電話株式会社 | ラベル付与方法、ラベル付与装置、ラベル付与プログラムおよびその記憶媒体 |
JP5286125B2 (ja) * | 2009-03-24 | 2013-09-11 | Kddi株式会社 | 単語境界決定装置および形態素解析装置 |
JP5462546B2 (ja) * | 2009-08-06 | 2014-04-02 | 日本電信電話株式会社 | コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム |
-
2015
- 2015-06-30 JP JP2015132018A patent/JP6522446B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016126748A (ja) | 2016-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9542477B2 (en) | Method of automated discovery of topics relatedness | |
Luyckx et al. | The effect of author set size and data size in authorship attribution | |
US9424524B2 (en) | Extracting facts from unstructured text | |
Miura et al. | TeamX: A sentiment analyzer with enhanced lexicon mapping and weighting scheme for unbalanced data | |
Duwairi et al. | Sentiment analysis for Arabizi text | |
US9645988B1 (en) | System and method for identifying passages in electronic documents | |
JP2015505082A (ja) | 情報ドメインに対する自然言語処理モデルの生成 | |
CN111552766A (zh) | 使用机器学习来表征在引用图形上应用的参考关系 | |
Thushara et al. | A model for auto-tagging of research papers based on keyphrase extraction methods | |
JP6522446B2 (ja) | ラベル付与装置、方法およびプログラム | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
Yosef et al. | Hyena-live: Fine-grained online entity type classification from natural-language text | |
Papadakis et al. | Graph vs. bag representation models for the topic classification of web documents | |
Phan et al. | A sentiment analysis method of objects by integrating sentiments from tweets | |
CN116882414B (zh) | 基于大规模语言模型的评语自动生成方法及相关装置 | |
Balaguer et al. | CatSent: a Catalan sentiment analysis website | |
Zou et al. | Assessing software quality through web comment search and analysis | |
WO2023083176A1 (zh) | 样本处理方法、设备及计算机可读存储介质 | |
Hussain et al. | A technique for perceiving abusive bangla comments | |
JP2004030202A (ja) | 特徴語抽出システム | |
CN106462614B (zh) | 信息分析系统、信息分析方法以及信息分析程序 | |
Ma et al. | API prober–a tool for analyzing web API features and clustering web APIs | |
CN109213830B (zh) | 专业性技术文档的文档检索系统 | |
WO2018220688A1 (ja) | 辞書生成装置、辞書生成方法、及びプログラム | |
Rustagi et al. | DiNer-on building multilingual disease-news profiler |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180307 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180329 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190424 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6522446 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |