JP2018106390A - 分類器生成装置、分類器生成方法、及びコンピュータプログラム - Google Patents

分類器生成装置、分類器生成方法、及びコンピュータプログラム Download PDF

Info

Publication number
JP2018106390A
JP2018106390A JP2016251499A JP2016251499A JP2018106390A JP 2018106390 A JP2018106390 A JP 2018106390A JP 2016251499 A JP2016251499 A JP 2016251499A JP 2016251499 A JP2016251499 A JP 2016251499A JP 2018106390 A JP2018106390 A JP 2018106390A
Authority
JP
Japan
Prior art keywords
sentence
classification
classifier
data
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016251499A
Other languages
English (en)
Other versions
JP6715758B2 (ja
Inventor
亮博 小林
Akihiro Kobayashi
亮博 小林
尚樹 今井
Naoki Imai
尚樹 今井
啓一郎 帆足
Keiichiro Hoashi
啓一郎 帆足
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2016251499A priority Critical patent/JP6715758B2/ja
Publication of JP2018106390A publication Critical patent/JP2018106390A/ja
Application granted granted Critical
Publication of JP6715758B2 publication Critical patent/JP6715758B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】テキスト分類処理の効率の向上を図ること。【解決手段】単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更部と、文章データを分類する先である分類項目及び分類項目の階層を示す第1分類構造データに含まれる文を前記文変更部により変更して第2分類構造データを生成し、前記第2分類構造データと、前記第2分類構造データの分類項目及び分類項目の階層を識別するラベルが付与された第2教師データとを使用して分類器を生成する分類器生成部と、を備える。【選択図】図1

Description

本発明は、分類器生成装置、分類器生成方法、及びコンピュータプログラムに関する。
従来のテキスト分類技術として、例えば特許文献1,2が知られている。特許文献1のテキスト分類技術では、階層化されたカテゴリにテキストを分類する。特許文献2のテキスト分類技術では、文書の階層型分類において、情報のカテゴリを、検索に関連する情報を含むバイナリツリーのノードを含むバイナリツリーとして構成する。
特開2006−251975号公報 特開2006−18829号公報
しかし、上述した従来のテキスト分類技術では、階層化されたカテゴリにおいて階層が深くなるにつれて分類精度が低下する可能性があった。また、カテゴリの階層構造が大規模になると、実際の分類に不要のカテゴリも含まれる事象が発生して分類処理の効率が悪くなる可能性があった。このような問題の対処方法としてカテゴリの階層構造を人手で最適化することが考えられるが、処理時間の増大やコスト増等の負担のために難しい場合があった。
本発明は、このような事情を考慮してなされたものであり、その目的は、テキスト分類処理の効率の向上を図ることにある。
本発明の一態様は、単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更部と、文章データを分類する先である分類項目及び分類項目の階層を示す第1分類構造データに含まれる文を前記文変更部により変更して第2分類構造データを生成し、前記第2分類構造データと、前記第2分類構造データの分類項目及び分類項目の階層を識別するラベルが付与された第2教師データとを使用して分類器を生成する分類器生成部と、を備える分類器生成装置である。
本発明の一態様は、前記分類器生成部は、前記第1分類構造データの分類項目及び分類項目の階層を識別するラベルが付与された第1教師データに含まれる文を前記文変更部により変更して前記第2教師データを生成する、分類器生成装置である。
本発明の一態様は、前記分類器生成部が生成した分類器を使用して分類対象テキストデータを分類し、該分類の結果に基づいて当該分類器の代表文を生成する代表文生成部をさらに備える、分類器生成装置である。
本発明の一態様は、前記分類器生成部が生成した分類器を使用して、前記第2分類構造データに係る分類対象データを分類し、該分類の結果に基づいて当該分類器を補正するか否かを判断する分類器補正部をさらに備える、分類器生成装置である。
本発明の一態様は、単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更部と、文章データを分類する先である分類項目及び分類項目の階層を示す分類構造データを有する第1分類器に含まれる文を前記文変更部により変更して、第2分類器を生成する分類器生成部と、を備える分類器生成装置である。
本発明の一態様は、分類器生成装置が、単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更ステップと、前記分類器生成装置が、文章データを分類する先である分類項目及び分類項目の階層を示す第1分類構造データに含まれる文を前記文変更ステップにより変更して第2分類構造データを生成し、前記第2分類構造データと、前記第2分類構造データの分類項目及び分類項目の階層を識別するラベルが付与された第2教師データとを使用して分類器を生成する分類器生成ステップと、を含む分類器生成方法である。
本発明の一態様は、分類器生成装置が、単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更ステップと、前記分類器生成装置が、文章データを分類する先である分類項目及び分類項目の階層を示す分類構造データを有する第1分類器に含まれる文を前記文変更ステップにより変更して、第2分類器を生成する分類器生成ステップと、を含む分類器生成方法である。
本発明の一態様は、コンピュータに、単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更機能と、文章データを分類する先である分類項目及び分類項目の階層を示す第1分類構造データに含まれる文を前記文変更機能により変更して第2分類構造データを生成し、前記第2分類構造データと、前記第2分類構造データの分類項目及び分類項目の階層を識別するラベルが付与された第2教師データとを使用して分類器を生成する分類器生成機能と、を実現させるためのコンピュータプログラムである。
本発明の一態様は、コンピュータに、単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更機能と、文章データを分類する先である分類項目及び分類項目の階層を示す分類構造データを有する第1分類器に含まれる文を前記文変更機能により変更して、第2分類器を生成する分類器生成機能と、を実現させるためのコンピュータプログラムである。
本発明によれば、テキスト分類処理の効率の向上を図ることができるという効果が得られる。
一実施形態に係る分類システム1の構成例を示すブロック図である。 一実施形態に係る分類器生成方法の概要の説明図である。 一実施形態に係る分類器の説明図である。 一実施形態に係る分類器生成部11についての説明図である。 一実施形態に係る代表文生成部13についての説明図である。 一実施形態に係る分類器補正部14についての説明図である。 一実施形態に係る分類器生成方法の例1の手順を示す説明図である。 一実施形態に係る分類器生成方法の例2の手順を示す説明図である。 一実施形態に係る分類器生成方法の例3の手順を示す説明図である。 一実施形態に係る変形例1の説明図である。 一実施形態に係る分類構造データD1の構成例を示す図である。 一実施形態に係る分類器補正方法の例の手順を示すフローチャートである。 一実施形態に係る分類構造データD1に対する補正例を示す図である。
以下、図面を参照し、本発明の実施形態について説明する。
図1は、一実施形態に係る分類システム1の構成例を示すブロック図である。図1において、分類システム1は、分類器生成装置10と、コンテンツ分類装置20と、変換辞書31と、データベース32とを備える。分類器生成装置10は、分類器を生成する。コンテンツ分類装置20には、入力データとしてテキストデータ(入力テキストデータ)が入力される。コンテンツ分類装置20は、分類器生成装置10が生成した分類器を使用して、入力テキストデータを分類する。コンテンツ分類装置20は、入力テキストデータの分類の結果を示す分類結果データを出力する。
変換辞書31は電子辞書である。変換辞書31は単語の対のデータを有する。変換辞書31は、入力される単語(入力単語)についての対の単語(変換単語)を出力する。本実施形態では、変換辞書31の一例として反対語辞書を備える。反対語辞書としての変換辞書31は、入力単語の反対語を変換単語として出力する。
データベース32は、分類構造データと教師データを格納する。分類構造データは、テキストデータ(文章データ)を分類する先である分類項目及び分類項目の階層を示すデータである。分類構造データは予め作成されてデータベース32に格納される。分類構造データの作成には、例えば、グラウンデッド・セオリー・アプローチ(Grounded Theory Approach)技術を利用することができる。
教師データは、分類構造データの分類項目及び分類項目の階層を識別するラベルが付与されたテキストデータである。教師データの元のテキストデータは、例えば、一般大衆に対して実施されたアンケートの回答として自由記述された文章(自由記述文)のテキストデータである。該テキストデータに対して分類構造データの該当する分類項目及び分類項目の階層を識別するラベルが付与されたデータが、教師データとして利用される。例えば、人間がテキストデータを分析して該テキストデータに付与すべきラベルを判断し、判断結果のラベルを該テキストデータに付与する。
分類器生成装置10は、分類器生成部11と、文変更部12と、代表文生成部13と、分類器補正部14とを備える。分類器生成部11は、分類器を生成する分類器生成機能を有する。分類器生成部11は、分類構造データと教師データとを使用して分類器を生成する。文変更部12は、文の意味を変更する文変更機能を有する。文変更部12は、単語を置換又は単語を追加もしくは削除して文の意味を変更する。代表文生成部13は、分類器の代表文を生成する代表文生成機能を有する。代表文生成部13は、分類器生成部11が生成した分類器を使用して分類対象テキストデータを分類し、該分類の結果に基づいて当該分類器の代表文を生成する。分類器補正部14は、分類器を補正する分類器補正機能を有する。分類器補正部14は、分類器生成部11が生成した分類器を使用して分類対象データを分類し、該分類の結果に基づいて当該分類器を補正するか否かを判断する。
分類器生成装置10は、専用のハードウェアにより実現されるものであってもよく、又は、パーソナルコンピュータ等の汎用のコンピュータ装置により構成され、分類器生成装置10の機能を実現するためのコンピュータプログラムを実行することによりその機能を実現させるものであってもよい。コンテンツ分類装置20は、専用のハードウェアにより実現されるものであってもよく、又は、パーソナルコンピュータ等の汎用のコンピュータ装置により構成され、コンテンツ分類装置20の機能を実現するためのコンピュータプログラムを実行することによりその機能を実現させるものであってもよい。
分類器生成装置10とコンテンツ分類装置20とは、それぞれ別個の装置として構成されてもよく、又は、一つの装置として構成されてもよい。例えば、分類器生成装置10とコンテンツ分類装置20とは、それぞれ別個のコンピュータ装置により各装置10,20の機能がコンピュータプログラムにより実現されてもよく、又は、1台のコンピュータ装置により両装置10,20の機能がコンピュータプログラムにより実現されてもよい。
分類器生成装置10は、変換辞書31にアクセスする。変換辞書31は、分類器生成装置10の内部に設けられてもよく、又は、分類器生成装置10の外部に設けられて通信により分類器生成装置10からアクセスされてもよい。
分類器生成装置10は、データベース32にアクセスする。データベース32は、分類器生成装置10の内部に設けられてもよく、又は、分類器生成装置10の外部に設けられて通信により分類器生成装置10からアクセスされてもよい。
次に図2を参照して本実施形態に係る分類器生成方法の概要を説明する。一般にアンケート調査では、「質問a:○○の良い点をお知らせ下さい。」、「質問b:○○の悪い点をお知らせ下さい。」のように商品やサービスなどの良い点と悪い点とを2つの質問に分けて聞くことがある。これら2つの質問a,bに対する各回答を、機械学習を用いて分類する場合、質問aの分類器と質問bの分類器とをそれぞれに生成する必要がある。このため、質問aの分類器の生成に使用される分類構造データ及び教師データと、質問bの分類器の生成に使用される分類構造データ及び教師データと、を準備することになる。
図2は、本実施形態に係る分類器生成方法の概要の説明図である。図2の例では、通信サービスについてのアンケート調査において、サービスに対しての不満な点を聞く質問Aと、サービスに対しての満足な点を聞く質問Bと、を行う。そして、これら2つの質問A,Bに対する各回答を、機械学習を用いて分類するために、質問Aの分類器A3と質問Bの分類器B3とをそれぞれに生成する。この分類器生成のため、質問Aの分類器の生成に使用される分類構造データA1及び教師データA2と、質問Bの分類器の生成に使用される分類構造データB1及び教師データB2と、を準備する。これら分類構造データA1及び教師データA2、並びに、分類構造データB1及び教師データB2を人手で生成すると、処理時間の増大やコスト増等の負担が課題となる。
そのような課題に鑑み、本実施形態では、予め準備される一方の分類構造データ及び教師データから、もう一方の分類構造データ及び教師データを自動的に生成することによって、処理時間の増大やコスト増等の負担の軽減を図る。図2の例では、一方の分類構造データA1及び教師データA2については例えば人手で生成する等により予め準備する。しかし、もう一方の分類構造データB1及び教師データB2については、分類構造データA1及び教師データA2から自動的に生成する。これは、例えば、質問Aと質問Bのように同じ回答者に対して意味的に反対の質問をする場合、似通った分類構造データになることが考えられるからである。
図2において、分類構造データA1は、第1階層の分類項目として3つの分類項目「通信品質不満」、「端末不満」及び「アフター不満」を有する。また、分類構造データA1は、第1階層の分類項目「端末不満」の下層である第2階層の分類項目として3つの分類項目「電池持ちが悪い」、「画面が小さい」及び「記憶容量が小さい」を有する。各分類項目の文は代表文である。代表文は、人が分類項目を理解するために設けられる文である。分類構造データA1は、各分類項目の代表文を有する。分類構造データA1は、各階層の対応する分類項目を関連付けるリンク情報を有する。例えば、分類構造データA1は、第1階層の分類項目「端末不満」と第2階層の分類項目「電池持ちが悪い」、「画面が小さい」及び「記憶容量が小さい」をそれぞれに関連付けるリンク情報を有する。
本実施形態では、予め準備された分類構造データA1の各代表文について文の意味を変更するように文を変更することにより、分類構造データA1を分類構造データB1に変換する。図2の例では、代表文の単語を反対語に置換して文の意味を変更している。例えば、分類構造データA1の代表文中の単語「不満」を反対語「満足」に変更することにより、分類構造データB1の代表文にしている。また、分類構造データA1の代表文中の単語「悪い」を反対語「良い」に変更することにより、分類構造データB1の代表文にしている。このように、本実施形態では、分類構造データA1の各代表文を意味的に変更することにより、分類構造データA1を分類構造データB1に変換する。
なお、分類構造データA1の分類項目及び分類項目の階層と、分類構造データB1の分類項目及び分類項目の階層とは、それぞれ対応している。分類構造データA1の第n階層の第m番目の分類項目の代表文を意味的に変更した文は、分類構造データB1の同じ第n階層の第m番目の分類項目の代表文になる。
図2において、教師データA2は、自由記述文と、分類構造データA1による該自由記述文の分類結果との組を有する。例えば、教師データA2は、自由記述文「電池が長持しない」と分類結果「電池持ちが悪い」との組を有する。これは、自由記述文「電池が長持しない」が分類構造データA1の分類項目「電池持ちが悪い」に分類されたことを示す。教師データA2は、予め準備される。例えば、教師データA2の各自由記述文が分類構造データA1のどの分類項目に当てはまるのかを人手で判断し、該判断結果の分類項目及び分類項目の階層を識別するラベルを教師データA2の当該自由記述文に付与する。
本実施形態では、予め準備された教師データA2の各自由記述文について文の意味を変更するように文を変更することにより、教師データA2を教師データB2に変換する。図2の例では、自由記述文の単語を反対語に置換して文の意味を変更している。例えば、教師データA2の自由記述文「電池が長持しない」中の単語「しない」を反対語「する」に変更することにより、教師データB2の自由記述文「電池が長持する」にしている。このように、本実施形態では、教師データA2の各自由記述文を意味的に変更することにより、教師データA2を教師データB2に変換する。図2の例では、教師データA2の自由記述文の意味的な変更は、分類構造データA1の代表文の意味的な変更と同じの反対語に置換になっている。
なお、教師データA2の自由記述文に付与されるラベルと、教師データB2の自由記述文に付与されるラベルとは、それぞれ対応している。教師データA2の第n番目の自由記述文を意味的に変更した文は、教師データB2において、該教師データA2の第n番目の自由記述文と同じラベルが付与された自由記述文になる。
図2において、サービスに対しての不満な点を聞く質問Aの分類器A3(説明の便宜上、不満分類器A3と称する場合がある)は、分類構造データA1及び教師データA2を使用して生成される。サービスに対しての満足な点を聞く質問Bの分類器B3(説明の便宜上、満足分類器B3と称する場合がある)は、分類構造データB1及び教師データB2を使用して生成される。
図3は、本実施形態に係る分類器の説明図である。図3の例では、満足分類器B3の説明図である。分類器は、ラベルが付与されていないテキストデータ(ラベル無しテキストデータ)に対してラベルを付与するためのラベル付与規則の集合体ということができる。分類器は、入力されたラベル無しテキストデータに対して自己のラベル付与規則に従ってラベルを付与し、該ラベル無しテキストデータに該ラベルが付与されたテキストデータ(ラベル有りテキストデータ)を出力する。
図3において、満足分類器B3には、ラベル無しテキストデータ「店員の笑顔が良かったです」が入力される。満足分類器B3は、ラベル無しテキストデータ「店員の笑顔が良かったです」に対して自己のラベル付与規則に従って、代表文「店頭スタッフの接客態度が良い」に対応するラベルを付与する。満足分類器B3は、該ラベルを付与したテキストデータ「店員の笑顔が良かったです」を、分類結果データとして出力する。この分類結果データは、テキストデータ「店員の笑顔が良かったです」が代表文「店頭スタッフの接客態度が良い」の分類項目に分類されたことを示す。
次に図1に示す分類器生成装置10について説明する。
[文変更部]
文変更部12は、単語を置換又は単語を追加もしくは削除して文の意味を変更する。文変更部12は、入力文に対して形態素解析および係り受け解析を行う。形態素解析には、例えば「Mecab」と呼ばれるソフトウェアを使用してもよい。係り受け解析には、例えば「CaboCha」と呼ばれるソフトウェアを使用してもよい。
(文変更方法の例1)
文変更方法の例1を説明する。文変更方法の例1は、形態素解析および係り受け解析の結果、入力文中に述語項構造が発見された場合である。文変更部12は、形態素解析および係り受け解析の結果、入力文中に述語項構造がある場合には、該述部の単語の変更を行う。この述部の単語の変更において、文変更部12は、述部の単語を変換辞書31に渡す。変換辞書31は、該述部の単語(入力単語)についての対の単語(変換単語)を文変更部12に返答する。本実施形態では、変換辞書31は反対語辞書である。よって、文変更部12は、入力文中の述部の単語の反対語を、変換辞書31から受け取る。文変更部12は、変換辞書31から受け取った反対語により、入力文中の述部の単語を置換する。文変更部12は、入力文の述部の単語が反対語に置換された文(変更文)を出力する。文変更方法の例1の一例として、文変更部12は、入力文「速度が遅い」に対して、述部の単語「遅い」を反対語「速い」に置換し、変更文「速度が速い」を出力する。
(文変更方法の例2)
文変更方法の例2を説明する。文変更方法の例2は、上記した文変更方法の例1において、変換辞書31に、入力単語と対の単語(変換単語)が存在しない場合である。文変更部12は、形態素解析および係り受け解析の結果、入力文中に述語項構造がある場合には、該述部の単語の変更を行う。この述部の単語の変更において、文変更部12は、述部の単語を変換辞書(反対語辞書)31に渡す。変換辞書31は、該述部の単語(入力単語)と対の単語(変換単語)が存在しないこと(変換単語無し)を、文変更部12に返答する。文変更部12は、該変換辞書31からの変換単語無しとの返答に応じて、入力文中の述部の単語に否定語を追加する、又は、入力文中の述部の単語から否定語を削除する。文変更部12は、入力文中の述部の単語に否定語が付いていない場合には該否定語を追加し、一方、入力文中の述部の単語に否定語が付いている場合には該否定語を削除する。文変更部12は、入力文の述部の単語に否定語を追加するか、又は、入力文の述部の単語から否定語を削除するかした文(変更文)を出力する。文変更方法の例2の一例として、文変更部12は、入力文「電話が繋がらない」に対して、述部の単語「電話が繋がらない」に付いている否定語「ない」を削除し、肯定文に整えた変更文「電話が繋がる」を出力する。
(文変更方法の例3)
文変更方法の例3を説明する。文変更方法の例3は、形態素解析および係り受け解析の結果、入力文中に述語項構造が発見されなかった場合(体言止めである場合)である。文変更部12は、形態素解析および係り受け解析の結果、入力文中に述語項構造が発見されなかった場合には、入力文中の体言止めの単語(最終文節の名詞)の変更を行う。この体言止めの単語の変更において、文変更部12は、体言止めの単語を変換辞書(反対語辞書)31に渡す。変換辞書31は、該述部の単語(入力単語)と対の単語(変換単語)である反対語を文変更部12に返答する。文変更部12は、変換辞書31から受け取った反対語により、入力文中の体言止めの単語を置換する。文変更部12は、入力文の体言止めの単語が反対語に置換された文(変更文)を出力する。文変更方法の例3の一例として、文変更部12は、入力文「通信品質不満」に対して、体言止めの単語「不満」を反対語「満足」に置換し、変更文「通信品質満足」を出力する。文変更方法の例3の他の一例として、文変更部12は、入力文「価格の上昇」に対して、体言止めの単語「上昇」を反対語「低下」に置換し、変更文「価格の低下」を出力する。
[分類器生成部]
分類器生成部11は、分類構造データと教師データとを使用して分類器を生成する。分類器として、例えば、SVM(Support Vector Machine)又は「Bayesian Network」などの分類器が挙げられる。図4を参照して分類器生成部11について説明する。データベース32には、予め、質問Aの分類器の生成に使用される分類構造データA1及び教師データA2が格納されている。分類器生成部11は、分類構造データA1及び教師データA2をデータベース32から取得する。
分類器生成部11は、分類構造データA1及び教師データA2を使用して、質問Aの分類器(不満分類器)A3を生成する。
質問Bの分類器(満足分類器)B3の生成方法を説明する。分類器生成部11は、分類構造データA1に含まれる各代表文を文変更部12により変更して、分類構造データB1を生成する。図4(1)において、分類器生成部11は、分類構造データA1に含まれる各代表文を文変更部12に渡し、文変更部12から各代表文に対する変更文を受け取る。分類器生成部11は、分類構造データA1の各代表文を、文変更部12から受け取った各変更文に置換する。この置換後の分類構造データを分類構造データB1として使用する。分類構造データB1のリンク情報は、分類構造データA1のリンク情報をそのまま使用する。
分類器生成部11は、教師データA2に含まれる各自由記述文を文変更部12により変更して、教師データB2を生成する。図4(2)において、分類器生成部11は、教師データA2に含まれる各自由記述文を文変更部12に渡し、文変更部12から各自由記述文に対する変更文を受け取る。分類器生成部11は、文変更部12から受け取った各変更文に対して、教師データA2の元の各自由記述文と同じラベルを付与する。このラベル付与後の変更文群を教師データB2として使用する。
分類器生成部11は、分類構造データB1及び教師データB2を使用して、質問Bの分類器(満足分類器)B3を生成する。
本実施形態において、分類構造データA1は第1分類構造データに対応し、教師データA2は第1教師データに対応する。また、分類構造データB1は第2分類構造データに対応し、教師データB2は第2教師データに対応する。
[代表文生成部]
代表文生成部13は、分類器生成部11が生成した分類器を使用して分類対象テキストデータを分類し、該分類の結果に基づいて当該分類器の代表文を生成する。図5を参照して代表文生成部13について説明する。データベース32には、予め、満足分類対象データB4が格納されている。満足分類対象データB4は、サービスに対しての満足な点を聞く質問Bに対する回答のテキストデータである。満足分類対象データB4には、ラベルが付与されていない。代表文生成部13は、満足分類対象データB4をデータベース32から取得する。代表文生成部13は、分類器生成部11が生成した満足分類器B3を使用して、満足分類対象データB4を分類する。満足分類器B3は、入力された満足分類対象データB4にラベルを付与した満足分類結果データB5を出力する。代表文生成部13は、満足分類器B3を使用して、複数の満足分類対象データB4(満足分類対象データ群)から、複数の満足分類結果データB5(満足分類結果データ群)を取得する。
代表文生成部13は、満足分類結果データ群に基づいて、満足分類器B3の代表文を生成する。この代表文の生成では、代表文生成部13は、満足分類結果データ群の中に顕著に現れる語句(重要語句)を抽出する。この重要語句の抽出には、例えばAIC(Akaike's Information Criterion)と呼ばれる情報量規準を使用してもよい。代表文生成部13は、満足分類結果データ群内で重要語句との共起頻度が高い語句を抽出する。代表文生成部13は、満足分類結果データ群において、一の分類項目に分類された文のうち、重要語句と、該重要語句との共起頻度が高い語句との両方を含む文を選択する。該選択された文が複数存在する場合には、代表文生成部13は、さらに、該選択された文のうち、最も短い文を選択する。代表文生成部13は、選択結果の文を、当該分類項目の代表文に決定する。
代表文生成部13は、決定した分類項目の代表文を分類器生成部11に渡す。分類器生成部11は、代表文生成部13から受け取った分類項目の代表文に、満足分類器B3の当該分類項目の代表文を置換する。これにより、満足分類器B3の代表文は、代表文生成部13が生成した代表文に置換される。
本実施形態によれば、満足分類器B3の分類項目の代表文を、満足分類対象データB4に含まれる文から生成することができる。満足分類対象データB4に含まれる文は、質問Bに回答する人の文であるので、文の表現が自然であると考えられる。このため、満足分類器B3の分類項目の代表文を、満足分類対象データB4に含まれる文から生成することによって、満足分類器B3の分類結果データに対応する代表文を、人にとって理解しやすい自然な文にすることができる。これは、本実施形態において、満足分類器B3の生成に使用される分類構造データB1の代表文を、不満分類器A3の生成に使用される分類構造データA1の代表文から文変更部12により変更して生成したこと、に起因する代表文の表現の不自然さを解決するという格別な効果を奏する。
[分類器補正部]
分類器補正部14は、分類器生成部11が生成した分類器を使用して分類対象データを分類し、該分類の結果に基づいて当該分類器を補正するか否かを判断する。図6を参照して分類器補正部14について説明する。サービスに対しての不満な点を聞く質問Aと、サービスに対しての満足な点を聞く質問Bとでその回答の出現傾向が異なる場合、質問Aに係る分類構造データA1の分類構造は、そのままでは質問Bに係る分類構造に合わない可能性がある。
図6の例では、質問Aに係る分類構造データA1の第1階層の分類項目「アフター不満」の下層である第2階層の分類項目「店頭対応」については、回答の量や種類が多い。一方、質問Bに係る分類構造データB1の同じ第1階層の分類項目「アフター不満」の下層である第2階層の分類項目「店頭対応」については、回答の量や種類が少ない。このため、該分類構造データB1をそのまま使用すると、該分類項目「店頭対応」の回答の量や種類が少ないにもかかわらず、該分類項目「店頭対応」の微細に分かれた下位の階層の分類構造を利用することにより、分類精度が低下する可能性がある。このような課題の解決のために、本実施形態では、分類器補正部14によって、分類器生成部11が生成した分類器の補正を行う。
分類器補正部14は、分類器生成部11が生成した満足分類器B3を使用して、複数の満足分類対象データB4(満足分類対象データ群)から、複数の満足分類結果データB5(満足分類結果データ群)を取得する。分類器補正部14は、満足分類結果データ群において各分類項目(ラベル)の出現頻度を算出する。分類器補正部14は、各分類項目の出現頻度の間の差が所定値以上である場合には当該満足分類器B3の補正を行うと判断し、各分類項目の出現頻度の間の差が所定値未満である場合には当該満足分類器B3の補正を行わないと判断する。分類器補正部14は、満足分類器B3の補正を行うと判断した場合には、満足分類器B3を所定の分類器補正方法により補正する。
次に本実施形態に係る分類器生成方法の例を説明する。
[分類器生成方法の例1]
図7を参照して本実施形態に係る分類器生成方法の例1を説明する。図7は、本実施形態に係る分類器生成方法の例1の手順を示す説明図である。
(ステップS11)分類器生成部11は、不満分類構造データA1に含まれる各代表文を文変更部12により変更して、満足分類構造データB1を生成する。サービスに対しての不満な点を聞く質問Aに係る分類構造データのことを、不満分類構造データA1と称する。サービスに対しての満足な点を聞く質問Bに係る分類構造データのことを、満足分類構造データB1と称する。
分類器生成部11は、不満教師データA2に含まれる各自由記述文を文変更部12により変更して、満足教師データB2を生成する。サービスに対しての不満な点を聞く質問Aに係る教師データのことを、不満教師データA2と称する。サービスに対しての満足な点を聞く質問Bに係る教師データのことを、満足教師データB2と称する。不満教師データA2及び満足教師データB2には、各自由記述文にラベルが付与されている。
(ステップS12)分類器生成部11は、満足分類構造データB1及び満足教師データB2を使用して、質問Bの満足分類器B3を生成する。
[分類器生成方法の例2]
図8を参照して本実施形態に係る分類器生成方法の例2を説明する。図8は、本実施形態に係る分類器生成方法の例2の手順を示す説明図である。図8において図7の各ステップに対応する部分には同一の符号を付け、その説明を省略する。ステップS11及びステップS12が実行されて、満足分類器B3が生成される。次いでステップS21が実行される。
(ステップS21)代表文生成部13は、満足分類器B3を使用して、複数の満足分類対象データB4(満足分類対象データ群)から、複数の満足分類結果データB5(満足分類結果データ群)を取得する。
(ステップS22)代表文生成部13は、満足分類結果データ群に基づいて、満足分類器B3の代表文を生成する。分類器生成部11は、満足分類器B3の代表文を、代表文生成部13が生成した代表文に置換することにより、代表文が変更された満足分類器B3aを生成する。
[分類器生成方法の例3]
図9を参照して本実施形態に係る分類器生成方法の例3を説明する。図9は、本実施形態に係る分類器生成方法の例3の手順を示す説明図である。図9において図7及び図8の各ステップに対応する部分には同一の符号を付け、その説明を省略する。ステップS11、ステップS12が実行されて、満足分類器B3が生成される。次いでステップS31が実行される。
(ステップS31)分類器補正部14は、満足分類器B3を使用して、複数の満足分類対象データB4(満足分類対象データ群)から、複数の満足分類結果データB5(満足分類結果データ群)を取得する。
(ステップS32)分類器補正部14は、満足分類結果データ群において各分類項目(ラベル)の出現頻度を算出する。分類器補正部14は、各分類項目の出現頻度の間の差が所定値以上である場合には当該満足分類器B3の補正を行うと判断し、各分類項目の出現頻度の間の差が所定値未満である場合には当該満足分類器B3の補正を行わないと判断する。分類器補正部14は、満足分類器B3の補正を行うと判断した場合には、満足分類器B3を所定の補正方法により補正して満足分類器B3bを生成する。
次に本実施形態に係る変形例を説明する。
[変形例1]
図10は、本実施形態に係る変形例1の説明図である。変形例1では、分類器生成部11は、分類器に含まれる文を文変更部12により変更することにより、他の分類器を生成する。図10において、分類器生成部11は、不満分類器A3に含まれる各文を文変更部12により変更する。分類器生成部11は、該文の変更後の不満分類器A3を、満足分類器B3とする。変形例1において、不満分類器A3は第1分類器に対応し、満足分類器B3は第2分類器に対応する。
[変形例2]
変形例2は、文変更方法の変形例である。文が主語と述語とを有する場合、主語に応じて、変更先の述語を選択することが好ましい場合がある。このため、変形例2では、文の主語に応じて変更先の述語を選択する。変形例2では、変換辞書31は、主語になり得る単語に関連付けて単語の対のデータを有する。文変更部12は、形態素解析および係り受け解析の結果、入力文中に述語項構造と主語とが発見された場合、該主語の単語と述部の単語とを変換辞書31に渡す。変換辞書31は、該主語の単語に関連付けられている単語の対のデータを使用して、該述部の単語(入力単語)についての対の単語(変換単語)を文変更部12に返答する。文変更部12は、変換辞書31から受け取った変換単語により、入力文中の述部の単語を置換する。これにより、文変更部12は、入力文中の主語に応じて適切な述語の変更を行うことができる。
変形例2の一適用例を説明する。異なるサービスXとサービスYであってもサービスに対する利用者の関心の持ち方が似ている場合には、分類構造データの分類項目及び分類項目の階層の構造を同じくすることができる。但し、サービスXとサービスYとが異なるサービスであるために、分類構造データに使用される代表文については、サービスXとサービスYとで代表文の表現の仕方が異なる場合がある。例えば、サービスXとサービスYとで代表文の主語が異なると、同じ満足と不満足の関係の表現であっても述語に使用される単語も異なる方が自然である場合がある。このような場合、変形例2によれば、主語に応じて適切な述語の変更を行うことができるので、サービスXの代表文の主語をサービスYに相応しい主語に代えてから文変更部12により述語を変更することにより、サービスXの代表文からサービスYに相応しい代表文に変更することができる。これにより、異なるサービスXとサービスYについて、サービスXに関する分類構造データや教師データから、サービスYに関する分類構造データや教師データを生成することができるという効果が得られる。
次に本実施形態に係る分類器補正方法の例を説明する。
[分類器補正方法の例]
図11、図12及び図13を参照して本実施形態に係る分類器補正方法の例を説明する。図11は、本実施形態に係る分類構造データD1の構成例を示す図である。分類構造データD1は、分類器Dの分類構造データである。図11において、分類構造データD1は、第1階層から第3階層までの3つの階層を有し、階層毎に分類項目を有する。
分類構造データD1において、第1階層の分類項目は「音楽」であり、第1階層の分類項目「音楽」の識別番号は「1」である。第1階層の分類項目「音楽」に属する下層である第2階層の分類項目は「ジャンル」と「音色」であり、該第2階層の分類項目「ジャンル」の識別番号は「1」であり、該第2階層の分類項目「音色」の識別番号は「2」である。第2階層の分類項目「ジャンル」に属する下層である第3階層の分類項目は「クラシック」と「ポップス」であり、該第3階層の分類項目「クラシック」の識別番号は「1」であり、該第3階層の分類項目「ポップス」の識別番号は「2」である。第2階層の分類項目「音色」に属する下層である第3階層の分類項目は「くらい」と「明るい」と「暖かい」であり、該第3階層の分類項目「くらい」の識別番号は「1」であり、該第3階層の分類項目「明るい」の識別番号は「2」であり、該第3階層の分類項目「暖かい」の識別番号は「3」である。
分類構造データD1は、例えばテキストデータを音楽のジャンルや印象で分類する場合に利用される。分類構造データD1において、第1階層は、分類対象のテキストデータのうちトピックが「音楽」であるテキストデータを分類する先となる。第2階層は、トピックが「音楽」であるテキストデータのうち「ジャンル」又は「音色」に関するテキストデータを分類する先となる。第3階層は、トピックが「音楽」であるテキストデータであって「ジャンル」又は「音色」に関するテキストデータのうち「ジャンル」又は「音色」の具体的な分類項目に関するテキストデータを分類する先となる。
分類器Dによって、分類構造データD1に基づいて分類されたテキストデータには、分類された先の分類項目の識別番号から構成されるラベルが付与される。図11には、第3階層まで分類されたテキストデータに対して付与されるラベル「111」,「112」,「121」,「122」及び「123」が示される。例えば、テキストデータ「私の好きな音楽はクラシック」に対して、分類結果のラベル「111」が付与される。テキストデータ「暖かい音色の音楽が好き」に対して、分類結果のラベル「123」が付与される。また、第2階層まで分類されたテキストデータとして、例えば「私は音楽ならどんなジャンルでも好き」に対して、分類結果のラベル「11」が付与される。また、第1階層まで分類されたテキストデータとして、例えば「私は音楽が好き」に対して、分類結果のラベル「1」が付与される。
分類器補正部14は、分類器Dの分類構造データD1の補正を行う。図12を参照して分類器補正部14の分類器補正に係る動作を説明する。図12は、本実施形態に係る分類器補正方法の例の手順を示すフローチャートである。図12に示す分類器補正方法の手順(ステップS111〜S114)は、分類構造データにおける上位の階層から下位の階層へと順番に実行される。分類構造データD1に対して、最初に第1階層に対してステップS111〜S114を実行し、次いで第2階層に対してステップS111〜S114を実行し、最後に第3階層に対してステップS111〜S114を実行する。
分類構造データD1の補正には検証教師データD2を使用する。検証教師データD2は、例えば、直近の一定期間(例えば、直近の半年間)に実施されたアンケートの回答として自由記述された文章のテキストデータに対して、分類構造データD1に属するラベルのうち正解ラベルが付与されたテキストデータである。例えば、人間がテキストデータを分析して該テキストデータの正解ラベルを判断し、判断結果の正解ラベルを該テキストデータに付与する。検証教師データは、データベース32に予め格納されている。
(ステップS111)分類器補正部14は、分類構造データD1における検証対象階層の分類項目のうち検証対象分類項目に対して、検証教師データD2の仕分けを行う。検証教師データD2の仕分けでは、検証対象分類項目に対して、検証対象分類項目の識別番号を含む正解ラベルが付与された検証教師データD2aと、検証対象分類項目の識別番号を含まない正解ラベルが付与された検証教師データD2bとに仕分ける。例えば、分類構造データD1の第2階層の分類項目「ジャンル」が検証対象分類項目である場合、該分類項目「ジャンル」の識別番号「1」を含むラベル「11」,「111」又は「112」が付与された検証教師データD2aと、該分類項目「ジャンル」の識別番号「1」を含まないラベル「1」,「12」,「121」,「122」又は「123」が付与された検証教師データD2bとに仕分ける。検証対象分類項目の識別番号を含む正解ラベルが付与された検証教師データD2aは、検証対象分類項目の検証正例データグループにグルーピングされる。検証対象分類項目の識別番号を含まない正解ラベルが付与された検証教師データD2bは、検証対象分類項目の検証負例データグループにグルーピングされる。
分類器補正部14は、検証対象分類項目の検証正例データグループ内の検証教師データD2aを所定の比率で検証学習データと検証テストデータに仕分ける。分類器補正部14は、検証対象分類項目の検証負例データグループ内の検証教師データD2bについても、該同じ比率で検証学習データと検証テストデータに仕分ける。例えば、検証対象分類項目の検証正例データグループ内の全検証教師データD2aのうち、90%の検証教師データD2aを検証対象分類項目の検証正例学習データグループにグルーピングし、残りの10%の検証教師データD2aを検証対象分類項目の検証正例テストデータグループにグルーピングする。同様に、検証対象分類項目の検証負例データグループ内の全検証教師データD2bのうち、90%の検証教師データD2bを検証対象分類項目の検証負例学習データグループにグルーピングし、残りの10%の検証教師データD2bを検証対象分類項目の検証負例テストデータグループにグルーピングする。
(ステップS112)分類器補正部14は、検証対象分類項目の検証正例学習データグループ及び検証負例学習データグループを使用して、検証対象分類項目についての分類器を生成する。分類器補正部14が生成する分類器の種類は、分類器生成部11が生成する分類器と同じ種類である。例えば、分類器生成部11と分類器補正部14とは、SVMの分類器を生成する。検証対象分類項目についての分類器は、分類対象のテキストデータが検証対象分類項目に該当するか否かを判定する機能を有する。
(ステップS113)分類器補正部14は、検証対象分類項目の検証正例テストデータグループ又は検証負例テストデータグループを使用して、検証対象分類項目についての分類器の適合度を計算する。分類器の適合度の例1〜4を以下に挙げる。
(分類器の適合度の例1)
分類器の適合度の例1は正解率(Accuracy)である。正解率は、次式で表される。
正解率=(TP+TN)/(TP+FP+TN+FN)
(分類器の適合度の例2)
分類器の適合度の例2は真陽性率(True Positive Rate)である。真陽性率は、次式で表される。
真陽性率=TP/(TP+FN)
(分類器の適合度の例3)
分類器の適合度の例3は偽陰性率(False Negative Rate)である。偽陰性率は、次式で表される。
偽陰性率=FN/(TP+FN)
(分類器の適合度の例4)
分類器の適合度の例4は精度(Precision)である。精度は、次式で表される。
精度=TP/(TP+FP)
上記の分類器の適合度の例1〜4において、TP(True positives)は、検証正例テストデータグループの検証教師データを分類器に適用した結果、正しく正例と判定された検証教師データの個数である。TN(True negatives)は、検証負例テストデータグループの検証教師データを分類器に適用した結果、正しく負例と判定された検証教師データの個数である。FP(False positives)は、検証負例テストデータグループの検証教師データを分類器に適用した結果、誤って正例と判定された検証教師データの個数である。FN(False negatives)は、検証正例テストデータグループの検証教師データを分類器に適用した結果、誤って負例と判定された検証教師データの個数である。
なお、上記の分類器の適合度の例1〜4のうち、いずれか一つのみを分類器の適合度に使用してもよく、又は、複数を分類器の適合度に使用してもよい。
(ステップS114)分類器補正部14は、検証対象分類項目についての分類器の適合度に基づいて、当該分類器の合否を判定する。例えば、上記の分類器の適合度の例1〜4のうち、いずれか一つのみ又は複数を評価し、評価の結果、適合度が良好である場合に合格と判定する。例えば、上記の分類器の適合度の例1〜4のうち、少なくともいずれか一つの適合度が良好である場合に合格と判定してもよい。又は、上記の分類器の適合度の例1〜4の全てが良好である場合にのみ合格と判定してもよい。適合度の評価方法として、例えば、適合度と所定の閾値との大小比較が挙げられる。
分類器補正部14は、検証対象分類項目についての分類器が合格である場合に、当該検証対象分類項目を採用する。一方、分類器補正部14は、検証対象分類項目についての分類器が不合格である場合に、当該検証対象分類項目を不採用とする。
なお、不採用とされた検証対象分類項目に属する下層の分類項目に対しては、上記のステップS111〜S114を実行しないで、不採用としてもよい。
分類器補正部14は、不採用とする検証対象分類項目を、分類構造データD1から削除する、又は、分類構造データD1の判定不能項目に設定する。
図13は、本実施形態に係る分類構造データD1に対する補正例を示す図である。図13には、上記の図11に示す分類構造データD1を、分類器補正部14が補正した結果の例が示される。図13の例では、分類器補正部14によって第2階層の分類項目「音色」が不採用と決定された。また、第2階層の分類項目「音色」が不採用と決定されために、第2階層の分類項目「音色」に属する下層である第3階層の分類項目「くらい」,「明るい」及び「暖かい」の全てが不採用と決定された。これにより、分類器Dの分類構造データD1において、第2階層の分類項目「音色」並びに第3階層の分類項目「くらい」,「明るい」及び「暖かい」が削除される、又は、第2階層の分類項目「音色」並びに第3階層の分類項目「くらい」,「明るい」及び「暖かい」が判定不能項目に設定される。
以上が本実施形態に係る分類器補正方法の例の説明である。
上述した実施形態によれば、予め準備された分類構造データから、他の分類構造データを自動的に生成することができる。これにより、テキスト分類処理の効率の向上を図ることができるという効果が得られる。
上述した実施形態によれば、予め準備された教師データから、他の教師データを自動的に生成することができる。これにより、テキスト分類処理の効率の向上を図ることができるという効果が得られる。
なお、上述した実施形態では、分類構造データと教師データとの両方を自動的に生成したが、分類構造データ又は教師データのいずれか一方のみを自動的に生成してもよい。
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
例えば、上述した実施形態では、変換辞書31として反対語辞書を備えたが、変換辞書31は適宜変更してもよい。
また、上述した各装置の機能を実現するためのコンピュータプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するようにしてもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、DVD(Digital Versatile Disc)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
1…分類システム、10…分類器生成装置、11…分類器生成部、12…文変更部、13…代表文生成部、14…分類器補正部、20…コンテンツ分類装置、31…変換辞書、32…データベース

Claims (9)

  1. 単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更部と、
    文章データを分類する先である分類項目及び分類項目の階層を示す第1分類構造データに含まれる文を前記文変更部により変更して第2分類構造データを生成し、前記第2分類構造データと、前記第2分類構造データの分類項目及び分類項目の階層を識別するラベルが付与された第2教師データとを使用して分類器を生成する分類器生成部と、
    を備える分類器生成装置。
  2. 前記分類器生成部は、前記第1分類構造データの分類項目及び分類項目の階層を識別するラベルが付与された第1教師データに含まれる文を前記文変更部により変更して前記第2教師データを生成する、
    請求項1に記載の分類器生成装置。
  3. 前記分類器生成部が生成した分類器を使用して分類対象テキストデータを分類し、該分類の結果に基づいて当該分類器の代表文を生成する代表文生成部をさらに備える、
    請求項1又は2のいずれか1項に記載の分類器生成装置。
  4. 前記分類器生成部が生成した分類器を使用して、前記第2分類構造データに係る分類対象データを分類し、該分類の結果に基づいて当該分類器を補正するか否かを判断する分類器補正部をさらに備える、
    請求項1から3のいずれか1項に記載の分類器生成装置。
  5. 単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更部と、
    文章データを分類する先である分類項目及び分類項目の階層を示す分類構造データを有する第1分類器に含まれる文を前記文変更部により変更して、第2分類器を生成する分類器生成部と、
    を備える分類器生成装置。
  6. 分類器生成装置が、単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更ステップと、
    前記分類器生成装置が、文章データを分類する先である分類項目及び分類項目の階層を示す第1分類構造データに含まれる文を前記文変更ステップにより変更して第2分類構造データを生成し、前記第2分類構造データと、前記第2分類構造データの分類項目及び分類項目の階層を識別するラベルが付与された第2教師データとを使用して分類器を生成する分類器生成ステップと、
    を含む分類器生成方法。
  7. 分類器生成装置が、単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更ステップと、
    前記分類器生成装置が、文章データを分類する先である分類項目及び分類項目の階層を示す分類構造データを有する第1分類器に含まれる文を前記文変更ステップにより変更して、第2分類器を生成する分類器生成ステップと、
    を含む分類器生成方法。
  8. コンピュータに、
    単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更機能と、
    文章データを分類する先である分類項目及び分類項目の階層を示す第1分類構造データに含まれる文を前記文変更機能により変更して第2分類構造データを生成し、前記第2分類構造データと、前記第2分類構造データの分類項目及び分類項目の階層を識別するラベルが付与された第2教師データとを使用して分類器を生成する分類器生成機能と、
    を実現させるためのコンピュータプログラム。
  9. コンピュータに、
    単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更機能と、
    文章データを分類する先である分類項目及び分類項目の階層を示す分類構造データを有する第1分類器に含まれる文を前記文変更機能により変更して、第2分類器を生成する分類器生成機能と、
    を実現させるためのコンピュータプログラム。
JP2016251499A 2016-12-26 2016-12-26 分類器生成装置、分類器生成方法、及びコンピュータプログラム Active JP6715758B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016251499A JP6715758B2 (ja) 2016-12-26 2016-12-26 分類器生成装置、分類器生成方法、及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016251499A JP6715758B2 (ja) 2016-12-26 2016-12-26 分類器生成装置、分類器生成方法、及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2018106390A true JP2018106390A (ja) 2018-07-05
JP6715758B2 JP6715758B2 (ja) 2020-07-01

Family

ID=62787779

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016251499A Active JP6715758B2 (ja) 2016-12-26 2016-12-26 分類器生成装置、分類器生成方法、及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP6715758B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220145422A (ko) * 2020-04-30 2022-10-28 미쓰비시덴키 가부시키가이샤 학습 데이터 작성 장치, 방법, 및 프로그램
JP2023037406A (ja) * 2021-09-03 2023-03-15 株式会社マクロミル 情報処理方法および情報処理装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020099730A1 (en) * 2000-05-12 2002-07-25 Applied Psychology Research Limited Automatic text classification system
JP2006251975A (ja) * 2005-03-09 2006-09-21 Omron Corp テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置
JP2009294938A (ja) * 2008-06-05 2009-12-17 Toshiba Corp 文書分類装置
JP2010277409A (ja) * 2009-05-29 2010-12-09 Toshiba Corp 代表文抽出装置およびプログラム
JP2016105260A (ja) * 2014-12-01 2016-06-09 ビッグローブ株式会社 サイトまとめ方法、サイトまとめシステム、情報処理装置、及びプログラム
JP2016212533A (ja) * 2015-04-30 2016-12-15 国立大学法人鳥取大学 文書解析装置、プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020099730A1 (en) * 2000-05-12 2002-07-25 Applied Psychology Research Limited Automatic text classification system
JP2006251975A (ja) * 2005-03-09 2006-09-21 Omron Corp テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置
JP2009294938A (ja) * 2008-06-05 2009-12-17 Toshiba Corp 文書分類装置
JP2010277409A (ja) * 2009-05-29 2010-12-09 Toshiba Corp 代表文抽出装置およびプログラム
JP2016105260A (ja) * 2014-12-01 2016-06-09 ビッグローブ株式会社 サイトまとめ方法、サイトまとめシステム、情報処理装置、及びプログラム
JP2016212533A (ja) * 2015-04-30 2016-12-15 国立大学法人鳥取大学 文書解析装置、プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220145422A (ko) * 2020-04-30 2022-10-28 미쓰비시덴키 가부시키가이샤 학습 데이터 작성 장치, 방법, 및 프로그램
KR102635118B1 (ko) * 2020-04-30 2024-02-07 미쓰비시덴키 가부시키가이샤 학습 데이터 작성 장치, 방법, 및 프로그램
JP2023037406A (ja) * 2021-09-03 2023-03-15 株式会社マクロミル 情報処理方法および情報処理装置
JP7329570B2 (ja) 2021-09-03 2023-08-18 株式会社マクロミル 情報処理方法および情報処理装置

Also Published As

Publication number Publication date
JP6715758B2 (ja) 2020-07-01

Similar Documents

Publication Publication Date Title
Wiegand et al. Inducing a lexicon of abusive words–a feature-based approach
CN110825876B (zh) 电影评论观点情感倾向性分析方法
US8676730B2 (en) Sentiment classifiers based on feature extraction
US20110040790A1 (en) Information processing apparatus, method for processing information, and program
Donato et al. Investigating redundancy in emoji use: Study on a twitter based corpus
JP2012027845A (ja) 情報処理装置、関連文提供方法、及びプログラム
KR101842361B1 (ko) 리뷰 데이터의 감성을 분류하기 위한 방법 및 장치
CN103995853A (zh) 基于关键句的多语言情感数据处理分类方法及系统
JP4600045B2 (ja) 意見抽出用学習装置及び意見抽出用分類装置
Khawaja et al. Domain specific emotion lexicon expansion
CN112307336A (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
JP2017027495A (ja) 検証装置、分類システム、検証方法、分類方法、及びコンピュータプログラム
JP6715758B2 (ja) 分類器生成装置、分類器生成方法、及びコンピュータプログラム
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
JP2004280180A (ja) 広告用キーワード抽出システム、広告文配信システム、広告用キーワード抽出プログラム及び広告文配信プログラム
JP2010198278A (ja) 評判情報分類装置、評判情報分類方法及びプログラム
JP6571231B1 (ja) 検索装置および方法
Srinilta et al. Lyric-based sentiment polarity classification of Thai songs
JP2012003573A (ja) 感性分析システム及びプログラム
JP6067616B2 (ja) 発話生成手法学習装置、発話生成手法選択装置、発話生成手法学習方法、発話生成手法選択方法、プログラム
JP5320326B2 (ja) 記号変換装置、記号変換方法、記号変換プログラム
CN114328902A (zh) 文本标注模型构建方法和装置
JP6039057B2 (ja) 文書分析装置及び文書分析プログラム
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム
Morante et al. Identifying Copied Fragments in a 18th Century Dutch Chronicle

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20161227

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200519

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200609

R150 Certificate of patent or registration of utility model

Ref document number: 6715758

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150