JP2018106390A

JP2018106390A - 分類器生成装置、分類器生成方法、及びコンピュータプログラム

Info

Publication number: JP2018106390A
Application number: JP2016251499A
Authority: JP
Inventors: 亮博小林; Akihiro Kobayashi; 尚樹今井; Naoki Imai; 啓一郎帆足; Keiichiro Hoashi
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2016-12-26
Filing date: 2016-12-26
Publication date: 2018-07-05
Anticipated expiration: 2036-12-26
Also published as: JP6715758B2

Abstract

【課題】テキスト分類処理の効率の向上を図ること。【解決手段】単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更部と、文章データを分類する先である分類項目及び分類項目の階層を示す第１分類構造データに含まれる文を前記文変更部により変更して第２分類構造データを生成し、前記第２分類構造データと、前記第２分類構造データの分類項目及び分類項目の階層を識別するラベルが付与された第２教師データとを使用して分類器を生成する分類器生成部と、を備える。【選択図】図１

Description

本発明は、分類器生成装置、分類器生成方法、及びコンピュータプログラムに関する。

従来のテキスト分類技術として、例えば特許文献１，２が知られている。特許文献１のテキスト分類技術では、階層化されたカテゴリにテキストを分類する。特許文献２のテキスト分類技術では、文書の階層型分類において、情報のカテゴリを、検索に関連する情報を含むバイナリツリーのノードを含むバイナリツリーとして構成する。

特開２００６−２５１９７５号公報特開２００６−１８８２９号公報

しかし、上述した従来のテキスト分類技術では、階層化されたカテゴリにおいて階層が深くなるにつれて分類精度が低下する可能性があった。また、カテゴリの階層構造が大規模になると、実際の分類に不要のカテゴリも含まれる事象が発生して分類処理の効率が悪くなる可能性があった。このような問題の対処方法としてカテゴリの階層構造を人手で最適化することが考えられるが、処理時間の増大やコスト増等の負担のために難しい場合があった。

本発明は、このような事情を考慮してなされたものであり、その目的は、テキスト分類処理の効率の向上を図ることにある。

本発明の一態様は、単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更部と、文章データを分類する先である分類項目及び分類項目の階層を示す第１分類構造データに含まれる文を前記文変更部により変更して第２分類構造データを生成し、前記第２分類構造データと、前記第２分類構造データの分類項目及び分類項目の階層を識別するラベルが付与された第２教師データとを使用して分類器を生成する分類器生成部と、を備える分類器生成装置である。

本発明の一態様は、前記分類器生成部は、前記第１分類構造データの分類項目及び分類項目の階層を識別するラベルが付与された第１教師データに含まれる文を前記文変更部により変更して前記第２教師データを生成する、分類器生成装置である。

本発明の一態様は、前記分類器生成部が生成した分類器を使用して分類対象テキストデータを分類し、該分類の結果に基づいて当該分類器の代表文を生成する代表文生成部をさらに備える、分類器生成装置である。

本発明の一態様は、前記分類器生成部が生成した分類器を使用して、前記第２分類構造データに係る分類対象データを分類し、該分類の結果に基づいて当該分類器を補正するか否かを判断する分類器補正部をさらに備える、分類器生成装置である。

本発明の一態様は、単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更部と、文章データを分類する先である分類項目及び分類項目の階層を示す分類構造データを有する第１分類器に含まれる文を前記文変更部により変更して、第２分類器を生成する分類器生成部と、を備える分類器生成装置である。

本発明の一態様は、分類器生成装置が、単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更ステップと、前記分類器生成装置が、文章データを分類する先である分類項目及び分類項目の階層を示す第１分類構造データに含まれる文を前記文変更ステップにより変更して第２分類構造データを生成し、前記第２分類構造データと、前記第２分類構造データの分類項目及び分類項目の階層を識別するラベルが付与された第２教師データとを使用して分類器を生成する分類器生成ステップと、を含む分類器生成方法である。

本発明の一態様は、分類器生成装置が、単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更ステップと、前記分類器生成装置が、文章データを分類する先である分類項目及び分類項目の階層を示す分類構造データを有する第１分類器に含まれる文を前記文変更ステップにより変更して、第２分類器を生成する分類器生成ステップと、を含む分類器生成方法である。

本発明の一態様は、コンピュータに、単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更機能と、文章データを分類する先である分類項目及び分類項目の階層を示す第１分類構造データに含まれる文を前記文変更機能により変更して第２分類構造データを生成し、前記第２分類構造データと、前記第２分類構造データの分類項目及び分類項目の階層を識別するラベルが付与された第２教師データとを使用して分類器を生成する分類器生成機能と、を実現させるためのコンピュータプログラムである。

本発明の一態様は、コンピュータに、単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更機能と、文章データを分類する先である分類項目及び分類項目の階層を示す分類構造データを有する第１分類器に含まれる文を前記文変更機能により変更して、第２分類器を生成する分類器生成機能と、を実現させるためのコンピュータプログラムである。

本発明によれば、テキスト分類処理の効率の向上を図ることができるという効果が得られる。

一実施形態に係る分類システム１の構成例を示すブロック図である。一実施形態に係る分類器生成方法の概要の説明図である。一実施形態に係る分類器の説明図である。一実施形態に係る分類器生成部１１についての説明図である。一実施形態に係る代表文生成部１３についての説明図である。一実施形態に係る分類器補正部１４についての説明図である。一実施形態に係る分類器生成方法の例１の手順を示す説明図である。一実施形態に係る分類器生成方法の例２の手順を示す説明図である。一実施形態に係る分類器生成方法の例３の手順を示す説明図である。一実施形態に係る変形例１の説明図である。一実施形態に係る分類構造データＤ１の構成例を示す図である。一実施形態に係る分類器補正方法の例の手順を示すフローチャートである。一実施形態に係る分類構造データＤ１に対する補正例を示す図である。

以下、図面を参照し、本発明の実施形態について説明する。
図１は、一実施形態に係る分類システム１の構成例を示すブロック図である。図１において、分類システム１は、分類器生成装置１０と、コンテンツ分類装置２０と、変換辞書３１と、データベース３２とを備える。分類器生成装置１０は、分類器を生成する。コンテンツ分類装置２０には、入力データとしてテキストデータ（入力テキストデータ）が入力される。コンテンツ分類装置２０は、分類器生成装置１０が生成した分類器を使用して、入力テキストデータを分類する。コンテンツ分類装置２０は、入力テキストデータの分類の結果を示す分類結果データを出力する。

変換辞書３１は電子辞書である。変換辞書３１は単語の対のデータを有する。変換辞書３１は、入力される単語（入力単語）についての対の単語（変換単語）を出力する。本実施形態では、変換辞書３１の一例として反対語辞書を備える。反対語辞書としての変換辞書３１は、入力単語の反対語を変換単語として出力する。

データベース３２は、分類構造データと教師データを格納する。分類構造データは、テキストデータ（文章データ）を分類する先である分類項目及び分類項目の階層を示すデータである。分類構造データは予め作成されてデータベース３２に格納される。分類構造データの作成には、例えば、グラウンデッド・セオリー・アプローチ（Grounded Theory Approach）技術を利用することができる。

教師データは、分類構造データの分類項目及び分類項目の階層を識別するラベルが付与されたテキストデータである。教師データの元のテキストデータは、例えば、一般大衆に対して実施されたアンケートの回答として自由記述された文章（自由記述文）のテキストデータである。該テキストデータに対して分類構造データの該当する分類項目及び分類項目の階層を識別するラベルが付与されたデータが、教師データとして利用される。例えば、人間がテキストデータを分析して該テキストデータに付与すべきラベルを判断し、判断結果のラベルを該テキストデータに付与する。

分類器生成装置１０は、分類器生成部１１と、文変更部１２と、代表文生成部１３と、分類器補正部１４とを備える。分類器生成部１１は、分類器を生成する分類器生成機能を有する。分類器生成部１１は、分類構造データと教師データとを使用して分類器を生成する。文変更部１２は、文の意味を変更する文変更機能を有する。文変更部１２は、単語を置換又は単語を追加もしくは削除して文の意味を変更する。代表文生成部１３は、分類器の代表文を生成する代表文生成機能を有する。代表文生成部１３は、分類器生成部１１が生成した分類器を使用して分類対象テキストデータを分類し、該分類の結果に基づいて当該分類器の代表文を生成する。分類器補正部１４は、分類器を補正する分類器補正機能を有する。分類器補正部１４は、分類器生成部１１が生成した分類器を使用して分類対象データを分類し、該分類の結果に基づいて当該分類器を補正するか否かを判断する。

分類器生成装置１０は、専用のハードウェアにより実現されるものであってもよく、又は、パーソナルコンピュータ等の汎用のコンピュータ装置により構成され、分類器生成装置１０の機能を実現するためのコンピュータプログラムを実行することによりその機能を実現させるものであってもよい。コンテンツ分類装置２０は、専用のハードウェアにより実現されるものであってもよく、又は、パーソナルコンピュータ等の汎用のコンピュータ装置により構成され、コンテンツ分類装置２０の機能を実現するためのコンピュータプログラムを実行することによりその機能を実現させるものであってもよい。

分類器生成装置１０とコンテンツ分類装置２０とは、それぞれ別個の装置として構成されてもよく、又は、一つの装置として構成されてもよい。例えば、分類器生成装置１０とコンテンツ分類装置２０とは、それぞれ別個のコンピュータ装置により各装置１０，２０の機能がコンピュータプログラムにより実現されてもよく、又は、１台のコンピュータ装置により両装置１０，２０の機能がコンピュータプログラムにより実現されてもよい。

分類器生成装置１０は、変換辞書３１にアクセスする。変換辞書３１は、分類器生成装置１０の内部に設けられてもよく、又は、分類器生成装置１０の外部に設けられて通信により分類器生成装置１０からアクセスされてもよい。

分類器生成装置１０は、データベース３２にアクセスする。データベース３２は、分類器生成装置１０の内部に設けられてもよく、又は、分類器生成装置１０の外部に設けられて通信により分類器生成装置１０からアクセスされてもよい。

次に図２を参照して本実施形態に係る分類器生成方法の概要を説明する。一般にアンケート調査では、「質問ａ：○○の良い点をお知らせ下さい。」、「質問ｂ：○○の悪い点をお知らせ下さい。」のように商品やサービスなどの良い点と悪い点とを２つの質問に分けて聞くことがある。これら２つの質問ａ，ｂに対する各回答を、機械学習を用いて分類する場合、質問ａの分類器と質問ｂの分類器とをそれぞれに生成する必要がある。このため、質問ａの分類器の生成に使用される分類構造データ及び教師データと、質問ｂの分類器の生成に使用される分類構造データ及び教師データと、を準備することになる。

図２は、本実施形態に係る分類器生成方法の概要の説明図である。図２の例では、通信サービスについてのアンケート調査において、サービスに対しての不満な点を聞く質問Ａと、サービスに対しての満足な点を聞く質問Ｂと、を行う。そして、これら２つの質問Ａ，Ｂに対する各回答を、機械学習を用いて分類するために、質問Ａの分類器Ａ３と質問Ｂの分類器Ｂ３とをそれぞれに生成する。この分類器生成のため、質問Ａの分類器の生成に使用される分類構造データＡ１及び教師データＡ２と、質問Ｂの分類器の生成に使用される分類構造データＢ１及び教師データＢ２と、を準備する。これら分類構造データＡ１及び教師データＡ２、並びに、分類構造データＢ１及び教師データＢ２を人手で生成すると、処理時間の増大やコスト増等の負担が課題となる。

そのような課題に鑑み、本実施形態では、予め準備される一方の分類構造データ及び教師データから、もう一方の分類構造データ及び教師データを自動的に生成することによって、処理時間の増大やコスト増等の負担の軽減を図る。図２の例では、一方の分類構造データＡ１及び教師データＡ２については例えば人手で生成する等により予め準備する。しかし、もう一方の分類構造データＢ１及び教師データＢ２については、分類構造データＡ１及び教師データＡ２から自動的に生成する。これは、例えば、質問Ａと質問Ｂのように同じ回答者に対して意味的に反対の質問をする場合、似通った分類構造データになることが考えられるからである。

図２において、分類構造データＡ１は、第１階層の分類項目として３つの分類項目「通信品質不満」、「端末不満」及び「アフター不満」を有する。また、分類構造データＡ１は、第１階層の分類項目「端末不満」の下層である第２階層の分類項目として３つの分類項目「電池持ちが悪い」、「画面が小さい」及び「記憶容量が小さい」を有する。各分類項目の文は代表文である。代表文は、人が分類項目を理解するために設けられる文である。分類構造データＡ１は、各分類項目の代表文を有する。分類構造データＡ１は、各階層の対応する分類項目を関連付けるリンク情報を有する。例えば、分類構造データＡ１は、第１階層の分類項目「端末不満」と第２階層の分類項目「電池持ちが悪い」、「画面が小さい」及び「記憶容量が小さい」をそれぞれに関連付けるリンク情報を有する。

本実施形態では、予め準備された分類構造データＡ１の各代表文について文の意味を変更するように文を変更することにより、分類構造データＡ１を分類構造データＢ１に変換する。図２の例では、代表文の単語を反対語に置換して文の意味を変更している。例えば、分類構造データＡ１の代表文中の単語「不満」を反対語「満足」に変更することにより、分類構造データＢ１の代表文にしている。また、分類構造データＡ１の代表文中の単語「悪い」を反対語「良い」に変更することにより、分類構造データＢ１の代表文にしている。このように、本実施形態では、分類構造データＡ１の各代表文を意味的に変更することにより、分類構造データＡ１を分類構造データＢ１に変換する。

なお、分類構造データＡ１の分類項目及び分類項目の階層と、分類構造データＢ１の分類項目及び分類項目の階層とは、それぞれ対応している。分類構造データＡ１の第ｎ階層の第ｍ番目の分類項目の代表文を意味的に変更した文は、分類構造データＢ１の同じ第ｎ階層の第ｍ番目の分類項目の代表文になる。

図２において、教師データＡ２は、自由記述文と、分類構造データＡ１による該自由記述文の分類結果との組を有する。例えば、教師データＡ２は、自由記述文「電池が長持しない」と分類結果「電池持ちが悪い」との組を有する。これは、自由記述文「電池が長持しない」が分類構造データＡ１の分類項目「電池持ちが悪い」に分類されたことを示す。教師データＡ２は、予め準備される。例えば、教師データＡ２の各自由記述文が分類構造データＡ１のどの分類項目に当てはまるのかを人手で判断し、該判断結果の分類項目及び分類項目の階層を識別するラベルを教師データＡ２の当該自由記述文に付与する。

本実施形態では、予め準備された教師データＡ２の各自由記述文について文の意味を変更するように文を変更することにより、教師データＡ２を教師データＢ２に変換する。図２の例では、自由記述文の単語を反対語に置換して文の意味を変更している。例えば、教師データＡ２の自由記述文「電池が長持しない」中の単語「しない」を反対語「する」に変更することにより、教師データＢ２の自由記述文「電池が長持する」にしている。このように、本実施形態では、教師データＡ２の各自由記述文を意味的に変更することにより、教師データＡ２を教師データＢ２に変換する。図２の例では、教師データＡ２の自由記述文の意味的な変更は、分類構造データＡ１の代表文の意味的な変更と同じの反対語に置換になっている。

なお、教師データＡ２の自由記述文に付与されるラベルと、教師データＢ２の自由記述文に付与されるラベルとは、それぞれ対応している。教師データＡ２の第ｎ番目の自由記述文を意味的に変更した文は、教師データＢ２において、該教師データＡ２の第ｎ番目の自由記述文と同じラベルが付与された自由記述文になる。

図２において、サービスに対しての不満な点を聞く質問Ａの分類器Ａ３（説明の便宜上、不満分類器Ａ３と称する場合がある）は、分類構造データＡ１及び教師データＡ２を使用して生成される。サービスに対しての満足な点を聞く質問Ｂの分類器Ｂ３（説明の便宜上、満足分類器Ｂ３と称する場合がある）は、分類構造データＢ１及び教師データＢ２を使用して生成される。

図３は、本実施形態に係る分類器の説明図である。図３の例では、満足分類器Ｂ３の説明図である。分類器は、ラベルが付与されていないテキストデータ（ラベル無しテキストデータ）に対してラベルを付与するためのラベル付与規則の集合体ということができる。分類器は、入力されたラベル無しテキストデータに対して自己のラベル付与規則に従ってラベルを付与し、該ラベル無しテキストデータに該ラベルが付与されたテキストデータ（ラベル有りテキストデータ）を出力する。

図３において、満足分類器Ｂ３には、ラベル無しテキストデータ「店員の笑顔が良かったです」が入力される。満足分類器Ｂ３は、ラベル無しテキストデータ「店員の笑顔が良かったです」に対して自己のラベル付与規則に従って、代表文「店頭スタッフの接客態度が良い」に対応するラベルを付与する。満足分類器Ｂ３は、該ラベルを付与したテキストデータ「店員の笑顔が良かったです」を、分類結果データとして出力する。この分類結果データは、テキストデータ「店員の笑顔が良かったです」が代表文「店頭スタッフの接客態度が良い」の分類項目に分類されたことを示す。

次に図１に示す分類器生成装置１０について説明する。

［文変更部］
文変更部１２は、単語を置換又は単語を追加もしくは削除して文の意味を変更する。文変更部１２は、入力文に対して形態素解析および係り受け解析を行う。形態素解析には、例えば「Mecab」と呼ばれるソフトウェアを使用してもよい。係り受け解析には、例えば「CaboCha」と呼ばれるソフトウェアを使用してもよい。

（文変更方法の例１）
文変更方法の例１を説明する。文変更方法の例１は、形態素解析および係り受け解析の結果、入力文中に述語項構造が発見された場合である。文変更部１２は、形態素解析および係り受け解析の結果、入力文中に述語項構造がある場合には、該述部の単語の変更を行う。この述部の単語の変更において、文変更部１２は、述部の単語を変換辞書３１に渡す。変換辞書３１は、該述部の単語（入力単語）についての対の単語（変換単語）を文変更部１２に返答する。本実施形態では、変換辞書３１は反対語辞書である。よって、文変更部１２は、入力文中の述部の単語の反対語を、変換辞書３１から受け取る。文変更部１２は、変換辞書３１から受け取った反対語により、入力文中の述部の単語を置換する。文変更部１２は、入力文の述部の単語が反対語に置換された文（変更文）を出力する。文変更方法の例１の一例として、文変更部１２は、入力文「速度が遅い」に対して、述部の単語「遅い」を反対語「速い」に置換し、変更文「速度が速い」を出力する。

（文変更方法の例２）
文変更方法の例２を説明する。文変更方法の例２は、上記した文変更方法の例１において、変換辞書３１に、入力単語と対の単語（変換単語）が存在しない場合である。文変更部１２は、形態素解析および係り受け解析の結果、入力文中に述語項構造がある場合には、該述部の単語の変更を行う。この述部の単語の変更において、文変更部１２は、述部の単語を変換辞書（反対語辞書）３１に渡す。変換辞書３１は、該述部の単語（入力単語）と対の単語（変換単語）が存在しないこと（変換単語無し）を、文変更部１２に返答する。文変更部１２は、該変換辞書３１からの変換単語無しとの返答に応じて、入力文中の述部の単語に否定語を追加する、又は、入力文中の述部の単語から否定語を削除する。文変更部１２は、入力文中の述部の単語に否定語が付いていない場合には該否定語を追加し、一方、入力文中の述部の単語に否定語が付いている場合には該否定語を削除する。文変更部１２は、入力文の述部の単語に否定語を追加するか、又は、入力文の述部の単語から否定語を削除するかした文（変更文）を出力する。文変更方法の例２の一例として、文変更部１２は、入力文「電話が繋がらない」に対して、述部の単語「電話が繋がらない」に付いている否定語「ない」を削除し、肯定文に整えた変更文「電話が繋がる」を出力する。

（文変更方法の例３）
文変更方法の例３を説明する。文変更方法の例３は、形態素解析および係り受け解析の結果、入力文中に述語項構造が発見されなかった場合（体言止めである場合）である。文変更部１２は、形態素解析および係り受け解析の結果、入力文中に述語項構造が発見されなかった場合には、入力文中の体言止めの単語（最終文節の名詞）の変更を行う。この体言止めの単語の変更において、文変更部１２は、体言止めの単語を変換辞書（反対語辞書）３１に渡す。変換辞書３１は、該述部の単語（入力単語）と対の単語（変換単語）である反対語を文変更部１２に返答する。文変更部１２は、変換辞書３１から受け取った反対語により、入力文中の体言止めの単語を置換する。文変更部１２は、入力文の体言止めの単語が反対語に置換された文（変更文）を出力する。文変更方法の例３の一例として、文変更部１２は、入力文「通信品質不満」に対して、体言止めの単語「不満」を反対語「満足」に置換し、変更文「通信品質満足」を出力する。文変更方法の例３の他の一例として、文変更部１２は、入力文「価格の上昇」に対して、体言止めの単語「上昇」を反対語「低下」に置換し、変更文「価格の低下」を出力する。

［分類器生成部］
分類器生成部１１は、分類構造データと教師データとを使用して分類器を生成する。分類器として、例えば、ＳＶＭ（Support Vector Machine）又は「Bayesian Network」などの分類器が挙げられる。図４を参照して分類器生成部１１について説明する。データベース３２には、予め、質問Ａの分類器の生成に使用される分類構造データＡ１及び教師データＡ２が格納されている。分類器生成部１１は、分類構造データＡ１及び教師データＡ２をデータベース３２から取得する。

分類器生成部１１は、分類構造データＡ１及び教師データＡ２を使用して、質問Ａの分類器（不満分類器）Ａ３を生成する。

質問Ｂの分類器（満足分類器）Ｂ３の生成方法を説明する。分類器生成部１１は、分類構造データＡ１に含まれる各代表文を文変更部１２により変更して、分類構造データＢ１を生成する。図４（１）において、分類器生成部１１は、分類構造データＡ１に含まれる各代表文を文変更部１２に渡し、文変更部１２から各代表文に対する変更文を受け取る。分類器生成部１１は、分類構造データＡ１の各代表文を、文変更部１２から受け取った各変更文に置換する。この置換後の分類構造データを分類構造データＢ１として使用する。分類構造データＢ１のリンク情報は、分類構造データＡ１のリンク情報をそのまま使用する。

分類器生成部１１は、教師データＡ２に含まれる各自由記述文を文変更部１２により変更して、教師データＢ２を生成する。図４（２）において、分類器生成部１１は、教師データＡ２に含まれる各自由記述文を文変更部１２に渡し、文変更部１２から各自由記述文に対する変更文を受け取る。分類器生成部１１は、文変更部１２から受け取った各変更文に対して、教師データＡ２の元の各自由記述文と同じラベルを付与する。このラベル付与後の変更文群を教師データＢ２として使用する。

分類器生成部１１は、分類構造データＢ１及び教師データＢ２を使用して、質問Ｂの分類器（満足分類器）Ｂ３を生成する。

本実施形態において、分類構造データＡ１は第１分類構造データに対応し、教師データＡ２は第１教師データに対応する。また、分類構造データＢ１は第２分類構造データに対応し、教師データＢ２は第２教師データに対応する。

［代表文生成部］
代表文生成部１３は、分類器生成部１１が生成した分類器を使用して分類対象テキストデータを分類し、該分類の結果に基づいて当該分類器の代表文を生成する。図５を参照して代表文生成部１３について説明する。データベース３２には、予め、満足分類対象データＢ４が格納されている。満足分類対象データＢ４は、サービスに対しての満足な点を聞く質問Ｂに対する回答のテキストデータである。満足分類対象データＢ４には、ラベルが付与されていない。代表文生成部１３は、満足分類対象データＢ４をデータベース３２から取得する。代表文生成部１３は、分類器生成部１１が生成した満足分類器Ｂ３を使用して、満足分類対象データＢ４を分類する。満足分類器Ｂ３は、入力された満足分類対象データＢ４にラベルを付与した満足分類結果データＢ５を出力する。代表文生成部１３は、満足分類器Ｂ３を使用して、複数の満足分類対象データＢ４（満足分類対象データ群）から、複数の満足分類結果データＢ５（満足分類結果データ群）を取得する。

代表文生成部１３は、満足分類結果データ群に基づいて、満足分類器Ｂ３の代表文を生成する。この代表文の生成では、代表文生成部１３は、満足分類結果データ群の中に顕著に現れる語句（重要語句）を抽出する。この重要語句の抽出には、例えばＡＩＣ（Akaike's Information Criterion）と呼ばれる情報量規準を使用してもよい。代表文生成部１３は、満足分類結果データ群内で重要語句との共起頻度が高い語句を抽出する。代表文生成部１３は、満足分類結果データ群において、一の分類項目に分類された文のうち、重要語句と、該重要語句との共起頻度が高い語句との両方を含む文を選択する。該選択された文が複数存在する場合には、代表文生成部１３は、さらに、該選択された文のうち、最も短い文を選択する。代表文生成部１３は、選択結果の文を、当該分類項目の代表文に決定する。

代表文生成部１３は、決定した分類項目の代表文を分類器生成部１１に渡す。分類器生成部１１は、代表文生成部１３から受け取った分類項目の代表文に、満足分類器Ｂ３の当該分類項目の代表文を置換する。これにより、満足分類器Ｂ３の代表文は、代表文生成部１３が生成した代表文に置換される。

本実施形態によれば、満足分類器Ｂ３の分類項目の代表文を、満足分類対象データＢ４に含まれる文から生成することができる。満足分類対象データＢ４に含まれる文は、質問Ｂに回答する人の文であるので、文の表現が自然であると考えられる。このため、満足分類器Ｂ３の分類項目の代表文を、満足分類対象データＢ４に含まれる文から生成することによって、満足分類器Ｂ３の分類結果データに対応する代表文を、人にとって理解しやすい自然な文にすることができる。これは、本実施形態において、満足分類器Ｂ３の生成に使用される分類構造データＢ１の代表文を、不満分類器Ａ３の生成に使用される分類構造データＡ１の代表文から文変更部１２により変更して生成したこと、に起因する代表文の表現の不自然さを解決するという格別な効果を奏する。

［分類器補正部］
分類器補正部１４は、分類器生成部１１が生成した分類器を使用して分類対象データを分類し、該分類の結果に基づいて当該分類器を補正するか否かを判断する。図６を参照して分類器補正部１４について説明する。サービスに対しての不満な点を聞く質問Ａと、サービスに対しての満足な点を聞く質問Ｂとでその回答の出現傾向が異なる場合、質問Ａに係る分類構造データＡ１の分類構造は、そのままでは質問Ｂに係る分類構造に合わない可能性がある。

図６の例では、質問Ａに係る分類構造データＡ１の第１階層の分類項目「アフター不満」の下層である第２階層の分類項目「店頭対応」については、回答の量や種類が多い。一方、質問Ｂに係る分類構造データＢ１の同じ第１階層の分類項目「アフター不満」の下層である第２階層の分類項目「店頭対応」については、回答の量や種類が少ない。このため、該分類構造データＢ１をそのまま使用すると、該分類項目「店頭対応」の回答の量や種類が少ないにもかかわらず、該分類項目「店頭対応」の微細に分かれた下位の階層の分類構造を利用することにより、分類精度が低下する可能性がある。このような課題の解決のために、本実施形態では、分類器補正部１４によって、分類器生成部１１が生成した分類器の補正を行う。

分類器補正部１４は、分類器生成部１１が生成した満足分類器Ｂ３を使用して、複数の満足分類対象データＢ４（満足分類対象データ群）から、複数の満足分類結果データＢ５（満足分類結果データ群）を取得する。分類器補正部１４は、満足分類結果データ群において各分類項目（ラベル）の出現頻度を算出する。分類器補正部１４は、各分類項目の出現頻度の間の差が所定値以上である場合には当該満足分類器Ｂ３の補正を行うと判断し、各分類項目の出現頻度の間の差が所定値未満である場合には当該満足分類器Ｂ３の補正を行わないと判断する。分類器補正部１４は、満足分類器Ｂ３の補正を行うと判断した場合には、満足分類器Ｂ３を所定の分類器補正方法により補正する。

次に本実施形態に係る分類器生成方法の例を説明する。

［分類器生成方法の例１］
図７を参照して本実施形態に係る分類器生成方法の例１を説明する。図７は、本実施形態に係る分類器生成方法の例１の手順を示す説明図である。

（ステップＳ１１）分類器生成部１１は、不満分類構造データＡ１に含まれる各代表文を文変更部１２により変更して、満足分類構造データＢ１を生成する。サービスに対しての不満な点を聞く質問Ａに係る分類構造データのことを、不満分類構造データＡ１と称する。サービスに対しての満足な点を聞く質問Ｂに係る分類構造データのことを、満足分類構造データＢ１と称する。

分類器生成部１１は、不満教師データＡ２に含まれる各自由記述文を文変更部１２により変更して、満足教師データＢ２を生成する。サービスに対しての不満な点を聞く質問Ａに係る教師データのことを、不満教師データＡ２と称する。サービスに対しての満足な点を聞く質問Ｂに係る教師データのことを、満足教師データＢ２と称する。不満教師データＡ２及び満足教師データＢ２には、各自由記述文にラベルが付与されている。

（ステップＳ１２）分類器生成部１１は、満足分類構造データＢ１及び満足教師データＢ２を使用して、質問Ｂの満足分類器Ｂ３を生成する。

［分類器生成方法の例２］
図８を参照して本実施形態に係る分類器生成方法の例２を説明する。図８は、本実施形態に係る分類器生成方法の例２の手順を示す説明図である。図８において図７の各ステップに対応する部分には同一の符号を付け、その説明を省略する。ステップＳ１１及びステップＳ１２が実行されて、満足分類器Ｂ３が生成される。次いでステップＳ２１が実行される。

（ステップＳ２１）代表文生成部１３は、満足分類器Ｂ３を使用して、複数の満足分類対象データＢ４（満足分類対象データ群）から、複数の満足分類結果データＢ５（満足分類結果データ群）を取得する。

（ステップＳ２２）代表文生成部１３は、満足分類結果データ群に基づいて、満足分類器Ｂ３の代表文を生成する。分類器生成部１１は、満足分類器Ｂ３の代表文を、代表文生成部１３が生成した代表文に置換することにより、代表文が変更された満足分類器Ｂ３ａを生成する。

［分類器生成方法の例３］
図９を参照して本実施形態に係る分類器生成方法の例３を説明する。図９は、本実施形態に係る分類器生成方法の例３の手順を示す説明図である。図９において図７及び図８の各ステップに対応する部分には同一の符号を付け、その説明を省略する。ステップＳ１１、ステップＳ１２が実行されて、満足分類器Ｂ３が生成される。次いでステップＳ３１が実行される。

（ステップＳ３１）分類器補正部１４は、満足分類器Ｂ３を使用して、複数の満足分類対象データＢ４（満足分類対象データ群）から、複数の満足分類結果データＢ５（満足分類結果データ群）を取得する。

（ステップＳ３２）分類器補正部１４は、満足分類結果データ群において各分類項目（ラベル）の出現頻度を算出する。分類器補正部１４は、各分類項目の出現頻度の間の差が所定値以上である場合には当該満足分類器Ｂ３の補正を行うと判断し、各分類項目の出現頻度の間の差が所定値未満である場合には当該満足分類器Ｂ３の補正を行わないと判断する。分類器補正部１４は、満足分類器Ｂ３の補正を行うと判断した場合には、満足分類器Ｂ３を所定の補正方法により補正して満足分類器Ｂ３ｂを生成する。

次に本実施形態に係る変形例を説明する。

［変形例１］
図１０は、本実施形態に係る変形例１の説明図である。変形例１では、分類器生成部１１は、分類器に含まれる文を文変更部１２により変更することにより、他の分類器を生成する。図１０において、分類器生成部１１は、不満分類器Ａ３に含まれる各文を文変更部１２により変更する。分類器生成部１１は、該文の変更後の不満分類器Ａ３を、満足分類器Ｂ３とする。変形例１において、不満分類器Ａ３は第１分類器に対応し、満足分類器Ｂ３は第２分類器に対応する。

［変形例２］
変形例２は、文変更方法の変形例である。文が主語と述語とを有する場合、主語に応じて、変更先の述語を選択することが好ましい場合がある。このため、変形例２では、文の主語に応じて変更先の述語を選択する。変形例２では、変換辞書３１は、主語になり得る単語に関連付けて単語の対のデータを有する。文変更部１２は、形態素解析および係り受け解析の結果、入力文中に述語項構造と主語とが発見された場合、該主語の単語と述部の単語とを変換辞書３１に渡す。変換辞書３１は、該主語の単語に関連付けられている単語の対のデータを使用して、該述部の単語（入力単語）についての対の単語（変換単語）を文変更部１２に返答する。文変更部１２は、変換辞書３１から受け取った変換単語により、入力文中の述部の単語を置換する。これにより、文変更部１２は、入力文中の主語に応じて適切な述語の変更を行うことができる。
変形例２の一適用例を説明する。異なるサービスＸとサービスＹであってもサービスに対する利用者の関心の持ち方が似ている場合には、分類構造データの分類項目及び分類項目の階層の構造を同じくすることができる。但し、サービスＸとサービスＹとが異なるサービスであるために、分類構造データに使用される代表文については、サービスＸとサービスＹとで代表文の表現の仕方が異なる場合がある。例えば、サービスＸとサービスＹとで代表文の主語が異なると、同じ満足と不満足の関係の表現であっても述語に使用される単語も異なる方が自然である場合がある。このような場合、変形例２によれば、主語に応じて適切な述語の変更を行うことができるので、サービスＸの代表文の主語をサービスＹに相応しい主語に代えてから文変更部１２により述語を変更することにより、サービスＸの代表文からサービスＹに相応しい代表文に変更することができる。これにより、異なるサービスＸとサービスＹについて、サービスＸに関する分類構造データや教師データから、サービスＹに関する分類構造データや教師データを生成することができるという効果が得られる。

次に本実施形態に係る分類器補正方法の例を説明する。
［分類器補正方法の例］
図１１、図１２及び図１３を参照して本実施形態に係る分類器補正方法の例を説明する。図１１は、本実施形態に係る分類構造データＤ１の構成例を示す図である。分類構造データＤ１は、分類器Ｄの分類構造データである。図１１において、分類構造データＤ１は、第１階層から第３階層までの３つの階層を有し、階層毎に分類項目を有する。

分類構造データＤ１において、第１階層の分類項目は「音楽」であり、第１階層の分類項目「音楽」の識別番号は「１」である。第１階層の分類項目「音楽」に属する下層である第２階層の分類項目は「ジャンル」と「音色」であり、該第２階層の分類項目「ジャンル」の識別番号は「１」であり、該第２階層の分類項目「音色」の識別番号は「２」である。第２階層の分類項目「ジャンル」に属する下層である第３階層の分類項目は「クラシック」と「ポップス」であり、該第３階層の分類項目「クラシック」の識別番号は「１」であり、該第３階層の分類項目「ポップス」の識別番号は「２」である。第２階層の分類項目「音色」に属する下層である第３階層の分類項目は「くらい」と「明るい」と「暖かい」であり、該第３階層の分類項目「くらい」の識別番号は「１」であり、該第３階層の分類項目「明るい」の識別番号は「２」であり、該第３階層の分類項目「暖かい」の識別番号は「３」である。

分類構造データＤ１は、例えばテキストデータを音楽のジャンルや印象で分類する場合に利用される。分類構造データＤ１において、第１階層は、分類対象のテキストデータのうちトピックが「音楽」であるテキストデータを分類する先となる。第２階層は、トピックが「音楽」であるテキストデータのうち「ジャンル」又は「音色」に関するテキストデータを分類する先となる。第３階層は、トピックが「音楽」であるテキストデータであって「ジャンル」又は「音色」に関するテキストデータのうち「ジャンル」又は「音色」の具体的な分類項目に関するテキストデータを分類する先となる。

分類器Ｄによって、分類構造データＤ１に基づいて分類されたテキストデータには、分類された先の分類項目の識別番号から構成されるラベルが付与される。図１１には、第３階層まで分類されたテキストデータに対して付与されるラベル「１１１」，「１１２」，「１２１」，「１２２」及び「１２３」が示される。例えば、テキストデータ「私の好きな音楽はクラシック」に対して、分類結果のラベル「１１１」が付与される。テキストデータ「暖かい音色の音楽が好き」に対して、分類結果のラベル「１２３」が付与される。また、第２階層まで分類されたテキストデータとして、例えば「私は音楽ならどんなジャンルでも好き」に対して、分類結果のラベル「１１」が付与される。また、第１階層まで分類されたテキストデータとして、例えば「私は音楽が好き」に対して、分類結果のラベル「１」が付与される。

分類器補正部１４は、分類器Ｄの分類構造データＤ１の補正を行う。図１２を参照して分類器補正部１４の分類器補正に係る動作を説明する。図１２は、本実施形態に係る分類器補正方法の例の手順を示すフローチャートである。図１２に示す分類器補正方法の手順（ステップＳ１１１〜Ｓ１１４）は、分類構造データにおける上位の階層から下位の階層へと順番に実行される。分類構造データＤ１に対して、最初に第１階層に対してステップＳ１１１〜Ｓ１１４を実行し、次いで第２階層に対してステップＳ１１１〜Ｓ１１４を実行し、最後に第３階層に対してステップＳ１１１〜Ｓ１１４を実行する。

分類構造データＤ１の補正には検証教師データＤ２を使用する。検証教師データＤ２は、例えば、直近の一定期間（例えば、直近の半年間）に実施されたアンケートの回答として自由記述された文章のテキストデータに対して、分類構造データＤ１に属するラベルのうち正解ラベルが付与されたテキストデータである。例えば、人間がテキストデータを分析して該テキストデータの正解ラベルを判断し、判断結果の正解ラベルを該テキストデータに付与する。検証教師データは、データベース３２に予め格納されている。

（ステップＳ１１１）分類器補正部１４は、分類構造データＤ１における検証対象階層の分類項目のうち検証対象分類項目に対して、検証教師データＤ２の仕分けを行う。検証教師データＤ２の仕分けでは、検証対象分類項目に対して、検証対象分類項目の識別番号を含む正解ラベルが付与された検証教師データＤ２ａと、検証対象分類項目の識別番号を含まない正解ラベルが付与された検証教師データＤ２ｂとに仕分ける。例えば、分類構造データＤ１の第２階層の分類項目「ジャンル」が検証対象分類項目である場合、該分類項目「ジャンル」の識別番号「１」を含むラベル「１１」，「１１１」又は「１１２」が付与された検証教師データＤ２ａと、該分類項目「ジャンル」の識別番号「１」を含まないラベル「１」，「１２」，「１２１」，「１２２」又は「１２３」が付与された検証教師データＤ２ｂとに仕分ける。検証対象分類項目の識別番号を含む正解ラベルが付与された検証教師データＤ２ａは、検証対象分類項目の検証正例データグループにグルーピングされる。検証対象分類項目の識別番号を含まない正解ラベルが付与された検証教師データＤ２ｂは、検証対象分類項目の検証負例データグループにグルーピングされる。

分類器補正部１４は、検証対象分類項目の検証正例データグループ内の検証教師データＤ２ａを所定の比率で検証学習データと検証テストデータに仕分ける。分類器補正部１４は、検証対象分類項目の検証負例データグループ内の検証教師データＤ２ｂについても、該同じ比率で検証学習データと検証テストデータに仕分ける。例えば、検証対象分類項目の検証正例データグループ内の全検証教師データＤ２ａのうち、９０％の検証教師データＤ２ａを検証対象分類項目の検証正例学習データグループにグルーピングし、残りの１０％の検証教師データＤ２ａを検証対象分類項目の検証正例テストデータグループにグルーピングする。同様に、検証対象分類項目の検証負例データグループ内の全検証教師データＤ２ｂのうち、９０％の検証教師データＤ２ｂを検証対象分類項目の検証負例学習データグループにグルーピングし、残りの１０％の検証教師データＤ２ｂを検証対象分類項目の検証負例テストデータグループにグルーピングする。

（ステップＳ１１２）分類器補正部１４は、検証対象分類項目の検証正例学習データグループ及び検証負例学習データグループを使用して、検証対象分類項目についての分類器を生成する。分類器補正部１４が生成する分類器の種類は、分類器生成部１１が生成する分類器と同じ種類である。例えば、分類器生成部１１と分類器補正部１４とは、ＳＶＭの分類器を生成する。検証対象分類項目についての分類器は、分類対象のテキストデータが検証対象分類項目に該当するか否かを判定する機能を有する。

（ステップＳ１１３）分類器補正部１４は、検証対象分類項目の検証正例テストデータグループ又は検証負例テストデータグループを使用して、検証対象分類項目についての分類器の適合度を計算する。分類器の適合度の例１〜４を以下に挙げる。

（分類器の適合度の例１）
分類器の適合度の例１は正解率（Accuracy）である。正解率は、次式で表される。
正解率=（TP+TN）／（TP+FP+TN+FN）

（分類器の適合度の例２）
分類器の適合度の例２は真陽性率（True Positive Rate）である。真陽性率は、次式で表される。
真陽性率＝TP／（TP+FN）

（分類器の適合度の例３）
分類器の適合度の例３は偽陰性率（False Negative Rate）である。偽陰性率は、次式で表される。
偽陰性率＝FN／（TP+FN）

（分類器の適合度の例４）
分類器の適合度の例４は精度（Precision）である。精度は、次式で表される。
精度＝TP／（TP+FP）

上記の分類器の適合度の例１〜４において、ＴＰ（True positives）は、検証正例テストデータグループの検証教師データを分類器に適用した結果、正しく正例と判定された検証教師データの個数である。ＴＮ（True negatives）は、検証負例テストデータグループの検証教師データを分類器に適用した結果、正しく負例と判定された検証教師データの個数である。ＦＰ（False positives）は、検証負例テストデータグループの検証教師データを分類器に適用した結果、誤って正例と判定された検証教師データの個数である。ＦＮ（False negatives）は、検証正例テストデータグループの検証教師データを分類器に適用した結果、誤って負例と判定された検証教師データの個数である。

なお、上記の分類器の適合度の例１〜４のうち、いずれか一つのみを分類器の適合度に使用してもよく、又は、複数を分類器の適合度に使用してもよい。

（ステップＳ１１４）分類器補正部１４は、検証対象分類項目についての分類器の適合度に基づいて、当該分類器の合否を判定する。例えば、上記の分類器の適合度の例１〜４のうち、いずれか一つのみ又は複数を評価し、評価の結果、適合度が良好である場合に合格と判定する。例えば、上記の分類器の適合度の例１〜４のうち、少なくともいずれか一つの適合度が良好である場合に合格と判定してもよい。又は、上記の分類器の適合度の例１〜４の全てが良好である場合にのみ合格と判定してもよい。適合度の評価方法として、例えば、適合度と所定の閾値との大小比較が挙げられる。

分類器補正部１４は、検証対象分類項目についての分類器が合格である場合に、当該検証対象分類項目を採用する。一方、分類器補正部１４は、検証対象分類項目についての分類器が不合格である場合に、当該検証対象分類項目を不採用とする。

なお、不採用とされた検証対象分類項目に属する下層の分類項目に対しては、上記のステップＳ１１１〜Ｓ１１４を実行しないで、不採用としてもよい。

分類器補正部１４は、不採用とする検証対象分類項目を、分類構造データＤ１から削除する、又は、分類構造データＤ１の判定不能項目に設定する。

図１３は、本実施形態に係る分類構造データＤ１に対する補正例を示す図である。図１３には、上記の図１１に示す分類構造データＤ１を、分類器補正部１４が補正した結果の例が示される。図１３の例では、分類器補正部１４によって第２階層の分類項目「音色」が不採用と決定された。また、第２階層の分類項目「音色」が不採用と決定されために、第２階層の分類項目「音色」に属する下層である第３階層の分類項目「くらい」，「明るい」及び「暖かい」の全てが不採用と決定された。これにより、分類器Ｄの分類構造データＤ１において、第２階層の分類項目「音色」並びに第３階層の分類項目「くらい」，「明るい」及び「暖かい」が削除される、又は、第２階層の分類項目「音色」並びに第３階層の分類項目「くらい」，「明るい」及び「暖かい」が判定不能項目に設定される。
以上が本実施形態に係る分類器補正方法の例の説明である。

上述した実施形態によれば、予め準備された分類構造データから、他の分類構造データを自動的に生成することができる。これにより、テキスト分類処理の効率の向上を図ることができるという効果が得られる。

上述した実施形態によれば、予め準備された教師データから、他の教師データを自動的に生成することができる。これにより、テキスト分類処理の効率の向上を図ることができるという効果が得られる。

なお、上述した実施形態では、分類構造データと教師データとの両方を自動的に生成したが、分類構造データ又は教師データのいずれか一方のみを自動的に生成してもよい。

以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
例えば、上述した実施形態では、変換辞書３１として反対語辞書を備えたが、変換辞書３１は適宜変更してもよい。

また、上述した各装置の機能を実現するためのコンピュータプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するようにしてもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリ等の書き込み可能な不揮発性メモリ、ＤＶＤ（Digital Versatile Disc）等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Dynamic Random Access Memory））のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

１…分類システム、１０…分類器生成装置、１１…分類器生成部、１２…文変更部、１３…代表文生成部、１４…分類器補正部、２０…コンテンツ分類装置、３１…変換辞書、３２…データベース

Claims

単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更部と、
文章データを分類する先である分類項目及び分類項目の階層を示す第１分類構造データに含まれる文を前記文変更部により変更して第２分類構造データを生成し、前記第２分類構造データと、前記第２分類構造データの分類項目及び分類項目の階層を識別するラベルが付与された第２教師データとを使用して分類器を生成する分類器生成部と、
を備える分類器生成装置。
前記分類器生成部は、前記第１分類構造データの分類項目及び分類項目の階層を識別するラベルが付与された第１教師データに含まれる文を前記文変更部により変更して前記第２教師データを生成する、
請求項１に記載の分類器生成装置。
前記分類器生成部が生成した分類器を使用して分類対象テキストデータを分類し、該分類の結果に基づいて当該分類器の代表文を生成する代表文生成部をさらに備える、
請求項１又は２のいずれか１項に記載の分類器生成装置。
前記分類器生成部が生成した分類器を使用して、前記第２分類構造データに係る分類対象データを分類し、該分類の結果に基づいて当該分類器を補正するか否かを判断する分類器補正部をさらに備える、
請求項１から３のいずれか１項に記載の分類器生成装置。
単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更部と、
文章データを分類する先である分類項目及び分類項目の階層を示す分類構造データを有する第１分類器に含まれる文を前記文変更部により変更して、第２分類器を生成する分類器生成部と、
を備える分類器生成装置。
分類器生成装置が、単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更ステップと、
前記分類器生成装置が、文章データを分類する先である分類項目及び分類項目の階層を示す第１分類構造データに含まれる文を前記文変更ステップにより変更して第２分類構造データを生成し、前記第２分類構造データと、前記第２分類構造データの分類項目及び分類項目の階層を識別するラベルが付与された第２教師データとを使用して分類器を生成する分類器生成ステップと、
を含む分類器生成方法。
分類器生成装置が、単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更ステップと、
前記分類器生成装置が、文章データを分類する先である分類項目及び分類項目の階層を示す分類構造データを有する第１分類器に含まれる文を前記文変更ステップにより変更して、第２分類器を生成する分類器生成ステップと、
を含む分類器生成方法。
コンピュータに、
単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更機能と、
文章データを分類する先である分類項目及び分類項目の階層を示す第１分類構造データに含まれる文を前記文変更機能により変更して第２分類構造データを生成し、前記第２分類構造データと、前記第２分類構造データの分類項目及び分類項目の階層を識別するラベルが付与された第２教師データとを使用して分類器を生成する分類器生成機能と、
を実現させるためのコンピュータプログラム。
コンピュータに、
単語を置換又は単語を追加もしくは削除して文の意味を変更する文変更機能と、
文章データを分類する先である分類項目及び分類項目の階層を示す分類構造データを有する第１分類器に含まれる文を前記文変更機能により変更して、第２分類器を生成する分類器生成機能と、
を実現させるためのコンピュータプログラム。