JP7302022B2

JP7302022B2 - テキスト分類方法、装置、コンピュータ読み取り可能な記憶媒体及びテキスト分類プログラム。

Info

Publication number: JP7302022B2
Application number: JP2021569247A
Authority: JP
Inventors: 翔張; 修銘于; 京華劉; 偉汪
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-10-11
Filing date: 2019-11-13
Publication date: 2023-07-03
Anticipated expiration: 2039-11-13
Also published as: CN110851596B; CN110851596A; US20230195773A1; WO2021068339A1; SG11202112456YA; JP2022534377A

Description

本願は、２０１９年１０月１１日に中国国家知識産権局に提出された、出願番号２０１９１０９６７０１０．５、発明の名称「テキスト分類方法、装置及びコンピュータ読み取り可能な記憶媒体」の中国特許出願の優先権を主張し、その内容のすべてが参照によって本願に組み込まれる。

本願は人工知能の技術分野に関し、特に深層学習の方法によりテキストに対してラベル分類を行う方法、装置及びコンピュータ読み取り可能な記憶媒体に関する。

現在、マルチラベルテキスト分類の方法として、確率が最も高い３つ又は５つのラベルを選択してテキスト分類を行うことは一般的であり、ただし、ラベルの数は予め約束する必要がある。しかし、実際の状況では、あるテキストにはいずれのラベルも存在しないことがある。ラベルの数がゼロの場合、従来の方法によりキャッチされた情報の階層が低く、ラベル認識及び分類を正確に行うことが困難であり、したがって、分類精度が低い。

本願は、テキスト分類方法、装置及びコンピュータ読み取り可能な記憶媒体を提供するものであり、オリジナルのテキストデータセットに対して深層学習を行うことによりラベル分類を行う方法を提供することにその主な目的がある。

上記目的を達成するために、本願で提供されるテキスト分類方法は、オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得るステップと、前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得るステップと、前記ラベル付きのテキストベクトルをＢＥＲＴモデルに入力して文字ベクトル特徴を取得するステップと、前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得るステップと、ランダムフォレストモデルを用いて前記ラベル付きのテキストベクトルと仮想ラベルラベル付きのテキストベクトルに対してマルチラベル分類を行い、テキスト分類結果を得るステップと、を含む。

また、上記目的を達成するために、本願は、メモリとプロセッサとを含むテキスト分類装置であって、前記メモリに前記プロセッサで実行可能なテキスト分類プログラムが記憶されており、前記テキスト分類プログラムが前記プロセッサにより実行されると、オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得るステップと、前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得るステップと、前記ラベル付きのテキストベクトルをＢＥＲＴモデルに入力して文字ベクトル特徴を取得するステップと、前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得るステップと、ランダムフォレストモデルを用いて前記ラベル付きのテキストベクトルと仮想ラベルラベル付きのテキストベクトルに対してマルチラベル分類を行い、テキスト分類結果を得るステップと、を実現させるテキスト分類装置をさらに提供する。

また、上記目的を達成するために、本願は、テキスト分類プログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記テキスト分類プログラムは１つ以上のプロセッサにより実行されて上記テキスト分類方法のステップを実現するコンピュータ読み取り可能な記憶媒体をさらに提供する。

本願は前記オリジナルのテキストデータに対して前処理を行うことで、オリジナルのテキストデータに属する可能性がある単語を効果的に抽出することができ、さらに、単語のベクトル化及び仮想ラベルのマッチングにより、特徴の精度を損なわないとともに、テキスト分類分析を効率的、かつスマートに行うことができ、最後に、予め構築された畳み込みニューラルネットワークモデルに基づいてテキストラベルを訓練して仮想ラベルを得て、ランダムフォレストモデルを用いてラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルに対してマルチラベル分類を行ってテキスト分類結果を得る。したがって、本願で提供されるテキスト分類方法、装置及びコンピュータ読み取り可能な記憶媒体は、正確で効率的であり、かつ一貫しているテキスト分類を実現することができる。

本願の実施例で提供されるテキスト分類方法のフローチャートである。本願の実施例で提供されるテキスト分類装置の構造概略図である。本願の実施例で提供されるテキスト分類装置におけるテキスト分類プログラムのブロック図である。実施例に合わせて、図面を参照しながら本願の目的の実現、機能特徴及び利点をさらに説明する。

本明細書に説明される具体的な実施例は本願を説明するためのものに過ぎず、本願を限定するものではない。

本願はテキスト分類方法を提供する。図１に示すように、本願の実施例で提供されるテキスト分類方法のフローチャートである。この方法は１つの装置により実行されてもよく、この装置はソフトウェア及び／又はハードウェアにより実現されてもよい。

本実施例では、テキスト分類方法はＳ１～Ｓ５を含む。

Ｓ１において、ユーザから入力されたオリジナルのテキストデータを受信し、前記オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得る。

好ましくは、前記前処理は前記オリジナルのテキストデータに対して単語分割、ストップワード除去、重複除去、単語ベクトル形式への変換を行うことを含む。

具体的には、本願の好ましい実施例は前記オリジナルのテキストデータに対して単語分割操作を行って第２のテキストデータを得る。ただし、前記単語分割とは、前記オリジナルのテキストデータにおける各文を切り分けて単一の語を得ることである。

一例として、本願の実施例はユーザから入力された前記オリジナルのテキストデータである「北大学生去清華打羽毛球」を例とし、統計に基づく単語分割方法を用い、前記オリジナルのテキストデータに対して単語分割操作を行って第２のテキストデータを得るプロセスについて説明する。

一例として、前記オリジナルのテキストデータの文頭から「北大学生去清華打羽毛球」中の文字列が「北大」、「大学生」、「北大学生」、「清華」、「去」、「羽毛球」、「打羽毛球」、「去清華」などの単語の組み合わせに分割される可能性があるとする。すべてのコーパスにおいて、「北大」の出現頻度が「北大学生」、「大学生」よりも高いため、統計に基づく単語分割方法は「北大」を優先的に１つの単語分割結果とする。続いて、「打」と「去」は単語を組み合わせることができないため、「打」を１つの単語分割結果とし、「去」を１つの単語分割結果とする。「北大」と「学生」の組み合わせの出現確率が「北大学」の出現確率よりも高いため、「学生」を１つの単語分割結果とし、「北大」を１つの単語分割結果とし、また、「清華」を１つの単語分割結果とする。「羽毛球」という組み合わせの出現確率が「羽毛」及び／又は「球」の出現確率よりも高いため、「羽毛球」を１つの単語分割結果とする。最終的に、統計に基づく単語分割方法により取得された前記オリジナルのテキストデータである「北大学生去清華打羽毛球」の第２の単語分割結果は、「北大」、「学生」、「去」、「清華」、「打」、「羽毛球」である。

好ましくは、本願の可能な実施形態において、さらに前記第２のテキストデータに対してストップワード除去操作を行って第３のテキストデータを得る。ただし、前記ストップワード除去とは前記オリジナルのテキストデータにおける、実際の意味がなくかつテキストの分類に影響を与えないが出現頻度が高い単語を除去することである。前記ストップワードは、一般的に、常用の代名詞、介詞などを含む。研究によると、実際の意味がないストップワードは、テキスト分類の効果を低下させることになるため、ストップワード除去はテキストデータの前処理過程における非常に重要なステップの１つである。本願の実施例では、選択されたストップワード除去方法はストップワードリストフィルタリングであり、前記ストップワードリストフィルタリングとは、既に構築されたストップワードリストとテキスト中の単語を一対一でマッチングさせ、マッチングが成功すれば、この単語はストップワードであり、この単語を削除する必要があることである。例えば、単語分割後の第２のテキストデータは、「商品経済の環境下で、これらの企業は市場の状況に基づき、合格的な販売モードを定めて、市場でのシェア拡大を獲得し、これにより販売の価格を安定させ、また製品の競争能力を向上させる。したがって、実行可能性分析、マーケティングモード研究が必要である」である。

この第２のテキストデータに対してさらにストップワード除去を行って得られた第３のテキストデータは、「商品経済環境、企業は市場状況に基づき、合格販売モードを定め、市場シェア拡大を獲得し、販売価格を安定させ、製品競争能力を向上させる。したがって、実行可能性分析、マーケティングモード研究」である。

好ましくは、本願の可能な一実施形態において、さらに前記第３のテキストデータに対して重複除去操作を行って第４のテキストデータを得る。

具体的には、収集されたテキストデータの由来が複雑であり、その中に重複するテキストデータが多く存在する可能性があり、大量の重複するデータは分類精度に影響を与えることになるため、本願の実施例では、テキストを分類する前に、まずユークリッド距離の方法を用いてテキストに対して前記重複除去操作を行い、その式は以下のとおりである。

単語分割、ストップワード除去、重複除去を経た後、テキストは一連の特徴単語（キーワード）で表されるが、このようなテキスト形式のデータは分類アルゴリズムにより直接処理することができず、数値形式に変換すべきであり、したがって、これらの特徴単語に対して重み計算を行うことで、この特徴単語のテキストにおける重要性を特徴付ける必要がある。

好ましくは、本願の可能な一実施形態において、さらに前記第４のテキストデータに対して単語ベクトル形式への変換を行って前記テキストベクトルを得る。例えば、前記第４のテキストデータは「私と君」である。単語ベクトルへの変換により、文字をベクトル形式に変換してテキストベクトル［（１，２）、（０，２）、（３，１）］を得る。

好ましくは、前記単語ベクトル形式への変換とは、前記オリジナルのテキストデータに対して単語分割、ストップワード除去、重複除去を行った後に得られた前記第４のテキストデータ中のいずれか１つの単語をＮ次元の行列ベクトルで表すことであり、ここで、Ｎは合計して前記第４のテキストデータに含まれる単語の数であり、本願では、以下の式を用いて単語に対して初期的なベクトル化を行う。

Ｓ２において、前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得る。

好ましくは、前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得るステップは以下のステップＳ２０１～Ｓ２０４を含む。

ステップＳ２０１において、前記テキストベクトルに対してインデックスを作成する。例えば、テキストベクトル［（１，２）、（０，２）、（３，１）］は、（１，２）、（０，２）及び（３，１）の３つの次元のデータを含む。この場合、この３つの次元に基づいて、各次元でインデックスをそれぞれ作成して、この次元における前記テキストベクトルのマークとする。

ステップＳ２０２において、前記インデックスにより、前記テキストベクトルを照会し、品詞付けを行う。例えば、インデックスによりテキストベクトルのある次元における特性を推定することができ、同じ次元の特性は同じ品詞に対応する。例えば、「犬」と「刀」の品詞はいずれも名詞であり、これらのある次元（ｘ次元と仮定する）におけるインデックスが一致し、いずれも名詞性を指す。それに対応して、インデックスによると、ある特定のテキストベクトルの品詞を照会し、このテキストベクトルに対して品詞付けを行うことができる。例えば、前記第４のテキストデータは「打」であり、テキストベクトルに変換すると、［（０，２）、（７，２）、（１０，１）］になる。まず、［（０，２）、（７，２）、（１０，１）］に対してインデックスを作成し、インデックスによりこの次元に対応する品詞を照会して動詞とし、テキストベクトル［（０，２）、（７，２）、（１０，１）］に対して品詞を動詞として付ける。

ステップＳ２０３において、前記品詞付けに基づいてテキストの特徴語義ネットワーク図を作成し、テキストの単語頻度とテキスト頻度を統計し、続いて前記単語頻度とテキスト頻度に対して重み付け計算と特徴抽出を行って前記ラベルを得る。

具体的には、前記テキストの特徴語義ネットワーク図とは、テキスト及びその語義関係を利用してテキスト特徴情報を表現する有向グラフであり、テキストベクトルに含まれるラベルをグラフのノードとし、２つのテキストベクトルの間の語義関係をグラフの有向辺とし、テキストベクトルの間の語義関係を単語頻度情報に合わせてノードの重みとし、有向辺の重みはテキストベクトル関係のテキストにおける重要度を表す。テキストの特徴語義ネットワーク図によると、本願はテキストベクトルに対して特徴抽出を行って前記ラベルを得ることができる。

ステップＳ２０４において、前記ラベルをテキストベクトルにマッチングさせてラベル付きのテキストベクトルを得て、ただし、前記テキストベクトルはラベルマッチング処理を経た後に得たラベルが空であれば、ラベルなしのテキストベクトルとして決定される。

本願の一実施形態では、前記ラベルマッチングとは、前記テキストベクトルが上記ステップＳ２０１、２０２、２０３を経た後に得たラベルとオリジナルのテキストベクトルが互いにマッチングすることである。例えば、テキストベクトル［（１０，２）、（７，８）、（１０，４）］は上記ステップＳ２０１、２０２、２０３を経た後に得たラベルがθ（ラベルの特徴はユーザのニーズに応じて選択して定義することができ、ここでアルファベットを指示例とする）であると、θをテキストベクトル［（１０，２）、（７，８）、（１０，４）］にマッチングさせる。同様に、テキストベクトル［（０，０）、（０，０）、（１，４）］は上記ステップＳ２０１、２０２、２０３を経た後に得たラベルが空である場合、［（０，０）、（０，０）、（１，４）］をラベルなしのテキストベクトルとして決定することが分かる。

さらに、前記ラベルをテキストベクトルにマッチングさせてラベル付きのテキストベクトルを得て、ただし、前記テキストベクトルは上記処理を経た後に得たラベルが空であれば、ラベルなしのテキストベクトルとして決定される。

Ｓ３において、前記ラベル付きのテキストベクトルをＢＥＲＴモデルに入力して文字ベクトル特徴を取得する。

本願の実施例では、前記ラベル付きのテキストベクトルをＢＥＲＴモデルに入力して単語ベクトル特徴を取得するステップは以下のステップＳ３０１～Ｓ３０２を含む。

ステップＳ３０１において、前記ＢＥＲＴモデルを作成する。

本願における前記ＢＥＲＴモデルとは、ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ（トランスフォーマーを活用した双方向のエンコード表現）であり、双方向Ｔｒａｎｓｆｏｒｍｅｒ（トランスフォーマー）で構成される特徴抽出モデルである。具体的には、例えば文のｘ＝ｘ１、ｘ２…、ｘｎがあり、ここで、ｘ１、ｘ２などは文中の具体的な文字である。前記ＢＥＲＴモデルは文中の各文字に対してＴｏｋｅｎＥｍｂｅｄｄｉｎｇ、ＳｅｇｍｅｎｔＥｍｂｅｄｄｉｎｇ、ＰｏｓｉｔｉｏｎＥｍｂｅｄｄｉｎｇの３つの入力層の入力表現を用いて加算して入力特徴を得て、ＭａｓｋｅｄＬａｎｇｕａｇｅＭｏｄｅｌとＮｅｘｔＳｅｎｔｅｎｃｅＰｒｅｄｉｃｔｉｏｎを最適化目標として用い、文字の３種類の入力表現を最適化し、ただし、ＭａｓｋｅｄＬａｎｇｕａｇｅＭｏｄｅｌとＮｅｘｔＳｅｎｔｅｎｃｅＰｒｅｄｉｃｔｉｏｎはＢＥＲＴモデルにおける２種類の典型的なアルゴリズムタイプである。

ステップＳ３０２において、ラベル付きのテキストベクトルを前記ＢＥＲＴモデルに入力し、前記ＢＥＲＴモデルを訓練して文字ベクトル特徴を取得するステップであって、
位置エンコードを用いてラベル付きのテキストベクトルに位置情報を付加し、初期的な単語ベクトルで前記位置情報が付加されたラベル付きのテキストベクトルを表すステップと、
ラベル付きのテキストベクトルの品詞を取得し、前記品詞を品詞ベクトルに変換するステップと、
前記初期的な単語ベクトルと前記品詞ベクトルを加算し、前記ラベル付きのテキストベクトルの単語ベクトルを得るステップと、
前記単語ベクトルで表されたラベル付きのテキストベクトルをＴｒａｎｓｆｏｒｍｅｒモデルに入力してデータ処理を行い、前記ラベル付きのテキストベクトルの単語行列を得るステップと、
前記単語行列を用いて、前記ラベル付きのテキストベクトルにおける２つの文が前後文であるか否か、２つの文中の隠し単語及び前記隠し単語の品詞特徴を予測するステップと、を含む。前記ＢＥＲＴモデルを訓練することにより、前記ＢＥＲＴモデルに入力されたテキストベクトルに１つの対応する品詞特徴を予測させることができ、品詞特徴に対して正規化処理を行って前記文字ベクトル特徴を得る。

Ｓ４において、前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る。

好ましくは、本願は以下のステップを採用して前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る。

文字ベクトル特徴はラベル付きのテキストベクトルをＢＥＲＴモデルに入力し、ＢＥＲＴモデルを訓練して得られるものである。そのため、文字ベクトル特徴はラベルに必要な特徴を含み、前記文字ベクトルの特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練することで、文字ベクトル特徴の特徴を抽象化し、ラベルなしのテキストベクトルに適切な特徴をマッチングさせ、さらに仮想ラベルをマッチングさせることができる。例えば、前のステップにおいて、ラベルなしのテキストベクトルは［（０，２）、（０，０）、（０，４）］であり、それを前記畳み込みニューラルネットワークモデルに入力して訓練し、ラベル付きのテキストベクトル［（２，２）、（２，２）、（０，４）］はＢＥＲＴモデルの訓練を経て得た文字ベクトル特徴がＡである。前記畳み込みニューラルネットワークモデルにより、ラベルなしのテキストベクトル［（０，２）、（０，０）、（０，４）］と文字ベクトル特徴Ａが関連性を有することが認識される。したがって、文字ベクトル特徴Ａに基づいて、ラベル付きのテキストベクトル［（２，２）、（２，２）、（０，４）］を見つけ、そのラベルをγとして確認する。ラベルγに基づいて正規化処理を行って前記仮想ラベルを得る。前記仮想ラベルを前記ラベルなしのテキストベクトルにマッチングさせ、仮想ラベル付きのテキストベクトルを得る。

本願の好ましい実施例では、前記ラベルなしのテキストを前記畳み込みニューラルネットワークモデルの畳み込み層により処理し訓練し、訓練後の畳み込みニューラルネットワークモデルを得るには、訓練方法として勾配降下アルゴリズムが採用される。

Ｓ５において、ランダムフォレストモデルを用いて前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルに対してマルチラベル分類を行い、テキスト分類結果を得る。

具体的には、本願の一実施例では、前記ランダムフォレストアルゴリズムはバギングアルゴリズムの復元サンプリングアルゴリズムを用いて、前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルから複数のサンプルサブセットを抽出し、前記サンプルサブセットを用いて複数の決定木モデルを訓練し、訓練過程においてランダム特徴部分空間法を参考し、単語ベクトル集合から一部の単語ベクトル特徴を抽出して決定木の分割を行い、最後に複数の決定木を統合して統合分類器を成し、この統合分類器をランダムフォレストと呼ぶ。そのアルゴリズムフローは、サブサンプルセットの生成、決定木の構築、投票による結果の生成の３つの部分に分けられ、その具体的なフローは以下のとおりである。

ステップＳ５０１は、サブサンプルセットの生成である。

ランダムフォレストは、各ベース分類器に対して、ベース分類器の入力変数として一定のサンプルサブセットを生成する必要がある統合分類器である。評価モデルを両立させるために、サンプルセットの分割には複数の方式があり、本願の実施例では、相互認証の方式を用いてデータセットを分割し、前記相互認証は訓練しようとするテキストを文字数に応じて、ｋ（ｋはゼロより大きい任意の自然数である）個のサブデータセットに分割し、訓練するたびに、そのうちの１つのサブデータセットをテストセットとし、他のサブデータセットを訓練セットとし、ｋ回入れ替わりしてステップを行う。

ステップＳ５０２は、決定木の構築である。

ランダムフォレストでは、各ベース分類器は１つの独立した決定木である。決定木の構築過程において、最終分類の精度を向上させるように、分割ルールを利用して最適な特徴を探してサンプルを分割しようとする。ランダムフォレストの決定木と一般的な決定木は構築方式が基本的に一致し、異なる点として、ランダムフォレストの決定木は分割を行う時に、特徴セット全体を検索して特徴を選択することではなく、特徴をｋ（ｋはゼロより大きい任意の自然数である）個ランダムに選択して分割することである。本願の実施例では、各テキストベクトルを決定木の根とし、上述した畳み込みニューラルネットワークを用いて得られたテキストベクトルラベルの特徴を決定木のサブノードとし、その下のノードをそれぞれ再抽出された特徴とすることにより、各決定木を訓練する。

ただし、分割ルールとは、決定木の分割時に係る具体的なルールである。例えば、どの特徴を選択するか、分割の条件が何であるか、また、いつ分割を終了するかが分かる必要がある。決定木の生成が相対的に短絡するため、分割ルールによりそれを調整してはじめて、それをよりよく見えるようにすることができる。

ステップＳ５０３は、投票による結果の生成である。ランダムフォレストの分類結果は決定木である各ベース分類器が投票を行って得られるものである。ランダムフォレストはベース分類器を同等に扱い、各決定木は１つの分類結果を得て、すべての決定木の投票結果を集めて累積加算し、投票数が最も高い結果を最終結果とする。これにより、各決定木（ラベル分類を必要とするテキストベクトル）の各サブノード（ラベル）のスコア状況に基づいて、このラベルのスコアが本願に設定された閾値ｔを超えると、このラベルはこのテキストベクトルを解釈できると考えられ、それによりこのテキストベクトルのすべてのラベルを取得する。ただし、閾値ｔの確認方式は、この決定木のすべての分類器の投票結果の累積＊０．３である。

さらに、前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルのランダムフォレストアルゴリズムによる投票結果に対して重みソートを行い、重み値が最も大きい投票結果をカテゴリキーワードとし、前記カテゴリキーワードの間の語義関係を利用し、分類結果、すなわち前記テキストベクトルのテキスト分類結果を形成する。

発明はテキスト分類装置をさらに提供する。図２に示すように、本願の実施例で提供されるテキスト分類装置の構造概略図である。

本実施例では、前記テキスト分類装置１はＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ、パソコン）、又はスマートフォン、タブレットコンピュータ、ポータブルコンピュータなどの端末装置であってもよく、サーバなどであってもよい。このテキスト分類装置１は、少なくともメモリ１１と、プロセッサ１２と、通信バス１３と、ネットワークインタフェース１４とを含む。

そのうち、メモリ１１は少なくとも１種類の読み取り可能な記憶媒体を含み、前記読み取り可能な記憶媒体はフラッシュメモリ、ハードディスク、マルチメディアカード、カード型メモリ（例えば、ＳＤ又はＤＸメモリなど）、磁気メモリ、磁気ディスク、光ディスクなどを含む。いくつかの実施例では、メモリ１１はテキスト分類装置１の内部記憶ユニット、例えばこのテキスト分類装置１のハードディスクであってもよい。他のいくつかの実施例では、メモリ１１はテキスト分類装置１の外部記憶装置、例えばテキスト分類装置１に配置された外付けハードディスク、スマートメモリカード（ＳｍａｒｔＭｅｄｉａ（登録商標）Ｃａｒｄ、ＳＭＣ）、セキュアデジタル（ＳｅｃｕｒｅＤｉｇｉｔａｌ、ＳＤ）カード、フラッシュメモリカード（ＦｌａｓｈＣａｒｄ）などであってもよい。さらに、メモリ１１は、テキスト分類装置１の内部記憶ユニットも、外部記憶装置も含んでもよい。メモリ１１は、テキスト分類装置１にインストールされたアプリケーションソフトウェア及び各種のデータ、例えばテキスト分類プログラム０１のコードなどを記憶するために用いることができるだけでなく、さらに既に出力された、又は出力されるデータを一時的に記憶するために用いることができる。

いくつかの実施形態では、プロセッサ１２は、例えば、テキスト分類プログラム０１を実行するなど、メモリ１１に記憶されたプログラムコード又は処理データを実行するための中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）、コントローラ、マイクロコントローラ、マイクロプロセッサ、又は他のデータ処理チップであってもよい。

通信バス１３は、これらのコンポーネント間の接続通信を実現するためのものである。

ネットワークインタフェース１４は、選択可能に、この装置１と他の電子機器との間に通信可能な接続を確立するために通常使用される標準的な有線インタフェース、無線インタフェース（例えば、ＷＩ－ＦＩインタフェース）を含んでもよい。

選択可能に、この装置１はユーザインタフェースをさらに含んでもよく、ユーザインタフェースはディスプレイ（Ｄｉｓｐｌａｙ）、例えばキーボード（Ｋｅｙｂｏａｒｄ）のような入力ユニットを含んでもよく、選択可能なユーザインタフェースは標準的な有線インタフェース、無線インタフェースをさらに含んでもよい。選択可能に、いくつかの実施例では、ディスプレイはＬＥＤディスプレイ、液晶ディスプレイ、タッチ式液晶ディスプレイ及びＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔ－ＥｍｉｔｔｉｎｇＤｉｏｄｅ、有機発光ダイオード）タッチデバイスなどであってもよい。ただし、ディスプレイは、テキスト分類装置１において処理される情報を表示し、可視化されたユーザインタフェースを表示するためのディスプレイスクリーン又はディスプレイユニットと適当に呼ばれてもよい。

図２はコンポーネント１１－１４及びテキスト分類プログラム０１を有するテキスト装置１のみを示すが、当業者であれば、図１に示された構造は、テキスト分類装置１を限定するものではなく、図示されたものよりも多い又は少ない部材を含み、或いは、何らかの部材を組み合わせ、或いは異なる部材配置にするようにしてもよいことを理解することができる。

図２に示す装置１の実施例では、メモリ１１にテキスト分類プログラム０１が記憶されており、プロセッサ１２はメモリ１１に記憶されているテキスト分類プログラム０１を実行すると、以下のステップ１からステップ５を実現させる。

ステップ１において、ユーザから入力されたオリジナルのテキストデータを受信し、前記オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得る。

好ましくは、本願の可能な実施形態において、さらに前記第２のテキストデータに対してストップワード除去操作を行って第３のテキストデータを得る。ただし、前記ストップワード除去とは、前記オリジナルのテキストデータにおける、実際の意味がなくかつテキストの分類に影響を与えないが出現頻度が高い単語を除去することである。前記ストップワードは、一般的に、常用の代名詞、介詞などを含む。研究によると、実際の意味がないストップワードは、テキスト分類の効果を低下させることになるため、ストップワード除去はテキストデータの前処理過程における非常に重要なステップの１つである。本願の実施例では、選択されたストップワード除去方法はストップワードリストフィルタリングであり、前記ストップワードリストフィルタリングとは、既に構築されたストップワードリストとテキスト中の単語を一対一でマッチングさせ、マッチングが成功すれば、この単語はストップワードであり、この単語を削除する必要があることである。例えば、単語分割後の第２のテキストデータは以下のとおりである。商品経済の環境下で、これらの企業は市場の状況に基づき、合格的な販売モードを定めて、市場でのシェア拡大を獲得し、これにより販売の価格を安定させ、また製品の競争能力を向上させる。したがって、実行可能性の分析、マーケティングモードの研究が必要である。

この第２のテキストデータに対してさらにストップワード除去を行って得られた第３のテキストデータは以下のとおりである。商品経済環境、企業は市場状況に基づき、合格販売モードを定め、市場シェア拡大を獲得し、販売価格を安定させ、製品競争能力を向上させる。したがって、実行可能性分析、マーケティングモード研究といえる。

ステップ２において、前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得る。

好ましくは、前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得るステップは以下のステップＳ２０１～Ｓ２０４を含む。ステップＳ２０１において、前記テキストベクトルに対してインデックスを作成する。例えば、テキストベクトル［（１，２）、（０，２）、（３，１）］は、（１，２）、（０，２）及び（３，１）の３つの次元のデータを含む。この場合、この３つの次元に基づいて、各次元でインデックスをそれぞれ作成して、この次元における前記テキストベクトルのマークとする。

ステップＳ２０２において、前記インデックスにより、前記テキストベクトルを照会し、品詞付けを行う。例えば、インデックスによりテキストベクトルのある次元における特性を推定することができ、同じ次元の特性は同じ品詞に対応する。例えば、「犬」と「刀」の品詞はいずれも名詞であり、これらのある次元（ｘ次元と仮定する）におけるインデックスが一致し、いずれも名詞性を指す。それに対応して、インデックスによると、ある特定のテキストベクトルの品詞を照会し、このテキストベクトルに対して品詞付けを行うことができる。例えば、前記第４のテキストデータは「打」であり、テキストベクトルに変換すると、［（０，２）、（７，２）、（１０，１）］になる。まず、［（０，２）、（７，２）、（１０，１）］に対してインデックスを作成し、インデックスによりこの次元に対応する品詞を照会して動詞とし、テキストベクトル［（０，２）、（７，２）、（１０，１）］に対して品詞を動詞として付ける。ステップＳ２０３において、前記品詞付けに基づいてテキストの特徴語義ネットワーク図を作成し、テキストの単語頻度とテキスト頻度を統計し、続いて前記単語頻度とテキスト頻度に対して重み付け計算と特徴抽出を行って前記ラベルを得る。

具体的には、前記テキストの特徴語義ネットワーク図とはテキスト及びその語義関係を利用してテキスト特徴情報を表現する有向グラフであり、テキストベクトルに含まれるラベルをグラフのノードとし、２つのテキストベクトルの間の語義関係をグラフの有向辺とし、テキストベクトルの間の語義関係を単語頻度情報に合わせてノードの重みとし、有向辺の重みはテキストベクトル関係のテキストにおける重要度を表す。テキストの特徴語義ネットワーク図によると、本願はテキストベクトルに対して特徴抽出を行って前記ラベルを得ることができる。

ステップ３において、前記ラベル付きのテキストベクトルをＢＥＲＴモデルに入力して文字ベクトル特徴を取得する。

本願におけるＢＥＲＴモデルとは、ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ（トランスフォーマーを活用した双方向のエンコード表現）であり、双方向Ｔｒａｎｓｆｏｒｍｅｒ（トランスフォーマー）で構成される特徴抽出モデルである。具体的には、例えば文のｘ＝ｘ１、ｘ２…、ｘｎがあり、ここで、ｘ１、ｘ２などは文中の具体的な文字である。前記ＢＥＲＴモデルは文中の各文字に対してＴｏｋｅｎＥｍｂｅｄｄｉｎｇ、ＳｅｇｍｅｎｔＥｍｂｅｄｄｉｎｇ、ＰｏｓｉｔｉｏｎＥｍｂｅｄｄｉｎｇの３つの入力層の入力表現を用いて加算して入力特徴を得て、ＭａｓｋｅｄＬａｎｇｕａｇｅＭｏｄｅｌとＮｅｘｔＳｅｎｔｅｎｃｅＰｒｅｄｉｃｔｉｏｎを最適化目標として用い、文字の３種類の入力表現を最適化し、ただし、ＭａｓｋｅｄＬａｎｇｕａｇｅＭｏｄｅｌとＮｅｘｔＳｅｎｔｅｎｃｅＰｒｅｄｉｃｔｉｏｎはＢＥＲＴモデルにおける２種類の典型的なアルゴリズムタイプである。

ステップＳ３０２において、ラベル付きのテキストベクトルをＢＥＲＴモデルに入力し、前記ＢＥＲＴモデルを訓練して文字ベクトル特徴を取得するステップであって、
位置エンコードを用いてラベル付きのテキストベクトルに位置情報を付加し、初期的な単語ベクトルで前記位置情報が付加されたラベル付きのテキストベクトルを表すステップと、
ラベル付きのテキストベクトルの品詞を取得し、前記品詞を品詞ベクトルに変換するステップと、
前記初期的な単語ベクトルと前記品詞ベクトルを加算し、前記ラベル付きのテキストベクトルの単語ベクトルを得るステップと、
前記単語ベクトルで表されたラベル付きのテキストベクトルをＴｒａｎｓｆｏｒｍｅｒモデルに入力してデータ処理を行い、前記ラベル付きのテキストベクトルの単語行列を得るステップと、
前記単語行列を用いて、前記ラベル付きのテキストベクトルにおける２つの文が前後文であるか否か、２つの文中の隠し単語及び前記隠し単語の品詞特徴を予測するステップと、を含む。前記ＢＥＲＴモデルを訓練することにより、前記ＢＥＲＴモデルに入力されたテキストベクトルに１つの対応する品詞特徴を予測させることができ、品詞特徴に対して正規化処理を行って前記文字ベクトル特徴を得る。

ステップ４において、前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る。

文字ベクトル特徴はラベル付きのテキストベクトルをＢＥＲＴモデルに入力し、ＢＥＲＴモデルを訓練して得られるものである。そのため、文字ベクトル特徴はラベルに必要な特徴を含み、前記文字ベクトルの特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練することで、文字ベクトル特徴の特徴を抽象化し、ラベルなしのテキストベクトルに適切な特徴をマッチングさせ、さらに仮想ラベルをマッチングさせることができる。例えば、前のステップにおいて、ラベルなしのテキストベクトルは［（０，２）、（０，０）、（０，４）］である。それを前記畳み込みニューラルネットワークモデルに入力して訓練し、ラベル付きのテキストベクトル［（２，２）、（２，２）、（０，４）］はＢＥＲＴモデルの訓練を経て得た文字ベクトル特徴がＡである。前記畳み込みニューラルネットワークモデルにより、ラベルなしのテキストベクトル［（０，２）、（０，０）、（０，４）］と文字ベクトル特徴Ａが関連性を有することが認識される。したがって、文字ベクトル特徴Ａに基づいて、ラベル付きのテキストベクトル［（２，２）、（２，２）、（０，４）］を見つけ、そのラベルをγとして確認する。ラベルγに基づいて正規化処理を行って前記仮想ラベルを得る。前記仮想ラベルを前記ラベルなしのテキストベクトルにマッチングさせ、仮想ラベル付きのテキストベクトルを得る。

ステップ５において、ランダムフォレストモデルを用いて前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルに対してマルチラベル分類を行い、テキスト分類結果を得る。

ステップＳ５０１は、サブサンプルセットの生成である。

ステップＳ５０２は、決定木の構築である。

選択可能に、他の実施例では、テキスト分類プログラムは１つ以上のモジュールにさらに分割されてもよく、１つ以上のモジュールはメモリ１１に記憶され、かつ１つ以上のプロセッサ（本実施例ではプロセッサ１２）により実行されて本願を完了し、本願で言われたモジュールとは特定の機能を完成することができる一連のコンピュータプログラム命令セグメントであり、テキスト分類プログラムのテキスト分類装置における実行過程を説明するために用いられる。

例えば、図３に示すように、本願のテキスト分類装置の一実施例におけるテキスト分類プログラムのプログラムモジュールを示す図であり、この実施例では、前記テキスト分類プログラムはデータ受信及び処理モジュール１０と、単語ベクトルへの変換モジュール２０と、モデル訓練モジュール３０と、テキスト分類出力モジュール４０とに分割されてもよい。

一例として、前記データ受信及び処理モジュール１０は、オリジナルのテキストデータを受信し、前記オリジナルのテキストデータに対して単語切り分け、ストップワード除去を含む前処理を行って第４のテキストデータを得るために用いられる。

前記単語ベクトルへの変換モジュール２０は、前記第４のテキストデータに対して単語ベクトル化を行ってテキストベクトルを得るために用いられる。

前記モデル訓練モジュール３０は、テキストベクトルを予め構築された畳み込みニューラルネットワークモデルに入力して訓練し、訓練値を得て、前記訓練値が予め設定された閾値より小さい場合、前記畳み込みニューラルネットワークモデルが訓練を終了するために用いられる。

前記テキスト分類出力モジュール４０は、ユーザから入力されたテキストを受信し、前記テキストに対して上記前処理、単語得ベクトル化を行った後に前記テキスト分類に入力して出力する。

上記データ受信及び処理モジュール１０、単語ベクトルへの変換モジュール２０、モデル訓練モジュール３０、テキスト分類出力モジュール４０などのプログラムモジュールが実行されると実現させる機能又は操作ステップは上記実施例とほぼ同じであるため、ここでは詳細は再度説明しない。

また、本願は、テキスト分類プログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記テキスト分類プログラムは１つ以上のプロセッサにより実行されて以下の操作を実現するコンピュータ読み取り可能な記憶媒体をさらに提供する。

オリジナルのテキストデータを受信し、前記オリジナルのテキストデータに対して単語切り分け、ストップワード除去を含む前処理を行って第４のテキストデータを得る。

前記第４のテキストデータに対して単語ベクトル化を行ってテキストベクトルを得る。

前記テキストベクトルを予め構築されたテキスト分類モデルに入力して訓練し、訓練値を得て、前記訓練値が予め設定された閾値より小さい場合、前記畳み込みニューラルネットワークモデルが訓練を終了する。

ユーザから入力されたオリジナルのテキストデータを受信し、オリジナルのテキストデータに対して上記前処理、単語ベクトル化及び単語ベクトル符号化を行った後に前記畳み込みニューラルネットワークモデルに入力してテキスト分類結果を生成し出力する。

なお、上記本願の実施例の番号は単に説明するためのものであり、実施例の優劣を表すものではない。また、本明細書における用語の「含む」、「包含」又はその他の任意の変形は非排他的な包含をカバーすることを意図し、それにより、一連の要素を含むプロセス、装置、物品又は方法はそれらの要素を含むだけでなく、また明確に列挙されない他の要素を含み、又はこのようなプロセス、装置、物品又は方法に固有の要素を含む。それ以上の制限がない場合、文の「１つ……を含む」によって限定された要素は、この要素を含むプロセス、装置、物品又は方法に別の同じ要素がさらに存在することを排除するものではない。

以上の実施形態の説明により、当業者であれば、上記実施例による方法はソフトウェアに必要な汎用ハードウェアプラットフォームを加えるという方式によって実現でき、当然ながら、ハードウェアによっても実現できるが、前者はより好ましい実施形態である場合が多いことを明らかに了解することができる。このような理解に基づいて、本願の技術的解決手段は本質的に又は従来技術に寄与する部分はソフトウェア製品の形態で具現化することができ、このコンピュータソフトウェア製品は上記の記憶媒体（例えばＲＯＭ／ＲＡＭ、磁気ディスク、光ディスク）に記憶され、端末機器（携帯電話、コンピュータ、サーバ、又はネットワーク機器などであってもよい）に本願の各実施例に記載の方法を実行させるための複数の命令を含む。

以上は本願の好ましい実施例に過ぎず、それにより本願の特許範囲を限定するものではなく、本願の明細書及び図面の内容を利用して行われた同等の構造又は同等のフロー変換は、他の関連技術分野に直接的又は間接的に適用され、いずれも同様に本願の特許保護範囲内に含まれる。

Claims

プロセッサにより、オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得るステップと、
プロセッサにより、前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得るステップと、
プロセッサにより、前記ラベル付きのテキストベクトルをＢＥＲＴモデルに入力して文字ベクトル特徴を取得するステップと、
プロセッサにより、前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得るステップと、
プロセッサにより、ランダムフォレストモデルを用いて前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルに対してマルチラベル分類を行い、テキスト分類結果を得るステップと、を含み、
プロセッサにより、文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る前記ステップは、
プロセッサにより、前記ラベルなしのテキストベクトルを前記畳み込みニューラルネットワークモデルの畳み込み層に入力して前記畳み込みニューラルネットワークモデルを訓練し、訓練後の畳み込みニューラルネットワークモデルを得るステップと、
プロセッサにより、前記文字ベクトル特徴を前記訓練後の畳み込みニューラルネットワークモデルに入力し、特徴ベクトルを得るステップと、
プロセッサにより、前記特徴ベクトルに対して正規化処理を行って前記仮想ラベルを得るステップと、
プロセッサにより、前記仮想ラベルを前記ラベルなしのテキストベクトルにマッチングさせ、仮想ラベル付きのテキストベクトルを得るステップと、を含む
ことを特徴とするテキスト分類方法。
オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得る前記ステップは、
前記オリジナルのテキストデータに対して単語分割操作を行って第２のテキストデータを得るステップと、
前記第２のテキストデータに対してストップワード除去操作を行って第３のテキストデータを得るステップと、
前記第３のテキストデータに対して重複除去操作を行って第４のテキストデータを得るステップと、
前記第４のテキストデータに対して単語ベクトル形式への変換を行って前記テキストベクトルを得るステップと、を含むことを特徴とする請求項１に記載のテキスト分類方法。
前記ＢＥＲＴモデルは入力層、単語ベクトル層、分類層、符号化層を含み、また、
前記ラベル付きのテキストベクトルをＢＥＲＴモデルに入力して文字ベクトル特徴を取得する前記ステップは、
ラベル付きのテキストベクトルの品詞を取得し、前記品詞を品詞ベクトルに変換するステップと、
前記ラベル付きのテキストベクトルに対応する前記品詞ベクトルをＢＥＲＴモデルに入力してデータ処理を行い、前記ラベル付きのテキストベクトルの単語行列を得るステップと、
前記ラベル付きのテキストベクトルの単語行列に基づいて前記ラベル付きのテキストベクトルの文字ベクトル特徴を得るステップと、を含むことを特徴とする請求項１に記載のテキスト分類方法。
仮想ラベル付きのテキストベクトルを得る前記ステップの後、前記ランダムフォレストモデルを生成するステップをさらに含み、
前記ランダムフォレストモデルを生成する前記ステップは、
バギングアルゴリズムの復元サンプリングアルゴリズムを用いて、前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルから複数のサンプルサブセットを抽出し、前記サンプルサブセットを用いて複数の決定木モデルを訓練するステップと、
前記決定木モデルをベース分類器とし、予め設定された分割ルールを利用して前記サンプルサブセットを分割し、複数の前記決定木モデルで構成されるランダムフォレストモデルを生成するステップと、を含むことを特徴とする請求項１に記載のテキスト分類方法。
テキスト分類装置であって、メモリとプロセッサとを含み、前記メモリに前記プロセッサで実行可能なテキスト分類プログラムが記憶されており、前記テキスト分類プログラムが前記プロセッサにより実行されると、
オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得るステップと、
前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得るステップと、
前記ラベル付きのテキストベクトルをＢＥＲＴモデルに入力して文字ベクトル特徴を取得するステップと、
前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得るステップと、
ランダムフォレストモデルを用いて前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルに対してマルチラベル分類を行い、テキスト分類結果を得るステップと、を実現させ、
文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る前記ステップは、
前記ラベルなしのテキストベクトルを前記畳み込みニューラルネットワークモデルの畳み込み層に入力して前記畳み込みニューラルネットワークモデルを訓練し、訓練後の畳み込みニューラルネットワークモデルを得るステップと、
前記文字ベクトル特徴を前記訓練後の畳み込みニューラルネットワークモデルに入力し、特徴ベクトルを得るステップと、
前記特徴ベクトルに対して正規化処理を行って前記仮想ラベルを得るステップと、
前記仮想ラベルを前記ラベルなしのテキストベクトルにマッチングさせ、仮想ラベル付きのテキストベクトルを得るステップと、を含むことを特徴とするテキスト分類装置。
オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得る前記ステップは、
前記オリジナルのテキストデータに対して単語分割操作を行って第２のテキストデータを得るステップと、
前記第２のテキストデータに対してストップワード除去操作を行って第３のテキストデータを得るステップと、
前記第３のテキストデータに対して重複除去操作を行って第４のテキストデータを得るステップと、
前記第４のテキストデータに対して単語ベクトル形式への変換を行って前記テキストベクトルを得るステップと、を含むことを特徴とする請求項５に記載のテキスト分類装置。
前記ＢＥＲＴモデルは入力層、単語ベクトル層、分類層、符号化層を含み、また、
前記ラベル付きのテキストベクトルをＢＥＲＴモデルに入力して文字ベクトル特徴を取得する前記ステップは、
ラベル付きのテキストベクトルの品詞を取得し、前記品詞を品詞ベクトルに変換するステップと、
前記ラベル付きのテキストベクトルに対応する前記品詞ベクトルをＢＥＲＴモデルに入力してデータ処理を行い、前記ラベル付きのテキストベクトルの単語行列を得るステップと、
前記ラベル付きのテキストベクトルの単語行列に基づいて前記ラベル付きのテキストベクトルの文字ベクトル特徴を得るステップと、を含むことを特徴とする請求項５に記載のテキスト分類装置。
仮想ラベル付きのテキストベクトルを得る前記ステップの後、前記ランダムフォレストモデルを生成するステップをさらに含み、
前記ランダムフォレストモデルを生成する前記ステップは、
バギングアルゴリズムの復元サンプリングアルゴリズムを用いて、前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルから複数のサンプルサブセットを抽出し、前記サンプルサブセットを用いて複数の決定木モデルを訓練するステップと、
前記決定木モデルをベース分類器とし、予め設定された分割ルールを利用して前記サンプルサブセットを分割し、複数の前記決定木モデルで構成されるランダムフォレストモデルを生成するステップと、を含むことを特徴とする請求項７に記載のテキスト分類装置。
請求項１乃至４のいずれか一項に記載のテキスト分類方法を１つ以上のプロセッサに実行させるテキストプログラムが記憶されたコンピュータ読み取り可能な記憶媒体。
請求項１乃至４のいずれか一項に記載のテキスト分類方法を１つ以上のプロセッサに実行させるテキスト分類プログラム。