JP2019535047A

JP2019535047A - 主題分類器の訓練方法、装置及びコンピュータ読み取り可能な記憶媒体

Info

Publication number: JP2019535047A
Application number: JP2018564802A
Authority: JP
Inventors: 健宗王; 章成黄; 天博呉; 京肖
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-08-25
Filing date: 2017-09-28
Publication date: 2019-12-05
Anticipated expiration: 2037-09-28
Also published as: JP6764488B2; WO2019037197A1; CN107704495B; US20200175397A1; CN107704495A

Abstract

【課題】本発明は主題分類器の訓練方法を開示する。【解決手段】該方法は、テキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得するステップと、予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、かつ前記訓練サンプルの特徴に基づき、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練するステップと、前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ＲＯＣ曲線をプロットし、ＲＯＣ曲線下面積ＡＵＣに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第１主題分類器を訓練するステップと、を含む。本発明は、主題分類器の訓練装置及びコンピュータ読み取り可能な記憶媒体をさらに開示し、主題分類効率と正確率を向上させることができる。【選択図】図２

Description

本発明は情報処理分野に関し、特に主題分類器の訓練方法、装置及びコンピュータ読み取り可能な記憶媒体に関する。

近年、インターネットの急速発展に伴って、情報資源は指数的に増加している。豊かなインターネット情報資源は、人々の生活に大きな利便性をもたらし、人々は１台のインターネットに接続されたコンピュータだけで、音声・ビデオメディア、記事、技術文献などの各種タイプの情報資源を入手することができる。

しかしながら、このビッグデータ時代では、従来の分類技術の分類効率及び正確率が低く、ユーザーが大量の情報資源に面する際に、自分が必要である関連の主題情報を迅速かつ正確に取得できないので、主題分類効率及び正確率をどのように向上させるのは、当業者が解決しなければならない技術問題である。

本発明の主な目的は、主題分類効率及び正確率を向上させ、それによりユーザーが大量の情報から関連の主題情報を効率よく取得する主題分類器の訓練方法、装置及びコンピュータ読み取り可能な記憶媒体を提供することである。

上記目的を実現するために、本発明は主題分類器の訓練方法を提供し、
テキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得するステップと、
予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、かつ前記訓練サンプルの特徴に基づき、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練するステップと、
前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ＲＯＣ曲線をプロットし、ＲＯＣ曲線下面積ＡＵＣに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第１主題分類器を訓練するステップと、を含む。

また、上記目的を実現するために、本発明は、主題分類器の訓練装置をさらに提供し、メモリ、プロセッサ及び前記メモリに記憶され、かつ前記プロセッサに実行可能な主題分類器訓練プログラムを含み、前記主題分類器訓練プログラムが前記プロセッサにより実行されるとき、上記主題分類器の訓練方法のステップを実現する。

また、上記目的を実現するために、本発明は、コンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ読み取り可能な記憶媒体に主題分類器訓練プログラムが記憶され、前記主題分類プログラムがプロセッサにより実行されるとき、上記主題分類器の訓練方法のステップを実現する。

また、上記目的を実現するために、本発明は、主題分類器の訓練装置をさらに提供し、
テキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得する第１取得モジュールと、
予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、かつ前記訓練サンプルの特徴に基づき、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練する第１訓練モジュールと、
前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ＲＯＣ曲線をプロットし、ＲＯＣ曲線下面積ＡＵＣに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第１主題分類器を訓練する第２訓練モジュールと、を備える。

本発明は、テキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得し、予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、前記訓練サンプルの特徴に基づき、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練し、前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ＲＯＣ曲線をプロットし、かつＲＯＣ曲線下面積ＡＵＣに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第１主題分類器を訓練する。上記方式により、本発明は、予め設定したアルゴリズムを利用して訓練サンプルとテストサンプルに対して特徴抽出を行うことで、特徴抽出とモデル訓練の時間を短縮させ、分類効率を向上させる。本発明は、手動タグ付けの方式で訓練サンプルをスクリーニングすることによって、訓練サンプルの正確性を向上させ、さらに主題分類器の分類の正確率を向上させることができると共に、ＲＯＣ曲線下面積ＡＵＣを用いて前記最適モデルパラメータを含むロジスティック回帰モデルを評価して主題分類器を訓練し、テキストデータを分類することによって、主題分類の正確率を更に向上させる。

図１は本発明の実施例に係る主題分類器装置の構造模式図である。図２は本発明の主題分類器の訓練方法の第１実施例のフローチャートである。図３は本発明の実施例においてテキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得する詳細フローチャートである。図４は本発明の実施例において前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ＲＯＣ曲線をプロットし、ＲＯＣ曲線下面積ＡＵＣに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第１主題分類器を訓練する詳細フローチャートである。図５は本発明に係る主題分類器の訓練方法の第２実施例のフローチャートである。図６は本発明の実施例においてテキストデータを収集し、前記テキストデータを前処理し、対応した第１キーワードセットを取得する詳細フローチャートである。

本発明の目的の実現、機能特徴及び利点について、実施例、図面を参照して更に説明する。
なお、ここで説明される具体的な実施例は本発明を解釈するためのものに過ぎず、本発明を限定するものではない。

従来の分類技術の分類効率及び正確率が低いので、ユーザーが大量の情報資源に面する際に、自分が必要である関連の主題情報を迅速かつ正確に取得することが困難である。

上記技術問題を解決するために、本発明は主題分類器の訓練方法を提供し、テキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得し、予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、かつ前記訓練サンプルの特徴に基づき、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練する。前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ＲＯＣ曲線をプロットし、かつＲＯＣ曲線下面積ＡＵＣに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第１主題分類器を訓練する。上記方式により、本発明は、予め設定したアルゴリズムを利用して訓練サンプルとテストサンプルに対して特徴抽出を行うことで、特徴抽出とモデル訓練の時間を短縮させ、分類効率を向上させる。本発明は手動タグ付けの方式で訓練サンプルをスクリーニングすることによって、訓練サンプルの精度を向上させ、さらに主題分類器の分類の正確率を向上させることができると共に、ＲＯＣ曲線下面積ＡＵＣを用いて前記最適モデルパラメータを含むロジスティック回帰モデルを評価して主題分類器を訓練し、テキストデータを分類することによって、主題分類の正確率を更に向上させる。

図１は、本発明の実施例に係る主題分類器装置の構造模式図である。

本発明の実施例の装置はＰＣであってもよく、スマートフォン、タブレットＰＣ、携帯型コンピュータなどの表示機能を有する端末装置であってもよい。

図１に示すように、該装置は、ＣＰＵのようなプロセッサ１００１、ネットワークインタフェース１００４、ユーザーインタフェース１００３、メモリ１００５、及び通信バス１００２を含むことができる。通信バス１００２はこれらの部材間の接続通信を実現する。ユーザーインタフェース１００３はディスプレイ（Ｄｉｓｐｌａｙ）、キーボード（Ｋｅｙｂｏａｒｄ）のような入力ユニットを含んでもよく、標準的な有線インタフェース、無線インタフェースをさらに含んでもよい。ネットワークインタフェース１００４は標準的な有線インタフェース、無線インタフェース（例えば、ＷＩ−ＦＩインタフェース）を含んでもよい。メモリ１００５は高速ＲＡＭメモリであってもよく、ディスクメモリのような不揮発性メモリ（ｎｏｎ−ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）を含んでもよい。メモリ１００５は上記プロセッサ１００１とは別体の記憶装置を含んでもよい。

好ましくは、該装置は、カメラ、ＲＦ（ＲａｄｉｏＦｒｅｑｕｅｎｃｙ、無線周波数）回路、センサ、音声回路、ＷｉＦｉモジュールなどをさらに備えてもよい。センサとして、光センサ、モーションセンサ及びほかのセンサが挙げられる。具体的には、光センサは環境光センサ及び近接センサを含み、環境光センサは、環境光の明暗に応じてディスプレイの輝度を調整することができ、近接センサは、装置が耳のそばに移動するとき、ディスプレイ及び／又はバックライトをオフにすることができる。モーションセンサの１つとして、重力加速度センサは、各方向（一般に、三軸）の加速度の大きさを検出し、静止時に重力の大きさ及び方向を検出し、装置の姿勢を識別する用途（例えば、水平・垂直画面の切り替え、関連ゲーム、磁力計の姿勢校正）、振動識別関連機能（例えば、歩数計、叩き）などに適用できる。当然、装置は、ジャイロスコープ、気圧計、湿度計、温度計、赤外線センサなどのほかのセンサを配置してもよく、ここで詳細して説明しない。

当業者であれば、図１に示される装置の構造は装置を限定するものではなく、図面より部材を増減したり、いくつかの部材を組み合わせたり、異なる部材を設置したりすることができる。
図１に示すように、コンピュータ記憶媒体であるメモリ１００５は、オペレーティングシステム、ネットワーク通信モジュール、ユーザーインタフェースモジュール及び主題分類器訓練プログラムを含むことができる。

図１に示される装置では、ネットワークインタフェース１００４は主にバックグラウンドサーバに接続し、バックグラウンドサーバとデータ通信を行う。ユーザーインタフェース１００３は主にクライアント（ユーザー側）に接続し、クライアントとデータ通信を行う。プロセッサ１００１はメモリ１００５に記憶された主題分類器訓練プログラムを呼び出して、以下のステップを実現することができ、即ち、
テキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得するステップと、
予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、かつ前記訓練サンプルの特徴に基づき、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練するステップと、
前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ＲＯＣ曲線をプロットし、ＲＯＣ曲線下面積ＡＵＣに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第１主題分類器を訓練するステップと、を実現することができる。

更に、プロセッサ１００１はメモリ１００５に記憶された主題分類器訓練プログラムを呼び出して、以下のステップを実現することができ、即ち、
テキストデータを収集し、前記テキストデータを前処理し、対応した第１キーワードセットを取得するステップと、
前記第１キーワードセットと所定数の話題に基づき、予め設定した主題モデルを利用して前記テキストデータの前記話題での分布を算出し、前記テキストデータの前記話題での分布状況に基づきクラスタリングし、前記テキストデータに対応した話題モデルを訓練するステップと、
前記話題モデルに基づく前記テキストデータへの手動タグ付け結果に応じて、前記テキストデータから目標主題分類器に対応した訓練サンプルをスクリーニングし、かつ前記訓練サンプル以外のテキストデータをテストサンプルとするステップと、を実現することができる。

更に、プロセッサ１００１はメモリ１００５に記憶された主題分類器訓練プログラムを呼び出して、以下のステップを実現することができ、即ち、
予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、第１ハッシュテーブルと第２ハッシュテーブルを対応して作成するステップと、
前記第１ハッシュテーブルをロジスティック回帰モデルに代入し、かつ反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練するステップと、を実現することができる。

更に、プロセッサ１００１はメモリ１００５に記憶された主題分類器訓練プログラムを呼び出して、以下のステップを実現することができ、即ち、
前記第２ハッシュテーブルを前記最適モデルパラメータを含むロジスティック回帰モデルに代入し、真陽性ＴＰ、真陰性ＴＮ、偽陰性ＦＮ及び偽陽性ＦＰを得るステップと、
前記ＴＰ、ＴＮ、ＦＮ及びＦＰに基づきＲＯＣ曲線をプロットするステップと、
ＲＯＣ曲線下面積ＡＵＣを計算し、ＡＵＣ値に基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価するステップと、
前記ＡＵＣ値が所定ＡＵＣ閾値以下であると、前記最適モデルパラメータを含むロジスティック回帰モデルが要求を満たさないと判定して戻り、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練するステップと、
前記ＡＵＣ値が前記所定ＡＵＣ閾値より大きいと、前記最適モデルパラメータを含むロジスティック回帰モデルが要求を満たすと判定し、第１主題分類器を訓練するステップと、を実現することができる。

更に、プロセッサ１００１はメモリ１００５に記憶された主題分類器訓練プログラムを呼び出して、以下のステップを実現することができ、即ち、
前記ＴＰ、ＴＮ、ＦＮ及びＦＰに基づき、それぞれ計算式ＦＰＲ＝ＦＰ／（ＦＰ＋ＴＮ）、ＴＰＲ＝ＴＰ／（ＴＰ＋ＦＮ）を用いて偽陽性率ＦＰＲと真陽性率ＴＰＲを算出するステップと、
前記ＦＰＲを横座標とし、前記ＴＰＲを縦座標として、ＲＯＣ曲線をプロットするステップと、を実現することができる。

更に、プロセッサ１００１はメモリ１００５に記憶された主題分類器訓練プログラムを呼び出して、以下のステップを実現することができ、即ち、
前記第２ハッシュテーブルを前記第１主題分類器に代入し、前記テストサンプルが対応した話題に属する確率を得るステップと、
前記所定ＡＵＣ閾値を調整し、かつ前記ＴＰ、ＦＰ及びＦＮに基づき正確率ｐと再現率ｒを計算するステップと、
前記ｐが所定ｐ閾値以下であり、又は前記ｒが所定ｒ閾値以下であると、戻り、前記ｐが前記所定ｐ閾値より大きく且つ前記ｒが前記所定ｒ閾値より大きくなるまで、前記所定ＡＵＣ閾値を調整し、第２主題分類器を訓練するステップと、を実現することができる。

更に、プロセッサ１００１はメモリ１００５に記憶された主題分類器訓練プログラムを呼び出して、
前記第２主題分類器を利用して前記テキストデータを分類するステップを実現することができる。

更に、プロセッサ１００１はメモリ１００５に記憶された主題分類器訓練プログラムを呼び出して、以下のステップを実現することができ、即ち、
テキストデータを収集し、前記テキストデータに対して単語分割を行うステップと、
予め設定したストップワードリストに基づき単語分割後のテキストデータのうちのストップワードを除去し、第２キーワードセットを得るステップと、
前記第２キーワードセットのうちの各キーワードの単語出現頻度−逆文書頻度ＴＦ−ＩＤＦ値を計算し、ＴＦＩＤＦ値が所定ＴＦ−ＩＤＦ閾値未満のキーワードを除去し、対応した第１キーワードセットを得るステップと、を実現することができる。

更に、プロセッサ１００１はメモリ１００５に記憶された主題分類器訓練プログラムを呼び出して、以下のステップを実現することができ、即ち、
前記第２キーワードセットのうちの各キーワードの単語出現頻度ＴＦと逆文書頻度ＩＤＦを計算するステップと、
前記ＴＦとＩＤＦに基づき前記第２キーワードセットのうちの各キーワードの単語出現頻度−逆文書頻度ＴＦ−ＩＤＦ値を計算し、ＴＦ−ＩＤＦ値が所定ＴＦ−ＩＤＦ閾値未満のキーワードを除去し、対応した第１キーワードセットを得るステップと、を実現することができる。

図２は、本発明に係る主題分類器の訓練方法の第１実施例のフローチャートである。

本発明の実施例では、前記主題分類器の訓練方法は、以下のステップを含む。

ステップＳ１００において、テキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得する。

ステップＳ２００において、予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、かつ前記訓練サンプルの特徴に基づき、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練する。

本実施例では、主題分類器の訓練に必要な訓練サンプルとテストサンプルを取得し、訓練サンプルは、テキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得され、モデルのパラメータを最適化するためのものであり、テストサンプルは、訓練サンプル以外のテキストデータであり、作成したモデルに対して特性評価を行うためのものである。具体的な実施例では、訓練サンプルとテストサンプルの取得は、プログラム、例えば、数学ソフトウェアＭａｔｌａｂのＳｖｍｔｒａｉｎ関数によって、インターネットにおいて検索したミニブログから直接サンプリングされることができる。

更に、予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、本実施例では、バイナリハッシュテーブルのバイト４グラム（Ｂｙｔｅ４−ｇｒａｍ）アルゴリズムを用いてそれぞれ前記訓練サンプルとテストサンプルの特徴を抽出し、各々の訓練サンプル又はテストサンプルを１組の特徴からなる固有ベクトルとして対応付けて示す。該方法は各訓練サンプル又はテストサンプルデータのうちのすべての連続した４個のバイトをキー（ｋｅｙ）として抽出し、文字列を文字列のＵＴＦ−８コードに対応するｂｙｔｅ配列に変換し、値が３２ｂｉｔの整数である。更に、除算法によってハッシュ関数を構築し、それぞれ第１ハッシュテーブルと第２ハッシュテーブルを対応して作成する。なお、ハッシュテーブルの長さがｍであるハッシュ関数の式は、ｆ（ｋｅｙ）＝ｋｅｙｍｏｄｐ，（ｐ≦ｍ）である（Ｍｏｄは余りを求めることを示す）。具体的な実施形態では、競合の発生を軽減させるために、ハッシュテーブルの分布が疎すぎることを回避するために、ｐは、通常、ハッシュテーブルの長さより小さい最大素数を取る。

更に、前記第１ハッシュテーブルをロジスティック回帰モデルに代入し、最適化方法によって最適なモデルパラメータを反復に算出し、ロジスティック回帰モデルを訓練し、ロジスティック回帰モデルは、ある事物の可能性を推定し、或いは１つのサンプルがある種類に属する確率を判断するためのものである。ロジスティック回帰モデルは、
であり、
ただし、ｘｊは第ｊ個の訓練サンプルの固有ベクトルを示し、ｘ（ｉ）は第ｉ回のサンプリングを示し、θはモデルパラメータを示す。

なお、反復アルゴリズムは、勾配降下法、共役勾配法及び準ニュートン法などを含む。具体的な実施例では、上記のいずれかの反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練する。当然、具体的な実施例では、例えばベクトル空間モデルＶＳＭ、情報利得法、期待クロスエントロピーなどのほかの方法を用いて、それぞれ訓練サンプルとテストサンプルの特徴を抽出するようにしてもよい。

ステップＳ３００において、前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ＲＯＣ曲線をプロットし、かつＲＯＣ曲線下面積ＡＵＣに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第１主題分類器を訓練する。

本実施例では、テストサンプルに基づき作成された第２ハッシュテーブルを前記最適モデルパラメータを含むロジスティック回帰モデルに代入して、真陽性ＴＰ、真陰性ＴＮ、偽陰性ＦＮ及び偽陽性ＦＰを得て、ＴＰはロジスティック回帰モデルを利用して訓練サンプルのうちの陽性クラスを判断しても陽性クラスに属するケースの数であり、ＴＮはロジスティック回帰モデルを利用して訓練サンプルのうちの陰性クラスを判断しても陰性クラスに属するケースの数であり、ＦＮはロジスティック回帰モデルを利用して訓練サンプルのうちの陰性クラスを判断して陽性クラスに属するケースの数であり、ＦＰはロジスティック回帰モデルを利用して訓練サンプルのうちの陽性クラスを判断して陰性クラスに属するケースの数であり、陽性クラスと陰性クラスとは、訓練サンプルを手動でタグ付けする２種のクラスであり、すなわち、あるサンプルが特定のクラスに属することを手動でタグ付けする場合、該サンプルが陽性クラスに属し、該特定のクラスに属しないサンプルが陰性クラスに属する。前記ＴＰ、ＴＮ、ＦＮ及びＦＰに基づき偽陽性率ＦＰＲと真陽性率ＴＰＲを算出し、ＦＰＲを横座標とし、ＴＰＲを縦座標とし、ＲＯＣ曲線をプロットし、ＲＯＣ曲線は取得した各指標の特徴曲線であり、各指標間の関係を示すためのものであり、更にＲＯＣ曲線下面積ＡＵＣを算出し、ＡＵＣがＲＯＣ曲線下面積であり、ＡＵＣが大きいほど、該試験の診断価値が高く、前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、前記ＡＵＣ値が所定ＡＵＣ閾値以下であると、前記最適モデルパラメータを含むロジスティック回帰モデルが要求を満たさないと判定して戻り、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練し、前記ＡＵＣ値が前記所定ＡＵＣ閾値より大きいと、前記最適モデルパラメータを含むロジスティック回帰モデルが要求を満たすと判定し、第１主題分類器を訓練する。

本発明の実施例は、テキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得し、予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、かつ前記訓練サンプルの特徴に基づき、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練し、前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ＲＯＣ曲線をプロットし、かつＲＯＣ曲線下面積ＡＵＣに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第１主題分類器を訓練する。上記方式により、本発明は、予め設定したアルゴリズムを利用して訓練サンプルとテストサンプルに対して特徴抽出を行うことで、特徴抽出とモデル訓練の時間を短縮させ、分類効率を向上させる。本発明は、手動タグ付けの方式で訓練サンプルをスクリーニングすることによって、訓練サンプルの正確性を向上させ、さらに主題分類器の分類正確率を向上させることができると共に、ＲＯＣ曲線下面積ＡＵＣを用いて、前記最適モデルパラメータを含むロジスティック回帰モデルを評価して主題分類器を訓練し、テキストデータを分類することによって、主題分類の正確率を更に向上させることができる。

図２に示される第１実施例によれば、図３は、本発明の実施例においてテキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得する詳細フローチャートであり、ステップＳ１００は、以下のステップを含む。

ステップＳ１１０において、テキストデータを収集し、かつ前記テキストデータを前処理し、対応した第１キーワードセットを取得する。

本発明の実施例では、テキストデータは、例えばミニブログ、ＱＱ空間、知乎、百度貼バなどの主要なオンラインソーシャルプラットフォームから取得されてもよく、例えば騰訊視頻、知網、電子報などの主な情報資源データベースから取得されてもよい。本実施例では、ミニブログテキストを例として説明し、具体的には、ミニブログテキストデータの収集について、新浪ＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）によって新浪ミニブログテキストデータを取得することができ、前記テキストデータはミニブログ原文とコメントを含む。

本発明の実施例では、前記テキストデータを前処理するプロセスは、前記テキストデータに対して単語分割を行い、且つ品詞タグ付けを行い、さらに予め設定したストップワードリストに基づき単語分割後のテキストデータのうちのストップワードリストを除去し、第２キーワードセットを得ることを含む。更に、前記第２キーワードセットのうちの各キーワードの単語出現頻度ＴＦ、逆文書頻度ＩＤＦ及び単語出現頻度−逆文書頻度ＴＦ−ＩＤＦ値を計算し、ＴＦ−ＩＤＦ値が所定ＴＦ−ＩＤＦ閾値未満のキーワードを除去し、対応した第１キーワードセットを得る。

ステップＳ１２０において、前記第１キーワードセットと所定数の話題に基づき、予め設定した主題モデルを利用して前記テキストデータの前記話題での分布を算出し、かつ前記テキストデータの前記話題での分布状況に基づきクラスタリングし、前記テキストデータに対応した話題モデルを訓練する。

本発明の実施例では、予め設定した主題モデルとして、ＬＤＡ主題モデルが用いられており、該モデルは教師なし機械学習技術であり、大規模なドキュメントセット又はコーパスに隠れた主題情報を識別することに用いられ、ドキュメントセットのうちの各ドキュメントを潜在的主題の確率分布で示し、各々の潜在的主題が単語の確率分布で示される。具体的には、本実施例では、端末が入力された第１キーワードセットと設定された話題の数を受信すると、ＬＤＡ主題モデルはキーワードのドキュメントでの分布に基づき、前記話題のキーワードでの分布、及びテキストデータの前記話題での分布を算出する。更に、前記テキストデータの前記話題での分布状況に基づきクラスタリングして、前記テキストデータに対応する話題モデルを訓練する。

ステップＳ１３０において、前記話題モデルに基づく前記テキストデータへの手動タグ付け結果に応じて、前記テキストデータから目標主題分類器に対応した訓練サンプルをスクリーニングし、かつ前記訓練サンプル以外のテキストデータをテストサンプルとする。

本実施例では、ＬＤＡモデルは話題生成モデルであり、取得する話題の種類を制御できないので、取得する話題を手動でタグ付けする必要があり、それにより目標主題に対応したテキストデータをスクリーニングして主題分類器の訓練サンプルとし、それは、主題分類器の分類正確率を向上することに有利である。また、訓練サンプル以外のテキストデータをテストサンプルとして、訓練したロジスティック回帰モデルを評価することに用いられる。

図２に示される第１実施例によれば、図４は、本発明の実施例において前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ＲＯＣ曲線をプロットし、かつＲＯＣ曲線下面積ＡＵＣに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第１主題分類器を訓練する詳細フローチャートであり、ステップＳ３００は、以下のステップを含む。

ステップＳ３１０において、前記第２ハッシュテーブルを前記最適モデルパラメータを含むロジスティック回帰モデルに代入し、真陽性ＴＰ、真陰性ＴＮ、偽陰性ＦＮ及び偽陽性ＦＰを得る。

ステップＳ３２０において、前記ＴＰ、ＴＮ、ＦＮ及びＦＰに基づきＲＯＣ曲線をプロットする。

ステップＳ３３０において、ＲＯＣ曲線下面積ＡＵＣを計算し、かつＡＵＣ値に基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価する。

ステップＳ３４０において、前記ＡＵＣ値が所定ＡＵＣ閾値以下であると、前記最適モデルパラメータを含むロジスティック回帰モデルが要求を満たさないと判定して戻り、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練する。

ステップＳ３５０において、前記ＡＵＣ値が前記所定ＡＵＣ閾値より大きいと、前記最適モデルパラメータを含むロジスティック回帰モデルが要求を満たすと判定し、第１主題分類器を訓練する。

本実施例では、前記第２ハッシュテーブルを前記最適モデルパラメータを含むロジスティック回帰モデルに代入し、テストサンプルを分析したところ、４種の場合がある。１つのテキストデータがある話題に属すると共に、最適モデルパラメータを含むロジスティック回帰モデルにより該話題に属すると予測される場合、真陽性ＴＰであり、１つのテキストデータがある話題に属しないと共に、該話題に属しないと予測される場合、真陰性ＴＮであり、１つのテキストデータがある話題に属するが、該話題に属しないと予測される場合、偽陰性ＦＮであり、１つのテキストデータがある話題に属しないが、該話題に属すると予測される場合、偽陽性ＦＰである。

更に、前記ＴＰ、ＴＮ、ＦＮ及びＦＰに基づきＲＯＣ曲線をプロットし、具体的には、ＲＯＣ曲線は偽陽性率ＦＰＲを横座標とし、真陽性率ＴＰＲを縦座標とし、具体的な計算式は以下の通りである。

更に、ＲＯＣ曲線下面積ＡＵＣを計算し、計算式は、
である。

本実施例では、ＡＵＣ値が大きいほど、該最適モデルパラメータを含むロジスティック回帰モデルの特性が良い。算出されたＡＵＣ値が所定ＡＵＣ閾値以下であると、前記最適モデルパラメータを含むロジスティック回帰モデルが要求を満たさないと判定して戻り、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練する。前記ＡＵＣ値が前記所定ＡＵＣ閾値より大きくなると、前記最適モデルパラメータを含むロジスティック回帰モデルが要求を満たすと判定し、第１主題分類器を訓練する。

図２に示される第１実施例によれば、図５は、本発明に係る主題分類器の訓練方法の第２実施例のフローチャートであり、該主題分類器の訓練方法は、さらに、以下のステップを含む。

ステップＳ４００において、前記第２ハッシュテーブルを前記第１主題分類器に代入し、前記テストサンプルが対応した話題に属する確率を得る。

ステップＳ５００において、前記所定ＡＵＣ閾値を調整し、かつ前記ＴＰ、ＦＰ及びＦＮに基づき正確率ｐと再現率ｒを計算する。

ステップＳ６００において、前記ｐが所定ｐ閾値以下であり、又は前記ｒが所定ｒ閾値以下であると、戻り、前記ｐが前記所定ｐ閾値より大きく且つ前記ｒが前記所定ｒ閾値より大きくなるまで、前記所定ＡＵＣ閾値を調整し、第２主題分類器を訓練する。

ステップＳ７００において、前記第２主題分類器を利用して前記テキストデータを分類する。

なお、図２に示される第１実施例に対して、図４に示される第２実施例の相違点は、実際使用中、テキストデータが多すぎて、手動でサンプルをタグ付けする作業量が非常に大きく、すべての可能なテキストデータをカバーするできないおそれがあり、使用効果が悪い。また、ＲＯＣ曲線下面積ＡＵＣを利用して前記最適モデルパラメータを含むロジスティック回帰モデルを評価するとき、０．５をデフォルトに所定ＡＵＣ閾値とし、０．５より大きい場合、ロジスティック回帰モデルの予測結果が１であり、該話題に属することを示し、０．５以下である場合、ロジスティック回帰モデルの予測結果が０であり、該話題に属しないことを示す。従って、第２実施例では、前記所定ＡＵＣ閾値を調整することで、正確率ｐと再現率ｒを確保するとともに、前記第２主題分類器の分類正確率を更に向上させる。

本発明の実施例では、前記第２ハッシュテーブルを前記第１主題分類器に代入し、前記テストサンプルが対応した話題に属する確率を得る。更に、前記所定ＡＵＣ閾値を調整し、かつ前記ＴＰ、ＦＰ及びＦＮに基づき正確率ｐと再現率ｒを算出し、計算式は、
である。

前記ｐが所定ｐ閾値以下であり、又は前記ｒが所定ｒ閾値以下であると戻り、前記ｐが前記所定ｐ閾値より大きく且つ前記ｒが前記所定ｒ閾値より大きくなるまで、前記所定ＡＵＣ閾値を調整し続け、第２主題分類器を訓練し、かつ前記第２主題分類器を利用して前記テキストデータを分類する。

図３に示される実施形態によれば、図６は、本発明の実施例においてテキストデータを収集し、かつ前記テキストデータを前処理し、対応した第１キーワードセットを取得する詳細フローチャートであり、ステップＳ１１０は以下のステップを含む。

ステップＳ１１１において、テキストデータを収集し、前記テキストデータに対して単語分割を行う。

ステップＳ１１２において、予め設定したストップワードリストに基づき単語分割後のテキストデータのうちのストップワードを除去し、第２キーワードセットを得る。

ステップＳ１１３において、前記第２キーワードセットのうちの各キーワードの単語出現頻度−逆文書頻度ＴＦ−ＩＤＦ値を計算し、かつＴＦ−ＩＤＦ値が所定ＴＦ−ＩＤＦ閾値未満のキーワードを除去し、対応した第１キーワードセットを得る。

本発明の実施例では、テキストデータは、例えばミニブログ、ＱＱ空間、知乎、百度貼バなどの主なオンラインソーシャルプラットフォームから取得されてもよく、例えば騰訊視頻、知網、電子報などの主な情報資源データベースから取得されてもよい。本実施例では、ミニブログテキストを例として説明し、具体的には、ミニブログテキストデータの収集について、新浪ＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）によって新浪ミニブログテキストデータを取得することができ、前記テキストデータはミニブログ原文とコメントを含む。

更に、前記テキストデータを前処理し、前処理過程は、前記テキストデータに対して単語分割を行い、かつ品詞タグ付けを行うことを含む。なお、単語分割処理は単語分割ツール、例えば中国語字句解析システムＩＣＴＣＬＡＳ、清華大学の中国語字句解析プログラムＴＨＵＬＡＣ、言語技術プラットフォームＬＴＰなどによって実行されてもよい。単語分割は主に中国語の特徴に応じて、前記サンプルデータのうちの各中国語テキストを１つ１つの単語に分割し、且つ品詞タグ付けを行う。

更に、前処理過程は予め設定したストップワードリストに基づき単語分割後のテキストデータのうちのストップワードを除去することをさらに含む。ストップワードの除去によって、キーワードの密度向上に寄与し、それによりテキストデータの属する話題の決定に寄与する。なお、ストップワードは、主に２種類を含む。第１類は、例えば「私」、中国語漢字「就」などのような過度頻繁に使われている単語であり、ほぼすべてのドキュメントに出現してしまう。第２類はテキストでの出現頻度が非常に高いが、無意味な単語であり、完全なセンテンスに入れないと無用であり、感嘆詞、副詞、前置詞、接続詞などを含み、例えば「の」、「に」、「次に」などである。

更に、前処理過程は、前記第１キーワードセットのうちの各キーワードの単語出現頻度−逆文書頻度ＴＦ−ＩＤＦ値を計算し、かつＴＦ−ＩＤＦ値が所定ＴＦ−ＩＤＦ閾値未満のキーワードを除去し、対応した第２キーワードセットを得ることをさらに含む。具体的には、先ず単語出現頻度ＩＦと逆文書頻度ＩＤＦを計算し、ＴＦはあるキーワードが現在のドキュメントに出現する頻度を示し、ＩＤＦは該キーワードのすべてのテキストデータのドキュメントでの分布状況を示し、単語の普遍的な重要性の尺度である。ＴＦとＩＤＦの計算式は、
である。
ただし、ｎｉは該キーワードが現在のドキュメントに出現する回数を示し、ｎは現在のドキュメントのうちのキーワードの総数を示し、Ｎはデータセットのドキュメントの総数を示し、Ｎｉはテキストデータセットにおける該キーワードｉを有するドキュメントの数を示す。

更に、式ＴＦ−ＩＤＦ＝ＴＦ×ＩＤＦに基づきＴＦ−ＩＤＦ値を計算し、ＴＦ−ＩＤＦ値が所定ＴＦ−ＩＤＦ閾値未満のキーワードを除去し、対応したキーワードセットを得る。

また、本発明の実施例はコンピュータ読み取り可能な記憶媒体をさらに提出し、前記コンピュータ読み取り可能な記憶媒体には、主題分類器訓練プログラムが記憶され、前記主題分類器訓練プログラムがプロセッサにより実行されるとき、以上のような主題分類器の訓練方法のステップを実現する。

前記プロセッサで運転される主題分類器訓練プログラムが実行されるときに実現する方法は本発明に係る主題分類器の訓練方法の各実施例を参照すればよく、ここで詳細して説明しない。

また、本発明の実施例は主題分類器の訓練装置をさらに提出し、前記主題分類器の訓練装置は、
テキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得する第１取得モジュールと、
予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、かつ前記訓練サンプルの特徴に基づき、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練する第１訓練モジュールと、
前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ＲＯＣ曲線をプロットし、かつＲＯＣ曲線下面積ＡＵＣに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第１主題分類器を訓練する第２訓練モジュールと、を備える。

更に、前記第１取得モジュールは、
テキストデータを収集し、かつ前記テキストデータを前処理し、対応した第１キーワードセットを取得する収集ユニットと、
前記第１キーワードセットと所定数の話題に基づき、予め設定した主題モデルを利用して前記テキストデータの前記話題での分布を算出し、かつ前記テキストデータの前記話題での分布状況に基づきクラスタリングし、前記テキストデータに対応した話題モデルを訓練する第１訓練ユニットと、
前記話題モデルに基づく前記テキストデータへの手動タグ付け結果に応じて、前記テキストデータから目標主題分類器に対応した訓練サンプルをスクリーニングし、かつ前記テキストデータのうち前記訓練サンプルを除くテキストデータをテストサンプルとする分類ユニットと、を備える。

更に、前記第１訓練ユニットは、
予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、第１ハッシュテーブルと第２ハッシュテーブルを対応して作成する作成ユニットと、
前記第１ハッシュテーブルをロジスティック回帰モデルに代入し、かつ反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練する第２訓練ユニットと、を備える。

更に、前記第２訓練モジュールは、
前記第２ハッシュテーブルを前記最適モデルパラメータを含むロジスティック回帰モデルに代入し、真陽性ＴＰ、真陰性ＴＮ、偽陰性ＦＮ及び偽陽性ＦＰを得る取得ユニットと、
前記ＴＰ、ＴＮ、ＦＮ及びＦＰに基づきＲＯＣ曲線をプロットするプロットユニットと、
ＲＯＣ曲線下面積ＡＵＣを計算し、ＡＵＣ値に基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価する評価ユニットと、
前記ＡＵＣ値が所定ＡＵＣ閾値以下であると、前記最適モデルパラメータを含むロジスティック回帰モデルが要求を満たさないと判定して戻り、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練する判定ユニットと、
前記ＡＵＣ値が前記所定ＡＵＣ閾値より大きいと、前記最適モデルパラメータを含むロジスティック回帰モデルが要求を満たすと判定し、第１主題分類器を訓練する第３訓練ユニットと、を備える。

更に、前記プロットユニットは、
前記ＴＰ、ＴＮ、ＦＮ及びＦＰに基づき、それぞれ計算式ＦＰＲ＝ＦＰ／（ＦＰ＋ＴＮ）、ＴＰＲ＝ＴＰ／（ＴＰ＋ＦＮ）を用いて偽陽性率ＦＰＲと真陽性率ＴＰＲを算出する計算サブユニットと、
前記ＦＰＲを横座標とし、前記ＴＰＲを縦座標として、ＲＯＣ曲線をプロットするプロットサブユニットと、を備える。

更に、前記主題分類器の訓練装置は、
前記第２ハッシュテーブルを前記第１主題分類器に代入し、前記テストサンプルが対応した話題に属する確率を得る第２取得モジュールと、
前記所定ＡＵＣ閾値を調整し、かつ前記ＴＰ、ＦＰ及びＦＮに基づき正確率ｐと再現率ｒを計算する第１調整モジュールと、
前記ｐが所定ｐ閾値以下であり、又は前記ｒが所定ｒ閾値以下であると、戻り、前記ｐが前記所定ｐ閾値より大きく且つ前記ｒが前記所定ｒ閾値より大きくなるまで、前記所定ＡＵＣ閾値を調整し、第２主題分類器を訓練する第２調整モジュールと、
前記第２主題分類器を利用して前記テキストデータを分類する分類モジュールと、をさらに備える。

更に、前記収集ユニットは、
テキストデータを収集し、かつ前記テキストデータに対して単語分割を行う収集サブユニットと、
予め設定したストップワードリストに基づき単語分割後のテキストデータのうちのストップワードを除去し、第２キーワードセットを得る除去サブユニットと、
前記第２キーワードセットのうちの各キーワードの単語出現頻度−逆文書頻度ＴＦ−ＩＤＦ値を計算し、かつＴＦ−ＩＤＦ値が所定ＴＦ−ＩＤＦ閾値未満のキーワードを除去し、対応した第１キーワードセットを得る計算サブユニットと、を備える。

更に、前記計算サブユニットは、
前記第２キーワードセットのうちの各キーワードの単語出現頻度ＴＦと逆文書頻度ＩＤＦを計算する第１計算サブユニットと、
前記ＴＦとＩＤＦに基づき前記第２キーワードセットのうちの各キーワードの単語出現頻度−逆文書頻度ＴＦ−ＩＤＦ値を計算し、かつＴＦ−ＩＤＦ値が所定ＴＦ−ＩＤＦ閾値未満のキーワードを除去し、対応した第１キーワードセットを得る第２計算サブユニットと、を備える。

本実施例では、各モジュールが実行されるときに実現するステップは本発明の主題分類器の訓練方法の各実施例を参照すればよく、ここで詳細して説明しない。

なお、本明細書では、用語「含む」、「備える」又はその任意の他の変形は非排他的な包含を意味し、一連の要素を含む過程、方法、物品又はシステムはそれらの要素を含むだけでなく、明記されていないほかの要素を含むか、或いはこのような過程、方法、物品又はシステムに固有の要素を含む。特に別の制限がない限り、文語「１つの…を含む」により限定された要素は、該要素を含む過程、方法、物品又はシステムに別の同様な要素が含まれる場合を排除しない。

上記本発明の実施例の番号は説明するためのものに過ぎず、実施例の優劣を示すものではない。

以上の実施形態についての説明によれば、当業者であれば、上記実施例の方法はソフトウェアと必要な汎用ハードウェアプラットフォームとを組み合わせた方式で実現でき、勿論、ハードウェアによって実現できるが、多くの場合は、前者の実施形態の方が好ましいと理解できる。このような見解に基づいて、本発明の技術案は、本質的に、又は、従来技術に貢献する部分が、ソフトウェア製品として表現することができ、該コンピュータソフトウェア製品は、上記記憶媒体（たとえば、ＲＯＭ／ＲＡＭ、磁気ディスク、光ディスク）に記憶されており、一台の端末装置（携帯電話、コンピュータ、サーバ、空調機、又はネットワーク装置など）に本発明の各実施例の前記方法を実行させる複数の命令を含む。

以上、本発明の好適実施例を説明したが、本発明の特許範囲を限定するものではなく、本発明の明細書及び図面の内容に基づいて実施される同等構造又は同等プロセスの変更、又は他の関連の技術分野への直接又は間接的な応用は、すべて本発明の特許保護範囲に属する。

Claims

主題分類器の訓練方法であって、
テキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得するステップと、
予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、かつ前記訓練サンプルの特徴に基づき、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練するステップと、
前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ＲＯＣ曲線をプロットし、かつＲＯＣ曲線下面積ＡＵＣに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第１主題分類器を訓練するステップと、を含むことを特徴とする主題分類器の訓練方法。
前記テキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得することは、
テキストデータを収集し、かつ前記テキストデータを前処理し、対応した第１キーワードセットを取得するステップと、
前記第１キーワードセットと所定数の話題に基づき、予め設定した主題モデルを利用して前記テキストデータの前記話題での分布を算出し、かつ前記テキストデータの前記話題での分布状況に基づきクラスタリングし、前記テキストデータに対応した話題モデルを訓練するステップと、
前記話題モデルに基づく前記テキストデータへの手動タグ付け結果に応じて、前記テキストデータから目標主題分類器に対応した訓練サンプルをスクリーニングし、かつ前記テキストデータのうち前記訓練サンプルを除くテキストデータをテストサンプルとするステップと、を含むことを特徴とする請求項１に記載の主題分類器の訓練方法。
前記予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、かつ前記訓練サンプルの特徴に基づき、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練することは、
予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、第１ハッシュテーブルと第２ハッシュテーブルを対応して作成するステップと、
前記第１ハッシュテーブルをロジスティック回帰モデルに代入し、かつ反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練するステップと、を含むことを特徴とする請求項２に記載の主題分類器の訓練方法。
前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ＲＯＣ曲線をプロットし、かつＲＯＣ曲線下面積ＡＵＣに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第１主題分類器を訓練することは、
前記第２ハッシュテーブルを前記最適モデルパラメータを含むロジスティック回帰モデルに代入し、真陽性ＴＰ、真陰性ＴＮ、偽陰性ＦＮ及び偽陽性ＦＰを得るステップと、
前記ＴＰ、ＴＮ、ＦＮ及びＦＰに基づきＲＯＣ曲線をプロットするステップと、
ＲＯＣ曲線下面積ＡＵＣを計算し、ＡＵＣ値に基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価するステップと、
前記ＡＵＣ値が所定ＡＵＣ閾値以下であると、前記最適モデルパラメータを含むロジスティック回帰モデルが要求を満たさないと判定して戻り、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練するステップと、
前記ＡＵＣ値が前記所定ＡＵＣ閾値より大きいと、前記最適モデルパラメータを含むロジスティック回帰モデルが要求を満たすと判定し、第１主題分類器を訓練するステップと、を含むことを特徴とする請求項３に記載の主題分類器の訓練方法。
前記ＴＰ、ＴＮ、ＦＮ及びＦＰに基づきＲＯＣ曲線をプロットすることは、
前記ＴＰ、ＴＮ、ＦＮ及びＦＰに基づき、それぞれ計算式ＦＰＲ＝ＦＰ／(ＦＰ+ＴＮ)、ＴＰＲ＝ＴＰ／(ＴＰ+ＦＮ)を用いて偽陽性率ＦＰＲと真陽性率ＴＰＲを算出するステップと、
前記ＦＰＲを横座標とし、前記ＴＰＲを縦座標として、ＲＯＣ曲線をプロットするステップと、を含むことを特徴とする請求項４に記載の主題分類器の訓練方法。
前記第２ハッシュテーブルを前記第１主題分類器に代入し、前記テストサンプルが対応した話題に属する確率を得るステップと、
前記所定ＡＵＣ閾値を調整し、かつ前記ＴＰ、ＦＰ及びＦＮに基づき正確率ｐと再現率ｒを計算するステップと、
前記ｐが所定ｐ閾値以下であり、又は前記ｒが所定ｒ閾値以下であると、戻り、前記ｐが前記所定ｐ閾値より大きく且つ前記ｒが前記所定ｒ閾値より大きくなるまで、前記所定ＡＵＣ閾値を調整し、第２主題分類器を訓練するステップと、
前記第２主題分類器を利用して前記テキストデータを分類するステップと、をさらに含むことを特徴とする請求項４に記載の主題分類器の訓練方法。
前記テキストデータを収集し、かつ前記テキストデータを前処理し、対応した第１キーワードセットを取得することは、
テキストデータを収集し、かつ前記テキストデータに対して単語分割を行うステップと、
予め設定したストップワードリストに基づき単語分割後のテキストデータのうちのストップワードを除去し、第２キーワードセットを得るステップと、
前記第２キーワードセットのうちの各キーワードの単語出現頻度−逆文書頻度ＴＦ−ＩＤＦ値を計算し、かつＴＦ−ＩＤＦ値が所定ＴＦ−ＩＤＦ閾値未満のキーワードを除去し、対応した第１キーワードセットを得るステップと、を含むことを特徴とする請求項２に記載の主題分類器の訓練方法。
前記第２キーワードセットのうちの各キーワードの単語出現頻度−逆文書頻度ＴＦ−ＩＤＦ値を計算し、かつＴＦ−ＩＤＦ値が所定ＴＦ−ＩＤＦ閾値未満のキーワードを除去し、対応した第１キーワードセットを得ることは、
前記第２キーワードセットのうちの各キーワードの単語出現頻度ＴＦと逆文書頻度ＩＤＦを計算するステップと、
前記ＴＦとＩＤＦに基づき前記第２キーワードセットのうちの各キーワードの単語出現頻度−逆文書頻度ＴＦ−ＩＤＦ値を計算し、かつＴＦ−ＩＤＦ値が所定ＴＦ−ＩＤＦ閾値未満のキーワードを除去し、対応した第１キーワードセットを得るステップと、を含むことを特徴とする請求項７に記載の主題分類器の訓練方法。
主題分類器の訓練装置であって、
メモリ、プロセッサ、及び前記メモリに記憶され前記プロセッサに実行可能な主題分類器訓練プログラムを備え、前記主題分類器訓練プログラムが前記プロセッサにより実行されるときに、請求項１〜８のいずれか一項に記載の主題分類器の訓練方法を実現することを特徴とする主題分類器の訓練装置。
主題分類器訓練プログラムが記憶されるコンピュータ読み取り可能な記憶媒体であって、
前記主題分類プログラムがプロセッサにより実行されるとき、請求項１〜８のいずれか一項に記載の主題分類器の訓練方法を実現することを特徴とするコンピュータ読み取り可能な記憶媒体。