JP2019535047A - 主題分類器の訓練方法、装置及びコンピュータ読み取り可能な記憶媒体 - Google Patents

主題分類器の訓練方法、装置及びコンピュータ読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP2019535047A
JP2019535047A JP2018564802A JP2018564802A JP2019535047A JP 2019535047 A JP2019535047 A JP 2019535047A JP 2018564802 A JP2018564802 A JP 2018564802A JP 2018564802 A JP2018564802 A JP 2018564802A JP 2019535047 A JP2019535047 A JP 2019535047A
Authority
JP
Japan
Prior art keywords
training
logistic regression
text data
regression model
subject classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018564802A
Other languages
English (en)
Other versions
JP6764488B2 (ja
Inventor
健宗 王
健宗 王
章成 黄
章成 黄
天博 呉
天博 呉
京 肖
京 肖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Publication of JP2019535047A publication Critical patent/JP2019535047A/ja
Application granted granted Critical
Publication of JP6764488B2 publication Critical patent/JP6764488B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

【課題】本発明は主題分類器の訓練方法を開示する。【解決手段】該方法は、テキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得するステップと、予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、かつ前記訓練サンプルの特徴に基づき、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練するステップと、前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ROC曲線をプロットし、ROC曲線下面積AUCに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第1主題分類器を訓練するステップと、を含む。本発明は、主題分類器の訓練装置及びコンピュータ読み取り可能な記憶媒体をさらに開示し、主題分類効率と正確率を向上させることができる。【選択図】図2

Description

本発明は情報処理分野に関し、特に主題分類器の訓練方法、装置及びコンピュータ読み取り可能な記憶媒体に関する。
近年、インターネットの急速発展に伴って、情報資源は指数的に増加している。豊かなインターネット情報資源は、人々の生活に大きな利便性をもたらし、人々は1台のインターネットに接続されたコンピュータだけで、音声・ビデオメディア、記事、技術文献などの各種タイプの情報資源を入手することができる。
しかしながら、このビッグデータ時代では、従来の分類技術の分類効率及び正確率が低く、ユーザーが大量の情報資源に面する際に、自分が必要である関連の主題情報を迅速かつ正確に取得できないので、主題分類効率及び正確率をどのように向上させるのは、当業者が解決しなければならない技術問題である。
本発明の主な目的は、主題分類効率及び正確率を向上させ、それによりユーザーが大量の情報から関連の主題情報を効率よく取得する主題分類器の訓練方法、装置及びコンピュータ読み取り可能な記憶媒体を提供することである。
上記目的を実現するために、本発明は主題分類器の訓練方法を提供し、
テキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得するステップと、
予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、かつ前記訓練サンプルの特徴に基づき、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練するステップと、
前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ROC曲線をプロットし、ROC曲線下面積AUCに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第1主題分類器を訓練するステップと、を含む。
また、上記目的を実現するために、本発明は、主題分類器の訓練装置をさらに提供し、メモリ、プロセッサ及び前記メモリに記憶され、かつ前記プロセッサに実行可能な主題分類器訓練プログラムを含み、前記主題分類器訓練プログラムが前記プロセッサにより実行されるとき、上記主題分類器の訓練方法のステップを実現する。
また、上記目的を実現するために、本発明は、コンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ読み取り可能な記憶媒体に主題分類器訓練プログラムが記憶され、前記主題分類プログラムがプロセッサにより実行されるとき、上記主題分類器の訓練方法のステップを実現する。
また、上記目的を実現するために、本発明は、主題分類器の訓練装置をさらに提供し、
テキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得する第1取得モジュールと、
予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、かつ前記訓練サンプルの特徴に基づき、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練する第1訓練モジュールと、
前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ROC曲線をプロットし、ROC曲線下面積AUCに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第1主題分類器を訓練する第2訓練モジュールと、を備える。
本発明は、テキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得し、予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、前記訓練サンプルの特徴に基づき、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練し、前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ROC曲線をプロットし、かつROC曲線下面積AUCに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第1主題分類器を訓練する。上記方式により、本発明は、予め設定したアルゴリズムを利用して訓練サンプルとテストサンプルに対して特徴抽出を行うことで、特徴抽出とモデル訓練の時間を短縮させ、分類効率を向上させる。本発明は、手動タグ付けの方式で訓練サンプルをスクリーニングすることによって、訓練サンプルの正確性を向上させ、さらに主題分類器の分類の正確率を向上させることができると共に、ROC曲線下面積AUCを用いて前記最適モデルパラメータを含むロジスティック回帰モデルを評価して主題分類器を訓練し、テキストデータを分類することによって、主題分類の正確率を更に向上させる。
図1は本発明の実施例に係る主題分類器装置の構造模式図である。 図2は本発明の主題分類器の訓練方法の第1実施例のフローチャートである。 図3は本発明の実施例においてテキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得する詳細フローチャートである。 図4は本発明の実施例において前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ROC曲線をプロットし、ROC曲線下面積AUCに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第1主題分類器を訓練する詳細フローチャートである。 図5は本発明に係る主題分類器の訓練方法の第2実施例のフローチャートである。 図6は本発明の実施例においてテキストデータを収集し、前記テキストデータを前処理し、対応した第1キーワードセットを取得する詳細フローチャートである。
本発明の目的の実現、機能特徴及び利点について、実施例、図面を参照して更に説明する。
なお、ここで説明される具体的な実施例は本発明を解釈するためのものに過ぎず、本発明を限定するものではない。
従来の分類技術の分類効率及び正確率が低いので、ユーザーが大量の情報資源に面する際に、自分が必要である関連の主題情報を迅速かつ正確に取得することが困難である。
上記技術問題を解決するために、本発明は主題分類器の訓練方法を提供し、テキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得し、予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、かつ前記訓練サンプルの特徴に基づき、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練する。前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ROC曲線をプロットし、かつROC曲線下面積AUCに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第1主題分類器を訓練する。上記方式により、本発明は、予め設定したアルゴリズムを利用して訓練サンプルとテストサンプルに対して特徴抽出を行うことで、特徴抽出とモデル訓練の時間を短縮させ、分類効率を向上させる。本発明は手動タグ付けの方式で訓練サンプルをスクリーニングすることによって、訓練サンプルの精度を向上させ、さらに主題分類器の分類の正確率を向上させることができると共に、ROC曲線下面積AUCを用いて前記最適モデルパラメータを含むロジスティック回帰モデルを評価して主題分類器を訓練し、テキストデータを分類することによって、主題分類の正確率を更に向上させる。
図1は、本発明の実施例に係る主題分類器装置の構造模式図である。
本発明の実施例の装置はPCであってもよく、スマートフォン、タブレットPC、携帯型コンピュータなどの表示機能を有する端末装置であってもよい。
図1に示すように、該装置は、CPUのようなプロセッサ1001、ネットワークインタフェース1004、ユーザーインタフェース1003、メモリ1005、及び通信バス1002を含むことができる。通信バス1002はこれらの部材間の接続通信を実現する。ユーザーインタフェース1003はディスプレイ(Display)、キーボード(Keyboard)のような入力ユニットを含んでもよく、標準的な有線インタフェース、無線インタフェースをさらに含んでもよい。ネットワークインタフェース1004は標準的な有線インタフェース、無線インタフェース(例えば、WI−FIインタフェース)を含んでもよい。メモリ1005は高速RAMメモリであってもよく、ディスクメモリのような不揮発性メモリ(non−volatile memory)を含んでもよい。メモリ1005は上記プロセッサ1001とは別体の記憶装置を含んでもよい。
好ましくは、該装置は、カメラ、RF(Radio Frequency、無線周波数)回路、センサ、音声回路、WiFiモジュールなどをさらに備えてもよい。センサとして、光センサ、モーションセンサ及びほかのセンサが挙げられる。具体的には、光センサは環境光センサ及び近接センサを含み、環境光センサは、環境光の明暗に応じてディスプレイの輝度を調整することができ、近接センサは、装置が耳のそばに移動するとき、ディスプレイ及び/又はバックライトをオフにすることができる。モーションセンサの1つとして、重力加速度センサは、各方向(一般に、三軸)の加速度の大きさを検出し、静止時に重力の大きさ及び方向を検出し、装置の姿勢を識別する用途(例えば、水平・垂直画面の切り替え、関連ゲーム、磁力計の姿勢校正)、振動識別関連機能(例えば、歩数計、叩き)などに適用できる。当然、装置は、ジャイロスコープ、気圧計、湿度計、温度計、赤外線センサなどのほかのセンサを配置してもよく、ここで詳細して説明しない。
当業者であれば、図1に示される装置の構造は装置を限定するものではなく、図面より部材を増減したり、いくつかの部材を組み合わせたり、異なる部材を設置したりすることができる。
図1に示すように、コンピュータ記憶媒体であるメモリ1005は、オペレーティングシステム、ネットワーク通信モジュール、ユーザーインタフェースモジュール及び主題分類器訓練プログラムを含むことができる。
図1に示される装置では、ネットワークインタフェース1004は主にバックグラウンドサーバに接続し、バックグラウンドサーバとデータ通信を行う。ユーザーインタフェース1003は主にクライアント(ユーザー側)に接続し、クライアントとデータ通信を行う。プロセッサ1001はメモリ1005に記憶された主題分類器訓練プログラムを呼び出して、以下のステップを実現することができ、即ち、
テキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得するステップと、
予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、かつ前記訓練サンプルの特徴に基づき、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練するステップと、
前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ROC曲線をプロットし、ROC曲線下面積AUCに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第1主題分類器を訓練するステップと、を実現することができる。
更に、プロセッサ1001はメモリ1005に記憶された主題分類器訓練プログラムを呼び出して、以下のステップを実現することができ、即ち、
テキストデータを収集し、前記テキストデータを前処理し、対応した第1キーワードセットを取得するステップと、
前記第1キーワードセットと所定数の話題に基づき、予め設定した主題モデルを利用して前記テキストデータの前記話題での分布を算出し、前記テキストデータの前記話題での分布状況に基づきクラスタリングし、前記テキストデータに対応した話題モデルを訓練するステップと、
前記話題モデルに基づく前記テキストデータへの手動タグ付け結果に応じて、前記テキストデータから目標主題分類器に対応した訓練サンプルをスクリーニングし、かつ前記訓練サンプル以外のテキストデータをテストサンプルとするステップと、を実現することができる。
更に、プロセッサ1001はメモリ1005に記憶された主題分類器訓練プログラムを呼び出して、以下のステップを実現することができ、即ち、
予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、第1ハッシュテーブルと第2ハッシュテーブルを対応して作成するステップと、
前記第1ハッシュテーブルをロジスティック回帰モデルに代入し、かつ反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練するステップと、を実現することができる。
更に、プロセッサ1001はメモリ1005に記憶された主題分類器訓練プログラムを呼び出して、以下のステップを実現することができ、即ち、
前記第2ハッシュテーブルを前記最適モデルパラメータを含むロジスティック回帰モデルに代入し、真陽性TP、真陰性TN、偽陰性FN及び偽陽性FPを得るステップと、
前記TP、TN、FN及びFPに基づきROC曲線をプロットするステップと、
ROC曲線下面積AUCを計算し、AUC値に基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価するステップと、
前記AUC値が所定AUC閾値以下であると、前記最適モデルパラメータを含むロジスティック回帰モデルが要求を満たさないと判定して戻り、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練するステップと、
前記AUC値が前記所定AUC閾値より大きいと、前記最適モデルパラメータを含むロジスティック回帰モデルが要求を満たすと判定し、第1主題分類器を訓練するステップと、を実現することができる。
更に、プロセッサ1001はメモリ1005に記憶された主題分類器訓練プログラムを呼び出して、以下のステップを実現することができ、即ち、
前記TP、TN、FN及びFPに基づき、それぞれ計算式FPR=FP/(FP+TN)、TPR=TP/(TP+FN)を用いて偽陽性率FPRと真陽性率TPRを算出するステップと、
前記FPRを横座標とし、前記TPRを縦座標として、ROC曲線をプロットするステップと、を実現することができる。
更に、プロセッサ1001はメモリ1005に記憶された主題分類器訓練プログラムを呼び出して、以下のステップを実現することができ、即ち、
前記第2ハッシュテーブルを前記第1主題分類器に代入し、前記テストサンプルが対応した話題に属する確率を得るステップと、
前記所定AUC閾値を調整し、かつ前記TP、FP及びFNに基づき正確率pと再現率rを計算するステップと、
前記pが所定p閾値以下であり、又は前記rが所定r閾値以下であると、戻り、前記pが前記所定p閾値より大きく且つ前記rが前記所定r閾値より大きくなるまで、前記所定AUC閾値を調整し、第2主題分類器を訓練するステップと、を実現することができる。
更に、プロセッサ1001はメモリ1005に記憶された主題分類器訓練プログラムを呼び出して、
前記第2主題分類器を利用して前記テキストデータを分類するステップを実現することができる。
更に、プロセッサ1001はメモリ1005に記憶された主題分類器訓練プログラムを呼び出して、以下のステップを実現することができ、即ち、
テキストデータを収集し、前記テキストデータに対して単語分割を行うステップと、
予め設定したストップワードリストに基づき単語分割後のテキストデータのうちのストップワードを除去し、第2キーワードセットを得るステップと、
前記第2キーワードセットのうちの各キーワードの単語出現頻度−逆文書頻度TF−IDF値を計算し、TFIDF値が所定TF−IDF閾値未満のキーワードを除去し、対応した第1キーワードセットを得るステップと、を実現することができる。
更に、プロセッサ1001はメモリ1005に記憶された主題分類器訓練プログラムを呼び出して、以下のステップを実現することができ、即ち、
前記第2キーワードセットのうちの各キーワードの単語出現頻度TFと逆文書頻度IDFを計算するステップと、
前記TFとIDFに基づき前記第2キーワードセットのうちの各キーワードの単語出現頻度−逆文書頻度TF−IDF値を計算し、TF−IDF値が所定TF−IDF閾値未満のキーワードを除去し、対応した第1キーワードセットを得るステップと、を実現することができる。
図2は、本発明に係る主題分類器の訓練方法の第1実施例のフローチャートである。
本発明の実施例では、前記主題分類器の訓練方法は、以下のステップを含む。
ステップS100において、テキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得する。
ステップS200において、予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、かつ前記訓練サンプルの特徴に基づき、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練する。
本実施例では、主題分類器の訓練に必要な訓練サンプルとテストサンプルを取得し、訓練サンプルは、テキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得され、モデルのパラメータを最適化するためのものであり、テストサンプルは、訓練サンプル以外のテキストデータであり、作成したモデルに対して特性評価を行うためのものである。具体的な実施例では、訓練サンプルとテストサンプルの取得は、プログラム、例えば、数学ソフトウェアMatlabのSvmtrain関数によって、インターネットにおいて検索したミニブログから直接サンプリングされることができる。
更に、予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、本実施例では、バイナリハッシュテーブルのバイト4グラム(Byte4−gram)アルゴリズムを用いてそれぞれ前記訓練サンプルとテストサンプルの特徴を抽出し、各々の訓練サンプル又はテストサンプルを1組の特徴からなる固有ベクトルとして対応付けて示す。該方法は各訓練サンプル又はテストサンプルデータのうちのすべての連続した4個のバイトをキー(key)として抽出し、文字列を文字列のUTF−8コードに対応するbyte配列に変換し、値が32bitの整数である。更に、除算法によってハッシュ関数を構築し、それぞれ第1ハッシュテーブルと第2ハッシュテーブルを対応して作成する。なお、ハッシュテーブルの長さがmであるハッシュ関数の式は、f(key)=key mod p,(p≦m)である(Modは余りを求めることを示す)。具体的な実施形態では、競合の発生を軽減させるために、ハッシュテーブルの分布が疎すぎることを回避するために、pは、通常、ハッシュテーブルの長さより小さい最大素数を取る。
更に、前記第1ハッシュテーブルをロジスティック回帰モデルに代入し、最適化方法によって最適なモデルパラメータを反復に算出し、ロジスティック回帰モデルを訓練し、ロジスティック回帰モデルは、ある事物の可能性を推定し、或いは1つのサンプルがある種類に属する確率を判断するためのものである。ロジスティック回帰モデルは、
であり、
ただし、xjは第j個の訓練サンプルの固有ベクトルを示し、x(i)は第i回のサンプリングを示し、θはモデルパラメータを示す。
なお、反復アルゴリズムは、勾配降下法、共役勾配法及び準ニュートン法などを含む。具体的な実施例では、上記のいずれかの反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練する。当然、具体的な実施例では、例えばベクトル空間モデルVSM、情報利得法、期待クロスエントロピーなどのほかの方法を用いて、それぞれ訓練サンプルとテストサンプルの特徴を抽出するようにしてもよい。
ステップS300において、前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ROC曲線をプロットし、かつROC曲線下面積AUCに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第1主題分類器を訓練する。
本実施例では、テストサンプルに基づき作成された第2ハッシュテーブルを前記最適モデルパラメータを含むロジスティック回帰モデルに代入して、真陽性TP、真陰性TN、偽陰性FN及び偽陽性FPを得て、TPはロジスティック回帰モデルを利用して訓練サンプルのうちの陽性クラスを判断しても陽性クラスに属するケースの数であり、TNはロジスティック回帰モデルを利用して訓練サンプルのうちの陰性クラスを判断しても陰性クラスに属するケースの数であり、FNはロジスティック回帰モデルを利用して訓練サンプルのうちの陰性クラスを判断して陽性クラスに属するケースの数であり、FPはロジスティック回帰モデルを利用して訓練サンプルのうちの陽性クラスを判断して陰性クラスに属するケースの数であり、陽性クラスと陰性クラスとは、訓練サンプルを手動でタグ付けする2種のクラスであり、すなわち、あるサンプルが特定のクラスに属することを手動でタグ付けする場合、該サンプルが陽性クラスに属し、該特定のクラスに属しないサンプルが陰性クラスに属する。前記TP、TN、FN及びFPに基づき偽陽性率FPRと真陽性率TPRを算出し、FPRを横座標とし、TPRを縦座標とし、ROC曲線をプロットし、ROC曲線は取得した各指標の特徴曲線であり、各指標間の関係を示すためのものであり、更にROC曲線下面積AUCを算出し、AUCがROC曲線下面積であり、AUCが大きいほど、該試験の診断価値が高く、前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、前記AUC値が所定AUC閾値以下であると、前記最適モデルパラメータを含むロジスティック回帰モデルが要求を満たさないと判定して戻り、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練し、前記AUC値が前記所定AUC閾値より大きいと、前記最適モデルパラメータを含むロジスティック回帰モデルが要求を満たすと判定し、第1主題分類器を訓練する。
本発明の実施例は、テキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得し、予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、かつ前記訓練サンプルの特徴に基づき、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練し、前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ROC曲線をプロットし、かつROC曲線下面積AUCに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第1主題分類器を訓練する。上記方式により、本発明は、予め設定したアルゴリズムを利用して訓練サンプルとテストサンプルに対して特徴抽出を行うことで、特徴抽出とモデル訓練の時間を短縮させ、分類効率を向上させる。本発明は、手動タグ付けの方式で訓練サンプルをスクリーニングすることによって、訓練サンプルの正確性を向上させ、さらに主題分類器の分類正確率を向上させることができると共に、ROC曲線下面積AUCを用いて、前記最適モデルパラメータを含むロジスティック回帰モデルを評価して主題分類器を訓練し、テキストデータを分類することによって、主題分類の正確率を更に向上させることができる。
図2に示される第1実施例によれば、図3は、本発明の実施例においてテキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得する詳細フローチャートであり、ステップS100は、以下のステップを含む。
ステップS110において、テキストデータを収集し、かつ前記テキストデータを前処理し、対応した第1キーワードセットを取得する。
本発明の実施例では、テキストデータは、例えばミニブログ、QQ空間、知乎、百度貼バなどの主要なオンラインソーシャルプラットフォームから取得されてもよく、例えば騰訊視頻、知網、電子報などの主な情報資源データベースから取得されてもよい。本実施例では、ミニブログテキストを例として説明し、具体的には、ミニブログテキストデータの収集について、新浪API(Application Programming Interface)によって新浪ミニブログテキストデータを取得することができ、前記テキストデータはミニブログ原文とコメントを含む。
本発明の実施例では、前記テキストデータを前処理するプロセスは、前記テキストデータに対して単語分割を行い、且つ品詞タグ付けを行い、さらに予め設定したストップワードリストに基づき単語分割後のテキストデータのうちのストップワードリストを除去し、第2キーワードセットを得ることを含む。更に、前記第2キーワードセットのうちの各キーワードの単語出現頻度TF、逆文書頻度IDF及び単語出現頻度−逆文書頻度TF−IDF値を計算し、TF−IDF値が所定TF−IDF閾値未満のキーワードを除去し、対応した第1キーワードセットを得る。
ステップS120において、前記第1キーワードセットと所定数の話題に基づき、予め設定した主題モデルを利用して前記テキストデータの前記話題での分布を算出し、かつ前記テキストデータの前記話題での分布状況に基づきクラスタリングし、前記テキストデータに対応した話題モデルを訓練する。
本発明の実施例では、予め設定した主題モデルとして、LDA主題モデルが用いられており、該モデルは教師なし機械学習技術であり、大規模なドキュメントセット又はコーパスに隠れた主題情報を識別することに用いられ、ドキュメントセットのうちの各ドキュメントを潜在的主題の確率分布で示し、各々の潜在的主題が単語の確率分布で示される。具体的には、本実施例では、端末が入力された第1キーワードセットと設定された話題の数を受信すると、LDA主題モデルはキーワードのドキュメントでの分布に基づき、前記話題のキーワードでの分布、及びテキストデータの前記話題での分布を算出する。更に、前記テキストデータの前記話題での分布状況に基づきクラスタリングして、前記テキストデータに対応する話題モデルを訓練する。
ステップS130において、前記話題モデルに基づく前記テキストデータへの手動タグ付け結果に応じて、前記テキストデータから目標主題分類器に対応した訓練サンプルをスクリーニングし、かつ前記訓練サンプル以外のテキストデータをテストサンプルとする。
本実施例では、LDAモデルは話題生成モデルであり、取得する話題の種類を制御できないので、取得する話題を手動でタグ付けする必要があり、それにより目標主題に対応したテキストデータをスクリーニングして主題分類器の訓練サンプルとし、それは、主題分類器の分類正確率を向上することに有利である。また、訓練サンプル以外のテキストデータをテストサンプルとして、訓練したロジスティック回帰モデルを評価することに用いられる。
図2に示される第1実施例によれば、図4は、本発明の実施例において前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ROC曲線をプロットし、かつROC曲線下面積AUCに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第1主題分類器を訓練する詳細フローチャートであり、ステップS300は、以下のステップを含む。
ステップS310において、前記第2ハッシュテーブルを前記最適モデルパラメータを含むロジスティック回帰モデルに代入し、真陽性TP、真陰性TN、偽陰性FN及び偽陽性FPを得る。
ステップS320において、前記TP、TN、FN及びFPに基づきROC曲線をプロットする。
ステップS330において、ROC曲線下面積AUCを計算し、かつAUC値に基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価する。
ステップS340において、前記AUC値が所定AUC閾値以下であると、前記最適モデルパラメータを含むロジスティック回帰モデルが要求を満たさないと判定して戻り、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練する。
ステップS350において、前記AUC値が前記所定AUC閾値より大きいと、前記最適モデルパラメータを含むロジスティック回帰モデルが要求を満たすと判定し、第1主題分類器を訓練する。
本実施例では、前記第2ハッシュテーブルを前記最適モデルパラメータを含むロジスティック回帰モデルに代入し、テストサンプルを分析したところ、4種の場合がある。1つのテキストデータがある話題に属すると共に、最適モデルパラメータを含むロジスティック回帰モデルにより該話題に属すると予測される場合、真陽性TPであり、1つのテキストデータがある話題に属しないと共に、該話題に属しないと予測される場合、真陰性TNであり、1つのテキストデータがある話題に属するが、該話題に属しないと予測される場合、偽陰性FNであり、1つのテキストデータがある話題に属しないが、該話題に属すると予測される場合、偽陽性FPである。
更に、前記TP、TN、FN及びFPに基づきROC曲線をプロットし、具体的には、ROC曲線は偽陽性率FPRを横座標とし、真陽性率TPRを縦座標とし、具体的な計算式は以下の通りである。
更に、ROC曲線下面積AUCを計算し、計算式は、
である。
本実施例では、AUC値が大きいほど、該最適モデルパラメータを含むロジスティック回帰モデルの特性が良い。算出されたAUC値が所定AUC閾値以下であると、前記最適モデルパラメータを含むロジスティック回帰モデルが要求を満たさないと判定して戻り、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練する。前記AUC値が前記所定AUC閾値より大きくなると、前記最適モデルパラメータを含むロジスティック回帰モデルが要求を満たすと判定し、第1主題分類器を訓練する。
図2に示される第1実施例によれば、図5は、本発明に係る主題分類器の訓練方法の第2実施例のフローチャートであり、該主題分類器の訓練方法は、さらに、以下のステップを含む。
ステップS400において、前記第2ハッシュテーブルを前記第1主題分類器に代入し、前記テストサンプルが対応した話題に属する確率を得る。
ステップS500において、前記所定AUC閾値を調整し、かつ前記TP、FP及びFNに基づき正確率pと再現率rを計算する。
ステップS600において、前記pが所定p閾値以下であり、又は前記rが所定r閾値以下であると、戻り、前記pが前記所定p閾値より大きく且つ前記rが前記所定r閾値より大きくなるまで、前記所定AUC閾値を調整し、第2主題分類器を訓練する。
ステップS700において、前記第2主題分類器を利用して前記テキストデータを分類する。
なお、図2に示される第1実施例に対して、図4に示される第2実施例の相違点は、実際使用中、テキストデータが多すぎて、手動でサンプルをタグ付けする作業量が非常に大きく、すべての可能なテキストデータをカバーするできないおそれがあり、使用効果が悪い。また、ROC曲線下面積AUCを利用して前記最適モデルパラメータを含むロジスティック回帰モデルを評価するとき、0.5をデフォルトに所定AUC閾値とし、0.5より大きい場合、ロジスティック回帰モデルの予測結果が1であり、該話題に属することを示し、0.5以下である場合、ロジスティック回帰モデルの予測結果が0であり、該話題に属しないことを示す。従って、第2実施例では、前記所定AUC閾値を調整することで、正確率pと再現率rを確保するとともに、前記第2主題分類器の分類正確率を更に向上させる。
本発明の実施例では、前記第2ハッシュテーブルを前記第1主題分類器に代入し、前記テストサンプルが対応した話題に属する確率を得る。更に、前記所定AUC閾値を調整し、かつ前記TP、FP及びFNに基づき正確率pと再現率rを算出し、計算式は、
である。
前記pが所定p閾値以下であり、又は前記rが所定r閾値以下であると戻り、前記pが前記所定p閾値より大きく且つ前記rが前記所定r閾値より大きくなるまで、前記所定AUC閾値を調整し続け、第2主題分類器を訓練し、かつ前記第2主題分類器を利用して前記テキストデータを分類する。
図3に示される実施形態によれば、図6は、本発明の実施例においてテキストデータを収集し、かつ前記テキストデータを前処理し、対応した第1キーワードセットを取得する詳細フローチャートであり、ステップS110は以下のステップを含む。
ステップS111において、テキストデータを収集し、前記テキストデータに対して単語分割を行う。
ステップS112において、予め設定したストップワードリストに基づき単語分割後のテキストデータのうちのストップワードを除去し、第2キーワードセットを得る。
ステップS113において、前記第2キーワードセットのうちの各キーワードの単語出現頻度−逆文書頻度TF−IDF値を計算し、かつTF−IDF値が所定TF−IDF閾値未満のキーワードを除去し、対応した第1キーワードセットを得る。
本発明の実施例では、テキストデータは、例えばミニブログ、QQ空間、知乎、百度貼バなどの主なオンラインソーシャルプラットフォームから取得されてもよく、例えば騰訊視頻、知網、電子報などの主な情報資源データベースから取得されてもよい。本実施例では、ミニブログテキストを例として説明し、具体的には、ミニブログテキストデータの収集について、新浪API(Application Programming Interface)によって新浪ミニブログテキストデータを取得することができ、前記テキストデータはミニブログ原文とコメントを含む。
更に、前記テキストデータを前処理し、前処理過程は、前記テキストデータに対して単語分割を行い、かつ品詞タグ付けを行うことを含む。なお、単語分割処理は単語分割ツール、例えば中国語字句解析システムICTCLAS、清華大学の中国語字句解析プログラムTHULAC、言語技術プラットフォームLTPなどによって実行されてもよい。単語分割は主に中国語の特徴に応じて、前記サンプルデータのうちの各中国語テキストを1つ1つの単語に分割し、且つ品詞タグ付けを行う。
更に、前処理過程は予め設定したストップワードリストに基づき単語分割後のテキストデータのうちのストップワードを除去することをさらに含む。ストップワードの除去によって、キーワードの密度向上に寄与し、それによりテキストデータの属する話題の決定に寄与する。なお、ストップワードは、主に2種類を含む。第1類は、例えば「私」、中国語漢字「就」などのような過度頻繁に使われている単語であり、ほぼすべてのドキュメントに出現してしまう。第2類はテキストでの出現頻度が非常に高いが、無意味な単語であり、完全なセンテンスに入れないと無用であり、感嘆詞、副詞、前置詞、接続詞などを含み、例えば「の」、「に」、「次に」などである。
更に、前処理過程は、前記第1キーワードセットのうちの各キーワードの単語出現頻度−逆文書頻度TF−IDF値を計算し、かつTF−IDF値が所定TF−IDF閾値未満のキーワードを除去し、対応した第2キーワードセットを得ることをさらに含む。具体的には、先ず単語出現頻度IFと逆文書頻度IDFを計算し、TFはあるキーワードが現在のドキュメントに出現する頻度を示し、IDFは該キーワードのすべてのテキストデータのドキュメントでの分布状況を示し、単語の普遍的な重要性の尺度である。TFとIDFの計算式は、
である。
ただし、niは該キーワードが現在のドキュメントに出現する回数を示し、nは現在のドキュメントのうちのキーワードの総数を示し、Nはデータセットのドキュメントの総数を示し、Niはテキストデータセットにおける該キーワードiを有するドキュメントの数を示す。
更に、式TF−IDF=TF×IDFに基づきTF−IDF値を計算し、TF−IDF値が所定TF−IDF閾値未満のキーワードを除去し、対応したキーワードセットを得る。
また、本発明の実施例はコンピュータ読み取り可能な記憶媒体をさらに提出し、前記コンピュータ読み取り可能な記憶媒体には、主題分類器訓練プログラムが記憶され、前記主題分類器訓練プログラムがプロセッサにより実行されるとき、以上のような主題分類器の訓練方法のステップを実現する。
前記プロセッサで運転される主題分類器訓練プログラムが実行されるときに実現する方法は本発明に係る主題分類器の訓練方法の各実施例を参照すればよく、ここで詳細して説明しない。
また、本発明の実施例は主題分類器の訓練装置をさらに提出し、前記主題分類器の訓練装置は、
テキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得する第1取得モジュールと、
予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、かつ前記訓練サンプルの特徴に基づき、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練する第1訓練モジュールと、
前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ROC曲線をプロットし、かつROC曲線下面積AUCに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第1主題分類器を訓練する第2訓練モジュールと、を備える。
更に、前記第1取得モジュールは、
テキストデータを収集し、かつ前記テキストデータを前処理し、対応した第1キーワードセットを取得する収集ユニットと、
前記第1キーワードセットと所定数の話題に基づき、予め設定した主題モデルを利用して前記テキストデータの前記話題での分布を算出し、かつ前記テキストデータの前記話題での分布状況に基づきクラスタリングし、前記テキストデータに対応した話題モデルを訓練する第1訓練ユニットと、
前記話題モデルに基づく前記テキストデータへの手動タグ付け結果に応じて、前記テキストデータから目標主題分類器に対応した訓練サンプルをスクリーニングし、かつ前記テキストデータのうち前記訓練サンプルを除くテキストデータをテストサンプルとする分類ユニットと、を備える。
更に、前記第1訓練ユニットは、
予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、第1ハッシュテーブルと第2ハッシュテーブルを対応して作成する作成ユニットと、
前記第1ハッシュテーブルをロジスティック回帰モデルに代入し、かつ反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練する第2訓練ユニットと、を備える。
更に、前記第2訓練モジュールは、
前記第2ハッシュテーブルを前記最適モデルパラメータを含むロジスティック回帰モデルに代入し、真陽性TP、真陰性TN、偽陰性FN及び偽陽性FPを得る取得ユニットと、
前記TP、TN、FN及びFPに基づきROC曲線をプロットするプロットユニットと、
ROC曲線下面積AUCを計算し、AUC値に基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価する評価ユニットと、
前記AUC値が所定AUC閾値以下であると、前記最適モデルパラメータを含むロジスティック回帰モデルが要求を満たさないと判定して戻り、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練する判定ユニットと、
前記AUC値が前記所定AUC閾値より大きいと、前記最適モデルパラメータを含むロジスティック回帰モデルが要求を満たすと判定し、第1主題分類器を訓練する第3訓練ユニットと、を備える。
更に、前記プロットユニットは、
前記TP、TN、FN及びFPに基づき、それぞれ計算式FPR=FP/(FP+TN)、TPR=TP/(TP+FN)を用いて偽陽性率FPRと真陽性率TPRを算出する計算サブユニットと、
前記FPRを横座標とし、前記TPRを縦座標として、ROC曲線をプロットするプロットサブユニットと、を備える。
更に、前記主題分類器の訓練装置は、
前記第2ハッシュテーブルを前記第1主題分類器に代入し、前記テストサンプルが対応した話題に属する確率を得る第2取得モジュールと、
前記所定AUC閾値を調整し、かつ前記TP、FP及びFNに基づき正確率pと再現率rを計算する第1調整モジュールと、
前記pが所定p閾値以下であり、又は前記rが所定r閾値以下であると、戻り、前記pが前記所定p閾値より大きく且つ前記rが前記所定r閾値より大きくなるまで、前記所定AUC閾値を調整し、第2主題分類器を訓練する第2調整モジュールと、
前記第2主題分類器を利用して前記テキストデータを分類する分類モジュールと、をさらに備える。
更に、前記収集ユニットは、
テキストデータを収集し、かつ前記テキストデータに対して単語分割を行う収集サブユニットと、
予め設定したストップワードリストに基づき単語分割後のテキストデータのうちのストップワードを除去し、第2キーワードセットを得る除去サブユニットと、
前記第2キーワードセットのうちの各キーワードの単語出現頻度−逆文書頻度TF−IDF値を計算し、かつTF−IDF値が所定TF−IDF閾値未満のキーワードを除去し、対応した第1キーワードセットを得る計算サブユニットと、を備える。
更に、前記計算サブユニットは、
前記第2キーワードセットのうちの各キーワードの単語出現頻度TFと逆文書頻度IDFを計算する第1計算サブユニットと、
前記TFとIDFに基づき前記第2キーワードセットのうちの各キーワードの単語出現頻度−逆文書頻度TF−IDF値を計算し、かつTF−IDF値が所定TF−IDF閾値未満のキーワードを除去し、対応した第1キーワードセットを得る第2計算サブユニットと、を備える。
本実施例では、各モジュールが実行されるときに実現するステップは本発明の主題分類器の訓練方法の各実施例を参照すればよく、ここで詳細して説明しない。
なお、本明細書では、用語「含む」、「備える」又はその任意の他の変形は非排他的な包含を意味し、一連の要素を含む過程、方法、物品又はシステムはそれらの要素を含むだけでなく、明記されていないほかの要素を含むか、或いはこのような過程、方法、物品又はシステムに固有の要素を含む。特に別の制限がない限り、文語「1つの…を含む」により限定された要素は、該要素を含む過程、方法、物品又はシステムに別の同様な要素が含まれる場合を排除しない。
上記本発明の実施例の番号は説明するためのものに過ぎず、実施例の優劣を示すものではない。
以上の実施形態についての説明によれば、当業者であれば、上記実施例の方法はソフトウェアと必要な汎用ハードウェアプラットフォームとを組み合わせた方式で実現でき、勿論、ハードウェアによって実現できるが、多くの場合は、前者の実施形態の方が好ましいと理解できる。このような見解に基づいて、本発明の技術案は、本質的に、又は、従来技術に貢献する部分が、ソフトウェア製品として表現することができ、該コンピュータソフトウェア製品は、上記記憶媒体(たとえば、ROM/RAM、磁気ディスク、光ディスク)に記憶されており、一台の端末装置(携帯電話、コンピュータ、サーバ、空調機、又はネットワーク装置など)に本発明の各実施例の前記方法を実行させる複数の命令を含む。
以上、本発明の好適実施例を説明したが、本発明の特許範囲を限定するものではなく、本発明の明細書及び図面の内容に基づいて実施される同等構造又は同等プロセスの変更、又は他の関連の技術分野への直接又は間接的な応用は、すべて本発明の特許保護範囲に属する。

Claims (10)

  1. 主題分類器の訓練方法であって、
    テキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得するステップと、
    予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、かつ前記訓練サンプルの特徴に基づき、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練するステップと、
    前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ROC曲線をプロットし、かつROC曲線下面積AUCに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第1主題分類器を訓練するステップと、を含むことを特徴とする主題分類器の訓練方法。
  2. 前記テキストデータに基づき対応した話題モデルを訓練した後に手動でタグ付けして取得される訓練サンプルと、テストサンプルとを取得することは、
    テキストデータを収集し、かつ前記テキストデータを前処理し、対応した第1キーワードセットを取得するステップと、
    前記第1キーワードセットと所定数の話題に基づき、予め設定した主題モデルを利用して前記テキストデータの前記話題での分布を算出し、かつ前記テキストデータの前記話題での分布状況に基づきクラスタリングし、前記テキストデータに対応した話題モデルを訓練するステップと、
    前記話題モデルに基づく前記テキストデータへの手動タグ付け結果に応じて、前記テキストデータから目標主題分類器に対応した訓練サンプルをスクリーニングし、かつ前記テキストデータのうち前記訓練サンプルを除くテキストデータをテストサンプルとするステップと、を含むことを特徴とする請求項1に記載の主題分類器の訓練方法。
  3. 前記予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、かつ前記訓練サンプルの特徴に基づき、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練することは、
    予め設定したアルゴリズムを利用して、それぞれ訓練サンプルとテストサンプルの特徴を抽出し、第1ハッシュテーブルと第2ハッシュテーブルを対応して作成するステップと、
    前記第1ハッシュテーブルをロジスティック回帰モデルに代入し、かつ反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練するステップと、を含むことを特徴とする請求項2に記載の主題分類器の訓練方法。
  4. 前記テストサンプルの特徴と前記最適モデルパラメータを含むロジスティック回帰モデルに基づき対象作業特徴ROC曲線をプロットし、かつROC曲線下面積AUCに基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価し、第1主題分類器を訓練することは、
    前記第2ハッシュテーブルを前記最適モデルパラメータを含むロジスティック回帰モデルに代入し、真陽性TP、真陰性TN、偽陰性FN及び偽陽性FPを得るステップと、
    前記TP、TN、FN及びFPに基づきROC曲線をプロットするステップと、
    ROC曲線下面積AUCを計算し、AUC値に基づき前記最適モデルパラメータを含むロジスティック回帰モデルを評価するステップと、
    前記AUC値が所定AUC閾値以下であると、前記最適モデルパラメータを含むロジスティック回帰モデルが要求を満たさないと判定して戻り、反復アルゴリズムによってロジスティック回帰モデルの最適モデルパラメータを算出し、最適モデルパラメータを含むロジスティック回帰モデルを訓練するステップと、
    前記AUC値が前記所定AUC閾値より大きいと、前記最適モデルパラメータを含むロジスティック回帰モデルが要求を満たすと判定し、第1主題分類器を訓練するステップと、を含むことを特徴とする請求項3に記載の主題分類器の訓練方法。
  5. 前記TP、TN、FN及びFPに基づきROC曲線をプロットすることは、
    前記TP、TN、FN及びFPに基づき、それぞれ計算式FPR=FP/(FP+TN)、TPR=TP/(TP+FN)を用いて偽陽性率FPRと真陽性率TPRを算出するステップと、
    前記FPRを横座標とし、前記TPRを縦座標として、ROC曲線をプロットするステップと、を含むことを特徴とする請求項4に記載の主題分類器の訓練方法。
  6. 前記第2ハッシュテーブルを前記第1主題分類器に代入し、前記テストサンプルが対応した話題に属する確率を得るステップと、
    前記所定AUC閾値を調整し、かつ前記TP、FP及びFNに基づき正確率pと再現率rを計算するステップと、
    前記pが所定p閾値以下であり、又は前記rが所定r閾値以下であると、戻り、前記pが前記所定p閾値より大きく且つ前記rが前記所定r閾値より大きくなるまで、前記所定AUC閾値を調整し、第2主題分類器を訓練するステップと、
    前記第2主題分類器を利用して前記テキストデータを分類するステップと、をさらに含むことを特徴とする請求項4に記載の主題分類器の訓練方法。
  7. 前記テキストデータを収集し、かつ前記テキストデータを前処理し、対応した第1キーワードセットを取得することは、
    テキストデータを収集し、かつ前記テキストデータに対して単語分割を行うステップと、
    予め設定したストップワードリストに基づき単語分割後のテキストデータのうちのストップワードを除去し、第2キーワードセットを得るステップと、
    前記第2キーワードセットのうちの各キーワードの単語出現頻度−逆文書頻度TF−IDF値を計算し、かつTF−IDF値が所定TF−IDF閾値未満のキーワードを除去し、対応した第1キーワードセットを得るステップと、を含むことを特徴とする請求項2に記載の主題分類器の訓練方法。
  8. 前記第2キーワードセットのうちの各キーワードの単語出現頻度−逆文書頻度TF−IDF値を計算し、かつTF−IDF値が所定TF−IDF閾値未満のキーワードを除去し、対応した第1キーワードセットを得ることは、
    前記第2キーワードセットのうちの各キーワードの単語出現頻度TFと逆文書頻度IDFを計算するステップと、
    前記TFとIDFに基づき前記第2キーワードセットのうちの各キーワードの単語出現頻度−逆文書頻度TF−IDF値を計算し、かつTF−IDF値が所定TF−IDF閾値未満のキーワードを除去し、対応した第1キーワードセットを得るステップと、を含むことを特徴とする請求項7に記載の主題分類器の訓練方法。
  9. 主題分類器の訓練装置であって、
    メモリ、プロセッサ、及び前記メモリに記憶され前記プロセッサに実行可能な主題分類器訓練プログラムを備え、前記主題分類器訓練プログラムが前記プロセッサにより実行されるときに、請求項1〜8のいずれか一項に記載の主題分類器の訓練方法を実現することを特徴とする主題分類器の訓練装置。
  10. 主題分類器訓練プログラムが記憶されるコンピュータ読み取り可能な記憶媒体であって、
    前記主題分類プログラムがプロセッサにより実行されるとき、請求項1〜8のいずれか一項に記載の主題分類器の訓練方法を実現することを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2018564802A 2017-08-25 2017-09-28 主題分類器の訓練方法、装置及びコンピュータ読み取り可能な記憶媒体 Active JP6764488B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710741128.7A CN107704495B (zh) 2017-08-25 2017-08-25 主题分类器的训练方法、装置及计算机可读存储介质
CN201710741128.7 2017-08-25
PCT/CN2017/104106 WO2019037197A1 (zh) 2017-08-25 2017-09-28 主题分类器的训练方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2019535047A true JP2019535047A (ja) 2019-12-05
JP6764488B2 JP6764488B2 (ja) 2020-09-30

Family

ID=61171128

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018564802A Active JP6764488B2 (ja) 2017-08-25 2017-09-28 主題分類器の訓練方法、装置及びコンピュータ読み取り可能な記憶媒体

Country Status (4)

Country Link
US (1) US20200175397A1 (ja)
JP (1) JP6764488B2 (ja)
CN (1) CN107704495B (ja)
WO (1) WO2019037197A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704495B (zh) * 2017-08-25 2018-08-10 平安科技(深圳)有限公司 主题分类器的训练方法、装置及计算机可读存储介质
US10953548B2 (en) * 2018-07-19 2021-03-23 International Business Machines Corporation Perform peg-in-hole task with unknown tilt
CN109815991B (zh) * 2018-12-29 2021-02-19 北京城市网邻信息技术有限公司 机器学习模型的训练方法、装置、电子设备及存储介质
CN111797990A (zh) * 2019-04-08 2020-10-20 北京百度网讯科技有限公司 机器学习模型的训练方法、训练装置和训练系统
CN110334728B (zh) * 2019-05-06 2022-04-01 中国联合网络通信集团有限公司 一种面向工业互联网的故障预警方法及装置
CN110428015A (zh) * 2019-08-07 2019-11-08 北京嘉和海森健康科技有限公司 一种模型的训练方法及相关设备
CN110414627A (zh) * 2019-08-07 2019-11-05 北京嘉和海森健康科技有限公司 一种模型的训练方法及相关设备
CN112541776A (zh) * 2019-09-20 2021-03-23 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及存储介质
CN110719272A (zh) * 2019-09-27 2020-01-21 湖南大学 一种基于lr算法的慢速拒绝服务攻击检测方法
CN110728315B (zh) * 2019-09-30 2023-09-15 复旦大学附属中山医院 一种实时质量控制方法,系统和设备
CN111090746B (zh) * 2019-11-29 2023-04-28 北京明略软件系统有限公司 确定最佳主题数量的方法、情感分类器的训练方法和装置
CN111242170B (zh) * 2019-12-31 2023-07-25 航天信息股份有限公司 食品检验检测项目预知方法及装置
JP6884436B1 (ja) * 2020-01-16 2021-06-09 株式会社テンクー 文書表示支援システム及び文書表示支援方法並びに該方法を実行するためのプログラム
CN111401962A (zh) * 2020-03-20 2020-07-10 上海络昕信息科技有限公司 一种关键意见消费者挖掘方法、装置、设备以及介质
CN111522750B (zh) * 2020-04-27 2024-03-22 中国银行股份有限公司 一种功能测试问题的处理方法及系统
CN111695820B (zh) * 2020-06-16 2023-04-18 深圳市城市公共安全技术研究院有限公司 工程车辆电子联单管理方法、装置、终端及存储介质
CN111708810B (zh) * 2020-06-17 2022-05-27 北京世纪好未来教育科技有限公司 模型优化推荐方法、装置和计算机存储介质
CN111814868A (zh) * 2020-07-03 2020-10-23 苏州动影信息科技有限公司 一种基于影像组学特征选择的模型、构建方法和应用
CN112507792B (zh) * 2020-11-04 2024-01-23 华中师范大学 在线视频关键帧定位方法、定位系统、设备及存储介质
CN112507170A (zh) * 2020-12-01 2021-03-16 平安医疗健康管理股份有限公司 基于智能决策的数据资产目录构建方法、及其相关设备
CN112750530A (zh) * 2021-01-05 2021-05-04 上海梅斯医药科技有限公司 一种模型的训练方法、终端设备和存储介质
CN112734568B (zh) * 2021-01-29 2024-01-12 深圳前海微众银行股份有限公司 信用评分卡模型构建方法、装置、设备及可读存储介质
CN112968872B (zh) * 2021-01-29 2023-04-18 成都信息工程大学 基于自然语言处理的恶意流量检测方法、系统、终端
CN113222650B (zh) * 2021-04-29 2023-11-14 西安点告网络科技有限公司 广告投放模型的训练特征选取方法、系统、设备及介质
CN113705247B (zh) * 2021-10-27 2022-02-11 腾讯科技(深圳)有限公司 主题模型效果评估方法、装置、设备、存储介质和产品
CN114241603B (zh) * 2021-12-17 2022-08-26 中南民族大学 基于可穿戴设备的毽球动作识别与水平等级评估方法及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7415445B2 (en) * 2002-09-24 2008-08-19 Hewlett-Packard Development Company, L.P. Feature selection for two-class classification systems
GB0517954D0 (en) * 2005-09-02 2005-10-12 Imp College Innovations Ltd Bayesian feature selection
US20120284212A1 (en) * 2011-05-04 2012-11-08 Google Inc. Predictive Analytical Modeling Accuracy Assessment
US20150324459A1 (en) * 2014-05-09 2015-11-12 Chegg, Inc. Method and apparatus to build a common classification system across multiple content entities
CN104504583B (zh) * 2014-12-22 2018-06-26 广州品唯软件有限公司 分类器的评价方法
CN107045506A (zh) * 2016-02-05 2017-08-15 阿里巴巴集团控股有限公司 评估指标获取方法及装置
CN105930411A (zh) * 2016-04-18 2016-09-07 苏州大学 一种分类器训练方法、分类器和情感分类系统
CN106021410A (zh) * 2016-05-12 2016-10-12 中国科学院软件研究所 一种基于机器学习的源代码注释质量评估方法
CN106650780B (zh) * 2016-10-18 2021-02-12 腾讯科技(深圳)有限公司 数据处理方法及装置、分类器训练方法及系统
CN106600455A (zh) * 2016-11-25 2017-04-26 国网河南省电力公司电力科学研究院 一种基于逻辑回归的电费敏感度评估方法
CN107704495B (zh) * 2017-08-25 2018-08-10 平安科技(深圳)有限公司 主题分类器的训练方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
JP6764488B2 (ja) 2020-09-30
WO2019037197A1 (zh) 2019-02-28
CN107704495B (zh) 2018-08-10
US20200175397A1 (en) 2020-06-04
CN107704495A (zh) 2018-02-16

Similar Documents

Publication Publication Date Title
JP6764488B2 (ja) 主題分類器の訓練方法、装置及びコンピュータ読み取り可能な記憶媒体
JP6799081B2 (ja) ユーザ興味の識別方法、装置およびコンピュータ読み取り可能な記憶媒体
US11361243B2 (en) Recommending machine learning techniques, features, and feature relevance scores
CN108628971B (zh) 不均衡数据集的文本分类方法、文本分类器及存储介质
US11544459B2 (en) Method and apparatus for determining feature words and server
JP2021516398A (ja) 音楽推薦方法、装置、コンピューティング機器及び媒体
US11392836B2 (en) Structuring data in a knowledge graph
US11429807B2 (en) Automated collection of machine learning training data
US20190236135A1 (en) Cross-lingual text classification
US20180225372A1 (en) User classification based on multimodal information
CA2997986C (en) Scoring mechanism for discovery of extremist content
KR102544453B1 (ko) 정보 처리 방법, 장치 및 저장 매체
CN111914113A (zh) 一种图像检索的方法以及相关装置
CN111539212A (zh) 文本信息处理方法、装置、存储介质及电子设备
KR20210091076A (ko) 비디오를 처리하기 위한 방법, 장치, 전자기기, 매체 및 컴퓨터 프로그램
KR101545050B1 (ko) 정답 유형 자동 분류 방법 및 장치, 이를 이용한 질의 응답 시스템
JP2018206361A (ja) ユーザ指向トピック選択及びブラウジングのためのシステム及び方法、複数のコンテンツ項目を表示する方法、プログラム、及びコンピューティングデバイス
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
CN106484913B (zh) 一种目标图片确定的方法以及服务器
WO2022245469A1 (en) Rule-based machine learning classifier creation and tracking platform for feedback text analysis
CN110750983A (zh) 语料识别方法、装置、设备及计算机可读存储介质
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN113919361A (zh) 一种文本分类方法和装置
US11645456B2 (en) Siamese neural networks for flagging training data in text-based machine learning
JP5929532B2 (ja) イベント検出装置、イベント検出方法およびイベント検出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200825

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200911

R150 Certificate of patent or registration of utility model

Ref document number: 6764488

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250