CN107704495A - 主题分类器的训练方法、装置及计算机可读存储介质 - Google Patents

主题分类器的训练方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN107704495A
CN107704495A CN201710741128.7A CN201710741128A CN107704495A CN 107704495 A CN107704495 A CN 107704495A CN 201710741128 A CN201710741128 A CN 201710741128A CN 107704495 A CN107704495 A CN 107704495A
Authority
CN
China
Prior art keywords
subject classification
text data
classification device
training
regression models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710741128.7A
Other languages
English (en)
Other versions
CN107704495B (zh
Inventor
王健宗
吴天博
黄章成
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201710741128.7A priority Critical patent/CN107704495B/zh
Priority to JP2018564802A priority patent/JP6764488B2/ja
Priority to US16/314,398 priority patent/US20200175397A1/en
Priority to PCT/CN2017/104106 priority patent/WO2019037197A1/zh
Publication of CN107704495A publication Critical patent/CN107704495A/zh
Application granted granted Critical
Publication of CN107704495B publication Critical patent/CN107704495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种主题分类器的训练方法,该方法包括:获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的;利用预设算法分别提取训练样本和测试样本的特征,并根据所述训练样本的特征,通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型;根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征ROC曲线,并根据ROC曲线下面积AUC对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器。本发明还公开了一种主题分类器的训练装置及计算机可读存储介质,可提高主题分类效率和准确率。

Description

主题分类器的训练方法、装置及计算机可读存储介质
技术领域
本发明涉及信息处理领域,尤其涉及一种主题分类器的训练方法、装置及计算机可读存储介质。
背景技术
近年来,随着互联网的飞速发展,信息资源正呈指数级增长。丰富的互联网信息资源给人们的生活带来了极大的便利,人们只需一台连接互联网的电脑,便可获得影音媒体、新闻报道、技术文献等各种类型的信息资源。
然而在这个大数据时代,现有分类技术的分类效率和准确率较低,导致用户面对海量的信息资源时,难以准确快捷地获取自身所需的相关主题信息,因此,如何提高主题分类效率和准确率,是本领域技术人员亟待解决的技术问题。
发明内容
本发明的主要目的在于提供一种主题分类器的训练方法、装置及计算机可读存储介质,旨在提高主题分类效率和准确率,从而使用户有效地从海量信息中获取相关的主题信息。
为实现上述目的,本发明提供一种主题分类器的训练方法,所述主题分类器的训练方法包括以下步骤:
获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的;
利用预设算法分别提取训练样本和测试样本的特征,并根据所述训练样本的特征,通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型;
根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征ROC曲线,并根据ROC曲线下面积AUC对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器。
可选地,所述获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的,包括:
采集文本数据,并对所述文本数据进行预处理,获得对应的第一关键词集;
根据所述第一关键词集和预设数量的话题,利用预设主题模型计算得到所述文本数据在所述话题上的分布,并根据所述文本数据在所述话题上的分布情况进行聚类,训练出所述文本数据对应的话题模型;
根据所述话题模型对所述文本数据的人工标注结果,从所述文本数据中筛选出与目标主题分类器对应的训练样本,并将所述文本数据中除所述训练样本之外的文本数据作为测试样本。
可选地,所述利用预设算法分别提取训练样本和测试样本的特征,并根据所述训练样本的特征,通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型,包括:
利用预设算法分别提取训练样本和测试样本的特征,对应建立第一哈希散列表和第二哈希散列表;
将所述第一哈希散列表代入逻辑回归模型,并通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型。
可选地,所述根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征ROC曲线,并根据ROC曲线下面积AUC对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器,包括:
将所述第二哈希散列表代入所述含最优模型参数的逻辑回归模型,得到真阳性TP,真阴性TN,伪阴性FN和伪阳性FP;
根据所述TP,TN,FN和FP绘制ROC曲线;
计算ROC曲线下面积AUC,根据AUC值对所述含最优模型参数的逻辑回归模型进行评价;
当所述AUC值小于或等于预设AUC阈值时,则判定所述含最优模型参数的逻辑回归模型不符合要求,并返回步骤:通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型;
当所述AUC值大于所述预设AUC阈值时,则判定所述含最优模型参数的逻辑回归模型符合要求,训练出第一主题分类器。
可选地,所述根据所述TP,TN,FN和FP绘制ROC曲线,包括:
根据所述TP,TN,FN和FP计算出伪阳性率FPR和真阳性率TPR,对应的计算公式分别为FPR=FP/(FP+TN),TPR=TP/(TP+FN);
以所述FPR为横坐标,所述TPR为纵坐标,绘制ROC曲线。
可选地,所述主题分类器的训练方法还包括:
将所述第二哈希散列表代入所述第一主题分类器,得到所述测试样本属于对应话题的概率;
调整所述预设AUC阈值,并根据所述TP,FP和FN计算准确率p和召回率r;
当所述p小于或等于预设p阈值,或所述r小于或等于预设r阈值时,则返回步骤:调整所述预设AUC阈值,直至所述p大于所述预设p阈值,且所述r大于所述预设r阈值时,训练出第二主题分类器;
利用所述第二主题分类器对所述文本数据进行分类。
可选地,所述采集文本数据,并对所述文本数据进行预处理,获得对应的第一关键词集,包括:
采集文本数据,并对所述文本数据进行分词;
根据预设停用词表去除分词后的文本数据中的停用词,得到第二关键词集;
计算所述第二关键词集中各关键词的词频-逆向文件频率TF-IDF值,并去除TF-IDF值低于预设TF-IDF阈值的关键词,得到对应的第一关键词集。
可选地,所述计算所述第二关键词集中各关键词的词频-逆向文件频率TF-IDF值,并去除TF-IDF值低于预设TF-IDF阈值的关键词,得到对应的第一关键词集,包括:
计算所述第二关键词集中各关键词的词频TF和逆向文件频率IDF;
根据所述TF和IDF计算所述第二关键词集中各关键词的词频-逆向文件频率TF-IDF值,并去除TF-IDF值低于预设TF-IDF阈值的关键词,得到对应的第一关键词集。
此外,为实现上述目的,本发明还提供一种主题分类器的训练装置,所述主题分类器的训练装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的主题分类器训练程序,所述主题分类器训练程序被所述处理器执行时实现上述的主题分类器的训练方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有主题分类器训练程序,所述主题分类程序被处理器执行时实现上述的主题分类器的训练方法的步骤。
本发明通过获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的;利用预设算法分别提取训练样本和测试样本的特征,并根据所述训练样本的特征,通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型;根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征ROC曲线,并根据ROC曲线下面积AUC对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器。通过上述方式,本发明利用预设算法对训练样本和测试样本进行特征提取,缩短了特征提取和模型训练的时间,提高了分类效率。本发明采用人工标注的方式筛选训练样本,可提高训练样本的准确性,从而提高主题分类器的分类准确率,同时,采用ROC曲线下面积AUC对所述含最优模型参数的逻辑回归模型进行评价训练出主题分类器,从而对文本数据进行分类,可进一步提高主题分类的准确率。
附图说明
图1是本发明实施例方案涉及的主题分类器装置结构示意图;
图2为本发明主题分类器的训练方法第一实施例的流程示意图;
图3为本发明实施例中获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的的细化流程示意图;
图4为本发明实施例中根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征ROC曲线,并根据ROC曲线下面积AUC对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器的细化流程示意图;
图5为本发明主题分类器的训练方法第二实施例的流程示意图;
图6为本发明实施例中采集文本数据,并对所述文本数据进行预处理,获得对应的第一关键词集的细化流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
由于现有分类技术的分类效率和准确率较低,导致用户面对海量的信息资源时,难以准确快捷地获取自身所需的相关主题信息。
为了解决上述技术问题,本发明提供一种主题分类器的训练方法,通过获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的;利用预设算法分别提取训练样本和测试样本的特征,并根据所述训练样本的特征,通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型;根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征ROC曲线,并根据ROC曲线下面积AUC对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器。通过上述方式,本发明利用预设算法对训练样本和测试样本进行特征提取,缩短了特征提取和模型训练的时间,提高了分类效率。本发明采用人工标注的方式筛选训练样本,可提高训练样本的准确性,从而提高主题分类器的分类准确率,同时,采用ROC曲线下面积AUC对所述含最优模型参数的逻辑回归模型进行评价训练出主题分类器,从而对文本数据进行分类,可进一步提高主题分类的准确率。
请参阅图1,为本发明实施例方案涉及的主题分类器装置结构示意图。
本发明实施例终端可以是PC,也可以是智能手机、平板电脑、便携计算机等具有显示功能的终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及主题分类器训练程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的主题分类器训练程序,以实现以下步骤:
获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的;
利用预设算法分别提取训练样本和测试样本的特征,并根据所述训练样本的特征,通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型;
根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征ROC曲线,并根据ROC曲线下面积AUC对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器。
进一步地,处理器1001可以调用存储器1005中存储的主题分类器训练程序,以实现以下步骤:
采集文本数据,并对所述文本数据进行预处理,获得对应的第一关键词集;
根据所述第一关键词集和预设数量的话题,利用预设主题模型计算得到所述文本数据在所述话题上的分布,并根据所述文本数据在所述话题上的分布情况进行聚类,训练出所述文本数据对应的话题模型;
根据基于所述话题模型对所述文本数据的人工标注结果,从所述文本数据中筛选出与目标主题分类器对应的训练样本,并将除所述训练样本之外的文本数据作为测试样本。
进一步地,处理器1001可以调用存储器1005中存储的主题分类器训练程序,以实现以下步骤:
利用预设算法分别提取训练样本和测试样本的特征,对应建立第一哈希散列表和第二哈希散列表;
将所述第一哈希散列表代入逻辑回归模型,并通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型。
进一步地,处理器1001可以调用存储器1005中存储的主题分类器训练程序,以实现以下步骤:
将所述第二哈希散列表代入所述含最优模型参数的逻辑回归模型,得到真阳性TP,真阴性TN,伪阴性FN和伪阳性FP;
根据所述TP,TN,FN和FP绘制ROC曲线;
计算ROC曲线下面积AUC,根据AUC值对所述含最优模型参数的逻辑回归模型进行评价;
当所述AUC值小于或等于预设AUC阈值时,则判定所述含最优模型参数的逻辑回归模型不符合要求,并返回步骤:通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型;
当所述AUC值大于所述预设AUC阈值时,则判定所述含最优模型参数的逻辑回归模型符合要求,训练出第一主题分类器。
进一步地,处理器1001可以调用存储器1005中存储的主题分类器训练程序,以实现以下步骤:
根据所述TP,TN,FN和FP计算出伪阳性率FPR和真阳性率TPR,对应的计算公式分别为FPR=FP/(FP+TN),TPR=TP/(TP+FN);
以所述FPR为横坐标,所述TPR为纵坐标,绘制ROC曲线。
进一步地,处理器1001可以调用存储器1005中存储的主题分类器训练程序,以实现以下步骤:
将所述第二哈希散列表代入所述第一主题分类器,得到所述测试样本属于对应话题的概率;
调整所述预设AUC阈值,并根据所述TP,FP和FN计算准确率p和召回率r;
当所述p小于或等于预设p阈值,或所述r小于或等于预设r阈值时,则返回步骤:调整所述预设AUC阈值,直至所述p大于所述预设p阈值,且所述r大于所述预设r阈值时,训练出第二主题分类器。
进一步地,处理器1001可以调用存储器1005中存储的主题分类器训练程序,以实现以下步骤:
利用所述第二主题分类器对所述文本数据进行分类。
进一步地,处理器1001可以调用存储器1005中存储的主题分类器训练程序,以实现以下步骤:
采集文本数据,并对所述文本数据进行分词;
根据预设停用词表去除分词后的文本数据中的停用词,得到第二关键词集;
计算所述第二关键词集中各关键词的词频-逆向文件频率TF-IDF值,并去除TF-IDF值低于预设TF-IDF阈值的关键词,得到对应的第一关键词集。
进一步地,处理器1001可以调用存储器1005中存储的主题分类器训练程序,以实现以下步骤:
计算所述第二关键词集中各关键词的词频TF和逆向文件频率IDF;
根据所述TF和IDF计算所述第二关键词集中各关键词的词频-逆向文件频率TF-IDF值,并去除TF-IDF值低于预设TF-IDF阈值的关键词,得到对应的第一关键词集。
请参阅图2,为本发明主题分类器的训练方法第一实施例的流程示意图。
在本发明实施例中,所述主题分类器的训练方法包括:
步骤S100,获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的;
步骤S200,利用预设算法分别提取训练样本和测试样本的特征,并根据所述训练样本的特征,通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型;
在本实施例中,获取训练主题分类器所需的训练样本和测试样本,其中,训练样本为根据文本数据训练处对应的话题模型后经过人工标注获得的,用于优化模型的参数,而测试样本为除训练样本之外的文本数据,用于对建立的模型进行性能评价。在具体实施例中,训练样本和测试样本的获得还可以通过程序直接从互联网中查找到的微博进行抽样,例如数学软件Matlab的Svmtrain函数。
进一步地,利用预设算法分别提取训练样本和测试样本的特征,在本实施例中,采用二进制哈希散列表的字节4元语法Byte 4-gram算法分别提取所述训练样本和测试样本的特征,把每一个训练样本或测试样本对应地表示为一个由一组特征组成的特征向量。该方法抽取每一训练样本或测试样本数据中所有连续的4个字节为键(key),将字符串转换成字符串的UTF-8编码所对应的byte数组,值为32bit的整数。进一步地,通过除留余数法构造出哈希函数,并分别对应建立第一哈希散列表和第二哈希散列表。其中,需要说明的是,对于散列表长为m的散列函数公式为:f(key)=key mod p,(p≤m)。其中,mod表示求余数。在具体实施方式中,为例减小冲突的发生,避免哈希散列表分布过于稀疏,p通常取小于散列表长的最大素数。
进一步地,将所述第一哈希散列表代入逻辑回归模型,并通过优化方法迭代计算出最优的模型参数,训练出逻辑回归模型,其中逻辑回归模型用于估计某种事物的可能性,或者说判断一个样本属于某种类别的概率是多少。逻辑回归模型为:
其中,xj表示第j个训练样本的特征向量,x(i)表示第i次取样,θ表示模型参数。
此外,还需说明的是迭代算法包括梯度下降,共轭梯度法和拟牛顿法等。在具体实施例中,可以通过上述任一迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型。当然,在具体实施例中,还可以采用其他方法分别提取训练样本和测试样本的特征,例如向量空间模型VSM、信息增益方法、期望交叉熵等。
步骤S300,根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征ROC曲线,并根据ROC曲线下面积AUC对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器。
在本实施例中,将根据测试样本建立的第二哈希散列表代入所述含最优模型参数的逻辑回归模型,从而得到真阳性TP,真阴性TN,伪阴性FN和伪阳性FP,其中TP是利用逻辑回归模型对训练样本中正类进行判断后属于仍是正类的数目,TN利用逻辑回归模型对训练样本中负类进行判断后属于仍是负类的数目,FN利用逻辑回归模型对训练样本中负类进行判断后属于是正类的数目和FP利用逻辑回归模型对训练样本中正类进行判断后属于是负类的数目,正类和负类是指人工对训练样本标注的两种类别,即人工标注某个样本属于特定的类,则该样本属于正类,不属于该特定类的样本则属于负类。并根据所述TP,TN,FN和FP计算出伪阳性率FPR和真阳性率TPR,以FPR为横坐标,TPR为纵坐标,绘制出ROC曲线,ROC曲线是获得的各指标的特征曲线,用于展示各指标之间的关系,并进一步计算出ROC曲线下面积AUC,AUC即ROC曲线下面积,AUC越大越好,提示该试验的诊断价值越高,对所述含最优模型参数的逻辑回归模型进行评价,当所述AUC值小于或等于预设AUC阈值时,则判定所述含最优模型参数的逻辑回归模型不符合要求,并返回步骤:通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型,直至所述AUC值大于所述预设AUC阈值时,则判定所述含最优模型参数的逻辑回归模型符合要求,训练出第一主题分类器。
本发明实施例通过获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的;利用预设算法分别提取训练样本和测试样本的特征,并根据所述训练样本的特征,通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型;根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征ROC曲线,并根据ROC曲线下面积AUC对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器。通过上述方式,本发明利用预设算法对训练样本和测试样本进行特征提取,缩短了特征提取和模型训练的时间,提高了分类效率。本发明采用人工标注的方式筛选训练样本,可提高训练样本的准确性,从而提高主题分类器的分类准确率,同时,采用ROC曲线下面积AUC对所述含最优模型参数的逻辑回归模型进行评价训练出主题分类器,从而对文本数据进行分类,可进一步提高主题分类的准确率。
基于图2所示的第一实施例,请参阅图3,为本发明实施例中获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的的细化流程示意图,步骤S100包括:
步骤S110,采集文本数据,并对所述文本数据进行预处理,获得对应的第一关键词集;
在本发明实施例中,文本数据可以从各大网络社交平台获得,例如微博、QQ空间、知乎、百度贴吧等,也可以从各大信息资源数据库获得,例如腾讯视频,知网,电子报等。本实施例以微博文本为例进行说明,具体地,微博文本数据的采集可以通过新浪API(Application Programming Interface)获取新浪微博文本数据,所述文本数据包括微博正文和评论。
在本发明实施例中,对所述文本数据进行预处理的过程包括对所述文本数据进行分词,并进行词性标注,再根据预设停用词表去除分词后的文本数据中的停用词表,得到第二关键词集。进一步地,计算所述第二关键词集中各关键词的词频TF,逆向文件频率IDF及词频-逆向文件频率TF-IDF值,并去除TF-IDF值低于预设TF-IDF阈值的关键词,得到对应的第一关键词集。
步骤S120,根据所述第一关键词集和预设数量的话题,利用预设主题模型计算得到所述文本数据在所述话题上的分布,并根据所述文本数据在所述话题上的分布情况进行聚类,训练出所述文本数据对应的话题模型;
在本发明实施例中,预设主题模型采用LDA主题模型,该模型是一种非监督机器学习技术,可用于识别大规模文档集或语料库中潜藏的主题信息,将文档集中的每一篇文档用潜在主题的概率分布进行表示,而每一个潜在主题由词项的概率分布进行表示。具体地,本实施例在终端接收到输入的第一关键词集和设定的话题数量时,LDA主题模型会根据关键词在文档中的分布,计算得到所述话题在关键词上的分布,及文本数据在所述话题上的分布。进一步地,根据所述文本数据在所述话题上的分布情况进行聚类,训练出所述文本数据对应的话题模型。
步骤S130,根据基于所述话题模型对所述文本数据的人工标注结果,从所述文本数据中筛选出与目标主题分类器对应的训练样本,并将除所述训练样本之外的文本数据作为测试样本。
在本实施例中,由于LDA模型是一种话题生成模型,无法控制所得到的话题的种类,因此,需要对得到的话题进行人工标注,从而筛选出与目标主题相对应的文本数据,以此作为主题分类器的训练样本,有利于提高主题分类器的分类准确率。此外,将除训练样本之外的文本数据作为测试样本,用于对训练出的逻辑回归模型进行评价。
基于图2所示的第一实施例,请参阅图4,为本发明实施例中根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征ROC曲线,并根据ROC曲线下面积AUC对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器的细化流程示意图,步骤S300包括:
步骤S310,将所述第二哈希散列表代入所述含最优模型参数的逻辑回归模型,得到真阳性TP,真阴性TN,伪阴性FN和伪阳性FP;
步骤S320,根据所述TP,TN,FN和FP绘制ROC曲线;
步骤S330,计算ROC曲线下面积AUC,根据AUC值对所述含最优模型参数的逻辑回归模型进行评价;
步骤S340,当所述AUC值小于或等于预设AUC阈值时,则判定所述含最优模型参数的逻辑回归模型不符合要求,并返回步骤:通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型;
步骤S350,当所述AUC值大于所述预设AUC阈值时,则判定所述含最优模型参数的逻辑回归模型符合要求,训练出第一主题分类器。
在本实施例中,将所述第二哈希散列表代入所述含最优模型参数的逻辑回归模型,对测试样本进行分析,会出现以下四种情况:如果一个文本数据属于某一话题,同时被含最优模型参数的逻辑回归模型预测为属于该话题,则为真阳性TP;如果一个文本数据不属于某一话题,同时被预测为不属于该话题,则为真阴性TN;如果一个文本数据属于某一话题,却被预测为不属于该话题,则为伪阴性FN;如果一个文本数据不属于某一话题,却被预测为属于该话题,则为伪阳性FP。
进一步,根据所述TP,TN,FN和FP绘制ROC曲线,具体地,ROC曲线以伪阳性率FPR为横坐标,以真阳性率TPR为纵坐标,具体计算公式如下:
FPR=FP/(FP+TN),TPR=TP/(TP+FN)。
进一步地,计算ROC曲线下面积AUC,计算公式如下:
在本实施例中,AUC值越大表示该含最优模型参数的逻辑回归模型的性能越好。当计算得到的AUC值小于或等于预设AUC阈值时,则判定所述含最优模型参数的逻辑回归模型不符合要求,并返回步骤:通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型。直至所述AUC值大于所述预设AUC阈值时,则判定所述含最优模型参数的逻辑回归模型符合要求,训练出第一主题分类器。
基于图2所示的第一实施例,请参阅图5,为本发明主题分类器的训练方法第二实施例的流程示意图,该主题分类器的训练方法还包括:
步骤S400,将所述第二哈希散列表代入所述第一主题分类器,得到所述测试样本属于对应话题的概率;
步骤S500,调整所述预设AUC阈值,并根据所述TP,FP和FN计算准确率p和召回率r;
步骤S600,当所述p小于或等于预设p阈值,或所述r小于或等于预设r阈值时,则返回步骤:调整所述预设AUC阈值,直至所述p大于所述预设p阈值,且所述r大于所述预设r阈值时,训练出第二主题分类器;
步骤S700,利用所述第二主题分类器对所述文本数据进行分类。
需要说明的是,相对于图2所示的第一实施例,图4所示第二实施例的区别在于:在实际使用过程中,由于文本数据过多,人工标注样本劳动力过大,可能无法涵盖所有可能的文本数据,导致使用效果不佳。此外,在使用ROC曲线下面积AUC对所述含最优模型参数的逻辑回归模型进行评价时,默认使用0.5作为预设AUC阈值,大于0.5则逻辑回归模型的预测结果为1,即表示属于该话题;小于或等于0.5时则逻辑回归模型的预测结果为0,即表示不属于该话题。因此,在第二实施例中,通过调整所述预设AUC阈值,在保证准确率p和召回率r的同时,进一步提高所述第二主题分类器的分类准确率。
在本发明实施例中,将所述第二哈希散列表代入所述第一主题分类器,得到所述测试样本属于对应话题的概率。进一步地,调整所述预设AUC阈值,并根据所述TP,FP和FN计算出准确率p和召回率r,计算公式如下:
当所述p小于或等于预设p阈值,或所述r小于或等于预设r阈值时,则返回步骤:调整所述预设AUC阈值,继续进行调整,直至所述p大于所述预设p阈值,且所述r大于所述预设r阈值,训练出第二主题分类器,并利用所述第二主题分类器对所述文本数据进行分类。
基于图3所示的实施方式,请参阅图6,为本发明实施例中采集文本数据,并对所述文本数据进行预处理,获得对应的第一关键词集的细化流程示意图,步骤S110包括:
步骤S111,采集文本数据,并对所述文本数据进行分词;
步骤S112,根据预设停用词表去除分词后的文本数据中的停用词,得到第二关键词集;
步骤S113,计算所述第二关键词集中各关键词的词频-逆向文件频率TF-IDF值,并去除TF-IDF值低于预设TF-IDF阈值的关键词,得到对应的第一关键词集。
在本发明实施例中,文本数据可以从各大网络社交平台获得,例如微博、QQ空间、知乎、百度贴吧等,也可以从各大信息资源数据库获得,例如腾讯视频,知网,电子报等。本实施例以微博文本为例进行说明,具体地,微博文本数据的采集可以通过新浪API(Application Programming Interface)获取新浪微博文本数据,所述文本数据包括微博正文和评论。
进一步地,对所述文本数据进行预处理,预处理过程包括对所述文本数据进行分词,并进行词性标注。需要说明的是,分词处理可以通过分词工具实施,例如汉语词法分析系统ICTCLAS,清华大学中文词法分析程序THULAC,语言技术平台LTP等。分词主要是根据中文语言的特点,将所述样本数据中的每条中文文本切割成一个一个的单词,并进行词性标注。
进一步地,预处理过程还包括根据预设停用词表去除分词后的文本数据中的停用词。停用词的去除有利于提高关键词的密度,从而有利于文本数据所属话题的确定。需要说明的是,停用词主要包括两类:第一类是使用过于频繁的一些单词,例如“我”,“就”等,这类词几乎在每个文档中均会出现;第二类是在文本中出现频率很高,但无实际意义的单词,这类词只有将其放入一个完整的句子中才有一定作用,包括语气助词、副词、介词、连接词等,如“的”、“在”,“接着”等。
进一步地,预处理过程还包括计算所述第一关键词集中各关键词的词频-逆向文件频率TF-IDF值,并去除TF-IDF值低于预设TF-IDF阈值的关键词,得到对应的第二关键词集。具体地,首先计算词频IF和逆向文件频率IDF,其中,TF表示某个关键词在当前文档中出现的频率,IDF表示该关键词在所有文本数据的文档中的分布情况,是一个词语普遍重要性的度量。TF和IDF的计算公式如下:
其中,ni表示该关键词在当前文档中出现的次数,n表示当前文档中的关键词总数,N表示数据集的文档总数,Ni表示在文本数据集在该关键词i的文档数。
进一步地,根据公式TF-IDF=TF×IDF计算TF-IDF值,去除TF-IDF值低于预设TF-IDF阈值的关键词,得到对应的关键词集。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有主题分类器训练程序,所述主题分类器训练程序被处理器执行时实现如上所述的主题分类器的训练方法的步骤。
其中,在所述处理器上运行的主题分类器训练程序被执行时所实现的方法可参照本发明主题分类器的训练方法的各个实施例,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种主题分类器的训练方法,其特征在于,所述主题分类器的训练方法包括以下步骤:
获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的;
利用预设算法分别提取训练样本和测试样本的特征,并根据所述训练样本的特征,通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型;
根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征ROC曲线,并根据ROC曲线下面积AUC对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器。
2.如权利要求1所述的主题分类器的训练方法,其特征在于,所述获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的,包括:
采集文本数据,并对所述文本数据进行预处理,获得对应的第一关键词集;
根据所述第一关键词集和预设数量的话题,利用预设主题模型计算得到所述文本数据在所述话题上的分布,并根据所述文本数据在所述话题上的分布情况进行聚类,训练出所述文本数据对应的话题模型;
根据所述话题模型对所述文本数据的人工标注结果,从所述文本数据中筛选出与目标主题分类器对应的训练样本,并将所述文本数据中除所述训练样本之外的文本数据作为测试样本。
3.如权利要求2所述的主题分类器的训练方法,其特征在于,所述利用预设算法分别提取训练样本和测试样本的特征,并根据所述训练样本的特征,通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型,包括:
利用预设算法分别提取训练样本和测试样本的特征,对应建立第一哈希散列表和第二哈希散列表;
将所述第一哈希散列表代入逻辑回归模型,并通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型。
4.如权利要求3所述的主题分类器的训练方法,其特征在于,所述根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征ROC曲线,并根据ROC曲线下面积AUC对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器,包括:
将所述第二哈希散列表代入所述含最优模型参数的逻辑回归模型,得到真阳性TP,真阴性TN,伪阴性FN和伪阳性FP;
根据所述TP,TN,FN和FP绘制ROC曲线;
计算ROC曲线下面积AUC,根据AUC值对所述含最优模型参数的逻辑回归模型进行评价;
当所述AUC值小于或等于预设AUC阈值时,则判定所述含最优模型参数的逻辑回归模型不符合要求,并返回步骤:通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型;
当所述AUC值大于所述预设AUC阈值时,则判定所述含最优模型参数的逻辑回归模型符合要求,训练出第一主题分类器。
5.如权利要求4所述的主题分类器的训练方法,其特征在于,所述根据所述TP,TN,FN和FP绘制ROC曲线,包括:
根据所述TP,TN,FN和FP计算出伪阳性率FPR和真阳性率TPR,对应的计算公式分别为FPR=FP/(FP+TN),TPR=TP/(TP+FN);
以所述FPR为横坐标,所述TPR为纵坐标,绘制ROC曲线。
6.如权利要求4所述的主题分类器的训练方法,其特征在于,所述主题分类器的训练方法还包括:
将所述第二哈希散列表代入所述第一主题分类器,得到所述测试样本属于对应话题的概率;
调整所述预设AUC阈值,并根据所述TP,FP和FN计算准确率p和召回率r;
当所述p小于或等于预设p阈值,或所述r小于或等于预设r阈值时,则返回步骤:调整所述预设AUC阈值,直至所述p大于所述预设p阈值,且所述r大于所述预设r阈值时,训练出第二主题分类器;
利用所述第二主题分类器对所述文本数据进行分类。
7.如权利要求2所述的主题分类器的训练方法,其特征在于,所述采集文本数据,并对所述文本数据进行预处理,获得对应的第一关键词集,包括:
采集文本数据,并对所述文本数据进行分词;
根据预设停用词表去除分词后的文本数据中的停用词,得到第二关键词集;
计算所述第二关键词集中各关键词的词频-逆向文件频率TF-IDF值,并去除TF-IDF值低于预设TF-IDF阈值的关键词,得到对应的第一关键词集。
8.如权利要求7所述的主题分类器的训练方法,其特征在于,所述计算所述第二关键词集中各关键词的词频-逆向文件频率TF-IDF值,并去除TF-IDF值低于预设TF-IDF阈值的关键词,得到对应的第一关键词集,包括:
计算所述第二关键词集中各关键词的词频TF和逆向文件频率IDF;
根据所述TF和IDF计算所述第二关键词集中各关键词的词频-逆向文件频率TF-IDF值,并去除TF-IDF值低于预设TF-IDF阈值的关键词,得到对应的第一关键词集。
9.一种主题分类器的训练装置,其特征在于,所述主题分类器的训练装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的主题分类器训练程序,所述主题分类器训练程序被所述处理器执行时实现如权利要求1至8中任一项所述的主题分类器的训练方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有主题分类器训练程序,所述主题分类程序被处理器执行时实现如权利要求1至8中任一项所述的主题分类器的训练方法的步骤。
CN201710741128.7A 2017-08-25 2017-08-25 主题分类器的训练方法、装置及计算机可读存储介质 Active CN107704495B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201710741128.7A CN107704495B (zh) 2017-08-25 2017-08-25 主题分类器的训练方法、装置及计算机可读存储介质
JP2018564802A JP6764488B2 (ja) 2017-08-25 2017-09-28 主題分類器の訓練方法、装置及びコンピュータ読み取り可能な記憶媒体
US16/314,398 US20200175397A1 (en) 2017-08-25 2017-09-28 Method and device for training a topic classifier, and computer-readable storage medium
PCT/CN2017/104106 WO2019037197A1 (zh) 2017-08-25 2017-09-28 主题分类器的训练方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710741128.7A CN107704495B (zh) 2017-08-25 2017-08-25 主题分类器的训练方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN107704495A true CN107704495A (zh) 2018-02-16
CN107704495B CN107704495B (zh) 2018-08-10

Family

ID=61171128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710741128.7A Active CN107704495B (zh) 2017-08-25 2017-08-25 主题分类器的训练方法、装置及计算机可读存储介质

Country Status (4)

Country Link
US (1) US20200175397A1 (zh)
JP (1) JP6764488B2 (zh)
CN (1) CN107704495B (zh)
WO (1) WO2019037197A1 (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019037197A1 (zh) * 2017-08-25 2019-02-28 平安科技(深圳)有限公司 主题分类器的训练方法、装置及计算机可读存储介质
CN109815991A (zh) * 2018-12-29 2019-05-28 北京城市网邻信息技术有限公司 机器学习模型的训练方法、装置、电子设备及存储介质
CN110334728A (zh) * 2019-05-06 2019-10-15 中国联合网络通信集团有限公司 一种面向工业互联网的故障预警方法及装置
CN110414627A (zh) * 2019-08-07 2019-11-05 北京嘉和海森健康科技有限公司 一种模型的训练方法及相关设备
CN110428015A (zh) * 2019-08-07 2019-11-08 北京嘉和海森健康科技有限公司 一种模型的训练方法及相关设备
CN110719272A (zh) * 2019-09-27 2020-01-21 湖南大学 一种基于lr算法的慢速拒绝服务攻击检测方法
CN110728315A (zh) * 2019-09-30 2020-01-24 复旦大学附属中山医院 一种实时质量控制方法,系统和设备
CN111090746A (zh) * 2019-11-29 2020-05-01 北京明略软件系统有限公司 确定最佳主题数量的方法、情感分类器的训练方法和装置
CN111401962A (zh) * 2020-03-20 2020-07-10 上海络昕信息科技有限公司 一种关键意见消费者挖掘方法、装置、设备以及介质
CN112424703A (zh) * 2018-07-19 2021-02-26 国际商业机器公司 以未知的倾斜执行销孔任务
CN112507170A (zh) * 2020-12-01 2021-03-16 平安医疗健康管理股份有限公司 基于智能决策的数据资产目录构建方法、及其相关设备
CN112750530A (zh) * 2021-01-05 2021-05-04 上海梅斯医药科技有限公司 一种模型的训练方法、终端设备和存储介质
CN112968872A (zh) * 2021-01-29 2021-06-15 成都信息工程大学 基于自然语言处理的恶意流量检测方法、系统、终端
CN113222650A (zh) * 2021-04-29 2021-08-06 西安点告网络科技有限公司 广告投放模型的训练特征选取方法、系统、设备及介质
CN113614758A (zh) * 2020-01-22 2021-11-05 京东方科技集团股份有限公司 设备指标优良性等级预测模型训练方法、监控系统和方法

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797990B (zh) * 2019-04-08 2024-08-09 北京百度网讯科技有限公司 机器学习模型的训练方法、训练装置和训练系统
CN112541776B (zh) * 2019-09-20 2024-08-16 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及存储介质
CN111242170B (zh) * 2019-12-31 2023-07-25 航天信息股份有限公司 食品检验检测项目预知方法及装置
JP6884436B1 (ja) * 2020-01-16 2021-06-09 株式会社テンクー 文書表示支援システム及び文書表示支援方法並びに該方法を実行するためのプログラム
CN111522750B (zh) * 2020-04-27 2024-03-22 中国银行股份有限公司 一种功能测试问题的处理方法及系统
CN111695820B (zh) * 2020-06-16 2023-04-18 深圳市城市公共安全技术研究院有限公司 工程车辆电子联单管理方法、装置、终端及存储介质
CN111708810B (zh) * 2020-06-17 2022-05-27 北京世纪好未来教育科技有限公司 模型优化推荐方法、装置和计算机存储介质
CN111814868A (zh) * 2020-07-03 2020-10-23 苏州动影信息科技有限公司 一种基于影像组学特征选择的模型、构建方法和应用
CN112507792B (zh) * 2020-11-04 2024-01-23 华中师范大学 在线视频关键帧定位方法、定位系统、设备及存储介质
CN114550921A (zh) * 2020-11-26 2022-05-27 华瑞同康生物技术(深圳)有限公司 一种基于li-rads分级的患病风险预测建模方法
CN112734568B (zh) * 2021-01-29 2024-01-12 深圳前海微众银行股份有限公司 信用评分卡模型构建方法、装置、设备及可读存储介质
CN113705247B (zh) * 2021-10-27 2022-02-11 腾讯科技(深圳)有限公司 主题模型效果评估方法、装置、设备、存储介质和产品
CN114121204A (zh) * 2021-12-09 2022-03-01 上海森亿医疗科技有限公司 基于患者主索引的患者记录匹配方法、存储介质及设备
CN114241603B (zh) * 2021-12-17 2022-08-26 中南民族大学 基于可穿戴设备的毽球动作识别与水平等级评估方法及系统
CN118172225B (zh) * 2024-05-16 2024-07-23 蓝象智联(杭州)科技有限公司 逻辑回归模型的水印嵌入方法、训练方法、验证方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090157584A1 (en) * 2005-09-02 2009-06-18 Guang-Zhong Yang Feature selection
CN104504583A (zh) * 2014-12-22 2015-04-08 广州唯品会网络技术有限公司 分类器的评价方法
CN105930411A (zh) * 2016-04-18 2016-09-07 苏州大学 一种分类器训练方法、分类器和情感分类系统
CN106021410A (zh) * 2016-05-12 2016-10-12 中国科学院软件研究所 一种基于机器学习的源代码注释质量评估方法
CN106650780A (zh) * 2016-10-18 2017-05-10 腾讯科技(深圳)有限公司 数据处理方法及装置、分类器训练方法及系统
CN107045506A (zh) * 2016-02-05 2017-08-15 阿里巴巴集团控股有限公司 评估指标获取方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7415445B2 (en) * 2002-09-24 2008-08-19 Hewlett-Packard Development Company, L.P. Feature selection for two-class classification systems
JP4808160B2 (ja) * 2003-11-21 2011-11-02 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー トピック特異的言語モデルおよびトピック特異的ラベル統計によるユーザー対話を用いたテキストセグメント分割およびラベル付与
US20120284212A1 (en) * 2011-05-04 2012-11-08 Google Inc. Predictive Analytical Modeling Accuracy Assessment
US20150324459A1 (en) * 2014-05-09 2015-11-12 Chegg, Inc. Method and apparatus to build a common classification system across multiple content entities
JP6882776B2 (ja) * 2015-11-12 2021-06-02 国立大学法人九州大学 うつ病診断用バイオマーカー及びその使用
CN106600455A (zh) * 2016-11-25 2017-04-26 国网河南省电力公司电力科学研究院 一种基于逻辑回归的电费敏感度评估方法
CN107704495B (zh) * 2017-08-25 2018-08-10 平安科技(深圳)有限公司 主题分类器的训练方法、装置及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090157584A1 (en) * 2005-09-02 2009-06-18 Guang-Zhong Yang Feature selection
CN104504583A (zh) * 2014-12-22 2015-04-08 广州唯品会网络技术有限公司 分类器的评价方法
CN107045506A (zh) * 2016-02-05 2017-08-15 阿里巴巴集团控股有限公司 评估指标获取方法及装置
CN105930411A (zh) * 2016-04-18 2016-09-07 苏州大学 一种分类器训练方法、分类器和情感分类系统
CN106021410A (zh) * 2016-05-12 2016-10-12 中国科学院软件研究所 一种基于机器学习的源代码注释质量评估方法
CN106650780A (zh) * 2016-10-18 2017-05-10 腾讯科技(深圳)有限公司 数据处理方法及装置、分类器训练方法及系统

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019037197A1 (zh) * 2017-08-25 2019-02-28 平安科技(深圳)有限公司 主题分类器的训练方法、装置及计算机可读存储介质
CN112424703A (zh) * 2018-07-19 2021-02-26 国际商业机器公司 以未知的倾斜执行销孔任务
CN109815991A (zh) * 2018-12-29 2019-05-28 北京城市网邻信息技术有限公司 机器学习模型的训练方法、装置、电子设备及存储介质
CN109815991B (zh) * 2018-12-29 2021-02-19 北京城市网邻信息技术有限公司 机器学习模型的训练方法、装置、电子设备及存储介质
CN110334728A (zh) * 2019-05-06 2019-10-15 中国联合网络通信集团有限公司 一种面向工业互联网的故障预警方法及装置
CN110414627A (zh) * 2019-08-07 2019-11-05 北京嘉和海森健康科技有限公司 一种模型的训练方法及相关设备
CN110428015A (zh) * 2019-08-07 2019-11-08 北京嘉和海森健康科技有限公司 一种模型的训练方法及相关设备
CN110719272A (zh) * 2019-09-27 2020-01-21 湖南大学 一种基于lr算法的慢速拒绝服务攻击检测方法
CN110728315A (zh) * 2019-09-30 2020-01-24 复旦大学附属中山医院 一种实时质量控制方法,系统和设备
CN110728315B (zh) * 2019-09-30 2023-09-15 复旦大学附属中山医院 一种实时质量控制方法,系统和设备
CN111090746A (zh) * 2019-11-29 2020-05-01 北京明略软件系统有限公司 确定最佳主题数量的方法、情感分类器的训练方法和装置
CN111090746B (zh) * 2019-11-29 2023-04-28 北京明略软件系统有限公司 确定最佳主题数量的方法、情感分类器的训练方法和装置
CN113614758A (zh) * 2020-01-22 2021-11-05 京东方科技集团股份有限公司 设备指标优良性等级预测模型训练方法、监控系统和方法
CN111401962A (zh) * 2020-03-20 2020-07-10 上海络昕信息科技有限公司 一种关键意见消费者挖掘方法、装置、设备以及介质
CN112507170A (zh) * 2020-12-01 2021-03-16 平安医疗健康管理股份有限公司 基于智能决策的数据资产目录构建方法、及其相关设备
CN112750530A (zh) * 2021-01-05 2021-05-04 上海梅斯医药科技有限公司 一种模型的训练方法、终端设备和存储介质
CN112968872A (zh) * 2021-01-29 2021-06-15 成都信息工程大学 基于自然语言处理的恶意流量检测方法、系统、终端
CN113222650A (zh) * 2021-04-29 2021-08-06 西安点告网络科技有限公司 广告投放模型的训练特征选取方法、系统、设备及介质
CN113222650B (zh) * 2021-04-29 2023-11-14 西安点告网络科技有限公司 广告投放模型的训练特征选取方法、系统、设备及介质

Also Published As

Publication number Publication date
JP2019535047A (ja) 2019-12-05
JP6764488B2 (ja) 2020-09-30
CN107704495B (zh) 2018-08-10
WO2019037197A1 (zh) 2019-02-28
US20200175397A1 (en) 2020-06-04

Similar Documents

Publication Publication Date Title
CN107704495B (zh) 主题分类器的训练方法、装置及计算机可读存储介质
CN107391760B (zh) 用户兴趣识别方法、装置及计算机可读存储介质
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN113094552A (zh) 视频模板的搜索方法、装置、服务器及可读存储介质
CN110222178A (zh) 文本情感分类方法、装置、电子设备及可读存储介质
US20060218192A1 (en) Method and System for Providing Information Services Related to Multimodal Inputs
CN109471945A (zh) 基于深度学习的医疗文本分类方法、装置及存储介质
CN111475613A (zh) 案件分类方法、装置、计算机设备及存储介质
CN111539212A (zh) 文本信息处理方法、装置、存储介质及电子设备
CN108052505A (zh) 文本情感分析方法及装置、存储介质、终端
CN109299277A (zh) 舆情分析方法、服务器及计算机可读存储介质
US20110093264A1 (en) Providing Information Services Related to Multimodal Inputs
CN114722937B (zh) 一种异常数据检测方法、装置、电子设备和存储介质
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
Sheshikala et al. Natural language processing and machine learning classifier used for detecting the author of the sentence
CN110287311A (zh) 文本分类方法及装置、存储介质、计算机设备
CN109858034A (zh) 一种基于注意力模型和情感词典的文本情感分类方法
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN112732974A (zh) 一种数据处理方法、电子设备及存储介质
CN110717407A (zh) 基于唇语密码的人脸识别方法、装置及存储介质
CN111783427B (zh) 用于训练模型与输出信息的方法、装置、设备及存储介质
CN110688540B (zh) 一种作弊账户筛选方法、装置、设备及介质
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
CN108733672B (zh) 实现网络信息质量评估的方法和系统
CN110198291B (zh) 一种网页后门检测方法、装置、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1244901

Country of ref document: HK