CN114385808A - 文本分类模型构建方法与文本分类方法 - Google Patents
文本分类模型构建方法与文本分类方法 Download PDFInfo
- Publication number
- CN114385808A CN114385808A CN202011108827.6A CN202011108827A CN114385808A CN 114385808 A CN114385808 A CN 114385808A CN 202011108827 A CN202011108827 A CN 202011108827A CN 114385808 A CN114385808 A CN 114385808A
- Authority
- CN
- China
- Prior art keywords
- sample
- model layer
- text data
- logistic regression
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种文本分类模型构建方法与文本分类方法。所述方法包括:获取携带类别标签的样本文本数据以及初始文本分类模型,初始文本分类模型包括Doc2vec模型层和逻辑回归模型层;根据样本文本数据训练Doc2vec模型层,得到与样本文本数据中各样本句对应的样本句子向量;根据类别标签和样本句子向量,训练逻辑回归模型层,得到稳定的Doc2vec模型层和逻辑回归模型层;根据稳定的Doc2vec模型层和逻辑回归模型层,得到文本分类模型。采用本方法能够得到可用于实现准确文本分类的文本分类模型,从而可以利用该文本分类模型进行文本挖掘,提高问题挖掘效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本分类模型构建方法与文本分类方法。
背景技术
在企业管理中,企业可通过问题挖掘的方式来改善制度标准等,即可通过挖掘员工通过内部平台所反馈的自己对公司流程、制度、奖惩等方面的看法和建议,来发现公司存在的一些问题,以便有针对性的进行改善。
传统技术中,在进行问题挖掘时,常采用的方式为搜集员工通过内部平台所反馈的反馈数据,管理人员通过操作终端对反馈数据进行分类与分析,得到问题挖掘结果,根据问题挖掘结果将问题转到相应部门进行处理。
然而,目前的问题挖掘方式,由于操作繁琐且分类与分析时消耗大量人力与时间,存在问题挖掘效率低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高问题挖掘效率的文本分类模型构建方法与文本分类方法。
一种文本分类模型构建方法,所述方法包括:
获取携带类别标签的样本文本数据以及初始文本分类模型,初始文本分类模型包括Doc2vec模型层和逻辑回归模型层;
根据样本文本数据训练Doc2vec模型层,得到与样本文本数据中各样本句对应的样本句子向量;
根据类别标签和样本句子向量,训练逻辑回归模型层,得到稳定的Doc2vec模型层和逻辑回归模型层;
根据稳定的Doc2vec模型层和逻辑回归模型层,得到文本分类模型。
在一个实施例中,获取携带类别标签的样本文本数据包括:
获取携带初始类别标签的样本文本数据;
对样本文本数据中各样本句进行分词处理,得到与各样本句对应的样本关键词;
推送样本关键词以及携带初始类别标签的样本文本数据;
接收用户根据样本关键词反馈的标签判定信息;
根据标签判定信息更新样本文本数据的初始类别标签,得到携带类别标签的样本文本数据。
在一个实施例中,对样本文本数据中各样本句进行分词处理,得到与各样本句对应的样本关键词包括:
对样本文本数据中各样本句进行分词处理,得到与样本文本数据对应的第一分词数据;
根据预设停用词表对第一分词数据进行筛选,得到与样本文本数据对应的第二分词数据;
对第二分词数据中各词语进行词频统计,得到与各样本句对应的样本关键词。
在一个实施例中,根据样本文本数据训练Doc2vec模型层,得到与样本文本数据中各样本句对应的样本句子向量包括:
通过Doc2vec模型层的预设特征向量维度、预设滑动窗口大小、预设词频下限以及预设训练并行数,训练样本文本数据中各样本句,得到各样本句对应的样本句子向量。
在一个实施例中,根据类别标签和样本句子向量,训练逻辑回归模型层,得到稳定的Doc2vec模型层和逻辑回归模型层包括:
根据样本句子向量,得到样本向量矩阵;
将样本向量矩阵输入逻辑回归模型层,得到与样本向量矩阵中各样本句子向量对应的预测类别;
比对类别标签和预测类别,得到模型准确率;
当模型准确率小于预设准确率阈值时,调整逻辑回归模型层的模型参数,返回将样本向量矩阵输入逻辑回归模型层的步骤,直到模型准确率大于或者等于预设准确率阈值,得到稳定的Doc2vec模型层和逻辑回归模型层。
在一个实施例中,根据类别标签和样本句子向量,训练逻辑回归模型层,得到稳定的Doc2vec模型层和逻辑回归模型层包括:
根据样本句子向量,得到样本向量矩阵;
将样本向量矩阵输入逻辑回归模型层,得到与样本向量矩阵中各样本句子向量对应的预测类别;
比对类别标签和预测类别,得到模型准确率;
当模型准确率小于预设准确率阈值时,调整Doc2vec模型层和逻辑回归模型层的模型参数,返回根据样本文本数据训练Doc2vec模型层的步骤,直到模型准确率大于或者等于预设准确率阈值,得到稳定的Doc2vec模型层和逻辑回归模型层。
一种文本分类方法,所述方法包括:
获取待处理文本数据;
将待处理文本数据输入已训练的文本分类模型,得到与待处理文本数据对应的文本分类结果,已训练的文本分类模型根据上述文本分类模型构建方法构建;
根据文本分类结果推送待处理文本数据。
在一个实施例中,根据文本分类结果推送待处理文本数据之后,还包括:
对待处理文本数据中各句子进行分词处理,得到与各句子对应的目标关键词;
推送目标关键词以及携带文本分类结果的待处理文本数据;
接收用户根据目标关键词反馈的类别判定信息;
根据类别判定信息更新待处理文本数据的文本分类结果;
根据更新后的携带文本分类结果的待处理文本数据,更新预设样本文本数据。
一种文本分类模型构建装置,所述装置包括:
数据获取模块,用于获取携带类别标签的样本文本数据以及初始文本分类模型,初始文本分类模型包括Doc2vec模型层和逻辑回归模型层;
第一训练模块,用于根据样本文本数据训练Doc2vec模型层,得到与样本文本数据中各样本句对应的样本句子向量;
第二训练模块,用于根据类别标签和样本句子向量,训练逻辑回归模型层,得到稳定的Doc2vec模型层和逻辑回归模型层;
处理模块,用于根据稳定的Doc2vec模型层和逻辑回归模型层,得到文本分类模型。
一种文本分类装置,所述装置包括:
数据获取模块,用于获取待处理文本数据;
分类模块,用于将待处理文本数据输入已训练的文本分类模型,得到与待处理文本数据对应的文本分类结果,已训练的文本分类模型根据上述文本分类模型构建方法构建;
推送模块,用于根据文本分类结果推送待处理文本数据。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取携带类别标签的样本文本数据以及初始文本分类模型,初始文本分类模型包括Doc2vec模型层和逻辑回归模型层;
根据样本文本数据训练Doc2vec模型层,得到与样本文本数据中各样本句对应的样本句子向量;
根据类别标签和样本句子向量,训练逻辑回归模型层,得到稳定的Doc2vec模型层和逻辑回归模型层;
根据稳定的Doc2vec模型层和逻辑回归模型层,得到文本分类模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待处理文本数据;
将待处理文本数据输入已训练的文本分类模型,得到与待处理文本数据对应的文本分类结果,已训练的文本分类模型根据上述文本分类模型构建方法构建;
根据文本分类结果推送待处理文本数据。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取携带类别标签的样本文本数据以及初始文本分类模型,初始文本分类模型包括Doc2vec模型层和逻辑回归模型层;
根据样本文本数据训练Doc2vec模型层,得到与样本文本数据中各样本句对应的样本句子向量;
根据类别标签和样本句子向量,训练逻辑回归模型层,得到稳定的Doc2vec模型层和逻辑回归模型层;
根据稳定的Doc2vec模型层和逻辑回归模型层,得到文本分类模型。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待处理文本数据;
将待处理文本数据输入已训练的文本分类模型,得到与待处理文本数据对应的文本分类结果,已训练的文本分类模型根据上述文本分类模型构建方法构建;
根据文本分类结果推送待处理文本数据。
上述文本分类模型构建方法,通过在获取到携带类别标签的样本文本数据后,利用样本文本数据对Doc2vec模型层进行训练,可以得到与各样本句对应的样本句子向量,进而可以根据样本句子向量和类别标签对逻辑回归模型层进行训练,调整逻辑回归模型层和Doc2vec模型层的模型参数,得到稳定的Doc2vec模型层和逻辑回归模型层,根据稳定的Doc2vec模型层和逻辑回归模型层,能够得到可用于实现准确文本分类的文本分类模型,从而可以利用该文本分类模型进行文本挖掘,提高问题挖掘效率。上述文本分类方法,通过在获取到待处理文本数据后,直接利用已训练的文本分类模型对待处理文本数据进行分类,得到文本分类结果,根据文本分类结果推送待处理文本数据,能够利用文本分类模型实现文本挖掘,提高问题挖掘效率。
附图说明
图1为一个实施例中文本分类模型构建方法的流程示意图;
图2为一个实施例中文本分类方法的流程示意图;
图3为一个实施例中文本分类模型构建方法与文本分类方法的应用场景图;
图4为一个实施例中文本分类模型构建装置的结构框图;
图5为一个实施例中文本分类装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种文本分类模型构建方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤102,获取携带类别标签的样本文本数据以及初始文本分类模型,初始文本分类模型包括Doc2vec模型层和逻辑回归模型层。
其中,样本文本数据是指已确定文本类别的文本数据。类别标签用于表征样本文本数据的文本类别。比如,文本类别具体可以为薪资、补贴、困难求助、车辆管理、问题快递件等。举例说明,当文本分类为针对问题快递件的二分类时,可以用数字标签1表示正样本,用数字标签0表示负样本。Doc2vec又叫Paragraph Vector(段落向量),是基于word2vec模型提出的,可以接受不同长度的句子做训练样本。Doc2vec模型层采用的是无监督学习算法,该算法用于预测一个向量来表示不同的文本。逻辑回归模型是线性模型Y=WX+b的推广,与线性模型不同的是,逻辑回归模型中的Y是经过sigmoid(S形)函数映射处理的。
具体的,在构建文本分类模型时,终端会先获取携带初始类别标签的样本文本数据以及初始文本分类模型,再通过对携带初始类别标签的样本文本数据进行类别标签更新,得到携带类别标签的样本文本数据。其中,初始类别标签是指对样本文本数据进行初次文本分类所标注的标签。当存在携带初始类别标签的样本音频数据时,可通过对样本音频数据进行文本转化的方式,扩充携带初始类别标签的样本文本数据,在本实施例中不限定进行文本转化的方式。样本音频数据是指已确定类别的音频数据。比如,样本音频数据具体可以是指搜集得到的员工通过内部平台所反馈的音频数据。
步骤104,根据样本文本数据训练Doc2vec模型层,得到与样本文本数据中各样本句对应的样本句子向量。
其中,样本句子向量是指Doc2vec模型层输出的,用于表征样本句的向量。
具体的,终端会根据样本文本数据对Doc2vec模型层进行训练,使得Doc2vec模型层输出与样本文本数据中各样本句对应的样本句子向量。
步骤106,根据类别标签和样本句子向量,训练逻辑回归模型层,得到稳定的Doc2vec模型层和逻辑回归模型层。
其中,稳定的Doc2vec模型层和逻辑回归模型层是指模型参数稳定不变化的Doc2vec模型层和逻辑回归模型层。
具体的,终端会先根据样本句子向量,得到样本向量矩阵,将样本向量矩阵输入逻辑回归模型层,根据逻辑回归模型层输出的预测类别和样本向量矩阵中各样本句子向量对应的类别标签,对逻辑回归模型层和Doc2vec模型层的模型参数进行调整,得到稳定的Doc2vec模型层和逻辑回归模型层。其中,对逻辑回归模型层和Doc2vec模型层的模型参数进行调整的方式可以为:一是仅对逻辑回归模型层的模型参数进行调整;二是仅对Doc2vec模型层的模型参数进行调整;三是同时对逻辑回归模型层和Doc2vec模型层的模型参数进行调整,本实施例在此处不做限定。对逻辑回归模型层和Doc2vec模型层的模型参数进行调整即是指对逻辑回归模型层和Doc2vec模型层的模型参数进行超参搜索,获得不同参数组合下的准确率及召回率表现,以准确率及召回率为参数调整指标,确定调整后的参数。
步骤108,根据稳定的Doc2vec模型层和逻辑回归模型层,得到文本分类模型。
具体的,由于文本分类模型是由Doc2vec模型层和逻辑回归模型层组成的,在得到稳定的Doc2vec模型层和逻辑回归模型层后,终端就可以直接根据稳定的Doc2vec模型层和逻辑回归模型层,得到文本分类模型。当有新的待处理文本数据到来时,终端通过将待处理文本数据输入文本分类模型,就可以得到对应的文本分类结果。
上述文本分类模型构建方法,通过在获取到携带类别标签的样本文本数据后,利用样本文本数据对Doc2vec模型层进行训练,可以得到与各样本句对应的样本句子向量,进而可以根据样本句子向量和类别标签对逻辑回归模型层进行训练,调整逻辑回归模型层和Doc2vec模型层的模型参数,得到稳定的Doc2vec模型层和逻辑回归模型层,根据稳定的Doc2vec模型层和逻辑回归模型层,能够得到可用于实现准确文本分类的文本分类模型,从而可以利用该文本分类模型进行文本挖掘,提高问题挖掘效率。在一个实施例中,获取携带类别标签的样本文本数据包括:
获取携带初始类别标签的样本文本数据;
对样本文本数据中各样本句进行分词处理,得到与各样本句对应的样本关键词;
推送样本关键词以及携带初始类别标签的样本文本数据;
接收用户根据样本关键词反馈的标签判定信息;
根据标签判定信息更新样本文本数据的初始类别标签,得到携带类别标签的样本文本数据。
其中,初始类别标签是指初始未修正的、根据历史数据确定的样本文本数据的类别标签。比如,当样本文本数据为已人工处理的问题时,初始类别标签具体可以是指针对已人工处理的问题通过历史埋点数据记录打上的类别标签。样本关键词是指经过分词处理后,统计出的能表征各分类类别的特征的词语。比如,样本关键词具体可以是指在分词后,通过TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文本频率指数)算法确定的各分类类别中重要性高的词语。标签判定信息是指用户根据样本关键词反馈的样本文本数据的类别信息。比如,标签判定信息具体可以是标签正确,则表示初始类别标签是正确的,不需要进行修改。又比如,标签判定信息具体可以是具体任一类别信息,则表示初始类别标签是错误的,需要对初始类别标签进行修正。类别标签是指根据标签判定信息对初始类别标签进行更新后得到的样本文本数据的标签。
具体的,终端会获取携带初始类别标签的样本文本数据,对样本文本数据中各样本句进行分词处理,得到样本文本数据的分词集合,通过对分词集合进行停用词筛选和利用TF-IDF算法对词语进行排序,确定各分类类别的样本关键词集合,根据样本关键词集合,得到与各样本句对应的样本关键词。在得到样本关键词后,终端会推送样本关键词以及携带初始类别标签的样本文本数据至用户端,以使用户可以根据样本关键词判断样本文本数据的初始类别标签是否正确,接收用户根据样本关键词反馈的标签判定信息,根据标签判定信息更新样本文本数据的初始类别标签,得到携带类别标签的样本文本数据。其中,根据标签判定信息更新样本文本数据的初始类别标签包括:当标签判定信息为标签正确时,不对初始类别标签进行修改;当标签判定信息是具体任一类别信息时,根据具体任一类别信息对初始类别标签进行修改。
举例说明,对于二分类且分类类别为是否为问题快递件的情况,损坏、遗失、赔偿、定责等词语因为在此类别中出现频率较高,会被认定为样本关键词,终端会根据这些样本关键词,遍历各样本句,确定与各样本句对应的样本关键词,再推送样本关键词以及携带初始类别标签的样本文本数据。若初始类别标签不为问题快递件,用户根据样本关键词可反馈标签判定信息为问题快递件,终端就会根据标签判定信息更新样本文本数据的初始类别标签,确定类别标签为问题快递件。若初始类别标签为问题快递件,用户根据样本关键词可反馈标签判定信息为标签正确,此时终端可确定初始类别标签即为类别标签。
本实施例中,通过对样本文本数据进行分词处理以及推送,能够使得用户根据样本关键词反馈样本文本数据的标签判定信息,根据标签判定信息实现对样本文本数据的初始类别标签的更新,能够得到准确的样本文本数据的类别标签。
在一个实施例中,对样本文本数据中各样本句进行分词处理,得到与各样本句对应的样本关键词包括:
对样本文本数据中各样本句进行分词处理,得到与样本文本数据对应的第一分词数据;
根据预设停用词表对第一分词数据进行筛选,得到与样本文本数据对应的第二分词数据;
对第二分词数据中各词语进行词频统计,得到与各样本句对应的样本关键词。
其中,预设停用词表是指预先设置的包括需要被筛除掉的停用词的词典。停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉的某些字或词。
具体的,终端会对样本文本数据中各样本句进行分词处理,得到与样本文本数据对应的第一分词数据,再根据预设停用词表对第一分词数据进行筛选,筛除其中的停用词,得到与样本文本数据对应的第二分词数据,最后对第二分词数据中各词语进行词频统计,得到与各分类类别对应的样本关键词集合,根据样本关键词集合,确定与各样本句对应的样本关键词。其中,对第二分词数据中各词语进行词频统计,得到与各分类类别对应的样本关键词集合的方式可以为利用TF-IDF算法对第二分词数据中各词语进行排序,确定各分类类别的样本关键词集合。
本实施例中,通过在对样本文本数据中各样本句进行分词处理后,进一步通过预设停用词表对其进行筛选以及进行词频统计,能够实现对与各样本句对应的样本关键词的获取。
在一个实施例中,根据样本文本数据训练Doc2vec模型层,得到与样本文本数据中各样本句对应的样本句子向量包括:
通过Doc2vec模型层的预设特征向量维度、预设滑动窗口大小、预设词频下限以及预设训练并行数,训练样本文本数据中各样本句,得到各样本句对应的样本句子向量。
其中,预设特征向量维度是指Doc2vec模型层输出的用于标识样本句的样本句子向量的维度。预设滑动窗口大小是指在训练时进行滑动采样的窗口大小,预设词频下限是指词语出现频率的最低值限制,出现频率小于该最低值限制的词语将不会被向量化。预设训练并行数是指模型可同时进行的训练进程数量。在本实施例中,具体可以是指可同时训练的样本句数量。样本句子向量是指Doc2vec模型层输出的用于表征样本句的向量。
具体的,终端会通过Doc2vec模型层的预设特征向量维度、预设滑动窗口大小、预设词频下限以及预设训练并行数,训练样本文本数据中各样本句,得到与各样本句对应的样本词向量集合以及样本句子向量。其中,样本词向量集合是指样本句中符合词频要求的词语被向量化后组成的词向量集合。
进一步的,对Doc2vec模型层的训练原理进行说明,在Doc2vec模型中,每一个样本句都可以用唯一的向量来表示,样本句中符合词频要求的每一个词也用唯一的向量来表示。在训练Doc2vec模型时,终端每次会根据预设滑动窗口大小从样本句中滑动采样固定长度的词,取其中一个词作预测词,其他的作输入词。输入词对应的词向量和本句话对应的句子向量作为输入层的输入,将本句话的向量和本次采样的词向量相加求平均或者累加构成一个新的向量X,进而使用这个向量X预测此次窗口内的预测词(即预测句子中的下一个单词)。Doc2vec模型相对于word2vec模型不同之处在于,在输入层,增添了一个新句子向量,这个新句子向量可以被看作是另一个词向量,每次训练与word2vec模型相同,也是滑动截取句子中一部分词来训练,新句子向量在同一个句子的若干次训练中是共享的,所以同一句话会有多次训练,每次训练中输入都包含新句子向量。新句子向量可以被看作是句子的主旨,有了它,该句子的主旨每次都会被放入作为输入的一部分来训练。这样每次训练过程中,不光是训练了词,得到了词向量。同时随着一句话每次滑动取若干词训练的过程中,作为每次训练的输入层一部分的共享新句子向量,该向量表达的主旨会越来越准确。Doc2vec模型训练完以后,就会得到训练样本中所有的词向量和每句话对应的句子向量。
本实施例中,通过利用Doc2vec模型层的预设特征向量维度、预设滑动窗口大小、预设词频下限以及预设训练并行数,训练样本文本数据中各样本句,能够实现对各样本句对应的样本句子向量的获取。
在一个实施例中,根据类别标签和样本句子向量,训练逻辑回归模型层,得到稳定的Doc2vec模型层和逻辑回归模型层包括:
根据样本句子向量,得到样本向量矩阵;
将样本向量矩阵输入逻辑回归模型层,得到与样本向量矩阵中各样本句子向量对应的预测类别;
比对类别标签和预测类别,得到模型准确率;
当模型准确率小于预设准确率阈值时,调整逻辑回归模型层的模型参数,返回将样本向量矩阵输入逻辑回归模型层的步骤,直到模型准确率大于或者等于预设准确率阈值,得到稳定的Doc2vec模型层和逻辑回归模型层。
其中,模型准确率用于表征逻辑回归模型层的预测准确程度,可以通过比对各样本句子向量的类别标签和预测类别得到。比如,模型准确率具体可以是指预测类别正确的样本句子向量的数量与总样本句子向量的数量的比值。举例说明,当存在1000个样本句子向量,且其中850个样本句子向量的类别标签和预测类别相同时,可以得到模型准确率为85%。预设准确率阈值是指预先设置的准确率指标,可按照需要自行设置。
具体的,终端会先根据样本句子向量,得到样本向量矩阵,再将样本向量矩阵输入逻辑回归模型层,得到与样本向量矩阵中各样本句子向量对应的预测类别,再通过比对各样本句子向量对应的预测类别和类别标签,得到模型准确率,根据模型准确率判断逻辑回归模型层的模型参数是否符合要求。当模型准确率小于预设准确率阈值时,表示逻辑回归模型层的模型参数不符合要求,终端会调整逻辑回归模型层的模型参数,返回将样本向量矩阵输入逻辑回归模型层的步骤,重新计算调整模型参数后的模型准确率,若模型准确率还是小于预设准确率阈值,会再次调整逻辑回归模型层的模型参数,返回将样本向量矩阵输入逻辑回归模型层的步骤,直到模型准确率大于或者等于预设准确率阈值,得到稳定的Doc2vec模型层和逻辑回归模型层。
对逻辑回归模型层的训练进行举例说明,在训练逻辑回归模型时,每个样本句子向量都作为自变量x,多个自变量x组成样本向量矩阵X,每个样本句子向量的类别标签作为因变量y,多个因变量y组成Y向量,通过训练可以得到逻辑回归模型层的参数[W,b]。
本实施例中,通过将样本向量矩阵输入逻辑回归模型层,得到各样本句子向量对应的预测类别,比对类别标签和预测类别,根据比对结果调整逻辑回归模型层的模型参数,能够实现对逻辑回归模型层的模型参数的调整,得到稳定的Doc2vec模型层和逻辑回归模型层。
在一个实施例中,根据类别标签和样本句子向量,训练逻辑回归模型层,得到稳定的Doc2vec模型层和逻辑回归模型层包括:
根据样本句子向量,得到样本向量矩阵;
将样本向量矩阵输入逻辑回归模型层,得到与样本向量矩阵中各样本句子向量对应的预测类别;
比对类别标签和预测类别,得到模型准确率;
当模型准确率小于预设准确率阈值时,调整Doc2vec模型层和逻辑回归模型层的模型参数,返回根据样本文本数据训练Doc2vec模型层的步骤,直到模型准确率大于或者等于预设准确率阈值,得到稳定的Doc2vec模型层和逻辑回归模型层。
具体的,终端会先根据样本句子向量,得到样本向量矩阵,再将样本向量矩阵输入逻辑回归模型层,得到与样本向量矩阵中各样本句子向量对应的预测类别,再通过比对各样本句子向量对应的预测类别和类别标签,得到模型准确率,根据模型准确率判断逻辑回归模型层和Doc2vec模型层的模型参数是否符合要求。当模型准确率小于预设准确率阈值时,表示逻辑回归模型层和Doc2vec模型层的模型参数不符合要求,终端会调整逻辑回归模型层和Doc2vec模型层的模型参数,返回根据样本文本数据训练Doc2vec模型层的步骤,重新计算调整模型参数后的模型准确率,若模型准确率还是小于预设准确率阈值,会再次调整逻辑回归模型层和逻辑回归模型层的模型参数,返回根据样本文本数据训练Doc2vec模型层的步骤,直到模型准确率大于或者等于预设准确率阈值,得到稳定的Doc2vec模型层和逻辑回归模型层。进一步的,在调整逻辑回归模型层和Doc2vec模型层的模型参数时,也可以先尝试只调整Doc2vec模型层的模型参数,而不调整逻辑回归模型层的模型参数。
本实施例中,通过将样本向量矩阵输入逻辑回归模型层,得到各样本句子向量对应的预测类别,比对类别标签和预测类别,根据比对结果调整逻辑回归模型层和逻辑回归模型层的模型参数,能够实现对逻辑回归模型层和逻辑回归模型层的模型参数的调整,得到稳定的Doc2vec模型层和逻辑回归模型层。
在一个实施例中,如图2所示,提供了一种文本分类方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤202,获取待处理文本数据。
其中,待处理文本数据是指尚未确定类别的文本数据。比如,待处理文本数据具体可以是指搜集得到的员工通过内部平台所反馈的文本数据。
具体的,终端会获取待处理文本数据对其进行处理。进一步的,终端也可以通过先获取待处理音频数据,对待处理音频数据进行文本转换的方式,获取待处理文本数据。这里的待处理音频数据是指尚未确定类别的音频数据。比如,待处理音频数据具体可以是指搜集得到的员工通过内部平台所反馈的音频数据。
步骤204,将待处理文本数据输入已训练的文本分类模型,得到与待处理文本数据对应的文本分类结果,已训练的文本分类模型根据上述文本分类模型构建方法构建。
具体的,终端会将待处理文本数据输入已训练的文本分类模型,通过文本分类模型中的Doc2vec模型得到与待处理文本数据对应的向量,再将向量输入文本分类模型中的逻辑回归模型,得到与待处理文本数据对应的文本分类结果。
步骤206,根据文本分类结果推送待处理文本数据。
具体的,终端会根据文本分类结果对待处理文本数据进行推送,将待处理文本数据推送至与文本分类结果相对应的处理部门进行处理。
上述文本分类方法,通过在获取到待处理文本数据后,直接利用已训练的文本分类模型对待处理文本数据进行分类,得到文本分类结果,根据文本分类结果推送待处理文本数据,能够利用文本分类模型实现文本挖掘,提高问题挖掘效率。
在一个实施例中,根据文本分类结果推送待处理文本数据之后,还包括:
对待处理文本数据中各句子进行分词处理,得到与各句子对应的目标关键词;
推送目标关键词以及携带文本分类结果的待处理文本数据;
接收用户根据目标关键词反馈的类别判定信息;
根据类别判定信息更新待处理文本数据的文本分类结果;
根据更新后的携带文本分类结果的待处理文本数据,更新预设样本文本数据。
其中,目标关键词是指经过分词处理后,统计出的能表征各分类类别的特征的词语。比如,目标关键词具体可以是指在分词后,通过TF-IDF算法确定的各分类类别中重要性高的词语。类别判定信息是指用户根据目标关键词反馈的待处理文本数据的类别信息。比如,类别判定信息具体可以是标签正确,则表示文本分类结果是正确的,不需要进行修改。又比如,类别判定信息具体可以是具体任一类别信息,则表示文本分类结果是错误的,需要对其进行修正。
具体的,终端会对待处理文本数据中各句子进行分词处理,得到待处理文本数据的分词集合,通过对分词集合进行停用词筛选和词频统计,确定各分类类别的目标关键词集合,根据目标关键词集合,得到与各句子对应的目标关键词。在得到目标关键词后,终端会推送目标关键词以及携带文本分类结果的待处理文本数据至用户端,以使用户可以根据目标关键词判断待处理文本数据的文本分类结果是否正确,接收用户根据目标关键词反馈的类别判定信息,根据类别判定信息更新待处理文本数据的文本分类结果,根据更新后的携带文本分类结果的待处理文本数据,更新预设样本文本数据,以便利用预设样本文本数据对文本分类模型进行迭代更新,以提高文本分类模型的准确率。其中,根据类别判定信息更新待处理文本数据的文本分类结果包括:当类别判定信息为标签正确时,不对文本分类结果进行修改;当类别判定信息是具体任一类别信息时,根据具体任一类别信息对文本分类结果进行修改。
本实施例中,通过对待处理文本数据进行分词处理以及推送,能够使得用户根据目标关键词反馈待处理文本数据的类别判定信息,根据类别判定信息实现对待处理文本数据的文本分类结果的更新,从而可以根据更新后的携带文本分类结果的待处理文本数据,更新预设样本文本数据,以便利用预设样本文本数据实现对文本分类模型的迭代更新,以提高文本分类模型的准确率。
本申请还提供一种应用场景,如图3所示,该应用场景应用上述的文本分类模型构建方法与文本分类方法。具体地,该文本分类模型构建方法与文本分类方法在该应用场景的应用如下:
S1:通过声音搜集模块得到全渠道员工声音(包括待处理音频数据和携带初始类别标签的样本音频数据);
S2:分别对待处理音频数据和样本音频数据进行文本转换,得到待处理文本数据(即未标注声音文本)和携带初始类别标签的样本文本数据(已标注标签库),其中的携带初始类别标签的样本文本数据被作为训练测试集,用于对初始文本分类模型中的Doc2vec模型层和逻辑回归模型层进行训练,待处理文本数据被作为验证集,等待被预测。在获取到携带初始类别标签的样本文本数据后,对样本文本数据中各样本句进行分词处理,得到与各样本句对应的样本关键词,推送样本关键词以及携带初始类别标签的样本文本数据,接收用户根据样本关键词反馈的标签判定信息,根据标签判定信息更新样本文本数据的初始类别标签,得到携带类别标签的样本文本数据(即分词处理&词频分析)。
S3:在得到携带类别标签的样本文本数据后,根据样本文本数据训练Doc2vec模型层,得到与样本文本数据中各样本句对应的样本句子向量(即Doc2Vec PV-DM模型训练、行样本&目标变量向量化)。
S4:根据样本句子向量,得到样本向量矩阵,将样本向量矩阵输入逻辑回归模型层,得到与样本向量矩阵中各样本句子向量对应的预测类别,比对类别标签和预测类别,得到模型准确率,当模型准确率小于预设准确率阈值时,调整逻辑回归模型层和/或Doc2vec模型层的模型参数,再次计算模型准确率,直到模型准确率大于或者等于预设准确率阈值,得到稳定的Doc2vec模型层和逻辑回归模型层,根据稳定的Doc2vec模型层和逻辑回归模型层,得到文本分类模型(即Logistic Regression训练、准确率/召回率验证、模型调优)。
S5:将待处理文本数据输入已训练的文本分类模型,得到与待处理文本数据对应的文本分类结果,根据文本分类结果推送待处理文本数据至用户系统。
S6:对待处理文本数据中各句子进行分词处理,得到与各句子对应的目标关键词,推送目标关键词以及携带文本分类结果的待处理文本数据,接收用户根据目标关键词反馈的类别判定信息,根据类别判定信息更新待处理文本数据的文本分类结果,根据更新后的携带文本分类结果的待处理文本数据,更新预设样本文本数据。
应该理解的是,虽然图1-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种文本分类模型构建装置,包括:数据获取模块402、第一训练模块404、第二训练模块406和处理模块408,其中:
数据获取模块,用于获取携带类别标签的样本文本数据以及初始文本分类模型,初始文本分类模型包括Doc2vec模型层和逻辑回归模型层;
第一训练模块,用于根据样本文本数据训练Doc2vec模型层,得到与样本文本数据中各样本句对应的样本句子向量;
第二训练模块,用于根据类别标签和样本句子向量,训练逻辑回归模型层,得到稳定的Doc2vec模型层和逻辑回归模型层;
处理模块,用于根据稳定的Doc2vec模型层和逻辑回归模型层,得到文本分类模型。
上述文本分类模型构建装置,通过在获取到携带类别标签的样本文本数据后,利用样本文本数据对Doc2vec模型层进行训练,可以得到与各样本句对应的样本句子向量,进而可以根据样本句子向量和类别标签对逻辑回归模型层进行训练,调整逻辑回归模型层和Doc2vec模型层的模型参数,得到稳定的Doc2vec模型层和逻辑回归模型层,根据稳定的Doc2vec模型层和逻辑回归模型层,能够得到可用于实现准确文本分类的文本分类模型,从而可以利用该文本分类模型进行文本挖掘,提高问题挖掘效率。
在一个实施例中,数据获取模块还用于获取携带初始类别标签的样本文本数据,对样本文本数据中各样本句进行分词处理,得到与各样本句对应的样本关键词,推送样本关键词以及携带初始类别标签的样本文本数据,接收用户根据样本关键词反馈的标签判定信息,根据标签判定信息更新样本文本数据的初始类别标签,得到携带类别标签的样本文本数据。
在一个实施例中,数据获取模块还用于对样本文本数据中各样本句进行分词处理,得到与样本文本数据对应的第一分词数据,根据预设停用词表对第一分词数据进行筛选,得到与样本文本数据对应的第二分词数据,对第二分词数据中各词语进行词频统计,得到与各样本句对应的样本关键词。
在一个实施例中,第一训练模块还用于通过Doc2vec模型层的预设特征向量维度、预设滑动窗口大小、预设词频下限以及预设训练并行数,训练样本文本数据中各样本句,得到各样本句对应的样本句子向量。
在一个实施例中,第二训练模块还用于根据样本句子向量,得到样本向量矩阵,将样本向量矩阵输入逻辑回归模型层,得到与样本向量矩阵中各样本句子向量对应的预测类别,比对类别标签和预测类别,得到模型准确率,当模型准确率小于预设准确率阈值时,调整逻辑回归模型层的模型参数,返回将样本向量矩阵输入逻辑回归模型层的步骤,直到模型准确率大于或者等于预设准确率阈值,得到稳定的Doc2vec模型层和逻辑回归模型层。
在一个实施例中,第二训练模块还用于根据样本句子向量,得到样本向量矩阵,将样本向量矩阵输入逻辑回归模型层,得到与样本向量矩阵中各样本句子向量对应的预测类别,比对类别标签和预测类别,得到模型准确率,当模型准确率小于预设准确率阈值时,调整Doc2vec模型层和逻辑回归模型层的模型参数,返回根据样本文本数据训练Doc2vec模型层的步骤,直到模型准确率大于或者等于预设准确率阈值,得到稳定的Doc2vec模型层和逻辑回归模型层。
在一个实施例中,如图5所示,提供了一种文本分类装置,包括:数据获取模块502、分类模块504和推送模块506,其中:
数据获取模块502,用于获取待处理文本数据;
分类模块504,用于将待处理文本数据输入已训练的文本分类模型,得到与待处理文本数据对应的文本分类结果,已训练的文本分类模型根据上述文本分类模型构建方法构建;
推送模块506,用于根据文本分类结果推送待处理文本数据。
上述文本分类装置,通过在获取到待处理文本数据后,直接利用已训练的文本分类模型对待处理文本数据进行分类,得到文本分类结果,根据文本分类结果推送待处理文本数据,能够利用文本分类模型实现文本挖掘,提高问题挖掘效率。
在一个实施例中,文本分类装置还包括数据更新模块,数据更新模块用于对待处理文本数据中各句子进行分词处理,得到与各句子对应的目标关键词,推送目标关键词以及携带文本分类结果的待处理文本数据,接收用户根据目标关键词反馈的类别判定信息,根据类别判定信息更新待处理文本数据的文本分类结果,根据更新后的携带文本分类结果的待处理文本数据,更新预设样本文本数据。
关于文本分类模型构建装置以及文本分类装置的具体限定可以参见上文中对于文本分类模型构建方法以及文本分类方法的限定,在此不再赘述。上述文本分类模型构建装置以及文本分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本分类模型构建方法以及文本分类方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取携带类别标签的样本文本数据以及初始文本分类模型,初始文本分类模型包括Doc2vec模型层和逻辑回归模型层;
根据样本文本数据训练Doc2vec模型层,得到与样本文本数据中各样本句对应的样本句子向量;
根据类别标签和样本句子向量,训练逻辑回归模型层,得到稳定的Doc2vec模型层和逻辑回归模型层;
根据稳定的Doc2vec模型层和逻辑回归模型层,得到文本分类模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取携带初始类别标签的样本文本数据;
对样本文本数据中各样本句进行分词处理,得到与各样本句对应的样本关键词;
推送样本关键词以及携带初始类别标签的样本文本数据;
接收用户根据样本关键词反馈的标签判定信息;
根据标签判定信息更新样本文本数据的初始类别标签,得到携带类别标签的样本文本数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对样本文本数据中各样本句进行分词处理,得到与样本文本数据对应的第一分词数据;
根据预设停用词表对第一分词数据进行筛选,得到与样本文本数据对应的第二分词数据;
对第二分词数据中各词语进行词频统计,得到与各样本句对应的样本关键词。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
通过Doc2vec模型层的预设特征向量维度、预设滑动窗口大小、预设词频下限以及预设训练并行数,训练样本文本数据中各样本句,得到各样本句对应的样本句子向量。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据样本句子向量,得到样本向量矩阵;
将样本向量矩阵输入逻辑回归模型层,得到与样本向量矩阵中各样本句子向量对应的预测类别;
比对类别标签和预测类别,得到模型准确率;
当模型准确率小于预设准确率阈值时,调整逻辑回归模型层的模型参数,返回将样本向量矩阵输入逻辑回归模型层的步骤,直到模型准确率大于或者等于预设准确率阈值,得到稳定的Doc2vec模型层和逻辑回归模型层。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据样本句子向量,得到样本向量矩阵;
将样本向量矩阵输入逻辑回归模型层,得到与样本向量矩阵中各样本句子向量对应的预测类别;
比对类别标签和预测类别,得到模型准确率;
当模型准确率小于预设准确率阈值时,调整Doc2vec模型层和逻辑回归模型层的模型参数,返回根据样本文本数据训练Doc2vec模型层的步骤,直到模型准确率大于或者等于预设准确率阈值,得到稳定的Doc2vec模型层和逻辑回归模型层。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待处理文本数据;
将待处理文本数据输入已训练的文本分类模型,得到与待处理文本数据对应的文本分类结果,已训练的文本分类模型根据上述文本分类模型构建方法构建;
根据文本分类结果推送待处理文本数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对待处理文本数据中各句子进行分词处理,得到与各句子对应的目标关键词;
推送目标关键词以及携带文本分类结果的待处理文本数据;
接收用户根据目标关键词反馈的类别判定信息;
根据类别判定信息更新待处理文本数据的文本分类结果;
根据更新后的携带文本分类结果的待处理文本数据,更新预设样本文本数据。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取携带类别标签的样本文本数据以及初始文本分类模型,初始文本分类模型包括Doc2vec模型层和逻辑回归模型层;
根据样本文本数据训练Doc2vec模型层,得到与样本文本数据中各样本句对应的样本句子向量;
根据类别标签和样本句子向量,训练逻辑回归模型层,得到稳定的Doc2vec模型层和逻辑回归模型层;
根据稳定的Doc2vec模型层和逻辑回归模型层,得到文本分类模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取携带初始类别标签的样本文本数据;
对样本文本数据中各样本句进行分词处理,得到与各样本句对应的样本关键词;
推送样本关键词以及携带初始类别标签的样本文本数据;
接收用户根据样本关键词反馈的标签判定信息;
根据标签判定信息更新样本文本数据的初始类别标签,得到携带类别标签的样本文本数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对样本文本数据中各样本句进行分词处理,得到与样本文本数据对应的第一分词数据;
根据预设停用词表对第一分词数据进行筛选,得到与样本文本数据对应的第二分词数据;
对第二分词数据中各词语进行词频统计,得到与各样本句对应的样本关键词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
通过Doc2vec模型层的预设特征向量维度、预设滑动窗口大小、预设词频下限以及预设训练并行数,训练样本文本数据中各样本句,得到各样本句对应的样本句子向量。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据样本句子向量,得到样本向量矩阵;
将样本向量矩阵输入逻辑回归模型层,得到与样本向量矩阵中各样本句子向量对应的预测类别;
比对类别标签和预测类别,得到模型准确率;
当模型准确率小于预设准确率阈值时,调整逻辑回归模型层的模型参数,返回将样本向量矩阵输入逻辑回归模型层的步骤,直到模型准确率大于或者等于预设准确率阈值,得到稳定的Doc2vec模型层和逻辑回归模型层。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据样本句子向量,得到样本向量矩阵;
将样本向量矩阵输入逻辑回归模型层,得到与样本向量矩阵中各样本句子向量对应的预测类别;
比对类别标签和预测类别,得到模型准确率;
当模型准确率小于预设准确率阈值时,调整Doc2vec模型层和逻辑回归模型层的模型参数,返回根据样本文本数据训练Doc2vec模型层的步骤,直到模型准确率大于或者等于预设准确率阈值,得到稳定的Doc2vec模型层和逻辑回归模型层。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待处理文本数据;
将待处理文本数据输入已训练的文本分类模型,得到与待处理文本数据对应的文本分类结果,已训练的文本分类模型根据上述文本分类模型构建方法构建;
根据文本分类结果推送待处理文本数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对待处理文本数据中各句子进行分词处理,得到与各句子对应的目标关键词;
推送目标关键词以及携带文本分类结果的待处理文本数据;
接收用户根据目标关键词反馈的类别判定信息;
根据类别判定信息更新待处理文本数据的文本分类结果;
根据更新后的携带文本分类结果的待处理文本数据,更新预设样本文本数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种文本分类模型构建方法,其特征在于,所述方法包括:
获取携带类别标签的样本文本数据以及初始文本分类模型,所述初始文本分类模型包括Doc2vec模型层和逻辑回归模型层;
根据所述样本文本数据训练所述Doc2vec模型层,得到与所述样本文本数据中各样本句对应的样本句子向量;
根据所述类别标签和所述样本句子向量,训练所述逻辑回归模型层,得到稳定的所述Doc2vec模型层和所述逻辑回归模型层;
根据稳定的所述Doc2vec模型层和所述逻辑回归模型层,得到文本分类模型。
2.根据权利要求1所述的方法,其特征在于,所述获取携带类别标签的样本文本数据包括:
获取携带初始类别标签的样本文本数据;
对所述样本文本数据中各样本句进行分词处理,得到与各样本句对应的样本关键词;
推送所述样本关键词以及所述携带初始类别标签的样本文本数据;
接收用户根据所述样本关键词反馈的标签判定信息;
根据所述标签判定信息更新所述样本文本数据的初始类别标签,得到携带类别标签的样本文本数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述样本文本数据训练所述Doc2vec模型层,得到与所述样本文本数据中各样本句对应的样本句子向量包括:
通过所述Doc2vec模型层的预设特征向量维度、预设滑动窗口大小、预设词频下限以及预设训练并行数,训练所述样本文本数据中各样本句,得到各样本句对应的样本句子向量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述类别标签和所述样本句子向量,训练所述逻辑回归模型层,得到稳定的所述Doc2vec模型层和所述逻辑回归模型层包括:
根据所述样本句子向量,得到样本向量矩阵;
将所述样本向量矩阵输入所述逻辑回归模型层,得到与所述样本向量矩阵中各样本句子向量对应的预测类别;
比对所述类别标签和所述预测类别,得到模型准确率;
当所述模型准确率小于预设准确率阈值时,调整所述逻辑回归模型层的模型参数,返回所述将所述样本向量矩阵输入所述逻辑回归模型层的步骤,直到所述模型准确率大于或者等于所述预设准确率阈值,得到稳定的所述Doc2vec模型层和所述逻辑回归模型层。
5.根据权利要求1所述的方法,其特征在于,所述根据所述类别标签和所述样本句子向量,训练所述逻辑回归模型层,得到稳定的所述Doc2vec模型层和所述逻辑回归模型层包括:
根据所述样本句子向量,得到样本向量矩阵;
将所述样本向量矩阵输入所述逻辑回归模型层,得到与所述样本向量矩阵中各样本句子向量对应的预测类别;
比对所述类别标签和所述预测类别,得到模型准确率;
当所述模型准确率小于预设准确率阈值时,调整所述Doc2vec模型层和所述逻辑回归模型层的模型参数,返回所述根据所述样本文本数据训练所述Doc2vec模型层的步骤,直到所述模型准确率大于或者等于所述预设准确率阈值,得到稳定的所述Doc2vec模型层和所述逻辑回归模型层。
6.一种文本分类方法,其特征在于,所述方法包括:
获取待处理文本数据;
将所述待处理文本数据输入已训练的文本分类模型,得到与所述待处理文本数据对应的文本分类结果,所述已训练的文本分类模型根据如权利要求1-5任意一项所述的方法构建;
根据所述文本分类结果推送所述待处理文本数据。
7.根据权利要求6所述的方法,其特征在于,所述根据所述文本分类结果推送所述待处理文本数据之后,还包括:
对所述待处理文本数据中各句子进行分词处理,得到与各句子对应的目标关键词;
推送所述目标关键词以及携带所述文本分类结果的待处理文本数据;
接收用户根据所述目标关键词反馈的类别判定信息;
根据所述类别判定信息更新所述待处理文本数据的文本分类结果;
根据更新后的携带文本分类结果的待处理文本数据,更新预设样本文本数据。
8.一种文本分类模型构建装置,其特征在于,所述装置包括:
数据获取模块,用于获取携带类别标签的样本文本数据以及初始文本分类模型,所述初始文本分类模型包括Doc2vec模型层和逻辑回归模型层;
第一训练模块,用于根据所述样本文本数据训练所述Doc2vec模型层,得到与所述样本文本数据中各样本句对应的样本句子向量;
第二训练模块,用于根据所述类别标签和所述样本句子向量,训练所述逻辑回归模型层,得到稳定的所述Doc2vec模型层和所述逻辑回归模型层;
处理模块,用于根据稳定的所述Doc2vec模型层和所述逻辑回归模型层,得到文本分类模型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011108827.6A CN114385808A (zh) | 2020-10-16 | 2020-10-16 | 文本分类模型构建方法与文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011108827.6A CN114385808A (zh) | 2020-10-16 | 2020-10-16 | 文本分类模型构建方法与文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114385808A true CN114385808A (zh) | 2022-04-22 |
Family
ID=81194151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011108827.6A Pending CN114385808A (zh) | 2020-10-16 | 2020-10-16 | 文本分类模型构建方法与文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114385808A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114547315A (zh) * | 2022-04-25 | 2022-05-27 | 湖南工商大学 | 一种案件分类预测方法、装置、计算机设备及存储介质 |
CN115346084A (zh) * | 2022-08-15 | 2022-11-15 | 腾讯科技(深圳)有限公司 | 样本处理方法、装置、电子设备、存储介质及程序产品 |
-
2020
- 2020-10-16 CN CN202011108827.6A patent/CN114385808A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114547315A (zh) * | 2022-04-25 | 2022-05-27 | 湖南工商大学 | 一种案件分类预测方法、装置、计算机设备及存储介质 |
CN115346084A (zh) * | 2022-08-15 | 2022-11-15 | 腾讯科技(深圳)有限公司 | 样本处理方法、装置、电子设备、存储介质及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110347835B (zh) | 文本聚类方法、电子装置及存储介质 | |
WO2020199591A1 (zh) | 文本分类模型训练方法、装置、计算机设备及存储介质 | |
CN108536800B (zh) | 文本分类方法、系统、计算机设备和存储介质 | |
CN107808011B (zh) | 信息的分类抽取方法、装置、计算机设备和存储介质 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
US11429810B2 (en) | Question answering method, terminal, and non-transitory computer readable storage medium | |
US11620453B2 (en) | System and method for artificial intelligence driven document analysis, including searching, indexing, comparing or associating datasets based on learned representations | |
US11599666B2 (en) | Smart document migration and entity detection | |
KR102456148B1 (ko) | 기술 단어 평가 방법 및 장치, 전자 기기, 컴퓨터 판독 가능 저장 매체 | |
CN114385808A (zh) | 文本分类模型构建方法与文本分类方法 | |
CN112100377A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
US20230081737A1 (en) | Determining data categorizations based on an ontology and a machine-learning model | |
CN112528022A (zh) | 主题类别对应的特征词提取和文本主题类别识别方法 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN111428502A (zh) | 一种面向军事语料的命名实体标注方法 | |
CN113515625A (zh) | 测试结果分类模型训练方法、分类方法及装置 | |
CN117272999A (zh) | 基于类增量学习的模型训练方法及装置、设备、存储介质 | |
CN117592450A (zh) | 基于员工信息整合的全景档案生成方法及系统 | |
CN117474010A (zh) | 面向电网语言模型的输变电设备缺陷语料库构建方法 | |
CN117251777A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN115238645A (zh) | 资产数据识别方法、装置、电子设备和计算机存储介质 | |
US20220405623A1 (en) | Explainable artificial intelligence in computing environment | |
US11599801B2 (en) | Method for solving problem, computing system and program product | |
CN114817537A (zh) | 一种基于政策文件数据的分类方法 | |
US11475529B2 (en) | Systems and methods for identifying and linking events in structured proceedings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |