CN112182218A - 文本数据的分类方法及装置 - Google Patents
文本数据的分类方法及装置 Download PDFInfo
- Publication number
- CN112182218A CN112182218A CN202011054022.8A CN202011054022A CN112182218A CN 112182218 A CN112182218 A CN 112182218A CN 202011054022 A CN202011054022 A CN 202011054022A CN 112182218 A CN112182218 A CN 112182218A
- Authority
- CN
- China
- Prior art keywords
- text
- classification
- data
- probability
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000013598 vector Substances 0.000 claims abstract description 107
- 238000013145 classification model Methods 0.000 claims abstract description 75
- 230000011218 segmentation Effects 0.000 claims abstract description 45
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims description 37
- 238000002790 cross-validation Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 12
- 238000005065 mining Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 241000989913 Gunnera petaloidea Species 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000012821 model calculation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能,揭露一种文本数据的分类方法,包括:获取利用大数据平台从业务数据库中抽取的文本数据;对所述文本数据进行分词处理后,利用tf‑idf算法计算文本分词在文本中的tf‑idf值,得到数值化后的文本特征向量;利用第一分类模型,挖掘所述文本特征向量在各个类别上的条件概率,得到携带有类别概率标签的文本特征向量;将所述携带有类别概率标签的文本特征向量输入至预先训练的第二分类模型,得到文本数据对应的分类结果。本发明还涉及区块链技术,所述文本数据存储于区块链中,本发明能够准确识别出文本数据的内容质量,提高文本数据的分类效果。
Description
技术领域
本发明涉及人工智能技术领域,尤其是涉及到文本数据的分类方法、装置、计算机设备及计算机存储介质。
背景技术
随着互联网的发展,内容推荐的业务也有广泛的使用场景,用户生成的内容推荐作为新的信息来源,对于用户、企业、政府等都具有很高的情报分析价值,由于这些文本数据具有信息量大、主观性强、更新快等特点,如何把控推荐内容的质量,是目前推荐系统中不可获取的一部分。
本发明创造的发明人在研究中发现,由于文本质量可以反映出文本内容,进而通过解析文本内容可以实现对文本数据进行分类,然而,传统的质量鉴别办法通常是全部文章人工鉴别或者前期通过大量人工识别样本的好坏作为训练样本。纯人工鉴别或者大量人工识别样本需要消耗大量的人力成本,且不同的人员对相同的内容判别存在误差,使得文本质量的判别存在差异。同时,由于不同的业务场景下,不同的领域中,对于内容质量的判断需要一定的专业性,无法保证文本数据质量识别的准确率,导致文本数据的分类效果较差。
发明内容
有鉴于此,本发明提供了一种文本数据的分类方法、装置、计算机设备及计算机存储介质,主要目的在于解决目前文本数据的分类效果较差的问题。
依据本发明一个方面,提供了一种文本数据的分类方法,该方法包括:
获取利用大数据平台从业务数据库中抽取的文本数据;
利用tf-idf算法将文本数据进行分词处理后形成的文本分词进行数值化,得到文本特征向量;
利用第一分类模型,挖掘所述文本特征向量在各个类别上的条件概率,得到携带有类别概率标签的文本特征向量;
将所述携带有类别概率标签的文本特征向量输入至预先训练的第二分类模型,得到文本数据对应的分类结果。
在本发明另一实施例中,所述文本数据存储于区块链中,所述利用tf-idf算法将文本数据进行分词处理后形成的文本分词进行数值化,得到文本特征向量,具体包括:
将所述文本数据中的文本句子拆分为多个文本分词映射到固定长度上的向量中,得到文本分词向量;
利用tf-idf算法计算所述文本分词对应的tf-idf值,汇总所述文本中文本分词对应的tf-idf值,得到文本特征向量。
在本发明另一实施例中,所述利用第一分类模型,挖掘所述文本特征向量在各个类别上的条件概率,得到携带有类别概率标签的文本特征向量,具体包括:
利用第一分类模型,建立所述文本特征向量对应的概率网络,所述概率网络由节点和有向边构成,其中,所述节点表征所述文本特征向量的属性特征,所述有向边表征所述文本特征向量之间的依赖关系;
遍历所述概率网络,根据所述文本特征特征向量在各个类别上的先验概率计算文本特征向量在各个类别上的条件概率,得到携带有类别概率标签的文本特征向量。
在本发明另一实施例中,在所述将所述文本特征向量输入至预先训练的第二文本模型,得到文本数据对应的分类结果之前,所述方法还包括:
利用交叉验证将预先标注有分类标签的分词样本数据输入至网络模型中进行训练,得到第二分类模型。
在本发明另一实施例中,所述利用交叉验证将预先标注有分类标签的分词样本数据输入至网络模型中进行训练,得到第二分类模型,具体包括:
利用交叉验证对预先标注有分类标签的分词样本数据进行等分;
将等分后的分词样本数据作为训练集多次更换输入至网络模型中进行训练,得到多个第二分类子模型;
利用网格搜索法从所述多个第二分类子模型对应的权重参数中进行搜索,将搜索的最优权重参数对应的第二分类子模型作为第二分类模型。
在本发明另一实施例中,所述将等分后的分词样本数据作为训练集多次更换输入至网络模型中进行训练,得到第二分类模型,具体包括:
对所述等分后的分词样本数据对应的数据特征进行线性组合,形成分词样本数据在各个分类上的概率值;
将分词样本数据在各个分类上的概率值映射为网络模型中的权重参数;
对所述网络模型中的权重参数进行近似求解,得到第二分类模型。
在本发明另一实施例中,所述利用网格搜索法从所述多个第二分类子模型对应的权重参数中进行搜索,将搜索的最优权重参数对应的第二分类子模型作为第二分类模型,具体包括:
利用网格搜索法将所述多个第二分类子模型对应的权重参数在预设空间中划分成网格;
遍历所述网格中的权重参数,将搜索所述网格中最优的权重参数对应的第二分类子模型作为第二分类模型。
依据本发明另一个方面,提供了一种文本数据的分类装置,所述装置包括:
获取单元,用于获取利用大数据平台从业务数据库中抽取的文本数据;
处理单元,用于利用tf-idf算法将文本数据进行分词处理后形成的文本分词进行数值化,得到文本特征向量;
挖掘单元,用于利用第一分类模型,挖掘所述文本特征向量在各个类别上的条件概率,得到携带有类别概率标签的文本特征向量;
分类单元,用于将所述携带有类别概率标签的文本特征向量输入至预先训练的第二分类模型,得到文本数据对应的分类结果。
在本发明另一实施例中,所述文本数据存储于区块链中,所述处理单元包括:
映射模块,用于将所述文本数据中的文本句子拆分为多个文本分词映射到固定长度上的向量中,得到文本分词向量;
第一计算模块,用于利用tf-idf算法计算所述文本分词对应的tf-idf值,汇总所述文本中文本分词对应的tf-idf值,得到文本特征向量。
在本发明另一实施例中,所述挖掘单元包括:
建立模块,用于利用第一分类模型,建立所述文本特征向量对应的概率网络,所述概率网络由节点和有向边构成,其中,所述节点表征所述文本特征向量的属性特征,所述有向边表征所述文本特征向量之间的依赖关系;
第二计算模块,用于遍历所述概率网络,根据所述文本特征特征向量在各个类别上的先验概率计算文本特征向量在各个类别上的条件概率,得到携带有类别概率标签的文本特征向量。
在本发明另一实施例中,所述装置还包括:
训练单元,用于在所述将所述文本特征向量输入至预先训练的第二分类模型,得到文本数据对应的分类结果之前,利用交叉验证将预先标注有分类标签的分词样本数据输入至网络模型中进行训练,得到第二分类模型。
在本发明另一实施例中,所述训练单元包括:
等分模块,用于利用交叉验证对预先标注有分类标签的分词样本数据进行等分;
训练模块,用于将等分后的分词样本数据作为训练集多次更换输入至网络模型中进行训练,得到多个第二分类子模型;
搜索模块,用于利用网格搜索法从所述多个第二分类子模型对应的权重参数中进行搜索,将搜索的最优权重参数对应的第二分类子模型作为第二分类模型。
在本发明另一实施例中,所述训练模块包括:
组合子模块,用于对所述等分后的分词样本数据对应的数据特征进行线性组合,形成分词样本数据在各个分类上的概率值;
映射子模块,用于将分词样本数据在各个分类上的概率值映射为网络模型中的权重参数;
求解子模块,用于对所述网络模型中的权重参数进行近似求解,得到第二分类模型。
在本发明另一实施例中,所述搜索模块包括:
划分子模块,用于利用网格搜索法将所述多个第二分类子模型对应的权重参数在预设空间中划分成网格;
搜索子模块,用于遍历所述网格中的权重参数,将搜索所述网格中最优的权重参数对应的第二分类子模型作为第二分类模型。
依据本发明又一个方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现文本数据的分类方法的步骤。
依据本发明再一个方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现文本数据的分类方法的步骤。
借由上述技术方案,本发明提供一种文本数据的分类方法及装置,通过获取利用大数据平台从业务数据库中抽取的文本数据,并利用tf-idf算法将文本数据进行分词处理之后形成的文本分词进行数值化,得到文本特征向量,利用第一分类模型,挖掘文本特征向量在各个类别上的条件概率,得到携带有类别概率标签的文本特征向量,进一步将携带有类别概率标签的文本特征向量输入至预先训练的第二分类模型,得到文本数据对应的分类结果,与现有技术中利用人工识别样本质量的方式对文本数据进行分类的方法相比,本申请可以利用文本类模型对文本数据进行快速分类,无需用户人工识别文本数据的内容质量,从而提高文本数据的分类效率,提高文本数据的分类并将分类结果,该分类结果可以对文本数据的内容质量进行智能判断,能够准确识别出文本数据的内容质量,提高文本数据的分类效果。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种文本数据的分类方法的流程示意图;
图2示出了本发明实施例提供的另一种文本数据的分类方法的流程示意图;
图3示出了本发明实施例提供的一种文本数据进行分类的整体框架图;
图4示出了本发明实施例提供的一种文本数据的分类装置的结构示意图;
图5示出了本发明实施例提供的另一种文本数据的分类装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种文本数据的分类方法,能够准确识别出文本数据的内容质量,提高文本数据的分类效果,如图1所示,该方法包括:
101、获取利用大数据平台从业务数据库中抽取的文本数据。
其中,大数据平台可以采用Hive作为底层存储,这里的文本数据包含了从业务数据库中抽取的后台数据,该后台数据通常为UGC(User Generated Content用户原创内容)文本数据,从而保证大数据平台下的UGC文本数据和业务数据库中的UGC文本数据的一致性。
具体在从业务数据库中抽取的文本数据的过程中,可以利用文本处理技术从自然语言文本中指定类型的实体、关系、事件等事实信息,并形成结构化数据输出。而利用文本处理技术的同时需要考虑文本数据的规则约束,例如,针对某一类型文本数据的抽取,针对某一结构文本数据的抽取。需要强调的是,为进一步保证上述文本数据私密和安全性,上述文本数据还可以存储于一区块链的节点中。
102、利用tf-idf算法将文本数据进行分词处理后形成的文本分词进行数值化,得到文本特征向量。
通常情况下,文本数据通常为一整段文本,具体可以利用分词工具对文本数据进行分词处理,将整段文本根据词性进行合理拆分,例如,使用Hanlp工具包,将文本数据拆分成分词,同时,对于单个字或者常用的语气助词、停顿词和连接词等进行剔除,尽可能保留具有真实意义的分词。
在本发明实施例中,tf-idf是一种用于信息检索与文本挖掘的常用加权技术。tf-idf算法是一种统计方法,用以评估一分词对于一个文件集或一个语料库的其中一份文件的重要程度,分词的重要性随着它在文件中出现的次数成正比,但同时会随着它在语料库中出现的频率成反比下降。
上述idf反映了一个分词在所有文本中出现的概率,如果一个分词在很多文本中出现,那么它的idf值应该很低,而如果一个分词在比较少的文本中出现,那么它的idf值应该高。由于分词处理后,将文本中句子拆分为多个分词,同时将分词映射到一个固定长度的向量中,那么计算每个分词的tf-idf结果,将得到的每个分词的词向量相加平均即可得到文本中句子的向量,即数值化后的文本特征向量。
103、利用第一分类模型,挖掘所述文本特征向量在各个类别上的条件概率,得到携带有类别概率标签的文本特征向量。
在本发明实施例中,第一分类模型需要预先进行训练,以形成对文本数据进行初步分类的功能,利用第一模型可以判断文本对应在不同类别标签上的概率值。由于文本特征向量存在着可能的依赖性,具体可以利用文本特征向量建立网络,作为一个有向无环图,进一步设置第一分类模型的参数或学习,遍历有向无环图,计算文本特征向量在各个类别上的条件概率,得到携带有类别标签概率的文本特征向量。
通过第一分类模型可以预先对文本特征向量进行初步类别标记,以提高后续文本分类的准确性。
104、将所述携带有类别概率标签的文本特征向量输入至预先训练的第二分类模型,得到文本数据对应的分类结果。
在本发明实施例中,第二分类模型需要预先进行训练,以形成用于对文本数据进行分类的功能,利用第二分类模型,可以判断文本对应的类型是否为优质文本数据。具体训练第二分类模型的过程可以将预先标注类型的文本数据作为样本数据,利用spark ML库中的网络模型对样本数据进行分类训练,由于样本数据中标注有文本类别,如类别1、类别2等,样本数据越多,样本标注质量越高,得到分类结果的准确性越高。这里的网络模型是一个非线性模型,可以为sigmoid函数,又称网络函数,可以是一个线性回归模型,因为除去sigmoid映射函数关系,其他的步骤,算法都是线性回归的。
例如,对于句子“我爱北京”,LogisticRegression模型的输入为句子的分词集合:[我,爱,北京]-[0.21,0.36,0.58],输出为句子为类别1,对于句子:“哈哈,哄哄”,LogisticRegression模型的输入为句子的分词集合:[哈哈,哄哄]-[0.65,0.01,0.99],输出为句子为类别0。
本发明实施例提供的一种文本数据的分类方法,通过获取利用大数据平台从业务数据库中抽取的文本数据,并利用tf-idf算法将文本数据进行分词处理之后形成的文本分词进行数值化,得到文本特征向量,利用第一分类模型,挖掘文本特征向量在各个类别上的条件概率,得到携带有类别概率标签的文本特征向量,进一步将携带有类别概率标签的文本特征向量输入至预先训练的第二分类模型,得到文本数据对应的分类结果,与现有技术中利用人工识别样本质量的方式对文本数据进行分类的方法相比,本申请可以利用文本类模型对文本数据进行快速分类,无需用户人工识别文本数据的内容质量,从而提高文本数据的分类效率,提高文本数据的分类并将分类结果,该分类结果可以对文本数据的内容质量进行智能判断,能够准确识别出文本数据的内容质量,提高文本数据的分类效果。
本发明实施例提供了另一种文本数据的分类方法,能够准确识别出文本数据的内容质量,提高文本数据的分类效果,如图2所示,所述方法包括:
201、获取利用大数据平台从业务数据库中抽取的文本数据。
在本发明实施例中,由于大数据平台可以横向扩张集群的存储能力和计算能力,可以解决传统单机处理能力不足的情况,这里的大数据平台理论上可以处理无限量的数据。
202、将所述文本数据中的文本句子拆分为多个文本分词映射到固定长度上的向量中,得到文本分词向量。
203、利用tf-idf算法计算所述文本分词对应的tf-idf值,汇总所述文本中文本分词对应的tf-idf值,得到文本特征向量。
在本发明实施例中,具体利用tf-idf算法计算文本分词在文本中在tf-idf值的过程中,由于文本数据可能包括多个文本,每个文本包括多个文本句子,每个文本包括多个分词,首先获取文本句子中分词在每个文本中出现的词频termFreq,然后获取每个文本中出现的总的分词数doctoTotalTerm;则获取总文本数为docNum、包含文本句子中分词的文本数为wordIndocNum,则idf=1.0+log(docNum/(wordIndocNum+1;那么文本句子中分词的tf-idf=tf*idf;文本语句的tf-idf=该文本语句中所有分词的tf-idf之和/该问题语句的分词数量。
204、利用第一分类模型,挖掘所述文本特征向量在各个类别上的条件概率,得到携带有类别概率标签的文本特征向量。
在本发明实施例中,具体可以利用第一分类模型,建立文本特征向量对应的概率网络,该概率网络由节点和有向边构成,节点表征文本特征向量的属性特征,有向边表征所述文本特征向量之间的依赖关系,进一步遍历概率网络,根据文本特征特征向量在各个类别上的先验概率计算文本特征向量在各个类别上的条件概率,得到携带有类别概率标签的文本特征向量。
205、利用交叉验证将预先标注有分类标签的分词样本数据输入至网络模型中进行训练,得到第二分类模型。
由于第二分类模型为利用网络模型进行训练所形成,具体训练第二分类模型的过程中,可以利用交叉验证对预先标注有分类标签的分词样本数据进行等分,将等分后的分词样本数据作为训练集多次更换输入至网络模型中进行训练,得到多个第二分类子模型,进一步利用网格搜索法从所述多个第二分类子模型对应的权重参数中进行搜索,将搜索的最优权重参数对应的第二分类子模型作为第二分类模型。
具体在将等分后的分词样本数据作为训练集多次更换输入至网络模型中进行训练,得到第二分类模型的过程中,可以对等分后的分词样本数据对应的数据特征进行线性组合,形成分词样本数据在各个分类上的概率值,将分词样本数据在各个分类上的概率值映射为网络模型中的权重参数;进一步对网络模型中的权重参数进行近似求解,得到第二分类模型。
为了提高第二分类模型的分类效果,具体在利用网格搜索法从多个第二分类子模型对应的权重参数中进行搜索,将搜索的最优权重参数对应的第二分类子模型作为第二分类模型的过程中,可以利用网格搜索法将多个第二分类子模型对应的权重参数在预设空间中划分成网格,进一步遍历网格中的权重参数,将搜索网格中最优的权重参数对应的第二分类子模型作为第二分类模型。
206、将所述携带有类别概率标签的文本特征向量输入至预先训练的第二分类模型,得到文本数据对应的分类结果。
本发明实施例中,底层存储使用Hive而不是Mysql等传统RDBMS,能够存储更大的数据量。使用大数据平台中的spark计算引擎能够处理海量数据的同时,还能提供强大的机器学习算法库,提供了强的算力。分类模型通过每次迭代少量样本数据进行训练,然后大批量的预测新样本的分类,从而提高了样本分类的速度。对于误判的样本通过人工校验后,将错误样本分到正确的类别中,然后在此利用分类正确的样本进行迭代训练模型,从而实现了微批迭代的能力。因此,对于传统的需要大量人力进行样本标注分类的工作减少到只需要少量数据标注,从而实现快速高效的对文本内容实现准确分类的效果。
具体应用场景中,对文本数据进行分类的整体框架图可以如图3所示,包含了原始数据层、模型计算层和人工审核层。利用了分层的思想,解耦了各层的处理逻辑,且每层的数据里都能灵活扩展。
具体地,基础数据的存储层主要采用Hive作为底层存储,数据源包含了从业务数据库抽取的后台数据;模型计算层主要采用Spark作为数据计算和建模框架,利用并行化计算快速读取海量数据;人工审核层主要是对算法得到的分类结果进行校验。这里利用算法得到的分类模型,可以选择一批未分类的样本,利用模型进行分类,由于前期模型具有一定的分辨能力,可以认为分出的结果具有一定的可信度,因此大量降低了人工审核文章的数量,但是由于分类过程中存在一定的误判率,需要人工重新审核模型分类结果,对于人工校验后的分类数据,可以和之前的训练样本组合,生成新的训练样本,重新训练模型,提高模型的分类准确性。然后不断的对新一批数据进行迭代分类,模型也不断的迭代升级。将模型得到的分类结果存储到hive中,然后同步到业务数据库里,通过后台随机分配给不同人员进行重新审核,统计审核结果,并将审核结果回流到数据基础数据存储层,对分类模型进行迭代。
可以理解的时,本发明实施例设计了一种基于半监督的微批迭代内容质量分类算法,通过前期人工标注少量数据,利用hanlp开源分词工具,将文本数据利用tf-idf算法进行文本数值化,然后根据网络算法对文本进行分类,生成分类模型,然后,利用分类模型对其他批次数据进行快速分类,并将结果再次进行人工审核,将分类正确的数据用来训练新的判别模型,从而实现不断迭代升级模型的判别能力,最终能够利用分类模型来自动识别文本数据,得到分类结果。
进一步地,作为图1所述方法的具体实现,本发明实施例提供了一种文本数据的分类装置,如图4所示,所述装置包括:获取单元31、处理单元32、挖掘单元33、分类单元34。
获取单元31,可以用于获取利用大数据平台从业务数据库中抽取的文本数据;
处理单元32,可以用于利用tf-idf算法将文本数据进行分词处理后形成的文本分词进行数值化,得到文本特征向量;
挖掘单元33,可以用于利用第一分类模型,挖掘所述文本特征向量在各个类别上的条件概率,得到携带有类别概率标签的文本特征向量;
分类单元34,可以用于将所述携带有类别概率标签的文本特征向量输入至预先训练的第二分类模型,得到文本数据对应的分类结果。
本发明实施例提供的一种文本数据的分类装置,通过获取利用大数据平台从业务数据库中抽取的文本数据,并利用tf-idf算法将文本数据进行分词处理之后形成的文本分词进行数值化,得到文本特征向量,利用第一分类模型,挖掘文本特征向量在各个类别上的条件概率,得到携带有类别概率标签的文本特征向量,进一步将携带有类别概率标签的文本特征向量输入至预先训练的第二分类模型,得到文本数据对应的分类结果,与现有技术中利用人工识别样本质量的方式对文本数据进行分类的方法相比,本申请可以利用文本类模型对文本数据进行快速分类,无需用户人工识别文本数据的内容质量,从而提高文本数据的分类效率,提高文本数据的分类并将分类结果,该分类结果可以对文本数据的内容质量进行智能判断,能够准确识别出文本数据的内容质量,提高文本数据的分类效果。
作为图4中所示文本数据的分类装置的进一步说明,图5是根据本发明实施例另一种文本数据的分类装置的结构示意图,如图5所示,所述文本数据存储于区块链中,所述处理单元32包括:
映射模块321,可以用于将所述文本数据中的文本句子拆分为多个文本分词映射到固定长度上的向量中,得到文本分词向量;
第一计算模块322,可以用于利用tf-idf算法计算所述文本分词对应的tf-idf值,汇总所述文本中文本分词对应的tf-idf值,得到文本特征向量。需要强调的是,为进一步保证上述文本数据私密和安全性,上述文本数据还可以存储于一区块链的节点中。
在具体应用场景中,所述挖掘单元33包括:
建立模块331,可以用于利用第一分类模型,建立所述文本特征向量对应的概率网络,所述概率网络由节点和有向边构成,所述节点表征所述文本特征向量的属性特征,所述有向边表征所述文本特征向量之间的依赖关系;
第二计算模块332,可以用于遍历所述概率网络,根据所述文本特征特征向量在各个类别上的先验概率计算文本特征向量在各个类别上的条件概率,得到携带有类别概率标签的文本特征向量。
在具体应用场景中,所述装置还包括:
训练单元34,可以用于在所述将所述文本特征向量输入至预先训练的第二分类模型,得到文本数据对应的分类结果之前,利用交叉验证将预先标注有分类标签的分词样本数据输入至网络模型中进行训练,得到第二分类模型。
在具体应用场景中,所述训练单元35包括:
等分模块351,可以用于利用交叉验证对预先标注有分类标签的分词样本数据进行等分;
训练模块352,可以用于将等分后的分词样本数据作为训练集多次更换输入至网络模型中进行训练,得到多个第二分类子模型;
搜索模块353,可以用于利用网格搜索法从所述多个第二分类子模型对应的权重参数中进行搜索,将搜索的最优权重参数对应的第二分类子模型作为第二分类模型。
在具体应用场景中,所述训练模块352包括:
组合子模块3521,可以用于对所述等分后的分词样本数据对应的数据特征进行线性组合,形成分词样本数据在各个分类上的概率值;
映射子模块3522,可以将分词样本数据在各个分类上的概率值映射为网络模型中的权重参数;
求解子模块3523,可以用于对所述网络模型中的权重参数进行近似求解,得到第二分类模型。
在具体应用场景中,所述搜索模块353包括:
划分子模块3531,可以用于利用网格搜索法将所述多个第二分类子模型对应的权重参数在预设空间中划分成网格;
搜索子模块3532,可以用于遍历所述网格中的权重参数,将搜索所述网格中最优的权重参数对应的第二分类子模型作为第二分类模型。
需要说明的是,本实施例提供的一种文本数据的分类装置所涉及各功能单元的其他相应描述,可以参考图1、图2中的对应描述,在此不再赘述。
基于上述如图1、图2所示方法,相应的,本实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1、图2所示的文本数据的分类方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1、图2所示的方法,以及图4、图5所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1、图2所示的文本数据的分类方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的文本数据的分类装置的实体设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,与目前现有技术相比,本申请可以利用文本类模型对文本数据进行快速分类,无需用户人工识别文本数据的内容质量,从而提高文本数据的分类效率,提高文本数据的分类并将分类结果,该分类结果可以对文本数据的内容质量进行智能判断,能够准确识别出文本数据的内容质量,提高文本数据的分类效果。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种文本数据的分类方法,其特征在于,所述方法包括:
获取利用大数据平台从业务数据库中抽取的文本数据;
利用tf-idf算法将文本数据进行分词处理后形成的文本分词进行数值化,得到文本特征向量;
利用第一分类模型,挖掘所述文本特征向量在各个类别上的条件概率,得到携带有类别概率标签的文本特征向量;
将所述携带有类别概率标签的文本特征向量输入至预先训练的第二分类模型,得到文本数据对应的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述文本数据存储于区块链中,所述利用tf-idf算法将文本数据进行分词处理后形成的文本分词进行数值化,得到文本特征向量,具体包括:
将所述文本数据中的文本句子拆分为多个文本分词映射到固定长度上的向量中,得到文本分词向量;
利用tf-idf算法计算所述文本分词对应的tf-idf值,汇总所述文本中文本分词对应的tf-idf值,得到文本特征向量。
3.根据权利要求1所述的方法,其特征在于,所述利用第一分类模型,挖掘所述文本特征向量在各个类别上的条件概率,得到携带有类别概率标签的文本特征向量,具体包括:
利用第一分类模型,建立所述文本特征向量对应的概率网络,所述概率网络由节点和有向边构成,其中,所述节点表征所述文本特征向量的属性特征,所述有向边表征所述文本特征向量之间的依赖关系;
遍历所述概率网络,根据所述文本特征特征向量在各个类别上的先验概率计算文本特征向量在各个类别上的条件概率,得到携带有类别概率标签的文本特征向量。
4.根据权利要求1所述的方法,其特征在于,在所述将所述文本特征向量输入至预先训练的第二分类模型,得到文本数据对应的分类结果之前,所述方法还包括:
利用交叉验证将预先标注有分类标签的分词样本数据输入至网络模型中进行训练,得到第二分类模型。
5.根据权利要求4所述的方法,其特征在于,所述利用交叉验证将预先标注有分类标签的分词样本数据输入至网络模型中进行训练,得到第二分类模型,具体包括:
利用交叉验证对预先标注有分类标签的分词样本数据进行等分;
将等分后的分词样本数据作为训练集多次更换输入至网络模型中进行训练,得到多个第二分类子模型;
利用网格搜索法从所述多个第二分类子模型对应的权重参数中进行搜索,将搜索的最优权重参数对应的第二分类子模型作为第二分类模型。
6.根据权利要求5所述的方法,其特征在于,所述将等分后的分词样本数据作为训练集多次更换输入至网络模型中进行训练,得到第二分类模型,具体包括:
对所述等分后的分词样本数据对应的数据特征进行线性组合,形成分词样本数据在各个分类上的概率值;
将分词样本数据在各个分类上的概率值映射为网络模型中的权重参数;
对所述网络模型中的权重参数进行近似求解,得到第二分类模型。
7.根据权利要求5所述的方法,其特征在于,所述利用网格搜索法从所述多个第二分类子模型对应的权重参数中进行搜索,将搜索的最优权重参数对应的第二分类子模型作为第二分类模型,具体包括:
利用网格搜索法将所述多个第二分类子模型对应的权重参数在预设空间中划分成网格;
遍历所述网格中的权重参数,将搜索所述网格中最优的权重参数对应的第二分类子模型作为第二分类模型。
8.一种文本数据的分类装置,其特征在于,所述装置包括:
获取单元,用于获取利用大数据平台从业务数据库中抽取的文本数据;
处理单元,用于利用tf-idf算法将文本数据进行分词处理后形成的文本分词进行数值化,得到文本特征向量;
挖掘单元,用于利用第一分类模型,挖掘所述文本特征向量在各个类别上的条件概率,得到携带有类别概率标签的文本特征向量;
分类单元,用于将所述携带有类别概率标签的文本特征向量输入至预先训练的第二分类模型,得到文本数据对应的分类结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011054022.8A CN112182218A (zh) | 2020-09-30 | 2020-09-30 | 文本数据的分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011054022.8A CN112182218A (zh) | 2020-09-30 | 2020-09-30 | 文本数据的分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112182218A true CN112182218A (zh) | 2021-01-05 |
Family
ID=73946699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011054022.8A Pending CN112182218A (zh) | 2020-09-30 | 2020-09-30 | 文本数据的分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112182218A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113064731A (zh) * | 2021-06-03 | 2021-07-02 | 明品云(北京)数据科技有限公司 | 基于云边端架构的大数据处理终端设备、处理方法和介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810293A (zh) * | 2014-02-28 | 2014-05-21 | 广州云宏信息科技有限公司 | 基于Hadoop的文本分类方法及装置 |
CN106897428A (zh) * | 2017-02-27 | 2017-06-27 | 腾讯科技(深圳)有限公司 | 文本分类特征提取方法、文本分类方法及装置 |
CN107315797A (zh) * | 2017-06-19 | 2017-11-03 | 江西洪都航空工业集团有限责任公司 | 一种网络新闻获取及文本情感预测系统 |
CN107423438A (zh) * | 2017-08-04 | 2017-12-01 | 逸途(北京)科技有限公司 | 一种基于pgm的问题分类方法 |
CN107480895A (zh) * | 2017-08-19 | 2017-12-15 | 中国标准化研究院 | 一种基于Bayes增强学习的可靠消费品风险评估方法 |
CN109165677A (zh) * | 2018-07-27 | 2019-01-08 | 首都医科大学附属北京友谊医院 | 分类方法及装置 |
CN110197222A (zh) * | 2019-05-29 | 2019-09-03 | 国网河北省电力有限公司石家庄供电分公司 | 一种基于多分类支持向量机变压器故障诊断的方法 |
CN110209805A (zh) * | 2018-04-26 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、存储介质和计算机设备 |
CN110287317A (zh) * | 2019-06-06 | 2019-09-27 | 昆明理工大学 | 一种基于cnn-dbn的层次多标签医疗问题分类方法 |
US20190347327A1 (en) * | 2018-05-09 | 2019-11-14 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for automatically assigning one or more labels to discussion topics shown in online forums on the dark web |
CN110580335A (zh) * | 2018-06-07 | 2019-12-17 | 阿里巴巴集团控股有限公司 | 用户意图的确定方法及装置 |
-
2020
- 2020-09-30 CN CN202011054022.8A patent/CN112182218A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810293A (zh) * | 2014-02-28 | 2014-05-21 | 广州云宏信息科技有限公司 | 基于Hadoop的文本分类方法及装置 |
CN106897428A (zh) * | 2017-02-27 | 2017-06-27 | 腾讯科技(深圳)有限公司 | 文本分类特征提取方法、文本分类方法及装置 |
CN107315797A (zh) * | 2017-06-19 | 2017-11-03 | 江西洪都航空工业集团有限责任公司 | 一种网络新闻获取及文本情感预测系统 |
CN107423438A (zh) * | 2017-08-04 | 2017-12-01 | 逸途(北京)科技有限公司 | 一种基于pgm的问题分类方法 |
CN107480895A (zh) * | 2017-08-19 | 2017-12-15 | 中国标准化研究院 | 一种基于Bayes增强学习的可靠消费品风险评估方法 |
CN110209805A (zh) * | 2018-04-26 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、存储介质和计算机设备 |
US20190347327A1 (en) * | 2018-05-09 | 2019-11-14 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for automatically assigning one or more labels to discussion topics shown in online forums on the dark web |
CN110580335A (zh) * | 2018-06-07 | 2019-12-17 | 阿里巴巴集团控股有限公司 | 用户意图的确定方法及装置 |
CN109165677A (zh) * | 2018-07-27 | 2019-01-08 | 首都医科大学附属北京友谊医院 | 分类方法及装置 |
CN110197222A (zh) * | 2019-05-29 | 2019-09-03 | 国网河北省电力有限公司石家庄供电分公司 | 一种基于多分类支持向量机变压器故障诊断的方法 |
CN110287317A (zh) * | 2019-06-06 | 2019-09-27 | 昆明理工大学 | 一种基于cnn-dbn的层次多标签医疗问题分类方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113064731A (zh) * | 2021-06-03 | 2021-07-02 | 明品云(北京)数据科技有限公司 | 基于云边端架构的大数据处理终端设备、处理方法和介质 |
CN113064731B (zh) * | 2021-06-03 | 2021-11-02 | 明品云(北京)数据科技有限公司 | 基于云边端架构的大数据处理终端设备、处理方法和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209764B (zh) | 语料标注集的生成方法及装置、电子设备、存储介质 | |
CN108932294B (zh) | 基于索引的简历数据处理方法、装置、设备及存储介质 | |
CN110968695A (zh) | 基于弱监督技术主动学习的智能标注方法、装置及平台 | |
CN112836509A (zh) | 一种专家系统知识库构建方法及系统 | |
CN109800354B (zh) | 一种基于区块链存储的简历修改意图识别方法及系统 | |
EP3968245A1 (en) | Automatically generating a pipeline of a new machine learning project from pipelines of existing machine learning projects stored in a corpus | |
CN112463774B (zh) | 文本数据的去重方法、设备及存储介质 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN114691525A (zh) | 测试用例的选择方法及装置 | |
CN112528022A (zh) | 主题类别对应的特征词提取和文本主题类别识别方法 | |
CN116049379A (zh) | 知识推荐方法、装置、电子设备和存储介质 | |
CN110069558A (zh) | 基于深度学习的数据分析方法及终端设备 | |
CN112182218A (zh) | 文本数据的分类方法及装置 | |
CN116049376B (zh) | 一种信创知识检索回复的方法、装置和系统 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN114969018B (zh) | 一种数据监控方法及系统 | |
CN116049644A (zh) | 特征筛选和聚类分箱方法、装置、电子设备及存储介质 | |
CN114880471A (zh) | 一种基于文本分类算法的电子病历质量评估方法及系统 | |
CN112257416A (zh) | 一种稽查新词发现方法及系统 | |
CN112767022B (zh) | 移动应用功能演化趋势预测方法、装置及计算机设备 | |
CN114519406B (zh) | 工业数据的分类方法及其模型训练方法、装置 | |
CN116992869B (zh) | 基于搜索引擎和分类器的远程监督关系抽取方法及装置 | |
CN116028620B (zh) | 一种基于多任务特征协同的生成专利摘要的方法及系统 | |
CN117033876B (zh) | 一种基于多级耦合算法的数字矩阵处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |