CN112650837B - 结合分类算法与非监督算法的文本质量控制方法及系统 - Google Patents
结合分类算法与非监督算法的文本质量控制方法及系统 Download PDFInfo
- Publication number
- CN112650837B CN112650837B CN202011578227.6A CN202011578227A CN112650837B CN 112650837 B CN112650837 B CN 112650837B CN 202011578227 A CN202011578227 A CN 202011578227A CN 112650837 B CN112650837 B CN 112650837B
- Authority
- CN
- China
- Prior art keywords
- text
- data
- algorithm
- title
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 73
- 238000007635 classification algorithm Methods 0.000 title claims abstract description 47
- 238000003908 quality control method Methods 0.000 title claims abstract description 33
- 238000001914 filtration Methods 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims description 24
- 238000009826 distribution Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000013145 classification model Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 8
- 238000005065 mining Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 9
- 230000006872 improvement Effects 0.000 description 8
- 238000002372 labelling Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000007115 recruitment Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种结合分类算法与非监督算法的文本质量控制方法及系统,所述方法包括:收集文本数据;过滤所述文本数据中的无关数据,获取过滤文本;删除所述过滤文本中的通用噪声数据,获取去噪文本;删除所述去噪文本中的标题党数据,并输出文本质量分。通过本申请,可控制文本质量,同时输出文本质量分。
Description
技术领域
本发明涉及的是数据处理技术领域。更具体的说,本发明涉及一种结合分类算法与非监督算法的文本质量控制方法及系统。
背景技术
随着互联网的高速发展,信息发布也越来越简单便捷,每天都有海量的内容数据发布,每个内容发布平台都在努力做到将合适的内容分发给合适的人。内容的分发首先要保证物料池的质量,避免一些低质量和不相关的数据进入推荐内容的数据流。
目前平台方的处理方案大致分为两类,一种为控制内容生产来源的质量,从数据源上进行质量控制,另一种属于综合信息分发平台,根据信息的内容发布到不同的栏位,进行展示。以上两种方式均需要设计专门的内容质量控制模块,目前通用的技术方案是采用规则限制或者分类算法进行内容识别。
对于已知的噪声数据类型,可采取规则匹配或者标注文本构建监督型分类算法进行识别,但是上述两种方式存在以下问题:
1、第一种存在规则设计的覆盖问题;
2、第二种会产生比较大的标注工作量,以及无法识别标注类别外的数据;
3、两种方式均无法识别新的类型的噪声数据,其次,当面临大批量内容长度较大的数据,采用监督型分类算法进行过滤,还将面临计算量问题。
发明内容
本申请实施例提供了一种结合分类算法与非监督算法的文本质量控制方法,以至少解决相关技术中主观因素影响的问题。
本发明提供了一种结合分类算法与非监督算法的文本质量控制方法,所述方法包括以下步骤:
收集步骤:收集文本数据;
过滤步骤:过滤所述文本数据中的无关数据,获取过滤文本;
去噪步骤:删除所述过滤文本中的通用噪声数据,获取去噪文本;
分数输出步骤:删除所述去噪文本中的标题党数据,并输出文本质量分。
作为本发明的进一步改进,所述收集步骤具体包括以下步骤:
类别定制步骤:根据企业信息定制内容分发类别;
关键词定制步骤:定制每个所述内容分发类别下的关键词;
抓取步骤:抓取包含所述关键词的文本,获取所述文本数据。
作为本发明的进一步改进,所述过滤步骤具体包括以下步骤:
相似度计算步骤:采用欧式距离计算所述关键词与embedding词表中词语的相似度;
排序步骤:根据所述相似度对所述embedding词表中词语进行排序,获取与所述关键词相关的相似词表;
分词步骤:采用jieba分词对所述文本数据进行分词,得到文本词表;
遍历步骤:基于所述文本词表在所述相似词表中进行遍历,根据遍历结果获取主题相关度指标,过滤与所述关键词无关的数据。
作为本发明的进一步改进,所述去噪步骤具体包括以下步骤:
挖掘步骤:采用聚类算法根据所述关键词和所述相似词表挖掘文本噪声类别;
标注步骤:根据所述文本噪声类别进行数据标注:
模型构建步骤:采用标注的数据进行训练,构建文本多分类模型。
作为本发明的进一步改进,所述模型构建步骤具体包括以下步骤:
提取步骤:对所述标注的数据进行摘要提取;
类别计算步骤:分别针对标题和摘要内容构建多分类算法,计算得到所述标题和摘要的预测类别;
噪声删除步骤:判断所述标题和摘要的预测类别是否均属于所述文本噪声类别,则是认为数据为所述通用噪声数据进行删除。
作为本发明的进一步改进,所述分数输出步骤具体包括以下步骤:
标题分词步骤:对所述标题进行分词,并去除一些停用词,获取所述标题的关键词组合;
内容提取步骤:基于所述相似词表从所述去噪文本中提取词列表;
数据删除步骤:对所述关键词组合和所述词列表中的词进行相似度计算,获取标题相似度,根据所述标题相似度删除所述标题党数据;
质量分计算步骤:将所述主题相关度指标与所述标题相似度相乘,获取所述文本质量分并输出。
作为本发明的进一步改进,所述相似词表中的词不包含所述关键词。
作为本发明的进一步改进,所述摘要提取采用TextRank算法。
作为本发明的进一步改进,所述多分类算法采用TextRCNN。
基于相同发明思想,本发明还基于任一项发明创造所揭示的结合分类算法与非监督算法的文本质量控制方法,揭示了一种结合分类算法与非监督算法的文本质量控制系统,
所述结合分类算法与非监督算法的文本质量控制系统包括:
收集模块,收集文本数据;
过滤模块,过滤所述文本数据中的无关数据,获取过滤文本;
去噪模块,删除所述过滤文本中的通用噪声数据,获取去噪文本;
分数输出模块,删除所述去噪文本中的标题党数据,并输出文本质量分。
与现有技术相比,本发明的有益效果如下:
1、提出了一种结合分类算法与非监督算法的文本质量控制方法,采用多分类算法与非监督算法相结合,将无关数据进行去噪;
2、设计了一个三层的混合算法架构,第一层采用非监督算法模型,快速过滤掉一批与主题无关的数据,第二层根据实际数据构建一个多分类的监督算法模型,用于识别广告贴,招聘贴,小黄文之类的通用噪声数据,第三层结合文本内容与文本标题,采用非监督算法的方案识别标题党以及主题相关性较小的数据,用于控制文本质量,同时输出文本的质量分,用于作为后续的内容推荐排序指标;
3、可针对企业级的内容分发机制的文本内容去噪,根据企业的具体行业属性,员工的工作属性以及工作学习需求,进行定制化的内容推荐。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本发明实施例提供的一种结合分类算法与非监督算法的文本质量控制方法整体流程图;
图2是本实施例所揭示的算法流程示意图;
图3是图1所揭示的步骤S1整体流程图;
图4是图1所揭示的步骤S2整体流程图;
图5是图1所揭示的步骤S3整体流程图;
图6是图5所揭示的步骤S33整体流程图;
图7是图1所揭示的步骤S4整体流程图;
图8是本实施例提供的一种结合分类算法与非监督算法的文本质量控制系统结构框架图;
图9是根据本发明实施例的计算机设备的框架图。
以上图中:
1、收集模块;2、过滤模块;3、去噪模块;4、分数输出模块;11、类别定制单元;12、关键词定制单元;13、抓取单元;21、相似度计算单元;22、排序单元;23、分词单元;24、遍历单元;31、挖掘单元;32、标注单元;33、模型构建单元;331、提取单元;332、类别计算单元;333、噪声删除单元;41、标题分词单元;42、内容提取单元;43、数据删除单元;44、质量分计算单元; 80、总线;81、处理器;82、存储器;83、通信接口。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不待表针对对象的特定排序。
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替待,均属于本发明的保护范围之内。
在详细阐述本发明各个实施例之前,对本发明的核心发明思想予以概述,并通过下述若干实施例予以详细阐述。
本发明可采用多分类算法与非监督算法相结合进行文本质量内容控制,对文本内容进行去噪,进行定制化内容推荐。
实施例一:
参照图1至图7所示,本实例揭示了一种结合分类算法与非监督算法的文本质量控制方法(以下简称“方法”)的具体实施方式。
具体而言,首先介绍所述方法的整体思路。本实例提出了一种新的内容质量控制方案,采用多分类算法与非监督算法相结合,将无关数据进行去噪。设计了一个三层的混合算法架构,第一层采用非监督算法模型,快速过滤掉一批与主题无关的数据,第二层根据实际数据构建一个多分类的监督算法模型,用于识别广告贴,招聘贴,小黄文等通用噪声数据,第三层结合文本内容与文本标题,采用非监督算法的方案识别标题党以及主题相关性较小的数据,控制文本质量的同时输出文本的质量分,可用于后续内容推荐的排序算法使用。
具体而言参照图1和图2所示,本实施例所揭示的方法主要包括以下步骤:
步骤S1、收集文本数据。
具体而言,在其中一些实施例中,参照图3所示,步骤S1具体包括以下步骤:
S11、根据企业信息定制内容分发类别;
S12、定制每个所述内容分发类别下的关键词;
S13、抓取包含所述关键词的文本,获取所述文本数据。
具体而言,在其中一些实施例中,首先进行内容数据的收集。根据企业的各项信息,定制化一个内容分发类别,每个类别下定制相关关键词,采用关键词从公开内容发布平台抓取包含关键词的文本数据。内容数据表示例如下, Article_content为一篇文章内容,篇幅太长所以进行省略:
Article_id | Article_content | keyword | label |
qrry | 深度学习 | 人工智能 |
然后执行步骤S2、过滤所述文本数据中的无关数据,获取过滤文本。
具体而言,在其中一些实施例中,参照图4所示,步骤S2具体包括以下步骤:
S21、采用欧式距离计算所述关键词与embedding词表中词语的相似度;
S22、根据所述相似度对所述embedding词表中词语进行排序,获取与所述关键词相关的相似词表;
S23、采用jieba分词对所述文本数据进行分词,得到文本词表;
S24、基于所述文本词表在所述相似词表中进行遍历,根据遍历结果获取主题相关度指标,过滤与所述关键词无关的数据。
具体而言,步骤S2的主要算法逻辑为采用一种优化加速的无监督方法去掉大量不相关数据。计算文本的向量表征与主题词的向量表征,然后计算这两个向量的相关度,用于进行文本去噪,传统方法计算文本表征,计算时长会随着文本内容的长度产生暴增,因此本实施例采用一种加速版无监督的方案来计算文本与关键词(主题词)的相关度。
具体而言,将词向量作为词表征数据,例如分发内容主要用于企业内员工工作与学习需要时,内容中的词汇大多偏知乎或微信公众号类,因此可采用腾讯AI lab发布的词向量作为词表征的数据。
具体而言,在其中一些实施例中,步骤S21中根据欧式距离计算主题词 topN相似词的相似程度,具体计算公式如下:
其中,X,Y表示主题词和目标词的embedding向量,n表示embedding 的维度。
具体而言,在其中一些实施例中,可将腾讯AI lab embedding词表中所有的词与主题词均采用上述欧式距离公式进行计算,欧式距离计算结果越小,词越相似,然后根据得到的d(X,Y)的大小,从小到大排序,取topN(此处N 值大小可根据具体数据状况进行调整)的数据,最终获取一个3列N行的相似数据表A,其中topN中的词不包含对应的主题词。相似数据表示例如下:
keyword | Word | Score |
深度学习 | 机器学习 | 0.01 |
深度学习 | 推荐算法 | 0.02 |
具体而言,在其中一些实施例中,首先采用jieba分词对文本内容进行分词,得到一个文本词表M,然后在对应的主题词的topN相似词表中进行遍历,为便于后续文本与主题词相似度的计算,如果在topN中的词在M中则记返回值为1/score或(10-score),否则返回值为0,计算结束后,将所有返回值取加和,则为文本与主题词的相关度,即主题相关度指标,具体算法步骤如下:
其中,p(wi)表示词i在文本中的词频。按照上述算法步骤即可计算得到,每条文本内容与对应主题词的相似值,相似值越小,则文本内容与主题越不相关,即为噪声数据。
然后执行步骤S3、删除所述过滤文本中的通用噪声数据,获取去噪文本。
具体而言,在其中一些实施例中,步骤S3采用多分类算法对文章中通用噪声数据类型进行严格筛选。首先采用聚类算法挖掘出主要的噪声类别,其次采用人工标注训练样本,最后构建文本多分类模型,实现文本的类别预测,对预定义必删除的类别的数据及性能删除。
具体而言,在其中一些实施例中,参照图5所示,步骤S3具体包括以下步骤:
S31、采用聚类算法根据所述关键词和所述相似词表挖掘文本噪声类别;
S32、根据所述文本噪声类别进行数据标注:
S33、采用标注的数据进行训练,构建文本多分类模型。
具体而言,在其中一些实施例中,参照图6所示,步骤S33具体包括以下步骤:
S331、对所述标注的数据进行摘要提取;
S332、分别针对标题和摘要内容构建多分类算法,计算得到所述标题和摘要的预测类别;
S333、判断所述标题和摘要的预测类别是否均属于所述文本噪声类别,则是认为数据为所述通用噪声数据进行删除。
具体而言,在其中一些实施例中,步骤S31中采用微软的lightLDA算法实现文本的聚类,根据获得的主题以及相关的主题词,观察存在哪些类别的噪声数据,比如:招聘,广告。
具体而言,采用标注数据构建文本多分类模型,然后使用构建好的多分类模型对数据进行噪声判别。其中,采用TextRank算法对文本进行摘要提取,然后分别针对标题和摘要内容构建多分类算法,多分类算法采用TextRCNN,最终计算得到标题的预测类别,以及摘要的预测类别,如果两个预测结果均属于上述定义的噪声类别,则认为数据为噪声数据,从物料池中进行删除。
然后执行步骤S4、删除所述去噪文本中的标题党数据,并输出文本质量分。
具体而言,根据以上两个步骤进行数据删除后,剩余的文本内容与主题词大致比较相关,步骤4主要结合文本内容与文本标题,采用非监督算法的方案识别标题党之类的数据,并输出一个内容质量分,用于后续的内容推荐排序使用。
具体而言,在其中一些实施例中,参照图7所示,步骤S4具体包括以下步骤:
S41、对所述标题进行分词,并去除一些停用词,获取所述标题的关键词组合;
S42、基于所述相似词表从所述去噪文本中提取词列表;
S43、对所述关键词组合和所述词列表中的词进行相似度计算,获取标题相似度,根据所述标题相似度删除所述标题党数据;
S44、将所述主题相关度指标与所述标题相似度相乘,获取所述文本质量分并输出。
具体而言,在其中一些实施例中,对标题进行分词,并去除一些停用词,删除地理位置,日期,副词,数量词等,得到标题的关键词组合。
具体而言,步骤S43中的标题相似度计算公式为:
其中,sim(i)表示文本标题与内容的相关程度,N表示标题中提取的关键词数,M表示内容中提取的近似词数,Wn表示词n的词向量。根据计算结果,删除标题与文本内容相关度较低的数据。
具体而言,文本质量分采用计算得到的文本内容与主题词的相关度指标与步骤S43中中计算得到的相似度进行相乘,作为文本最终的内容质量分。
通过本申请实施例所揭示的一种结合分类算法与非监督算法的文本质量控制方法,采用多分类算法与非监督算法相结合,将无关数据进行去噪;设计了一个三层的混合算法架构,第一层采用非监督算法模型,快速过滤掉一批与主题无关的数据,第二层根据实际数据构建一个多分类的监督算法模型,用于识别广告贴,招聘贴,小黄文之类的通用噪声数据,第三层结合文本内容与文本标题,采用非监督算法的方案识别标题党以及主题相关性较小的数据,用于控制文本质量,同时输出文本的质量分,用于作为后续的内容推荐排序指标;可针对企业级的内容分发机制的文本内容去噪,根据企业的具体行业属性,员工的工作属性以及工作学习需求,进行定制化的内容推荐。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
实施例二:
结合实施例一所揭示的一种结合分类算法与非监督算法的文本质量控制方法,本实施例揭示了一种结合分类算法与非监督算法的文本质量控制系统(以下简称“系统”)的具体实施示例。
参照图8所示,所述系统包括:
收集模块1,收集文本数据;
过滤模块2,过滤所述文本数据中的无关数据,获取过滤文本;
去噪模块3,删除所述过滤文本中的通用噪声数据,获取去噪文本;
分数输出模块4,删除所述去噪文本中的标题党数据,并输出文本质量分。
具体而言,在其中一些实施例中,所述收集模块1具体包括:
类别定制单元11,根据企业信息定制内容分发类别;
关键词定制单元12,定制每个所述内容分发类别下的关键词;
抓取单元13,抓取包含所述关键词的文本,获取所述文本数据。
具体而言,在其中一些实施例中,所述过滤模块2具体包括:
相似度计算单元21,采用欧式距离计算所述关键词与embedding词表中词语的相似度;
排序单元22,根据所述相似度对所述embedding词表中词语进行排序,获取与所述关键词相关的相似词表;
分词单元23,采用jieba分词对所述文本数据进行分词,得到文本词表;
遍历单元24,基于所述文本词表在所述相似词表中进行遍历,根据遍历结果获取主题相关度指标,过滤与所述关键词无关的数据。
具体而言,在其中一些实施例中,所述去噪模块3具体包括:
挖掘单元31,采用聚类算法根据所述关键词和所述相似词表挖掘文本噪声类别;
标注单元32,根据所述文本噪声类别进行数据标注:
模型构建单元33,采用标注的数据进行训练,构建文本多分类模型。
具体而言,在其中一些实施例中,所述模型构建单元33具体包括:
提取单元331,对所述标注的数据进行摘要提取;
类别计算单元332,分别针对标题和摘要内容构建多分类算法,计算得到所述标题和摘要的预测类别;
噪声删除单元333,判断所述标题和摘要的预测类别是否均属于所述文本噪声类别,则是认为数据为所述通用噪声数据进行删除。
具体而言,在其中一些实施例中,所述分数输出模块4具体包括:
标题分词单元41,对所述标题进行分词,并去除一些停用词,获取所述标题的关键词组合;
内容提取单元42,基于所述相似词表从所述去噪文本中提取词列表;
数据删除单元43,对所述关键词组合和所述词列表中的词进行相似度计算,获取标题相似度,根据所述标题相似度删除所述标题党数据;
质量分计算单元44,将所述主题相关度指标与所述标题相似度相乘,获取所述文本质量分并输出。
本实施例所揭示的一种结合分类算法与非监督算法的文本质量控制系统与实施例一所揭示的结合分类算法与非监督算法的文本质量控制方法中其余相同部分的技术方案,请参考实施例一所述,在此不再赘述。
实施例三:
结合图9所示,本实施例揭示了一种计算机设备的一种具体实施方式。计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM) 和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种结合分类算法与非监督算法的文本质量控制方法。
在其中一些实施例中,计算机设备还可包括通信接口83和总线80。其中,如图9所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构 (Industry Standard Architecture,简称为ISA)总线、无线带宽(Infini Band) 互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA) 总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该计算机设备可以结合分类算法与非监督算法实现文本质量控制,从而实现结合图1描述的方法。
另外,结合上述实施例中结合分类算法与非监督算法的文本质量控制方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种结合分类算法与非监督算法的文本质量控制方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
综上所述,基于本发明的有益效果在于,提出了一种结合分类算法与非监督算法的文本质量控制方法,采用多分类算法与非监督算法相结合,将无关数据进行去噪;设计了一个三层的混合算法架构,第一层采用非监督算法模型,快速过滤掉一批与主题无关的数据,第二层根据实际数据构建一个多分类的监督算法模型,用于识别广告贴,招聘贴,小黄文之类的通用噪声数据,第三层结合文本内容与文本标题,采用非监督算法的方案识别标题党以及主题相关性较小的数据,用于控制文本质量,同时输出文本的质量分,用于作为后续的内容推荐排序指标;可针对企业级的内容分发机制的文本内容去噪,根据企业的具体行业属性,员工的工作属性以及工作学习需求,进行定制化的内容推荐。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种结合分类算法与非监督算法的文本质量控制方法,其特征在于,包括如下步骤:
收集步骤:根据企业信息定制内容分发类别及每个内容分发类别下的关键词,根据所述关键词收集文本数据;
过滤步骤:获取与所述关键词相关的相似词表,基于所述相似词表过滤所述文本数据中的无关数据,获取过滤文本;
去噪步骤:删除所述过滤文本中的通用噪声数据,获取去噪文本;
分数输出步骤:删除所述去噪文本中的标题党数据,并输出文本质量分;
其中,所述去噪步骤具体包括以下步骤:
挖掘步骤:采用聚类算法根据所述关键词和所述相似词表挖掘文本噪声类别;
标注步骤:根据所述文本噪声类别进行数据标注:
模型构建步骤:采用标注的数据进行训练,构建文本多分类模型,所述模型构建步骤具体包括以下步骤:
提取步骤:对所述标注的数据进行摘要提取;
类别计算步骤:分别针对标题和摘要内容构建多分类算法,计算得到所述标题和摘要的预测类别;
噪声删除步骤:判断所述标题和摘要的预测类别是否均属于所述文本噪声类别,则是认为数据为所述通用噪声数据进行删除。
2.如权利要求1所述的结合分类算法与非监督算法的文本质量控制方法,其特征在于,所述收集步骤具体包括以下步骤:
类别定制步骤:根据企业信息定制内容分发类别;
关键词定制步骤:定制每个所述内容分发类别下的关键词;
抓取步骤:抓取包含所述关键词的文本,获取所述文本数据。
3.如权利要求2所述的结合分类算法与非监督算法的文本质量控制方法,其特征在于,所述过滤步骤具体包括以下步骤:
相似度计算步骤:采用欧式距离计算所述关键词与embedding词表中词语的相似度;
排序步骤:根据所述相似度对所述embedding词表中词语进行排序,获取与所述关键词相关的相似词表;
分词步骤:采用jieba分词对所述文本数据进行分词,得到文本词表;
遍历步骤:基于所述文本词表在所述相似词表中进行遍历,根据遍历结果获取主题相关度指标,过滤与所述关键词无关的数据。
4.如权利要求3所述的结合分类算法与非监督算法的文本质量控制方法,其特征在于,所述分数输出步骤具体包括以下步骤:
标题分词步骤:对所述标题进行分词,并去除一些停用词,获取所述标题的关键词组合;
内容提取步骤:基于所述相似词表从所述去噪文本中提取词列表;
数据删除步骤:对所述关键词组合和所述词列表中的词进行相似度计算,获取标题相似度,根据所述标题相似度删除所述标题党数据;
质量分计算步骤:将所述主题相关度指标与所述标题相似度相乘,获取所述文本质量分并输出。
5.如权利要求3所述的结合分类算法与非监督算法的文本质量控制方法,其特征在于,所述相似词表中的词不包含所述关键词。
6.如权利要求1所述的结合分类算法与非监督算法的文本质量控制方法,其特征在于,所述摘要提取采用TextRank算法。
7.如权利要求1所述的结合分类算法与非监督算法的文本质量控制方法,其特征在于,所述多分类算法采用TextRCNN。
8.一种结合分类算法与非监督算法的文本质量控制系统,其特征在于,包括:
收集模块,根据企业信息定制内容分发类别及每个内容分发类别下的关键词,根据所述关键词收集文本数据;
过滤模块,获取与所述关键词相关的相似词表,基于所述相似词表过滤所述文本数据中的无关数据,获取过滤文本;
去噪模块,删除所述过滤文本中的通用噪声数据,获取去噪文本;
分数输出模块,删除所述去噪文本中的标题党数据,并输出文本质量分;
其中,所述去噪模块具体包括:
挖掘单元,采用聚类算法根据所述关键词和所述相似词表挖掘文本噪声类别;
标注单元,根据所述文本噪声类别进行数据标注:
模型构建单元,采用标注的数据进行训练,构建文本多分类模型,所述模型构建步骤具体包括:
提取单元,对所述标注的数据进行摘要提取;
类别计算单元,分别针对标题和摘要内容构建多分类算法,计算得到所述标题和摘要的预测类别;
噪声删除单元,判断所述标题和摘要的预测类别是否均属于所述文本噪声类别,则是认为数据为所述通用噪声数据进行删除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011578227.6A CN112650837B (zh) | 2020-12-28 | 2020-12-28 | 结合分类算法与非监督算法的文本质量控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011578227.6A CN112650837B (zh) | 2020-12-28 | 2020-12-28 | 结合分类算法与非监督算法的文本质量控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112650837A CN112650837A (zh) | 2021-04-13 |
CN112650837B true CN112650837B (zh) | 2023-12-12 |
Family
ID=75363384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011578227.6A Active CN112650837B (zh) | 2020-12-28 | 2020-12-28 | 结合分类算法与非监督算法的文本质量控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112650837B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6845374B1 (en) * | 2000-11-27 | 2005-01-18 | Mailfrontier, Inc | System and method for adaptive text recommendation |
WO2019200806A1 (zh) * | 2018-04-20 | 2019-10-24 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN110738053A (zh) * | 2019-10-14 | 2020-01-31 | 广东南方新媒体科技有限公司 | 基于语义分析与监督学习模型的新闻主题推荐算法 |
CN111680132A (zh) * | 2020-07-08 | 2020-09-18 | 中国人民解放军国防科技大学 | 一种用于互联网文本信息的噪声过滤和自动分类方法 |
CN112131345A (zh) * | 2020-09-22 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 文本质量的识别方法、装置、设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334605B (zh) * | 2018-02-01 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
US11651016B2 (en) * | 2018-08-09 | 2023-05-16 | Walmart Apollo, Llc | System and method for electronic text classification |
US11461371B2 (en) * | 2018-12-31 | 2022-10-04 | Dathena Science Pte Ltd. | Methods and text summarization systems for data loss prevention and autolabelling |
-
2020
- 2020-12-28 CN CN202011578227.6A patent/CN112650837B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6845374B1 (en) * | 2000-11-27 | 2005-01-18 | Mailfrontier, Inc | System and method for adaptive text recommendation |
WO2019200806A1 (zh) * | 2018-04-20 | 2019-10-24 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN110738053A (zh) * | 2019-10-14 | 2020-01-31 | 广东南方新媒体科技有限公司 | 基于语义分析与监督学习模型的新闻主题推荐算法 |
CN111680132A (zh) * | 2020-07-08 | 2020-09-18 | 中国人民解放军国防科技大学 | 一种用于互联网文本信息的噪声过滤和自动分类方法 |
CN112131345A (zh) * | 2020-09-22 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 文本质量的识别方法、装置、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
Text Clustering Based on the Improved TFIDF by the Iterative Algorithm;Xingheng Wang et al.;2012 IEEE Symposium on Electrical & Electronics Engineering;第140-143页 * |
基于Tri-training与噪声过滤的弱监督关系抽取;贾真等;中文信息学报;第142-149、158页 * |
多文档文摘语义单元自动去噪器的监督学习方法;龚书;瞿有利;田盛丰;;计算机研究与发展(04);第873-882页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112650837A (zh) | 2021-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189991B (zh) | 重复视频识别方法、装置、终端及计算机可读存储介质 | |
CN107169049B (zh) | 应用的标签信息生成方法及装置 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN107657048B (zh) | 用户识别方法及装置 | |
CN111191022B (zh) | 商品短标题生成方法及装置 | |
CN109117777A (zh) | 生成信息的方法和装置 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN107943792B (zh) | 一种语句分析方法、装置及终端设备、存储介质 | |
CN105630975B (zh) | 一种信息处理方法和电子设备 | |
CN108846047A (zh) | 一种基于卷积特征的图片检索方法及系统 | |
CN105528432B (zh) | 一种数字资源热点生成方法及装置 | |
CN111325030A (zh) | 文本标签构建方法、装置、计算机设备和存储介质 | |
CN110990563A (zh) | 一种基于人工智能的传统文化素材库构建方法及系统 | |
CN112699232A (zh) | 文本标签提取方法、装置、设备和存储介质 | |
CN112183102A (zh) | 基于注意力机制与图注意力网络的命名实体识别方法 | |
CN112052687A (zh) | 基于深度可分离卷积的语义特征处理方法、装置及介质 | |
CN112784572A (zh) | 一种营销场景话术分析方法和系统 | |
CN113992944A (zh) | 视频编目方法、装置、设备、系统及介质 | |
CN112487306B (zh) | 基于知识图谱的自动化事件标记与分类方法 | |
CN112489689A (zh) | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 | |
CN112650837B (zh) | 结合分类算法与非监督算法的文本质量控制方法及系统 | |
CN108615124B (zh) | 基于词频分析的企业评价方法及系统 | |
CN113688263B (zh) | 用于搜索图像的方法、计算设备和存储介质 | |
CN112784046B (zh) | 文本聚簇的方法、装置、设备及存储介质 | |
CN104376034A (zh) | 信息处理设备,信息处理方法和程序 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231115 Address after: 200232 Unit 5B03, 5th Floor, Building 2, No. 277 Longlan Road, Xuhui District, Shanghai Applicant after: SHANGHAI SECOND PICKET NETWORK TECHNOLOGY CO.,LTD. Address before: 200232 unit 5b04, 5th floor, building 2, 277 Longlan Road, Xuhui District, Shanghai Applicant before: Shanghai Fengzhi Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |