CN115168568A - 一种数据内容的识别方法、装置以及存储介质 - Google Patents
一种数据内容的识别方法、装置以及存储介质 Download PDFInfo
- Publication number
- CN115168568A CN115168568A CN202210258611.0A CN202210258611A CN115168568A CN 115168568 A CN115168568 A CN 115168568A CN 202210258611 A CN202210258611 A CN 202210258611A CN 115168568 A CN115168568 A CN 115168568A
- Authority
- CN
- China
- Prior art keywords
- content
- data
- identified
- data content
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 104
- 238000003860 storage Methods 0.000 title claims abstract description 31
- 238000012512 characterization method Methods 0.000 claims abstract description 68
- 238000013145 classification model Methods 0.000 claims abstract description 61
- 230000004927 fusion Effects 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims description 56
- 239000013598 vector Substances 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 23
- 238000012216 screening Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 40
- 239000013589 supplement Substances 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 22
- 230000000694 effects Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 11
- 238000012552 review Methods 0.000 description 8
- 239000000243 solution Substances 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000002829 reductive effect Effects 0.000 description 7
- 230000002776 aggregation Effects 0.000 description 6
- 238000004220 aggregation Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 239000000047 product Substances 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 3
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012550 audit Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 235000016709 nutrition Nutrition 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000035764 nutrition Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000272194 Ciconiiformes Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 241000282376 Panthera tigris Species 0.000 description 1
- 235000014443 Pyrus communis Nutrition 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000036626 alertness Effects 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 244000309464 bull Species 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000010387 memory retrieval Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 201000009032 substance abuse Diseases 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据内容的识别方法、装置以及存储介质,可应用于地图领域。通过获取待识别数据内容;然后基于第一分类模型对待识别数据内容进行全局表征得到标签特征;进一步的通过记忆网络模型得到历史识别数据中的关联内容,并提取关联内容对应的内容特征;然后对标签特征以及关联特征进行特征融合得到目标特征;进而基于目标特征确定标题党识别结果。从而实现基于多源数据的标题党数据内容的识别过程,由于采用标记所得的标注数据进行标签特征的提取,通过多个关联内容进行多维度的特征补充,提高了标题党数据内容识别的准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据内容的识别方法、装置以及存储介质。
背景技术
随着互联网技术的迅速发展,即时通讯应用中的内容聚合器聚合了即时通讯公众号发送的文章。内容聚合器对应的内容聚合服务器向用户推送文章时,会根据用户订阅的公众号信息、用户兴趣等向用户推送相应的文章。目前为了吸引读者,一些文章发布者(如公众号主、文章作者等)会给文章添加一些夸大其词、博眼球的、虚假的等标题,这些文章的特点在于标题与文章内容完全无关或联系不大,标题存在虚假性、欺骗性、模糊性等,一般这类文章称为“标题党内容”。如果标题党内容大量出现的话,会降低文章质量以及用户的文章阅读体验,给内容聚合类产品带来负面的影响。因此,需要对标题当文章进行删除等处理。
目前,主要通过人工审核和用户举报方式来对虚假新闻和标题党内容进行识别的。
但是,由于标题党内容具有主观性的特征,且由于待识别数据内容的数据量巨大,通过人工审核进行可能造成误判,影响标题党数据内容识别的准确性。
发明内容
有鉴于此,本申请提供一种数据内容的识别方法,可以有效提高对于数据内容的标题党识别的准确性。
本申请第一方面提供一种数据内容的识别方法,可以应用于终端设备中包含数据内容的识别功能的系统或程序中,具体包括:
获取待识别数据内容;
基于第一分类模型对所述待识别数据内容进行全局表征,以得到标签特征,所述第一分类模型基于标记为标题党的标注数据训练所得;
通过记忆网络模型对所述待识别数据内容在历史识别数据中进行相似性匹配,以得到历史识别数据中的关联内容,并提取所述关联内容对应的内容特征;
对所述标签特征以及所述关联内容对应的内容特征进行特征融合,以得到目标特征;
基于所述目标特征对所述待识别数据内容中的标题内容与数据内容进行识别,以得到所述待识别数据内容对应的标题党识别结果。
可选的,在本申请一些可能的实现方式中,所述基于第一分类模型对所述待识别数据内容进行全局表征,以得到标签特征之前,所述方法还包括:
获取样本数据集;
对所述样本数据集进行筛选,以得到所述标记为标题党的标注数据;
获取目标对象反馈的反馈数据;
对所述标记为标题党的标注数据和所述反馈数据进行转化为二进制数字串进行去重处理,以得到训练数据;
基于所述训练数据对预设模型进行训练,以得到所述第一分类模型。
可选的,在本申请一些可能的实现方式中,所述基于所述训练数据对预设模型进行训练,以得到所述第一分类模型,包括:
基于预设窗口确定所述训练数据中的单元数据对应的窗口数据;
根据所述窗口数据进行局部注意力学习,以得到第一调整信息;
对所述训练数据配置全局标签;
基于配置所述全局标签后的训练数据进行窗口滑动,以进行全局注意力学习得到第二调整信息;
根据所述第一调整信息和所述第二调整信息对所述预设模型进行训练,以得到所述第一分类模型。
可选的,在本申请一些可能的实现方式中,所述通过记忆网络模型对所述待识别数据内容在历史识别数据中进行相似性匹配,以得到历史识别数据中的关联内容,并提取所述关联内容对应的内容特征,包括:
将所述待识别数据内容输入所述记忆网络模型,以确定所述待识别数据内容对应的内容特征;
基于所述记忆网络模型中的记忆卡槽调用所述历史识别数据;
根据所述待识别数据内容对应的内容特征分别与所述历史识别数据进行相似性匹配,以确定关联系数;
根据所述关联系数得到所述历史识别数据中的所述关联内容,并提取所述关联内容对应的内容特征。
可选的,在本申请一些可能的实现方式中,所述记忆网络模型的记忆内容为所述历史识别数据的表征向量,所述历史识别数据的表征向量由第二分类模型识别所得,所述方法还包括:
基于所述关联内容对应的内容特征对所述待识别数据内容对应的内容特征进行标记;
根据标记后的所述待识别数据内容对应的内容特征在所述第二分类模型中进行反向传播,以得到反向传播参数;
根据所述反向传播参数对所述第二分类模型进行参数调整。
可选的,在本申请一些可能的实现方式中,所述根据所述关联系数得到所述历史识别数据中的所述关联内容,并提取所述关联内容对应的内容特征,包括:
获取标题党识别任务对应的关联阈值;
对所述关联系数大于所述关联阈值的多个内容进行提取,以得到所述历史识别数据中的所述关联内容;
提取所述关联内容对应的内容特征。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
获取所述待识别数据内容对应的发布对象;
确定所述发布对象对应的等级信息,所述等级信息用于指示所述发布对象的历史发布情况;
基于所述等级信息对所述待识别数据内容对应的目标特征进行调整,以得到加权特征;
基于所述加权特征确定所述待识别数据内容对应的标题党识别结果。
本申请第二方面提供一种数据内容的识别装置,包括:
获取单元,用于获取待识别数据内容;
表征单元,用于基于第一分类模型对所述待识别数据内容进行全局表征,以得到标签特征,所述第一分类模型基于标记为标题党的标注数据训练所得;
所述表征单元,还用于通过记忆网络模型对所述待识别数据内容在历史识别数据中进行相似性匹配,以得到历史识别数据中的关联内容,并提取所述关联内容对应的内容特征;
所述表征单元,还用于对所述标签特征以及所述关联内容对应的内容特征进行特征融合,以得到目标特征;
识别单元,用于基于所述目标特征对所述待识别数据内容中的标题内容与数据内容进行识别,以得到所述待识别数据内容对应的标题党识别结果。
可选的,在本申请一些可能的实现方式中,所述表征单元,具体用于获取样本数据集;
所述表征单元,具体用于对所述样本数据集进行筛选,以得到所述标记为标题党的标注数据;
所述表征单元,具体用于获取目标对象反馈的反馈数据;
所述表征单元,具体用于对所述标记为标题党的标注数据和所述反馈数据进行转化为二进制数字串进行去重处理,以得到训练数据;
所述表征单元,具体用于基于所述训练数据对预设模型进行训练,以得到所述第一分类模型。
可选的,在本申请一些可能的实现方式中,所述表征单元,具体用于基于预设窗口确定所述训练数据中的单元数据对应的窗口数据;
所述表征单元,具体用于根据所述窗口数据进行局部注意力学习,以得到第一调整信息;
所述表征单元,具体用于对所述训练数据配置全局标签;
所述表征单元,具体用于基于配置所述全局标签后的训练数据进行窗口滑动,以进行全局注意力学习得到第二调整信息;
所述表征单元,具体用于根据所述第一调整信息和所述第二调整信息对所述预设模型进行训练,以得到所述第一分类模型。
可选的,在本申请一些可能的实现方式中,所述表征单元,具体用于将所述待识别数据内容输入所述记忆网络模型,以确定所述待识别数据内容对应的内容特征;
所述表征单元,具体用于基于所述记忆网络模型中的记忆卡槽调用所述历史识别数据;
所述表征单元,具体用于根据所述待识别数据内容对应的内容特征分别与所述历史识别数据进行相似性匹配,以确定关联系数;
所述表征单元,具体用于根据所述关联系数得到所述历史识别数据中的所述关联内容,并提取所述关联内容对应的内容特征。
可选的,在本申请一些可能的实现方式中,所述记忆网络模型的记忆内容为所述历史识别数据的表征向量,所述历史识别数据的表征向量由第二分类模型识别所得,所述表征单元,具体用于基于所述关联内容对应的内容特征对所述待识别数据内容对应的内容特征进行标记;
所述表征单元,具体用于根据标记后的所述待识别数据内容对应的内容特征在所述第二分类模型中进行反向传播,以得到反向传播参数;
所述表征单元,具体用于根据所述反向传播参数对所述第二分类模型进行参数调整。
可选的,在本申请一些可能的实现方式中,所述表征单元,具体用于获取标题党识别任务对应的关联阈值;
所述表征单元,具体用于对所述关联系数大于所述关联阈值的多个内容进行提取,以得到所述历史识别数据中的所述关联内容;
所述表征单元,具体用于提取所述关联内容对应的内容特征。
可选的,在本申请一些可能的实现方式中,所述表征单元,具体用于获取所述待识别数据内容对应的发布对象;
所述表征单元,具体用于确定所述发布对象对应的等级信息,所述等级信息用于指示所述发布对象的历史发布情况;
所述表征单元,具体用于基于所述等级信息对所述待识别数据内容对应的目标特征进行调整,以得到加权特征;
所述表征单元,具体用于基于所述加权特征确定所述待识别数据内容对应的标题党识别结果。
本申请第三方面提供一种计算机设备,包括:存储器、处理器以及总线系统;所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的数据内容的识别方法。
本申请第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一项所述的数据内容的识别方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的数据内容的识别方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
通过获取待识别数据内容;然后基于第一分类模型对待识别数据内容进行全局表征,以得到标签特征,该第一分类模型基于标记为标题党的标注数据训练所得;进一步的通过记忆网络模型对待识别数据内容在历史识别数据中进行相似性匹配,以得到历史识别数据中的关联内容,并提取关联内容对应的内容特征;然后对标签特征以及关联内容对应的内容特征进行特征融合,以得到目标特征;进而基于目标特征对待识别数据内容中的标题内容与数据内容进行识别,以得到待识别数据内容对应的标题党识别结果。从而实现基于多源数据的标题党数据内容的识别过程,由于采用标记所得的标注数据进行标签特征的提取,且考虑到标题党数据内容的主观性,通过多个关联内容进行多维度的特征补充,提高了特征描述的全面性,提高了标题党数据内容识别的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为数据内容的识别系统运行的网络架构图;
图2为本申请实施例提供的一种数据内容的识别的流程架构图;
图3为本申请实施例提供的一种数据内容的识别方法的流程图;
图4为本申请实施例提供的一种数据内容的识别方法的场景示意图;
图5为本申请实施例提供的一种数据内容的识别方法的模型结构示意图;
图6为本申请实施例提供的另一种数据内容的识别方法的模型结构示意图;
图7为本申请实施例提供的另一种数据内容的识别方法的模型结构示意图;
图8为本申请实施例提供的另一种数据内容的识别方法的模型结构示意图;
图9为本申请实施例提供的另一种数据内容的识别方法的场景示意图;
图10为本申请实施例提供的另一种数据内容的识别方法的场景示意图;
图11为本申请实施例提供的一种数据内容的识别装置的结构示意图;
图12为本申请实施例提供的一种终端设备的结构示意图;
图13为本申请实施例提供的一种服务器的结构示意图。
具体实施方式
本申请实施例提供了一种数据内容的识别方法以及相关装置,可以应用于终端设备中包含数据内容的识别功能的系统或程序中,通过获取待识别数据内容;然后基于第一分类模型对待识别数据内容进行全局表征,以得到标签特征,该第一分类模型基于标记为标题党的标注数据训练所得;进一步的通过记忆网络模型对待识别数据内容在历史识别数据中进行相似性匹配,以得到历史识别数据中的关联内容,并提取关联内容对应的内容特征;然后对标签特征以及关联内容对应的内容特征进行特征融合,以得到目标特征;进而基于目标特征对待识别数据内容中的标题内容与数据内容进行识别,以得到待识别数据内容对应的标题党识别结果。从而实现基于多源数据的标题党数据内容的识别过程,由于采用标记所得的标注数据进行标签特征的提取,且考虑到标题党数据内容的主观性,通过多个关联内容进行多维度的特征补充,提高了特征描述的全面性,提高了标题党数据内容识别的准确性。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,对本申请实施例中可能出现的一些名词进行解释。
多频道网络(Multi-Channel Network,MCN):是一种多频道网络的产品形态,将PGC内容联合起来,在资本的有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现。
内容生产(Professional Generated Content,PGC):指专业生产内容(视频网站)、专家生产内容(微博)。用来泛指内容个性化、视角多元化、社会关系虚拟化。
消息来源(Feeds):也可以称为源料、馈送、资讯提供、供稿、摘要、源、新闻订阅、网源(英文:web feed、news feed、syndicated feed)是一种资料格式,网站透过它将最新资讯传播给用户,通常以时间轴方式排列,Timeline是Feed最原始最直觉也最基本的展示形式。用户能够订阅网站的先决条件是,网站提供了消息来源。将feed汇流于一处称为聚合(aggregation),而用于聚合的软体称为聚合器(aggregator)。对最终用户而言,聚合器是专门用来订阅网站的软件,一般亦称为RSS阅读器、feed阅读器、新闻阅读器等。
机器学习:(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
深度学习:深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
自然语言处理(NLP):是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
应理解,本申请提供的数据内容的识别方法可以应用于终端设备中包含数据内容的识别功能的系统或程序中,例如新闻应用,具体的,数据内容的识别系统可以运行于如图1所示的网络架构中,如图1所示,是数据内容的识别系统运行的网络架构图,如图可知,数据内容的识别系统可以提供与多个信息源的数据内容的识别过程,即通过终端侧的交互操作对服务器上传或请求数据内容,服务器在对相应的数据内容进行标题党识别后进行下发;可以理解的是,图1中示出了多种终端设备,终端设备可以为计算机设备,在实际场景中可以有更多或更少种类的终端设备参与到数据内容的识别的过程中,具体数量和种类因实际场景而定,此处不做限定,另外,图1中示出了一个服务器,但在实际场景中,也可以有多个服务器的参与,具体服务器数量因实际场景而定。
本实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,终端以及服务器可以连接组成区块链网络,本申请在此不做限制。
可以理解的是,上述数据内容的识别系统可以运行于个人移动终端,例如:作为新闻应用这样的应用,也可以运行于服务器,还可以作为运行于第三方设备以提供数据内容的识别,以得到信息源的数据内容的识别处理结果;具体的数据内容的识别系统可以是以一种程序的形式在上述设备中运行,也可以作为上述设备中的系统部件进行运行,还可以作为云端服务程序的一种,本实施例可应用于云技术、自动驾驶等场景,具体运作模式因实际场景而定,此处不做限定。
随着互联网技术的迅速发展,即时通讯应用中的内容聚合器聚合了即时通讯公众号发送的文章。内容聚合器对应的内容聚合服务器向用户推送文章时,会根据用户订阅的公众号信息、用户兴趣等向用户推送相应的文章。目前为了吸引读者,一些文章发布者(如公众号主、文章作者等)会给文章添加一些夸大其词、博眼球的、虚假的等标题,这些文章的特点在于标题与文章内容完全无关或联系不大,标题存在虚假性、欺骗性、模糊性等,一般这类文章称为“标题党内容”。如果标题党内容大量出现的话,会降低文章质量以及用户的文章阅读体验,给内容聚合类产品带来负面的影响。因此,需要对标题当文章进行删除等处理。
目前,主要通过人工审核和用户举报方式来对虚假新闻和标题党内容进行识别的。
但是,由于标题党内容具有主观性的特征,且由于待识别数据内容的数据量巨大,通过人工审核进行可能造成误判,影响标题党数据内容识别的准确性。
为了解决上述问题,本申请提出了一种数据内容的识别方法,该方法应用于图2所示的数据内容的识别的流程框架中,如图2所示,为本申请实施例提供的一种数据内容的识别的流程架构图,用户通过与终端的交互操作进行数据内容的上传或请求,从而触发服务器对需求进行匹配,从而召回相应的数据内容,这些内容都是通过标题党识别后的内容,从而提高了数据内容的有效性。
可以理解的是,本申请所提供的方法可以为一种程序的写入,以作为硬件系统中的一种处理逻辑,也可以作为一种数据内容的识别装置,采用集成或外接的方式实现上述处理逻辑。作为一种实现方式,该数据内容的识别装置通过获取待识别数据内容;然后基于第一分类模型对待识别数据内容进行全局表征,以得到标签特征,该第一分类模型基于标记为标题党的标注数据训练所得;进一步的通过记忆网络模型对待识别数据内容在历史识别数据中进行相似性匹配,以得到历史识别数据中的关联内容,并提取关联内容对应的内容特征;然后对标签特征以及关联内容对应的内容特征进行特征融合,以得到目标特征;进而基于目标特征对待识别数据内容中的标题内容与数据内容进行识别,以得到待识别数据内容对应的标题党识别结果。从而实现基于多源数据的标题党数据内容的识别过程,由于采用标记所得的标注数据进行标签特征的提取,且考虑到标题党数据内容的主观性,通过多个关联内容进行多维度的特征补充,提高了特征描述的全面性,提高了标题党数据内容识别的准确性。
本申请实施例提供的方案涉及人工智能的自然语言识别技术,具体通过如下实施例进行说明:
结合上述流程架构,下面将对本申请中数据内容的识别方法进行介绍,请参阅图3,图3为本申请实施例提供的一种数据内容的识别方法的流程图,该管理方法可以是由服务器或终端执行的,本申请实施例至少包括以下步骤:
301、获取待识别数据内容。
本实施例中,待识别数据内容可以是文本内容、视频内容等,对于文本内容可以是用户上传的即时文章,也可以是数据库中的数据内容,从而对数据内容进行标题党的识别以及过滤;相应的,对于视频内容由于其也配置了标题,可以对其标题以及相关的描述信息进行标题党的识别以及过滤。
具体的,对于本申请中的标题党数据内容的的识别过程采用联合分类器进行,如图4所示,图4为本申请实施例提供的一种数据内容的识别方法的场景示意图;其中,联合分类器采用了第一分类模型的标签特征以及记忆网络模型确定的关联特征;在一种可能的场景中,第一分类模型采用预训练Bert模型,记忆网络模型为MemoryNetwork,即本实施例采用预训练Bert+MemoryNetwork+DeepFM模型,在最后的分类层将三者输出的特征向量进行拼接融合,最终的到分类结果,其中,预训练Bert模型完成主要的数据理解工作和补充数据全局信息,MemoryNetwork完成搜索“历史案例”的作用,从一个大的记忆库中检索相似案例,将检索结果对应的特征传入分类器。
消费内容的过场当中,用户在Feeds流当中看到内容第一眼的体验和标题及封面图还有账号有很大关系,尤其是内容标题是必须的内容。此时,选择性阅读的抓手,就是标题。通常情况,最戏剧的冲突、最想知道的答案、最核心的思想等标题,很大程度上决定了读者是否点击阅读。但是这样会直接导致自媒体作者创作标题党的倾向。本实施例当中说的内容标题党,包括但是不限于如下类型,比如标题夸张,悬念式标题,强迫式标题,标题与正文原意有偏差造成各种题文不符等等。下面是人工审核或者筛选过程当中需要参考的主要细节。
对于标题党数据内容的特征,主要包括如下维度。首先标题党的标题夸张,具体包括夸张式标题:主要规则是标题将感受、范围、结果、程度等夸张夸大描述,造成耸人听闻的效果;比如标题使用「震惊」、「惊爆」、「传疯」、「吓掉半条命」等,言过其实地表达情绪/状态/感受;以及标题使用「全世界网友」、「所有男人都」、「某国人」、「99%」等,进行无依据的范围夸大;以及标题使用「XX天见效」、「根治」、「立竿见影」等,对效果或结果做不符合常识的断言或保证;以及标题使用「重磅」、「要命」、「就在刚刚」等,对事件的严重和紧急程度夸张形容,引起过度警觉和关注;以及标题使用「世界之最」、「最高级」、「最佳」、「最烂」等,形容人事物在某些程度上达到极致,但违背事实和大众认知;以及标题使用敏感,有诱导诱惑的词语,比如,短裙美女性感热舞内内。
标题党还可以是悬念式标题,其主要规则是标题滥用转折、隐藏关键性信息,营造悬念、故弄玄虚;以及标题故意使用「竟然」、「竟是这样」、「结果却」、「没想到」等强转折词语,制造危机感和想象空间;以及标题成分残缺,或隐藏关键信息,营造玄虚,如「竟然是……」、「而是……」、「不过……」等话说一半,通过省略号代替关键信息,或使用「内幕」、「揭秘」、「真相」等代替关键信息;以及标题指代模糊,缺少主语或故意不点明主体,以概括一类别的笼统性指代词替换,如使用「它」、「他」、「她」、「一句话」、「下一秒」、「该东西」等;以及标题党还可以是强迫式标题,即标题采用挑衅恐吓、强迫建议等方式,诱导用户阅读,标题使用「胆小慎入」、「不看后悔一辈子」、「别怪我没提醒你」等表述,挑衅恐吓用户点击;以及标题使用「不得不看」、「一定要看完」、「绝对要收藏」等命令式词语,要求或诱导用户阅读。
另外,标题党还可以是标题与正文原意有偏差,具体可以包括:标题歧义,即标题对易混淆的要素信息解释不清,或缺失主体信息,造成不对称,产生理解歧义,影视、游戏、小说、故事、段子、动漫、自制剧等内容,使用社会时政新闻类标题,造成歧义,标题直接用演员真名、职务代替剧中人物名,误导用户以为是明星花边;以及题文不符,即标题与内容对信息主体的某项特征描述不一致,形成冲突,造成信息传达错误,标题无中生有,捏造内容中不存在的人、物、情节,态度、言论、结果、场景等,标题描述为确定事件,但内容为猜测、谣传事件,或通过疑问的方式表达不确定或确定为假的消息,使用户产生误解。
上面描述的主要是低质量的标题党内容的实例,具体的标题党形式因信息流业务当中的实际场景而定。
302、基于第一分类模型对待识别数据内容进行全局表征,以得到标签特征。
本实施例中,第一分类模型基于标记为标题党的标注数据训练所得;即第一分类模型时基于构建的数据样本库进行训练的;具体的,样本数据标记方案,主要将采用一个细分类模型对数据进行预筛选,提升数据样本浓度,同时将用户侧对标题党的举报和反馈的样本符合后作为一个重要数据来源,而对于标签特征,即BERT模型在数据前插入一个[CLS]符号,并将该符号对应的输出向量作为整篇数据的语义表示,用于数据分类,该[CLS]符号即为标签特征。
在一种可能的场景中,采用BERT作为第一分类模型进行说明,其他具有分类功能的网络模型也可以进行应用,此处不做限定。其中,BERT是基于Transformer的深度双向语言表征模型,本质上是利用Transformer结构构造了一个多层双向的Encoder网络。这里对语义的标准采用了BERT模型,BERT的核心是双向Transformer Encoder。Transformer是基于自注意力机制(Self-attention)的深层模型,在包括机器翻译在内的多项NLP任务上效果显著,超过RNN且训练速度更快。
由于BERT模型预训练模型需要海量纯净的业务语料,语料的质量和规模决定了模型的训练上限,故需要构建海量且纯净的信息流语料来对第一分类模型进行训练。首先要构建语料多样性,即涵盖了信息流分发的历史累计的所有数据内容,比如腾讯看点的信息流语料来自微信公众号、企鹅号、短内容、用户评论,以及外部的百度百科、电子书、知乎、微博。其中自有业务场景的语料是最重要的部分。
具体的,训练数据的确定可以包含不同的部分,即在基于第一分类模型对待识别数据内容进行全局表征,以得到标签特征之前,可以首先获取样本数据集,例如从网络或服务器数据库中随机提取的数据内容数据;然后对样本数据集进行细分类的筛选,以得到标记为标题党的标注数据,这是由于标题党的主观性较强,需要进行细分类才能突出其特征;另外,还可以获取目标对象(例如用户、终端或其他内容发布对象)反馈的反馈数据(即举报或标记为标题党的数据内容);然后对标记为标题党的标注数据和反馈数据进行转化为二进制数字串进行去重处理,以得到训练数据;进一步的基于训练数据对预设模型进行训练,以得到第一分类模型。
可以理解的是,对于去重处理的过程包括去重和清洗2个部分。即对于数据语料去重可以计算数据的simhash(得到二进制数字串),然后比较simhash值,可以实现快速的排重。通过将原始BERT通过字Mask学习语义知识,融入多个任务,注入更多知识信息。这是考虑到资讯的文章中的实体是表示了描述的主要内容,多个下游任务如:关键词提取、concept识别等都有依赖,这些任务是内容分类和标签抽取的基础;同时在篇章级别的任务当中,句子的上下句通常包含了互补的信息,资讯文章中的段落信息更是能够帮助到关键词打分等任务;这里由于是多个知识注入任务,难以融合到一个策略模型中,通过multi-task的方式将多种策略融合起来。
另外,由于部分图文新闻内容篇幅较长,纯数据在千字级别,而目前NLP领域应用最广泛的Bert模型最大输入长度为512,对于图文内容超出最大长度部分的内容不再进入Bert模型,为了支持长数据内容的语义特征提取,本实施例引入LongFormer机制,支持超长数据建模,在多个篇章级任务上取得了最好的效果。长数据场景下效果和速度均超出原始BERT。原始BERT的self-attention的时空复杂度都是N2,超出一定长度要么内存爆炸,要么时间极慢。因为BERT背后核心是传统Transformer-based模型在处理长数据时存在一些问题,它们均采用"我全都要看"型的attention机制,即每一个token都要与其他所有token进行交互,无论是空间还是时间复杂度都高达。一般处理长数据都是切割分段,然后送入BERT,最多只能是512字节,效果难以保证。
具体的,对于LongFormer机制的预训练过程,即对于每一个token(单元数据)只对固定窗口大小附近的token进行local attention(局部注意力)。并且Longformer针对具体任务,在原有local attention的基础上增加了一种global attention(全局注意力);即首先基于预设窗口确定训练数据中的单元数据对应的窗口数据;然后根据窗口数据进行局部注意力学习,以得到第一调整信息,例如对于每一个token,只对其附近的w个token计算attention,复杂度为O(n×w),其中n为数据的长度;接下来对训练数据配置全局标签;从而基于配置全局标签后的训练数据进行窗口滑动,以进行全局注意力学习得到第二调整信息,例如在分类任务中会在BERT标记的[CLS]初添加一个globalattention(对应下图第一行第一列全绿);而在QA任务上会对question中的所有token添加globalattention;进而根据第一调整信息和第二调整信息对预设模型进行训练,以得到第一分类模型。
可以理解的是是,LongFormer分层结合稀疏注意力(底层)和全局注意力机制(高层),既保留了稀疏注意力的线性复杂度,又保留了全局注意力的全局信息。Bert模型可以升级为支持长数据的LongFormer的Bert模型,可以更好提取语义特征。
303、通过记忆网络模型对待识别数据内容在历史识别数据中进行相似性匹配,以得到历史识别数据中的关联内容,并提取关联内容对应的内容特征。
本实施例中,记忆网络模型(MemoryNetwork)用于搜索“历史案例”,即历史识别数据,可以理解为从一个大的记忆库中检索相似案例,然后将检索结果对应的特征传入分类器,这是考虑到标题党数据内容的主观性特征,单一案例的特征描述可能具有偏差,通过多个关联内容特征的结合,提高标题党识别的准确性。
具体的,对于关联内容的确定过程,即首先将待识别数据内容输入记忆网络模型,以确定待识别数据内容对应的内容特征;然后基于记忆网络模型中的记忆卡槽调用历史识别数据;进一步的根据待识别数据内容对应的内容特征分别与历史识别数据进行相似性匹配,以确定关联系数;并根据关联系数得到历史识别数据中的关联内容,并提取关联内容对应的内容特征。
其中,对于记忆网络模型中的记忆卡槽的示例如图5所示,图5为本申请实施例提供的一种数据内容的识别方法的模型结构示意图;图中示出了从“历史案例”中挑选最相似的实例的过程,进一步的可以将其特征作为分类结果的参考。其中,MemoryNetwork结构包括记忆卡槽memory-slots和I、G、O、R四个模块,G模块根据I模块产生的特征向量对记忆卡槽中的内容进行选择,在O模块中按与问题question的相关程度组合得到输出向量,最终在R模块产生结果。
具体的,I:(input feature map):用于将输入转化为网络里内在的向量。(可以利用标准预处理,例如,数据输入的解析,共参考和实体解析。还可以将输入编码为内部特征表示,例如,从数据转换为稀疏或密集特征向量)。
G:(generalization):更新记忆。在作者的具体实现里,只是简单地插入记忆数组里。作者考虑了几种新的情况,虽然没有实现,包括了记忆的忘记,记忆的重新组织。
O:(output feature map):从记忆里结合输入,把合适的记忆抽取出来,返回一个向量。每次获得一个向量,代表了一次推理过程。
R:(response):将该向量转化回所需的格式,比如文字或者answer。
可以理解的是,四个模块使用的模型可以自由选择,由于4个模块需要分别单独训练,为在整体任务上对参数等进行反向传播更新调整,提升模型的性能,可以采用Key-Value进行记忆卡槽的配置,即结合attention机制选择与输入相关性最高的memory部分,再结合输入本身最终获得输出结果,该端到端的结构使得参数可以得到及时更新,具体结构如图6所示,图6为本申请实施例提供的另一种数据内容的识别方法的模型结构示意图;该结构为图5所示模型基础上进行的改进,即使用Key-Value的Memory形式替代了图5中将输入经矩阵分别映射成Input-memory和Output-memory的方式,Key作用是用来寻找记忆单元,Value则是对记忆进行加权输出,该方式的优点是非常灵活,可以自行设定Key-Value的形式,不需要完全依赖模型的Embedding矩阵,也就是可以有不同的检索方式,可以很好支持对历史案例的判断和引用。
在一种可能的场景中,本实施采用图7所示的记忆网络模型结构,图7为本申请实施例提供的另一种数据内容的识别方法的模型结构示意图;其中,question即为待识别数据内容,knowledgeSource即为历史识别数据;一方面提取question的特征向量,另一方面,在knowledgeSource中根据索引进行关联内容的检索,并将关联内容的内容特征与question的特征向量进行关联。可见MemoryNetwork的主要功能是通过一种方式(比如attention)获取记忆部分中与输入相关性最强的记忆,作为最终输出结果的一个参考,相当于多了一个维度的特征。在标题党识别任务中,由于有一个数量累积和准确的有经验人员多次核对的类似经典案例的标注集合,可以将其作为一个记忆检索库,更新也比重新训练模型部署效果更高,也就是作为模型中的记忆部分,里面的实例就是一种“历史案例”,类似于先验知识库,尤其可以用来解决理解歧义问题,即标题党的主观性问题。
另外,标题党内容识别任务中,相同类别的数据有相似性,可以使用文章向量的余弦相似度(Cosine)来检索相关性最强的记忆内容,为了提升记忆网络模型的性能,还可以进行参数的反向传播。具体的,首先基于关联内容对应的内容特征对待识别数据内容对应的内容特征进行标记;然后根据标记后的待识别数据内容对应的内容特征在第二分类模型(可以采用Bert模型)中进行反向传播,以得到反向传播参数;然后根据反向传播参数对第二分类模型进行参数调整,即反向传播通过导数链式法则计算损失函数对各参数的梯度,并根据梯度进行参数的更新。
具体的,反向传播的过程如图8所示,图8为本申请实施例提供的另一种数据内容的识别方法的模型结构示意图;图中示出了记忆内容为数据内容的表征向量,该表征向量由预训练Bert(第二分类模型)的cls分类向量标识,即由一个前置Bert负责产生;该模型设计为端到端结构,模型参数以及记忆部分向量可以通过反向传播在模型训练过程中不断更新,以实现最优效果。
在另一种可能的场景中,对于MemoryNetwork的关联内容的确定,由于存在多个关联内容,还可以基于关联阈值进行关联内容的确定。即首先获取标题党识别任务对应的关联阈值;然后对关联系数大于关联阈值的多个内容进行提取,以得到历史识别数据中的关联内容;进而提取关联内容对应的内容特征。
可以理解的是,上述基于关联阈值进行关联内容的确定的过程为了利用“案例”解决前面说到的歧义问题,同时避免数据噪音的影响,提高模型抗噪能力,选择topK个相似检索结果对应的特征(关联系数大于关联阈值的多个内容),因此单条特征总维数为topK*2,按照不同存储大小,可以对K取3。
另外,由于topK的相似检索结果并不一定完全符合想要的“相似”效果,相似度相对较低的结果可能会产生干扰作用,因此对相似度得分(cosine相似度)卡阈值,在阈值之下的相似特征置特殊值,提醒模型不必关注。相似得分阈值属于模型参数,对于标题党任务,实践中阈值取0.98为最优,对于其他主观差别较大的任务,比如无营养可以有不同的值。进一步的,记忆部分的检索库数据正负样本比也是影响效果的模型参数,对于标题党识别任务正负比1:1为最优,其他类型任务会有不同的值,具体样本配置比例因实际场景而定。
304、对标签特征以及关联内容对应的内容特征进行特征融合,以得到目标特征。
本实施例中,特征融合采用DeepFM网络,该DeepFM包含两部分:神经网络部分与因子分解机部分,分别负责低阶特征的提取和高阶特征的提取,这两部分共享同样的输入。
具体的,DeepFM网络的损失函数可以表示为:
其中,yFM表示因子分解机部分的损失,用于指示低阶特征;yDNN表示神经网络部分的损失,用于指示高阶特征。
可以理解的是,对于数据特征选择及融合包括预训练Bert、MemoryNetwork模型输出特征。其中,Bert使用模型输出的768维cls向量。对于MemoryNetwork,由于在模型结构中使用的是相似检索的方式,有记忆部分中相似文章的向量、标签label以及相似度得分score等特征,考虑到相似向量由当前文章Bert的cls向量通过相似检索检出,两者有较大信息重合度,因此在MemoryNetwork部分使用相似文章的标签和相似度的得分两者作为特征最后输出到DeepFM网络。
305、基于目标特征对所述待识别数据内容中的标题内容与数据内容进行识别,以得到待识别数据内容对应的标题党识别结果。
本实施例中,在得到待识别内容对应的目标特征后,即可以对其中的标题内容与数据内容进行识别,具体识别项目包括步骤301中示例的标题类型,以及标题内容与数据内容的匹配程度,或者目标特征与标记为标题党的样本的相似度阈值大小。
可以理解的是,对于标题党识别结果的判定,可以参考上述一个或多个维度的识别结果,具体的判断维度因实际场景而定。
另外,由于待识别内容一般具有发布对象,对于发布过标题党内容的对象可能还会继续发布,故可以对发布对象进行特征加权,即首先获取待识别数据内容对应的发布对象;然后确定发布对象对应的等级信息,等级信息用于指示发布对象的历史发布情况;并基于等级信息对待识别数据内容对应的目标特征进行调整,以得到加权特征;进而基于加权特征确定待识别数据内容对应的标题党识别结果。
在一种可能的场景中,本实施例的数据内容的识别方法可以包含如下过程,如图9所示,图9为本申请实施例提供的另一种数据内容的识别方法的场景示意图;图中示出了数据筛选系统、记忆数据系统以及模型识别系统;其中,数据筛选系统采用样本数据标记方案,主要将采用一个细分类模型对数据进行预筛选,提升数据样本浓度,同时将用户侧对标题党的举报和反馈的样本符合后作为一个重要数据来源;记忆数据系统采用预训练Bert+MemoryNetwork结合的模型,预训练Bert模型完成主要的数据理解工作和补充数据全局信息,MemoryNetwork完成搜索“历史案例”的作用,从一个大的记忆库中检索相似案例,将检索结果对应的特征传入分类器。进一步的,模型识别系统除了接收数据筛选系统预训练所得的标签特征以及记忆数据系统所得的关联特征外,还可以引入对象特征(账号等级);例如账号等级一共分为5个等级,作为先验信息特征加入网络一起训练。账号等级是对账号发布内容综合治理的一个判断,这可以分为5级(1-5)越大等级越高,比如一些有明确知名组织的影响很大的账号,定位为5级的权威账号,比如人民日报,新华社,解放日报,一些业内有影响力的大V行号比如梨视频,二更,虎扑等,依此类推。如果一个账号持续发布低质内容,比如标题党,账号等级也会越低,这里是作为一个先验的特征引入DeepFM网络,采用one-hot编码。进一步的,进行特征选择及融合,将预训练Bert抽取cls分类向量,MemoryNetwork检索结果里,选取离散的label特征与连续的score特征及离散的账号等级特征,并通过DeepFM进行融合,最终四种特征共同进入分类器。
本实施例在数据方面,为获得一个平衡的训练集,同时提高标注效率,首先使用一个细粒度的分类模型对数据进行预筛选,可以获得一定数量模型难于识别的边界实例,对这个数据进行专门的人工标注,可以用来强化模型能力,同时数据样本构建也直接使用用户侧举报和反馈的标题党数据,经过复核以后构建数据集合;模型方面,使用预训练Bert+MemoryNetwork+自媒体账号等级特征融合的网络,结合三者的优势,同时使用历史审核过程当中的审核链路的人工判例数据构建记忆网络,最后对特征使用DeepFM方式进行融合构建最终的标题党识别模型。通过本实施例能够充分利用人工审核的历史数据构建记忆网络和内容正文全部内容数据,同时辅助多维度特征有效提升标题党内容的识别准确率和召回率;由于标题党内容往往偏主观性,人工审核区分是否标题党有一定难度,这里通过结合机器召回结果作为辅助手段,在降低了样本标注难度的同时应用在链路上可以有效提升审核效率;通过标题党算法辅助完成内容的审核,对于机器召回的低质量标题党内容,优先降权,排在内容审核队列的末尾,优先审核高质量内容,改善推荐池内容供给效率。
结合上述实施例可知,通过获取待识别数据内容;然后基于第一分类模型对待识别数据内容进行全局表征,以得到标签特征,该第一分类模型基于标记为标题党的标注数据训练所得;进一步的通过记忆网络模型对待识别数据内容在历史识别数据中进行相似性匹配,以得到历史识别数据中的关联内容,并提取关联内容对应的内容特征;然后对标签特征以及关联内容对应的内容特征进行特征融合,以得到目标特征;进而基于目标特征对待识别数据内容中的标题内容与数据内容进行识别,以得到待识别数据内容对应的标题党识别结果。从而实现基于多源数据的标题党数据内容的识别过程,由于采用标记所得的标注数据进行标签特征的提取,且考虑到标题党数据内容的主观性,通过多个关联内容进行多维度的特征补充,提高了特征描述的全面性,提高了标题党数据内容识别的准确性。
上述实施例介绍了标题党数据内容的识别过程以及相关的模型配置,其中涉及了多个数据源的数据获取,下面结合具体的网络场景对基于记忆网络的多源数据信息流内容标题党识别方法和系统各个服务模块的主要功能进行说明。请参阅图10,图10为本申请实施例提供的另一种数据内容的识别方法的场景示意图;图中所示为基于记忆网络的多源数据信息流内容标题党识别方法和系统的流程图。其中的功能模块包括:
一.内容生产端和内容消费端。
(1)PGC或者UGC(user generate content),MCN内容生产者,通过移动端或者后端接口API系统,提供图文或者视频内容,这些都是推荐分发内容的主要内容来源;
(2)通过和上下行内容接口服务的通讯,上传图文内容,图文内容来源通常是一个轻量级发布端和编辑内容入口;
(3)作为消费者,和上下行内容接口服务器通讯,推过推荐获取访问内容的索引信息即内容访问的直接入口地址,然后和内容存储服务器通讯,获取对应的内容包括内容存储服务器存储的是内容实体比如视频源文件,图片源文件,而内容的元信息比如标题,作者,封面图,分类,Tag信息等等存储在内容数据库;
(4)同时将上传和下载过程当中用户播放的行为数据,卡顿,加载时间,播放点击等上报给后端用于统计分析;
(5)消费端通常通过Feeds流方式浏览内容数据,同时对不同的内容质量问题比如内容标题党,无营养等有反馈和举报的入口;
二.内容接口服务器。
(1)和内容生产端直接通讯,从前端提交的内容,通常是内容的标题,发布者,摘要,封面图,发布时间,把文件存入内容数据库;
(2)将图文内容的元信息,比如文件大小,封面图链接,标题,发布时间,作者等信息写入内容数据库;
(3)将发布的提交的内容同步给调度中心服务器,进行后续的内容处理和流转;
三.内容数据库。
(1)内容的核心数据库,所有生产者发布内容的元信息都保存在这个业务数据库当中,重点是内容本身的元信息比如文件大小,封面图链接,码率,文件格式,标题,发布时间,作者,文件大小,视频格式,是否原创的标记,内容生产者的等级,或者首发还包括人工审核过程中对内容的分类(包括一,二,三级别分类和标签信息,比如一篇讲解华为手机的文章,一级分科是科技,二级分类是智能手机,三级分类是国内手机,标签信息是华为,mate30);
(2)人工审核过程当中会读取内容数据库当中的信息,同时人工审核的结果和状态也会回传进入内容数据库;
(3)调度中心对内容处理主要包括机器处理和人工审核处理,这里机器处理核心各种质量判断比如低质过滤,内容标签比如分类,标签信息,还有就是内容排重,他们的结果会写入内容数据库,完全重复一样的内容不会给人工进行重复的二次处理;
(4)后续构建模型的的时候会从内容数据库读取内容生产者的账号等级元信息作为模型的输入特征;
四.调度中心服务。
(1)负责内容流转的整个调度过程,通过上下行内容接口服务器接收保存进库的内容,然后从内容数据库中获取内容的元信息;
(2)调度人工审核系统和机器处理系统,控制调度的顺序和优先级;
(3)通过人工审核系统内容被启用,然后通过内容出口分发服务(通常是推荐引擎或者搜索引擎或者运营)直接的展示页面提供给终端的内容消费者,也就是消费端获得的内容索引信息;
(4)人工审核系统是人工服务能力的载体,主要用于审核过滤敏感信息,色情,法律不允许等机器无法确定判断的内容;
(5)人工审核过程当中,对于用户侧举报上报的标题内容进行复核,标记上报结果,作为后面机器学习训练筛选的数据来源;
五.内容存储服务。
(1)通常是一组分布范围很广,离C侧用户很久的就近接入的存储服务器,通常外围还有CDN加速服务器进行分布式缓存加速,通过上下行内容接口服务器将内容生产者上传的视频内容保存起来;
(2)终端消费者在获取内容索引信息后,直接访问内容存储服务器下载对应的内容比如图片源文件;
(3)排重过程当中,发现完全一样的数据在内容存储服务上只需要保存一份,多于的会被删除掉,节省存储空间;
六.标题党样本数据库。
(1)经过人工审核复核的端用户举报和反馈标题党数据当中,保存对应的标题党样本;
(2)为构建标题党识别模型提供数据源进行标题数据的预处理输入;
(3)按照上面的描述经过筛选的MemoryNetwork用的历史案例数据也保存在这里;
七.标题识别模型。
(1)按照上面提到整体模型结构模型构造标题党识别模型,来通过模型预测新入库内容的标题是否是标题党及概率值;
八.标题党识别服务。
(1)将标题党模型服务化,对于链路上流转的每个新的内容,通过调度中心调用识别标题党服务为标题进行评级;
(2)标题党识别置信度高的内容,可以直接丢弃过滤,降低推荐内容池当中标题内容的比例,置信度低可以的标题党内容放置在审核队列的尾部;
十.统计接口和分析服务。
(1)接受内容消费端和人工审核系统分别在内容消费过程当中和内容审核处理过程当中的统计数据上报,同时对上报的数据进行量化的分析,筛选取中各种不同种类的质量问题分布,比如标题党,无营养内容;
(2)主动接受内容消费端举报和反馈的标题党内容作为后续机器学习的样本数据源;
十一.排重服务。
(1)通过内容本身的指纹特征进行比较,重复相似的内容只保留一份延续到后续的链路,减少链路上不必要的重复文件。
本实施例能够充分利用人工审核的历史数据构建记忆网络和内容正文全部内容数据,同时辅助多维度特征有效提升标题党内容的识别准确率和召回率;进一步的,由于标题党内容往往偏主观性,人工审核区分是否标题党有一定难度,这里通过结合机器召回结果作为辅助手段,在降低了样本标注难度的同时应用在链路上可以有效提升审核效率,标题党算法辅助完成内容的审核,对于机器召回的低质量标题党内容,优先降权,排在内容审核队列的末尾,优先审核高质量内容,改善推荐池内容供给效率。
为了更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关装置。请参阅图11,图11为本申请实施例提供的一种数据内容的识别装置的结构示意图,数据内容的识别装置1100包括:
获取单元1101,用于获取待识别数据内容;
表征单元1102,用于基于第一分类模型对所述待识别数据内容进行全局表征,以得到标签特征,所述第一分类模型基于标记为标题党的标注数据训练所得;
所述表征单元1102,还用于通过记忆网络模型对所述待识别数据内容在历史识别数据中进行相似性匹配,以得到历史识别数据中的关联内容,并提取所述关联内容对应的内容特征;
所述表征单元1102,还用于对所述标签特征以及所述关联内容对应的内容特征进行特征融合,以得到目标特征;
识别单元1103,用于基于所述目标特征对所述待识别数据内容中的标题内容与数据内容进行识别,以得到所述待识别数据内容对应的标题党识别结果。
可选的,在本申请一些可能的实现方式中,所述表征单元1102,具体用于获取样本数据集;
所述表征单元1102,具体用于对所述样本数据集进行筛选,以得到所述标记为标题党的标注数据;
所述表征单元1102,具体用于获取目标对象反馈的反馈数据;
所述表征单元1102,具体用于对所述标记为标题党的标注数据和所述反馈数据进行转化为二进制数字串进行去重处理,以得到训练数据;
所述表征单元1102,具体用于基于所述训练数据对预设模型进行训练,以得到所述第一分类模型。
可选的,在本申请一些可能的实现方式中,所述表征单元1102,具体用于基于预设窗口确定所述训练数据中的单元数据对应的窗口数据;
所述表征单元1102,具体用于根据所述窗口数据进行局部注意力学习,以得到第一调整信息;
所述表征单元1102,具体用于对所述训练数据配置全局标签;
所述表征单元1102,具体用于基于配置所述全局标签后的训练数据进行窗口滑动,以进行全局注意力学习得到第二调整信息;
所述表征单元1102,具体用于根据所述第一调整信息和所述第二调整信息对所述预设模型进行训练,以得到所述第一分类模型。
可选的,在本申请一些可能的实现方式中,所述表征单元1102,具体用于将所述待识别数据内容输入所述记忆网络模型,以确定所述待识别数据内容对应的内容特征;
所述表征单元1102,具体用于基于所述记忆网络模型中的记忆卡槽调用所述历史识别数据;
所述表征单元1102,具体用于根据所述待识别数据内容对应的内容特征分别与所述历史识别数据进行相似性匹配,以确定关联系数;
所述表征单元1102,具体用于根据所述关联系数得到所述历史识别数据中的所述关联内容,并提取所述关联内容对应的内容特征。
可选的,在本申请一些可能的实现方式中,所述记忆网络模型的记忆内容为所述历史识别数据的表征向量,所述历史识别数据的表征向量由第二分类模型识别所得,所述表征单元1102,具体用于基于所述关联内容对应的内容特征对所述待识别数据内容对应的内容特征进行标记;
所述表征单元1102,具体用于根据标记后的所述待识别数据内容对应的内容特征在所述第二分类模型中进行反向传播,以得到反向传播参数;
所述表征单元1102,具体用于根据所述反向传播参数对所述第二分类模型进行参数调整。
可选的,在本申请一些可能的实现方式中,所述表征单元1102,具体用于获取标题党识别任务对应的关联阈值;
所述表征单元1102,具体用于对所述关联系数大于所述关联阈值的多个内容进行提取,以得到所述历史识别数据中的所述关联内容;
所述表征单元1102,具体用于提取所述关联内容对应的内容特征。
可选的,在本申请一些可能的实现方式中,所述表征单元1102,具体用于获取所述待识别数据内容对应的发布对象;
所述表征单元1102,具体用于确定所述发布对象对应的等级信息,所述等级信息用于指示所述发布对象的历史发布情况;
所述表征单元1102,具体用于基于所述等级信息对所述待识别数据内容对应的目标特征进行调整,以得到加权特征;
所述表征单元1102,具体用于基于所述加权特征确定所述待识别数据内容对应的标题党识别结果。
通过获取待识别数据内容;然后基于第一分类模型对待识别数据内容进行全局表征,以得到标签特征,该第一分类模型基于标记为标题党的标注数据训练所得;进一步的通过记忆网络模型对待识别数据内容在历史识别数据中进行相似性匹配,以得到历史识别数据中的关联内容,并提取关联内容对应的内容特征;然后对标签特征以及关联内容对应的内容特征进行特征融合,以得到目标特征;进而基于目标特征对待识别数据内容中的标题内容与数据内容进行识别,以得到待识别数据内容对应的标题党识别结果。从而实现基于多源数据的标题党数据内容的识别过程,由于采用标记所得的标注数据进行标签特征的提取,且考虑到标题党数据内容的主观性,通过多个关联内容进行多维度的特征补充,提高了特征描述的全面性,提高了标题党数据内容识别的准确性。
本申请实施例还提供了一种终端设备,如图12所示,是本申请实施例提供的另一种终端设备的结构示意图,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant,PDA)、销售终端(point of sales,POS)、车载电脑等任意终端设备,以终端为手机为例:
图12示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图12,手机包括:射频(radio frequency,RF)电路1210、存储器1220、输入单元1230、显示单元1240、传感器1250、音频电路1260、无线保真(wireless fidelity,WiFi)模块1270、处理器1280、以及电源1290等部件。本领域技术人员可以理解,图12中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图12对手机的各个构成部件进行具体的介绍:
RF电路1210可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1280处理;另外,将设计上行的数据发送给基站。通常,RF电路1210包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路1210还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
存储器1220可用于存储软件程序以及模块,处理器1280通过运行存储在存储器1220的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1220可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1220可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1230可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1230可包括触控面板1231以及其他输入设备1232。触控面板1231,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1231上或在触控面板1231附近的操作,以及在触控面板1231上一定范围内的隔空触控操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1231可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1280,并能接收处理器1280发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1231。除了触控面板1231,输入单元1230还可以包括其他输入设备1232。具体地,其他输入设备1232可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1240可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1240可包括显示面板1241,可选的,可以采用液晶显示器(liquidcrystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板1241。进一步的,触控面板1231可覆盖显示面板1241,当触控面板1231检测到在其上或附近的触摸操作后,传送给处理器1280以确定触摸事件的类型,随后处理器1280根据触摸事件的类型在显示面板1241上提供相应的视觉输出。虽然在图12中,触控面板1231与显示面板1241是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1231与显示面板1241集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1250,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1241的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1241和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1260、扬声器1261,传声器1262可提供用户与手机之间的音频接口。音频电路1260可将接收到的音频数据转换后的电信号,传输到扬声器1261,由扬声器1261转换为声音信号输出;另一方面,传声器1262将收集的声音信号转换为电信号,由音频电路1260接收后转换为音频数据,再将音频数据输出处理器1280处理后,经RF电路1210以发送给比如另一手机,或者将音频数据输出至存储器1220以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1270可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图12示出了WiFi模块1270,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1280是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1220内的软件程序和/或模块,以及调用存储在存储器1220内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监测。可选的,处理器1280可包括一个或多个处理单元;可选的,处理器1280可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1280中。
手机还包括给各个部件供电的电源1290(比如电池),可选的,电源可以通过电源管理系统与处理器1280逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端所包括的处理器1280还具有执行如上述页面处理方法的各个步骤的功能。
本申请实施例还提供了一种服务器,请参阅图13,图13是本申请实施例提供的一种服务器的结构示意图,该服务器1300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1322(例如,一个或一个以上处理器)和存储器1332,一个或一个以上存储应用程序1342或数据1344的存储介质1330(例如一个或一个以上海量存储设备)。其中,存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1322可以设置为与存储介质1330通信,在服务器1300上执行存储介质1330中的一系列指令操作。
服务器1300还可以包括一个或一个以上电源1326,一个或一个以上有线或无线网络接口1350,一个或一个以上输入输出接口1358,和/或,一个或一个以上操作系统1341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由管理装置所执行的步骤可以基于该图13所示的服务器结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有数据内容的识别指令,当其在计算机上运行时,使得计算机执行如前述图3至图10所示实施例描述的方法中数据内容的识别装置所执行的步骤。
本申请实施例中还提供一种包括数据内容的识别指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图3至图10所示实施例描述的方法中数据内容的识别装置所执行的步骤。
本申请实施例还提供了一种数据内容的识别系统,所述数据内容的识别系统可以包含图11所描述实施例中的数据内容的识别装置,或图12所描述实施例中的终端设备,或者图13所描述的服务器。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,数据内容的识别装置,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (11)
1.一种数据内容的识别方法,其特征在于,包括:
获取待识别数据内容;
基于第一分类模型对所述待识别数据内容进行全局表征,以得到标签特征,所述第一分类模型基于标记为标题党的标注数据训练所得;
通过记忆网络模型对所述待识别数据内容在历史识别数据中进行相似性匹配,以得到历史识别数据中的关联内容,并提取所述关联内容对应的内容特征;
对所述标签特征以及所述关联内容对应的内容特征进行特征融合,以得到目标特征;
基于所述目标特征对所述待识别数据内容中的标题内容与数据内容进行识别,以得到所述待识别数据内容对应的标题党识别结果。
2.根据权利要求1所述的方法,其特征在于,所述基于第一分类模型对所述待识别数据内容进行全局表征,以得到标签特征之前,所述方法还包括:
获取样本数据集;
对所述样本数据集进行筛选,以得到所述标记为标题党的标注数据;
获取目标对象反馈的反馈数据;
对所述标记为标题党的标注数据和所述反馈数据进行转化为二进制数字串进行去重处理,以得到训练数据;
基于所述训练数据对预设模型进行训练,以得到所述第一分类模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述训练数据对预设模型进行训练,以得到所述第一分类模型,包括:
基于预设窗口确定所述训练数据中的单元数据对应的窗口数据;
根据所述窗口数据进行局部注意力学习,以得到第一调整信息;
对所述训练数据配置全局标签;
基于配置所述全局标签后的训练数据进行窗口滑动,以进行全局注意力学习得到第二调整信息;
根据所述第一调整信息和所述第二调整信息对所述预设模型进行训练,以得到所述第一分类模型。
4.根据权利要求1所述的方法,其特征在于,所述通过记忆网络模型对所述待识别数据内容在历史识别数据中进行相似性匹配,以得到历史识别数据中的关联内容,并提取所述关联内容对应的内容特征,包括:
将所述待识别数据内容输入所述记忆网络模型,以确定所述待识别数据内容对应的内容特征;
基于所述记忆网络模型中的记忆卡槽调用所述历史识别数据;
根据所述待识别数据内容对应的内容特征分别与所述历史识别数据进行相似性匹配,以确定关联系数;
根据所述关联系数得到所述历史识别数据中的所述关联内容,并提取所述关联内容对应的内容特征。
5.根据权利要求4所述的方法,其特征在于,所述记忆网络模型的记忆内容为所述历史识别数据的表征向量,所述历史识别数据的表征向量由第二分类模型识别所得,所述方法还包括:
基于所述关联内容对应的内容特征对所述待识别数据内容对应的内容特征进行标记;
根据标记后的所述待识别数据内容对应的内容特征在所述第二分类模型中进行反向传播,以得到反向传播参数;
根据所述反向传播参数对所述第二分类模型进行参数调整。
6.根据权利要求4所述的方法,其特征在于,所述根据所述关联系数得到所述历史识别数据中的所述关联内容,并提取所述关联内容对应的内容特征,包括:
获取标题党识别任务对应的关联阈值;
对所述关联系数大于所述关联阈值的多个内容进行提取,以得到所述历史识别数据中的所述关联内容;
提取所述关联内容对应的内容特征。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
获取所述待识别数据内容对应的发布对象;
确定所述发布对象对应的等级信息,所述等级信息用于指示所述发布对象的历史发布情况;
基于所述等级信息对所述待识别数据内容对应的目标特征进行调整,以得到加权特征;
基于所述加权特征确定所述待识别数据内容对应的标题党识别结果。
8.一种数据内容的识别装置,其特征在于,包括:
获取单元,用于获取待识别数据内容;
表征单元,用于基于第一分类模型对所述待识别数据内容进行全局表征,以得到标签特征,所述第一分类模型基于标记为标题党的标注数据训练所得;
所述表征单元,还用于通过记忆网络模型对所述待识别数据内容在历史识别数据中进行相似性匹配,以得到历史识别数据中的关联内容,并提取所述关联内容对应的内容特征;
所述表征单元,还用于对所述标签特征以及所述关联内容对应的内容特征进行特征融合,以得到目标特征;
识别单元,用于基于所述目标特征对所述待识别数据内容中的标题内容与数据内容进行识别,以得到所述待识别数据内容对应的标题党识别结果。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行权利要求1至7任一项所述的数据内容的识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行权利要求1至7任一项所述的数据内容的识别方法。
11.一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令存储于计算机可读存储介质,其特征在于,所述计算机可读存储介质中的所述计算机程序/指令被处理器执行时实现上述权利要求1至7任一项所述的数据内容的识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210258611.0A CN115168568B (zh) | 2022-03-16 | 2022-03-16 | 一种数据内容的识别方法、装置以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210258611.0A CN115168568B (zh) | 2022-03-16 | 2022-03-16 | 一种数据内容的识别方法、装置以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115168568A true CN115168568A (zh) | 2022-10-11 |
CN115168568B CN115168568B (zh) | 2024-04-05 |
Family
ID=83484205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210258611.0A Active CN115168568B (zh) | 2022-03-16 | 2022-03-16 | 一种数据内容的识别方法、装置以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115168568B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115834738A (zh) * | 2023-01-09 | 2023-03-21 | 科来网络技术股份有限公司 | 一种工控业务行为识别方法、装置、电子设备及可读介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3413218A1 (en) * | 2017-06-08 | 2018-12-12 | Facebook, Inc. | Key-value memory networks |
CN110598046A (zh) * | 2019-09-17 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的标题党识别方法和相关装置 |
CN111008329A (zh) * | 2019-11-22 | 2020-04-14 | 厦门美柚股份有限公司 | 基于内容分类的页面内容推荐方法及装置 |
CN111506794A (zh) * | 2020-04-17 | 2020-08-07 | 腾讯科技(武汉)有限公司 | 一种基于机器学习的谣言管理方法和装置 |
CN111625629A (zh) * | 2019-02-28 | 2020-09-04 | Tcl集团股份有限公司 | 任务型对话机器人应答方法、装置及机器人、存储介质 |
CN111723295A (zh) * | 2020-06-30 | 2020-09-29 | 腾讯科技(深圳)有限公司 | 一种内容分发方法、装置和存储介质 |
CN112579771A (zh) * | 2020-12-08 | 2021-03-30 | 腾讯科技(深圳)有限公司 | 一种内容的标题检测方法及装置 |
CN112883732A (zh) * | 2020-11-26 | 2021-06-01 | 中国电子科技网络信息安全有限公司 | 基于关联记忆网络的中文细粒度命名实体识别方法及装置 |
US20210182935A1 (en) * | 2019-12-11 | 2021-06-17 | Microsoft Technology Licensing, Llc | Text-based similarity system for cold start recommendations |
WO2021147405A1 (zh) * | 2020-08-31 | 2021-07-29 | 平安科技(深圳)有限公司 | 客服语句质检方法及相关设备 |
CN113723166A (zh) * | 2021-03-26 | 2021-11-30 | 腾讯科技(北京)有限公司 | 内容识别方法、装置、计算机设备和存储介质 |
CN113849597A (zh) * | 2021-08-31 | 2021-12-28 | 艾迪恩(山东)科技有限公司 | 基于命名实体识别的违法广告词检测方法 |
US20210406601A1 (en) * | 2020-06-30 | 2021-12-30 | Google Llc | Cross-modal weak supervision for media classification |
-
2022
- 2022-03-16 CN CN202210258611.0A patent/CN115168568B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3413218A1 (en) * | 2017-06-08 | 2018-12-12 | Facebook, Inc. | Key-value memory networks |
CN111625629A (zh) * | 2019-02-28 | 2020-09-04 | Tcl集团股份有限公司 | 任务型对话机器人应答方法、装置及机器人、存储介质 |
CN110598046A (zh) * | 2019-09-17 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的标题党识别方法和相关装置 |
CN111008329A (zh) * | 2019-11-22 | 2020-04-14 | 厦门美柚股份有限公司 | 基于内容分类的页面内容推荐方法及装置 |
US20210182935A1 (en) * | 2019-12-11 | 2021-06-17 | Microsoft Technology Licensing, Llc | Text-based similarity system for cold start recommendations |
CN111506794A (zh) * | 2020-04-17 | 2020-08-07 | 腾讯科技(武汉)有限公司 | 一种基于机器学习的谣言管理方法和装置 |
CN111723295A (zh) * | 2020-06-30 | 2020-09-29 | 腾讯科技(深圳)有限公司 | 一种内容分发方法、装置和存储介质 |
US20210406601A1 (en) * | 2020-06-30 | 2021-12-30 | Google Llc | Cross-modal weak supervision for media classification |
WO2021147405A1 (zh) * | 2020-08-31 | 2021-07-29 | 平安科技(深圳)有限公司 | 客服语句质检方法及相关设备 |
CN112883732A (zh) * | 2020-11-26 | 2021-06-01 | 中国电子科技网络信息安全有限公司 | 基于关联记忆网络的中文细粒度命名实体识别方法及装置 |
CN112579771A (zh) * | 2020-12-08 | 2021-03-30 | 腾讯科技(深圳)有限公司 | 一种内容的标题检测方法及装置 |
CN113723166A (zh) * | 2021-03-26 | 2021-11-30 | 腾讯科技(北京)有限公司 | 内容识别方法、装置、计算机设备和存储介质 |
CN113849597A (zh) * | 2021-08-31 | 2021-12-28 | 艾迪恩(山东)科技有限公司 | 基于命名实体识别的违法广告词检测方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115834738A (zh) * | 2023-01-09 | 2023-03-21 | 科来网络技术股份有限公司 | 一种工控业务行为识别方法、装置、电子设备及可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115168568B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022078102A1 (zh) | 一种实体识别方法、装置、设备以及存储介质 | |
US20210020182A1 (en) | Personalization of experiences with digital assistants in communal settings through voice and query processing | |
WO2021139701A1 (zh) | 一种应用推荐方法、装置、存储介质及电子设备 | |
CN110598046B (zh) | 一种基于人工智能的标题党识别方法和相关装置 | |
CN109196496A (zh) | 未知词预测器和内容整合的翻译器 | |
CN111507097B (zh) | 一种标题文本处理方法、装置、电子设备及存储介质 | |
CN111444357B (zh) | 内容信息确定方法、装置、计算机设备及存储介质 | |
CN112231563B (zh) | 一种内容推荐方法、装置及存储介质 | |
CN112257661A (zh) | 低俗图像的识别方法、装置、设备及计算机可读存储介质 | |
CN107562939A (zh) | 垂直领域新闻推荐方法、装置及可读储存介质 | |
US9639633B2 (en) | Providing information services related to multimodal inputs | |
CN112231497B (zh) | 信息分类方法、装置、存储介质及电子设备 | |
CN110209810A (zh) | 相似文本识别方法以及装置 | |
CN115878841B (zh) | 一种基于改进秃鹰搜索算法的短视频推荐方法及系统 | |
CN111709398A (zh) | 一种图像识别的方法、图像识别模型的训练方法及装置 | |
CN113557521A (zh) | 使用机器学习从动画媒体内容项目提取时间信息的系统和方法 | |
CN111368063A (zh) | 一种基于机器学习的信息推送方法以及相关装置 | |
CN114817755A (zh) | 一种用户互动内容管理方法、装置和存储介质 | |
CN114564666A (zh) | 百科信息展示方法、装置、设备和介质 | |
CN110069769B (zh) | 应用标签生成方法、装置及存储设备 | |
CN112685578A (zh) | 一种多媒体信息内容提供方法及装置 | |
CN109101505A (zh) | 一种推荐方法、推荐装置和用于推荐的装置 | |
WO2021260650A1 (en) | Generating personalized content for presentation on user devices | |
CN113392644A (zh) | 模型训练、文本信息处理方法、系统、装置和存储介质 | |
CN115659008A (zh) | 大数据信息反馈的信息推送系统、方法、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40074958 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |