CN112579771B - 一种内容的标题检测方法及装置 - Google Patents
一种内容的标题检测方法及装置 Download PDFInfo
- Publication number
- CN112579771B CN112579771B CN202011442527.1A CN202011442527A CN112579771B CN 112579771 B CN112579771 B CN 112579771B CN 202011442527 A CN202011442527 A CN 202011442527A CN 112579771 B CN112579771 B CN 112579771B
- Authority
- CN
- China
- Prior art keywords
- content
- checked
- title
- text
- audited
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 69
- 238000012549 training Methods 0.000 claims abstract description 61
- 238000012550 audit Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012552 review Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 18
- 238000013473 artificial intelligence Methods 0.000 abstract description 14
- 238000012545 processing Methods 0.000 description 26
- 239000010410 layer Substances 0.000 description 22
- 238000004422 calculation algorithm Methods 0.000 description 15
- 239000013598 vector Substances 0.000 description 15
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 230000035939 shock Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 8
- 238000003062 neural network model Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 5
- 238000007689 inspection Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 238000012821 model calculation Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 206010010904 Convulsion Diseases 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000036461 convulsion Effects 0.000 description 2
- ZXQYGBMAQZUVMI-GCMPRSNUSA-N gamma-cyhalothrin Chemical compound CC1(C)[C@@H](\C=C(/Cl)C(F)(F)F)[C@H]1C(=O)O[C@H](C#N)C1=CC=CC(OC=2C=CC=CC=2)=C1 ZXQYGBMAQZUVMI-GCMPRSNUSA-N 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 239000013585 weight reducing agent Substances 0.000 description 2
- 206010029412 Nightmare Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002155 anti-virotic effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种内容的标题检测方法及装置,属于计算机技术领域,涉及人工智能和计算机视觉技术。其中,内容的标题检测方法包括:获取待审核内容的待审核正文以及对应的待审核标题;将所述待审核正文以及所述待审核标题输入内容分类子模型中,确定所述待审核内容的分类标签;所述内容分类子模型根据第一训练内容以及对应训练标签进行训练,学习得到模型参数;根据所述待审核内容的分类标签,确定所述待审核内容对应的内容审核子模型,其中,分类标签与内容审核子模型之间存在对应关系;将所述待审核正文与待审核标题输入所述内容审核子模型中,得到所述待审核内容的审核结果;至少根据所述审核结果确定所述待审核内容的标题符合设定条件的概率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种内容的标题检测方法及装置。
背景技术
在自媒体越来越多的今天,资讯类APP(Application,应用程序)内容变得丰富多彩,与此同时也产生了很多有害信息,严重影响了用户的阅读体验。
例如,有些内容涉及一些安全或质量问题,需要有一套内容审核的方式对内容进行把关,防止内容中存在问题被投放出去。这里的质量问题包括很多类型的问题,其中标题党问题是用户侧投诉举报最多的质量问题。由于目前内容结算体系会参考内容被推荐曝光后的点击访问量,给内容创作者回报结算,所以会有些创作者故意为了吸引用户点击以赚取流量故意大量使用夸张、悬念、无意义或者与内容不符的标题,这些内容使用户感觉受到了欺骗性并给平台整体带来负面评价。
相关技术中检验内容是否存在标题党的问题,一般为通过正则匹配的方式对标题和正文内容进行匹配并标记,之后通过人工审核,基于人工经验确定标题是否违规,并确定发布方案。这种检测方式效率较低,且由于人工判断准则不同,因此准确性较低。
发明内容
为解决相关技术中存在的技术问题,本申请实施例提供一种内容的标题检测方法及装置,可以提高内容的标题检测的效率和准确度。
为达到上述目的,本申请实施例的技术方案是这样实现的:
一方面,本申请实施例提供一种内容的标题检测方法,所述方法包括:
获取待审核内容的待审核正文以及对应的待审核标题;
将所述待审核正文以及所述待审核标题输入内容分类子模型中,确定所述待审核内容的分类标签;所述内容分类子模型根据第一训练内容以及对应训练标签进行训练,学习得到模型参数;
根据所述待审核内容的分类标签,确定所述待审核内容对应的内容审核子模型,其中,分类标签与内容审核子模型之间存在对应关系;
将所述待审核正文与待审核标题输入所述内容审核子模型中,得到所述待审核内容的审核结果;
至少根据所述审核结果确定所述待审核内容的标题符合设定条件的概率。
另一方面,本申请实施例还提供一种内容的标题检测装置,所述装置包括:
获取单元,用于获取待审核内容的待审核正文以及对应的待审核标题;
分类单元,用于将所述待审核正文以及所述待审核标题输入内容分类子模型中,确定所述待审核内容的分类标签;所述内容分类子模型根据第一训练内容以及对应训练标签进行训练,学习得到模型参数;
确定单元,用于根据所述待审核内容的分类标签,确定所述待审核内容对应的内容审核子模型,其中,分类标签与内容审核子模型之间存在对应关系;
审核单元,用于将所述待审核正文与待审核标题输入所述内容审核子模型中,得到所述待审核内容的审核结果;
统计单元,用于至少根据所述审核结果确定所述待审核内容的标题符合设定条件的概率。
在一种可选的实施例中,所述统计单元,用于:
判断所述待审核内容的标题符合设定条件的概率所在的概率区间;
若所述标题符合设定条件的概率位于第一概率区间,则将对应的待审核内容进行发布;
若所述标题符合设定条件的概率位于第二概率区间,则将对应的待审核内容标记为可疑内容并限制性发布;
若所述标题符合设定条件的概率位于第三概率区间,则将对应的待审核内容标记为违规内容并禁止发布。
在一种可选的实施例中,所述待审核内容的分类标签的个数为N个,所述内容审核子模型的个数为M个,其中N、M均为大于0的整数;
分类单元,用于将所述待审核正文与待审核标题分别输入M个内容审核子模型中,得到所述待审核内容的M个审核结果;
统计单元,用于将所述M个审核结果加权,得到所述待审核内容的标题违规概率。
在一种可选的实施例中,所述M个内容审核子模型分别利用M份第二训练内容以及训练内容的审核标签进行训练,学习得到模型参数;其中每一份第二训练内容包括审核标签为正标签的正训练样本和审核标签为负标签的负训练样本。
在一种可选的实施例中,所述确定单元,还用于:
根据所述待审核正文,确定所述待审核正文的内容特征值;
根据所述内容特征值,确定所述待审核正文的内容统计值;
所述统计单元,还用于将所述M个审核结果以及所述内容统计值进行加权,得到所述待审核内容的标题违规概率。
在一种可选的实施例中,所述确定单元,还用于:
确定所述待审核标题中包含第一数字类文本;
基于正则匹配,判断所述待审核正文中是否包括与所述第一数字类文本匹配的第二数字类文本,得到数字匹配结果;
所述统计单元,还用于将所述M个审核结果、所述内容统计值以及所述数字匹配结果进行加权,得到所述待审核内容的标题符合设定条件的概率。
在一种可选的实施例中,所述分类单元,用于将所述待审核正文以及对应待审核标题输入所述内容分类子模型中,确定所述待审核内容的分类标签为正常标题;
所述统计单元,还用于将分类标签为正常标题的待审核内容进行发布。
另一方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现上述内容的标题检测方法。
另一方面,本申请实施例还提供一种电子设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现上述内容的标题检测方法。
本申请实施例的内容的标题检测方法,获取待审核内容的待审核正文以及对应的待审核标题后,将待审核正文以及对应的待审核标题输入内容分类子模型中,确定待审核内容的分类标签。其中,内容分类子模型根据第一训练内容以及对应训练标签进行训练,学习得到模型参数。由于分类标签与内容审核子模型之间存在对应关系,内容分类子模型输出待审核内容的分类标签后,根据分类标签,确定待审核内容对应的内容审核子模型。之后,将待审核正文与待审核标题输入内容审核子模型中,得到待审核内容的审核结果,并至少根据审核结果确定待审核内容的标题符合设定条件的概率。本申请实施例基于两层算法模型,对待审核内容的标题进行审核,第一层为内容分类子模型,第二层为内容审核子模型。内容分类子模型将待审核内容标注分类标签,又分类标签与内容审核子模型之间存在对应关系,因此,基于不同的分类标签,将待审核正文和待审核标题输入不同的内容审核子模型中进一步确定审核结果,最后基于多个审核结果,计算待审核内容的违规概率。本申请实施例中基于两层模型计算结构对内容和标题进行检测,提高了对待审核内容的标题判断的准确性,且由于机器处理速度明显高于人审核,所以对待审核内容的整体处理效率有明显提升。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为相关技术中提供的一种内容的标题检测模型的原理示意图;
图2为本申请实施例中内容的标题检测方法的应用架构示意图;
图3为本申请实施例提供的内容的标题检测方法的流程图;
图4为本申请实施例提供的分类标签与内容审核子模型的对应关系的示意图;
图5为本申请具体实施例中一种标题检测方法的流程示意图;
图6为本申请具体实施例中标题党算法综合模型示意图;
图7为本申请实施例提供的一种内容的标题检测装置的结构示意图;
图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
文中的术语“第一”、“第二”仅用于描述目的,而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征,在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
云安全(Cloud Security)是指基于云计算商业模式应用的安全软件、硬件、用户、机构、安全云平台的总称。云安全融合了并行处理、网格计算、未知病毒行为判断等新兴技术和概念,通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,并发送到服务端进行自动分析和处理,再把病毒和木马的解决方案分发到每一个客户端。
云安全主要研究方向包括:1.云计算安全,主要研究如何保障云自身及云上各种应用的安全,包括云计算机系统安全、用户数据的安全存储与隔离、用户接入认证、信息传输安全、网络攻击防护、合规审计等;2.安全基础设施的云化,主要研究如何采用云计算新建与整合安全基础设施资源,优化安全防护机制,包括通过云计算技术构建超大规模安全事件、信息采集与处理平台,实现对海量信息的采集与关联分析,提升全网安全事件把控能力及风险控制能力;3.云安全服务,主要研究各种基于云计算平台为用户提供的安全服务,如防病毒服务等。
内容评分:基于内容的质量给内容进行评分,满分可以为100分也可以为10分等。本申请实施例以满分为100分为例,60分内容即低质60分以下内容,指内容质量水平很低评分在60分以下的内容,60分以下的内容属于低质量内容不会启用给推荐使用即不会在信息流产品中曝光。75分内容即低质75分以下内容,为评分为60分以上75分以下的内容,也是次低质内容,这部分内容会被启用,会有针对性的产品使用策略。其余100分至75分的内容为高质量内容,向用户进行推荐。
泛化性:即泛化能力,指算法模型对未知数据的预测能力。泛化性越高,对未知数据的预测能力越好,泛化性越低,则对未知数据预测能力越差。
正则匹配:通过正则表达式匹配,正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串,比如匹配一个标题里是否含有“网友”这个词,有这个词就会被匹配到。
多标签:同一条内容可能匹配有多个类别标签,比如某内容的标题既是标题夸张也是标题悬念。
负反馈:用户在产品端针对内容点击的举报、投诉、负反馈都是负反馈。
推荐侧:也叫推荐端,内容由创作者上传后经处理环节后给推荐系统分发,推荐侧指基于内容推荐分发的推荐系统端。
终端程序:运行在终端上的qq,微信等各种可接收消息及信息流的应用。
服务端:部署在多组服务器上、专门为终端程序提供远程网络服务的服务器程序。
限制分发:内容被处理之后会有启用和不启用状态,启用状态会在推荐侧推荐,限制分发就是将已经启用的内容暂时变成不能继续被推荐侧推荐的状态。
召回率:标题党的召回率,就是实际内容库里含有的标题党且被模型识别出来的数量除以实际内容含有的标题党数量。也就是标题党内容能被模型方法识别出来的占比。
深度学习:深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
TFIDF:TFIDF(term frequency–inverse document frequency,词频-逆文本频率指数)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。词频(term frequency,TF),指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件。逆向文件频率(inverse document frequency,IDF)的主要思想是:如果包含词条t的文档越少,IDF越大,则说明词条具有很好的类别区分能力。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。TFIDF等于TF与IDF的乘积。
BERT(Bidirectional Encoder Representations from Transformers,基于Transformer的双向语言模型):是一个面向NLP的无监督预训练模型,其本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示,所谓自监督学习是指在没有人工标注的数据上运行的监督学习。
ERNIE(Enhanced Representation through Knowledge Integration,知识增强语义表示模型):一种NLP预训练语言模型,实际参考了BERT思路,优势在于:对实体概念知识的学习来学习真实世界的完整概念的语义表示;对训练语料的扩展尤其是论坛对话语料的引入来增强模型的语义表示能力。
下面结合附图及具体实施例对本申请作进一步详细的说明。
标题党问题是指在以互联网为代表的论坛或媒体上制作引人注目的标题来吸引受众注意力,以达到增加点击量或知名度等各种目的,点击进去发现内容与标题落差很大。标题党问题主要包括标题严重夸张,内容与标题完全无关或联系不大等。
针对标题党的问题,相关技术中内容审核流程大致如图1所示,内容由创作者产生并上传至平台,然后排队进入审核区域,在审核区域会有一些规则通过正则匹配的方式对内容以及对应的标题进行对比,得到的对比结果主要用于对人工审核进行提示:1、提示这篇标题含有某个词但是正文没有,2、提示标题含有疑似标题党的词语。人工审核的时候工作人员根据这些标记并根据自己的经验和判断,给这个内容进行评分,或者对内容标记是否有标题党问题或者其他问题,如果有严重标题党问题即评分为60分以下该内容不出库,也就是不会给下游内容分发使用,如果有其他严重的质量问题同样也是不启用。对于无问题的内容会出库并向推荐侧推荐,进行内容分发。当内容分发后有人评论这个内容有标题党问题或者有很多用户举报这个内容有标题党问题的时候,该内容会被送回去继续人工审核,重新判断该内容是否存在漏掉的严重的标题党问题,该内容是否不该启用。
总体上相关技术中发现标题党问题的方案主要依赖人工去审核判断,规则以提示作用辅助人工判断,线上推广后通过评论或者举报、负反馈等方法回捞给再重新进行人工审核判断。由于人工处理一篇内容耗时较长,因此人工审核的效率较低,且依赖经验会出现准确度不高的问题。
为了解决相关技术中因人工检测标题问题而导致审核效率以及精确度较低的问题,本申请实施例提供了一种内容的标题检测方法及装置。本申请实施例涉及人工智能和机器学习技术,基于人工智能中的自然语言处理技术和机器学习而设计。
本申请实施例的内容的标题检测方法,获取待审核内容的待审核正文以及对应的待审核标题后,将待审核正文以及对应的待审核标题输入内容分类子模型中,确定待审核内容的分类标签。其中,内容分类子模型根据第一训练内容以及对应训练标签进行训练,学习得到模型参数。由于分类标签与内容审核子模型之间存在对应关系,内容分类子模型输出待审核内容的分类标签后,根据分类标签,确定待审核内容对应的内容审核子模型。之后,将待审核正文与待审核标题输入内容审核子模型中,得到待审核内容的审核结果,并至少根据审核结果确定待审核内容的标题符合设定条件的概率。本申请实施例基于两层算法模型,对待审核内容的标题进行审核,第一层为内容分类子模型,第二层为内容审核子模型。内容分类子模型将待审核内容标注分类标签,又分类标签与内容审核子模型之间存在对应关系,因此,基于不同的分类标签,将待审核正文和待审核标题输入不同的内容审核子模型中进一步确定审核结果,最后基于多个审核结果,计算待审核内容的违规概率。本申请实施例中基于两层模型计算结构对内容和标题进行检测,提高了对待审核内容的标题判断的准确性,且由于机器处理速度明显高于人审核,所以对待审核内容的整体处理效率有明显提升。
参阅图2所示,为本申请实施例中内容的标题检测方法的应用架构示意图,包括服务器100、终端设备200。
终端设备200可以是移动的,也可以是固定的电子设备。例如,手机、平板电脑、笔记本电脑、台式电脑、各类可穿戴设备、智能电视、车载设备或其它能够实现上述功能的电子设备等。终端设备200能够向用户展示服务端推荐的文章、短讯等内容,接收用户针对内容的反馈,并将反馈内容发送给服务器100。
终端设备200与服务器100之间可以通过互联网相连,实现相互之间的通信。可选地,上述的互联网使用标准通信技术和/或协议。互联网通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan AreaNetwork,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible Markup Language,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure SocketLayer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(VirtualPrivate Network,VPN)、网际协议安全(Internet Protocol Security,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
服务器100可以为终端设备200提供各种网络服务,服务器100可以采用云计算技术进行信息处理。其中,服务器100可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
具体地,服务器100可以包括处理器110(Center Processing Unit,CPU)、存储器120、输入设备130和输出设备140等,输入设备130可以包括键盘、鼠标、触摸屏等,输出设备140可以包括显示设备,如液晶显示器(Liquid Crystal Display,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
存储器120可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器110提供存储器120中存储的程序指令和数据。在本发明实施例中,存储器120可以用于存储本发明实施例中内容的标题检测方法的程序。
处理器110通过调用存储器120存储的程序指令,处理器110用于按照获得的程序指令执行本发明实施例中任一种内容的标题检测方法的步骤。
需要说明的是,本发明实施例中,内容的标题检测方法主要由服务器100侧执行,例如,针对内容的标题检测方法,服务器100可以接收终端设备上传的待审核内容,或者从数据库中拉取待审核内容,并对待审核内容的标题进行审核,根据审核结果选择是否向终端侧推荐。终端设备200可以接收服务器100推荐的内容,并向用户展示,也可以接收用户针对推荐内容的评价反馈,并将反馈内容向服务器100发送。服务器100依据反馈内容,调整内容的推荐策略。如图2所示的应用架构,是以应用于服务器100侧为例进行说明的。当然,本申请实施例中内容的标题检测方法也可以由终端设备200执行,例如终端设备200可以从服务器100侧获得训练好的内容分类子模型和内容审核子模型,从而基于模型对待审核内容进行审核,并根据审核结果选择是否向用户展示,对此本发明实施例中并不进行限制。
另外,本发明实施例中的应用架构图是为了更加清楚地说明本发明实施例中的技术方案,并不构成对本发明实施例提供的技术方案的限制,当然,也并不仅限于消化道疾病诊断业务应用,对于其它的应用架构和业务应用,本发明实施例提供的技术方案对于类似的问题,同样适用。
本发明各个实施例以应用于图2所示的应用架构图为例进行示意性说明。
图3示出了本申请一个实施例提供的内容的标题检测方法的流程图。如图3所示,该方法包括如下步骤:
步骤S301,获取待审核内容的待审核正文以及对应的待审核标题。
其中,待审核内容的形式不限,可以是文本内容,也可以是语音内容或者图片内容等,若待审核内容不为文本内容,为了进行内容的标题检测,可以将其他形式的待审核内容转换为文本后,再进行审核。
本申请实施例中也不限制待审核内容的获取方式,例如,待审核内容可以为用户通过键盘等输入装置输入终端设备中,再由终端设备发送至服务器;或者也可以为服务器从网络中获取文章,并对获取的文章内容以及标题进行审核;或者也可以为服务器从数据库中获取待审核内容以及对应的待审核标题,并进行审核。
获取待审核正文以及对应的待审核标题后,可以利用词嵌入的方式确定待审核正文以及待审核标题的文本特征。词嵌入(Word Embedding)是一种将文本中的词转换成数字向量的方法,为了使用标准机器学习算法来对它们进行分析,需要把这些被转换成数字的向量以数字形式作为输入。嵌入实际上是从语义空间到向量空间的映射,语义相近的两个词汇在向量空间的位置也比较接近。词嵌入过程就是把一个维数为所有词数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量,词嵌入的结果就生成了词向量。
词嵌入方法包括One-hot(独热编码)编码、Word2Vec(word to vector,词向量)算法、GloVe(Global Vectors for Word Representation,词表示的全局向量)算法等。本申请实施例可以利用任意词嵌入方法将待审核正文以及待审核标题转换为文本特征,本申请实施例对此不做限制。
步骤S302,将待审核正文以及待审核标题输入内容分类子模型中,确定待审核内容的分类标签。
其中,内容分类子模型根据第一训练内容以及对应训练标签进行训练,学习得到模型参数。
本申请实施例中,内容分类子模型为多标签分类模型,可以为基于深度学习的任意分类算法模型,例如,可以为ML-KNN(multi-labelK-NearestNeighbor,多标签K最邻近分类)算法、Rank-SVM(Rank Support Vector Machine,秩支持向量机)算法等,本申请实施例对此不做限制。具体实施过程中,内容分类子模型为基于预训练模型ERINE对BERT结构参数微调训练完成的多标签分类模型。其中,BERT是一个无监督预训练模型,其本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示。
BERT通过堆叠Transformer子结构来构建基础模型,使用的是基于Transformer的双向预训练语言模型,BERT使用MLM(Masked Language Model,掩码语言模型)来达到深层双向联合训练的目的。MLM预训练,即在预训练时,通过随机Mask(遮盖)输入文本序列的部分词语,在输出层获得该位置的概率分布,进而极大化似然概率来调整模型参数。并且,BERT使用了NSP(Next Sentence Prediction,下一句预测),这是一种用来捕捉句子间关系的二分类任务,这个任务可以从任何单词语料库中轻松生成。很多重要的下游任务,包括问答系统和自然语言推理等都是建立在理解两个文本句子之间的关系的基础上的,而语言建模并不能直接捕捉这些关系,NSP解决了这个问题。具体来说,就是在构造任务的数据集时,会有50%的概率,选择正样本,即某句子和其下一句子的组合,50%的概率在语料中选择任意一句子构成负样本。
对于BERT模型,无需针对特定任务对BERT模型进行修改,只需要一个额外的输出层,对预训练BERT结构参数进行微调,即可满足各种任务。基于BERT的改进模型有ERNIE、SpanBERT、RoBERTa、ALBERT等。本申请实施例中,是利用预训练模型ERINE对BERT模型的参数进行微调。ERNIE引入了知识Mask策略,包括实体级Mask和短语级Mask,用以取代BERT中的随机Mask。
本申请实施例中,内容分类子模型根据第一训练内容以及对应训练标签进行训练。具体来说,第一训练内容来自人工标注的几种类别数据(约30万数据),训练标签包括标题夸张、标题悬念、无意义标题、强迫套路标题、低俗擦边标题、震惊体标题等。由于在全部存在标题党问题的内容中,标题夸张与标题悬念的数量占比最高,因此,在获取训练数据时,选择含有这两类标签的标题党问题的训练内容占第一训练内容总量的70%。
其中,标题夸张主要指借用一些很夸张的词或者词语搭配组合故意夸大效果吸引用户。标题悬念是在标题中故意不说明实物或者人称,经常用一些代词或形容词隐晦代替主语或宾语故弄玄虚。无意义标题是指标题中成分残缺或者过于口语化,强迫套路标题是指标题中含有命令强迫类型的描述给读者一种被迫去看或转发的感觉,这类标题会造成读者反感非常影响用户体验。低俗擦边标题是指故意用一些隐晦的低俗粗俗词语吸引用户点击。震惊体是指标题含有非常夸张震惊的词语,包括:震惊国人、千万别吃、惊天秘密、噩梦来临等。
进一步地,本申请实施例中将待审核正文以及待审核标题输入内容分类子模型之后,内容分类子模型计算得出该待审核内容属于每个标签的概率。例如,若内容分类子模型可检测出的标签包括标题夸张、标题悬念、无意义标题、强迫套路标题、低俗擦边标题、震惊体标题,将待审核正文A和对应的待审核标题a输入内容分类子模型中,计算得到该待审核正文A和待审核标题a的标签为标题夸张的概率为47%,为无意义标题的概率为38%,为震惊体的概率为15%。
之后,可以根据概率排序,确定待审核内容的分类标签,即将概率最大的标签作为待审核内容的分类标签,这种情况下,待审核内容的分类标签只有一个。或者,也可以设定概率阈值,将计算得到的概率与对应的概率阈值相对比,将超过概率阈值的标签作为待审核内容的分类标签,这种情况下,待审核内容的分类标签可以有一个或者多个。例如,设置概率阈值为35%,则针对上述待审核正文A,其分类标签则为标题夸张与无意义标题。
例如待审核标题为:“曾11次登上春晚,一句“我骄傲”火遍全国,却欺骗观众这么多年”,待审核正文概括为:介绍演员孙涛,上过多年春晚,看起来比较年轻实际已经50岁了。这个待审核标题就是既为标题夸张又为标题悬念,标题没有介绍是谁而故意用“曾11次登上春晚,一句“我骄傲”火遍全国”吸引用户吊起读者胃口,“却欺骗观众这么多年!”夸大了内容中只是看起来年轻的描述:“大家却发现,一直活跃在观众面前的孙涛,一直都是这张年轻的脸庞,岁月似乎在他脸上没有留下任何痕迹,甚至很多人都不敢相信他已经51岁了。有网友表示:以为他30多岁,竟然50多了?”。这样的标题故意夸张程度又制造神秘感,而文章内容又明显达不到读者对标题的预期,也是常见的一种容易被举报的标题党类型。
此外,由于内容分类子模型对不同标签的计算准确率不同,因此,针对不同的标签也可以设置不同的概率阈值,例如,标题夸张的概率阈值设置为50%,无意义标题的概率阈值设置为30%,震惊体的概率设置为20%,则针对上述待审核正文A,其分类标签为无意义标题。
步骤S303,根据待审核内容的分类标签,确定待审核内容对应的内容审核子模型。其中,分类标签与内容审核子模型之间存在对应关系。
具体实施过程中,分类标签与内容审核子模型之间的对应关系可以是一一对应关系,也可以是一对多的关系,即可以是一个分类标签对应一个内容审核子模型,也可以是一个分类标签对应多个内容审核子模型,或者也可以是多个分类标签对应一个内容审核子模型。举例来说,本申请实施例中,标题夸张以及标题悬念与一个内容审核子模型相对应,无意义标题、强迫套路标题、低俗擦边标题与另一个内容审核子模型相对应。
本申请实施例中,确定了待审核内容的内容审核子模型之后,可以根据上述对应关系,确定该待审核内容对应的内容审核子模型。
步骤S304,将所述待审核正文与待审核标题输入所述内容审核子模型中,得到所述待审核内容的审核结果。
具体实施过程中,确定待审核内容对应的内容审核子模型之后,将待审核正文以及待审核标题输入确定的内容审核子模型中,利用内容审核子模型计算得到待审核内容的审核结果。这里的内容审核子模型不做限制,例如可以为TFIDF模型、深度神经网络模型等。每一个内容审核子模型计算后得到该内容审核子模型对应的审核结果。
步骤S305,至少根据所述审核结果确定所述待审核内容的标题符合设定条件的概率。
具体实施过程中,综合上述内容审核子模型得到的审核结果,确定待审核内容的标题是否违规。例如可以将所有内容审核子模型的审核结果进行加权,将得到的加权结果与违规阈值相比较,若加权结果大于违规阈值,则确定待审核内容的标题违规,若加权结果小于或等于违规阈值,则确定待审核内容的标题不违规。
一种可选的实施例中,在确定待审核内容的标题符合设定条件的概率之后,还可以根据得到概率的不同大小,确定对待审核内容的不同处理方式,从而增加了处理方式的灵活性,改善了用户体验。具体来说,至少根据审核结果确定待审核内容的标题符合设定条件的概率之后,还包括:
判断待审核内容的标题符合设定条件的概率所在的概率区间;
若标题符合设定条件的概率位于第一概率区间,则将对应的待审核内容进行发布;
若标题符合设定条件的概率位于第二概率区间,则将对应的待审核内容标记为可疑内容并限制性发布;
若标题符合设定条件的概率位于第三概率区间,则将对应的待审核内容标记为违规内容并禁止发布。
具体实施过程中,可以对内容审核子模型得到的结果进行加权得到该待审核内容的概率值,并根据概率值确定内容评分,例如,若评分为百分制,则设置区间分别为75-100分、60-75分、0-60分三个区间,将75-100分作为第一概率区间,对于评分为75分以上的待审核内容直接进行发布。将60-75分作为第二概率区间,对于评分为60-75分的待审核内容标记为可疑内容并限制性发布了,这里的限制性发布可以是降权发布,即在发布列表较为下方的位置,或者从全部用户中选择部分用户进行发布。将0-60分作为第三概率区间,对于评分为0-60分的待审核内容,禁止发布。
举例来说,对于内容生产者上传的待审核内容会被输入上述内容分类子模型和内容审核子模型,计算得到审核结果,并根据审核结果打上“60分以下”,或者“75分以下”,或者“疑似负反馈标题党”的标签。对于“60分以下”的待审核内容直接不出库禁止启用,对于“75分以下”和“疑似负反馈标题党”的待审核内容,以及正常内容可以继续进行人工审核,人工审核再判断有无其他问题,无问题的内容出库并重新编辑给推荐系统。因为推荐实际也是个性化推荐选择的过程,有些用户对弱标题党并没有不适感受与反馈,因此这里对于“75分以下”标记的内容会被推荐系统降权分发,或针对不敏感用户适当分发。用户观看过内容后可以针对内容进行反馈,当有用户评论或举报有标题党问题的时候会判断是否有“疑似负反馈标题党”的标记,如果该内容有“疑似负反馈标题党”的标记就会被直接下架处理也就不继续分发,对于没有标记的内容,则重新进行人工审核确定是否继续分发或降权分发。
本申请实施例的内容的标题检测方法,获取待审核正文以及对应的待审核标题后,将待审核正文以及对应的待审核标题输入内容分类子模型中,确定待审核内容的分类标签。其中,内容分类子模型根据第一训练内容以及对应训练标签进行训练,学习得到模型参数。由于分类标签与内容审核子模型之间存在对应关系,内容分类子模型输出待审核内容的分类标签后,根据分类标签,确定待审核内容对应的内容审核子模型。之后,将待审核正文与待审核标题输入内容审核子模型中,得到待审核内容的审核结果,并至少根据审核结果确定待审核内容的标题符合设定条件的概率。本申请实施例基于两层算法模型,对待审核内容的标题进行审核,第一层为内容分类子模型,第二层为内容审核子模型。内容分类子模型将待审核内容标注分类标签,又分类标签与内容审核子模型之间存在对应关系,因此,基于不同的分类标签,将待审核内容和待审核标题输入不同的内容审核子模型中进一步确定审核结果,最后基于多个审核结果,计算待审核内容的违规概率。本申请实施例中基于两层模型计算结构对内容和标题进行检测,提高了对待审核内容的标题判断的准确性,且由于机器处理速度明显高于人审核,所以对待审核内容的整体处理效率有明显提升。
进一步地,待审核内容的分类标签的个数为N个,内容审核子模型的个数为M个,其中N、M均为大于0的整数。
则将待审核正文与待审核标题输入内容审核子模型中,得到待审核内容的审核结果,包括:
将待审核正文与待审核标题分别输入M个内容审核子模型中,得到待审核内容的M个审核结果;
至少根据审核结果确定待审核内容的标题违规概率,包括:
将M个审核结果加权,得到待审核内容的标题违规概率。
具体实施过程中,根据内容分类子模型得到N个分类标签之后,根据分类标签与内容审核子模型之间的对应关系,确定M个内容审核子模型,将待审核正文和待审核标题分别输入每一个内容审核子模型中。
图4示出了一种实施例中分类标签与内容审核子模型的对应关系。如图4所示,分类标签“标题夸张”、“标题悬念”与“TFIDF特征模型”相对应,分类标签“无意义标题”、“强迫套路标题”、“低俗擦边标题”与“深度神经网络模型”相对应。内容分类子模型BERT ERNIE确定待审核内容的分类标签之后,根据分类标签与内容审核子模型之间的对应关系,将待审核正文与待审核标题输入对应的内容审核子模型中。例如图4中,确定待审核内容的标签为“标题悬念”时,则将待审核正文与待审核标题输入TFIDF特征模型中;若确定待审核内容的标签为“标题夸张”以及“低俗擦边标题”时,则将待审核正文与待审核标题输入TFIDF特征模型,且将待审核正文与待审核标题输入深度神经网络模型。
本申请实施例中TFIDF特征模型对待审核正文与待审核标题分别提取TFIDF特征,并将两部分TFIDF特征拼接成一个长的向量,输入基于逻辑回归(LR)的分类器中,得到TFIDF特征模型的输出结果。一种较佳的实施例中,待审核标题提取5万词特征,待审核正文提取20万词特征。当然,待审核标题提取的特征与待审核正文提取的特征之比不限,可以根据内容设置。
待审核正文与待审核标题输入深度神经网络模型中,深度神经网络模型分别对待审核正文与待审核标题分别转为词向量特征,之后,将待审核正文的词向量特征输入正文神经网络结构中进行特征提取,将待审核标题的词向量输入标题神经网络结构中进行特征提取,最后通过concat(合并)层将提取的标题特征与正文特征进行拼接得到深度神经网络的输出结果。
进一步地,上述M个内容审核子模型分别训练。具体地,M个内容审核子模型分别利用M份第二训练内容以及训练内容的审核标签进行训练,学习得到模型参数。其中每一份第二训练内容包括审核标签为正标签的正训练样本和审核标签为负标签的负训练样本。
举例来说,对于深度神经网络模型,训练内容是满足标题特征下的标题党内容与非标题党内容,其神经网络结构如图4中深度神经网络模型结构所示,具体实施例中标题神经网络结构可以使用多层的结构,正文神经网络结构使用单层结构。
本申请实施例中的训练数据主要来自人工按标准标注的标题党数据和审核时被标注的标题党数据,这部分数据用来被训练打75分和60分的模型。另外使用用户负反馈标题党的数据来做负反馈标题党模型,这里模型结构一样只是训练数据不同,主要是因为标题党低质的程度不同所以使用不同的数据,初审不通过的数据是更低质的标题党内容所以这些训练有助于模型识别60分标题党能力,75分数据符合按人工按标准执行的标注数据有助于模型对75分标题党内容识别能力。负反馈的标题党补充了75分以外用户比较在意的部分数据所以适合做疑似负反馈标题党标记结合线上内容在后验的表现使用。
进一步地,本申请实施例中,对于所有被识别为标题党的待审核内容,即含有标题夸张、标题悬疑、标题无意义、强迫套路标题、低俗擦边标题、震惊体等特征的待审核内容都会进入一个内容丰富度统计特征的函数。即将待审核正文以及对应待审核标题输入内容分类子模型中,确定待审核内容的分类标签之后,还包括:
根据待审核正文,确定待审核正文的内容特征值;
根据内容特征值,确定所述待审核正文的内容统计值。
之后,至少根据审核结果确定待审核内容的标题违规概率,包括:
将M个审核结果以及内容统计值进行加权,得到待审核内容的标题违规概率。
具体实施过程中,在确定待审核内容为标题党内容之后,无论待审核内容的分类标签是什么,都通过特征统计函数确定待审核正文的内容特征值,用于表现待审核正文的内容丰富度。这里的内容特征包括待审核正文中包含的文章字数,含有的图片数、动图数,是否含有视频等。之后根据所有内容特征值确定待审核正文的内容统计值,具体的内容统计值score如以下公式计算:
其中,txtnum为文章字数,picnum为图片数,gifnum为动图数量,vidnum为视频个数,式中的其余数字为超参数可以适当调节。
在本具体实施例中,计算待审核内容的标题违规概率也需要将内容统计值考虑在内。
进一步地,本申请实施例在获取待审核内容的待审核正文以及对应的待审核标题之后,还包括:
确定待审核标题中包含第一数字类文本;
基于正则匹配,判断待审核正文中是否包括与第一数字类文本匹配的第二数字类文本,得到数字匹配结果;
至少根据审核结果确定待审核内容的标题符合设定条件的概率,包括:
将M个审核结果、内容统计值以及数字匹配结果进行加权,得到待审核内容的标题符合设定条件的概率。
具体实施过程中,对于待审核标题中包含数字类文本的情况,还会识别待审核正文与待审核标题之间是否存在数字题文不符的情况。需要识别待审核标题是否含有几种单位的数字,具体单位主要是与钱相关的所有单位(元,美元,港币,RMB,价值,万等),还有常见的长度面积等的基本单位。如果含有数字会进入数字题文不符模块判断待审核正文是否出现对应数字,或是否与待审核标题中的数字匹配或近似。这里主要基于正则表达式提取待审核正文中的数字,并计算是否近似待审核标题中的数字;或待审核标题中的数字是否在待审核正文中出现。比如待审核标题写某个车15万,待审核正文写2017年上市25万后来降价9.8万,则会提取相关信息计算25-9.8近似15,即没有数字不符的问题。判断是否数字题文不符主要是为了覆盖一般自然语言处理不能完整处理很好的题文不符问题。例如,待审核标题为:大学这几个专业就业形势“很乐观”薪资待遇高!年薪70万福利好,但待审核正文中并没有70万相关内容只是介绍几个专业,即内容通过70万噱头吸引点击欺骗读者。
在本具体实施例中,若待审核标题中存在数字,则计算待审核内容的标题违规概率也需要将数字匹配结果考虑在内。
进一步地,本申请实施例中将内容分类子模型确定出的正常标题可以直接发布。即将待审核正文以及对应待审核标题输入内容分类子模型中,确定待审核内容的分类标签,包括:
将待审核正文以及对应待审核标题输入内容分类子模型中,确定待审核内容的分类标签为正常标题;
将待审核正文以及对应待审核标题输入内容分类子模型中,确定待审核内容的分类标签之后,还包括:
将分类标签为正常标题的待审核内容进行发布。
以下通过具体实例说明本申请实施例提供的内容的标题检测方法的实现过程。图5示出了本申请具体实施例中标题检测方法的流程示意图。
首先由标题党的机器审核模型(也就是标题党算法综合模型)去对每篇待审核内容处理计算,具体标题党算法综合模型如图6所示。对于内容生产者上传的待审核内容会被处理打上是否是“60分以下内容”、“75分以下内容”、或者“疑似负反馈标题党内容”的标签。对于“60分以下内容”的待审核内容直接不出库禁止启用,对于“75分以下内容”的待审核内容、“疑似负反馈标题党内容”的待审核内容和正常内容都会发送给人工审核。人工审核判断有无其他问题,无问题的内容出库并重新编辑给推荐系统,这里“75分以下内容”的待审核内容会被推荐系统降权分发,或针对不敏感用户适当分发。
系统还接收用户的评论和反馈,当有用户评论或举报有标题党问题的时候判断该内容是否有“疑似负反馈标题党内容”的标记,如果该内容有“疑似负反馈标题党内容”的标记就会被直接下架处理也就不继续分发,对于没有标记的内容重新进行人工审核,确定是否继续分发或降权分发。
上述标题党算法综合模型如图6所示。
将待审核内容的标题与正文传入模型,整个模型结构首先为一个多标签分类标题模型,利用该多标签分类模型确定待审核内容的分类标签。其中,分类标签包括:标题夸张、标题悬念、无意义标题、强迫套路标题、低俗擦边标题、震惊体,以及正常标题。
对于当分类结果为标题夸张或标题悬念后,将标题和正文输入tfidf特征模型,对标题与正文分别提取tfidf特征,并将两部分tfidf特征拼接成一个长的向量,然后利用基于逻辑回归的分类器输出检测结果。
对于当分类结果为无意义标题、强迫套路标题、低俗擦边标题、震惊体的内容,分别再提取标题与正文输入的深度神经网络模型,对标题与正文转词向量特征后分别进入不同的神经网络结构提取特征后拼接得到最后一层输出结果。
对于所有被识别为含有标题夸张、标题悬疑、标题无意义、强迫套路标题、低俗擦边标题、震惊体任意标签的内容正文都需输入内容丰富度统计特征的函数,计算待检测内容的内容统计值。该函数的入参包括文章字数,含有的图片数、动图数,是否含有视频。内容统计值如公式1所示进行计算。
若多标签标题模型识别出待审核内容为正常标题,则会直接将正常标题作为最后检测结果。
另外标题模型还会识别标题是否含有数字。如果含有数字,则会将正文和标题输入数字题文不符模块,判断内容是否出现对应数字或是否与标题所述数字匹配或近似。这里主要基于正则表达式提取正文中的数字并计算是否近似标题中的数字,或标题中的数字是否在正文中出现,从而得到数字匹配结果。
总模型最后会将上面输出的几种结果进行加权组合得到最后结果,做为标题党的分值。最后根据不同分值有不同的处理策略。
标题党算法综合模型识别出的60分内容根据上线后7天人审数据,准确率95%以上。目前这部分识别出来的内容直接拦截不出库给推荐端,日均拦截总量1.4万篇。拦截后每周有专门巡检人员进行巡检,这里巡检准确率平均为95%。75分内容也就是被标记降权分发或过滤部分用户的内容,每天有1.6万篇左右,在次低质标准的巡检准确率有90%,这部分内容会被推荐侧降权分发。达到后验条件被限制分发的内容每天有2000篇,这部分内容也就是疑似负反馈标题党标记内容,统计这部分内容下架率超过平均下架率20%。模型上线后实验表明会降低用户的标题党负反馈量,实际累计降低50%标题党负反馈量。由于机器处理速度明显高于人工审核,所以原待审核内容的整体处理效率也有明显提升,并节省了人力成本。
与上述方法实施例相对应地,本申请实施例还提供了一种内容的标题检测装置。图7为本申请实施例的提供的内容的标题检测装置的结构示意图;如图7所示,该内容的标题检测装置包括:
获取单元701,用于获取待审核内容的待审核正文以及对应的待审核标题;
分类单元702,用于将所述待审核正文以及所述待审核标题输入内容分类子模型中,确定所述待审核内容的分类标签;所述内容分类子模型根据第一训练内容以及对应训练标签进行训练,学习得到模型参数;
确定单元703,用于根据所述待审核内容的分类标签,确定所述待审核内容对应的内容审核子模型,其中,分类标签与内容审核子模型之间存在对应关系;
审核单元704,用于将所述待审核正文与待审核标题输入所述内容审核子模型中,得到所述待审核内容的审核结果;
统计单元705,用于至少根据所述审核结果确定所述待审核内容的标题符合设定条件的概率。
在一种可选的实施例中,所述统计单元705,用于:
判断所述待审核内容的标题符合设定条件的概率所在的概率区间;
若所述标题符合设定条件的概率位于第一概率区间,则将对应的待审核内容进行发布;
若所述标题符合设定条件的概率位于第二概率区间,则将对应的待审核内容标记为可疑内容并限制性发布;
若所述标题符合设定条件的概率位于第三概率区间,则将对应的待审核内容标记为违规内容并禁止发布。
在一种可选的实施例中,所述待审核内容的分类标签的个数为N个,所述内容审核子模型的个数为M个,其中N、M均为大于0的整数;
分类单元702,用于将所述待审核正文与待审核标题分别输入M个内容审核子模型中,得到所述待审核内容的M个审核结果;
统计单元705,用于将所述M个审核结果加权,得到所述待审核内容的标题违规概率。
在一种可选的实施例中,所述M个内容审核子模型分别利用M份第二训练内容以及训练内容的审核标签进行训练,学习得到模型参数;其中每一份第二训练内容包括审核标签为正标签的正训练样本和审核标签为负标签的负训练样本。
在一种可选的实施例中,所述确定单元703,还用于:
根据所述待审核正文,确定所述待审核正文的内容特征值;
根据所述内容特征值,确定所述待审核正文的内容统计值;
所述统计单元,还用于将所述M个审核结果以及所述内容统计值进行加权,得到所述待审核内容的标题违规概率。
在一种可选的实施例中,所述确定单元703,还用于:
确定所述待审核标题中包含第一数字类文本;
基于正则匹配,判断所述待审核正文中是否包括与所述第一数字类文本匹配的第二数字类文本,得到数字匹配结果;
所述统计单元705,还用于将所述M个审核结果、所述内容统计值以及所述数字匹配结果进行加权,得到所述待审核内容的标题符合设定条件的概率。
在一种可选的实施例中,所述分类单元702,用于将所述待审核正文以及对应待审核标题输入所述内容分类子模型中,确定所述待审核内容的分类标签为正常标题;
所述统计单元705,还用于将分类标签为正常标题的待审核内容进行发布。
与上述方法实施例相对应地,本申请实施例还提供了一种电子设备。
图8为本申请实施例提供的一种电子设备的结构示意图;如图8所示,本申请实施例中该电子设备80包括:处理器81、显示器82、存储器83、输入设备86、总线85和通讯设备84;该处理器81、存储器83、输入设备86、显示器82和通讯设备84均通过总线85连接,该总线85用于该处理器81、存储器83、显示器82、通讯设备84和输入设备86之间传输数据。
其中,存储器83可用于存储软件程序以及模块,如本申请实施例中的内容的标题检测方法对应的程序指令/模块,处理器81通过运行存储在存储器83中的软件程序以及模块,从而执行电子设备80的各种功能应用以及数据处理,如本申请实施例提供的内容的标题检测方法。存储器83可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个应用的应用程序等;存储数据区可存储根据电子设备80的使用所创建的数据(比如训练样本、特征提取网络)等。此外,存储器83可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器81是电子设备80的控制中心,利用总线85以及各种接口和线路连接整个电子设备80的各个部分,通过运行或执行存储在存储器83内的软件程序和/或模块,以及调用存储在存储器83内的数据,执行电子设备80的各种功能和处理数据。可选的,处理器81可包括一个或多个处理单元,如CPU、GPU(Graphics Processing Unit,图形处理单元)、数字处理单元等。
本申请实施例中,处理器81将分割的图像通过显示器82展示给用户。
该输入设备86主要用于获得用户的输入操作,当该电子设备不同时,该输入设备86也可能不同。例如,当该电子设备为计算机时,该输入设备86可以为鼠标、键盘等输入设备;当该电子设备为智能手机、平板电脑等便携设备时,该输入设备86可以为触控屏。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有计算机可执行指令,该计算机可执行指令用于实现本申请任一实施例所述的内容的标题检测方法。
在一些可能的实施方式中,本申请提供的内容的标题检测方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的内容的标题检测方法的步骤,例如,所述计算机设备可以执行如图3所示的步骤S301~S303中的文本预测流程。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (7)
1.一种内容的标题检测方法,其特征在于,所述方法包括:
获取待审核内容的待审核正文以及对应的待审核标题;
若确定所述待审核标题中包含第一数字类文本,则基于正则匹配,判断所述待审核正文中是否包括与所述第一数字类文本匹配的第二数字类文本,得到数字匹配结果;
将所述待审核正文以及所述待审核标题输入内容分类子模型中,确定所述待审核内容的N个分类标签;所述内容分类子模型根据第一训练内容以及对应训练标签进行训练,学习得到模型参数,N为大于0的整数;
根据所述待审核正文,确定所述待审核正文的内容特征值;所述内容特征值包括所述待审核正文中包含的文章字数、图片数、动图数、视频数;
根据所述内容特征值,确定所述待审核正文的内容统计值;所述内容统计值表征所述待审核正文的内容丰富度;
根据所述待审核内容的N个分类标签,确定所述待审核内容对应的M个内容审核子模型,其中,M为大于0的整数,分类标签与内容审核子模型之间存在对应关系,一个分类标签对应一个内容审核子模型,或者,一个分类标签对应多个内容审核子模型,或者,多个分类标签对应一个内容审核子模型;
将所述待审核正文与待审核标题分别输入所述M个内容审核子模型中,得到所述待审核内容的M个审核结果;
将所述M个审核结果、所述内容统计值以及所述数字匹配结果进行加权,确定所述待审核内容的标题符合设定条件概率。
2.根据权利要求1所述的方法,其特征在于,至少根据所述审核结果确定所述待审核内容的标题符合设定条件的概率之后,还包括:
判断所述待审核内容的标题符合设定条件的概率所在的概率区间;
若所述标题符合设定条件的概率位于第一概率区间,则将对应的待审核内容进行发布;
若所述标题符合设定条件的概率位于第二概率区间,则将对应的待审核内容标记为可疑内容并限制性发布;
若所述标题符合设定条件的概率位于第三概率区间,则将对应的待审核内容标记为违规内容并禁止发布。
3.根据权利要求1所述的方法,其特征在于,还包括:
所述M个内容审核子模型分别利用M份第二训练内容以及训练内容的审核标签进行训练,学习得到模型参数;其中每一份第二训练内容包括审核标签为正标签的正训练样本和审核标签为负标签的负训练样本。
4.根据权利要求1所述的方法,其特征在于,所述将所述待审核正文以及对应待审核标题输入内容分类子模型中,确定所述待审核内容的分类标签,包括:
将所述待审核正文以及对应待审核标题输入所述内容分类子模型中,确定所述待审核内容的分类标签为正常标题;
所述将所述待审核正文以及对应待审核标题输入内容分类子模型中,确定所述待审核内容的分类标签之后,还包括:
将分类标签为正常标题的待审核内容进行发布。
5.一种内容的标题检测装置,其特征在于,所述装置包括:
获取单元,用于获取待审核内容的待审核正文以及对应的待审核标题;
确定单元,用于若确定所述待审核标题中包含第一数字类文本,则基于正则匹配,判断所述待审核正文中是否包括与所述第一数字类文本匹配的第二数字类文本,得到数字匹配结果;
分类单元,用于将所述待审核正文以及所述待审核标题输入内容分类子模型中,确定所述待审核内容的N个分类标签;所述内容分类子模型根据第一训练内容以及对应训练标签进行训练,学习得到模型参数,N为大于0的整数;
所述确定单元,用于根据所述待审核正文,确定所述待审核正文的内容特征值;所述内容特征值包括所述待审核正文中包含的文章字数、图片数、动图数、视频数;根据所述内容特征值,确定所述待审核正文的内容统计值;所述内容统计值表征所述待审核正文的内容丰富度;
所述确定单元,用于根据所述待审核内容的N个分类标签,确定所述待审核内容对应的M个内容审核子模型,其中,M为大于0的整数,分类标签与内容审核子模型之间存在对应关系,一个分类标签对应一个内容审核子模型,或者,一个分类标签对应多个内容审核子模型,或者,多个分类标签对应一个内容审核子模型;
审核单元,用于将所述待审核正文与待审核标题分别输入所述M个内容审核子模型中,得到所述待审核内容的M个审核结果;
统计单元,用于将所述M个审核结果、所述内容统计值以及所述数字匹配结果进行加权,确定所述待审核内容的标题符合设定条件概率。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~4任一权利要求所述方法的步骤。
7.一种计算机可读存储介质,其特征在于,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行权利要求1~4任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011442527.1A CN112579771B (zh) | 2020-12-08 | 2020-12-08 | 一种内容的标题检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011442527.1A CN112579771B (zh) | 2020-12-08 | 2020-12-08 | 一种内容的标题检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112579771A CN112579771A (zh) | 2021-03-30 |
CN112579771B true CN112579771B (zh) | 2024-05-07 |
Family
ID=75130757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011442527.1A Active CN112579771B (zh) | 2020-12-08 | 2020-12-08 | 一种内容的标题检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112579771B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113949887A (zh) * | 2021-09-24 | 2022-01-18 | 支付宝(杭州)信息技术有限公司 | 对于网络直播数据的处理方法及装置 |
CN114092057A (zh) * | 2021-11-23 | 2022-02-25 | 深圳壹账通科技服务有限公司 | 一种项目模型的构建方法、装置、终端设备和存储介质 |
CN115168568B (zh) * | 2022-03-16 | 2024-04-05 | 腾讯科技(深圳)有限公司 | 一种数据内容的识别方法、装置以及存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372057A (zh) * | 2016-08-25 | 2017-02-01 | 乐视控股(北京)有限公司 | 内容的审核方法及装置 |
CN108960782A (zh) * | 2018-07-10 | 2018-12-07 | 北京木瓜移动科技股份有限公司 | 内容审核方法以及装置 |
CN109495766A (zh) * | 2018-11-27 | 2019-03-19 | 广州市百果园信息技术有限公司 | 一种视频审核的方法、装置、设备和存储介质 |
CN109561322A (zh) * | 2018-12-27 | 2019-04-02 | 广州市百果园信息技术有限公司 | 一种视频审核的方法、装置、设备和存储介质 |
CN109862394A (zh) * | 2019-03-27 | 2019-06-07 | 北京周同科技有限公司 | 视频内容的审核方法、装置、设备和存储介质 |
CN110225373A (zh) * | 2019-06-13 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 一种视频审核方法、装置及电子设备 |
CN110322150A (zh) * | 2019-07-04 | 2019-10-11 | 优估(上海)信息科技有限公司 | 一种信息审核方法、装置及服务器 |
CN110442875A (zh) * | 2019-08-12 | 2019-11-12 | 北京思维造物信息科技股份有限公司 | 一种文本审核方法、装置及系统 |
CN110457566A (zh) * | 2019-08-15 | 2019-11-15 | 腾讯科技(武汉)有限公司 | 信息筛选方法、装置、电子设备及存储介质 |
CN111008278A (zh) * | 2019-11-22 | 2020-04-14 | 厦门美柚股份有限公司 | 内容推荐方法及装置 |
CN111090813A (zh) * | 2019-12-20 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 一种内容处理方法、装置和计算机可读存储介质 |
CN111274782A (zh) * | 2020-02-25 | 2020-06-12 | 平安科技(深圳)有限公司 | 一种文本审核方法、装置、计算机设备及可读存储介质 |
CN111507097A (zh) * | 2020-04-16 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 一种标题文本处理方法、装置、电子设备及存储介质 |
CN111881293A (zh) * | 2020-07-24 | 2020-11-03 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种风险内容识别方法及装置、服务器、存储介质 |
CN111967493A (zh) * | 2020-06-29 | 2020-11-20 | 北京百度网讯科技有限公司 | 图像审核方法、装置、电子设备和存储介质 |
-
2020
- 2020-12-08 CN CN202011442527.1A patent/CN112579771B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372057A (zh) * | 2016-08-25 | 2017-02-01 | 乐视控股(北京)有限公司 | 内容的审核方法及装置 |
CN108960782A (zh) * | 2018-07-10 | 2018-12-07 | 北京木瓜移动科技股份有限公司 | 内容审核方法以及装置 |
CN109495766A (zh) * | 2018-11-27 | 2019-03-19 | 广州市百果园信息技术有限公司 | 一种视频审核的方法、装置、设备和存储介质 |
CN109561322A (zh) * | 2018-12-27 | 2019-04-02 | 广州市百果园信息技术有限公司 | 一种视频审核的方法、装置、设备和存储介质 |
CN109862394A (zh) * | 2019-03-27 | 2019-06-07 | 北京周同科技有限公司 | 视频内容的审核方法、装置、设备和存储介质 |
CN110225373A (zh) * | 2019-06-13 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 一种视频审核方法、装置及电子设备 |
CN110322150A (zh) * | 2019-07-04 | 2019-10-11 | 优估(上海)信息科技有限公司 | 一种信息审核方法、装置及服务器 |
CN110442875A (zh) * | 2019-08-12 | 2019-11-12 | 北京思维造物信息科技股份有限公司 | 一种文本审核方法、装置及系统 |
CN110457566A (zh) * | 2019-08-15 | 2019-11-15 | 腾讯科技(武汉)有限公司 | 信息筛选方法、装置、电子设备及存储介质 |
CN111008278A (zh) * | 2019-11-22 | 2020-04-14 | 厦门美柚股份有限公司 | 内容推荐方法及装置 |
CN111090813A (zh) * | 2019-12-20 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 一种内容处理方法、装置和计算机可读存储介质 |
CN111274782A (zh) * | 2020-02-25 | 2020-06-12 | 平安科技(深圳)有限公司 | 一种文本审核方法、装置、计算机设备及可读存储介质 |
CN111507097A (zh) * | 2020-04-16 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 一种标题文本处理方法、装置、电子设备及存储介质 |
CN111967493A (zh) * | 2020-06-29 | 2020-11-20 | 北京百度网讯科技有限公司 | 图像审核方法、装置、电子设备和存储介质 |
CN111881293A (zh) * | 2020-07-24 | 2020-11-03 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种风险内容识别方法及装置、服务器、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112579771A (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112579771B (zh) | 一种内容的标题检测方法及装置 | |
Palani et al. | CB-Fake: A multimodal deep learning framework for automatic fake news detection using capsule neural network and BERT | |
Meel et al. | HAN, image captioning, and forensics ensemble multimodal fake news detection | |
Nandhini et al. | Cyberbullying detection and classification using information retrieval algorithm | |
CN111639291A (zh) | 内容分发方法、装置、电子设备以及存储介质 | |
WO2022222850A1 (zh) | 一种多媒体内容的识别方法、相关装置、设备及存储介质 | |
Pendyala | Veracity of big data | |
Al-Tai et al. | Deep learning for fake news detection: Literature review | |
Li et al. | A CNN-based misleading video detection model | |
CN112052424A (zh) | 一种内容审核方法及装置 | |
Qiu et al. | Multi-modal detection of cyberbullying on Twitter | |
CN117351336A (zh) | 图像审核方法和相关设备 | |
Singhal et al. | Inter-modality discordance for multimodal fake news detection | |
CN114357204A (zh) | 媒体信息的处理方法及相关设备 | |
Agarwal et al. | Deep learning for opinion mining: a systematic survey | |
Uglum | Consideration of the ethical implications of artificial intelligence in the audit profession | |
Lokanan | The tinder swindler: Analyzing public sentiments of romance fraud using machine learning and artificial intelligence | |
Unver | Emerging technologies and automated fact-checking: Tools, techniques and algorithms | |
Raj et al. | Fake News Detection | |
Sui et al. | Personality Privacy Protection Method of Social Users Based on Generative Adversarial Networks | |
Misra et al. | Do not ‘fake it till you make it’! synopsis of trending fake news detection methodologies using deep learning | |
Deng et al. | A depression tendency detection model fusing weibo content and user behavior | |
Fu et al. | Multi-modal affine fusion network for social media rumor detection | |
Chevrier | Automating Hate: Exploring Toxic Reddit Norms with Google Perspective | |
WO2024179035A1 (zh) | 一种数据处理方法、设备、计算机可读存储介质及计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40040759 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |