发明内容
本发明实施例提供了一种媒体资源的识别方法、装置、存储介质及电子装置,以至少解决现有技术中的媒体资源审核方式效率低,无法满足查阅者需求的技术问题。
根据本发明实施例的一个方面,提供了一种媒体资源的识别方法,包括:获取多个帐号对待识别的目标媒体资源产生的第一组回复信息,其中,所述第一组回复信息中的回复信息用于表示所述目标媒体资源属于异常类型的媒体资源;将所述第一组回复信息输入到第一识别模型,得到所述第一识别模型输出的所述目标媒体资源在所述异常类型下的一组维度标签,其中,所述第一识别模型中包括多个不同类型的第二识别模型,每个所述第二识别模型是使用一组训练数据对对应类型的初始识别模型训练得到的识别模型,所述一组训练数据包括对已知维度标签的样本媒体资源产生的一组样本回复信息,所述一组样本回复信息用于表示所述样本媒体资源属于所述异常类型的媒体资源,所述已知维度标签为所述样本媒体资源在所述异常类型下的维度标签,每个所述第二识别模型输出的所述样本媒体资源在所述异常类型下的预估维度标签与所述已知维度标签之间的误差满足预定收敛条件;其中,对于所述第一组回复信息中的每条回复信息,在所述多个不同类型的第二识别模型输出的维度标签不完全相同的情况下,将所述多个不同类型的第二识别模型输出的相同数量最多的维度标签确定为所述第一识别模型输出的所述目标媒体资源在所述异常类型下的维度标签。
可选地,在将所述第一组回复信息输入到第一识别模型,得到所述第一识别模型输出的所述目标媒体资源在所述异常类型下的一组维度标签之后,所述方法还包括:在所述一组维度标签中确定出现次数最高或出现次数高于预定阈值的目标维度标签;将所述目标媒体资源的类型确定为所述异常类型、且将所述目标媒体资源在所述异常类型下的维度标签确定为包括所述目标维度标签。
可选地,在将所述第一组回复信息输入到第一识别模型,得到所述第一识别模型输出的所述目标媒体资源在所述异常类型下的一组维度标签之前,所述方法还包括:使用所述一组训练数据分别对多个不同类型的初始识别模型进行训练,得到所述多个不同类型的第二识别模型,其中,所述多个不同类型的初始识别模型与所述多个不同类型的第二识别模一一对应。
可选地,所述一组训练数据中包括预设训练数据和预设测试数据,其中,所述使用所述一组训练数据分别对多个不同类型的初始识别模型进行训练,得到所述多个不同类型的第二识别模型,包括:使用所述预设训练数据分别对所述多个不同类型的初始识别模型进行训练,得到多个不同类型的第二预设识别模型,其中,所述多个不同类型的初始识别模型与所述多个不同类型的第二预设识别模型一一对应,所述预设训练数据包括所述一组样本回复信息中的第一组样本回复信息,每个所述第二预设识别模型输出的所述样本媒体资源在所述异常类型下的预估维度标签与所述已知维度标签之间的误差满足预定收敛条件;使用所述预设测试数据对所述多个不同类型的第二预设识别模型进行测试,在所述多个不同类型的第二预设识别模型中的第三预设识别模型与所述多个不同类型的第二预设识别模型中除所述第三预设识别模型之外的其它预设识别模型的输出结果不一致的情况下,使用所述预设训练数据和所述预设测试数据对所述第三预设识别模型进行重新训练,得到第四预设识别模型,其中,对于相同的输入,所述第四预设识别模型的输出结果与所述其它预设识别模型的输出结果一致,所述预设测试数据包括所述一组样本回复信息中的第二组样本回复信息;将所述多个不同类型的第二识别模型确定为包括所述其它预设识别模型和所述第四预设识别模型。
可选地,所述使用所述一组训练数据分别对多个不同类型的初始识别模型进行训练,得到所述多个不同类型的第二识别模型,所述方法还包括:在所述一组训练数据中存在包括第一字符的第一词语的情况下,将所述第一词语中的所述第一字符替换为第二字符,得到包括第二词语的目标训练数据,其中,所述第一字符是所述第一词语中的错别字,所述第二词语是将所述第一词语中的所述第一字符替换为第二字符得到的词语;和/或,在所述一组训练数据中的第三词语的数量超过预定阈值的情况下,将所述一组训练数据中的部分所述第三词语替换为第四词语,得到包括所述第四词语的所述目标训练数据,其中,所述第四词语是所述第三词语的近义词;使用所述目标训练数据分别对所述多个不同类型的初始识别模型进行训练,得到所述多个不同类型的第二识别模型。
可选地,在将所述第一组回复信息输入到第一识别模型,得到所述第一识别模型输出的所述目标媒体资源在所述异常类型下的一组维度标签之后,所述方法还包括:根据所述一组维度标签对所述目标媒体资源执行预定操作,其中,所述预定操作包括与所述一组维度标签中的每种标签对应的操作。
可选地,所述根据所述一组维度标签对所述目标媒体资源执行预定操作,包括:在所述一组维度标签中存在超过第一预定数量的第一维度标签的情况下,向发布所述目标媒体资源的帐号发送通知消息,其中,所述第一维度标签用于表示所述目标媒体资源的标题与正文不对应,所述通知消息用于指示所述帐号对所述目标媒体资源的标题或正文进行修改,以使得修改后的目标媒体资源的标题和正文对应;在所述一组维度标签中存在超过第二预定数量的第二维度标签的情况下,删除所述目标媒体资源或删除所述目标媒体资源中目标类型的第一媒体资源,其中,所述第二维度标签用于表示所述目标媒体资源中存在所述目标类型的第一媒体资源,所述目标类型的第一媒体资源与所述目标媒体资源的标题和正文不相关。
可选地,所述多个不同类型的第二识别模型为模型架构不同的多个识别模型。
根据本发明实施例的另一方面,还提供了一种媒体资源的识别装置,包括:获取模块,用于获取多个帐号对待识别的目标媒体资源产生的第一组回复信息,其中,所述第一组回复信息中的回复信息用于表示所述目标媒体资源属于异常类型的媒体资源;输入模块,用于将所述第一组回复信息输入到第一识别模型,得到所述第一识别模型输出的所述目标媒体资源在所述异常类型下的一组维度标签,其中,所述第一识别模型中包括多个不同类型的第二识别模型,每个所述第二识别模型是使用一组训练数据对对应类型的初始识别模型训练得到的识别模型,所述一组训练数据包括对已知维度标签的样本媒体资源产生的一组样本回复信息,所述一组样本回复信息用于表示所述样本媒体资源属于所述异常类型的媒体资源,所述已知维度标签为所述样本媒体资源在所述异常类型下的维度标签,每个所述第二识别模型输出的所述样本媒体资源在所述异常类型下的预估维度标签与所述已知维度标签之间的误差满足预定收敛条件;其中,对于所述第一组回复信息中的每条回复信息,在所述多个不同类型的第二识别模型输出的维度标签不完全相同的情况下,将所述多个不同类型的第二识别模型输出的相同数量最多的维度标签确定为所述第一识别模型输出的所述目标媒体资源在所述异常类型下的维度标签。
可选地,所述装置还包括:第一确定模块,用于在将所述第一组回复信息输入到第一识别模型,得到所述第一识别模型输出的所述目标媒体资源在所述异常类型下的一组维度标签之后,在所述一组维度标签中确定出现次数最高或出现次数高于预定阈值的目标维度标签;第二确定模块,用于将所述目标媒体资源的类型确定为所述异常类型、且将所述目标媒体资源在所述异常类型下的维度标签确定为包括所述目标维度标签。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述媒体资源的识别方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的媒体资源的识别方法。
在本发明实施例中,将获取到的多个帐号对待识别的目标媒体资源产生的用于表示目标媒体资源属于异常类型的媒体资源的第一组回复信息,输入到第一识别模型,通过第一识别模型输出的目标媒体资源在异常类型下的一组维度标签,达到了基于帐号的回复信息使用第一识别模型输出与目标媒体资源相对应的一组维度标签的目的,从而实现了提高对媒体资源的审核效率,满足查阅者需求的技术效果,进而解决了现有技术中的媒体资源审核方式效率低,无法满足查阅者需求的技术问题。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种媒体资源的识别方法实施例。
可选地,在本实施例中,上述媒体资源的识别方法可以应用于如图1所示的由服务器102和终端104所构成的硬件环境中。如图1所示是根据本发明实施例的媒体资源的识别方法的硬件环境的示意图,服务器102通过网络与终端104进行连接,上述网络包括但不限于:广域网、城域网或局域网,终端104并不限定于PC、手机、平板电脑等。本发明实施例的媒体资源的识别方法可以由服务器102来执行,也可以由终端104来执行,还可以是由服务器102和终端104共同执行。其中,终端104执行本发明实施例的媒体资源的识别方法也可以是由安装在其上的客户端来执行。
图2是根据本发明实施例的媒体资源的识别方法的流程图,如图2所示,该方法可以包括以下步骤:
步骤S202,获取多个帐号对待识别的目标媒体资源产生的第一组回复信息,其中,所述第一组回复信息中的回复信息用于表示所述目标媒体资源属于异常类型的媒体资源;
其中,媒体资源可以是在应用程序中发表的多媒体信息,该多媒体信息可以是文字信息,也可以是音视频信息。例如,在微博中发表的文章,小程序中发表的自媒体信息,或者是在直播应用中发表的短视频,在音频应用(如:喜马拉雅、酷狗)中发表的音频文件。回复信息可以是用户通过帐号在应用程序中的评论区回复的评论信息,也可以是弹幕信息。在多个帐号对媒体资源的所有回复信息中提取出第一组回复信息,第一组回复信息用于表示媒体资源的内容质量的差评的,例如,媒体资源的题目与内容不符、媒体资源中包含的广告太多等。
步骤S204,将所述第一组回复信息输入到第一识别模型,得到所述第一识别模型输出的所述目标媒体资源在所述异常类型下的一组维度标签,其中,所述第一识别模型中包括多个不同类型的第二识别模型,每个所述第二识别模型是使用一组训练数据对对应类型的初始识别模型训练得到的识别模型,所述一组训练数据包括对已知维度标签的样本媒体资源产生的一组样本回复信息,所述一组样本回复信息用于表示所述样本媒体资源属于所述异常类型的媒体资源,所述已知维度标签为所述样本媒体资源在所述异常类型下的维度标签,每个所述第二识别模型输出的所述样本媒体资源在所述异常类型下的预估维度标签与所述已知维度标签之间的误差满足预定收敛条件;其中,对于所述第一组回复信息中的每条回复信息,在所述多个不同类型的第二识别模型输出的维度标签不完全相同的情况下,将所述多个不同类型的第二识别模型输出的相同数量最多的维度标签确定为所述第一识别模型输出的所述目标媒体资源在所述异常类型下的维度标签。
其中,不同类型的第二模型可以人工智能模型中的各种机器学习算法,如人工神经网络算法、模糊识别、聚类算法等,不同种类的算法模型的架构是不同的。即使采用同一种算法,模型结构也可以是不同的,例如,同一种人工神经网络算法中的节点数、隐含层数均会影响到模型的架构。在本实施例中,多种不同类型的第二识别模型的架构是不同的。多种不同类型的第二识别模型可以使用同一组训练数据分别对相应的初始模型训练得到的,也可以分别使用不同的训练数据得到的,其中,与相应的第二识别模型架构相同的未经训练的模型为初始模型,例如,如图3是根据本发明实施例的一种可选的人工神经网络模型架构示意图,未经训练时的模型为初始模型,使用训练数据对该模型进行训练后得到的模型为第二识别模型。
在本实施例中,维度标签表示媒体资源的低质量类型,如标题与正文不符、广告太多、错别字、病句、媒体信息过旧、含虚假信息等,对于每条低质量评价信息,在多个不同类型的第二识别模型输出的结果不一致的情况下,以输出的相同数量最多的维度标签作为媒体资源的异常类型,也就是低质量类型。例如,多个不同的第二识别模型中包含有三个不同的识别模型,对于某个帐号的一条回复信息,其中两个模型输出结果是广告太多,一个模型的输出结果为虚假信息,那么对于该条评论来说媒体资源的低质量类型为广告太多。
通过本申请,基于用户所登录的帐号在媒体资源中的回复信息对媒体资源的低质量类型进行判定,增加了媒体资源查阅者的感受,更能符合查阅者的需求。通过第一模型确定媒体资源的低质量类型,可以节省人力资源,提高对媒体资源的审核效率。
在一个可选实施例,在将所述第一组回复信息输入到第一识别模型,得到所述第一识别模型输出的所述目标媒体资源在所述异常类型下的一组维度标签之后,所述方法还包括:在所述一组维度标签中确定出现次数最高或出现次数高于预定阈值的目标维度标签;将所述目标媒体资源的类型确定为所述异常类型、且将所述目标媒体资源在所述异常类型下的维度标签确定为包括所述目标维度标签。在本实施例中,第一组回复信息中包括多个帐号对媒体资源的低质量评论信息,也就是说,对于该媒体资源来说存在多条低质量评价信息,多条低质量评价信息对于该媒体资源的评价包含多种不同的低质量评价内容。将多条低质量评价信息输入至第一模型中输出一组维度标签,这组维度标签中包含了多种类型的低质量类型,那么以数量最多的维度标签或者数量超过预定的阈值的维度标签作为该媒体资源的低质量类型。例如,将多个帐号对媒体资源的一组回复信息输入至第一模型,第一模型输出的一组维度标签中包括50条广告太多的标签,30条题目与文章不符的标签,20条含错别字的标签,10条其它低质量类型的标签。那么,以出现次数最多的广告太多的标签作为该媒体资源的低质量类型。或者预先设定一个阈值如15,以超出该阈值的维度标签作为该媒体资源的低质量类型,那么在该例中,以广告太多和题目与文章不符的维度标签作为该媒体资源的低质量类型。
在一个可选实施例,在将所述第一组回复信息输入到第一识别模型,得到所述第一识别模型输出的所述目标媒体资源在所述异常类型下的一组维度标签之前,所述方法还包括:使用所述一组训练数据分别对多个不同类型的初始识别模型进行训练,得到所述多个不同类型的第二识别模型,其中,所述多个不同类型的初始识别模型与所述多个不同类型的第二识别模一一对应。在本实施例中,第一识别模型中包含了多种不同类型的第二识别模型,如图4是根据本发明实施例的一种可选的第一识别模型示意图,其中,第一模型中包含了三种不同的第二识别模型:逻辑回归(Logistic Regression简称LR)、Fast Test、长短期记忆模型(long-short term memory,简称LSTM),使用一组训练数据分别对这三种模型的初始模型进行训练得到对应的第二识别模型。
在一个可选实施例,所述一组训练数据中包括预设训练数据和预设测试数据,其中,所述使用所述一组训练数据分别对多个不同类型的初始识别模型进行训练,得到所述多个不同类型的第二识别模型,包括:使用所述预设训练数据分别对所述多个不同类型的初始识别模型进行训练,得到多个不同类型的第二预设识别模型,其中,所述多个不同类型的初始识别模型与所述多个不同类型的第二预设识别模型一一对应,所述预设训练数据包括所述一组样本回复信息中的第一组样本回复信息,每个所述第二预设识别模型输出的所述样本媒体资源在所述异常类型下的预估维度标签与所述已知维度标签之间的误差满足预定收敛条件;使用所述预设测试数据对所述多个不同类型的第二预设识别模型进行测试,在所述多个不同类型的第二预设识别模型中的第三预设识别模型与所述多个不同类型的第二预设识别模型中除所述第三预设识别模型之外的其它预设识别模型的输出结果不一致的情况下,使用所述预设训练数据和所述预设测试数据对所述第三预设识别模型进行重新训练,得到第四预设识别模型,其中,对于相同的输入,所述第四预设识别模型的输出结果与所述其它预设识别模型的输出结果一致,所述预设测试数据包括所述一组样本回复信息中的第二组样本回复信息;将所述多个不同类型的第二识别模型确定为包括所述其它预设识别模型和所述第四预设识别模型。在本实施例中,在模型的训练过程中,将一组训练数据中的一部分数据用于训练模型,用于训练模型的数据称为预设训练数据,另一部分数据用于对训练过程中得到的第二预设模型进行测试,用于测试的数据称为预设测试数据。使用预设训练数据分别对多个不同架构的初始模型进行训练,训练过程中得到的模型为第二预设识别模型,使用测试数据对第二预设识别模型的输出结果进行测试验证。在多个第二预设识别模型中的输出结果不一致的情况下,以与其它第二预设模型输出结果不一致的模型作为第三预设模型,使用预设测试数据和预设训练数据对第三预设模型进行重新训练,以使重新训练得到的第四预设模型与其它第二预设模型的输出结果一致。
使用一组样本回复信息作为一组训练数据,以该一组训练数据中的一部分的样本回复信息,也就是第一组样本回复信息作为预设训练数据,另一部分的样本回复信息作为,即第二组样本回复信息作为预设测试数据。使用预设训练数据对多种不同架构的初始模型进行训练,训练的过程中得到对应的多种不同架构的第二预设识别模型,使用预设测试数据对得到的多个第二预设识别模型进行测试验证,若在多个第二预设识别模型中的第三预设识别模型的输出结果与其它第二预设模型的输出结果不一致,那么以预设训练数据和预设测试数据作为训练数据,重新训练第三预设模型得到第四预设识别模型,第四预设识别模型的输出结果与其它第二预设识别模型的输出结果保持一致。例如,选用1000个样本回复信息,其中,500个样本回复信息作为预设训练数据,使用该500个预设训练数据对3个不同类型的初始模型进行训练,得到3个不同类型的第二预设识别模型。使用1000个样本回复信息中剩余的500个样本回复信息对这3种第二预设模型进行测试,测试结果显示,其中两个模型的输出结果是标题与内容不符,一个模型的输出结果是广告太多,那么以输出广告太多的模型为第三预设模型。使用上述500个预设训练数据和500个预设测试数据对第三预设模型进行重新训练,以使重新训练得到的第四预设模型的输出结果与其它两个第二预设模型的输出结果一致,即,均为标题与内容不符。
在一个可选实施例,所述使用所述一组训练数据分别对多个不同类型的初始识别模型进行训练,得到所述多个不同类型的第二识别模型,所述方法还包括:在所述一组训练数据中存在包括第一字符的第一词语的情况下,将所述第一词语中的所述第一字符替换为第二字符,得到包括第二词语的目标训练数据,其中,所述第一字符是所述第一词语中的错别字,所述第二词语是将所述第一词语中的所述第一字符替换为第二字符得到的词语;和/或,在所述一组训练数据中的第三词语的数量超过预定阈值的情况下,将所述一组训练数据中的部分所述第三词语替换为第四词语,得到包括所述第四词语的所述目标训练数据,其中,所述第四词语是所述第三词语的近义词;使用所述目标训练数据分别对所述多个不同类型的初始识别模型进行训练,得到所述多个不同类型的第二识别模型。在本实施例中,用户的评论信息常常包含错别字。在训练模型的过程中,含错别字的词语一般认为是与低质量类型无关的词语。此时,在训练模型时会丢失一部分数据,减少了训练样本的数据量。在本实施例中,在训练模型时,在训练数据中确定出包含错别字的词语,将该词语中的错别字进行更正,得到不含错别字的词语。此外,在将一组回复信息输入到第一模型之前,也要对一组回复信息中的错别字进行更正。也就是说,训练模型时需要将训练数据中的错别字进行更正。使用训练好的模型对一组回复信息进行识别时,也需要将一组回复信息中的错别字进行更正。此外,为了增加训练数据的多样性,需要将训练数据中的词语进行同义词更换,例如,“小编”和“作者”均是值媒体资源的作者,在其中某个词语的数量超出预定阈值的情况下,将该词语替换为它的同义词。
在一个可选实施例,在将所述第一组回复信息输入到第一识别模型,得到所述第一识别模型输出的所述目标媒体资源在所述异常类型下的一组维度标签之后,所述方法还包括:根据所述一组维度标签对所述目标媒体资源执行预定操作,其中,所述预定操作包括与所述一组维度标签中的每种标签对应的操作。在本实施例,在第一识别模型输出媒体资源的低质量维度标签之后,根据媒体资源的低质量类型进行进一步的处理。
在一个可选实施例,所述根据所述一组维度标签对所述目标媒体资源执行预定操作,包括:在所述一组维度标签中存在超过第一预定数量的第一维度标签的情况下,向发布所述目标媒体资源的帐号发送通知消息,其中,所述第一维度标签用于表示所述目标媒体资源的标题与正文不对应,所述通知消息用于指示所述帐号对所述目标媒体资源的标题或正文进行修改,以使得修改后的目标媒体资源的标题和正文对应;在所述一组维度标签中存在超过第二预定数量的第二维度标签的情况下,删除所述目标媒体资源或删除所述目标媒体资源中目标类型的第一媒体资源,其中,所述第二维度标签用于表示所述目标媒体资源中存在所述目标类型的第一媒体资源,所述目标类型的第一媒体资源与所述目标媒体资源的标题和正文不相关。在本实施例中,第一识别模型输出的维度标签中超过一定数量的评论信息中指示该媒体资源的题目和内容不符,向发布该媒体资源的帐号发送通知消息,以通知发布该媒体资源的账号对该媒体资源进行修改。在本实施例中,第一媒体资源可以是广告,也可以是为了增加媒体资源的数据量,在媒体资源中添加的一些与媒体资源标题和内容不符的其它内容。以第一媒体资源是广告为例,在第一识别模型输出的维度标签中超过预定阈值的维度标签指示该媒体资源中广告数量过多,删除媒体资源中的广告。
在一个可选实施例,所述多个不同类型的第二识别模型为模型架构不同的多个识别模型。在本实施例中,第一识别模型中包含的多个不同类型的第二识别模型的架构是不同的,不同架构的第二识别模型是通过与其相对应的初始模型训练得到的。
下面以媒体资源为文章为例,通过一个具体实施例说明本申请。
在识别低质量文章时,从评论中挖掘用户对文章质量的描述以及情感极性,根据低质评论的占比以及低质类型的严重程度,最终得到文章质量的打分。如图5所示是根据本发明实施例的一种可选的基于评论的低质量文章识别方法流程图,具体包括如下步骤:
步骤1:获取对文章的评论信息;
步骤2:是否包含有情感信息的评论信息,若是,执行步骤3,若否,执行步骤6;
步骤3:在对文章的评论信息中识别出包含有情感信息的评论信息。
评论体现了用户对某一事件的主客观评价,包含着用户自身的情感态度,情感信息包括正面情感和负面情感。过搜集正负向情感词及文章质量层面的主体词,通过关键词识别和模型分类来识别正向情感及负向情感。如果评论是正面情感,则不继续进行识别,否则继续执行步骤2;
步骤4:是否存在描述文章质量方面的信息,如果评论不是在描述文章质量方面的信息,则不继续进行识别,执行步骤6;如果是,继续执行步骤5;
步骤5:识别出评论中描述的文章低质量类型。下面举例说明描述文章质量方面的低质类型的评论:
(1)与广告相关的低质量评论:“最烦这种打广告的”、“广告也太多了吧”。
(2)标题与文章内容不符的低质量评论:“开局一个标题,视频和内容不符”、“标题党啊”。
(3)与错别字相关的低质量评论:“麻烦你回去再读一遍小学好吗?这错别字”、“是“专家”,不是“砖家””、“错别字太多啦”;
(4)存在病句的低质量评论:“这写的都是些什么乱七八糟的?前言不搭后语啊”、“语句不通啊”。
(5)旧新闻的低质量评论:“多少年前的事了现在还在报”,“这是上个月的新闻啦”;
(6)虚假新闻的低质量评论:“小编,能不能有点事实啊”、“已经证实了,这是假的”。
步骤6:结束,不继续进行识别。
对于文章描述层面的低质问题,需要首先对评论中的描述对象进行识别,归纳总结了一些文章层面的主体词,如“作者、编辑、快报、帖子、文章、媒体、标题、图片、正文、小编”等。同时结合知识图谱中的普通实体进行实体层面的识别,比如包含人名、地名、结构名等实体但不含有文章层面的主体词的评论不进行质量方面的识别。
本实施例中采用采用逻辑回归(Logistic Regression简称LR)、Fast Test、长短期记忆模型(long-short term memory,简称LSTM)、bert(双向Transformer的编码器,Bidirectional Encoder Representation from Transformers)分类模型及模型融合策略进行识别。对于较长评论的内容一般会陈述文章的质量问题,并利用word2vec对描述文章低质量的关键词进行语义相似扩展,常见描述文章低质量的关键词包括“打广告的、做广告的”、“标题党、文不对题”、“错别字、白字、别字”、“病句、不知所云、牛头不对马嘴”、“旧闻、旧新闻、过期新闻、陈年旧事”、“虚假文章、假新闻、瞎编、开具一张图,内容全靠编”、“垃圾新闻、七拼八凑、已举报”。
为了捕获更多语义,采用一元和二元特征的TF*IDF,其中,TF是词频Termfrequency,IDF是逆文档频率Inverse document frequency,TF*IDF用来评估词语对于文章的重要程度。对于评论属于较短文本,语义信息不足,在构建训练数据时,我们进行了清洗和增强,保证训练数据的纯净,并进行数据量的扩充。具体包括:
一、数据清洗
1、由于用户在发表评论时不免会有错别字,如“砖家、贾新闻”,利用同音异形词表来修正评论中的错别字;
2、由于初次构造的训练数据可能存在冗余情况,故通过逐步随机采用部分训练数据去训练,用训练出的模型预测其余初始训练数据,当准确率和召回率都收敛时则停止。通过该方式减少无用的训练数据,降低对已经可以准确预测类型的数据投入量;
3、通过自训练self-training方式,去除预测概率较低的样本来提高训练数据样本的准确率;
4、由于初次构造的训练数据结合了含有主体词的方式,故存在个别主体词对应的训练数据偏高的情况。通过利用word2vec扩展已知主体词的近义词,均匀替换含有这些主体词的评论数据;
二、数据增强
1、通过中英文互译的方式增加训练数据的泛化性;
2、根据预测概率可以得到预测错误且概率高的数据,即低质评论预测为非低质且概率在预定阈值以上或者非低质评论预测为低质且概率在预定阈值以上,将这部分数据交由人工进行标注后加入到训练数据中,解决原来不能召回的低质评论;
3、由于采用了多个模型分别进行训练的方式,不同模型之间可以识别的低质评论有所不同,故采用基于多分类的伪标签半监督学习的方式进行训练数据的扩充。如图4所示,每个模型分别进行自训练并在相同测试集上进行测试,将其中两个模型可以预测准确但第三个模型未能预测准确的数据加入到第三个模型中,经过多次迭代收敛后,获得每个模型的训练数据。由于采用深度网络模型时,词语的嵌入embedding信息格外重要,不同的词向量训练方法对产生的词向量模型也会有所不同,故我们分别利用fasttext、glove、google的词向量训练方法来训练词向量模型,同时对应一些不在现有的词库里的词(Out-of-vocabulary,简称OOV),利用fastext计算近似次替代。
三、基于文章的低质量类型以及低质评论占比对文章进行打分。
具体地,根据识别出的低质评论占比和低质类型,结合文章的媒体属性及打分,设定文章低质量阈值,大于该阈值的文章认为是低质量文章
在计算文章是否为低质量时,采用预定时间段(例如,近几个月,近几个星期)的评论去分别识别是否的低质评论,低质评论占比则为低质评论数/评论总数;结合低质评论占比以及总评论数,制定不同条件下的文章评论打分标准。
在依据低质评论数、总评论数以及低质评论占比计算出文章评论分后,对总评论数较少的情况需要根据媒体属性等进行初始评论分的微调。其中区分严重低质类型以及非严重低质类型,即“标题党、错别字、有语病、旧闻”为严重低质类型,其余类型为非严重低质类型。同时结合文章初始分(利用文章的颜值分,即结合段落数及段落长度等给出的打分,及媒体分计算出的打分)进行修正得到最终评论分。
本申请从评论角度结合评论情感极性以及对文章质量的描述信息,捕捉用户对文章质量不可接受的程度,同时结合文章媒体信息作为辅助判断等,因此改进了原有低质量文章识别的缺陷。运用本申请的技术方案进行低质量识别,可以有效辅助人工审核,提高审核效率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述媒体资源的识别方法的媒体资源的识别装置。如图6所示是根据本发明实施例的媒体资源的识别装置的结构框图,该装置包括:获取模块62,用于获取多个帐号对待识别的目标媒体资源产生的第一组回复信息,其中,所述第一组回复信息中的回复信息用于表示所述目标媒体资源属于异常类型的媒体资源;输入模块64,用于将所述第一组回复信息输入到第一识别模型,得到所述第一识别模型输出的所述目标媒体资源在所述异常类型下的一组维度标签,其中,所述第一识别模型中包括多个不同类型的第二识别模型,每个所述第二识别模型是使用一组训练数据对对应类型的初始识别模型训练得到的识别模型,所述一组训练数据包括对已知维度标签的样本媒体资源产生的一组样本回复信息,所述一组样本回复信息用于表示所述样本媒体资源属于所述异常类型的媒体资源,所述已知维度标签为所述样本媒体资源在所述异常类型下的维度标签,每个所述第二识别模型输出的所述样本媒体资源在所述异常类型下的预估维度标签与所述已知维度标签之间的误差满足预定收敛条件;其中,对于所述第一组回复信息中的每条回复信息,在所述多个不同类型的第二识别模型输出的维度标签不完全相同的情况下,将所述多个不同类型的第二识别模型输出的相同数量最多的维度标签确定为所述第一识别模型输出的所述目标媒体资源在所述异常类型下的维度标签。
在一个可选实施例,所述装置还包括:第一确定模块,用于在将所述第一组回复信息输入到第一识别模型,得到所述第一识别模型输出的所述目标媒体资源在所述异常类型下的一组维度标签之后,在所述一组维度标签中确定出现次数最高或出现次数高于预定阈值的目标维度标签;第二确定模块,用于将所述目标媒体资源的类型确定为所述异常类型、且将所述目标媒体资源在所述异常类型下的维度标签确定为包括所述目标维度标签。
在一个可选实施例,上述装置还用于,在将所述第一组回复信息输入到第一识别模型,得到所述第一识别模型输出的所述目标媒体资源在所述异常类型下的一组维度标签之前,使用所述一组训练数据分别对多个不同类型的初始识别模型进行训练,得到所述多个不同类型的第二识别模型,其中,所述多个不同类型的初始识别模型与所述多个不同类型的第二识别模一一对应。
在一个可选实施例,上述装置还用于,使用所述预设训练数据分别对所述多个不同类型的初始识别模型进行训练,得到多个不同类型的第二预设识别模型,其中,所述多个不同类型的初始识别模型与所述多个不同类型的第二预设识别模型一一对应,所述预设训练数据包括所述一组样本回复信息中的第一组样本回复信息,每个所述第二预设识别模型输出的所述样本媒体资源在所述异常类型下的预估维度标签与所述已知维度标签之间的误差满足预定收敛条件;使用所述预设测试数据对所述多个不同类型的第二预设识别模型进行测试,在所述多个不同类型的第二预设识别模型中的第三预设识别模型与所述多个不同类型的第二预设识别模型中除所述第三预设识别模型之外的其它预设识别模型的输出结果不一致的情况下,使用所述预设训练数据和所述预设测试数据对所述第三预设识别模型进行重新训练,得到第四预设识别模型,其中,对于相同的输入,所述第四预设识别模型的输出结果与所述其它预设识别模型的输出结果一致,所述预设测试数据包括所述一组样本回复信息中的第二组样本回复信息;将所述多个不同类型的第二识别模型确定为包括所述其它预设识别模型和所述第四预设识别模型。
在一个可选实施例,上述装置还用于,在所述一组训练数据中存在包括第一字符的第一词语的情况下,将所述第一词语中的所述第一字符替换为第二字符,得到包括第二词语的目标训练数据,其中,所述第一字符是所述第一词语中的错别字,所述第二词语是将所述第一词语中的所述第一字符替换为第二字符得到的词语;和/或,在所述一组训练数据中的第三词语的数量超过预定阈值的情况下,将所述一组训练数据中的部分所述第三词语替换为第四词语,得到包括所述第四词语的所述目标训练数据,其中,所述第四词语是所述第三词语的近义词;使用所述目标训练数据分别对所述多个不同类型的初始识别模型进行训练,得到所述多个不同类型的第二识别模型。
在一个可选实施例,上述装置还用于,在将所述第一组回复信息输入到第一识别模型,得到所述第一识别模型输出的所述目标媒体资源在所述异常类型下的一组维度标签之后,根据所述一组维度标签对所述目标媒体资源执行预定操作,其中,所述预定操作包括与所述一组维度标签中的每种标签对应的操作。
在一个可选实施例,上述装置还用于,在所述一组维度标签中存在超过第一预定数量的第一维度标签的情况下,向发布所述目标媒体资源的帐号发送通知消息,其中,所述第一维度标签用于表示所述目标媒体资源的标题与正文不对应,所述通知消息用于指示所述帐号对所述目标媒体资源的标题或正文进行修改,以使得修改后的目标媒体资源的标题和正文对应;在所述一组维度标签中存在超过第二预定数量的第二维度标签的情况下,删除所述目标媒体资源或删除所述目标媒体资源中目标类型的第一媒体资源,其中,所述第二维度标签用于表示所述目标媒体资源中存在所述目标类型的第一媒体资源,所述目标类型的第一媒体资源与所述目标媒体资源的标题和正文不相关。
在一个可选实施例,所述多个不同类型的第二识别模型为模型架构不同的多个识别模型。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取多个帐号对待识别的目标媒体资源产生的第一组回复信息,其中,所述第一组回复信息中的回复信息用于表示所述目标媒体资源属于异常类型的媒体资源;
S2,将所述第一组回复信息输入到第一识别模型,得到所述第一识别模型输出的所述目标媒体资源在所述异常类型下的一组维度标签,其中,所述第一识别模型中包括多个不同类型的第二识别模型,每个所述第二识别模型是使用一组训练数据对对应类型的初始识别模型训练得到的识别模型,所述一组训练数据包括对已知维度标签的样本媒体资源产生的一组样本回复信息,所述一组样本回复信息用于表示所述样本媒体资源属于所述异常类型的媒体资源,所述已知维度标签为所述样本媒体资源在所述异常类型下的维度标签,每个所述第二识别模型输出的所述样本媒体资源在所述异常类型下的预估维度标签与所述已知维度标签之间的误差满足预定收敛条件;
其中,对于所述第一组回复信息中的每条回复信息,在所述多个不同类型的第二识别模型输出的维度标签不完全相同的情况下,将所述多个不同类型的第二识别模型输出的相同数量最多的维度标签确定为所述第一识别模型输出的所述目标媒体资源在所述异常类型下的维度标签。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取多个帐号对待识别的目标媒体资源产生的第一组回复信息,其中,所述第一组回复信息中的回复信息用于表示所述目标媒体资源属于异常类型的媒体资源;
S2,将所述第一组回复信息输入到第一识别模型,得到所述第一识别模型输出的所述目标媒体资源在所述异常类型下的一组维度标签,其中,所述第一识别模型中包括多个不同类型的第二识别模型,每个所述第二识别模型是使用一组训练数据对对应类型的初始识别模型训练得到的识别模型,所述一组训练数据包括对已知维度标签的样本媒体资源产生的一组样本回复信息,所述一组样本回复信息用于表示所述样本媒体资源属于所述异常类型的媒体资源,所述已知维度标签为所述样本媒体资源在所述异常类型下的维度标签,每个所述第二识别模型输出的所述样本媒体资源在所述异常类型下的预估维度标签与所述已知维度标签之间的误差满足预定收敛条件;
其中,对于所述第一组回复信息中的每条回复信息,在所述多个不同类型的第二识别模型输出的维度标签不完全相同的情况下,将所述多个不同类型的第二识别模型输出的相同数量最多的维度标签确定为所述第一识别模型输出的所述目标媒体资源在所述异常类型下的维度标签。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。