CN111680120B - 新闻类别检测方法及系统 - Google Patents

新闻类别检测方法及系统 Download PDF

Info

Publication number
CN111680120B
CN111680120B CN202010367249.1A CN202010367249A CN111680120B CN 111680120 B CN111680120 B CN 111680120B CN 202010367249 A CN202010367249 A CN 202010367249A CN 111680120 B CN111680120 B CN 111680120B
Authority
CN
China
Prior art keywords
news
text
category
features
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010367249.1A
Other languages
English (en)
Other versions
CN111680120A (zh
Inventor
喻民
刘超
吴兴华
姜建国
高世浩
黄伟庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN202010367249.1A priority Critical patent/CN111680120B/zh
Publication of CN111680120A publication Critical patent/CN111680120A/zh
Application granted granted Critical
Publication of CN111680120B publication Critical patent/CN111680120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Abstract

本发明实施例提供了一种新闻类别检测方法及系统,所述方法包括:获取待检测新闻的内容文本和社会属性文本;将内容文本以及社会属性文本输入至新闻类别粗检测模型,得到新闻类别粗检测模型输出的待检测新闻的第一类类别文本。所述方法还包括:将所述第一类类别文本、所述内容文本以及所述社会属性文本输入至新闻类别细检测模型,得到所述新闻类别细检测模型输出的所述待检测新闻的第二类类别文本。通过新闻类别粗检测模型以及细检测模型,实现特征提取、特征融合,并在特征融合时考虑到社会属性文本,使融合结果更加准确,也使得基于融合结果确定的检测结果更准确。

Description

新闻类别检测方法及系统
技术领域
本发明涉及信息识别技术领域,更具体地,涉及新闻类别检测方法及系统。
背景技术
随着互联网的高速发展,信息的传播方式发生了巨大的变化,在线社交媒体成为主流的信息传播媒介,相比于传统的传播方式,其摆脱了集中发布的限制,使得任何人都能成为发布和传播新闻的主体,为用户带来了巨大的便利。但与此同时,由于缺乏有效的审查和监管,在线社交媒体上也充斥着大量的虚假新闻,成为可能造成社会和经济损失的严重威胁,因此对新闻类别的自动化检测至关重要。
目前,国内外已有一些新闻类别检测方法,包括基于新闻的内容文本的检测方法和基于新闻的社会属性文本的检测方法。基于新闻的内容文本的检测方法主要针对新闻的内容本身,对新闻的内容文本进行分析判断;基于新闻的社会属性文本的检测方法则会结合隐藏在新闻的内容背后的社会属性,如发布该新闻的作者所持立场或者该新闻在社交媒体中的传播轨迹等,由此来进行新闻类别的自动化检测。
新闻类别检测的目的是针对新闻的特定内容,判断其真实性,属于文本分类的一种。但新闻类别检测又不同于简单的文本分类任务,因为新闻类别中的虚假新闻的目的就是为了误导用户,其内容的模糊性、欺骗性较强,所以单纯针对新闻的内容本身,仅通过分析新闻的内容文本的分类方法很难取得较好的效果。而在基于新闻的社会属性文本的检测方法中,利用新闻传播轨迹的方法复杂且效率较低,需要收集大量的相关信息,适合分析不适合检测。
因此,现急需提供一种新闻类别检测方法及系统。
发明内容
为克服上述问题或者至少部分地解决上述问题,本发明实施例提供了一种新闻类别检测方法及系统。
第一方面,本发明实施例提供了一种新闻类别检测方法,包括:
获取待检测新闻的内容文本和社会属性文本;
将所述内容文本以及所述社会属性文本输入至新闻类别粗检测模型,得到所述新闻类别粗检测模型输出的所述待检测新闻的第一类类别文本;
其中,所述新闻类别粗检测模型用于对所述内容文本以及所述社会属性文本进行特征提取,得到第一类特征;并基于所述社会属性文本,对所述第一类特征进行特征融合,基于所述第一类特征的融合结果,对所述待检测新闻的第一类类别进行检测;所述新闻类别粗检测模型基于带有第一类类别文本标签的第一类样本新闻训练得到。
优选地,所述方法还包括:
将所述第一类类别文本、所述内容文本以及所述社会属性文本输入至新闻类别细检测模型,得到所述新闻类别细检测模型输出的所述待检测新闻的第二类类别文本;
其中,所述新闻类别细检测模型用于对所述第一类类别文本、所述内容文本以及所述社会属性文本进行特征提取,得到第二类特征;并基于所述社会属性文本,对所述第二类特征进行特征融合,基于所述第二类特征的融合结果,对所述待检测新闻的第二类类别进行检测;所述新闻类别细检测模型基于带有第一类类别文本标签、第二类类别文本标签的第二类样本新闻训练得到。
优选地,所述新闻类别粗检测模型具体包括第一特征提取层,所述新闻类别细检测模型具体包括第二特征提取层;
所述第一特征提取层具体用于:基于BERT模型,对所述内容文本以及所述社会属性文本进行特征提取,得到所述第一类特征;和/或,
所述第二特征提取层具体用于:基于BERT模型,对所述第一类类别文本、所述内容文本以及所述社会属性文本进行特征提取,得到所述第二类特征。
优选地,所述第一特征提取层具体用于:
将所述内容文本以及所述社会属性文本输入至所述BERT模型的嵌入表示层,得到所述嵌入表示层输出的与所述内容文本以及所述社会属性文本相对应的初始嵌入向量;
将所述初始嵌入向量输入至所述BERT模型的编码层,并经由所述BERT模型的隐层单元输出层输出所述第一类特征;和/或,
所述第二特征提取层具体用于:
将所述第一类类别文本、所述内容文本以及所述社会属性文本输入至所述BERT模型的嵌入表示层,得到所述嵌入表示层输出的与所述第一类类别文本、所述内容文本以及所述社会属性文本相对应的初始嵌入向量;
将所述初始嵌入向量输入至所述BERT模型的编码层,并经由所述BERT模型的隐层单元输出层输出所述第二类特征。
优选地,所述新闻类别粗检测模型还包括:第一特征融合层,所述新闻类别细检测模型还包括:第二特征融合层;
所述第一特征融合层具体用于:基于注意力机制,对所述第一类特征进行融合;和/或,所述第二特征融合层具体用于:基于注意力机制,对所述第二类特征进行融合;
其中,所述第一类特征中不同特征的权重,以及所述第二类特征中不同特征的权重均基于所述社会属性文本确定。
优选地,所述新闻类别粗检测模型,还用于:
对所述待检测新闻对应的标记位进行特征提取,得到标记位特征;
基于所述标记位特征以及所述第一类特征的融合结果,对所述待检测新闻的第一类类别进行检测;相应地,
所述新闻类别细检测模型,还用于:
对所述待检测新闻对应的标记位进行特征提取,得到标记位特征;
基于所述标记位特征以及所述第二类特征的融合结果,对所述待检测新闻的第二类类别进行检测。
优选地,所述新闻类别粗检测模型,还用于:
基于所述标记位特征以及所述社会属性文本,对所述第一类特征进行特征融合;相应地,
所述新闻类别细检测模型,还用于:
基于所述标记位特征以及所述社会属性文本,对所述第二类特征进行特征融合。
第二方面,本发明实施例提供了一种新闻类别检测系统,包括:
文本获取模块,用于获取待检测新闻的内容文本和社会属性文本;
类别检测模块,用于将所述内容文本以及所述社会属性文本输入至新闻类别粗检测模型,得到所述新闻类别粗检测模型输出的所述待检测新闻的第一类类别文本;
其中,所述新闻类别粗检测模型用于对所述内容文本以及所述社会属性文本进行特征提取,得到第一类特征;并基于所述社会属性文本,对所述第一类特征进行特征融合,基于所述第一类特征的融合结果,对所述待检测新闻的第一类类别进行检测;所述新闻类别粗检测模型基于带有第一类类别文本标签的第一类样本新闻训练得到。
第三方面,本发明实施例提供了一种电子设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的新闻类别检测方法的步骤。
第四方面,本发明实施例提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的新闻类别检测方法的步骤。
本发明实施例提供的一种新闻类别检测方法及系统,所述方法包括:获取待检测新闻的内容文本和社会属性文本;将内容文本以及社会属性文本输入至新闻类别粗检测模型,得到新闻类别粗检测模型输出的待检测新闻的第一类类别文本。通过新闻类别粗检测模型,实现特征提取、特征融合,并在特征融合时考虑到社会属性文本,使融合结果更加准确,也使得基于融合结果确定的检测结果更准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种新闻类别检测方法的流程示意图;
图2为本发明实施例提供的一种新闻类别检测方法的流程示意图;
图3为本发明实施例提供的一种新闻类别检测方法中新闻类别粗检测模型的第一特征提取层中应用的BERT模型的结构示意图;
图4为本发明实施例提供的一种新闻类别检测方法中新闻类别粗检测模型以及新闻类别细检测模型的结构示意图;
图5为本发明实施例提供的一种新闻类别检测系统的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种新闻类别检测方法,包括:
S1,获取待检测新闻的内容文本和社会属性文本;
S2,将所述内容文本以及所述社会属性文本输入至新闻类别粗检测模型,得到所述新闻类别粗检测模型输出的所述待检测新闻的第一类类别文本;
其中,所述新闻类别粗检测模型用于对所述内容文本以及所述社会属性文本进行特征提取,得到第一类特征;并基于所述社会属性文本,对所述第一类特征进行特征融合,基于所述第一类特征的融合结果,对所述待检测新闻的第一类类别进行检测;所述新闻类别粗检测模型基于带有第一类类别文本标签的第一类样本新闻训练得到。
具体地,本发明实施例中提供的新闻类别检测方法,其执行主体为服务器,具体可以是本地服务器,也可以是云端服务器,本地服务器具体可以是电脑、平板、智能手机等,本发明实施例中对此不作具体限定。新闻类别主要根据实际内容进行区分,例如可以分为整体表述真实和整体表述虚假这两大类,本发明实施例中将其统称为第一类类别。其中,整体表述真实可以具体指真实内容的含量大于50%,整体表述虚假可以具体指真实内容的含量小于等于50%。对于每一个第一类类别,又可以根据真实内容的含量再进行细分,可以得到第二类类别。即,第一类类别是大类别,第二类类别是大类别中的小类别。例如整体表述真实可以分为完全真实、绝大部分真实以及大部分真实,整体表述虚假可以分为完全虚假、绝大部分虚假以及大部分虚假。在进行细分时,相邻两个第二类类别之间的分界可以根据需要进行设定,本发明实施例中对此不作具体限定。
首先,执行步骤S1。本发明实施例中,针对的对象为待检测新闻,即需要检测其所属类别的新闻。待检测新闻具体可以是简短新闻,可以是若干句话的新闻。待检测新闻的内容文本是指以文本形式表示的待检测新闻的内容,可以通过文字录入或语音录入得到。待检测新闻的社会属性文本是指以文本形式表示的待检测新闻的社会属性,例如待检测新闻的发布作者所持立场或者待检测新闻在社交媒体中的传播轨迹等,可以通过文字录入或语音录入得到。
其次,执行步骤S2,将待检测新闻的内容文本以及社会属性文本输入至新闻类别粗检测模型。通过新闻类别粗检测模型确定待检测新闻所属的第一类类别,并以文本形式表示。例如,0表示待检测新闻为整体表述真实,1表示待检测新闻为整体表述虚假。其中,可以先将待检测新闻的内容文本以及社会属性文本进行整合使之成为一个整体,然后将这个整体输入至新闻类别粗检测模型。整合的过程具体可以是对待检测新闻的内容文本以及社会属性文本进行简单的拼接即可。
新闻类别粗检测模型先将待检测新闻的内容文本以及社会属性文本进行特征提取,例如可以提取内容文本以及社会属性文本中的每个词对应的特征,并以特征向量的形式表示,称为第一类特征,以便于进行区分。然后结合社会属性文本,对第一类特征进行特征融合,可以理解为对第一类特征中的不同特征进行加权求和,得到第一类特征的融合结果。最后,根据第一类特征的融合结果对待检测新闻的第一类类别进行检测,即可以将第一类特征的融合结果依次经新闻类别粗检测模型的线性连接层以及softmax层进行处理,得到待检测新闻的第一类类别,即确定待检测新闻是属于哪一个第一类类别。
其中,新闻类别粗检测模型基于带有第一类类别文本标签的第一类样本新闻训练得到,具体将第一类样本新闻的内容文本和社会属性文本输入至新闻类别粗检测模型,得到新闻类别粗检测模型输出的第一类样本新闻的检测结果;基于损失函数,确定检测结果与第一类类别文本标签之间的损失值,迭代进行上述过程,直至损失值小于等于预设损失值,训练结束。
本发明实施例中提供的新闻类别检测方法,包括:获取待检测新闻的内容文本和社会属性文本;将内容文本以及社会属性文本输入至新闻类别粗检测模型,得到新闻类别粗检测模型输出的待检测新闻的第一类类别文本。通过新闻类别粗检测模型,实现特征提取、特征融合,并在特征融合时考虑到社会属性文本,使融合结果更加准确,也使得基于融合结果确定的检测结果更准确。
在上述实施例的基础上,在执行步骤S2之前,还包括:对获取的待检测新闻的内容文本和社会属性文本进行预处理,删除重复冗余的内容以及不符合要求的特殊字符等。
如图2所示,在上述实施例的基础上,本发明实施例中提供的新闻类别检测方法,所述方法还包括:
S3,将所述第一类类别文本、所述内容文本以及所述社会属性文本输入至新闻类别细检测模型,得到所述新闻类别细检测模型输出的所述待检测新闻的第二类类别文本;
其中,所述新闻类别细检测模型用于对所述第一类类别文本、所述内容文本以及所述社会属性文本进行特征提取,得到第二类特征;并基于所述社会属性文本,对所述第二类特征进行特征融合,基于所述第二类特征的融合结果,对所述待检测新闻的第二类类别进行检测;所述新闻类别细检测模型基于带有第一类类别文本标签、第二类类别文本标签的第二类样本新闻训练得到。
具体地,本发明实施例中,可以理解为在上述实施例中确定出待检测新闻的第一类类别的基础上,对待检测新闻具体是属于哪一第二类类别。可以理解为,新闻类别粗检测模型实现对待检测新闻类别的粗粒度检测,确定待检测新闻的第一类类别,此为第一阶段;新闻类别细检测模型实现对待检测新闻类别的细粒度检测,确定待检测新闻的第二类类别,此为第二阶段。
将待检测新闻的第一类类别文本、内容文本以及社会属性文本输入至新闻类别细检测模型,得到新闻类别细检测模型输出的待检测新闻的第二类类别文本。其中,新闻类别粗检测模型和新闻类别细检测模型的具体结构大致相同,不同的是,新闻类别细检测模型要以新闻类别粗检测模型的输出作为一个输入。在此基础上,为对新闻类别粗检测模型的输出与待检测新闻的内容文本以及社会属性文本进行区分,可以在新闻细检测模型的输入设置一隔离位,以对待检测新闻的第一类类别文本以及内容文本、社会属性文本进行隔离。
新闻类别细检测模型用于对待检测新闻的第一类类别文本、内容文本以及社会属性文本进行特征提取,例如可以提取第一类类别文本、内容文本以及社会属性文本中的每个词对应的特征,并以特征向量的形式表示,称为第二类特征。然后结合社会属性文本,对第二类特征进行特征融合,可以理解为对第二类特征中的不同特征进行加权求和,得到第二类特征的融合结果。最后,根据第二类特征的融合结果,对待检测新闻的第二类类别进行检测,即可以将第二类特征的融合结果依次经新闻类别细检测模型的线性连接层以及softmax层进行处理,得到待检测新闻的第二类类别,即确定待检测新闻是属于哪一个第二类类别。
其中,新闻类别细检测模型基于带有第一类类别文本标签、第二类类别文本标签的第二类样本新闻训练得到,具体将第二类样本新闻的内容文本和社会属性文本输入至新闻类别细检测模型,得到新闻类别细检测模型输出的第二类样本新闻的检测结果;基于损失函数,确定检测结果与第二类类别文本标签之间的损失值,迭代进行上述过程,直至损失值小于等于预设损失值,训练结束。
本发明实施例中提供的新闻类别检测方法,由于虚假新闻的独特性,将检测任务视为多分类问题,将分类问题拆分成两阶段进行处理,第一阶段将任务做两分类,得到粗粒度的第一类类别。第二阶段利用第一阶段得到的第一类类别,指导第二阶段的分类,得到细粒度的第二类类别,以此获得更加准确的分类结果。
在上述实施例的基础上,所述新闻类别粗检测模型具体包括第一特征提取层,所述新闻类别细检测模型具体包括第二特征提取层;
所述第一特征提取层具体用于:基于BERT模型,对所述内容文本以及所述社会属性文本进行特征提取,得到所述第一类特征;和/或,所述第二特征提取层具体用于:基于BERT模型,对所述第一类类别文本、所述内容文本以及所述社会属性文本进行特征提取,得到所述第二类特征。
具体地,本发明实施例中,无论是新闻类别粗检测模型还是新闻类别细粒度检测模型,均包含特征提取层,均用于对输入内容进行特征提取,为进行区分,将新闻类别粗检测模型中的特征提取层记为第一特征提取层,将新闻类别细检测模型中的特征提取层记为第二特征提取层。由于BERT模型是在大量的语料库下预训练得到的通用语言模型,具有很强的模型迁移能力,即通过预训练得到文本深层关系,用以指导具体任务的分析。因此,第一特征提取层具体可以基于BERT 模型,对待检测新闻的内容文本以及社会属性文本进行特征提取,得到第一类特征。第二特征提取层也可以基于BERT模型,对待检测新闻的第一类类别文本、内容文本以及社会属性文本进行特征提取,得到第二类特征。
本发明实施例中,在第一特征提取层和/或第二特征提取层进行特征提取时,采用BERT模型进行,可以使新闻类别粗检测模型和/或新闻类别细粒度检测模型最终的检测结果更准确。而且,不同于现有技术中仅仅使用BETR模型对输入内容的标记位进行特征提取,充分利用了BERT模型的输出结果。
在上述实施例的基础上,所述第一特征提取层具体用于:
将所述内容文本以及所述社会属性文本输入至所述BERT模型的嵌入表示层,得到所述嵌入表示层输出的与所述内容文本以及所述社会属性文本相对应的初始嵌入向量;
将所述初始嵌入向量输入至所述BERT模型的编码层,并经由所述BERT模型的隐层单元输出层输出所述第一类特征;和/或,
所述第二特征提取层具体用于:
将所述第一类类别文本、所述内容文本以及所述社会属性文本输入至所述BERT模型的嵌入表示层,得到所述嵌入表示层输出的与所述第一类类别文本、所述内容文本以及所述社会属性文本相对应的初始嵌入向量;
将所述初始嵌入向量输入至所述BERT模型的编码层,并经由所述BERT模型的隐层单元输出层输出所述第二类特征。
具体地,BERT模型可以包括嵌入表示层、编码层以及隐层单元输出层。对于第一特征提取层中应用的BERT模型,通过嵌入表示层将待检测新闻的内容文本以及社会属性文本转换为初始嵌入向量,通过编码层以及隐层单元输出层输出第一类特征,隐层单元输出层中的隐层单元与第一类特征一一对应。对于第二特征提取层中应用的BERT 模型,通过嵌入表示层将待检测新闻的第一类类别文本、内容文本以及社会属性文本转换为初始嵌入向量,通过编码层以及隐层单元输出层输出第二类特征,隐层单元输出层中的隐层单元与第二类特征一一对应。
需要说明的是,本发明实施例中,待检测新闻的内容文本以及社会属性文本可以通过其中包含的词进行表示,相应地,输入至嵌入表示层的内容为词的集合,嵌入表示层可以对集合中的每个词进行词嵌入、句子嵌入以及位置嵌入,即确定具体的词、该词属于哪个句子以及该词在所属的句子中的具体位置,并将每个词的词嵌入结果、句子嵌入结果以及位置嵌入结果进行整合,形成与该词对应的初始嵌入向量。
设待检测新闻的内容文本以及社会属性文本作为整体时包含的词的数量为N,则待检测新闻的内容文本以及社会属性文本可以表示为由Tok1-TokN构成的词的集合。其中,Tok1表示待检测新闻的内容文本以及社会属性文本作为整体时包含的第一个词,TokN表示待检测新闻的内容文本以及社会属性文本作为整体时包含的第N个词,即最后一个词。以第一特征提取层中应用的BERT模型为例,如图3所示,为第一特征提取层中应用的BERT模型的结构示意图,Tok1-TokN输入至 BERT模型的嵌入表示层后,由嵌入表示层输出一一对应的初始嵌入向量E1-EN,初始嵌入向量E1-EN经由BERT模型的编码层以及隐层单元输出层输出一一对应的第一类特征T1-TN。其中,编码层具体可以由12 层Transformer编码器实现,其中每层均表示为Trm
第二特征提取层中应用的BERT模型,其结构是在图3的基础上,增加两路,一路对应第一类类别文本,设第一类类别文本中包含的词为Label,则BERT模型的嵌入表示层将Label转换为初始嵌入向量EL,初始嵌入向量EL经由BERT模型的编码层以及隐层单元输出层输出对应的第二类特征TL。另一路对应隔离位[SEP],用以隔离Label与 Tok1-TokN,嵌入表示层将隔离位[SEP]转换为初始嵌入向量E[SEP],初始嵌入向量E[SEP]经编码层后由隐层单元输出层输出第一类特征T[SEP]
在上述实施例的基础上,所述新闻类别粗检测模型,还用于:
对所述待检测新闻对应的标记位进行特征提取,得到标记位特征;
基于所述标记位特征以及所述第一类特征的融合结果,对所述待检测新闻的第一类类别进行检测;相应地,
所述新闻类别细检测模型,还用于:
对所述待检测新闻对应的标记位进行特征提取,得到标记位特征;
基于所述标记位特征以及所述第二类特征的融合结果,对所述待检测新闻的第二类类别进行检测。
具体地,本发明实施例中,在实际对待检测新闻进行类别检测时,还可以为待检测新闻配置对应的标记位,因此无论是第一特征提取层还是第二特征提取层,均可以对待检测新闻对应的标记位进行特征提取,得到标记位特征。如图3所示,设待检测新闻对应的标记位为CLS,经BRET模型的嵌入表示层得到的初始嵌入向量为E[CLS],初始嵌入向量E[CLS]经BRET模型的编码层后由隐层单元输出层输出标记位特征c。
得到标记位特征后,对于新闻类别粗检测模型,可以根据标记位特征以及第一类特征的融合结果,综合对待检测新闻的第一类类别进行检测;对于新闻类别细检测模型,可以根据标记位特征以及第二类特征的融合结果,综合对待检测新闻的第二类类别进行检测。
本发明实施例中,考虑待检测新闻对应的标记位,可以使第一类类别以及第二类类别的检测结果更准确。
在上述实施例的基础上,所述新闻类别粗检测模型,还用于:
基于所述标记位特征以及所述社会属性文本,对所述第一类特征进行特征融合;相应地,
所述新闻类别细检测模型,还用于:
基于所述标记位特征以及所述社会属性文本,对所述第二类特征进行特征融合。
具体地,本发明实施例中,在得到标记位特征后,对于新闻类别粗检测模型,还可以将标记位特征以及社会属性文本结合,共同实现对第一类特征进行特征融合的指导;对于新闻类别细检测模型,还可以将标记位特征以及社会属性文本结合,共同实现对第二类特征进行特征融合的指导。
在上述实施例的基础上,所述新闻类别粗检测模型还包括:第一特征融合层,所述新闻类别细检测模型还包括:第二特征融合层;
所述第一特征融合层具体用于:基于注意力机制,对所述第一类特征进行融合;和/或,所述第二特征融合层具体用于:基于注意力机制,对所述第二类特征进行融合;
其中,所述第一类特征中不同特征的权重,以及所述第二类特征中不同特征的权重均基于所述社会属性文本确定。
具体地,本发明实施例中,第一特征融合层和第二特征融合层均可以基于注意力机制实现融合。对于第一特征融合层,融合的过程即是第一类特征中不同特征的加权求和,对于第二特征融合层,融合的过程即是第二类特征中不同特征的加权求和。而加权求和过程中不同特征的权重则是通过社会属性文本确定或者社会属性文本与标记位特征共同确定。即,本发明实施例中,BRET模型中的隐层单元输出层中所有隐层单元输出的特征均会被利用,为了突出不同隐层单元输出的特征对新闻类别检测的重要性,需要给予不同隐层单元输出的特征以不同的权重,将社会属性文本作为监督项,结合注意力机制计算不同隐层单元输出的特征对于新闻类别检测结果的影响程度,分别求得对应的权重,再加权求和得到融合结果,融合结果可以用向量表示。
如图4所示,在上述实施例的基础上,本发明实施例中提供的新闻类别粗检测模型1和新闻类别细检测模型2的结构示意图。
新闻类别粗检测模型1输入社会属性文本以及内容文本,共包含 Tok1-TokN这N个词,并为待检测新闻匹配标记位[CLS],Tok1-TokN以及[CLS]经BERT模型的嵌入表示层后得到对应的E1-EN、E[CLS]。最后经BERT模型输出对应的第一类特征T1-TN、c。Tok1-TokN基于注意力机制,结合第一类特征c11以及社会属性文本赋予权重A1-AN,加权求和得到融合结果12,第一类特征c11与融合结果12进行连接,得到长度为第一类特征c11的长度两倍的特征向量13,为了进行概率预测,还需要经过线性连接层14进行长度调整以及softmax层15进行概率换算,得到向量不同位置中的概率分布,即属于不同种类的概率值,取最大概率的向量位置作为分类结果输出,得到第一类类别文本。
需要说明的是,本发明实施例中获取的待检测新闻的社会属性文本,可以分为两类,一类用于与内容文本进行拼接,另一类用于为注意力机制作指导。
新闻类别粗检测模型1的输出结果为第一类类别文本Label,将其作为新闻类别细检测模型2的一个输入,同时新闻类别细检测模型2 输入社会属性文本以及内容文本,共包含Tok1-TokN这N个词,并为待检测新闻匹配标记位[CLS],为Label与Tok1-TokN之间配置隔离位 [SEP],[CLS]、Label、[SEP]以及Tok1-TokN经BERT模型的嵌入表示层后得到对应的E[CLS]、EL、E[SEP]、E1-EN。最后经BERT模型输出对应的第二类特征c、TL、T[SEP]、T1-TN。TL、T[SEP]、Tok1-TokN基于注意力机制,结合第二类特征c21以及社会属性文本赋予权重AL、A[SEP]、 A1-AN,加权求和得到融合结果22,第二类特征c21与融合结果22进行连接,得到长度为第二类特征c21的长度两倍的特征向量23,为了进行概率预测,还需要经过线性连接层24进行长度调整以及softmax 层25进行概率换算,得到向量不同位置中的概率分布,即属于不同种类的概率值,取最大概率的向量位置作为分类结果输出,得到第二类类别文本。将新闻类别粗检测模型1的输出结果与新闻类别细检测模型2的输出结果结合,即可确定出待检测新闻具体是属于哪一个第一类类别以及在所属的第一类类别下的哪一第二类类别。
综上所述,本发明实施例中提供的新闻类别检测方法,以预训练模型BERT为基础,在其之上进行改进,将新闻内容和额外的社会属性信息共同作为输入,交由BERT进行特征提取,获得隐层输出。不同于BERT只使用标记隐层单元进行分类,本发明实施例中结合注意力机制,充分利用BERT的隐层输出,获得权重,得到加权隐层输出,并于原有的标记位隐层输出结合,作为分类依据。使得最终确定的第一类类别以及第二类类别更加准确。
如图5所示,在上述实施例的基础上,本发明实施例中提供了一种新闻类别检测系统,包括:文本获取模块51和类别检测模块52。
文本获取模块51用于获取待检测新闻的内容文本和社会属性文本;
类别检测模块52用于将所述内容文本以及所述社会属性文本输入至新闻类别粗检测模型,得到所述新闻类别粗检测模型输出的所述待检测新闻的第一类类别文本;
其中,所述新闻类别粗检测模型用于对所述内容文本以及所述社会属性文本进行特征提取,得到第一类特征;并基于所述社会属性文本,对所述第一类特征进行特征融合,基于所述第一类特征的融合结果,对所述待检测新闻的第一类类别进行检测;所述新闻类别粗检测模型基于带有第一类类别文本标签的第一类样本新闻训练得到。
具体地,本发明实施例中提供的新闻类别检测系统中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的,实现的效果也是一致的,具体参见上述实施例,本发明实施例中对此不再赘述。
在上述实施例的基础上,本发明实施例中的新闻类别检测系统,类别检测模块52还用于将所述第一类类别文本、所述内容文本以及所述社会属性文本输入至新闻类别细检测模型,得到所述新闻类别细检测模型输出的所述待检测新闻的第二类类别文本;
其中,所述新闻类别细检测模型用于对所述第一类类别文本、所述内容文本以及所述社会属性文本进行特征提取,得到第二类特征;并基于所述社会属性文本,对所述第二类特征进行特征融合,基于所述第二类特征的融合结果,对所述待检测新闻的第二类类别进行检测;所述新闻类别细检测模型基于带有第一类类别文本标签、第二类类别文本标签的第二类样本新闻训练得到。
图6所示,在上述实施例的基础上,本发明实施例中提供了一种电子设备,包括:处理器(processor)601、存储器(memory)602、通信接口(Communications Interface)603和通信总线604;其中,
所述处理器601、存储器602、通信接口603通过通信总线604完成相互间的通信。所述存储器602存储有可被所述处理器601执行的程序指令,处理器601用于调用存储器602中的程序指令,以执行上述各方法实施例所提供的方法。
需要说明的是,本实施例中的电子设备在具体实现时可以为服务器,也可以为PC机,还可以为其他设备,只要其结构中包括如图6所示的处理器601、通信接口603、存储器602和通信总线604,其中处理器601、通信接口603和存储器602通过通信总线604完成相互间的通信,且处理器601可以调用存储器602中的逻辑指令以执行上述方法即可。本实施例不对电子设备的具体实现形式进行限定。
存储器602中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法。
在上述实施例的基础上,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种新闻类别检测方法,其特征在于,包括:
获取待检测新闻的内容文本和社会属性文本;
将所述内容文本以及所述社会属性文本输入至新闻类别粗检测模型,得到所述新闻类别粗检测模型输出的所述待检测新闻的第一类类别文本;
其中,所述新闻类别粗检测模型用于对所述内容文本以及所述社会属性文本进行特征提取,得到第一类特征;并基于所述社会属性文本,对所述第一类特征进行特征融合,基于所述第一类特征的融合结果,对所述待检测新闻的第一类类别进行检测;所述新闻类别粗检测模型基于带有第一类类别文本标签的第一类样本新闻训练得到;
所述方法还包括:
将所述第一类类别文本、所述内容文本以及所述社会属性文本输入至新闻类别细检测模型,得到所述新闻类别细检测模型输出的所述待检测新闻的第二类类别文本;
其中,所述新闻类别细检测模型用于对所述第一类类别文本、所述内容文本以及所述社会属性文本进行特征提取,得到第二类特征;并基于所述社会属性文本,对所述第二类特征进行特征融合,基于所述第二类特征的融合结果,对所述待检测新闻的第二类类别进行检测;所述新闻类别细检测模型基于带有第一类类别文本标签、第二类类别文本标签的第二类样本新闻训练得到;
所述新闻类别细检测模型,还用于:
对所述待检测新闻对应的标记位、所述内容文本以及所述社会属性文本作为整体与所述第一类类别文本之间的隔离位进行特征提取,分别得到标记位特征以及所述隔离位对应的第二类特征;
基于所述标记位特征以及所述第二类特征的融合结果,对所述待检测新闻的第二类类别进行检测。
2.根据权利要求1所述的新闻类别检测方法,其特征在于,所述新闻类别粗检测模型具体包括第一特征提取层,所述新闻类别细检测模型具体包括第二特征提取层;
所述第一特征提取层具体用于:基于BERT模型,对所述内容文本以及所述社会属性文本进行特征提取,得到所述第一类特征;和/或,
所述第二特征提取层具体用于:基于BERT模型,对所述第一类类别文本、所述内容文本以及所述社会属性文本进行特征提取,得到所述第二类特征。
3.根据权利要求2所述的新闻类别检测方法,其特征在于,所述第一特征提取层具体用于:
将所述内容文本以及所述社会属性文本输入至所述BERT模型的嵌入表示层,得到所述嵌入表示层输出的与所述内容文本以及所述社会属性文本相对应的初始嵌入向量;
将所述初始嵌入向量输入至所述BERT模型的编码层,并经由所述BERT模型的隐层单元输出层输出所述第一类特征;和/或,
所述第二特征提取层具体用于:
将所述第一类类别文本、所述内容文本以及所述社会属性文本输入至所述BERT模型的嵌入表示层,得到所述嵌入表示层输出的与所述第一类类别文本、所述内容文本以及所述社会属性文本相对应的初始嵌入向量;
将所述初始嵌入向量输入至所述BERT模型的编码层,并经由所述BERT模型的隐层单元输出层输出所述第二类特征。
4.根据权利要求1所述的新闻类别检测方法,其特征在于,所述新闻类别粗检测模型还包括:第一特征融合层,所述新闻类别细检测模型还包括:第二特征融合层;
所述第一特征融合层具体用于:基于注意力机制,对所述第一类特征进行融合;和/或,所述第二特征融合层具体用于:基于注意力机制,对所述第二类特征进行融合;
其中,所述第一类特征中不同特征的权重,以及所述第二类特征中不同特征的权重均基于所述社会属性文本确定。
5.根据权利要求1-4中任一项所述的新闻类别检测方法,其特征在于,所述新闻类别粗检测模型,还用于:
对所述待检测新闻对应的标记位进行特征提取,得到标记位特征;
基于所述标记位特征以及所述第一类特征的融合结果,对所述待检测新闻的第一类类别进行检测。
6.根据权利要求5所述的新闻类别检测方法,其特征在于,所述新闻类别粗检测模型,还用于:
基于所述标记位特征以及所述社会属性文本,对所述第一类特征进行特征融合;相应地,
所述新闻类别细检测模型,还用于:
基于所述标记位特征以及所述社会属性文本,对所述第二类特征进行特征融合。
7.一种新闻类别检测系统,其特征在于,包括:
文本获取模块,用于获取待检测新闻的内容文本和社会属性文本;
类别检测模块,用于将所述内容文本以及所述社会属性文本输入至新闻类别粗检测模型,得到所述新闻类别粗检测模型输出的所述待检测新闻的第一类类别文本;
其中,所述新闻类别粗检测模型用于对所述内容文本以及所述社会属性文本进行特征提取,得到第一类特征;并基于所述社会属性文本,对所述第一类特征进行特征融合,基于所述第一类特征的融合结果,对所述待检测新闻的第一类类别进行检测;所述新闻类别粗检测模型基于带有第一类类别文本标签的第一类样本新闻训练得到;
所述类别检测模块还用于:
将所述第一类类别文本、所述内容文本以及所述社会属性文本输入至新闻类别细检测模型,得到所述新闻类别细检测模型输出的所述待检测新闻的第二类类别文本;
其中,所述新闻类别细检测模型用于对所述第一类类别文本、所述内容文本以及所述社会属性文本进行特征提取,得到第二类特征;并基于所述社会属性文本,对所述第二类特征进行特征融合,基于所述第二类特征的融合结果,对所述待检测新闻的第二类类别进行检测;所述新闻类别细检测模型基于带有第一类类别文本标签、第二类类别文本标签的第二类样本新闻训练得到;
所述新闻类别细检测模型,还用于:
对所述待检测新闻对应的标记位、所述内容文本以及所述社会属性文本作为整体与所述第一类类别文本之间的隔离位进行特征提取,分别得到标记位特征以及所述隔离位对应的第二类特征;
基于所述标记位特征以及所述第二类特征的融合结果,对所述待检测新闻的第二类类别进行检测。
8.一种电子设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一项所述的新闻类别检测方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的新闻类别检测方法的步骤。
CN202010367249.1A 2020-04-30 2020-04-30 新闻类别检测方法及系统 Active CN111680120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010367249.1A CN111680120B (zh) 2020-04-30 2020-04-30 新闻类别检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010367249.1A CN111680120B (zh) 2020-04-30 2020-04-30 新闻类别检测方法及系统

Publications (2)

Publication Number Publication Date
CN111680120A CN111680120A (zh) 2020-09-18
CN111680120B true CN111680120B (zh) 2022-06-03

Family

ID=72452255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010367249.1A Active CN111680120B (zh) 2020-04-30 2020-04-30 新闻类别检测方法及系统

Country Status (1)

Country Link
CN (1) CN111680120B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112241456B (zh) * 2020-12-18 2021-04-27 成都晓多科技有限公司 基于关系网络与注意力机制的假新闻预测方法
CN113722482A (zh) * 2021-08-25 2021-11-30 昆明理工大学 一种新闻评论观点句识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019812A (zh) * 2018-02-27 2019-07-16 中国科学院计算技术研究所 一种用户自生产内容检测方法和系统
CN110188194A (zh) * 2019-04-26 2019-08-30 哈尔滨工业大学(深圳) 一种基于多任务学习模型的假新闻检测方法及系统
CN110737801A (zh) * 2019-10-14 2020-01-31 腾讯科技(深圳)有限公司 内容分类方法、装置、计算机设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074500B2 (en) * 2017-06-20 2021-07-27 Battelle Memorial Institute Prediction of social media postings as trusted news or as types of suspicious news
US10896385B2 (en) * 2017-07-27 2021-01-19 Logmein, Inc. Real time learning of text classification models for fast and efficient labeling of training data and customization

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019812A (zh) * 2018-02-27 2019-07-16 中国科学院计算技术研究所 一种用户自生产内容检测方法和系统
CN110188194A (zh) * 2019-04-26 2019-08-30 哈尔滨工业大学(深圳) 一种基于多任务学习模型的假新闻检测方法及系统
CN110737801A (zh) * 2019-10-14 2020-01-31 腾讯科技(深圳)有限公司 内容分类方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111680120A (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
CN111966786B (zh) 一种微博谣言检测方法
CN111160452A (zh) 一种基于预训练语言模型的多模态网络谣言检测方法
CN113722493B (zh) 文本分类的数据处理方法、设备、存储介质
CN109872162A (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN106202031B (zh) 一种基于群聊数据对群成员进行关联的系统及方法
CN111680120B (zh) 新闻类别检测方法及系统
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
CN109325125B (zh) 一种基于cnn优化的社交网络谣言检测方法
CN113590764B (zh) 训练样本构建方法、装置、电子设备和存储介质
CN112667813B (zh) 用于裁判文书的敏感身份信息的识别方法
Kodiyan et al. Author profiling with bidirectional rnns using attention with grus: notebook for pan at clef 2017
CN112183064A (zh) 基于多任务联合学习的文本情绪原因识别系统
CN108763211A (zh) 融合蕴含知识的自动文摘方法及系统
CN109766911A (zh) 一种行为预测方法
CN107392392A (zh) 基于深度学习的微博转发预测方法
CN112036169B (zh) 事件识别模型优化方法、装置、设备及可读存储介质
CN108268602A (zh) 分析文本话题点的方法、装置、设备和计算机存储介质
CN108268443A (zh) 确定话题点转移以及获取回复文本的方法、装置
CN111191029A (zh) 基于监督学习和文本分类的ac构建方法
Huang et al. Stance detection based on user feature fusion
CN116167379A (zh) 一种基于bert和实体位置信息的实体关系抽取方法
Varughese et al. Analyzing the behavior of youth to sociality using social media mining
Venu et al. Detection of Cyberbullying on User Tweets and Wikipedia Text using Machine Learning
CN113592040B (zh) 对危化品事故进行分类的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant