CN108241727A - 新闻可信度评价方法及设备 - Google Patents
新闻可信度评价方法及设备 Download PDFInfo
- Publication number
- CN108241727A CN108241727A CN201710778564.1A CN201710778564A CN108241727A CN 108241727 A CN108241727 A CN 108241727A CN 201710778564 A CN201710778564 A CN 201710778564A CN 108241727 A CN108241727 A CN 108241727A
- Authority
- CN
- China
- Prior art keywords
- news
- checked
- scoring
- content
- title
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的目的是提供一种新闻可信度评价方法及设备,本申请可以通过对新闻元属性检验、传播权威性检验、热度及舆情检验、标题与内容立场一致性检验、涉及的实体真实性检验、相关话题多渠道一致性检验、前后序相关报道事实一致性检验以及内容低俗性检验,同时结合利用已有谣言库、事实库及相关领域知识库的匹配进行综合判定,最终形成新闻真实性的评价方法,为该新闻是否为真实信息提供决策支持。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种新闻可信度评价方法及设备。
背景技术
新闻真实度指的是在新闻报道中的每一个具体事实与客观实际的符合程度。现有的对新闻进行的可信度评价,只是针对微博领域,并且只涉及社交相关的属性信息进行新闻真实度评价,其评价不够准确。
发明内容
本发明的一个目的是提供一种新闻可信度评价方法及设备,能够解决现有的新闻可信度评价不够准确的问题。
根据本发明的一个方面,提供了一种新闻可信度评价方法,该方法包括:
提取待查询的新闻的元属性信息;
将所述元属性信息与一元属性信息知识库进行第一匹配,根据所述第一匹配的结果判断所述待查询的新闻的可信度。
进一步的,上述方法中,还包括:
将所述待查询的新闻的内容与一证真事实库进行第二匹配,根据所述第二匹配的结果判断所述待查询的新闻的可信度。
进一步的,上述方法中,还包括:
对所述待查询的新闻按预设的评价维度进行评分,将所述评分与一阈值比较,根据比较结果判断所述待查询的新闻的可信度。
进一步的,上述方法中,对所述待查询的新闻按预设的评价维度进行评分,包括:
提取多个所述元属性信息的当前权重,对多个所述元属性信息的当前权重进行加权求和,得到第一评分。
进一步的,上述方法中,对所述待查询的新闻按预设的评价维度进行评分,包括:
所述待查询的新闻的转载量、评论量,根据所述转载量、评论量计算所述待查询的新闻的热度、舆情指数,作为第二评分。
进一步的,上述方法中,对所述待查询的新闻按预设的评价维度进行评分,包括:
从所述待查询的新闻中抽取正文和标题,将所述抽取的正文和标题用一致性分类模型进行第一比较,根据所述第一比较结果判断所述抽取的正文和标题的立场是否一致,根据判断结果得到第三评分。
进一步的,上述方法中,,对所述待查询的新闻按预设的评价维度进行评分,包括:
从所述待查询的新闻中抽取实体概念,将所述抽取的实体概念与一概念实体知识库进行第二比较,根据所述第二比较结果判断所述抽取的实体概念是否真实,和/或判断所述抽取的实体概念间的关系是否与概念实体知识库一致,根据所述判断结果得到第四评分。
进一步的,上述方法中,对所述待查询的新闻按预设的评价维度进行评分,包括:
获取所述待查询的新闻所涉及的话题的发表、转载内容,判断所述发表、转载内容是否与所述待查询的新闻一致,根据所述判断结果得到第五评分。
进一步的,上述方法中,对所述待查询的新闻按预设的评价维度进行评分,包括:
获取所述待查询的新闻所涉及的话题的发表、转载内容;
从所述发表、转载内容中抽取正文和标题,将所述抽取的正文和标题用一致性分类模型进行第三比较,根据所述第三比较结果判断所述抽取的正文和标题的立场是否一致,根据所述判断结果得到第六评分。
进一步的,上述方法中,对所述待查询的新闻按预设的评价维度进行评分,包括:
获取所述待查询的新闻的前序和/或后续报道;
将所述待查询的新闻的内容与所述前序和/或后续报道的内容进行第三匹配,根据所述第三匹配结果得到第七评分。
进一步的,上述方法中,对所述待查询的新闻按预设的评价维度进行评分,包括:
将所述待查询的新闻的内容与一低俗度分类模型进行第四匹配,根据所述第四匹配结果得到第八评分。
根据本发明的另一方面,还提供了一种新闻可信度评价设备,该设备包括:
待查询新闻模块,用于提取待查询的新闻的元属性信息;
真实性检验模块,用于将所述元属性信息与一元属性信息知识库进行第一匹配,根据所述第一匹配的结果判断所述待查询的新闻的可信度。
进一步的,上述设备中,还包括:
证真事实库检验模块,用于将所述待查询的新闻的内容与一证真事实库进行第二匹配,根据所述第二匹配的结果判断所述待查询的新闻的可信度。
进一步的,上述设备中,还包括:
维度评价模块,用于对所述待查询的新闻按预设的评价维度进行评分,将所述评分与一阈值比较,根据比较结果判断所述待查询的新闻的可信度。
进一步的,上述设备中,所述维度评价模块包括:
新闻元属性检验模块,用于提取多个所述元属性信息的当前权重,对多个所述元属性信息的当前权重进行加权求和,得到第一评分。
进一步的,上述设备中,所述维度评价模块包括:
热度、舆情指数检验模块,用于所述待查询的新闻的转载量、评论量,根据所述转载量、评论量计算所述待查询的新闻的热度、舆情指数,作为第二评分。
进一步的,上述设备中,所述维度评价模块包括:
立场一致性判断模块,用于从所述待查询的新闻中抽取正文和标题,将所述抽取的正文和标题用一致性分类模型进行第一比较,根据所述第一比较结果判断所述抽取的正文和标题的立场是否一致,根据判断结果得到第三评分。
进一步的,上述设备中,所述维度评价模块包括:
新闻实体真实性检验模块,用于从所述待查询的新闻中抽取实体概念,将所述抽取的实体概念与一概念实体知识库进行第二比较,根据所述第二比较结果判断所述抽取的实体概念是否真实,和/或判断所述抽取的实体概念间的关系是否与概念实体知识库一致,根据所述判断结果得到第四评分。
进一步的,上述设备中,所述维度评价模块包括:
多渠道话题一致性判别模块,用于获取所述待查询的新闻所涉及的话题的发表、转载内容,判断所述发表、转载内容是否与所述待查询的新闻一致,根据所述判断结果得到第五评分。
进一步的,上述设备中,所述多渠道话题一致性判别模块,还用于获取所述待查询的新闻所涉及的话题的发表、转载内容;从所述发表、转载内容中抽取正文和标题,将所述抽取的正文和标题用一致性分类模型进行第三比较,根据所述第三比较结果判断所述抽取的正文和标题的立场是否一致,根据所述判断结果得到第六评分。
进一步的,上述设备中,所述维度评价模块包括:
前后续报道一致性判别模块,用于获取所述待查询的新闻的前序和/或后续报道;将所述待查询的新闻的内容与所述前序和/或后续报道的内容进行第三匹配,根据所述第三匹配结果得到第七评分。
进一步的,上述设备中,所述维度评价模块包括:
低俗性判别模块,用于将所述待查询的新闻的内容与一低俗度分类模型进行第四匹配,根据所述第四匹配结果得到第八评分。
根据本申请的另一面,还提供一种存储可执行指令的非暂态计算机可读存储介质,在所述可执行指令由电子设备执行时,使得所述电子设备:
提取待查询的新闻的元属性信息;
将所述元属性信息与一元属性信息知识库进行第一匹配,根据所述第一匹配的结果判断所述待查询的新闻的可信度。
与现有技术相比,本申请可以通过对新闻元属性(包括来源、作者、原创/转载)检验、传播权威性检验、热度及舆情检验、标题与内容立场一致性检验、涉及的实体真实性检验、相关话题多(媒体)渠道一致性检验、前后序相关报道事实一致性检验以及内容低俗性检验,同时结合利用已有谣言库、事实库及相关领域知识库的匹配等进行综合判定,最终形成新闻真实性的评价方法,为该新闻是否为真实信息提供决策支持。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的一种新闻可信度评价方法的流程图;
图2示出本发明另一个方面的新闻可信度评价设备的模块图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本申请提供一种新闻可信度评价方法,该方法包括:
提取待查询的新闻的元属性信息;
将所述元属性信息与一新闻元属性知识库进行第一匹配,根据所述第一匹配的结果判断所述待查询的新闻的可信度。
在此,如图1所示,在步骤S101,输入待查新闻后,可以通过步骤S102,提取待查询的新闻的元属性信息,包括待查询的新闻的来源、作者、发布渠道、转载者等元属性信息。根据一预设的新闻元属性知识库,匹配来源、作者等元属性信息,可直接判定待查询的新闻的真实性。所述步骤S102中涉及的新闻元属性知识库,可以包含媒体及其权威性评分、作者及其权威性评分等等。
本申请一实施例的新闻可信度评价方法中,还包括:
将所述待查询的新闻的内容与一证真事实库进行第二匹配,根据所述第二匹配的结果判断所述待查询的新闻的可信度。
在此,如图1所示,可以在步骤S103中,根据已有的谣言库,或公告,法规等证真事实库,与所述待查询的新闻的内容进行匹配,直接证伪或证真。所述步骤S103中的谣言库、公告、法规等证真事实库,可以包含已被证实的谣言标题、相似标题、主题词及主旨摘要。
本申请一实施例的新闻可信度评价方法中,如图1所示,可以在步骤S102根据所述第一匹配的结果判断所述待查询的新闻为可信的基础上,继续进行步骤S103,将所述待查询的新闻的内容与一证真事实库进行第二匹配,根据所述第二匹配的结果判断所述待查询的新闻的可信度,以进一步提高判断新闻真实性的精确度。
本申请一实施例的新闻可信度评价方法中,还包括:
对所述待查询的新闻按预设的评价维度进行评分,将所述评分与一阈值比较,根据比较结果判断所述待查询的新闻的可信度。
在此,如图1所示,首先可以在步骤S111中,对所述待查询的新闻按预设的各个评价维度进行评分,根据模型加权计算所述各个评分,得到最终的评判分数,其中,所述模型可以是一个线性(线性核)模型,对各个评价维度的评分归一化处理后,通过该模型的打分可以最终得到新闻可信度评分;或者在有样本数据的情况下,用监督学习模型对各个评价维度的评分进行分类判定,例如,将各个评价维度的评分作为向量进行二分类监督建模学习,用模型进行判定,得到最终的评判分数。然后可以在步骤S112中,根据一预设的阈值例如可以是经验值判断该待查询的新闻的可信度,从而完成判定。
本申请一实施例的新闻可信度评价方法中,如图1所示,可以在步骤S102根据所述第一匹配的结果判断所述待查询的新闻为可信,且步骤S103,将所述待查询的新闻的内容与一证真事实库进行第二匹配,根据所述第二匹配的结果判断所述待查询的新闻为可信度的基础上,继续进行步骤S111,对所述待查询的新闻按预设的评价维度进行评分,将所述评分与一阈值比较,根据比较结果判断所述待查询的新闻的可信度,以进一步提高判断新闻真实性的精确度。
下面将对上述对所述待查询的新闻按预设的评价维度进行评分,按不同的实施例进行分别说明。下述实施例可以择一或组合实施。
本申请一实施例的新闻可信度评价方法中,对所述待查询的新闻按预设的评价维度进行评分,包括:
提取多个所述元属性信息的当前权重,对多个所述元属性信息的当前权重进行加权求和,得到第一评分。
在此,所述待查询的新闻的元属性信息,包括待查询的新闻的来源、作者、是否原创/转载、发布渠道、转载者等元属性信息。如图1所示,可以在步骤S104中,提取多个所述元属性信息的当前权重,然后加权求和各当前权重,得到权威性评分即第一评分。
所述步骤S104中,权威性评分可以主要针对机构媒体、作者、作者所属的机构或者公众号信息展开。不同机构、公众号、作者有不同初始权重,若机构、公众号、作者曾发布、转发过虚假信息,则其权重衰减。
例如,Wi=Wi0/e^(X/logY),其中Wi为知识库记录的第i个机构(或作者)当前权重,Wi0为该机构(或作者)的初始权重,x是其发布或转载的虚假消息次数,y是其发布或转载的总文章数。可知,随着x的增大当前权重系数加速下降。
本申请一实施例的新闻可信度评价方法中,对所述待查询的新闻按预设的评价维度进行评分,包括:
所述待查询的新闻的转载量、评论量,根据所述转载量、评论量计算所述待查询的新闻的热度、舆情指数,作为第二评分。
在此,如图1所示,可以在步骤S105中,可以提取单位时间内的新闻热度、舆情指数,作为第二评分。所述步骤S105中的新闻热度评分、舆情指数可以根据转载量、评论量等量化指标加权得到。例如S=∑wi×si,其中,S为权威性评分,si是第i项量化指标归一化后的评分,wi是该项元素的权重。根据PageRank、HITS等算法,可获得该待查询的新闻互相引用下的权重;例如,对超过一定影响力的新闻,若无转载则可以判定假新闻概率较大。
本申请一实施例的新闻可信度评价方法中,对所述待查询的新闻按预设的评价维度进行评分,包括:
从所述待查询的新闻中抽取正文和标题,将所述抽取的正文和标题用一致性分类模型进行第一比较,根据所述第一比较结果判断所述抽取的正文和标题的立场是否一致,根据判断结果得到第三评分。
在此,如图1所示,可以在步骤S106中,分别提取标题与正文内容,对提取的标题和正文内容进行内容抽取分析,根据事前学习得到的一致性分类模型,分别将提取的标题和正文内容作为向量用所述一致性分类模型进行比较,以判断正文与标题的立场一致性。
本申请一实施例的新闻可信度评价方法中,对所述待查询的新闻按预设的评价维度进行评分,包括:
从所述待查询的新闻中抽取实体概念,将所述抽取的实体概念与一概念实体知识库进行第二比较,根据所述第二比较结果判断所述抽取的实体概念是否真实,和/或判断所述抽取的实体概念间的关系是否与所述概念实体知识库一致,根据所述判断结果得到第四评分。
在此,如图1所示,可以在步骤S107中,抽取所述待查询的新闻中的主题词、实体概念,包括人物、时间、地点、事件、物品等,根据预设的概念实体知识库或将某一搜索引擎作为概念实体知识库进行匹配,判断涉及的概念实体是否存在且真实,以及实体间关系与知识库中知识图谱关系是否一致。所述步骤S107涉及的预设的概念实体知识库,包含各种概念实体,通过匹配检验相关实体是否真实。或者,通过选取出现次数较多的的主题词组、专有名词组、短语等的实体概,通过现有搜索引擎(Google等)进行查询,若查询结果只包含该新闻及其转载,则可以判定可信度较低。
本申请一实施例的新闻可信度评价方法中,对所述待查询的新闻按预设的评价维度进行评分,包括:
获取所述待查询的新闻所涉及的话题的发表、转载内容,判断所述发表、转载内容是否与所述待查询的新闻一致,根据所述判断结果得到第五评分。
在此,如图1所示,可以在步骤S108中,获取该待查询的新闻涉及的话题在不同机构(渠道)上的发表、转载内容,对内容进行查重处理,判断与该待查询的新闻的一致性。所述步骤S108涉及的相关话题一致性检验,可以是进行内容查重率检验,通过搜集一定时间窗口内的各家机构(渠道)发布的该话题相关文章,判断与所述待查询的新闻是否相同。若存在差异较大,则判定可信度较低。
本申请一实施例的新闻可信度评价方法中,对所述待查询的新闻按预设的评价维度进行评分,包括:
如图1所示,可以在步骤S113中,获取所述待查询的新闻所涉及的话题的发表、转载内容;从所述发表、转载内容中抽取正文和标题,将所述抽取的正文和标题用一致性分类模型进行第三比较,根据所述第三比较结果判断所述抽取的正文和标题的立场是否一致,根据所述判断结果得到第六评分。
本申请一实施例的新闻可信度评价方法中,对所述待查询的新闻按预设的评价维度进行评分,包括:
获取所述待查询的新闻的前序和/或后续报道;
将所述待查询的新闻的内容与所述前序和/或后续报道的内容进行第三匹配,根据所述第三匹配结果得到第七评分。
在此,如图1所示,可以在步骤S109中,获取与该待查询的新闻相关的报道生成一个新闻线索库,如前序、后续报道,对其中涉及的时间、人物、地点、事件,与该话题历史线索内容进行匹配,判断是否一致。所述步骤S109涉及的新闻线索库,可以包含<时间、地点、人物、事件>,4元组知识。首先将历史新闻报道涉及到的语义知识保存入库。对待查询的新闻,通过抽取新闻要素匹配是否有其前序报道,若有则提取前序报道进行比较。判断是否有不一致地方。此外,待查询的新闻,其4元组知识也要保存至该新闻线索库中。
本申请一实施例的新闻可信度评价方法中,对所述待查询的新闻按预设的评价维度进行评分,包括:
将所述待查询的新闻的内容与一低俗度分类模型进行第四匹配,根据所述第四匹配结果得到第八评分。
在此,如图1所示,可以在步骤S110中,引入低俗度概念,用事前学习得到的低俗度分类模型,对该待查询的进行判别,得到低俗度概率,得到第八评分。所述步骤S110中的低俗性检测,可以是检测新闻是否含有标题党、煽动性等特征。可以利用历史带标签(是否低俗)的新闻进行建模学习,如SVM,之后用模型对新闻进行二分类判断。
本申请一实施例中,如图1所示,首先可以在步骤S111中,对所述待查询的新闻按预设的各个评价维度进行评分得到上述第一至第八评分,根据模型加权计算所述第一至第八评分,得到最终的评判分数,其中,所述模型可以是一个线性(线性核)模型,对第一至第八评分归一化处理后,通过该模型的打分可以最终得到新闻可信度评分;或者在有样本数据的情况下,用监督学习模型对各个评价维度的评分进行分类判定,例如,将第一至第八评分作为向量进行二分类监督建模学习,用模型进行判定,得到最终的评判分数。然后可以在步骤S112中,根据一预设的阈值例如可以是经验值判断该待查询的新闻的可信度,从而完成判定。
综上所述,本申请可以通过对新闻元属性(包括来源、作者、原创/转载)检验、传播权威性检验、热度及舆情检验、标题与内容立场一致性检验、涉及的实体真实性检验、相关话题多(媒体)渠道一致性检验、前后序相关报道事实一致性检验以及内容低俗性检验,同时结合利用已有谣言库、事实库及相关领域知识库的匹配进行综合判定,最终形成新闻真实性的评价方法,为该新闻是否为真实信息提供决策支持。
本申请可以通过常用的C++,Java,Python等开发语言,在通用的计算平台都可以实施。
如图2所示,根据本申请的另一面,还提供一种新闻可信度评价设备,该设备包括:
待查询新闻模块201,用于提取待查询的新闻的元属性信息;
真实性检验模块202,用于将所述元属性信息与一元属性信息知识库进行第一匹配,根据所述第一匹配的结果判断所述待查询的新闻的可信度。
在此,如图2所示,在待查询新闻模块201,输入待查新闻后,可以通过真实性检验模202,提取待查询的新闻的元属性信息,包括待查询的新闻的来源、作者、发布渠道、转载者等元属性信息。根据一预设的新闻元属性知识库,匹配来源、作者等元属性信息,可直接判定待查询的新闻的真实性。所述真实性检验模中涉及的新闻元属性知识库302,可以包含媒体及其权威性评分、作者及其权威性评分等等。
本申请的新闻可信度评价设备一实施例中,还包括:
证真事实库检验模块203,用于将所述待查询的新闻的内容与一证真事实库进行第二匹配,根据所述第二匹配的结果判断所述待查询的新闻的可信度。
在此,如图2所示,可以在证真事实库检验模块中,根据已有的谣言库,或公告,法规等证真事实库303,与所述待查询的新闻的内容进行匹配,直接证伪或证真。所述步骤证真事实库检验模块中的谣言库、公告、法规等证真事实库,可以包含已被证实的谣言标题、相似标题、主题词及主旨摘要。
本申请的新闻可信度评价设备一实施例中,还包括:
维度评价模块,用于对所述待查询的新闻按预设的评价维度进行评分,将所述评分与一阈值比较,根据比较结果判断所述待查询的新闻的可信度。
在此,首先可以对所述待查询的新闻按预设的各个评价维度进行评分,根据模型加权计算所述各个评分,得到最终的评判分数,其中,所述模型可以是一个线性(线性核)模型,对各个评价维度的评分归一化处理后,通过该模型的打分可以最终得到新闻可信度评分;或者在有样本数据的情况下,用监督学习模型对各个评价维度的评分进行分类判定,例如,将各个评价维度的评分作为向量进行二分类监督建模学习,用模型进行判定,得到最终的评判分数。然后根据一预设的阈值例如可以是经验值判断该待查询的新闻的可信度,从而完成判定。如图2所示,所述样本数据可以从一新闻语料库301获取。
如图2所示,本申请的新闻可信度评价设备一实施例中,所述维度评价模块包括:
新闻元属性检验模块204,用于提取多个所述元属性信息的当前权重,对多个所述元属性信息的当前权重进行加权求和,得到第一评分。
在此,所述待查询的新闻的元属性信息,包括待查询的新闻的来源、作者、是否原创/转载、发布渠道、转载者等元属性信息。可以由新闻元属性检验模块204,提取多个所述元属性信息的当前权重,然后加权求和各当前权重,得到权威性评分即第一评分。
新闻元属性检验模块204中,权威性评分可以主要针对机构媒体、作者、作者所属的机构或者公众号信息展开。不同机构、公众号、作者有不同初始权重,若机构、公众号、作者曾发布、转发过虚假信息,则其权重衰减。
例如,Wi=Wi0/e^(X/logY),其中Wi为知识库记录的第i个机构(或作者)当前权重,Wi0为该机构(或作者)的初始权重,x是其发布或转载的虚假消息次数,y是其发布或转载的总文章数。可知,随着x的增大当前权重系数加速下降。
本申请的新闻可信度评价设备一实施例中,所述维度评价模块包括:
热度、舆情指数检验模块,用于所述待查询的新闻的转载量、评论量,根据所述转载量、评论量计算所述待查询的新闻的热度、舆情指数,作为第二评分。
在此,如图2所示,可以在热度、舆情指数检验模块205中,提取单位时间内的新闻热度、舆情指数,作为第二评分。所述热度、舆情指数检验模块205中的新闻热度评分、舆情指数可以根据转载量、评论量等量化指标加权得到。例如S=∑wi×si,其中,S为权威性评分,si是第i项量化指标归一化后的评分,wi是该项元素的权重。根据PageRank、HITS等算法,可获得该待查询的新闻互相引用下的权重;例如,对超过一定影响力的新闻,若无转载则可以判定假新闻概率较大。
如图2所示,本申请的新闻可信度评价设备一实施例中,所述维度评价模块包括:
立场一致性判断模块206,用于从所述待查询的新闻中抽取正文和标题,将所述抽取的正文和标题用一致性分类模型进行第一比较,根据所述第一比较结果判断所述抽取的正文和标题的立场是否一致,根据判断结果得到第三评分。
在此,如图2所示,可以在立场一致性判断模块206中,分别提取标题与正文内容,对提取的标题和正文内容进行内容抽取分析,根据事前学习得到的一致性分类模型,分别将提取的标题和正文内容作为向量用所述一致性分类模型进行比较,以判断正文与标题的立场一致性。
如图2所示,本申请的新闻可信度评价设备一实施例中,所述维度评价模块包括:
新闻实体真实性检验模块207,用于从所述待查询的新闻中抽取实体概念,将所述抽取的实体概念与一概念实体知识库进行第二比较,根据所述第二比较结果判断所述抽取的实体概念是否真实,和/或判断所述抽取的实体概念间的关系是否与概念实体知识库一致,根据所述判断结果得到第四评分。
在此,如图2所示,可以在新闻实体真实性检验模块207中,抽取所述待查询的新闻中的主题词、实体概念,包括人物、时间、地点、事件、物品等,根据预设的概念实体知识库或将某一搜索引擎作为概念实体知识库进行匹配,判断涉及的概念实体是否存在且真实,以及实体间关系与知识库中知识图谱关系是否一致。所述新闻实体真实性检验模块207涉及的预设的概念实体知识库307,可以包含各种概念实体,通过匹配检验相关实体是否真实。或者,通过选取出现次数较多的的主题词组、专有名词组、短语等的实体概,通过现有搜索引擎(Google等)进行查询,若查询结果只包含该新闻及其转载,则可以判定可信度较低。
如图2所示,本申请的新闻可信度评价设备一实施例中,所述维度评价模块包括:
多渠道话题一致性判别模块208,用于获取所述待查询的新闻所涉及的话题的发表、转载内容,判断所述发表、转载内容是否与所述待查询的新闻一致,根据所述判断结果得到第五评分。
在此,如图2所示,可以在多渠道话题一致性判别模块208中,获取该待查询的新闻涉及的话题在不同机构(渠道)上的发表、转载内容,对内容进行查重处理,判断与该待查询的新闻的一致性。所述多渠道话题一致性判别模块208涉及的相关话题一致性检验,可以是进行内容查重率检验,通过搜集一定时间窗口内的各家机构(渠道)发布的该话题相关文章,判断与所述待查询的新闻是否相同。若存在差异较大,则判定可信度较低。
本申请的新闻可信度评价设备一实施例中,所述多渠道话题一致性判别模块208,还用于获取所述待查询的新闻所涉及的话题的发表、转载内容;从所述发表、转载内容中抽取正文和标题,将所述抽取的正文和标题用一致性分类模型进行第三比较,根据所述第三比较结果判断所述抽取的正文和标题的立场是否一致,根据所述判断结果得到第六评分。
本申请的新闻可信度评价设备一实施例中,所述维度评价模块包括:
前后续报道一致性判别模块209,用于获取所述待查询的新闻的前序和/或后续报道;将所述待查询的新闻的内容与所述前序和/或后续报道的内容进行第三匹配,根据所述第三匹配结果得到第七评分。
在此,如图2所示,可以在前后续报道一致性判别模块209中,获取与该待查询的新闻相关的报道生成一个新闻线索库309,如前序、后续报道,对其中涉及的时间、人物、地点、事件,与该话题历史线索内容进行匹配,判断是否一致。所述前后续报道一致性判别模块209涉及的新闻线索库,可以包含<时间、地点、人物、事件>,4元组知识。首先将历史新闻报道涉及到的语义知识保存入库。对待查询的新闻,通过抽取新闻要素匹配是否有其前序报道,若有则提取前序报道进行比较。判断是否有不一致地方。此外,待查询的新闻,其4元组知识也要保存至该新闻线索库中。
如图2所示,本申请的新闻可信度评价设备一实施例中,所述维度评价模块包括:
低俗性判别模块210,用于将所述待查询的新闻的内容与一低俗度分类模型进行第四匹配,根据所述第四匹配结果得到第八评分。
在此,如图2所示,可以在低俗性判别模块210中,引入低俗度概念,用事前学习得到的低俗度分类模型,对该待查询的进行判别,得到低俗度概率,得到第八评分。所述低俗性判别模块210中的低俗性检测,可以是检测新闻是否含有标题党、煽动性等特征。可以利用历史带标签(是否低俗)的新闻进行建模学习,如SVM,之后用模型对新闻进行二分类判断。
根据本申请的另一面,还提供一种存储可执行指令的非暂态计算机可读存储介质,在所述可执行指令由电子设备执行时,使得所述电子设备:
提取待查询的新闻的元属性信息;
将所述元属性信息与一元属性信息知识库进行第一匹配,根据所述第一匹配的结果判断所述待查询的新闻的可信度。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (23)
1.一种新闻可信度评价方法,其中,该方法包括:
提取待查询的新闻的元属性信息;
将所述元属性信息与一元属性信息知识库进行第一匹配,根据所述第一匹配的结果判断所述待查询的新闻的可信度。
2.根据权利要求1所述的方法,其中,还包括:
将所述待查询的新闻的内容与一证真事实库进行第二匹配,根据所述第二匹配的结果判断所述待查询的新闻的可信度。
3.根据权利要求1所述的方法,其中,还包括:
对所述待查询的新闻按预设的评价维度进行评分,将所述评分与一阈值比较,根据比较结果判断所述待查询的新闻的可信度。
4.根据权利要求3所述的方法,其中,对所述待查询的新闻按预设的评价维度进行评分,包括:
提取多个所述元属性信息的当前权重,对多个所述元属性信息的当前权重进行加权求和,得到第一评分。
5.根据权利要求3所述的方法,其中,对所述待查询的新闻按预设的评价维度进行评分,包括:
所述待查询的新闻的转载量、评论量,根据所述转载量、评论量计算所述待查询的新闻的热度、舆情指数,作为第二评分。
6.根据权利要求3所述的方法,其中,对所述待查询的新闻按预设的评价维度进行评分,包括:
从所述待查询的新闻中抽取正文和标题,将所述抽取的正文和标题用一致性分类模型进行第一比较,根据所述第一比较结果判断所述抽取的正文和标题的立场是否一致,根据判断结果得到第三评分。
7.根据权利要求3所述的方法,其中,对所述待查询的新闻按预设的评价维度进行评分,包括:
从所述待查询的新闻中抽取实体概念,将所述抽取的实体概念与一概念实体知识库进行第二比较,根据所述第二比较结果判断所述抽取的实体概念是否真实,和/或判断所述抽取的实体概念间的关系是否与概念实体知识库一致,根据所述判断结果得到第四评分。
8.根据权利要求3所述的方法,其中,对所述待查询的新闻按预设的评价维度进行评分,包括:
获取所述待查询的新闻所涉及的话题的发表、转载内容,判断所述发表、转载内容是否与所述待查询的新闻一致,根据所述判断结果得到第五评分。
9.根据权利要求3所述的方法,其中,对所述待查询的新闻按预设的评价维度进行评分,包括:
获取所述待查询的新闻所涉及的话题的发表、转载内容;
从所述发表、转载内容中抽取正文和标题,将所述抽取的正文和标题用一致性分类模型进行第三比较,根据所述第三比较结果判断所述抽取的正文和标题的立场是否一致,根据所述判断结果得到第六评分。
10.根据权利要求3所述的方法,其中,对所述待查询的新闻按预设的评价维度进行评分,包括:
获取所述待查询的新闻的前序和/或后续报道;
将所述待查询的新闻的内容与所述前序和/或后续报道的内容进行第三匹配,根据所述第三匹配结果得到第七评分。
11.根据权利要求3所述的方法,其中,对所述待查询的新闻按预设的评价维度进行评分,包括:
将所述待查询的新闻的内容与一低俗度分类模型进行第四匹配,根据所述第四匹配结果得到第八评分。
12.一种新闻可信度评价设备,其中,该设备包括:
待查询新闻模块,用于提取待查询的新闻的元属性信息;
真实性检验模块,用于将所述元属性信息与一元属性信息知识库进行第一匹配,根据所述第一匹配的结果判断所述待查询的新闻的可信度。
13.根据权利要求12所述的设备,其中,还包括:
证真事实库检验模块,用于将所述待查询的新闻的内容与一证真事实库进行第二匹配,根据所述第二匹配的结果判断所述待查询的新闻的可信度。
14.根据权利要求12所述的设备,其中,还包括:
维度评价模块,用于对所述待查询的新闻按预设的评价维度进行评分,将所述评分与一阈值比较,根据比较结果判断所述待查询的新闻的可信度。
15.根据权利要求14所述的设备,其中,所述维度评价模块包括:
新闻元属性检验模块,用于提取多个所述元属性信息的当前权重,对多个所述元属性信息的当前权重进行加权求和,得到第一评分。
16.根据权利要求14所述的设备,其中,所述维度评价模块包括:
热度、舆情指数检验模块,用于所述待查询的新闻的转载量、评论量,根据所述转载量、评论量计算所述待查询的新闻的热度、舆情指数,作为第二评分。
17.根据权利要求14所述的设备,其中,所述维度评价模块包括:
立场一致性判断模块,用于从所述待查询的新闻中抽取正文和标题,将所述抽取的正文和标题用一致性分类模型进行第一比较,根据所述第一比较结果判断所述抽取的正文和标题的立场是否一致,根据判断结果得到第三评分。
18.根据权利要求14所述的设备,其中,所述维度评价模块包括:
新闻实体真实性检验模块,用于从所述待查询的新闻中抽取实体概念,将所述抽取的实体概念与一概念实体知识库进行第二比较,根据所述第二比较结果判断所述抽取的实体概念是否真实,和/或判断所述抽取的实体概念间的关系是否与概念实体知识库一致,根据所述判断结果得到第四评分。
19.根据权利要求14所述的设备,其中,所述维度评价模块包括:
多渠道话题一致性判别模块,用于获取所述待查询的新闻所涉及的话题的发表、转载内容,判断所述发表、转载内容是否与所述待查询的新闻一致,根据所述判断结果得到第五评分。
20.根据权利要求14所述的设备,其中,所述多渠道话题一致性判别模块,还用于获取所述待查询的新闻所涉及的话题的发表、转载内容;从所述发表、转载内容中抽取正文和标题,将所述抽取的正文和标题用一致性分类模型进行第三比较,根据所述第三比较结果判断所述抽取的正文和标题的立场是否一致,根据所述判断结果得到第六评分。
21.根据权利要求14所述的设备,其中,所述维度评价模块包括:
前后续报道一致性判别模块,用于获取所述待查询的新闻的前序和/或后续报道;将所述待查询的新闻的内容与所述前序和/或后续报道的内容进行第三匹配,根据所述第三匹配结果得到第七评分。
22.根据权利要求14所述的设备,其中,所述维度评价模块包括:
低俗性判别模块,用于将所述待查询的新闻的内容与一低俗度分类模型进行第四匹配,根据所述第四匹配结果得到第八评分。
23.一种存储可执行指令的非暂态计算机可读存储介质,在所述可执行指令由电子设备执行时,使得所述电子设备:
提取待查询的新闻的元属性信息;
将所述元属性信息与一元属性信息知识库进行第一匹配,根据所述第一匹配的结果判断所述待查询的新闻的可信度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710778564.1A CN108241727A (zh) | 2017-09-01 | 2017-09-01 | 新闻可信度评价方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710778564.1A CN108241727A (zh) | 2017-09-01 | 2017-09-01 | 新闻可信度评价方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108241727A true CN108241727A (zh) | 2018-07-03 |
Family
ID=62700342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710778564.1A Pending CN108241727A (zh) | 2017-09-01 | 2017-09-01 | 新闻可信度评价方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108241727A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255037A (zh) * | 2018-08-31 | 2019-01-22 | 北京字节跳动网络技术有限公司 | 用于输出信息的方法和装置 |
CN109829165A (zh) * | 2019-02-11 | 2019-05-31 | 杭州乾博科技有限公司 | 一种自媒体文章价值评估方法及系统 |
CN110275965A (zh) * | 2019-06-27 | 2019-09-24 | 卓尔智联(武汉)研究院有限公司 | 假新闻检测方法、电子装置及计算机可读存储介质 |
CN110471898A (zh) * | 2019-08-22 | 2019-11-19 | 长江师范学院 | 一种信息信用管理方法与数字新闻可追溯发布方法 |
CN110674447A (zh) * | 2019-09-26 | 2020-01-10 | 上海烨睿信息科技有限公司 | 资讯重要性判断方法、装置、计算机终端及存储介质 |
CN110825868A (zh) * | 2019-11-07 | 2020-02-21 | 厦门市美亚柏科信息股份有限公司 | 一种基于话题热度的文本推送方法、终端设备及存储介质 |
CN111061843A (zh) * | 2019-12-26 | 2020-04-24 | 武汉大学 | 一种知识图谱引导的假新闻检测方法 |
CN111104584A (zh) * | 2018-10-25 | 2020-05-05 | 北京国双科技有限公司 | 信息价值度的确定方法、装置、存储介质和处理器 |
CN111209745A (zh) * | 2018-11-02 | 2020-05-29 | 北京好啦科技有限公司 | 一种资讯可靠性评价方法、设备和存储介质 |
CN111881288A (zh) * | 2020-05-19 | 2020-11-03 | 杭州中奥科技有限公司 | 笔录信息真假的判断方法、装置、存储介质及电子设备 |
US11068467B2 (en) | 2019-01-23 | 2021-07-20 | Xerox Corporation | Apparatus and method to create secure data blocks to validate an information source |
CN116401339A (zh) * | 2023-06-07 | 2023-07-07 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备、介质以及程序产品 |
-
2017
- 2017-09-01 CN CN201710778564.1A patent/CN108241727A/zh active Pending
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255037A (zh) * | 2018-08-31 | 2019-01-22 | 北京字节跳动网络技术有限公司 | 用于输出信息的方法和装置 |
CN111104584A (zh) * | 2018-10-25 | 2020-05-05 | 北京国双科技有限公司 | 信息价值度的确定方法、装置、存储介质和处理器 |
CN111209745B (zh) * | 2018-11-02 | 2022-04-22 | 北京好啦科技有限公司 | 一种资讯可靠性评价方法、设备和存储介质 |
CN111209745A (zh) * | 2018-11-02 | 2020-05-29 | 北京好啦科技有限公司 | 一种资讯可靠性评价方法、设备和存储介质 |
US11068467B2 (en) | 2019-01-23 | 2021-07-20 | Xerox Corporation | Apparatus and method to create secure data blocks to validate an information source |
CN109829165A (zh) * | 2019-02-11 | 2019-05-31 | 杭州乾博科技有限公司 | 一种自媒体文章价值评估方法及系统 |
CN110275965B (zh) * | 2019-06-27 | 2021-12-21 | 卓尔智联(武汉)研究院有限公司 | 假新闻检测方法、电子装置及计算机可读存储介质 |
CN110275965A (zh) * | 2019-06-27 | 2019-09-24 | 卓尔智联(武汉)研究院有限公司 | 假新闻检测方法、电子装置及计算机可读存储介质 |
CN110471898A (zh) * | 2019-08-22 | 2019-11-19 | 长江师范学院 | 一种信息信用管理方法与数字新闻可追溯发布方法 |
CN110674447A (zh) * | 2019-09-26 | 2020-01-10 | 上海烨睿信息科技有限公司 | 资讯重要性判断方法、装置、计算机终端及存储介质 |
CN110825868A (zh) * | 2019-11-07 | 2020-02-21 | 厦门市美亚柏科信息股份有限公司 | 一种基于话题热度的文本推送方法、终端设备及存储介质 |
CN111061843A (zh) * | 2019-12-26 | 2020-04-24 | 武汉大学 | 一种知识图谱引导的假新闻检测方法 |
CN111061843B (zh) * | 2019-12-26 | 2023-08-25 | 武汉大学 | 一种知识图谱引导的假新闻检测方法 |
CN111881288A (zh) * | 2020-05-19 | 2020-11-03 | 杭州中奥科技有限公司 | 笔录信息真假的判断方法、装置、存储介质及电子设备 |
CN111881288B (zh) * | 2020-05-19 | 2024-04-09 | 杭州中奥科技有限公司 | 笔录信息真假的判断方法、装置、存储介质及电子设备 |
CN116401339A (zh) * | 2023-06-07 | 2023-07-07 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备、介质以及程序产品 |
CN116401339B (zh) * | 2023-06-07 | 2024-09-06 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备、介质以及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108241727A (zh) | 新闻可信度评价方法及设备 | |
WO2019184217A1 (zh) | 热点事件分类方法、装置及存储介质 | |
JP7153004B2 (ja) | コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体 | |
CN111563384B (zh) | 面向电商产品的评价对象识别方法、装置及存储介质 | |
Shardlow | The cw corpus: A new resource for evaluating the identification of complex words | |
KR20150037924A (ko) | 제품 인식에 근거한 정보 분류 기법 | |
CN112183117B (zh) | 一种翻译评价的方法、装置、存储介质及电子设备 | |
CN107679075B (zh) | 网络监控方法和设备 | |
KR102206781B1 (ko) | 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법, 이를 수행하기 위한 기록매체 및 장치 | |
Pratiwi et al. | Implementation of rumor detection on twitter using the svm classification method | |
CN113590810A (zh) | 摘要生成模型训练方法、摘要生成方法、装置及电子设备 | |
CN112613321A (zh) | 一种抽取文本中实体属性信息的方法及系统 | |
Duarte et al. | De-cop: Detecting copyrighted content in language models training data | |
CN110909532B (zh) | 用户名称匹配方法、装置、计算机设备和存储介质 | |
CN110097258B (zh) | 一种用户关系网络建立方法、装置及计算机可读存储介质 | |
Dündar et al. | A Hybrid Approach to Question-answering for a Banking Chatbot on Turkish: Extending Keywords with Embedding Vectors. | |
CN111783425A (zh) | 基于句法分析模型的意图识别方法及相关装置 | |
CN110717029A (zh) | 一种信息处理方法和系统 | |
CN113553861B (zh) | 一种基于对话系统的信息处理方法、装置及存储介质 | |
Almeida et al. | Text similarity using word embeddings to classify misinformation | |
CN112269852B (zh) | 生成舆情专题方法、系统及存储介质 | |
CN112328757B (zh) | 一种用于业务机器人问答系统的相似文本检索方法 | |
CN109993190A (zh) | 一种本体匹配方法、装置和计算机存储介质 | |
Li et al. | Confidence estimation for knowledge base population | |
CN111400577B (zh) | 一种搜索召回方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180703 |