CN110162651A

CN110162651A - 基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法

Info

Publication number: CN110162651A
Application number: CN201910327490.9A
Authority: CN
Inventors: 李华康; 孙晓雨; 朱明�; 李群; 孔令军; 孙国梓
Original assignee: Nupt Institute Of Big Data Research At Yancheng Co Ltd; Nanjing Post and Telecommunication University
Current assignee: Nupt Institute Of Big Data Research At Yancheng Co Ltd; Nanjing Post and Telecommunication University
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2019-08-23
Anticipated expiration: 2039-04-23
Also published as: CN110162651B

Abstract

本发明揭示了一种基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法。系统包括新闻报道采集模块、文本事件树构建模块、图片实体抽取模块、关联关系库构建模块、待测信息读取模块、图文关系判断模块以及最大似然判断模块。方法包括新闻报道采集步骤、文本事件树构建步骤、图片实体抽取步骤、关联关系库构建步骤、待测信息读取步骤、图文关系判断步骤以及最大似然判断步骤。本发明能够让用户迅速地判断出新闻内容中图文的一致性，帮助用户筛选掉一批不实的新闻报道和一群不负责任的新闻媒体。本发明不仅有效地提高了鉴别操作的效率，同时也充分地保证了鉴别结果的准确性。

Description

基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法

技术领域

本发明涉及一种鉴别系统及鉴别方法，具体涉及一种基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法，属于新闻媒体智能领域。

背景技术

随着互联网的日益普及、媒体行业的不断发展，现如今，各类媒体平台的数量与日俱增，诸多自媒体也不断涌现。与这样的行业发展现状相对应的是，为了吸引更多的关注度与点击量，很多媒体人一味地追求新闻报道地时效性、而忽视了新闻报道中最根本的准确性。很多媒体人在进行新闻报道时，不是去现场采集第一手的新闻资料，而是直接对网络上已有的报道进行统合，直接盗用他人的图片，插入的图片和报道事件毫无关联，甚至在很多新闻中，图片中人物的都不是报道内容主题人物。

在传统方式中，对于新闻内容图文不符的鉴别需要以人工的方式来完成，即人为地对所报道新闻的文本内容与图片内容搜集大量相关资料，进行全面分析、匹配鉴别，毫无疑问，这样的操作需要耗费大量的时间和人力，并且无法保证鉴别结果的有效性。

语义内容摘要指的是对文本、图片以及其他语言载体中的内容所进行的简明而核心的梗概，它可以帮助用户迅速了解内容中的关键部分，是当前信息爆炸时代的重要工具之一。可以预见，如果将语义内容摘要技术应用于新闻报道中，那么就能够迅速地判断出新闻本文内容与图片内容的主题，进而对其的图文一致性进行判断。

综上所述，如何在现有技术的基础上提出基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法，以解决目前人工鉴别导致效率低下、正确率不高的问题，也就成为了本领域内技术人员共同的研究目标。

发明内容

鉴于现有技术存在上述缺陷，本发明的目的是提出一种基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法。

一种基于语义内容摘要的新闻内容图文不符鉴别系统，包括：

新闻报道采集模块，用于采集原创性历史新闻事件，筛选出含有图片信息的新闻报道、并将其输入到历史新闻报道数据库中；

文本事件树构建模块，用于构建新闻报道文本内容语义的事件树；

图片实体抽取模块，用于识别出与新闻报道图片内容相关度最高的实体；

关联关系库构建模块，用于在历史新闻报道数据库中查找是否有图片中实体存在的标签，若存在则直接将实体关联到对应的文本事件树中的实体；

待测信息读取模块，用于读取待检测的含有图片的新闻报道；

图文关系判断模块，用于计算新闻报道中的图片实体是否被包含在新闻报道文本内容语义的事件树内，若是则输出图文相符，若否则启动最大似然判断模块；

最大似然判断模块，用于求解当前新闻报道中的图片实体与文本实体的关联关系与历史新闻事件之间的最大似然，若最大似然高于阈值，则输出图文相符，若最大似然小于阈值，则输出图文不符。

优选地，所述文本事件树构建模块包括：文本实体抽取子模块、文本关系抽取子模块以及文本事件树生成子模块；

所述文本实体抽取子模块具体包括，

文本实体抽取第一单元，从历史新闻报道数据库中读取文本信息，

文本实体抽取第二单元，对于读取的文本信息，使用符号将其划分成若干短句，来表示这些句子的开始和结束，

文本实体抽取第三单元，对于划分好的文本信息，使用命名实体识别模型进行实体的抽取，

文本实体抽取第四单元，对抽取出来的实体进行权重的判断，若抽取出的实体权重值大于等于预设值，则保留抽取出的实体，若抽取出的实体的权重值小于预设值，则不保留抽取出的实体；

所述文本关系抽取子模块具体包括，

文本关系抽取第一单元，判断一句话中是否包含两个以上的实体，若是则执行文本关系抽取第二单元，若否则跳过后续单元，直接执行文本关系抽取第五单元，

文本关系抽取第二单元，对于每一个划分出来的句子，对句子中的每个单词进行词性的标注，

文本关系抽取第三单元，通过生成依存句法树来实现每一个句子中的主谓宾关系结构的抽取，划分出句子的依存关系，

文本关系抽取第四单元，对于生成的依存树，通过对其进行剪枝，抽取出每一个句子的主谓宾三元组关系，

文本关系抽取第五单元，忽略该句子，不做关系抽取处理；

所述文本事件树生成子模块具体包括，

文本事件树生成第一单元，读取数组形式的三元组文本信息，

文本事件树生成第二单元，通过树库形成树形结构，

文本事件树生成第三单元，将生成的事件树通过递归的方式将树的节点内容存入到数据库中，需要使用时直接读取树形结构数据。

优选地，所述图片实体抽取模块具体包括：

图片实体抽取第一单元，从历史新闻报道数据库中读取图片信息，

图片实体抽取第二单元，使用图像目标检测模型识别图片中的多个实体，

图片实体抽取第三单元，筛选对系统有用的实体，将图片实体的出现频率和置信概率作为其权重，若抽取出的实体的权重值大于等于预设值，则保留抽取出的实体，若抽取出的实体的权重值小于预设值，则不保留抽取出的实体。

一种基于语义内容摘要的新闻内容图文不符鉴别方法，包括如下步骤：

S1、新闻报道采集步骤，采集原创性历史新闻事件，筛选出含有图片信息的新闻报道、并将其输入到历史新闻报道数据库中；

S2、文本事件树构建步骤，构建新闻报道文本内容语义的事件树；

S3、图片实体抽取步骤，识别出与新闻报道图片内容相关度最高的实体；

S4、关联关系库构建步骤，在历史新闻报道数据库中查找是否有图片中实体存在的标签，若存在则直接将实体关联到对应的文本事件树中的实体；

S5、待测信息读取步骤，读取待检测的含有图片的新闻报道；

S6、图文关系判断步骤，计算新闻报道中的图片实体是否被包含在新闻报道文本内容语义的事件树内，若是则输出图文相符，若否则进入最大似然判断步骤；

S7、最大似然判断步骤，求解当前新闻报道中的图片实体与文本实体的关联关系与历史新闻事件之间的最大似然，若最大似然高于阈值，则输出图文相符，若最大似然小于阈值，则输出图文不符。

优选地，S2所述文本事件树构建步骤包括：

S21、文本实体抽取子步骤，具体包括，

S211、文本实体抽取第一步骤，从历史新闻报道数据库中读取文本信息，

S212、文本实体抽取第二步骤，对于读取的文本信息，使用符号将其划分成若干短句，来表示这些句子的开始和结束，

S213、文本实体抽取第三步骤，对于划分好的文本信息，使用命名实体识别模型进行实体的抽取，

S214、文本实体抽取第四步骤，对抽取出来的实体进行权重的判断，若抽取出的实体权重值大于等于预设值，则保留抽取出的实体，若抽取出的实体的权重值小于预设值，则不保留抽取出的实体；

S22、所述文本关系抽取子步骤，具体包括，

S221、文本关系抽取第一步骤，判断一句话中是否包含两个以上的实体，若是则执行文本关系抽取第二步骤，若否则跳过后续步骤，直接执行文本关系抽取第五步骤，

S222、文本关系抽取第二步骤，对于每一个划分出来的句子，对句子中的每个单词进行词性的标注，

S223、文本关系抽取第三步骤，通过生成依存句法树来实现每一个句子中的主谓宾关系结构的抽取，划分出句子的依存关系，

S224、文本关系抽取第四步骤，对于生成的依存树，通过对其进行剪枝，抽取出每一个句子的主谓宾三元组关系，

S225、文本关系抽取第五步骤，忽略该句子，不做关系抽取处理；

S23、文本事件树生成子步骤，具体包括，

S231、文本事件树生成第一步骤，读取数组形式的三元组文本信息，

S232、文本事件树生成第二步骤，通过树库形成树形结构，

S233、文本事件树生成第三步骤，将生成的事件树通过递归的方式将树的节点内容存入到数据库中，需要使用时直接读取树形结构数据。

优选地，S3所述图片实体抽取步骤具体包括：

S31、图片实体抽取第一步骤，从历史新闻报道数据库中读取图片信息，

S32、图片实体抽取第二步骤，使用图像目标检测模型识别图片中的多个实体，

S33、图片实体抽取第三步骤，筛选对系统有用的实体，将图片实体的出现频率和置信概率作为其权重，若抽取出的实体的权重值大于等于预设值，则保留抽取出的实体，若抽取出的实体的权重值小于预设值，则不保留抽取出的实体。

与现有技术相比，本发明的优点主要体现在以下几个方面：

本发明的基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法，能够让用户迅速地判断出新闻内容中图文的一致性，帮助用户筛选掉一批不实的新闻报道和一群不负责任的新闻媒体。本发明不仅有效地提高了鉴别操作的效率、缩短了鉴别所需的时间、节约了人力资源，同时也充分地保证了鉴别过程的标准化、提高了鉴别结果的准确性。

同时，本发明也为同领域内的其他相关问题提供了参考，可以以此为依据进行拓展延伸，运用于图文信息鉴别方面的其他相关技术方案中，具有十分广阔的应用前景。

以下便结合实施例附图，对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握。

附图说明

图1为本发明中系统的整体结构示意图；

图2为本发明中文本事件树构建模块的结构示意图；

图3为本发明中文本实体抽取子模块的结构示意图；

图4为本发明中文本关系抽取子模块的结构示意图；

图5为本发明中文本事件树生成子模块的结构示意图；

图6为本发明中图片实体抽取模块的结构示意图。

具体实施方式

本发明针对现有操作中人工鉴别的情况，提出了一种基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法。

如图1所示，本发明的一种基于语义内容摘要的新闻内容图文不符鉴别系统，包括：

新闻报道采集模块100，用于采集原创性历史新闻事件，筛选出含有图片信息的新闻报道、并将其输入到历史新闻报道数据库中。

文本事件树构建模块200，用于构建新闻报道文本内容语义的事件树。

图片实体抽取模块300，用于识别出与新闻报道图片内容相关度最高的实体。

关联关系库构建模块400，用于在历史新闻报道数据库中查找是否有图片中实体存在的标签，若存在则直接将实体关联到对应的文本事件树中的实体。

待测信息读取模块500，用于读取待检测的含有图片的新闻报道。

图文关系判断模块600，用于计算新闻报道中的图片实体是否被包含在新闻报道文本内容语义的事件树内，若是则输出图文相符，若否则启动最大似然判断模块。

最大似然判断模块700，用于求解当前新闻报道中的图片实体与文本实体的关联关系与历史新闻事件之间的最大似然，若最大似然高于阈值，则输出图文相符，若最大似然小于阈值，则输出图文不符。

如图2所示，所述文本事件树构建模块200包括：文本实体抽取子模块210、文本关系抽取子模块220以及文本事件树生成子模块230，具体而言如下。

如图3所示，所述文本实体抽取子模块210具体包括:

文本实体抽取第一单元211，从历史新闻报道数据库中读取文本信息。

文本实体抽取第二单元212，对于读取的文本信息，使用句号、分号等符号将其划分成若干短句，来表示这些句子的开始和结束。

文本实体抽取第三单元213，对于划分好的文本信息，使用人工智能自然语言处理领域的命名实体识别模型进行实体的抽取，所述命名实体识别模型可以是HMM+CRF、LSTM+CRF等。

文本实体抽取第四单元214，对于抽取出的实体，并不是所有的实体对于系统都是有用的，故先对一个大型的新闻报道文本内容数据集进行类似于TF-IDF的算法权重训练，得到每一个词的权重。该单元用于对抽取出来的实体进行权重的判断，若抽取出的实体权重值大于等于预设值，则保留抽取出的实体，若抽取出的实体的权重值小于预设值，则不保留抽取出的实体。

如图4所示，所述文本关系抽取子模块220通过寻找句子的主谓宾来抽取两个实体关系之间的动作三元组信息，具体包括:

文本关系抽取第一单元221，判断一句话中是否包含两个以上的实体，若是则执行文本关系抽取第二单元，若否则跳过后续单元，直接执行文本关系抽取第五单元。

文本关系抽取第二单元222，对于每一个划分出来的句子，使用standford、LTP、FuDanNLP等工具对句子中的每个单词进行词性的标注。

文本关系抽取第三单元223，句子中存在主谓关系、动宾关系、定中关系、状中结构等许多复杂句式，通过生成依存句法树来实现每一个句子中的主谓宾关系结构的抽取，同样也可以使用standford、LTP、FuDanNLP等工具划分出句子的依存关系。

文本关系抽取第四单元224，对于生成的依存树，通过对其进行剪枝，抽取出每一个句子的主谓宾三元组关系。

文本关系抽取第五单元225，忽略该句子，不做关系抽取处理。

如图5所示，所述文本事件树生成子模块230用于将抽取出的三元组关系信息保存到树形结构中，生成事件树，具体包括:

文本事件树生成第一单元231，读取数组形式的三元组文本信息。

文本事件树生成第二单元232，树形结构有很多种，如二叉树、n叉树，句法树等，不局限于使用一种树的形式，可以通过树库treelib、Anytree等形成树形结构。

文本事件树生成第三单元233，将生成的事件树通过递归的方式将树的节点内容存入到数据库中，需要使用时直接读取树形结构数据。

如图6所示，所述图片实体抽取模块300具体包括：

图片实体抽取第一单元310，从历史新闻报道数据库中读取图片信息。

图片实体抽取第二单元320，使用图像目标检测模型识别图片中的多个实体，所述图像目标检测模型包括Faster RCNN、Yolo 和 Yolo2、SSD 、Mask RCNN等。

图片实体抽取第三单元330，筛选对系统有用的实体，将图片实体的出现频率和置信概率作为其权重，若抽取出的实体的权重值大于等于预设值，则保留抽取出的实体，若抽取出的实体的权重值小于预设值，则不保留抽取出的实体。

本发明还揭示了一种基于语义内容摘要的新闻内容图文不符鉴别方法，总体而言，本发明的方法包括下列步骤：

步骤一、采集原创性历史新闻事件，筛选出含有图片信息的新闻报道。

步骤二、构建新闻报道文本内容语义的事件树，事件树包括事件实体和关系。

步骤三、对新闻图片内容进行分析，抽取图片中的实体对象。

步骤四、构建历史新闻事件的图片实体和文本语义实体关联关系库。

步骤五、对待检测的含有图片的新闻报道执行步骤二和步骤三。

步骤六、计算新闻报道中的图片实体是否被包含在文本语义的事件树内，如果是，则输出图文相符，如果不是，则执行步骤七。

步骤七、求当前新闻报道中的图片实体与文本实体的关联关系与历史新闻事件之间的最大似然，如果最大似然高于某个阈值，则输出图文相符，如果小于某个阈值，则输出图文不符。

具体而言，本发明的方法包括如下步骤：

S1、新闻报道采集步骤，采集原创性历史新闻事件，筛选出含有图片信息的新闻报道、并将其输入到历史新闻报道数据库中。

S2、文本事件树构建步骤，构建新闻报道文本内容语义的事件树。

S3、图片实体抽取步骤，识别出与新闻报道图片内容相关度最高的实体。

S4、关联关系库构建步骤，在历史新闻报道数据库中查找是否有图片中实体存在的标签，若存在则直接将实体关联到对应的文本事件树中的实体。

S5、待测信息读取步骤，读取待检测的含有图片的新闻报道。

S6、图文关系判断步骤，计算新闻报道中的图片实体是否被包含在新闻报道文本内容语义的事件树内，若是则输出图文相符，若否则进入最大似然判断步骤。

S2所述文本事件树构建步骤包括：

S21、文本实体抽取子步骤，具体包括，

S211、文本实体抽取第一步骤，从历史新闻报道数据库中读取文本信息。

S212、文本实体抽取第二步骤，对于读取的文本信息，使用句号、分号等符号将其划分成若干短句，来表示这些句子的开始和结束。

S213、文本实体抽取第三步骤，对于划分好的文本信息，使用人工智能自然语言处理领域的命名实体识别模型进行实体的抽取，所述命名实体识别模型可以是HMM+CRF、LSTM+CRF等。

S214、文本实体抽取第四步骤，对于抽取出的实体，并不是所有的实体对于系统都是有用的，故先对一个大型的新闻报道文本内容数据集进行类似于TF-IDF的算法权重训练，得到每一个词的权重。该单元用于对抽取出来的实体进行权重的判断，若抽取出的实体权重值大于等于预设值，则保留抽取出的实体，若抽取出的实体的权重值小于预设值，则不保留抽取出的实体。

S22、所述文本关系抽取子步骤，通过寻找句子的主谓宾来抽取两个实体关系之间的动作三元组信息，具体包括，

S221、文本关系抽取第一步骤，判断一句话中是否包含两个以上的实体，若是则执行文本关系抽取第二步骤，若否则跳过后续步骤，直接执行文本关系抽取第五步骤。

S222、文本关系抽取第二步骤，对于每一个划分出来的句子，使用standford、LTP、FuDanNLP等工具对句子中的每个单词进行词性的标注。

S223、文本关系抽取第三步骤，句子中存在主谓关系、动宾关系、定中关系、状中结构等许多复杂句式，通过生成依存句法树来实现每一个句子中的主谓宾关系结构的抽取，同样也可以使用standford、LTP、FuDanNLP等工具划分出句子的依存关系。

S224、文本关系抽取第四步骤，对于生成的依存树，通过对其进行剪枝，抽取出每一个句子的主谓宾三元组关系。

S225、文本关系抽取第五步骤，忽略该句子，不做关系抽取处理。

S23、文本事件树生成子步骤，用于将抽取出的三元组关系信息保存到树形结构中，生成事件树，具体包括，

S231、文本事件树生成第一步骤，读取数组形式的三元组文本信息。

S232、文本事件树生成第二步骤，树形结构有很多种，如二叉树、n叉树，句法树等，不局限于使用一种树的形式，可以通过树库treelib、Anytree等形成树形结构。

S3所述图片实体抽取步骤具体包括：

S31、图片实体抽取第一步骤，从历史新闻报道数据库中读取图片信息。

S32、图片实体抽取第二步骤，使用图像目标检测模型识别图片中的多个实体，所述图像目标检测模型包括Faster RCNN、Yolo 和 Yolo2、SSD 、Mask RCNN等。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神和基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于语义内容摘要的新闻内容图文不符鉴别系统，其特征在于，包括：

2.根据权利要求1所述的基于语义内容摘要的新闻内容图文不符鉴别系统，其特征在于，所述文本事件树构建模块包括：文本实体抽取子模块、文本关系抽取子模块以及文本事件树生成子模块；

所述文本实体抽取子模块具体包括，

所述文本关系抽取子模块具体包括，

文本关系抽取第五单元，忽略该句子，不做关系抽取处理；

所述文本事件树生成子模块具体包括，

文本事件树生成第二单元，通过树库形成树形结构，

3.根据权利要求1所述的基于语义内容摘要的新闻内容图文不符鉴别系统，其特征在于，所述图片实体抽取模块具体包括：

4.一种基于语义内容摘要的新闻内容图文不符鉴别方法，其特征在于，包括如下步骤：

5.根据权利要求4所述的基于语义内容摘要的新闻内容图文不符鉴别方法，其特征在于，S2所述文本事件树构建步骤包括：

S21、文本实体抽取子步骤，具体包括，

S22、所述文本关系抽取子步骤，具体包括，

S23、文本事件树生成子步骤，具体包括，

S232、文本事件树生成第二步骤，通过树库形成树形结构，

6.根据权利要求3所述的基于语义内容摘要的新闻内容图文不符鉴别系统，其特征在于，S3所述图片实体抽取步骤具体包括：