CN113553839A

CN113553839A - 一种文本原创识别方法、装置、电子设备及存储介质

Info

Publication number: CN113553839A
Application number: CN202010340711.9A
Authority: CN
Inventors: 孔庆超; 张佳旭; 王婧宜; 王宇琪; 柳力多; 方省; 罗引; 王磊
Original assignee: Beijing Zhongke Wenge Technology Co ltd
Current assignee: Beijing Zhongke Wenge Technology Co ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2021-10-26
Anticipated expiration: 2040-04-26
Also published as: CN113553839B

Abstract

本申请涉及一种文本原创识别方法、装置、电子设备及存储介质，该方法包括：获取待识别的第一文本数据，以及与所述第一文本数据相关联的第二文本数据；确定所述第一文本数据的来源信息；当所述来源信息不满足于预设条件时，对所述第一文本数据和所述第二文本数据进行比较，得到相似度特征指标；将所述相似度特征指标输入训练好的识别模型，由所述识别模型根据所述相似度特征指标进行计算得到所述文本数据的原创识别结果。该技术方案一方面通过基于来源信息对文本进行初步原创判断，另一方面采用相似度指标对文本进行原创识别，以此种方式提高了原创识别的准确性和有效性，本申请采用的方法能够更好的服务于新闻工作的需求。

Description

一种文本原创识别方法、装置、电子设备及存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种文本原创识别方法、装置、电子设备及存储介质。

背景技术

近年来，互联网的发展速度突飞猛进，在日常宣传过程中，为确保宣传文本，如新闻、软文和广告等，不是抄袭他人的抄袭作品，在传播之前，需要对文本的原创性进行人工审核，只有确保宣传文本是原创文本，才能避免不必要的版权纠纷，并且使原创作品得到应有的价值反馈，因此，对文本进行原创性甄别是对外宣传时必做的一项工作。

以新闻为例，在我们看每一篇新闻的时候，是否注意到“来源”这个字眼。一篇好的新闻，众多站点会对其转载，但在转载的过程中可能会出现混淆转载出处作者身份的现象点。这种现象虽然在一定程度上有利于新闻的快速传播，但由于原创内容的作者花费了一定的时间和精力创作内容，上述的转载或抄袭行为会削减甚至消除原创作者的创作价值；另外，对于信息平台而言，如果搜录了大量重复的内容，会消耗掉更多的成本如储存和时间等。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种文本原创识别方法、装置、电子设备及存储介质。

第一方面，本申请提供了一种文本原创识别方法，包括：

获取待识别的第一文本数据，以及与所述第一文本数据相关联的第二文本数据；

确定所述第一文本数据的来源信息；

当所述来源信息不满足于预设条件时，对所述第一文本数据和所述第二文本数据进行比较，得到相似度特征指标；

将所述相似度特征指标输入训练好的识别模型，由所述识别模型根据所述相似度特征指标进行计算得到所述文本数据的原创识别结果。

可选的，所述第一文本数据的来源信息，包括：所述第一文本数据的数据来源，所述第一文本数据中携带的社交媒体以及网站信息。

可选的，所述来源信息满足于预设条件，至少包括以下一项：

所述第一文本数据的数据来源为空，所述第一文本数据中未携带社交媒体；

所述第一文本数据的数据来源为空，所述第一文本数据中携带与所述第一文本数据的发布方相匹配的网站信息；

所述第一文本数据中的标题内容携带与所述第一文本数据的发布方相匹配的网站信息。

可选的，获取所述第二文本数据，包括：

获取与所述第一文本数据相关联的至少两个候选文本数据；

对所述第一文本数据进行预处理得到第一词组集合；

对所述候选文本数据进行预处理得到第二词组集合；

计算所述第一词组集合与每个所述第二词组集合的词组相似度；

将所述词组相似度最大的候选文本数据作为第二文本数据。

可选的，所述对所述第一文本数据和所述第二文本数据进行比较，得到相似度特征指标，包括：

获取所述第一文本数据中每两个词组间的第一编辑距离，以及所述目标文本数据中每两个词组间的第二编辑距离，根据所述第一编辑距离和所述第二编辑距离计算编辑距离相似度；

获取所述第一文本数据中的第一字频向量，以及所述目标文本数据的第二字频向量，根据所述第一字频向量和所述第二字频向量计算余弦相似度；

获取所述第一文本数据中第一字符集合与所述目标文本数据中第二字符集合的交集，以及所述第一文本数据中第一字符集合与所述目标文本数据中第二字符集合的并集，根据所述交集和所述并集得到交并比；

基于所述编辑距离相似度、余弦相似度以及交并比进行加权求和，得到所述特征指标。

可选的，所述方法还包括：

获取第一样本特征指标；

获取所述第一样本特征指标对应的标签值，所述标签值表示所述第一样本特征指标是否为原创；

根据所述第一样本特征指标和所述标签值对预设模型进行训练，由所述预设模型学习所述第一样本特征指标与所述标签值的关系，得到训练后的识别模型。

可选的，所述方法还包括：

获取第二样本特征指标；

采用所述第二样本特征指标对所述训练后的识别模型进行进行测试，并获取测试结果；

当所述测试结果大于或等于预设阈值时，得到所述识别模型。

第二方面，本申请提供了一种文本原创识别装置，其特征在于，包括：

获取模块，用于获取待识别的第一文本数据，以及与所述第一文本数据相关联的第二文本数据；

确定模块，用于确定所述第一文本数据的来源信息；

比较模块，用于当所述来源信息不满足于预设条件时，对所述第一文本数据和所述第二文本数据进行比较，得到相似度特征指标；

处理模块，用于将所述相似度特征指标输入训练好的识别模型，由所述识别模型根据所述相似度特征指标进行计算得到所述文本数据的原创识别结果。

第三方面，本申请提供了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行计算机程序时，实现上述方法步骤。

第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：本申请一方面通过基于来源信息对文本进行初步原创判断，另一方面采用相似度指标对文本进行原创识别，以此种方式提高了原创识别的准确性和有效性，本申请采用的方法能够更好的服务于新闻工作的需求。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文本原创识别方法的流程图；

图2为本申请实施例提供的词组相似度计算过程示意图；

图3为本申请实施例提供的一种文本原创识别装置的框图；

图4为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种文本原创识别方法，装置，电子设备及存储介质。本发明实施例所提供的方法可以应用于任意需要的电子设备，例如，可以为服务器、终端等电子设备，在此不做具体限定，为描述方便，后续简称为电子设备。

下面首先对本发明实施例所提供的一种原创识别方法进行介绍。

图1为本申请实施例提供的一种文本原创识别方法的流程图。如图1所示，该方法包括以下步骤：

步骤S11，获取待识别的第一文本数据，以及与第一文本数据相关联的第二文本数据；

本实施例中，第一文本数据和第二文本数据可以是新闻文章，简讯等等。与第一文本数据相关联的第二文本数据为与第一文本数据属于同一公共事件的文本。且，第一文本数据与第二文本数据不属于同一发布方发送。

可以理解的，新闻文章可以是来自网络或者报纸，对于网络新闻文章的获取，可以是两种方式实现，分别为在指定新闻数据库中收集和/或利用爬虫技术从新闻网页中抓取。第一种方式，在指定新闻数据库中收集。例如，某些网站中会设置新闻数据库，即在该新闻数据库中会包括用户针对做过的新闻提交的新闻文章，在定向收集时，只需要到指定新闻数据库的位置，在相应的新闻数据库中收集新闻文章。第二种方式，爬虫技术是通过网页的链接地址来寻找网页，从网站某一个页面(通常是首页)开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么利用爬虫技术就可以把互联网上所有的网页都抓取下来。可以设置一些该新闻的关键词，采用利用爬虫技术的搜索引擎，由搜索引擎基于爬虫技术的广度收集原理从网页中提取匹配的搜索结果，即抓取新闻的新闻文章。报纸新闻文章也可以通过定向抓取得到数据。

步骤S12，确定第一文本数据的来源信息；

本实施例中第一文本数据的来源信息，包括：第一文本数据的数据来源，第一文本数据中携带的社交媒体以及网站信息。

可以理解的，第一文本数据的数据来源、第一文本数据中携带的社交媒体、以及与第一文本数据相关联的网站信息可以从发布信息、文本的正文内容或文本的结尾处确定。

本实施例中，来源信息满足于预设条件，至少包括以下一项：

第一文本数据的数据来源为空，第一文本数据中未携带社交媒体；

第一文本数据的数据来源为空，第一文本数据中携带与第一文本数据的发布方相匹配的网站信息；

第一文本数据中的标题内容携带与第一文本数据的发布方相匹配的网站信息。

步骤S13，当来源信息不满足于预设条件时，对第一文本数据和所述第二文本数据进行比较，得到相似度特征指标；

获取第二文本数据，包括：获取与第一文本数据相关联的至少两个候选文本数据；对第一文本数据进行预处理得到第一词组集合；对候选文本数据进行预处理得到第二词组集合；计算第一词组集合与每个第二词组集合的词组相似度；将词组相似度最大的候选文本数据作为第二文本数据。通过对候选文本数据进行筛选，能够得到与第一文本数据最相似的文本数据(及第二文本数据)，以此种方式提高了分析效率。

可以理解的，至少候选文本数据与第一文本数据属于同一公共事件的文本，第一文本数据和第二文本数据为新闻，简讯等等。其中，第一文本数据与第二文本数据不属于同一发布方发送。

其中，对第一文本数据进行预处理包括：首先对新闻来源进行预处理，去除一些不必要的标点符号、特殊符号，去除空格，将其中的繁体字转化简体字得到第一词组集合w。然后对每个候选文本数据去除一些不必要的标点符号、特殊符号，去除空格，将文本中的繁体字转化简体字，得到多个第二词组集合[v_i]，其中候选文本数据与第二词组集合一一对应。计算第一词组集合w和第二词组集合[v_i]的相似度得分 [score_i]，score_i＝max(sim(W_i,V_j)),j＝1,2,...n，将其中最大的score_i作为第二文本数据。

作为一个示例，如图2所示，第一文本数据中的第一词组集合与候选文本数据1的第二词组集合1进行相似度计算，得到词组相似度1。

第一文本数据中的第一词组集合与候选文本数据2的第二词组集合2进行相似度计算，得到词组相似度2。

第一文本数据中的第一词组集合与候选文本数据3的第二词组集合3进行相似度计算，得到词组相似度3。

通过对比词组相似度1、词组相似度2以及词组相似度3的大小，将词组相似度最大候选文本数据作为第二文本数据。

本实施例中，对第一文本数据和第二文本数据进行相似度计算得到特征指标，具体实现方式如下：获取第一文本数据中每两个词组间的第一编辑距离，以及目标文本数据中每两个词组间的第二编辑距离，根据第一编辑距离和第二编辑距离计算编辑距离相似度；

sim(w_i,v_j)＝(max(w_i,v_j)-Levenshtein)/max(w_i,v_j)

其中，Levenshtein代表两个词语间的编辑距离，max(w_i,v_j)表示两个词语间的最大长度。

编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。编辑距离可以用在自然语言处理中，例如拼写检查可以根据一个拼错的字和其他正确的字的编辑距离，判断哪一个(或哪几个) 是比较可能的字。

获取第一文本数据中的第一字频向量，以及目标文本数据的第二字频向量，根据第一字频向量和第二字频向量计算余弦相似度；

其中，W_i表示新闻来源词W的字频向量，V_j表示原创新闻相关站点文本的词列表中的第j个字频向量。

获取第一文本数据与目标文本数据中字符级别的交集，以及第一文本数据与目标文本数据中字符级别的并集，根据字符级别的交集和字符级别的并集得到交并比；

根据编辑距离相似度、余弦相似度以及交并比进行加权求和，得到特征指标。

其中，W表示新闻来源文本的字符集合，V_j表示原创新闻相关站点文本的第j个文本的字符集合。

步骤S14，将特征指标输入训练好的识别模型，由识别模型根据特征指标进行计算得到文本数据的原创识别结果。

本实施例中，T＝{(x₁,y₁),(x₂,y₂),...,(x_N,y_N)}，T为模型的输入数据，即3个文本相似度，将三个文本相似度输入识别模型后，识别模型根据三个文本相似度进行加权计算，得到原创识别结果，其中原创识别结果为1，则表示第一文本数据为原创，如果原创识别结果为0，则第一文本数据为非原创。

本实施例中采用三个文本相似度作为特征指标，通过模型预测文本是否为原创。这种方法既避免了规则匹配的缺点，不再需要人工干预和专业知识，同时基于三个文本相似度也可以大大提高原创识别的准确性和有效性。

作为一个示例，按照8：2的比例将识别模型的训练样本集划分为训练集和测试集，训练时使用交叉验证来验证模型的有效性。

本申请实施例中对识别模型的训练过程如下：获取第一样本数据，第一样本样本数据包括：原创文本数据和非原创文本数据，获取原创文本数据和非原创文本数据对应标签值，根据第一样本数据和标签值对预设模型进行训练，由预设模型学习样本特征指标与标签值的关系，得到训练后的识别模型。

本实施例中的预设模型是基于逻辑回归算法实现的，逻辑回归算法具有可解释性强，计算速度快的优点，最重要的是该算法可以返回各个指标的权值。因此该模块采用机器学习算法中的逻辑回归算法以识别文本原创。

采用训练集对预设模型训练完后，采用测试集对训练后的识别模型进行测试。具体的如下：

获取第二样本数据，采用第二样本数据对训练后识别模型进行进行测试，并获取测试结果，当测试结果大于或等于预设阈值时，得到识别模型。

基于上述方案，本实施例提供的文本原创识别方法，一方面通过基于来源信息对文本进行初步原创判断，另一方面采用相似度指标对文本进行原创识别，以此种方式提高了原创识别的准确性和有效性，本申请采用的方法能够解决现在新闻内容不易监管，导致新闻原创性较差的问题。

图3为本申请实施例提供的一种文本原创识别装置的框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图3所示，该装置包括：

获取模块31，用于获取待识别的第一文本数据，以及与第一文本数据相关联的第二文本数据；

确定模块32，用于确定第一文本数据的来源信息；

比较模块33，用于当来源信息不满足于预设条件时，对第一文本数据和第二文本数据进行比较，得到相似度特征指标；

处理模块34，用于将相似度特征指标输入训练好的识别模型，由识别模型根据相似度特征指标进行计算得到文本数据的原创识别结果。

其中，来源信息满足于预设条件，至少包括以下一项：

本实施例中的获取模块，具体用于，获取与第一文本数据相关联的至少两个候选文本数据；对第一文本数据进行预处理得到第一词组集合；对候选文本数据进行预处理得到第二词组集合；计算第一词组集合与每个第二词组集合的词组相似度；将词组相似度最大的候选文本数据作为第二文本数据。

本实施例中的比较模块，具体用于获取第一文本数据中每两个词组间的第一编辑距离，以及目标文本数据中每两个词组间的第二编辑距离，根据第一编辑距离和第二编辑距离计算编辑距离相似度；

获取第一文本数据中第一字符集合与目标文本数据中第二字符集合的交集，以及第一文本数据中第一字符集合与目标文本数据中第二字符集合的并集，根据交集和并集得到交并比；

基于编辑距离相似度、余弦相似度以及交并比进行加权求和，得到特征指标。

本实施例提供的装置还包括训练模块，训练模块，用于获取第一样本特征指标；获取第一样本特征指标对应的标签值，标签值表示第一样本特征指标是否为原创；根据第一样本特征指标和标签值对预设模型进行训练，由预设模型学习第一样本特征指标与标签值的关系，得到训练后的识别模型。

本实施例中的训练模块，还用于获取第二样本特征指标，采用第二样本特征指标对训练后的识别模型进行进行测试，并获取测试结果，当测试结果大于或等于预设阈值时，得到识别模型。

本申请实施例还提供一种电子设备，如图4所示，电子设备可以包括：处理器1501、通信接口1502、存储器1503和通信总线1504，其中，处理器1501，通信接口1502，存储器1503通过通信总线1504 完成相互间的通信。

存储器1503，用于存放计算机程序；

处理器1501，用于执行存储器1503上所存放的计算机程序时，实现上述实施例的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准 (PeripheralComponent Interconnect，P C I)总线或扩展工业标准结构(Extended IndustryStandard Architecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignalProcessing，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例的步骤。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令进行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于进行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上进行、部分地在用户设备上进行、作为一个独立的软件包进行、部分在用户计算设备上部分在远程计算设备上进行、或者完全在远程计算设备或服务器上进行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

需要说明的是，对于上述装置、电子设备及计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

进一步需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本原创识别方法，其特征在于，包括：

确定所述第一文本数据的来源信息；

将所述相似度特征指标输入训练好的识别模型，由所述识别模型根据所述相似度特征指标进行计算得到所述第一文本数据的原创识别结果。

2.根据权利要求1所述的方法，其特征在于，所述第一文本数据的来源信息，包括：所述第一文本数据的数据来源，所述第一文本数据中携带的社交媒体以及网站信息。

3.根据权利要求2所述的方法，其特征在于，所述来源信息满足于预设条件，至少包括以下一项：

4.根据权利要求1所述的方法，其特征在于，获取所述第二文本数据，包括：

获取与所述第一文本数据相关联的至少两个候选文本数据；

对所述第一文本数据进行预处理得到第一词组集合；

对所述候选文本数据进行预处理得到第二词组集合；

将所述词组相似度最大的候选文本数据作为第二文本数据。

5.根据权利要求4所述的方法，其特征在于，所述对所述第一文本数据和所述第二文本数据进行比较，得到相似度特征指标，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取第一样本特征指标；

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取第二样本特征指标；

8.一种文本原创识别装置，其特征在于，包括：

确定模块，用于确定所述第一文本数据的来源信息；

9.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述计算机程序时，实现权利要求1-7任一项所述的方法步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-7任一项所述的方法步骤。