CN113449078A

CN113449078A - 相似新闻识别方法、设备、系统及存储介质

Info

Publication number: CN113449078A
Application number: CN202110711198.4A
Authority: CN
Inventors: 计明杰; 薛晓舟; 蔡承蒙; 陈邦忠
Original assignee: Perfect World Holding Group Ltd
Current assignee: Perfect World Holding Group Ltd
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-09-28

Abstract

本申请实施例提供一种相似新闻识别方法、设备、系统及存储介质。在相似新闻识别方法中，计算新闻的相似度时，将新闻中的标题与正文进行分开处理，根据标题对应的文本，计算标题的相似度，并根据正文对应的文本及文本长度，计算文本的相似度，可在一定程度上降低文本长度差异对相似度的影响，有利于计算得到更加准确的相似度。同时，对标题的相似度和正文的相似度进行融合得到新闻的相似度，可快速得到新闻文本的相似度计算结果，降低识别相似新闻所需的时间成本以及计算成本，提升相似新闻的识别效率。

Description

相似新闻识别方法、设备、系统及存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种相似新闻识别方法、设备、系统及存储介质。

背景技术

在信息时代，各类信息呈现井喷式增长，新闻数据也不例外。不同的新闻报道方(例如门户网站、杂志社)在报道同一新闻时，会出现相互引用的现象，或者使用相近或者相同的描述方式的现象。进而，导致不同新闻报道具有较高的相似性，该相似性使得新闻数据出现大量冗余，对用户的阅读造成了干扰，且不利于对新闻数据进行分析。

现有的相似新闻识别方法多依赖于有监督模型或者无监督模型实现，但是基于模型的方法的复杂度较高，不利于提升识别效率。因此，有待提出一种新的解决方案。

发明内容

本申请的多个方面提供一种相似新闻识别方法、设备、系统及存储介质，用以高效地对相似新闻进行识别。

本申请实施例提供一种相似新闻识别方法，包括：获取待识别的第一新闻文本和第二新闻文本；所述第一新闻文本包含第一标题和第一正文，所述第二新闻文本包含第二标题和第二正文；根据所述第一标题和所述第二标题各自对应的文本，计算所述第一标题和所述第二标题之间的标题相似度；根据所述第一正文和所述第二正文各自对应的文本以及所述第一正文和所述第二正文各自对应的文本长度，计算所述第一正文和所述第二正文之间的正文相似度；对所述标题相似度和所述正文相似度进行融合，得到所述第一新闻文本和所述第二新闻文本的相似度。

进一步可选地，根据所述第一标题和所述第二标题各自对应的文本，计算所述第一标题和所述第二标题之间的标题相似度，包括：对所述第一标题以及所述第二标题进行关键词提取操作，得到第一标题词条集合以及第二标题词条集合；计算同时位于所述第一标题词条集合以及所述第二标题词条集合的词条的数量，作为相同标题词条的数量；根据所述相同标题词条的数量与所述第一标题词条集合和所述第二标题词条集合包含的词条总数量的比值，确定所述标题相似度。

进一步可选地，对所述第一标题以及所述第二标题进行关键词提取操作，包括：从所述第一标题以及所述第二标题中，提取实体对应的词条、词性为名词的词条和/或词性为动词的词条。

进一步可选地，根据所述第一正文和所述第二正文各自对应的文本以及所述第一正文和所述第二正文各自对应的文本长度，计算所述第一正文和所述第二正文之间的正文相似度，包括：对所述第一正文以及所述第二正文进行分词处理，得到第一正文词条集合以及第二正文词条集合；确定所述第一正文词条集合以及所述第二正文词条集合的交集，得到相同正文词条；确定所述第一正文词条集合以及所述第二正文词条集合中，除所述相同正文词条之外的其他词条，作为相异正文词条；分别计算所述相同正文词条在所述第一正文词条集合以及所述第二正文词条集合中的出现频次，得到第一出现频次和第二出现频次；分别计算所述相异正文词条在所述第一正文词条集合以及所述第二正文词条集合中的出现频次，得到第三出现频次和第四出现频次；根据所述第一出现频次、所述第二出现频次、所述第三出现频次、所述第四出现频次以及所述第一正文和所述第二正文各自的文本长度，计算所述正文相似度。

进一步可选地，根据所述第一出现频次、所述第二出现频次、所述第三出现频次、所述第四出现频次以及所述第一正文和所述第二正文各自的文本长度，计算所述正文相似度，包括：计算所述第一出现频次以及所述第二出现频次中的较小频次；对所述第一出现频次、所述第二出现频次、所述第三出现频次以及所述第四出现频次进行求和，得到总频次；根据所述第一正文和所述第二正文各自的文本长度，计算相似度惩罚项；根据所述较小频次、所述总频次以及所述相似度惩罚项，确定所述正文相似度。

进一步可选地，根据所述较小频次、所述总频次以及所述相似度惩罚项，确定所述正文相似度，包括：在所述总频次上增加所述相似度惩罚项，以更新所述总频次；根据所述较小频次与所述更新后的总频次的比值，确定所述正文相似度。

进一步可选地，根据所述第一正文和所述第二正文各自的文本长度，计算相似度惩罚项，包括：计算所述第一正文和所述第二正文之间的文本长度差的绝对值；若所述文本长度差的绝对值大于或者等于设定的第一阈值，则将所述文本长度差的绝对值与设定系数α的乘积作为所述相似度惩罚项。

进一步可选地，若所述文本长度差的绝对值大于设定的第二阈值，则分别从所述第一正文和所述第二正文中确定第一句子和第二句子，所述第一句子和所述第二句子包含的相同正文词条的数量最多；根据所述第一句子和所述第二句子各自的语义，计算所述第一句子和所述第二句子的句子相似度；对所述句子相似度以及所述正文相似度进行加权求和，以更新所述正文相似度；所述句子相似度的加权系数与所述文本长度差的绝对值成负相关关系。

进一步可选地，还包括：获取所述第一新闻文本以及所述第二新闻文本各自的来源、领域以及用户评论数据中的至少一种；若所述文本长度差的绝对值大于设定的第三阈值，且所述相同正文词条的数量小于设定的第四阈值，则根据所述来源、领域以及用户评论数据中的至少一种，计算所述第一新闻文本和所述第二新闻文本的信息相似度；对所述信息相似度以及所述正文相似度进行加权求和，以更新所述正文相似度；所述信息相似度的加权系数与所述文本长度差的绝对值成负相关关系。

进一步可选地，对所述标题相似度和所述正文相似度进行融合，得到所述第一新闻文本和所述第二新闻文本的相似度，包括：按照预设的权重系数，对所述标题相似度和所述正文相似度进行加权求和，得到所述第一新闻文本和所述第二新闻文本的相似度。

本申请实施例还提供一种电子设备，包括：存储器和处理器；所述存储器用于存储一条或多条计算机指令；所述处理器用于执行所述一条或多条计算机指令以用于：执行本申请实施例提供的方法中的步骤。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被处理器执行时能够实现本申请实施例提供的方法中的步骤。

本申请实施例提供的相似新闻识别方法中，在计算新闻的相似度时，将新闻中的标题与正文进行分开处理，根据标题对应的文本，计算标题的相似度，并根据正文对应的文本及文本长度，计算文本的相似度，可在一定程度上降低文本长度差异对相似度的影响，有利于计算得到更加准确的相似度。同时，对标题的相似度和正文的相似度进行融合得到新闻的相似度，可快速得到新闻文本的相似度计算结果，降低识别相似新闻所需的时间成本以及计算成本，提升相似新闻的识别效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请一示例性实施例提供的相似新闻识别方法的流程示意图；

图2为本申请另一示例性实施例提供的相似新闻识别方法的流程示意图；

图3为本申请一示例性实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

不同的新闻报道方(例如门户网站、杂志)在报道同一新闻时，会出现相互引用的现象，或者使用相近或者相同的描述方式的现象。进而，导致不同新闻报道具有较高的相似性，该相似性使得新闻数据出现大量冗余，对用户的阅读造成了干扰，且不利于对新闻数据进行分析。

目前，多采用有监督的处理方式或者无监督的处理方式来识别相似新闻。在有监督的处理方式中，通常采用使用分类器判断任意两篇新闻稿是否相似。这种方法需要大量的标注文本来训练分类器。其中，分类器的训练过程对标注的尺度以及标注数据的类型较为敏感，进而导致分类器的泛化能力较差，且针对部分长文本的计算耗时较长。在无监督的处理方式中，通常计算新闻稿之间的语义相似度。但是计算语义相似度的方式需要抽取文字的语义信息，计算复杂且时间成本较高，不利于提升识别效率。

针对上述技术问题，在本申请一些实施例中，提供了一种解决方案，以下结合附图，详细说明本申请各实施例提供的技术方案。

图1是本申请一示例性实施例提供的新闻相似度识别方法的流程示意图，该方法在电子设备侧执行时，可包括如图1所示的步骤：

步骤101、获取待识别的第一新闻文本和第二新闻文本；所述第一新闻文本包含第一标题和第一正文，所述第二新闻文本包含第二标题和第二正文。

步骤102、根据所述第一标题和所述第二标题各自对应的文本，计算所述第一标题和所述第二标题之间的标题相似度。

步骤103、根据所述第一正文和所述第二正文各自对应的文本以及所述第一正文和所述第二正文各自对应的文本长度，计算所述第一正文和所述第二正文之间的正文相似度。

步骤104、对所述标题相似度和所述正文相似度进行融合，得到所述第一新闻文本和所述第二新闻文本的相似度。

新闻文本，指的是对事件进行报道或者评论的文本，新闻文本通常发布在杂志、报纸以及各网站上。当存在海量的新闻文本时，可对海量的新闻文本进行相似度识别，并可对相似的新闻文本进行归类或者去重等等。其中，对海量的新闻文本进行相似度识别时，可计算任意两个新闻文本的相似度。

在一些实施例中，新闻文本可通过对新闻视频进行语音识别获取。例如，针对一新闻视频，可提取新闻视频对应的名称或者简介等信息，作为新闻标题。接下来，可对新闻视频包含的语音进行提取，并对提取到的语音进行语音识别，得到新闻对应的内容文字，作为正文。

在本申请的各实施例中，为便于描述和区分，将待进行相似度识别的任意两个新闻文本，描述为第一新闻文本和第二新闻文本。

新闻文本具有一定的数据特性，通常，新闻文本包括至少两个部分，即标题部分和正文部分。新闻的标题是对正文的概括性总结或者评价，因此，无论是简讯还是长篇新闻，报道相同内容时，二者的标题相似度通常较高。在本实施例中，为降低文本长度差异对相似度的影响，将新闻之间的相似度拆分为两个部分，即标题之间的相似度以及文本之间的相似度。

本实施例中，为便于描述和区分，将第一新闻文本的标题和正文描述为第一标题和第一文本，将第二新闻文本的标题描述为第二标题和第二文本。

基于第一标题和第二标题各自对应的文本，可计算第一标题和第二标题之间相似度，基于第一正文和第二正文各自对应的文本以及第一正文和第二正文各自对应的文本长度，可计算第一正文和第二正文之间相似度。基于文本计算相似度时，可计算文本的字面相似度，此部分将在后续的实施例中进行详细介绍，此处不赘述。为便于描述和区分，将标题之间的相似度描述为标题相似度，将正文之间的相似度描述为正文相似度。

在得到第一文本和正文相似度之后，将标题相似度和正文相似度进行融合处理，得到第一新闻文本和第二新闻文本的相似度。其中，将标题相似度和正文相似度进行融合处理时，可采用算术计算的方式将标题相似度和文本相似度进行融合。例如，可计算标题相似度和正文相似度的平均值，作为两个新闻文本之间的相似度；例如，可计算标题相似度和正文相似度的乘积，作为两个新闻文本之间的相似度；又例如，可对标题相似度和正文相似度进行求和，作为两个新闻文本之间的相似度。

在一些示例性的实施例中，考虑到标题和正文对新闻内容的贡献程度，可为标题和正文分别设预设权重系数，并按照预设的权重系数，对标题相似度和正文相似度进行加权求和，得到第一新闻文本和第二新闻文本的相似度。假设，标题的权重系数为w1，正文的权重系数为w2，标题相似度为S1、正文相似度为S2，则第一新闻文本和第二新闻文本的相似度S＝w1*S1+w2*S2，其中，w1与w2的取值可以为经验值，本实施例不做限制。

本实施例中，在计算新闻的相似度时，将新闻中的标题与正文进行分开处理，根据标题对应的文本，计算标题的相似度，并根据正文对应的文本及文本长度，计算文本的相似度，可在一定程度上降低文本长度差异对相似度的影响，有利于计算得到更加准确的相似度。同时，对标题的相似度和正文的相似度进行融合得到新闻的相似度，可快速得到新闻文本的相似度计算结果，降低识别相似新闻所需的时间成本以及计算成本，提升相似新闻的识别效率。

在上述实施例中，记载了将新闻的标题和正文进行分开处理的实施方式，以下将分别对计算标题的相似度以及正文的相似度的可选实施方式进行进一步说明。

可选地，如图2所示，将第一新闻和第二新闻作为输入数据后，可首先检测输入的文本是否为标题，若为标题，则进入标题处理分支，即执行实施例一；若输入的文本不为标题，则进入正文处理分支，即执行实施例二。

实施例一：根据第一标题和第二标题各自对应的文本，计算第一标题和第二标题之间的标题相似度。

可选地，可对第一标题以及第二标题进行关键词提取操作，得到第一标题包含的关键词的集合以及第二标题包含的关键词的集合。其中，第一标题包含的关键词的集合，可以描述为第一标题词条集合；第二标题包含的关键词的集合，可以描述为第二标题词条集合。

其中，关键词提取操作，可包括：提取实体对应的词条、词性为名词的词条和/或词性为动词的词条的操作。即，提取第一标题中的与实体对应的词条、词性为名词的词条和/或词性为动词的词条，得到第一标题词条集合；提取第二标题中的与实体对应的词条、词性为名词的词条和/或词性为动词的词条，得到第二标题词条集合。

其中，实体(Entity)是指文本语料中出现的自然界真实存在的事物。实体是具体的事物，可以是一个事物也可以是多个事物的集合，例如人名、地点、组织结构等实体。

接下来，可计算第一标题词条集合以及第二标题词条集合中的相同标题词条的数量；其中，相同标题词条，指的是既位于第一标题词条集合，也位于第二标题词条集合的词条。当标题中的一个相同标题词条重复出现多次时，只标记该相同标题词条的数量为1，而不考虑其重复出现的频次。

接下来，可根据该相同标题词条的数量与第一标题词条集合和第二标题词条集合包含的词条总数量的比值，确定标题相似度。上述计算过程可参考如下公式的记载：

其中，A表示第一标题词条集合，|A|表示集合A的模长，即集合A中的元素的个数；B表示第二标题词条集合，|B|表示集合B的模长，即集合B中的元素的个数。i表示集合A中的第i个词条。基于上述公式可知，集合A中的第i个词条也属于集合B时，f(i，B)＝1，即第i个词条为A集合与B集合的相同标题词。集合A中的第i个词条不属于集合B时，f(i，B)＝0，即第i个词条为A集合与B集合的不同标题词。其中，分子上的系数2，用于确保相似度计算结果S2的最大值为1。基于公式1，可计算得到两个新闻的标题相似度，即标题相似度。

实施例二：根据第一正文和第二正文各自对应的文本，计算第一正文和第二正文之间的正文相似度。

可选地，可对第一正文以及第二正文进行分词处理，得到第一正文和第二正文各自对应的词条集合。其中，第一正文对应的词条集合，可描述为第一正文词条集合，第二正文对应的词条，可描述为第二正文词条集合。

其中，分词处理，指的是对句子、段落进行切分，得到句子包含的词条、单字等等。在一些实施例中，为节省数据空间并提升后续的处理效率，可对分词处理得到的结果进行停用词去除操作，如图2所示。其中，停用词是指不具有实际意义的功能词，例如“的”、“在”、“是”等等。

得到第一正文词条集合以及第二正文词条集合之后，可获取第一正文词条集合与第二正文词条集合中的相同文正词条以及相异正文词条。其中，可确定第一正文词条集合以及第二正文词条集合的交集，得到相同正文词条；获取相同正文词条后，可将第一正文词条集合以及所述第二正文词条集合中，除相同正文词条之外的其他词条，作为相异正文词条。

针对相同正文词条而言，可计算相同正文词条在第一正文词条集合中的出现频次，得到第一出现频次，并计算相同正文词条在第二正文词条集合中的出现频次，得到第二出现频次。当相同正文词条包含多个词条时，可累加该多个词条在第一正文词条集合中的出现频次，得到第一出现频次，并可累加该多个词条在第二正文词条集合中的出现频次，得到第二出现频次。

针对相异正文词条而言，可计算相异正文词条在第一正文词条集合中的出现频次，得到第三出现频次，并可计算相异正文词条在第二正文词条集合中的出现频次，得到第四出现频次。当相异正文词条包含多个词条时，可累加该多个词条在第一正文词条集合中的出现频次，得到第三出现频次，并可累加该多个词条在第二正文词条集合中的出现频次，得到第四出现频次。

接下来，可根据第一出现频次、第二出现频次、第三出现频次、第四出现频次以及第一正文和第二正文各自对应的文本长度，计算正文相似度。

在一些示例性的实施例中，可计算第一出现频次以及第二出现频次中的较小频次；对第一出现频次、第二出现频次、第三出现频次以及第四出现频次进行求和，得到总频次；接下来，根据该较小频次与该总频次的比值，确定正文相似度。

通常，若两片新闻报道相同的事情，那么大概率两篇新闻文本的内容具有较高的相似性。若两篇相似新闻的长度不同，则导致计算出来的相似度较小，不符合实际情况。

为降低文本长度对相似度的影响，在一些示例性的实施例中，可在计算正文相似度的过程中，进一步增加与文本长度关联的惩罚项。

可选地，可确定第一正文和第二正文各自的文本长度，并根据第一正文和第二正文各自的文本长度，计算相似度惩罚项。其中，该相似度惩罚项可添加在总频次上，即：在总频次上增加该相似度惩罚项，以更新该总频次。

上述计算过程可参考以下公式的记载：

公式2中，N表示相同正文词条的集合，i表示第i个相同正文词条；M表示相异正文词条的集合，j表示第j个相异正文词条；a表示第一正文词条集合，b表示第二正文词条集合。min()表示取最小值的函数，count()表示统计词条频次的函数。F表示相似度惩罚项。其中，分子上的系数2，用于确保相似度计算结果S2的最大值为1，min()用于降低长文本中频繁出现的某些词条对相似度的影响。

在一些可选的实施例中，计算相似度惩罚项时，可计算第一正文和第二正文之间的文本长度差的绝对值；若该文本长度差的绝对值大于或者等于设定的第一阈值，则可将该文本长度差的绝对值与设定系数α的乘积作为相似度惩罚项。若该文本长度差小于该设定的第一阈值，则可设置较小的固定值作为相似度惩罚项，该固定值可以为0。上述相似度惩罚项的计算过程可以参考以下公式所示：

公式3中，La表示第一正文的文本长度，Lb表示第二正文的文本长度，γ为该设定的第一阈值。其中，La可以采用第一正文词条集合包含的元素数量来表示，Lb可采用第二正文词条包含的元素的数量来表示。其中，α表示惩罚项的系数，α和γ的值系数为经验值；其中，α的值与文本长度差的绝对值成正相关关系，文本长度的差距越大，则α的取值越大，从而可提升文本长度对相似度计算结果的影响。

其中，当数据库中海量的新闻文本中，文本长度最长的新闻文本与文本长度最短的新闻文本之间的文本长度差为上百字时，γ的值可取百为单位；当文本长度最长的新闻文本与文本长度最短的新闻文本之间的文本长度差为上千字时，γ的值可取千为单位。例如，数据库中最短的新闻只有200字，最长的新闻有2000字，那么γ可取千为单位。

其中，α可根据实际的文本长度差确定，若文本长度差较大，则可为α取较大的值。若文本长度差较小，则可为α取较小的值，以尽可能降低文本长度差异对相似度计算造成的影响。例如，α的值可取0.01、0.05、0.1等，不再赘述。

基于上述各实施方式，在计算新闻的相似度时，将新闻中的标题与正文进行分开处理，可在一定程度上降低文本长度差异对相似度的影响，有利于计算得到更加准确的相似度。除此之外，在进行相似度计算时，进一步添加与文本长度相关的惩罚项，当待识别的两篇新闻的长度差异较大，可进一步降低文本长度对相似度计算的影响，提升字面相似度的计算准确性。

进一步可选地，若该文本长度差的绝对值大于设定的第二阈值，则可分别从第一正文和所述第二正文中确定第一句子和第二句子，其中，第一句子和第二句子包含的相同正文词条的数量最多。接下来，可根据第一句子和所述第二句子各自的语义，计算第一句子和第二句子的句子相似度。接下来，可对该句子相似度以及上述实施例计算得到的正文相似度进行加权求和，以更新所述正文相似度。其中，该句子相似度的加权系数与文本长度差的绝对值成负相关关系，即文本长度差的绝对值越大，则句子相似度的加权系数越小。上述计算过程可通过以下公式进行描述：

S2＝w3*S2+w4*S3 公式4

公式4中，w3以及w4分别表示正文相似度以及句子相似度各自的权重，S3表示句子相似度。

进一步可选地，可获取第一新闻文本以及第二新闻文本各自的来源、领域以及用户评论数据中的至少一种。若该文本长度差的绝对值大于设定的第三阈值，且前述实施例根据第一正文词条集合以及所述第二正文词条集合的交集得到相同正文词条的数量小于设定的第四阈值，则可根据该来源、领域以及用户评论数据中的至少一种，计算第一新闻文本和第二新闻文本的信息相似度。接下来，可对该信息相似度以及正文相似度进行加权求和，以更新该正文相似度；其中，信息相似度的加权系数与该文本长度差的绝对值成负相关关系。上述计算过程可通过以下公式进行描述：

S2＝w5*S2+w6*S4 公式5

公式5中，w5以及w6分别表示正文相似度以及信息相似度各自的权重，S4表示信息相似度。

其中，根据来源、领域以及用户评论数据中的多种信息计算信息相似度时，信息相似度的值可以为多种信息计算得到的相似度之和，或者，可以为多种信息计算得到的相似度的平均值，或者，可以为多种信息计算得到的相似度的加权平均值，本实施例不做限制。

其中，第一阈值、第二阈值、第三阈值以及第四阈值可以根据需求进行设置，可设为相同的值或者不同的值，本实施例不做限制。

进一步可选地，计算第一新闻文本和第二新闻文本的相似度时，还可从用户维度进行相似度附加值的计算，并将计算得到的相似度附加值与前述实施例计算得到的标题相似度和正文相似度进行融合，以下将进行示例性说明。

在一些可选的实施例中，针对待识别的第一新闻文本和第二新闻文本，可确定收藏第一新闻文本的用户以及阅读过第一新闻文本的用户，并确定收藏第二新闻文本的用户以及阅读过第二新闻文本的用户。接下来，可确定第一新闻文本和第二新闻文本对应的相同收藏用户的数量。

可确定第一新闻文本和第二新闻文本对应的相同浏览用户的数量。基于相同收藏用户的数量和/或相同浏览用户的数量，可计算第一新闻文本和第二新闻文本的相似度附加值。例如，新闻a被用户1、2、3收藏，新闻b被用户2、3、4收藏，则新闻a和新闻b的相同收藏用户为用户2以及用户3。其中，两篇新闻的相同收藏用户或相同浏览用户的数量越多，则相似度附加值越大。接下来，可将该相似度附加值与前述实施例计算得到的标题相似度和正文相似度进行融合，得到第一新闻文本和第二新闻文本的相似度。

在一另些可选的实施例中，针对被同一用户阅读过的待识别的第一新闻文本和第二新闻文本，可获取该用户阅读第一新闻文本对应的阅读行为，并获取该用户阅读第二新闻文本对应的阅读行为。其中，阅读行为包括：阅读时的停留时间、阅读后的操作记录(例如对相关或相似度较高的文章链接的点击记录)、对新闻中内嵌视频链接的点击记录以及观看时间中的至少一种。基于该用户阅读第一新闻文本对应的阅读行为，以及该用户阅读第二新闻文本对应的阅读行为，可计算第一新闻文本和第二新闻文本对于该用户的相似度附加值。接下来，根据可将该相似度附加值与前述实施例计算得到的标题相似度和正文相似度进行融合，得到第一新闻文本和第二新闻文本的相似度，即第一新闻文本和第二新闻文本对于用户的相似度。

上述阅读行为数据可反应用户对新闻的兴趣程度，当用户对两篇新闻的兴趣程度较为相似时，可认为这两篇新闻的相似概率较大。

通过上述方式，可以得到不同新闻对于用户的相似度。可选地，得到不同新闻对于用户的相似度后，可以根据该相似度，为用户提供个性化推荐服务，例如向用户推荐与先前已推荐给该用户的第三新闻文本相似度最大的第四新闻文本。

可选地，上述阅读行为数据可包括：用户对第一新闻文本的反馈数据以及用户对第二新闻文本的反馈数据，该反馈数据可以是文字评价数据或者语音评价数据等等。即当用户对两篇新闻的反馈数据较为相似时，可认为这两篇新闻的相似概率较大。

可选地，上述阅读行为数据可包括：同一用户观看第一新闻文本时采用的设备以及用户观看第二新闻文本时采用的设备。该设备可包括：手机、智能手表、Pad(平板电脑)、电视、智能家居设备。即当用户浏览这两篇新闻时采用的设备相同时，可认为这两篇新闻的相似概率较大，其中，基于该用户阅读第一新闻文本对应的阅读行为以及该用户阅读第二新闻文本对应的阅读行为，计算出的第一新闻文本和第二新闻文本对于该用户的相似度附加值与用户在预设时间段内对该设备的总使用时长/阅读时长呈正相关。

可选地，上述阅读行为数据可包括：同一用户观看第一新闻文本时采用的APP(application，应用程序)，以及观看第二新闻文本时采用的APP。例如，用户在某个APP中阅读了新闻a和新闻b，则可认为新闻a和新闻b的相似概率较大，其中，基于该用户阅读第一新闻文本对应的阅读行为以及该用户阅读第二新闻文本对应的阅读行为，计算出的第一新闻文本和第二新闻文本对于该用户的相似度附加值与用户在预设时间段内对该APP的总使用时长呈正相关。

值得说明的是，本申请的上述以及下述各实施例还可应用到新闻类型的短视频的相似度识别过程中。在一些实施例中，新闻文本可通过对新闻视频进行语音识别获取，其中，获取待识别的第一新闻文本和第二新闻文本，包括：提取第一新闻视频对应的名称或者简介等信息，作为第一新闻的新闻标题(即第一标题)，并提取第二新闻视频对应的名称或者简介等信息，作为第二新闻的新闻标题(即第二标题)；以及，对第一新闻视频和第二新闻视频包含的语音分别进行提取，并对提取到的语音进行语音识别，分别得到第一新闻视频对应的内容文字和第二新闻视频对应的内容文字，即上述的第一正文和第二正文。

例如，针对待比较的两个短视频，可获取两个短视频各自的文字描述作为标题，并可对两个短视频中的语音分别进行识别，得到两个短视频各自对应的内容文字，作为正文。接下来，可基于两个短视频各自对应的标题，计算任意两个短视频之间的标题相似度，并根据两个短视频各自对应的文本以及两个短视频各自的文本长度，计算两个短视频的正文相似度。对计算得到的标题相似度和正文相似度进行融合，可得到这两个短视频的相似度。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤201至步骤204的执行主体可以为设备A；又比如，步骤201和202的执行主体可以为设备A，步骤203的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如201、202等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图3是本申请一示例性实施例提供的电子设备的结构示意图，该电子设备适用于执行前述实施例提供的相似新闻识别方法。如图3所示，该电子设备包括：存储器301、处理器302以及通信组件303。

存储器301，用于存储计算机程序，并可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

其中，存储器301可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器302，与存储器301耦合，用于执行存储器301中的计算机程序，以用于：通过通信组件303获取待识别的第一新闻文本和第二新闻文本；所述第一新闻文本包含第一标题和第一正文，所述第二新闻文本包含第二标题和第二正文；根据所述第一标题和所述第二标题各自对应的文本，计算所述第一标题和所述第二标题之间的标题相似度；根据所述第一正文和所述第二正文各自对应的文本以及所述第一正文和所述第二正文各自对应的文本长度，计算所述第一正文和所述第二正文之间的正文相似度；对所述标题相似度和所述正文相似度进行融合，得到所述第一新闻文本和所述第二新闻文本的相似度。

进一步可选地，处理器302在根据所述第一标题和所述第二标题各自对应的文本，计算所述第一标题和所述第二标题之间的标题相似度时，具体用于：对所述第一标题以及所述第二标题进行关键词提取操作，得到第一标题词条集合以及第二标题词条集合；计算同时位于所述第一标题词条集合以及所述第二标题词条集合的词条的数量，作为相同标题词条的数量；根据所述相同标题词条的数量与所述第一标题词条集合和所述第二标题词条集合包含的词条总数量的比值，确定所述标题相似度。

进一步可选地，处理器302在对所述第一标题以及所述第二标题进行关键词提取操作时，具体用于：从所述第一标题以及所述第二标题中，提取实体对应的词条、词性为名词的词条和/或词性为动词的词条。

进一步可选地，处理器302在根据所述第一正文和所述第二正文各自对应的文本以及所述第一正文和所述第二正文各自对应的文本长度，计算所述第一正文和所述第二正文之间的正文相似度时，具体用于：对所述第一正文以及所述第二正文进行分词处理，得到第一正文词条集合以及第二正文词条集合；确定所述第一正文词条集合以及所述第二正文词条集合的交集，得到相同正文词条；确定所述第一正文词条集合以及所述第二正文词条集合中，除所述相同正文词条之外的其他词条，作为相异正文词条；分别计算所述相同正文词条在所述第一正文词条集合以及所述第二正文词条集合中的出现频次，得到第一出现频次和第二出现频次；分别计算所述相异正文词条在所述第一正文词条集合以及所述第二正文词条集合中的出现频次，得到第三出现频次和第四出现频次；根据所述第一出现频次、所述第二出现频次、所述第三出现频次、所述第四出现频次以及所述第一正文和所述第二正文各自的文本长度，计算所述正文相似度。

进一步可选地，处理器302在根据所述第一出现频次、所述第二出现频次、所述第三出现频次、所述第四出现频次以及所述第一正文和所述第二正文各自的文本长度，计算所述正文相似度时，具体用于：计算所述第一出现频次以及所述第二出现频次中的较小频次；对所述第一出现频次、所述第二出现频次、所述第三出现频次以及所述第四出现频次进行求和，得到总频次；根据所述第一正文和所述第二正文各自的文本长度，计算相似度惩罚项；根据所述较小频次、所述总频次以及所述相似度惩罚项，确定所述正文相似度。

进一步可选地，处理器302在根据所述较小频次、所述总频次以及所述相似度惩罚项，确定所述正文相似度时，具体用于：在所述总频次上增加所述相似度惩罚项，以更新所述总频次；根据所述较小频次与所述更新后的总频次的比值，确定所述正文相似度。

进一步可选地，处理器302在根据所述第一正文和所述第二正文各自的文本长度，计算相似度惩罚项时，具体用于：计算所述第一正文和所述第二正文之间的文本长度差的绝对值；若所述文本长度差的绝对值大于或者等于设定的第一阈值，则将所述文本长度差的绝对值与设定系数α的乘积作为所述相似度惩罚项。

进一步可选地，处理器302还用于：若所述文本长度差的绝对值大于设定的第二阈值，则分别从所述第一正文和所述第二正文中确定第一句子和第二句子，所述第一句子和所述第二句子包含的相同正文词条的数量最多；根据所述第一句子和所述第二句子各自的语义，计算所述第一句子和所述第二句子的句子相似度；对所述句子相似度以及所述正文相似度进行加权求和，以更新所述正文相似度；所述句子相似度的加权系数与所述文本长度差的绝对值成负相关关系。

进一步可选地，处理器302还用于：获取所述第一新闻文本以及所述第二新闻文本各自的来源、领域以及用户评论数据中的至少一种；若所述文本长度差的绝对值大于设定的第三阈值，且所述相同正文词条的数量小于设定的第四阈值，则根据所述来源、领域以及用户评论数据中的至少一种，计算所述第一新闻文本和所述第二新闻文本的信息相似度；对所述信息相似度以及所述正文相似度进行加权求和，以更新所述正文相似度；所述信息相似度的加权系数与所述文本长度差的绝对值成负相关关系。

进一步可选地，处理器302在对所述标题相似度和所述正文相似度进行融合，得到所述第一新闻文本和所述第二新闻文本的相似度时，具体用于：按照预设的权重系数，对所述标题相似度和所述正文相似度进行加权求和，得到所述第一新闻文本和所述第二新闻文本的相似度。

进一步，如图3所示，该电子设备还包括：显示组件304、电源组件305、音频组件306等其它组件。图3中仅示意性给出部分组件，并不意味着电子设备只包括图3所示组件。

其中，通信组件503被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G或5G，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件可基于近场通信(NFC)技术、射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术和其他技术来实现。

其中，显示组件304包括屏幕，其屏幕可以包括液晶显示组件(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

其中，电源组件305，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

其中，音频组件306，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC)，当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

本实施例中，计算新闻的相似度时，将新闻中的标题与正文进行分开处理，根据标题对应的文本，计算标题的相似度，并根据正文对应的文本及文本长度，计算文本的相似度，可在一定程度上降低文本长度差异对相似度的影响，有利于计算得到更加准确的相似度。同时，对标题的相似度和正文的相似度进行融合得到新闻的相似度，可快速得到新闻文本的相似度计算结果，降低识别相似新闻所需的时间成本以及计算成本，提升相似新闻的识别效率。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述方法实施例中可由电子设备执行的各步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种相似新闻识别方法，其特征在于，包括：

获取待识别的第一新闻文本和第二新闻文本；所述第一新闻文本包含第一标题和第一正文，所述第二新闻文本包含第二标题和第二正文；

根据所述第一标题和所述第二标题各自对应的文本，计算所述第一标题和所述第二标题之间的标题相似度；

根据所述第一正文和所述第二正文各自对应的文本以及所述第一正文和所述第二正文各自对应的文本长度，计算所述第一正文和所述第二正文之间的正文相似度；

对所述标题相似度和所述正文相似度进行融合，得到所述第一新闻文本和所述第二新闻文本的相似度。

2.根据权利要求1所述的方法，其特征在于，根据所述第一标题和所述第二标题各自对应的文本，计算所述第一标题和所述第二标题之间的标题相似度，包括：

对所述第一标题以及所述第二标题进行关键词提取操作，得到第一标题词条集合以及第二标题词条集合；

计算同时位于所述第一标题词条集合以及所述第二标题词条集合的词条的数量，作为相同标题词条的数量；

根据所述相同标题词条的数量与所述第一标题词条集合和所述第二标题词条集合包含的词条总数量的比值，确定所述标题相似度。

3.根据权利要求2所述的方法，其特征在于，对所述第一标题以及所述第二标题进行关键词提取操作，包括：

从所述第一标题以及所述第二标题中，提取实体对应的词条、词性为名词的词条和/或词性为动词的词条。

4.根据权利要求1所述的方法，其特征在于，根据所述第一正文和所述第二正文各自对应的文本以及所述第一正文和所述第二正文各自对应的文本长度，计算所述第一正文和所述第二正文之间的正文相似度，包括：

对所述第一正文以及所述第二正文进行分词处理，得到第一正文词条集合以及第二正文词条集合；

确定所述第一正文词条集合以及所述第二正文词条集合的交集，得到相同正文词条；

确定所述第一正文词条集合以及所述第二正文词条集合中，除所述相同正文词条之外的其他词条，作为相异正文词条；

分别计算所述相同正文词条在所述第一正文词条集合以及所述第二正文词条集合中的出现频次，得到第一出现频次和第二出现频次；

分别计算所述相异正文词条在所述第一正文词条集合以及所述第二正文词条集合中的出现频次，得到第三出现频次和第四出现频次；

根据所述第一出现频次、所述第二出现频次、所述第三出现频次、所述第四出现频次以及所述第一正文和所述第二正文各自的文本长度，计算所述正文相似度。

5.根据权利要求4所述的方法，其特征在于，根据所述第一出现频次、所述第二出现频次、所述第三出现频次、所述第四出现频次以及所述第一正文和所述第二正文各自的文本长度，计算所述正文相似度，包括：

计算所述第一出现频次以及所述第二出现频次中的较小频次；

对所述第一出现频次、所述第二出现频次、所述第三出现频次以及所述第四出现频次进行求和，得到总频次；

根据所述第一正文和所述第二正文各自的文本长度，计算相似度惩罚项；

根据所述较小频次、所述总频次以及所述相似度惩罚项，确定所述正文相似度。

6.根据权利要求5所述的方法，其特征在于，根据所述较小频次、所述总频次以及所述相似度惩罚项，确定所述正文相似度，包括：

在所述总频次上增加所述相似度惩罚项，以更新所述总频次；

根据所述较小频次与所述更新后的总频次的比值，确定所述正文相似度。

7.根据权利要求5所述的方法，其特征在于，根据所述第一正文和所述第二正文各自的文本长度，计算相似度惩罚项，包括：

计算所述第一正文和所述第二正文之间的文本长度差的绝对值；

若所述文本长度差的绝对值大于或者等于设定的第一阈值，则将所述文本长度差的绝对值与设定系数α的乘积作为所述相似度惩罚项。

8.根据权利要求7所述的方法，其特征在于，还包括：

若所述文本长度差的绝对值大于设定的第二阈值，则分别从所述第一正文和所述第二正文中确定第一句子和第二句子，所述第一句子和所述第二句子包含的相同正文词条的数量最多；

根据所述第一句子和所述第二句子各自的语义，计算所述第一句子和所述第二句子的句子相似度；

对所述句子相似度以及所述正文相似度进行加权求和，以更新所述正文相似度；所述句子相似度的加权系数与所述文本长度差的绝对值成负相关关系。

9.根据权利要求7所述的方法，其特征在于，还包括：

获取所述第一新闻文本以及所述第二新闻文本各自的来源、领域以及用户评论数据中的至少一种；

若所述文本长度差的绝对值大于设定的第三阈值，且所述相同正文词条的数量小于设定的第四阈值，则根据所述来源、领域以及用户评论数据中的至少一种，计算所述第一新闻文本和所述第二新闻文本的信息相似度；

对所述信息相似度以及所述正文相似度进行加权求和，以更新所述正文相似度；所述信息相似度的加权系数与所述文本长度差的绝对值成负相关关系。

10.根据权利要求1-7任一项所述的方法，其特征在于，对所述标题相似度和所述正文相似度进行融合，得到所述第一新闻文本和所述第二新闻文本的相似度，包括：

按照预设的权重系数，对所述标题相似度和所述正文相似度进行加权求和，得到所述第一新闻文本和所述第二新闻文本的相似度。

11.一种电子设备，其特征在于，包括：存储器和处理器；

所述存储器用于存储一条或多条计算机指令；

所述处理器用于执行所述一条或多条计算机指令以用于：执行权利要求1-10任一项所述的方法中的步骤。

12.一种存储有计算机程序的计算机可读存储介质，其特征在于，计算机程序被处理器执行时能够实现权利要求1-10任一项所述的方法中的步骤。