文章转载关系的识别方法、装置、设备及可读存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种文章转载关系的识别方法、装置、设备及可读存储介质。
背景技术
随着互联网大数据的蓬勃发展,大规模的传统报业都向新媒体形式转型,新媒体技术逐渐趋于成熟的发展带来媒体传播渠道和内容形态上的革命性变化,分析新闻、评论等文章在不同渠道媒体中的转载情况是构建大数据驱动式采编、传播分析决策以及知识产权保护的重要组成部分,对于文章的影响力分析具有十分重要的意义。
现有技术中,通过文章中注明的转载来源进行文章之间的转载关系识别。
然而,一些文章没有注明所转载的来源,现有技术无法对未注明来源的文章进行转载关系识别。
发明内容
本发明实施例提供一种文章转载关系的识别方法、装置、设备及可读存储介质,以解决现有技术无法对未注明来源的文章进行转载关系识别的问题。
第一方面,本发明实施例提供一种文章转载关系的识别方法,包括:
获取多个待识别文章的文章信息;
根据各个待识别文章的文章信息和预先建立的神经网络模型,确定各个待识别文章所属的类型;
根据预设识别策略、各个待识别文章的文章信息和所属类型,将属于同一类型且符合所述预设识别策略的每两个待识别文章之间确定为存在转载关系;
针对属于同一类型且不符合所述预设识别策略的每两个待识别文章,根据该两个待识别文章的文章信息计算该两个待识别文章的正文句子间的编辑距离,并根据该两个待识别文章的正文句子间的编辑距离,确定该两个待识别文章是否存在转载关系。
在一种可能的实施方式中,所述获取多个待识别文章的文章信息包括:
获取包含各个待识别文章的超文本标记语言HTML数据,并从各个HTML数据中提取各个待识别文章的原始信息;
删除各个待识别文章的原始信息中的非文本信息,得到各个待识别文章的文章信息。
在一种可能的实施方式中,所述文章信息包括多个词汇;所述根据各个待识别文章的文章信息和预先建立的神经网络模型,确定各个待识别文章所属的类型,包括:
通过向量化表示模型获取各个待识别文章中各个词汇对应的向量;
针对每个待识别文章,将该待识别文章中各个词汇对应的向量输入到预先建立的双向长短期记忆网络,得到该待识别文章中各个词汇对应的浅层语义向量;
针对每个待识别文章,将该待识别文章中各个词汇对应的浅层语义向量输入到预先建立的卷积神经网络中,得到该待识别文章所属的类型。
在一种可能的实施方式中,所述文章信息包括标题和正文字数;所述根据预设识别策略、各个待识别文章的文章信息和所属类型,将属于同一类型且符合预设识别策略的每两个待识别文章之间确定为存在转载关系,包括:
针对属于同一类型的每两个待识别文章,识别该两个待识别文章的标题是否相同,并计算该两个待识别文章的正文字数之间的差值,将所述差值与预设差值阈值进行对比;
针对属于同一类型的每两个待识别文章,若该两个待识别文章的文章标题相同,且所述差值小于所述预设差值阈值,则确定该两个待识别文章存在转载关系。
在一种可能的实施方式中,所述根据该两个待识别文章的文章信息计算该两个待识别文章的正文句子间的编辑距离,并根据该两个待识别文章的正文句子间的编辑距离,确定该两个待识别文章是否存在转载关系,包括:
按照标点符号对该两个待识别文章的正文进行分句处理,得到该两个待识别文章的各个正文句子;
针对该两个待识别文章中一个待识别文章的每个正文句子,计算该正文句子与该两个待识别文章中另一个待识别文章的各个正文句子之间的编辑距离;
根据计算结果,确定该两个待识别文章之间的相似句子数量;
计算该两个待识别文章之间的相似句子数量占该两个待识别文章的句子总数中的比例,并将所述比例与预设比例阈值进行对比;
若所述比例大于所述预设比例阈值,则确定该两个待识别文章之间存在转载关系。
第二方面,本发明实施例提供一种文章转载关系的识别装置,包括:
获取模块,用于获取多个待识别文章的文章信息;
分类模块,用于根据各个待识别文章的文章信息和预先建立的神经网络模型,确定各个待识别文章所属的类型;
预处理模块,用于根据预设识别策略、各个待识别文章的文章信息和所属类型,将属于同一类型且符合所述预设识别策略的每两个待识别文章之间确定为存在转载关系;
处理模块,用于针对属于同一类型且不符合所述预设识别策略的每两个待识别文章,根据该两个待识别文章的文章信息计算该两个待识别文章的正文句子间的编辑距离,并根据该两个待识别文章的正文句子间的编辑距离,确定该两个待识别文章是否存在转载关系。
在一种可能的实施方式中,所述获取模块用于:
获取包含各个待识别文章的超文本标记语言HTML数据,并从各个HTML数据中提取各个待识别文章的原始信息;
删除各个待识别文章的原始信息中的非文本信息,得到各个待识别文章的文章信息。
在一种可能的实施方式中,所述文章信息包括多个词汇;所述分类模块用于:
通过向量化表示模型获取各个待识别文章中各个词汇对应的向量;
针对每个待识别文章,将该待识别文章中各个词汇对应的向量输入到预先建立的双向长短期记忆网络,得到该待识别文章中各个词汇对应的浅层语义向量;
针对每个待识别文章,将该待识别文章中各个词汇对应的浅层语义向量输入到预先建立的卷积神经网络中,得到该待识别文章所属的类型。
在一种可能的实施方式中,所述文章信息包括标题和正文字数;所述预处理模块用于:
针对属于同一类型的每两个待识别文章,识别该两个待识别文章的标题是否相同,并计算该两个待识别文章的正文字数之间的差值,将所述差值与预设差值阈值进行对比;
针对属于同一类型的每两个待识别文章,若该两个待识别文章的文章标题相同,且所述差值小于所述预设差值阈值,则确定该两个待识别文章存在转载关系。
在一种可能的实施方式中,所述处理模块用于:
按照标点符号对该两个待识别文章的正文进行分句处理,得到该两个待识别文章的各个正文句子;
针对该两个待识别文章中一个待识别文章的每个正文句子,计算该正文句子与该两个待识别文章中另一个待识别文章的各个正文句子之间的编辑距离;
根据计算结果,确定该两个待识别文章之间的相似句子数量;
计算该两个待识别文章之间的相似句子数量占该两个待识别文章的句子总数中的比例,并将所述比例与预设比例阈值进行对比;
若所述比例大于所述预设比例阈值,则确定该两个待识别文章之间存在转载关系。
第三方面,本发明实施例提供一种文章转载关系的识别设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的实施方式所述的文章转载关系的识别方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的实施方式所述的文章转载关系的识别方法。
本实施例提供的文章转载关系的识别方法、装置、设备及可读存储介质,通过获取多个待识别文章的文章信息;根据各个待识别文章的文章信息和预先建立的神经网络模型,确定各个待识别文章所属的类型;根据预设识别策略、各个待识别文章的文章信息和所属类型,将属于同一类型且符合预设识别策略的每两个待识别文章之间确定为存在转载关系;针对属于同一类型且不符合预设识别策略的每两个待识别文章,根据该两个待识别文章的文章信息计算该两个待识别文章的正文句子间的编辑距离,并根据该两个待识别文章的正文句子间的编辑距离,确定该两个待识别文章是否存在转载关系,能够实现对文章的转载关系进行准确识别。本发明实施例通过预设识别策略和正文句子间的编辑距离相结合,能够对分类后属于同一类型的待识别文章之间的转载关系进行准确识别,能够对未注明转载来源的文章的转载关系进行识别,并且能够保证文章转载关系识别的速度和准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的文章转载关系的识别方法的流程示意图;
图2为本发明又一实施例提供的文章转载关系的识别方法的流程示意图;
图3为本发明另一实施例提供的文章转载关系的识别方法的流程示意图;
图4为本发明再一实施例提供的文章转载关系的识别方法中通过预设识别策略确定文章转载关系的流程示意图;
图5为本发明下一实施例提供的文章转载关系的识别方法中通过编辑距离确定文章转载关系的流程示意图;
图6为本发明一实施例提供的文章转载关系的识别装置的结构示意图;
图7为本发明一实施例提供的文章转载关系的识别设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一实施例提供的文章转载关系的识别方法的流程示意图。
如图1所示,该方法包括:
S101、获取多个待识别文章的文章信息。
在本实施例中,待识别文章为需要进行转载关系识别的文章。文章信息可以包括标题、正文字数、来源网站、正文内容、正文段落数等信息中的至少一个,在此不作限定。可以从待识别文章对应的媒体网站的页面数据中获取待识别文章的文章信息。
S102、根据各个待识别文章的文章信息和预先建立的神经网络模型,确定各个待识别文章所属的类型。
在本实施例中,由于互联网上文章的数据量极大,对文章转载及时进行分析需要较高的识别效率。为了减少后续文章识别的次数和数据量,首先将文章进行分类,后续只对同一类型的文章之间的转载关系进行识别,从而减少处理的数据量,提高识别效率。
预先建立的神经网络模型为用于对待识别文章进行分类的模型。该神经网络模型可以为预先经过训练数据集训练后的模型。待识别文章的所属类型可以为娱乐、体育、社会、评论等类型,在此不作限定。通过预先建立的神经网络模型可以识别出各个待识别文章所属的类型。
S103、根据预设识别策略、各个待识别文章的文章信息和所属类型,将属于同一类型且符合所述预设识别策略的每两个待识别文章之间确定为存在转载关系。
在本实施例中,预设识别策略为预先设置的用于识别同一类型的文章之间是否存在转载关系的策略。预设识别策略可以基于文章标题、正文字数、文章段落数等信息简单快速地识别出明显存在转载关系的文章。可以根据预设识别策略、各个待识别文章的文章信息和所属类型判断属于同一类型的每两个待识别文章是否符合预设识别策略,将属于同一类型且符合所述预设识别策略的每两个待识别文章之间确定为存在转载关系。
在本实施例中,基于预设识别策略的转载关系识别所需进行的数据计算量小,识别速度快;基于编辑距离的转载关系识别所需处理的数据计算量大,识别准确度高,但识别速度慢。本实施例通过首先基于预设识别策略进行文章转载关系识别,对于被识别出转载关系的文章后续不再进行基于编辑距离的转载关系识别,能够在保证识别准确度的前提下,提高文章转载关系的识别效率。
S104、针对属于同一类型且不符合所述预设识别策略的每两个待识别文章,根据该两个待识别文章的文章信息计算该两个待识别文章的正文句子间的编辑距离,并根据该两个待识别文章的正文句子间的编辑距离,确定该两个待识别文章是否存在转载关系。
在本实施例中,文章信息包括文章的正文,正文句子为对文章正文划分得到的句子。编辑距离是针对两个句子之间的差异程度的量化量测,具体是将一个句子变成另一个句子至少需要进行多少次处理才能实现。其中,处理可以为字词的替换、删除、增加等,可以根据实际情况进行设定,在此不作限定。该两个待识别文章的正文句子间的编辑距离包括该两个待识别文章中一个待识别文章的每个正文句子分别与另一个待识别文章的各个正文句子之间的编辑距离。
本实施例针对属于同一类型且不符合预设识别策略的每两个待识别文章,首先根据该两个待识别文章的文章信息计算该两个待识别文章的正文句子间的编辑距离,然后根据该两个待识别文章的正文句子间的编辑距离,确定该两个待识别文章是否存在转载关系,能够基于编辑距离进行文章转载关系的识别,识别准确度高。
本发明实施例通过获取多个待识别文章的文章信息;根据各个待识别文章的文章信息和预先建立的神经网络模型,确定各个待识别文章所属的类型;根据预设识别策略、各个待识别文章的文章信息和所属类型,将属于同一类型且符合预设识别策略的每两个待识别文章之间确定为存在转载关系;针对属于同一类型且不符合预设识别策略的每两个待识别文章,根据该两个待识别文章的文章信息计算该两个待识别文章的正文句子间的编辑距离,并根据该两个待识别文章的正文句子间的编辑距离,确定该两个待识别文章是否存在转载关系,能够实现对文章的转载关系进行准确识别。本发明实施例通过预设识别策略和正文句子间的编辑距离相结合,能够对分类后属于同一类型的待识别文章之间的转载关系进行准确识别,能够对未注明转载来源的文章的转载关系进行识别,并且能够保证文章转载关系识别的速度和准确度。
图2为本发明又一实施例提供的文章转载关系的识别方法的流程示意图。本实施例对获取文章信息的具体实现过程进行了详细说明。如图2所示,该方法包括:
S201、获取包含各个待识别文章的超文本标记语言HTML数据,并从各个HTML数据中提取各个待识别文章的原始信息。
在本实施例中,可以获取包含各个待识别文章的各个超文本标记语言HTML数据,对各个HTML数据进行解析,从各个HTML数据中抽取出标题、正文字数、来源网站、正文内容、正文段落数等文章的原始信息。
S202、删除各个待识别文章的原始信息中的非文本信息,得到各个待识别文章的文章信息。
在本实施例中,可以对提取到的文章的原始信息进行数据标准化处理,去除原始信息中的图片链接等非文本信息,得到各个待识别文章的文章信息。
可选地,由于采集到的文章数据渠道广泛,部分渠道采用的是繁体中文字。对于存在繁体字的文章,可以查找文章信息中的繁体字,将文章信息中的繁体字数据转换为相应的简体字数据,实现对文章信息的简繁体字标准化处理。
S203、根据各个待识别文章的文章信息和预先建立的神经网络模型,确定各个待识别文章所属的类型。
在本实施例中,S203与图1实施例中的S102类似,此处不再赘述。
S204、根据预设识别策略、各个待识别文章的文章信息和所属类型,将属于同一类型且符合所述预设识别策略的每两个待识别文章之间确定为存在转载关系。
在本实施例中,S204与图1实施例中的S103类似,此处不再赘述。
S205、针对属于同一类型且不符合所述预设识别策略的每两个待识别文章,根据该两个待识别文章的文章信息计算该两个待识别文章的正文句子间的编辑距离,并根据该两个待识别文章的正文句子间的编辑距离,确定该两个待识别文章是否存在转载关系。
在本实施例中,S205与图1实施例中的S104类似,此处不再赘述。
由于互联网数据繁杂,不同渠道文章数据格式不同,不便于进行文章转载关系的识别。本实施例通过从HTML数据中提取文章的原始信息,再删除其中的非文本信息,能够实现对文章信息的数据标准化处理,便于后续的文章转载关系识别。
图3为本发明另一实施例提供的文章转载关系的识别方法的流程示意图。本实施例对文章分类的具体实现过程进行了详细说明。所述文章信息包括多个词汇;如图3所示,该方法包括:
S301、获取多个待识别文章的文章信息。
在本实施例中,S301与图1实施例中的S101类似,此处不再赘述。
S302、通过向量化表示模型获取各个待识别文章中各个词汇对应的向量。
在本实施例中,可以预先构建用于向量化表示的向量化表示模型,并通过训练语料库对构建的向量化表示模型进行非监督的训练。将各个待识别文章输入到该向量化表示模型,通过该向量化表示模型能够将各个待识别文章中各个词汇映射到一个新的向量空间中,输出各个词汇以多维的连续实数向量的形式表示的结果。其中,词汇与向量一一对应。
S303、针对每个待识别文章,将该待识别文章中各个词汇对应的向量输入到预先建立的双向长短期记忆网络,得到该待识别文章中各个词汇对应的浅层语义向量。
在本实施例中,将该待识别文章的各个词汇所对应的向量输入到预先建立的双向长短期记忆网络(Long Short-Term Memory,LSTM)中。通过该网络能够得到每个词的上下文表示,结合各词向量和其上下文向量,通过激活函数能够得到每个词的浅层语义向量。
S304、针对每个待识别文章,将该待识别文章中各个词汇对应的浅层语义向量输入到预先建立的卷积神经网络中,得到该待识别文章所属的类型。
在本实施例中,预先建立的卷积神经网络包括池化层和输出层。其中,池化层用于对各个词汇对应的浅层语义向量进行压缩,简化网络计算复杂度,提取出浅层语义向量中的主要特征向量。通过池化层可以解决可变长度的句子输入问题,输出每个特征向量中的最大值。
将池化层得到的特征向量输入到输出层,输出层通过Softmax分类器计算各个词汇在各个类别下的概率,并输出最终的分类结果。
S305、根据预设识别策略、各个待识别文章的文章信息和所属类型,将属于同一类型且符合所述预设识别策略的每两个待识别文章之间确定为存在转载关系。
在本实施例中,S305与图1实施例中的S103类似,此处不再赘述。
S306、针对属于同一类型且不符合所述预设识别策略的每两个待识别文章,根据该两个待识别文章的文章信息计算该两个待识别文章的正文句子间的编辑距离,并根据该两个待识别文章的正文句子间的编辑距离,确定该两个待识别文章是否存在转载关系。
在本实施例中,S306与图1实施例中的S104类似,此处不再赘述。
本实施例基于双向长短期记忆网络和卷积神经网络组合成混合深度神经网络,能够实现对不同类型的文章信息进行分类,为文章标注所属类别,提高分类的准确度。
图4为本发明再一实施例提供的文章转载关系的识别方法中通过预设识别策略确定文章转载关系的流程示意图。本实施例在图1实施例的基础上,对通过预设识别策略确定文章转载关系的具体实现过程进行了详细说明。所述文章信息包括标题和正文字数;如图4所示,S103可以包括:
S401、针对属于同一类型的每两个待识别文章,识别该两个待识别文章的标题是否相同,并计算该两个待识别文章的正文字数之间的差值,将所述差值与预设差值阈值进行对比。
在本实施例中,文章信息包括文章的标题和文章的正文字数。预设差值阈值为预先设置的字数差值阈值。若两篇文章的字数差值大于该预设差值阈值,则这两篇文章不存在转载关系。
对于属于同一类型的每两个待识别文章,可以对比该两个待识别文章的标题是否相同,并且计算该两个待识别文章的正文字数之间的差值,将该差值与预设差值阈值进行对比。
S402、针对属于同一类型的每两个待识别文章,若该两个待识别文章的文章标题相同,且所述差值小于所述预设差值阈值,则确定该两个待识别文章存在转载关系。
在本实施例中,预设识别策略包括两个条件:一是标题相同,二是正文字数差值小于预设差值阈值。若两篇文章同时符合这两个条件,则判定这两篇文章存在转载关系。
由于转载文章与转载源文章通常标题相同,且正文字数相差不大,本实施例通过文章标题和正文字数来设置预设识别策略,通过该预设识别策略能够准确快速地识别出同一类型内存在转载关系的文章。对于识别出的存在转载关系的文章不需要后续再进行基于编辑距离的转载关系识别,从而提高整体的识别速度。
图5为本发明下一实施例提供的文章转载关系的识别方法中通过编辑距离确定文章转载关系的流程示意图。本实施例在图1实施例的基础上,对通过编辑距离确定文章转载关系的具体实现过程进行了详细说明。如图5所示,S104可以包括:
S501、针对属于同一类型且不符合所述预设识别策略的每两个待识别文章,按照标点符号对该两个待识别文章的正文进行分句处理,得到该两个待识别文章的各个正文句子。
在本实施例中,对于属于同一类型且不符合所述预设识别策略的每两个待识别文章,可以按照标点符号对该两个待识别文章的正文进行分句处理,得到该两个待识别文章的各个正文句子。例如,可以通过句号、问号、感叹号等标点符号对文章正文内容进行划分,得到文章的各个正文句子。
S502、针对该两个待识别文章中一个待识别文章的每个正文句子,计算该正文句子与该两个待识别文章中另一个待识别文章的各个正文句子之间的编辑距离。
在本实施例中,对于该两个待识别文章中一个待识别文章的每个正文句子,计算该正文句子与该两个待识别文章中另一个待识别文章的各个正文句子之间的编辑距离。编辑距离越小表明两个句子相同的文字越多,两个句子越相似。
S503、根据计算结果,确定该两个待识别文章之间的相似句子数量。
在本实施例中,可以将两个句子的编辑距离与预设的编辑距离阈值进行对比,若两个句子的编辑距离小于预设的编辑距离阈值则确定两个句子为相似句子。例如,该两个待识别文章分别为文章A和文章B,统计文章A中第一句子的数量作为相似句子数量,其中,对于文章A中每个第一句子,在文章B中均存在与其相似的句子。
S504、计算该两个待识别文章之间的相似句子数量占该两个待识别文章的句子总数中的比例,并将所述比例与预设比例阈值进行对比。
在本实施例中,可以将该两个待识别文章中句子数较大的文章的句子数作为该两个待识别文章的句子总数。例如,文章A的句子数为132,文章B的句子数为146,则这两个文章的句子总数确定为146。也可以将该两个待识别文章各自的句子数相加得到的和值作为该两个待识别文章的句子总数。例如,文章A的句子数为132,文章B的句子数为146,则这两个文章的句子总数确定为278。
S505、若所述比例大于所述预设比例阈值,则确定该两个待识别文章之间存在转载关系。
在本实施例中,若相似句子的比例大于预设比例阈值,则表明该两个待识别文章的相似度较高,因此确定该两个待识别文章之间存在转载关系。
本实施例通过句子间的编辑距离确定相似句子,通过相似句子数量在句子总数中所占的比例以及预设比例阈值,判断两个文章之间是否存在转载关系,能够利用编辑距离准确识别出同一类型的两个文章之间的转载关系,提高整体的识别准确度。
下面以新闻数据为例,来具体说明本实施例提供的文章转载关系的识别方法所带来的效果。本发明实施例采用基于全媒体新闻数据结构化技术,将不同渠道的新闻数据结构化处理,为后续分析奠定基础;通过基于深度神经网络的新闻数据分类模块,对全部新闻数据根据既定的分类进行类别标注;然后基于预设识别规则对新闻稿件预分析;最后,基于编辑距离的新闻稿件识别技术,比较新闻稿件之间的编辑距离,最终找到满足转载关系的新闻稿件。基于以上方法,实现对文章转载关系的识别,能够为新闻稿件知识产权保护、新闻影响力分析等提供了有效的技术支持。
本发明实施例通过获取多个待识别文章的文章信息;根据各个待识别文章的文章信息和预先建立的神经网络模型,确定各个待识别文章所属的类型;根据预设识别策略、各个待识别文章的文章信息和所属类型,将属于同一类型且符合预设识别策略的每两个待识别文章之间确定为存在转载关系;针对属于同一类型且不符合预设识别策略的每两个待识别文章,根据该两个待识别文章的文章信息计算该两个待识别文章的正文句子间的编辑距离,并根据该两个待识别文章的正文句子间的编辑距离,确定该两个待识别文章是否存在转载关系,能够实现对文章的转载关系进行准确识别。本发明实施例通过预设识别策略和正文句子间的编辑距离相结合,能够对分类后属于同一类型的待识别文章之间的转载关系进行准确识别,能够对未注明转载来源的文章的转载关系进行识别,并且能够保证文章转载关系识别的速度和准确度。
图6为本发明一实施例提供的文章转载关系的识别装置的结构示意图。如图6所示,该文章转载关系的识别装置60包括:获取模块601、分类模块602、预处理模块603及处理模块604。
获取模块601,用于获取多个待识别文章的文章信息。
分类模块602,用于根据各个待识别文章的文章信息和预先建立的神经网络模型,确定各个待识别文章所属的类型。
预处理模块603,用于根据预设识别策略、各个待识别文章的文章信息和所属类型,将属于同一类型且符合所述预设识别策略的每两个待识别文章之间确定为存在转载关系。
处理模块604,用于针对属于同一类型且不符合所述预设识别策略的每两个待识别文章,根据该两个待识别文章的文章信息计算该两个待识别文章的正文句子间的编辑距离,并根据该两个待识别文章的正文句子间的编辑距离,确定该两个待识别文章是否存在转载关系。
本发明实施例通过获取多个待识别文章的文章信息;根据各个待识别文章的文章信息和预先建立的神经网络模型,确定各个待识别文章所属的类型;根据预设识别策略、各个待识别文章的文章信息和所属类型,将属于同一类型且符合预设识别策略的每两个待识别文章之间确定为存在转载关系;针对属于同一类型且不符合预设识别策略的每两个待识别文章,根据该两个待识别文章的文章信息计算该两个待识别文章的正文句子间的编辑距离,并根据该两个待识别文章的正文句子间的编辑距离,确定该两个待识别文章是否存在转载关系,能够实现对文章的转载关系进行准确识别。本发明实施例通过预设识别策略和正文句子间的编辑距离相结合,能够对分类后属于同一类型的待识别文章之间的转载关系进行准确识别,能够对未注明转载来源的文章的转载关系进行识别,并且能够保证文章转载关系识别的速度和准确度。
可选地,所述获取模块601用于:
获取包含各个待识别文章的超文本标记语言HTML数据,并从各个HTML数据中提取各个待识别文章的原始信息;
删除各个待识别文章的原始信息中的非文本信息,得到各个待识别文章的文章信息。
可选地,所述文章信息包括多个词汇;所述分类模块602用于:
通过向量化表示模型获取各个待识别文章中各个词汇对应的向量;
针对每个待识别文章,将该待识别文章中各个词汇对应的向量输入到预先建立的双向长短期记忆网络,得到该待识别文章中各个词汇对应的浅层语义向量;
针对每个待识别文章,将该待识别文章中各个词汇对应的浅层语义向量输入到预先建立的卷积神经网络中,得到该待识别文章所属的类型。
可选地,所述文章信息包括标题和正文字数;所述预处理模块603用于:
针对属于同一类型的每两个待识别文章,识别该两个待识别文章的标题是否相同,并计算该两个待识别文章的正文字数之间的差值,将所述差值与预设差值阈值进行对比;
针对属于同一类型的每两个待识别文章,若该两个待识别文章的文章标题相同,且所述差值小于所述预设差值阈值,则确定该两个待识别文章存在转载关系。
可选地,所述处理模块604用于:
按照标点符号对该两个待识别文章的正文进行分句处理,得到该两个待识别文章的各个正文句子;
针对该两个待识别文章中一个待识别文章的每个正文句子,计算该正文句子与该两个待识别文章中另一个待识别文章的各个正文句子之间的编辑距离;
根据计算结果,确定该两个待识别文章之间的相似句子数量;
计算该两个待识别文章之间的相似句子数量占该两个待识别文章的句子总数中的比例,并将所述比例与预设比例阈值进行对比;
若所述比例大于所述预设比例阈值,则确定该两个待识别文章之间存在转载关系。
本发明实施例提供的文章转载关系的识别装置,可用于执行上述的方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
图7为本发明一实施例提供的文章转载关系的识别设备的硬件结构示意图。如图7所示,本实施例提供的文章转载关系的识别设备70包括:至少一个处理器701和存储器702。该文章转载关系的识别设备70还包括通信部件703。其中,处理器701、存储器702以及通信部件703通过总线704连接。
在具体实现过程中,至少一个处理器701执行所述存储器702存储的计算机执行指令,使得至少一个处理器701执行如上的文章转载关系的识别方法。
处理器701的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述的图7所示的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上的文章转载关系的识别方法。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。