CN107943965B

CN107943965B - 相似文章检索方法及装置

Info

Publication number: CN107943965B
Application number: CN201711209693.5A
Authority: CN
Inventors: 沈文策
Original assignee: Fujian Cnfol Information Technology Co Ltd
Current assignee: Fujian Cnfol Information Technology Co Ltd
Priority date: 2017-11-27
Filing date: 2017-11-27
Publication date: 2021-01-15
Anticipated expiration: 2037-11-27
Also published as: CN107943965A

Abstract

本发明提供了相似文章检索方法及装置，涉及计算机技术领域，其中，该相似文章检索方法包括：首先，将文章按照预设条件进行不同种类的特征分类，其次，分别为每个特征分类配置不同的权重，之后，将多个特征分类和对应的权重存储在数据库中进行关联，这样，当用户在上述数据库中查询某个待检索的文章时，将待检索的文章逐一与特征分类相比较即可，这样，待检索的文章与某个特征分类相一致时，判定待检索的文章与数据库中存储的文章的相似度为特征分类对应的权重的数值，该相似文章检索方法实现简单，无需很多复杂的算法，准确度高。

Description

相似文章检索方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及相似文章检索方法及装置。

背景技术

随着计算机技术的快速发展，人们可以从网上获取资料的渠道越来越多，人们能够获取到的资料也多来越多。例如，电子书籍、有声小说、学术论文、论坛连载等等。这样，人们可以从网络上获取越来越多的图文、影像资料，从而方便了人们进行查看和审阅，有助于工作和学业上进行参考，有利于工作和学业上的进步。

但是，在人们进行资料检索和查看的过程中，对于同一领域的同一个主题，文本的相似度非常高，甚至会出现完全相同的情况。而人们在具体检索的过程中想要找到适合的资料甚至是大海捞针。目前，虽然有一些检索策略，可以让人们过滤掉很多相似的新闻，比如，在搜索引擎上，相似度太高的页面，只需要展示一个就行了。另外，在考试的时候，可以用这个来防作弊，同样的，论文的相似度检查也是一个检查论文是否抄袭的一个重要办法，但是，应用目前的检索策略常常会导致要么会浪费很多的时间，要么是检索的准确性太差，总之是，效率和准确性难以做到兼顾。

综上，目前关于检索过程中，效率和准确性难以做到兼顾的问题，尚无有效的解决办法。

发明内容

有鉴于此，本发明实施例的目的在于提供了相似文章检索方法及装置，通过设置特征分类、为各个特征分类配置权重以及将待检索的文章与特征分类相匹配等步骤，提高了检索的效率和准确性。

第一方面，本发明实施例提供了相似文章检索方法，包括：

将文章按照预设条件进行不同种类的特征分类；

分别为每个特征分类配置不同的权重；

将多个特征分类和对应的权重存储在数据库中进行关联；

当待检索的文章与特征分类相匹配时，判定待检索的文章与文章的相似度为特征分类对应的权重的数值。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，将文章按照预设条件进行不同种类的特征分类包括：

提取文章的关键词作为分词，将分词记作第一特征分类；

统计文章中各种词性的数量，将词性和词性对应的数量记作第二特征分类；

统计文章中中文字符的字数，将字数记作第三特征分类。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第二种可能的实施方式，其中，分别为每个特征分类配置不同的权重包括：

为第一特征分类配置第一权重；

为第二特征分类配置第二权重；

为第三特征分类配置第三权重。

结合第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，将多个特征分类和对应的权重存储在数据库中进行关联包括：

运用MD5算法分别计算第一权重的第一MD5值、第二权重的第二MD5值和第三权重的第三MD5值；

将文章按照第一特征分类对应的第一MD5值进行关联；

将文章还按照第二特征分类对应的第二MD5值进行关联；

将文章还按照第三特征分类对应的第三MD5值进行关联。

结合第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，当待检索的文章与特征分类相匹配时，判定待检索的文章与文章的相似度为特征分类对应的权重的数值包括：

将待检索的文章分别按照第一特征分类、第二特征分类和第三特征分类进行分类；

当待检索的文章的第一特征分类与文章的第一特征分类相匹配时，判定待检索的文章与文章的相似度为文章的第一特征分类对应的第一权重的数值；

当待检索的文章的第二特征分类与文章的第二特征分类相匹配时，判定待检索的文章与文章的相似度为文章的第二特征分类对应的第二权重的数值；

当待检索的文章的第三特征分类与文章的第三特征分类相匹配时，判定待检索的文章与文章的相似度为文章的第三特征分类对应的第三权重的数值。

第二方面，本发明实施例提供了相似文章检索装置，包括：

特征分类模块，用于将文章按照预设条件进行不同种类的特征分类；

权重配置模块，用于分别为每个特征分类配置不同的权重；

关联模块，用于将多个特征分类和对应的权重存储在数据库中进行关联；

相似度判定模块，用于当待检索的文章与特征分类相匹配时，判定待检索的文章与文章的相似度为特征分类对应的权重的数值。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，特征分类模块包括：

第一特征分类单元，用于提取文章的关键词作为分词，将分词记作第一特征分类；

第二特征分类单元，用于统计文章中各种词性的数量，将词性和词性对应的数量记作第二特征分类；

第三特征分类单元，用于统计文章中中文字符的字数，将字数记作第三特征分类。

结合第二方面的第一种可能的实施方式，本发明实施例提供了第二方面的第二种可能的实施方式，其中，权重配置模块包括：

第一权重配置单元，用于为第一特征分类配置第一权重；

第二权重配置单元，用于为第二特征分类配置第二权重；

第三权重配置单元，用于为第三特征分类配置第三权重。

第三方面，本发明实施例还提供一种终端，包括存储器以及处理器，存储器用于存储支持处理器执行上述方面提供的相似文章检索方法的程序，处理器被配置为用于执行存储器中存储的程序。

第四方面，本发明实施例还提供一种计算机存储介质，用于储存为上述实施例提供的装置所用的计算机软件指令。

本发明实施例提供的相似文章检索方法及装置，其中，该相似文章检索方法包括：首先，将数据库中的所有文章都分别按照预设条件进行不同种类的特征分类，其次，分别为每个特征分类配置不同的权重，并且，将多个特征分类和对应的权重都存储在数据库中进行关联，即每一篇文章都与上述特征分类和权重统一和关联起来，这样，当待检索的文章与特征分类相匹配时，判定待检索的文章与数据库中文章的相似度为特征分类对应的权重的数值，从而实现了对待检索的文章的相似度的量化，简单方便，便于提高检索效率和准确性。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例所提供的相似文章检索方法的流程图；

图2示出了本发明实施例所提供的相似文章检索方法中步骤S101的流程图；

图3示出了本发明实施例所提供的相似文章检索方法中步骤S102的流程图；

图4示出了本发明实施例所提供的相似文章检索装置的结构连接图。

图标：1-特征分类模块；2-权重配置模块；3-关联模块；4-相似度判定模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，网络资源十分丰富，在为人们提供便捷的同时，也给人们带来了很多困扰。例如，人们进行资料检索和查看的过程中，会出现文本的相似度非常高，甚至完全相同的情况。而人们在具体检索的过程中想要找到适合的资料非常困难。虽然，通过利用一些检索策略，可以让人们过滤掉很多相似的新闻，但是，应用目前的检索策略常常会导致要么会浪费很多的时间，要么是检索的准确性太差，效率和准确性难以做到兼顾。

基于此，本发明实施例提供了相似文章检索方法及装置，下面通过实施例进行描述。

实施例1

参见图1、图2和图3，本实施例提出的相似文章检索方法具体包括以下步骤：

步骤S101：将文章按照预设条件进行不同种类的特征分类。

步骤S102：分别为每个特征分类配置不同的权重。

步骤S103：将多个特征分类和对应的权重存储在数据库中进行关联。

步骤S104：当待检索的文章与特征分类相匹配时，判定待检索的文章与文章的相似度为特征分类对应的权重的数值。

下面对上述各个步骤进行详细阐述，步骤S101将文章按照预设条件进行不同种类的特征分类具体包括：

步骤S1011：提取文章的关键词作为分词，将分词记作第一特征分类，这里需要进行说明的是，上述文章为该数据库中存储的文章，分词是从文章内容中提取出来的词组，为了提高文章检索的准确性，提取文章中的关键词作为分词，例如，1000字的文章分词后得到20个词组，这时候，分词比例是20％，比例越高，准确率也越高；比例越低，准确率也越低。在不同的时候场景下需要根据不同的需求进行分词，将提取出来的分词记作第一特征分类，以便与其他分类进行区分。例如，一篇文章的内容为“陈XX并不是《YY》的唯一著作权人，一部电影的整体版权归电影制品厂所有”，对其进行分词得到，陈XX、YY、制片厂、电影。

步骤S1012：统计文章中各种词性的数量，将词性和词性对应的数量记作第二特征分类，这里需要进行说明的是，文章内容中包含各种词性的词，在该步骤中，分别统计各个词性的词的数量，并且按照数量的从大到小进行排列，例如，名词13，形容词7，动词5。继续以上述文章为例进行分析，这里，nr的数量为1个，ns的数量为1个，n的数量为2个。

步骤S1013：统计文章中中文字符的字数，将字数记作第三特征分类。由于，在数据库中存储的中文文章中，文章内容的核心多是通过中文字符来进行表述的。这里需要进行说明的是，统计文章中中文字符的字数，即去除文章除中文外的字符，将字数记作第三特征分类。继续以上述文章为例进行分析，这里字数为32。

步骤S102分别为每个特征分类配置不同的权重具体包括：

步骤S1021：为第一特征分类配置第一权重，即根据使用需求，将第一特征分类配置第一权重，例如，将分词的权重设置为2。

步骤S1022：为第二特征分类配置第二权重，即根据使用需求，将第二特征分类配置第二权重，例如，将各种词性的数量的权重设置为5。

步骤S1023：为第三特征分类配置第三权重，即根据使用需求，将第三特征分类配置第三权重，例如，将中文字符的字数的权重设置为3。

步骤S103将多个特征分类和对应的权重存储在数据库中进行关联具体包括：

(1)运用MD5算法分别计算第一权重的第一MD5值、第二权重的第二MD5值和第三权重的第三MD5值。继续以上述文章为例进行说明，经计算第一权重的第一MD5值为b1a351b02ad38ad70bbd61a452953a27，第二权重的第二MD5值为06732a92df826fe10923a3f89291004b，而在本例中由于中文字符的数值较小，可直接以其数量32作为第三MD5值。

首先，介绍下MD5算法，MD5即Message-Digest Algorithm 5(信息-摘要算法5)，是计算机广泛使用的杂凑算法之一，它能够将数据(例如，汉字)运算为一个固定的长度值，从而确保信息传输的完整一致。在本步骤中，运用MD5算法分别计算上述分词、各种词性的数量和中文字符的字数的数值，即利用MD5算法分别生成32位字符串，以便于比较，并分别记作第一权重的第一MD5值、第二权重的第二MD5值和第三权重的第三MD5值。

(2)将文章按照第一特征分类对应的第一MD5值进行关联，为了对文章按照不同特征分类进行量化，将文章按照第一特征分类对应的第一MD5值进行关联。

(3)同理，将文章还按照第二特征分类对应的第二MD5值进行关联。

(4)同理，将文章还按照第三特征分类对应的第三MD5值进行关联。

这样，文章内容通过关联不同的MD5值从不同的侧重点进行了标定。

步骤S104当待检索的文章与特征分类相匹配时，判定待检索的文章与文章的相似度为特征分类对应的权重的数值具体包括：

(1)将待检索的文章分别按照第一特征分类、第二特征分类和第三特征分类进行分类，这里需要进行说明的是，这里为待检索的文章进行特征分类的规则和步骤与上述对文章进行分类的规则和步骤一致。

(2)当待检索的文章的第一特征分类与文章的第一特征分类相匹配时，判定待检索的文章与文章的相似度为文章的第一特征分类对应的第一权重的数值，即判定待检索的文章与文章的相似度为20％。

(3)当待检索的文章的第二特征分类与文章的第二特征分类相匹配时，判定待检索的文章与文章的相似度为文章的第二特征分类对应的第二权重的数值，即判定待检索的文章与文章的相似度为50％。

(4)当待检索的文章的第三特征分类与文章的第三特征分类相匹配时，判定待检索的文章与文章的相似度为文章的第三特征分类对应的第三权重的数值。即判定待检索的文章与文章的相似度为30％。

这里需要补充说明的是，当待检索的文章有两个或者两个以上的特征分类与文章相匹配时，待检索的文章与文章的相似度为所有特征分类对应的权重的和。例如，待检索的文章中的第一特征分类和第二特征分类均与数据库中的文章的第一特征分类和第二特征分类相匹配时，将第一特征分类对应的权重20％和第二特征分类对应的权重50％相加，得到70％，作为其相似度。

综上所述，本实施例提供的相似文章检索方法包括：首先，将数据库中的文章按照预设条件进行不同种类的特征分类，具体的，按照分词、词性和中文字符的数量等进行特征分类，其次，分别为每个特征分类配置不同的权重，这里权重的具体数值可根据情况进行灵活设定，之后，将多个特征分类和对应的权重存储在数据库中进行关联，将该文章以特征分类和对应的权重的形式进行存储，这样，将待检索的文章与特征分类逐一进行比对，当待检索的文章与特征分类相匹配时，判定待检索的文章与文章的相似度为特征分类对应的权重的数值，进而快速有效的确定待检索的文章与现存文章的相似性。

实施例2

参见图4，本实施例提供了相似文章检索装置包括：依次相连的特征分类模块、权重配置模块、关联模块和相似度判定模块，使用时，特征分类模块用于将文章按照预设条件进行不同种类的特征分类，权重配置模块用于分别为每个特征分类配置不同的权重，关联模块用于将多个特征分类和对应的权重存储在数据库中进行关联，相似度判定模块用于当待检索的文章与特征分类相匹配时，判定待检索的文章与文章的相似度为特征分类对应的权重的数值。

其中，特征分类模块包括：第一特征分类单元用于提取文章的关键词作为分词，将分词记作第一特征分类，第二特征分类单元用于统计文章中各种词性的数量，将词性和词性对应的数量记作第二特征分类，第三特征分类单元用于统计文章中中文字符的字数，将字数记作第三特征分类。

其中，权重配置模块包括：第一权重配置单元用于为第一特征分类配置第一权重，第二权重配置单元用于为第二特征分类配置第二权重，第三权重配置单元用于为第三特征分类配置第三权重。

本发明实施例提供的相似文章检索方法及装置，与上述实施例提供的相似文章检索方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

本发明实施例还提供了一种终端，包括存储器以及处理器，存储器用于存储支持处理器执行上述实施例方法的程序，处理器被配置为用于执行存储器中存储的程序。

本实施例还提供了一种计算机存储介质，用于储存为上述实施例提供的装置所用的计算机软件指令。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。本发明实施例所提供的相似文章检索方法及装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序，也不能理解为指示或暗示相对重要性。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.相似文章检索方法，其特征在于，包括：

将文章按照预设条件进行不同种类的特征分类；

分别为每个所述特征分类配置不同的权重；

将多个所述特征分类和对应的所述权重存储在数据库中进行关联；

其中，所述将文章按照预设条件进行不同种类的特征分类包括：

提取所述文章的关键词作为分词，将所述分词记作第一特征分类；

统计所述文章中各种词性的数量，将所述词性和所述词性对应的数量记作第二特征分类；

统计所述文章中中文字符的字数，将所述字数记作第三特征分类；

所述分别为每个所述特征分类配置不同的权重包括：

为所述第一特征分类配置第一权重；

为所述第二特征分类配置第二权重；

为所述第三特征分类配置第三权重；

所述将多个所述特征分类和对应的所述权重存储在数据库中进行关联包括：

运用MD5算法分别计算所述第一权重的第一MD5值、所述第二权重的第二MD5值和所述第三权重的第三MD5值；

将所述文章按照所述第一特征分类对应的所述第一MD5值进行关联；

将所述文章还按照所述第二特征分类对应的所述第二MD5值进行关联；

将所述文章还按照所述第三特征分类对应的所述第三MD5值进行关联；

当待检索的文章与所述特征分类相匹配时，判定所述待检索的文章与所述文章的相似度为所述特征分类对应的所述权重的数值；包括：

将所述待检索的文章分别按照所述第一特征分类、所述第二特征分类和所述第三特征分类进行分类；

当所述待检索的文章的所述第一特征分类与所述文章的所述第一特征分类相匹配时，判定所述待检索的文章与所述文章的相似度为所述文章的所述第一特征分类对应的所述第一权重的数值；

当所述待检索的文章的所述第二特征分类与所述文章的所述第二特征分类相匹配时，判定所述待检索的文章与所述文章的相似度为所述文章的所述第二特征分类对应的所述第二权重的数值；

当所述待检索的文章的所述第三特征分类与所述文章的所述第三特征分类相匹配时，判定所述待检索的文章与所述文章的相似度为所述文章的所述第三特征分类对应的所述第三权重的数值。

2.相似文章检索装置，其特征在于，包括：

权重配置模块，用于分别为每个所述特征分类配置不同的权重；

关联模块，用于将多个所述特征分类和对应的所述权重存储在数据库中进行关联，包括：运用MD5算法分别计算第一权重的第一MD5值、第二权重的第二MD5值和第三权重的第三MD5值；将文章按照第一特征分类对应的第一MD5值进行关联；将文章还按照第二特征分类对应的第二MD5值进行关联将文章还按照第三特征分类对应的第三MD5值进行关联；

相似度判定模块，用于当待检索的文章与所述特征分类相匹配时，判定所述待检索的文章与所述文章的相似度为所述特征分类对应的所述权重的数值；

其中，所述特征分类模块包括：

第一特征分类单元，用于提取所述文章的关键词作为分词，将所述分词记作第一特征分类；

第二特征分类单元，用于统计所述文章中各种词性的数量，将所述词性和所述词性对应的数量记作第二特征分类；

第三特征分类单元，用于统计所述文章中中文字符的字数，将所述字数记作第三特征分类；

所述权重配置模块包括：

第一权重配置单元，用于为所述第一特征分类配置第一权重；

第二权重配置单元，用于为所述第二特征分类配置第二权重；

第三权重配置单元，用于为所述第三特征分类配置第三权重；

所述相似度判定模块包括：

将待检索的文章分别按照第一特征分类、第二特征分类和第三特征分类进行分类，这里需要进行说明的是，这里为待检索的文章进行特征分类的规则和步骤与上述对文章进行分类的规则和步骤一致；

3.一种终端，其特征在于，包括存储器以及处理器，所述存储器用于存储支持处理器执行权利要求1所述方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

4.一种计算机存储介质，其特征在于，用于储存为权利要求2所述装置所用的计算机软件指令。