CN110334324A

CN110334324A - 一种基于自然语言处理的文档相似度识别方法及相关设备

Info

Publication number: CN110334324A
Application number: CN201910529190.9A
Authority: CN
Inventors: 王小鹏; 苏宇; 沈越
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2019-10-15

Abstract

本发明实施例公开了一种基于自然语言处理的文档相似度识别方法及相关设备，其特征在于，包括：分别以字和词为单位对第一文档进行拆分以获得第一文档包含的多个字和多个词；通过TF‑IDF算法计算第一语言元素库中每一个语言元素的TF‑IDF值，其中，第一语言元素库为根据第一文档包含的多个字和第一文档包含的多个词获得；同理计算第二文档对应的第二语言元素库中每一个语言元素的TF‑IDF值；在根据第一语言元素库中每一个语言元素的TF‑IDF值和第二语言元素库中每一个语言元素的TF‑IDF值确定第一文档与第二文档的相似度。采用本发明实施例，能够更准确地得出第一文档与第二文档之间的相似度关系。

Description

一种基于自然语言处理的文档相似度识别方法及相关设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于自然语言处理的文档相似度识别方法及相关设备。

背景技术

目前很多招聘都存在笔试环节，一直以来笔试环节作弊的行为屡见不鲜，目前很多企业都是通过人工筛查比对的方式甄别作弊行为，然而针对应聘数量较少的情况可以人工甄别，针对应聘数量较多的情况则无法人工甄别。随着人工智能的发展，已经有一些企业尝试通过计算机识别作弊行为，目前计算机识别的原理是直接将两个文档进行对比，如果两个文档的内容一样则存在作弊，如果不一样则不存在作弊，针对这种确定作弊的方式，作弊者是很容易避免被发现的，例如，作弊者对答案稍作关键词改动，如同义词替换；再如，作弊者对文档的语句顺序稍作改动，等等。关键词改动和句子顺序调整之后，计算机就不认为存在作弊行为，而实际作弊是客观存在的。如何通过计算机更精准高效地甄别作弊行为是本领域的技术人员正在研究的技术问题。

发明内容

本发明实施例公开了一种基于自然语言处理的文档相似度识别方法及相关设备，能够更准确地获知文档之间的相似度关系。

第一方面，本发明实施例提供了一种基于自然语言处理的文档相似度识别方法，该方法包括：

以字为单位对第一文档进行拆分以获得所述第一文档包含的多个字；

以词为单位对所述第一文档进行拆分以获得所述第一文档包含的多个词；

通过TF-IDF算法计算第一语言元素库中每一个语言元素的TF-IDF值，其中，所述第一语言元素库为根据所述第一文档包含的多个字和所述第一文档包含的多个词获得；

以字为单位对第二文档进行拆分以获得所述第二文档包含的多个字；

以词为单位对所述第二文档进行拆分以获得所述第二文档包含的多个词；

通过所述TF-IDF算法计算第二语言元素库中每一个语言元素的TF-IDF值，其中，所述第二语言元素库为根据所述第二文档包含的多个字和所述第二文档包含的多个词获得；

根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度。

通过执行上述方法，将第一文档和第二文档都进行了字级别的拆分，因此保留了这两个文档最基础的原始信息，能够对冲词级别拆分时出现的误差，例如，对“不需要购买社保”进行拆分时，有些分词算法会拆出“需要”、“购买”、“社保”，而实际上这种拆分结果已经偏离了句子的原意。也即是说，本申请采用字级别拆分和词级别拆分进行组合的方式，让拆分后的词充分表达语义，让拆分后的字对冲语义误差，因此拆分得到的语义元素能够更准确地反映文档的语义，因此在此基础上确定出的第一文档和第二文档的相似度结果更准确。

结合第一方面，在第一方面的第一种可能的实现方式中，所述根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度，包括：

根据所述第一语言元素库中每一个语言元素的TF-IDF值确定第一词向量；

根据所述第二语言元素库中每一个语言元素的TF-IDF值确定第二词向量；

计算所述第一词向量与所述第二词向量的余弦值，其中，所述第一文档与所述第二文档的相似度与所述余弦值的大小呈正相关。

结合第一方面，或者第一方面的上述任一可能的实现方式，在第一方面的第二种可能的实现方式中，所述计算所述第一词向量与所述第二词向量的余弦值之后，还包括：

若所述余弦值大于预设阈值，则确定存在作弊行为。

结合第一方面，或者第一方面的上述任一可能的实现方式，在第一方面的第三种可能的实现方式中：

所述第一语言元素库不包含所述第一文档的多个字中的预设字，且不包含所述第一文档的多个词中的预设词；

所述第二语言元素库不包含所述第二文档的多个字中的预设字，且不包含所述第二文档的多个词中的预设词。

结合第一方面，或者第一方面的上述任一可能的实现方式，在第一方面的第四种可能的实现方式中，所述根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度之前，还包括：

对所述第一语言元素库和所述第二语言元素库进行同义词替换，并将替换前的语言元素的TF-IDF值赋予替换后的语言元素，以实现对所述第一语言元素库和所述第二语言元素库的更新，其中，同义词替换用于将同样含义的语言元素进行统一描述。

第二方面，本申请实施例提供一种基于自然语言处理的文档相似度识别设备，该设备包括：

第一拆分单元，用于以字为单位对第一文档进行拆分以获得所述第一文档包含的多个字；

第二拆分单元，用于以词为单位对所述第一文档进行拆分以获得所述第一文档包含的多个词；

第一计算单元，用于通过TF-IDF算法计算第一语言元素库中每一个语言元素的TF-IDF值，其中，所述第一语言元素库为根据所述第一文档包含的多个字和所述第一文档包含的多个词获得；

第三拆分单元，用于以字为单位对第二文档进行拆分以获得所述第二文档包含的多个字；

第四拆分单元，用于以词为单位对所述第二文档进行拆分以获得所述第二文档包含的多个词；

第二计算单元，用于通过所述TF-IDF算法计算第二语言元素库中每一个语言元素的TF-IDF值，其中，所述第二语言元素库为根据所述第二文档包含的多个字和所述第二文档包含的多个词获得；

对比单元，用于根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度。

通过运行上述单元，将第一文档和第二文档都进行了字级别的拆分，因此保留了这两个文档最基础的原始信息，能够对冲词级别拆分时出现的误差，例如，对“不需要购买社保”进行拆分时，有些分词算法会拆出“需要”、“购买”、“社保”，而实际上这种拆分结果已经偏离了句子的原意。也即是说，本申请采用字级别拆分和词级别拆分进行组合的方式，让拆分后的词充分表达语义，让拆分后的字对冲语义误差，因此拆分得到的语义元素能够更准确地反映文档的语义，因此在此基础上确定出的第一文档和第二文档的相似度结果更准确。

结合第二方面，在第二方面的第一种可能的实现方式中，所述对比单元，用于根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度，具体为：

结合第二方面，或者第二方面的上述任一可能的实现方式，在第二方面的第二种可能的实现方式中，所述对比单元，还用于在计算所述第一词向量与所述第二词向量的余弦值之后，若所述余弦值大于预设阈值，则确定存在作弊行为。

结合第二方面，或者第二方面的上述任一可能的实现方式，在第二方面的第三种可能的实现方式中：

结合第二方面，或者第二方面的上述任一可能的实现方式，在第二方面的第四种可能的实现方式中，替换单元，用于在所述对比单元根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度之前，对所述第一语言元素库和所述第二语言元素库进行同义词替换，并将替换前的语言元素的TF-IDF值赋予替换后的语言元素，以实现对所述第一语言元素库和所述第二语言元素库的更新，其中，同义词替换用于将同样含义的语言元素进行统一描述。

第三方面，本申请实施例提供一种设备，所述设备包括处理器、存储器，其中，所述存储器用于存储指令，当所述指令在处理器上运行时，实现第一方面，或者第一方面的任一可能的实现方式所描述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在处理器上运行时，实现第一方面，或者第一方面的任一可能的实现方式所描述的方法。

第五方面，本申请实施例提供一种计算机程序产品，当所述计算机程序产品在处理器上运行时，实现第一方面，或者第一方面的任一可能的实现方式所描述的方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的一种基于自然语言处理的文档相似度识别方法的流程示意图；

图2是本发明实施例提供的一种设备的结构示意图；

图3是本发明实施例提供的又一种设备的结构示意图。

具体实施方式

下面将结合附图对本发明实施例中的技术方案进行描述。

本申请实施例主要是基于词频-逆文档频率(term frequency–inverse documentfrequency，TF-IDF)技术来对不同文档的相似度进行识别，这种技术可以应用在很多涉及文字内容对比的领域，例如，招聘过程中对比不同应聘者的答卷，从而判断是否存在应聘作弊行为；各行各业的考试中对比不同考生的答卷，从而判断是否存在考试作弊行为；信息检索等。

在对比文档相似度的过程中，通常涉及将两个文档(例如，两个应聘者各自的答卷、一个应聘者的答卷与标准答案等)进行比较，后面称这两个文档为第一文档和第二文档以方便描述。

请参见图1，图1是本申请实施例提供的一种基于自然语言处理的文档相似度识别方法的流程示意图，该方法可以由一个设备(如一个服务器、一台笔记本电脑、一个手机等)或者多个设备(如多个服务器构成的服务器集群)来执行，该方法包括但不限于如下步骤：

步骤S101：设备以字为单位对第一文档进行拆分以获得第一文档包含的多个字。

具体地，以字为单位进行拆分就可以得到多个字，可将每一个字看做一个语言元素，举例来说，假若该第一文档中存在如下一段话“我的爱好是打篮球，每周末都会参加一场公司内部的篮球赛；我工作比较擅长的是网页前端开发”，那么总共可以拆分获得如下语言元素：

“我”、“的”、“爱”、“好”、“是”、“打”、“篮”、“球”、“每”、“周”、“末”、“都”、“会”、“参”、“加”、“一”、“场”、“公”、“司”、“内”、“部”、“赛”、“工”、“作”、“比”、“较”、“擅”、“长”、“前”、“端”、“开”、“发”。

其中，第一文档中不同位置出现的同样的字为一个语言元素。例如，“我”、“的”、“是”都在第一文档中多次出现，但实际上就是一个语言元素。

步骤S102：设备以词为单位对第一文档进行拆分以获得第一文档包含的多个词。

具体地，目前从文档中提取词语的分词提取算法有很多，本申请实施例可以采用现有技术中的分词提取算法来提取第一文档中包含的词语，也可以采用本申请自定义的分词提取算法提取第一文档中包含的词语，例如，本申请提供的分词提取算法提取的词语是指两个或者两个以上的字组成的词语，提取之后就可以得到多个词，其中每个词可以看做是一个语言元素。同样以“我的爱好是打篮球，每周末都会参加一场公司内部的篮球赛；我工作上比较擅长的是网页前端开发”这一段话为例，总共可以拆分获得如下语言元素：

“爱好”、“打篮球”、“周末”、“参加”、“一场”、“公司”、“内部”、“篮球赛”、“工作”、“比较”、“擅长”、“网页”、“前端开发”。

在本申请实施例中，在以词为单位进行划分时已经获得了单个字的语言元素(如“我”)，因此在以词语为单位拆分的环节将单个字划分为一个词语就没有实质意义，因此在本申请实施例的分词提取环节可以仅提取两个或者两个以上字数的词语。

通过以上方式获得第一文档的多个字和多个词之后，根据这多个字和多个词来构成第一语言元素库，构成的方式有很多，下面对部分可选方案进行举例说明。

方案一，将以上得到的多个词中的全部词和多个字中的全部字用来构成第一语言元素库，也即是说，该多个词中的每一个词都在该第一语言元素库中，该多个字中每一个字都在第一语言元素库中。以前面步骤举例的类容为例，第一语言元素库中包含的语言元素如下：

“我”、“的”、“爱”、“好”、“是”、“打”、“篮”、“球”、“每”、“周”、“末”、“都”、“会”、“参”、“加”、“一”、“场”、“公”、“司”、“内”、“部”、“赛”、“工”、“作”、“比”、“较”、“擅”、“长”、“前”、“端”、“开”、“发”、“爱好”、“打篮球”、“周末”、“参加”、“一场”、“公司”、“内部”、“篮球赛”、“工作”、“比较”、“擅长”、“网页”、“前端开发”。

方案二，将以上得到的多个词中的部分词和多个字中的部分字用来构成第一语言元素库，具体来说，设备需要对该多个词和多个字进行筛选，筛选掉多个字中的预设字(例如，“的”、“是”等)，以及筛选掉多个词中的预设词(例如，“比较”、“内部”)，实际应用中，预设词具体包含哪些词，预设字具体包含哪些字都可以预先规定好。筛选之后生成的词和字构成该第一语言元素库，同样以前面步骤举例的类容为例，第一语言元素库中包含的语言元素如下：

“我”、“爱”、“好”、“打”、“篮”、“球”、“每”、“周”、“末”、“都”、“会”、“参”、“加”、“一”、“场”、“公”、“司”、“内”、“部”、“赛”、“工”、“作”、“比”、“较”、“擅”、“长”、“前”、“端”、“开”、“发”、“爱好”、“打篮球”、“周末”、“参加”、“一场”、“公司”、“篮球赛”、“工作”、“擅长”、“网页”、“前端开发”。

之所以要删除预设字、预设词，是因为这些字和词在文档中出现的频率比较高，但是有实质无法体现文档最核心的语义内容，因此将其滤除掉以避免其对文档的干扰。

通过以上方式得到第一语言元素库之后，该第一语言元素库中的每一个词语为一个语言元素，该第一语言元素库中的每一个字也为一个语言元素。

步骤S103：设备通过TF-IDF算法计算第一语言元素库中每一个语言元素的TF-IDF值。

具体地，计算TF-IDF值需要先计算词频(term frequency，TF)和逆文档词频(inverse document frequency，IDF)，其中，该第一语言元素库中每一个语言元素的TF计算公式如下：

某个语言元素的词频TF＝某个语言元素在第一文档中出现的次数，或者，

某个语言元素的词频TF＝某个语言元素在第一文档中出现的次数/第一语言元素库中所有语言元素在第一文档中出现的总次数

该第一语言元素库中每一个语言元素的IDF计算公式如下:

某个语言元素的逆文档词频IDF＝log语料库中文档总数/(包含该某个语言元素的文档数+1)

需要说明的是，TF和IDF还可以通过其他方式进行计算，本申请不作具体限定。

计算出TF和IDF之后，根据TF和IDF计算TF-IDF值，例如：TF-IDF＝TF*IDF，即TF-IDF值等于DF乘以IDF，当然，这也是一种可选的计算法方式，具体如何根据TF和IDF计算TF-IDF本申请实施例不作限定。

在一种可选的方案中，还可以对第一语言元素库进行更新，例如，对所述第一语言元素库进行同义词替换，并将替换前的语言元素的TF-IDF值赋予替换后的语言元素，其中，同义词替换用于将同样含义的语言元素进行统一描述。可以理解的是，在后续进行向量比对时，同样含义的词语应该是对应同一个向量因子，例如，“精通”和“擅长”这两个同义词就应该对应同一个向量因此，如果让其对应两个不同向量因子，则可能导致语义本来接近，但是通过向量对比得出的结论确实不接近的情况。因此，进行同义词替换能偶提高后续比对的准确性。在这种可选的方案中，在将词语替换之后，还要将原来词语的TF-IDF值赋予替换后的词语。例如，我们将“擅长”替换为“精通”之后，将之前计算出的“擅长”的TF-IDF值0.03赋予“精通”，这样一来，第一语言元素中的“精通”的TF-IDF值就为0.03。需要说明的是，假若对第一语言元素库进行了更新，那么后续再用到第一语言元素库即是指更新后的第一语言元素库。

步骤S104：设备以字为单位对第二文档进行拆分以获得第二文档包含的多个字。

具体地，以字为单位进行拆分就可以得到多个字，可将每一个字看做一个语言元素，举例来说，假若该第二文档中存在如下一段话“他的爱好是打台球，每月末都会参加一场公司内部的台球赛；我工作比较擅长的是网页前端开发”，那么总共可以拆分获得如下语言元素：

“他”、“的”、“爱”、“好”、“是”、“打”、“台”、“球”、“每”、“月”、“末”、“都”、“会”、“参”、“加”、“一”、“场”、“公”、“司”、“内”、“部”、“赛”、“工”、“作”、“比”、“较”、“擅”、“长”、“前”、“端”、“开”、“发”。

其中，第二文档中不同位置出现的同样的字为一个语言元素。例如，“他”、“的”、“是”都在第二文档中多次出现，但实际上就是一个语言元素。

步骤S105：设备以词为单位对第二文档进行拆分以获得第二文档包含的多个词。

具体地，目前从文档中提取词语的分词提取算法有很多，本申请实施例可以采用现有技术中的分词提取算法来提取第二文档中包含的词语，也可以采用本申请自定义的分词提取算法提取第二文档中包含的词语，例如，本申请提供的分词提取算法提取的词语是指两个或者两个以上的字组成的词语，提取之后就可以得到多个词，其中每个词可以看做是一个语言元素。同样以“我的爱好是打篮球，每周末都会参加一场公司内部的篮球赛；我工作上比较擅长的是网页前端开发”这一段话为例，总共可以拆分获得如下语言元素：

“爱好”、“打台球”、“月末”、“参加”、“一场”、“公司”、“内部”、“台球赛”、“工作”、“比较”、“擅长”、“网页”、“前端开发”。

通过以上方式获得第二文档的多个字和多个词之后，根据这多个字和多个词来构成第二语言元素库，构成的方式有很多，下面对部分可选方案进行举例说明。

方案一，将以上得到的多个词中的全部词和多个字中的全部字用来构成第二语言元素库，也即是说，该多个词中的每一个词都在该第二语言元素库中，该多个字中每一个字都在第二语言元素库中。以前面步骤举例的类容为例，第二语言元素库中包含的语言元素如下：

“他”、“的”、“爱”、“好”、“是”、“打”、“台”、“球”、“每”、“月”、“末”、“都”、“会”、“参”、“加”、“一”、“场”、“公”、“司”、“内”、“部”、“赛”、“工”、“作”、“比”、“较”、“擅”、“长”、“前”、“端”、“开”、“发”、“爱好”、“打台球”、“月末”、“参加”、“一场”、“公司”、“内部”、“台球赛”、“工作”、“比较”、“擅长”、“网页”、“前端开发”。

方案二，将以上得到的多个词中的部分词和多个字中的部分字用来构成第二语言元素库，具体来说，设备需要对该多个词和多个字进行筛选，筛选掉多个字中的预设字(例如，“的”、“是”等)，以及筛选掉多个词中的预设词(例如，“比较”、“内部”)，实际应用中，预设词具体包含哪些词，预设字具体包含哪些字都可以预先规定好。筛选之后生成的词和字构成该第二语言元素库，同样以前面步骤举例的类容为例，第二语言元素库中包含的语言元素如下：

“他”、“爱”、“好”、“打”、“台”、“球”、“每”、“月”、“末”、“都”、“会”、“参”、“加”、“一”、“场”、“公”、“司”、“内”、“部”、“赛”、“工”、“作”、“比”、“较”、“擅”、“长”、“前”、“端”、“开”、“发”、“爱好”、“打台球”、“月末”、“参加”、“一场”、“公司”、“台球赛”、“工作”、“擅长”、“网页”、“前端开发”。

通过以上方式得到第二语言元素库之后，该第二语言元素库中的每一个词语为一个语言元素，该第二语言元素库中的每一个字也为一个语言元素。

步骤S106：设备通过TF-IDF算法计算第二语言元素库中每一个语言元素的TF-IDF值。

具体地，计算TF-IDF值需要先计算词频(term frequency，TF)和逆文档词频(inverse document frequency，IDF)，其中，该第二语言元素库中每一个语言元素的TF计算公式如下：

某个语言元素的词频TF＝某个语言元素在第二文档中出现的次数，或者，

某个语言元素的词频TF＝某个语言元素在第二文档中出现的次数/第二语言元素库中所有语言元素在第二文档中出现的总次数

该第二语言元素库中每一个语言元素的IDF计算公式如下:

在一种可选的方案中，还可以对第二语言元素库进行更新，例如，对所述第二语言元素库进行同义词替换，并将替换前的语言元素的TF-IDF值赋予替换后的语言元素，其中，同义词替换用于将同样含义的语言元素进行统一描述。可以理解的是，在后续进行向量比对时，同样含义的词语应该是对应同一个向量因子，例如，“精通”和“擅长”这两个同义词就应该对应同一个向量因此，如果让其对应两个不同向量因子，则可能导致语义本来接近，但是通过向量对比得出的结论确实不接近的情况。因此，进行同义词替换能偶提高后续比对的准确性。在这种可选的方案中，在将词语替换之后，还要将原来词语的TF-IDF值赋予替换后的词语。例如，我们将“擅长”替换为“精通”之后，将之前计算出的“擅长”的TF-IDF值0.03赋予“精通”，这样一来，第二语言元素中的“精通”的TF-IDF值就为0.03。需要说明的是，假若对第二语言元素库进行了更新，那么后续再用到第二语言元素库即是指更新后的第二语言元素库。

步骤S107：设备根据第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定第一文档与第二文档的相似度。

具体地，第一语言元素库中的语言元素的TF-IDF值能够体现第一文档的特点，第二语言元素库中的语言元素的TF-IDF值能够体现第二文档的特点，因此将第一语言元素库中的语言元素的TF-IDF值和第二语言元素库中的语言元素的TF-IDF值进行对比即可得到第一文档与第二文档之间的相似度。为了便于理解，下面提供一种可选的比对方式：

根据所述第一语言元素库中每一个语言元素的TF-IDF值确定第一词向量；根据所述第二语言元素库中每一个语言元素的TF-IDF值确定第二词向量；计算所述第一词向量与所述第二词向量的余弦值，其中，所述第一文档与所述第二文档的相似度与所述余弦值的大小呈正相关。

样例1：将第一语言元素库和第二语言元素库取并集，并集中的每一个语言元素对应一个向量因子，例如，如果并集中有9个语言元素，那么最终的第一词向量为一个9维向量，每一维对应并集中一个语言元素在第一文档中的TF-IDF值；同理，最终的第二词向量也为一个9维向量，每一维对应并集中一个语言元素在第二文档中的TF-IDF值。下面进行举例说明，假若第一语言元素库和第二语言元素库包含的语言元素和TF-IDF如表1所示：

表1

那么，从表1中可以看出，并集包括的语言元素包括A、B、C、D、E、F、M、N、R共9个，因此第一词向量和第二词向量均为9维的向量，这9维分别是(A，B，C，D，E，F，M，N，R)，因此得到的第一词向量为(0.02，0.03，0.01，0.15，0.12，0.05，0，0，0)，得到的第二词向量为(0.19，0.11，0.18，0，0，0，0.01，0.03，0.11)。

可选的，也仅从第一语言元素库中加入部分语言元素到并集中，以及仅从第二语言元素库中加入部分语言元素到并集中，加入的部分语言元素可以是根据TF-IDF大小选择的TF-IDF较大的一些语言元素，例如，按照TF-IDF大小选择前P％的，或者前Q加入到并集中，P、Q可以是根据需要预先设置的参考值。

通过以上方式即可确定出第一文档与第二文档的相似程度，如果第一词向量与第二词向量的余弦值较大，则代表第一文档与第二文档较相似，如果第一词向量与第二词向量的余弦值较小，则代表第一文档与第二文档不相似。假若是应聘或者考试场景，当所述余弦值大于预设阈值时，可以确定存在作弊行为，该预设阈值可以为根据需要预先配置的用于参考对比的值，例如，可设置为0.5-0.8之间的值。

上述详细阐述了本发明实施例的方法，为了便于更好地实施本发明实施例的上述方案，相应地，下面提供了本发明实施例的装置。

请参见图2，图2是本发明实施例提供的一种设备20的结构示意图，该设备20可以包括第一拆分单元201、第二拆分单元202、第一计算单元203、第三拆分单元204、第四拆分单元205、第二计算单元206，对比单元207，其中，各个单元的详细描述如下。

第一拆分单元201用于以字为单位对第一文档进行拆分以获得所述第一文档包含的多个字；

第二拆分单元202用于以词为单位对所述第一文档进行拆分以获得所述第一文档包含的多个词；

第一计算单元203用于通过词频-逆文档频率TF-IDF算法计算第一语言元素库中每一个语言元素的TF-IDF值，其中，所述第一语言元素库为根据所述第一文档包含的多个字和所述第一文档包含的多个词获得；

第三拆分单元204用于以字为单位对第二文档进行拆分以获得所述第二文档包含的多个字；

第四拆分单元205用于以词为单位对所述第二文档进行拆分以获得所述第二文档包含的多个词；

第二计算单元206用于通过所述TF-IDF算法计算第二语言元素库中每一个语言元素的TF-IDF值，其中，所述第二语言元素库为根据所述第二文档包含的多个字和所述第二文档包含的多个词获得；

对比单元207用于根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度。

在一种可能的实现方式中，所述对比单元，用于根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度，具体为：

在又一种可能的实现方式中，所述对比单元，还用于在计算所述第一词向量与所述第二词向量的余弦值之后，若所述余弦值大于预设阈值，则确定存在作弊行为。

在又一种可能的实现方式中：所述第一语言元素库不包含所述第一文档的多个字中的预设字，且不包含所述第一文档的多个词中的预设词；所述第二语言元素库不包含所述第二文档的多个字中的预设字，且不包含所述第二文档的多个词中的预设词。

在又一种可能的实现方式中，替换单元，用于在所述对比单元根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度之前，对所述第一语言元素库和所述第二语言元素库进行同义词替换，并将替换前的语言元素的TF-IDF值赋予替换后的语言元素，以实现对所述第一语言元素库和所述第二语言元素库的更新，其中，同义词替换用于将同样含义的语言元素进行统一描述。

需要说明的是，各个单元的具体实现还可以对应参照图1所示的方法实施例的相应描述。

请参见图3，图3是本发明实施例提供的一种设备30，该设备30包括处理器301、存储器302和通信接口303，所述处理器301、存储器302和通信接口303通过总线相互连接。

存储器302包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmableread only memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器302用于相关指令及数据。通信接口303用于接收和发送数据。

处理器301可以是一个或多个中央处理器(central processing unit，CPU)，在处理器301是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。

处理器301用于读取所述存储器302中存储的程序代码，执行以下操作：

通过词频-逆文档频率TF-IDF算法计算第一语言元素库中每一个语言元素的TF-IDF值，其中，所述第一语言元素库为根据所述第一文档包含的多个字和所述第一文档包含的多个词获得；

通过执行上述操作，将第一文档和第二文档都进行了字级别的拆分，因此保留了这两个文档最基础的原始信息，能够对冲词级别拆分时出现的误差，例如，对“不需要购买社保”进行拆分时，有些分词算法会拆出“需要”、“购买”、“社保”，而实际上这种拆分结果已经偏离了句子的原意。也即是说，本申请采用字级别拆分和词级别拆分进行组合的方式，让拆分后的词充分表达语义，让拆分后的字对冲语义误差，因此拆分得到的语义元素能够更准确地反映文档的语义，因此在此基础上确定出的第一文档和第二文档的相似度结果更准确。

在一种可能的实现方式中，所述处理器根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度，具体为：

在又一种可能的实现方式中，所述处理器计算所述第一词向量与所述第二词向量的余弦值之后，还用于：在所述余弦值大于预设阈值的情况下，确定存在作弊行为。

在又一种可能的实现方式中，所述处理器根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度之前，还用于：

需要说明的是，各个操作的实现还可以对应参照图1所示的方法实施例的相应描述

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在处理器上运行时，图1所示的方法流程得以实现。

本发明实施例还提供一种计算机程序产品，当所述计算机程序产品在处理器上运行时，图1所示的方法流程得以实现。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，该的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种基于自然语言处理技术的文档相似度识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度，包括：

3.根据权利要求2所述的方法，其特征在于，所述计算所述第一词向量与所述第二词向量的余弦值之后，还包括：

若所述余弦值大于预设阈值，则确定存在作弊行为。

4.根据权利要求1-3任一项所述的方法，其特征在于：

5.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度之前，还包括：

6.一种基于自然语言处理技术的文档相似度识别设备，其特征在于，包括：

7.根据权利要求6所述的设备，其特征在于，所述对比单元，用于根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度，具体为：

8.根据权利要求7所述的设备，其特征在于，所述对比单元，还用于在计算所述第一词向量与所述第二词向量的余弦值之后，若所述余弦值大于预设阈值，则确定存在作弊行为。

9.根据权利要求6-8任一项所述的设备，其特征在于：

10.根据权利要求6-8任一项所述的设备，其特征在于，替换单元，用于在所述对比单元根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度之前，对所述第一语言元素库和所述第二语言元素库进行同义词替换，并将替换前的语言元素的TF-IDF值赋予替换后的语言元素，以实现对所述第一语言元素库和所述第二语言元素库的更新，其中，同义词替换用于将同样含义的语言元素进行统一描述。