CN110727762B

CN110727762B - 确定相似文本的方法、装置、存储介质及电子设备

Info

Publication number: CN110727762B
Application number: CN201910878064.4A
Authority: CN
Inventors: 贾弼然; 崔朝辉; 赵立军; 张霞
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2022-04-29
Anticipated expiration: 2039-09-17
Also published as: CN110727762A

Abstract

本公开涉及一种确定相似文本的方法、装置、存储介质及电子设备，以减少查找相似文本的时间，提高查找相似文本的效率。该方法应用于服务器，包括：接收客户端发送的用于查找目标文本的相似文本的请求；根据目标文本的特征向量与数据库中的每一类文本的中心向量之间的距离，确定目标文本的相似文本；将相似文本发送给客户端进行显示；其中，数据库中的文本是通过如下方式进行分类的：确定数据库中的多个文本分别的特征向量；确定每个特征向量的相邻向量个数占向量总数的比例；根据比例、以及距离阈值与比例之间的预设对应关系，确定对应比例的目标距离阈值；根据目标距离阈值对多个文本进行分类。

Description

确定相似文本的方法、装置、存储介质及电子设备

技术领域

本公开涉及数据处理技术领域，具体地，涉及一种确定相似文本的方法、装置、存储介质及电子设备。

背景技术

随着互联网技术的不断发展，产生了海量数据。相关技术中，如果用户想要在海量数据中根据目标文本查找相似文本，通常是用户先选取目标文本中比较有代表性的几个词作为搜索词输入搜索框中，比如选取目标文本的关键词或者主题词输入搜索框中。然后检索引擎通过输入的搜索词，在数据库的文本中进行一一比对，查找出包括该搜索词的相似文本返回给用户。在大数据背景下，数据库中的文本数量非常多，通过搜索词进行一一比对需要耗费大量时间，查找相似文本的效率不高。

发明内容

本公开的目的是提供一种确定相似文本的方法、装置、存储介质及电子设备，以减少查找相似文本的时间，提高查找相似文本的效率。

为了实现上述目的，第一方面，本公开提供一种确定相似文本的方法，应用于服务器，包括：

接收客户端发送的用于查找目标文本的相似文本的请求；

响应于接收到所述请求，根据所述目标文本的特征向量与数据库中的每一类文本的中心向量之间的距离，确定所述目标文本的相似文本；

将所述相似文本发送给所述客户端进行显示；

其中，所述数据库中的文本是通过如下方式进行分类的：

确定所述数据库中的多个文本分别的特征向量；确定每个特征向量的相邻向量个数占向量总数的比例；根据所述比例、以及距离阈值与比例之间的预设对应关系，确定对应所述比例的目标距离阈值；根据所述目标距离阈值对所述多个文本进行分类，其中，每一类文本中各文本的特征向量与该类文本的中心向量之间的距离小于所述目标距离阈值。

可选地，所述目标文本为案情笔录文本，所述数据库为案情数据库，用于存储已结案件的案情笔录文本以及对应的案件处理结果，所述方法还包括：

从所述数据库中获取对应所述相似文本的案情处理结果；

根据所述相似文本的案情处理结果生成对所述目标文本的案件处理建议；

将所述案件处理建议发送给所述客户端进行显示。

可选地，所述请求包括内容为文本的目标图片，所述方法还包括：

对所述目标图片进行光学字符ORC识别，获取所述目标文本；

对所述目标文本进行分词，并在Word2vec模型中确定各分词对应的词向量；

将所述各分词对应的词向量均值作为所述目标文本的特征向量。

可选地，所述距离阈值与比例之间的预设对应关系为：

其中，i表示第一文本对应的特征向量，j表示第二文本对应的特征向量，N表示特征向量总数，d_ij表示特征向量i与特征向量j之间的距离，d_c表示距离阈值，C表示每个特征向量的相邻向量个数占向量总数的比例，当d_ij大于或等于d_c时，

取0，当d_ij小于d_c时，

取1。

可选地，所述方法还包括：

对所述数据库中的多个文本进行预分类；

针对预分类后的每一文本类，确定所述文本类与所述文本类中分词之间的关系系数，所述关系系数用于表征所述分词在所述文本类中的重要程度；

若所述关系系数小于预设阈值，则在所述文本类中去除所述分词；

所述确定所述数据库中的多个文本分别的特征向量，包括：

分别确定去除分词后的文本类中每个文本的特征向量。

可选地，所述确定所述文本类与所述文本类中分词之间的关系系数，包括：

按照以下公式，确定所述文本类与所述文本类中分词之间的关系系数：

其中，n表示多个文本预分类后的文本类数目，m表示多个文本中出现目标分词的总次数，N表示多个文本的文本数目，a表示目标文本类中出现目标分词的文本数目，b表示目标分词在除目标文本类以外的其他文本类中出现的文本数目，c表示目标文本类中未出现目标分词的文本数目，d表示除目标文本类以外的其他文本类中未出现目标分词的文本数目。

可选地，所述方法还包括：

分别确定每个特征向量的密度以及高距离，并确定每个特征向量的密度与高距离的乘积；

针对所述乘积从小到大的每个特征向量，分别确定所述特征向量与其他特征向量之间的距离，其中，所述其他特征向量依次为所述乘积从大到小的特征向量；

所述根据所述目标距离阈值对所述多个文本进行分类，包括：

若所述特征向量与所述其他特征向量之间的距离小于所述目标距离阈值，则将所述特征向量对应的文本与所述其他特征向量对应的文本归为一类。

可选地，所述确定每个特征向量的密度，包括：

按照以下公式，确定所述每个特征向量的密度：

其中，ρ_i表示第一文本对应的特征向量i的密度，d_ij表示第一文本对应的特征向量i与第二文本对应的特征向量j之间的距离，d_c'表示目标距离阈值，当d_ij大于或等于d_c'时，δ(d_ij-d_c')取0，当d_ij小于d_c时，δ(d_ij-d_c')为exp{-(d_ij/d_c)²}。

可选地，所述方法还包括：

针对所述乘积从小到大的每个特征向量，若所述特征向量与其他特征向量之间的距离均大于所述目标距离阈值，则将所述特征向量归为奇异值；

若属于所述奇异值的特征向量的个数超过预设个数，或者文本类的数目超过预设数目，则重新确定每个特征向量的相邻特征向量个数占向量总数的比例，再次执行所述根据所述比例、以及距离阈值与比例之间的预设对应关系，确定对应所述比例的目标距离阈值、以及根据所述目标距离阈值对所述多个文本进行分类的步骤。

第二方面，本公开还提供一种确定相似文本的装置，应用于服务器，包括：

接收模块，用于接收客户端发送的用于查找目标文本的相似文本的请求；

文本确定模块，用于响应于接收到所述请求，根据所述目标文本的特征向量与数据库中的每一类文本的中心向量之间的距离，确定所述目标文本的相似文本；

发送模块，用于将所述相似文本发送给所述客户端进行显示；

其中，所述数据库中的文本是通过如下模块进行分类的：

向量确定模块，用于确定所述数据库中的多个文本分别的特征向量；

比例确定模块，用于确定每个特征向量的相邻向量个数占向量总数的比例；

阈值确定模块，用于根据所述比例、以及距离阈值与比例之间的预设对应关系，确定对应所述比例的目标距离阈值；

分类模块，用于根据所述目标距离阈值对所述多个文本进行分类，其中，每一类文本中各文本的特征向量与该类文本的中心向量之间的距离小于所述目标距离阈值。

第三方面，本公开还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中任一项所述方法的步骤。

第四方面，本公开还提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现第一方面中任一项所述方法的步骤。

通过上述技术方案，可以将数据库中的多个文本进行分类，分类后的每一类文本对应有中心向量，因此，服务器接收到客户端发送的用于查找目标文本的相似文本的请求后，可以根据目标文本的特征向量与数据库中的每一类文本的中心向量之间的距离，确定目标文本的相似文本。通过这样的方式，无需对数据库的文本进行一一比对，可以减少文本比对的时间，从而可以提高查找相似文本的效率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据本公开一示例性实施例示出的一种确定相似文本的方法的实施场景示意图；

图2是根据本公开一示例性实施例示出的一种确定相似文本的方法的流程图；

图3是根据本公开一示例性实施例示出的一种确定相似文本的方法中数据库文本分类方法的流程图；

图4是根据本公开另一示例性实施例示出的一种确定相似文本的方法中数据库文本分类方法的流程图；

图5是根据本公开一示例性实施例示出的一种确定相似文本的装置的框图；

图6是根据本公开一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

随着互联网技术的不断发展，产生了海量数据。相关技术中，如果用户想要在海量数据中根据目标文本查找相似文本，通常是用户先选取目标文本中比较有代表性的几个词作为搜索词输入搜索框中，比如选取目标文本的关键词或者主题词输入搜索框中。然后检索引擎通过输入的搜索词，在数据库的文本中进行一一比对，查找出包括该搜索词的相似文本返回给用户。在大数据背景下，数据库中的文本数量非常多，通过搜索词进行一一比对需要耗费大量时间，查找相似文本的效率不高。例如，在案情分析的场景下，通常需要查找当前案情的相似案情，以根据相似案情对当前案情进行分析等等。在此种场景下，案情的数量可能是百万级的，如果通过在当前案情中选取搜索词通过搜索引擎查找相似案情，可能需要耗费大量的时间，查找相似案情的效率不高。

有鉴于此，本公开实施例提供一种确定相似文本的方法、装置、存储介质及电子设备，以减少查找相似文本的时间，提高查找相似文本的效率。

首先说明本公开可能的实施场景。如图1所示，该实施场景可以包括客户端101(图1中以电脑示意)、服务器102以及用于服务器存储数据的数据库103，该数据库103中包括已分类的多个文本。用户可以在客户端101的信息输入框中输入目标文本。客户端101可以响应于用户的输入完成信息，比如客户端101可以响应于接收到用户点击“提交”按钮的信息，向服务器102发送用于查找目标文本的相似文本的请求，该请求包括目标文本。服务器102接收到该请求后，可以响应于该请求，在数据库103中确定目标文本的相似文本，然后将该相似文本发送给客户端101进行显示，从而用户可以根据该相似文本对目标文本进行分析等等。比如，在案情分析的场景下，服务器102可以将查找到的相似案情发送给客户端101进行显示，从而办案人员可以根据该相似案情对目标案情进行分析，以辅助目标案情的侦破等等。

以图1所示的场景为例，下面对本公开实施例中确定相似文本的方法进行详细举例说明。图2是根据本公开一示例性实施例示出的一种确定相似文本的方法的流程图。该方法可以应用于图1所示的服务器102，可以包括：

步骤S201，接收客户端发送的用于查找目标文本的相似文本的请求。

步骤S202，响应于接收到请求，根据目标文本的特征向量与数据库中的每一类文本的中心向量之间的距离，确定目标文本的相似文本。

步骤S203，将相似文本发送给客户端进行显示。

其中，数据库中的文本是通过如下方式进行分类的：

确定数据库中的多个文本分别的特征向量；确定每个特征向量的相邻向量个数占向量总数的比例；根据比例、以及距离阈值与比例之间的预设对应关系，确定对应比例的目标距离阈值；根据目标距离阈值对多个文本进行分类，其中，每一类文本中各文本的特征向量与该类文本的中心向量之间的距离小于目标距离阈值。

例如，在案情分析的场景下，按照上述方式对数据库中76万条裁决文本进行了分类，具体的，将该76万条裁决文本分成了“绑架”、“盗窃”、“抢劫”和“诈骗”等多种罪行。以“盗窃罪”为例，有如下目标文本：“A市B区人民检察院指控：2016年7月28日12时许，被告人范某驾驶一辆无牌照(XX牌)弯梁摩托车到A市B区东湖小区，在18号楼内使用自制T型改锥工具将被害人赵某某的红色XX牌电动车偷走并藏匿于被告人范某在家中……”。用户想要查找该目标文本的相似文本，以根据相似文本对目标文本进行案情分析。具体的，用户可以在客户端的信息输入框中输入该目标文本，然后客户端可以向服务器发送包括该目标文本的请求，用于查找该目标文本的相似文本。服务器响应于接收到该请求，可以根据该请求包括的目标文本的特征向量与数据库中每一类文本的中心向量之间的距离，快速确定该目标文本的相似文本。比如，确定的相似文本为：“A市城区人民检察院指控：2017年3月28日12凌晨，被告人曾某某驾驶一辆无牌照三轮摩托车到A市城区郁金花园小区，在4号楼内使用U型改锥工具将被害人王某某的XX牌电动自行车偷走并藏匿与家中……”。然后，服务器可以将该相似文本发送给客户端进行显示，从而用户(比如办案人员)可以根据该相似文本对目标文本进行案情分析等等。

相较于相关技术，本公开中确定相似文本的方法无需对数据库的文本进行一一比对，而是将目标文本的特征向量与数据库中的每一类文本的中心向量进行比对，从而可以减少文本比对的时间，进而可以提高查找相似文本的效率，便于用户根据相似文本对目标文本进行分析等操作。

为了使本领域技术人员更加理解本公开实施例中确定相似文本的方法，下面对上述各步骤进行详细举例说明。

在一种可能的方式中，目标文本可以为案情笔录文本，数据库可以为案情数据库，用于存储已结案件的案情笔录文本以及对应的案件处理结果。相应地，服务器还可以从数据库中获取对应相似文本的案情处理结果，并根据相似文本的案情处理结果生成对目标文本的案件处理建议，然后将该案件处理建议发送给客户端进行显示。通过这样的方式，在案情分析的场景下，在确定相似案情之后，服务器还可以获取该相似案情的案情处理结果，从而服务器可以根据该案情处理结果生成对目标文本的案件处理建议，进而用户(比如办案人员)可以根据该相似案情进行案情分析，并根据处理建议确定目标案件的判罚情况等等。

在一种可能的方式中，请求可以包括用户在客户端的信息输入框中键入的文字信息，从而服务器在接收到该请求后，可以将该文字信息作为目标文本。在另一种可能的方式中，请求还可以包括内容为文本的目标图片。相应地，服务器在接收到该请求后，可以对该请求包括的目标图片进行光学字符ORC识别，获取目标文本。在获取目标文本之后，可以对目标文本进行分词，并在Word2vec模型中确定各分词对应的词向量。最后将各分词对应的词向量均值作为目标文本的特征向量，从而在步骤S202中可以根据目标文本的特征向量与数据库中的每一类文本的中心向量之间的距离，确定目标文本的相似文本。比如，在案情分析的场景下，案件笔录文本可能是人工撰写的，如果将该人工撰写的笔录逐字键入客户端的信息输入框中，过程较繁琐。因此办案人员在查找相似案情时，可以通过客户端将该案情笔录文本以图片的形式发送给服务器。服务器在接收到该图片后，可以对该图片进行光学字符ORC识别，获取目标文本，即获取该图片包括的案情笔录文本。

在获取到目标文本之后，服务器可以对该目标文本进行分词，以在Word2vec模型中确定各分词对应的词向量，然后将各分词对应的词向量均值作为目标文本的特征向量。其中，Word2vec模型是用来产生词向量的相关模型，可以将文本中的每个分词映射到一个词向量。因此，本公开实施例中，将目标文本进行分词后，可以在由Word2vec模型训练得到的词向量文件中找到每个分词所映射的词向量。应当理解的是，如果在词向量文件中没有找到分词对应的词向量，则可以将该分词的词向量记为零向量。

当目标文本中的每个分词的词向量确定之后，可以对所有词向量求均值，然后将该词向量均值作为目标文本的特征向量，即可以按照以下公式确定目标文本的特征向量：

其中，v表示目标文本的特征向量，n表示目标文本词所有分词的数量，e_k表示目标文本中第k个分词的词向量，Num(e)表示目标文本中可以在Word2vec模型中查找到词向量的分词数量。

在确定目标文本的特征向量之后，可以根据目标文本的特征向量与数据库中的每一类文本的中心向量之间的距离，确定目标文本的相似文本。示例地，目标文本的特征向量与数据库中的某一类文本的中心向量之间的距离可以通过该特征向量与中心向量之间的相似度而确定。具体的，可以按照以下公式，确定目标文本的特征向量与数据库中的每一类文本的中心向量之间的距离：

d＝1-sim(j₁,j₂) (2)

其中，d表示目标文本的特征向量j₁与数据库中的每一类文本的中心向量j₂之间的距离，sim(j₁,j₂)表示特征向量j₁与中心向量j₂之间的相似度。其中，向量之间的相似度可以按照以下公式进行确定：

其中，sim(e₁,e₂)表示向量e₁与向量e₂之间的相似度。

由于目标文本的特征向量与数据库中的每一类文本的中心向量之间的距离是根据相似度而确定，因此该距离可以表征目标文本与每一类文本的中心文本之间的相似度。如果距离越大，则说明目标文本与每一类文本的中心文本之间的相似度越低，而如果距离越小，则说明目标文本与每一类文本的中心文本之间的相似度越高。因此，按照上述方式确定目标文本的特征向量与数据库中的每一类文本的中心向量之间的距离后，可以确定该距离最小的文本类，然后在该文本类中确定目标文本的相似文本。

示例地，可以根据用户需求预先设定相似文本的数目，比如可以设定相似文本的数目为1，相应地，服务器可以在距离最小的文本类中确定与目标文本最相似的1篇文本发送给客户端进行显示。或者，可以设定相似文本的数目为10，相应地，服务器可以在距离最小的文本类中确定与目标文本最相似的10篇文本发送给客户端进行显示，等等。其中，在距离最小的文本类中确定最相似的文本可以是根据文本之间的相似度进行计算而确定的，具体过程与相关技术中类似，这里不再赘述。

通过上述方式，可以确定目标文本的特征向量与数据库中的每一类文本的中心向量之间的距离，从而可以根据该距离，确定目标文本的相似文本，无需对数据库的文本进行一一比对，减少了文本比对的时间，从而可以提高查找相似文本的效率。

下面对数据库中文本的分类过程进行说明。

参照图3，可以通过如下步骤，对数据库中的文本进行分类：

步骤S301，确定数据库中的多个文本分别的特征向量。

步骤S302，确定每个特征向量的相邻向量个数占向量总数的比例。

步骤S303，根据比例、以及距离阈值与比例之间的预设对应关系，确定对应比例的目标距离阈值。

步骤S304，根据目标距离阈值对多个文本进行分类。其中，每一类文本中各文本的特征向量与该类文本的中心向量之间的距离小于目标距离阈值。

也即是说，分类之后，每一文本类具有中心文本，该中心文本的特征向量为中心向量，且该文本类中其他文本的特征向量与该中心向量之间距离小于目标距离阈值，即每一文本类中所有文本的特征向量是包括在以中心向量为圆点，以目标距离阈值为半径的范围内的。通过这样的方式，目标距离阈值不是随机确定的，而是先根据每个特征向量的相邻向量个数占向量总数的比例、以及距离阈值与比例之间的预设对应关系而确定的，可以解决相关技术中由于随机选取目标距离阈值而导致对海量文本分类时间过长的问题，可以更加快速的得到文本分类结果。

在步骤S301中，数据库中多个文本的特征向量同样可以是先对每个文本进行分词，然后针对每个文本，在Word2vec模型中确定该文本中各分词对应的词向量，最后将各分词对应的词向量均值作为该文本的特征向量。即可以按照公式(1)确定数据库中多个文本中每个文本的特征向量。在可能的场景下，比如案情分析的场景下，案情文本通常是根据案情相关人员的口述进行整理记录的，因此可能由于描述方式不同而导致案情文本长度不一致，在长文本中信息量过于繁杂，容易受无关信息干扰，致使文本向量化后难以表达文本的所有特征。

为了解决上述问题，在本公开实施例中可以对数据库中的多个文本进行预处理，去除文本中的无用词，使得文本对应的特征向量可以更好的表达文本的特征，以保证后续文本分类的准确性，从而保证查找相似文本的准确性。

在一种可能的方式中，可以先对数据库中的多个文本进行预分类。然后，针对预分类后的每一文本类，确定文本类与文本类中分词之间的关系系数，若关系系数小于预设阈值，则在文本类中去除该分词。相应地，步骤S301可以是分别确定去除分词后的文本类中每个文本的特征向量。

应当理解的是，对数据库中的每个文本进行预分类之前，可以先确定数据库中每个文本的特征向量。相应地，对于文本进行预分类的过程可以是：先在多个文本中确定一个初始文本，并设定该初始文本属于第一文本类。然后，可以按照公式(3)分别计算该初始文本的特征向量与数据库中其他文本的特征向量之间的相似度。

如果初始文本的特征向量与数据库中其他文本的特征向量之间的相似度小于或等于预设相似度，则可以将其他文本与初始文本归为一类，即将该其他文本归类到第一文本类中。如果初始文本的特征向量与数据库中其他文本的特征向量之间的相似度大于预设相似度，则可以将其他文本归为第二文本类。然后，针对数据库中未进行相似度计算的文本，可以分别将该文本的特征向量与第一文本类和第二文本类中文本的特征向量进行相似度计算，然后按照上述方式将该相似度计算结果与预设相似度进行比对以确定该文本的归类，直到将所有文本预分类完成。针对预分类后的每一文本类，可以确定该文本类与该文本类中任一分词之间的关系系数。该关系系数可以用于表征分词在文本类中的重要程度。当关系系数小于预设阈值时，则说明该分词在文本类中不重要，从而可以忽略该分词，即在文本类中去除该分词。具体的，可以在文本类中包括的每一个文本中去除该分词。反之，当关系系数大于预设阈值时，则说明该分词在文本类中较重要，可以作为该文本类的一个特征，从而可以在文本类中保留该分词，即对文本类中的每一个文本中均不进行去除该分词的操作。

在一种可能的方式中，可以按照以下公式，确定文本类与文本类中分词之间的关系系数：

例如，预分类后得到了文本类A和B，目标文本类为文本类A，文本类A中包括文本a1和文本a2，文本类B中包括文本b1和文本b2，且文本a1和文本b1分别出现目标分词1次，文本a2和文本b2没有出现目标分词。在此种情况下，按照公式(3)确定目标文本类和目标分词之间的关系系数时，共有四个文本，因此N取4。多个文本预分类后得到了两个文本类，因此n取2。目标分词分别在文本a1和文本b1出现1次，没有出现在文本a2和文本b2中，因此多个文本中出现目标分词的总次数为2，即m取2。目标文本类A中文本a1出现了目标分词，文本a2没有出现目标分词，因此目标文本类中出现目标分词的文本数目为1，未出现目标分词的文本数目为1，即a取1，c取1。文本类B中文本b1出现了目标分词，文本b2没有出现目标分词，因此除目标文本类以外的其他文本类中出现目标分词的文本数目为1，未出现目标分词的文本数目为1，即b取1，d取1。

通过上述方式可以确定文本类与该文本类中分词之间的关系系数，若关系系数小于预设阈值，则可以在文本类中去除该分词，即去除文本中的无用词，使得文本对应的特征向量可以更好的表达文本的特征，以保证后续文本分类的准确性，从而保证查找相似文本的准确性。

例如，在刑侦案情的场景下，数据库中的某一文本为：“XX省XX县人民检察院指控：2015年10月27日7时许，被告人钟某窜至XX镇XX村村民周某乙的老房子中，想从里面寻找些废铜烂铁或者铜线变卖。钟某在房子附近观察确认屋内无人居住后，从随身携带的背包内拿出一把螺丝刀，将房门内的挂锁撬开进入室内实施盗窃。钟某在一楼没有搜寻到有价值的东西后，又从堂屋中间的木质楼梯爬到二楼阁楼继续盗窃。在钟某对二楼阁楼左侧房门进行破坏时，被当地村民当场抓获。”通过上述方式，可以将“2015年10月27日7时许”这类时间词、“一把”这类数字词、“钟某”这类人名、“的”和“是”这类助词以及“和”这些连词去除，而是将描述案情流程信息的分词保留，保证后续文本分类的准确性，从而保证查找相似文本的准确性。

在确定数据库中多个文本分别的特征向量之后，可以确定每个特征向量的相邻向量个数占向量总数的比例。应当理解的是，针对某一特征向量，其相邻向量可以是与该特征向量之间的距离小于某一距离阈值的向量。即，该特征向量与相邻向量位于以某一距离阈值为半径的范围内。示例地，比例的取值范围可以是[0.01，0.02，……，1]，即该比例可以分别为0.01、0.02、……、1，相应地，服务器102可以在上述取值范围内从0.01开始依次确定比例，比如可以确定比例的初始值为0.01，然后如果要迭代执行确定相似文本的方法，则可以在第二次执行过程中，确定比例为0.02，以此类推。应当理解的是，上述仅是对比例的取值范围的举例性说明，在其他可能的方式中，比例的取值范围还可以是其他数值范围，比如，比例的取值还可以是[0.01，0.015，……，0.5]，等等，本公开实施例对此不作限定，只要指定比例在一定取值范围内的依次取值即可。

确定每个特征向量的相邻向量个数占向量总数的比例之后，可以根据该比例、以及距离阈值与比例之间的预设对应关系，确定对应比例的目标距离阈值。在一种可能的方式中，距离阈值与比例之间的预设对应关系可以是：

取0，当d_ij小于d_c时，

取1。

也即是说，针对数据库中的多个文本，可以先分别计算每两个文本的特征向量之间(包括每个文本与其自身的特征向量之间)的距离，然后在确定每个特征向量的相邻向量个数占向量总数的比例C之后，可以根据公式(5)得到对应比例C的目标距离阈值，从而根据该目标距离阈值对多个文本进行分类。其中，如果根据公式(5)得到对应比例C的距离阈值范围，则可以在该距离阈值范围内随机确定一个距离阈值作为目标距离阈值进行文本分类。或者，根据公式(5)得到对应比例C的距离阈值，则可以直接将该距离阈值作为目标距离阈值进行文本分类。

对于文本分类的具体过程，在一种可能的方式中，可以分别确定每个特征向量的密度以及高距离，并确定每个特征向量的密度与高距离的乘积。然后，针对乘积从小到大的每个特征向量，分别确定该特征向量与其他特征向量之间的距离，其中，其他特征向量依次为乘积从大到小的特征向量。相应地，根据目标距离阈值对多个文本进行分类可以是若特征向量与其他特征向量之间的距离小于目标距离阈值，则将该特征向量对应的文本与其他特征向量对应的文本归为一类。

示例地，可以按照以下公式，确定每个特征向量的密度：

应当理解的是，在本公开实施例中，确定每个特征的密度过程中，并不是直接将两个特征向量之间的距离与目标距离阈值作差进行计算，而是加入高斯距离，即当d_ij大于或等于d_c'时，δ(d_ij-d_c')取0，当d_ij小于d_c时，δ(d_ij-d_c')为exp{-(d_ij/d_c)²}，从而可以更好地区分以目标距离阈值为半径的范围内的特征向量与该范围内中心点的靠近程度，使得每个特征向量的密度计算结果更加准确，进而得到更加准确的文本分类结果，提高查找相似文本的准确度。

示例地，对于某一特征向量，高距离可以是比其密度高的且离其最近的特征向量与该特征向量之间的距离值。比如，对于特征向量k1，其高距离可以表示为：

即先确定密度比特征向量k1高且与特征向量k1距离最近的特征向量k2，然后将特征向量k1与特征向量k2之间的距离确定为特征向量k1的高距离。

在分别确定每个特征向量的密度以及高距离之后，可以确定每个特征向量的密度与高距离的乘积，从而可以根据该乘积将特征向量进行排序，比如按照乘积从小到大的顺序，将特征向量进行排序。然后，可以将乘积最小的特征向量依次与乘积大的特征向量作距离计算。例如，可以先分别将乘积排序中的每个特征向量作为文本类的中心向量，然后确定乘积最小的特征向量与乘积最大的特征向量之间的距离。如果该距离小于或等于目标距离阈值，则将该乘积最小的特征向量与该乘积最大的特征向量归为一类，并将乘积最大的特征向量确定为该文本类的中心向量。如果距离大于目标距离阈值，则可以确定该乘积最小的特征向量与乘积第二大的特征向量之间的距离，如果该距离小于或等于目标距离阈值，则将该乘积最小的特征向量与该乘积第二大的特征向量归为一类，并且该乘积第二大的特征向量为该文本类中的中心向量，以此类推，直到确定了该乘积最小的特征向量所属的文本类，或者将该乘积最小的特征向量与其他所有特征向量进行比对完。然后，可以将乘积排序中第二小的特征向量按照上述方式进行分类，再将乘积排序中第三小的特征向量按照上述方式进行分类，以此类推，直到将所有特征向量遍历完。

应当理解的是，在将所有特征向量遍历完之后，可以结束文本分类过程，即将该次文本分类过程作为最终文本分类结果。或者，为了进一步提高文本分类结果的准确性，也可以迭代执行多次文本分类过程，直到满足迭代结束条件，然后将迭代结束时的文本分类结果作为最终文本分类结果，等等，本公开实施例对此不作限定。下面对可能的迭代执行过程进行说明。

在一种可能的方式中，针对乘积从小到大的每个特征向量，若特征向量与其他特征向量之间的距离均大于目标距离阈值，则可以将该特征向量归为奇异值。若属于奇异值的特征向量的个数超过预设个数，或者文本类的数目超过预设数目，则可以重新确定每个特征向量的相邻特征向量个数占向量总数的比例，再次执行根据比例、以及距离阈值与比例之间的预设对应关系，确定对应比例的目标距离阈值、以及根据目标距离阈值对多个文本进行分类的步骤。其中，奇异值用于表征没有所属文本类的特征向量，即若某一特征向量属于奇异值，则说明该特征向量没有归类到任一文本类。

示例地，预设个数和预设数目可以是根据实际情况确定的，本公开实施例对此不作限定。通过设定预设个数和预设数目，当属于奇异值的特征向量的个数超过该预设个数，或者文本类的数目超过该预设数目，则可以重新确定每个特征向量的相邻特征向量个数占向量总数的比例，再次执行步骤S303和步骤S304，以保证文本分类的准确性，进而提高查找相似文本的准确性。

应当理解的是，重新确定的比例应当比上次确定的比例大，以限定属于奇异值的特征向量的个数不超过预设个数，或者任一文本类中的文本数目不超过该预设数目。其中，由于属于奇异值的特征向量是指针对乘积从小到大的每个特征向量，该特征向量与其他特征向量之间的距离均大于目标距离阈值的特征向量，如果比例越大，目标距离阈值也越大，从而归类到奇异值的特征向量会越少。另外，比例越大，则说明任一文本类中包括的文本数目越多，那么最终得到文本类的数目越少。因此，通过增大比例，可以限定属于奇异值的特征向量的个数不超过预设个数，或者任一文本类中的文本数目不超过该预设数目。

下面通过另一示例性实施例对本公开中数据库的文本分类过程进行说明。参照图4，该文本分类过程可以包括以下步骤：

步骤S401，对数据库中的多个文本进行分词处理，并在Word2vec模型中确定各分词对应的词向量。

步骤S402，针对多个文本中的每个文本，将该文本中各分词的词向量均值作为该文本的特征向量。

步骤S403，对数据库中的多个文本进行预分类。

步骤S404，针对预分类后的每一文本类，确定文本类与该文本类中分词之间的关系系数。

步骤S405，若关系系数小于预设阈值，则在文本类中去除该对应分词。

步骤S406，分别确定去除分词后的文本类中每个文本的特征向量。

步骤S407，确定每个特征向量的相邻向量个数占向量总数的比例。

步骤S408，根据比例、以及距离阈值与比例之间的预设对应关系，确定对应比例的目标距离阈值。

步骤S409，分别确定每个特征向量的密度以及高距离，并确定每个特征向量的密度与高距离的乘积。

步骤S410，针对乘积从小到大的每个特征向量，分别确定该特征向量与其他特征向量之间的距离，其中，其他特征向量依次为所述乘积从大到小的特征向量。

步骤S411，若特征向量与其他特征向量之间的距离小于目标距离阈值，则将特征向量对应的文本与其他特征向量对应的文本归为一类。

步骤S412，针对乘积从小到大的每个特征向量，若该特征向量与其他特征向量之间的距离均大于目标距离阈值，则将该特征向量归为奇异值。

步骤S413，确定属于奇异值的特征向量的个数是否超过预设个数，或者文本类的数目是否超过预设数目，如果是，则进入步骤S414，否则结束文本分类过程。

步骤S414，重新确定每个特征向量的相邻特征向量个数占向量总数的比例，进入步骤S408。

上述各步骤的具体实施方式已在上文进行详细举例说明，这里不再赘述。另外应当理解的是，对于上述方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受上文所描述的动作顺序的限制。其次，本领域技术人员也应该知悉，上文所描述的实施例属于优选实施例，所涉及的步骤并不一定是本公开所必须的。

通过上述方式对数据库中的多个文本进行分类，由于不是随机确定目标距离阈值，可以减少文本的分类时间，更加快速的得到文本分类结果。并且，可以限定属于奇异值的特征向量的个数不超过预设个数，或者任一文本类中的文本数目不超过该预设数目，从而得到更加准确的文本分类结果，进而提高查找相似文本的准确度。

例如，分别使用相关技术中的K-means方法、随机选择目标距离阈值d_c'的方法以及本公开中的文本分类方法对随机抽取的1000篇文本数据进行文本分类，然后根据各种文本分类，查找目标文本的相似文本，并对该相似文本和目标文本进行比对分析，以确定每种分类方法中查找相似文本的准确率。具体的，准确率结果如表1所示：

表1

文本分类方法	Top-1	Top-10	Top-50
				K-means方法	71.32％	74.54％	68.10％
随机选择第一次d<sub>c</sub>'	84.66％	79.20％	80.30％
				随机选择第二次d<sub>c</sub>'	82.31％	76.49％	79.55％
本公开固定d<sub>c</sub>'	89.14％	80.16％	76.14％
				本公开调整d<sub>c</sub>'	90.85％	85.67％	87.60％

其中，Top-1表示查找1篇相似文本的准确率，Top-10表示查找10篇相似文本的准确率，Top-50表示查找50篇相似文本的准确率。

根据表1所示可知，使用K-means方法，查找到的相似文本的准确率较低。使用随机选择目标距离阈值d_c'的方式，测试了两次得到的结果准确率差别很大，而且准确率的波动也很大。使用本公开中固定目标距离阈值d_c'(即只进行一次文本分类过程，目标距离阈值d_c'为一固定值)的方法，准确率较K-means方法和使用随机选择目标距离阈值d_c'的方式有明显提升。进一步，使用本公开中调整目标距离阈值d_c'(即迭代进行文本分类过程，每一次迭代过程中调整目标距离阈值d_c')的方法，准确率又可以得到进一步的提升，从而得到更加准确的相似文本查找结果。

基于同一发明构思，参照图5，本公开实施例还提供一种确定相似文本的装置500，应用于服务器，可以通过软件、硬件或者两者结合的方式成为服务器的部分或全部，可以包括：

接收模块501，用于接收客户端发送的用于查找目标文本的相似文本的请求；

文本确定模块502，用于响应于接收到所述请求，根据所述目标文本的特征向量与数据库中的每一类文本的中心向量之间的距离，确定所述目标文本的相似文本；

发送模块503，用于将所述相似文本发送给所述客户端进行显示；

其中，所述数据库中的文本是通过如下模块进行分类的：向量确定模块(未示出)，用于确定所述数据库中的多个文本分别的特征向量；比例确定模块(未示出)，用于确定每个特征向量的相邻向量个数占向量总数的比例；阈值确定模块(未示出)，用于根据所述比例、以及距离阈值与比例之间的预设对应关系，确定对应所述比例的目标距离阈值；分类模块(未示出)，用于根据所述目标距离阈值对所述多个文本进行分类，其中，每一类文本中各文本的特征向量与该类文本的中心向量之间的距离小于所述目标距离阈值。

可选地，所述目标文本为案情笔录文本，所述数据库为案情数据库，用于存储已结案件的案情笔录文本以及对应的案件处理结果，所述装置500还包括：获取模块，用于从所述数据库中获取对应所述相似文本的案情处理结果；生成模块，用于根据所述相似文本的案情处理结果生成对所述目标文本的案件处理建议；建议发送模块，用于将所述案件处理建议发送给所述客户端进行显示。

可选地，所述请求包括内容为文本的目标图片，所述装置500还包括：

识别模块，用于对所述目标图片进行光学字符ORC识别，获取所述目标文本；分词模块，用于对所述目标文本进行分词，并在Word2vec模型中确定各分词对应的词向量；第一确定模块，用于将所述各分词对应的词向量均值作为所述目标文本的特征向量。

可选地，所述距离阈值与比例之间的预设对应关系为：

取0，当d_ij小于d_c时，

取1。

可选地，所述装置500还包括预分类模块，用于对所述数据库中的多个文本进行预分类；第二确定模块，用于针对预分类后的每一文本类，确定所述文本类与所述文本类中分词之间的关系系数，所述关系系数用于表征所述分词在所述文本类中的重要程度；去除模块，用于当所述关系系数小于预设阈值时，在所述文本类中去除所述分词；所述向量确定模块用于分别确定去除分词后的文本类中每个文本的特征向量。

可选地，所述第二确定模块用于按照以下公式，确定所述文本类与所述文本类中分词之间的关系系数：

可选地，所述装置500还包括第三确定模块，用于分别确定每个特征向量的密度以及高距离，并确定每个特征向量的密度与高距离的乘积；第四确定模块，用于针对所述乘积从小到大的每个特征向量，分别确定所述特征向量与其他特征向量之间的距离，其中，所述其他特征向量依次为所述乘积从大到小的特征向量；所述分类模块用于当所述特征向量与所述其他特征向量之间的距离小于所述目标距离阈值时，将所述特征向量对应的文本与所述其他特征向量对应的文本归为一类。

可选地，所述第三确定模块用于按照以下公式，确定所述每个特征向量的密度：

可选地，所述装置500还包括第五确定模块，用于针对所述乘积从小到大的每个特征向量，当所述特征向量与其他特征向量之间的距离均大于所述目标距离阈值时，将所述特征向量归为奇异值；通知模块，用于当属于所述奇异值的特征向量的个数超过预设个数，或者文本类的数目超过预设数目时，重新确定每个特征向量的相邻特征向量个数占向量总数的比例，并通知所述阈值确定模块以及所述分类模块分别再次执行所述根据所述比例、以及距离阈值与比例之间的预设对应关系，确定对应所述比例的目标距离阈值、以及根据所述目标距离阈值对所述多个文本进行分类的步骤。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

通过上述任一装置，可以将数据库中的多个文本进行分类，分类后的每一类文本对应有中心向量，因此，服务器接收到客户端发送的用于查找目标文本的相似文本的请求后，可以根据目标文本的特征向量与数据库中的每一类文本的中心向量之间的距离，确定目标文本的相似文本。通过这样的方式，无需对数据库的文本进行一一比对，可以减少文本比对的时间，从而可以提高查找相似文本的效率。

基于同一发明构思，本公开实施例还提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现上述任一确定相似文本的方法的步骤。

在可能的方式中，该电子设备的框图可以如图6所示。参照图6，该电子设备600可以被提供为一服务器。参照图6，电子设备600包括处理器622，其数量可以为一个或多个，以及存储器632，用于存储可由处理器622执行的计算机程序。存储器632中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器622可以被配置为执行该计算机程序，以执行上述的确定相似文本的方法。另外，电子设备600还可以包括电源组件626和通信组件650，该电源组件626可以被配置为执行电子设备600的电源管理，该通信组件650可以被配置为实现电子设备600的通信，例如，有线或无线通信。此外，该电子设备600还可以包括输入/输出(I/O)接口658。电子设备600可以操作基于存储在存储器632的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的确定相似文本的方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器632，上述程序指令可由电子设备600的处理器622执行以完成上述的确定相似文本的方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种确定相似文本的方法，其特征在于，应用于服务器，包括：

接收客户端发送的用于查找目标文本的相似文本的请求；

将所述相似文本发送给所述客户端进行显示；

其中，所述数据库中的文本是通过如下方式进行分类的：

确定所述数据库中的多个文本分别的特征向量；确定每个特征向量的相邻向量个数占向量总数的比例；根据所述比例、以及距离阈值与比例之间的预设对应关系，确定对应所述比例的目标距离阈值；根据所述目标距离阈值对所述多个文本进行分类，其中，每一类文本中各文本的特征向量与该类文本的中心向量之间的距离小于所述目标距离阈值；

所述距离阈值与比例之间的预设对应关系为：