CN111126054B

CN111126054B - 确定相似文本的方法、装置、存储介质及电子设备

Info

Publication number: CN111126054B
Application number: CN201911223234.1A
Authority: CN
Inventors: 贾弼然; 崔朝辉; 赵立军; 张霞
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2024-03-05
Anticipated expiration: 2039-12-03
Also published as: CN111126054A

Abstract

本公开涉及一种确定相似文本的方法、装置、存储介质及电子设备，以避免匹配出与目标文本描述方式相似，但是关键部分不同的相似文本。该方法包括：接收客户端发送的用于查找目标文本的相似文本的请求；响应于接收到该请求，将目标文本输入文本匹配模型中，得到与目标文本对应的相似文本；将相似文本发送给客户端进行显示；其中，文本匹配模型用于：对目标文本中的分词标注用于表征该分词语义类型的标签；针对多个模板文本中的每个模板文本，对模板文本与目标文本中标签相同的分词进行相似度计算，以得到模板文本与目标文本间的相似度；根据该相似度，在多个模板文本中确定与目标文本对应的相似文本。

Description

确定相似文本的方法、装置、存储介质及电子设备

技术领域

本公开涉及文本处理技术领域，具体地，涉及一种确定相似文本的方法、装置、存储介质及电子设备。

背景技术

现有技术中确定相似文本的方法大多都是根据目标文本的所有文本信息进行匹配，得到目标文本对应的相似文本。此种方式往往容易匹配出与目标文本描述方式相似，但是关键部分不同的相似文本。比如在查找相似案情的场景下，针对案情的描述方式大多相似，如果用户想要查找与盗窃1万元案情对应的相似案情，按照相关技术的方案，可能不仅会查找出盗窃1万元的相似案情，还会查找出盗窃10万元、盗窃50万元等所有与盗窃相关的案情返回给用户，用户在接收到该多个案情后，还需进行人工筛选，排除盗窃数额不是1万元的案情，最终得到与盗窃1万元的案情对应的相似案情。

发明内容

本公开的目的是提供一种确定相似文本的方法、装置、存储介质及电子设备，以解决相关技术在确定相似文本的过程中存在的问题。

为了实现上述目的，第一方面，本公开提供一种确定相似文本的方法，应用于服务器，包括：

接收客户端发送的用于查找目标文本的相似文本的请求；

响应于接收到所述请求，将所述目标文本输入文本匹配模型中，得到与所述目标文本对应的相似文本；

将所述相似文本发送给所述客户端进行显示；

其中，所述文本匹配模型中包括多个模板文本，每个模板文本中的分词标注有用于表征该分词语义类型的标签，所述文本匹配模型用于通过如下方式确定与所述目标文本对应的相似文本：

对所述目标文本中的分词标注用于表征该分词语义类型的标签；

针对所述多个模板文本中的每个模板文本，对所述模板文本与所述目标文本中标签相同的分词进行相似度计算，以得到所述模板文本与所述目标文本间的相似度；

根据所述相似度，在所述多个模板文本中确定与所述目标文本对应的相似文本。

可选地，所述目标文本为用于描述案情信息的文本，所述文本匹配模型中还包括每个模板文本对应的公诉信息，所述方法还包括：

获取所述相似文本的公诉信息，并根据所述相似文本的公诉信息生成对所述目标文本的公诉建议；

将所述公诉建议发送给所述客户端进行显示。

可选地，在对所述目标文本中的分词标注用于表征该分词语义类型的标签之后，所述方法还包括：

将标注标签后的目标文本发送给所述客户端进行显示；

接收客户端发送的用于删除目标标签的目标请求；

响应于所述目标请求，对所述目标文本进行删除操作，以删除所述目标文本中的所述目标标签以及所述目标标签对应的分词；

所述将所述模板文本与所述目标文本中标签相同的分词进行相似度计算，包括：

对所述模板文本与进行删除操作后的目标文本中标签相同的分词进行相似度计算。

可选地，所述对所述目标文本中的分词标注用于表征该分词语义类型的标签，包括：

将所述目标文本输入到标签模型中，得到所述目标文本中分词对应的用于表征该分词语义类型的标签，其中，所述标签模型是根据已标注标签的多个训练文本进行训练而得到的。

可选地，所述对所述模板文本与所述目标文本中标签相同的分词进行相似度计算，以得到所述模板文本与所述目标文本间的相似度，包括：

针对所述目标文本中的每个标签，对所述模板文本与所述目标文本中该标签对应的分词进行相似度计算；

根据标签对应的预设权重值，将所述模板文本与所述目标文本中各标签对应的相似度计算结果进行加权求和，得到所述模板文本与所述目标文本间的相似度。

可选地，所述模板文本和所述目标文本中同一标签对应的分词有多个，所述对所述模板文本与所述目标文本中该标签对应的分词进行相似度计算，包括：

针对所述目标文本中该标签对应的每个分词，确定所述分词分别与所述模板文本中该标签对应的多个分词之间的分词相似度，并在所述每个分词对应的多个分词相似度中确定最大分词相似度；

将所述目标文本中该标签对应的多个最大分词相似度进行平均值计算，得到所述模板文本与所述目标文本中该标签对应的分词相似度。

可选地，所述确定所述分词分别与所述模板文本中该标签对应的多个分词之间的分词相似度，包括：

若该标签对应的分词类型为字符类型，则按照以下公式确定所述分词与所述模板文本中该标签对应的每个分词之间的分词相似度：

其中，sim(v_i,v_j)表示分词v_i与分词v_j之间的分词相似度，e_i表示分词v_i对应的词向量，e_j表示分词v_j对应的词向量。

若该标签对应的分词类型为数值类型，则按照以下公式确定所述分词与所述模板文本中该标签对应的每个分词之间的分词相似度：

其中，sim(v_i,v_j)表示分词v_i与分词v_j之间的分词相似度，max(v_i,v_j)表示v_i与v_j之间的较大值。

第二方面，本公开还提供一种确定相似文本的装置，应用于服务器，包括：

接收模块，用于接收客户端发送的用于查找目标文本的相似文本的请求；

处理模块，用于响应于接收到所述请求，将所述目标文本输入文本匹配模型中，得到与所述目标文本对应的相似文本；

发送模块，用于将所述相似文本发送给所述客户端进行显示；

其中，所述文本匹配模型中包括多个模板文本，每个模板文本中的分词标注有用于表征该分词语义类型的标签，所述处理模块包括：

标注子模块，用于对所述目标文本中的分词标注用于表征该分词语义类型的标签；

计算子模块，用于针对所述多个模板文本中的每个模板文本，对所述模板文本与所述目标文本中标签相同的分词进行相似度计算，以得到所述模板文本与所述目标文本间的相似度；

确定子模块，用于根据所述相似度，在所述多个模板文本中确定与所述目标文本对应的相似文本。

第三方面，本公开还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中任一项所述方法的步骤。

第四方面，本公开还提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现第一方面中任一项所述方法的步骤。

通过上述技术方案，文本匹配模型中包括多个模板文本，每个模板文本中的分词标注有用于表征该分词语义类型的标签，因此在对目标文本的分词标注用于表征该分词语义类型的标签后，可以对模板文本与目标文本中标签相同的分词进行相似度计算，而不是针对目标文本的所有文本信息进行相似度计算，从而可以避免匹配出与目标文本描述方式相似，但是关键部分不同的相似文本，减少向用户返回的相似文本数量，使得用户无需再人工排除关键部分与目标文本不同的文本以最终得到目标文本对应的相似文本，进而提高确定相似文本的效率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据本公开一示例性实施例示出的一种确定相似文本的方法的实施场景示意图；

图2是根据本公开一示例性实施例示出的一种确定相似文本的方法的流程图；

图3是根据本公开一示例性实施例示出的一种确定相似文本的方法中预设标签集的示意图；

图4是根据本公开一示例性实施例示出的一种确定相似文本的方法中对模板文本标注标签后的示意图；

图5是根据本公开一示例性实施例示出的一种确定相似文本的方法中模板文本的示意图；

图6是根据本公开另一示例性实施例示出的一种确定相似文本的方法中模板文本的流程图；

图7是根据本公开一示例性实施例示出的一种确定相似文本的装置的框图；

图8是根据本公开一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

现有技术中确定相似文本的方法大多都是根据目标文本的所有文本信息进行匹配，得到目标文本对应的相似文本。此种方式往往容易匹配出与目标文本描述方式相似，但是关键部分不同的相似文本。即使去除文本中的连词、虚词、助词等无用的词语，也仍无法避免前述问题。比如在查找相似案情的场景下，针对案情的描述方式大多相似，如果用户想要查找与盗窃1万元案情对应的相似案情，按照相关技术的方案，可能不仅会查找出盗窃1万元的相似案情，还会查找出盗窃10万元、盗窃50万元等所有与盗窃相关的案情返回给用户，用户在接收到该多个案情后，还需进行人工筛选，排除盗窃数额不是1万元的案情，最终得到与盗窃1万元的案情对应的相似案情。

有鉴于此，本公开实施例提供一种确定相似文本的方法、装置、存储介质及电子设备，以避免匹配出与目标文本描述方式相似，但是关键部分不同的相似文本，提高确定相似文本的效率。

首先说明本公开实施例可能的实施场景。参照图1，该实施场景可以包括客户端101(图1中以电脑示意)和服务器102。用户可以在客户端101的信息输入框中输入目标文本。客户端101可以响应于用户的输入完成信息，比如客户端101可以响应于接收到用户点击“提交”按钮的信息，向服务器102发送用于查找目标文本的相似文本的请求，该请求包括目标文本。服务器102接收到该请求后，可以响应于该请求，将目标文本输入文本匹配模型中，得到与目标文本对应的相似文本，然后将该相似文本发送给客户端101进行显示，从而用户可以根据该相似文本对目标文本进行分析等等。比如，在查找相似案情的场景下，服务器102可以将查找到的相似案情发送给客户端101进行显示，从而公诉人员可以根据该相似案情对目标案情进行分析，以确定对目标案情的公诉建议等等。

以图1所示的场景为例，下面对本公开实施例中确定相似文本的方法进行详细举例说明。图2是根据本公开一示例性实施例示出的一种确定相似文本的方法的流程图。该方法可以应用于图1所示的服务器102，可以包括：

步骤201，接收客户端发送的用于查找目标文本的相似文本的请求。

步骤202，响应于接收到该请求，将目标文本输入文本匹配模型中，得到与目标文本对应的相似文本。

步骤203，将相似文本发送给客户端进行显示。

其中，文本匹配模型中包括多个模板文本，每个模板文本中的分词标注有用于表征该分词语义类型的标签，文本匹配模型用于通过如下方式确定与目标文本对应的相似文本：

对目标文本中的分词标注用于表征该分词语义类型的标签；

针对多个模板文本中的每个模板文本，对模板文本与目标文本中标签相同的分词进行相似度计算，以得到模板文本与目标文本间的相似度；

根据该相似度，在多个模板文本中确定与目标文本对应的相似文本。

通过上述方式，可以对模板文本与目标文本中标签相同的分词进行相似度计算，而不是针对目标文本的所有文本信息进行相似度计算，从而可以避免匹配出与目标文本描述方式相似，但是关键部分不同的相似文本，减少向用户返回的相似文本数量，使得用户无需再人工排除关键部分与目标文本不同的文本以最终得到目标文本对应的相似文本，提高确定相似文本的效率。

为了使本领域技术人员更加理解本公开实施例中确定相似文本的方法，下面对上述各步骤进行详细举例说明。

在步骤201之前，用户可以在客户端的信息输入框中输入目标文本，客户端可以响应于用户的输入完成信息，比如客户端可以响应于接收到用户点击“提交”按钮的信息，获取该信息输入框中的目标文本，并将该目标文本发送给服务器。在此种情况下，步骤201中的请求可以包括用户在客户端的信息输入框中键入的文字信息，从而服务器在接收到该请求后，可以将该文字信息作为目标文本。

在另一种可能的方式中，用户可以在客户端的信息输入框中输入内容为文字的目标图片，客户端可以响应于用户的输入完成信息，比如客户端可以响应于接收到用户点击“提交”按钮的信息，获取该信息输入框中的目标图片，并将该目标图片发送给服务器。在此种情况下，步骤201中的请求可以包括内容为文本的目标图片。相应地，服务器在接收到该请求后，可以对该请求包括的目标图片进行光学字符ORC识别，获取到目标文本。

应当理解的是，上述仅是对获取目标文本的方式进行的举例性说明，并不用于限制本公开，本公开在具体实施时，也可以通过其他方式获取目标文本，比如可以对用户输入的语音信息进行转换得到目标文本，等等，本公开实施例对此不作限定。

在可能的方式中，目标文本可以为用于描述案情信息的文本，文本匹配模型中还可以包括每个模板文本对应的公诉信息，相应地，服务器还可以获取相似文本的公诉信息，并根据相似文本的公诉信息生成对目标文本的公诉建议，然后将公诉建议发送给客户端进行显示。

其中，公诉信息可以包括案情的公诉机关信息、公诉证据信息、公诉判罚信息等。在目标文本为用于描述案情信息的文本的场景下，在确定相似案情(即相似文本)之后，可以根据该相似案情的公诉信息中包括的判罚信息，生成目标案情对应的公诉建议。比如，目标案情是盗窃1万元的入室盗窃案件，查找到与该目标案情对应的一件相似案情的公诉信息是：“公诉机关认为被告人有犯罪前科，酌定从重处罚，建议判处被告人六个月以上有期徒刑，并处罚金”。在此种情况下，生成的与目标案情对应的公诉建议可以是“六个月以上有期徒刑，并处罚金”。在生成该公诉建议之后，服务器可以将该公诉建议发送给客户端进行显示，从而公诉人员可以根据该公诉建议向人民法院提起公诉。通过此种方式，可以实现案情公诉建议的自动化生成，提高公诉人员获得案情公诉建议的效率。

下面对将目标文本输入到文本匹配模型中进行处理，得到与目标文本对应的相似文本的过程进行详细举例说明。

文本匹配模型可以包括多个模板文本，每个模板文本中的分词可以标注有用于表征该分词语义类型的标签，从而在后续标注出目标文本中各分词用于表征语义类型的标签后，可以将模板文本与目标文本中标签相同的分词进行相似度计算。

示例地，可以预先对模板文本中的每个分词人为标注用于表征分词语义类型的标签，或者也可以根据预设标签集，对模板文本中的部分分词人为标注用于表征分词语义类型的标签。例如，在用于查找相似案情确定公诉建议的场景下，预设标签集如图3所示，根据该预设标签集对某一案情对应的公诉书进行人为标注，可以得到如图4所示的结果。参照图4，该文本中的部分分词被标注用于表征分词语义类型的标签，比如分词“2017年10月2日晚”被标注时间点标签，分词“王1某”被标注姓名标签等等。

文本匹配模型可以对目标文本的分词标注用于表征该分词语义类型的标签，从而在后续过程中可以将目标文本与模板文本中标签相同的分词进行相似度计算。在可能的方式中，可以将目标文本输入到标签模型中，得到目标文本中分词对应的用于表征该分词语义类型的标签，其中，标签模型是根据已标注标签的多个训练文本进行训练而得到的。

示例地，训练文本可以是文本匹配模型中已标注标签的模板文本，也可以是区别于该模板文本的其他文本，本公开实施例对此不作限定。应当理解的是，为了减少文本获取量和文本处理量，可以优先根据文本匹配模型中已标注标签的模板文本进行训练得到标签模型。

通过上述方式，针对目标文本中的分词可以通过标签模型标注用于表征分词语义类型的标签，因此通过该标签可以确定与目标文本主要内容最相关的分词用于相似度计算，而不是将目标文本的所有信息用于相似度计算，避免向用户返回描述方式相似但关键部分不同的相似文本。并且，通过上述方式无需进行人为标注，可以节省人力和时间，进而提高确定相似文本的效率。

在可能的方式中，在对目标文本中的分词标注用于表征该分词语义类型的标签之后，还可以进一步剔除一些没那么重要的标签。比如，在上述举例中，在用于查找相似案情确定公诉建议的场景下，时间点标签、被告人标签、姓名标签、地点标签等，仅是用于表征案情基本信息的标签，对于案情的最终裁定影响不大，因此可以在对模板文本与目标文本中标签相同的分词进行相似度计算之前，先去除这些不重要的标签，以减少计算量，提高计算效率，进而提高确定相似文本的效率。

在可能的方式中，待去除的标签可以是用户自定义的。也即是说，在本公开实施例中，可以将标注标签后的目标文本发送给客户端进行显示，然后服务器可以接收客户端发送的用于删除目标标签的目标请求，并响应于该目标请求，对目标文本进行删除操作，以删除目标文本中的目标标签以及目标标签对应的分词，最后对模板文本与进行删除操作后的目标文本中标签相同的分词进行相似度计算。

例如，在用于查找相似案情确定公诉建议的场景下，服务器可以将标注标签后的目标文本发送给客户端进行显示，用户可以在客户端的输入框中输入想要删除的目标标签的名称，比如用户想要删除时间点标签，那么用户可以在客户端输入标签名称“时间点”。在用户输入完想要删除的标签名称后，可以点击提交。客户端响应于用户点击提交的操作，可以向服务器发送用于删除目标标签的目标请求，该目标请求包括目标标签的名称。服务器响应于该目标请求，可以将目标文本中的目标标签以及目标标签对应的分词进行删除，然后服务器可以对模板文本与进行删除操作后的目标文本中标签相同的分词进行相似度计算。

应当理解的是，对于模板文本，在标注用于表征分词语义类型的标签之后，同样可以删除一些没那么重要的标签。例如，在用于查找相似案情确定公诉建议的场景下，模板文本对已结案件的起诉书，删除模板文本中一些没那么重要的标签后，可以根据剩余标签以及剩余标签对应的分词，生成如图5所示的文本形式。通过这样的方式，由于是对模板文本和目标文本中标签相同的分词进行相似度计算，即使不删除目标文本中不重要的标签，也可以减少计算量，提高计算效率，进而提高确定相似文本的效率。

在对目标文本中的分词标注用于表征该分词语义类型的标签之后，可以针对多个模板文本中的每个模板文本，对该模板文本与目标文本中标签相同的分词进行相似度计算，以得到模板文本与所述目标文本间的相似度。

在可能的方式中，可以针对目标文本中的每个标签，对模板文本与目标文本中该标签对应的分词进行相似度计算。然后，根据标签对应的预设权重值，将模板文本与目标文本中各标签对应的相似度计算结果进行加权求和，得到模板文本与目标文本间的相似度。

首先对模板文本与目标文本中相同标签对应的分词进行相似度计算的过程进行说明。

在可能的方式中，模板文本与目标文本中同一标签对应的分词均为一个，则可以将模板文本与目标文本中同一标签对应的分词进行相似度计算后的结果直接作为该标签对应的分词相似度。比如在案情文本的场景下，模板文本中作案方式标签对应的分词为A分词这一个分词，目标文本中作案方式标签对应的分词为B分词这一个分词。在此种情况下，可以将A分词与B分词进行相似度计算后的结果作为该标签对应的分词相似度。

在另一种可能的方式中，模板文本与目标文本中同一标签对应的分词有多个，那么可以先针对目标文本中该标签对应的每个分词，确定该分词分别与模板文本中该标签对应的多个分词之间的分词相似度，并在每个分词对应的多个分词相似度中确定最大分词相似度，然后将目标文本中该标签对应的多个最大分词相似度进行平均值计算，得到模板文本与目标文本中该标签对应的分词相似度。

例如，目标文本中标签1对应的分词有A1分词和A2分词，模板文本中标签1对应的分词有B1分词、B2分词和B3分词。在此种情况下，可以针对目标文本中标签1对应的A1分词和A2分词，分别确定与模板文本中标签1对应的B1分词、B2分词和B3分词之间的分词相似度。也即是说，可以在A1分词分别与B1分词、B2分词和B3分词之间的分词相似度中，确定一个最大分词相似度，在A2分词分别与B1分词、B2分词和B3分词之间的分词相似度中，确定另一个最大分词相似度，从而可以得到标签1对应的两个最大分词相似度。然后可以对该两个最大分词相似度进行平均值计算，以得到模板文本与目标文本中标签1对应的分词相似度。

在上述过程中，对于目标文本中某一标签的分词分别与模板文本中该标签对应的多个分词之间的分词相似度，可以根据分词的类型，通过不同的方式进行确定。

在可能的方式中，若标签对应的分词类型为字符类型，则可以按照以下公式确定该分词与模板文本中该标签对应的每个分词之间的分词相似度：

应当理解的是，词向量可以用于表征分词的语义特征，用法越相同的分词，语义就越相近，词向量也越相似，从而可以通过词向量进行分词相似度计算。分词对应的词向量的确定方式与相关技术中类似，这里不再赘述。

例如，目标文本的标签2对应K个分词，模板文本的标签2对应L个分词，并且该K个分词和L个分词的分词类型均为字符类型，那么可以先按照公式(1)分别确定K个分词中每个分词与L个分词之间的分词相似度，得到该每个分词对应的多个分词相似度，然后可以在该多个分词相似度中确定最大分词相似度，由于有K个分词，因此可以得到K个最大分词相似度，然后可以对该K个分词相似度进行平均值计算，最终得到模板文本与目标文本中标签2对应的分词相似度。具体的，上述确定模板文本与目标文本中标签2对应的分词相似度的过程可以通过以下公式进行表示：

其中，sim2表示确定模板文本与目标文本中标签2对应的分词相似度。

当然，在其他可能的方式中，也可以先针对模板文本中标签对应的每个分词，确定该分词分别与目标文本中该标签对应的多个分词之间的分词相似度，并在每个分词对应的多个分词相似度中确定最大分词相似度，然后将模板文本中该标签对应的多个最大分词相似度进行平均值计算，得到模板文本与目标文本中该标签对应的分词相似度。相应地，上述举例中确定模板文本与目标文本中标签2对应的分词相似度的过程可以通过以下公式进行表示：

在另一种可能的方式中，若该标签对应的分词类型为数值类型，则可以按照以下公式确定分词与模板文本中该标签对应的每个分词之间的分词相似度：

应当理解的是，按照公式(4)进行相似度计算时，由于分词是数值类型，因此可以直接将分词进行相减，并且可以确定两个分词之间的较大值。

例如，目标文本的标签3对应K个分词，模板文本的标签3对应L个分词，并且该K个分词和L个分词的分词类型均为数值类型，那么可以先按照公式(4)分别确定K个分词中每个分词与L个分词之间的分词相似度，得到该每个分词对应的多个分词相似度，然后可以在该多个分词相似度中确定最大分词相似度，由于有K个分词，因此可以得到K个最大分词相似度，然后可以对该K个分词相似度进行平均值计算，最终得到模板文本与目标文本中标签3对应的分词相似度。具体的，上述确定模板文本与目标文本中标签3对应的分词相似度的过程可以通过以下公式进行表示：

其中，sim3表示模板文本与目标文本中标签3对应的分词相似度。

同样地，在其他可能的方式中，也可以先针对模板文本中标签对应的每个分词，确定该分词分别与目标文本中该标签对应的多个分词之间的分词相似度，并在每个分词对应的多个分词相似度中确定最大分词相似度，再将模板文本中该标签对应的多个最大分词相似度进行平均值计算，得到模板文本与目标文本中该标签对应的分词相似度。相应地，上述举例中确定模板文本与目标文本中标签3对应的分词相似度的过程可以通过以下公式进行表示：

应当理解的是，在本公开实施例中计算的是模板文本与目标文本中标签相同的分词，对于模板文本与目标文本标签不相同的分词，其分词相似度可以确定为0。比如，模板文本中具有标签4，目标文本中没有标签4，那么在进行相似度计算时，标签4对应的分词相似度可以确定为0。

通过上述方式得到模板文本与目标文本中标签相同的每个标签对应的分词相似度之后，可以根据标签对应的预设权重值，将模板文本与目标文本中各标签对应的相似度计算结果进行加权求和，得到模板文本与目标文本间的相似度。

示例地，标签对应的预设权重值可以是用户根据实际情况预先设定的，每个标签可以对应一个预设权重值，每个标签对应的预设权重值可以不同，也可以相同。应当理解的是，标签的预设权重值越大，则查找出与该标签对应的分词相近的相似文本的可能性就越高，反之标签的预设权重值越小，则查找出与该标签对应的分词相近的相似文本的可能性就越低。因此，通过设定预设权重值，还可以得到更符合用户期望的结果。

在可能的情况下，如果目标文本中进行相似度计算的标签个数为M，那么可以设定每个标签对应的预设权重值均为1/M。相应地，可以通过如下公式得到模板文本与目标文本间的相似度：

其中，sim(d_i,d_j)表示模板文本d_i与目标文本d_j间的相似度，M表示目标文本中进行相似度计算的标签个数，w_m表示第m个标签对应的预设权重值，sim_m表示第m个标签对应的分词相似度。

通过上述方式可以得到文本匹配模型中每个模板文本与目标文本之间的相似度，然后可以根据该相似度，确定与目标文本对应的相似文本。例如，可以确定相似度最大的一个模板文本为目标文本对应的相似文本。或者，也可以确定相似度最大的预设个数的模板文本为目标文本对应的相似文本，本公开实施例对此不作限定。其中，预设个数可以是用户根据实际情况自行设定的，本公开实施例对此也不作限定。比如可以设定为3，那么则将相似度最大的3篇模板文本作为目标文本对应的相似文本，或者可以设定为5，那么则将相似度最大的5篇模板文本作为目标文本对应的相似文本。

下面通过另一示例性实施例对本公开中文本匹配模型确定目标文本对应的相似文本的过程进行说明。参照图6，该过程可以包括：

步骤601，将目标文本输入到标签模型中，得到目标文本中分词对应的用于表征该分词语义类型的标签。其中，标签模型是根据已标注标签的多个训练文本进行训练而得到的。

步骤602，将标注标签后的目标文本发送给客户端进行显示。

步骤603，接收客户端发送的用于删除目标标签的目标请求。

步骤604，响应于目标请求，对目标文本进行删除操作，以删除目标文本中的目标标签以及目标标签对应的分词。

步骤605，针对进行删除操作后的目标文本中的每个标签，确定文本匹配模型的模板文本和目标文本中该标签对应的分词有多个。其中，文本匹配模型包括多个模板文本，每个模板文本中的分词标注有用于表征该分词语义类型的标签。

步骤606，针对目标文本中该标签对应的每个分词，确定该分词分别与模板文本中该标签对应的多个分词之间的分词相似度。

步骤607，在每个分词对应的多个分词相似度中确定最大分词相似度。

步骤608，将目标文本中该标签对应的多个最大分词相似度进行平均值计算，得到模板文本与目标文本中该标签对应的分词相似度。

步骤609，根据标签对应的预设权重值，将模板文本与目标文本中各标签对应的相似度计算结果进行加权求和，得到模板文本与目标文本间的相似度。

步骤610，在多个模板文本中，将相似度最大的模板文本确定为与目标文本对应的相似文本。

上述各步骤的具体实施方式已在上文进行详细举例说明，这里不再赘述。另外应当理解的是，对于上述方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受上文所描述的动作顺序的限制。其次，本领域技术人员也应该知悉，上文所描述的实施例属于优选实施例，所涉及的步骤并不一定是本公开所必须的。

例如，在查找相似案情的场景下，如果用户想要查找与盗窃1万元案情对应的相似案情，可以先对用户输入的盗窃1万元的目标案情中的分词标注用于表征分词语义类型的标签，然后根据进行删除操作后的目标案情与文本匹配模型中的模板案情中标签相同的分词进行相似度计算，最终得到与目标案情对应的相似案情。通过这样的方式，由于不是对目标案情的所有信息进行相似度计算，因此可以避免匹配出与目标案情描述方式相似，而盗窃数额差别很大的其他盗窃案情，从而减少了向用户返回的相似案情的数量，也无需用户再进一步人工筛选，可以提高确定相似案情的效率。

基于同一发明构思，参照图7，本公开实施例还提供一种确定相似文本的装置700，该装置可以通过软件、硬件或者两者结合的方式成为服务器的部分或者全部，参照图7，该装置700可以包括：

接收模块701，用于接收客户端发送的用于查找目标文本的相似文本的请求；

处理模块702，用于响应于接收到所述请求，将所述目标文本输入文本匹配模型中，得到与所述目标文本对应的相似文本；

发送模块703，用于将所述相似文本发送给所述客户端进行显示；

其中，所述文本匹配模型中包括多个模板文本，每个模板文本中的分词标注有用于表征该分词语义类型的标签，所述处理模块702包括：

标注子模块7021，用于对所述目标文本中的分词标注用于表征该分词语义类型的标签；

计算子模块7022，用于针对所述多个模板文本中的每个模板文本，对所述模板文本与所述目标文本中标签相同的分词进行相似度计算，以得到所述模板文本与所述目标文本间的相似度；

确定子模块7023，用于根据所述相似度，在所述多个模板文本中确定与所述目标文本对应的相似文本。

可选地，所述目标文本为用于描述案情信息的文本，所述文本匹配模型中还包括每个模板文本对应的公诉信息，所述装置700还包括：

获取模块，用于获取所述相似文本的公诉信息，并根据所述相似文本的公诉信息生成对所述目标文本的公诉建议；

第一发送模块，用于将所述公诉建议发送给所述客户端进行显示。

可选地，所述装置700还包括：

第二发送模块，用于在对所述目标文本中的分词标注用于表征该分词语义类型的标签之后，将标注标签后的目标文本发送给所述客户端进行显示；

请求接收模块，用于接收客户端发送的用于删除目标标签的目标请求；

删除模块，用于响应于所述目标请求，对所述目标文本进行删除操作，以删除所述目标文本中的所述目标标签以及所述目标标签对应的分词；

所述计算子模块7022用于：

可选地，所述标注子模块7021用于：

可选地，所述计算子模块7022用于：

可选地，所述模板文本和所述目标文本中同一标签对应的分词有多个，所述计算子模块7022包括：

第一确定子模块，用于针对所述目标文本中该标签对应的每个分词，确定所述分词分别与所述模板文本中该标签对应的多个分词之间的分词相似度，并在所述每个分词对应的多个分词相似度中确定最大分词相似度；

第二确定子模块，用于将所述目标文本中该标签对应的多个最大分词相似度进行平均值计算，得到所述模板文本与所述目标文本中该标签对应的分词相似度。

可选地，所述第一确定子模块用于：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

通过上述任一装置，可以对模板文本与目标文本中标签相同的分词进行相似度计算，而不是针对目标文本的所有文本信息进行相似度计算，从而可以避免匹配出与目标文本描述方式相似，但是关键部分不同的相似文本，减少向用户返回的相似文本数量，使得用户无需再人工排除关键部分与目标文本不同的文本以最终得到目标文本对应的相似文本，提高确定相似文本的效率。

基于同一发明构思，本公开还提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现上述任一确定相似文本的方法的步骤。

在可能的方式中，该电子设备的框图可以如图8所示。参照图8，该电子设备800可以被提供为一服务器。参照图8，电子设备800包括处理器822，其数量可以为一个或多个，以及存储器832，用于存储可由处理器822执行的计算机程序。存储器832中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器822可以被配置为执行该计算机程序，以执行上述的确定相似文本的方法。

另外，电子设备800还可以包括电源组件826和通信组件850，该电源组件826可以被配置为执行电子设备800的电源管理，该通信组件850可以被配置为实现电子设备800的通信，例如，有线或无线通信。此外，该电子设备800还可以包括输入/输出(I/O)接口858。电子设备800可以操作基于存储在存储器832的操作系统，例如Windows ServerTM，Mac OSXTM，UnixTM，LinuxTM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的确定相似文本的方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器832，上述程序指令可由电子设备800的处理器822执行以完成上述的确定相似文本的方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的确定相似文本的方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种确定相似文本的方法，其特征在于，应用于服务器，包括：

接收客户端发送的用于查找目标文本的相似文本的请求；

将所述相似文本发送给所述客户端进行显示；

根据所述相似度，在所述多个模板文本中确定与所述目标文本对应的相似文本；

所述对所述模板文本与所述目标文本中标签相同的分词进行相似度计算，以得到所述模板文本与所述目标文本间的相似度，包括：

根据标签对应的预设权重值，将所述模板文本与所述目标文本中各标签对应的相似度计算结果进行加权求和，得到所述模板文本与所述目标文本间的相似度；

其中，所述模板文本和所述目标文本中同一标签对应的分词有多个，所述对所述模板文本与所述目标文本中该标签对应的分词进行相似度计算，包括：

将所述目标文本中该标签对应的多个最大分词相似度进行平均值计算，得到所述模板文本与所述目标文本中该标签对应的分词相似度；

所述确定所述分词分别与所述模板文本中该标签对应的多个分词之间的分词相似度，包括：

其中，表示分词/>与分词/>之间的分词相似度，/>表示/>与/>之间的较大值。

2.根据权利要求1所述的方法，其特征在于，所述目标文本为用于描述案情信息的文本，所述文本匹配模型中还包括每个模板文本对应的公诉信息，所述方法还包括：

将所述公诉建议发送给所述客户端进行显示。

3.根据权利要求1所述的方法，其特征在于，在对所述目标文本中的分词标注用于表征该分词语义类型的标签之后，所述方法还包括：

将标注标签后的目标文本发送给所述客户端进行显示；

接收客户端发送的用于删除目标标签的目标请求；

所述对所述模板文本与所述目标文本中标签相同的分词进行相似度计算，包括：

4.根据权利要求1-3任一所述的方法，其特征在于，所述对所述目标文本中的分词标注用于表征该分词语义类型的标签，包括：

5.根据权利要求1-3任一所述的方法，其特征在于，所述确定所述分词分别与所述模板文本中该标签对应的多个分词之间的分词相似度，包括：

其中，表示分词/>与分词/>之间的分词相似度，/>表示分词/>对应的词向量，/>表示分词/>对应的词向量。

6.一种确定相似文本的装置，其特征在于，应用于服务器，包括：

确定子模块，用于根据所述相似度，在所述多个模板文本中确定与所述目标文本对应的相似文本；

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。

8.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-5中任一项所述方法的步骤。