CN115017269B

CN115017269B - 一种确定相似文本的数据处理系统

Info

Publication number: CN115017269B
Application number: CN202210935521.0A
Authority: CN
Inventors: 刘羽; 傅晓航; 林方; 常鸿宇
Original assignee: Zhongke Yuchen Technology Co Ltd
Current assignee: Zhongke Yuchen Technology Co Ltd
Priority date: 2022-08-05
Filing date: 2022-08-05
Publication date: 2022-10-25
Anticipated expiration: 2042-08-05
Also published as: CN115017269A

Abstract

本发明涉及一种确定相似文本的数据处理系统，系统包括：数据库、处理器和存储有计算机程序的存储器，其中，数据库中包括预设实体向量集合和初始文本列表，当计算机程序被处理器执行时，实现以下步骤：获取目标文本对应的第一文本编码向量和第一实体编码向量列表，获取关键文本对应的第二文本编码向量和第二实体编码向量列表，分别对第一实体编码向量列表和第二实体编码向量列表进行处理获取第一目标编码向量列表和第二目标编码向量列表，获取目标文本对应的相似度，确定目标文本与关键文本列表中的文本是否为相似文本。本发明提供了一种确定文本相似度的新方法，能够避免因语义重复造成不清楚的问题，使得获取的文本相似度的准确度较高。

Description

一种确定相似文本的数据处理系统

技术领域

本发明涉及文本处理技术领域，特别是涉及一种确定相似文本的数据处理系统。

背景技术

随着互联网的普及和发展，大量信息以各种形式出现在互联网上，例如新闻文章，研究出版物，微博等，需要处理的数据日益增加，如何将文本中的信息进行处理和比较已经成为了目前的主流研究方向，如何确定相关联的不同文本之间的相似度已经成为热点问题，有效计算文本之间的相似度从而确定相似文本，能够减少相关部门的工作量，并且能够更加有针对性为阅读者提供更好的阅读服务。

目前，现有技术中，获取文本相似度的方法为：基于统计的方法对文本中的句子含义和段落含义进行识别，基于语义的方法比较文本中的词语，进而确认词语和句子之间的相似度，进而综合比较文本的相似度，以上所述获取文本相似度的方法存在的问题：

一方面，因同一语义表达方式多样化，只能解决文本词汇层面的匹配问题，在进行文本处理过程中，无法避免词义重复或者不清楚的问题，无法有效对文本中的语义进行处理，降低了文本的有效性；

另一方面，因语言的复杂性，使得获取到的相似度只局限于文字表面，导致获取的文本相似度的准确度较低。

发明内容

针对上述技术问题，本发明采用的技术方案为：一种确定相似文本的数据处理系统，系统包括：数据库、处理器和存储有计算机程序的存储器，其中，数据库中包括预设实体向量集合和初始文本列表，当计算机程序被处理器执行时，实现以下步骤：

S100，从初始文本列表中获取目标文本和目标文本对应的关键文本列表A=｛A₁，……，A_j，……，A_n｝，A_j为目标文本对应的第j个关键文本，j=1……n，n为目标文本对应的关键文本数量。

S200，根据预设实体向量集合，获取目标文本对应的第一文本编码向量B和目标文本对应的第一实体编码向量列表C={C₁，……，C_r，……，C_s}，C_r为目标文本对应的第r类实体类型的第一实体编码向量，r=1……s，s为目标文本的实体类型数量。

S300，根据预设实体向量集合，获取A_j对应的第二文本编码向量B⁰ _j和A_j对应的第二实体编码向量列表C⁰ _j={C⁰ _j1，……，C⁰ _jg，……，C⁰ _jz}，C⁰ _jg为A_j对应的第g类实体类型的第二实体编码向量，g=1……z，z为A_j的实体类型数量。

S400，当C中不存在C⁰ _jg对应的实体类型时，对C进行处理，获取到目标文本对应的第一目标编码向量列表D={B，D₁，……，D_t，……，D_k}，D_t为目标文本对应的第t个初始实体类型的第一目标编码向量，t=1……k，k为目标文本对应的初始实体类型的数量。

S500，当C⁰ _j中不存在C_r对应的实体类型时，对C⁰ _j进行处理，获取到A_j对应的第二目标编码向量列表D_j={B⁰ _j，D_j1，……，D_jt，……，D_jk}，D_jt为D_t对应的A_j的第二目标编码向量。

S600，根据D和D_j，获取目标文本对应的相似度F_j。

S700，当F_j≥F₀时，确定目标文本与A_j为相似文本，其中，F₀为预设的相似度阈值。

S800，当F_j＜F₀时，确定目标文本与A_j不为相似文本，其中，F₀为预设的相似度阈值。

本发明与现有技术相比具有明显的有益效果，借由上述技术方案，本发明提供的一种确定相似文本的数据处理系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有以下有益效果：

本发明提供了一种确定相似文本的数据处理系统，系统包括：数据库、处理器和存储有计算机程序的存储器，其中，数据库中包括预设实体向量集合和初始文本列表，当计算机程序被处理器执行时，实现以下步骤：从初始文本列表中获取目标文本，获取目标文本对应的第一文本编码向量和第一实体编码向量列表，获取目标文本对应的关键文本列表，获取关键文本列表中文本的第二文本编码向量和第二实体编码向量列表，对第一实体编码向量列表进行处理获取第一目标编码向量列表，对第二实体编码向量列表进行处理获取第二目标编码向量列表，根据第一目标编码向量列表和第二目标编码向量列表获取目标文本对应的相似度，将相似度与预设的相似度阈值进行比较，确定目标文本与关键文本列表中的文本是否为相似文本。本发明提供了一种新的确定文本相似度的方法，一方面，不再局限于文本词汇层面的匹配问题，能够从数据库中的实体找到一个相互关系，避免词义重复或者不清楚的问题，有效对文本中的语义进行处理，提高了文本的有效性；另一方面，通过提供一种新的文本处理的方法，使得获取到的相似度不再局限于文字表面，使得获取的文本相似度的准确度较高。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的一种确定相似文本的数据处理系统的执行计算机程序的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅为本发明一部分实施例，而不为全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明提供了一种确定相似文本的数据处理系统，所述系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库中包括预设实体向量集合和初始文本列表，当所述计算机程序被处理器执行时，实现以下步骤，如图1所示：

具体的，所述关键文本为初始文本中除目标文本之外的任意一个文本。

具体的，在S100之前还包括如下步骤：

S101，获取目标文本对应的文本字符串T=（T₁，……，T_i，……，T_m），T_i是指目标文本对应的第i个文字字符，i=1……m，m为目标文本对应的文字字符数量。

S102，当m≥m₀时，将T替换成T^＇＝（T₁，……，T_i，……，T_m0），i=1……m₀，其中，m₀为预设字符串长度。

上述，当目标文本对应的文字字符数量过大时，对文本进行截断处理，通过截断使得系统处理文本的效率提高，提高了文本的有效性，使得获取到的文本相似度的准确度较高。

具体的，获取关键文本对应的文本字符串的方式与获取目标文本对应的文本字符串的方式一致。

具体的，在S200中，B=（B₁，……，B_x，……，B_p），B_x为目标文本对应的第一文本编码向量中第x位的bit值，x＝1……p，p为第一文本编码向量的维度。

具体的，B通过将所述目标文本输入至文本编码模型中获取到的，其中，p是根据文本编码模型进行确定，本领域技术人员知晓，根据实际需求确定现有技术中任一文本编码模型，在此不再赘述。

优选地，p=768。

进一步地，所述文本编码模型包括双塔式文本编码模型和单塔式文本编码模型。

优选地，所述文本编码模型为单塔式文本编码模型。

上述，通过采用相同的文本编码模型，能够确保文本处理方式一致，采用单塔式文本编码模型使得文本之间有交互，准确度较高，从而提高了文本的有效性，使获取到的文本相似度的准确度较高。

具体的，在S200中还包括如下步骤：

S201，获取预设实体向量集合U={U₁，……，U_a，……，U_b}，U_a={U_a1，……，U_aλ，……，U_aγ}，U_aλ=（U¹ _aλ，……，U^y _aλ，……，U^q _aλ），U^y _aλ为第a类实体类型的第λ个预设实体对应的实体向量中第y位的bit值，λ=1……γ，y=1……q，q为第一实体编码向量的维度。

S203，获取目标文本对应的实体列表Q={Q₁，……，Q_e，……，Q_f}，Q_e为目标文本的第e个初始实体对应的实体向量，e=1……f，f为目标文本对应的初始实体数量；其中，在S203中还包括如下步骤：

S2031，当Q_e对应的初始实体与U_aλ对应的实体一致时，则Q_e=U_aλ。

S2033，当Q_e对应的初始实体与U_aλ对应的实体不一致时，获取中间实体向量U_a0=（U¹ _a0，……，U^y _a0，……，U^q _a0），则Q_e＝U_a0，其中，U^y _a0符合如下条件：

U^y _a0=(∑^γ _λ=1U^y _aλ)/γ；能够当目标文本中任一初始实体与预设实体不一致时，通过预设实体的实体类型对目标文本中实体进行补全，以确保了目标文本中的每个实体均与预设实体列表中进行链接，保证了文本的完整性，提高了文本的有效性，进而提高了文本相似度的准确性。

在另一个具体的实施例中，S2033还可通过以下步骤实现：

S2033，当Q_e对应的初始实体与U_aλ对应的初始实体不一致时，则Q_e=G₀。

具体的，G₀为随机生成的一个q维向量。

在另一个具体的实施例中，S2033还可通过以下步骤实现：

S2033，当Q_e对应的初始实体与U_aλ对应的实体不一致时，从Q中删除Q_e对应的初始实体，通过从实体列表中删除与预设实体向量集合不一致的对应的实体，能够避免因目标文本中实体错误，影响到确定文本的相似度的准确性。

S205，根据Q，获取Q对应的目标实体列表Q'={Q'₁，……，Q'_e，……，Q'_f}，Q'_e为Q_e对应的目标实体的实体向量。

S207，遍历Q'且获取Q'中与Q'_e对应的论元类型一致的所有目标实体，构建成Q'对应的中间实体列表G_e={G_e1，……，G_ev，……，G_ew}，G_ev为Q'_e对应的第v个中间实体向量，v=1……w，w为Q'_e对应的中间实体数量。

S209，当Q'_e对应的实体类型为第r类实体类型时，则获取C_r，其中，C_r符合如下条件：

，其中，η_v为G_ev对应的目标实体在目标文本中出现的频数。

上述，通过目标文本中的实体与预设实体进行匹配，进而确定目标文本中实体类型的向量来获取编码向量，确保了目标编码向量的统一性和有序性，提高了文本的有效性，使得获取到的文本相似度的准确度较高。

具体的，在S300中，B⁰ _j=（B⁰ _j1，……，B⁰ _jx，……，B⁰ _jp），B⁰ _jx为A_j对应的第二文本编码向量中第x位的bit值，x＝1……p，p为第一文本编码向量的维度。

具体的，B⁰ _j的向量维度与B的向量维度一致。

具体的，获取C⁰ _jg的方式与获取C_r的方式一致。

S400，当C中不存在C⁰ _jg对应的实体类型时，对C进行处理，获取到目标文本对应的第一目标编码向量列表D={B，D₁，……，D_t，……，D_k}，D_t为目标文本对应的第t个实体类型的第一目标编码向量，t=1……k，k为目标文本对应的实体类型的数量。

具体的，在S400中，还包括如下步骤：

S401，当q≠p时，将C⁰ _jg对应的实体类型与U_a0对应的实体类型进行比对。

S403，当C⁰ _jg对应的实体类型与U_a0对应的实体类型一致时，将C⁰ _jg=U_a0且将C⁰ _jg插入至D中；能够当目标实体找不到对应实体时，通过将同类型实体插入确保实体类型的完整性，保证实体类型一致，提高文本的有效性。

S405，当C⁰ _jg对应的实体类型与U_a0对应的实体类型不一致时，将C⁰ _jg=E₀且将C⁰ _jg插入至D中，其中，E₀为随机生成的一个q维度的实体向量；能够当目标实体找不到对应实体类型时，通过随机生成一个向量确保向量维度的一致，对空缺向量进行补充，使获取的文本相似度的准确度较高。

S407，当q＝p时，将C⁰ _jg=B且将C⁰ _jg插入至D中；能够当文本向量与实体向量维度一致时，直接将文本向量插入到缺失部分，在确保向量维度一致的同时，提高了模型的运行效率。

上述，根据p与q之间进行比对，缺少的实体类型的实体编码向量的补充，确保了第一目标向量列表中实体类型的完整性，能够一一对应进行相似度的比较，使获取的文本相似度的准确度较高。

具体的，获取D_j的方式与获取D的方式一致。

上述，保证了第一目标编码向量与第二目标编码向量的维度一致，确保在进行相似度计算时，能够一一对应，从而，提高了文本的有效性，使获取的文本相似度的准确度较高。

S600，根据D和D_j，获取目标文本对应的相似度F_j。

具体的，F_j符合如下条件：

，其中，D^t _β为D_t对应的向量中第 β位bit值，D^jt _β为D_jt对应的向量中第β位bit值，β=1……q，q为第二目标编码向量的向量维度。

上述，通过获取文本编码向量的相似度和实体类别编码向量的相似度，来获取目标文本与关键文本的相似度，能够增强文本的有效性，使获取的文本相似度的准确度较高。

S800，当F_j＜F₀时，确定目标文本与A_j不为相似文本。

具体的，预设的相似度阈值F₀的取值范围为0.8～0.9。

优选的，预设的相似度阈值F₀的取值为0.85。

具体的，所述相似文本为文本实体类型相似的文本。

本发明提供了一种确定相似文本的数据处理系统，所述系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库中包括预设实体向量集合和初始文本列表，当计算机程序被处理器执行时，实现以下步骤：从初始文本列表中获取目标文本，获取目标文本对应的第一文本编码向量和第一实体编码向量列表，获取目标文本对应的关键文本列表，获取关键文本列表中文本的第二文本编码向量和第二实体编码向量列表，对第一实体编码向量列表进行处理获取第一目标编码向量列表，对第二实体编码向量列表进行处理获取第二目标编码向量列表，根据第一目标编码向量列表和第二目标编码向量列表获取目标文本对应的相似度，将相似度与预设的相似度阈值进行比较，确定目标文本与关键文本列表中的文本是否为相似文本。本发明提供了一种新的确定文本相似度的方法，一方面，不再局限于文本词汇层面的匹配问题，能够从数据库中的实体找到一个相互关系，避免词义重复或者不清楚的问题，有效对文本中的语义进行处理，提高了文本的有效性；另一方面，通过提供一种新的文本处理的方法，使得获取到的相似度不再局限于文字表面，使得获取的获取的文本相似度的准确度较高。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但为本领域的技术人员应该理解，以上示例仅为为了进行说明，而不为为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种确定相似文本的数据处理系统，其特征在于，所述系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库中包括预设实体向量集合和初始文本列表，当所述计算机程序被处理器执行时，实现以下步骤：

S100，从初始文本列表中获取目标文本和目标文本对应的关键文本列表A=｛A₁，……，A_j，……，A_n｝，A_j为目标文本对应的第j个关键文本，j=1……n，n为目标文本对应的关键文本数量；

S200，根据预设实体向量集合，获取目标文本对应的第一文本编码向量B和目标文本对应的第一实体编码向量列表C={C₁，……，C_r，……，C_s}，C_r为目标文本对应的第r类实体类型的第一实体编码向量，r=1……s，s为目标文本的实体类型数量,其中，B=（B₁，……，B_x，……，B_p），B_x为目标文本对应的第一文本编码向量中第x位的bit值；x＝1……p，p为第一文本编码向量的维度；

S300，根据预设实体向量集合，获取A_j对应的第二文本编码向量B⁰ _j和A_j对应的第二实体编码向量列表C⁰ _j={C⁰ _j1，……，C⁰ _jg，……，C⁰ _jz}，C⁰ _jg为A_j对应的第g类实体类型的第二实体编码向量，g=1……z，z为A_j的实体类型数量；

S400，当C中不存在C⁰ _jg对应的实体类型时，对C进行处理，获取到目标文本对应的第一目标编码向量列表D={B，D₁，……，D_t，……，D_k}，D_t为目标文本对应的第t个初始实体类型的第一目标编码向量，t=1……k，k为目标文本对应的初始实体类型的数量；在S400步骤中还包括如下步骤：

S401，当q≠p时，将C⁰ _jg对应的实体类型与U_a0对应的实体类型进行比对；

S403，当C⁰ _jg对应的实体类型与U_a0对应的实体类型一致时，将C⁰ _jg=U_a0且将C⁰ _jg插入至D中；

S405，当C⁰ _jg对应的实体类型与U_a0对应的实体类型不一致时，将C⁰ _jg=E₀且将C⁰ _jg插入至D中，其中，E₀为随机生成的一个q维度的实体向量；

S407，当q＝p时，将C⁰ _jg=B且将C⁰ _jg插入至D中；

S500，当C⁰ _j中不存在C_r对应的实体类型时，对C⁰ _j进行处理，获取到A_j对应的第二目标编码向量列表D_j={B⁰ _j，D_j1，……，D_jt，……，D_jk}，D_jt为D_t对应的A_j的第二目标编码向量；

S600，根据D和D_j，获取目标文本对应的相似度F_j，其中，F_j符合如下条件：

，其中，D^t _β为D_t对应的向量中第β位bit值，D^jt _β为D_jt对应的向量中第β位bit值，β=1……q，q为第二目标编码向量的向量维度；

S700，当F_j≥F₀时，确定目标文本与A_j为相似文本，其中，F₀为预设的相似度阈值；

S800，当F_j＜F₀时，确定目标文本与A_j不为相似文本。

2.根据权利要求1所述的确定相似文本的数据处理系统，其特征在于，在S100前还包括如下步骤：

S101，获取目标文本对应的文本字符串T=（T₁，……，T_i，……，T_m），T_i是指目标文本对应的第i个文字字符，i=1……m，m为目标文本对应的文字字符数量；

3.根据权利要求1所述的确定相似文本的数据处理系统，其特征在于，所述关键文本为初始文本中除目标文本之外的任意一个文本。

4.根据权利要求1所述的确定相似文本的数据处理系统，其特征在于，在S300中，B⁰ _j的向量维度与B的向量维度一致。

5.根据权利要求1所述的确定相似文本的数据处理系统，其特征在于，在S200中，还包括如下步骤：

S201，获取预设实体向量集合U={U₁，……，U_a，……，U_b}，U_a={U_a1，……，U_aλ，……，U_aγ}，U_aλ=（U¹ _aλ，……，U^y _aλ，……，U^q _aλ），U^y _aλ为第a类实体类型的第λ个预设实体对应的实体向量中第y位的bit值，λ=1……γ，y=1……q，q为第一实体编码向量的维度；

S2031，当Q_e对应的初始实体与U_aλ对应的实体一致时，则Q_e=U_aλ；

U^y _a0=(∑^γ _λ=1U^y _aλ)/γ；

S205，根据Q，获取Q对应的目标实体列表Q'={Q'₁，……，Q'_e，……，Q'_f}，Q'_e为Q_e对应的目标实体的实体向量；

S207，遍历Q'且获取Q'中与Q'_e对应的论元类型一致的所有目标实体，构建成Q'对应的中间实体列表G_e={G_e1，……，G_ev，……，G_ew}，G_ev为Q'_e对应的第v个中间实体向量，v=1……w，w为Q'_e对应的中间实体数量；

6.根据权利要求5所述的确定相似文本的数据处理系统，其特征在于，在S300中，获取C⁰ _jg的方式与获取C_r的方式一致。

7.根据权利要求1所述的确定相似文本的数据处理系统，其特征在于，获取D_j的方式与获取D的方式一致。

8.根据权利要求1所述的确定相似文本的数据处理系统，其特征在于，所述预设的相似度阈值F₀的取值范围为0.8～0.9。