CN115129951A

CN115129951A - 一种获取目标语句的数据处理系统

Info

Publication number: CN115129951A
Application number: CN202210873019.1A
Authority: CN
Inventors: 张正义; 刘宸; 傅晓航; 刘羽
Original assignee: Zhongke Yuchen Technology Co Ltd
Current assignee: Zhongke Yuchen Technology Co Ltd
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2022-09-30
Anticipated expiration: 2042-07-21
Also published as: CN115129951B

Abstract

本发明涉及一种获取目标语句的数据处理系统包括：数据库、处理器和存储有计算机程序的存储器，当所述计算机程序被处理器执行时，实现以下步骤：获取任一样本语句对应的初始字符串；对样本语句对应的初始字符串进行处理，获取样本语句对应的中间字符串集；将所有的中间字符串集作为训练数据集输入至预设的神经网络模型中，获取目标神经网络模型和目标字符串；将目标字符串输入至所述目标神经网络模型中，确定为非中文字符或者标点字符；根据所有的非中文字符或者标点字符，生成目标字符串对应的目标语句；本发明能够确定出非中文语句中符号是特殊符号或者非中文单词，提高非中文语句匹配的准确性。

Description

一种获取目标语句的数据处理系统

技术领域

本发明涉及语句处理技术领域，尤其涉及一种获取目标语句的数据处理系统。

背景技术

当前，语句匹配技术在许多技术领域得到广泛应用。现有的语句匹配方法通常有两种，一是基于传统统计模型的匹配方法，该方法仅能通过词频TF和逆文本词频IDF确定语句中词的相似度，匹配精确度较低；二是基于深度学习的语义匹配模型，该方法仅考虑语句的句义相似度特征，无法解决语句信息缺失带来的歧义问题，导致匹配结果不精确。

现有技术中，会采取根据第一语句的基准词汇查找第二语句的对比词汇，其中，对比词汇在第二语句中的位置与基准词汇在第一语句中的位置相同；以对比词汇为中心在第二语句中划分待匹配词汇，其中，待匹配词汇为多个与基准词汇进行相似度的匹配的词汇；对基准词汇和待匹配词汇进行一一对比，得到基准词汇和待匹配词汇的相似度；以及将相似度最大的待匹配词汇作为与基准词汇匹配的词汇。可以解决上述语句匹配不准确的问题。

但是，大部分的技术无法解决非中文语句的匹配，尤其是非中文语句中符号无法确定是特殊符号还是非中文单词，导致非中文语句匹配不准确问题。

发明内容

针对上述技术问题，本发明采用的技术方案为一种获取目标语句的数据处理系统，所述系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库包括：样本语句列表A＝{A₁，……，A_i，……，A_m}，A_i是指第i样本语句，i＝1……m，m为样本语句数量，所述样本语句为非中文语句，当所述计算机程序被处理器执行时，实现以下步骤：

S100、获取A_i对应的初始字符串A'_i；

S200、对A'_i进行处理，获取A_i对应的中间字符串集B_i＝(B_i1，……，B_it，……，B_ik)，B_it＝(B¹ _it，……，B^j _it，……，Bⁿ _it)，B^j _it是指A_i对应的第t个中间字符串的第j个子字符串，t＝1……k，k为中间字符串数量，j＝1……n，n为每一中间字符串中子字符串数量，其中，B^j _it符合如下条件：B^j _it＝{A_it，A_it+1，……，A_it+j-1}，其中，A_it是指A'_i中第t个初始字符；

S300、将所有的B_i作为训练数据集输入至预设的神经网络模型中，获取目标神经网络模型；

S400、获取目标字符串D＝{D₁，……，D_r，……，D_h}，D_r是指第r个目标字符，r＝1……h，h为目标字符数量；

S500、将D输入至所述目标神经网络模型中，确定D_r为非中文字符或者标点字符；

S600、根据所有的D_r，生成D对应的目标语句。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种获取目标语句的数据处理系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明的一种获取目标语句的数据处理系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库包括：样本语句列表且所述样本语句列表中任一样本语句为非中文语句，当所述计算机程序被处理器执行时，实现以下步骤：获取任一样本语句对应的初始字符串；对样本语句对应的初始字符串进行处理，获取样本语句对应的中间字符串集；将所有的中间字符串集作为训练数据集输入至预设的神经网络模型中，获取目标神经网络模型和目标字符串；将目标字符串输入至所述目标神经网络模型中，确定为非中文字符或者标点字符；根据所有的非中文字符或者标点字符，生成目标字符串对应的目标语句；能够确定出非中文语句中符号是特殊符号或者非中文单词，提高非中文语句匹配的准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的一种获取目标语句的数据处理系统的执行步骤的流程图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种获取目标位置的数据处理系统的具体实施方式及其功效，详细说明如后。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

本实施例提供了一种获取目标语句的数据处理系统，所述系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库包括：样本语句列表A＝{A₁，……，A_i，……，A_m}，A_i是指第i个样本语句，i＝1……m，m为样本语句数量，所述样本语句为非中文语句，当所述计算机程序被处理器执行时，实现以下步骤，如图1所示：

S100、获取A_i对应的初始字符串A'_i。

具体地，所述非中文语句是指非中文字符构建的语句，优选地，所述非中文字符为英文字符。

S200、对A'_i进行处理，获取A_i对应的中间字符串集B_i＝(B_i1，……，B_it，……，B_ik)，B_it＝(B¹ _it，……，B^j _it，……，Bⁿ _it)，B^j _it是指A_i对应的第t个中间字符串的第j个子字符串，t＝1……k，k为中间字符串数量，j＝1……n，n为每一中间字符串中子字符串数量，其中，B^j _it符合如下条件：B^j _it＝{A_it，A_it+1，……，A_it+j-1}，其中，A_it是指A'_i中第t个初始字符。

具体地，所述初始字符为非中文字符或标点字符，其中，标点字符包括标点符号和空格；能够空格也作为标点字符，便于通过神经网络学习，从非中文语句中确定空格。

具体地，k符合如下条件：

k＝s_i-n+1，其中，s_i为A'_i中初始字符的数量。

具体地，在S200步骤中还通过如下步骤获取n：

S201、获取A'_i中特殊字符串A⁰ _i＝{A⁰ _i1，……，A⁰ _ig，……，A⁰ _izi}，A⁰ _ig是指A'_i中第g个特殊字符，g＝1……zi，zi是指A'_i中特殊字符的数量。

具体地，所述特殊字符串包括一个中心字符和中心字符对应的间隔字符。

进一步地，所述中心字符是指在样本语句中任一标点符号。

进一步地，所述间隔字符串是指在样本语句中，所述中心字符的两侧对应的各两个非中文字符串；可以理解为：所述中心字符的一侧的两组非中文字符，以及所述中心字符的另一侧的两组非中文字符均属于间隔字符。

优选地，所述中心字符为非中文的句号字符。

优选地，在所述特殊字符串中，每一非中文字符串可构建成一个完整的单词。

优选地，所述中心字符与一侧的两非中文字符串之间的间隔为两个空格。

优选地，所述特殊字符是指所述中心字符或者所述间隔字符串中任一字符。

S203、根据所有的A⁰ _i，获取A对应的特殊字符数量Z＝{z1，……，z_i，……，z_m}。

S205、根据Z，获取n，n符合如下条件：

n＝(∑^m _i＝1zi)/m。

上述，能够通过特殊字符，确定样本语句对应的非中文字符串可构建的中间字符串的每一子字符串的最大长度，进而准确的确定出非中文语句中符号是特殊符号或者非中文单词，提高非中文语句匹配的准确性。

S300、将所有的B_i作为训练数据集输入至预设的神经网络模型中，获取目标神经网络模型。

具体地，在S300步骤中还包括如下步骤：

S301、获取关键语句列表C＝{C₁，……，C_x，……，C_p}，C_x是第x个关键语句，x＝1……p，p为关键语句数量，其中，所述关键语句为非中文语句且所述关键语句与样本语句不一致。

S303、将C_x进行处理，获取C_x对应的关键字符串集C'_x＝{C'_x1，……，C'_xy，……，C'_xq}，C'_xy是指C_x中第y个关键字符串，y＝1……q，q为C_x中关键字符串数量，其中，C'_xy的获取方式与B_it的获取方式一致。

S305、将C'_x输入至已经训练的神经网络模型中，确定C'_xy中每一关键字符串为非中文字符或者标点字符。

S307、根据所有的C'_xy，生成C_x对应的指定语句C_x0。

S309、根据C_x0和C_x，获取C_x0和C_x之间的相似度F⁰ _x。

具体地，在S309步骤中还通过如下步骤获取F⁰ _x：

S3091、获取C_x0对应的向量

MK^γ _0x是指C_x0对应的向量中第γ位bit值，

是指语句向量中向量维度；优选地，

S3093、获取C_x对应的向量

NK^γ _x是指C_x对应的向量中第γ位bit值。

S3095、根据MK_0x和NK_x，获取F⁰ _x，其中，F⁰ _x符合如下条件：

S3011、根据F⁰ _x，确定已经训练的神经网络模型为目标神经网络模型，其中，本领域技术人员知晓通过相似度对神经网络模型进行训练的方法均属于本发明的保护范围，在此不再赘述。

S400、获取目标字符串D＝{D₁，……，D_r，……，D_h}，D_r是指第r个目标字符，r＝1……h，h为目标字符数量。

S500、将D输入至所述目标神经网络模型中，确定D_r为非中文字符或者标点字符。

S600、根据所有的D_r，生成D对应的目标语句，可以理解为：根据D_r对应的判断结果，构建出目标语句，本领域技术人员知晓，基于字符任一构建语句的方法均属于本发明的保护范围，在此不再赘述。

本实施例提供了一种获取目标语句的数据处理系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库包括：样本语句列表且所述样本语句列表中任一样本语句为非中文语句，当所述计算机程序被处理器执行时，实现以下步骤：获取任一样本语句对应的初始字符串；对样本语句对应的初始字符串进行处理，获取样本语句对应的中间字符串集；将所有的中间字符串集作为训练数据集输入至预设的神经网络模型中，获取目标神经网络模型和目标字符串；将目标字符串输入至所述目标神经网络模型中，确定为非中文字符或者标点字符；根据所有的非中文字符或者标点字符，生成目标字符串对应的目标语句；能够确定出非中文语句中符号是特殊符号或者非中文单词，提高非中文语句匹配的准确性。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种获取目标语句的数据处理系统，其特征在于，所述系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库包括：样本语句列表A＝{A₁，……，A_i，……，A_m}，A_i是指第i样本语句，i＝1……m，m为样本语句数量，所述样本语句为非中文语句，当所述计算机程序被处理器执行时，实现以下步骤：

S100、获取A_i对应的初始字符串A'_i；