CN112527967A

CN112527967A - 文本匹配方法、装置、终端和存储介质

Info

Publication number: CN112527967A
Application number: CN202011513885.7A
Authority: CN
Inventors: 张桂荣
Original assignee: Chongqing Financial Assets Exchange Co ltd
Current assignee: Chongqing Financial Assets Exchange Co ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-03-19

Abstract

本发明实施例公开了一种文本匹配方法、装置、终端和存储介质，其中，方法包括，获取目标文本，并对目标文本进行拆分处理，得到目标词组集合和目标句段集合，确定目标词组集合中各个目标词组间的第一位置关系，以及目标句段集合中各个目标句段间的第二位置关系；基于目标文本、目标词组集合、目标句段集合、第一位置关系和第二位置关系构建目标文本对应的目标特征矩阵；确定参考文本对应的参考特征矩阵，并通过匹配模型对目标特征矩阵和参考特征矩阵进行处理，得到目标文本与参考文本的匹配度。通过实施上述方法，可以基于文本的不同维度的特征对文本进行匹配，提升文本匹配的准确率。

Description

文本匹配方法、装置、终端和存储介质

技术领域

本发明涉及计算机技术领域，具体应用于医疗技术领域，尤其涉及一种文本匹配方法、装置、终端和存储介质。

背景技术

随着计算机技术的发展，文本匹配成为研究的热点之一，即通过对文本中字词的匹配，确定不同文本之间的相似度，其在数据检索、有着巨大的用途，如用户可以在检索栏中输入一个文本，则可以通过文本间的匹配度计算，从数据库中检索得到与输入文本匹配的其他文本，以供用户进行浏览。

当前，对文本进行匹配通常是将文本拆分为多个词组，并以词组之间的匹配度确定文本之前的匹配度，然而，词组的拆分方式存在差异，不同词组的对于文本的重要性也是不同的(如文本标题中的词组重要性较高)，简单通过词组来匹配会忽略掉文本本身具有的特性，导致文本匹配准确率较低。

发明内容

本发明实施例提供了一种文本匹配方法、装置、终端和存储介质，可以基于文本的不同维度的特征对文本进行匹配，提升文本匹配的准确率。

一方面，本发明实施例提供了一种文本匹配方法，所述方法包括：

获取目标文本，并对所述目标文本进行拆分处理，得到目标词组集合和目标句段集合，所述目标词组集合中包括拆分处理得到的至少一个目标词组，所述目标句段集合包括拆分得到的至少一个目标句段；

确定所述目标词组集合中各个目标词组间的第一位置关系，以及所述目标句段集合中各个目标句段间的第二位置关系；

基于所述目标文本、目标词组集合、目标句段集合、所述第一位置关系和所述第二位置关系构建所述目标文本对应的目标特征矩阵；

确定参考文本对应的参考特征矩阵，并通过匹配模型对所述目标特征矩阵和参考特征矩阵进行处理，得到所述目标文本与所述参考文本的匹配度。

一方面，本发明实施例提供了一种文本匹配装置，所述装置包括：

获取模块，用于获取目标文本；

拆分模块，用于对所述目标文本进行拆分处理，得到目标词组集合和目标句段集合，所述目标词组集合中包括拆分处理得到的至少一个目标词组，所述目标句段集合包括拆分得到的至少一个目标句段；

确定模块，用于确定所述目标词组集合中各个目标词组间的第一位置关系，以及所述目标句段集合中各个目标句段间的第二位置关系；

构建模块，用于基于所述目标文本、目标词组集合、目标句段集合、所述第一位置关系和所述第二位置关系构建所述目标文本对应的目标特征矩阵；

所述确定模块，还用于确定参考文本对应的参考特征矩阵；

处理模块，用于通过匹配模型对所述目标特征矩阵和参考特征矩阵进行处理，得到所述目标文本与所述参考文本的匹配度。

一方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行所述文本匹配方法。

本发明实施例中，终端获取目标文本，并对目标文本进行拆分处理，得到目标词组集合和目标句段集合，确定目标词组集合中各个目标词组间的第一位置关系，以及目标句段集合中各个目标句段间的第二位置关系；基于目标文本、目标词组集合、目标句段集合、第一位置关系和第二位置关系构建目标文本对应的目标特征矩阵；确定参考文本对应的参考特征矩阵，并通过匹配模型对目标特征矩阵和参考特征矩阵进行处理，得到目标文本与参考文本的匹配度。通过实施上述方法，可以基于文本的不同维度的特征对文本进行匹配，提升文本匹配的准确率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种文本匹配方法的流程示意图；

图2是本发明实施例提供的另一种文本匹配方法的流程示意图；

图3是本发明实施例提供的一种文本匹配装置的结构示意图；

图4是本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的文本匹配方法实现于终端，终端包括智能手机、平板电脑、数字音视频播放器、电子阅读器、手持游戏机或车载电子设备等电子设备。

图1是本发明实施例中一种文本匹配方法的流程示意图，如图1所示，本实施例中的文本匹配方法的流程可以包括：

S101、终端获取目标文本，并对目标文本进行拆分处理，得到目标词组集合和目标句段集合。

本发明实施例中，目标文本可以为任意一篇文本，文本可以为期刊、论文、句子等，终端可以接收用户在终端中输入的文本选择操作，并将用户选择的文本确定为目标文本，或者，终端也可以接收其他客户端发送的文本，作为目标文本。在一种实施场景中，终端可以提供文本匹配页面，用户可以在文本匹配页面中输入需要进行匹配的目标文本，终端对该目标文本进行获取，以进一步基于获取到的目标文本进行文本匹配。进一步的，终端获取到目标文本之后，可以对目标文本进行拆分处理，目标词组集合和目标句段集合。

在一种实现方式中，终端对目标文本进行拆分处理，得到目标词组集合的具体方式可以为，终端对目标文本进行分词处理，得到待选目标词组集合，终端对目标文本进行分词处理的方式具体可以为，基于字符匹配的方式实现对目标文本的分词处理，终端按照预设规则将目标文本中待分析的字符串与预设数据库中的词组进行匹配，如在预设数据库中找到字符串中的词组，则匹配成功，并将匹配成功的词组从字符串中拆分出来，并确定为待选目标词组，该基于字符匹配的算法具体可以为正向最大匹配法、逆向最大匹配法、最少切分、双向最大匹配法等。或者，终端通过字与字相邻共现的频率或概率来确定是否将各个文字组成为词组，具体的，终端将目标文本中相邻共现的各个文字的组合的频度进行统计，计算它们的相邻共现概率，若文字组合的相邻共现概率大于预设阈值，则将该文字组合确定为待选目标词组。或者，终端通过基于大量已经分词的文本，利用统计机器学习模型学习词语切分的规律来实现对目标文本的分词处理，得到至少一个待选目标词组。终端对目标文本进行分词处理，得到至少一个待选目标词组之后，将对该至少一个待选目标词组进行组合，得到待选目标词组集合。

进一步的，终端确定待选目标词组集合之后，将从待选目标词组集合中筛选出满足第一预设条件的至少一个目标词组，并基于至少一个目标词组构建目标词组集合，其中，第一预设条件包括词性为预设词性，预设词性具体可以为名词、动词、副词中的至少一种，例如，预设词性为名词，则终端从待选目标词组集合中筛选出词性为名词的待选目标词组作为目标词组。通过基于对词性对待选目标词组进行进一步筛选，可以去除对文本匹配度影响较低的无用词组(如词性为形容词的词组)，既降低了文本匹配过程中的运算量，也使得对文本相似度影响大的特征(名词词组)在文本相似度匹配过程中起到决定作用，以提升文本匹配的准确率。

终端从待选目标词组集合中筛选出满足第一预设条件的至少一个目标词组之后，还将基于至少一个目标词组构建目标词组集合。一种实现方式中，终端可以直接将上述至少一个目标词组进行组合，得到目标词组集合。一种实现方式中，为了提升匹配的精确性，终端还将基于词组替换的方式对上述至少一个词组进行词组替换之后，构建目标词组集合。具体的，终端将至少一个目标词组添加至集合中，得到初始目标词组集合，并基于预先建立的词组对应关系确定初始目标词组集合中各个目标词组对应的各个标准目标词组，以及采用各个标准目标词组对初始目标词组集合中各个目标词组进行替换，得到目标词组集合，其中，标准目标词组与对应的目标词组具有相同的语义，终端具体可以从预先构建的标准词库中查询到目标词组对应的标准目标词组，具体的，预先建立标准词库，该标准词库中存储了多个集合，每个集合中包括一个标准词组以及标准词组对应的同义词组，当获取到一个目标词组时，可以从标准词库中查询到该目标词组所在的目标集合，并采用该目标集合中的标准目标词组对目标词组进行替换。例如，标准词库中包括集合{如“学校”、“校园”、“学习中心”}，该集合对应的标准词组为“学校”，则当终端得到目标词组“校园”时，将采用标准目标词组“学校”对初始目标集合中目标词组“校园”进行替换，得到目标词组集合。可选的，标准词库中包括集合{“学校”、“school”}包括集合，该集合对应的标准词组为“学校”，则当终端得到目标词组“school”时，将采用标准目标词组“学校”对初始目标集合中目标词组“school”进行替换，得到目标词组集合。上述方式中，通过对具有相同语义的词组进行替换，或者将采用不同语言的编写的同一词组进行替换，可以提升后续匹配的精确度，也避免了写法不同(如语言种类不同)给文本相似度匹配带来的误差。

在一种实现方式中，目标句段集合包括拆分得到的至少一个目标句段，终端对目标文本进行拆分处理，得到目标句段集合的具体方式可以为，基于目标文本中的预设符号对目标文本进行拆分处理，得到待选目标句段集合，其中预设符号可以是逗号、句号、感叹号、分号等，具体可以由研发人员预先设定，具体的，终端将目标文本中两个预设符号之间的字符确定为一个句段，通过上述方式，终端可以完成对目标文本中句段的拆分，得到至少一个待选目标句段，并对该至少一个待选目标字段进行组合，得到待选目标句段集合。

进一步的，终端获取到待选目标句段之后，将从待选目标句段集合中筛选出满足第二预设条件的至少一个目标句段，得到目标句段集合，其中，第二预设条件包括在目标文本中的位置为预设位置，预设位置可以为文本的开头位置、文本的结尾位置、文本中间位置中的一种或多种，具体可以由研发人员预设核定，例如，预设位置为文本开头位置，目标文本的开头位置为目标文本的摘要，则终端可以确定目标文本中摘要部分的多个句段满足第二预设条件，并将摘要部分中的多个句段确定为目标句段，并将该多个句段进行组合，得到目标句段集合。因不同位置对于文本的重要性不同，如文本开头位置的句段为文本的重点，其奠定了文章的基调，不同文本件若开头相同，文本间的匹配度必然较高，因此，上述方式筛选出文章重要位置处的句段作为目标句段，以便于后续对匹配度进行分析，相较于将文本中所有句段作为特征进行分析，在减少计算量的同时，也突出了不同位置处的句段的重要性，提升了文本匹配的准确率。

S102、终端确定目标词组集合中各个目标词组间的第一位置关系，以及目标句段集合中各个目标句段间的第二位置关系。

本发明实施例中，终端获取到目标词组集合金和目标句段集合之后，将确定目标词组集合中各个目标词组间的第一位置关系，以及目标句段集合中各个目标句段间的第二位置关系。其中，第一位置关系表示各个目标词组在目标文本中的前后位置关系，如目标词组1在目标词组2之前一个词组的位置，目标词组3在目标词组2之后两个词组位置。同理，第二位置关系表示各目标句段在目标文本中的前后位置关系，如目标句段1在目标句段2之前一个句段的位置，目标句段3在目标句段2之后两个句段位置。

S103、终端基于目标文本、目标词组集合、目标句段集合、第一位置关系和第二位置关系构建目标文本对应的目标特征矩阵。

本发明实施例中，终端获取到目标文本、目标词组集合、目标句段集合、第一位置关系和第二位置关系之后，将基于目标文本、目标词组集合、目标句段集合、第一位置关系和第二位置关系构建目标文本对应的目标特征矩阵。

在一种实现方式中，终端构建目标文本对应的目标特征矩阵的具体方式可以为，终端通过向量化模型对目标文本、目标词组集合和目标句段集合进行处理，得到目标文本对应的目标文本向量、目标词组集合对应的目标词组向量集合和目标句段集合对应的目标句段向量集合；根据目标文本向量、目标词组向量集合和目标句段向量集合构建目标向量矩阵，并根据第一位置关系和第二位置关系构建目标关系矩阵；终端对目标向量矩阵和目标关系矩阵进行处理，得到目标文本对应的目标特征矩阵。

其中，向量化模型用于将输入的数据转换为向量，通过向量化模型对文本进行处理，则可使得文本转化为文本向量，通过向量化模型对词组进行处理，则可使得词组转化为词组向量，通过向量化模型对句段进行处理，则可得到句段对应的句段向量，可选的，向量化模型为第一向量化模型、第二向量化模型和第三向量化的统称，第一向量化模型用于对文本进行向量化处理，第二向量化模型用于对词组进行向量化处理，第三向量化模型用于对句段进行向量化处理，预先可以采用大量的文本数据来训练第一向量化模型，并采用大量的词组数据训练第二向量化模型，以及采用大量句段数据来训练第三向量化模型。

根据第一位置关系和第二位置关系构建目标关系矩阵的具体方式可以为，确定各个目标词组以及目标句段的位置关系，通过预先建立的位置映射关系，将目标词组或目标句段所在的位置映射到矩阵中，得到目标关系矩阵。

终端对目标向量矩阵和目标关系矩阵进行处理的具体方式可以为，终端将目标向量矩阵和目标关系矩阵进行融合，得到目标特征矩阵，其中，融合的方式可以为进行矩阵相乘或相加运算，或者，在目标向量矩阵之后添加目标关系矩阵，即实现综合目标向量矩阵和目标关系矩阵的特征，得到目标文本对应的目标特征矩阵。在一种实施场景中，目标词组集合中包括M个目标词组，目标句段集合中包括K个目标句段，目标文本、每个目标词组或每个目标句段转换为N维向量，则构建的目标向量矩阵为(M+K+1)×N阶矩阵，第一位置关系对应的第一关系矩阵为R×N阶，第二位置关系对应的第二关系矩阵为U×N阶，则目标关系矩阵为(R+U)×N阶，通过将目标向量矩阵和目标关系矩阵进行点积运算或相加运算集合实现矩阵的融合，或者，在目标向量矩阵之后添加目标关系矩阵，得到(M+K+1+R+U)×N阶矩阵，即为目标特征矩阵，其中，M、K、R、U、N为正整数。

S104、终端确定参考文本对应的参考特征矩阵，并通过匹配模型对目标特征矩阵和参考特征矩阵进行处理，得到目标文本与参考文本的匹配度。

本发明实施例中，终端获取到目标文本对应的目标特征矩阵之后，还可以获取到用户与目标文本进行匹配的参考文本对应的参考特征矩阵。其中，参考文本可以为数据库中存储的任意一个文本，用于与目标文本进行匹配。

具体实现中，参考文本对应的参考特征矩阵的具体获取方式可以为，终端获取参考文本，并对参考文本进行拆分处理，得到参考词组集合和参考句段集合，参考词组集合中包括拆分处理得到的至少一个参考词组，参考句段集合包括拆分得到的至少一个参考句段，确定参考词组集合中各个参考词组间的第三位置关系，以及参考句段集合中各个参考句段间的第四位置关系，基于参考文本、参考词组集合、参考句段集合、第三位置关系和第四位置关系构建参考文本对应的参考特征矩阵。可选的实现方式中，为了匹配的快速性，在数据库对参考文本进行收录时，既可以采用上述方式得到参考文本对应的参考特征向量，并将参考文本和参考特征向量对应存储于数据库中，终端在确定目标文本对应的目标特征矩阵后，可以直接从数据库中获取到参考文本对应的参考特征矩阵。

进一步的，终端确定参考文本对应的参考特征矩阵之后，将通过匹配模型对目标特征矩阵和参考特征矩阵进行处理，得到目标文本与参考文本的匹配度。具体实现中，匹配模型可以为训练完成的深度学习模型，如空洞卷积模型，模型通过卷积层对目标特征矩阵和参考特征矩阵进行计算，通过全连接层和输出层对卷积层输出的数据进行处理，得到目标文本和参考文本之间的相似度，终端基于目标文本和参考文本之间的相似度确定目标文本和参考文本之间的匹配度，如终端对相似度进行归一化处理，得到目标文本和参考文本之间的匹配度。或者，终端对匹配模型输出的相似度进行加权处理，得到目标文本和参考文本之间的匹配度。需要说明的是，对相似度进行加权处理的权重具体可以由目标文本和参考文本的类型确定，例如，当目标文本的类型与参考文本的类型相同时，对应第一权重，当目标文本与参考文本不相同时，对应第二权重，其中，文本的类型可以为新闻、论文、博客等，第一权重大于第二权重。

需要说明的是，终端可以基于由监督的方式对匹配模型进行训练，具体实现中，终端获取训练文本集合和测试文本集合，并由人为预先标注训练文本集合中每个训练文本与测试文本集合中每个测试文本之间的相似度，终端确定每个训练文本对应的训练特征矩阵以及每个测试文本对应的测试特征矩阵，通过通过各个训练文本特征矩阵和各个测试特征矩阵对初始匹配模型进行训练，以使得初始匹配模型中的参数得到更新，若参数更新后的初始匹配模型对于训练文本集合和测试文本集合的匹配准确率高于预设准确率，则确定模型训练完成，将参数更新后的初始匹配模型确定为匹配模型，其中，针对任意一个目标训练文本和目标测试文本，若调用初始匹配模型对目标训练文本的目标训练特征矩阵和目标测试文本的目标测试特征矩阵进行运算后，得到的相似度与预设相似度之间的差值小于预设阈值，则确定对于目标训练文本和目标测试文本的匹配为准确的。

图2是本发明实施例中另一种文本匹配方法的流程示意图，如图2所示，本实施例中的文本匹配方法的流程可以包括：

S201、终端获取目标文本，并对目标文本进行拆分处理，得到目标词组集合和目标句段集合。

本发明实施例中，目标文本可以为任意一篇文本，文本可以为期刊、论文、句子等，用户可以在文本匹配页面中输入需要进行匹配的目标文本，终端对该目标文本进行获取，以进一步基于获取到的目标文本进行文本匹配。终端获取到目标文本之后，可以对目标文本进行拆分处理，得到目标词组集合和目标句段集合，其中，目标词组集合中包括拆分处理得到的至少一个目标词组，目标句段集合包括拆分得到的至少一个目标句段。

S202、终端确定目标词组集合中各个目标词组间的第一位置关系，以及目标句段集合中各个目标句段间的第二位置关系。

本发明实施例中，终端获取到目标词组集合金和目标句段集合之后，将确定目标词组集合中各个目标词组间的第一位置关系，以及目标句段集合中各个目标句段间的第二位置关系。其中，第一位置关系表示各个目标词组在目标文本中的前后位置关系，第二位置关系表示各目标句段在目标文本中的前后位置关系。可选的，当文本包含多页时，第一位置关系还可以包括各个目标词组在目标文本中的不同页数的位置关系，第二位置关系表示各目标句段在目标文本中不同页数的前后位置关系。

S203、终端基于目标文本、目标词组集合、目标句段集合、第一位置关系和第二位置关系构建目标文本对应的目标特征矩阵。

在一种实现方式中，终端也可以根据目标文本的数据量大小从目标文本、目标词组集合、目标句段集合、第一位置关系和第二位置关系中筛选出一个或多个，构建目标特征矩阵，其中数据量大小具有由目标文本中的字符数量确定，字符数量越多数据量越大，例如，当数据量小于第一预设数据量时，终端通过向量化模型对目标词组集合进行处理，得到目标词组向量集合，并对目标词组向量集合进行矩阵化得到目标向量矩阵，以及根据第一位置关系目标关系矩阵，终端对目标向量矩阵和目标关系矩阵进行处理，得到目标文本对应的目标特征矩阵。或者，当数据量大于第一预设数据量时，终端通过向量化模型对目标词组集合和目标句段集合进行处理，得到目标文本对应的目标词组集合对应的目标词组向量集合和目标句段集合对应的目标句段向量集合；根据目标词组向量集合和目标句段向量集合构建目标向量矩阵，并根据第一位置关系和第二位置关系构建目标关系矩阵；终端对目标向量矩阵和目标关系矩阵进行处理，得到目标文本对应的目标特征矩阵。即实现的基于文本数据量的不同构建不同的特征矩阵，上述方案实现了特征矩阵构建的动态化，当文本数据量较小时，如本身即为一个句段，则无需对文本向量进行计算，基于其他特征构建特征矩阵即可。

S204、终端确定参考文本对应的参考特征矩阵。

具体实现中，参考文本对应的参考特征矩阵的具体获取方式可以为，终端获取参考文本，并对参考文本进行拆分处理，得到参考词组集合和参考句段集合，参考词组集合中包括拆分处理得到的至少一个参考词组，参考句段集合包括拆分得到的至少一个参考句段，确定参考词组集合中各个参考词组间的第三位置关系，以及参考句段集合中各个参考句段间的第四位置关系，基于参考文本、参考词组集合、参考句段集合、第三位置关系和第四位置关系构建参考文本对应的参考特征矩阵。

S205、终端获取参考特征矩阵的维度和目标特征矩阵的维度。

本发明实施例中，终端得到参考特征矩阵和目标特征矩阵之后，将获取到参考特征矩阵的维度和目标特征矩阵的维度。并检测参考特征矩阵的维度与目标特征矩阵的维度是否相同，若相同，则后续可调用匹配模型对参考特征矩阵和目标特征矩阵直接进行处理，若不同，则需要对维度较小的特征矩阵进行维度填充处理，具体实现中，若参考特征矩阵的维度小于目标特征矩阵的维度，则对参考特征矩阵进行维度填充处理，例如，参考特征矩阵为28×20阶矩阵，目标特征矩阵为30×20阶矩阵，则确定参考特征矩阵的维度为(28)，小于目标特征矩阵的维度(30)，终端可以获取到预设向量，并将预设向量添加值参考特征矩阵中，使得参考特征矩阵与目标特征矩阵的维度相同。或者，若参考特征矩阵的维度大于目标特征矩阵的维度，则执行步骤S206。

S206、若参考特征矩阵的维度大于目标特征矩阵的维度，则终端对目标特征矩阵进行维度填充处理，以使得参考特征矩阵与目标特征矩阵的维度相匹配。

本发明实施例中，当终端确定参考特征矩阵的维度大于目标特征矩阵的维度时，可以对目标特征矩阵进行维度填充处理，以使得参考特征矩阵与目标特征矩阵的维度相匹配。其中，维度填充处理的方式包括添加预设文本向量、添加预设词组向量和添加预设句段向量中的至少一种。

具体实现中，可以基于参考特征矩阵的维度与目标特征矩阵的维度之间的维度差值，确定需要添加的预设向量的类型，如维度差值大于第一预设差值，则在目标特征矩阵中添加预设词组向量，如维度差值介于第一预设差值和第二预设差值之间，则在目标特征矩阵中添加预设句段向量，如维度差值小于第二预设差值，则在目标特征矩阵中添加预设文本向量，可选的，终端可以基于历史匹配效果确定需要填充的维度的类型，例如，通过历史测试发现，在两个文本的特征矩阵的维度差值大于第一预设阈值时，采用预设词组向量对维度较小的矩阵进行填充，可以使得文本间的匹配准确率较高，则在检测到考特征矩阵的维度与目标特征矩阵的维度之间的维度差值大于第一预设阈值时，采用预设词组向量对目标特征矩阵进行填充。上述方式可以实现维度的动态填充，基于维度差值的不同，确定需要填充的向量的类型，使得文本匹配更为精确。

S207、终端确定维度填充处理后的目标特征矩阵的矩阵维度，并根据矩阵维度与卷积核数目的对应关系从至少一个参考匹配模型中筛选出匹配模型。

本发明实施例中，终端对目标特征矩阵进行维度填充处理之后，将确定维度填充处理后的目标特征矩阵的矩阵维度；并根据矩阵维度与卷积核数目的对应关系从至少一个参考匹配模型中筛选出匹配模型，其中，匹配模型用于对目标特征矩阵和参考特征矩阵进行处理，不同参考匹配模型的卷积核数目不同。

例如，参考匹配模型为空洞卷积模型，包括空洞卷积模型1和空洞卷积模型2，该空洞卷积模型1的卷积核为3*3*64，空洞卷积模型2的卷积核分为两部分，分别为卷积核1：3*3*32，卷积核2：3*3*32，其中，卷积核不同，空洞卷积过程中的感受野也不同，空洞卷积模型1适用于维度较小的文本特征矩阵间的运算，空洞卷积模型2适用于维度较大的文本特征矩阵间的运算。则当目标特征矩阵的矩阵维度大于预设维度时，将空洞卷积模型1确定为匹配模型，当目标特征矩阵的矩阵维度小于预设维度时，将空洞卷积模型2确定为匹配模型。

S208、终端通过匹配模型对目标特征矩阵和参考特征矩阵进行处理，得到目标文本与参考文本的匹配度。

本发明实施例中，终端确定匹配模型之后，可以通过匹配模型对目标特征矩阵和参考特征矩阵进行处理，得到目标文本与参考文本的匹配度。具体实现中，匹配模型可以为训练完成的深度学习模型，模型通过卷积层对目标特征矩阵和参考特征矩阵进行计算，通过全连接层和输出层对卷积层输出的数据进行处理，得到目标文本和参考文本之间的相似度，终端基于目标文本和参考文本之间的相似度确定目标文本和参考文本之间的匹配度，如终端对相似度进行归一化处理，得到目标文本和参考文本之间的匹配度。或者，终端对匹配模型输出的相似度进行加权处理，得到目标文本和参考文本之间的匹配度。

下面将结合附图3对本发明实施例提供的文本匹配装置进行详细介绍。需要说明的是，附图3所示的文本匹配装置，用于执行本发明图1-图2所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，经参照本发明图1-图2所示的实施例。

请参见图3，为本发明提供的一种文本匹配装置的结构示意图，该文本匹配装置30可包括：获取模块301、拆分模块302、确定模块303、构建模块304、处理模块305。

获取模块301，用于获取目标文本；

拆分模块302，用于对所述目标文本进行拆分处理，得到目标词组集合和目标句段集合，所述目标词组集合中包括拆分处理得到的至少一个目标词组，所述目标句段集合包括拆分得到的至少一个目标句段；

确定模块303，用于确定所述目标词组集合中各个目标词组间的第一位置关系，以及所述目标句段集合中各个目标句段间的第二位置关系；

构建模块304，用于基于所述目标文本、目标词组集合、目标句段集合、所述第一位置关系和所述第二位置关系构建所述目标文本对应的目标特征矩阵；

所述确定模块303，还用于确定参考文本对应的参考特征矩阵；

处理模块305，用于通过匹配模型对所述目标特征矩阵和参考特征矩阵进行处理，得到所述目标文本与所述参考文本的匹配度。

在一种实现方式中，拆分模块302，具体用于：

对所述目标文本进行分词处理，得到待选目标词组集合；

从所述待选目标词组集合中筛选出满足第一预设条件的至少一个目标词组，并基于所述至少一个目标词组构建目标词组集合，所述第一预设条件包括词性为预设词性；

基于所述目标文本中的预设符号对所述目标文本进行拆分处理，得到待选目标句段集合；

从所述待选目标句段集合中筛选出满足第二预设条件的至少一个目标句段，得到目标句段集合，所述第二预设条件包括在目标文本中的位置为预设位置。

在一种实现方式中，拆分模块302，具体用于：

将所述至少一个目标词组添加至集合中，得到初始目标词组集合；

基于预先建立的词组对应关系确定所述初始目标词组集合中各个目标词组对应的各个标准目标词组，所述标准目标词组与对应的目标词组具有相同的语义；

采用所述各个标准目标词组对所述初始目标词组集合中各个目标词组进行替换，得到目标词组集合。

在一种实现方式中，构建模块304，具体用于：

通过向量化模型对所述目标文本、所述目标词组集合和所述目标句段集合进行处理，得到所述目标文本对应的目标文本向量、所述目标词组集合对应的目标词组向量集合和所述目标句段集合对应的目标句段向量集合；

根据所述目标文本向量、所述目标词组向量集合和目标句段向量集合构建目标向量矩阵，并根据所述第一位置关系和第二位置关系构建目标关系矩阵；

对所述目标向量矩阵和所述目标关系矩阵进行处理，得到所述目标文本对应的目标特征矩阵。

在一种实现方式中，构建模块304，具体用于：

获取所述参考特征矩阵的维度和目标特征矩阵的维度；

若所述参考特征矩阵的维度大于所述目标特征矩阵的维度，则对所述目标特征矩阵进行维度填充处理，以使得所述参考特征矩阵与所述目标特征矩阵的维度相匹配，所述维度填充处理的方式包括添加预设文本向量、添加预设词组向量和添加预设句段向量中的至少一种。

在一种实现方式中，构建模块304，还用于：

确定维度填充处理后的目标特征矩阵的矩阵维度；

根据所述矩阵维度与卷积核数目的对应关系从至少一个参考匹配模型中筛选出匹配模型，所述匹配模型用于对所述目标特征矩阵和参考特征矩阵进行处理，所述不同参考匹配模型的卷积核数目不同。

在一种实现方式中，确定模块304，还用于：

获取参考文本，并对所述参考文本进行拆分处理，得到参考词组集合和参考句段集合，所述参考词组集合中包括拆分处理得到的至少一个参考词组，所述参考句段集合包括拆分得到的至少一个参考句段；

确定所述参考词组集合中各个参考词组间的第三位置关系，以及所述参考句段集合中各个参考句段间的第四位置关系；

基于所述参考文本、参考词组集合、参考句段集合、所述第三位置关系和所述第四位置关系构建所述参考文本对应的参考特征矩阵。

本发明实施例中，获取模块301获取目标文本，拆分模块302对目标文本进行拆分处理，得到目标词组集合和目标句段集合，确定模块303确定目标词组集合中各个目标词组间的第一位置关系，以及目标句段集合中各个目标句段间的第二位置关系；构建模块304基于目标文本、目标词组集合、目标句段集合、第一位置关系和第二位置关系构建目标文本对应的目标特征矩阵；确定模块303确定参考文本对应的参考特征矩阵，处理模块305通过匹配模型对目标特征矩阵和参考特征矩阵进行处理，得到目标文本与参考文本的匹配度。通过实施上述方法，可以基于文本的不同维度的特征对文本进行匹配，提升文本匹配的准确率。

请参见图4，为本发明实施例提供了一种终端的结构示意图。如图4所示，该终端包括：至少一个处理器401，输入设备403，输出设备404，存储器405，至少一个通信总线402。其中，通信总线402用于实现这些组件之间的连接通信。其中，输入设备403可以是控制面板或者麦克风等，输出设备404可以是显示屏等。其中，存储器405可以是高速RAM存储器，也可以是非不稳定的存储器(non-voIatiIe memory)，例如至少一个磁盘存储器。存储器405可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以结合图3所描述的装置，存储器405中存储一组程序代码，且处理器401，输入设备403，输出设备404调用存储器405中存储的程序代码，用于执行以下操作：

处理器401，用于获取目标文本，并对所述目标文本进行拆分处理，得到目标词组集合和目标句段集合，所述目标词组集合中包括拆分处理得到的至少一个目标词组，所述目标句段集合包括拆分得到的至少一个目标句段；

处理器401，用于确定所述目标词组集合中各个目标词组间的第一位置关系，以及所述目标句段集合中各个目标句段间的第二位置关系；

处理器401，用于基于所述目标文本、所述目标词组集合、所述目标句段集合、所述第一位置关系和所述第二位置关系构建所述目标文本对应的目标特征矩阵；

处理器401，用于确定参考文本对应的参考特征矩阵，并通过匹配模型对所述目标特征矩阵和参考特征矩阵进行处理，得到所述目标文本与所述参考文本的匹配度。

在一种实现方式中，处理器401，具体用于：

对所述目标文本进行分词处理，得到待选目标词组集合；

在一种实现方式中，处理器401，具体用于：

获取所述参考特征矩阵的维度和目标特征矩阵的维度；

在一种实现方式中，处理器401，具体用于：

确定维度填充处理后的目标特征矩阵的矩阵维度；

在一种实现方式中，处理器401，具体用于：

本发明实施例中，处理器401获取目标文本，对目标文本进行拆分处理，得到目标词组集合和目标句段集合，处理器401确定目标词组集合中各个目标词组间的第一位置关系，以及目标句段集合中各个目标句段间的第二位置关系；处理器401基于目标文本、目标词组集合、目标句段集合、第一位置关系和第二位置关系构建目标文本对应的目标特征矩阵；处理器401确定参考文本对应的参考特征矩阵，通过匹配模型对目标特征矩阵和参考特征矩阵进行处理，得到目标文本与参考文本的匹配度。通过实施上述方法，可以基于文本的不同维度的特征对文本进行匹配，提升文本匹配的准确率。

本发明实施例中所述模块，可以通过通用集成电路，例如CPU(CentraIProcessing Unit，中央处理器)，或通过ASIC(AppIication Specific IntegratedCircuit，专用集成电路)来实现。

应当理解，在本发明实施例中，所称处理器401可以是中央处理模块(CentraIProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitaISignaI Processor，DSP)、专用集成电路(AppIication Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieId-ProgrammabIe Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

总线402可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互联(PeripheraI Component，PCI)总线或扩展工业标准体系结构(EItendedIndustry Standard Architecture，EISA)总线等，该总线402可以分为地址总线、数据总线、控制总线等，为便于表示，图4仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的计算机存储介质可为磁碟、光盘、只读存储记忆体(Read-OnIy Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

所述的计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

其中，本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种文本匹配的方法，其特征在于，包括：

基于所述目标文本、所述目标词组集合、所述目标句段集合、所述第一位置关系和所述第二位置关系构建所述目标文本对应的目标特征矩阵；

2.根据权利要求1所述的方法，其特征在于，所述对所述目标文本进行拆分处理，得到目标词组集合和目标句段集合，包括：

对所述目标文本进行分词处理，得到待选目标词组集合；

3.根据权利要求2所述的方法其特征在于，所述基于所述至少一个目标词组构建目标词组集合，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述目标文本、所述目标词组集合、所述目标句段集合、所述第一位置关系和所述第二位置关系构建所述目标文本对应的目标特征矩阵，包括：

5.根据权利要求1所述的方法，其特征在于，所述确定参考文本对应的参考特征矩阵之后，所述方法还包括：

获取所述参考特征矩阵的维度和目标特征矩阵的维度；

6.根据权利要求5所述方法，其特征在于，所述对所述目标特征矩阵进行维度填充处理之后，所述方法还包括：

确定维度填充处理后的目标特征矩阵的矩阵维度；

根据所述矩阵维度与卷积核数目的对应关系从至少一个参考匹配模型中筛选出匹配模型，所述匹配模型用于对所述目标特征矩阵和参考特征矩阵进行处理，不同参考匹配模型的卷积核数目不同。

7.根据权利要求1所述的方法，其特征在于，所述确定参考文本对应的参考特征矩阵，包括：

8.一种文本匹配装置，其特征在于，所述装置包括：

获取模块，用于获取目标文本；

所述确定模块，还用于确定参考文本对应的参考特征矩阵；

9.一种终端，其特征在于，包括处理器、输入接口、输出接口和存储器，所述处理器、输入接口、输出接口和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。