CN114090735A

CN114090735A - 一种文本匹配方法、装置、设备及存储介质

Info

Publication number: CN114090735A
Application number: CN202111371481.3A
Authority: CN
Inventors: 谢作家; 刘新华; 刘银; 谌礼尧; 方秋琪; 李滨; 陈家立
Original assignee: Jindiyun Technology Co ltd
Current assignee: Jindiyun Technology Co ltd
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2022-02-25

Abstract

本申请公开了一种文本匹配方法、装置、设备及存储介质，包括：获取输入文本及待匹配资源数据；基于系统词库中的词语对输入文本和待匹配资源数据进行分词，得到与输入文本对应的第一关键词词组及与待匹配资源数据对应的第二关键词词组；计算第一关键词词组与第二关键词词组之间的相似度，并根据相似度从待匹配资源数据中确定出与输入文本对应的资源数据。本申请基于系统词库分别对输入文本和待匹配资源数据进行匹配粒度较细的分词操作得到相应的第一关键词词组和第二关键词词组，使得分词结果更准确，然后通过计算第一关键词词组与第二关键词词组之间的相似度以确定待匹配资源数据中与输入文本相匹配的资源数据，提高轻量级场景中文本匹配精度。

Description

一种文本匹配方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种文本匹配方法、装置、设备及存储介质。

背景技术

传统的输入匹配方法都是基于用户输入的关键字进行全包含的模糊匹配，在数据的匹配上粒度太粗，且用于匹配的词库相对来说也比较封锁。往往会使得匹配结果不准确，得不到理想的匹配资源数据。另外，现有的ElasticSearch技术通过搭建es服务器进行搜索匹配，但由于需要搭建es服务器，适用于专门做搜索的业务场景，如重量级较高的搜索引擎等，但对于仅需使用一个小而轻搜索工具的场景，搭建es服务器成本投入较大，在轻量型场景中文本匹配资源利用率较低。

因此，如何提高轻量级场景下文本匹配精度是本领域技术人员亟待解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种文本匹配方法、装置、设备及存储介质，提高轻量级场景中文本匹配精度。其具体方案如下：

本申请的第一方面提供了一种文本匹配方法，包括：

获取输入文本及待匹配资源数据；

基于系统词库中的词语对输入文本和待匹配资源数据进行分词，得到与输入文本对应的第一关键词词组及与待匹配资源数据对应的第二关键词词组；

计算第一关键词词组与第二关键词词组之间的相似度，并根据相似度从待匹配资源数据中确定出与输入文本对应的资源数据。

可选的，基于系统词库中的词语对输入文本和待匹配资源数据进行分词，包括：

通过构建字典树的方式对系统词库中的词语进行存储，得到与系统词库对应的目标字典树；

通过遍历目标字典树分别对输入文本和待匹配资源数据中的词组进行匹配，以利用字典树算法对输入文本和待匹配资源数据进行分词。

可选的，计算第一关键词词组与第二关键词词组之间的相似度，包括：

利用余弦相似度算法计算第一关键词词组与第二关键词词组之间的相似度。

可选的，文本匹配方法，还包括：

创建包含字典树算法和余弦相似度算法的动态链接库；

通过从动态链接库中调用相应的算法对输入文本和待匹配资源数据进行分词或计算第一关键词词组与第二关键词词组之间的相似度。

可选的，根据相似度从待匹配资源数据中确定出与输入文本对应的资源数据，包括：

判断相似度是否大于预设阈值，如果是，则将相似度大于预设阈值的第二关键词词组对应的资源数据确定为与输入文本对应的资源数据。

可选的，判断相似度是否大于预设阈值之后，还包括：

如果相似度均小于预设阈值，则将第一关键词词组与关联词库中的词语进行匹配，以得到与第一关键词词组存在关联关系的关联词组；其中，关联词库中包括多个在历史匹配过程中具有关联关系的词语对及其之间的关联关系；

根据匹配到的关联词组与第二关键词词组之间的关联关系确定出与输入文本对应的资源数据。

可选的，根据匹配到的关联词组与第二关键词词组之间的关联关系确定出与输入文本对应的资源数据，包括：

根据关联词组长度为匹配到的关联词组分配优先级；

按照优先级由高至底的顺序获取匹配到的关联词词组与第二关键词词组之间的关联关系，并根据该关联关系确定出与输入文本对应的资源数据。

本申请的第二方面提供了一种文本匹配装置，包括：

获取模块，用于获取输入文本及待匹配资源数据；

分词模块，用于基于系统词库中的词语对输入文本和待匹配资源数据进行分词，得到与输入文本对应的第一关键词词组及与待匹配资源数据对应的第二关键词词组；

计算模块，用于计算第一关键词词组与第二关键词词组之间的相似度，并根据相似度从待匹配资源数据中确定出与输入文本对应的资源数据。

本申请的第三方面提供了一种电子设备，电子设备包括处理器和存储器；其中存储器用于存储计算机程序，计算机程序由处理器加载并执行以实现前述文本匹配方法。

本申请的第四方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机可执行指令，计算机可执行指令被处理器加载并执行时，实现前述文本匹配方法。

本申请中，先获取输入文本及待匹配资源数据；然后，基于系统词库中的词语对输入文本和待匹配资源数据进行分词，得到与输入文本对应的第一关键词词组及与待匹配资源数据对应的第二关键词词组；最后，计算第一关键词词组与第二关键词词组之间的相似度，并根据相似度从待匹配资源数据中确定出与输入文本对应的资源数据。本申请基于系统词库分别对输入文本和待匹配资源数据进行匹配粒度较细的分词操作得到相应的第一关键词词组和第二关键词词组，使得分词结果更准确，然后通过计算第一关键词词组与第二关键词词组之间的相似度以确定待匹配资源数据中与输入文本相匹配的资源数据，提高轻量级场景中文本匹配精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种文本匹配方法流程图；

图2为本申请提供的一种具体的字典树构建示例图；

图3为本申请提供的一种具体的文本匹配方法示意图；

图4为本申请提供的一种文本匹配装置结构示意图；

图5为本申请提供的一种文本匹配电子设备结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

传统的输入匹配方法都是基于用户输入的关键字进行全包含的模糊匹配，在数据的匹配上粒度太粗，且用于匹配的词库相对来说也比较封锁。往往会使得匹配结果不准确，得不到理想的匹配资源数据。另外，现有的ElasticSearch技术通过搭建es服务器进行搜索匹配，但由于需要搭建es服务器，适用于专门做搜索的业务场景，如重量级较高的搜索引擎等，但对于仅需使用一个小而轻搜索工具的场景，搭建es服务器成本投入较大，在轻量型场景中文本匹配资源利用率较低。针对上述技术缺陷，本身请提供一种文本匹配方案，基于系统词库分别对输入文本和待匹配资源数据进行匹配粒度较细的分词操作得到相应的第一关键词词组和第二关键词词组，使得分词结果更准确，然后通过计算第一关键词词组与第二关键词词组之间的相似度以确定待匹配资源数据中与输入文本相匹配的资源数据，提高轻量级场景中文本匹配精度。

图1为本申请实施例提供的一种文本匹配方法流程图。参见图1所示，该文本匹配方法包括：

S11：获取输入文本及待匹配资源数据。

本实施例中，先获取输入文本及待匹配资源数据。同时根据用户输入内容，先进行完整匹配，即与用户输入的内容保持整体一致。其中，输入文本为搜索文本，待匹配资源数据为搜索对象，从待匹配资源数据中确定出与输入文本相似度较高的资源数据。例如，待匹配资源数据包含A电脑、B电脑、C手机等，当输入文本为电脑时，从待匹配资源数据中搜索输出A电脑和B电脑。

S12：基于系统词库中的词语对输入文本和待匹配资源数据进行分词，得到与输入文本对应的第一关键词词组及与待匹配资源数据对应的第二关键词词组。

本实施例中，基于系统词库中的词语对输入文本和待匹配资源数据进行分词，得到与输入文本对应的第一关键词词组及与待匹配资源数据对应的第二关键词词组。进一步的，通过构建字典树的方式对系统词库中的词语进行存储，得到与系统词库对应的目标字典树，然后通过遍历目标字典树分别对输入文本和待匹配资源数据中的词组进行匹配，以利用字典树算法对输入文本和待匹配资源数据进行分词。也即首先构造系统词库的Trie树的数据结构，并使用其对用户输入和待匹配的资源数据进行分词得到关键词词组，通过分词算法对用户的输入进行解析，在匹配上的粒度比较细。

字典树也即Trie树是一种树形结构，又称单词查找树，是一种哈希树的变种。多用于统计、排序和保存大量的字符串(但不仅限于字符串)，经常被搜索引擎系统用于文本词频统计。Trie树利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希树高。可以理解，Trie树的构造和分词的过程具体为：首先将系统词库的每一个词汇按照一个字一个节点的形式存储，后面的字作为前面字的子节点，结尾的节点做上标记标识是一个词的结尾，对于相同的前缀使用公共的节点，最终形成一棵Trie树。在此基础上，将待分词的词汇在Trie树上进行逐字顺序匹配，遇到有子节点则继续往下匹配，遇到标识为词结尾的标识，则认为得到一个分词关键词，并且继续往下匹配。如图2所示，为一棵Trie树的构造过程。

对于轻量级场景，在此之前先创建包含字典树算法动态链接库，然后通过从动态链接库中调用字典树算法对输入文本和待匹配资源数据进行分词。由于分词算法小而轻，无需复杂的步骤搭建服务器，作为类库的形式编译后引用动态链接库DLL即可调用相应方法实现分词。

S13：计算第一关键词词组与第二关键词词组之间的相似度，并根据相似度从待匹配资源数据中确定出与输入文本对应的资源数据。

本实施例中，计算第一关键词词组与第二关键词词组之间的相似度，并根据相似度从待匹配资源数据中确定出与输入文本对应的资源数据。具体可以利用余弦相似度算法计算第一关键词词组与第二关键词词组之间的相似度。将用户输入关键词组和资源数据关键词组基于余弦相似度的数学模型进行相似度计算得到相似度最高的资源数据。其中，余弦相似度又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值，绘制到向量空间中，如最常见的二维空间。通过余弦相似度计算算法，从系统查找并匹配到更加准确的数据资源。对于轻量级场景，在此之前先创建包含余弦相似度算法的动态链接库，然后通过从动态链接库中调用余弦相似度算法计算第一关键词词组与第二关键词词组之间的相似度。由于余弦相似度算法小而轻，无需复杂的步骤搭建服务器，作为类库的形式编译后引用动态链接库DLL即可调用相应方法实现相似度计算。

在计算出相似度后，判断相似度是否大于预设阈值，如果是，则将相似度大于预设阈值的第二关键词词组对应的资源数据确定为与输入文本对应的资源数据。预设阈值根据业务需求自行设定，本申请实施例对此不进行限定。当然，为了提高灵活性和容错性，也可以通过人工介入的方式进一步确定是否将相似度大于预设阈值的第二关键词词组对应的资源数据确定为与输入文本对应的资源数据，以及当第二关键词词组中存在多个关键词时将哪些关键词确定为与输入文本对应的资源数据。

然而，由于现有文本匹配中进行匹配的对应关系相对来说比较固定、死板，对于匹配失败的词语无法进行扩展，且如果加入新的匹配对应关系也需要一定的维护成本。基于此，本申请实施例在相似度匹配失败的情况下可以进行关联匹配，在相似度均小于预设阈值时，则将第一关键词词组与关联词库中的词语进行匹配，以得到与第一关键词词组存在关联关系的关联词组，其中，关联词库中包括多个在历史匹配过程中具有关联关系的词语对及其之间的关联关系。具有关联关系的词汇为基于习惯或约定俗成的具有对应关系的词汇。最后根据关联词组与第二关键词词组之间的关联关系确定出与输入文本对应的资源数据。具体过程如图3所示。

另外，为了进一步提高关联匹配效率，优先考虑从长关联词汇进行匹配，无法匹配再使用短关联词汇，此部分可通过优先级实现，首先根据关联词组长度为匹配到的关联词组分配优先级，然后按照优先级由高至底的顺序获取匹配到的关联词词组与第二关键词词组之间的关联关系，并根据该关联关系确定出与输入文本对应的资源数据。例如，当输入文本为电脑，通过上述步骤匹配到的与输入文本对应的资源数据为“A电脑+型号”、B电脑，很明显“A电脑+型号”较长，则优先对“A电脑+型号”这个资源数据进行判断，如此一来可以得到更为精细和准确的资源数据。关联词库可以根据每次匹配结果进行补充完善，也即对于无法匹配的用户输入，通过手动指定匹配的方式记录历史关联数据，建立关联匹配关系形成系统的关联词库，对以后的匹配即可在分词无法匹配时通过关联词库提高匹配率。

可见，本申请实施例先获取输入文本及待匹配资源数据；然后，基于系统词库中的词语对输入文本和待匹配资源数据进行分词，得到与输入文本对应的第一关键词词组及与待匹配资源数据对应的第二关键词词组；最后，计算第一关键词词组与第二关键词词组之间的相似度，并根据相似度从待匹配资源数据中确定出与输入文本对应的资源数据。本申请实施例基于系统词库分别对输入文本和待匹配资源数据进行匹配粒度较细的分词操作得到相应的第一关键词词组和第二关键词词组，使得分词结果更准确，然后通过计算第一关键词词组与第二关键词词组之间的相似度以确定待匹配资源数据中与输入文本相匹配的资源数据，提高轻量级场景中文本匹配精度。

参见图4所示，本申请实施例还相应公开了一种文本匹配装置，包括：

获取模块11，用于获取输入文本及待匹配资源数据；

分词模块12，用于基于系统词库中的词语对输入文本和待匹配资源数据进行分词，得到与输入文本对应的第一关键词词组及与待匹配资源数据对应的第二关键词词组；

计算模块13，用于计算第一关键词词组与第二关键词词组之间的相似度，并根据相似度从待匹配资源数据中确定出与输入文本对应的资源数据。

在一些具体实施例中，分词模块12，具体包括：

构建单元，用于通过构建字典树的方式对系统词库中的词语进行存储，得到与系统词库对应的目标字典树；

匹配单元，用于通过遍历目标字典树分别对输入文本和待匹配资源数据中的词组进行匹配，以利用字典树算法对输入文本和待匹配资源数据进行分词。

在一些具体实施例中，计算模块13，具体包括：

相似度计算单元，用于利用余弦相似度算法计算第一关键词词组与第二关键词词组之间的相似度；

判断单元，用于判断相似度是否大于预设阈值，如果是，则将相似度大于预设阈值的第二关键词词组对应的资源数据确定为与输入文本对应的资源数据。

在一些具体实施例中，文本匹配装置还包括：

关联匹配模块，用于如果相似度均小于预设阈值，则将第一关键词词组与关联词库中的词语进行匹配，以得到与第一关键词词组存在关联关系的关联词组；其中，关联词库中包括多个在历史匹配过程中具有关联关系的词语对及其之间的关联关系；

分配模块，用于根据关联词组长度为匹配到的关联词组分配优先级；

确定模块，用于按照优先级由高至底的顺序获取匹配到的关联词词组与第二关键词词组之间的关联关系，并根据该关联关系确定出与输入文本对应的资源数据。

进一步的，本申请实施例还提供了一种电子设备。图5是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图5为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，存储器22用于存储计算机程序，计算机程序由处理器21加载并执行，以实现前述任一实施例公开的文本匹配方法中的相关步骤。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222及数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量数据223的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的文本匹配方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223可以包括电子设备20收集到的输入文本。

进一步的，本申请实施例还公开了一种存储介质，存储介质中存储有计算机程序，计算机程序被处理器加载并执行时，实现前述任一实施例公开的文本匹配方法步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个…”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的文本匹配方法、装置、设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文本匹配方法，其特征在于，包括：

获取输入文本及待匹配资源数据；

基于系统词库中的词语对所述输入文本和所述待匹配资源数据进行分词，得到与所述输入文本对应的第一关键词词组及与所述待匹配资源数据对应的第二关键词词组；

计算所述第一关键词词组与所述第二关键词词组之间的相似度，并根据所述相似度从所述待匹配资源数据中确定出与所述输入文本对应的资源数据。

2.根据权利要求1所述的文本匹配方法，其特征在于，所述基于系统词库中的词语对所述输入文本和所述待匹配资源数据进行分词，包括：

通过构建字典树的方式对所述系统词库中的词语进行存储，得到与所述系统词库对应的目标字典树；

通过遍历所述目标字典树分别对所述输入文本和所述待匹配资源数据中的词组进行匹配，以利用字典树算法对所述输入文本和所述待匹配资源数据进行分词。

3.根据权利要求2所述的文本匹配方法，其特征在于，所述计算所述第一关键词词组与所述第二关键词词组之间的相似度，包括：

利用余弦相似度算法计算所述第一关键词词组与所述第二关键词词组之间的相似度。

4.根据权利要求3所述的文本匹配方法，其特征在于，还包括：

创建包含所述字典树算法和所述余弦相似度算法的动态链接库；

通过从所述动态链接库中调用相应的算法对所述输入文本和所述待匹配资源数据进行分词或计算所述第一关键词词组与所述第二关键词词组之间的相似度。

5.根据权利要求1至4任一项所述的文本匹配方法，其特征在于，所述根据所述相似度从所述待匹配资源数据中确定出与所述输入文本对应的资源数据，包括：

判断所述相似度是否大于预设阈值，如果是，则将所述相似度大于预设阈值的所述第二关键词词组对应的资源数据确定为与所述输入文本对应的资源数据。

6.根据权利要求5所述的文本匹配方法，其特征在于，判断所述相似度是否大于预设阈值之后，还包括：

如果所述相似度均小于所述预设阈值，则将所述第一关键词词组与关联词库中的词语进行匹配，以得到与所述第一关键词词组存在关联关系的关联词组；其中，所述关联词库中包括多个在历史匹配过程中具有关联关系的词语对及其之间的关联关系；

根据匹配到的所述关联词组与所述第二关键词词组之间的关联关系确定出与所述输入文本对应的资源数据。

7.根据权利要求6所述的文本匹配方法，其特征在于，所述根据匹配到的所述关联词组与所述第二关键词词组之间的关联关系确定出与所述输入文本对应的资源数据，包括：

根据关联词组长度为匹配到的所述关联词组分配优先级；

按照优先级由高至底的顺序获取匹配到的所述关联词词组与所述第二关键词词组之间的关联关系，并根据该关联关系确定出与所述输入文本对应的资源数据。

8.一种文本匹配装置，其特征在于，包括：

获取模块，用于获取输入文本及待匹配资源数据；

分词模块，用于基于系统词库中的词语对所述输入文本和所述待匹配资源数据进行分词，得到与所述输入文本对应的第一关键词词组及与所述待匹配资源数据对应的第二关键词词组；

计算模块，用于计算所述第一关键词词组与所述第二关键词词组之间的相似度，并根据所述相似度从所述待匹配资源数据中确定出与所述输入文本对应的资源数据。

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器；其中所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的文本匹配方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如权利要求1至7任一项所述的文本匹配方法。