CN114048285A

CN114048285A - 一种模糊检索方法、装置、终端及存储介质

Info

Publication number: CN114048285A
Application number: CN202111232433.6A
Authority: CN
Inventors: 王琪
Original assignee: Yancheng Jindi Technology Co Ltd
Current assignee: Yancheng Tianyanchawei Technology Co ltd
Priority date: 2021-10-22
Filing date: 2021-10-22
Publication date: 2022-02-15

Abstract

本发明公开了一种模糊检索方法，并公开了具有该模糊检索方法的装置、终端及存储介质，其中模糊检索方法获取待检索的源词语，然后通过源词语中每个词语单元在源词语中的位置确定词语的权重，并依据所述权重计算出源词语的词向量，然后将词向量与预先设定好的词条库，选出相似度最高的若干个结果作为模糊检索结果。

Description

一种模糊检索方法、装置、终端及存储介质

技术领域

本发明涉及计算机应用设计领域，特别涉及一种模糊检索方法、装置、终端及存储介质。

背景技术

现有的搜索技术，很大一部分是基于词汇实现的，而用户利用词汇进行检索的时候，往往难以使用非常准确的词语进行查询，所以在查询的时候通常都会将用户输入的词语进行模糊检索。

而在某些特定场景中，例如商品搜索的场景中，检索结果是有限的。这种场景中，可以通过计算用户搜索的词语和有限结果集中的相似程度来实现。

但是上述现有技术在实现的过程中，依然存在很多的问题，比如计算的准确性与整体的运算速度还存在改进的空间。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种模糊检索方法，能够针对中文的语言特性，提供一种准确率较高且运算速度快的模糊检索方法。

本发明还提出一种具有上述模糊检索方法的装置、终端及存储介质。

根据本发明的第一方面实施例的模糊检索方法，其特征在于，包括以下步骤：

获取待检索的源词语，计算所述源词语对应的加权源词语，所述加权源词语中包含所述源词语的每个词语单元在所述源词语中的权重信息；

将所述源词语对应的所述加权源词语，与预先设定的词条库中的多个词条中的每个词条进行对比，确定每个词条与所述加权源词语的匹配度，其中，所述词条库中的任一词条都包含所述词条的每个词语单元在所述词条中的权重信息；

将所述每个词条与所述源词语的匹配度与预先设定的阈值对比，确定多个词条中与源词语匹配度高于所述阈值的至少一个词条。

根据本发明实施例的模糊检索方法，至少具有如下有益效果：本申请在现有的检索方案的基础上，根据中文的特点，确定词语中不同位置的分词结果的权重，从而根据权重得到更准确的词向量，达到更优的检索效果。

根据本发明的一些实施例，所述加权源词语的确定方式，包括：

将所述源词语进行分词，得到若干个词语单元；

确定每个所述词语单元对应的初步词向量；

根据所述词语单元在所述源词语中的位置确定所述词语单元的权重，将所述词语单元的权重与所述词语单元对应的初步词向量相乘，得到所述词语单元的加权词向量；

将所述源词语的各个词语单元的加权词向量相加，得到所述加权源词语。

根据本申请的一些实施例，所述预先设定的词条库是基于词条创建的矩阵。

根据本申请的一些实施例，所述预先设定的词条库，其创建方式，包括：

获取有限结果集；

对所述有限结果集中的每个词条进行分词，得到若干个词语单元；

针对任一词条，确定所述每个词语单元对应的初步词向量；

将所述初步词向量与其在词条中的位置作为权重，计算得到所述词条对应的加权词向量；

基于每个所述词条对应的加权词向量构建矩阵，将所述矩阵作为词条库。

根据本申请的一些实施例，所述模糊检索方法通过矩阵运算的方式，将所述源词语对应的所述加权源词语，与预先设定的词条库中的多个词条中的每个词条进行对比，确定每个词条与所述加权源词语的匹配度。

根据本申请的一些实施例，所述确定每个词条与所述源词语的匹配度包括：通过计算源词语的加权词向量和词条对应的加权词向量之间的余弦相似度确定每个词条与所述源词语的匹配度。

根据本发明的第二方面实施例的模糊检索装置，其特征在于，包括：

加权词向量计算模块，能够获取待检索的源词语，计算所述源词语对应的加权源词语，所述加权源词语中包含所述源词语的每个词语单元在所述源词语中的权重信息；

匹配度程度计算模块，能够将所述源词语对应的所述加权源词语，与预先设定的词条库中的多个词条中的每个词条进行对比，确定每个词条与所述加权源词语的匹配度，其中，所述词条库中的任一词条都包含所述词条的每个词语单元在所述词条中的权重信息；

检索结果获取模块，能够将所述每个词条与所述源词语的匹配度与预先设定的阈值对比，确定多个词条中与源词语匹配度高于所述阈值的至少一个词条。

根据本申请的一些实施例，所述加权词向量计算模块，包括：

分词元件，能够将源词语进行分词，得到若干个词语单元；

词向量计算元件，能够根据预先设定的词条库确定每个所述词语单元对应的词向量；

加权词向量计算元件，能够将所述词语单元在所述源词语中的位置作为权重，与其对应的词向量结合得到每个所述词语单元对应的加权词向量。

根据本发明的一些实施例，所述加权词向量计算模块还包括：

第一分词元件，将所述源词语进行分词，得到若干个词语单元；

第一初步词向量计算元件，能够确定每个所述词语单元对应的初步词向量；

第一加权词向量确定元件，根据所述词语单元在所述源词语中的位置确定所述词语单元的权重，将所述词语单元的权重与所述词语单元对应的初步词向量相乘，得到所述词语单元的加权词向量；

加权源词语确定元件，能够将所述源词语的各个词语单元的加权词向量相加，得到所述加权源词语。

根据本发明的一些实施例，所述模糊检索装置还包括，词条库创建模块，该模块包括：

统计元件，能够获取有限结果集；

第二分词元件，对所述有限结果集中的每个词条进行分词，得到若干个词语单元；

第二初步词向量计算元件，针对任一词条，确定所述每个词语单元对应的初步词向量；

加权词向量确定元件，能够将第二加权词向量确定元件将所述初步词向量与其在词条中的位置作为权重，计算得到所述词条对应的加权词向量；

词条库搭建元件，能够基于每个所述词条对应的加权词向量构建矩阵，将所述矩阵作为词条库。

根据本申请第三方面的实施例的终端，其特征在于，包括：存储器、处理器及存储在该存储器上并可在该处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现上述模糊检索方法。

根据本申请第四方面实施例的计算机可读存储介质，其特征在于，该介质存储有计算机可执行指令，所述计算机可执行指令用于执行上述模糊检索方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例的一的模糊检索方法的步骤示意图；

图2为本发明实施例二的模糊检索方法的步骤示意图；

图3为本发明实施例三的模糊检索方法的步骤示意图；

图4为本发明实施例的模糊检索装置的框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

用户在使用搜索功能的时候，往往输入的结果与预期的结果是有差别的，这种时候需要对词条进行模糊检索。而在一些场景中，如果可检索结果是有限的，可以通过计算检索结果与输入词语的相似度来实现。

为了增加这种方法的准确程度，现针对中文的特性，设计了一种基于词位置的模糊检索方法。

实施例一、

参照图1，本申请的实施例提供了一种模糊检索方法，包括以下步骤：

步骤S100、获取待检索的源词语，计算所述源词语对应的加权源词语，所述加权源词语中包含所述源词语的每个词语单元在所述源词语中的权重信息。

步骤S200、将所述源词语对应的所述加权源词语，与预先设定的词条库中的多个词条中的每个词条进行对比，确定每个词条与所述加权源词语的匹配度。

步骤S300、将所述每个词条与所述源词语的匹配度与预先设定的阈值对比，确定多个词条中与源词语匹配度高于所述阈值的至少一个词条。。

为了更清晰的说明上述步骤的过程，以及本申请的优势所在，结合优选的实施例，进行更详细的说明。

实施例二、

参照图2，本申请包括以下步骤：

步骤S100、获取待检索的源词语，计算所述源词语对应的加权源词语，所述加权源词语中包含所述源词语的每个词语单元在所述源词语中的权重信息。进一步地，包括：

步骤S101、获取待检测的源词语。

所谓源词语，指的是需要被检测的词语。通常由用户输入，然后经由客户端发送过来。

步骤S102、将所述源词语进行分词，得到若干个词语单元。

利用中文分词器，将源词语进行分词，得到若干个词语单元。可以理解到的是，一个待检索的源词语，往往由多个词语单元构成。假设待检测的源词语为“玻璃体温计”显而易见的，玻璃是一个词语单元，体温计又是一个词语单元，中文分词器能够将连贯的多含义词语，变化成多个离散的具有单独含义的词语单元。这样有助于后续过程中，对词语进行分析与解析。

步骤S103、确定每个所述词语单元对应的初步词向量。

本实施例中利用Fasttext模型，将经过分词后得到的每个词语单元输入到该模型当中，然后得到的每个词语单元对应的词向量。

步骤S104、将所述词语单元在所述源词语中的位置作为权重，与其对应的词向量结合得到每个所述词语单元对应的加权词向量。

根据中文的语言特性，如果一个词语为“玻璃体温计”，则体温计是主题词语，而且绝大部分词语都喜欢将主体放在词语靠后的位置，所以为了区分两部分的重要性，提出了一种利用权重计算源词语向量的方式，具体如下：

假设用户输入的源词语为玻璃体温计，则分词结果为“玻璃”与“体温计”。“玻璃”的词位置坐标为1，“体温计”的词位置坐标为2。

假设，Fasttext模型得到的词向量分别为：

E(玻璃)＝[1，1，1]；E(体温计)＝[2，2，2]。

则利用位置权重计算公式计算出每个词的权重：

其中，i表示当前位置；k代表所有位置；m代表权重，可根据不同场景设定，n代表词语中的词语单元数量。

对于玻璃体温计，n＝2，W(玻璃，i＝1)＝0.34W(体温计，i＝2)＝0.6。

然后将词权重与词向量相乘，得到对应词的加权词向量：

E(玻璃)＝W(玻璃，i＝1)*E(玻璃)＝0.34*[1，1，1]＝[0.34，0.34，0.34]

E(体温计)＝W(体温计，i＝2)*E(体温计)＝0.6*[2，2，2]＝[1.32，1.32，1.32]

最后将源词语中每个词语单元对应的加权词向量进行求和，得到源词语对应的词向量，将源词语对应的词向量作为加权源词语：

E(玻璃体温计)＝E(玻璃)+E(体温计)＝[0.34，0.34，0.34]+[1.32，1.32，1.32]＝[1.66，1.66，1.66]。

可以理解到的是，上述计算过程仅作举例说明，不能理解为限制本申请的条件，同时，上述具体数值仅为说明方便所虚构的，并不代表真实运算过程。

预先设定的词条库中，存储了每个词条经过加权后得到的加权词向量。

可选的，确定每个词条与所述加权源词语的匹配度时，可以将计算好的源词语的加权词向量，与预先设定的词条库中每个词条对应的向量求余弦相似度。词条库的具体构建的方法可以参照实施例三。

根据本申请一些较优的实施例，所述预先设定的词条库，是矩阵形式的词条库，这种方式能够利用矩阵运算的高速性，进而增加了处理的速度。

步骤S300、将所述每个词条与所述源词语的匹配度与预先设定的阈值对比，确定多个词条中与源词语匹配度高于所述阈值的至少一个词条。

将步骤S200中，得出的每个词条与源词语的匹配度，进行排序，选出匹配度最高的至少一个词条。

进一步地，通过预先设置一个阈值，将所有匹配度大于这个阈值的词条选出来，然后按照匹配度进行排序，然后将经过排序的至少一个词条，返回到客户端当中。这样，就完成了整个模糊检索过程。

实施例三、

实施例二中提到了预先设置的词条库，构建所述词条库的步骤，可以描述为以下步骤：

步骤A100、获取有限结果集。

所谓有限结果集，也就是我们能够检索的目标范围，在本实施例当中，我们以商品的名称举例说明。

进一步地，可以依赖网络上公开的商品信息，包括网络商城、投标广告、公开的文档等，从中收集到多个词条，词条例如可以是商品名称，将收集到词条形成有限结果集。

步骤A200、将所述有限结果集中的第一词条进行分词，得到所述第一词条对应的分词结果，其中，所述分词结果具有若干个词语单元。

获取到有限结果集后，选取某一个词条作为第一词条，然后利用分词器对其进行分词，得到若干个词语单元，这些词语单元称为分词结果。

步骤A300、确定每个词语单元对应的初步词向量。

将第一词条分词后得到的结果输入预先训练的Fasttext模型中，能够得到每个词语单元对应的初步词向量。

步骤A400、所述词语单元对应的初步词向量和所述词语单元在第一词条中的位置，计算得到所述第一词条对应的词向量。

具体过程与实施例一当中的步骤S104相同，此处不再赘述。

步骤A500、重复上述步骤A200～A400，直到得到有限结果集当中每个词条对应的词向量。

步骤A600、基于每个词条对应的词向量构建成词条库。

在一些实施例中，将每个词条，与步骤A400中得到的该词条对应的词向量，做成词条库，就能够方便后续过程中的使用。

进一步地，在构建词条库的时候，是可以将词条库构建成矩阵的形式，这样能够增加实施例一当中，使用所述词条库时候的运算速度。

实施例四、

参照图4，本申请的又一实施例提供了一种模糊检索装置，该装置20包括：加权词向量计算模块201、匹配度程度计算模块202、检索结果获取模块203。

匹配度计算模块，能够将所述源词语对应的所述加权源词语，与预先设定的词条库中的多个词条中的每个词条进行对比，确定每个词条与所述加权源词语的匹配度，其中，所述词条库中的任一词条都包含所述词条的每个词语单元在所述词条中的权重信息；

本申请实施例通过确定集成在目标应用中的模糊检索工具，以利用该模糊检索工具，获取待检索的源词语，然后通过源词语中每个词语单元在源词语中的位置确定词语的权重，并依据所述权重计算出源词语的词向量，然后将词向量与预先设定好的词条库，选出相似度最高的若干个结果作为模糊检索结果。

进一步地，所述加权词向量计算模块，包括：

分词元件，能够将源词语进行分词，得到若干个词语单元；

进一步地，所述加权词向量计算模块还包括：

进一步地，所述模糊检索装置还包括，词条库创建模块，该模块包括：

统计元件，能够获取有限结果集；

本申请又一实施例提供了一种终端，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行计算机程序时以实现上述应用程序的模糊检索方法。

具体地，处理器可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

具体地，处理器通过总线与存储器连接，总线可包括一通路，以用于传送信息。总线可以是PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。

存储器可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

可选的，存储器用于存储执行本申请方案的计算机程序的代码，并由处理器来控制执行。处理器用于执行存储器中存储的应用程序代码，以实现上述实施例提供的应用程序的模糊检索装置的动作。

本申请又一实施例提供了一种计算机可读存储介质，存储有计算机可执行指令，该计算机可执行指令用于执行上述模糊检索方法。

以上所描述的装置实施例仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本申请的较佳实施进行了具体说明，但本申请并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种模糊检索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的模糊检索方法，其特征在于，所述加权源词语的确定方式，包括：

将所述源词语进行分词，得到若干个词语单元；

确定每个所述词语单元对应的初步词向量；

3.根据权利要求1所述的模糊检索方法，其特征在于，所述预先设定的词条库是基于词条创建的矩阵。

4.根据权利要求3所述的模糊检索方法，其特征在于，所述预先设定的词条库，其创建方式，包括：

获取有限结果集；

针对任一词条，确定所述每个词语单元对应的初步词向量；

5.根据权利要求3所述的模糊检索方法，其特征在于，所述模糊检索方法通过矩阵运算的方式，将所述源词语对应的所述加权源词语，与预先设定的词条库中的多个词条中的每个词条进行对比，确定每个词条与所述加权源词语的匹配度。

6.根据权利要求5所述的模糊检索方法，其特征在于，所述确定每个词条与所述源词语的匹配度包括：通过计算源词语的加权词向量和词条对应的加权词向量之间的余弦相似度确定每个词条与所述源词语的匹配度。

7.一种模糊检索装置，其特征在于，包括：

8.根据权利要求7所述的模糊检索装置，其特征在于，所述加权词向量计算模块，包括：

分词元件，能够将源词语进行分词，得到若干个词语单元；

9.一种终端，包括：存储器、处理器及存储在该存储器上并可在该处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要1至6中任一项所述的方法。

10.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至6中任一项所述的方法。