CN110309278A

CN110309278A - 关键词检索方法、装置、介质及电子设备

Info

Publication number: CN110309278A
Application number: CN201910434143.6A
Authority: CN
Inventors: 杨光; 崔勇; 杨雪松
Original assignee: Taikang Asset Management Co Ltd; Taikang Insurance Group Co Ltd
Current assignee: Taikang Asset Management Co Ltd; Taikang Insurance Group Co Ltd
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2019-10-08
Anticipated expiration: 2039-05-23
Also published as: CN110309278B

Abstract

本发明提供了一种关键词检索方法、装置、介质及电子设备，该关键词检索方法包括：将一个或多个关键词转换为对应的一个或多个单位词向量；根据转换得到的所述一个或多个单位词向量获得代表词向量；计算所述代表词向量与已构建的词向量库中的每个单位词向量的相似度，其中所述词向量库包括多个单位词向量以及与每个单位词向量对应的词；将所述词向量库中与所述代表词向量的相似度最高的一个或多个单位词向量对应的词作为检索结果。本发明通过将关键词转换为对应的单位词向量并且使用这种量化的单位词向量来进行相似度计算，使得检索过程简便；另外，在用户输入多个关键词的情况下，由多个关键词对应的多个单位词向量的平均向量或者加权平均向量生成代表词向量进行检索，能够准确地获得检索结果。

Description

关键词检索方法、装置、介质及电子设备

技术领域

本发明涉及信息检索技术领域，具体而言，涉及一种关键词检索方法、装置、介质以及电子设备。

背景技术

当前，信息检索系统通常按照以下流程来工作：根据用户输入的关键词在数据库中进行匹配，得到匹配结果并反馈给用户，其中匹配结果可以是与用户输入的关键词相关联的文本、图像和链接等。用户可以一次输入一个关键词也可以输入多个关键词，当用户一次输入多个关键词时，信息检索系统会首先将这些关键词进行拼接，然后对拼接后的关键词在数据库中进行匹配(例如，进行文本相似度的计算)，从而得到匹配结果。上述信息检索系统存在一定的缺陷，在处理用户输入的多个关键词时其没有考虑到关键词语义之间的关系，仅是进行简单的拼接并进行文本匹配，导致检索结果的准确率较低，从而导致对关键词选取的要求较高。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

为解决上述现有技术中存在的问题，根据本发明的一个实施例，提供一种关键词检索方法，包括：将一个或多个关键词转换为对应的一个或多个单位词向量；根据转换得到的所述一个或多个单位词向量获得代表词向量；计算所述代表词向量与已构建的词向量库中的每个单位词向量的相似度，其中所述词向量库包括多个单位词向量以及与每个单位词向量对应的词；将所述词向量库中与所述代表词向量的相似度最高的一个或多个单位词向量对应的词作为检索结果。

上述方法中，根据转换得到的所述一个或多个单位词向量获得代表词向量包括：计算转换得到的所述一个或多个单位词向量的平均向量；将所述平均向量进行单位化处理，得到所述代表词向量。

上述方法中，根据转换得到的所述一个或多个单位词向量获得代表词向量包括：对根据转换得到的所述一个或多个单位词向量进行加权求平均操作，得到加权平均向量；将所述加权平均向量进行单位化处理，得到所述代表词向量。

上述方法中，在对根据转换得到的所述一个或多个单位词向量进行加权求平均操作之前还可以包括：根据所述一个或多个关键词中的每个关键词的词性，确定转换得到的所述一个或多个单位词向量中的每个单位词向量的权重。

上述方法中，在对根据转换得到的所述一个或多个单位词向量进行加权求平均操作之前还可以包括：根据所述一个或多个关键词的输入顺序，确定转换得到的所述一个或多个单位词向量中的每个单位词向量的权重。

上述方法还可以还包括：利用已收集的语料训练Word2Vec词向量模型，其中所述Word2Vec词向量模型用于将所述一个或多个关键词转换为对应的一个或多个单位词向量；根据训练所述Word2Vec词向量模型时对所述语料进行分词得到的多个词，以及训练所述Word2Vec词向量模型时得到的与所述多个词对应的多个词向量，将所述多个词向量中的每个词向量进行单位化处理，使用所述多个词以及与所述多个词对应的多个单位词向量构建词向量库。

上述方法还可以包括：接收用户输入的文本；将所述文本进行分词，得到一个或多个关键词；判定所述一个或多个关键词中的每个关键词的词性。

根据本发明的一个实施例，还提供一种关键词检索装置，包括：

词向量生成模块，用于将一个或多个关键词转换为对应的一个或多个单位词向量；

代表词向量生成模块，用于根据转换得到的所述一个或多个单位词向量获得代表词向量；

检索结果生成模块，用于计算所述代表词向量与已构建的词向量库中的每个单位词向量的相似度，其中所述词向量库包括多个单位词向量以及与每个单位词向量对应的词；将所述词向量库中与所述代表词向量的相似度最高的一个或多个单位词向量对应的词作为检索结果。

根据本发明的一个实施例，还提供一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述关键词检索方法。

根据本发明的一个实施例，还提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个计算机程序，当所述一个或多个计算机程序被所述一个或多个处理器执行时，使得所述计算设备实现上述关键词检索方法。

本发明实施例提供的技术方案包括以下有益效果：

本发明采用Word2Vec词嵌入算法训练得到Word2Vec词向量模型，并且通过该模型构造关键词对应的单位词向量，与文本匹配相比，使用这种量化的单位词向量进行相似度计算使得检索过程更为简便；同时，由于利用Word2Vec技术得到的单位词向量包含了对应的关键词的语义信息，这使得通过计算单位词向量之间的相似度得到的检索结果更为准确。另外，在用户输入多个关键词的情况下，由多个关键词对应的多个单位词向量的平均向量或者加权平均向量生成代表词向量进行检索，符合用户的搜索意图，并且能够准确地获得检索结果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出了根据本发明一个实施例的关键词检索方法的流程图；

图2示意性示出了根据本发明另一个实施例的关键词检索方法的流程图；

图3示意性示出了根据本发明一个实施例的关键词检索装置的框图；

图4示意性示出了根据本发明另一个实施例的关键词检索装置的框图；

图5示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

根据本发明的一个实施例，提供一种关键词检索方法，该关键词检索方法在具有计算功能和存储功能的计算设备处执行，计算设备可以位于客户端或者服务器处。图1示意性地示出了该关键词检索方法的流程，概括而言包括：利用事先训练好的Word2Vec词向量模型将一个或多个关键词转换为对应的一个或多个单位词向量；计算一个或多个单位词向量的平均向量得到代表词向量；计算代表词向量与事先构建好的词向量库中的单位词向量的相似度，将词向量库中与代表词向量最相似的一个或多个单位词向量对应的一个或多个词作为检索结果。

下面结合图1具体描述该关键词检索方法的各个步骤：

步骤S101.接收用户通过用户交互设备输入的一个或多个关键词key₁，key₂，……，key_n(其中，n为大于或等于1的整数)。如果用户输入多个关键词，则用户可以在关键词与关键词之间用一个或多个空格、制表符、逗号或者分号隔开，以便于计算设备识别出多个关键词中的每个关键词。用户交互设备可以是触摸屏、键盘等电子设备。

步骤S102.将用户输入的一个或多个关键词key₁，key₂，……，key_n转换为对应的一个或多个单位词向量根据本发明的一个实施例，包括如下的子步骤：

S1021.加载事先训练好的Word2Vec词向量模型，该Word2Vec词向量模型是利用Word2Vec词嵌入算法在金融新闻、研报等语料上训练得到的。

本领域技术人员应理解，Word2Vec词嵌入算法不仅可以用于在百万数量级的词典和上亿的数据集上进行高效的训练，同时还可以得到训练结果，即词向量的集合，从而构建出词向量库。其中，通过Word2Vec词嵌入算法训练得到的每个词向量包含其对应的词的语义信息。根据本发明的一个实施例，Word2Vec词向量模型的训练过程包括：将事先收集好的新闻、研报等金融语料作为训练数据集；将该语料进行分词得到多个词，分词工具包括且不限于Stanford NLP、NLPIR2013、结巴分词等；利用Word2Vec词嵌入算法将分词后的语料进行训练，其中设定每个词的向量维度为100，得到训练好的Word2Vec词向量模型，同时得到词向量库(例如可以是一个*.bin的文件)，该词向量库包括对新闻、研报等金融语料进行分词后得到的多个词以及与每个词对应的词向量；进一步地，将词向量库中的每个词向量作单位化处理(即，将每个词向量转换为单位词向量，使得每个词向量的各分量的平方和为1)，单位化的词向量(即单位词向量)有利于后续的相似度计算。训练好的Word2Vec词向量模型的输入为词，其输出是与该词对应的单位词向量。

S1022.将用户输入的一个或多个关键词key₁，key₂，……，key_n分别输入训练好的Word2Vec词向量模型，由该模型输出对应的一个或多个单位词向量(其中n为大于或等于1的整数，并且每个单位词向量的维度为100维)。

步骤S103.计算步骤S102得到的一个或多个单位词向量的平均向量，并且进而得到代表词向量。根据本发明的一个实施例，步骤S103包括：

S1031.根据下式计算步骤S102中得到的一个或多个单位词向量的平均向量

其中，n表示单位词向量的个数(n为大于或等于1的整数)，表示第i个词向量。从公式(1)可知，当用户仅输入一个关键词并且在步骤S102中根据该关键词仅转换得到一个对应的单位词向量时，该单位词向量的平均向量就是其本身。

S1032.将步骤S1031中计算得到的平均向量进行单位化，得到代表词向量。

步骤S104.计算代表词向量与事先构建的词向量库中的单位词向量的相似度，从词向量库中选择与代表词向量最相似的k个单位词向量所对应的k个词作为检索结果并输出(其中k为大于或等于1的整数)。根据本发明的一个实施例，步骤S104包括如下子步骤：

S1041.分别计算代表词向量与词向量库中的所有单位词向量中的每个单位词向量的余弦相似度，其中，相似度越大表示两个词向量所对应的两个词的语义越接近；其中，词向量库是训练Word2Vec词向量模型时得到的。

S1042.按相似度由大到小对词向量库中的单位词向量进行排列，取前k个单位词向量对应的词作为检索结果进行输出，其中k为大于或等于1的整数。

在上述实施例中，通过Word2Vec技术将用户输入的关键词转换为单位词向量，该单位词向量包含了关键词的语义信息，因此，词向量间的相似度的计算结果更加准确，并且相应地，根据相似度得到的检索结果也会更加准确。

在上文的实施例中，代表词向量是通过对一个或多个关键词对应的一个或多个单位词向量求平均向量并且进行单位化处理得到的。然而在一些情况下，用户输入的多个关键词的重要程度可能并不相同，另外，用户也可能输入一段文本(例如句子)而非输入关键词。针对这些情况，根据本发明的一个实施例，还提供一种关键词检索方法，该关键词检索方法在具有计算功能和存储功能的计算设备处执行，计算设备可以位于客户端或者服务器处，图2示意性地示出了该关键词检索方法的流程，具体包括如下子步骤：

步骤S201.接收用户通过用户交互设备输入的文本。

步骤S202.将用户输入的文本进行分词，得到一个或多个关键词key₁，key₂，……，key_n(其中，n为大于或等于1的整数)；对所得到的一个或多个关键词进行词性标注，得到每个关键词的词性。其中，本发明使用的分词工具包括且不限于Stanford NLP、NLPIR2013、结巴分词等。

步骤S203.通过事先训练好的Word2Vec词向量模型，将经分词得到的一个或多个关键词key₁，key₂，……，key_n转换为对应的一个或多个单位词向量

步骤S204.如果在步骤S202中对用户输入的文本进行分词仅得到一个关键词(也就是在步骤S203中转换得到一个单位词向量)，则执行步骤S205；如果在步骤S202中对用户输入的文本进行分词得到了多个关键词(也就是在步骤S203中转换得到多个单位词向量)，则执行步骤S206。

步骤S205.将经分词得到的一个关键词所对应的单位词向量作为代表词向量，执行步骤S208。

步骤S206.根据经分词得到的多个关键词中的每个关键词的词性，确定所述多个关键词对应的多个单位词向量的权重。其中，不同的词性对应有预定的不同权重，例如，名词和形容词所对应的权重要高于副词及其他词性所对应的权重。

步骤S207.计算经分词得到的多个关键词对应的多个单位词向量的加权平均向量，并且进而得到代表词向量。根据本发明的一个实施例，该步骤包括

S2071.根据下式计算多个单位词向量的加权平均向量

其中，n表示单位词向量的个数(n为大于1的整数)，表示第i个单位词向量，w_i表示第i个单位词向量的权重。

S2072.将步骤S2071中计算得到的加权平均向量进行单位化处理，得到代表词向量。

步骤S208.计算代表词向量与事先构建好的词向量库中的单位词向量的相似度，从词向量库中选择与代表词向量最相似的k个单位词向量所对应的k个词作为检索结果并输出(其中k为大于或等于1的整数)。其中，词向量库是训练Word2Vec词向量模型时得到的。

在上述实施例中，单位词向量的权重与对应的关键词的词性相关联，这使得在生成代表词向量时，一些不太重要的关键词(如副词)的作用较小，从而使得生成的代表词向量更为准确。在另一个实施例中，单位词向量的权重可以与用户输入关键词的顺序有关，例如，用户一次输入多个关键词进行检索，其中第一个关键词所对应的单位词向量的权重最大，第二个次之，依次类推。在其他实施例中，也可以使用其他规则来设置关键词的权重。

另外，上述实施例中利用了余弦相似度来进行词向量间的相似度计算，然而本领域技术人员应理解，也可以利用其他方式(如欧氏距离等)来进行相似度的计算；并且，除了Word2Vec技术之外，也可以采用Glove、PPMI等词向量模型将关键词转换为对应的词向量。

以下结合附图介绍本发明的装置实施例。

根据本发明的一个实施例，还提供一种关键词检索装置。图3示出了该关键词检索装置300的框图，包括：接收模块301、词向量生成模块302、代表词向量生成模块303和检索结果生成模块304。

其中，接收模块301用于接收用户通过用户交互设备输入的一个或多个关键词；词向量生成模块302用于将用户输入的一个或多个关键词转换为对应的一个或多个单位词向量；代表词向量生成模块303用于根据转换得到的一个或多个单位词向量获得代表词向量；检索结果生成模块304用于计算代表词向量与事先构建好的词向量库中的每个单位词向量的相似度，以及将词向量库中与代表词向量的相似度最高的一个或多个单位词向量对应的词作为检索结果并输出。

由于本实施例的关键词检索装置的各个功能模块与上文结合图1描述的关键词检索方法的实施例的步骤对应，因此对于本装置实施例中未披露的细节，请参照结合图1描述的关键词检索方法的实施例。

根据本发明的一个实施例，还提供一种关键词检索装置。图4示出了该关键词检索装置400的框图，包括：接收模块401、分词及词性标注模块402、词向量生成模块403、代表词向量生成模块404和检索结果生成模块405。

其中，接收模块401用于接收用户通过用户交互设备输入的文本；分词及词性标注模块402用于将用户输入的文本进行分词以得到一个或多个关键词，并且对所得到的一个或多个关键词进行词性标注，得到每个关键词的词性；词向量生成模块403用于将经分词得到的一个或多个关键词转换为对应的一个或多个单位词向量；代表词向量生成模块404用于根据转换得到的一个或多个单位词向量获得代表词向量；检索结果生成模块405用于计算代表词向量与事先构建好的词向量库中的每个单位词向量的相似度，以及将词向量库中与代表词向量的相似度最高的一个或多个单位词向量对应的词作为检索结果并输出。

由于本实施例的关键词检索装置的各个功能模块与上文结合图2描述的关键词检索方法的实施例的步骤对应，因此对于本装置实施例中未披露的细节，请参照结合图2描述的关键词检索方法的实施例。

根据本发明的一个实施例，还提供一种适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。参见图5，计算机系统500包括总线505，耦合到总线505的设备之间可以快速地传输信息。处理器501与总线505耦合，用于执行由计算机程序代码所指定的一组动作或操作，处理器501可以单独地或者与其他设备组合实现为机械、电、磁、光、量子或者化学部件等。

计算机系统500还包括耦合到总线505的存储器503，存储器503(例如，RAM或者其他动态存储设备)存储可由计算机系统500改变的数据，包括实现上述实施例所述的基于区块链进行评价的方法的指令或计算机程序。当处理器501执行该指令或计算机程序时，使得计算机系统500能够实现上述实施例中描述的关键词检索方法，例如，可以实现如图1-2中所示的各个步骤。存储器503还可以存储处理器501执行指令或计算机程序期间产生的临时数据，以及系统操作所需的各种程序和数据。计算机系统500还包括耦合到总线505的只读存储器502以及非易失性储存设备508，例如磁盘或光盘等，用于存储当计算机系统500被关闭或掉电时也能持续的数据。

计算机系统500还包括诸如键盘、传感器等的输入设备506，以及诸如阴极射线管(CRT)、液晶显示器(LCD)、打印机等的输出设备507。计算机系统500还包括耦合到总线505的通信接口504，通信接口504可以提供对外部设备的单向或双向的通信耦合。例如，通信接口504可以是并行端口、串行端口、电话调制解调器或者局域网(LAN)卡。计算机系统500还包括耦合到总线505的驱动设备509以及可拆卸设备510，诸如磁盘、光盘、磁光盘、半导体存储器等等，其根据需要安装在驱动设备509上，以便于从其上读出的计算机程序根据需要被安装入储存设备508。

根据本发明的另一个实施例，还提供一种计算机可读介质，该计算机可读介质可以是上述计算机系统500中所包含的，也可以是单独存在而未装配入该计算机系统500中的。该计算机可读介质承载有一个或者多个计算机程序或者指令，当所述一个或者多个计算机程序或者指令被处理器执行时，使得该计算机系统500实现上述实施例中所述的关键词检索方法。需要说明的是，计算机可读介质指的是向处理器501提供数据的任意介质，这种介质可以采取任意形式，包括但不限于，计算机可读存储介质(例如，非易失性介质、易失性介质)以及传输介质。其中，非易失性介质诸如包括光盘或磁盘，例如储存设备508；易失性介质例如包括存储器504。传输介质例如包括同轴电缆、铜线、光纤电缆以及在没有电缆和线缆的情况下通过空间的载波，例如声波和电磁波，包括无线电、光和红外波。计算机可读介质的一般形式包括：软盘、柔性盘、硬盘、磁带、任意其它磁介质、CD-ROM、CDRW、DVD、任意其它光介质、穿孔卡片、纸带、光标记表单、具有孔或其它光可识别标识的图案的任意其它物理介质、RAM、PROM、EPROM、FLASH-EPROM、任意其它存储器芯片或磁带盒、载波、或计算机可读取的任意其它介质。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种关键词检索方法，包括：

将一个或多个关键词转换为对应的一个或多个单位词向量；

根据转换得到的所述一个或多个单位词向量获得代表词向量；

计算所述代表词向量与已构建的词向量库中的每个单位词向量的相似度，其中所述词向量库包括多个单位词向量以及与每个单位词向量对应的词；

将所述词向量库中与所述代表词向量的相似度最高的一个或多个单位词向量对应的词作为检索结果。

2.根据权利要求1所述的方法，其特征在于，根据转换得到的所述一个或多个单位词向量获得代表词向量包括：

计算转换得到的所述一个或多个单位词向量的平均向量；

将所述平均向量进行单位化处理，得到所述代表词向量。

3.根据权利要求1所述的方法，其特征在于，根据转换得到的所述一个或多个单位词向量获得代表词向量包括：

对根据转换得到的所述一个或多个单位词向量进行加权求平均操作，得到加权平均向量；

将所述加权平均向量进行单位化处理，得到所述代表词向量。

4.根据权利要求3所述的方法，其特征在于，在对根据转换得到的所述一个或多个单位词向量进行加权求平均操作之前，所述方法还包括：

根据所述一个或多个关键词中的每个关键词的词性，确定转换得到的所述一个或多个单位词向量中的每个单位词向量的权重。

5.根据权利要求3所述的方法，其特征在于，在对根据转换得到的所述一个或多个单位词向量进行加权求平均操作之前，所述方法还包括：

根据所述一个或多个关键词的输入顺序，确定转换得到的所述一个或多个单位词向量中的每个单位词向量的权重。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述方法还包括：

利用已收集的语料训练Word2Vec词向量模型，其中所述Word2Vec词向量模型用于将所述一个或多个关键词转换为对应的一个或多个单位词向量；

根据训练所述Word2Vec词向量模型时对所述语料进行分词得到的多个词，以及训练所述Word2Vec词向量模型时得到的与所述多个词对应的多个词向量，将所述多个词向量中的每个词向量进行单位化处理，使用所述多个词以及与所述多个词对应的多个单位词向量构建词向量库。

7.根据权利要求1-5中任一项所述的方法，所述方法还包括：

接收用户输入的文本；

将所述文本进行分词，得到一个或多个关键词；

判定所述一个或多个关键词中的每个关键词的词性。

8.一种关键词检索装置，包括：

9.一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。

10.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个计算机程序，当所述一个或多个计算机程序被所述一个或多个处理器执行时，使得所述计算设备实现如权利要求1至7中任一项所述的方法。