CN110427456A

CN110427456A - 一种词语联想的方法及装置

Info

Publication number: CN110427456A
Application number: CN201910559055.9A
Authority: CN
Inventors: 金戈; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-11-08

Abstract

本发明公开了一种词语联想的方法及装置，涉及数据处理技术领域，为解决现有技术中词语联想不能提高用户输入效率的问题而发明。该方法主要包括：构建加入注意力机制的卷积神经网络模型，卷积神经网络模型包括嵌入层、与嵌入层进行乘积运算的注意力层、将嵌入层与注意力层的乘积结果做进行卷积运算的卷积层和将卷积层输出的隐含特征接入嵌入层同时输出预测词汇的输出层；根据预置训练文本数据，训练卷积神经网络模型；根据预置分词规则，对时序输入数据进行分词处理，获取时序输入数据的时序文本分词；将时序文本分词输入卷积神经网络模型，计算预测词汇。本发明主要应用于终端文本输入的过程中。

Description

一种词语联想的方法及装置

技术领域

本发明涉及一种数据处理技术领域，特别是涉及一种词语联想的方法及装置。

背景技术

在电子产品上输入文本时，现有的输入法技术中，输入应用可以收集用户的历史数据，记录用户的高频输入词语或短句，生成用户个性词库，以方便用户输入。通过用户历史输入数据获取个性用户词汇的方法，只能通过用户的输入获取用户感兴趣的词汇。如果电子产品是用于公共场所的客服机器人，如银行客服机器人，其用户是不固定的，用户感兴趣的词汇不同，该方法无关获取不同用户关注的词语，不能提高用户的输入效率。

发明内容

有鉴于此，本发明提供一种词语联想的方法及装置，主要目的在于解决现有技术中词语联想不能提高用户输入效率的问题。

依据本发明一个方面，提供了一种词语联想的方法，包括：

构建加入注意力机制的卷积神经网络模型，所述卷积神经网络模型包括嵌入层、与所述嵌入层进行乘积运算的注意力层、将所述嵌入层与所述注意力层的乘积结果做进行卷积运算的卷积层和将所述卷积层输出的隐含特征接入所述嵌入层同时输出预测词汇的输出层；

根据预置训练文本数据，训练所述卷积神经网络模型；

根据预置分词规则，对所述时序输入数据进行分词处理，获取所述时序输入数据的时序文本分词；

将所述时序文本分词输入所述卷积神经网络模型，计算预测词汇。

依据本发明另一个方面，提供了一种词语联想的装置，包括：

构建模块，用于构建加入注意力机制的卷积神经网络模型，所述卷积神经网络模型包括嵌入层、与所述嵌入层进行乘积运算的注意力层、将所述嵌入层与所述注意力层的乘积结果做进行卷积运算的卷积层和将所述卷积层输出的隐含特征接入所述嵌入层同时输出预测词汇的输出层；

训练模块，用于根据预置训练文本数据，训练所述卷积神经网络模型；

获取模块，用于根据预置分词规则，对所述时序输入数据进行分词处理，获取所述时序输入数据的时序文本分词；

计算模块，用于将所述时序文本分词输入所述卷积神经网络模型，计算预测词汇。

根据本发明的又一方面，提供了一种存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述词语联想的方法对应的操作。

根据本发明的再一方面，提供了一种计算机设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述词语联想的方法对应的操作。

借由上述技术方案，本发明实施例提供的技术方案至少具有下列优点：

本发明提供了一种词语联想的方法及装置，首先构建加入注意力机制的卷积神经网络模型，然后根据预置训练文本数据，训练卷积神经网络模型，再根据预置分词规则，对时序输入数据进行分词处理，获取时序输入数据的时序文本分词，最后将时序文本分词输入卷积神经网络模型，计算预测词汇。与现有技术相比，本发明实施例通过在卷积神经网络模型中添加注意力机制，在原本时序新捕捉的基础上，能够更灵活分配来自不同时间的卷积核信息的注意力权重，以提升模型的精度及训练效率，进而提高对用户输入预测的准确率，以便于提高用户输入效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种词语联想的方法流程图；

图2示出了本发明实施例提供的另一种词语联想的方法流程图；

图3示出了本发明实施例提供的一种词语联想的装置组成框图；

图4示出了本发明实施例提供的另一种词语联想的装置组成框图；

图5示出了本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种词语联想的方法，如图1所示，该方法包括：

101、构建加入注意力机制的卷积神经网络模型。

本方案以卷积神经网络为基础，并加入了时序注意力机制以提升卷积神经模型训练效率及调整时序记忆长度。卷积神经网络为多层残差卷积神经网络，以用户输入文本为输入，卷积层捕捉时序信息，然后输出预测词汇，输入与输出均为时序性。卷积神经网络模型包括嵌入层、与所述嵌入层进行乘积运算的注意力层、将所述嵌入层与所述注意力层的乘积结果做进行卷积运算的卷积层和将所述卷积层输出的隐含特征接入所述嵌入层同时输出预测词汇的输出层。

卷积层与注意力层为一组结构，可以构造多层结构，实现捕捉长时序文本并分配时序注意力的目的。卷积神经网络模型中还包括全连接层、池化层、归一化层等常规卷积神经网络结构，以提升模型训练效率。

102、根据预置训练文本数据，训练所述卷积神经网络模型。

预置训练文本数据包括多组的训练输入文本和预测输出文本。将训练文本数据输入卷积神经网络模型，训练卷积神经网络模型中的配置参数。

103、根据预置分词规则，对所述时序输入数据进行分词处理，获取所述时序输入数据的时序文本分词。

时序输入数据，是用户在终端电子产品按照时序输入的文本数据。在输入过程中，时序输入数据中的各个词汇被录入的时间不同，属于不同的时间序列。预置分词规则，可以为基于字符串匹配的分词算法、可以为基于词的n原语法模型的分词算法、可以为基于隐马尔可夫的分词算法、还可以为基于条件随机场的分词算法。按照预置分词规则，将时序输入数据进行分词处理，获取时序文本分词。例如，当用户在客服机器人页面，输入了“我爱吃”这一文本后，根据分词规则获取“我”、“爱”、“吃”三个时序文本分词。

104、将所述时序文本分词输入所述卷积神经网络模型，计算预测词汇。

将时序文本分词输入训练好的卷积神经网络模型，卷积神经网络模型的输出层能够计算预置文本库中各个词汇是用户即将输入词汇的概率，并将概率最大值对应的词汇确定为预测词汇。

本发明提供了一种词语联想的方法，首先构建加入注意力机制的卷积神经网络模型，然后根据预置训练文本数据，训练卷积神经网络模型，再根据预置分词规则，对时序输入数据进行分词处理，获取时序输入数据的时序文本分词，最后将时序文本分词输入卷积神经网络模型，计算预测词汇。与现有技术相比，本发明实施例通过在卷积神经网络模型中添加注意力机制，在原本时序新捕捉的基础上，能够更灵活分配来自不同时间的卷积核信息的注意力权重，以提升模型的精度及训练效率，进而提高对用户输入预测的准确率，以便于提高用户输入效率。

本发明实施例提供了另一种词语联想的方法，如图2所示，该方法包括：

201、构建加入注意力机制的卷积神经网络模型。

卷积神经网络模型包括嵌入层、与所述嵌入层进行乘积运算的注意力层、将所述嵌入层与所述注意力层的乘积结果做进行卷积运算的卷积层和将所述卷积层输出的隐含特征接入所述嵌入层同时输出预测词汇的输出层。具体构建过程包括：设置卷积神经网络模型的嵌入层，所述嵌入层用于根据词向量字典将输入文本转换为文本词向量；设置所述卷积神经网络模型的卷积层的卷积核，所述卷积核用于获取预置长度的所述文本词向量；在所述卷积层的输出端，设置所述卷积神经网络模型注意力层，所述注意力层用于根据预置函数计算输入词汇的权重；根据所述嵌入层、所述卷积层和所述注意力层，构建所述加入注意力机制的卷积神经网络模型。

所述设置卷积神经网络模型的嵌入层之前，所述方法还包括：按照Word2Vec算法，将预置中文语料数据转换为词向量，生成词向量字典。词向量字典中包括预置中文语料数据与其对应的词向量。本步骤可以通过Python中的gensim库实现。预置中文语料数据中包含大量的文本词汇，可以按照使用环境分为不同的类别，在本发明应用在不同的电子产品终端可以导入不同的文本类别，一方面可以提高词向量字典的准确性，另一方面可以减少词向量字典的数据量。示例性的，本发明用于车站电子查询终端，预置中文语料数据中包括地理名称类别，以便用户查找车次信息时的输入文本能够完全落入词向量字典中。

嵌入层用于根据词向量字典将输入文本转换为文本词向量，也就是在词向量字典中查找输入文本，然后再查找输入文本对应的文本词向量。示例性的，当嵌入层接收到“我爱吃”这一文本后，将“我”、“爱”、“吃”，这三个输入文本转换为文本词向量。卷积核用于获取预置长度的文本词向量，示例性的，输入文本为“我非常爱吃苹果”，卷积核长度为3，捕捉所有联系三个词的词向量，获取临近的“我非常爱”、“非常爱吃”、“爱吃苹果”，三个词对应的词向量。在本发明中卷积神经网络模型为因果卷积神经网络模型，因此卷积核的长度为2。因果卷积神经网络模型，用于处理时序数据，本发明可以抽象为，根据x₁,x₂…x_t和y₁,y₂…y_t-1预测y_t，使得y_t接近实际值。采用公式其中p(x)为概率函数，用于计算x_t出现的概率，x₁,x₂…x_t分别指第一到第t个词向量。卷积核，用户获取输入文本的数据特征，同时降低输入数据维度。

注意力层用于根据预置函数计算输入词汇的权重，示例性的，对于“我”、“爱”、“吃”，“吃”这一词汇对于输入预测的作用最高，注意力层可能分配的比重为0.2、0.2、0.6。计算输入词汇的权重，可以使用其中σ(z)_j为第j个词向量的权重，为第j个词向量的指数值，为所有词向量的指数值的求和。

卷积层用于将嵌入层和注意力层的乘积结果做卷积运算，也就是为嵌入层中获取的词汇配置权重，然后带有权重标记的词向量与词库中的词汇做卷积运算输出词库中词汇与输入文本的相关度。词库中包括通用词汇，以及在特定场景下的高频词汇。

输出层用于将卷积层输出的隐含特征接入所述嵌入层同时输出预测词汇的输出层。预测词汇为词库中与输入文本的相关度最高的词汇。将预测词汇接入嵌入层，以便于对预测词汇进行修正。

202、根据所述预置分词规则，对所述预训练文本数据进行分词处理，获取所述预训练数据的训练文本分词。

预置分词规则，可以为基于字符串匹配的分词算法、可以为基于词的n原语法模型的分词算法、可以为基于隐马尔可夫的分词算法、还可以为基于条件随机场的分词算法。按照预置分词规则，将时序输入数据进行分词处理，获取时序文本分词。分词处理可以通过Python中的jieba库实现。

203、根据正则匹配算法，删除所述训练文本分词中的停用词。

去除停用词，以使得训练文本分词符合现在的用词要求，提供预测词汇的准确性。正则匹配算法，是指一种字符串匹配的模式，可以用来检查一个串是否含有某种子串，将匹配的子串替换或者从某个串中取出符合某个条件的子串等。在本方案中将停用词作为子串，如果训练文本中含有停用词，则删除训练文本中的停用词。本步骤的关键在于停用词表的维护，根据需要可使用通用的停用词表，也可以针对实际的应用场景，专门整理对业务无帮助或者无意义的词，例如在购买车票时，可将暂停使用的地名添加至停用词表。示例性的，训练文本为“我想去盛京游故宫”，停用词为“常山、幽州、盛京、琅琊、兰陵、泸州”，根据正则匹配算法，删除训练文本中的“盛京”，训练文本被修改为“我想去游故宫”。

204、根据预置训练文本数据，训练所述卷积神经网络模型。

预置训练文本数据包括训练输入文本分词和训练预测文本分词。训练过程具体包括：根据所述训练输入文本分词，通过所述卷积神经网络模型获取预置输出文本库中各个词汇的训练输出概率值；根据所述训练概率输出值中的最大值对应的训练词汇与所述训练预测文本分词，计算交叉熵损失函数；根据ADAM优化算法，计算所述交叉熵损失函数的最小值，以训练所述卷积神经网络模型。训练卷积神经网络通过Python中的tensorflow库实现。

205、根据预置分词规则，对所述时序输入数据进行分词处理，获取所述时序输入数据的时序文本分词。

本步骤与图1所示的步骤103所述的方法相同，这里不再赘述。

206、将所述时序文本分词输入所述卷积神经网络模型，计算预测词汇。

计算过程具体包括：根据所述时序文本分词，通过所述卷积神经网络模型获取所述预置输出文本库中各个词汇的预测输出概率值；确定所述预测输出概率值中的最大值对应的词汇为预测词汇。用户在电子终端使用本发明时，将用户在电子终端输入的文本数据加入至预置输出文本库中。

进一步的，作为对上述图1所示方法的实现，本发明实施例提供了一种词语联想的装置，如图3所示，该装置包括：

构建模块31，用于构建加入注意力机制的卷积神经网络模型，所述卷积神经网络模型包括嵌入层、与所述嵌入层进行乘积运算的注意力层、将所述嵌入层与所述注意力层的乘积结果做进行卷积运算的卷积层和将所述卷积层输出的隐含特征接入所述嵌入层同时输出预测词汇的输出层；

训练模块32，用于根据预置训练文本数据，训练所述卷积神经网络模型；

获取模块33，用于根据预置分词规则，对所述时序输入数据进行分词处理，获取所述时序输入数据的时序文本分词；

计算模块34，用于将所述时序文本分词输入所述卷积神经网络模型，计算预测词汇。

本发明提供了一种词语联想的装置，首先构建加入注意力机制的卷积神经网络模型，然后根据预置训练文本数据，训练卷积神经网络模型，再根据预置分词规则，对时序输入数据进行分词处理，获取时序输入数据的时序文本分词，最后将时序文本分词输入卷积神经网络模型，计算预测词汇。与现有技术相比，本发明实施例通过在卷积神经网络模型中添加注意力机制，在原本时序新捕捉的基础上，能够更灵活分配来自不同时间的卷积核信息的注意力权重，以提升模型的精度及训练效率，进而提高对用户输入预测的准确率，以便于提高用户输入效率。

进一步的，作为对上述图2所示方法的实现，本发明实施例提供了另一种词语联想的装置，如图4所示，该装置包括：

构建模块41，用于构建加入注意力机制的卷积神经网络模型，所述卷积神经网络模型包括嵌入层、与所述嵌入层进行乘积运算的注意力层、将所述嵌入层与所述注意力层的乘积结果做进行卷积运算的卷积层和将所述卷积层输出的隐含特征接入所述嵌入层同时输出预测词汇的输出层；

训练模块42，用于根据预置训练文本数据，训练所述卷积神经网络模型；

获取模块43，用于根据预置分词规则，对所述时序输入数据进行分词处理，获取所述时序输入数据的时序文本分词；

计算模块44，用于将所述时序文本分词输入所述卷积神经网络模型，计算预测词汇。

进一步地，所述构建模块41，包括：

设置单元411，用于设置卷积神经网络模型的嵌入层，所述嵌入层用于根据词向量字典将输入文本转换为文本词向量；

所述设置单元411，还用于设置所述卷积神经网络模型的卷积层的卷积核，所述卷积核用于获取预置长度的所述文本词向量；

所述设置单元411，还用于在所述卷积层的输出端，设置所述卷积神经网络模型注意力层，所述注意力层用于根据预置函数计算输入词汇的权重，所述预置函数为其中σ(z)_j为第j个词向量的权重，为第j个词向量的指数值，为所有词向量的指数值的求和；

构建单元412，用于根据所述嵌入层、所述卷积层和所述注意力层，构建所述加入注意力机制的卷积神经网络模型。

进一步地，所述方法还包括：

生成单元413，用于所述设置卷积神经网络模型的嵌入层之前，按照Word2Vec算法，将预置中文语料数据转换为词向量，生成词向量字典。

进一步地，所述方法还包括：

所述获取模块43，还用于所述根据预置训练文本数据，训练所述卷积神经网络模型之前，根据所述预置分词规则，对所述预训练文本数据进行分词处理，获取所述预训练数据的训练文本分词；

删除模块45，用于根据正则匹配算法，删除所述训练文本分词中的停用词。

进一步地，所述预置训练文本数据包括训练输入文本分词和训练预测文本分词；

所述训练模块42，包括：

获取单元421，用于根据所述训练输入文本分词，通过所述卷积神经网络模型获取预置输出文本库中各个词汇的训练输出概率值；

计算单元422，用于根据所述训练概率输出值中的最大值对应的训练词汇与所述训练预测文本分词，计算交叉熵损失函数；

所述计算单元422，还用于根据ADAM优化算法，计算所述交叉熵损失函数的最小值，以训练所述卷积神经网络模型。

进一步地，所述计算模块44，包括：

获取单元441，用于根据所述时序文本分词，通过所述卷积神经网络模型获取所述预置输出文本库中各个词汇的预测输出概率值；

确定单元442，用于确定所述预测输出概率值中的最大值对应的词汇为预测词汇。

进一步地，所述卷积神经网络模型为因果卷积神经网络模型。

根据本发明一个实施例提供了一种存储介质，所述存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的词语联想的方法。

图5示出了根据本发明一个实施例提供的一种计算机设备的结构示意图，本发明具体实施例并不对计算机设备的具体实现做限定。

如图5所示，该计算机设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器502，用于执行程序510，具体可以执行上述词语联想的方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。处理器502可能是中央处理器CPU，或者是特定集成电路ASIC(Application Specific IntegratedCircuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作：

根据预置训练文本数据，训练所述卷积神经网络模型；

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种词语联想的方法，其特征在于，包括：

根据预置训练文本数据，训练所述卷积神经网络模型；

2.如权利要求1所述的方法，其特征在于，所述构建加入注意力机制的卷积神经网络模型，包括：

设置卷积神经网络模型的嵌入层，所述嵌入层用于根据词向量字典将输入文本转换为文本词向量；

设置所述卷积神经网络模型的卷积层的卷积核，所述卷积核用于获取预置长度的所述文本词向量；

在所述卷积层的输出端，设置所述卷积神经网络模型注意力层，所述注意力层用于根据预置函数计算输入词汇的权重，所述预置函数为其中σ(z)_j为第j个词向量的权重，为第j个词向量的指数值，为所有词向量的指数值的求和；

根据所述嵌入层、所述卷积层和所述注意力层，构建所述加入注意力机制的卷积神经网络模型。

3.如权利要求2所述的方法，其特征在于，所述设置卷积神经网络模型的嵌入层之前，所述方法还包括：

按照Word2Vec算法，将预置中文语料数据转换为词向量，生成词向量字典。

4.如权利要求1所述的方法，其特征在于，所述根据预置训练文本数据，训练所述卷积神经网络模型之前，所述方法还包括：

根据所述预置分词规则，对所述预训练文本数据进行分词处理，获取所述预训练数据的训练文本分词；

根据正则匹配算法，删除所述训练文本分词中的停用词。

5.如权利要求4所述的方法，其特征在于，所述预置训练文本数据包括训练输入文本分词和训练预测文本分词；

所述根据预置训练文本数据，训练所述卷积神经网络模型，包括：

根据所述训练输入文本分词，通过所述卷积神经网络模型获取预置输出文本库中各个词汇的训练输出概率值；

根据所述训练概率输出值中的最大值对应的训练词汇与所述训练预测文本分词，计算交叉熵损失函数；

根据ADAM优化算法，计算所述交叉熵损失函数的最小值，以训练所述卷积神经网络模型。

6.如权利要求5所述的方法，其特征在于，所述将所述时序文本分词输入所述卷积神经网络模型，计算预测词汇，包括：

根据所述时序文本分词，通过所述卷积神经网络模型获取所述预置输出文本库中各个词汇的预测输出概率值；

确定所述预测输出概率值中的最大值对应的词汇为预测词汇。

7.如权利要求1-6任一项所述的方法，其特征在于，所述卷积神经网络模型为因果卷积神经网络模型。

8.一种词语联想的装置，其特征在于，包括：

9.一种存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-7中任一项所述的语联想的方法对应的操作。

10.一种计算机设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的语联想的方法对应的操作。