CN108762523A

CN108762523A - 基于capsule网络的输入法输出字符预测方法

Info

Publication number: CN108762523A
Application number: CN201810565819.0A
Authority: CN
Inventors: 薛方正; 古俊波; 刘阳阳; 罗胜元
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2018-11-06

Abstract

本发明涉及基于capsule网络的输入法输出字符预测方法，包括如下步骤：S1获取已知文本数据集(用作训练集)并通过处理文本数据集训练得到词向量字典；S2设定迭代次数为N，随机设置每层神经网络中变换矩阵的初始值；采用已知训练集训练预测模型训练；S3将用户输入的词输入预测模型进行预测。本发明运用了现在最新的神经网络单元，它能够捕捉到词与词之间更好的内在联系，相比于传统的预测方法，该方法更接近人类对语言的理解，因此，预测出来的词往往是人们更加希望输出的词。

Description

基于capsule网络的输入法输出字符预测方法

技术领域

本发明涉及计算机技术领域，具体涉及一种基于capsule网络的输入法输出字符预测方法。

背景技术

对计算机而言，输入输出是最基本的功能。硬件方面，人们通过鼠标、键盘等输入设备对计算机进行一系列的操作，从而获得自己想要的资源；软件方面，输入法通过接受键盘的输入来真正的实现人们想要输入的内容。

现有的输入法引擎，一般使用字典树、n-gram、或者HMM模型来实现。其中字典树是一种树状结构的词表，可以高效的查询用户输入的键码组合，从而将用户输入的单个字符转化为一个个单词或者汉字，但是这种方法并不能通过用户已经的输入来预测用户下一个想要的输出。n-gram是一种统计语言模型，是可以解决上述问题，即通过用户输入的前n个词，来预测用户将要输出第n+1个词，但是，这种方法预测出来的准确率往往比较低，这就极大的影响了用户体验。

发明内容

针对现有技术存在预测准确率低的技术问题，本发明的目的是提供一种基于capsule网络的输入法输出字符预测方法，该预测方法的预测准确率高。

为实现上述目的，本发明采用如下技术方案：基于capsule网络的输入法输出字符预测方法，包括如下步骤：

S1：获取已知的文本数据集；

使用jieba分词工具对获取到的文本数据集进行分词；

将已经分词过的文本数据集通过word2vec训练生成词向量字典；

S2：设定迭代次数为N，预设每层神经网络中变换矩阵和加权系数的初始值；

将已经分词的文本数据集中的词通过词向量字典转化为对应词向量，并对所有词向量进行分组，每个词向量组中包括x+1个词向量，每输入一个词向量组完成一次迭代，同时每层神经网络中的变换矩阵更新一次，迭代次数完成，每层神经网络中的变换矩阵更新结束，即预测模型训练完成；

S3：当用户输入x个词时，先将该x个词分别转化为词向量，转化后的词向量构成待预测词向量组，将所述待预测词向量组输入步骤S2得到的预测模型，输出预测值，最后将预测值分别转化为词输出。

作为改进，所述步骤S2中预测模型的训练方法如下：

S2a：设将已经分词的文本数据集中的词转化为词向量，并对所有词向量进行分组，得到M个词向量组，其中每个词向量组中第x+1个词向量为期望值；

1)令k＝1；

2)

其中，表示输入神经元经过变化矩阵之后的状态，u_k|i表示输入的第k个词向量组的第i个词的词向量，W_ji表示神经网络输入层到变换层的变换矩阵，i表示输入词向量的维度，j表示输入词向量经过变化矩阵后的维度大小；

3)

其中，s表示对加权求和之后的值，c_i表示加权系数，x表示输入的词向量的个数；

4)

其中，v表示对s进行压缩后的状态；

5)将神经网络的实际输出与词向量字典中的每个词向量采用如下公式做内积；

Y＝softmax(av),其中a表示词向量字典，

Y表示词向量字典中词的输出概率，将词向量字典中输出概率最大的那个词向量作为预测值；

6)将预测值与所述期望值做差，然后根据差值采用梯度下降法对W_ji进行更新，使用动态路由对c_i进行更新；

7)如果k≤M，则令k＝k+1，并返回步骤2)，否则执行下一步；

8)保存模型参数W_ji|last，c_i|last；

S2b：所述预测模型为：

a)

其中，表示输入神经元经过变化矩阵之后的状态，u_i表示输入的第i个词的词向量；

b)

其中，s表示对加权求和之后的一个状态；

c)

其中，v表示对s进行压缩后的状态；

d)将神经网络的实际输出与词向量字典中的每个词向量采用如下公式做内积用于评价他们的相似度；

Y＝softmax(av),其中a表示词向量字典，

Y表示词向量字典中词的输出概率，将所有输出概率从大到小排序，输出概率值位于前Q位所对应的词向量作为预测值。

相对于现有技术，本发明至少具有如下优点：

本发明运用了现在最新的神经网络单元，它能够捕捉到词与词之间更好的内在联系，相比于传统的预测方法，该方法更接近人类对语言的理解，因此，预测出来的词往往是人们更加希望输出的词。

具体实施方式

下面对本发明作进一步详细说明。

需要说明的是：本发明中的“词”是指，当某一个字符与前后字符没有联系时，则将该字符认定为一个词，判断字符是否与前后字符有联系的依据为日常用语习惯。例如，一句话“青少年是祖国的来来。”中“青少年”三个字符相互有联系，根据日常用语判断，认定为一个词，“是”与“年”、“祖”根据日常用语判断相互没什么联系，原理相似，“是”为一个词，“祖国”相互有联系，认定为一个词、“的”认定为一个词，“未来”认定为一个词：“。”认定为一个词。

再例如：“祝愿祖国母亲生日快乐。”“祝愿”为一个词，“祖国”为一个词，“母亲”为一个词，“生日快乐”为一个词。

基于capsule网络的输入法输出字符预测方法，包括如下步骤：

S1：获取已知的训练文本数据集，并将该文本数据集通过jieba分词工具进行分词，然后将已经分词过的文本数据集通过word2vec训练生成词向量字典；

获取方式：训练文本数据集可以从网上直接下载，该步骤的目的是用于训练网络；jieba分词工具是一个开源的包，用于对文本数据集进行切分，方便后面的训练，例如：“全世界都在学中国话。”，用jieba分词之后的效果为：“全世界都在学中国话。”；

词向量字典使用word2vec工具包训练生成词向量字典，即将已经分词过的文本数据集中所有词对应的转化为词向量，所有词和与其对应的词向量构成词向量字典；该步骤将一个一个的词转化为对应的词向量最终用于capsule网络的输入输出。需要说明的是标点符号，在本发明中，也定义为一个词。

预测模型的训练方法如下：

S2a：设已知训练集中有M个词向量组，其中每个词向量组中的第x+1个词向量为期望值；

1)令k＝1；

2)

3)

其中，s表示对加权求和之后的一个值，c_i表示加权系数，x表示输入的词向量的个数；

4)

其中，v表示对s进行压缩后的状态；

Y＝softmax(av),其中a表示词向量字典，

7)如果k≤M，则令k＝k+1，并返回步骤2)，否则执行下一步；

8)保存模型参数W_ji|last，c_i|last；

S2b：所述预测模型为：

a)

b)

其中，s表示对每一个加权求和之后的一个状态；

c)

其中，v表示对s进行压缩后的状态；

Y＝softmax(av),其中a表示词向量字典，

Y表示词向量字典中词的输出概率，将所有输出概率从大到小排序，输出概率值位于前Q位所对应的词向量作为预测值。具体实施时，Q可以取1、2、3、4、5、6、7等自然数。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于capsule网络的输入法输出字符预测方法，其特征在于：包括如下步骤：

S1：获取已知的文本数据集；

使用jieba分词工具对获取到的文本数据集进行分词；

2.如权利要求1所述的基于capsule网络的输入法输出字符预测方法，其特征在于：所述步骤S2中预测模型的训练方法如下：

1)令k＝1；

2)

3)

4)

其中，v表示对s进行压缩后的状态；

Y＝softmax(av),其中a表示词向量字典，

7)如果k≤M，则令k＝k+1，并返回步骤2)，否则执行下一步；

8)保存模型参数W_ji|last，c_i|last；

S2b：所述预测模型为：

a)

b)

其中，s表示对加权求和之后的一个状态；

c)

其中，v表示对s进行压缩后的状态；

Y＝softmax(av),其中a表示词向量字典，