CN108762523A - 基于capsule网络的输入法输出字符预测方法 - Google Patents
基于capsule网络的输入法输出字符预测方法 Download PDFInfo
- Publication number
- CN108762523A CN108762523A CN201810565819.0A CN201810565819A CN108762523A CN 108762523 A CN108762523 A CN 108762523A CN 201810565819 A CN201810565819 A CN 201810565819A CN 108762523 A CN108762523 A CN 108762523A
- Authority
- CN
- China
- Prior art keywords
- word
- word vector
- input
- output
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 239000002775 capsule Substances 0.000 title claims abstract description 10
- 239000013598 vector Substances 0.000 claims abstract description 111
- 239000011159 matrix material Substances 0.000 claims abstract description 22
- 238000013528 artificial neural network Methods 0.000 claims abstract description 21
- 230000009466 transformation Effects 0.000 claims abstract description 19
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 6
- 210000002364 input neuron Anatomy 0.000 claims description 6
- 238000002620 method output Methods 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
- G06F3/0237—Character input methods using prediction or retrieval techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于capsule网络的输入法输出字符预测方法,包括如下步骤:S1获取已知文本数据集(用作训练集)并通过处理文本数据集训练得到词向量字典;S2设定迭代次数为N,随机设置每层神经网络中变换矩阵的初始值;采用已知训练集训练预测模型训练;S3将用户输入的词输入预测模型进行预测。本发明运用了现在最新的神经网络单元,它能够捕捉到词与词之间更好的内在联系,相比于传统的预测方法,该方法更接近人类对语言的理解,因此,预测出来的词往往是人们更加希望输出的词。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种基于capsule网络的输入法输出字符预测方法。
背景技术
对计算机而言,输入输出是最基本的功能。硬件方面,人们通过鼠标、键盘等输入设备对计算机进行一系列的操作,从而获得自己想要的资源;软件方面,输入法通过接受键盘的输入来真正的实现人们想要输入的内容。
现有的输入法引擎,一般使用字典树、n-gram、或者HMM模型来实现。其中字典树是一种树状结构的词表,可以高效的查询用户输入的键码组合,从而将用户输入的单个字符转化为一个个单词或者汉字,但是这种方法并不能通过用户已经的输入来预测用户下一个想要的输出。n-gram是一种统计语言模型,是可以解决上述问题,即通过用户输入的前n个词,来预测用户将要输出第n+1个词,但是,这种方法预测出来的准确率往往比较低,这就极大的影响了用户体验。
发明内容
针对现有技术存在预测准确率低的技术问题,本发明的目的是提供一种基于capsule网络的输入法输出字符预测方法,该预测方法的预测准确率高。
为实现上述目的,本发明采用如下技术方案:基于capsule网络的输入法输出字符预测方法,包括如下步骤:
S1:获取已知的文本数据集;
使用jieba分词工具对获取到的文本数据集进行分词;
将已经分词过的文本数据集通过word2vec训练生成词向量字典;
S2:设定迭代次数为N,预设每层神经网络中变换矩阵和加权系数的初始值;
将已经分词的文本数据集中的词通过词向量字典转化为对应词向量,并对所有词向量进行分组,每个词向量组中包括x+1个词向量,每输入一个词向量组完成一次迭代,同时每层神经网络中的变换矩阵更新一次,迭代次数完成,每层神经网络中的变换矩阵更新结束,即预测模型训练完成;
S3:当用户输入x个词时,先将该x个词分别转化为词向量,转化后的词向量构成待预测词向量组,将所述待预测词向量组输入步骤S2得到的预测模型,输出预测值,最后将预测值分别转化为词输出。
作为改进,所述步骤S2中预测模型的训练方法如下:
S2a:设将已经分词的文本数据集中的词转化为词向量,并对所有词向量进行分组,得到M个词向量组,其中每个词向量组中第x+1个词向量为期望值;
1)令k=1;
2)
其中,表示输入神经元经过变化矩阵之后的状态,uk|i表示输入的第k个词向量组的第i个词的词向量,Wji表示神经网络输入层到变换层的变换矩阵,i表示输入词向量的维度,j表示输入词向量经过变化矩阵后的维度大小;
3)
其中,s表示对加权求和之后的值,ci表示加权系数,x表示输入的词向量的个数;
4)
其中,v表示对s进行压缩后的状态;
5)将神经网络的实际输出与词向量字典中的每个词向量采用如下公式做内积;
Y=softmax(av),其中a表示词向量字典,
Y表示词向量字典中词的输出概率,将词向量字典中输出概率最大的那个词向量作为预测值;
6)将预测值与所述期望值做差,然后根据差值采用梯度下降法对Wji进行更新,使用动态路由对ci进行更新;
7)如果k≤M,则令k=k+1,并返回步骤2),否则执行下一步;
8)保存模型参数Wji|last,ci|last;
S2b:所述预测模型为:
a)
其中,表示输入神经元经过变化矩阵之后的状态,ui表示输入的第i个词的词向量;
b)
其中,s表示对加权求和之后的一个状态;
c)
其中,v表示对s进行压缩后的状态;
d)将神经网络的实际输出与词向量字典中的每个词向量采用如下公式做内积用于评价他们的相似度;
Y=softmax(av),其中a表示词向量字典,
Y表示词向量字典中词的输出概率,将所有输出概率从大到小排序,输出概率值位于前Q位所对应的词向量作为预测值。
相对于现有技术,本发明至少具有如下优点:
本发明运用了现在最新的神经网络单元,它能够捕捉到词与词之间更好的内在联系,相比于传统的预测方法,该方法更接近人类对语言的理解,因此,预测出来的词往往是人们更加希望输出的词。
具体实施方式
下面对本发明作进一步详细说明。
需要说明的是:本发明中的“词”是指,当某一个字符与前后字符没有联系时,则将该字符认定为一个词,判断字符是否与前后字符有联系的依据为日常用语习惯。例如,一句话“青少年是祖国的来来。”中“青少年”三个字符相互有联系,根据日常用语判断,认定为一个词,“是”与“年”、“祖”根据日常用语判断相互没什么联系,原理相似,“是”为一个词,“祖国”相互有联系,认定为一个词、“的”认定为一个词,“未来”认定为一个词:“。”认定为一个词。
再例如:“祝愿祖国母亲生日快乐。”“祝愿”为一个词,“祖国”为一个词,“母亲”为一个词,“生日快乐”为一个词。
基于capsule网络的输入法输出字符预测方法,包括如下步骤:
S1:获取已知的训练文本数据集,并将该文本数据集通过jieba分词工具进行分词,然后将已经分词过的文本数据集通过word2vec训练生成词向量字典;
获取方式:训练文本数据集可以从网上直接下载,该步骤的目的是用于训练网络;jieba分词工具是一个开源的包,用于对文本数据集进行切分,方便后面的训练,例如:“全世界都在学中国话。”,用jieba分词之后的效果为:“全世界都在学中国话。”;
词向量字典使用word2vec工具包训练生成词向量字典,即将已经分词过的文本数据集中所有词对应的转化为词向量,所有词和与其对应的词向量构成词向量字典;该步骤将一个一个的词转化为对应的词向量最终用于capsule网络的输入输出。需要说明的是标点符号,在本发明中,也定义为一个词。
S2:设定迭代次数为N,预设每层神经网络中变换矩阵和加权系数的初始值;
将已经分词的文本数据集中的词通过词向量字典转化为对应词向量,并对所有词向量进行分组,每个词向量组中包括x+1个词向量,每输入一个词向量组完成一次迭代,同时每层神经网络中的变换矩阵更新一次,迭代次数完成,每层神经网络中的变换矩阵更新结束,即预测模型训练完成;
预测模型的训练方法如下:
S2a:设已知训练集中有M个词向量组,其中每个词向量组中的第x+1个词向量为期望值;
1)令k=1;
2)
其中,表示输入神经元经过变化矩阵之后的状态,uk|i表示输入的第k个词向量组的第i个词的词向量,Wji表示神经网络输入层到变换层的变换矩阵,i表示输入词向量的维度,j表示输入词向量经过变化矩阵后的维度大小;
3)
其中,s表示对加权求和之后的一个值,ci表示加权系数,x表示输入的词向量的个数;
4)
其中,v表示对s进行压缩后的状态;
5)将神经网络的实际输出与词向量字典中的每个词向量采用如下公式做内积;
Y=softmax(av),其中a表示词向量字典,
Y表示词向量字典中词的输出概率,将词向量字典中输出概率最大的那个词向量作为预测值;
6)将预测值与所述期望值做差,然后根据差值采用梯度下降法对Wji进行更新,使用动态路由对ci进行更新;
7)如果k≤M,则令k=k+1,并返回步骤2),否则执行下一步;
8)保存模型参数Wji|last,ci|last;
S2b:所述预测模型为:
a)
其中,表示输入神经元经过变化矩阵之后的状态,ui表示输入的第i个词的词向量;
b)
其中,s表示对每一个加权求和之后的一个状态;
c)
其中,v表示对s进行压缩后的状态;
d)将神经网络的实际输出与词向量字典中的每个词向量采用如下公式做内积用于评价他们的相似度;
Y=softmax(av),其中a表示词向量字典,
Y表示词向量字典中词的输出概率,将所有输出概率从大到小排序,输出概率值位于前Q位所对应的词向量作为预测值。具体实施时,Q可以取1、2、3、4、5、6、7等自然数。
S3:当用户输入x个词时,先将该x个词分别转化为词向量,转化后的词向量构成待预测词向量组,将所述待预测词向量组输入步骤S2得到的预测模型,输出预测值,最后将预测值分别转化为词输出。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (2)
1.基于capsule网络的输入法输出字符预测方法,其特征在于:包括如下步骤:
S1:获取已知的文本数据集;
使用jieba分词工具对获取到的文本数据集进行分词;
将已经分词过的文本数据集通过word2vec训练生成词向量字典;
S2:设定迭代次数为N,预设每层神经网络中变换矩阵和加权系数的初始值;
将已经分词的文本数据集中的词通过词向量字典转化为对应词向量,并对所有词向量进行分组,每个词向量组中包括x+1个词向量,每输入一个词向量组完成一次迭代,同时每层神经网络中的变换矩阵更新一次,迭代次数完成,每层神经网络中的变换矩阵更新结束,即预测模型训练完成;
S3:当用户输入x个词时,先将该x个词分别转化为词向量,转化后的词向量构成待预测词向量组,将所述待预测词向量组输入步骤S2得到的预测模型,输出预测值,最后将预测值分别转化为词输出。
2.如权利要求1所述的基于capsule网络的输入法输出字符预测方法,其特征在于:所述步骤S2中预测模型的训练方法如下:
S2a:设将已经分词的文本数据集中的词转化为词向量,并对所有词向量进行分组,得到M个词向量组,其中每个词向量组中第x+1个词向量为期望值;
1)令k=1;
2)
其中,表示输入神经元经过变化矩阵之后的状态,uk|i表示输入的第k个词向量组的第i个词的词向量,Wji表示神经网络输入层到变换层的变换矩阵,i表示输入词向量的维度,j表示输入词向量经过变化矩阵后的维度大小;
3)
其中,s表示对加权求和之后的值,ci表示加权系数,x表示输入的词向量的个数;
4)
其中,v表示对s进行压缩后的状态;
5)将神经网络的实际输出与词向量字典中的每个词向量采用如下公式做内积;
Y=softmax(av),其中a表示词向量字典,
Y表示词向量字典中词的输出概率,将词向量字典中输出概率最大的那个词向量作为预测值;
6)将预测值与所述期望值做差,然后根据差值采用梯度下降法对Wji进行更新,使用动态路由对ci进行更新;
7)如果k≤M,则令k=k+1,并返回步骤2),否则执行下一步;
8)保存模型参数Wji|last,ci|last;
S2b:所述预测模型为:
a)
其中,表示输入神经元经过变化矩阵之后的状态,ui表示输入的第i个词的词向量;
b)
其中,s表示对加权求和之后的一个状态;
c)
其中,v表示对s进行压缩后的状态;
d)将神经网络的实际输出与词向量字典中的每个词向量采用如下公式做内积用于评价他们的相似度;
Y=softmax(av),其中a表示词向量字典,
Y表示词向量字典中词的输出概率,将所有输出概率从大到小排序,输出概率值位于前Q位所对应的词向量作为预测值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810565819.0A CN108762523A (zh) | 2018-06-04 | 2018-06-04 | 基于capsule网络的输入法输出字符预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810565819.0A CN108762523A (zh) | 2018-06-04 | 2018-06-04 | 基于capsule网络的输入法输出字符预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108762523A true CN108762523A (zh) | 2018-11-06 |
Family
ID=64002703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810565819.0A Withdrawn CN108762523A (zh) | 2018-06-04 | 2018-06-04 | 基于capsule网络的输入法输出字符预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108762523A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111222320A (zh) * | 2019-12-17 | 2020-06-02 | 共道网络科技有限公司 | 一种字符预测模型训练方法及装置 |
CN113366484A (zh) * | 2018-11-19 | 2021-09-07 | 因韦克有限责任公司 | 用于解释自然语言句子的神经网络 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8675572B1 (en) * | 2009-04-14 | 2014-03-18 | Sprint Spectrum L.P. | Dynamic asynchronous-capsule timer for traffic channel assignment messages |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN108108428A (zh) * | 2017-12-18 | 2018-06-01 | 苏州思必驰信息科技有限公司 | 一种构建语言模型的方法、输入法及系统 |
-
2018
- 2018-06-04 CN CN201810565819.0A patent/CN108762523A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8675572B1 (en) * | 2009-04-14 | 2014-03-18 | Sprint Spectrum L.P. | Dynamic asynchronous-capsule timer for traffic channel assignment messages |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN108108428A (zh) * | 2017-12-18 | 2018-06-01 | 苏州思必驰信息科技有限公司 | 一种构建语言模型的方法、输入法及系统 |
Non-Patent Citations (2)
Title |
---|
SARA SABOUR ET.AL: "Dynamic Routing Between Capsules", 《ARXIV:1710.09829V2》 * |
王圣元: "胶囊(向量神经)网络", 《王的机器》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113366484A (zh) * | 2018-11-19 | 2021-09-07 | 因韦克有限责任公司 | 用于解释自然语言句子的神经网络 |
CN111222320A (zh) * | 2019-12-17 | 2020-06-02 | 共道网络科技有限公司 | 一种字符预测模型训练方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109960726B (zh) | 文本分类模型构建方法、装置、终端及存储介质 | |
CN110968660B (zh) | 基于联合训练模型的信息抽取方法和系统 | |
CN106897254B (zh) | 一种网络表示学习方法 | |
CN110175221B (zh) | 利用词向量结合机器学习的垃圾短信识别方法 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN109743732B (zh) | 基于改进的cnn-lstm的垃圾短信判别方法 | |
CN113628059B (zh) | 一种基于多层图注意力网络的关联用户识别方法及装置 | |
CN109582794A (zh) | 基于深度学习的长文分类方法 | |
CN112084794A (zh) | 一种藏汉翻译方法和装置 | |
CN112860904B (zh) | 一种融入外部知识的生物医疗关系抽取方法 | |
CN113157919B (zh) | 语句文本方面级情感分类方法及系统 | |
CN110826298B (zh) | 一种智能辅助定密系统中使用的语句编码方法 | |
CN108388554A (zh) | 基于协同过滤注意力机制的文本情感识别系统 | |
CN107357785A (zh) | 主题特征词抽取方法及系统、情感极性判断方法及系统 | |
CN109766481A (zh) | 基于协同矩阵分解的在线哈希跨模态信息检索方法 | |
CN112418320A (zh) | 一种企业关联关系识别方法、装置及存储介质 | |
CN114881172A (zh) | 一种基于加权词向量和神经网络的软件漏洞自动分类方法 | |
CN108762523A (zh) | 基于capsule网络的输入法输出字符预测方法 | |
CN113076391B (zh) | 一种基于多层注意力机制的远程监督关系抽取方法 | |
CN117473093B (zh) | 一种基于llm模型获取目标事件的数据处理系统 | |
CN112446205A (zh) | 语句判别方法、装置、设备及存储介质 | |
CN110888944B (zh) | 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法 | |
CN109033413B (zh) | 一种基于神经网络的需求文档和服务文档匹配方法 | |
WO2021042517A1 (zh) | 基于人工智能的文章主旨提取方法、装置及存储介质 | |
CN116805150A (zh) | 一种语义相似的短文本聚类方法、系统和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20181106 |