CN108762523A - 基于capsule网络的输入法输出字符预测方法 - Google Patents

基于capsule网络的输入法输出字符预测方法 Download PDF

Info

Publication number
CN108762523A
CN108762523A CN201810565819.0A CN201810565819A CN108762523A CN 108762523 A CN108762523 A CN 108762523A CN 201810565819 A CN201810565819 A CN 201810565819A CN 108762523 A CN108762523 A CN 108762523A
Authority
CN
China
Prior art keywords
word
word vector
input
output
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810565819.0A
Other languages
English (en)
Inventor
薛方正
古俊波
刘阳阳
罗胜元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201810565819.0A priority Critical patent/CN108762523A/zh
Publication of CN108762523A publication Critical patent/CN108762523A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于capsule网络的输入法输出字符预测方法,包括如下步骤:S1获取已知文本数据集(用作训练集)并通过处理文本数据集训练得到词向量字典;S2设定迭代次数为N,随机设置每层神经网络中变换矩阵的初始值;采用已知训练集训练预测模型训练;S3将用户输入的词输入预测模型进行预测。本发明运用了现在最新的神经网络单元,它能够捕捉到词与词之间更好的内在联系,相比于传统的预测方法,该方法更接近人类对语言的理解,因此,预测出来的词往往是人们更加希望输出的词。

Description

基于capsule网络的输入法输出字符预测方法
技术领域
本发明涉及计算机技术领域,具体涉及一种基于capsule网络的输入法输出字符预测方法。
背景技术
对计算机而言,输入输出是最基本的功能。硬件方面,人们通过鼠标、键盘等输入设备对计算机进行一系列的操作,从而获得自己想要的资源;软件方面,输入法通过接受键盘的输入来真正的实现人们想要输入的内容。
现有的输入法引擎,一般使用字典树、n-gram、或者HMM模型来实现。其中字典树是一种树状结构的词表,可以高效的查询用户输入的键码组合,从而将用户输入的单个字符转化为一个个单词或者汉字,但是这种方法并不能通过用户已经的输入来预测用户下一个想要的输出。n-gram是一种统计语言模型,是可以解决上述问题,即通过用户输入的前n个词,来预测用户将要输出第n+1个词,但是,这种方法预测出来的准确率往往比较低,这就极大的影响了用户体验。
发明内容
针对现有技术存在预测准确率低的技术问题,本发明的目的是提供一种基于capsule网络的输入法输出字符预测方法,该预测方法的预测准确率高。
为实现上述目的,本发明采用如下技术方案:基于capsule网络的输入法输出字符预测方法,包括如下步骤:
S1:获取已知的文本数据集;
使用jieba分词工具对获取到的文本数据集进行分词;
将已经分词过的文本数据集通过word2vec训练生成词向量字典;
S2:设定迭代次数为N,预设每层神经网络中变换矩阵和加权系数的初始值;
将已经分词的文本数据集中的词通过词向量字典转化为对应词向量,并对所有词向量进行分组,每个词向量组中包括x+1个词向量,每输入一个词向量组完成一次迭代,同时每层神经网络中的变换矩阵更新一次,迭代次数完成,每层神经网络中的变换矩阵更新结束,即预测模型训练完成;
S3:当用户输入x个词时,先将该x个词分别转化为词向量,转化后的词向量构成待预测词向量组,将所述待预测词向量组输入步骤S2得到的预测模型,输出预测值,最后将预测值分别转化为词输出。
作为改进,所述步骤S2中预测模型的训练方法如下:
S2a:设将已经分词的文本数据集中的词转化为词向量,并对所有词向量进行分组,得到M个词向量组,其中每个词向量组中第x+1个词向量为期望值;
1)令k=1;
2)
其中,表示输入神经元经过变化矩阵之后的状态,uk|i表示输入的第k个词向量组的第i个词的词向量,Wji表示神经网络输入层到变换层的变换矩阵,i表示输入词向量的维度,j表示输入词向量经过变化矩阵后的维度大小;
3)
其中,s表示对加权求和之后的值,ci表示加权系数,x表示输入的词向量的个数;
4)
其中,v表示对s进行压缩后的状态;
5)将神经网络的实际输出与词向量字典中的每个词向量采用如下公式做内积;
Y=softmax(av),其中a表示词向量字典,
Y表示词向量字典中词的输出概率,将词向量字典中输出概率最大的那个词向量作为预测值;
6)将预测值与所述期望值做差,然后根据差值采用梯度下降法对Wji进行更新,使用动态路由对ci进行更新;
7)如果k≤M,则令k=k+1,并返回步骤2),否则执行下一步;
8)保存模型参数Wji|last,ci|last
S2b:所述预测模型为:
a)
其中,表示输入神经元经过变化矩阵之后的状态,ui表示输入的第i个词的词向量;
b)
其中,s表示对加权求和之后的一个状态;
c)
其中,v表示对s进行压缩后的状态;
d)将神经网络的实际输出与词向量字典中的每个词向量采用如下公式做内积用于评价他们的相似度;
Y=softmax(av),其中a表示词向量字典,
Y表示词向量字典中词的输出概率,将所有输出概率从大到小排序,输出概率值位于前Q位所对应的词向量作为预测值。
相对于现有技术,本发明至少具有如下优点:
本发明运用了现在最新的神经网络单元,它能够捕捉到词与词之间更好的内在联系,相比于传统的预测方法,该方法更接近人类对语言的理解,因此,预测出来的词往往是人们更加希望输出的词。
具体实施方式
下面对本发明作进一步详细说明。
需要说明的是:本发明中的“词”是指,当某一个字符与前后字符没有联系时,则将该字符认定为一个词,判断字符是否与前后字符有联系的依据为日常用语习惯。例如,一句话“青少年是祖国的来来。”中“青少年”三个字符相互有联系,根据日常用语判断,认定为一个词,“是”与“年”、“祖”根据日常用语判断相互没什么联系,原理相似,“是”为一个词,“祖国”相互有联系,认定为一个词、“的”认定为一个词,“未来”认定为一个词:“。”认定为一个词。
再例如:“祝愿祖国母亲生日快乐。”“祝愿”为一个词,“祖国”为一个词,“母亲”为一个词,“生日快乐”为一个词。
基于capsule网络的输入法输出字符预测方法,包括如下步骤:
S1:获取已知的训练文本数据集,并将该文本数据集通过jieba分词工具进行分词,然后将已经分词过的文本数据集通过word2vec训练生成词向量字典;
获取方式:训练文本数据集可以从网上直接下载,该步骤的目的是用于训练网络;jieba分词工具是一个开源的包,用于对文本数据集进行切分,方便后面的训练,例如:“全世界都在学中国话。”,用jieba分词之后的效果为:“全世界都在学中国话。”;
词向量字典使用word2vec工具包训练生成词向量字典,即将已经分词过的文本数据集中所有词对应的转化为词向量,所有词和与其对应的词向量构成词向量字典;该步骤将一个一个的词转化为对应的词向量最终用于capsule网络的输入输出。需要说明的是标点符号,在本发明中,也定义为一个词。
S2:设定迭代次数为N,预设每层神经网络中变换矩阵和加权系数的初始值;
将已经分词的文本数据集中的词通过词向量字典转化为对应词向量,并对所有词向量进行分组,每个词向量组中包括x+1个词向量,每输入一个词向量组完成一次迭代,同时每层神经网络中的变换矩阵更新一次,迭代次数完成,每层神经网络中的变换矩阵更新结束,即预测模型训练完成;
预测模型的训练方法如下:
S2a:设已知训练集中有M个词向量组,其中每个词向量组中的第x+1个词向量为期望值;
1)令k=1;
2)
其中,表示输入神经元经过变化矩阵之后的状态,uk|i表示输入的第k个词向量组的第i个词的词向量,Wji表示神经网络输入层到变换层的变换矩阵,i表示输入词向量的维度,j表示输入词向量经过变化矩阵后的维度大小;
3)
其中,s表示对加权求和之后的一个值,ci表示加权系数,x表示输入的词向量的个数;
4)
其中,v表示对s进行压缩后的状态;
5)将神经网络的实际输出与词向量字典中的每个词向量采用如下公式做内积;
Y=softmax(av),其中a表示词向量字典,
Y表示词向量字典中词的输出概率,将词向量字典中输出概率最大的那个词向量作为预测值;
6)将预测值与所述期望值做差,然后根据差值采用梯度下降法对Wji进行更新,使用动态路由对ci进行更新;
7)如果k≤M,则令k=k+1,并返回步骤2),否则执行下一步;
8)保存模型参数Wji|last,ci|last
S2b:所述预测模型为:
a)
其中,表示输入神经元经过变化矩阵之后的状态,ui表示输入的第i个词的词向量;
b)
其中,s表示对每一个加权求和之后的一个状态;
c)
其中,v表示对s进行压缩后的状态;
d)将神经网络的实际输出与词向量字典中的每个词向量采用如下公式做内积用于评价他们的相似度;
Y=softmax(av),其中a表示词向量字典,
Y表示词向量字典中词的输出概率,将所有输出概率从大到小排序,输出概率值位于前Q位所对应的词向量作为预测值。具体实施时,Q可以取1、2、3、4、5、6、7等自然数。
S3:当用户输入x个词时,先将该x个词分别转化为词向量,转化后的词向量构成待预测词向量组,将所述待预测词向量组输入步骤S2得到的预测模型,输出预测值,最后将预测值分别转化为词输出。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (2)

1.基于capsule网络的输入法输出字符预测方法,其特征在于:包括如下步骤:
S1:获取已知的文本数据集;
使用jieba分词工具对获取到的文本数据集进行分词;
将已经分词过的文本数据集通过word2vec训练生成词向量字典;
S2:设定迭代次数为N,预设每层神经网络中变换矩阵和加权系数的初始值;
将已经分词的文本数据集中的词通过词向量字典转化为对应词向量,并对所有词向量进行分组,每个词向量组中包括x+1个词向量,每输入一个词向量组完成一次迭代,同时每层神经网络中的变换矩阵更新一次,迭代次数完成,每层神经网络中的变换矩阵更新结束,即预测模型训练完成;
S3:当用户输入x个词时,先将该x个词分别转化为词向量,转化后的词向量构成待预测词向量组,将所述待预测词向量组输入步骤S2得到的预测模型,输出预测值,最后将预测值分别转化为词输出。
2.如权利要求1所述的基于capsule网络的输入法输出字符预测方法,其特征在于:所述步骤S2中预测模型的训练方法如下:
S2a:设将已经分词的文本数据集中的词转化为词向量,并对所有词向量进行分组,得到M个词向量组,其中每个词向量组中第x+1个词向量为期望值;
1)令k=1;
2)
其中,表示输入神经元经过变化矩阵之后的状态,uk|i表示输入的第k个词向量组的第i个词的词向量,Wji表示神经网络输入层到变换层的变换矩阵,i表示输入词向量的维度,j表示输入词向量经过变化矩阵后的维度大小;
3)
其中,s表示对加权求和之后的值,ci表示加权系数,x表示输入的词向量的个数;
4)
其中,v表示对s进行压缩后的状态;
5)将神经网络的实际输出与词向量字典中的每个词向量采用如下公式做内积;
Y=softmax(av),其中a表示词向量字典,
Y表示词向量字典中词的输出概率,将词向量字典中输出概率最大的那个词向量作为预测值;
6)将预测值与所述期望值做差,然后根据差值采用梯度下降法对Wji进行更新,使用动态路由对ci进行更新;
7)如果k≤M,则令k=k+1,并返回步骤2),否则执行下一步;
8)保存模型参数Wji|last,ci|last
S2b:所述预测模型为:
a)
其中,表示输入神经元经过变化矩阵之后的状态,ui表示输入的第i个词的词向量;
b)
其中,s表示对加权求和之后的一个状态;
c)
其中,v表示对s进行压缩后的状态;
d)将神经网络的实际输出与词向量字典中的每个词向量采用如下公式做内积用于评价他们的相似度;
Y=softmax(av),其中a表示词向量字典,
Y表示词向量字典中词的输出概率,将所有输出概率从大到小排序,输出概率值位于前Q位所对应的词向量作为预测值。
CN201810565819.0A 2018-06-04 2018-06-04 基于capsule网络的输入法输出字符预测方法 Withdrawn CN108762523A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810565819.0A CN108762523A (zh) 2018-06-04 2018-06-04 基于capsule网络的输入法输出字符预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810565819.0A CN108762523A (zh) 2018-06-04 2018-06-04 基于capsule网络的输入法输出字符预测方法

Publications (1)

Publication Number Publication Date
CN108762523A true CN108762523A (zh) 2018-11-06

Family

ID=64002703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810565819.0A Withdrawn CN108762523A (zh) 2018-06-04 2018-06-04 基于capsule网络的输入法输出字符预测方法

Country Status (1)

Country Link
CN (1) CN108762523A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222320A (zh) * 2019-12-17 2020-06-02 共道网络科技有限公司 一种字符预测模型训练方法及装置
CN113366484A (zh) * 2018-11-19 2021-09-07 因韦克有限责任公司 用于解释自然语言句子的神经网络

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8675572B1 (en) * 2009-04-14 2014-03-18 Sprint Spectrum L.P. Dynamic asynchronous-capsule timer for traffic channel assignment messages
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN108108428A (zh) * 2017-12-18 2018-06-01 苏州思必驰信息科技有限公司 一种构建语言模型的方法、输入法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8675572B1 (en) * 2009-04-14 2014-03-18 Sprint Spectrum L.P. Dynamic asynchronous-capsule timer for traffic channel assignment messages
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN108108428A (zh) * 2017-12-18 2018-06-01 苏州思必驰信息科技有限公司 一种构建语言模型的方法、输入法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SARA SABOUR ET.AL: "Dynamic Routing Between Capsules", 《ARXIV:1710.09829V2》 *
王圣元: "胶囊(向量神经)网络", 《王的机器》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113366484A (zh) * 2018-11-19 2021-09-07 因韦克有限责任公司 用于解释自然语言句子的神经网络
CN111222320A (zh) * 2019-12-17 2020-06-02 共道网络科技有限公司 一种字符预测模型训练方法及装置

Similar Documents

Publication Publication Date Title
CN109960726B (zh) 文本分类模型构建方法、装置、终端及存储介质
CN110968660B (zh) 基于联合训练模型的信息抽取方法和系统
CN106897254B (zh) 一种网络表示学习方法
CN110175221B (zh) 利用词向量结合机器学习的垃圾短信识别方法
CN110287323B (zh) 一种面向目标的情感分类方法
CN109743732B (zh) 基于改进的cnn-lstm的垃圾短信判别方法
CN113628059B (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN109582794A (zh) 基于深度学习的长文分类方法
CN112084794A (zh) 一种藏汉翻译方法和装置
CN112860904B (zh) 一种融入外部知识的生物医疗关系抽取方法
CN113157919B (zh) 语句文本方面级情感分类方法及系统
CN110826298B (zh) 一种智能辅助定密系统中使用的语句编码方法
CN108388554A (zh) 基于协同过滤注意力机制的文本情感识别系统
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN109766481A (zh) 基于协同矩阵分解的在线哈希跨模态信息检索方法
CN112418320A (zh) 一种企业关联关系识别方法、装置及存储介质
CN114881172A (zh) 一种基于加权词向量和神经网络的软件漏洞自动分类方法
CN108762523A (zh) 基于capsule网络的输入法输出字符预测方法
CN113076391B (zh) 一种基于多层注意力机制的远程监督关系抽取方法
CN117473093B (zh) 一种基于llm模型获取目标事件的数据处理系统
CN112446205A (zh) 语句判别方法、装置、设备及存储介质
CN110888944B (zh) 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法
CN109033413B (zh) 一种基于神经网络的需求文档和服务文档匹配方法
WO2021042517A1 (zh) 基于人工智能的文章主旨提取方法、装置及存储介质
CN116805150A (zh) 一种语义相似的短文本聚类方法、系统和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20181106