CN110286778A - 一种中文深度学习输入法、装置及电子设备 - Google Patents

一种中文深度学习输入法、装置及电子设备 Download PDF

Info

Publication number
CN110286778A
CN110286778A CN201910572626.2A CN201910572626A CN110286778A CN 110286778 A CN110286778 A CN 110286778A CN 201910572626 A CN201910572626 A CN 201910572626A CN 110286778 A CN110286778 A CN 110286778A
Authority
CN
China
Prior art keywords
vector
input
deep learning
obtains
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910572626.2A
Other languages
English (en)
Other versions
CN110286778B (zh
Inventor
王晨光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Internet Security Software Co Ltd
Original Assignee
Beijing Kingsoft Internet Security Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Internet Security Software Co Ltd filed Critical Beijing Kingsoft Internet Security Software Co Ltd
Priority to CN201910572626.2A priority Critical patent/CN110286778B/zh
Publication of CN110286778A publication Critical patent/CN110286778A/zh
Application granted granted Critical
Publication of CN110286778B publication Critical patent/CN110286778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明的实施例公开一种中文深度学习输入法、装置及电子设备,涉及输入法领域,为用户提供更加准确的结果而发明。所述方法,包括:将当前输入的拼音序列,转化为整数编码;将所述整数编码经过嵌入层处理,得到初始编码矩阵;所述拼音序列中的每个字的拼音,对应所述初始编码矩阵中的一行向量;将所述初始编码矩阵经过卷积网络处理后得到第一向量;将第一向量作为第一门控循环单元网络的输入,经过深度学习得到语义编码向量;将所述语义编码向量,以及第二门控循环单元网络在上一时刻的输出,作为第二门控循环单元网络当前时刻的输入,经过深度学习后经过输出层输出预测结果。所述装置及电子设备包括用于执行所述方法的模块。本发明适用于基于拼音得到汉字。

Description

一种中文深度学习输入法、装置及电子设备
技术领域
本发明涉及输入法领域,尤其涉及一种中文深度学习输入法、装置、电子设备、计算机可读存储介质及应用程序。
背景技术
随着计算机通信以及互联网技术的不断发展,电子设备,例如,智能移动电话、个人数字助理、掌上电脑、笔记本电脑等应用越来越普及,人们在利用电子设备过程中,实现交互的方式很多,其中一种方式是为用户提供键盘,用户在键盘上输入拼音字符串,将其转化为对应的汉字输出。当用户按长句或者短句的方式输入拼音串,现有的在中文输入法,采用枚举的方式将可能的字或词组成句子,然后用语言模型对候选句子进行打分排序,当用户输入的拼音串越长,对应的汉字越多,使得输出的句子前、后语义不连贯,最终导致为用户提供的结果不准确。
发明内容
有鉴于此,本发明实施例提供一种中文深度学习输入法、装置、电子设备、计算机可读存储介质及应用程序,能够为用户提供更加准确的结果。
第一方面,本发明实施例提供一种中文深度学习输入法,包括:将当前输入的拼音序列,转化为整数编码;将所述整数编码经过嵌入层处理,得到初始编码矩阵;所述拼音序列中的每个字的拼音,对应所述初始编码矩阵中的一行向量;将所述初始编码矩阵经过卷积网络处理后得到第一向量;将第一向量作为第一门控循环单元网络的输入,经过深度学习得到语义编码向量;将所述语义编码向量,以及第二门控循环单元网络在上一时刻的输出,作为第二门控循环单元网络当前时刻的输入,经过深度学习后经过输出层输出预测结果。
根据本发明实施例的一种具体实现方式,所述将所述初始编码矩阵经过卷积网络处理后得到第一向量,包括:将所述初始编码矩阵经过卷积层处理,得到第一中间向量;将所述第一中间向量经过池化层处理,得到第二中间向量;第二中间向量的维数低于第一中间向量的维数;将所述第二中间向量进行扁平化处理,得到一维的所述第一向量。
根据本发明实施例的一种具体实现方式,在将第一向量输入第一门控循环单元网络,所述方法还包括:将所述第一向量,以及所述初始编码矩阵,作为残差函数的输入,进行残差处理;将所述残差函数的输出,作为所述第一门控循环单元网络的输入。
根据本发明实施例的一种具体实现方式,在将所述残差函数的输出,输入所述第一门控循环单元网络,所述方法还包括:在将残差函数的输出,输入高速路网络层,将高速路网络层的输出作为所述第一门控循环单元网络的输入。
根据本发明实施例的一种具体实现方式,所述将所述语义编码向量,以及第二门控循环单元网络在上一时刻的输出,作为第二门控循环单元网络当前时刻的输入,经过深度学习后经过输出层输出预测结果,包括:将所述语义编码向量经过注意力机制处理,得到含有注意力权重的语义编码向量;将所述含有注意力权重的语义编码向量,以及第二门控循环单元网络在上一时刻的输出,作为第二门控循环单元网络当前时刻的输入,经过深度学习后经过归一化指数函数输出预测结果。
第二方面,本发明实施例提供一种中文深度学习输入装置,包括:转化模块,初始编码矩阵得到模块,第一向量得到模块,语义编码向量得到模块,预测模块,其中,
转化模块,用于将当前输入的拼音序列,转化为整数编码;
初始编码矩阵得到模块,用于将所述整数编码经过嵌入层处理,得到初始编码矩阵;所述拼音序列中的每个字的拼音,对应所述初始编码矩阵中的一行向量;
第一向量得到模块,用于将所述初始编码矩阵经过卷积网络处理后得到第一向量;
语义编码向量得到模块,用于将第一向量作为第一门控循环单元网络的输入,经过深度学习得到语义编码向量;
预测模块,用于将所述语义编码向量,以及第二门控循环单元网络在上一时刻的输出,作为第二门控循环单元网络当前时刻的输入,经过深度学习后经过输出层输出预测结果。
根据本发明实施例的一种具体实现方式,所述第一向量得到模块,包括:第一中间向量得到子模块,第二中间向量得到子模块,第一向量得到子模块,其中,
第一中间向量得到子模块,用于将所述初始编码矩阵经过卷积层处理,得到第一中间向量;
第二中间向量得到子模块,用于将所述第一中间向量经过池化层处理,得到第二中间向量;第二中间向量的维数低于第一中间向量的维数;
第一向量得到子模块,用于将所述第二中间向量进行扁平化处理,得到一维的所述第一向量。
根据本发明实施例的一种具体实现方式,所述装置,还包括:残差处理模块,输入模块,其中,
残差处理模块,用于将所述第一向量,以及所述初始编码矩阵,作为残差函数的输入,进行残差处理;
输入模块,用于将所述残差函数的输出,作为所述第一门控循环单元网络的输入。
根据本发明实施例的一种具体实现方式,所述装置,还包括:高速路模块,用于在将残差函数的输出,输入高速路网络层,将高速路网络层的输出作为所述第一门控循环单元网络的输入。
根据本发明实施例的一种具体实现方式,所述预测模块,包括:语义编码子向量,预测子模块,其中,
语义编码子向量,用于将所述语义编码向量经过注意力机制处理,得到含有注意力权重的语义编码向量;
预测子模块,用于将所述含有注意力权重的语义编码向量,以及第二门控循环单元网络在上一时刻的输出,作为第二门控循环单元网络当前时刻的输入,经过深度学习后经过归一化指数函数输出预测结果。
第三方面,本发明实施例提供一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一实现方式所述的方法。
第四方面,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现本发明任一实施方式所述的方法。
第五方面,本发明的实施例还提供一种应用程序,所述应用程序被执行以实现本发明任一实施方式所述的方法。
本发明实施例提供的一种中文深度学习输入法、装置、电子设备、计算机可读存储介质及应用程序,通过将当前输入的拼音序列,转化为整数编码;将所述整数编码经过嵌入层处理,得到初始编码矩阵;所述拼音序列中的每个字的拼音,对应所述初始编码矩阵中的一行向量;将所述初始编码矩阵经过卷积网络处理后得到第一向量;将第一向量作为第一门控循环单元网络的输入,经过深度学习得到语义编码向量;将所述语义编码向量,以及第二门控循环单元网络在上一时刻的输出,作为第二门控循环单元网络当前时刻的输入,经过深度学习后经过输出层输出预测结果。通过卷积层、第一门控循环单元、第二门控循环单元构成的深度学习网络模型,在预测输出结果时,预测结果是基于第二门控循环单元网络在上一时刻的输出得到的,这样,可使预测结果前后语义连贯,预测结果更加准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明提供的中文深度学习输入法的实施例一的流程示意图;
图2为本发明一实施例中,得到第一向量的流程图;
图3为本发明提供的中文深度学习输入法的实施例二的流程示意图;
图4为本发明一实施例中,经过输出层输出预测结果的流程示意图
图5为本发明中文深度学习输入法的训练模型;
图6为本发明一实施例中,卷积核池化处理的过程;
图7为本发明提供的中文深度学习输入装置的实施例一的流程示意图;
图8为本发明提供的中文深度学习输入装置的实施例二的流程示意图;
图9为本发明提供的中文深度学习输入装置的实施例三的流程示意图;
图10为本发明提供的中文深度学习输入装置的实施例四的流程示意图;
图11为本发明电子设备一个实施例的结构示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
第一方面,本发明实施例提供一种中文深度学习输入法,能够使上下文语义更顺滑。
图1为本发明提供的中文深度学习输入法的实施例一的流程示意图,如图1所示,本实施例的方法可以包括:
步骤101、将当前输入的拼音序列,转化为整数编码。
本实施例中,拼音序列可通过电子设备的硬件键盘进行输入,或者电子设备安装的输入法应用程序提供的软键盘进行输入;可预先编制拼音与整数的对应关系表,在该表中,有26个汉语字母、开始符及结束符对应的编码;按照用户输入的拼音的顺序,对应得到整数编码。
步骤102、将所述整数编码经过嵌入层处理,得到初始编码矩阵;所述拼音序列中的每个字的拼音,对应所述初始编码矩阵中的一行向量。
本实施例中,嵌入层(embedding层),可由两层全连接的深度神经网络组成,通过embedding层,可将每个字对应的整数编码转化为对应的向量,向量的维度可为300维,当然,也可为其它整数的维度,每个维度用以表示该字的属性等信息;每个字对应的初始编码矩阵的一行,当用户输入:jintiandetianqihao时,jin对应的向量为初始编码矩阵的第一行,tian对应的向量为初始编码矩阵的第二行,依次类推,得到jintiandetianqihao对应的矩阵,维度为6×300维度。
步骤103、将所述初始编码矩阵经过卷积网络网络处理后得到第一向量。
本实施例中,将初始编码矩阵经过卷积网络(Convolutional Neural Networks,GNN)处理,将初始编码矩阵的维度降低。
步骤104、将第一向量作为第一门控循环单元网络的输入,经过深度学习得到语义编码向量。
本实施例中,门控循环单元(Gated Recurrent Unit,GRU)中有更新门(updategate)与重置门(reset gate),这两个门控向量决定了哪些信息最终能作为门控循环单元的输出,它们能够保存长期序列中的信息,且不会随时间而清除,从而,门控循环单元不会随时间而清除以前的信息,会保留相关的信息并传递到下一个单元。
步骤105、将所述语义编码向量,以及第二门控循环单元网络在上一时刻的输出,作为第二门控循环单元网络网络当前时刻的输入,经过深度学习后经过输出层输出预测结果。
本实施例中,上一时刻的输出可为汉字对应的向量;汉字和向量的对应关系可通过汉字-整数编码的对应关系找到汉字的编码,编码通过embedding层,能够得到对应的向量;用户使用输入法时,对应的输出结果是按照先后顺序进行输出显示的,将上一时刻输出的汉字所对应的向量与语义编码向量作为输入,通过第二GRU网络,并且经过输出层得到当前的预测结果。
如用户输入jintian,对应的汉字是“今天”。当预测“今”时,将语义编码向量和一个随机生成的向量,作为GRU的输入,能够预测得到“今”,其中,随机生成的向量的每个维度均可为0;当预测“天”时,那么上一时刻得到的预测向量为“今”对应的向量,将语义编码向量和“今”对应的向量作为GRU的输入,并且经过输出层得到当前的预测结果为“天”。
本实施例,通过将当前输入的拼音序列,转化为整数编码;将所述整数编码经过embedding层处理,得到初始编码矩阵;所述拼音序列中的每个字的拼音,对应所述初始编码矩阵中的一行向量;将所述初始编码矩阵经过CNN网络处理后得到第一向量;将第一向量作为第一GRU网络的输入,经过深度学习得到语义编码向量;将所述语义编码向量,以及第二GRU在上一时刻的输出,作为第二GRU网络当前时刻的输入,经过深度学习后经过输出层输出预测结果。通过CNN、第一GRU、第二GRU构成的深度学习网络模型,在预测输出结果时,预测结果是基于第二GRU在上一时刻的输出得到的,这样,可使预测结果前后语义连贯,从而,预测结果更加准确。
作为一可选实施例,第一GRU,可为双向GRU。
本实施例中,双向GRU是由单项的、方向相反的GRU构成,输出由这样两个GRU的状态共同决定的网络结构,在每一时刻,输入会同时提供两个方向相反的GRU,而输出则由这两个GRU共同决定。双向GRU能够记录当前节点的前序信息和后序信息。
本实施例,通过在网络模型中引入双向GRU,能够得到表示用户输入拼音串前后语义的编码向量,从而,使预测结果前后语义更加连贯,预测结果更加准确。
图2为本发明一实施例中,得到第一向量的流程图,如图2所示,所述将所述初始编码矩阵经过CNN网络处理后得到第一向量(步骤103),可以包括:
步骤1031、将所述初始编码矩阵经过卷积层处理,得到第一中间向量。
本实施例中,卷积层可设置n个滤波器,用户输入的拼音序列对应的初始编码矩阵,分别经过不同的滤波器处理,得到降低维度的第一中间向量,第一中间向量为n个矩阵。
步骤1032、将所述第一中间向量经过池化层处理,得到第二中间向量;第二中间向量的维数低于第一中间向量的维数。
本实施例中,池化层可为max pooling或者average pooling;将第一中间向量经过池化层处理,得到第二中间向量,第二中间向量的个数与第一中间向量中矩阵的个数相等;经过池化层的处理,第二中间向量的维度进一步的降低。
步骤1033、将所述第二中间向量进行扁平化处理,得到一维的所述第一向量。
本实施例中,第二中间向量中不同的矩阵,经过扁平化处理,能够得到多维度的一维向量。
本实施例,通过将初始编码矩阵经过卷积层处理,得到降低维度的第一中间向量,再将第一中间向量经过池化层处理,进一步地将第一中间向量降维处理,从而可将具有较大数据量的输入,降维处理,使得输入的数据量变小,使得深度学习的中文输入法使用的参数变少,从而使得计算结果更快,且在输入法对应的模型更容易被训练。
图3为本发明提供的中文深度学习输入法的实施例二的流程示意图,如图3所示,本实施例的文深度学习输入法,在图1所示方法实施例的基础上,在步骤104之前,还可包括步骤:
步骤106、将所述第一向量,以及所述初始编码矩阵,作为残差函数的输入,进行残差处理。
本实施例中,通过增加网络深度可以提高网络的性能,但是随着网络深度的加深,网络会出现退化的问题,而残差函数能够解决网络退化的问题。
步骤107、将所述残差函数的输出,作为所述第一GRU网络的输入。
本实施例,通过在网络模型中引入残差函数,使得可以通过增加网络深度,提高输出结果的准确率和网络的训练速度。
作为一可选实施例,步骤107,所述方法还可以包括:在将残差函数的输出,输入高速路网络层,将高速路网络层的输出作为所述第一GRU网络的输入。
本实施例中,高速路网络层(highwaynet)使输入网络的数据一部分经过非线性变换,另一部分直接从该网络跨过去不做任何转换,而多少的数据需要非线性变换,多少的数据可以直接跨过去,是由一个权值矩阵和输入数据共同决定的。随着网络的深度逐渐加深,网络的训练也就越来越困难,highwaynet就是解决深层次网络训练困难。
本实施例,通过将残差函数的输出,输入到高速路网络层,将高速路网络层的输出作为所述第一GRU网络的输入,highwaynet使输入网络的数据一部分经过非线性变换,另一部分直接从该网络跨过去不做任何转换,相当于从整体上来讲,对两者在网络中分别产生的效果,取了一个均衡,从而使得多层深度神经网络的训练时更容易收敛。
图4为本发明一实施例中,经过输出层输出预测结果的流程示意图,如图4所示,所述将所述语义编码向量,以及第二GRU网络在上一时刻的输出,作为第二GRU网络当前时刻的输入,经过深度学习后经过输出层输出预测结果(步骤105),包括:
步骤1051、将所述语义编码向量经过注意力机制处理,得到含有注意力权重的语义编码向量。
本实施例中,经过注意力机制(attention机制)会为语义编码向量的不同维度分配不同的权重,且会针对当前时刻的输出,在语义编码向量的对应维度处分配较大的权重值,从而,每个时刻为语义编码向量分配不同的权重,即不同时刻得到的含有注意力权重的语义编码向量不同。
步骤1052、将所述含有注意力权重的语义编码向量,以及第二GRU网络在上一时刻的输出,作为第二GRU网络当前时刻的输入,经过深度学习后经过归一化指数函数输出预测结果。
本实施例中,归一化指数函数可为softmax,将含有注意力权重的语义编码向量和第二GRU网络在上一时刻的输出,作为第二GRU网络当前时刻的输入,第二GRU网络的当前时刻的输出作为归一化指数函数的输入,得到概率向量,概率向量中的每个维度,对应一个汉字在当前时刻出现的概率,取概率最大值对应的向量所对应的汉字作为当前时刻的预测结果。
本实施例,通过将所述语义编码向量经过Attention机制处理,得到含有注意力权重的语义编码向量,将所述含有注意力权重的语义编码向量,以及第-二GRU网络在上一时刻的输出,作为第二GRU网络当前时刻的输入,经过深度学习后经过归一化指数函数输出预测结果,在预测结果的过程中,将语义编码向量经过Attention机制处理得到的有注意力权重的语义编码向量作为GRU的输入,能够使预测结果更加准确。
中文深度学习输入法,在使用阶段,将输入数据输入到经训练好的神经网络,以获得相应的输出数据。而练好的神经网络在训练阶段,使用训练数据(其包括输入数据和预期输出数据)对神经网络进行训练,即将输入数据输入神经网络,获得输出数据,并通过与预期输出数据进行比较,对神经网络内部的各参数进行调整。对神经网络模型训练前,需要经过以下步骤,对于训练语料进行处理:
第一步:收集语料,中文的语料,可包括:新闻,常用语,流行语,诗词等中文数据,如:今天的天气好,可以出去玩了。
第二步:处理中文语料数据,长篇的文章的需要进行分句,都整理成单句话;如第一步的语料,分成单句话,
分别为:今天的天气好
可以出去玩了
第三步:对数据进行注音;
将中文语料数据中每个汉字标注汉语拼音,如今天成都下了大暴雨,对应的拼音为:jintianchengduxialedabaoyu。
第四步:检查是否有错误的句子,选择大小适合的中文和拼音的词表。
中文词表:对大量语料中出现的汉字进行编码,得到汉字与编码对应的中文词表;拼音词表:对26个汉语拼音进行编码,也可对开始符、结束符、逗号、句号进行编码,得到对应的拼音词表。
第五步:处理成训练语料;
如语料:原始中文语料:天气很不好,根据中文词表,得到对应的训练语料可为101104 453 234 817 4564;原始拼音语料为tianqihenbuhao,根据拼音词表,得到对应的训练语料为10 9 14 20 9 1 14 4 5 20 9 1 14 17 9 8 1 15。
第六步:生成训练时的输入和输出数据。
将训练语料处理前面补1位0,后面补若干个1,0表示开始,1表示结束。
下面采用一个具体的实施例,对训练过程进行详细说明。
图5为本发明中文深度学习输入法的训练模型,如图5所示,具体以语料:今天的天气好及对应的拼音jintiandetianqihao为例进行说明。
S1、将今天的天气好和jintiandetianqihao,根据训练语料进行处理的第六步处理成输入输出数据,得到整数编码。
S2、将拼音对应的编码经过embedding处理,得到初始编码矩阵;初始编码矩阵中的一行向量对应每个字的拼音。
如jintiandetianqihao对应6个字,字的维度为8,经过S2和S3,得到6×8维度的初始编码矩阵。
S3、对初始编码矩阵进行卷积处理,当卷积层有5个滤波器,每个滤波器的维度为3×8维度,则对应得到5个矩阵。
卷积核池化处理的过程,如图6所示。
S4、将S3的结果,经过max-pooling,进行池化层处理,对应得到5个矩阵。
S5、将S4得到的结果,经过convlD projectins,进行扁平化处理,得到一维向量。
S6、将得到的一维向量和初始编码矩阵作为residual connection的残差函数的输入,进行残差处理。
S7、将所述残差函数的输出,作为所述第一GRU网络的输入,得到语义编码向量。
S8、经过Attention机制,在不同时刻为语义编码向量分配不同的权重,从而得到含有注意力权重的语义编码向量。
S9、将含有注意力权重的语义编码向量,以及中文训练语料中与当前时刻输出对应的前一时刻的汉字所对应的向量,作为第二GRU网络当前时刻的输入,经过归一化指数函数得到概率向量,概率最大者对应的向量为当前时刻的预测输出向量。
以输入的jintiandetianqihao对应的汉字今天的天气好为目标输出,将预测输出向量与目标输出对应的向量,利用交叉熵计算损失,当损失值大于预定阈值时,对训练模型进行迭代更新,使神经网络参数的迭代方向朝着够生成输入拼音序列所能对应的正确汉字序列的方向去迭代更新,,在训练过程中,添加了如11,12正则方法帮助神经网络模型更快收敛。
图7为本发明提供的中文深度学习输入装置的实施例一的流程示意图,如图7所示,本实施例的装置可以包括:转化模块11,初始编码矩阵得到模块12,第一向量得到模块13,语义编码向量得到模块14,预测模块15,其中,
转化模块11,用于将当前输入的拼音序列,转化为整数编码;
初始编码矩阵得到模块12,用于将所述整数编码经过embedding层处理,得到初始编码矩阵;所述拼音序列中的每个字的拼音,对应所述初始编码矩阵中的一行向量;
第一向量得到模块13,用于将所述初始编码矩阵经过CNN网络处理后得到第一向量;
语义编码向量得到模块14,用于将第一向量作为第一GRU网络的输入,经过深度学习得到语义编码向量;
预测模块15,用于将所述语义编码向量,以及第二GRU网络在上一时刻的输出,作为第二GRU网络当前时刻的输入,经过深度学习后经过输出层输出预测结果。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图8为本发明提供的中文深度学习输入装置的实施例二的流程示意图,如图8所示,本实施例的装置在图6所示装置结构的基础上,进一步地,第一向量得到模块13可以包括:第一中间向量得到子模块131,第二中间向量得到子模块132,第一向量得到子模块133,其中,
第一中间向量得到子模块131,用于将所述初始编码矩阵经过卷积层处理,得到第一中间向量;
第二中间向量得到子模块132,用于将所述第一中间向量经过池化层处理,得到第二中间向量;第二中间向量的维数低于第一中间向量的维数;
第一向量得到子模块133,用于将所述第二中间向量进行扁平化处理,得到一维的所述第一向量。
本实施例的装置,可以用于执行图1或图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图9为本发明提供的中文深度学习输入装置的实施例三的流程示意图,如图9所示,本实施例的装置在图7所示装置结构的基础上,还包括:残差处理模块16,输入模块17,其中,
残差处理模块16,用于将所述第一向量,以及所述初始编码矩阵,作为残差函数的输入,进行残差处理;
输入模块17,用于将所述残差函数的输出,作为所述第一GRU网络的输入。
本实施例的装置,可以用于执行图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图10为本发明提供的中文深度学习输入装置的实施例四的流程示意图,如图10所示,本实施例的装置在图6所示装置结构的基础上,进一步地,预测模块15,可以包括:语义编码子向量151,预测子模块152,其中,
语义编码子向量151,用于将所述语义编码向量经过Attention机制处理,得到含有注意力权重的语义编码向量;
预测子模块152,用于将所述含有注意力权重的语义编码向量,以及第二GRU网络在上一时刻的输出,作为第二GRU网络当前时刻的输入,经过深度学习后经过归一化指数函数输出预测结果。
本实施例的装置,可以用于执行图4所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
第三方面,本发明实施例还提供一种电子设备,所述电子设备包含前述任一实施例所述的装置。
图11为本发明电子设备一个实施例的结构示意图,可以实现本发明图1-4所示实施例的流程,如图11所示,上述电子设备可以包括:壳体41、处理器42、存储器43、电路板44和电源电路45,其中,电路板44安置在壳体41围成的空间内部,处理器42和存储器43设置在电路板44上;电源电路45,用于为上述电子设备的各个电路或器件供电;存储器43用于存储可执行程序代码;处理器42通过读取存储器43中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一实施例所述的方法。
处理器42对上述步骤的具体执行过程以及处理器42通过运行可执行程序代码来进一步执行的步骤,可以参见本发明图1-3所示实施例的描述,在此不再赘述。
该电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子设备。
第四方面,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现本发明任一实施例提供的方法。
第五方面,本发明的实施例还提供一种应用程序,所述应用程序被执行以实现本发明任一实施例提供的方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
为了描述的方便,描述以上装置是以功能分为各种单元/模块分别描述。当然,在实施本发明时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种中文深度学习输入法,其特征在于,包括:
将当前输入的拼音序列,转化为整数编码;
将所述整数编码经过嵌入层处理,得到初始编码矩阵;所述拼音序列中的每个字的拼音,对应所述初始编码矩阵中的一行向量;
将所述初始编码矩阵经过卷积网络处理后得到第一向量;
将第一向量作为第一门控循环单元网络的输入,经过深度学习得到语义编码向量;
将所述语义编码向量,以及第二门控循环单元网络在上一时刻的输出,作为第二门控循环单元网络当前时刻的输入,经过深度学习后经过输出层输出预测结果。
2.根据权利要求1所述的中文深度学习输入法,其特征在于,所述将所述初始编码矩阵经过卷积网络处理后得到第一向量,包括:
将所述初始编码矩阵经过卷积层处理,得到第一中间向量;
将所述第一中间向量经过池化层处理,得到第二中间向量;第二中间向量的维数低于第一中间向量的维数;
将所述第二中间向量进行扁平化处理,得到一维的所述第一向量。
3.根据权利要求1所述的中文深度学习输入法,其特征在于,在将第一向量输入第一门控循环单元网络,所述方法还包括:
将所述第一向量,以及所述初始编码矩阵,作为残差函数的输入,进行残差处理;
将所述残差函数的输出,作为所述第一门控循环单元网络的输入。
4.根据权利要求3所述的中文深度学习输入法,其特征在于,在将所述残差函数的输出,输入所述第一门控循环单元网络,所述方法还包括:
在将残差函数的输出,输入高速路网络层,将高速路网络层的输出作为所述第一门控循环单元网络的输入。
5.根据权利要求1所述的中文深度学习输入法,其特征在于,所述将所述语义编码向量,以及第二门控循环单元网络在上一时刻的输出,作为第二门控循环单元网络当前时刻的输入,经过深度学习后经过输出层输出预测结果,包括:
将所述语义编码向量经过注意力机制处理,得到含有注意力权重的语义编码向量;
将所述含有注意力权重的语义编码向量,以及第二门控循环单元网络在上一时刻的输出,作为第二门控循环单元网络当前时刻的输入,经过深度学习后经过归一化指数函数输出预测结果。
6.一种中文深度学习输入装置,其特征在于,包括:
转化模块,用于将当前输入的拼音序列,转化为整数编码;
初始编码矩阵得到模块,用于将所述整数编码经过嵌入层处理,得到初始编码矩阵;所述拼音序列中的每个字的拼音,对应所述初始编码矩阵中的一行向量;
第一向量得到模块,用于将所述初始编码矩阵经过卷积网络处理后得到第一向量;
语义编码向量得到模块,用于将第一向量作为第一门控循环单元网络的输入,经过深度学习得到语义编码向量;
预测模块,用于将所述语义编码向量,以及第二门控循环单元网络在上一时刻的输出,作为第二门控循环单元网络当前时刻的输入,经过深度学习后经过输出层输出预测结果。
7.根据权利要求6所述的中文深度学习输入装置,其特征在于,所述第一向量得到模块,包括:
第一中间向量得到子模块,用于将所述初始编码矩阵经过卷积层处理,得到第一中间向量;
第二中间向量得到子模块,用于将所述第一中间向量经过池化层处理,得到第二中间向量;第二中间向量的维数低于第一中间向量的维数;
第一向量得到子模块,用于将所述第二中间向量进行扁平化处理,得到一维的所述第一向量。
8.根据权利要求6所述的中文深度学习输入装置,其特征在于,所述装置,还包括:
残差处理模块,用于将所述第一向量,以及所述初始编码矩阵,作为残差函数的输入,进行残差处理;
输入模块,用于将所述残差函数的输出,作为所述第一门控循环单元网络的输入。
9.根据权利要求8所述的中文深度学习输入装置,其特征在于,所述装置,还包括:
高速路模块,用于在将残差函数的输出,输入高速路网络层,将高速路网络层的输出作为所述第一门控循环单元网络的输入。
10.根据权利要求6所述的中文深度学习输入装置,其特征在于,所述预测模块,包括:
语义编码子向量,用于将所述语义编码向量经过注意力机制处理,得到含有注意力权重的语义编码向量;
预测子模块,用于将所述含有注意力权重的语义编码向量,以及第二门控循环单元网络在上一时刻的输出,作为第二门控循环单元网络当前时刻的输入,经过深度学习后经过归一化指数函数输出预测结果。
CN201910572626.2A 2019-06-27 2019-06-27 一种中文深度学习输入法、装置及电子设备 Active CN110286778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910572626.2A CN110286778B (zh) 2019-06-27 2019-06-27 一种中文深度学习输入法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910572626.2A CN110286778B (zh) 2019-06-27 2019-06-27 一种中文深度学习输入法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110286778A true CN110286778A (zh) 2019-09-27
CN110286778B CN110286778B (zh) 2023-08-15

Family

ID=68020014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910572626.2A Active CN110286778B (zh) 2019-06-27 2019-06-27 一种中文深度学习输入法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110286778B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110673748A (zh) * 2019-09-27 2020-01-10 北京百度网讯科技有限公司 输入法中候选长句的提供方法及装置
CN111291940A (zh) * 2020-03-02 2020-06-16 桂林电子科技大学 一种基于Attention深度学习模型的学生辍课预测方法
CN111737957A (zh) * 2020-08-25 2020-10-02 北京世纪好未来教育科技有限公司 汉字拼音转换方法、装置、电子设备及存储介质
CN112069809A (zh) * 2020-08-11 2020-12-11 桂林电子科技大学 一种缺失文本生成方法及系统
CN113589946A (zh) * 2020-04-30 2021-11-02 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
WO2021232725A1 (zh) * 2020-05-22 2021-11-25 百度在线网络技术(北京)有限公司 基于语音交互的信息核实方法、装置、设备和计算机存储介质
CN113806543A (zh) * 2021-09-22 2021-12-17 三峡大学 一种基于残差跳跃连接的门控循环单元的文本分类方法
WO2023280265A1 (zh) * 2021-07-08 2023-01-12 华为技术有限公司 一种词句生成方法、模型训练方法及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577662A (zh) * 2017-08-08 2018-01-12 上海交通大学 面向中文文本的语义理解系统及方法
CN107621891A (zh) * 2017-09-28 2018-01-23 北京新美互通科技有限公司 一种文本输入方法、装置及电子设备
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
JP2019008772A (ja) * 2017-06-28 2019-01-17 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 文字を入力する方法及び装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019008772A (ja) * 2017-06-28 2019-01-17 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 文字を入力する方法及び装置
CN107577662A (zh) * 2017-08-08 2018-01-12 上海交通大学 面向中文文本的语义理解系统及方法
CN107621891A (zh) * 2017-09-28 2018-01-23 北京新美互通科技有限公司 一种文本输入方法、装置及电子设备
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨新涛: "基于深度学习模型的输入法研究", 《CNKI优秀硕士学位论文全文库》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110673748B (zh) * 2019-09-27 2023-04-28 北京百度网讯科技有限公司 输入法中候选长句的提供方法及装置
CN110673748A (zh) * 2019-09-27 2020-01-10 北京百度网讯科技有限公司 输入法中候选长句的提供方法及装置
CN111291940A (zh) * 2020-03-02 2020-06-16 桂林电子科技大学 一种基于Attention深度学习模型的学生辍课预测方法
CN111291940B (zh) * 2020-03-02 2022-06-07 桂林电子科技大学 一种基于Attention深度学习模型的学生辍课预测方法
CN113589946A (zh) * 2020-04-30 2021-11-02 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
WO2021232725A1 (zh) * 2020-05-22 2021-11-25 百度在线网络技术(北京)有限公司 基于语音交互的信息核实方法、装置、设备和计算机存储介质
CN112069809B (zh) * 2020-08-11 2022-05-24 桂林电子科技大学 一种缺失文本生成方法及系统
CN112069809A (zh) * 2020-08-11 2020-12-11 桂林电子科技大学 一种缺失文本生成方法及系统
CN111737957B (zh) * 2020-08-25 2021-06-01 北京世纪好未来教育科技有限公司 汉字拼音转换方法、装置、电子设备及存储介质
CN111737957A (zh) * 2020-08-25 2020-10-02 北京世纪好未来教育科技有限公司 汉字拼音转换方法、装置、电子设备及存储介质
WO2023280265A1 (zh) * 2021-07-08 2023-01-12 华为技术有限公司 一种词句生成方法、模型训练方法及相关设备
CN113806543A (zh) * 2021-09-22 2021-12-17 三峡大学 一种基于残差跳跃连接的门控循环单元的文本分类方法
CN113806543B (zh) * 2021-09-22 2023-05-30 三峡大学 一种基于残差跳跃连接的门控循环单元的文本分类方法

Also Published As

Publication number Publication date
CN110286778B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
CN110286778A (zh) 一种中文深度学习输入法、装置及电子设备
CN109947912B (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
CN109739370B (zh) 一种语言模型训练方法、汉语拼音输入方法及装置
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN107632987A (zh) 一种对话生成方法及装置
CN106126507A (zh) 一种基于字符编码的深度神经翻译方法及系统
CN108573399A (zh) 基于转移概率网络的商户推荐方法及其系统
CN111401081A (zh) 神经网络机器翻译方法、模型及模型形成方法
CN106776540A (zh) 一种自由化文本生成方法
CN110457661B (zh) 自然语言生成方法、装置、设备及存储介质
CN111708877B (zh) 基于关键信息选择和变分潜在变量建模的文本摘要生成法
CN108763535A (zh) 信息获取方法及装置
CN108959388B (zh) 信息生成方法及装置
CN107729311A (zh) 一种融合文本语气的中文文本特征提取方法
JP2022502758A (ja) 符号化方法、装置、機器およびプログラム
CN107679225A (zh) 一种基于关键词的回复生成方法
CN110795935A (zh) 文字词向量模型的训练方法、装置、终端及存储介质
CN111339274A (zh) 对话生成模型训练方法、对话生成方法及装置
CN112560456A (zh) 一种基于改进神经网络的生成式摘要生成方法和系统
CN111597815A (zh) 一种多嵌入命名实体识别方法、装置、设备及存储介质
CN113312609B (zh) 基于策略梯度的生成式对抗网络的口令破解方法及系统
CN113177393A (zh) 改进针对网页结构理解的预训练语言模型的方法和装置
CN111191023B (zh) 一种话题标签自动生成方法、装置及系统
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN113793600B (zh) 语音识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant