CN110569505A

CN110569505A - 一种文本输入方法及装置

Info

Publication number: CN110569505A
Application number: CN201910833984.4A
Authority: CN
Inventors: 熊蜀峰; 王丙坤; 娄鹏宇; 宁菲菲; 刘玉坤
Original assignee: Pingdingshan University
Current assignee: Pingdingshan University
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2019-12-13
Anticipated expiration: 2039-09-04
Also published as: CN110569505B

Abstract

本发明涉及一种文本输入方法及装置，属于输入法技术领域。文本输入方法包括：获取拼音序列；将拼音序列输入训练好的PS2CS模型，通过训练好的PS2CS模型对该拼音序列对应的汉字序列进行预测；PS2CS模型的训练过程为：根据lookup表将训练集数据中的拼音序列样本的每个字母进行向量转化，生成每个字母对应的向量；lookup表包括28个字符和对应字符的向量表示；28个字符包括26个拼音字母和2个占位符号；根据拼音序列样本向量矩阵通过预测层输出预测结果；将预测结果与训练集数据中对应的标准汉字序列样本进行比对，求取损失函数。本发明通过原始的拼音字符序列进行向量化，进而预测对应的汉字序列，大大的节省了内存空间，而且预测地更加准确。

Description

一种文本输入方法及装置

技术领域

本发明涉及一种文本输入方法及装置，属于输入法技术领域。

背景技术

汉语拼音输入法中普遍采用n元语言模型n-gram，n-gram模型用于在给定短语(或句子)中前面已知n-1个词的条件下，判断第n个为哪一个具体词的概率。为了兼顾计算效率，在实际应用中使用二元或三元(n的值取2或者3)来建模语言序列。因此，为了建模更长距离的单词历史，最近的一些工作提出使用连续空间语言模型来代替n-gram模型用于拼音输入法。

实际上，大多数现代拼音输入法都遵循串行过程：1)拼音分词，将输入拼音序列分割为合法的拼音音节；2)为每个拼音音节生成候选词；3)采用解码方法选择正确的单词序列。假如用户输入拼音序列“jinan”合理的拼音拆分有两种“ji_nan”和“jin_an”，这种情况下需要为“ji”“nan”“jin”“an”4个读音分别生成候选词列表。在串行过程中，会遇到以下几种问题：1)拼音分词不能够正确的分割音节；2)每个音节的候选字符生成是一种CPU、时间和存储空间消耗较大的方法(以基于词库的搜狗输入法为例，对普通用户使用常用字库的情况下，搜狗输入法占用的计算机存储空间大约1G)；3)传统的方法依赖于预先训练的语言模型；4)串行方法不可避免地遇到错误传播问题，前一步的错误会在传播到后继过程，并导致错误以乘积形式放大。

发明内容

本发明的目的在于提供一种文本输入方法，用以解决现有输入方法准确率低且占用内存大的问题；同时还提供一种文本输入装置，用以解决现有输入装置准确率低且占用内存大的问题。

为实现上述目的，本发明提出一种文本输入方法，包括以下步骤：

获取拼音序列；

将拼音序列输入训练好的PS2CS模型，通过训练好的PS2CS模型对该拼音序列对应的汉字序列进行预测；所述PS2CS模型的训练过程为：

根据lookup表将训练集数据中的拼音序列样本的每个字母进行向量转化，生成每个字母对应的向量；所述lookup表包括28个字符和对应字符的向量表示；28个字符包括26个拼音字母和2个占位符号；

根据编码公式生成拼音序列样本中每个字母的位置编码向量和初始时间循环步编码向量；

根据拼接公式将拼音序列样本中每个字母的向量、位置编码向量和初始时间循环步编码向量进行拼接，得到拼接结果；

将拼接结果作为第一输入输入到自注意力单元的抽取层中，进行迭代，每次迭代更新时间循环步编码向量并相应更新抽取层的输入，达到指定条件后停止迭代，得到拼音序列样本的特征表示；

将特征表示作为预测层的输入，通过预测层输出拼音序列样本的预测结果；

将预测结果与训练集数据中对应的标准汉字序列样本进行比对，求取损失函数，重复上述过程得到训练好的PS2CS模型。

另外，本发明还提出一种文本输入装置，包括存储器、处理器以及存储在所述存储器中并可在处理器上运行的计算机程序，所述处理器在执行所述计算机程序时实现上述文本输入方法。

有益效果是：本发明通过原始的拼音字符序列进行向量化，直接将未分割的拼音字母进行数字化编码，进而预测对应的汉字序列，大大的节省了内存空间，而且无需进行串行过程，并不会将错误的传递以乘积的形式放大，预测的更加准确。

进一步的，上述文本输入方法及装置中，所述编码公式为：

其中，为拼音序列样本每个字母的偶数维度的嵌入编码向量；为拼音序列样本每个字母的奇数维度的嵌入编码向量，j＝0,1,2...；d为嵌入编码向量的维度；b∈{i,t}，为嵌入的类型，i表示位置，t表示时间循环步，1≤i≤m，1≤t≤T，T为时间循环步的步数，m为拼音序列样本的长度。

进一步的，上述文本输入方法及装置中，所述拼接公式为：

其中，H^t为时间循环第t步的向量拼接结果，Pⁱ为每个字母的位置编码向量、P^t为每个字母的时间循环步编码向量，Emb为每个字母根据lookup表转化的对应的向量。

进一步的，上述文本输入方法及装置中，所述损失函数为：

其中，J(θ)为损失函数的损失值；θ为PS2CS模型的所有参数；p为训练集数据中的拼音序列样本，c为训练集数据中对应的标准汉字序列样本；D是训练集数据的集合，λ为调和系数。

附图说明

图1为本发明文本输入方法的流程图；

图2为本发明文本输入方法的原理框图。

具体实施方式

文本输入方法实施例：

本实施例提出的文本输入方法为将给定的由n个拼音字符组成的拼音序列p＝{p₁,p₂,...,p_n}输入PS2CS模型，在PS2CS模型的转换下生成一个汉字序列c＝{c₁,c₂,...,c_m}，例如图1所示，对于拼音序列“shen_jing_wang_luo_mo_xing”(实际输入时无需连接符“_”，此处添加是为便于阅读)，经过PS2CS模型应输出“神经网络模型”。

本发明的主要构思在于所提出的PS2CS任务自注意力模型(简称PS2CS模型)，该模型的关键思想是通过考虑所有拼音字符序列来同时生成中文句子的所有单词。符合该思想最常用的方法是神经序列建模Seq2Seq方法。在本文中，我们使用自注意力机制作为编码器将输入映射到中间特征，然后使用softmax预测层来预测与每个输入拼音字符对应的每个位置的汉字。我们的方法采用简洁的网络结构达到实时响应用户输入的目的。

神经序列建模Seq2Seq方法的具体过程描述如下：对于输入序列x＝(x₁,x₂,...,x_T)，使用编码器将x映射得到一系列连续表示z＝(z₁,z₂,...,z_n)，基于得到的z，解码器生成输出序列y＝(y₁,y₂,...,y_m)，每个位置表示一个元素。在每一步执行时，Seq2Seq模型利用当前输入特征和先前生成的状态s_t-1来生成当前状态s_t。最流行的编码器/解码器是递归神经网络(RNN)，例如，LSTM(长短期记忆)和GRU(门控循环单位)。在试验中，我们使用LSTM和GRU作为基线方法。本方法仅使用一个组件同时充当编码和解码器，其原因是输入和输出之间通过预处理进行对齐后的固定长度的seq2seq学习。有多种NLP任务属于这种固定长度的seq2seq学习，例如：词性标注，命名实体识别和我们的PS2CS任务。

因此在利用本发明的文本输入方法，每个输入p∈R^l，其中l＝28是字符的词汇量大小(包括26个拼音字母和2个占位符)，R为向量表示。此外，每个字符p_i都被投影到字符嵌入向量中，其中d₁是字符嵌入向量的维度。我们的PS2CS模型输出n个标记它依次对应于n个输入字符，其中d₂是中文词汇表的长度。因为每个中文单词通常需要多个拼音字符来表示其发音，所以我们采取一个额外的对齐步骤。具体来说，我们在每个中文单词前面添加额外的占位符以生成一个新的黄金标准序列，其长度与输入的拼音字符序列相同(目的是得到对应长度的输入与输出序列)。例如，“神”的中文黄金标准序列是“###神”，其字符长度与拼音“shen”相同，其中“#”是占位符，可以看作输出空间中的一个特殊标记。

本发明提出的文本输入方法的具体过程如图1所示，包括以下步骤：

获取拼音字母，这里的拼音字母是通过键盘进行输入的；

将拼音序列输入训练好的PS2CS模型，通过训练好的PS2CS模型对该拼音序列对应的汉字序列进行预测。

PS2CS模型的训练过程为：

本次训练的数据来自Leipzig Corpora Collection(LCC)在中文新闻数据集，数据集是从在线报纸中抓取的。原始语料库包含100万个句子，这些句子被分割成2900万标记，根据标点符号进一步分割句子以获得子句，并使用子句作为模型的输入。对于每个子句，进一步将其分为中文字符。随后，做了一些处理：1)删除出现频率小于100的罕见词，2)用单一符号替换非汉字，3)删除长度大于50或小于2的子句。最后，训练中使用的中文语料库的统计数据显示在表中，将中文语料库使用pypinyin工具将汉字序列转换为没有音调的拼音字符(音节)序列。数据集被分为训练集，验证集和测试集，具体数据集的分类如表一所示：

表一数据集的分类

参数设置如表二所示为：

表二PS2CS模型的参数设置

参数

Lemb

Lhid

Nh

T

τ

Nbatch

λ

Rdpt

值

50

100

1

3

3e-4

700

1e-6

0.05

上述表中L_emb表示嵌入维度、L_hid为隐藏层维度、N_h为编码模型的头数量、T时间循环步的步数、τ为学习率、N_batch为批处理大小、λ为L2范化的调和系数、R_dpt为dropout率。

初始化28个字符(即26个拼音字母外加2个占位符号)的向量表示，生成lookup表；

根据lookup表将训练集数据中的拼音序列样本的每个字母进行向量转化，生成每个字母对应的向量；

递归编码器模块根据编码公式生成拼音字母序列中每个字母的位置编码向量，以及初始时间循环步T₀编码向量，并且将每个字母的位置编码向量，初始时间循环步T₀编码向量以及每个字母对应的向量三者进行通过拼接公式进行拼接，得到原始的特征表示向量，该特征表示向量作为下一步注意力机制中的K/Q/V。

位置编码向量可以防止在后续特征变换中丢失位置信息，时间循环步编码向量可以迭代式的提取更加有效的特征表示，二者均为硬编码，训练和测试过程中不变。三类信息通过向量拼接的方式组合成混合输入表示。

我们使用固定的，恒定的，二维坐标嵌入向量来表示这些信息，编码公式为：

三者拼接的数学公式为：

三者拼接完成后将拼接结果输入循环编码器模块，循环编码器模块包括自注意力单元和转移函数，自注意力单元为循环编码器模块的第一个部分，拼接结果作为自注意力特征抽取层的第一输入；之后进行迭代，每次迭代更新时间循环步T_i编码向量并相应更新抽取层的输入，达到指定条件后(这里的指定条件为达到设定的时间循环步的步数)停止迭代，进行输出；

自注意力单元经过t次时间循环步迭代的输出表示为A^t，进入转移函数，转移函数是一个逐点前馈层，输出O可以表示如下：

O(A^t)＝max(0，A^tW₁+b₁)W₂+b₂，

其中W₁、b₁、W₂、b₂是线性变换的参数，通过转移函数进行输出，得到输入拼音序列样本的特征表示。

将上述步骤中的特征表示输入到PS2CS模型的预测层(也即softmax层，上述向量生成、递归编码器模块和循环编码器模块为PS2CS模型的主模型，将主模型的输出作为预测层的输入)，对拼音序列对应的汉字序列进行预测，经处理后得到最终预测的对应的汉字序列P_c：

P_c(O)＝softmax(OW_h+b_h)，

其中，W_h、b_h为线性变换的参数。

自注意力单元是一种新的注意力机制形式，其中查询Q和键K(值V)是相同的。它同时适用于单个字符和全体字符的处理，以最长路径1的代价来捕获输入单元的远程依赖。自注意力单元已成功应用于许多任务，包括语义角色标记，关系提取，语言理解和阅读理解。

通常，“Scaled Dot-Product Attention”是一种常用的自注意力形式。形式上，给定查询Q和维度d_k的键K和维度d_v的值V。我们使用所有键来计算查询的点积，将每个键除以并应用softmax层的softmax函数来获得值V的权重SDPA：

在我们的任务中，Q＝K＝V＝[v₁,v₂,...,v_n]^T,v_i表示自注意力模型输入中的第i项。因此，我们可以进一步变换公式：

可以看到点积使用矩阵生成，而加法注意力使用前馈网络来计算兼容性特征。因此，点积注意力能够比加法注意力更快的进行计算。通常，Scaled Dot-Product Attention中同时采用多头注意力形式。但是，PS2CS模型需要实时响应，这限制了模型的复杂性。因此，我们在模型中使用单头的点积注意力，并在训练中取得了良好的性能。

为了更好的参数学习，采用残差连接和层规范化。自注意力组件的最终输出是：

A^t＝LN(H^t)+SDPA(H^t)，

其中LN()是层规范化。

训练损失定义为沿输入序列中的字符的softmax交叉熵损失的总和。更准确地说，给定的训练集数据中包括拼音序列样本p和对应的标准汉字序列样本c(也即黄金标准汉字)，其中p＝{p₁,p₂,...,p_n}，c＝{c₁,c₂,...,c_m}，我们计算预测值与黄金标准汉字(包括占位符'#')序列的对数似然。

其中，是标准汉字序列样本的一个二进制指示符变量，表示字符p_t是否真正对应于中文字符j，而V是中文词汇表(标签)。我们的模型使用循环编码器产生的O来预测的汉字序列p_t。因此整体损失是：

其中D是训练数据的集合，λ控制L₂正则化的影响，为调和系数。我们使用Adam优化器来计算和更新训练参数。此外，dropout机制和早期停止用于缓解过拟合问题。

通过训练集的数据对PS2CS模型进行训练，并在训练过程中逐渐微调26个拼音字母的表示向量，将训练好的PS2CS模型接着通过测试集的数据对PS2CS模型进行测试。

文本输入方法中利用PS2CS模型进行汉字序列的预测时，其预测过程与PS2CS模型训练过程中对样本数据进行预测的过程是相同的，如图2所示，以下以一个具体的实施例介绍本发明的文本输入方法：

1)输入拼音序列“shenjingwangluo”，查询lookup表(lookup表中的向量采用随机初始化，并在模型训练过程中自动修正向量)，得到拼音序列中每个字母的向量表示，比如第二个字母“h”的字母表示成向量后形如[0.3456,0.2309,-0.3485,…,0.2223]；

2)根据编码公式，计算每个输入字母的位置编码向量，如第二个字母“h”的位置编码形如[-0.2344,0.9943,…,0.7832](对于每次输入的拼音序列，每个位置的编码相同)，同时计算时间循环第1步的编码向量，表示形式同上，记为[0.5238,0.8965,-0.1222,…,0.4583]；

3)三种向量拼接(得到向量的维度为三者维度之和)形成原始的特征表示向量，该特征表示向量作为注意力机制中的K/Q/V(K表示Key，Q表示Query，V表示Value)，在本方法的注意力机制中K/Q/V采用相同的向量来表示；

4)原始特征向量(本例中为[0.3456,0.2309,…,0.4583])输入到自注意力模块中，经过非线性变换，得到另一个中间表示向量，如[-0.2554,0.6784,…,0.6665]，再经过转换函数再次变换为进一步的中间表示向量；

5)如未达到时间循环步的步数条件，则进入下一次时间循环步并更新时间循环编码向量，同时将转换函数输出的中间表示作为输入序列字母的新一轮表示向量，再与位置编码向量、新的时间循环步编码向量拼接得到新的特征表示；直至达到时间循环步的步数，将自注意力单元的输出经过转移函数输出最终的特征表示；

6)将特征表示输入softmax层，输出“###神###经###网##络”；

7)采用简单字符替换去掉“#”号，得到汉字序列“神经网络”。

本发明提出了一个端到端的注意力神经网络，用于拼音输入的任务，它去掉了拼音分割和候选词生成步骤。由于输入法是实时应用，更复杂的网络结构需要更多的响应时间。因此，在本发明的模型中，只使用循环自注意力模块作为特征提取层。通过使用自注意力方法，可以在时间复杂度内对句子中任意单词之间的关系进行加权表示。此外，我们还使用前一时间步的输出作为当前时间步的输入，其能够捕获输入序列中的长距离依赖性。基于自注意力的模块用于特征学习，softmax层用于预测相应的汉字序列。

以下我们通过验证集的数据对本发明的模型和现有的基于经典序列方法的拼音到汉字转换模型进行比较，比较结果如表三所示：

表三比较结果

模型	CER	SA(0)	SA(1)	SA(2)
					BiLSTM	14.45	32.3	53.2	69.9
BiGRU	13.89	32.28	53.67	71.35
					PS2CS	12.94	34.7	59.9	75.1

上述表格中，CER(Character Error Rate)表示字符错误率，计算方法为

其中，N_ec为预测错误的字符数、N_tc为字符数总数。

SA(·)表示句子预测准确率(Sentence Accuracy)，括号中的数字表示句子中允许的错误字符数：N_es(n)为错误字符数大于n的句子数、N_ts为句子总数。

通过表三可以看出，我们的方法性能超过了对比的所有同类方法。与这些方法相比，我们的方法采用自注意力方式能够更好的建立内部依赖关系，从而更准确的实现了汉字的转换。

文本输入装置实施例：

本实施例提出的文本输入装置，包括存储器、处理器以及存储在所述存储器中并可在处理器上运行的计算机程序，所述处理器在执行所述计算机程序时实现文本输入方法。

文本输入装置所实现的文本输入方法的具体实施过程在上述文本输入方法实施例中已经介绍，这里不做过多介绍。

Claims

1.一种文本输入方法，其特征在于，包括以下步骤：

获取拼音序列；

2.根据权利要求1所述的文本输入方法，其特征在于，所述编码公式为：

3.根据权利要求2所述的文本输入方法，其特征在于，所述拼接公式为：

其中，H^t为时间循环第t步的拼接结果，Pⁱ为每个字母的位置编码向量、P^t为每个字母的时间循环步编码向量，Emb为每个字母根据lookup表转化的对应的向量。

4.根据权利要求1所述的文本输入方法，其特征在于，所述损失函数为：

5.一种文本输入装置，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在处理器上运行的计算机程序，所述处理器在执行所述计算机程序时实现如权利要求1-4中任意一项所述的文本输入方法。