CN106354701B

CN106354701B - 汉字处理方法和装置

Info

Publication number: CN106354701B
Application number: CN201610781473.9A
Authority: CN
Inventors: 李鹏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-08-30
Filing date: 2016-08-30
Publication date: 2019-06-21
Anticipated expiration: 2036-08-30
Also published as: CN106354701A

Abstract

本发明公开了一种汉字处理方法和装置。其中，该方法包括：获取多个目标汉字的五笔字型编码，其中，每个五笔字型编码包括一个或多个字母；将多个五笔字型编码转换成独热码，其中，每个目标汉字的独热码具有相同的张量维度；将多个目标汉字的独热码输入卷积神经网络进行卷积运算，得到输出向量，其中，输出向量用于表示多个目标汉字的语义数值。本发明解决了相关技术中基于拼音的汉字编码方法用于文本分析时结果不准确的技术问题。

Description

汉字处理方法和装置

技术领域

本发明涉及汉字编码领域，具体而言，涉及一种汉字处理方法和装置。

背景技术

汉字的语义识别和分类具有广泛的应用，而汉字的语义识别和分类都是基于汉字编码进行的。汉字编码是一种便于将汉字输入到计算机的代码，由于汉字数量庞大，字型复杂，因此汉字编码具有很多困难，现有的技术方案中，通常把汉字转换成拼音，然后按照序列化的编码方式构造句子的特征，但是，基于拼音的汉字编码方案的缺点主要有两个方面，第一是神经网络卷积层扫描汉字不精确，这是因为汉字拼音长度不一致，卷积运算时卷积宽度固定无法确保抓取汉字数量一致，因此扫描汉字不精确；第二是存储空间偏大，这是因为使用26个拼音字母和多个特殊符号导致组合数量较大，因此存储空间占用偏大。

在一些面向垂直领域的汉语自然语言理解任务中，由于缺乏专门的分词工具，基于拼音的汉字编码方法用于文本分析时在性能上具有很多瓶颈。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种汉字处理方法和装置，以至少解决相关技术中基于拼音的汉字编码方法用于文本分析时结果不准确的技术问题。

根据本发明实施例的一个方面，提供了一种汉字处理方法，包括：获取多个目标汉字的五笔字型编码，其中，每个所述五笔字型编码包括一个或多个字母；将多个所述五笔字型编码转换成独热码，其中，每个所述目标汉字的所述独热码具有相同的张量维度；将所述多个目标汉字的所述独热码输入卷积神经网络进行卷积运算，得到输出向量，其中，所述输出向量用于表示所述多个目标汉字的语义数值。

根据本发明实施例的另一方面，还提供了一种汉字处理装置，包括：获取单元，用于获取多个目标汉字的五笔字型编码，其中，每个所述五笔字型编码包括一个或多个字母；转换单元，用于将多个所述五笔字型编码转换成独热码，其中，每个所述目标汉字的所述独热码具有相同的张量维度；运算单元，用于将所述多个目标汉字的所述独热码输入卷积神经网络进行卷积运算，得到输出向量，其中，所述输出向量用于表示所述多个目标汉字的语义数值。

在本发明实施例中，采用将多个目标汉字的五笔字型编码转换成独热码，然后将独热码输入卷积神经网络进行卷积运算得到输出向量，用输出向量表示多个目标汉字的语义的方式，通过五笔字型编码对每个汉字进行编码，达到了所有汉字都具有相同数量的编码的目的，从而实现了对汉字的文本分类更准确的技术效果，进而解决了相关技术中基于拼音的汉字编码方法用于文本分析时结果不准确的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的汉字处理方法的硬件环境的示意图；

图2是根据本发明实施例的一种可选的汉字处理方法的流程图；

图3是根据本发明实施例的一种基于五笔字型的汉字转图像的示意图；

图4是根据本发明实施例的一种卷积神经网络运算的示意图；

图5是根据本发明实施例的一种可选的汉字处理装置的示意图；以及

图6是根据本发明实施例的一种终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种汉字处理的方法实施例。

可选地，在本实施例中，上述汉字处理方法可以应用于如图1所示的由服务器102和终端104所构成的硬件环境中。如图1所示，服务器102通过网络与终端104进行连接，上述网络包括但不限于：广域网、城域网或局域网，终端104并不限定于PC、手机、平板电脑等。本发明实施例的汉字处理方法可以由服务器102来执行，也可以由终端104来执行，还可以是由服务器102和终端104共同执行。其中，终端104执行本发明实施例的汉字处理方法也可以是由安装在其上的客户端来执行。在一个可选的实施方式中，本发明实施例的汉字处理方法包括以下过程：终端104获取输入的多个目标汉字，发送到服务器102，服务器102获取多个目标汉字的五笔字型编码，然后将多个五笔字型编码转换成独热码，服务器102将多个目标汉字的独热码输入卷积神经网络进行卷积运算，得到输出向量，以实现对输入的汉字进行文本分类。在一些运算能力强的终端中，也可以由终端104获取多个目标汉字的五笔字型编码，然后将多个五笔字型编码转换成独热码，将多个目标汉字的独热码输入卷积神经网络进行卷积运算，得到输出向量。

图2是根据本发明实施例的一种可选的汉字处理方法的流程图，如图2所示，该方法可以包括以下步骤：

步骤S202，获取多个目标汉字的五笔字型编码，其中，每个五笔字型编码包括一个或多个字母。

步骤S204，将多个五笔字型编码转换成独热码，其中，每个目标汉字的独热码具有相同的张量维度。

步骤S206，将多个目标汉字的独热码输入卷积神经网络进行卷积运算，得到输出向量，其中，输出向量用于表示多个目标汉字的语义数值。

通过上述步骤S202至步骤S206，通过将多个目标汉字的五笔字型编码转换成独热码，然后将独热码输入卷积神经网络进行卷积运算得到输出向量，用输出向量表示多个目标汉字的语义的方式，通过五笔字型编码对每个汉字进行编码，达到了所有汉字都具有相同数量的编码的目的，该实施例可以作为一种深度学习环境下的汉字编码方法，可以解决相关技术中基于拼音的汉字编码方法用于文本分析时结果不准确的技术问题，进而达到对汉字的文本分析结果更准确的技术效果。

在步骤S202提供的技术方案中，目标汉字可以是多个，例如，目标汉字可以是一句话中的多个汉字，或者一段话中的多个汉字。每个目标汉字都有唯一的五笔字型编码，每个汉字的五笔字型编码包括一个或多个字母，可选地，每个目标汉字对应的五笔字型编码包括4个字母，通过4个字母可以唯一确定一个汉字，由于汉字拼音长度不一致，基于拼音的汉字编码方案卷积运算时卷积宽度固定无法确保抓取汉字数量一致，因此扫描汉字不精确，而本发明实施例由于所有目标汉字都可以用相同数量的字母进行编码，因此通过五笔字型编码的方式对目标汉字进行编码可以达到所有汉字都具有相同数量的编码的目的，从而实现了对汉字的文本分析更准确的技术效果，并且由于固定了每个汉字的编码数，也节省了存储空间。

在步骤S204提供的技术方案中，独热码(one-hot code)又称为一位有效编码，在任意时候，只有一位有效，可以将目标汉字的五笔字型编码通过独热码表示，例如，每个目标汉字的五笔字型编码有四个字母，每个字母可以用一个独热码表示，也即，每个目标汉字可以用四个独热码表示，可选地，每个独热码用5*5的矩阵表示，因此每个汉字的独热码具有相同的张量维度，每个汉字的独热码具有相同的张量维度可以是汉字的独热码的位数相同，每个汉字的独热码都有相同数量的字符或数字个数，例如，每个汉字的张量维度可以是4×5×5。将多个五笔字型编码转换为独热码可以是将每个五笔字型编码转换成对应的独热码，然后得到多个汉字对应的多个独热码。

在步骤S206提供的技术方案中，在得到多个目标汉字的独热码之后，将多个目标汉字的独热码拼接起来之后输入卷积神经网络进行卷积运算，在卷积神经网络中可以对多个目标汉字的独热码进行卷积运算，卷积神经网络卷积运算之后得到输出向量，该输出向量可以用于表示多个目标汉字的语义数值。

本发明实施例作为一种在深度学习环境中用于文本语义理解的汉字编码方法，适用于各种汉语自然语言理解任务，尤其适用于处理面向垂直领域的数据，因为现有技术中缺乏专门的分词工具，本发明实施例的方案可以作为较好的替代方法，解决汉字的文本分析性能上的瓶颈。

本发明实施例的技术方案把汉字当做图像来对待，首先基于汉典数据构建汉字及其五笔编码对照表，然后根据每个汉字对应的编码，同时结合五笔字型笔画键盘的映射规则，把汉字映射成图像中基于信道的表示方法，采用one-hot的编码方案，得到每个汉字的特征，然后把句子中的汉字拼接起来，得到句子的原始特征表示。最后进入卷积神经网络，学习句子的特征表示，在此之后，可以对句子进行分类或分析。

作为一种可选的实施例，将多个五笔字型编码转换成独热码可以是：将第一值设置在第一矩阵中的第一位置上，将第二值设置在第一矩阵中除第一位置之外的其他位置上，得到独热码，其中，第一位置与字母在五笔字型编码表中的第二位置相对应，设置了第一值和第二值的第一矩阵用于表示独热码，五笔字型编码表用于生成目标汉字的五笔字型编码。

独热码可以根据五笔字型编码的字母在预设的五笔字型编码表中的位置生成，以“我”为例，五笔字型编码对应“TRNT”四个字母，根据预设的字母位置对应表，“T”的位置为第一行第五位，则“T”对应的独热码可以是第一矩阵，在第一行第五位为第一值，其余的位置为第二值，第一值可以是1，第二值可以是0。通过同样的方法生成“TRNT”四个字母对应的独热码，即可得到汉字“我”对应的独热码，然后得到多个目标汉字的多个独热码。其中，五笔字型编码表可以是基于预定的规则设定的编码表，在编码表确定之后，多个目标汉字基于同一个编码表进行编码。通过这种编码方式，将独热码的对应位置编码为第一值，其余位置编码为第二值，能够提高对目标汉字编码的准确性。

作为一种可选的实施例，将多个目标汉字的独热码输入卷积神经网络进行卷积运算，得到输出向量包括：对多个目标汉字的独热码进行卷积运算，得到目标卷积结果，其中，目标卷积结果由第二矩阵表示；对目标卷积结果进行采样，得到第三矩阵，其中，第三矩阵的列数少于第二矩阵的列数，第三矩阵的行数等于第二矩阵的行数；对第三矩阵进行降维，得到一维的输出向量。通过以上步骤得到一维的输出向量，该输出向量能够最大程度的代表多个目标汉字的语义，可以解决相关技术中基于拼音的汉字编码方法用于文本分析时不准确的技术问题，进而达到对汉字的文本分析更准确的技术效果。

将多个目标汉字的独热码输入到卷积神经网络进行卷积运算的过程包括卷积、采样、降维的过程，其中，对多个目标汉字的独热码进行卷积运算可以是对第一个目标汉字和第二个目标汉字进行卷积运算，得到运算结果，然后将运算结果与第三个目标汉字进行卷积运算，以此类推，得到所有汉字卷积运算的结果，目标卷积结果可以用第二矩阵表示，对第二矩阵表示的目标卷积结果进行采样操作，以提取多个目标汉字的特征，得到第三矩阵，其中，第三矩阵的列数少于第二矩阵的列数，第三矩阵的行数等于第二矩阵的行数，然后对采样结果进行降维操作，进一步提取多个目标汉字的特征，得到一维的输出向量，该一维的输出向量可以是全连接(Fully-connect)向量，全连接向量的每一位都由0-1之间的小数组成，因此全向量的所有小数可以作为多个目标汉字的语义的数值表示。通过卷积神经网络进行卷积运算可以实现将多个目标汉字的语义以向量的方式表示，对向量进行解析可以得到多个目标汉字的语义表示，提高了对汉字的文本分析的准确性。

作为一种可选的实施例，多个目标汉字为P个目标汉字，每个目标汉字的五笔字型编码包括Q个字母，每个独热码被M*N的矩阵表示，其中，对多个目标汉字的独热码进行卷积运算，得到目标卷积结果包括：对于P个目标汉字依次进行以下卷积操作，其中，3≤i≤P，1≤r≤Q，j＝i-2，第0个卷积结果为第1个矩阵：对第i个矩阵和第j个卷积结果进行卷积操作，得到第j+1个卷积结果，其中，第i个矩阵为P个目标汉字中第i个目标汉字对应的矩阵，第i个矩阵为Q*R1的矩阵，R1＝M*N，第i个矩阵中的第r行为与第i个目标汉字的Q个字母中的第r个字母对应的独热码中的M*N个数值按行拼接而成，第j个卷积结果为第i-1个矩阵与第j-1个卷积结果进行卷积操作得到的；将第P-1个卷积结果记录为目标卷积结果。

假设目标汉字为6个，每个目标汉字的五笔字型编码为4个字母，每个独热码用5*5的矩阵表示，卷积运算过程可以是一维卷积运算的过程，该过程包括：对第一个和第二个目标汉字对应的独热码组成的矩阵进行卷积操作，得到第一个卷积结果，然后由第一个卷积结果与第三个目标汉字的独热码组成的矩阵进行卷积操作，得到第二个卷积结果，每个汉字的矩阵为4×5×5的矩阵，一维卷积运算时，将每个5×5的独热码转化为一个信道25位的形式，每个汉字的矩阵为4×25的矩阵，在将所有目标汉字进行卷积运算之后，得到第5个卷积结果，将第5个卷积结果记录为目标卷积结果。

作为一种可选的实施例，多个目标汉字为P个目标汉字，每个目标汉字的五笔字型编码包括Q个字母，每个独热码被M*N的矩阵表示，其中，对多个目标汉字的独热码进行卷积运算，得到目标卷积结果包括：对于P个目标汉字依次进行以下卷积操作，其中，3≤i≤P，1≤r≤Q，j＝i-2，第0个卷积结果为第1个矩阵：对第i个矩阵和第j个卷积结果进行卷积操作，得到第j+1个卷积结果，其中，第i个矩阵为P个目标汉字中第i个目标汉字对应的矩阵，第i个矩阵为Q*M*N的矩阵，第i个矩阵中的M*N的子矩阵为与第i个目标汉字的Q个字母中的第r个字母对应的独热码中的M*N个数值，j个卷积结果为第i-1个矩阵与第j-1个卷积结果进行卷积操作得到的；将第P-1个卷积结果记录为目标卷积结果。

假设目标汉字为6个，每个目标汉字的五笔字型编码为4个字母，每个独热码用5*5的矩阵表示，卷积运算过程可以是二维卷积运算的过程，该过程包括：对第一个和第二个目标汉字对应的独热码组成的矩阵进行卷积操作，得到第一个卷积结果，然后由第一个卷积结果与第三个目标汉字的独热码组成的矩阵进行卷积操作，得到第二个卷积结果，每个汉字的矩阵为4×5×5的矩阵，二维卷积运算时，在将所有目标汉字进行卷积运算之后，得到第5个卷积结果，将第5个卷积结果记录为目标卷积结果。通过上述的卷积神经网络训练，能够提高多个目标汉字的卷积神经网络训练结果的准确性，降低汉字的文本分析的错误率。

该实施例把汉字当做图像来对待，汉字是由笔画组成的，笔画分为五大类，横竖撇捺折，借鉴了五笔字型的编码技术，该技术的核心设计理念是把笔画映射到键盘上的不同区域。比如QWERT区域对应着撇这个笔画，YUIOP对应着捺那个笔画，首先查询出一个汉字的五笔字型编码，然后转换成三维张量(3D tensor)，接着把句子中的汉字拼接起来，形成一幅“图像”。实现过程中存在两种拼接方法，这两种拼接方法分别对应两种不同的卷积计算方法，也即，通过一维卷积去抽取特征和通过二维卷积去抽取特征。在实际的汉语自然语言处理任务中，这两种方案的处理结果是一样的。该实施例可以用于进行中文文本分类或深度问答系统的问题分类。

图3是根据本发明实施例的一种基于五笔字型的汉字转图像的示意图，如图3所示，以汉字“我”为例，根据五笔字型的笔画输入规则，“我”的四个笔画对应是“T”、“R”、“N”、“T”四个字母，根据字母在预设的五笔字型编码表中的对应位置可以确定四个独热码，例如，“T”在五笔字型编码表中对应的位置为第一行第五列，则第一个独热码的第一行第五列为1，其余为0；“R”在五笔字型编码表中对应的位置为第一行第四列，则第二个独热码的第一行第四列为1，其余为0；“N”在五笔字型编码表中对应的位置为第五行第五列，则第三个独热码的第五行第五列为1，其余为0；“T”在五笔字型编码表中对应的位置为第一行第五列，则第四个独热码的第一行第五列为1，其余为0。预设的五笔字型编码表可以是根据任意的顺序排列的，但是编码表中所有字母不重复。

图4是根据本发明实施例的一种卷积神经网络运算的示意图，如图4所示，W1至Wn表示第一个汉字至第n个汉字，A步骤表示一维卷积输入，B步骤表示二维卷积输入，一维卷积输入和二维卷积输入方法得到的结果相同，因此一维卷积输入和二维卷积输入方法可以择一使用。每个目标汉字由4×25的矩阵表示，一维卷积的卷积核宽度kW＝4，宽度维度上卷积的步长dW＝4，将n个目标汉字进行时间卷积(Temporal Convolution)，得到第二矩阵，第二矩阵的横向表示长度(Length)，纵向表示特征(Feature)，第二矩阵是5×5的矩阵，对第二矩阵通过最大池化(Max Pooling)采样，得到第三矩阵，第三矩阵是3×5的矩阵，对第三矩阵进行多次卷积核池化层(More Conv and Pool layers)处理，降维得到全向量(Fully-connect)输出，全向量为1×5的输出向量，每位向量由0-1之间的小数表示，输出向量可以作为多个目标汉字的语义的数值表示，通过输出向量可以对输入的多个目标汉字进行语义识别或者语义分类。二维卷积输入时，卷积核宽度kW＝5，宽度维度上卷积的步长dW＝5，卷积核高度kH＝5，高度维度上卷积的步长dH＝1，对多个输入的目标汉字进行空间卷积(Spatial Convolution)，进行重塑(Reshape)，得到第二矩阵，对第二矩阵的后续处理步骤与一维卷积相同，不再赘述。

通过上述的汉字处理方法，可以作为一种全新的汉字编码技术应用到大规模中文文本分析中，在该实施例中，网络结构一共包含9层。其中6层卷积层和3层全连接层。在2个全连接层之间插入两个Dropout层用来做正则化。Dropout参数可以设置为0.5，整个卷积神经网络可以使用高斯分布初始化权重，高斯分布中的均值设置为0，标准偏移设为0.05。在一种可选的实施方式中，6层卷积层的参数设置如表1所示。

表1 6层卷积层的参数设置表

Layer	C-kW	C-dW	P-kW	P-dW
					1	4	4	2	2
2	4	1	2	2
					3	4	1	NA	NA
4	4	1	NA	NA
					5	4	1	NA	NA
6	4	1	2	2

在得到一维全向量输出之后，通过目标函数对全向量进行优化，以使对多个输入汉字的文本分析更准确，目标函数可以为：

其中，m表示训练样本的数量，上标k是第k个训练样本。训练可以是在梯度下降法(mini-batches)上使用随机梯度下降结合向量(Nesterov Momentum)的方案。

通过该实施例的汉字处理方法，对某个输入法提供的大规模中文文本分析的数据集，从中选取了五大类的文本，对每个类的训练以及测试数据如表2所示。

表2不同领域文本训练测试数量

文本主题	训练样本数	测试样本数
			运动	52395	7953
娱乐	52635	7713
			汽车	52473	7875
金融	52477	7871
			科技	52533	7815

基于不同的主题对文本进行训练和测试，在运动领域，卷积神经网络训练时选用了52395个句子或段落，测试时选用了7953句子或段落；娱乐领域，训练时选用了52635个句子或段落，测试时选用了7713句子或段落；汽车领域，训练时选用了52473个句子或段落，测试时选用了7875句子或段落；金融领域，训练时选用了52477个句子或段落，测试时选用了7871句子或段落；科技领域，训练时选用了52533个句子或段落，测试时选用了7815句子或段落。

通过不同的测试模型对上述各个领域的文本进行测试，实验结果如表3所示。

表3不同模型训练方法的文本测试错误率

方法	测试错误率
		Bow TFIDF+逻辑回归	9.38
LSTM+逻辑回归	10.49
		混合层+Bi-LSTM	7.94
LSTM with Attention	7.71
		神经网络+拼音	6.24
神经网络+五笔	5.65

通过词包(Bag of Words)特征项频率-反文档频率(Term Frequency InverseDocument Frequency，简称为TFIDF)和逻辑回归的模型训练方法的测试错误率为9.38，基于长短时间记忆神经网络(Long Short Term Memory，简称为LSTM)和逻辑回归的模型训练方法的测试错误率为10.49，基于混合层和长短时间记忆神经网络的模型训练方法的测试错误率为7.94，基于深度学习(LSTM with Attention)的模型训练方法的测试错误率为7.71，基于神经网络和拼音的模型训练方法的测试错误率为6.24，本发明实施例的基于神经网络和五笔的模型训练方法的测试错误率为5.65，相对于现有技术的其他方法，错误率有明显降低，因此本发明实施例的基于五笔的汉字编码方法能够达到对汉字的文本分析更准确的技术效果。

本发明实施例的汉字编码方法融合了五笔编码方法，把汉字当做图像来看待，当自然语言处理和图像处理领域建立了桥梁，使当前在图像上的深度学习技术，可以自然的应用到汉语自然语言处理中。由于固定了每个汉字的张量维度，可以精确设计卷积核，提高特征抽取效率，基于五笔的汉字编码方法极大的压缩了汉字编码的存储空间，间接导致了整个深度神经网络的参数减少很多，提高了系统的性能。本发明实施例的方法也可以推广到其他的汉语自然语言处理任务中，比如命名实体识别，自动文摘或语义情感分析等。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述汉字处理方法的汉字处理装置。图5是根据本发明实施例的一种可选的汉字处理装置的示意图，如图5所示，该装置可以包括：获取单元10，转换单元20和运算单元30。

获取单元10，用于获取多个目标汉字的五笔字型编码，其中，每个五笔字型编码包括一个或多个字母；

转换单元20，用于将多个五笔字型编码转换成独热码，其中，每个目标汉字的独热码具有相同的张量维度；

运算单元30，用于将多个目标汉字的独热码输入卷积神经网络进行卷积运算，得到输出向量，其中，输出向量用于表示多个目标汉字的语义数值。

需要说明的是，该实施例中的获取单元10可以用于执行本申请实施例1中的步骤S202，该实施例中的转换单元20可以用于执行本申请实施例1中的步骤S204，该实施例中的运算单元30可以用于执行本申请实施例1中的步骤S206。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

通过上述模块，可以解决相关技术中基于拼音的汉字编码方法用于文本分析时结果不准确的技术问题，进而达到对汉字的文本分析更准确的技术效果。

可选地，转换单元20用于：将第一值设置在第一矩阵中的第一位置上，将第二值设置在第一矩阵中除第一位置之外的其他位置上，得到独热码，其中，第一位置与字母在五笔字型编码表中的第二位置相对应，设置了第一值和第二值的第一矩阵用于表示独热码，五笔字型编码表用于生成目标汉字的五笔字型编码。

可选地，运算单元30包括：卷积模块，用于对多个目标汉字的独热码进行卷积运算，得到目标卷积结果，其中，目标卷积结果由第二矩阵表示；采样模块，用于对目标卷积结果进行采样，得到第三矩阵，其中，第三矩阵的列数少于第二矩阵的列数，第三矩阵的行数等于第二矩阵的行数；降维模块，用于对第三矩阵进行降维，得到一维的输出向量。

可选地，多个目标汉字为P个目标汉字，每个目标汉字的五笔字型编码包括Q个字母，每个独热码被M*N的矩阵表示，其中，卷积模块用于：对于P个目标汉字依次进行以下卷积操作，其中，3≤i≤P，1≤r≤Q，j＝i-2，第0个卷积结果为第1个矩阵：对第i个矩阵和第j个卷积结果进行卷积操作，得到第j+1个卷积结果，其中，第i个矩阵为P个目标汉字中第i个目标汉字对应的矩阵，第i个矩阵为Q*R1的矩阵，R1＝M*N，第i个矩阵中的第r行为与第i个目标汉字的Q个字母中的第r个字母对应的独热码中的M*N个数值按行拼接而成，第j个卷积结果为第i-1个矩阵与第j-1个卷积结果进行卷积操作得到的；将第P-1个卷积结果记录为目标卷积结果。

可选地，多个目标汉字为P个目标汉字，每个目标汉字的五笔字型编码包括Q个字母，每个独热码被M*N的矩阵表示，其中，卷积模块用于：对于P个目标汉字依次进行以下卷积操作，其中，3≤i≤P，1≤r≤Q，j＝i-2，第0个卷积结果为第1个矩阵：对第i个矩阵和第j个卷积结果进行卷积操作，得到第j+1个卷积结果，其中，第i个矩阵为P个目标汉字中第i个目标汉字对应的矩阵，第i个矩阵为Q*M*N的矩阵，第i个矩阵中的M*N的子矩阵为与第i个目标汉字的Q个字母中的第r个字母对应的独热码中的M*N个数值，j个卷积结果为第i-1个矩阵与第j-1个卷积结果进行卷积操作得到的；将第P-1个卷积结果记录为目标卷积结果。

可选地，每个目标汉字对应的五笔字型编码包括4个字母，每个独热码被5*5的矩阵表示。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

实施例3

根据本发明实施例，还提供了一种用于实施上述汉字处理方法的服务器或终端。

图6是根据本发明实施例的一种终端的结构框图，如图6所示，该终端可以包括：一个或多个(图中仅示出一个)处理器201、存储器203、以及传输装置205(如上述实施例中的发送装置)，如图6所示，该终端还可以包括输入输出设备207。

其中，存储器203可用于存储软件程序以及模块，如本发明实施例中的汉字处理方法和装置对应的程序指令/模块，处理器201通过运行存储在存储器203内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的汉字处理方法。存储器203可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器203可进一步包括相对于处理器201远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置205用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置205包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置205为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器203用于存储应用程序。

处理器201可以通过传输装置205调用存储器203存储的应用程序，以执行下述步骤：获取多个目标汉字的五笔字型编码，其中，每个五笔字型编码包括一个或多个字母；将多个五笔字型编码转换成独热码，其中，每个目标汉字的独热码具有相同的张量维度；将多个目标汉字的独热码输入卷积神经网络进行卷积运算，得到输出向量，其中，输出向量用于表示多个目标汉字的语义数值。

处理器201还用于执行下述步骤：将第一值设置在第一矩阵中的第一位置上，将第二值设置在第一矩阵中除第一位置之外的其他位置上，得到独热码，其中，第一位置与字母在五笔字型编码表中的第二位置相对应，设置了第一值和第二值的第一矩阵用于表示独热码，五笔字型编码表用于生成目标汉字的五笔字型编码。

处理器201还用于执行下述步骤：对多个目标汉字的独热码进行卷积运算，得到目标卷积结果，其中，目标卷积结果由第二矩阵表示；对目标卷积结果进行采样，得到第三矩阵，其中，第三矩阵的列数少于第二矩阵的列数，第三矩阵的行数等于第二矩阵的行数；对第三矩阵进行降维，得到一维的输出向量。

处理器201还用于执行下述步骤：对于P个目标汉字依次进行以下卷积操作，其中，3≤i≤P，1≤r≤Q，j＝i-2，第0个卷积结果为第1个矩阵：对第i个矩阵和第j个卷积结果进行卷积操作，得到第j+1个卷积结果，其中，第i个矩阵为P个目标汉字中第i个目标汉字对应的矩阵，第i个矩阵为Q*R1的矩阵，R1＝M*N，第i个矩阵中的第r行为与第i个目标汉字的Q个字母中的第r个字母对应的独热码中的M*N个数值按行拼接而成，第j个卷积结果为第i-1个矩阵与第j-1个卷积结果进行卷积操作得到的；将第P-1个卷积结果记录为目标卷积结果。

处理器201还用于执行下述步骤：对于P个目标汉字依次进行以下卷积操作，其中，3≤i≤P，1≤r≤Q，j＝i-2，第0个卷积结果为第1个矩阵：对第i个矩阵和第j个卷积结果进行卷积操作，得到第j+1个卷积结果，其中，第i个矩阵为P个目标汉字中第i个目标汉字对应的矩阵，第i个矩阵为Q*M*N的矩阵，第i个矩阵中的M*N的子矩阵为与第i个目标汉字的Q个字母中的第r个字母对应的独热码中的M*N个数值，j个卷积结果为第i-1个矩阵与第j-1个卷积结果进行卷积操作得到的；将第P-1个卷积结果记录为目标卷积结果。

采用本发明实施例，采用将多个目标汉字的五笔字型编码转换成独热码，然后将独热码输入卷积神经网络进行卷积运算得到输出向量，用输出向量表示多个目标汉字的语义的方式，通过五笔字型编码对每个汉字进行编码，达到了所有汉字都具有相同数量的编码的目的，从而实现了对汉字的文本分析更准确的技术效果，进而解决了相关技术中基于拼音的汉字编码方法用于文本分析时结果不准确的技术问题。

可选地，本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图6所示的结构仅为示意，终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices，MID)、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如，终端还可包括比图6中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图6所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例4

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行汉字处理方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S1，获取多个目标汉字的五笔字型编码，其中，每个五笔字型编码包括一个或多个字母；

S2，将多个五笔字型编码转换成独热码，其中，每个目标汉字的独热码具有相同的张量维度；

S3，将多个目标汉字的独热码输入卷积神经网络进行卷积运算，得到输出向量，其中，输出向量用于表示多个目标汉字的语义数值。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：将第一值设置在第一矩阵中的第一位置上，将第二值设置在第一矩阵中除第一位置之外的其他位置上，得到独热码，其中，第一位置与字母在五笔字型编码表中的第二位置相对应，设置了第一值和第二值的第一矩阵用于表示独热码，五笔字型编码表用于生成目标汉字的五笔字型编码。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：对多个目标汉字的独热码进行卷积运算，得到目标卷积结果，其中，目标卷积结果由第二矩阵表示；对目标卷积结果进行采样，得到第三矩阵，其中，第三矩阵的列数少于第二矩阵的列数，第三矩阵的行数等于第二矩阵的行数；对第三矩阵进行降维，得到一维的输出向量。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：对于P个目标汉字依次进行以下卷积操作，其中，3≤i≤P，1≤r≤Q，j＝i-2，第0个卷积结果为第1个矩阵：对第i个矩阵和第j个卷积结果进行卷积操作，得到第j+1个卷积结果，其中，第i个矩阵为P个目标汉字中第i个目标汉字对应的矩阵，第i个矩阵为Q*R1的矩阵，R1＝M*N，第i个矩阵中的第r行为与第i个目标汉字的Q个字母中的第r个字母对应的独热码中的M*N个数值按行拼接而成，第j个卷积结果为第i-1个矩阵与第j-1个卷积结果进行卷积操作得到的；将第P-1个卷积结果记录为目标卷积结果。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：对于P个目标汉字依次进行以下卷积操作，其中，3≤i≤P，1≤r≤Q，j＝i-2，第0个卷积结果为第1个矩阵：对第i个矩阵和第j个卷积结果进行卷积操作，得到第j+1个卷积结果，其中，第i个矩阵为P个目标汉字中第i个目标汉字对应的矩阵，第i个矩阵为Q*M*N的矩阵，第i个矩阵中的M*N的子矩阵为与第i个目标汉字的Q个字母中的第r个字母对应的独热码中的M*N个数值，j个卷积结果为第i-1个矩阵与第j-1个卷积结果进行卷积操作得到的；将第P-1个卷积结果记录为目标卷积结果。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种汉字处理方法，其特征在于，包括：

获取多个目标汉字的五笔字型编码，其中，每个所述五笔字型编码包括一个或多个字母；

将多个所述五笔字型编码转换成独热码，其中，每个所述目标汉字的所述独热码具有相同的张量维度，将多个所述五笔字型编码转换成所述独热码包括：将第一值设置在第一矩阵中的第一位置上，将第二值设置在所述第一矩阵中除所述第一位置之外的其他位置上，得到所述独热码，其中，所述第一位置与所述字母在五笔字型编码表中的第二位置相对应，设置了所述第一值和所述第二值的所述第一矩阵用于表示所述独热码，所述五笔字型编码表用于生成所述目标汉字的五笔字型编码；

将所述多个目标汉字的所述独热码输入卷积神经网络进行卷积运算，得到输出向量，其中，所述输出向量用于表示所述多个目标汉字的语义数值。

2.根据权利要求1所述的方法，其特征在于，将所述多个目标汉字的所述独热码输入卷积神经网络进行卷积运算，得到输出向量包括：

对所述多个目标汉字的所述独热码进行卷积运算，得到目标卷积结果，其中，所述目标卷积结果由第二矩阵表示；

对所述目标卷积结果进行采样，得到第三矩阵，其中，所述第三矩阵的列数少于所述第二矩阵的列数，所述第三矩阵的行数等于所述第二矩阵的行数；

对所述第三矩阵进行降维，得到一维的所述输出向量。

3.根据权利要求2所述的方法，其特征在于，所述多个目标汉字为P个目标汉字，每个所述目标汉字的五笔字型编码包括Q个字母，每个所述独热码被M*N的矩阵表示，其中，对所述多个目标汉字的所述独热码进行卷积运算，得到目标卷积结果包括：

对于所述P个目标汉字依次进行以下卷积操作，其中，3≤i≤P，1≤r≤Q，j＝i-2，第0个卷积结果为第1个矩阵：对第i个矩阵和第j个卷积结果进行卷积操作，得到第j+1个卷积结果，其中，所述第i个矩阵为所述P个目标汉字中第i个目标汉字对应的矩阵，所述第i个矩阵为Q*R1的矩阵，R1＝M*N，所述第i个矩阵中的第r行为与第i个目标汉字的所述Q个字母中的第r个字母对应的独热码中的M*N个数值按行拼接而成，所述第j个卷积结果为第i-1个矩阵与第j-1个卷积结果进行卷积操作得到的；

将第P-1个卷积结果记录为所述目标卷积结果。

4.根据权利要求2所述的方法，其特征在于，所述多个目标汉字为P个目标汉字，每个所述目标汉字的五笔字型编码包括Q个字母，每个所述独热码被M*N的矩阵表示，其中，对所述多个目标汉字的所述独热码进行卷积运算，得到目标卷积结果包括：

对于所述P个目标汉字依次进行以下卷积操作，其中，3≤i≤P，1≤r≤Q，j＝i-2，第0个卷积结果为第1个矩阵：对第i个矩阵和第j个卷积结果进行卷积操作，得到第j+1个卷积结果，其中，所述第i个矩阵为所述P个目标汉字中第i个目标汉字对应的矩阵，所述第i个矩阵为Q*M*N的矩阵，所述第i个矩阵中的M*N的子矩阵为与第i个目标汉字的所述Q个字母中的第r个字母对应的独热码中的M*N个数值，所述j个卷积结果为第i-1个矩阵与第j-1个卷积结果进行卷积操作得到的；

将第P-1个卷积结果记录为所述目标卷积结果。

5.根据权利要求1至4中任一项所述的方法，其特征在于，每个所述目标汉字对应的五笔字型编码包括4个字母，每个所述独热码被5*5的矩阵表示。

6.一种汉字处理装置，其特征在于，包括：

获取单元，用于获取多个目标汉字的五笔字型编码，其中，每个所述五笔字型编码包括一个或多个字母；

转换单元，用于将多个所述五笔字型编码转换成独热码，其中，每个所述目标汉字的所述独热码具有相同的张量维度，所述转换单元用于：将第一值设置在第一矩阵中的第一位置上，将第二值设置在所述第一矩阵中除所述第一位置之外的其他位置上，得到所述独热码，其中，所述第一位置与所述字母在五笔字型编码表中的第二位置相对应，设置了所述第一值和所述第二值的所述第一矩阵用于表示所述独热码，所述五笔字型编码表用于生成所述目标汉字的五笔字型编码；

运算单元，用于将所述多个目标汉字的所述独热码输入卷积神经网络进行卷积运算，得到输出向量，其中，所述输出向量用于表示所述多个目标汉字的语义数值。

7.根据权利要求6所述的装置，其特征在于，所述运算单元包括：

卷积模块，用于对所述多个目标汉字的所述独热码进行卷积运算，得到目标卷积结果，其中，所述目标卷积结果由第二矩阵表示；

采样模块，用于对所述目标卷积结果进行采样，得到第三矩阵，其中，所述第三矩阵的列数少于所述第二矩阵的列数，所述第三矩阵的行数等于所述第二矩阵的行数；

降维模块，用于对所述第三矩阵进行降维，得到一维的所述输出向量。

8.根据权利要求7所述的装置，其特征在于，所述多个目标汉字为P个目标汉字，每个所述目标汉字的五笔字型编码包括Q个字母，每个所述独热码被M*N的矩阵表示，其中，所述卷积模块用于：

将第P-1个卷积结果记录为所述目标卷积结果。

9.根据权利要求7所述的装置，其特征在于，所述多个目标汉字为P个目标汉字，每个所述目标汉字的五笔字型编码包括Q个字母，每个所述独热码被M*N的矩阵表示，其中，所述卷积模块用于：

将第P-1个卷积结果记录为所述目标卷积结果。

10.根据权利要求6至9中任一项所述的装置，其特征在于，每个所述目标汉字对应的五笔字型编码包括4个字母，每个所述独热码被5*5的矩阵表示。