CN112765937A

CN112765937A - 文本正则方法、装置、电子设备及存储介质

Info

Publication number: CN112765937A
Application number: CN202011644545.8A
Authority: CN
Inventors: 李俊杰; 蒋伟伟; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-07
Also published as: WO2022141855A1

Abstract

本申请涉及人工智能技术领域，具体涉及一种文本正则方法、装置、电子设备及存储介质。该方法包括：获取待正则文本；对所述待正则文本进行字符切分，得到多个字符；对所述多个字符中的每个字符进行编码，得到所述多个字符中每个字符的第一特征向量，其中，所述多个字符中每个字符的第一特征向量用于表示所述多个字符中每个字符的上下文信息；根据所述多个字符中每个字符的第一特征向量以及所述待正则文本的语言类型，对所述待正则文本进行正则处理，得到所述待正则文本的正则文本。本申请有利于提高文本正则的效率和精度。

Description

文本正则方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种文本正则方法、装置、电子设备及存储介质。

背景技术

传统的文本正则系统的建立需要较强的语言学背景，往往需要特定领域的专家针对语言学特点人工进行构造大量复杂，繁琐的文本正则规则。与此同时，不同语言之间的语言学知识差异明显，无法进行有效的迁移，如果对一种新的语言进行文本正则，则需要重新构建一套文本正则规则。

近年来，随着人工智能的快速发展，基于编码器和解码器模型的神经网络的文本正则系统开始出现在大众的视野中。但由于单纯的编码器和解码器的模型的软分类特性，单纯编码器和解码器模型无法得到令人满意的文本正则准确率。因此，目前主流的文本正则系统依然需要人工构造出一套特定、复杂、繁琐的文本正则规则，并且对于不同的语言则需要构造不同给的文本正则规则，需要投入大量的人力和物理，并且各种文本规则之间可能会存在代码冗余。

因此，现有文本正则的过程中需要人工构造文本正则系统，人力成本比较高，文本正则效率较慢。

发明内容

本申请实施例提供了一种文本正则方法、装置、电子设备及存储介质，通过待正则文本的语言类型以及每个字符的特征向量进行文本正则，提高文本正则效率，降低人工成本。

第一方面，本申请实施例提供一种文本正则方法，包括：

获取待正则文本；

对所述待正则文本进行字符切分，得到多个字符；

对所述多个字符中的每个字符进行编码，得到所述多个字符中每个字符的第一特征向量，其中，所述多个字符中每个字符的第一特征向量用于表示所述多个字符中每个字符的上下文信息；

根据所述多个字符中每个字符的第一特征向量以及所述待正则文本的语言类型，对所述待正则文本进行正则处理，得到所述待正则文本的正则文本。

第二方面，本申请实施例提供一种文本正则装置，包括：

获取单元，用于获取待正则文本；

处理单元，用于对所述待正则文本进行字符切分，得到多个字符；

第三方面，本申请实施例提供一种电子设备，包括：处理器，所述处理器与存储器相连，所述存储器用于存储计算机程序，所述处理器用于执行所述存储器中存储的计算机程序，以使得所述电子设备执行如第一方面所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得计算机执行如第一方面所述的方法。

第五方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机可操作来使计算机执行如第一方面所述的方法。

实施本申请实施例，具有如下有益效果：

可以看出，在本申请实施例中，首先对待正则文本进行字符切分，然后，对每个字符进行编码得到每个字符的第一特征向量；最后，根据每个字符的第一特征向量以及该待正则文本的语言类型，对待该正则文本进行正则处理，即实现了无需人工编写正则规则即可完成对正则文本的正则化，提高了文本正则的效率，节约了人力成本。另外，在进行文本正则的过程中，会结合待正则文本的语言类型，实现可以对各种语言的文本都可以进行正则处理，使本申请的文本正则方法具有较多的使用场景。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文本正则的流程示意图；

图2为本申请实施例提供的一种非标准字符的编解码处理的流程示意图；

图3为本申请实施例提供的一种编码器和解码器对非标准字符的编码和解码的示意图；

图4为本申请实施例提供的一种文本正则装置的功能单元组成框图；

图5为本申请实施例提供的一种文本正则装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

参阅图1，图1为本申请实施例提供的一种文本正则方法的流程示意图。该方法应用于文本正则装置。该方法包括以下步骤：

101：文本正则装置获取待正则文本。

示例性的，该待正则文本可以是用户在该文本正则装置的信息输入域中手动输入的，也可以是该文本正则装置从文本库中自动读取的，比如，该待正则文本可以是某篇待正则的文献，则文本正则装置可以从该文献中依次读取待正则文本。因此，本申请不对待正则文本的获取进行限定。

102：文本正则装置对待正则文本进行字符切分，得到多个字符。

示例性的，可以通过分词器对该待正则文本进行字符切分，得到多个字符，比如，可以通过word2vec分词器对待正则文本进行字符切分。其中，字符可以为英文单词、中文单词、法语单词或者特殊符号，比如，“$”、“/”，等等。

103：文本正则装置对多个字符中的每个字符进行编码，得到多个字符中每个字符的第一特征向量，其中，多个字符中每个字符的第一特征向量用于表示多个字符中每个字符的上下文信息。

示例性的，对该多个字符中的每个字符进行编码，得到该多个字符中的每个字符对应的字符向量。具体的，将每个字符进行切分处理，得到每个字符的字母串；对每个字符的字母串中的每个字母进行编码，得到每个字母对应的字母向量；最后，将每个字母的字母向量进行进行编码，得到每个字符的字符向量。比如，字符“Achieve”，将字符“Achieve”处理为“A”、“c”、“h”、“i”、“e”、“v”、“e”的字母串，并对该字母串中的每个字母的字母向量作为编码器的输入进行建模，得到字符“Achieve”的字符向量。然后，以字符A为中心构建与字符A对应的第一文本，其中，字符A为该多个字符中的任意一个字符，该第一文本包括该正则文本中位于该字符A之前的X个字符、该字符A以及该正则文本中位于该字符A之后的Y个字符，其中，X和Y均为大于或等于1的整数；然后，对该第一文本中的每个字符对应的字符向量进行拼接(即横向拼接)，得到该字符A对应的第一特征向量，其中，该字符A对应的第一特征向量用于表示字符A在该第一文本中的上下文本信息。

应理解，若该字符A之前没有X个字符，比如，字符A为该待正则文本中的第一个字符或者最后一个字符，则可以通过填充预设字符(比如，可以填充开始符S)的方式为字符A构造第一文本。

104：文本正则装置根据多个字符中每个字符的第一特征向量以及待正则文本的语言类型，对待正则文本进行正则处理，得到待正则文本的正则文本。

示例性的，根据该多个字符中每个字符的第一特征向量，确定该多个字符中每个字符的属性，其中，每个字符的属性包括标准字符或非标准字符；然后，将该待正则文本中的标准字符作为该标注字符的正则字符，即将标准字符本身作为该标准字符的正则字符，并根据该待正则文本的语言类型以及该待正则文本中的非标准字符对应的第一特征向量，对该标准字符进行编解码处理，得到该非标准字符的正则字符；最后，将待正则文本中标准字符的正则字符与非标准字符的正则字符进行组合，得到该待正则文本的正则文本。

示例性的，标准字符是指读音和书写是一样的字符，比如，对于字符“year”，其读音和书写是一样的，即都是“year”，则标准字符的正则字符就是自己本身。示例性的，本申请涉及的非标准字符包括但不限于下以下几种：

日期，货币，地址，字母，基数词，序数词，网址，计量单位，分数形式，小数形式，电话号码，时间，数位，标点以及外来词。

进一步的，以字符B为中心，构建该字符B对应的第二文本，该第二文本包括该待正则文本中位于该字符B之前的M个字符、该字符B以及该待正则文本中位于该字符B之后的N个字符，其中，该字符B为该待正则文本中的任意一个非标准字符，M和N均为大于或等于1的整数；然后，通过双字节编码(Byte-Pair Encoding，BPE)对该第二文本中每个字符进行编码，得到第二文本中每个字符的第二特征向量。

具体的，将第二文本中的每个字符拆分为字母串，根据第二文本中所有字符的字母串的出现频率，对该每个字符的字母串进行组合，得到每个字符的新的字母串；然后，将每个字符的新的字母串输入到编码器中进行编码，得到第二文本中每个字符的第二特征向量。通过双字节编码可以解决第二文本中存在未登录词的问题。然后，将该第二文本中每个字符的第二特征向量输入到Transformer-XL网络进行特征提取，得到字符B对应的第三特征向量，其中，字符B的第三特征向量用于表示字符B在第二文本中的上下文信息；最后，根据该字符B的第一特征向量、字符B的第三特征向量以及该待正则文本的语言类型，对该字符B进行编解码处理，得到字符B对应的正则字符。后面详细介绍对字符B进行编解码处理的过程，在此不做过多描述。

参阅图2，图2为本申请实施例提供的一种编解码方法的流程示意图。该方法应用于文本正则装置。该方法包括以下步骤：

201：对字符B进行词嵌入处理，得到字符B的第四特征向量。

示例性的，对字符B进行词嵌入处理，其实上就是对字符B进行映射处理，得到字符B的第四特征向量，比如，可以将字符B的ASCII码作为字符B的第四特征向量。

202：对字符B的属性进行编码，得到字符B的词类向量。

示例性的，对字符B的属性进行编码，就是将字符B所属的词类进行映射，得到字符B的词类向量，比如，字符B为“货币”，则将“货币”的GB232码作为该字符B的词类向量。

应理解，虽然字符B的属性已经通过每个字符的第一特征向量进行分类得到了，但是，对字符B进行属性分类的过程中只是分类出字符是标准字符，还是非标准字符，并未在非标准字符上进行细分类，因此，每个字符的第一特征向量只能用来区分每个字符是标准字符，还是非标准字符，并不能在非标准字符上进行更进一步的区分。这里是将字符B进行更细的分类之后，映射出每个非标准字符的词类向量，以得到每个非标准字符更细致的类别。

203：对待正则文本的语言类型进行编码，得到待正则文本的语言向量，并将语言向量分别作为编码器的编码参数以及解码器的解码参数。

同样，对待正则文本的语言类型进行映射，得到待正则文本的语言向量。比如，可以用语言类型的中文表示(比如，语言类型分别为“英语”、“中文”、“法语”，等等)的GB2312码作为语言类型的语言向量。

204：将字符B的第四特征向量输入到编码器进行编码，对字符B进行编码，得到字符B的第五特征向量。

示例性的，编码器可以为基于长短期记忆网络、双向长短期记忆网络或者循环网络搭建的神经网络。本申请不对编码器的类型进行限定。

示例性的，根据编码器上次编码输出的隐层向量、字符B的第四特征向量以及编码器的编码参数(即语言向量)，对字符B进行编码，得到字符B对应的第五特征向量，以及与字符B对应的隐层向量。

应理解，在字符B为第一个需要编码的非标准字符的情况下，编码器上次编码输出的隐层向量为预设的隐层向量，比如，零向量。此外，若本次编码就只编码字符B，则编码器最后输出的隐层向量，即为对字符B进行编码过程生成的隐层向量，若还需要对其他非标准字符进行编码，则将与字符B对应的隐层向量作为下个需要编码的非标准字符的隐层向量。

应理解的是，若字符B为待正则文本中多个连续且属性相同(即词类完全相同，比如，都为非标准词中的日期)的非标准字符中的一个，为了加快对这多个非标准字符的编码效率和编码精度，可以对这多个非标准字符一起编码，而不用单独对某个非标准字符进行编码。

示例性的，如图3所示，待正则文本中存在多个连续且属性相同的非标准字符为[X₁,X₂,…，X_n]；对多个非标准字符[X₁,X₂,…，X_n]中的每个非标准字符进行词嵌入，分别得到每个非标准字符的第四特征向量；然后，基于预设的隐层向量e₀以及编码器的编码参数，对该多个非标准字符中的第一个非标准字符X₁进行第一次编码，得到该第一个非标准字符X₁的第五特征向量Y1，以及与第一次编码对应的隐层向量e₁；进一步地，基于第一次编码输出的隐层向量e₁以及编码器的编码参数，对该多个非标准字符中的第二个非标准字符X₂进行第二次编码，得到第二个非标准字符X₂对应的第五特征向量，以及与第二次编码对应的隐层向量e₂；重复执行上述步骤，得到该多个非标准字符中最后一个非标准字符X_n的第五特征向量，以及最后一次编码输出的隐层向量e_n。其中，最后一次编码输出的隐层向量包含这多个非标准字符的上下文语义信息。这样就连续把这多个非标准字符[X₁,X₂,…，X_n]编码成功，输出这多个非标准字符对应的第五特征向量[Y₁,Y₂,…，Y_n]。

举例来说，若待正则文本为“Achieve record net income of about $1 billionduring the year”，则识别出非标准字符为“$”、“1”、“billion”，并且这三个非标准字符属性相同且连续。因此，可以连续对这三个非标准字符进行编码，一起输出这三个非标准字符的第五特征向量以及编码器最后一次编码得到的隐层向量。具体的，先对字符分别对字符“$”“1”“billion”进行词嵌入处理，得到每个非标准字符的第四特征向量；然后，将这三个字符的第四特征向量作为编码器的输入，编码器首先基于初始的隐层向量(即零向量)以及字符“$”的第四特征向量对字符“$”进行第一次编码，得到字符“$”的第五特征向量和第一次编码的隐层向量；然后，编码器基于第一次编码得到的隐层向量以及字符“1”的第四特征向量，对字符“1”进行第二次编码，得到字符“1”的第五特征向量，以及第二次编码的隐层向量；然后，编码器基于第二次编码的新的隐层向量以及字符“billion”的第四特征向量，对字符“billion”进行第三次编码，得到字符“billion”的第五特征向量，以及最后一次的隐层向量；最后一次的隐层向量包含有这三个非标准字符的全文语义信息。

205：将字符B的词类向量以及字符B的第五特征向量输入到解码器，对字符B进行解码，得到字符B的正则文本。

示例性的，解码器可以为基于长短期记忆网络、双向长短期记忆网络或者循环网络搭建的神经网络。本申请不对解码器的类型进行限定。

示例性的，将解码器上次解码输出的隐层向量与字符B对应的第五特征向量进行注意力机制运算，得到字符B对应的第六特征向量。其中，该注意力机制可以为通用的注意力机制运算，比如，可以将字符B对应的第五特征向量作为键值对，即关键值向量-价值向量(Key-value)；然后，将解码器上次解码输出的隐层向量作为查询向量(query)，以执行注意力机制运算，得到字符B对应的第六特征向量。后续涉及的注意力机制运算，与此类似，不再叙述。

应理解，若字符B为第一个需要解码的字符，则解码器上次解码输出的隐层向量为编码器最后一次编码输出的隐层向量；若字符B不是第一个需要解码的字符，则解码器上次解码输出的隐层向量即为解码器对上一个字符进行解码时所生成的隐层向量。由于解码器上次解码输出的隐层向量(比如，编码器最后一次编码输出的隐层向量)，包含有字符B的上下文语义信息，通过注意力机制运算，可以将本次解码的重点信息保留下来，提高解码精度。

进一步的，将字符B的词类向量、字符B的第三特征向量、字符B的第六特征向量以及解码器上次解码的解码结果进行拼接，得到字符B的目标特征向量；根据编码器的解码参数(语言向量)以及字符B的目标特征向量，对字符B进行解码，得到字符B对应的正则字符。即使用解码器的解码参数对目标特征向量进行运算，得到落入标准字典中各个字符的概率，将概率最大所对应的标准字符作为该字符B的正则字符。

其中，解码器上次解码的解码结果即解码器上次对字符进行解码过程中生成的解码结果(即上个字符的正则字符的特征向量)。应理解，若字符B为第一个需要解码的字符，则上次解码的解码结果即是预设字符的特征向量，比如，预设字符为开始符S，将开始符S的特征向量进行拼接，以指示本次解码的开始。

同样，若字符B为该待正则文本中多个连续且属性相同(即词类完全相同，比如，都为非标准词中的日期)的非标准字符中的一个，为了加快对非标准字符的解码效率和解码精度，则会对根据这多个非标准字符的第五特征向量，对这个多个非标准字符依次进行解码，而不会孤立的对某个非标准字符进行解码。

示例性的，如图3所示，使用编码器最后一次编码输出的隐层向量e0，对该多个非标准字符[X₁,X₂,…，X_n]的第五特征向量[Y₁,Y₂,…，Y_n]进行注意力机制运算，得到一个第六特征向量。应理解，由于编码器最后一次编码输出的隐层向量会包含该多个非标准字符[X₁,X₂,…，X_n]的全文语义信息，通过注意机制运算会将解码注意力放到第一个需要解码的字符上面，从而提高解码精度。然后，将该第六特征向量、该多个非标准字符的词类向量L、该多个非标准字符的第三特征向量H，以及预设符号的特征向量(图3中未示出)进行拼接，得到第一个需要解码的非标准字符的目标特征向量，其中，由于该多个非标准字符的属性相同，则该多个非标准字符的词类向量可以为该多个非标准字符中任意一个非标准字符的词类向量，该多个非标准字符的第三特征向量为该多个非标准字符中每个非标准字符的第三特征向量的平均值。最后，基于该第一个需要解码的非标准字符的目标特征向量，对该第一个需要解码的非标准字符进行解码，得到第一次解码的解码结果Z₁(即第一个需要解码的非标准字符的正则字符)，以及第一次解码的隐层向量d₁；然后，使用该第一次解码的隐层向量d₁、第一次解码的解码结果Z₁、多个非标准字符的词类向量L以及第三特征向量H、以及多个非标准字符的第五特征向量[Y₁,Y₂,…，Y_n]，进行第二次解码，得到第二次解码的解码结果(即第二个需要解码的非标准字符的正则字符)Z₂，以及第二次解码的隐层向量；重复执行上述步骤，直至解码出这多个非标准字符[X₁,X₂,…，X_n]中每个非标准字符的正则字符[Z₁,Z₂,…，Z_n]，停止解码。

举例来说，以非标准字符为“$1billion”为例说明解码的过程。第一次解码的过程中，使用编码器最后一次编码输出的隐层向量和上述三个非标准字符的第五特征向量进行注意力机制运算，得到一个第六特征向量(因为，第一次要正则字符“1”，则这个第六特征向量重点关注在字符“1”)；然后，将该第六特征向量、词类向量(三个非标准字符的词类向量是相同的)、第三特征向量(这个第三特征向量是对每个非标准字符的第三特征向量求平均得到的)以及开始符号S的特征向量进行拼接，得到一个目标特征向量；根据该目标特征向量进行第一次解码，得到字符“1”的向量(将这个向量映射后，可得到字符“1”的正则字符为“one”)以及与字符“1”对应的隐层向量；然后，进行第二次解码，使用第一次解码输出的隐层向量与上述三个字符的第五特征向量进行注意力机制运算，得到一个第六特征向量，将这个第六特征向量、词类向量、第三t特征向量以及第一次解码输出的字符“1”的向量进行拼接，得到一个目标特征向量向量，将这个目标特征向量输入到解码器中进行解码，得到字符“billion”的向量(将这个向量映射后，得到“billion”的正则字符为“billion”)以及第二次解码的隐层向量；然后，进行第三次解码，使用第二次解码的隐层向量与上述三个字符的第五特征向量进行注意力机制运算，得到一个第六特征向量，将这个第六特征向量、词类向量、第三特征向量向量以及第二次解码输出的字符“billion”(“billion”的正则字符对应的字符)进行拼接，得到一个目标特征向量，将这个目标特征向量输入到解码器中进行解码，得到字符“$”的向量(映射后，可得到“$”的正则向量为“dollars”)以及一个解码器的隐层向量；最后，再使用第三次解码输出的隐层向量与上述三个字符的第五特征向量进行注意力机制运算，得到一个第六特征向，将这个第六特征向量、词类向量、第三特征向量向量以及第二次解码输出的字符“$”的向量进行拼接，得到一个目标特征向量，将这个目标特征向量输入到解码器中进行解码，解码出结束符号“end”，用于指示解码停止。

因此，通过上述的编码和解码的过程，可以一次性的将这三个连续的标准字符“$1billion”正则化为one billion dollars，进而将上述待正则文本正则为“Achieverecord net income of about one billion dollars during the year”。

可以看出，在申请实施例中，在对非标准字符进行编解码的过程中，采用了注意力机制，提高每次编解码的精度。另外，对于连续且属性相同的多个非标准字符可以同步进行编解码，并且在编解码过程中信息相互借鉴，提高了编解码的效率和精度。

参阅图4，图4本申请实施例提供的一种文本正则装置的功能单元组成框图。文本正则装置400包括：获取单元401和处理单元402，其中：

获取单元401，用于获取待正则文本；

处理单元402，用于对所述待正则文本进行字符切分，得到多个字符；

在一些可能的实施方式中，在对所述多个字符中的每个字符进行编码，得到所述多个字符中每个字符的第一特征向量方面，处理单元402，具体用于：

对所述多个字符中的每个字符进行编码，得到所述多个字符中的每个字符对应的字符向量；

以字符A为中心，构建与所述字符A对应的第一文本，所述第一文本包括所述待正则文本中位于所述字符A之前的X个字符、所述字符A以及所述待正则文本中位于所述字符A之后的Y个字符，所述字符A为所述多个字符中的任意一个字符，其中，X和Y均为大于或等于1的整数；

将所述第一文本中的每个字符对应的字符向量进行拼接，得到所述字符A的第一特征向量，所述字符A的第一特征向量用于表示所述字符A在所述第一文本中的上下文信息。

在一些可能的实施方式中，在根据所述多个字符中每个字符的第一特征向量以及所述待正则文本的语言类型，对所述待正则文本进行正则处理，得到所述待正则文本的正则文本方面，处理单元402，具体用于：

根据所述多个字符中每个字符的第一特征向量，确定所述多个字符中每个字符的属性，所述多个字符中每个字符的属性包括标准字符或非标准字符；

将所述待正则文本中的标准字符作为该标注字符的正则字符；

根据所述语言类型以及所述待正则文本中的非标准字符对应的第一特征向量，对所述非标准字符进行编解码处理，得到所述非标准字符的正则字符；

将所述待正则文本中标准字符的正则字符与非标准字符的正则字符进行组合，得到所述待正则文本的正则文本。

在一些可能的实施方式中，在根据所述语言类型以及所述待正则文本中的非标准字符对应的第一特征向量，对所述非标准字符进行编解码处理，得到所述非标准字符的正则字符方面，处理单元402，具体用于：

以字符B为中心，构建所述字符B对应的第二文本，所述第二文本包括所述待正则文本中位于所述字符B之前的M个字符、所述字符B以及所述待正则文本中位于所述字符B之后的N个字符，所述字符B为所述待正则文本中的任意一个非标准字符，其中，M和N均为大于或等于1的整数；

通过双字节编码对所述第二文本中每个字符进行编码，得到所述第二文本中每个字符的第二特征向量；

将所述第二文本中每个字符的第二特征向量输入到Transformer-XL网络，得到所述字符B对应的第三特征向量，所述字符B的第三特征向量用于表示所述字符B在所述第二文本中的上下文信息；

根据所述字符B的属性、所述字符B的第三特征向量以及所述语言类型，对所述字符B进行编解码处理，得到所述字符B对应的正则字符。

在一些可能的实施方式中，在根据所述字符B的属性、所述字符B的第三特征向量以及所述语言类型，对所述字符B进行编解码处理，得到所述字符B对应的正则字符方面，处理单元402，具体用于：

对所述字符B进行词嵌入处理，得到所述字符B的第四特征向量；

对所述字符B的属性进行编码，得到与所述字符B对应的词类向量；

对所述语言类型进行编码，得到语言向量，并将所述语言向量分别作为编码器的编码参数以及解码器的解码参数；

将所述字符B的第四特征向量输入到所述编码器，对所述字符B进行编码，得到所述字符B的第五特征向量；

将所述字符B的词类向量以及所述字符B的第五特征向量输入到所述解码器，对所述字符B进行解码，得到所述字符B对应的正则文本。

在一些可能的实施方式中，在将所述字符B的第四特征向量输入到所述编码器进行编码，得到所述字符B的第五特征向量方面，处理单元402，具体用于：

根据所述编码器上次编码输出的隐层向量、所述字符B的第四特征向量以及所述编码器的编码参数，对所述字符B进行编码，得到所述字符B的第五特征向量。

在一些可能的实施方式中，在将所述字符B的词类向量以及所述字符B的第五特征向量输入到所述解码器，对所述字符B进行解码，得到所述字符B对应的正则文本方面，处理单元402，具体用于：

将所述解码器上次解码输出的隐层向量与所述字符B对应的第五特征向量进行注意力机制运算，得到所述字符B对应的第六特征向量；

将所述字符B的词类向量、所述字符B的第三特征向量、所述字符B的第六特征向量以及所述解码器上次解码的解码结果进行拼接，得到所述字符B的目标特征向量；

根据所述编码器的编码参数以及所述字符B的目标特征向量，对所述字符B进行解码，得到所述字符B对应的正则字符。

参阅图5，图5为本申请实施例提供的一种电子设备的结构示意图。如图5所示，电子设备500包括收发器501、处理器502和存储器503。它们之间通过总线504连接。存储器503用于存储计算机程序和数据，并可以将存储器503存储的数据传输给处理器502。

处理器502用于读取存储器503中的计算机程序执行以下操作：

控制收发器501获取待正则文本；

对所述待正则文本进行字符切分，得到多个字符；

在一些可能的实施方式中，在对所述多个字符中的每个字符进行编码，得到所述多个字符中每个字符的第一特征向量方面，处理器502具体用于执行以下操作：

在一些可能的实施方式中，在根据所述多个字符中每个字符的第一特征向量以及所述待正则文本的语言类型，对所述待正则文本进行正则处理，得到所述待正则文本的正则文本方面，处理器502具体用于执行以下操作：

在一些可能的实施方式中，在根据所述语言类型以及所述待正则文本中的非标准字符对应的第一特征向量，对所述非标准字符进行编解码处理，得到所述非标准字符的正则字符方面，处理器502具体用于执行以下操作：

在一些可能的实施方式中，在根据所述字符B的属性、所述字符B的第三特征向量以及所述语言类型，对所述字符B进行编解码处理，得到所述字符B对应的正则字符方面，处理器502具体用于执行以下操作：

在一些可能的实施方式中，在将所述字符B的第四特征向量输入到所述编码器进行编码，得到所述字符B的第五特征向量方面，处理器502具体用于执行以下操作：

在一些可能的实施方式中，在将所述字符B的词类向量以及所述字符B的第五特征向量输入到所述解码器，对所述字符B进行解码，得到所述字符B对应的正则文本方面，处理器502具体用于执行以下操作：

具体地，收发器501可为图4所述的实施例的文本正则装置400的获取单元401，处理器502可以为图4所述的实施例的文本正则装置400的处理单元402。

应理解，本申请中的文本正则装置可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(MobileInternet Devices，简称：MID)或穿戴式设备等。上述文本正则装置仅是举例，而非穷举，包含但不限于上述文本正则装置。在实际应用中，上述文本正则装置还可以包括：智能车载终端、计算机设备等等。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种文本正则方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种文本正则方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种文本正则方法，其特征在于，包括：

获取待正则文本；

对所述待正则文本进行字符切分，得到多个字符；

2.根据权利要求1所述的方法，其特征在于，所述对所述多个字符中的每个字符进行编码，得到所述多个字符中每个字符的第一特征向量，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述多个字符中每个字符的第一特征向量以及所述待正则文本的语言类型，对所述待正则文本进行正则处理，得到所述待正则文本的正则文本，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述语言类型以及所述待正则文本中的非标准字符对应的第一特征向量，对所述非标准字符进行编解码处理，得到所述非标准字符的正则字符，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述字符B的属性、所述字符B的第三特征向量以及所述语言类型，对所述字符B进行编解码处理，得到所述字符B对应的正则字符，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述字符B的第四特征向量输入到所述编码器进行编码，得到所述字符B的第五特征向量，包括

7.根据权利要求5或6所述的方法，其特征在于，所述将所述字符B的词类向量以及所述字符B的第五特征向量输入到所述解码器，对所述字符B进行解码，得到所述字符B对应的正则文本，包括：

8.一种文本正则装置，其特征在于，包括：

获取单元，用于获取待正则文本；

9.一种电子设备，其特征在于，包括：处理器和存储器，所述处理器与所述存储器相连，所述存储器用于存储计算机程序，所述处理器用于执行所述存储器中存储的计算机程序，以使得所述电子设备执行如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-7任一项所述的方法。