CN109446508B

CN109446508B - 一种文本规整方法、装置、设备及可读存储介质

Info

Publication number: CN109446508B
Application number: CN201811220743.4A
Authority: CN
Inventors: 戚婷; 高建清; 孔常青; 王智国
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2023-06-02
Anticipated expiration: 2038-10-19
Also published as: CN109446508A

Abstract

本申请提供了一种文本规整方法、装置、设备及可读存储介质，方法包括：获取待规整文本；将待规整文本的文本内容处理成多个文本单元，获得预处理文本，预处理文本中的一个文本单元为一个词或字；基于预处理文本中每个文本单元对应的规整类别信息，对待规整文本中的待规整文本单元进行规整，获得规整后的文本。本申请提供的文本规整方法可将与数字相关的汉字规整为阿拉伯数字或特殊符号，从而得到便于用户阅读和理解的文本数据，本申请提供的文本规整方法易于实现，且规整效果较好。

Description

一种文本规整方法、装置、设备及可读存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种文本规整方法、装置、设备及可读存储介质。

背景技术

语音识别技术，指的是将音频识别为文本，在很多情况下，识别出的文本中会包含数字，这些数字通常都会以汉字来表示，比如一、二、三、四、五等，用汉字表示数字显得冗长繁琐，非常影响阅读，且不易快速掌握文本关键信息，比如，识别出的文本中包括“您的手机号为幺三九五六幺四三二六零，截止二零一八年六月二十日十八点三十二分，未出账话费为两百零四点一四元”，为了便于用户阅读，使用户能够快读掌握文本的关键信息，亟需一种能够合理地将文本中的数字相关汉字转换为阿拉伯数字或特殊符号的文本规整方案，以得到便于阅读和理解的文本数据。

发明内容

有鉴于此，本申请提供了一种文本规整方法、装置、设备及可读存储介质，用以将文本中数字相关的汉字转换为阿拉伯数字或特殊符号，从而得到便于用于阅读和理解的文本数据，其技术方案如下：

一种文本规整方法，包括：

获取待规整文本；

将所述待规整文本的文本内容处理成多个文本单元，获得预处理文本，其中，所述预处理文本中的一个文本单元为一个词或字；

基于所述预处理文本中每个文本单元对应的规整类别信息，对所述待规整文本中的待规整文本单元进行规整，获得规整后的文本。

优选地，所述将所述待规整文本的文本内容处理成多个文本单元，包括：

对所述待规整文本的文本内容进行分词，获得多个词；

将所述多个词中包含数字的词拆分为单字。

优选地，所述基于所述预处理文本中每个文本单元对应的规整类别信息，对所述待规整文本中的待规整文本单元进行规整，获得规整后的文本，包括：

获取所述预处理文本中每个文本单元对应的规整特征；

基于所述预处理文本中每个文本单元对应的规整特征，通过预先建立的两级规整模型中的第一级规整模型，确定所述每个文本单元对应的规整类别信息；

基于所述每个文本单元对应的规整类别信息，通过所述两级规整模型中的第二级规整模型，对所述待规整文本中的待规整文本单元进行规整，获得所述规整后的文本。

其中，所述两级规整模型中的第一级规整模型基于标注有规整类别标签的训练文本训练得到；

所述规整类别标签基于标注所采用的标签体系和预先定义的规整类别确定。

优选地，所述基于所述预处理文本中每个文本单元对应的规整特征，通过预先建立的两级规整模型中的第一级规整模型，确定所述每个文本单元对应的规整类别信息，包括：

将所述预处理文本中每个文本单元对应的规整特征与对应的词向量进行拼接，将拼接后得到的向量输入所述两级规整模型中的第一级规整模型，获得所述第一级规整模型输出的、所述预处理文本中每个文本单元对应的规整类别信息。

优选地，所述基于所述每个文本单元对应的规整类别信息，通过所述两级规整模型中的第二级规整模型，对所述待规整文本中的待规整文本单元进行规整，获得所述规整后的文本，包括：

将所述预处理文本中每个文本单元对应的规整类别信息与对应的规整特征和对应的词向量进行拼接，将拼接后得到的向量输入所述两级规整模型中的第二级规整模型，获得所述第二级规整模型输出的、所述规整后的文本。

优选地，获取所述预处理文本中每个文本单元对应的规整特征，包括：

针对所述预处理文本中的每个文本单元，提取第一特征、第二特征、第三特征和第四特征中任意一种特征或多种特征作为该文本单元对应的规整特征，以得到所述预处理文本中的每个文本单元对应的规整特征；

其中，一个文本单元对应的第一特征用于表征该文本单元是否可能需要规整，一个文本单元对应的第二特征用于表征该文本单元是否可能含数字但无需规整，一个文本单元对应的第三特征用于表征该文本单元所属的规整类别，一个文本单元对应的第四特征用于表征该文本单元所代表的数字是否能被万整除。

优选地，所述预先定义的规整类别包括以下类别中的一种或多种：自然数、数字及符号映射、时间格式、含数字无需规整。

一种文本规整装置，包括：获取模块、预处理模块和文本规整模块；

所述获取模块，用于获取待规整文本；

所述预处理模块，用于将所述待规整文本的文本内容处理成多个文本单元，获得预处理文本，其中，所述预处理文本中的一个文本单元为一个词或字；

所述文本规整模块，用于基于所述预处理文本中每个文本单元对应的规整类别信息，对所述待规整文本中的待规整文本单元进行规整，获得规整后的文本。

优选地，所述预处理模块，具体用于对所述待规整文本的文本内容进行分词，获得多个词；将所述多个词中包含数字的词拆分为单字。

优选地，所述文本规整模块包括：特征获取子模块、第一规整子模块和第二规整子模块；

所述特征获取子模块，用于获取所述预处理文本中每个文本单元对应的规整特征；

所述第一规整子模块，用于基于所述预处理文本中每个文本单元对应的规整特征，通过预先建立的两级规整模型中的第一级规整模型，确定所述每个文本单元对应的规整类别信息；

所述第二规整子模块，用于基于所述每个文本单元对应的规整类别信息，通过所述两级规整模型中的第二级规整模型，对所述待规整文本中的待规整文本单元进行规整，获得所述规整后的文本。

其中，所述特征获取子模块，具体用于针对所述预处理文本中的每个文本单元，提取第一特征、第二特征、第三特征和第四特征中任意一种特征或多种特征作为该词或字对应的规整特征，以得到所述预处理文本中的每个文本单元对应的规整特征；

一种文本规整设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，所述程序具体用于：

获取待规整文本；

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述文本规整方法的各个步骤。

经由上述的技术方案可知，本申请提供的文本规整方法、装置、设备及可读存储介质，在将待规整文本的文本内容拆分为多个文本单元后，基于预处理文本中每个文本单元对应的规整类别信息，对待规整文本中的待规整字符进行规整，从而获得规整后的文本。本申请提供的文本规整方法可对待规整文本中的待规整文本单元进行规整，比如可将与数字相关的汉字规整为阿拉伯数字或特殊符号，从而得到便于用户阅读和理解的文本数据，规整方案易于实现，且规整效果较好。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的文本规整方法的流程示意图；

图2为本申请实施例提供的文本规整方法中，基于预处理文本中每个文本单元对应的规整类别信息，对待规整文本中的待规整数字进行规整，获得规整后的文本的流程示意图；

图3为本申请实施例提供的文本规整装置的结构示意图；

图4为本申请实施例提供的文本规整设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本案发明人为了能够合理地将文本中数字相关的汉字转换为阿拉伯数字或特殊符号，进行了深入研究：

初始阶段的思路是，使用线下定义文法规则来匹配不同场景下需要规整的文本，比如，数值、电话号码、日期、时间、数学、赛事比分、车牌号、文件编号、地址，成语、古文引用等等，再定义配套的处理函数，对不同规则匹配到的汉字文本进行阿拉伯数字或特殊符号转写输出，具体过程包括：

首先，基于文法规范正确编写文法文档，开发所需的搜索句文法，其中，文法规范可以为万维网联盟的语音识别语法规范1.0标准；然后，将编写的文法文档经编译工具处理生成匹配网络；接着，将匹配网络作为匹配引擎输入，对待规整文本进行匹配；最后，定义同句文法匹配的文本处理函数，基于该文本处理函数获得规整后文本。

然而，发明人基于上述思路将数字相关汉字转换为阿拉伯数字或特殊符号时发现，基于线下定义文法规则和配套的文本处理函数进行文本规整的方案在实际应用中存在各种难以解决或者不可避免的问题，具体体现在：

其一，搭建可用系统难度高。文法规则的定义需要丰富的文法相关背景知识和自然语言处理经验和技巧，对于一般非专业领域的研究人员来说，很难在较短时间熟练运用文法规则。

其二，受限于特定场景和领域，系统维护更新难度高。上述的规整方案以搜索句文法为基础，依赖于有限的已知先验句文法规律，而当新增规则时，又需要进行反复的测试来确定与原有规则不产生冲突。

其三，文法规则易导致规整结果产生歧义和错误。文法规则匹配的方案基本没用到上下文和句意信息，比如，“他病了，一躺就是八九年”，上述的规整方案会将其规整为“他病了，一躺就是89年”，显然，该规整结果容易产生歧义，再比如，“差一点三十”，上述的规整方案会将其规整为“差1:30”，显然，该规整结果是错误的。

鉴于上述问题，发明人继续进行深入研究，最终提出了一种解决方案，完美解决了上述研发过程中各个问题。接下来通过下述实施例对本申请提供的文本规整方法进行介绍。

请参阅图1，示出了本申请实施例提供的文本规整方法的流程示意图，可以包括：

步骤S101：获取待规整文本。

其中，待规整文本为包含与数字相关的待规整文本内容(如与数字相关的待规整汉字)的文本。

步骤S102：将待规整文本的文本内容处理成多个文本单元，获得预处理文本。

本实施例对待规整文本进行预处理，获得预处理文本，预处理文本包括多个文本单元，每个文本单元为待规整文本中的一个词或字。

具体的，对待规整文本进行预处理的过程可以包括：对待规整文本的文本内容进行分词，获得多个词；将获得的多个词中包含数字的词拆分为单字。需要说明的是，可采用现有技术中的分词方式对待规整文本的文本内容进行分词，本实施例在此不作赘述。

示例性地，待规整文本中包括“识别二维码就能看到”，对其进行分词，分词的结果为：“识别/二维码/就/能/看到”，其中，分词结果中的“二维码”为包含数字的词，则进一步将词“二维码”拆分为“二/维/码”，即，对“识别二维码就能看到”进行预处理后得到“识别/二/维/码/就/能/看到”。

步骤S103：基于预处理文本中每个文本单元对应的规整类别信息，对待规整文本中的待规整数字进行规整，获得规整后的文本。

具体地，可获取预处理文本中每个文本单元对应的规整特征，然后，基于预处理文本中每个文本单元对应的规整特征确定预处理文本中每个文本单元对应的规整类别信息，进而，基于预处理文本中每个文本单元对应的规整类别信息，对待规整文本中的待规整数字进行规整。

其中，一个文本单元对应的规整特征能够表征该文本单元的规整策略，一个文本单元对应规整类别信息指的是该文本单元所属的规整类别的信息，比如，一个文本单元对应的规整类别信息可以为该文本单元属于其对应的规整类别的后验概率。

具体的，对于预处理文本中的每个文本单元，获取该文本单元对应的规整特征和该文本单元对应的词向量，基于该文本单元对应的规整特征和该文本单元对应的词向量确定该文本单元对应的规整类别信息，通过该过程可获得预处理文本中每个文本单元对应的规整类别信息。

在本实施例中，对于预处理文本中的每个文本单元，可将该文本单元对应的规整类别信息作为规整类别辅助特征，通过规整类别辅助特征，同时结合该文本单元对应的规整特征和该文本单元对应的词向量，对待规整文本中的待规整数字进行规整，获得规整后的文本。

本申请实施例提供的文本规整方法，在将待规整文本的文本内容拆分为多个文本单元后，通过预处理文本中每个文本单元对应的规整类别信息，对待规整文本中的待规整文本单元进行规整，从而获得规整后的文本。本申请实施例提供的文本规整方法对待规整文本中的待规整文本单元进行规整，比如可将与数字相关的汉字规整为阿拉伯数字或特殊符号，从而得到便于用户阅读和理解的文本数据，规整方案易于实现，且规整效果较好。

发明人在实现本发明创造的过程中发现：文本规整可转换为一个模型可解决的问题，即将文本规整过程视作一个源文本输入到目标文本输出的过程，而这个源文本到目标文本的转换过程可类比为一个翻译框架，模型将含数字相关汉字的待规整文本“翻译”为规整后的文本。基于此，本实施例提供了基于预处理文本中每个文本单元对应的规整特征，确定预处理文本中每个文本单元对应的规整类别信息，并基于预处理文本中每个文本单元对应的规整类别信息，对待规整文本中的待规整数字进行规整，获得规整后的文本的具体实现方案，请参阅图2，示出了该实现方案的流程示意，可以包括：

步骤S201：获取预处理文本中每个文本单元对应的规整特征。

获取预处理文本中每个文本单元对应的规整特征的过程可参见后续实施例的说明。

步骤S202：基于预处理文本中每个文本单元对应的规整特征，通过预先建立的两级规整模型中的第一级规整模型，确定每个文本单元对应的规整类别信息。

需要说明的是，不同类型的数字串，规整的目标是不同的，在规整模型“翻译”的过程中，预先获知待规整数字串所属类别是很有必要的，比如，规整结果为“八九年”或是为“89年”，取决于“八九年”需不需要规整，规整结果为“1:03”或是为“1.03”，取决于“一点零三”属于时间还是数值，即待规整数字串所属类别决定了是否对待规整数字串进行规整，以及将待规整数字串规整为何种形式。基于此，为了后续能够较准确的进行规整，本实施例首先通过第一级规整模型确定每个文本单元对应的规整类别信息。

在一种可能的实现方式中，可获取预处理文本中每个文本单元对应的规整特征，将预处理文本中每个文本单元对应的规整特征输入两级规整模型中的第一级规整模型，获得第一级规整模型输出的、预处理文本中每个文本单元对应的规整类别信息。

在另一种可能的实现方式中，可获取预处理文本中每个文本单元对应的规整特征，并获取预处理文本中每个文本单元对应的词向量，然后将预处理文本中的每个文本单元对应的规整特征和对应的词向量进行拼接，将拼接后得到的向量输入两级规整模型中的第一级规整模型，获得第一级规整模型输出的、预处理文本中每个文本单元对应的规整类别信息。

在本实施例中，第一级规整模型可以为能够利用上下文和句意信息来获取预处理文本中每个文本单元对应的规整类别信息的序列标注分类模型，该模型可包括输入层、隐层和输出层，输入层的输入为文本单元对应的规整特征，或者为文本单元对应的规整特征与对应的词向量拼接后的向量，隐层可采用self-attention，输出层的输出为文本单元对应的规整类别信息。

步骤S203：基于每个文本单元对应的规整类别信息，通过两级规整模型中的第二级规整模型，对待规整文本中的待规整文本单元进行规整，获得规整后的文本。

在一种可能的实现方式中，可将预处理文本中每个文本单元对应的规整类别信息输入两级规整模型中的第二级规整模型，从而获得第二级规整模型输出的、规整后的文本。

为了提升文本规整效果，在另一种较优选的实现方式中，可将预处理文本中每个文本单元对应的规整类别信息、对应的规整特征和对应的词向量拼接，将拼接后的向量输入两级规整模型中的第二级规整模型，从而获得第二级规整模型输出的、规整后的文本。

在一种可能的实现方式中，第二级数字规整模型可以为编码-解码(Encoder-Decoder)模型(其可以为基于Encoder-Decoder框架的Pointer-Generator网络结构)，该模型可利用上下文和句意信息，并结合规整类别信息、规整特征和词向量输出最终规整后的文本。Encoder-Decoder模型可以包括Encoder层、Attention层、Decoder层，Encoder层节点之间存在双向连接，Attention层和Decoder层之间存在单向连接。

本申请实施例提供的文本规整方法，采用能够利用上下文和句意信息的两级规整模型对待规整文本进行规整，第一级规整模型基于待规整文本的预处理文本中每个文本单元对应的规整特征确定每个文本单元对应的规整类别信息，第二级规整模型基于第一级规整模型输出的、预处理文本中每个文本单元对应的规整类别信息并结合规整特征和词向量输出规整后的文本。基于上述两级规整模型的规整方案具有较高的规整准确率，规整效果较好。

需要说明的是，上述实施例中两级规整模型中的第一级规整模型基于标注有规整类别标签的训练文本训练得到。

具体地，基于标注有规整类别标签的训练文本训练第一级规整模型的过程包括：将标注有规整类别标签的训练文本的文本内容处理成多个文本单元获得预处理训练文本；获取预处理训练文本中每个文本单元对应的规整特征；基于预处理训练文本中每个文本单元对应的规整特征训练第一级规整模型。优选地，对于预处理训练文本中的每个文本单元，可将该文本单元对应的规整特征与该文本单元对应的词向量进行拼接，用拼接后的向量训练第一级规整模型，第一级规整模型的输出为规整类别信息，比如，文本单元属于其对应的规整类别的后验概率。

其中，将标注有规整类别标签的训练文本的文本内容处理成多个文本单元获得预处理训练文本的过程包括：对标注有规整类别标签的训练文本的文本内容进行分词，获得多个词；将获得的多个词中包含数字的词拆分为单字，从而获得预处理训练文本，预处理文本中的每个词或字作为一个文本单元。

需要说明的是，本实施例中标注训练文本的规整类别标签基于标注所采用的标签体系和预先定义的规整类别得到。

示例性地，预先定义的规整类别包括A、B、C、D，标注所采用的标签体系为IOBES标体系，IOBES标体系中的“B”(即Begin)表示开始，IOBES标签体系中的“I”(即Intermediate)表示中间，IOBES标签体系中的“E”(即End)表示结尾，IOBES标签体系中的“S”(即Single)表示单个词条，IOBES标签体系中的“O”(即Other)表示其他，用于标记无关字符，则基于标注所采用的IOBES标签体系和预先定义的规整类别A、B、C、D得到的规整类别标签包括：B-A、I-A、E-A、S-A、B-B、I-B、E-B、S-B、B-C、I-C、E-C、S-C、B-D、I-D、E-D、S-D和O，即基于标注所采用的标签体系和预先定义的规整类别可获得4*4+1＝17个规整类别。在对训练文本进行标注时，采用B-A、I-A、E-A、S-A、B-B、I-B、E-B、S-B、B-C、I-C、E-C、S-C、B-D、I-D、E-D、S-D和O进行标注。相应的，第一级规整模型输出的规整类别信息用于指示文本单元属于上述17个规整类别中的哪个规整类别。

示例性地，可预先定义“自然数”(可用“A”表示)、“数字及符号映射”(可用“B”表示)、“时间格式”(可用“C”表示)、“含数字但无需规整”(可用“D”表示)这四种规整类别。其中，“自然数”(“A”)指的是大于10的自然数，其表示数值大小，比如，“十二月二十五号”中的“十二”和“二十五”，再比如，“第七百七十九页”中的“七百七十九”。“数字及符号映射”(“B”)指的是可根据预设的规整映射表将需要规整的文本单元转换为数字或符号，比如，“FM幺零三点六城市之声”中的“幺零三点六”基于预设的规整映射表可转换为“103.6”，再比如，“负三加一减二乘三除五等于几”中的“三加一减二乘三除五”基于预设的规整映射表可转换为“(-3+1-2×3÷5)”，需要说明的是，预先定义的映射表中包括数字相关的汉字以及与汉字对应的数字或符号，示例性的，映射表如下所示。“时间格式”(“C”)指的是表示时间的特殊场景，比如：“早上八点十分“早上八点十分”中的“八点十分”。“含数字但无需规整”(“D”)指的是常见诗词、成语、惯用语及约数等，比如，“三心二意”、“十一国庆长假”等。

表1汉字与数字或符号的映射表

文字	数字或符号
		幺	1
零	0
		一	1
二	2
		三	3
…	…
		点	.
负	-
		加	+
减	-
		…	…

以下通过两个具体示例对标注过程进行说明：

假设待规整文本中包括“FM幺零三点六城市之声”，在对其进行预处理后得到“FM/幺/零/三/点/六/城市/之/声”，其中“幺/零/三/点/六”是需要规整的数字串，基于IOBES标签体系，“幺”是这个数字串的开始，用B表示，“零”、“三”、“点”均为这个数字串的中间，用I表示，“六”是这个数字串的结束，用E表示，其余字或词与数字无关，用O表示，因此，基于IOBES标签体系对“FM/幺/零/三/点/六/城市/之/声”进行标注的标注结果为：“O，B，I，I，I，E，O，O，O”，假设预先定义的规整类别包括A(自然数)、B(数字及符号映射)、C(时间格式)和D(含数字但无需规整)，“幺/零/三/点/六”中的“幺”、“零”、“三”、“点”、“六”对应的规整类别均为B，因此，“FM/幺/零/三/点/六/城市/之/声”的最终标注结果为：“O，B-B，I-B，I-B，I-B，E-B，O，O，O”。

假设待规整文本中包括“我有八个苹果”，在对其进行预处理后得到“我/有/八/个/苹果”，其中“八”是需要规整的数字串，基于IOBES标签体系，“八”是这个数字串的开始，用B表示，因此，基于IOBES标签体系对“我/有/八/个/苹果”进行标注的标注结果为：“O，O，B，O，O”，预先定义的规整类别包括A(自然数)、B(数字及符号映射)、C(时间格式)和D，“八”对应的规整类别为B，因此，“我/有/八/个/苹果”的最终标注结果为：“O，O，S-B，O，O”。

在本申请的另一实施例中，对获取预处理文本中每个文本单元对应的规整特征进行介绍。

在本实施例中，获取预处理文本中每个文本单元对应的规整特征可以包括：针对预处理文本中的每个文本单元，提取该文本单元对应的第一特征T₁、第二特征T₂、第三特征T₃和第四特征T₄中任意一种或多种组成的多维特征作为该文本单元对应的规整特征。以下分别对各个特征进行介绍。

一个文本单元对应的第一特征T₁用于表征该文本单元是否可能需要规整。在本实施例中，可预先设定规整映射表，其中，规整映射表中包括需要规整的文字，比如可以包括：零、一、二、三、四、五、六、七、八、九、十、百、千、万、幺、两、点、加、减、乘、除等，若一文本单元出现在预先设定的规整映射表中，则该文本单元的第一特征用“1”表示，反之，该文本单元的第一特征T₁用“0”表示，“1”表示需要规整，“0”表示不需要规整。需要说明的是，只有当文本单元对应的第一特征T₁为“1”时，才会考虑文本单元的规整类别和规整方式。

示例性地，预处理文本的文本内容包括：“十/二/月/二/十/五/号/工作”，由于文本单元“十”出现在了规整列表中，因此，其对应的第一特征T₁为“1”，由于文本单元“二”也出现在了规整列表中，因此，其对应的第一特征T₁也为“1”，由于文本单元“月”并未出现在规整列表中，因此，其对应的第一特征T₁为“0”，以此类推，可获得“十/二/月/二/十/五/号/工作”中各个文本单元对应的第一特征“1/1/0/1/1/1/0/0”。

一个文本单元对应的第二特征T₂用于表征该文本单元是否可能含数字但无需规整。若一个文本单元对应的第一特征T₁为“1”，且在预处理的第一步分词中，该文本单元和其它汉字在一个词中，那么，该文本单元对应的第二特征T₂为“1”，反之，该文本单元对应的第二特征T₂为“0”，若一个文本单元的第一特征T₁为“0”，则该文本单元的第二特征T₂也为“0”。

示例性地，预处理文本的文本内容包括：“识别/二/维/码/就/能/看到”其中，文本单元“二”对应的第一特征T₁为“1”，在预处理的第一步分词中，由于“二”与“维”和“码”在一个词中，因此，“二”对应的第二特征T₂为“1”，文本单元中的“识别”对应的第一特征T₁为“0”，则该文本单元“识别”对应的第二特征T₂也为“0”。

假设预先定义“自然数”(用“A”表示)、“数字及符号映射”(用“B”表示)、“时间格式”(用“C”表示)、“含数字但无需规整”(用“D”表示)这四种规整类别，则一个文本单元对应的第二特征为“1”时，第一级规整模型更倾向于将该文本单元对应的规整类别确定为类别D，如预处理的第一步分词后得到的“差一点”、“统一”等词中的“一”为惯用词的组成部分，其无需规整。

一个文本单元对应的第三特征T₃用于表征该文本单元所属的规整类别，其能够辅助区分该文本单元所属的规整类别。假设预先定义上述A、B、C、D四种规整类别，则第三特征T₃可以包括8个维度的特征，用T₃[1]～T₃[8]，其中三个维度的特征T₃[1]～T₃[3]用于辅助区分规整类别A和B，另外四个维度的特征T₃[4]～T₃[8]用于辅助区分规整类别B和C。

具体地，若一个文本单元的第一特征T₁为“1”，则该文本单元对应的第三特征中的T₃[1]用于表示该文本单元是否为“零”到“九”的汉字，若该文本单元是“零”到“九”的汉字，则T₃[1]为“1”，否则T₃[1]为“0”；一个文本单元的第三特征中的T₃[2]用于表示该文本单元是否为“十”、“百”、“千”、“万”、“亿”中的任意一个字，若该文本单元是“十”、“百”、“千”、“万”、“亿”中的任意一个字，则T₃[2]为“1”，否则T₃[2]为“0”；一个文本单元的第三特征中的T₃[3]用于表示该文本单元后向相邻的文本单元是否为“十”、“百”、“千”、“万”、“亿”中的任意一个字，若该文本单元后向相邻的文本单元是“十”、“百”、“千”、“万”、“亿”中的任意一个字，则T₃[3]为“1”，否则T₃[3]为“0”。上述给出了一个文本单元的第一特征T₁为“1”时的T₃[1]～T₃[3]，当一个文本单元的第一特征T₁为“0”时，T₃[1]～T₃[3]均为“0”。

示例性地，预处理文本中包括“二/月/二/十/五”，则对于“二/月/二/十/五”中的第一个“二”而言，由于其为“零”到“九”的汉字，因此，其对应的T₃[1]为“1”，由于其不为“十”、“百”、“千”、“万”、“亿”中的任意一个字，因此，其对应的T₃[2]为“0”，由于其后向相邻的文本单元为“月”，不为“十”、“百”、“千”、“万”、“亿”中的任意一个字，因此，其对应的T₃[3]为“0”，综上，“二/月/二/十/五”中的第一个“二”对应的T₃[1]～T₃[3]为“1，0，0”；对于“二/月/二/十/五”中的第二个“二”而言，由于其为“零”到“九”的汉字，因此，其对应的T₃[1]为“1”，由于其不为“十”、“百”、“千”、“万”、“亿”中的任意一个字，因此，其对应的T₃[2]为“0”，由于其后向相邻的文本单元为“十”，因此，其对应的T₃[3]为“1”，综上，“二/月/二/十/五”中的第二个“二”对应的T₃[1]～T₃[3]为“1，0，1”。

考虑到含“点”的数字规整易产生混淆，比如，“一点零三”，规整类别B对应的规整结果为“1.03”，规整类别C对应的规整结果为“1:03”，为了能够对含“点”的数字进行较准确的规整，设置T₃[4]～T₃[8]用于辅助区分规整类别B和C。

具体地，若一个文本单元对应的第一特征T₁为“1”，T₃[4]表示该文本单元是否为“点”，若该文本单元是“点”，则T₃[4]为“1”，否则T₃[4]为“0”；T₃[5]用于表示该文本单元及该文本单元左右连续预设个(比如两个)文本单元范围内是否含有“点”，若该文本单元及该文本单元左右连续预设个文本单元范围内含有“点”，则T₃[5]为“1”，否则T₃[5]为“0”；T₃[6]表示该文本单元右侧连续预设个(比如两个)文本单元范围内是否含有“十”，若该文本单元右侧连续预设个(比如两个)文本单元范围内含有“十”，则T₃[6]为“1”，否则T₃[6]为“0”，T₃[6]为“1”表明该文本单元属于规整类别C，比如，“一点三十二”中，文本单元“点”右侧的连续两个文本单元“三十”中含有“十”，因此，文本单元“点”属于规整类别C；T₃[7]表示该文本单元及其右侧连续预设个(比如3个)文本单元范围内是否含有“分”，若该文本单元及其右侧连续预设个文本单元范围内含有“分”，则T₃[7]为“1”，否则T₃[7]为“0”，T₃[7]为“1”表明该文本单元属于规整类别C，比如“一点零一分”中，文本单元“点”右侧的连续两个文本单元“零一分”中含有“分”，则文本单元“点”属于规整类别C；T₃[8]表示该文本单元右侧连续预设个(比如3个)文本单元是否含有常见计量单位，如“米”、“升”、“元”、“斤”等，若该文本单元右侧连续预设个(比如3个)文本单元含有常见计量单位，则T₃[8]为“1”，否则T₃[8]为“0”，T₃[8]为“1”表明该文本单元属于规整类别B，比如“一点零一米”中文本单元“点”右侧的连续三个文本单元“零一米”中含有计量单位“米”，则文本单元“点”属于规整类别B。上述给出了一个文本单元的第一特征T₁为“1”时的T₃[4]～T₃[8]，当一个文本单元的第一特征T₁为“0”时，T₃[4]～T₃[8]均为“0”。

一个文本单元对应的第四特征T₄用于表征该文本单元所代表的数字是否能被万整除。数字能不能被万整除，规整的方式也不同，比如“两千八百万”、三百亿”能被万整除，只需要规整文字“万”、“亿”之前的数字，即，将“两千八百万”规整为“2800万”，将“三百亿”规整为“300亿”，比如“三百”、“一万零五百”不能被万整除，则需按照阿拉伯数字完全展开，即，将“三百”规整为“300”，将“一万零五百”规整为“10500”，基于此，可设定第四特征T₄包括两个维度的特征，用T₄[1]、T₄[2]表示。若一个文本单元对应的第一特征T₁为“1”，T₄[1]用于表示该文本单元及该文本单元左右连续预设个(如有两个)文本单元是否含“万”或“亿”，若该文本单元及该文本单元左右连续预设个(如有两个)文本单元含“万”或“亿”，则T₄[1]为“1”，否则T₄[1]为“0”；T₄[2]用于表示该文本单元及该文本单元右侧连续预设个(如两个)文本单元范围内是否含有“零”，若该文本单元及该文本单元右侧连续预设个(如两个)文本单元范围内含有“零”，则T₄[2]为“1”，否则T₄[2]为“0”。上述给出了一个文本单元的第一特征T₁为“1”时的T₄[1]、T₄[2]，若一个文本单元的第一特征T₁为“0”，则T₄[1]、T₄[2]均为“0”。

在一种优选的实现方式中，对于预处理文本中的每个文本单元而言，可同时提取该文本单元对应的第一特征T₁、第二特征T₂、第三特征T₃和第四特征T₄，将第一特征T₁、第二特征T₂、第三特征T₃和第四特征T₄组成的12维特征作为该文本单元对应的规整特征，从而获得预处理文本中的每个文本单元对应的规整特征，进而基于预处理文本中的每个文本单元对应的规整特征确定预处理文本中的每个文本单元对应的规整类别信息。

采用本申请实施例提供的文本规整方法对待规整文本中与数字相关的待规整汉字进行规整时，基于上述的规整特征，通过两级规整模型中的第一级规整模型可确定待规整文本的预处理文本中每个文本单元对应的规整类别信息，基于第一级规整模型确定的规整类别信息，结合上述规整特征和词向量，通过第二级规整模型可获得规整准确率较高的规整文本。本申请实施例提供的文本规整方法易于实现，且规整效果较好。

与上述文本规整方法相对应，本申请实施例还提供了一种文本规整装置，请参阅图3，示出了该文本规整装置的结构示意图，该文本规整装置可以包括：获取模块301、预处理模块302和文本规整模块303。

获取模块301，用于获取待规整文本。

预处理模块302，用于将所述待规整文本的文本内容处理成多个文本单元，获得预处理文本。

其中，预处理文本中的一个文本单元为一个词或字。

文本规整模块303，用于基于所述预处理文本中每个文本单元对应的规整类别信息，对所述待规整文本中的待规整文本单元进行规整，获得规整后的文本。

本申请提供的文本规整装置，在将待规整文本的文本内容拆分为多个文本单元后，通过预处理文本中每个文本单元对应的规整类别信息，对待规整文本中的待规整字符进行规整，从而获得规整后的文本。本申请提供的文本规整装置可对待规整文本中的待规整文本单元进行规整，比如可将与数字相关的汉字规整为阿拉伯数字或特殊符号，从而得到便于用户阅读和理解的文本数据，规整方案易于实现，且规整效果较好。

在一种可能的实现方式中，上述实施例提供的文本规整装置中的预处理模块302，具体用于对所述待规整文本的文本内容进行分词，获得多个词；将所述多个词中包含数字的词拆分为单字。

在一种可能的实现方式中，上述实施例提供的文本规整装置中的文本规整模块303，包括：特征获取子模块、第一规整子模块和第二规整子模块。

所述特征获取子模块，用于获取所述预处理文本中每个文本单元对应的规整特征。

所述第一规整子模块，用于基于所述预处理文本中每个文本单元对应的规整特征，通过预先建立的两级规整模型中的第一级规整模型，确定所述每个文本单元对应的规整类别信息。

在一种可能的实现方式中，上述两级规整模型中的第一级规整模型基于标注有规整类别标签的训练文本训练得到；所述规整类别标签基于标注所采用的标签体系和预先定义的规整类别确定。

在一种可能的实现方式中，所述预先定义的规整类别包括以下类别中的一种或多种：自然数、数字及符号映射、时间格式、含数字无需规整。

在一种可能的实现方式中，所述第一规整子模块，具体用于将所述预处理文本中每个文本单元对应的规整特征与对应的词向量进行拼接，将拼接后得到的向量输入所述两级规整模型中的第一级规整模型，获得所述第一级规整模型输出的、所述预处理文本中每个文本单元对应的规整类别信息。

在一种可能的实现方式中，所述第二规整子模块，具体用于将所述预处理文本中每个文本单元对应的规整类别信息与对应的规整特征和对应的词向量进行拼接，将拼接后得到的向量输入所述两级规整模型中的第二级规整模型，获得所述第二级规整模型输出的、所述规整后的文本。

在一种可能的实现方式中，所述特征获取子模块，具体用于针对所述预处理文本中的每个文本单元，提取第一特征、第二特征、第三特征和第四特征中任意一种特征或多种特征作为该文本单元对应的规整特征，以得到所述预处理文本中的每个文本单元对应的规整特征。

本发明实施例还提供了一种文本规整设备，请参阅图4，示出了该设备的结构示意图，该设备可以包括：存储器401和处理器402。

存储器401，用于存储程序；

处理器402，用于执行所述程序，所述程序具体用于：

获取待规整文本；

文本规整设备还可以包括：总线和通信接口403。

处理器402、存储器401、通信接口403通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器402可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器402可包括主处理器，还可包括基带芯片、调制解调器等。

存储器401中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器401可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(randomaccess memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

通信接口403可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器402执行存储器401中所存放的程序，以及调用其他设备，可用于实现本申请实施例所提供的文本规整方法的各个步骤。

本申请还提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述实施例的文本规整方法的各个步骤。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本规整方法，其特征在于，包括：

获取待规整文本；

基于所述预处理文本中每个文本单元对应的规整类别信息，对所述待规整文本中的待规整文本单元进行规整，获得规整后的文本；

所述基于所述预处理文本中每个文本单元对应的规整类别信息，对所述待规整文本中的待规整文本单元进行规整，获得规整后的文本，包括：

获取所述预处理文本中每个文本单元对应的规整特征；

2.根据权利要求1所述的文本规整方法，其特征在于，所述将所述待规整文本的文本内容处理成多个文本单元，包括：

对所述待规整文本的文本内容进行分词，获得多个词；

将所述多个词中包含数字的词拆分为单字。

3.根据权利要求1所述的文本规整方法，其特征在于，所述两级规整模型中的第一级规整模型基于标注有规整类别标签的训练文本训练得到；

4.根据权利要求1所述的文本规整方法，其特征在于，所述基于所述预处理文本中每个文本单元对应的规整特征，通过预先建立的两级规整模型中的第一级规整模型，确定所述每个文本单元对应的规整类别信息，包括：

5.根据权利要1所述的文本规整方法，其特征在于，所述基于所述每个文本单元对应的规整类别信息，通过所述两级规整模型中的第二级规整模型，对所述待规整文本中的待规整文本单元进行规整，获得所述规整后的文本，包括：

6.根据权利要求1所述的文本规整方法，其特征在于，所述获取所述预处理文本中每个文本单元对应的规整特征，包括：

7.根据权利要求3所述的文本规整方法，其特征在于，所述预先定义的规整类别包括以下类别中的一种或多种：自然数、数字及符号映射、时间格式、含数字无需规整。

8.一种文本规整装置，其特征在于，包括：获取模块、预处理模块和文本规整模块；

所述获取模块，用于获取待规整文本；

所述文本规整模块，用于基于所述预处理文本中每个文本单元对应的规整类别信息，对所述待规整文本中的待规整文本单元进行规整，获得规整后的文本；

所述文本规整模块包括：特征获取子模块、第一规整子模块和第二规整子模块；

9.根据权利要求8所述的文本规整装置，其特征在于，所述预处理模块，具体用于对所述待规整文本的文本内容进行分词，获得多个词；将所述多个词中包含数字的词拆分为单字。

10.根据权利要求8所述的文本规整装置，其特征在于，所述特征获取子模块，具体用于针对所述预处理文本中的每个文本单元，提取第一特征、第二特征、第三特征和第四特征中任意一种特征或多种特征作为该文本单元对应的规整特征，以得到所述预处理文本中的每个文本单元对应的规整特征；

11.一种文本规整设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，所述程序具体用于：

获取待规整文本；

获取所述预处理文本中每个文本单元对应的规整特征；

12.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～7中任一项所述的文本规整方法的各个步骤。