CN111191421A

CN111191421A - 一种文本处理方法和装置、计算机存储介质和电子设备

Info

Publication number: CN111191421A
Application number: CN201911396882.7A
Authority: CN
Inventors: 张征; 雷欣; 李志飞
Original assignee: Mobvoi Information Technology Co Ltd
Current assignee: Volkswagen China Investment Co Ltd; Mobvoi Innovation Technology Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-22
Anticipated expiration: 2039-12-30
Also published as: CN111191421B

Abstract

本发明公开一种文本处理方法，用于文本正则化分析的TN规则由n级构成，n为大于等于2的整数，方法包括：获得待分析文本；根据TN规则中的第一级规则匹配待分析文本，获得待分析文本命中的第一级规则；根据命中的第一级规则对应的第二级规则继续匹配待分析文本，获得待分析文本命中的第二级规则；以此类推，根据命中的第m‑1级规则对应的第m级规则匹配待分析文本，获得待分析文本命中的第m级规则，m为小于等于n的整数；在待分析文本匹配TN规则结束时，根据待分析文本所命中的各级规则，将待分析文本转换为标准文本输出。本发明还公开一种文本处理装置、计算机存储介质和电子设备。本发明让TN系统更加简洁清晰，规则覆盖更全，规则匹配效率更高。

Description

一种文本处理方法和装置、计算机存储介质和电子设备

技术领域

本发明涉及语音合成技术领域，尤其涉及一种文本处理方法和装置、计算机可读存储介质和电子设备。

背景技术

语音合成(TTS，Text To Speech)是一种将文字转换成人类自然语言的技术，被广泛应用在导航播报、商家在线客服、智能机器人语音交互等方面。TTS系统主要分为前端和后端，前端主要完成文本分析的工作，让机器知道这段文字该怎么读，因此，文本分析对TTS的合成效果具有举足轻重的作用。

文本正则化(TN，Text Normalization)是文本分析的重要步骤，是将不规则的文本转换成标准文本的过程，如：将带有各种数字、符号的不规则文本转换成不含有数字而只含有系统指定的几个表示停顿的符号的标准文本。例如：文本“33+12等于45”在TN后的结果变成“三十三加十二等于四十五”。

TN需要遵循规则，TN规则是指在文本中寻找匹配符合特定条件的文本，并根据设计的规则进行该部分文本的替代，例如：“连续数字串匹配规则”可以将“今天天气23摄氏度星期6”中的“23”和“6”匹配出，然后，根据“数字转写规则”转写成“二十三”和“六”，这里的“连续数字串匹配规则”和“数字转写规则”合称TN规则。

TN系统最有效的方式是通过一系列TN规则进行转写的方式，然而绝大部分现有TN系统采用的都是单层级的逻辑，即所有的TN规则处于一个层级，这些规则中有处理日期格式的规则比如“2019-09-09”，有处理比分格式的规则，比如“20:13”，有处理时间格式的规则，比如“20:00PM”等等。这些规则由设计者根据经验或测试数据罗列出所有可能的场景并生成，并按照一定的先后顺序被依次处理，在实际中的确能够完成TN在一般TTS中的任务，但存在至少以下缺陷：

1、TN规则缺乏完整性：由于所有的规则场景来源于数据和设计者的经验，很有可能导致一些场景的遗漏，使得后续的维护工作增加，需要不断补充新的场景来修复之前没处理到的问题，进而使得系统越来越复杂；

2、具有复杂性：TN本身是一项比较复杂的工作，很多规则之间是互相交叉的，比如，“20:13”同时可以表示时间和比分，如果所有的规则全部放在一个层级，在判断优先顺序上就会随着规则的增加变的越来越困难。

发明内容

有鉴于此，本发明提供一种文本处理方法和装置、计算机可读存储介质和电子设备，以至少解决现有技术存在的以上技术问题。

本发明一方面提供一种文本处理方法，用于文本正则化分析的TN规则由n层级规则构成，n为大于等于2的整数，所述方法包括：

获得待分析文本；

根据所述TN规则中的第一级规则匹配所述待分析文本，获得所述待分析文本命中的第一级规则；

根据所述命中的第一级规则所对应的第二级规则继续匹配所述待分析文本，获得所述待分析文本命中的第二级规则；

以此类推，根据命中的第m-1级规则所对应的第m级规则匹配所述待分析文本，获得所述待分析文本命中的第m级规则，m为大于等于2且小于等于n的整数；

在所述待分析文本匹配所述TN规则结束时，根据所述待分析文本所命中的各级规则，将所述待分析文本转换为标准文本输出。

在一可实施方式中，所述第一级规则包括符号划分规则，所述符号划分规则将符号按种类不同划分为不同的符号集，同一类符号归为同一符号集；所述符号划分规则中的每个符号对应有各自的第二级规则，所述第二级规则中对相应符号按不同的转换替代方式进行分类，同一符号对应至少一种转换替代方式，且每一种转换替代方式由转换方式的名称和对应的转换替代结果进行描述。

在一可实施方式中，在所述符号划分规则中，将全部符号中预选的常用符号归为第一类符号集；剩余符号中不发音的符号归为第二类符号集，读音无歧义的符号归为第三类符号集，数字归为第四类符号集。

在一可实施方式中，所述方法还包括：

在通过匹配所述待分析文本获得命中的第m-1级规则时，通过界面显示所述命中的第m-1级规则所对应的第m级规则中的所有转换替代方式；

获得针对所述第m级规则的选中指令，所述选中指令用于指示所述第m级规则中的被选转换替代方式；

响应所述选中指令，将所述被选转换替代方式确定为所述待分析文本所命中的转换替代方式。

本发明另一方面提供一种文本处理装置，用于文本正则化分析的TN规则由n层级规则构成，n为大于等于2的整数，所述装置包括：

文本获得单元，用于获得待分析文本；

规则匹配单元，用于根据所述TN规则中的第一级规则匹配所述待分析文本，获得所述待分析文本命中的第一级规则；根据所述命中的第一级规则所对应的第二级规则继续匹配所述待分析文本，获得所述待分析文本命中的第二级规则；以此类推，根据命中的第m-1级规则所对应的第m级规则匹配所述待分析文本，获得所述待分析文本命中的第m级规则，m为大于等于2且小于等于n的整数；

转换输出单元，用于在所述待分析文本匹配所述TN规则结束时，根据所述待分析文本所命中的各级规则，将所述待分析文本转换为标准文本输出。

在一可实施方式中，所述装置还包括：

显示单元，用于在通过匹配所述待分析文本获得命中的第m-1级规则时，通过界面显示所述命中的第m-1级规则所对应的第m级规则中的所有转换替代方式；

指令获得单元，用于获得针对所述第m级规则的选中指令，所述选中指令用于指示所述第m级规则中的被选转换替代方式；

指令响应单元，用于响应所述选中指令，将所述被选转换替代方式确定为所述待分析文本所命中的转换替代方式。

本发明再一方面提供一种计算机存储介质，所述存储介质存储有计算机可执行指令，当所述指令被执行时用执行本发明所述的文本处理方法。

本发明还一方面提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现本发明所述的文本处理方法。

本发明所提供的一种文本处理方法和装置、计算机可读存储介质和电子设备，通过采用两层级或多层级的TN规则逻辑架构，一方面，让TN系统更加简洁清晰，便于后续优化；另一方面，TN规则覆盖更全，不易遗漏；再一方面，在进行文本规则匹配时按层级匹配的方式更高效，避免了不必要的规则匹配操作，提高了规则匹配效率；还一方面，为用户提供了对文本的可编辑功能，当TN规则出错或者用户有个性化的定制需求时，其可编辑性能够很好的支持用户需求，并且通过用户选择也能有效纠正自动文本处理过程中出现的错误，提升准确性。

附图说明

图1为本发明实施例的一种文本处理方法的流程示意图；

图2为本发明实施例的一种两级TN规则的架构示意图；

图3为本发明实施例的一种文本处理装置的组成结构示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

示例性方法

如图1所示，本发明实施例提供的一种文本处理方法，用于文本正则化分析的TN规则由n层级规则构成，n为大于等于2的整数，所述方法包括：

步骤101，获得待分析文本。

本发明实施例的文本处理方法应用于具有处理器功能的设备/服务器等硬件实体。获得待分析文本的方式可以有很多种，如：从文本数据库导入待分析文本，或者，从外接设备接收待分析文本，等等。本发明实施例并不限制所述待分析文本的获得方式，任何形式的待分析文本获得方式应当都属于本发明实施例保护的范围。

步骤102，根据TN规则中的第一级规则匹配待分析文本，获得待分析文本命中的第一级规则；

根据命中的第一级规则所对应的第二级规则继续匹配待分析文本，获得待分析文本命中的第二级规则；

以此类推，根据命中的第m-1级规则所对应的第m级规则匹配待分析文本，获得待分析文本命中的第m级规则，m为大于等于2且小于等于n的整数。

本发明实施例的TN规则采用多层级的架构方式，这区别于现有技术中单层级的架构方式，现有技术中的TN规则是采用单层级的逻辑，即所有的TN规则都处于一个层级，这些规则由设计者根据经验或测试数据罗列出所有可能的场景而生成，并按一定的先后顺序依次处理。而本发明实施例的TN规则采用多层级的架构逻辑，即由两级或更多层级的结构来构造TN规则，层级设计的基本原则如下：

一、越高层级的规则越具体，这样使得用户对于层级越高的规则越容易理解；

二、层级划分适当，层级不宜太多，因为层级过多也会增加TN系统的复杂性；

三、低层级的规则尽量覆盖全部可能出现的场景/情况，这样避免遗漏分类，能有效解决规则覆盖完整性的问题。

下面以一个两层级设计的TN规则为例进行说明，由于TN规则着眼于处理文本中的符号、数字，而符号的集合又是一个有限的集合，很容易覆盖，从而第一层级的优选方案可以是按照符号来划分。可以参见图2所示，这里选取“.”、“-”、“:”、“/”、“+”、“*”等处理情况较多的符号为例，需要说明的是，每类符号处理的对象不仅是该符号本身，还包括该符号的上下文，例如：针对文本“1.12”，在分析时同时会将符号“.”前后关联的数字一并作为对象处理，因为他们是一个整体。另外，还可以将“[]”、“，”、“。”等这些不发音的符号同归为一类；将“％”、“>”、“<”等这些读音没有歧义的符号同归为一类；将单独的数字同归为一类；如此，第一层级就搭建好了。

第二层级按照转换方式来进行划分，内容上按转换方式的名称和对应的转换替代结果，这样的内容方式来进行搭建。例如，符号“.”可以表示为小数中的点，比如“201.3”对应的转换方式(或称为读法)有：

“小数-二”：二百零一点三；

“小数-两”：两百零一点三；

“序数-一”：二零一点三；

“序数-幺”：二零幺点三；

其中，“小数”、“序数”就是指符号“.”对应的转换方式；

符号“.”还可以用来表示日期，如“12.12”对应的转换替代结果为：十二月十二日；

符号“.”还可以用来表示句号，如“hello.”对应的转换方式为停顿符号，这里也使用“.”作为句子级别的停顿符号；

符号“.”还可以用来表示为一个连接符号，如“Will.Smith”对应的转换方式为分隔符。

于是，“.”的第二层级读法分类至少有以上这些情况，对于其他的第一层级符号，也采用同样的方法来设计和搭建其对应的第二层级内容，这样就能够最终得到一个两层级的文本正则化的架构，如图2的架构所示。

总结以上两层级或多层级的TN规则设计，本发明一实施例的第一级规则包括符号划分规则，符号划分规则将符号按种类不同划分为不同的符号集，同一类符号归为同一符号集；符号划分规则中的每个符号对应有各自的第二级规则，第二级规则中对相应符号按不同的转换替代方式进行分类，同一符号对应至少一种转换替代方式，且每一种转换替代方式由转换方式的名称和对应的转换替代结果进行描述。

另外，在符号划分规则中，将全部符号中预选的常用符号归为第一类符号集；剩余符号中不发音的符号归为第二类符号集，读音无歧义的符号归为第三类符号集，数字归为第四类符号集。

以上按符号划分第一层级的规则方式仅仅是一个举例，实际应用中，也可以采用其他的规则方式来划分第一层级，本发明实施例不做过多限制，凡是适于适用的两层级或多层级划分规则方式，原则上都是可被实施的，当然也应当属于本发明实施例要保护的范围。按如此规则方式搭建的TN规则，分类非常清晰，且不易产生规则遗漏的情况，添加规则也会变得非常简单方便。

步骤103，在待分析文本匹配TN规则结束时，根据待分析文本所命中的各级规则，将待分析文本转换为标准文本输出。

在待分析文本对各级TN规则匹配结束后，即按照最终所命中的各层级的规则，将待分析文本转换为标准文本输出。例如：“Will.Smith”命中了第一层级规则中的“.”、以及第二层级规则中的“分隔”，那么即根据命中的第一层级规则和第二层级规则转换为相应的标准文本“Will.Smith”输出；再例如：“201.3”命中了第一层级规则中的“.”、以及第二层级规则中的“小数”，那么即根据命中的第一层级规则和第二层级规则转换为相应的标准文本“二百零一点三”输出。

在另一可实施方式中，也可在通过匹配待分析文本获得命中的第m-1级规则时，通过界面显示命中的第m-1级规则所对应的第m级规则中的所有转换替代方式；在获得针对第m级规则的选中指令时，选中指令用于指示的第m级规则中的被选转换替代方式；响应选中指令，将被选转换替代方式确定为待分析文本所命中的转换替代方式。这样，可以由用户通过显示操作界面来自由选择将采用的转换替代方式，相当于提供一个可供用户自由选择待分析文本所使用的转换替代方式的接口。例如：在“用时11.12秒”命中了第一级规则“.”后，可以通过界面显示对应的所有第二级规则，这样能够让用户自由选择决定这段文本的读法(即转换替代方式)，提升了用户体验。相比现有技术，现有技术中的单层级架构逻辑决定了一段文本固定会遍历其中的哪些TN规则，对用户来说是不可更改的，即用户对于文本是不具备可编辑性的，这在当TN规则出错或者用户有个性化的定制需求时，会无法得到支持；而本发明实施例，为用户提供了对文本的可编辑功能，当TN规则出错或者用户有个性化的定制需求时，其可编辑性能够很好的支持用户需求，并且通过用户选择也能有效纠正自动文本处理过程中出现的错误，提升准确性。

示例性装置

如图3所示，本发明实施例提供一种文本处理装置，用于文本正则化分析的TN规则由n层级规则构成，n为大于等于2的整数，该装置包括：

文本获得单元10，用于获得待分析文本；

规则匹配单元20，用于根据TN规则中的第一级规则匹配待分析文本，获得待分析文本命中的第一级规则；根据命中的第一级规则所对应的第二级规则继续匹配待分析文本，获得待分析文本命中的第二级规则；以此类推，根据命中的第m-1级规则所对应的第m级规则匹配待分析文本，获得待分析文本命中的第m级规则，m为大于等于2且小于等于n的整数；

转换输出单元30，用于在待分析文本匹配TN规则结束时，根据待分析文本所命中的各级规则，将待分析文本转换为标准文本输出。

在一可实施方式中，第一级规则包括符号划分规则，符号划分规则将符号按种类不同划分为不同的符号集，同一类符号归为同一符号集；符号划分规则中的每个符号对应有各自的第二级规则，第二级规则中对相应符号按不同的转换替代方式进行分类，同一符号对应至少一种转换替代方式，且每一种转换替代方式由转换方式的名称和对应的转换替代结果进行描述。

在一可实施方式中，在符号划分规则中，将全部符号中预选的常用符号归为第一类符号集；剩余符号中不发音的符号归为第二类符号集，读音无歧义的符号归为第三类符号集，数字归为第四类符号集。

在一可实施方式中，装置还包括：

显示单元40，用于在通过匹配待分析文本获得命中的第m-1级规则时，通过界面显示命中的第m-1级规则所对应的第m级规则中的所有转换替代方式；

指令获得单元50，用于获得针对第m级规则的选中指令，选中指令用于指示第m级规则中的被选转换替代方式；

指令响应单元60，用于响应选中指令，将被选转换替代方式确定为待分析文本所命中的转换替代方式。

本发明实施例的文本处理装置，通过采用两层级或多层级的TN规则逻辑架构，一方面，让TN系统更加简洁清晰，便于后续优化；另一方面，TN规则覆盖更全，不易遗漏；再一方面，在进行文本规则匹配时按层级匹配的方式更高效，避免了不必要的规则匹配操作，提高了规则匹配效率；还一方面，为用户提供了对文本的可编辑功能，当TN规则出错或者用户有个性化的定制需求时，其可编辑性能够很好的支持用户需求，并且通过用户选择也能有效纠正自动文本处理过程中出现的错误，提升准确性。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的文本处理方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的文本处理方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本发明实施例还提供一种电子设备，包括：处理器及用于存储处理器可执行指令的存储器；处理器用于从存储器中读取所述可执行指令，并执行所述指令以实现本发明实施例的文本处理方法。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”，且可与其互换使用。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种文本处理方法，其特征在于，用于文本正则化分析的TN规则由n层级规则构成，n为大于等于2的整数，所述方法包括：

获得待分析文本；

2.根据权利要求1所述文本处理方法，其特征在于，所述第一级规则包括符号划分规则，所述符号划分规则将符号按种类不同划分为不同的符号集，同一类符号归为同一符号集；所述符号划分规则中的每个符号对应有各自的第二级规则，所述第二级规则中对相应符号按不同的转换替代方式进行分类，同一符号对应至少一种转换替代方式，且每一种转换替代方式由转换方式的名称和对应的转换替代结果进行描述。

3.根据权利要求2所述文本处理方法，其特征在于，在所述符号划分规则中，将全部符号中预选的常用符号归为第一类符号集；剩余符号中不发音的符号归为第二类符号集，读音无歧义的符号归为第三类符号集，数字归为第四类符号集。

4.根据权利要求1、2或3所述文本处理方法，其特征在于，所述方法还包括：

5.一种文本处理装置，其特征在于，用于文本正则化分析的TN规则由n层级规则构成，n为大于等于2的整数，所述装置包括：

文本获得单元，用于获得待分析文本；

6.根据权利要求5所述文本处理装置，其特征在于，所述第一级规则包括符号划分规则，所述符号划分规则将符号按种类不同划分为不同的符号集，同一类符号归为同一符号集；所述符号划分规则中的每个符号对应有各自的第二级规则，所述第二级规则中对相应符号按不同的转换替代方式进行分类，同一符号对应至少一种转换替代方式，且每一种转换替代方式由转换方式的名称和对应的转换替代结果进行描述。

7.根据权利要求6所述文本处理装置，其特征在于，在所述符号划分规则中，将全部符号中预选的常用符号归为第一类符号集；剩余符号中不发音的符号归为第二类符号集，读音无歧义的符号归为第三类符号集，数字归为第四类符号集。

8.根据权利要求5、6或7所述文本处理装置，其特征在于，所述装置还包括：

9.一种计算机存储介质，其特征在于，所述存储介质存储有计算机可执行指令，当所述指令被执行时用执行权利要求1-4任一项所述的文本处理方法。

10.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现所述权利要求1-4任一项所述的文本处理方法。