CN108536656A

CN108536656A - 基于wfst的文本正则化方法及系统

Info

Publication number: CN108536656A
Application number: CN201810194833.4A
Authority: CN
Inventors: 鲁俊
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Beijing Yunzhisheng Information Technology Co Ltd
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2018-09-14
Anticipated expiration: 2038-03-09
Also published as: CN108536656B

Abstract

本发明提供一种基于WFST的文本正则化方法及系统，其中，所述方法包括：预先将非中文字符按照加权有限状态转换器进行分类，并为分类后的非中文字符编写对应的转换规则；基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串；根据识别出的所述非中文字符串所属的类别，调用相匹配的目标转换规则，并基于所述目标转换规则，将识别出的所述非中文字符转写为中文字符。本发明提供的技术方案，能够提高将非中文字符转写为中文字符的准确率。

Description

基于WFST的文本正则化方法及系统

技术领域

本发明涉及互联网技术领域，特别涉及一种基于WFST的文本正则化方法及系统。

背景技术

真实文本中含有大量非标准词，这些词在词典中查不到，它们的读音也不能通过正常的拼音规则得到。在中文文本中，非标准词是指包含非汉字字符的词，其中的非汉字字符需要转换成对应的汉字，这个转换过程称为文本正则化。文本正则化是语音合成的关键环节，也是语音识别的必要步骤。由于非标准词往往是用户关注的焦点，如日期、价格、电话号码、机构名等，因此文本正则化直接影响语音服务的质量。

一个非标准词在不同的上下文中可能对应不同的发音，例如“11”可以独坐“十一”，在电话号码中可以读作“幺幺”，因此，目前仅通过固定的转换规则将非标准词转写为中文字符的方式，无法将非标准词进行正确地发音。

发明内容

本发明提供一种基于WFST的文本正则化方法及系统，能够提高将非中文字符转写为中文字符的准确率。

为实现上述目的，本申请提供一种基于WFST的文本正则化方法，所述方法包括：预先将非中文字符按照加权有限状态转换器进行分类，并为分类后的非中文字符编写对应的转换规则；基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串；根据识别出的所述非中文字符串所属的类别，调用相匹配的目标转换规则，并基于所述目标转换规则，将识别出的所述非中文字符转写为中文字符。

进一步地，基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串包括：当所述目标中文文本中存在非中文字符嵌套时，按照最长匹配策略，将最长串的非中文字符作为识别出的非中文字符串。

进一步地，所述方法还包括：

当所述目标中文文本中存在数字与后缀的组合时，调用预设后缀列表，并将所述目标中文文本中存在的数字与后缀的组合中的后缀在所述预设后缀列表中进行匹配；

若在所述预设后缀列表中匹配到与所述数字与后缀的组合中的后缀相同的后缀，则按照最长匹配策略，将数字与最长的后缀作为识别出的非中文字符串，并对所述数字标注与所述最长的后缀的类型相匹配的读法标签。

进一步地，为分类后的非中文字符编写对应的转换规则包括：

当所述非中文字符为数字时，判断所述数字所处的数值区间，并根据所述数值区间确定所述非中文字符的转换规则。

进一步地，所述方法还包括：

获取与所述非中文字符相关联的上下文信息，并从所述上下文信息中提取用于表征所述非中文字符类型的特征词；

按照所述特征词，确定所述非中文字符的转换规则。

确定分类后的非中文字符对应的多个疑似转换规则；

按照最大熵模型计算每个疑似转换规则对应的熵；

将计算得到的熵最大的疑似转换规则作为所述分类后的非中文字符对应的转换规则。

为每一类非中文字符提供预设数量的训练样本，所述训练样本与实际转换规则相关联；

按照所述训练样本和实际转换规则，对每一类非中文字符的分类器进行训练，以使得将每一类非中文字符的任一训练样本输入训练后的分类器时，得到的预测结果与所述训练样本关联的实际转换规则一致；

将待编写的非中文字符输入训练得到的分类器，得到对应的转换规则。

为实现上述目的，本申请还提供一种基于WFST的文本正则化系统，所述系统包括：转换规则编写单元，用于预先将非中文字符按照加权有限状态转换器进行分类，并为分类后的非中文字符编写对应的转换规则；非中文字符串识别单元，用于基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串；中文字符转写单元，用于根据识别出的所述非中文字符串所属的类别，调用相匹配的目标转换规则，并基于所述目标转换规则，将识别出的所述非中文字符转写为中文字符。

进一步地，非中文字符串识别单元包括：

最长匹配模块，用于当所述目标中文文本中存在非中文字符嵌套时，按照最长匹配策略，将最长串的非中文字符作为识别出的非中文字符串。

进一步地，转换规则编写单元包括：

疑似转换规则确定模块，用于确定分类后的非中文字符对应的多个疑似转换规则；

熵计算模块，用于按照最大熵模型计算每个疑似转换规则对应的熵；

转换规则确定模块，用于将计算得到的熵最大的疑似转换规则作为所述分类后的非中文字符对应的转换规则。

由上可见，在本申请中，预先将非中文字符按照加权有限状态转换器进行分类，并为分类后的非中文字符编写对应的转换规则，然后基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串，最终可以根据识别出的所述非中文字符串所属的类别，调用相匹配的目标转换规则，并基于所述目标转换规则，将识别出的所述非中文字符转写为中文字符。这样，根据不同类别的非中文字符，可以调用不同的转换规则，从而可以提高将非中文字符转写为中文字符的准确率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明实施方式中基于WFST的文本正则化方法流程图；

图2是本发明实施方式中基于WFST的文本正则化系统的示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

请参阅图1，本申请提供的基于WFST的文本正则化方法，包括以下步骤：

S1：预先将非中文字符按照加权有限状态转换器进行分类，并为分类后的非中文字符编写对应的转换规则。

S2：基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串。

S3：根据识别出的所述非中文字符串所属的类别，调用相匹配的目标转换规则，并基于所述目标转换规则，将识别出的所述非中文字符转写为中文字符

在一个实施方式中，基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串包括：

当所述目标中文文本中存在非中文字符嵌套时，按照最长匹配策略，将最长串的非中文字符作为识别出的非中文字符串。

在一个实施方式中，所述方法还包括：

在一个实施方式中，为分类后的非中文字符编写对应的转换规则包括：

在一个实施方式中，所述方法还包括：

按照所述特征词，确定所述非中文字符的转换规则。

确定分类后的非中文字符对应的多个疑似转换规则；

按照最大熵模型计算每个疑似转换规则对应的熵；

具体地，加权有限状态转换器(Weighted Finite-State Transducer，WFST)在状态之间的转移路径上附有权重，并且在状态转移上的标签中既有输入又有输出。基于WFST的中文文本正则化方法编写的规则更加简洁，比传统方法考虑更多的上下文信息。通过设定不同的权重调整优先级，更方便的处理规则冲突问题。

在本实施方式中，在识别非中文字符串时，当存在非中文字符嵌套时，可以采用最长匹配策略，即最长串为非中文字符串，而不是它的子串。因为串越长，串内所含信息越多，歧义越小，所需要处理的串的数量也越少。

为了识别“数字+后缀”的组合情况，可以使用由汉语量词、个别数词、名词等构成的后缀列表。例如，该列表中包括人、天、时、元、角、分等后缀词。对于单字后缀，可能会出现一些歧义情况。例如“1999人才工程”，可能会被认为是“1999人”，而实际上“1999”表示的是1999年，而不是人的数量。此时，可以按照最长匹配策略，将数字与最长的后缀作为识别出的非中文字符串。也就是说，将“1999人才”作为非中文字符串，此时，可以给“1999”标注“年份”的读法标签。

在本实施方式中，在给不同类别的非中文字符编写转换规则时，可以存在多种方式。一种是基于非中文字符本身的简单规则。例如，在“数字：数字”的非中文字符串中，如果第一个数字在0-24之间，第二个数字在“0-60”之间，则可以表示时间，也可以表示比值，而如果不在这两个区间内，则仅可以表示比值。又例如，上下文信息中包含“年、月、日”等时间特征词，则可以认为非中文字符串表示的是时间；而如果上下文信息中包含“比分、局、盘、胜、负”等比分特征词，则可以认为非中文字符串表示的是比值。另一种是基于最大熵模型，可以确定分类后的非中文字符对应的多个疑似转换规则，这些疑似转换规则为可能正确的转换规则。然后可以按照最大熵模型计算每个疑似转换规则对应的熵，并将计算得到的熵最大的疑似转换规则作为所述分类后的非中文字符对应的转换规则。还有一种是基于机器学习的方式，为每一类非中文字符提供预设数量的训练样本，所述训练样本与实际转换规则相关联。例如，针对比值的非中文字符，提供大量的训练样本，这些训练样本可以包含非中文字符及其上下文。这样，将训练样本输入初始的分类器，可以得到初始的训练结果。如果该训练结果表征的不是比值的转换规则，那么可以对初始的分类器中的参数进行校正，直至训练结果表征的是比值的转换规则为止。这样，为不同的非中文字符串均可以训练得到各自的分类器。后续需要编写转换规则时，可以将待编写的非中文字符输入训练得到的分类器，从而可以得到对应的转换规则。

请参阅图2，本申请还提供一种基于WFST的文本正则化系统，所述系统包括：

转换规则编写单元100，用于预先将非中文字符按照加权有限状态转换器进行分类，并为分类后的非中文字符编写对应的转换规则；

非中文字符串识别单元200，用于基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串；

中文字符转写单元300，用于根据识别出的所述非中文字符串所属的类别，调用相匹配的目标转换规则，并基于所述目标转换规则，将识别出的所述非中文字符转写为中文字符。

在本实施方式中，非中文字符串识别单元包括：

在本实施方式中，转换规则编写单元包括：

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于WFST的文本正则化方法，其特征在于，所述方法包括：

预先将非中文字符按照加权有限状态转换器进行分类，并为分类后的非中文字符编写对应的转换规则；

基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串；

根据识别出的所述非中文字符串所属的类别，调用相匹配的目标转换规则，并基于所述目标转换规则，将识别出的所述非中文字符转写为中文字符。

2.根据权利要求1所述的方法，其特征在于，基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，为分类后的非中文字符编写对应的转换规则包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

按照所述特征词，确定所述非中文字符的转换规则。

6.根据权利要求1所述的方法，其特征在于，为分类后的非中文字符编写对应的转换规则包括：

确定分类后的非中文字符对应的多个疑似转换规则；

按照最大熵模型计算每个疑似转换规则对应的熵；

7.根据权利要求1所述的方法，其特征在于，为分类后的非中文字符编写对应的转换规则包括：

8.一种基于WFST的文本正则化系统，其特征在于，所述系统包括：

转换规则编写单元，用于预先将非中文字符按照加权有限状态转换器进行分类，并为分类后的非中文字符编写对应的转换规则；

非中文字符串识别单元，用于基于所述加权有限状态转换器从目标中文文本中识别出非中文字符串；

中文字符转写单元，用于根据识别出的所述非中文字符串所属的类别，调用相匹配的目标转换规则，并基于所述目标转换规则，将识别出的所述非中文字符转写为中文字符。

9.根据权利要求8所述的系统，其特征在于，非中文字符串识别单元包括：

10.根据权利要求8所述的系统，其特征在于，转换规则编写单元包括：