CN110390104B

CN110390104B - 用于语音对话平台的不规则文本转写方法及系统

Info

Publication number: CN110390104B
Application number: CN201910666408.5A
Authority: CN
Inventors: 杨喜鹏; 张辉; 张晴
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2023-05-05
Anticipated expiration: 2039-07-23
Also published as: CN110390104A

Abstract

本发明实施例提供一种用于语音对话平台的不规则文本转写方法。该方法包括：通过预设匹配规则对不规则文本进行预处理，得到多条文本段，多条文本段中存在至少一条待转写文本段具有多种转写读法；将所述待转写文本段左右两端的文本段作为关键字段，通过待转写文本段与各关键字段相隔的字数，确定各关键字段的衰减因子；确定关键字段中与待转写文本段的匹配关键字段，选取匹配关键字段中衰减因子最小的匹配关键字段，对多种转写读法的待转写文本段进行消歧，确定不规则文本的转写文本。本发明实施例还提供一种用于语音对话平台的不规则文本转写系统。本发明实施例提升上下文的语义匹配度，且适用于各种文本字符，提高转写效率。

Description

用于语音对话平台的不规则文本转写方法及系统

技术领域

本发明涉及智能语音领域，尤其涉及一种用于语音对话平台的不规则文本转写方法及系统。

背景技术

文本在进行任何一种自然语言处理前需要被归一化，以将文本转换成语音进行输出。归一化过程通常需要对目标文本分词，规范词的格式，对目标文本分句。

目前的文本归一化的方案有：基于规则文本归一化，通过规则控制不规范文本转写，修改灵活，转写效率高。基于模型文本归一化：转写正确率较高。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

目前基于规则归一化方案计算效率高，且针对一些特殊的文本较为容易处理，但是该方法由于对上下文语义的匹配度不高，导致对转写歧义的地方不能很好地处理，对语义分析能力弱。基于模型文本归一化方案，需要对语言模型进行建模，因此在算法准备初期需要大量的标注文本数据，成本较高，仅适合解决特定不规范字符的转写。同时由于模型与文本数据的正确率与文本标注质量有非常密切的关系，而在文本归一化中，很多语义转写的结果较为模糊，这对标注数据造成了很大的困难。而且语言模型的执行效率相对于规则较低，导致该方法在很多机器中很难得到应用。

发明内容

为了至少解决现有技术中的文本归一化方法对语音分析能力弱，适用性差的问题。

第一方面，本发明实施例提供一种用于语音对话平台的不规则文本转写方法，包括：

通过预设匹配规则对所述不规则文本进行预处理，得到多条文本段，所述多条文本段中存在至少一条待转写文本段具有多种转写读法，其中，所述文本段包括：中文、非中文；

将所述待转写文本段左右两端的文本段作为关键字段，通过所述待转写文本段与各关键字段相隔的字数，确定各关键字段的衰减因子，所述相隔的字数与衰减因子成正比；

确定所述关键字段中与所述待转写文本段的匹配关键字段，选取所述匹配关键字段中衰减因子最小的匹配关键字段，对所述多种转写读法的待转写文本段进行消歧，确定所述不规则文本的转写文本。

第二方面，本发明实施例提供一种用于语音对话平台的不规则文本转写系统，包括：

文本预处理程序模块，用于通过预设匹配规则对所述不规则文本进行预处理，得到多条文本段，所述多条文本段中存在至少一条待转写文本段具有多种转写读法，其中，所述文本段包括：中文、非中文；

衰减因子确定程序模块，用于将所述待转写文本段左右两端的文本段作为关键字段，通过所述待转写文本段与各关键字段相隔的字数，确定各关键字段的衰减因子，所述相隔的字数与衰减因子成正比；

文本转写程序模块，用于确定所述关键字段中与所述待转写文本段的匹配关键字段，选取所述匹配关键字段中衰减因子最小的匹配关键字段，对所述多种转写读法的待转写文本段进行消歧，确定所述不规则文本的转写文本。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于语音对话平台的不规则文本转写方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的用于语音对话平台的不规则文本转写方法的步骤。

本发明实施例的有益效果在于：通过对不规则文本进行规范化的预处理，确定不规则文本段中具有多种转写读法的文本段，通过将所述文本段与左右两端的关键字段进行匹配，提升上下文的语义匹配度，通过确定的衰减因子选取转写的文本。由于预先加载了资源文件，支持中文、数字、英文、标点符号、特殊符号等转写成中文，也支持了支持辅助列表、特殊列表、单复列表等消除转写歧义，提升转写过程中规则匹配效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种用于语音对话平台的不规则文本转写方法的流程图；

图2是本发明一实施例提供的一种用于语音对话平台的不规则文本转写系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种用于语音对话平台的不规则文本转写方法的流程图，包括如下步骤：

S11：通过预设匹配规则对所述不规则文本进行预处理，得到多条文本段，所述多条文本段中存在至少一条待转写文本段具有多种转写读法，其中，所述文本段包括：中文、非中文；

S12：将所述待转写文本段左右两端的文本段作为关键字段，通过所述待转写文本段与各关键字段相隔的字数，确定各关键字段的衰减因子，所述相隔的字数与衰减因子成正比；

S13：确定所述关键字段中与所述待转写文本段的匹配关键字段，选取所述匹配关键字段中衰减因子最小的匹配关键字段，对所述多种转写读法的待转写文本段进行消歧，确定所述不规则文本的转写文本。

在本实施方式中，本方法分为五个部分，分别为加载资源、文本分段、规则匹配、消歧义以及转写五个部分。其中，加载资源的功能是，加载资源文件到内存(不限于内存)，资源文件包括规则列表、符号列表、关键字列表和符号字典。

其中，例如，规则列表包括：

#*rule-14:{lst_hg lst_hg s.s}

ret20[～-0.5]:{T<到>T<负>D<3>T<点>M<5>}；k_dao；

ret21[--1.5]:{O<1>O<2>D<3>T<点>M<5>}；；1i＝-2i＝-:2

符号列表包括：

##温度单位组合

lst_tmp；°^℃^℉^℃^°F^°K^℃

关键词列表包括：

##天气

k_tianqi_pre；500；晴^多云^阴^雪^风^云^雾^雨^闪^雪^霜^雷^雹^霾^沙尘暴^浮尘^扬沙^尘暴^霰^飑线

符号字典包括：

DM²平方分米

DM³立方分米

C㎡平方厘米

CM²平方厘米

CM³立方厘米

对于步骤S11，通过预设的匹配规则，先对所述不规则的文本进行预处理，例如不规则文本为：“这个东西有20cm”，其中“20cm”是非中文字符，中的“cm”既可以属于英文，也可以属于单位符号。

例如两句不规则文本：

使用电磁炉需要20W电量，花费很大

学校每年需要花费20W去购买电量

通过这两句不规则文本进行预处理，得到了多条文本段，例如“使用|电磁炉|需要|20W|电量，花费|很大”，“学校|每年|需要|花费|20W|去购买|电量”，所述多条文本段中存在至少一条待转写文本段具有多种转写读法，也就是中其中的20W既可以读成20“万”，又可以读成20“瓦”，“20W”也就是待转写文本段。

对于步骤S12，将所述“20W”左右两端的文本段作为关键字段，例如句子“使用|电磁炉|需要|20W|电量，花费|很大”，通过所述待转写文本段与各关键字段相隔的字数，确定各关键字段的衰减因子，例如，“需要”和“电量”与“20W”隔的字段为0，“电磁炉”和“花费”中间隔了两个字段，以此类推，通过相隔的字数与衰减因子成正比，最后确定出各关键字的衰减因子。

同样的，“学校|每年|需要|花费|20W|去购买|电量”，通过所述待转写文本段与各关键字段相隔的字数，确定各关键字段的衰减因子，例如，“花费”和“去购买”与“20W”隔的字段为0，“需要”与“20W”隔的字段为2，“电量”与“20W”隔的字段为3，以此类推不再赘述。

对于步骤S13，确定所述关键字段中与所述待转写文本段的匹配关键字段，例如句子“使用|电磁炉|需要|20W|电量，花费|很大”，确定与“20W”匹配的关键字段，确定“20W”与“电量”，“20W”与“花费”都比较匹配。选取与所述匹配关键字段中衰减因子最小的匹配关键字段，在本句中，“电量”的衰减因子为0，“花费”的衰减因子为2。从而，选取与“20W”匹配的“电量”确定，20W为20瓦。最终确定的不规则文本的转写文本为“使用电磁炉需要二十瓦电量，花费很大”。

同样的对于句子，“学校|每年|需要|花费|20W|去购买|电量”，确定与“20W”匹配的关键字段，确定“20W”与“电量”，“20W”与“花费”都比较匹配。选取与所述匹配关键字段中衰减因子最小的匹配关键字段，在本句中，“电量”的衰减因子为3，“花费”的衰减因子为0。从而，选取与“20W”匹配的“花费”确定，20W为20万。最终确定的不规则文本的转写文本为“学校每年需要花费二十万去购买电量”。

通过该实施方法可以看出，通过对不规则文本进行规范化的预处理，确定不规则文本段中具有多种转写读法的文本段，通过将所述文本段与左右两端的关键字段进行匹配，提升上下文的语义匹配度，通过确定的衰减因子选取转写的文本。由于预先加载了资源文件，支持中文、数字、英文、标点符号、特殊符号等转写成中文，也支持了支持辅助列表、特殊列表、单复列表等消除转写歧义，提升转写过程中规则匹配效率。

作为一种实施方式，在本实施例中，在将所述待转写文本段左右两端的文本段作为关键字段之后，所述方法还包括：

通过消歧辅助列表对所述待转写文本段紧邻的关键字段进行匹配，消除与关键字段紧邻的待转写文本段的歧义，确定所述不规则文本的转写文本。

在本实施方式中，例如“2012天”和“2012天津”，这类左右紧邻关键字可以通过设置辅助列表，通过设置的辅助列表可以将2012天和2012天津区分，避免“天津”中的“天”被当做“一天两天的天”处理。

通过该实施方式可以看出，为了解决紧邻关键字的歧义问题，通过设置关键字辅助列表可以解决紧邻关键字的歧义问题，提升不规则文本转写的效率。

作为一种实施方式，在本实施例中，所述预设匹配规则包括：

根据符号字典对待转写的对话文本中非中文字符进行至少一项符号属性赋值；

基于所述不规则文本，通过匹配规则确定所述多项符号属性赋值的非中文字符中最优的符号属性，其中所述匹配规则包括左侧最长匹配原则；

根据确定的非中文字符符号属性对所述不规则文本进行全排列搜索，对搜索结果进行筛选重组，确定所述不规则文本划分的一组多条文本段。

在本实施方式中，对待转写的文本段进行赋值属性组合，本专利设定但不限于：数字、英文、单属性列表(该属性只有一种转写读法)、复属性列表(该列表中的属性有两种转写读法)，特殊处理如℃等复合符号，按照最长匹配原则赋值属性。支持特殊字符直接赋值属性。

a)单列表样式(不限于此)：lst_xg；/^/^/^/

b)复列表样式(不限于此)：lsts_money；RMB^HKD^MOP^CNY^KPW

利用资源加载是加载的结构(不限于各种前缀树、FST、哈希字典等)搜索出该属性组合所有的转写结果，按照左侧最长匹配原则(不限于此规则)查找出当前搜索中最优的匹配结果。

作为一种实施方式，当对搜索结果进行筛选重组，确定所述不规则文本划分的至少两组多条文本段时，所述方法还包括：

查询各组中文本段的数量，选取文本段最少的一组作为所述不规则文本划分的文本段；

当各组的文本段数量相同时，选取所述文本段中文字数量最多的一组作为所述不规则文本划分的文本段。

在本实施方式中，例如，我出生在12年12月，通过筛选重组有以下几组划分方式：

“我|出生|在|12|年|12|月”

“我|出生在|12|年|12|月”

“我出生在|12年12月”

此时，选取文本段最少的一组作为所述不规则文本划分的文本段，为“我出生在|12年12月”。这样划分的文本段较少，可以将“12年12月”整体转写，提高转写效果。

在一些特殊情况下，可能会出现划分的文本段的数量相同，但是每个文本段的字数不同，选取文本段中文字数量最多的一组作为所述不规则文本划分的文本段，文字越多，在转写的过程中的有效信息相对越多，从而进一步提高转写的准确率。

如图2所示为本发明一实施例提供的一种用于语音对话平台的不规则文本转写系统的结构示意图，该系统可执行上述任意实施例所述的用于语音对话平台的不规则文本转写方法，并配置在终端中。

本实施例提供的一种用于语音对话平台的不规则文本转写系统包括：文本预处理程序模块11，衰减因子确定程序模块12和文本转写程序模块13。

其中，文本预处理程序模块11用于通过预设匹配规则对所述不规则文本进行预处理，得到多条文本段，所述多条文本段中存在至少一条待转写文本段具有多种转写读法，其中，所述文本段包括：中文、非中文；衰减因子确定程序模块12用于将所述待转写文本段左右两端的文本段作为关键字段，通过所述待转写文本段与各关键字段相隔的字数，确定各关键字段的衰减因子，所述相隔的字数与衰减因子成正比；文本转写程序模块13用于确定所述关键字段中与所述待转写文本段的匹配关键字段，选取所述匹配关键字段中衰减因子最小的匹配关键字段，对所述多种转写读法的待转写文本段进行消歧，确定所述不规则文本的转写文本。

进一步地，所述衰减因子确定程序模块还用于：

进一步地，所述文本预处理程序模块用于：

进一步地，所述系统还用于：

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于语音对话平台的不规则文本转写方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于语音对话平台的不规则文本转写方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于语音对话平台的不规则文本转写方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于语音对话平台的不规则文本转写方法，包括：

确定所述关键字段中与所述待转写文本段的匹配关键字段，选取所述匹配关键字段中衰减因子最小的匹配关键字段，对所述多种转写读法的待转写文本段进行消歧，确定所述不规则文本的转写文本；

其中，所述预设匹配规则包括：

基于所述不规则文本，通过匹配规则确定多项符号属性赋值的非中文字符中最优的符号属性，其中所述匹配规则包括左侧最长匹配原则；

2.根据权利要求1所述的方法，其中，在将所述待转写文本段左右两端的文本段作为关键字段之后，所述方法还包括：

3.根据权利要求1所述的方法，其中，当对搜索结果进行筛选重组，确定所述不规则文本划分的至少两组多条文本段时，所述方法还包括：

4.一种用于语音对话平台的不规则文本转写系统，包括：

文本转写程序模块，用于确定所述关键字段中与所述待转写文本段的匹配关键字段，选取所述匹配关键字段中衰减因子最小的匹配关键字段，对所述多种转写读法的待转写文本段进行消歧，确定所述不规则文本的转写文本；

其中，所述预设匹配规则包括：

5.根据权利要求4所述的系统，其中，所述衰减因子确定程序模块还用于：

6.根据权利要求4所述的系统，其中，所述文本预处理程序模块用于：

7.根据权利要求6所述的系统，其中，所述系统还用于：

8.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-3中任一项所述方法的步骤。

9.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-3中任一项所述方法的步骤。