CN115938351A

CN115938351A - Asr语言模型的构建方法、系统、存储介质及电子设备

Info

Publication number: CN115938351A
Application number: CN202111069758.7A
Authority: CN
Inventors: 邵历; 齐路; 唐会军; 梁堃
Original assignee: Beijing Nextdata Times Technology Co ltd
Current assignee: Beijing Nextdata Times Technology Co ltd
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2023-04-07
Anticipated expiration: 2041-09-13
Also published as: CN115938351B

Abstract

本发明涉及模型建立领域，尤其涉及ASR语言模型的构建方法、系统、存储介质及电子设备。该方法包括：步骤1，获取语音样本数据；步骤2，对所述语音样本数据进行基础处理，得到样本数据；步骤3，对所述样本数据进行字符清洗，得到清洗后的第一样本数据；步骤4，对所述第一样本数据进行变体替换，得到本体数据；步骤5，对所述本体数据进行频数统计，根据统计结果生成训练样本；步骤6，根据所述训练样本对ASR语言模型进行构建。通过该方法可以获取高质量的ASR语言模型的训练样本，基于训练样本得出的ASR语言训练模型可以更加精确，同时能够快速使用到相关领域。

Description

ASR语言模型的构建方法、系统、存储介质及电子设备

技术领域

本发明涉及模型建立领域，尤其涉及ASR语言模型的构建方法、系统、存储介质及电子设备。

背景技术

现有技术中，对于语音文本数据的内容审核主要通过ASR+nlp的解决方案。其中ASR作为整个方案的基础部分，决定着音频转译的具体内容，而ASR的语言模型作为ASR的重要组成部分，控制着ASR的转译文本，所以语言模型的效果对最终的影响十分显著，高质量的语言模型训练样本，对整体效果提升是十分明显的。但现有模型对于模型训练样本的获取过于单一，其导致最终得出的模型准确率不高，无法达到预期效果。

发明内容

本发明所要解决的技术问题是提供ASR语言模型的构建方法、系统、存储介质及电子设备。

本发明解决上述技术问题的技术方案如下：一种ASR语言模型的构建方法，包括：

步骤1，获取语音样本数据；

步骤2，对所述语音样本数据进行基础处理，得到样本数据；

步骤3，对所述样本数据进行字符清洗，得到清洗后的第一样本数据；

步骤4，对所述第一样本数据进行变体替换，得到本体数据；

步骤5，对所述本体数据进行频数统计，根据统计结果生成训练样本；

步骤6，根据所述训练样本对ASR语言模型进行构建。

本发明的有益效果是：在通过对样本数据的统一化以及规范化处理可以提升训练样本的准确度以及适用度，高质量的ASR语言模型训练样本，对整体效果提升是十分明显的，因而基于训练样本得出的 ASR语言训练模型可以更加精确，同时能够快速使用到相关领域。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，语音样本数据包括：开源数据、爬虫获取的数据以及商业数据。

采用上述进一步方案的有益效果是，兼容多方面的数据可以使得最终处理出的训练样本具有更高的适用性以及准确性。

进一步，基础处理包括：将所述语音样本数据中的全角字符转换为半角字符，通过繁简体映射表将所述语音样本数据中的繁体数据转换为简体数据。

采用上述进一步方案的有益效果是，对语音样本数据进行统一化的基础处理可以更便于建立训练样本，使得训练样本更具有规范性。

进一步，基础处理还包括：对所述语音样本数据进行长度过滤处理，将所述语音样本数据中的阿拉伯数字转换为汉字，将所述语音样本数据中的英文统一处理，将所述语音样本数据中的标点替换为空格。

进一步，步骤3具体为：

对所述样本数据中的非法字符进行剔除，得到清洗后的第一样本数据。

进一步，步骤4具体为：

通过WFSA程序对所述第一样本数据进行变体替换，得到本体数据。

进一步，步骤5具体为：

对所述本体数据进行频数统计，将统计结果与预设数量上限N进行比较，若所述统计结果大于所述预设数量上限N，则保留N条本体数据，将N条本体数据生成训练样本。

本发明解决上述技术问题的另一种技术方案如下：一种ASR语言模型的构建系统，包括：

获取模块，用于获取语音样本数据；

基础处理模块，用于对所述语音样本数据进行基础处理，得到样本数据；

清洗模块，用于对所述样本数据进行字符清洗，得到清洗后的第一样本数据；

替换模块，用于对所述第一样本数据进行变体替换，得到本体数据；

统计模块，用于对所述本体数据进行频数统计，根据统计结果生成训练样本；

构建模块，用于根据所述训练样本对ASR语言模型进行构建。

本发明的有益效果是：在通过对样本数据的统一化以及规范化处理可以提升训练样本的准确度以及适用度，高质量的ASR语言模型训练样本，对整体效果提升是十分明显的，因而基于训练样本得出的ASR语言训练模型可以更加精确，同时能够快速使用到相关领域。

进一步，清洗模块具体用于：

进一步，替换模块具体用于：

进一步，统计模块具体用于：

本发明解决上述技术问题的另一种技术方案如下：一种存储介质，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如上述任一项所述的一种ASR语言模型的构建方法。

本发明解决上述技术问题的另一种技术方案如下：一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序，所述处理器执行所述程序时实现如上述任一项所述的一种ASR 语言模型的构建方法。

附图说明

图1为本发明一种ASR语言模型的构建方法实施例提供的流程示意图；

图2为本发明一种ASR语言模型的构建系统实施例提供的系统框架图。

具体实施方式

以下对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，一种ASR语言模型的构建方法，包括：

步骤1，获取语音样本数据；

步骤2，对所述语音样本数据进行基础处理，得到样本数据；

步骤4，对所述第一样本数据进行变体替换，得到本体数据；

步骤6，根据所述训练样本对ASR语言模型进行构建。

在一些可能的实施方式中，在通过对样本数据的统一化以及规范化处理可以提升训练样本的准确度以及适用度，高质量的ASR语言模型训练样本，对整体效果提升是十分明显的，因而基于训练样本得出的ASR语言训练模型可以更加精确，同时能够快速使用到相关领域。

需要说明的是，针对语音样本数据，这些文本数据可以是开源数据，也可以是网络爬虫抓取来的数据，可以自身的商业数据，这些数据经过处理后可以作为模型的训练数据；

基础处理可以为：全角字符转半角字符、通过繁简体映射表将繁体字转简体字、考虑到直播场景内容偏口语化，去除长篇的文本化内容即长度过滤，长度过滤可以理解为：通过文本长度进行过滤，通过统计音频转译文本发现，口语表达的平均句子长度要低于书面表达、数字转汉字、英文大小写统一、标点符号作为分词依据，标点符号作为分词依据可以通过下例进行辅助理解，句号，问号，感叹号替换为换行，意味着进行断句，逗号，顿号，冒号，等非断句符号替换为空格作为分词依据；

关于字符清洗，通过识别非法字符，将非法字符剔除得到处理结果，非法字符为字符编码不在中文，英文，数字范围内的，为非法字符，这些字符不会出现在口语表达中；剔除掉那些不会出现在口语表达中的字符，例如一些emoji表情符，不可见字符等(因为网络收集到的文本数据是非常不可控的，可能存在各种的字符编码在其中，但很多是不会出现在口语表达中的)；

针对变体替换，通过WFSA进行变体替换，替换后文本中出现的是对应的本体。因为在口语表达中其实不存在变体；

步骤5可以理解为：假设设置数量上限为N，对所有文本利用map reduce进行频数统计，如果句子的频数m大于N，则该句子只保留N 条。设置上限的作用是，避免单一句式影响整体数据分布。因为文本易复制的特点，真实数据中经常出现同一句话复制很多遍刷屏的现象，但是在音频中人们一句话说很多遍的代价无疑大了不少，出现的概率也小了很多，而且音频比同内容大不少，传输和存储的代价高，这是由于文本和音频表达形式的不同导致的差异，基于训练样本对模型进行构建。

实施例1，现假设有一批样本A，具体样本如表1：

表1样本A

欢迎，张大哥！
	欢迎，张大哥！
欢迎，张大哥！
	欢迎，张大哥！
觀看体验
	hello，我是来自英国的BOB，
感谢，李哥送的320个飞机

将A里面所有的全角字符转换为半角字符，标点符号替换为空格，作为分词依据，对于字符编码不在中文，英文，数字范围内的字符进行清除，结果如表2；

表2初步修改后的样本

欢迎张大哥
	欢迎张大哥
欢迎张大哥
	欢迎张大哥
觀看体验
	hello我是来自英国的BOB
感谢李哥送的320个飞机

字符转换，将A中所有大写英文转换为小写，数字转为汉字，如320转换为三百二十，将繁体字符转换为简体，结果如表3；

表3繁简体转换以及大小写转换后的样本

欢迎张大哥
	欢迎张大哥
欢迎张大哥
	欢迎张大哥
观看体验
	hello我是来自英国的bob

进行频数控制，控制样本A中的单条样本出现频数，结果如表4；

表4频数控制后的样本

利用切词工具对样本进行切词，如表5所示；

表5切词后的样本

欢迎张大哥
	欢迎张大哥
观看体验
	hello 我是来自英国的 bob
感谢李哥送的三百二十个飞机

将表5中的内容进行语言模型训练。

优选地，在上述任意实施例中，语音样本数据包括：开源数据、爬虫获取的数据以及商业数据。

在一些可能的实施方式中，兼容多方面的数据可以使得最终处理出的训练样本具有更高的适用性以及准确性。

优选地，在上述任意实施例中，基础处理包括：将所述语音样本数据中的全角字符转换为半角字符，通过繁简体映射表将所述语音样本数据中的繁体数据转换为简体数据。

在一些可能的实施方式中，对语音样本数据进行统一化的基础处理可以更便于建立训练样本，使得训练样本更具有规范性。

优选地，在上述任意实施例中，基础处理还包括：对所述语音样本数据进行长度过滤处理，将所述语音样本数据中的阿拉伯数字转换为汉字，将所述语音样本数据中的英文统一处理，将所述语音样本数据中的标点替换为空格。

优选地，在上述任意实施例中，步骤3具体为：

优选地，在上述任意实施例中，步骤4具体为：

优选地，在上述任意实施例中，步骤5具体为：

如图2所示，一种ASR语言模型的构建系统，包括：

获取模块100，用于获取语音样本数据；

基础处理模块200，用于对所述语音样本数据进行基础处理，得到样本数据；

清洗模块300，用于对所述样本数据进行字符清洗，得到清洗后的第一样本数据；

替换模块400，用于对所述第一样本数据进行变体替换，得到本体数据；

统计模块500，用于对所述本体数据进行频数统计，根据统计结果生成训练样本；

构建模块600，用于根据所述训练样本对ASR语言模型进行构建。

优选地，在上述任意实施例中，清洗模块300具体用于：

优选地，在上述任意实施例中，替换模块400具体用于：

优选地，在上述任意实施例中，统计模块500具体用于：

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的方法实施例仅仅是示意性的，例如，步骤的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个步骤可以结合或者可以集成到另一个步骤，或一些特征可以忽略，或不执行。

上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种ASR语言模型的构建方法，其特征在于，包括：

步骤1，获取语音样本数据；

步骤2，对所述语音样本数据进行基础处理，得到样本数据；

步骤4，对所述第一样本数据进行变体替换，得到本体数据；

步骤6，根据所述训练样本对ASR语言模型进行构建。

2.根据权利要求1所述的一种ASR语言模型的构建方法，其特征在于，语音样本数据包括：开源数据、爬虫获取的数据以及商业数据。

3.根据权利要求1所述的一种ASR语言模型的构建方法，其特征在于，基础处理包括：将所述语音样本数据中的全角字符转换为半角字符，通过繁简体映射表将所述语音样本数据中的繁体数据转换为简体数据。

4.根据权利要求1所述的一种ASR语言模型的构建方法，其特征在于，基础处理还包括：对所述语音样本数据进行长度过滤处理，将所述语音样本数据中的阿拉伯数字转换为汉字，将所述语音样本数据中的英文统一处理，将所述语音样本数据中的标点替换为空格。

5.根据权利要求1所述的一种ASR语言模型的构建方法，其特征在于，步骤3具体为：

6.根据权利要求1所述的一种ASR语言模型的构建方法，其特征在于，步骤4具体为：

7.根据权利要求1所述的一种ASR语言模型的构建方法，其特征在于，步骤5具体为：

8.一种ASR语言模型的构建系统，其特征在于，包括：

获取模块，用于获取语音样本数据；

构建模块，用于根据所述训练样本对ASR语言模型进行构建。

9.一种存储介质，其特征在于，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如权利要求1至7中任一项所述的一种ASR语言模型的构建方法。

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的一种ASR语言模型的构建方法。