CN113948087A

CN113948087A - 一种语音标签判定方法、系统、存储介质及电子设备

Info

Publication number: CN113948087A
Application number: CN202111068472.7A
Authority: CN
Inventors: 邵历; 齐路; 唐会军; 梁堃
Original assignee: Beijing Nextdata Times Technology Co ltd
Current assignee: Beijing Nextdata Times Technology Co ltd
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2022-01-18
Anticipated expiration: 2041-09-13
Also published as: CN113948087B

Abstract

本发明涉及音频识别领域，尤其涉及一种语音标签判定方法、系统、存储介质及电子设备。该方法包括：获取开源词汇，形成开源词汇集；对相关场景下的文本进行切词处理，得到切词集；获取音频文件，对所述音频文件进行处理，得到高频词汇集；获取预设名单，对预设名单进行处理得到相关词汇集；对所述开源词汇集、切词集、高频词汇集以及所述相关词汇集进行并集处理，得到词汇表；根据所述词汇表对语音内容进行标签处理。本发明可操作性强，适用于冷启动阶段；可以有效的提升内容风控领域的ASR识别准确率，以及下游nlp分类任务和标签效果，并快速应用到相关领域。

Description

一种语音标签判定方法、系统、存储介质及电子设备

技术领域

本发明涉及音频识别领域，尤其涉及一种语音标签判定方法、系统、存储介质及电子设备。

背景技术

近年来，随着互联网的快速发展以及短视频和直播领域的兴起，多媒体数据爆炸性的增长，其中语音内容在人们的生活，交流，娱乐中扮演者越来越重要的角色，在这庞大的语音内容下面潜伏着的巨大内容风险，也越来越为政府和人们所关注。

现阶段，语音内容的内容审核任务主要采用的是ASR+nlp的解决方案；通过ASR将音频内容转译成文本内容，而后利用nlp和名单，对文本内容给出相应的风险标签。其中词表作为ASR和nlp的基础，扮演着至关重要的作用，不仅直接关系到ASR转译结果的字准确率，还影响着nlp和名单给出风险标签的准确性。但现有技术中对于词表的组成过于单一，导致标签给定存在差异。

发明内容

本发明所要解决的技术问题是提供一种语音标签判定方法、系统、存储介质及电子设备。

本发明解决上述技术问题的技术方案如下：一种语音标签判定方法，包括：

获取开源词汇，形成开源词汇集；

对相关场景下的文本进行切词处理，得到切词集；

获取音频文件，对所述音频文件进行处理，得到高频词汇集；

获取预设名单，对预设名单进行处理得到相关词汇集；

对所述开源词汇集、切词集、高频词汇集以及所述相关词汇集进行并集处理，得到词汇表；

根据所述词汇表对语音内容进行标签处理。

本发明的有益效果是：通过对不同场景不同内容的语音或文字文本进行处理得到不同类别的词汇集，将词汇集整合可以提高词汇表的融合性，且通过该词汇表进一步进行标签处理方案简单，可操作性强，适用于冷启动阶段；可以有效的提升内容风控领域的ASR识别准确率，以及下游nlp分类任务和标签效果，并快速应用到相关领域。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，获取开源词汇，形成开源词汇集具体为：

通过开源数据集获取开源词汇，形成开源词汇集。

进一步，对相关场景下的文本进行切词处理，得到切词集具体为：

通过开源切词工具对相关场景下的文本进行切词处理，得到切词集，其中，相关场景为：直播场景以及游戏场景。

进一步，获取音频文件，对所述音频文件进行处理，得到高频词汇集具体为：

通过ASR对所述音频文件进行词频统计处理，将处理结果中超出预设频率的词汇进行统计，得到高频词汇集。

进一步，所述预设名单为：包含违禁词的词汇名单。

本发明解决上述技术问题的另一种技术方案如下：一种语音标签判定系统，包括：

开源词汇模块，用于获取开源词汇，形成开源词汇集；

切词模块，用于对相关场景下的文本进行切词处理，得到切词集；

高频词模块，用于获取音频文件，对所述音频文件进行处理，得到高频词汇集；

相关词模块，用于获取预设名单，对预设名单进行处理得到相关词汇集；

并集模块，用于对所述开源词汇集、所述切词集、所述高频词汇集以及所述相关词汇集进行并集处理，得到词汇表；

处理模块，用于根据所述词汇表对语音内容进行标签处理。

进一步，获取开源词汇，形成开源词汇集具体为：

通过开源数据集获取开源词汇，形成开源词汇集。

进一步，所述预设名单为：包含违禁词的词汇名单。

本发明解决上述技术问题的另一种技术方案如下：一种存储介质，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如上述任一项所述的一种语音标签判定方法。

本发明解决上述技术问题的另一种技术方案如下：一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序，所述处理器执行所述程序时实现如上述任一项所述的一种语音标签判定方法。

附图说明

图1为本发明一种语音标签判定方法实施例提供的流程示意图；

图2为本发明一种语音标签判定系统实施例提供的系统框架图。

具体实施方式

以下对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，一种语音标签判定方法，包括：

步骤1，获取开源词汇，形成开源词汇集；

步骤2，对相关场景下的文本进行切词处理，得到切词集；

步骤3，获取音频文件，对所述音频文件进行处理，得到高频词汇集；

步骤4，获取预设名单，对预设名单进行处理得到相关词汇集；

步骤5，对所述开源词汇集、切词集、高频词汇集以及所述相关词汇集进行并集处理，得到词汇表；

步骤6，根据所述词汇表对语音内容进行标签处理。

在一些可能的实施方式中，通过对不同场景不同内容的语音或文字文本进行处理得到不同类别的词汇集，将词汇集整合可以提高词汇表的融合性，且通过该词汇表进一步进行标签处理方案简单，可操作性强，适用于冷启动阶段；可以有效的提升内容风控领域的ASR识别准确率，以及下游nlp分类任务和标签效果，并快速应用到相关领域。

需要说明的是，开源词汇集是通过互联网收集相关领域的开源词汇，即通过开源数据集进行开源词汇的获取；

切词集是通过相关场景下的文本基于多种切词方法，切词后取其交集；相关场景可以为直播场景或者游戏场景等；切词工具可以为jieba切词，HanLP等；交集的获取为：同一批文本利用不同的切词工具的不同模式进行切词，如果一个词在所有结果中均出现，即为交集，并非基于开源词汇取交集；

高频词汇集是通过：ASR转译结果进行词频统计，取高频词汇；对于词频的统计可以理解为统计的是对应词的出现频次，这里的样本是音频转译过来的文本，即ASR需要转译的真实数据，这里高频的词汇就是是对应业务场景下的高频词，即该领域经常会出现的一些词，这些词作为词表重要的一部分

相关词汇集是通过获取标签名单即预设名单里面的相关词汇，结合应用场景，ASR作为语音风控的基础服务，最终的效果是以标签的形式展现的，所以标签名单里面的词都要求包含在词表中，标签中不仅有违禁词，还有短语等固定话术；

词汇表是将前面几个步骤获取的词汇取并集。当词汇表形成后，在不同场景中转换的语音文本可以对照词汇表进行敏感词或非法词等内容的标签判定。

实施例1，通过ASR转译结果获取部分相关场景下的高频词汇现有样本A，为ASR对线上数据的转译结果，如表1：

表1样本A

有几个法师上单场上只有
	嗯嗯嗯太真实了 98k 我我就去了
小哥哥教教怎么这样我还是要听怎么唱啊我不太会
	一张狼人牌我离线一张金水牌我一直在线就这么聊过了嗯三狼

通过对样本A的词频统计，可以获得如下这些游戏相关场景的高频词汇，这类词汇传统切词方法很难将根据文本信息切词切出，ASR转译的时候其实是结合部分声学特征，如表2所示，通过表2进行标签处理。

表2特征

法师
	上单
98K
	狼人牌

优选地，在上述任意实施例中，获取开源词汇，形成开源词汇集具体为：

通过开源数据集获取开源词汇，形成开源词汇集。

优选地，在上述任意实施例中，对相关场景下的文本进行切词处理，得到切词集具体为：

需要说明的是，切词工具可以为jieba切词，HanLP等。

优选地，在上述任意实施例中，获取音频文件，对所述音频文件进行处理，得到高频词汇集具体为：

优选地，在上述任意实施例中，所述预设名单为：包含违禁词的词汇名单。

如图2所示，一种语音标签判定系统，包括：

开源词汇模块100，用于获取开源词汇，形成开源词汇集；

切词模块200，用于对相关场景下的文本进行切词处理，得到切词集；

高频词模块300，用于获取音频文件，对所述音频文件进行处理，得到高频词汇集；

相关词模块400，用于获取预设名单，对预设名单进行处理得到相关词汇集；

并集模块500，用于对所述开源词汇集、所述切词集、所述高频词汇集以及所述相关词汇集进行并集处理，得到词汇表；

处理模块600，用于根据所述词汇表对语音内容进行标签处理。

通过开源数据集获取开源词汇，形成开源词汇集。

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的方法实施例仅仅是示意性的，例如，步骤的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个步骤可以结合或者可以集成到另一个步骤，或一些特征可以忽略，或不执行。

上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音标签判定方法，其特征在于，包括：

获取开源词汇，形成开源词汇集；

对相关场景下的文本进行切词处理，得到切词集；

获取预设名单，对预设名单进行处理得到相关词汇集；

对所述开源词汇集、所述切词集、所述高频词汇集以及所述相关词汇集进行并集处理，得到词汇表；

根据所述词汇表对语音内容进行标签处理。

2.根据权利要求1所述的一种语音标签判定方法，其特征在于，获取开源词汇，形成开源词汇集具体为：

通过开源数据集获取开源词汇，形成开源词汇集。

3.根据权利要求1所述的一种语音标签判定方法，其特征在于，对相关场景下的文本进行切词处理，得到切词集具体为：

4.根据权利要求1所述的一种语音标签判定方法，其特征在于，获取音频文件，对所述音频文件进行处理，得到高频词汇集具体为：

5.根据权利要求1所述的一种语音标签判定方法，其特征在于，所述预设名单为：包含违禁词的词汇名单。

6.一种语音标签判定系统，其特征在于，包括：

开源词汇模块，用于获取开源词汇，形成开源词汇集；

处理模块，用于根据所述词汇表对语音内容进行标签处理。

7.根据权利要求6所述的一种语音标签判定系统，其特征在于，获取开源词汇，形成开源词汇集具体为：

通过开源数据集获取开源词汇，形成开源词汇集。

8.根据权利要求6所述的一种语音标签判定系统，其特征在于，对相关场景下的文本进行切词处理，得到切词集具体为：

9.一种存储介质，其特征在于，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如权利要求1至4中任一项所述的一种语音标签判定方法。

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述的一种语音标签判定方法。