CN106782517A

CN106782517A - 一种语音音频关键词过滤方法及装置

Info

Publication number: CN106782517A
Application number: CN201611163401.4A
Authority: CN
Inventors: 方磊; 张燕鹏; 陈学; 田原; 黄硕
Original assignee: MIGU Digital Media Co Ltd
Current assignee: MIGU Digital Media Co Ltd
Priority date: 2016-12-15
Filing date: 2016-12-15
Publication date: 2017-05-31

Abstract

本发明公开了一种语音音频关键词过滤方法，包括：识别语音音频中是否存在预先设定的关键词；对识别出的语音音频关键词所对应的音频进行替换，并将替换的音频文件与原语音音频除关键词之外音频文件重新拼合为一个语音音频文件。本发明还公开了一种语音音频关键词过滤装置。

Description

一种语音音频关键词过滤方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音音频关键词过滤方法及装置。

背景技术

目前，对有声数字内容出版作品的审查，一般是由人工进行审核内容的安全性，而这种方式需要耗费大量的人力成本；并且，人工审核容易受到审核人员编辑水平和能力的限制，而无法全部审核出不符合公开出版的关键词；即使检测出关键词后，还需要对该审核的出版作品进行再一次录音。显然，这种人工审核方法消耗了大量的人力和物力，效率不高。

发明内容

有鉴于此，本发明实施例期望提供一种语音音频关键词过滤方法及装置，能自动替换审查对象中的非法内容，减少审查过程中的工作量，提高审查效率。

为达到上述目的，本发明实施例提供了一种语音音频关键词过滤方法，所述方法包括：

识别语音音频中是否存在预先设定的关键词；

对识别出的语音音频关键词所对应的音频进行替换，并将替换的音频文件与原语音音频除关键词之外音频文件重新拼合为一个语音音频文件。

上述方案中，所述识别语音音频中是否存在预先设定的关键词包括：

将语音音频分割为单音节，识别转换为单个文字；

将所述单个文字与关键词库进行对比，识别出是否为关键词的首个字；

如果是，则将所述单个文字向后拓展为词，再与关键词库进行对比，识别出关键词；

如果不是，则将下一个音节转换为的单个文字与关键词库进行对比，识别出是否为关键词的首个字。

上述方案中，所述方法还包括：在将语音音频分割为单音节，识别转换为单个文字的过程中，将识别出来的文字和每个文字代表音节的起止时间进行标记。

上述方案中，所述对识别出的语音音频关键词所对应的音频进行替换，并将替换的音频文件与原语音音频除关键词之外音频文件重新拼合为一个语音音频文件包括：

将识别出的关键词在语音音频中起始时间位置和中止时间位置转换为数字记录文件并存储；

根据所述数字记录文件分割语音音频文件，针对每个关键词将原语音音频分为关键词前对应的音频文件、关键词对应的音频文件和关键词后对应的音频文件三段，将每个关键词分割出的音频文件用非自然音的音频文件替换；

将关键词前对应的音频文件、替换的音频文件、以及关键词后对应的音频文件拼合为一个语音音频文件。

本发明实施例还提供了一种语音音频关键词过滤装置，所述装置包括：

识别模块，用于识别语音音频中是否存在预先设定的关键词；

处理模块，用于对识别出的语音音频关键词进行替换，并将替换的音频文件与原语音音频除关键词之外音频文件重新拼合为一个语音音频文件。

上述方案中，所述识别模块还用于：

将语音音频分割为单音节，识别转换为单个文字；

上述方案中，还用于在将语音音频分割为单音节，识别转换为单个文字的过程中，将识别出来的文字和每个文字代表音节的起止时间进行标记。

上述方案中，所述处理模块，具体用于将识别出的关键词在语音音频中起始时间位置和中止时间位置转换为数字记录文件并存储；

本发明实施例提供的语音音频关键词过滤方法及装置，通过识别语音音频中是否存在预先设定的关键词；对识别出的语音音频关键词进行替换，并将替换的音频文件与原语音音频除关键词之外音频文件重新拼合为一个语音音频文件。如此，能够自动替换审查对象中的非法内容，如审查出版作品中不符合公开出版的内容，从而可以大大减少数字出版作品审查过程中的审查工作量，缩短审查时间，提高审查效率。

附图说明

图1为本发明实施例语音音频关键词过滤方法实现流程示意图；

图2为本发明实施例语音音频关键词过滤装置结构示意图；

图3为本发明实施例识别语音关键词流程示意图；

图4为本发明实施例对语音音频分割和标记示意图；

图5为本发明实施例语音音频关键词过滤方法完整流程示意图。

具体实施方式

图1为本发明实施例语音音频关键词过滤方法实现流程示意图，如图1所示，本发明实施例语音音频关键词过滤方法包括以下步骤：

步骤101：识别语音音频中是否存在预先设定的关键词；

这里，可以将审查对象中可能存在的非法内容可能采用的关键词作为预先设定的关键词，比如出版作品中不符合公开出版的内容，这类内容通常会采用的常见关键词作为预先设定的关键词，用于识别内容是否为合法内容；若干个预先设定的关键词构成关键词库，可供查找，其中所述关键词可以是单字，也可以是多个字组成的词。

本步骤可采用现有的语音识别(Speech Recognize)技术识别语音音频，所谓语音识别技术，是让机器通过识别和理解过程使其能听懂人类语言的技术；语音识别技术是信息技术中人机交互的关键技术，目前已经在呼叫中心、电信增值业务、企业信息化系统中有了广泛的应用。随着语音识别在语音搜索、语音控制等全新应用领域的深入应用，语音识别技术被业界权威人士誉为有可能引发人机界面领域革命的关键技术。目前，语音识别技术已经可以进行针对长时间音频进行语音转换文字，再通过文字的信息服务特定的应用。

具体语音识别工具可以采用隐性马尔科夫(HMM，Hidden Markov Model)模型，HMM模型是语音识别领域广泛采用的统计学模型，能表示出语音信号的时变特征和随机特征，能适应各种变化的发音，进而适合非特定人的大词汇量连续语音的识别工作。

本步骤中，具体的，所述识别语音音频关键词包括：将语音音频分割为单音节，识别转换为单个文字；

将所述单个文字与关键词库进行对比，识别出是否为关键词的首个字；如果是，则将所述单个文字向后拓展为词，再与关键词库进行对比，识别出关键词；

如果不是，则将下一个音节转换为的单个文字与关键词库进行对比，识别出是否为关键词的首个字；

循环上述步骤，依次对语音音频转换成的文字进行逐个扫描。

步骤102：对识别出的语音音频关键词进行替换，并将替换的音频文件与原语音音频除关键词之外音频文件重新拼合为一个语音音频文件。

具体的，本步骤包括：将识别出的关键词在语音音频中起始时间位置和中止时间位置转换为数字记录文件并存储；

之后，将关键词前对应的音频文件、替换的音频文件、以及关键词后对应的音频文件，根据各个关键词所在的位置重新拼合为一个新的语音音频文件。

图2为本发明实施例语音音频关键词过滤装置结构示意图，如图2所示，本发明实施例语音音频关键词过滤装置包括：识别模块201、处理模块202；其中，

识别模块201，识别语音音频中是否存在预先设定的关键词；

处理模块202，对识别出的语音音频关键词进行替换，并将替换的音频文件与原语音音频除关键词之外音频文件重新拼合为一个语音音频文件；

其中，所述识别模块201还用于：

将语音音频分割为单音节，识别转换为单个文字；

所述识别模块201，还用于在将语音音频分割为单音节，识别转换为单个文字的过程中，将识别出来的文字和每个文字代表音节的起止时间进行标记；

这里，所述起止时间包括起始时间和中止时间。

所述处理模块202，具体用于将识别出的关键词在语音音频中起始时间位置和中止时间位置转换为数字记录文件并存储；

将关键词前对应的音频文件、替换的音频文件、以及关键词后对应的音频文件，根据各个关键词所在的位置重新拼合为一个语音音频文件。

图3为本发明实施例识别语音关键词流程示意图，如图3所示，本发明实施例识别语音关键词流程包括以下步骤：

步骤301：将语音音频分割为单音节，识别转换为单个文字；

这里，对于语音音频，每一个汉字都对应一个音节，将音节作为识别单位能让识别更加灵活和准确，通过对语音音频分割为单个的音节，再将音节与汉字相对应，这样便实现了语音转换为文字的过程，这是关键词检测的前提条件；

步骤302：将所述单个文字与关键词库进行对比，识别出是否为关键词的首个字，如果是，执行步骤303；如果否，则向后移动一个音节返回步骤302继续检测；

这里，首先对语音音频进行“字”级识别，若识别结果为关键词的首个字，执行步骤303；

步骤303：当前单个文字向后扩展为词；

步骤304：判断当前词是否为关键词，如果是，执行步骤305；如果否，向后移动N个音节，返回步骤302继续检测下一个单音节转换为的文字；

这里，对扩展后的音节再进行“词”级识别，进一步判断是否为关键词；

步骤305：标记检测出的关键词在音频中的时间位置，并返回步骤302继续检测；

这里，本发明实施例中使用语音分形维数(Fractal Dimension)参数，同时结合语音短时平均能量和短时平均过零率这两种参数对语音音频进行分割，实验表明使用上述参数可以对语音音频分割准确率达到85％以上，图4为本发明实施例对语音音频分割和标记示意图，如图4所示，使用上述参数对语音音频进行分割形成音节波形和起止时间标记；所述起止时间包括起始时间和中止时间。

图5为本发明实施例语音音频关键词过滤方法完整流程示意图，如图5所示，本发明实施例语音音频关键词过滤方法完整流程包括以下步骤：

步骤501：输入语音音频；

将语音音频输入到本发明实施例语音音频关键词过滤装置中；

步骤502：语音识别；

其中，语音识别过程包括：将语音音频分割为单音节，识别转换为单个文字；

在实际应用中，对语音音频进行语音识别过程可以使用了数据准备、模型训练、识别测试等方法进行识别；其中，

数据准备是用来将采集的语音文件转换成可以被系统处理的用于训练的数据文件，包含：语音特征参数提取过程，主要提取语音的梅尔倒谱系数(MFCC，Mel-scaleFrequency Cepstral Coefficients)，其中，MFCC充分考虑的人耳的听觉特性，不仅能提高抗噪性能，而且能突出包含语音大部分信息的低频部分，有利于提高语音识别性能，对于动态性比较强的辅音，MFCC也可以能够进行很好的识别；

训练模型主要是基于Baum-Welch算法，在模型训练之前先确定隐马尔科夫模型(HMM，Hidden Markov Model)的拓扑结构，并以文本的形式进行保存，然后对语音识别模块建立HMM模型；

识别测试主要应用Viterbi算法在语音识别单元中队语音进行识别；

整个语音识别过程就是在语音数据转化之后，使用模型训练根据这些数据和相关的文本文件估计出HMM模型的参数，根据这些训练产生的模型利用识别模块将语音数据转换成相应的文字，供关键词识别使用；

步骤503：关键词识别；

其中，关键词识别过程包括：

将语音音频分割为单音节，识别转换为单个文字；

步骤504：关键词音频替换；

其中，关键词替换过程包括：将识别出的关键词在语音音频中起始和中止时间位置转换为数字记录文件并存储；根据所述数字记录文件分割语音音频文件，针对每个关键词将原语音音频分为关键词前对应的音频文件、关键词对应的音频文件和关键词后对应的音频文件三段，将每个关键词分割出的音频文件用非自然音(例如：嘀、哔等音频)的音频文件替换；

步骤505：音频拼合；

其中，音频合成过程包括：将关键词前对应的音频文件、替换的音频文件、以及关键词后对应的音频文件，根据各个关键词所在的位置重新拼合为一个语音音频文件；

步骤506：输出语音音频；

如此，获得的语音音频中的关键词自动被替换为非自然音；

通过上述步骤，先将语音音频进行文本识别后，将识别的文本与关键词库中的关键词进行匹配，并同时标记匹配文字相关的起止时间，将标记的音节进行非自然音替换；所述起止时间包括起始时间和中止时间。如此，能够降低数字出版作品审查的工作量，提高审查效率。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种语音音频关键词过滤方法，其特征在于，所述方法包括：

识别语音音频中是否存在预先设定的关键词；

2.根据权利要求1所述的方法，其特征在于，所述识别语音音频中是否存在预先设定的关键词包括：

将语音音频分割为单音节，识别转换为单个文字；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：在将语音音频分割为单音节，识别转换为单个文字的过程中，将识别出来的文字和每个文字代表音节的起止时间进行标记。

4.根据权利要求1、2或3所述的方法，其特征在于，所述对识别出的语音音频关键词所对应的音频进行替换，并将替换的音频文件与原语音音频除关键词之外音频文件重新拼合为一个语音音频文件包括：

5.一种语音音频关键词过滤装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述识别模块还用于：

将语音音频分割为单音节，识别转换为单个文字；

7.根据权利要求6所述的装置，其特征在于，所述识别模块，还用于在将语音音频分割为单音节，识别转换为单个文字的过程中，将识别出来的文字和每个文字代表音节的起止时间进行标记。

8.根据权利要求5、6或7所述的装置，其特征在于，所述处理模块，具体用于将识别出的关键词在语音音频中起始时间位置和中止时间位置转换为数字记录文件并存储；