CN104679729B

CN104679729B - 录音留言有效性处理方法及系统

Info

Publication number: CN104679729B
Application number: CN201510082541.8A
Authority: CN
Inventors: 陈源凯; 蒲明彬
Original assignee: GUANGZHOU CITY IFLY ZUNHONG INFORMATION TECHNOLOGY Co Ltd
Current assignee: GUANGZHOU CITY IFLY ZUNHONG INFORMATION TECHNOLOGY Co Ltd
Priority date: 2015-02-13
Filing date: 2015-02-13
Publication date: 2018-06-26
Anticipated expiration: 2035-02-13
Also published as: CN104679729A

Abstract

录音留言有效性处理方法及系统，该方法包括步骤A：对录音留言音频进行音质异常检测，并相应优化录音留言音频的音质；步骤B：从录音留言音频中提取出语音音频；步骤C：从语音音频中提取出有效语音段；步骤D：将有效语音段转换为文本信息；步骤E：判断文本信息是否含有预设敏感词库内的敏感词，若是，执行步骤F；若否，执行步骤G；步骤F：提取文本信息中对应的敏感词，再输出不包含敏感词的文本信息；以及步骤G：输出文本信息。本发明可对录音留言的音质进行优化，提高用户服务体验，且可对敏感词进行审核把关，能够对敏感词进行有效过滤。

Description

录音留言有效性处理方法及系统

技术领域

本发明涉及一种录音留言有效性处理方法及系统。

背景技术

语音信箱是针对电信运营商传统语音信箱的使用复杂、操作门槛高等弊端优化升级的一款通信服务。用户可以通过安装客户端使用语音信箱服务，也可以通过传统指令方法进行设置更新，之后，可通过手机网络免费接收和发送语音留言、文字等消息，具有语音和文字两种记录方式，是一款融合了语音(IVR)、手机、网站的综合通信服务，致力于为用户带来全新的通信体验。

然而，现有的语音信箱对于留言全部录音，若录音留言中的用户语音包括敏感话题，容易导致泄密及侵犯个人隐私等，安全性低。另外，录音留言还包括背景音和噪音，甚至还包括挂机音等，使得录音留言质量较低，降低用户服务体验。

发明内容

针对现有技术的不足，本发明旨在于提供一种可解决上述技术问题的录音留言有效性处理方法及系统。

为实现上述目的，本发明采用如下技术方案：

一种录音留言有效性处理方法，其包括以下步骤：

步骤A：对录音留言音频进行音质异常检测，并相应优化录音留言音频的音质；

步骤B：从录音留言音频中提取出语音音频；

步骤C：从语音音频中提取出有效语音段；

步骤D：将有效语音段转换为文本信息；

步骤E：判断文本信息是否含有预设敏感词库内的敏感词，若是，执行步骤F；若否，执行步骤G；

步骤F：提取文本信息中对应的敏感词，再输出不包含敏感词的文本信息；以及

步骤G：输出文本信息。

优选地，步骤A包括以下子步骤：

步骤A1：对录音留言音频中幅度超过采样阈值的帧进行截幅处理；

步骤A2：从录音留言音频提取包络，获取每一包络的平均音量值，根据各包络的平均音量获取录音留言音频的平均音量值；以及

步骤A3：去除录音留言音频的噪声。

优选地，步骤C包括以下子步骤：

步骤C1：从语音音频中获取各个因子信息；

步骤C2：判断因子信息是否符合预设的因子信息模板，若是，执行步骤C3；若否，执行步骤C4；

步骤C3：提取出对应的因子信息，以组成有效语音段；以及

步骤C4：忽略对应的因子信息。

优选地，本方法在步骤D或步骤E或步骤F或步骤G之后还包括步骤H：根据所输入的关键词从录音留言音频中获取对应的检索结果。

优选地，步骤H包括以下子步骤：

步骤H1：通过倒排索引方式将混淆网络形式的文本信息进行合并存档；以及

步骤H2：根据所输入的关键词和存档的索引通过令牌传递检索方式获取相关的检索结果。

一种录音留言有效性处理系统，其包括以下模块：

音质优化模块：对录音留言音频进行音质异常检测，并相应优化录音留言音频的音质；

语音音频提取模块：从录音留言音频中提取出语音音频；

有效语音段提取模块：从语音音频中提取出有效语音段；

语音文本转换模块：将有效语音段转换为文本信息；

敏感词审核模块：判断文本信息是否含有预设敏感词库内的敏感词，若是，执行第一输出模块；若否，执行第二输出模块；

第一输出模块：提取文本信息中对应的敏感词，再输出不包含敏感词的文本信息；以及

第二输出模块：输出文本信息。

优选地，音质优化模块包括以下子模块：

截幅处理模块：对录音留言音频中幅度超过采样阈值的帧进行截幅处理；

音量优化模块：从录音留言音频提取包络，获取每一包络的平均音量值，根据各包络的平均音量获取录音留言音频的平均音量值；以及

去噪模块：去除录音留言音频的噪声。

优选地，有效语音段提取模块包括以下子模块：

因子信息获取模块：从语音音频中获取各个因子信息；

因子信息判定模块：判断因子信息是否符合预设的因子信息模板，若是，执行有效语音段生成模块；若否，执行因子信息忽略模块；

有效语音段生成模块：提取出对应的因子信息，以组成有效语音段；以及

因子信息忽略模块：忽略对应的因子信息。

优选地，本系统在语音文本转换模块或敏感词审核模块或第一输出模块或第二输出模块之后还包括关键词检索模块：根据所输入的关键词从录音留言音频中获取对应的检索结果。

优选地，关键词检索模块包括以下子模块：

索引建立模块：通过倒排索引方式将混淆网络形式的文本信息进行合并存档；以及

检索模块：根据所输入的关键词和存档的索引通过令牌传递检索方式获取相关的检索结果。

本发明的有益效果至少如下：

本发明可对录音留言的音质进行优化，提高用户服务体验，且可对敏感词进行审核把关，能够对敏感词进行有效过滤。

附图说明

图1为本发明录音留言有效性处理方法的较佳实施方式的主要流程图。

图2为本发明录音留言有效性处理系统的较佳实施方式的主要结构图。

具体实施方式

下面将结合附图以及具体实施方式，对本发明做进一步描述：

请参见图1，本发明涉及一种录音留言有效性处理方法，其较佳实施方式包括以下步骤：

步骤A：对录音留言音频进行音质异常检测，并相应优化录音留言音频的音质。

本步骤具体包括以下子步骤：

步骤A2：从录音留言音频提取包络，获取每一包络的平均音量值，根据各包络的平均音量获取录音留言音频的平均音量值。录音留言音频的原始音量可能会忽大忽小，本步骤可使得录音留言音频以较为均匀的音量输出，提高用户服务体验。以及

步骤A3：去除录音留言音频的噪声；具体可采用PLP(Linear Predictive Coding，线性预测分析)特征提取方式基于GMM(Gaussian Mixture Model，高斯混合模型)模型进行去噪处理。其中，噪声可指类似与白噪声、褐色噪声之类的稳定噪声，其可能由音频传输过程中某些设备所引起的，如后端的挂机音。

步骤B：从录音留言音频中提取出语音音频；

具体地，通过VAD(Voice Activity Detection，语音动态检测)算法从录音留言音频中提取出语音音频；其中，VAD算法，又称端点检测算法，用于在一段音频信号中对语音信号和非语音信号(包括无声段或背景噪声)进行划分，以提取出语音音频部分。

步骤C：从语音音频中提取出有效语音段；这里有效语音段可指说话人的语音信号、音乐等；

具体地，步骤C包括以下子步骤：

步骤C1：从语音音频中获取各个因子信息；

步骤C3：提取出对应的因子信息，以组成有效语音段；以及

步骤C4：忽略对应的因子信息。

步骤D：将有效语音段转换为文本信息；

具体地，采用DNN(Deep Neural Network，深度神经网络)建立声学模型，再根据声学模型和维特比算法对有效语音段进行识别解码，以生成混淆网络形式的文本信息，以方便后续的关键词检索。

步骤E：判断文本信息是否含有预设敏感词库内的敏感词，若是，执行步骤F；若否，执行步骤G；其中，敏感词包括词汇和词组。

步骤G：输出文本信息。

如此，本发明可保证用户最终听到的录音留言音质佳且安全性高。

本实施例中，本方法在步骤D或步骤E或步骤F或步骤G之后还包括步骤H：根据所输入的关键词从录音留言音频中获取对应的检索结果，以方便用户采用关键词查询语音记录，其中，该检索结果可为语音形式或文本形式。

具体地，步骤H包括以下子步骤：

优选地，为方便集外词的查询，可将关键词进行全切分分词和前后缀扩展处理，再和存档的索引通过令牌传递检索方式获取相关的检索结果。集外词是指语音识别词典中不包括的词语；由于汉语的每个集外词均可拆分成集内词的序列，故将关键词进行全切分分词和前后缀扩展处理再进行检索，可避免漏掉检索结果，提高检索准确率。

本发明可对录音留言的音质进行优化，提高用户服务体验，且可对敏感词进行审核把关，防止泄露用户的隐私信息，提高安全性。

参见图2，本发明还涉及一种录音留言有效性处理系统，其包括以下模块：

语音音频提取模块：从录音留言音频中提取出语音音频；

有效语音段提取模块：从语音音频中提取出有效语音段；

语音文本转换模块：将有效语音段转换为文本信息；

第二输出模块：输出文本信息。

优选地，音质优化模块包括以下子模块：

去噪模块：去除录音留言音频的噪声。

优选地，有效语音段提取模块包括以下子模块：

因子信息获取模块：从语音音频中获取各个因子信息；

因子信息忽略模块：忽略对应的因子信息。

优选地，关键词检索模块包括以下子模块：

对于本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及变形，而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。

Claims

1.一种录音留言有效性处理方法，其特征在于：其包括以下步骤：

步骤B：从录音留言音频中提取出语音音频；

步骤C：从语音音频中提取出有效语音段；

步骤D：将有效语音段转换为文本信息；其采用深度神经网络建立声学模型，再根据声学模型和维特比算法对有效语音段进行识别解码以文本信息；

步骤G：输出文本信息；

在步骤D或步骤E或步骤F或步骤G之后还包括步骤H：根据所输入的关键词从录音留言音频中获取对应的检索结果；步骤H包括以下子步骤：

2.如权利要求1所述的录音留言有效性处理方法，其特征在于：步骤A包括以下子步骤：

步骤A3：去除录音留言音频的噪声。

3.如权利要求1所述的录音留言有效性处理方法，其特征在于：步骤C包括以下子步骤：

步骤C1：从语音音频中获取各个因子信息；

步骤C3：提取出对应的因子信息，以组成有效语音段；以及

步骤C4：忽略对应的因子信息。

4.一种录音留言有效性处理系统，其特征在于：其包括以下模块：

语音音频提取模块：从录音留言音频中提取出语音音频；

有效语音段提取模块：从语音音频中提取出有效语音段；

语音文本转换模块：将有效语音段转换为文本信息；其采用深度神经网络建立声学模型，再根据声学模型和维特比算法对有效语音段进行识别解码以文本信息；

第二输出模块：输出文本信息；

在语音文本转换模块或敏感词审核模块或第一输出模块或第二输出模块之后还包括关键词检索模块：根据所输入的关键词从录音留言音频中获取对应的检索结果；关键词检索模块包括以下子模块：

5.如权利要求4所述的录音留言有效性处理系统，其特征在于：音质优化模块包括以下子模块：

音量优化模块：从录音留言音频提取包络，获取每一包络的平均音量值，根据各包络的平均音量获取录音留言音频的平均音量值；

以及

去噪模块：去除录音留言音频的噪声。

6.如权利要求4所述的录音留言有效性处理系统，其特征在于：有效语音段提取模块包括以下子模块：

因子信息获取模块：从语音音频中获取各个因子信息；

因子信息判定模块：判断因子信息是否符合预设的因子信息模板，若是，执行有效语音段生成模块；若否，执行因子信息忽略模块；有效语音段生成模块：提取出对应的因子信息，以组成有效语音段；以及

因子信息忽略模块：忽略对应的因子信息。