CN103811008A

CN103811008A - 一种音频内容识别方法和装置

Info

Publication number: CN103811008A
Application number: CN201210445076.6A
Authority: CN
Inventors: 武勇; 周连华; 孙怡; 张腾; 刘焱
Original assignee: LINKAGE-ASIAINFO TECHNOLOGIES (NANJING) Inc; SHANGHAI ZHONGYI COMMUNICATION TECHNOLOGY ENGINEERING Co Ltd; China Mobile Group Shanghai Co Ltd
Current assignee: LINKAGE-ASIAINFO TECHNOLOGIES (NANJING) Inc; SHANGHAI ZHONGYI COMMUNICATION TECHNOLOGY ENGINEERING Co Ltd; China Mobile Group Shanghai Co Ltd
Priority date: 2012-11-08
Filing date: 2012-11-08
Publication date: 2014-05-21

Abstract

本发明实施例提供一种音频内容识别方法和装置，包括：预先建立ARAM集，在需要对音频内容进行识别时，针对待识别音频信号中的每个基元，提取MFCC波形特征参数，从而可以利用针对一个基元提取出的MFCC波形特征参数与ARAM集中的ARAM进行模糊匹配，并可以将匹配度最高的ARAM对应的音频内容，确定为该基元对应的音频内容，从而通过与基于MFCC波形特征参数建立的ARAM模型匹配的方式提高识别出的音频内容的准确性。特别的，还可以通过建立特殊音频对应的ARAM，实现对短忙音、长忙音、振铃等特殊音频的准确识别。

Description

一种音频内容识别方法和装置

技术领域

本发明涉及通信领域，尤其涉及一种音频内容识别方法和装置。

背景技术

随着通信行业的快速发展，人们对于通信服务的需求越来越大，通信设备的配置也成为当今生活不可缺少的元素，而通信领域的发展也带动了整个社会经济体蓬勃快速的提升。

虽然实时通信服务给人们的通信社交生活带来了极大的便利，却也暗藏了一些隐患。近年来越来越多的电信用户受到诸如骚扰电话、电话传销等行为的困扰，更有不法分子通过实时通信网络实施电话诈骗、传播反动言论等威胁人身财产安全的行为，严重影响了广大电信用户的日常生活，同时给电信运营企业、政府监管部门的社会形象与公信力造成了极大的负面影响。如何能够快速准确地甄别出这些音频通信行为并予以精准打击，成为当前通信领域的重要目标。

传统的治理手段主要是依靠电信运营企业提供的投诉热线，由电信监管部门采用人工监听等手段来处理上述问题，费时、费力且远远达不到高效率和高精度的监管要求。

音频通信在信息检索、公司客服、产品售后服务等领域也扮演着不可或缺的角色，信息检索、公司客服、产品售后服务等都依靠方便快捷的通信网络为千万用户提供着便捷服务。而当前采用人工语音服务的手段既费时又费力，当线路繁忙时，用户更无法及时获得所需信息。

音频内容智能识别是解决上述的问题的有效手段。当前较成熟的音频内容识别技术以英文识别系统为主，中文语音由于其包含大量多音字词、四声音调等特点，音频内容识别的准确率较低。且由于公共电信网络中的特殊音频，例如短忙音(又称空号音)、长忙音、振铃等的音频信号极其相似，若要实现精准识别具有较大难度。现有技术还无法实现对公共电信网络中特殊音频的识别。

发明内容

本发明实施例提供一种音频内容识别方法和装置，用于提高音频内容识别准确率。

一种音频内容识别方法，所述方法包括：

接收待识别音频信号；

对所述待识别音频信号进行切分，确定所述待识别音频信号中的每个基元，一个基元是独立发声的最小区间对应的音频信号；

针对每个基元，提取梅尔频率倒谱系数MFCC波形特征参数，根据所述MFCC波形特征参数，与音频识别分析模型ARAM集中每个预先建立的ARAM进行模糊匹配，将匹配度最高的ARAM对应的音频内容，确定为该基元对应的音频内容；

其中，所述ARAM是根据MFCC波形特征参数建立的。

一种音频内容识别装置，所述装置包括：

接收单元，用于接收待识别音频信号；

切分单元，用于对所述待识别音频信号进行切分，确定所述待识别音频信号中的每个基元，一个基元是独立发声的最小区间对应的音频信号；

特征提取单元，用于针对切分单元确定出的每个基元，提取梅尔频率倒谱系数MFCC波形特征参数；

内容识别单元，用于根据特征提取单元提取出的所述MFCC波形特征参数，与音频识别分析模型ARAM集中每个预先建立的ARAM进行模糊匹配，将匹配度最高的ARAM对应的音频内容，确定为该基元对应的音频内容；

其中，所述ARAM是根据MFCC波形特征参数建立的。

根据本发明实施例提供的方案，可以预先建立ARAM集，在需要对音频内容进行识别时，针对待识别音频信号中的每个基元，提取MFCC波形特征参数，从而可以利用针对一个基元提取出的MFCC波形特征参数与ARAM集中的ARAM进行模糊匹配，并可以将匹配度最高的ARAM对应的音频内容，确定为该基元对应的音频内容，从而通过与基于MFCC波形特征参数建立的ARAM模型匹配的方式提高识别出的音频内容的准确性。特别的，还可以通过建立特殊音频对应的ARAM，实现对短忙音、长忙音、振铃等特殊音频的准确识别。

附图说明

图1为本发明实施例一提供的音频内容识别方法的步骤流程图；

图2为本发明实施例二提供的音频内容识别方法的层次示意图；

图3为本发明实施例三提供的音频内容识别装置的结构示意图。

具体实施方式

针对现有技术中，音频内容识别的准确率较低的问题，本发明实施例提出可以通过建立基元对应的音频识别分析模型（ARAM，Audio Recognise andAnalyse Model）模型，通过对待识别音频信号中基元与ARAM模型的匹配，来识别每个基元对应的音频内容，提高对音频内容识别的准确性。

而为了进一步提高对待识别音频信号识别的准确性，本发明实施例提出还可以利用预先设定的语法规则，进一步对待识别音频信号对应的音频内容进行合法性校验，从而更好地保证音频内容识别的准确性。

下面通过说明书附图和各实施例对本发明方案进行详细说明。

实施例一、

本发明实施例一提供一种音频内容识别方法，该方法的步骤流程可以如图1所示，包括：

步骤101、接收待识别音频信号。

在本步骤中，可以接收待识别音频信号。

步骤102、确定待识别音频信号中的基元。

在本步骤中，可以对所述待识别音频信号进行切分，确定所述待识别音频信号中的每个基元，一个基元可以理解为独立发声的最小区间对应的音频信号。

具体的，在本步骤中，可以对待识别音频信号中每个基元的开始时间和结束时间进行标注，从而对待识别音频信号以基元为单位进行分割。

步骤103、确定基元对应的音频内容。

在本实施例中，可以预先建立基元对应的ARAM，从而获得ARAM集，其中，ARAM是根据梅尔频率倒谱系数（MFCC，Mel Frequency CepstralCoefficient）波形特征参数建立的。

在本步骤中，可以针对待识别音频信号中的每个基元，提取MFCC波形特征参数，根据所述MFCC波形特征参数，与ARAM集中每个预先建立的ARAM进行模糊匹配（可以理解为，根据所述MFCC波形特征参数，与ARAM集中每个预先建立的ARAM的模型参数，如音频数据变换概率参数和变化向量参数，进行模糊匹配），将匹配度最高的ARAM对应的音频内容，确定为该基元对应的音频内容。

例如，针对待识别音频信号中的一个基元，根据针对该基元提取出的MFCC波形特征参数，与ARAM集中每个预先建立的ARAM进行模糊匹配，若匹配出的三个ARAM，分别用ARAM1，ARAM2和ARAM3表示。且与ARAM1，ARAM2和ARAM3匹配度分别为60%，90%和85%，则可以将ARAM2对应的音频内容，确定为该基元对应的音频内容。例如，ARAM2对应的音频内容为中文语音“我”，则确定该基元对应的音频内容为中文语音“我”。又如，ARAM2对应的音频内容为长忙音，则确定该基元对应的音频内容为长忙音。

较优的，如果待识别音频信号中包括多个基元，为了提高音频内容识别效率，可以采用并发处理的方式，例如，采用多线程和/或多进程的方式，同时确定待识别音频信号中每个基元对应的音频内容，在确定出待识别音频信号中每个基元对应的音频内容之后，即可以确定待识别音频信号对应的音频内容。

具体的，ARAM集中的一个ARAM可以通过以下方式建立，ARAM可以快速高效地对大量的特征参数进行迭代训练，实现快速建立，因此基于ARAM模型进行音频内容识别在一定程度上还可以提高音频识别的效率：

针对一个基元确定样本基元；针对确定出的每个样本基元，提取MFCC波形特征参数，根据提取出的MFCC波形特征参数，建立该基元的初始化ARAM（其具体实现可以参照现有技术）；对所述初始化ARAM进行迭代训练；将迭代训练后的得到的ARAM确定为ARAM集中的一个ARAM。其中，可以在ARAM模型参数为最佳值（模型参数呈稳定状态，再次训练时不再发生变化）时，确定迭代训练结束。

进一步的，本实施例还可以包括以下步骤：

步骤104、确定待识别音频信号对应的音频内容。

在本步骤中，可以按照每个基元在待识别音频信号中的排列顺序，根据所述待识别音频信号中每个基元对应的音频内容，确定所述待识别音频信号对应的音频内容。

步骤105、进行语法规则过滤。

为了进一步提高音频内容识别的准确性，可以预先建立语法规则表，在本步骤中，可以查找语法规则表，确定语法规则表中是否存在与所述待识别音频信号对应的音频内容相匹配的语法规则，利用语法规则对识别出的音频内容的准确性进行判断。如果确定语法规则表中不存在与所述待识别音频信号对应的音频内容相匹配的语法规则，可以认为该音频内容识别有误，否则，可以认为该音频内容识别准确。

而为了提高语法规则查找的速度，快速确定语法规则表中是否存在与所述待识别音频信号对应的音频内容相匹配的语法规则，可以根据语法规则索引查找语法规则表，确定语法规则表中是否存在与所述待识别音频信号对应的音频内容相匹配的语法规则。具体的，所述语法规则索引可以以语法关键字为主键，一个语法关键字对应一个ARAM对应的音频内容。

例如，预先设定的一条语法规则为连续的语法关键字“QQQ”，其中语法关键字“Q”对应的音频内容为振铃音。则若所述待识别音频信号对应的音频内容为振铃音、振铃音、振铃音（即该待识别音频信号包括的三个连续基元对应的音频内容均为振铃音），则可以通过查找语法规则表，确定语法规则表中存在与所述待识别音频信号对应的音频内容相匹配的语法规则，并可以确定待识别音频信号对应的音频内容相匹配的语法规则为：连续的语法关键字“QQQ”。

如果确定语法规则表中存在与所述待识别音频信号对应的音频内容相匹配的语法规则，可以继续执行步骤106，并结束本流程，否则，可以执行步骤107并结束本流程。

步骤106、确定音频通信行为。

如果确定语法规则表中存在与所述待识别音频信号对应的音频内容相匹配的语法规则，在本步骤中，可以根据该语法规则与音频通信行为的对应关系，确定该音频内容对应的音频通信行为。例如，如果确定语法规则表中存在的与所述待识别音频信号对应的音频内容相匹配的语法规则为连续的语法关键字“QQQ”，则可以根据该语法规则与“振铃”音频通信行为的对应关系，确定该音频内容对应的音频通信行为为“振铃”。

当然，在确定出待识别音频信号对应的音频内容所对应的音频通信行为之后，还可以进一步记录音频内容对应的音频通信行为，从而便于后续查看。

步骤107、更新ARAM集。

如果确定语法规则表中不存在与所述待识别音频信号对应的音频内容相匹配的语法规则，可以认为对所述待识别音频信号对应的音频内容的识别有误，为了后续可以提高对该音频内容的识别准确率，在本步骤中，可以利用该待识别音频信号来建立新的ARAM，补充到预先建立的ARAM集中，从而在后续可以进一步提高音频内容识别的准确性。

具体的，在本步骤中，可以针对所述待识别音频信号中每个基元，确定样本基元；针对每个基元，利用确定出的该基元的每个样本基元，提取MFCC波形特征参数，建立该基元的初始化ARAM；对该基元的初始化ARAM进行迭代训练；将迭代训练后的得到的ARAM添加到所述ARAM集。

下面通过实施例二对本发明实施例一提供的方案进行进一步说明。

实施例二、

实施例一中提供的音频内容识别方法可以进行层次结构的划分，图2为本发明实施例二提供的针对实施例一提供的音频内容识别方法的层次示意图，其中，包括音频识别建模层和音频识别分析层：

在音频识别建模层可以理解为实现ARAM模型建立，可以应用于预先建立ARAM模型过程，以及利用识别有误的待识别音频信号补充建立ARAM模型过程。音频识别建模层可以对音频信号进行特征参数提取和基元划分，并对初始化ARAM模型进行迭代训练，形成ARAM集中的ARAM模型，ARAM模型为音频识别分析层建立了音频内容识别的基础。如图2所示，包括：获得样本音频信号（A1），将样本音频信号划分为基元（A3），提取MFCC波形特征参数（A2），建立基元的初始化ARAM（A4），对初始化ARAM进行迭代训练（A5），确定基元对应的ARAM（A6）。

在音频识别分析层可以理解为根据音频识别建模层建立的ARAM模型，实现音频内容的识别，即按照实施例一中的步骤101~107，实现音频内容的识别。音频识别分析层主要负责对待识别音频信号进行特征参数的提取和识别分析，并可以对待识别音频信号的音频内容识别结果进行语法过滤。针对音频内容识别成功的待识别音频信号，将确定出的该待识别音频信号对应的音频通信行为输出，针对音频内容识别失败的待识别音频信号，将该待识别音频信号提供给音频识别建模层进行特征参数提取和训练，对ARAM集进行扩展。如图2所示，包括：获得待识别音频信号（B1），将待识别音频信号划分为基元，提取MFCC波形特征参数（B2），进行模型匹配，确定基元对应的ARAM（B3），进行语法规则过滤（B4），在确定识别成功时，保存确定出的音频通信行为（B7），在确定识别失败时，提取待识别音频信号（B5），针对该待识别音频信号，采集样本音频信号（B6）。

与本发明实施例一和实施例二基于同一发明构思，提供以下的装置。

实施例三、

本发明实施例三提供一种音频内容识别装置，该装置的结构示意图可以如图3所示，包括：

接收单元11用于接收待识别音频信号；

切分单元12用于对所述待识别音频信号进行切分，确定所述待识别音频信号中的每个基元，一个基元是独立发声的最小区间对应的音频信号；

特征提取单元13用于针对切分单元确定出的每个基元，提取梅尔频率倒谱系数MFCC波形特征参数；

内容识别单元14用于根据特征提取单元提取出的所述MFCC波形特征参数，与音频识别分析模型ARAM集中每个预先建立的ARAM进行模糊匹配，将匹配度最高的ARAM对应的音频内容，确定为该基元对应的音频内容；

其中，所述ARAM是根据MFCC波形特征参数建立的。

所述装置还包括语法过滤单元15，用于根据内容识别单元确定出的所述待识别音频信号中每个基元对应的音频内容，确定所述待识别音频信号对应的音频内容；查找语法规则表，确定语法规则表中是否存在与所述待识别音频信号对应的音频内容相匹配的语法规则，若存在，根据该语法规则与音频通信行为的对应关系，确定该音频内容对应的音频通信行为。

所述语法过滤单元15具体用于根据语法规则索引查找语法规则表，确定语法规则表中是否存在与所述待识别音频信号对应的音频内容相匹配的语法规则。

所述装置还包括建模单元16，用于在所述语法过滤单元确定语法规则表中不存在与所述待识别音频信号对应的音频内容相匹配的语法规则时，针对所述待识别音频信号中每个基元，确定样本基元；针对每个基元，利用确定出的该基元的每个样本基元，提取MFCC波形特征参数，建立该基元的初始化ARAM；对该基元的初始化ARAM进行迭代训练；将迭代训练后的得到的ARAM添加到所述ARAM集。

根据本发明实施例一~实施例三提供的方案，通过对音频信号的特征参数提取、基元划分、建模和训练，生成音频识别分析模型，然后以音频识别分析模型为基准进行音频内容的识别分析，将识别分析出的音频内容进行语法过滤，进一步确保了识别分析出的音频内容的准确性。对识别分析失败的音频信号，进行特征参数提取，建立初始化ARAM模型，并进行ARAM模型训练，及时补充到音频识别分析模型集中，进一步提高了后续音频识别分析的成功率。

本发明使用了ARAM模型对特征参数进行高效处理，并可以结合多线程、多进程，语法内存索引等多种技术手段，保证对大量音频信号的高效处理。

本发明提供的方案实现了对大量音频信号的识别分析，更包括了对短忙音、长忙音、振铃等特殊音频的精准识别分析，避免了人工分析处理的效率低，且准确性难以保证的问题，确保了处理的及时性、准确性和实用性。本发明方案通过海量测试验证（测试200GB音频数据，平均每个音频文件1MB），准确率可以达到99.9%，达到了电信级服务标准。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种音频内容识别方法，其特征在于，所述方法包括：

接收待识别音频信号；

其中，所述ARAM是根据MFCC波形特征参数建立的。

2.如权利要求1所述的方法，其特征在于，ARAM集中的一个ARAM通过以下方式建立：

针对一个基元确定样本基元；

针对确定出的每个样本基元，提取MFCC波形特征参数，根据提取出的MFCC波形特征参数，建立该基元的初始化ARAM；

对所述初始化ARAM进行迭代训练；

将迭代训练后的得到的ARAM确定为ARAM集中的一个ARAM。

3.如权利要求1或2所述的方法，其特征在于，确定所述待识别音频信号中每个基元对应的音频内容之后，所述方法还包括：

根据所述待识别音频信号中每个基元对应的音频内容，确定所述待识别音频信号对应的音频内容；

查找语法规则表，确定语法规则表中是否存在与所述待识别音频信号对应的音频内容相匹配的语法规则，若存在，根据该语法规则与音频通信行为的对应关系，确定该音频内容对应的音频通信行为。

4.如权利要求3所述的方法，其特征在于，查找语法规则表，确定语法规则表中是否存在与所述待识别音频信号对应的音频内容相匹配的语法规则，具体包括：

根据语法规则索引查找语法规则表，确定语法规则表中是否存在与所述待识别音频信号对应的音频内容相匹配的语法规则。

5.如权利要求3所述的方法，其特征在于，若确定语法规则表中不存在与所述待识别音频信号对应的音频内容相匹配的语法规则，所述方法还包括：

针对所述待识别音频信号中每个基元，确定样本基元；

针对每个基元，利用确定出的该基元的每个样本基元，提取MFCC波形特征参数，建立该基元的初始化ARAM；

对该基元的初始化ARAM进行迭代训练；

将迭代训练后的得到的ARAM添加到所述ARAM集。

6.一种音频内容识别装置，其特征在于，所述装置包括：

接收单元，用于接收待识别音频信号；

其中，所述ARAM是根据MFCC波形特征参数建立的。

7.如权利要求6所述的装置，其特征在于，所述装置还包括语法过滤单元，用于根据内容识别单元确定出的所述待识别音频信号中每个基元对应的音频内容，确定所述待识别音频信号对应的音频内容；查找语法规则表，确定语法规则表中是否存在与所述待识别音频信号对应的音频内容相匹配的语法规则，若存在，根据该语法规则与音频通信行为的对应关系，确定该音频内容对应的音频通信行为。

8.如权利要求7所述的装置，其特征在于，所述语法过滤单元，具体用于根据语法规则索引查找语法规则表，确定语法规则表中是否存在与所述待识别音频信号对应的音频内容相匹配的语法规则。

9.如权利要求7所述的装置，其特征在于，所述装置还包括建模单元，用于在所述语法过滤单元确定语法规则表中不存在与所述待识别音频信号对应的音频内容相匹配的语法规则时，针对所述待识别音频信号中每个基元，确定样本基元；针对每个基元，利用确定出的该基元的每个样本基元，提取MFCC波形特征参数，建立该基元的初始化ARAM；对该基元的初始化ARAM进行迭代训练；将迭代训练后的得到的ARAM添加到所述ARAM集。