CN104505090A

CN104505090A - 敏感词的语音识别方法和装置

Info

Publication number: CN104505090A
Application number: CN201410778052.1A
Authority: CN
Inventors: 刘粉香
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2014-12-15
Filing date: 2014-12-15
Publication date: 2015-04-08
Anticipated expiration: 2034-12-15
Also published as: CN104505090B

Abstract

本发明公开了一种敏感词的语音识别方法和装置。其中，敏感词的语音识别方法包括：获取待测音频；利用预先建立的敏感词训练模型对待测音频中的音频片段进行标记，将待测音频中的包含有目标敏感词的音频片段标记为第一预设标识，其中，敏感词训练模型为根据标记有第一预设标识的包含有目标敏感词的音频数据进行训练得到的模型，敏感词训练模型用于检测目标敏感词的语音；以及从标记的待测音频中提取具有第一预设标识的音频段，作为目标敏感词的音频。通过本发明，解决了现有技术中语音敏感词识别的准确性低的问题，达到了提高语音敏感词识别的准确性的效果。

Description

敏感词的语音识别方法和装置

技术领域

本发明涉及语音检测领域，具体而言，涉及一种敏感词的语音识别方法和装置。

背景技术

目前，敏感词的语音识别技术主要基于建立的语音敏感词语料库，用匹配分析的方式对敏感词进行识别，其缺点是需要提前建立语音敏感词语料库，对于多语种则要建立多个语料库；部分语音敏感词分析过程中，需要先翻译为文本再根据文本语料库匹配敏感词，定位敏感词语音位置，这样的语音敏感词的识别准确性较低。

针对现有技术中语音敏感词识别的准确性低的问题，目前尚未提出有效的解决方案。

发明内容

本发明的主要目的在于提供一种敏感词的语音识别方法和装置，以解决现有技术中语音敏感词识别的准确性低的问题。

为了实现上述目的，根据本发明实施例的一个方面，提供了一种敏感词的语音识别方法。根据本发明的敏感词的语音识别方法包括：获取待测音频；利用预先建立的敏感词训练模型对所述待测音频中的音频片段进行标记，将所述待测音频中的包含有目标敏感词的音频片段标记为第一预设标识，其中，所述敏感词训练模型为根据标记有所述第一预设标识的包含有所述目标敏感词的音频数据进行训练得到的模型，所述敏感词训练模型用于检测所述目标敏感词的语音；以及从待测音频中提取具有所述第一预设标识的音频段，作为所述目标敏感词的音频。

进一步地，通过以下方式建立所述敏感词训练模型：收集包含有所述目标敏感词的音频数据；从所述音频数据中剪切出预设时间长度的包含有所述目标敏感词的第一音频片段；添加所述第一音频片段的标记为所述第一预设标识；对标记有所述第一预设标识的第一音频片段进行训练，得到所述敏感词训练模型。

进一步地，在收集包含有所述目标敏感词的音频数据之后，所述语音识别方法还包括：从所述音频数据中剪切出所述预设时间长度的不包含有所述目标敏感词的第二音频片段；添加所述第二音频片段的标记为第二预设标识，其中，使用支持向量机对标记有所述第一预设标识的第一音频片段和标记有所述第二预设标识的第二音频片段进行训练，得到所述敏感词训练模型。

进一步地，使用支持向量机对标记有所述第一预设标识的第一音频片段和标记有所述第二预设标识的第二音频片段进行训练，得到所述敏感词训练模型包括：使用所述支持向量机并添加高斯核函数和松弛因子对标记有所述第一预设标识的第一音频片段和标记有所述第二预设标识的第二音频片段进行训练，得到所述敏感词训练模型。

进一步地，利用预先建立的敏感词训练模型对所述待测音频中的音频片段进行标记包括：按照所述预设时间长度对所述待测音频进行划分，得到多个待测音频段；利用所述敏感词训练模型对所述多个待测音频段进行标记，将包含有所述目标敏感词的待测音频段标记为所述第一预设标识，将不包含有所述目标敏感词的待测音频段标记为所述第二预设标识。

为了实现上述目的，根据本发明实施例的另一方面，提供了一种敏感词的语音识别装置。根据本发明的敏感词的语音识别装置包括：获取单元，用于获取待测音频；标记单元，用于利用预先建立的敏感词训练模型对所述待测音频中的音频片段进行标记，将所述待测音频中的包含有目标敏感词的音频片段标记为第一预设标识，其中，所述敏感词训练模型为根据标记有所述第一预设标识的包含有所述目标敏感词的音频数据进行训练得到的模型，所述敏感词训练模型用于检测所述目标敏感词的语音；以及提取单元，用于从标记的待测音频中提取具有所述第一预设标识的音频段，作为所述目标敏感词的音频。

进一步地，所述语音识别装置还包括：收集单元，用于收集包含有所述目标敏感词的音频数据；第一剪切单元，用于从所述音频数据中剪切出预设时间长度的包含有所述目标敏感词的第一音频片段；第一添加单元，用于添加所述第一音频片段的标记为所述第一预设标识；训练单元，用于对标记有所述第一预设标识的第一音频片段进行训练，得到所述敏感词训练模型。

进一步地，所述语音识别装置还包括：第二剪切单元，用于在收集包含有所述目标敏感词的音频数据之后，从所述音频数据中剪切出所述预设时间长度的不包含有所述目标敏感词的第二音频片段；第二添加单元，用于添加所述第二音频片段的标记为第二预设标识，所述训练单元还用于使用支持向量机对标记有所述第一预设标识的第一音频片段和标记有所述第二预设标识的第二音频片段进行训练，得到所述敏感词训练模型。

进一步地，所述训练单元包括：训练模块，用于使用所述支持向量机并添加高斯核函数和松弛因子对标记有所述第一预设标识的第一音频片段和标记有所述第二预设标识的第二音频片段进行训练，得到所述敏感词训练模型。

进一步地，所述标记单元包括：划分模块，用于按照所述预设时间长度对所述待测音频进行划分，得到多个待测音频段；标记模块，用于利用所述敏感词训练模型对所述多个待测音频段进行标记，将包含有所述目标敏感词的待测音频段标记为所述第一预设标识，将不包含有所述目标敏感词的待测音频段标记为所述第二预设标识。

根据本发明实施例，通过利用预先建立的敏感词训练模型对待测音频中的音频片段进行标记，将待测音频中的包含有目标敏感词的音频片段标记为第一预设标识，无需进行文本翻译，相对于建立语料库进行匹配方式其准确性得到明显提高，解决了现有技术中语音敏感词识别的准确性低的问题，达到了提高语音敏感词识别的准确性的效果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的敏感词的语音识别方法的流程图；以及

图2是根据本发明实施例的敏感词的语音识别装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供了一种敏感词的语音识别方法。

图1是根据本发明实施例的敏感词的语音识别方法的流程图。如图1所示，该敏感词的语音识别方法包括步骤如下：

步骤S102，获取待测音频。

该待测音频可以是包含有目标敏感词语音的音频，当然，该待测音频还可以包含非语音的背景音以及非目标敏感词语音的其他语音。获取该待测音频，以便于从该待测音频中检测出目标敏感词语音。

步骤S104，利用预先建立的敏感词训练模型对待测音频中的音频片段进行标记，将待测音频中的包含有目标敏感词的音频片段标记为第一预设标识。其中，敏感词训练模型为根据标记有第一预设标识的包含有目标敏感词的音频数据进行训练得到的模型，敏感词训练模型用于检测目标敏感词的语音。

敏感词训练模型的建立可以是根据将目标敏感词语音标记为第一预设标识的音频数据训练得到的用于检测目标敏感词语音的训练模型，具体地，可以是先采集大量的包含有目标敏感词的音频数据，作为语音训练集数据。然后从采集的音频数据剪切出目标敏感词的语音并进行标记，将音频数据中包含有目标敏感词的音频段标记为第一预设标识。最后，从标记的音频数据中选择合适的样本进行训练，得到敏感词训练模型，从而可以利用该敏感词训练模型来识别待测音频中的目标敏感词的语音。

当将获取到的待测音频输入到敏感词训练模型之后，该敏感词训练模型根据训练得到的参数从所述待测音频中识别出目标敏感词语音，并将其标记上第一预设标识。

步骤S106，从标记的待测音频中提取具有第一预设标识的音频片段，作为目标敏感词的音频。

在利用敏感词训练模型对待测音频中的音频片段进行标记之后，从标记的待测音频中提取具有第一预设标识的音频片段，作为目标敏感词的音频，从而定位到目标敏感词的位置。

优选地，通过以下方式建立敏感词训练模型：收集包含有目标敏感词的音频数据；从音频数据中剪切出预设时间长度的包含有目标敏感词的第一音频片段；添加第一音频片段的标记为第一预设标识；对标记有第一预设标识的第一音频片段进行训练，得到敏感词训练模型。

通过收集包含有目标敏感词的音频数据，作为训练集。从收集的音频数据中剪切出第一音频片段，即包含有目标敏感词的音频片段，具体地，可以先利用语音端点检测方法检测出音频数据中语音段，再选择合适的预设时间长度，从该语音段中剪切出包含有目标敏感词的第一音频片段。其中，预设时间长度根据目标敏感词的语音长度来选择，例如，当目标敏感词为“天安门”时，人们通常只需花大概两秒的时间就能完整地说出“天安门”，考虑到一些语速较慢，或者，不同口音说出的时间可能相对长一点，那么在以“天安门”为目标名词时，可以选择预设时间长度为5秒，这基本上能够覆盖绝大部分“天安门”语音的长度。

在剪切出第一音频片段之后，将该第一音频片段标记上第一预设标识，例如“1”，然后将标记有第一预设标识的第一音频片段作为样本，对其进行训练，得到上述敏感词训练模型，这样，训练出的训练模型就能够根据训练得到的参数识别出目标敏感词的语音，并将其标记为第一预设标识。

进一步地，在收集包含有目标敏感词的音频数据之后，语音识别方法还包括：从音频数据中剪切出预设时间长度的不包含有目标敏感词的第二音频片段；添加第二音频片段的标记为第二预设标识，其中，使用支持向量机对标记有第一预设标识的第一音频片段和标记有第二预设标识的第二音频片段进行训练，得到敏感词训练模型。

为了使得敏感词训练模型更加准确地识别出目标敏感词，本发明实施例中，在收集到音频数据之后，按照一定规则或者随机从音频数据中剪切出预设时间长度的不包含有目标敏感词的音频片段即第二音频片段，并将其标记上第二预设标识，例如“-1”。

在使用支持向量机训练敏感词训练模型的时候，以标记有第一预设标识的第一音频片段作为正样本，以标记有第二预设标识的第二音频片段作为负样本，训练模型。这样，在利用训练得到的敏感词训练模型进行目标敏感词语音的识别过程中，可以迅速地将包含有目标敏感词的音频片段标记为第一预设标识，将不包含有目标敏感词的音频片段标记为第二预设标识，提高目标敏感词识别的准确性。

进一步地，使用支持向量机对标记有第一预设标识的第一音频片段和标记有第二预设标识的第二音频片段进行训练，得到敏感词训练模型包括：使用支持向量机并添加高斯核函数和松弛因子对标记有第一预设标识的第一音频片段和标记有第二预设标识的第二音频片段进行训练，得到敏感词训练模型。

本发明实施例中，为了使敏感词训练模型具有语音抗噪功能，减少由于语音不连续性对敏感词训练模型的参数的影响，并使得敏感词训练模型快速稳定，在使用支持向量机训练模型时，向模型中加入高斯函数和松弛因子，从而进一步提高敏感词语音识别的准确性。

优选地，利用预先建立的敏感词训练模型对待测音频中的音频片段进行标记包括：按照预设时间长度对待测音频进行划分，得到多个待测音频段；利用敏感词训练模型对多个待测音频段进行标记，将包含有目标敏感词的待测音频段标记为第一预设标识，将不包含有目标敏感词的待测音频段标记为第二预设标识。

本发明实施例中，将在利用敏感词训练模型对待测音频进行标记时，先按照之前训练得到敏感词训练模型时的规则对待测音频进行划分，即按照上述中预设时间长度来对待测音频进行划分，得到多个待测音频段。然后，利用敏感词训练模型训练得到的参数来确定划分得到的多个待测音频段中每个音频段标记的标识，即第一预设标识和第二预设标识，实现对待测音频的标记。

本发明实施例还提供了一种敏感词的语音识别装置。该装置可以通过计算机设备实现其功能。需要说明的是，本发明实施例的敏感词的语音识别装置可以用于执行本发明实施例所提供的敏感词的语音识别方法，本发明实施例的敏感词的语音识别方法也可以通过本发明实施例所提供的敏感词的语音识别装置来执行。

图2是根据本发明实施例的敏感词的语音识别装置的示意图。如图2所示，该敏感词的语音识别装置包括：获取单元10、标记单元20和提取单元30。

获取单元10用于获取待测音频。

标记单元20用于利用预先建立的敏感词训练模型对待测音频中的音频片段进行标记，将待测音频中的包含有目标敏感词的音频片段标记为第一预设标识，其中，敏感词训练模型为根据标记有第一预设标识的包含有目标敏感词的音频数据进行训练得到的模型，敏感词训练模型用于检测目标敏感词的语音。

提取单元30用于从标记的待测音频中提取具有第一预设标识的音频段，作为目标敏感词的音频。

优选地，语音识别装置还包括：收集单元，用于收集包含有目标敏感词的音频数据；第一剪切单元，用于从音频数据中剪切出预设时间长度的包含有目标敏感词的第一音频片段；第一添加单元，用于添加第一音频片段的标记为第一预设标识；训练单元，用于对标记有第一预设标识的第一音频片段进行训练，得到敏感词训练模型。通过上述单元来建立敏感词训练模型。

具体地，收集包含有目标敏感词的音频数据，作为训练集。从收集的音频数据中剪切出第一音频片段，即包含有目标敏感词的音频片段，具体地，可以先利用语音端点检测方法检测出音频数据中语音段，再选择合适的预设时间长度，从该语音段中剪切出包含有目标敏感词的第一音频片段。其中，预设时间长度根据目标敏感词的语音长度来选择，例如，当目标敏感词为“天安门”时，人们通常只需花大概两秒的时间就能完整地说出“天安门”，考虑到一些语速较慢，或者，不同口音说出的时间可能相对长一点，那么在以“天安门”为目标名词时，可以选择预设时间长度为5秒，这基本上能够覆盖绝大部分“天安门”语音的长度。

进一步地，语音识别装置还包括：第二剪切单元，用于在收集包含有目标敏感词的音频数据之后，从音频数据中剪切出预设时间长度的不包含有目标敏感词的第二音频片段；第二添加单元，用于添加第二音频片段的标记为第二预设标识，训练单元还用于使用支持向量机对标记有第一预设标识的第一音频片段和标记有第二预设标识的第二音频片段进行训练，得到敏感词训练模型。

进一步地，训练单元包括：训练模块，用于使用支持向量机并添加高斯核函数和松弛因子对标记有第一预设标识的第一音频片段和标记有第二预设标识的第二音频片段进行训练，得到敏感词训练模型。

优选地，标记单元包括：划分模块，用于按照预设时间长度对待测音频进行划分，得到多个待测音频段；标记模块，用于利用敏感词训练模型对多个待测音频段进行标记，将包含有目标敏感词的待测音频段标记为第一预设标识，将不包含有目标敏感词的待测音频段标记为第二预设标识。

综上，本发明实施例的敏感词的语音识别方法基于标记的语音敏感词，采用支持向量机分类的方法进行敏感词的语音分析，反复训练样本，得到语音模型，比基于匹配的方法抗噪性、鲁棒性更好。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、移动终端、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种敏感词的语音识别方法，其特征在于，包括：

获取待测音频；

利用预先建立的敏感词训练模型对所述待测音频中的音频片段进行标记，将所述待测音频中的包含有目标敏感词的音频片段标记为第一预设标识，其中，所述敏感词训练模型为根据标记有所述第一预设标识的包含有所述目标敏感词的音频数据进行训练得到的模型，所述敏感词训练模型用于检测所述目标敏感词的语音；以及

从标记的待测音频中提取具有所述第一预设标识的音频段，作为所述目标敏感词的音频。

2.根据权利要求1所述的语音识别方法，其特征在于，通过以下方式建立所述敏感词训练模型：

收集包含有所述目标敏感词的音频数据；

从所述音频数据中剪切出预设时间长度的包含有所述目标敏感词的第一音频片段；

添加所述第一音频片段的标记为所述第一预设标识；

对标记有所述第一预设标识的第一音频片段进行训练，得到所述敏感词训练模型。

3.根据权利要求2所述的语音识别方法，其特征在于，在收集包含有所述目标敏感词的音频数据之后，所述语音识别方法还包括：

从所述音频数据中剪切出所述预设时间长度的不包含有所述目标敏感词的第二音频片段；

添加所述第二音频片段的标记为第二预设标识，

其中，使用支持向量机对标记有所述第一预设标识的第一音频片段和标记有所述第二预设标识的第二音频片段进行训练，得到所述敏感词训练模型。

4.根据权利要求3所述的语音识别方法，其特征在于，使用支持向量机对标记有所述第一预设标识的第一音频片段和标记有所述第二预设标识的第二音频片段进行训练，得到所述敏感词训练模型包括：

使用所述支持向量机并添加高斯核函数和松弛因子对标记有所述第一预设标识的第一音频片段和标记有所述第二预设标识的第二音频片段进行训练，得到所述敏感词训练模型。

5.根据权利要求3所述的语音识别方法，其特征在于，利用预先建立的敏感词训练模型对所述待测音频中的音频片段进行标记包括：

按照所述预设时间长度对所述待测音频进行划分，得到多个待测音频段；

利用所述敏感词训练模型对所述多个待测音频段进行标记，将包含有所述目标敏感词的待测音频段标记为所述第一预设标识，将不包含有所述目标敏感词的待测音频段标记为所述第二预设标识。

6.一种敏感词的语音识别装置，其特征在于，包括：

获取单元，用于获取待测音频；

标记单元，用于利用预先建立的敏感词训练模型对所述待测音频中的音频片段进行标记，将所述待测音频中的包含有目标敏感词的音频片段标记为第一预设标识，其中，所述敏感词训练模型为根据标记有所述第一预设标识的包含有所述目标敏感词的音频数据进行训练得到的模型，所述敏感词训练模型用于检测所述目标敏感词的语音；以及

提取单元，用于从标记的待测音频中提取具有所述第一预设标识的音频段，作为所述目标敏感词的音频。

7.根据权利要求6所述的语音识别装置，其特征在于，所述语音识别装置还包括：

收集单元，用于收集包含有所述目标敏感词的音频数据；

第一剪切单元，用于从所述音频数据中剪切出预设时间长度的包含有所述目标敏感词的第一音频片段；

第一添加单元，用于添加所述第一音频片段的标记为所述第一预设标识；

训练单元，用于对标记有所述第一预设标识的第一音频片段进行训练，得到所述敏感词训练模型。

8.根据权利要求7所述的语音识别装置，其特征在于，所述语音识别装置还包括：

第二剪切单元，用于在收集包含有所述目标敏感词的音频数据之后，从所述音频数据中剪切出所述预设时间长度的不包含有所述目标敏感词的第二音频片段；

第二添加单元，用于添加所述第二音频片段的标记为第二预设标识，

所述训练单元还用于使用支持向量机对标记有所述第一预设标识的第一音频片段和标记有所述第二预设标识的第二音频片段进行训练，得到所述敏感词训练模型。

9.根据权利要求8所述的语音识别装置，其特征在于，所述训练单元包括：

训练模块，用于使用所述支持向量机并添加高斯核函数和松弛因子对标记有所述第一预设标识的第一音频片段和标记有所述第二预设标识的第二音频片段进行训练，得到所述敏感词训练模型。

10.根据权利要求8所述的语音识别装置，其特征在于，所述标记单元包括：

划分模块，用于按照所述预设时间长度对所述待测音频进行划分，得到多个待测音频段；

标记模块，用于利用所述敏感词训练模型对所述多个待测音频段进行标记，将包含有所述目标敏感词的待测音频段标记为所述第一预设标识，将不包含有所述目标敏感词的待测音频段标记为所述第二预设标识。