CN109637520B

CN109637520B - 基于语音分析的敏感内容识别方法、装置、终端及介质

Info

Publication number: CN109637520B
Application number: CN201811202988.4A
Authority: CN
Inventors: 刘轲
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-10-16
Filing date: 2018-10-16
Publication date: 2023-08-22
Anticipated expiration: 2038-10-16
Also published as: CN109637520A

Abstract

本发明公开了一种基于语音分析的敏感内容识别方法、装置、终端及介质，终端获取待测音频片段和当前语音场景，并获得所述待测音频片段中的每个语音帧的语音特征向量，根据预先建立的前馈型序列记忆网络模型，将所述语音特征向量作为输入，获得与所述语音特征向量对应的语义文本，再确定与所述当前语音场景对应的敏感信息库，不同的语音场景对应不同的敏感信息库，提高了判断敏感内容的准确性，再根据预先建立的双向神经网络模型以及确定的所述敏感信息库，确定所述语义文本的敏感指数，将语义文本与敏感信息库语义比较，进一步提高准确性，在所述敏感指数大于预设敏感阀值时，将所述待测音频片段标记为敏感内容。

Description

基于语音分析的敏感内容识别方法、装置、终端及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于语音分析的敏感内容识别方法、装置、终端及介质。

背景技术

人工智能，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等，而语音识别技术在人工智能中尤为重要。

目前，敏感词的语音识别技术主要基于建立的语音敏感词语语料库，用匹配分析的方式对敏感词进行识别，由于敏感词单一，缺乏根据不同的应用场景，搭建对应的敏感词模型，敏感内容识别不够准确。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供了一种基于语音分析的敏感内容识别方法、装置、终端及介质，旨在解决现有技术对敏感内容识别不够准确的技术问题。

为实现上述目的，本发明提供了一种基于语音分析的敏感内容识别方法，包括：

终端获取待测音频片段和当前语音场景，并获得所述待测音频片段中的每个语音帧的语音特征向量；

根据预先建立的前馈型序列记忆网络模型，将所述语音特征向量作为输入，获得与所述语音特征向量对应的语义文本；

确定与所述当前语音场景对应的敏感信息库；

根据预先建立的双向神经网络模型以及确定的所述敏感信息库，确定所述语义文本的敏感指数；

在所述敏感指数大于预设敏感阀值时，将所述待测音频片段标记为敏感内容。

优选地，所述获取待测音频片段和当前语音场景，并获得所述待测音频片段中的每个语音帧的语音特征向量的步骤之前，还包括：

建立前馈型序列记忆网络模型，所述前馈型序列记忆网络模型的隐层连接有反馈连接块，以存储历史信息和未来信息。

优选地，所述根据预先建立的前馈型序列记忆网络模型，将所述语音特征向量作为输入，获得与所述语音特征向量对应的语义文本的步骤，具体为：

根据预先建立的前馈型序列记忆网络模型，将所述语音特征向量采用拼接帧作为输入，获得与所述语音特征向量对应的语义文本。

优选地，所述根据预先建立的双向神经网络模型以及确定的敏感信息库，确定所述语义文本的敏感指数的步骤，具体包括：

将所述语义文本作为第一输入语句、所述敏感信息库中的一条敏感语句作为第二输入语句，对所述第一输入语句和第二输入语句进行预处理；

将预处理后的第一输入语句和第二输入语句分别作为双向神经网络模型的输入，分别得到第一输出和第二输出；

比对第一输出和第二输出的相似度，以得到所述语义文本与所述敏感语句的相似度值；

确定所述敏感信息库中与所述语义文本相似度值最高的敏感语句，将最高的所述相似度值作为敏感指数。

优选地，所述获取待测音频片段和当前语音场景，并获得所述待测音频片段中的每个语音帧的语音特征向量的步骤，具体包括：

获取待测音频片段和当前语音场景；

对所述待测音频片段的首尾端的静音切除处理；

对静音切除处理后的所述待测音频分帧处理得到多个语音帧；

对每个所述语音帧进行特征提取，得到每个所述语音帧的语音特征向量。

优选地，所述获取待测音频片段和当前语音场景的步骤，具体包括：

获取待测音频片段；

根据所述待测音频片段，获取所述待测音频片段的背景音频；

根据所述背景音频，确定当前语音场景。

优选地，所述获取待测音频片段和当前语音场景的步骤，具体包括：获取所述待测音频片段和所述终端的当前位置；

根据所述当前位置，判断当前所处的地理环境；

根据当前的所述地理环境和所述背景音频，确定当前语音场景。

为实现上述目的，本发明还提供一种基于语音分析的敏感内容识别装置，包括：

参数获取模块，用于获取待测音频片段和当前语音场景，并获得所述待测音频片段中的每个语音帧的语音特征向量；

语义分析模块，用于根据预先建立的前馈型序列记忆网络模型，将所述语音特征向量作为输入，获得与所述语音特征向量对应的语义文本；

信息确定模块，用于确定与所述当前语音场景对应的敏感信息库；

敏感分析模块，用于根据预先建立的双向神经网络模型以及确定的所述敏感信息库，确定所述语义文本的敏感指数；

敏感确定模块，用于在所述敏感指数大于预设敏感阀值时，将所述待测音频片段标记为敏感内容。

为实现上述目的，本发明还提供一种终端，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于语音分析的敏感内容识别程序，所述基于语音分析的敏感内容识别程序配置为实现上述的基于语音分析的敏感内容识别方法的步骤。

为实现上述目的，本发明还提供一种存储介质，所述存储介质上存储有基于语音分析的敏感内容识别程序，所述基于语音分析的敏感内容识别程序被处理器执行时实现如上述的基于语音分析的敏感内容识别方法的步骤。

本发明终端获取待测音频片段和当前语音场景，并获得所述待测音频片段中的每个语音帧的语音特征向量，根据预先建立的前馈型序列记忆网络模型，将所述语音特征向量作为输入，获得与所述语音特征向量对应的语义文本，再确定与所述当前语音场景对应的敏感信息库，不同的语音场景对应不同的敏感信息库，提高了判断敏感内容的准确性，再根据预先建立的双向神经网络模型以及确定的所述敏感信息库，确定所述语义文本的敏感指数，将语义文本与敏感信息库语义比较，进一步提高准确性，在所述敏感指数大于预设敏感阀值时，将所述待测音频片段标记为敏感内容，解决了现有技术对敏感内容识别不够准确的技术问题。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端的结构示意图；

图2为本发明基于语音分析的敏感内容识别方法第一实施例的流程示意图；

图3为本发明基于语音分析的敏感内容识别方法第二实施例的流程示意图；

图4为本发明基于语音分析的敏感内容识别方法第三实施例的流程示意图；

图5为本发明基于语音分析的敏感内容识别方法第四实施例的流程示意图；

图6为本发明基于语音分析的敏感内容识别方法第五实施例的流程示意图；

图7为本发明基于语音分析的敏感内容识别方法第六实施例的流程示意图；

图8为本发明基于语音分析的敏感内容识别方法第七实施例的流程示意图；

图9为本发明基于语音分析的敏感内容识别装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图。

如图1所示，该终端可以包括：处理器1001，例如中央处理器(Central ProcessingUnit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity， WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory，RAM)存储器，也可以是稳定的非易失性存储器(Non-Volatile Memory， NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001 的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及基于语音分析的敏感内容识别程序。

在图1所示的终端中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明终端中的处理器 1001、存储器1005可以设置在终端中，所述终端通过处理器1001调用存储器1005中存储的基于语音分析的敏感内容识别程序，并执行本发明实施例提供的基于语音分析的敏感内容识别方法。

本发明实施例提供了一种基于语音分析的敏感内容识别方法，参照图2，图2为本发明基于语音分析的敏感内容识别方法第一实施例的流程示意图。

本实施例中，所述基于语音分析的敏感内容识别方法包括如下步骤：

步骤S10：终端获取待测音频片段和当前语音场景，并获得所述待测音频片段中的每个语音帧的语音特征向量；

需要说明的是，本实施例方法的执行主体为终端，所述待测音频片段可以为包含目标敏感词语音的音频，还可以是包含非语音的背景音以及非目标敏感词语音的其他语音。

应该理解的是，由于描述一个语音，需要的参数个数比较多，对处理速度的要求很高，因此需要降维，用语音帧frames去分割语音波形，每帧大概 10ms，每帧提取可以代表该语音帧语音的39个数字，这39个数字也就是该帧语音的特征，用语音特征向量来表示，可以有效反映出语音信号特征的关键特征参数形成特征矢量序列。

具体实现时，还需要对所述待测音频片段预处理，即对输入的原始语音信号进行处理，例如进行反混叠滤波、采样、A/D转换等过程进行数字化，再进行预处理，包括预加重、加窗和分帧、端点检测等，滤除掉其中的不重要的信息以及背景噪声，并进行语音信号的端点检测(找出语音信号的始末)、语音分帧(近似认为在10-30ms内是语音信号是短时平稳的，将语音信号分割为一段一段进行分析)以及预加重(提升高频部分)等处理，再进行语音特征提取。其中，端点检测方法包括短时能量En、短时平均过另率Zn、双门限端点检测等。

而语音特征的提取方法包括线性预测系统(LPCC)、Mel频率倒谱系数 (MFCC)参数以及小波分析等方式，在此不做具体限制。

语音场景对于敏感信息库的确定具有一定的影响，例如在家里，在KTV，在酒店，在办公场所等的敏感信息库是不相同的。以办公场所为例，工资待遇等为敏感内容，而在家里工资待遇不一定为敏感内容。

具体实现时，获取当前语音场景可以是终端所处网络环境、地理位置等体现终端当前所处环境特征的参数，也可以是根据待测音频片段分析的当前环境，例如待测音频片段中背景的噪音量以及背景声音，例如在商场，背景声音会有卖场广播，在KTV会有较大的噪音量，在饭店，会有劝酒等声音，也可以前后两种的结合，例如当前所处于用户家中，但是根据待测音频片段分析是同事在家聚餐，则语音场景需要根据两者的结合进行判断。

其中，网络环境参数可以包括终端当前的无线或有线网络的名称、IP地址等参数，地理位置参数可以是终端当前所处的位置区域、位置坐标等参数，再根据电子地图判断当前的地理环境，例如酒店、住宅、办公楼等；也可以是获取终端当前所处的地理环境以及当前时间，根据终端当前所处的位置区域以及当前时间判断当前语音场景；也可以是统计在预设时间内固定时间点终端在出现在同一位置的次数以及时间，例如若是晚上12点以后到早6点经常所在的位置，则判断为住所。

步骤S20：根据预先建立的前馈型序列记忆网络模型，将所述语音特征向量作为输入，获得与所述语音特征向量对应的语义文本；

需要说明的是，前馈型序列记忆网络模型FSMN(Feed-forward SequentialMemory Network)。

步骤S30：确定与所述当前语音场景对应的敏感信息库；

需要说明的是，敏感信息库的建立可以根据不同的语音场景分别建立，能更有效真实的反应出当前语音场景下的敏感内容。敏感信息库可以是用户自定义设定的，也可以是根据获取例如根据用户对不同地理环境敏感内容的评分或设定，再例如在酒桌上的敏感内容，可以选取评分高的敏感内容增添至该地理环境的敏感信息库，又例如在用户家中，公司同事聚餐的语音场景，可以选择与工作环境对应的敏感信息库，也可以用户自定义。

步骤S40：根据预先建立的双向神经网络模型以及确定的所述敏感信息库，确定所述语义文本的敏感指数；

应该理解的是，双向神经网络可以为双向LSTM神经网络，通常第一输入语句和第二输入语句分别输入双向LSTM神经网络后是分隔开的，在本实施例中，两条语句输入后的双向LSTM神经网络模型首尾是联接在一起的，可以将第一输入语句与第二输入语句结合在一起分析。

通过预先建立的双向神经网络模型以及确定的所述敏感信息库，判断语义文本与敏感信息库中的语句的语义相似程度，以此来确定语义文本的敏感指数，相较于现有技术中仅仅采用关键词匹配来判断敏感指数更准确，更贴近实际。例如在工作环境下“主管面试时对面试人员说你期望的薪资是多少”，此时若仅采用关键词匹配，在工作环境下关键词“工资”是敏感词，则此时会提示为敏感内容，而对于面试时对询问期望薪资是正常沟通需要，而并非敏感内容。

在其他实施例中，也可以根据其他本领域公知的分析两个语句语义相似程度的算法模型，在此不做具体限制。

需要说明的是，所述确定语义文本的敏感指数，可以是根据语义文本与敏感信息库中的语句进行理解，判断相似度，取相似度最高的值作为该语义文本的敏感指数；也可以是对敏感信息库中的语句设置敏感权值λ，语义文本与敏感信息库中的语句的相似度γ，取λ·γ作为敏感指数，将语义文本与各敏感信息库中语句的敏感指数值最高的值作为该语义文本的敏感指数。

步骤S50：在所述敏感指数大于预设敏感阀值时，将所述待测音频片段标记为敏感内容。

需要说明的是，预设敏感阀值可以是用户自定义的，也可以是根据当前语音场景定义的，例如在办公环境下，敏感阀值会相对低一些，可以提高敏感度；而在家，敏感阀值会相对高一些，可以有效降低敏感度。

具体实现时，在敏感指数大于预设敏感阀值时，将所述待测音频片段标记为敏感内容，可以是发出声音或震动等方式以提醒用户，也可以是采用其他方式提醒用户，在此不做限制。

终端获取待测音频片段和当前语音场景，并获得所述待测音频片段中的每个语音帧的语音特征向量，根据预先建立的前馈型序列记忆网络模型，将所述语音特征向量作为输入，获得与所述语音特征向量对应的语义文本，再确定与所述当前语音场景对应的敏感信息库，不同的语音场景对应不同的敏感信息库，提高了判断敏感内容的准确性，再根据预先建立的双向神经网络模型以及确定的所述敏感信息库，确定所述语义文本的敏感指数，将语义文本与敏感信息库语义比较，进一步提高准确性，在所述敏感指数大于预设敏感阀值时，将所述待测音频片段标记为敏感内容，解决了现有技术对敏感内容识别不够准确的技术问题。

参考图3，图3为本发明基于语音分析的敏感内容识别方法第二实施例的流程示意图。

基于上述第一实施例，在本实施例中，所述步骤S10之前，还包括：

步骤S101，建立前馈型序列记忆网络模型，所述前馈型序列记忆网络模型的隐层连接有反馈连接块，以存储历史信息和未来信息；

需要说明的是，所述反馈连接块连接在隐层旁，用于记录对当前语音有用的历史信息和未来信息，记录的长度根据需要而定；在前馈型序列记忆网络模型的隐层连接有反馈连接块，可以是隐层当前时刻的输入中有一部分是前一时刻(也可以是历史的某一时刻)的隐层输出，如此通过循环反馈连接看到前面所有时刻的信息，提高语义理解的准确性；对未来信息记忆时，不用等待语音输入结束才能对当前语音帧进行判断的限制，它只需要等待有限长度的未来语音帧即可。

具体实现时，所述前馈型序列记忆网络模型的建立具体包括：获取语音样本数据；初始化前馈型序列记忆网络模型的参数，根据所述前馈型序列记忆网络模型以及所述样本数据计算前馈型序列记忆网络模型的参数。

反馈连接块设置在隐层旁，使用前馈结构，一方面，使得模型对未来信息记忆时，只需要等待有限长度的未来语音帧即可；另一方面，反馈连接块与隐层的连接权重返回传给各个时刻即可，梯度传播在任何时刻的衰减可以是常数，也可以是训练的。

参考图4，图4为本发明基于语音分析的敏感内容识别方法第三实施例的流程示意图。

基于上述第一实施例，在本实施例中，所述步骤S20，具体包括：

步骤S21：根据预先建立的前馈型序列记忆网络模型，将所述语音特征向量采用拼接帧作为输入，获得与所述语音特征向量对应的语义文本。

需要说明的是，语音是一种各帧之间具有很强相关性的复杂时变信号，这种相关性主要体现在说话时的协同发音现象上，往往前后好几个字对我们正要说的字都有影响，也就是语音的各帧之间具有长时相关性，输入特征采用拼接帧，可以学到一定程度的上下文信息，可以有效提高语义文本的准确性。

具体实现时，将所述语音特征向量采用拼接帧是通过将多个语音帧的语音特征向量拼接为一帧语音，输入到前馈型序列记忆网络模型中。

参考图5，图5为本发明基于语音分析的敏感内容识别方法第四实施例的流程示意图。

基于上述第一实施例，在本实施例中，所述步骤S50，具体包括：

步骤S51：将所述语义文本作为第一输入语句、所述敏感信息库中的一条敏感语句作为第二输入语句，对所述第一输入语句和第二输入语句进行预处理；

需要注意的是，对所述第一输入语句和第二输入语句进行预处理可以包括对第一输入语句和第二输入语句进行切词，主要是以词语为一个单位进行切词；在切词的同时也可以对词语的词性(例如动词、介词、名词等)及位置进行标记。

步骤S52：将预处理后的第一输入语句和第二输入语句分别作为双向神经网络模型的输入，分别得到第一输出和第二输出；

步骤S53：比对第一输出和第二输出的相似度，以得到所述语义文本与所述敏感语句的相似度值；

需要说明的是，相似度的计算公式可以是通过余弦相似性来计算，计算公式如下：

其中，cosθ余弦值的范围在[-1,1]之间，值越趋近于1，代表两个向量的方向越趋近于0，第一输出y₁和第二输出y₂相应的相似度也越高。

也可以将第一输出和第二输出拼接在一起，作为完整的上下文语义向量，根据完成的上下文语义向量计算匹配度，以此判断第一输出和第二输出的相似度。

步骤S54：确定所述敏感信息库中与所述语义文本相似度值最高的敏感语句，将最高的所述相似度值作为敏感指数。

需要说明的是，敏感指数的判断是以所述敏感信息库中与所述语义文本相似度值最高的敏感语句最高的相似度，即只要语义文本与敏感信息库中任一语句相似度达到阀值，则判断该语句为敏感语句。

参考图6，图6为本发明基于语音分析的敏感内容识别方法第五实施例的流程示意图。

基于上述第一实施例，在本实施例中，所述步骤S10，具体包括：

步骤S11：获取待测音频片段和当前语音场景；

需要说明的是，所述待测音频片段可以为包含目标敏感词语音的音频，还可以是包含非语音的背景音以及非目标敏感词语音的其他语音。

步骤S12：对所述待测音频片段的首尾端的静音切除处理；

需要说明的是，对所述待测音频片段的首尾端的静音切除处理可以有效提高语义分析效率。

步骤S13：对静音切除处理后的所述待测音频分帧处理得到多个语音帧；

应该理解的是，由于描述一个语音，需要的参数个数比较多，对处理速度的要求很高，因此需要降维，用语音帧frames去分割语音波形，每帧大概 10ms，每帧提取可以代表该语音帧语音的39个数字。

步骤S14：对每个所述语音帧进行特征提取，得到每个所述语音帧的语音特征向量。

需要说明的是，语音特征的提取方法包括线性预测系统(LPCC)、Mel频率倒谱系数(MFCC)参数以及小波分析等方式，在此不做具体限制。用语音帧 frames去分割语音波形，每帧大概10ms，每帧提取可以代表该语音帧语音的 39个数字，这39个数字也就是该帧语音的特征，用语音特征向量来表示，可以有效反映出语音信号特征的关键特征参数形成特征矢量序列。

参考图7，图7为本发明基于语音分析的敏感内容识别方法第六施例的流程示意图。

基于上述第一实施例，在本实施例中，所述步骤S10中所述获取待测音频片段和当前语音场景，具体包括：

步骤S11：获取待测音频片段；

步骤S12：根据所述待测音频片段，获取所述待测音频片段的背景音频；

需要说明的是，在本实施例中，获取所述待测音频片段的背景音频可以是待测音频片段中的背景音频分隔出来，在其他实施例中，也可以是通过其他本领域技术人员公知的方式。

步骤S13：根据所述背景音频，确定当前语音场景。

需要说明的是，背景音频也可以在一定程度上说明当前的语音场景，例如在商场，商场的背景会有卖场广播，根据卖场广播可以判断出该语音场景；而饭桌上，会有劝酒等声音，根据劝酒等声音可以判断出该语音场景。

具体实现时，可以是根据背景音频中的关键词与语音场景的关键词匹配，以确定当前语音场景。

参考图8，图8为本发明基于语音分析的敏感内容识别方法第七施例的流程示意图。

步骤S11’：获取所述待测音频片段和所述终端的当前位置；

需要说明的是，获取所述终端的当前位置可以是通过全球定位系统 (GlobalPositioning System，通常简称GPS)来进行获取。

步骤S12’：根据所述当前位置，判断当前所处的地理环境；

具体实现时，地理环境的判断可以是根据电子地图，查找当前位置所在的地理环境，例如饭店、住宅、商场等。

步骤S13’：根据所述待测音频片段，获取所述待测音频片段的背景音频；

步骤S14’：根据当前的所述地理环境和所述背景音频，确定当前语音场景。

需要说明的是，将地理环境与背景音频相结合综合考虑，以此判断当前敏感内容。在本实施例中，通过分别对地理环境和背景音频预先设置权重，以此判断当前语音场景。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有基于语音分析的敏感内容识别程序，所述基于语音分析的敏感内容识别程序被处理器执行时实现如上文所述的基于语音分析的敏感内容识别方法的步骤。

参照图9，图9为本发明基于语音分析的敏感内容识别装置第一实施例的结构框图。

如图9所示，本发明实施例提出的基于语音分析的敏感内容识别装置包括：

参数获取模块901，用于获取待测音频片段和当前语音场景，并获得所述待测音频片段中的每个语音帧的语音特征向量；

语义分析模块902，用于根据预先建立的前馈型序列记忆网络模型，将所述语音特征向量作为输入，获得与所述语音特征向量对应的语义文本；

信息确定模块903，用于确定与所述当前语音场景对应的敏感信息库；

需要说明的是，敏感信息库的建立可以根据不同的语音场景分别建立，能更有效真实的反应出当前语音场景下的敏感内容。敏感信息库可以是用户自定义设定的，也可以是根据获取，例如根据用户对不同地理环境敏感内容的评分或设定，例如在酒桌上的敏感内容，可以选取评分高的敏感内容增添至该地理环境的敏感信息库。

例如，在用户家中，公司同事聚餐的语音场景，可以选择与工作环境对应的敏感信息库，也可以用户自定义。

敏感分析模块904，用于根据预先建立的双向神经网络模型以及确定的所述敏感信息库，确定所述语义文本的敏感指数；

应该理解的是，双向神经网络可以为双向LSTM神经网络，通常第一输入语句和第二输入语句分别输入两个双向LSTM神经网络后是分隔开的，在本实施例中，两个双向LSTM神经网络模型是联接在一起的。通过预先建立的双向神经网络模型以及确定的所述敏感信息库，判断语义文本与敏感信息库中的语句的语义相似程度，以此来确定语义文本的敏感指数，相较于现有技术中仅仅采用关键词匹配来判断敏感指数更准确，更贴近实际。例如在工作环境下“主管面试时对面试人员说你期望的薪资是多少”，此时若仅采用关键词匹配，假设工作环境下工资是敏感词，则此时会提示为敏感内容，而对于面试时对询问期望薪资是正常沟通，而并非敏感内容。

敏感确定模块905，用于在所述敏感指数大于预设敏感阀值时，将所述待测音频片段标记为敏感内容。

本发明基于语音分析的敏感内容识别装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于语音分析的敏感内容识别方法，其特征在于，包括：

确定与所述当前语音场景对应的敏感信息库，所述敏感信息库根据不同的语音场景建立；

在所述敏感指数大于预设敏感阀值时，将所述待测音频片段标记为敏感内容；

其中，所述获取待测音频片段和当前语音场景，并获得所述待测音频片段中的每个语音帧的语音特征向量的步骤之前，还包括：

获取语音样本数据；

初始化前馈型序列记忆网络模型的参数；

根据所述前馈型序列记忆网络模型以及所述语音样本数据计算前馈型序列记忆网络模型的参数，所述前馈型序列记忆网络模型的隐层连接有反馈连接块，以存储历史信息和未来信息；

其中，所述获取待测音频片段和当前语音场景的步骤，还包括：获取所述待测音频片段和所述终端的当前位置；

根据所述当前位置，判断当前所处的地理环境；

2.如权利要求1所述的基于语音分析的敏感内容识别方法，其特征在于，所述根据预先建立的前馈型序列记忆网络模型，将所述语音特征向量作为输入，获得与所述语音特征向量对应的语义文本的步骤，具体为：

3.如权利要求1所述的基于语音分析的敏感内容识别方法，其特征在于，所述根据预先建立的双向神经网络模型以及确定的敏感信息库，确定所述语义文本的敏感指数的步骤，具体包括：

4.如权利要求1所述的基于语音分析的敏感内容识别方法，其特征在于，所述获取待测音频片段和当前语音场景，并获得所述待测音频片段中的每个语音帧的语音特征向量的步骤，具体包括：

获取待测音频片段和当前语音场景；

对所述待测音频片段的首尾端的静音切除处理；

5.一种基于语音分析的敏感内容识别装置，其特征在于，包括：

信息确定模块，用于确定与所述当前语音场景对应的敏感信息库，所述敏感信息库根据不同的语音场景建立；

敏感确定模块，用于在所述敏感指数大于预设敏感阀值时，将所述待测音频片段标记为敏感内容；

所述参数获取模块，还用于获取语音样本数据；初始化前馈型序列记忆网络模型的参数；根据所述前馈型序列记忆网络模型以及所述语音样本数据计算前馈型序列记忆网络模型的参数，所述前馈型序列记忆网络模型的隐层连接有反馈连接块，以存储历史信息和未来信息；

所述参数获取模块，还用于获取所述待测音频片段和终端的当前位置；根据所述当前位置，判断当前所处的地理环境；根据所述待测音频片段，获取所述待测音频片段的背景音频；根据当前的所述地理环境和所述背景音频，确定当前语音场景。

6.一种终端，其特征在于，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于语音分析的敏感内容识别程序，所述基于语音分析的敏感内容识别程序配置为实现如权利要求1至4中任一项所述的基于语音分析的敏感内容识别方法的步骤。

7.一种存储介质，其特征在于，所述存储介质上存储有基于语音分析的敏感内容识别程序，所述基于语音分析的敏感内容识别程序被处理器执行时实现如权利要求1至4任一项所述的基于语音分析的敏感内容识别方法的步骤。