CN109712612B

CN109712612B - 一种语音关键词检测方法及装置

Info

Publication number: CN109712612B
Application number: CN201811625225.0A
Authority: CN
Inventors: 孙威; 宋建斌; 张青; 方思军; 叶海青; 江子强; 黄大学
Original assignee: Guangdong Eshore Technology Co Ltd
Current assignee: Guangdong Eshore Technology Co Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2021-01-15
Anticipated expiration: 2038-12-28
Also published as: CN109712612A

Abstract

本发明涉及一种语音关键词检测方法及装置，通过关键词库构建，获取语音文件及实时语音数据并解码为PCM语音数据，进行语音数据预处理，使用语音识别算法将预处理语音数据转换为文本字符串，对文本字符串使用语义分析技术将文本字符串分拆为多个词组，与字符串长度相同的关键词库比对，从而进行语音数据备份与告警，实现在大型社交平台，媒体监管平台或者语音通信平台中，识别语音关键字并且记录，从而对媒体语音通信内容进行审查。

Description

一种语音关键词检测方法及装置

技术领域

本发明涉及语音识别领域，尤其是一种语音关键词检测方法及装置。

背景技术

近些年来，随着互联网的普及与流媒体技术的发展，各种音视频应用系统如雨后春笋般的出现在人们的生活中，随之而来的是包含有辱骂、暴力、淫秽等各种违法内容的音视频数据在网络上快速传播，这给互联网内容监管带了巨大的挑战，而人工智能技术的发展让解决这些监管难题成为可能，图像识别技术主要用于对视频与图片内容健康度的检查，而语音识别技术可用于对音频内容的审查。

语音关键字识别与记录是语音识别技术的一种应用，语音识别技术主要包括特征提取、模式匹配、参考模式库等三个基本单元，通过对语音信号的处理与分析，再根据人的语音特点建立语音模型，对输入的语音数据进行语音帧的分割，提取语音帧的波形变换特征向量，通过一定的匹配策略与规则检索特征值，从而确定语音对应的词汇与文字。

因此在大型社交平台，媒体监管平台或者语音通信平台中，如何识别关键字并且记录，从而对媒体或者语音通信内容进行审查是需要亟待解决的问题。

发明内容

本发明所要解决的技术问题是提供一种语音关键词检测方法及装置。

为了解决上述技术问题，本发明采用的技术方案为：一种语音关键词检测方法，包括如下步骤：

S1.关键词库构建：用户自定义关键词，根据关键词字符串长度分组存储；

S2.设置缓存池：设置环形缓存池内存；

S3.语音数据解码：获取语音文件；获取实时语音数据；对语音文件进行数据提取并解码为PCM语音数据；对实时语音数据进行数据提取并解码为PCM语音数据；

S4.语音数据预处理：对PCM语音数据进行频谱分析，构建滤波器，滤除噪声，得到预处理的语音数据；

S5.缓存处理：计算预处理语音数据长度，循环存入环形缓存池；

S6.实时语音识别：使用语音识别算法将预处理语音数据转换为文本字符串；

S7.关键词检索比对：对文本字符串使用语义分析技术将文本字符串分拆为多个词组，计算每个词组字符串长度，而后与字符串长度相同的关键词库比对，字符串匹配成功，进入步骤S8；匹配不成功，转S3；

S8.语音数据备份与告警：关键词字符串出现时间点定位上传文件语音数据地址，记录关键词、关键词出现时间、包含有关键词的语音片段数据文件路径，关键词成功告警推送给用户。

进一步的，建立会话通道用于实时传输数据。

进一步的，所述步骤S4语音数据预处理中，对PCM语音数据进行以下所述的一种或多种方法处理：对语音信号进行声学回声抵消，噪声抑制，自动增益控制，音频编码，抖动消除，丢包补偿，而后输出预处理语音数据。

进一步的，所述步骤S7关键词检索比对，具体包括：

S71.识别结果文本：接收文本字符串；

S72.词组分割：应用语义分析正向匹配与逆向匹配结合分拆文本字符串为多个词组；

S73.关键字查找匹配：计算每个词组字符串的长度，而后与字符串长度相同的关键词库比对，多个词组与关键词库分别进行比对匹配；

S74.输出比对结果：将分割后词组与关键词库的比对结果输出。

进一步的，所述步骤S8语音数据备份与告警，具体包括：

S81.关键词时间定位：关键词匹配成功后，根据关键词在语音出现时间点定位环形缓冲池中的语音数据偏移地址；

S82.关键词语音录音存储：根据偏移地址，读取该地址处前后N秒(N>0)的语音数据，并存储；

S83.生成告警日志：读取存储的语音数据，生成关键字检索日志，日志记录关键词内容、关键词出现时间、包含有关键词的语音片段数据文件的存储路径，然后转至步骤S84；

S84.输出告警列表：输出告警列表，并推动给用户。

本发明还提供一种语音识别的装置，包括，关键词库构建单元：用户自定义关键词，根据关键词字符串长度分组存储；

设置缓存池单元：设置环形缓存池内存；

语音数据解码单元：获取语音文件；获取实时语音数据；对语音文件进行数据提取并解码为PCM语音数据；对实时语音数据进行数据提取并解码为PCM语音数据；

语音数据预处理单元：对PCM语音数据进行频谱分析，构建滤波器，滤除噪声，得到预处理的语音数据；

缓存处理单元：计算预处理语音数据长度，循环存入环形缓存池；

实时语音识别单元：使用语音识别算法将预处理语音数据转换为文本字符串；

关键词检索比对单元：对文本字符串使用语义分析技术将文本字符串分拆为多个词组，计算每个词组字符串长度，而后与字符串长度相同的关键词库比对，字符串匹配成功，进入语音数据备份与告警单元；匹配不成功，转语音数据解码单元；

语音数据备份与告警单元：关键词字符串出现时间点定位上传文件语音数据地址，记录关键词、关键词出现时间、包含有关键词的语音片段数据文件路径，关键词成功告警推送给用户。

进一步的，所述语音关键词检测装置还包括语音解码单元，用于建立会话通道实时传输数据。

进一步的，语音数据预处理单元，用于对PCM语音数据进行以下所述的一种或多种方法处理：对语音信号进行声学回声抵消，噪声抑制，自动增益控制，音频编码，抖动消除，丢包补偿，而后输出预处理语音数据。

进一步的，所述关键词检索比对单元，具体包括：

识别结果文本单元：接收文本字符串；

词组分割单元：应用语义分析正向匹配与逆向匹配结合分拆文本字符串为多个词组；

关键字查找匹配单元：计算每个词组字符串的长度，而后与字符串长度相同的关键词库比对，多个词组与关键词库分别进行比对匹配；

输出比对结果单元：将分割后词组与关键词库的比对结果输出。

进一步的，所述语音数据备份与告警单元，具体包括：

关键词时间定位单元：关键词匹配成功后，根据关键词在语音出现时间点定位环形缓冲池中的语音数据偏移地址；

关键词语音录音存储单元：根据偏移地址，读取该地址处前后N秒(N>0)的语音数据，并存储；

生成告警日志单元：读取存储的语音数据，生成关键字检索日志，日志记录关键词内容、关键词出现时间、包含有关键词的语音片段数据文件的存储路径，然后转至输出告警列表单元；

输出告警列表单元：输出告警列表，并推动给用户。

本发明提供的一种语音关键词检测方法及装置，通过关键词库构建，获取语音文件及实时语音数据并解码为PCM语音数据，进行语音数据预处理，使用语音识别算法将预处理语音数据转换为文本字符串，对文本字符串使用语义分析技术将文本字符串分拆为多个词组，与字符串长度相同的关键词库比对，从而进行语音数据备份与告警，实现在大型社交平台，媒体监管平台或者语音通信平台中，识别语音关键字并且记录，从而对媒体语音通信内容进行审查。

附图说明

图1为本发明一实施例语音关键词检测方法流程图；

图2为本发明一实施例语音数据接入及解码流程图；

图3为本发明一实施例的语音数据预处理流程图；

图4为本发明一实施例的关键词检索比对流程图；

图5为本发明一实施例的语音数据备份与告警。

具体实施方式

为详细说明本发明的技术内容、构造特征、所实现目的及效果，以下结合实施方式并配合附图详予说明。

本发明最关键的构思在于：通过将获取的语音文件及实时语音数据并解码为PCM语音数据，进行语音数据预处理后，使用语音识别算法将预处理语音数据转换为文本字符串，对文本字符串使用语义分析技术将文本字符串分拆为多个词组，与字符串长度相同的关键词库比对，从而检测关键词。

本发明提出一种语音关键词检测方法，如图1所示，包括如下步骤：

S1.关键词库构建：用户自定义关键词，根据关键词字符串长度分组存储；为了后续的检索匹配更快，把用户设置的关键字或词组按照其字符长度不同分为多组进行保存，例如“银行卡”与“中奖”，“银行卡”将划分到长度为3的词组，而“中奖”划分到长度为2的词组中。第二步，同一个词组中将根据第一个字的拼音字母的先后排序。

提供输入方法，用户根据不同的应用场景与需求自定义一个或者多个中文词成为关键词，系统将根据关键词符串的长度不同进行分组存储，其中相同长度的分为一组，这样的存储方式会提高关键词的比对效率。

S2.设置缓存池：设置环形缓存池内存；比如一个数组环形缓冲区。

S3.语音数据解码：获取语音文件；获取实时语音数据；对语音文件进行数据提取并解码为PCM语音数据；对实时语音数据进行数据提取并解码为PCM语音数据；如图2所示，语音数据的接入，提供两个语音数据的接入方式，一种是语音文件接入，系统提供FTP服务接收用户上传的语音媒体文件，接收完语音媒体文件后系统将使用音视频解复用器对语音文件进行数据提取并解码为PCM数据；另一种是实时语音数据的接入，系统提供RTP服务来接收用户发送的实时语音数据，语音数据将送入语音解码模块解码成PCM数据，可以在进入语音识别之前把所有的数据都转换为16KHz的16bits的PCM数据，开源的音频数据格式转换库实现。

S5.缓存处理：计算预处理语音数据长度，循环存入环形缓存池；把预处理后的语音数据进行缓存处理，便于后续的语音数据备份。不断的送入环形缓冲区，缓冲区满了后，总是将最前进入的数据覆盖，保证新到的数据可以进入缓冲区，这也是环形缓冲区的意义所在，不用频繁增减内存，重复利用。

完成从上述描述可知，本发明的有益效果在于：对上传文件解码为PCM语音数据，进行语音数据预处理后，转换为文本字符串，对文本字符串使用语义分析技术将文本字符串分拆为多个词组，与字符串长度相同的关键词库比对，从而检测到关键词后，将关键词、关键词出现时间、包含有关键词的语音片段数据文件路径，关键词成功告警推送给用户。

实施例1：建立会话通道用于实时传输数据。

实时语音流的接入，系统提供RTP服务来接收用户发送的实时语音数据，语音数据将送入语音解码模块解码成PCM数据。

实施例2：

如图3所示，所述步骤S4语音数据预处理中，对PCM语音数据进行以下所述的一种或多种方法处理：对语音信号进行声学回声抵消，噪声抑制，自动增益控制，音频编码，抖动消除，丢包补偿，而后输出预处理语音数据。

声学回声抵消：建立远端信号模型机械能回声估计，消除回声；噪声抑制：构建滤波器，滤除噪声；自动增益控制：对输入声音进行自动正向/负向调节，保持输出声音在合理的范围；音频编码：对语音数据进行音频压缩编码；抖动消除：对语音数据抖动消除；丢包补偿：在解码端进行丢包补偿处理，提高音质。进行预处理后，提高音质。

为了提高语音识别的准确率，其中对于语音识别来说语音数据的噪声抑制最为关键，噪音抑制过程主要是将语音数据数字信号进行频谱分析，这样就能分析背景噪声响应的强度和频谱分布，然后根据这个模型就能构建一个滤波器，当检测到有人讲话的时候，滤波器同时做信号分析，能分析出讲话者的频谱，根据这些背景噪音和讲话者的频谱，这个滤波器根据两个信号的对比实时波形的改变，让讲话者声音频谱通过，对背景噪声的频谱进行抑制，降低其能量，比如说降低1至20个分贝，从而达到噪音抑制的效果。

实施例3：

如图4所示，所述步骤S7关键词检索比对，具体包括：

S71.识别结果文本：接收文本字符串；

S72.词组分割：应用语义分析正向匹配与逆向匹配结合分拆文本字符串为多个词组；正向最大匹配法与逆向最大匹配法原理：都是首先判断字句的总长度是否大于词典词条最长长度，如果大于则第一次划分词条长度为词典词条最长长度，否则为字句的总长度。然后把划分的词条在机器词典中查找匹配，如果匹配则独立成词，剩余的字句继续划词条去匹配，如果没有匹配成功，则划分的词条长度减1，变为N-1长度，用N-1长度的词组再去词典中查找匹配，直到长度为1时还没有在词典中查找到则记为非词典词，依次循环，直到划分所有的词条，正向最大匹配法与逆向最大匹配法不同的时划分的方向不同，正向最大匹配法从字句的头部开始划分，而逆向最大匹配法从字句的尾部开始划分。

字句例如：“我们看望江楼”，假设机器词典最长长度为七。

(1)正向最大匹配法：

第一次划分："我们看望江楼"长度为六，长度小于词典最长长度七，因此第一次划分取长度六，划分后词条为"我们看望江楼"，词典匹配超找失败。长度减1进行第二次划分。

第二次划分：“我们看望江”，词典匹配超找失败。长度减1进行第三次划分。

第三次划分：“我们看望”，词典匹配超找失败。长度减1进行第四次划分。

第四次划分：“我们看”，词典匹配超找失败。长度减1进行第五次划分。

第五次划分：“我们”，词典匹配超找成功，独立成词，为1个两字词。剩余字符串继续划分。

第六次划分：“看望江楼”，词典匹配超找失败。长度减1进行第七次划分

第七次划分：“看望江”，词典匹配超找失败。长度减1进行第八次划分

第八次划分：“看望”，词典匹配超找成功，独立成词，为1个两字词。剩余字符串继续划分。

第九次划分：“江楼”，词典匹配超找失败。长度减1进行第十次划分。

第十次划分：“江”，词典匹配超找失败，为1个非字典词，剩余继续划分。

第十一次划分：“楼”，词典匹配超找失败，为1个非字典词，划分结束。

因此，正向最大匹配法划分的最终结果为：我们/看望/江/楼，2个两词，2个非词典词。

(2)逆向匹配法：

第二次划分：“们看望江楼”，词典匹配超找失败。长度减1进行第三次划分。

第三次划分：“看望江楼”，词典匹配超找失败。长度减1进行第四次划分。

第四次划分：“望江楼”，词典匹配超找成功，独立成词，为1个三字词。剩余字符串继续划分。

第五次划分：“我们看”，词典匹配超找失败。长度减1进行第六次划分

第六次划分：“们看”，词典匹配超找失败。长度减1进行第七次划分

第七次划分：“看”，词典匹配超找成功，独立成词，为1个单子词。剩余字符串继续划分。

第八次划分：“我们”，词典匹配超找成功，独立成词，为1个两字词。剩余字符串继续划分。

因此，逆向最大匹配法划分的最终结果为：“我们/看/望江楼”，1个单字词，1个两词，1个三字词。

按照结果非词典词越少越好，单字词越少越好的原则，逆向匹配的结果优于正向匹配的结果，划分的结果将采用逆向匹配的结果:“我们/看/望江楼”。

实施例4：

如图5所示，所述步骤S8语音数据备份与告警，具体包括：

S84.输出告警列表：输出告警列表，并推动给用户。

记录关键词、出现在语音中的时间点、关键词语音备份文件存储路径的关联关系，记录方法有很多，可以用微型嵌入式数据库sqlite，也可以用描述性脚本文件json，本方案可以使用json文件存储。

通过告警日志，可以将数据传输给输出告警列表，将相关关键词的信息推动给用户。

本发明还提出一种语音关键词检测装置，包括：

关键词库构建单元：用户自定义关键词，根据关键词字符串长度分组存储；为了后续的检索匹配更快，把用户设置的关键字或词组按照其字符长度不同分为多组进行保存，例如“银行卡”与“中奖”，“银行卡”将划分到长度为3的词组，而“中奖”划分到长度为2的词组中。第二步，同一个词组中将根据第一个字的拼音字母的先后排序。

提供输入方法，用户根据不同的应用场景与需求自定义一个或者多个中文词成为关键词，系统将根据关键词符串的长度不同进行分组存储，其中相同长度的分为一组，这样的存储方式会提高关键词的比对效率。设置缓存池单元：设置环形缓存池内存；比如一个数组环形缓冲区。

语音数据解码单元：获取语音文件；获取实时语音数据；对语音文件进行数据提取并解码为PCM语音数据；对实时语音数据进行数据提取并解码为PCM语音数据；语音数据的接入，提供两个语音数据的接入方式，一种是语音文件接入，系统提供FTP服务接收用户上传的语音媒体文件，接收完语音媒体文件后系统将使用音视频解复用器对语音文件进行数据提取并解码为PCM数据；另一种是实时语音数据的接入，系统提供RTP服务来接收用户发送的实时语音数据，语音数据将送入语音解码模块解码成PCM数据，可以在进入语音识别之前把所有的数据都转换为16KHz的16bits的PCM数据，开源的音频数据格式转换库实现。

缓存处理单元：计算预处理语音数据长度，循环存入环形缓存池；把预处理后的语音数据进行缓存处理，便于后续的语音数据备份。不断的送入环形缓冲区，缓冲区满了后，总是将最前进入的数据覆盖，保证新到的数据可以进入缓冲区，这也是环形缓冲区的意义所在，不用频繁增减内存，重复利用。

实施例5：所述语音关键词检测装置还包括语音解码单元，用于建立会话通道实时传输数据。实时语音流的接入，系统提供RTP服务来接收用户发送的实时语音数据，语音数据将送入语音解码模块解码成PCM数据。

实施例6：

语音数据预处理单元，用于对PCM语音数据进行以下所述的一种或多种方法处理：对语音信号进行声学回声抵消，噪声抑制，自动增益控制，音频编码，抖动消除，丢包补偿，而后输出预处理语音数据。声学回声抵消：建立远端信号模型机械能回声估计，消除回声；噪声抑制：构建滤波器，滤除噪声；自动增益控制：对输入声音进行自动正向/负向调节，保持输出声音在合理的范围；音频编码：对语音数据进行音频压缩编码；抖动消除：对语音数据抖动消除；丢包补偿：在解码端进行丢包补偿处理，提高音质。进行预处理后，提高音质。

实施例7：

所述关键词检索比对单元，具体包括：

识别结果文本单元：接收文本字符串；

词组分割单元：应用语义分析正向匹配与逆向匹配结合分拆文本字符串为多个词组；正向最大匹配法与逆向最大匹配法原理：都是首先判断字句的总长度是否大于词典词条最长长度，如果大于则第一次划分词条长度为词典词条最长长度，否则为字句的总长度。然后把划分的词条在机器词典中查找匹配，如果匹配则独立成词，剩余的字句继续划词条去匹配，如果没有匹配成功，则划分的词条长度减1，变为N-1长度，用N-1长度的词组再去词典中查找匹配，直到长度为1时还没有在词典中查找到则记为非词典词，依次循环，直到划分所有的词条，正向最大匹配法与逆向最大匹配法不同的时划分的方向不同，正向最大匹配法从字句的头部开始划分，而逆向最大匹配法从字句的尾部开始划分。

(1)正向最大匹配法：

(2)逆向匹配法：

实施例8：

所述语音数据备份与告警单元，具体包括：

输出告警列表单元：输出告警列表，并推动给用户。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音关键词检测方法，其特征在于：包括如下步骤：

S2.设置缓存池：设置环形缓存池内存；

S3.语音数据解码：获取语音文件；对语音文件进行数据提取并解码为PCM语音数据，所述语音文件包括实时语音数据；

S8.语音数据备份与告警：根据关键词字符串出现时间点定位上传文件语音数据地址，记录关键词、关键词出现时间、包含有关键词的语音片段数据的文件路径，并将关键词成功告警推送给用户，

所述步骤S8语音数据备份与告警，具体包括：

S81.关键词时间定位：关键词匹配成功后，根据关键词在语音出现时间点定位环形缓存池中的语音数据偏移地址；

S82.关键词语音录音存储：根据偏移地址，读取该偏移地址处前后N秒的语音数据，并存储，其中N＞0；

S84.输出告警列表：输出告警列表，并推动给用户。

2.如权利要求1所述的一种语音关键词检测方法，其特征在于：

建立会话通道用于实时传输数据。

3.如权利要求2所述的一种语音关键词检测方法，其特征在于：所述步骤S4语音数据预处理中，对PCM语音数据进行以下一种或多种方法处理：对语音信号进行声学回声抵消，噪声抑制，自动增益控制，音频编码，抖动消除，丢包补偿，而后输出预处理语音数据。

4.如权利要求3所述的一种语音关键词检测方法，其特征在于：所述步骤S7关键词检索比对，具体包括：

S71.识别结果文本：接收文本字符串；

5.一种语音关键词检测装置，其特征在于：包括：

关键词库构建单元：用户自定义关键词，根据关键词字符串长度分组存储；

设置缓存池单元：设置环形缓存池内存；

语音数据解码单元：获取语音文件；对语音文件进行数据提取并解码为PCM语音数据，所述语音文件包括实时语音数据；

语音数据备份与告警单元：根据关键词字符串出现时间点定位上传文件语音数据地址，记录关键词、关键词出现时间、包含有关键词的语音片段数据的文件路径，并将关键词成功告警推送给用户，

所述语音数据备份与告警单元，具体包括：

关键词时间定位单元：关键词匹配成功后，根据关键词在语音出现时间点定位环形缓存池中的语音数据偏移地址；

关键词语音录音存储单元：根据偏移地址，读取该偏移地址处前后N秒的语音数据，并存储，其中N＞0；

输出告警列表单元：输出告警列表，并推动给用户。

6.如权利要求5所述的一种语音关键词检测装置，其特征在于：

所述语音关键词检测装置还包括语音解码单元，用于建立会话通道实时传输数据。

7.如权利要求6所述的一种语音关键词检测装置，其特征在于：语音数据预处理单元，用于对PCM语音数据进行以下一种或多种方法处理：对语音信号进行声学回声抵消，噪声抑制，自动增益控制，音频编码，抖动消除，丢包补偿，而后输出预处理语音数据。

8.如权利要求7所述的一种语音关键词检测装置，其特征在于：所述关键词检索比对单元，具体包括：

识别结果文本单元：接收文本字符串；