CN114945099B - 语音监控方法、装置、电子设备及计算机可读介质 - Google Patents
语音监控方法、装置、电子设备及计算机可读介质 Download PDFInfo
- Publication number
- CN114945099B CN114945099B CN202210550817.0A CN202210550817A CN114945099B CN 114945099 B CN114945099 B CN 114945099B CN 202210550817 A CN202210550817 A CN 202210550817A CN 114945099 B CN114945099 B CN 114945099B
- Authority
- CN
- China
- Prior art keywords
- voice
- mel
- fragments
- obtaining
- sensitive word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012544 monitoring process Methods 0.000 title claims abstract description 31
- 239000012634 fragment Substances 0.000 claims abstract description 84
- 238000012545 processing Methods 0.000 claims abstract description 38
- 230000005236 sound signal Effects 0.000 claims abstract description 31
- 238000012806 monitoring device Methods 0.000 claims abstract description 7
- 238000001228 spectrum Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 23
- 230000004044 response Effects 0.000 claims description 22
- 238000009432 framing Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4396—Processing of audio elementary streams by muting the audio signal
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Databases & Information Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
Abstract
本公开涉及一种语音监控方法、装置、电子设备及计算机可读介质,属于直播技术领域。该方法包括:获取实时直播语音流,并根据所述实时直播语音流得到待匹配的语音片段;计算所述语音片段对应的音频信号,并根据所述语音片段的音频信号得到对应的语音特征参数;确定所述敏感词库中的各个敏感词对应的语音特征参数;根据所述语音片段对应的语音特征参数和各个所述敏感词对应的语音特征参数,得到所述语音片段与各个所述敏感词之间的匹配距离;在所述匹配距离小于或等于匹配距离阈值时,对所述语音片段进行敏感词处理。本公开通过将实时语音片段与敏感词的语音特征参数进行匹配,可以有效识别出直播语音中的敏感词,提高对直播语音的监管效率。
Description
技术领域
本公开涉及直播技术领域,具体而言,涉及一种语音监控方法、语音监控装置、电子设备及计算机可读介质。
背景技术
直播作为一种广受欢迎的休闲娱乐项目,用户可在终端观看主播直播的过程,并且在观看直播的同时,实时与主播通过连麦等方式进行互动。
由于直播内容的实时性,现有技术中缺乏快速且有效的手段对直播内容进行监控,导致直播过程中容易误播出低俗用语或错误使用的地名等不当用语,造成直播内容质量低下。而网络直播平台中一般会有大量的直播房间,如果逐一用服务器去进行识别、监控,则需要大量的服务器资源,造成机器成本的大量增加。
鉴于此,本领域亟需一种能够快速有效地对直播语音进行监管的方法。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种语音监控方法、语音监控装置、电子设备及计算机可读介质,进而至少在一定程度上能够快速有效地对直播语音进行监管。
根据本公开的第一个方面,提供一种语音监控方法,包括:
获取实时直播语音流,并根据所述实时直播语音流得到待匹配的语音片段;
计算所述语音片段对应的音频信号,并根据所述语音片段的音频信号得到所述语音片段对应的语音特征参数;
获取敏感词库,并确定所述敏感词库中的各个敏感词对应的语音特征参数;
根据所述语音片段对应的语音特征参数和各个所述敏感词对应的语音特征参数,得到所述语音片段与各个所述敏感词之间的匹配距离;
在所述匹配距离小于或等于匹配距离阈值时,对所述语音片段进行敏感词处理。
在本公开的一种示例性实施例中,所述根据所述实时直播语音流得到待匹配的语音片段,包括:
对所述实时直播语音流进行切分得到多个实时语音片段,并对所述实时语音片段进行预加重处理,得到对应的预加重语音片段;
获取预设的窗函数,并根据所述预加重语音片段和所述窗函数得到待匹配的语音片段。
在本公开的一种示例性实施例中,所述根据所述预加重语音片段和所述窗函数得到待匹配的语音片段,包括:
对所述预加重语音片段进行分帧处理,得到对应的分帧语音片段;
根据所述窗函数对所述分帧语音片段进行加窗处理,得到待匹配的语音片段。
在本公开的一种示例性实施例中,所述语音特征参数包括梅尔频率倒谱参数,所述根据所述语音片段的音频信号得到所述语音片段对应的语音特征参数,包括:
根据所述语音片段的音频信号得到所述语音片段对应的功率谱;
根据所述语音片段对应的功率谱得到所述语音片段对应的梅尔频率倒谱参数。
在本公开的一种示例性实施例中,所述根据所述语音片段对应的功率谱得到所述语音片段对应的梅尔频率倒谱参数,包括:
获取梅尔滤波器组中的滤波器数量,并根据所述语音片段对应的功率谱和所述滤波器数量得到所述梅尔滤波器组的能量输出;
根据所述梅尔滤波器组的能量输出得到所述语音片段对应的梅尔频率倒谱参数。
在本公开的一种示例性实施例中,所述根据所述语音片段对应的功率谱和所述滤波器数量得到所述梅尔滤波器组的能量输出,包括:
获取所述梅尔滤波器组中的各个梅尔滤波器对应的中心频率,并根据各个所述梅尔滤波器的中心频率得到各个所述梅尔滤波器的频率响应;
根据所述语音片段对应的功率谱和所述梅尔滤波器组中各个所述梅尔滤波器的频率响应得到所述梅尔滤波器组的能量输出。
在本公开的一种示例性实施例中,所述根据所述语音片段对应的语音特征参数和各个所述敏感词对应的语音特征参数,得到所述语音片段与各个所述敏感词之间的匹配距离,包括:
基于动态时间规整算法对所述语音片段对应的语音特征参数和各个所述敏感词对应的语音特征参数进行匹配,得到所述语音片段与各个所述敏感词之间的匹配距离。
根据本公开的第二方面,提供一种语音监控装置,包括:
语音片段获取模块,用于获取实时直播语音流,并根据所述实时直播语音流得到待匹配的语音片段;
音频特征获取模块,用于计算所述语音片段对应的音频信号,并根据所述语音片段的音频信号得到所述语音片段对应的语音特征参数;
敏感词特征获取模块,用于获取敏感词库,并确定所述敏感词库中的各个敏感词对应的语音特征参数;
匹配距离确定模块,用于根据所述语音片段对应的语音特征参数和各个所述敏感词对应的语音特征参数,得到所述语音片段与各个所述敏感词之间的匹配距离;
敏感词处理模块,用于在所述匹配距离小于或等于匹配距离阈值时,对所述语音片段进行敏感词处理。
根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的语音监控方法。
根据本公开的第四方面,提供一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的语音监控方法。
本公开示例性实施例可以具有以下有益效果:
本公开示例实施方式的语音监控方法中,通过获取实时直播语音片段,并根据语音片段对应的语音特征参数与敏感词库中的各个敏感词对应的语音特征参数进行匹配,得到语音片段与各个敏感词之间的匹配距离,在匹配距离小于或等于匹配距离阈值时,对语音片段进行敏感词处理。本公开示例实施方式中的语音监控方法,通过结合语音特征参数和距离匹配算法,可以快速识别出实时语音片段与敏感词之间的相似程度,快速有效地对直播过程中的语音内容进行有效监控,并及时对敏感词进行处理,有效地提高了对直播语音的监管效率,减轻人力监控屏蔽成本,同时提高了直播的内容质量。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本发明实施例的一种语音监控方法及装置的示例性系统架构的示意图;
图2示出了本公开示例实施方式的语音监控方法的流程示意图;
图3示出了本公开示例实施方式的根据实时直播语音流得到待匹配的语音片段的流程示意图;
图4示出了本公开示例实施方式的根据语音片段的音频信号得到对应的语音特征参数的流程示意图;
图5示出了本公开示例实施方式的根据语音片段功率谱得到梅尔频率倒谱参数的流程示意图;
图6示出了本公开示例实施方式的计算梅尔滤波器组的能量输出的流程示意图;
图7示出了本公开示例实施方式的语音监控装置的框图;
图8示出了适于用来实现本公开实施方式的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
图1示出了可以应用本发明实施例的一种语音监控方法及装置的示例性应用环境的系统架构的示意图。
如图1所示,系统架构100可以包括移动终端101、102、103中的多个,网络104和服务器105。网络104用以在移动终端101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如无线通信链路等。
应该理解,图1中的移动终端、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的移动终端、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
移动终端101、102、103可以是具有处理器的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机等等。服务器105可以是提供各种服务的服务器。例如移动终端101、102、103可以通过处理器获取实时直播语音流,并将实时直播语音流上传至服务器105。服务器105可以根据实时直播语音流得到待匹配的语音片段,然后根据语音片段对应的语音特征参数和各个敏感词对应的语音特征参数,得到语音片段与各个敏感词之间的匹配距离,并在匹配距离小于或等于匹配距离阈值时,对语音片段进行敏感词处理。移动终端101、102、103也可以通过处理器完成从获取实时直播语音流到对语音片段进行敏感词处理的全部过程。
在一些相关的实施例中,对于直播语音内容的监管,一般是通过人工审核的方式,例如房管,对主播语音流进行审核检查。在发现敏感词语后,可以对主播直播间进行屏蔽语音流处理,并对主播或者用户进行举报,或者进行相应的处罚处理。这种方案的人工审核成本较高,同时也缺少及时性和普及性。
本示例实施方式首先提供了一种语音监控方法。参考图2所示,上述语音监控方法可以包括以下步骤:
步骤S210.获取实时直播语音流,并根据实时直播语音流得到待匹配的语音片段。
步骤S220.计算语音片段对应的音频信号,并根据语音片段的音频信号得到语音片段对应的语音特征参数。
步骤S230.获取敏感词库,并确定敏感词库中的各个敏感词对应的语音特征参数。
步骤S240.根据语音片段对应的语音特征参数和各个敏感词对应的语音特征参数,得到语音片段与各个敏感词之间的匹配距离。
步骤S250.在匹配距离小于或等于匹配距离阈值时,对语音片段进行敏感词处理。
本公开示例实施方式的语音监控方法中,通过获取实时直播语音片段,并根据语音片段对应的语音特征参数与敏感词库中的各个敏感词对应的语音特征参数进行匹配,得到语音片段与各个敏感词之间的匹配距离,在匹配距离小于或等于匹配距离阈值时,对语音片段进行敏感词处理。本公开示例实施方式中的语音监控方法,通过结合语音特征参数和距离匹配算法,可以快速识别出实时语音片段与敏感词之间的相似程度,快速有效地对直播过程中的语音内容进行有效监控,并及时对敏感词进行处理,有效地提高了对直播语音的监管效率,减轻人力监控屏蔽成本,同时提高了直播的内容质量。
下面,结合图3至图6对本示例实施方式的上述步骤进行更加详细的说明。
在步骤S210中,获取实时直播语音流,并根据实时直播语音流得到待匹配的语音片段。
本示例实施方式中,可以通过用户终端获取实时直播语音流,获取之后,可以通过对实时直播语音流进行预处理,得到预处理后的待匹配的语音片段。
本示例实施方式中,如图3所示,根据实时直播语音流得到待匹配的语音片段,具体可以包括以下几个步骤:
步骤S310.对实时直播语音流进行切分得到多个实时语音片段,并对实时语音片段进行预加重处理,得到对应的预加重语音片段。
首先对实时直播语音流进行切分,得到多个实时语音片段,切分方式可例如按照预定的帧数长度进行切分等。
实时语音片段切分后,通过对实时语音片段进行预加重处理,可以得到预加重处理后对应的预加重语音片段。预加重的实时语音片段满足如下关系:
x'(t)=x(t)-ax(t-1)
其中,x(t)表示当前时刻的实时语音片段的原始音频,x'(t)表示预加重后的实时预加重语音片段,a表示滤波器系数。
步骤S320.获取预设的窗函数,并根据预加重语音片段和窗函数得到待匹配的语音片段。
本示例实施方式中,可以对预加重语音片段进行分帧处理,得到对应的分帧语音片段,然后根据预设的窗函数对分帧语音片段进行加窗处理,得到待匹配的语音片段。加窗后的实时待匹配语音片段满足如下关系:
y(n)=x'(n)*W(n)
其中,x'(n)表示一帧数据,W(n)为窗函数,以汉明窗为例,窗函数满足如下关系:
其中,b的值为0.46,是一个可设置的参数,τ为窗口长度,且0≤n≤τ-1。
在步骤S220中,计算语音片段对应的音频信号,并根据语音片段的音频信号得到语音片段对应的语音特征参数。
本示例实施方式中,语音特征参数可以包括梅尔频率倒谱参数,其中,MFCC(Mel-Frequency Cepstral Coefficients,梅尔频率倒谱参数)是一种在自动语音和说话人识别中使用的特征,MFCC特征提取包含两个关键步骤:梅尔频率分析和倒谱分析。
本示例实施方式中,可以对预处理后的实时语音片段进行短时傅里叶变换,得到变换后的音频信号。傅里叶变换(Fourier transform)是一种线性积分变换,用于信号在时域(或空域)和频域之间的变换。进行短时傅里叶变换后的音频信号Y(k)满足如下关系:
其中,Y(k)表示变换后的音频信号,k表示频域上的自变量,y(n)表示预处理后的实时语音片段,n为字节数,N表示变换区间长度,例如N=512。得到语音片段对应的音频信号之后,可以根据语音片段的音频信号得到语音片段对应的语音特征参数。
本示例实施方式中,如图4所示,根据语音片段的音频信号得到语音片段对应的语音特征参数,具体可以包括以下几个步骤:
步骤S410.根据语音片段的音频信号得到语音片段对应的功率谱。
语音片段对应的功率谱P满足如下关系:
步骤S420.根据语音片段对应的功率谱得到语音片段对应的梅尔频率倒谱参数。
本示例实施方式中,如图5所示,根据语音片段对应的功率谱得到语音片段对应的梅尔频率倒谱参数,具体可以包括以下几个步骤:
步骤S510.获取梅尔滤波器组中的滤波器数量,并根据语音片段对应的功率谱和滤波器数量得到梅尔滤波器组的能量输出。
设置梅尔滤波器组包括的滤波器数量为40,根据语音片段对应的功率谱和滤波器数量,可以计算梅尔滤波器组的能量输出。
本示例实施方式中,如图6所示,根据语音片段对应的功率谱和滤波器数量得到梅尔滤波器组的能量输出,具体可以包括以下几个步骤:
步骤S610.获取梅尔滤波器组中的各个梅尔滤波器对应的中心频率,并根据各个梅尔滤波器的中心频率得到各个梅尔滤波器的频率响应。
梅尔滤波器的频率响应如下:
其中,Hm(k)表示第m个梅尔滤波器的频率响应,f(m)表示第m个梅尔滤波器的中心频率;相邻的梅尔滤波器中心频率的间隔随m值的增大而增宽,每个滤波器的中心频率处的响应为1,随着频率增大和减小,其响应向0线性减小,直到达到两个相邻滤波器的中心频率时,其响应为0。
步骤S620.根据语音片段对应的功率谱和梅尔滤波器组中各个梅尔滤波器的频率响应得到梅尔滤波器组的能量输出。
梅尔滤波器组的能量输出为:
s(m)=P*Hm(k)
其中,s(m)表示第m个梅尔滤波器的能量输出。
步骤S520.根据梅尔滤波器组的能量输出得到语音片段对应的梅尔频率倒谱参数。
根据梅尔滤波器组的能量输出可以计算实时语音片段的梅尔频率倒谱参数。
实时语音片段的梅尔频率倒谱参数满足如下关系:
C=(c1,c2,…,cL)
其中,C为向量,表示实时语音片段的梅尔频率倒谱参数,M表示梅尔滤波器的数量,L表示梅尔频率倒谱参数的阶数。
在步骤S230中,获取敏感词库,并确定敏感词库中的各个敏感词对应的语音特征参数。
本示例实施方式中,敏感词是直播平台为了方便管理而预先设置的禁止出现在直播内容中的词语,例如违规词语、低俗用语或错误使用的地名等不当用语。通过预先设置的敏感词库,可以快速有效地识别出直播中的敏感词,从而及时处理。敏感词库中的各个敏感词对应的语音特征参数的计算方式与上述语音片段的语音特征参数的计算方式相同,此处不再赘述。
在步骤S240中,根据语音片段对应的语音特征参数和各个敏感词对应的语音特征参数,得到语音片段与各个敏感词之间的匹配距离。
本示例实施方式中,可以基于动态时间规整算法对语音片段对应的语音特征参数和各个敏感词对应的语音特征参数进行匹配,得到语音片段与各个敏感词之间的匹配距离。
基于DTW(Dynamic Time Warping,动态时间规整)算法对语音片段和敏感词进行梅尔频率倒谱参数的匹配,可以得到语音片段与各个敏感词之间的最小匹配距离。其中,DTW算法是一种DP(Dynamic programming,动态规划)算法,可以用于不等长的离散的路径点的匹配问题,能够在孤立词语音识别、手势识别、数据挖掘和信息检索等领域有着很好的表现,DTW算法根据预先设定的屏蔽关键词可以配置一个或多个参考模式。
在步骤S250中,在匹配距离小于或等于匹配距离阈值时,对语音片段进行敏感词处理。
本示例实施方式中,在匹配距离小于或等于匹配距离阈值时,可以触发对应的敏感词处理业务。在触发敏感词时,可以对主播直播间语音流进行屏蔽或者静音处理,除此之外,还可以扩展到其他类型的业务,例如,还可以触发相应的业务活动逻辑,当主播或者用户提到相应的关键词时,触发直播间弹窗奖励等。
本示例实施方式中,还可以基于上述逻辑步骤形成相应的代码仓库,然后采用JNI(Java Native Interface,一种Java本地接口,提供若干的API实现Java和其他语言的通信)、WebAssembly(一种编码方式,具有紧凑的二进制格式,可以接近原生的性能运行,并为诸如C/C++等语言提供一个编译目标,以便在Web上运行)等技术,将一份sdk(SoftwareDevelopment Kit,软件开发工具包)代码,打包编译内嵌到pc、ios、andriod、web等各个平台上。通过客户端设备初始化语音监控sdk,采用各个机器设备上的计算机资源进行实时语音流的采集、识别、匹配,并进行相应结果的通知。在使用C/C++之类的语言编写模块时,可以使用Emscripten(编译器)来将其编译到WebAssembly。
通过上述方法,能够大大减轻服务器的监控压力和机器成本,对于同一份代码采用不同编译技术,大大减轻了代码维护成本,减少了三端程序实现差异带来的意料之外情况及事故。
应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
进一步的,本公开还提供了一种语音监控装置。参考图7所示,该语音监控装置可以包括语音片段获取模块710、音频特征获取模块720、敏感词特征获取模块730、匹配距离确定模块740以及敏感词处理模块750。
其中:
语音片段获取模块710可以用于获取实时直播语音流,并根据实时直播语音流得到待匹配的语音片段;
音频特征获取模块720可以用于计算语音片段对应的音频信号,并根据语音片段的音频信号得到语音片段对应的语音特征参数;
敏感词特征获取模块730可以用于获取敏感词库,并确定敏感词库中的各个敏感词对应的语音特征参数;
匹配距离确定模块740可以用于根据语音片段对应的语音特征参数和各个敏感词对应的语音特征参数,得到语音片段与各个敏感词之间的匹配距离;
敏感词处理模块750可以用于在匹配距离小于或等于匹配距离阈值时,对语音片段进行敏感词处理。
在本公开的一些示例性实施例中,语音片段获取模块710可以包括预加重处理单元以及语音片段确定单元。其中:
预加重处理单元可以用于对实时直播语音流进行切分得到多个实时语音片段,并对实时语音片段进行预加重处理,得到对应的预加重语音片段;
语音片段确定单元可以用于获取预设的窗函数,并根据预加重语音片段和窗函数得到待匹配的语音片段。
在本公开的一些示例性实施例中,语音片段确定单元可以包括分帧处理单元以及加窗处理单元。其中:
分帧处理单元可以用于对预加重语音片段进行分帧处理,得到对应的分帧语音片段;
加窗处理单元可以用于根据窗函数对分帧语音片段进行加窗处理,得到待匹配的语音片段。
在本公开的一些示例性实施例中,音频特征获取模块720可以包括功率谱确定单元以及梅尔频率倒谱参数确定单元。其中:
功率谱确定单元可以用于根据语音片段的音频信号得到语音片段对应的功率谱;
梅尔频率倒谱参数确定单元可以用于根据语音片段对应的功率谱得到语音片段对应的梅尔频率倒谱参数。
在本公开的一些示例性实施例中,梅尔频率倒谱参数确定单元可以包括能量输出确定单元以及梅尔频率倒谱参数计算单元。其中:
能量输出确定单元可以用于获取梅尔滤波器组中的滤波器数量,并根据语音片段对应的功率谱和滤波器数量得到梅尔滤波器组的能量输出;
梅尔频率倒谱参数计算单元可以用于根据梅尔滤波器组的能量输出得到语音片段对应的梅尔频率倒谱参数。
在本公开的一些示例性实施例中,能量输出确定单元可以包括频率响应计算单元以及能量输出计算单元。其中:
频率响应计算单元可以用于获取梅尔滤波器组中的各个梅尔滤波器对应的中心频率,并根据各个梅尔滤波器的中心频率得到各个梅尔滤波器的频率响应;
能量输出计算单元可以用于根据语音片段对应的功率谱和梅尔滤波器组中各个梅尔滤波器的频率响应得到梅尔滤波器组的能量输出。
在本公开的一些示例性实施例中,匹配距离确定模块740可以包括特征参数匹配单元,可以用于基于动态时间规整算法对语音片段对应的语音特征参数和各个敏感词对应的语音特征参数进行匹配,得到语音片段与各个敏感词之间的匹配距离。
上述语音监控装置中各模块/单元的具体细节在相应的方法实施例部分已有详细的说明,此处不再赘述。
图8示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图8示出的电子设备的计算机系统800仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统操作所需的各种程序和数据。CPU801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (7)
1.一种语音监控方法,其特征在于,包括:
获取实时直播语音流,并根据所述实时直播语音流得到待匹配的语音片段;
计算所述语音片段对应的音频信号,并根据所述语音片段的音频信号得到所述语音片段对应的语音特征参数;
获取敏感词库,并确定所述敏感词库中的各个敏感词对应的语音特征参数;
根据所述语音片段对应的语音特征参数和各个所述敏感词对应的语音特征参数,得到所述语音片段与各个所述敏感词之间的匹配距离;
在所述匹配距离小于或等于匹配距离阈值时,对所述语音片段进行敏感词处理;
其中,所述语音特征参数包括梅尔频率倒谱参数,所述根据所述语音片段的音频信号得到所述语音片段对应的语音特征参数,包括:
根据所述语音片段的音频信号得到所述语音片段对应的功率谱;
获取梅尔滤波器组中的各个梅尔滤波器对应的中心频率,并根据各个所述梅尔滤波器的中心频率得到各个所述梅尔滤波器的频率响应;其中,所述梅尔滤波器组中包括滤波器数量为M的梅尔滤波器,f(m)表示所述梅尔滤波器组中第m个梅尔滤波器的中心频率,相邻的所述梅尔滤波器的中心频率的间隔随m值的增大而增宽,每个所述梅尔滤波器的中心频率处的频率响应为1,随着频率的增大和减小,所述频率响应向0线性减小,直到达到两个相邻的梅尔滤波器的中心频率时,所述频率响应为0;
根据所述语音片段对应的功率谱和所述梅尔滤波器组中各个所述梅尔滤波器的频率响应得到所述梅尔滤波器组的能量输出;
根据所述梅尔滤波器组的能量输出得到所述语音片段对应的梅尔频率倒谱参数。
2.根据权利要求1所述的语音监控方法,其特征在于,所述根据所述实时直播语音流得到待匹配的语音片段,包括:
对所述实时直播语音流进行切分得到多个实时语音片段,并对所述实时语音片段进行预加重处理,得到对应的预加重语音片段;
获取预设的窗函数,并根据所述预加重语音片段和所述窗函数得到待匹配的语音片段。
3.根据权利要求2所述的语音监控方法,其特征在于,所述根据所述预加重语音片段和所述窗函数得到待匹配的语音片段,包括:
对所述预加重语音片段进行分帧处理,得到对应的分帧语音片段;
根据所述窗函数对所述分帧语音片段进行加窗处理,得到待匹配的语音片段。
4.根据权利要求1所述的语音监控方法,其特征在于,所述根据所述语音片段对应的语音特征参数和各个所述敏感词对应的语音特征参数,得到所述语音片段与各个所述敏感词之间的匹配距离,包括:
基于动态时间规整算法对所述语音片段对应的语音特征参数和各个所述敏感词对应的语音特征参数进行匹配,得到所述语音片段与各个所述敏感词之间的匹配距离。
5.一种语音监控装置,其特征在于,包括:
语音片段获取模块,用于获取实时直播语音流,并根据所述实时直播语音流得到待匹配的语音片段;
音频特征获取模块,用于计算所述语音片段对应的音频信号,并根据所述语音片段的音频信号得到所述语音片段对应的语音特征参数;
敏感词特征获取模块,用于获取敏感词库,并确定所述敏感词库中的各个敏感词对应的语音特征参数;
匹配距离确定模块,用于根据所述语音片段对应的语音特征参数和各个所述敏感词对应的语音特征参数,得到所述语音片段与各个所述敏感词之间的匹配距离;
敏感词处理模块,用于在所述匹配距离小于或等于匹配距离阈值时,对所述语音片段进行敏感词处理;
其中,所述语音特征参数包括梅尔频率倒谱参数,所述根据所述语音片段的音频信号得到所述语音片段对应的语音特征参数,包括:
根据所述语音片段的音频信号得到所述语音片段对应的功率谱;
获取梅尔滤波器组中的各个梅尔滤波器对应的中心频率,并根据各个所述梅尔滤波器的中心频率得到各个所述梅尔滤波器的频率响应;其中,所述梅尔滤波器组中包括滤波器数量为M的梅尔滤波器,f(m)表示所述梅尔滤波器组中第m个梅尔滤波器的中心频率,相邻的所述梅尔滤波器的中心频率的间隔随m值的增大而增宽,每个所述梅尔滤波器的中心频率处的频率响应为1,随着频率的增大和减小,所述频率响应向0线性减小,直到达到两个相邻的梅尔滤波器的中心频率时,所述频率响应为0;
根据所述语音片段对应的功率谱和所述梅尔滤波器组中各个所述梅尔滤波器的频率响应得到所述梅尔滤波器组的能量输出;
根据所述梅尔滤波器组的能量输出得到所述语音片段对应的梅尔频率倒谱参数。
6.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储一个或多个程序,当所述一个或多个程序被所述处理器执行时,使得所述处理器实现如权利要求1至4中任一项所述的语音监控方法。
7.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至4中任一项所述的语音监控方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210550817.0A CN114945099B (zh) | 2022-05-18 | 2022-05-18 | 语音监控方法、装置、电子设备及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210550817.0A CN114945099B (zh) | 2022-05-18 | 2022-05-18 | 语音监控方法、装置、电子设备及计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114945099A CN114945099A (zh) | 2022-08-26 |
CN114945099B true CN114945099B (zh) | 2024-04-26 |
Family
ID=82909104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210550817.0A Active CN114945099B (zh) | 2022-05-18 | 2022-05-18 | 语音监控方法、装置、电子设备及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114945099B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724735A (zh) * | 2021-09-01 | 2021-11-30 | 广州博冠信息科技有限公司 | 语音流处理方法及装置、计算机可读存储介质、电子设备 |
CN115512697B (zh) * | 2022-09-30 | 2024-08-27 | 贵州小爱机器人科技有限公司 | 语音敏感词的识别方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108172213A (zh) * | 2017-12-26 | 2018-06-15 | 北京百度网讯科技有限公司 | 娇喘音频识别方法、装置、设备及计算机可读介质 |
CN110047510A (zh) * | 2019-04-15 | 2019-07-23 | 北京达佳互联信息技术有限公司 | 音频识别方法、装置、计算机设备及存储介质 |
US10403303B1 (en) * | 2017-11-02 | 2019-09-03 | Gopro, Inc. | Systems and methods for identifying speech based on cepstral coefficients and support vector machines |
CN110556126A (zh) * | 2019-09-16 | 2019-12-10 | 平安科技(深圳)有限公司 | 语音识别方法、装置以及计算机设备 |
CN111107380A (zh) * | 2018-10-10 | 2020-05-05 | 北京默契破冰科技有限公司 | 一种用于管理音频数据的方法、设备和计算机存储介质 |
-
2022
- 2022-05-18 CN CN202210550817.0A patent/CN114945099B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10403303B1 (en) * | 2017-11-02 | 2019-09-03 | Gopro, Inc. | Systems and methods for identifying speech based on cepstral coefficients and support vector machines |
CN108172213A (zh) * | 2017-12-26 | 2018-06-15 | 北京百度网讯科技有限公司 | 娇喘音频识别方法、装置、设备及计算机可读介质 |
CN111107380A (zh) * | 2018-10-10 | 2020-05-05 | 北京默契破冰科技有限公司 | 一种用于管理音频数据的方法、设备和计算机存储介质 |
CN110047510A (zh) * | 2019-04-15 | 2019-07-23 | 北京达佳互联信息技术有限公司 | 音频识别方法、装置、计算机设备及存储介质 |
CN110556126A (zh) * | 2019-09-16 | 2019-12-10 | 平安科技(深圳)有限公司 | 语音识别方法、装置以及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114945099A (zh) | 2022-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114945099B (zh) | 语音监控方法、装置、电子设备及计算机可读介质 | |
CN108989882B (zh) | 用于输出视频中的音乐片段的方法和装置 | |
TWI667916B (zh) | 多媒體內容播放方法和裝置 | |
CN107943877B (zh) | 待播放多媒体内容的生成方法和装置 | |
CN108877779B (zh) | 用于检测语音尾点的方法和装置 | |
CN109582825B (zh) | 用于生成信息的方法和装置 | |
CN111370022B (zh) | 音频广告检测方法、装置、电子设备及介质 | |
CN116206612B (zh) | 鸟类声音识别方法、模型训练方法、装置、电子设备 | |
US20220385996A1 (en) | Method for generating target video, apparatus, server, and medium | |
WO2023169258A1 (zh) | 音频检测方法、装置、存储介质及电子设备 | |
CN110992938A (zh) | 语音数据处理方法、装置、电子设备及计算机可读介质 | |
CN111341333B (zh) | 噪声检测方法、噪声检测装置、介质及电子设备 | |
CN112182281B (zh) | 一种音频推荐方法、装置及存储介质 | |
CN108962226B (zh) | 用于检测语音的端点的方法和装置 | |
KR102382421B1 (ko) | 음성 언어 이해에서의 분석 오류 정보를 출력하는 방법과 장치 | |
CN110675865B (zh) | 用于训练混合语言识别模型的方法和装置 | |
CN110889010A (zh) | 音频匹配方法、装置、介质和电子设备 | |
CN116913286A (zh) | 音频识别方法与多任务音频识别模型训练方法 | |
CN111626054A (zh) | 新违法行为描述词识别方法与装置、电子设备及存储介质 | |
CN114302301B (zh) | 频响校正方法及相关产品 | |
CN111858916A (zh) | 用于聚类句子的方法和装置 | |
CN116129872A (zh) | 声纹特征构建方法、身份识别方法及相关装置 | |
CN115312032A (zh) | 语音识别训练集的生成方法及装置 | |
CN113704541A (zh) | 训练数据的获取、视频推送方法、装置、介质及电子设备 | |
CN111143514B (zh) | 用于生成信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |