CN113516970A - 基于语言模型的报警方法、设备、存储介质及装置 - Google Patents
基于语言模型的报警方法、设备、存储介质及装置 Download PDFInfo
- Publication number
- CN113516970A CN113516970A CN202010234114.8A CN202010234114A CN113516970A CN 113516970 A CN113516970 A CN 113516970A CN 202010234114 A CN202010234114 A CN 202010234114A CN 113516970 A CN113516970 A CN 113516970A
- Authority
- CN
- China
- Prior art keywords
- preset
- data stream
- alarm
- sound wave
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000003062 neural network model Methods 0.000 claims abstract description 102
- 239000012634 fragment Substances 0.000 claims abstract description 55
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 45
- 230000000306 recurrent effect Effects 0.000 claims description 57
- 239000011159 matrix material Substances 0.000 claims description 31
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 16
- 238000005070 sampling Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Alarm Systems (AREA)
Abstract
本发明公开了一种基于语言模型的报警方法、设备、存储介质及装置,该方法包括:对音频数据流进行分段,获得多个目标声波片段,通过对音频数据流进行分段,从而提高整个音频数据流安全性识别的准确性;通过预设循环神经网络模型对各目标声波片段进行安全性识别,获得安全性识别结果,根据所述安全性识别结果,计算报警概率,将所述报警概率与预设不安全阈值进行比较,获得比较结果,根据所述比较结果判断是否进行报警,通过循环神经网络模型对声波片段的安全性进行识别,提高识别的准确性,从而及时对不安全的音频数据流进行报警,减少安全隐患。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于语言模型的报警方法、设备、存储介质及装置。
背景技术
在正常情况下,用户使用手机发语音或者打电话时均使用正常的语音语调,发出的声音强度不会太高。在日常生活场景中,周围环境产生的音量也会有相应地音量范围。若手机或者其他声音检测设备检测到用户发出的声音或者周围环境中产生的声音超过一定的声音强度,则认为对应的音频是不安全数据,可能存在安全隐患。因此,如何准确识别不安全的音频数据,以及时预防或处理不安全隐患是亟待解决的技术问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种基于语言模型的报警方法、设备、存储介质及装置,旨在解决现有技术中音频数据的安全性识别准度不高的技术问题。
为实现上述目的,本发明提供一种基于语言模型的报警方法,所述基于语言模型的报警方法包括以下步骤:
对音频数据流进行分段,获得多个目标声波片段;
通过预设循环神经网络模型对各目标声波片段进行安全性识别,获得安全性识别结果;
根据所述安全性识别结果,计算报警概率;
将所述报警概率与预设不安全阈值进行比较,获得比较结果;
根据所述比较结果判断是否进行报警。
优选地,所述对音频数据流进行分段,获得多个目标声波片段,具体包括:
获取音频数据流的数据流长度,根据所述数据流长度设置目标长度的滑动窗口;
对所述音频数据流通过所述目标长度的滑动窗口进行分段,获得多个目标声波片段。
优选地,所述对所述音频数据流通过所述目标长度的滑动窗口进行分段,获得多个目标声波片段,具体包括:
获取所述音频数据流的时间信息,所述时间信息包括开始时刻和终止时刻;
以所述开始时刻为起始,通过所述目标长度的滑动窗口对所述音频数据流进行分段;
根据所述时间信息,将所述目标长度的滑动窗口后移,继续对所述音频数据流进行分段,直至所述终止时刻为止,获得多个目标声波片段。
优选地,所述通过预设循环神经网络模型对各目标声波片段进行安全性识别,获得安全性识别结果之前,所述基于语言模型的报警方法还包括:
将各目标声波片段按照所述时间信息从先到后依次输入预设循环神经网络模型中。
优选地,所述根据所述安全性识别结果,计算报警概率,具体包括:
获取预设统计周期内的安全性识别结果;
根据所述预设统计周期内的安全性识别结果,计算报警概率。
优选地,所述安全性识别结果包括不安全结果;
所述根据所述预设统计周期内的安全性识别结果,计算报警概率,具体包括:
统计所述预设统计周期内所述不安全结果的不安全结果数量,并统计所述预设统计周期内所述安全性识别结果的总结果数量;
计算所述不安全结果数量与所述总结果数量之间的比值,并将所述比值作为所述预设统计周期内的报警概率。
优选地,所通过预设循环神经网络模型对各目标声波片段进行安全性识别,获得安全性识别结果,具体包括:
通过预设循环神经网络模型根据各目标声波片段生成权值矩阵;
通过所述预设循环神经网络模型根据所述权值矩阵进行安全性识别,获得安全性识别结果。
优选地,所述通过预设循环神经网络模型根据各目标声波片段生成权值矩阵,具体包括:
通过预设循环神经网络模型从各目标声波片段中提取对应的波幅值、波峰值及波谷值,并根据各目标声波片段对应的波幅值、波峰值及波谷值生成权值矩阵。
优选地,所述根据所述比较结果判断是否进行报警,具体包括:
在所述比较结果为所述报警概率大于或等于所述预设不安全阈值时,进行报警。
优选地,所述在所述比较结果为所述报警概率大于或等于所述预设不安全阈值时,进行报警之后,所述基于语言模型的报警方法还包括:
获取报警的准确率;
根据所述报警的准确率对所述预设不安全阈值进行调整。
优选地,所述通过预设循环神经网络模型对各目标声波片段进行安全性识别,获得安全性识别结果之前,所述基于语言模型的报警方法还包括:
获取样本声波片段及对应的样本安全性识别结果;
建立待训练循环神经网络模型;
根据所述样本声波片段及对应的所述样本安全性识别结果对待训练循环神经网络模型进行训练,获得预设循环神经网络模型。
优选地,所述对音频数据流进行分段,获得多个目标声波片段之前,所述基于语言模型的报警方法还包括:
通过麦克风对声波进行录入,并将所述声波转换成模拟信号;
通过模数转换器将所述模拟信号转换为数字信号;
将所述数字信号存储为预设格式的音频数据流。
优选地,所述通过模数转换器将所述模拟信号转换为数字信号,具体包括:
通过模数转换器对所述模拟信号进行采样、量化及编码,获得数字信号。
此外,为实现上述目的,本发明还提出一种基于语言模型的报警设备,所述基于语言模型的报警设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于语言模型的报警程序,所述基于语言模型的报警程序配置为实现如上文所述的基于语言模型的报警方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有基于语言模型的报警程序,所述基于语言模型的报警程序被处理器执行时实现如上文所述的基于语言模型的报警方法的步骤。
此外,为实现上述目的,本发明还提出一种基于语言模型的报警装置,所述基于语言模型的报警装置包括:
分段模块,用于对音频数据流进行分段,获得多个目标声波片段;
识别模块,用于通过预设循环神经网络模型对各目标声波片段进行安全性识别,获得安全性识别结果;
计算模块,用于根据所述安全性识别结果,计算报警概率;
比较模块,用于将所述报警概率与预设不安全阈值进行比较,获得比较结果;
报警模块,用于根据所述比较结果判断是否进行报警。
优选地,所述分段模块,还用于获取音频数据流的数据流长度,根据所述数据流长度设置目标长度的滑动窗口;对所述音频数据流通过所述目标长度的滑动窗口进行分段,获得多个目标声波片段。
优选地,所述分段模块,还用于获取所述音频数据流的时间信息,所述时间信息包括开始时刻和终止时刻;以所述开始时刻为起始,通过所述目标长度的滑动窗口对所述音频数据流进行分段;根据所述时间信息,将所述目标长度的滑动窗口后移,继续对所述音频数据流进行分段,直至所述终止时刻为止,获得多个目标声波片段。
优选地,所述识别模块,还用于通过预设循环神经网络模型根据各目标声波片段生成权值矩阵;通过所述预设循环神经网络模型根据所述权值矩阵进行安全性识别,获得安全性识别结果。
优选地,所述基于语言模型的报警装置还包括:
获取模块,用于获取样本声波片段及对应的样本安全性识别结果;
建立模块,用于建立待训练循环神经网络模型;
训练模块,用于根据所述样本声波片段及对应的所述样本安全性识别结果对待训练循环神经网络模型进行训练,获得预设循环神经网络模型。
本发明中,通过对音频数据流进行分段,获得多个目标声波片段,通过对音频数据流进行分段,从而提高整个音频数据流安全性识别的准确性;通过预设循环神经网络模型对各目标声波片段进行安全性识别,获得安全性识别结果,根据所述安全性识别结果,计算报警概率,将所述报警概率与预设不安全阈值进行比较,获得比较结果,根据所述比较结果判断是否进行报警,通过循环神经网络模型对声波片段的安全性进行识别,提高识别的准确性,从而及时对不安全的音频数据流进行报警,减少安全隐患。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的基于语言模型的报警设备的结构示意图;
图2为本发明基于语言模型的报警方法第一实施例的流程示意图;
图3为本发明基于语言模型的报警方法第二实施例的流程示意图;
图4为本发明基于语言模型的报警方法第三实施例的流程示意图;
图5为本发明基于语言模型的报警装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的基于语言模型的报警设备结构示意图。
如图1所示,该基于语言模型的报警设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display),可选用户接口1003还可以包括标准的有线接口、无线接口,对于用户接口1003的有线接口在本发明中可为USB接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM)存储器,也可以是稳定的存储器(Non-volatileMemory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对基于语言模型的报警设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于语言模型的报警程序。
在图1所示的基于语言模型的报警设备中,网络接口1004主要用于连接后台服务器,与所述后台服务器进行数据通信;用户接口1003主要用于连接用户设备;所述基于语言模型的报警设备通过处理器1001调用存储器1005中存储的基于语言模型的报警程序,并执行本发明实施例提供的基于语言模型的报警方法。
所述基于语言模型的报警设备通过处理器1001调用存储器1005中存储的基于语言模型的报警程序,并执行以下操作:
对音频数据流进行分段,获得多个目标声波片段;
通过预设循环神经网络模型对各目标声波片段进行安全性识别,获得安全性识别结果;
根据所述安全性识别结果,计算报警概率;
将所述报警概率与预设不安全阈值进行比较,获得比较结果;
根据所述比较结果判断是否进行报警。
进一步地,所述基于语言模型的报警设备通过处理器1001调用存储器1005中存储的基于语言模型的报警程序,还执行以下操作:
获取音频数据流的数据流长度,根据所述数据流长度设置目标长度的滑动窗口;
对所述音频数据流通过所述目标长度的滑动窗口进行分段,获得多个目标声波片段。
进一步地,所述基于语言模型的报警设备通过处理器1001调用存储器1005中存储的基于语言模型的报警程序,还执行以下操作:
获取所述音频数据流的时间信息,所述时间信息包括开始时刻和终止时刻;
以所述开始时刻为起始,通过所述目标长度的滑动窗口对所述音频数据流进行分段;
根据所述时间信息,将所述目标长度的滑动窗口后移,继续对所述音频数据流进行分段,直至所述终止时刻为止,获得多个目标声波片段。
进一步地,所述基于语言模型的报警设备通过处理器1001调用存储器1005中存储的基于语言模型的报警程序,还执行以下操作:
将各目标声波片段按照所述时间信息从先到后依次输入预设循环神经网络模型中。
进一步地,所述基于语言模型的报警设备通过处理器1001调用存储器1005中存储的基于语言模型的报警程序,还执行以下操作:
获取预设统计周期内的安全性识别结果;
根据所述预设统计周期内的安全性识别结果,计算报警概率。
进一步地,所述安全性识别结果包括不安全结果;
所述基于语言模型的报警设备通过处理器1001调用存储器1005中存储的基于语言模型的报警程序,还执行以下操作:
统计所述预设统计周期内所述不安全结果的不安全结果数量,并统计所述预设统计周期内所述安全性识别结果的总结果数量;
计算所述不安全结果数量与所述总结果数量之间的比值,并将所述比值作为所述预设统计周期内的报警概率。
进一步地,所述基于语言模型的报警设备通过处理器1001调用存储器1005中存储的基于语言模型的报警程序,还执行以下操作:
通过预设循环神经网络模型根据各目标声波片段生成权值矩阵;
通过所述预设循环神经网络模型根据所述权值矩阵进行安全性识别,获得安全性识别结果。
进一步地,所述基于语言模型的报警设备通过处理器1001调用存储器1005中存储的基于语言模型的报警程序,还执行以下操作:
通过预设循环神经网络模型从各目标声波片段中提取对应的波幅值、波峰值及波谷值,并根据各目标声波片段对应的波幅值、波峰值及波谷值生成权值矩阵。
进一步地,所述基于语言模型的报警设备通过处理器1001调用存储器1005中存储的基于语言模型的报警程序,还执行以下操作:
在所述比较结果为所述报警概率大于或等于所述预设不安全阈值时,进行报警。
进一步地,所述基于语言模型的报警设备通过处理器1001调用存储器1005中存储的基于语言模型的报警程序,还执行以下操作:
获取报警的准确率;
根据所述报警的准确率对所述预设不安全阈值进行调整。
进一步地,所述基于语言模型的报警设备通过处理器1001调用存储器1005中存储的基于语言模型的报警程序,还执行以下操作:
获取样本声波片段及对应的样本安全性识别结果;
建立待训练循环神经网络模型;
根据所述样本声波片段及对应的所述样本安全性识别结果对待训练循环神经网络模型进行训练,获得预设循环神经网络模型。
进一步地,所述基于语言模型的报警设备通过处理器1001调用存储器1005中存储的基于语言模型的报警程序,还执行以下操作:
通过麦克风对声波进行录入,并将所述声波转换成模拟信号;
通过模数转换器将所述模拟信号转换为数字信号;
将所述数字信号存储为预设格式的音频数据流。
进一步地,所述基于语言模型的报警设备通过处理器1001调用存储器1005中存储的基于语言模型的报警程序,还执行以下操作:
通过模数转换器对所述模拟信号进行采样、量化及编码,获得数字信号。
本实施例中,通过对音频数据流进行分段,获得多个目标声波片段,通过对音频数据流进行分段,从而提高整个音频数据流安全性识别的准确性;通过预设循环神经网络模型对各目标声波片段进行安全性识别,获得安全性识别结果,根据所述安全性识别结果,计算报警概率,将所述报警概率与预设不安全阈值进行比较,获得比较结果,根据所述比较结果判断是否进行报警,通过循环神经网络模型对声波片段的安全性进行识别,提高识别的准确性,从而及时对不安全的音频数据流进行报警,减少安全隐患。
基于上述硬件结构,提出本发明基于语言模型的报警方法的实施例。
参照图2,图2为本发明基于语言模型的报警方法第一实施例的流程示意图,提出本发明基于语言模型的报警方法第一实施例。
在第一实施例中,所述基于语言模型的报警方法包括以下步骤:
步骤S10:对音频数据流进行分段,获得多个目标声波片段。
应理解的是,本实施例的执行主体是所述基于语言模型的报警设备,所述基于语言模型的报警设备可以是智能手机、平板电脑、个人计算机或者服务器等电子设备,本实施例对此不加以限制。可通过麦克风或其他声音采集器进行声音采集,形成波形,根据声波生成所述音频数据流。具体为,声源发声,也就是物体震动发声,麦克风录入,将声波描述成模拟信号,通过采集卡对模拟信号进行量化和采集,通过模数转换器ADC将模拟信号转换成数字信号,将数字信号存储为pcm无损音频数据流,并将pcm无损音频数据流输出,即获得所述音频数据流,本实施例中,在所述步骤S10之前,还包括:通过麦克风对声波进行录入,并将所述声波转换成模拟信号;通过模数转换器将所述模拟信号转换为数字信号;将所述数字信号存储为预设格式的音频数据流。
可理解的是,采样:以相等的间隔来测量模拟信号的物理量,完成对连续信号的离散化提取。声音采样:每隔一段时间在模拟音频波形上读取一个声音信号的幅度值。量化:将采样得到的幅度值进行数字化。编码:将两会后的值用一组二进制数字代码表示。在本实施例中,所述通过模数转换器将所述模拟信号转换为数字信号,具体包括:通过模数转换器对所述模拟信号进行采样、量化及编码,获得数字信号。
需要说明的是,为了提高所述音频数据流的安全性识别的准确性,可对所述音频数据流进行分段,可将所述音频数据流分成多个长度相同的目标声波片段,各目标声波片段中可有重叠的声波信息。例如,所述音频数据流为1万帧,采用100帧的滑动窗口对1万帧的音频数据流进行滑动分段,获得的目标声波片段为:0~100帧、1~101帧、2~102帧……9900~10000帧。
步骤S20:通过预设循环神经网络模型对各目标声波片段进行安全性识别,获得安全性识别结果。
可理解的是,所述预设循环神经网络模型为经过训练获得,预先获取大量的样本声波片段及对应的样本安全性识别结果,所述样本安全性识别结果包括安全结果和不安全结果,建立待训练循环神经网络模型,根据所述样本声波片段及对应的所述样本安全性识别结果对待训练循环神经网络模型进行训练,获得预设循环神经网络模型。通过训练获得的所述预设循环神经网络模型对各所述目标声波片段进行安全性识别,从而识别出各目标声波片段分别对应的安全性识别结果。所述安全性识别结果包括安全结果或不安全结果。在本实施例中,所述步骤S20之前,还包括:获取样本声波片段及对应的样本安全性识别结果;建立待训练循环神经网络模型;根据所述样本声波片段及对应的所述样本安全性识别结果对待训练循环神经网络模型进行训练,获得预设循环神经网络模型。
步骤S30:根据所述安全性识别结果,计算报警概率。
在具体实现中,若各目标声波片段对应的安全性识别结果中超过预设数量的安全性识别结果都是不安全结果,则可认定所述音频数据流为不安全的,需要进行报警。可统计所述安全性识别结果中安全结果和不安全结果分别对应的数量,根据所述数量计算报警概率。具体地,可计算所述不安全结果数量与所述安全性识别结果总数之间的比值,将所述比值作为所述报警概率。在本实施例中,所述安全性识别结果包括不安全结果;所述步骤S30,包括:统计所述不安全结果的不安全结果数量,并统计所述安全性识别结果的总结果数量;计算所述不安全结果数量与所述总结果数量之间的比值,并将所述比值作为报警概率。
步骤S40:将所述报警概率与预设不安全阈值进行比较,获得比较结果。
应理解的是,所述预设不安全阈值可根据经验值进行设置,也可获取大量的历史数据,根据所述历史数据设置所述预设不安全阈值。将所述报警概率与所述预设不安全阈值进行比较,若所述报警概率小于所述预设不安全阈值,则认定所述音频数据流是安全的。比如,将所述预设不安全阈值设置为90%,所述报警概率为80%,所述报警概率80%小于所述预设不安全阈值90%,认定所述音频数据流是安全的,无需进行报警。
步骤S50:根据所述比较结果判断是否进行报警。
需要说明的是,所述比较结果包括所述报警概率大于或等于所述预设不安全阈值,或者,所述报警概率小于所述预设不安全阈值。若所述比较结果是所述报警概率大于或等于所述预设不安全阈值,则认定所述音频数据流是不安全的,可进行报警。在本实施例中,所述步骤S50,包括:在所述比较结果为所述报警概率大于或等于所述预设不安全阈值时,进行报警。
进一步地,在所述步骤S50之后,还包括:
获取报警的准确率;根据所述报警的准确率对所述预设不安全阈值进行调整。
可理解的是,通常根据所述比较结果进行报警之后,用户会对所述音频数据流进行深入分析,以定位到不安全因素,及时进行处理。若在对所述音频数据流进行深入分析时发现所述音频数据流为安全的,则可将所述音频数据流的安全性设置为安全,并对报警的准确率进行统计,根据统计的报警的准确率对所述预设不安全阈值进行相应地调整。若存在大量的音频数据流是不安全的,但是未及时进行报警,则说明所述预设不安全阈值设置过高,漏掉了部分不安全数据流,则可将所述预设不安全阈值调低。若存在大量的音频数据流是安全的,但是却错误地进行了报警,则说明所述预设不安全阈值设置过低,将部分安全数据流也认定为不安全的,则可将所述预设不安全阈值调高。
本实施例中,通过对音频数据流进行分段,获得多个目标声波片段,通过对音频数据流进行分段,从而提高整个音频数据流安全性识别的准确性;通过预设循环神经网络模型对各目标声波片段进行安全性识别,获得安全性识别结果,根据所述安全性识别结果,计算报警概率,将所述报警概率与预设不安全阈值进行比较,获得比较结果,根据所述比较结果判断是否进行报警,通过循环神经网络模型对声波片段的安全性进行识别,提高识别的准确性,从而及时对不安全的音频数据流进行报警,减少安全隐患。
参照图3,图3为本发明基于语言模型的报警方法第二实施例的流程示意图,基于上述图2所示的第一实施例,提出本发明基于语言模型的报警方法的第二实施例。
在第二实施例中,所述步骤S10,包括:
步骤S101:获取音频数据流的数据流长度,根据所述数据流长度设置目标长度的滑动窗口。
应理解的是,所述音频数据流的数据流长度,通常是指所述音频数据流的时长,比如1万帧。为了提高所述音频数据流的安全性识别结果,可对所述音频数据流通过滑动窗口进行滑动分段。根据所述数据流长度设置合适的所述目标长度,通常所述音频数据流的数据流长度越长,相应地所述目标长度也越长,所述音频数据流的数据流长度越短,相应地所述目标长度也越短。可根据经验值或者历史数据统计分析,预先建立所述数据流长度与所述滑动窗口的目标长度之间的对应关系,则可直接根据所述数据流长度从所述对应关系中查找对应的所述目标长度。
步骤S102:对所述音频数据流通过所述目标长度的滑动窗口进行分段,获得多个目标声波片段。
可理解的是,可对所述音频数据流通过所述滑动窗口进行分段,将所述音频数据流分成多个长度相同的目标声波片段,各目标声波片段中可有重叠的声波信息。所述滑动窗口的所述目标长度可根据经验值进行设置,或者根据所述数据流长度进行设置,比如所述目标长度设置为100帧。例如,所述音频数据流为1万帧,采用100帧的滑动窗口对1万帧的音频数据流进行滑动分段,获得的目标声波片段为:0~100帧、1~101帧、2~102帧……9900~10000帧。
进一步地,在本实施例中,所述步骤S102,包括:
获取所述音频数据流的时间信息,所述时间信息包括开始时刻和终止时刻;
以所述开始时刻为起始,通过所述目标长度的滑动窗口对所述音频数据流进行分段;
根据所述时间信息,将所述目标长度的滑动窗口后移,继续对所述音频数据流进行分段,直至所述终止时刻为止,获得多个目标声波片段。
应理解的是,获取所述音频数据流的时间信息,从所述时间信息的开始时刻为起始,使用所述滑动窗口,从[0,k-1]的一个窗口,记录声波片段,然后窗口向右移动到[1,k],再到[2,k+1],直到所述音频数据流的终止时刻,从而获得所述音频数据流对应的多个目标声波片段。
进一步地,在本实施例中,所述步骤S20之前,还包括:
将各目标声波片段按照所述时间信息从先到后依次输入预设循环神经网络模型中。
需要说明的是,对所述音频数据流通过所述滑动窗口滑动分段,获得多个目标声波片段,将各所述目标声波片段按照所述时间信息从先到后依次输入预设循环神经网络模型中,以通过所述预设循环神经网络模型对所述音频数据流的安全性进行识别。
在本实施例中,通过获取音频数据流的数据流长度,根据所述数据流长度设置目标长度的滑动窗口,对所述音频数据流通过所述目标长度的滑动窗口进行分段,获得多个目标声波片段,将各目标声波片段按时间顺序依次输入所述预设循环神经网络模型进行识别,从而提高音频数据流安全性识别的准确性。
参照图4,图4为本发明基于语言模型的报警方法第三实施例的流程示意图,基于上述第一实施例或第二实施例,提出本发明基于语言模型的报警方法的第三实施例。本实施例基于所述第一实施例进行说明。
在第三实施例中,所述步骤S20,包括:
步骤S201:通过预设循环神经网络模型根据各目标声波片段生成权值矩阵。
应理解的是,所述目标声波片段进行波形分析,获得所述目标声波片段对应的波幅值、波峰值和波谷值,所述预设循环神经网络模型根据所述目标声波片段对应的波幅值、波峰值和波谷值建立权值矩阵。在本实施例中,所述步骤S201,包括:通过预设循环神经网络模型从各目标声波片段中提取对应的波幅值、波峰值及波谷值,并根据各目标声波片段对应的波幅值、波峰值及波谷值生成权值矩阵。
步骤S202:通过所述预设循环神经网络模型根据所述权值矩阵进行安全性识别,获得安全性识别结果。
可理解的是,通过训练获得的所述预设循环神经网络模型根据所述权值矩阵进行安全性识别,以实现对各所述目标声波片段进行安全性识别,从而识别出各目标声波片段分别对应的安全性识别结果。
在本实施例中,所述步骤S30,包括:
获取预设统计周期内的安全性识别结果;根据所述预设统计周期内的安全性识别结果,计算报警概率。
需要说明的是,所述预设统计周期可根据经验值进行设置,或者对历史统计周期进行获取,根据历史统计周期设置所述预设统计周期,比如,所述预设统计周期设置为3秒,则获取3秒内的安全性识别结果,根据3秒内的安全性识别结果计算所述报警概率。
进一步地,在本实施例中,所述安全性识别结果包括不安全结果;所述根据所述预设统计周期内的安全性识别结果,计算报警概率,包括:
统计所述预设统计周期内所述不安全结果的不安全结果数量,并统计所述预设统计周期内所述安全性识别结果的总结果数量;
计算所述不安全结果数量与所述总结果数量之间的比值,并将所述比值作为所述预设统计周期内的报警概率。
在具体实现中,所述音频数据流的数据长度通常超过所述预设统计周期,对所述音频数据流进行分段,获得多个目标声波片段,按照时间信息依次将各目标声波片段输入所述预设卷积神经网络模型中,则依次输出各目标声波片段对应的安全性识别结果,在输入所述预设卷积神经网络模型中目标声波片段对应的时间信息满足所述预设统计周期,则可对所述预设统计周期内的所述不安全结果的不安全结果数量和所述安全性识别结果的总结果数量进行统计,计算所述不安全结果数量与所述总结果数量之间的比值,并将所述比值作为所述预设统计周期内的报警概率。比如,所述音频数据流的数据长度为12秒,所述预设统计周期为3秒,则可每隔3秒统计对应的安全性识别结果,安全结果数量为7,不安全结果数量为80,安全性识别结果的总结果数量为87,则所述报警概率为91.95%。
在本实施例中,通过预设循环神经网络模型根据各目标声波片段生成权值矩阵,通过所述预设循环神经网络模型根据所述权值矩阵进行安全性识别,获得安全性识别结果,通过经过训练的预设卷积神经网络模型进行安全性识别,从而获得更高的识别准确率。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有基于语言模型的报警程序,所述基于语言模型的报警程序被处理器执行时实现如下步骤:
对音频数据流进行分段,获得多个目标声波片段;
通过预设循环神经网络模型对各目标声波片段进行安全性识别,获得安全性识别结果;
根据所述安全性识别结果,计算报警概率;
将所述报警概率与预设不安全阈值进行比较,获得比较结果;
根据所述比较结果判断是否进行报警。
进一步地,所述基于语言模型的报警程序被处理器执行时还实现如下操作:
获取音频数据流的数据流长度,根据所述数据流长度设置目标长度的滑动窗口;
对所述音频数据流通过所述目标长度的滑动窗口进行分段,获得多个目标声波片段。
进一步地,所述基于语言模型的报警程序被处理器执行时还实现如下操作:
获取所述音频数据流的时间信息,所述时间信息包括开始时刻和终止时刻;
以所述开始时刻为起始,通过所述目标长度的滑动窗口对所述音频数据流进行分段;
根据所述时间信息,将所述目标长度的滑动窗口后移,继续对所述音频数据流进行分段,直至所述终止时刻为止,获得多个目标声波片段。
进一步地,所述基于语言模型的报警程序被处理器执行时还实现如下操作:
将各目标声波片段按照所述时间信息从先到后依次输入预设循环神经网络模型中。
进一步地,所述基于语言模型的报警程序被处理器执行时还实现如下操作:
获取预设统计周期内的安全性识别结果;
根据所述预设统计周期内的安全性识别结果,计算报警概率。
进一步地,所述安全性识别结果包括不安全结果;所述基于语言模型的报警程序被处理器执行时还实现如下操作:
统计所述预设统计周期内所述不安全结果的不安全结果数量,并统计所述预设统计周期内所述安全性识别结果的总结果数量;
计算所述不安全结果数量与所述总结果数量之间的比值,并将所述比值作为所述预设统计周期内的报警概率。
进一步地,所述基于语言模型的报警程序被处理器执行时还实现如下操作:
通过预设循环神经网络模型根据各目标声波片段生成权值矩阵;
通过所述预设循环神经网络模型根据所述权值矩阵进行安全性识别,获得安全性识别结果。
进一步地,所述基于语言模型的报警程序被处理器执行时还实现如下操作:
通过预设循环神经网络模型从各目标声波片段中提取对应的波幅值、波峰值及波谷值,并根据各目标声波片段对应的波幅值、波峰值及波谷值生成权值矩阵。
进一步地,所述基于语言模型的报警程序被处理器执行时还实现如下操作:
在所述比较结果为所述报警概率大于或等于所述预设不安全阈值时,进行报警。
进一步地,所述基于语言模型的报警程序被处理器执行时还实现如下操作:
获取报警的准确率;
根据所述报警的准确率对所述预设不安全阈值进行调整。
进一步地,所述基于语言模型的报警程序被处理器执行时还实现如下操作:
获取样本声波片段及对应的样本安全性识别结果;
建立待训练循环神经网络模型;
根据所述样本声波片段及对应的所述样本安全性识别结果对待训练循环神经网络模型进行训练,获得预设循环神经网络模型。
进一步地,所述基于语言模型的报警程序被处理器执行时还实现如下操作:
通过麦克风对声波进行录入,并将所述声波转换成模拟信号;
通过模数转换器将所述模拟信号转换为数字信号;
将所述数字信号存储为预设格式的音频数据流。
进一步地,所述基于语言模型的报警程序被处理器执行时还实现如下操作:
通过模数转换器对所述模拟信号进行采样、量化及编码,获得数字信号。
本实施例中,通过对音频数据流进行分段,获得多个目标声波片段,通过对音频数据流进行分段,从而提高整个音频数据流安全性识别的准确性;通过预设循环神经网络模型对各目标声波片段进行安全性识别,获得安全性识别结果,根据所述安全性识别结果,计算报警概率,将所述报警概率与预设不安全阈值进行比较,获得比较结果,根据所述比较结果判断是否进行报警,通过循环神经网络模型对声波片段的安全性进行识别,提高识别的准确性,从而及时对不安全的音频数据流进行报警,减少安全隐患。
此外,参照图5,本发明实施例还提出一种基于语言模型的报警装置,所述基于语言模型的报警装置包括:
分段模块10,用于对音频数据流进行分段,获得多个目标声波片段。
应理解的是,可通过麦克风或其他声音采集器进行声音采集,形成波形,根据声波生成所述音频数据流。具体为,声源发声,也就是物体震动发声,麦克风录入,将声波描述成模拟信号,通过采集卡对模拟信号进行量化和采集,通过模数转换器ADC将模拟信号转换成数字信号,将数字信号存储为pcm无损音频数据流,并将pcm无损音频数据流输出,即获得所述音频数据流,本实施例中,在所述步骤S10之前,还包括:通过麦克风对声波进行录入,并将所述声波转换成模拟信号;通过模数转换器将所述模拟信号转换为数字信号;将所述数字信号存储为预设格式的音频数据流。
可理解的是,采样:以相等的间隔来测量模拟信号的物理量,完成对连续信号的离散化提取。声音采样:每隔一段时间在模拟音频波形上读取一个声音信号的幅度值。量化:将采样得到的幅度值进行数字化。编码:将两会后的值用一组二进制数字代码表示。在本实施例中,所述通过模数转换器将所述模拟信号转换为数字信号,具体包括:通过模数转换器对所述模拟信号进行采样、量化及编码,获得数字信号。
需要说明的是,为了提高所述音频数据流的安全性识别的准确性,可对所述音频数据流进行分段,可将所述音频数据流分成多个长度相同的目标声波片段,各目标声波片段中可有重叠的声波信息。例如,所述音频数据流为1万帧,采用100帧的滑动窗口对1万帧的音频数据流进行滑动分段,获得的目标声波片段为:0~100帧、1~101帧、2~102帧……9900~10000帧。
识别模块20,用于通过预设循环神经网络模型对各目标声波片段进行安全性识别,获得安全性识别结果。
可理解的是,所述预设循环神经网络模型为经过训练获得,预先获取大量的样本声波片段及对应的样本安全性识别结果,所述样本安全性识别结果包括安全结果和不安全结果,建立待训练循环神经网络模型,根据所述样本声波片段及对应的所述样本安全性识别结果对待训练循环神经网络模型进行训练,获得预设循环神经网络模型。通过训练获得的所述预设循环神经网络模型对各所述目标声波片段进行安全性识别,从而识别出各目标声波片段分别对应的安全性识别结果。所述安全性识别结果包括安全结果或不安全结果。在本实施例中,还包括:获取模块,用于获取样本声波片段及对应的样本安全性识别结果;建立模块,用于建立待训练循环神经网络模型;训练模块,用于根据所述样本声波片段及对应的所述样本安全性识别结果对待训练循环神经网络模型进行训练,获得预设循环神经网络模型。
计算模块30,用于根据所述安全性识别结果,计算报警概率。
在具体实现中,若各目标声波片段对应的安全性识别结果中超过预设数量的安全性识别结果都是不安全结果,则可认定所述音频数据流为不安全的,需要进行报警。可统计所述安全性识别结果中安全结果和不安全结果分别对应的数量,根据所述数量计算报警概率。具体地,可计算所述不安全结果数量与所述安全性识别结果总数之间的比值,将所述比值作为所述报警概率。在本实施例中,所述安全性识别结果包括不安全结果;所述步骤S30,包括:统计所述不安全结果的不安全结果数量,并统计所述安全性识别结果的总结果数量;计算所述不安全结果数量与所述总结果数量之间的比值,并将所述比值作为报警概率。
比较模块40,用于将所述报警概率与预设不安全阈值进行比较,获得比较结果。
应理解的是,所述预设不安全阈值可根据经验值进行设置,也可获取大量的历史数据,根据所述历史数据设置所述预设不安全阈值。将所述报警概率与所述预设不安全阈值进行比较,若所述报警概率小于所述预设不安全阈值,则认定所述音频数据流是安全的。比如,将所述预设不安全阈值设置为90%,所述报警概率为80%,所述报警概率80%小于所述预设不安全阈值90%,认定所述音频数据流是安全的,无需进行报警。
报警模块50,用于根据所述比较结果判断是否进行报警。
需要说明的是,所述比较结果包括所述报警概率大于或等于所述预设不安全阈值,或者,所述报警概率小于所述预设不安全阈值。若所述比较结果是所述报警概率大于或等于所述预设不安全阈值,则认定所述音频数据流是不安全的,可进行报警。在本实施例中,所述报警模块,还用于在所述比较结果为所述报警概率大于或等于所述预设不安全阈值时,进行报警。
进一步地,所述基于语言模型的报警装置还包括:
所述获取模块,还用于获取报警的准确率;
调整模块,用于根据所述报警的准确率对所述预设不安全阈值进行调整。
可理解的是,通常根据所述比较结果进行报警之后,用户会对所述音频数据流进行深入分析,以定位到不安全因素,及时进行处理。若在对所述音频数据流进行深入分析时发现所述音频数据流为安全的,则可将所述音频数据流的安全性设置为安全,并对报警的准确率进行统计,根据统计的报警的准确率对所述预设不安全阈值进行相应地调整。若存在大量的音频数据流是不安全的,但是未及时进行报警,则说明所述预设不安全阈值设置过高,漏掉了部分不安全数据流,则可将所述预设不安全阈值调低。若存在大量的音频数据流是安全的,但是却错误地进行了报警,则说明所述预设不安全阈值设置过低,将部分安全数据流也认定为不安全的,则可将所述预设不安全阈值调高。
本实施例中,通过对音频数据流进行分段,获得多个目标声波片段,通过对音频数据流进行分段,从而提高整个音频数据流安全性识别的准确性;通过预设循环神经网络模型对各目标声波片段进行安全性识别,获得安全性识别结果,根据所述安全性识别结果,计算报警概率,将所述报警概率与预设不安全阈值进行比较,获得比较结果,根据所述比较结果判断是否进行报警,通过循环神经网络模型对声波片段的安全性进行识别,提高识别的准确性,从而及时对不安全的音频数据流进行报警,减少安全隐患。
在一实施例中,所述分段模块10,还用于获取音频数据流的数据流长度,根据所述数据流长度设置目标长度的滑动窗口;对所述音频数据流通过所述目标长度的滑动窗口进行分段,获得多个目标声波片段。
在一实施例中,所述分段模块10,还用于获取所述音频数据流的时间信息,所述时间信息包括开始时刻和终止时刻;以所述开始时刻为起始,通过所述目标长度的滑动窗口对所述音频数据流进行分段;根据所述时间信息,将所述目标长度的滑动窗口后移,继续对所述音频数据流进行分段,直至所述终止时刻为止,获得多个目标声波片段。
在一实施例中,所述识别模块20,还用于通过预设循环神经网络模型根据各目标声波片段生成权值矩阵;通过所述预设循环神经网络模型根据所述权值矩阵进行安全性识别,获得安全性识别结果。
本发明所述基于语言模型的报警装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
本发明公开了A1、一种基于语言模型的报警方法,所述基于语言模型的报警方法包括以下步骤:
对音频数据流进行分段,获得多个目标声波片段;
通过预设循环神经网络模型对各目标声波片段进行安全性识别,获得安全性识别结果;
根据所述安全性识别结果,计算报警概率;
将所述报警概率与预设不安全阈值进行比较,获得比较结果;
根据所述比较结果判断是否进行报警。
A2、如A1所述的基于语言模型的报警方法,所述对音频数据流进行分段,获得多个目标声波片段,具体包括:
获取音频数据流的数据流长度,根据所述数据流长度设置目标长度的滑动窗口;
对所述音频数据流通过所述目标长度的滑动窗口进行分段,获得多个目标声波片段。
A3、如权利要求A2所述的基于语言模型的报警方法,所述对所述音频数据流通过所述目标长度的滑动窗口进行分段,获得多个目标声波片段,具体包括:
获取所述音频数据流的时间信息,所述时间信息包括开始时刻和终止时刻;
以所述开始时刻为起始,通过所述目标长度的滑动窗口对所述音频数据流进行分段;
根据所述时间信息,将所述目标长度的滑动窗口后移,继续对所述音频数据流进行分段,直至所述终止时刻为止,获得多个目标声波片段。
A4、如A3所述的基于语言模型的报警方法,所述通过预设循环神经网络模型对各目标声波片段进行安全性识别,获得安全性识别结果之前,所述基于语言模型的报警方法还包括:
将各目标声波片段按照所述时间信息从先到后依次输入预设循环神经网络模型中。
A5、如A1~A4中任一项所述的基于语言模型的报警方法,所述根据所述安全性识别结果,计算报警概率,具体包括:
获取预设统计周期内的安全性识别结果;
根据所述预设统计周期内的安全性识别结果,计算报警概率。
A6、如A5所述的基于语言模型的报警方法,所述安全性识别结果包括不安全结果;
所述根据所述预设统计周期内的安全性识别结果,计算报警概率,具体包括:
统计所述预设统计周期内所述不安全结果的不安全结果数量,并统计所述预设统计周期内所述安全性识别结果的总结果数量;
计算所述不安全结果数量与所述总结果数量之间的比值,并将所述比值作为所述预设统计周期内的报警概率。
A7、如A1~A4中任一项所述的基于语言模型的报警方法,所通过预设循环神经网络模型对各目标声波片段进行安全性识别,获得安全性识别结果,具体包括:
通过预设循环神经网络模型根据各目标声波片段生成权值矩阵;
通过所述预设循环神经网络模型根据所述权值矩阵进行安全性识别,获得安全性识别结果。
A8、如A7所述的基于语言模型的报警方法,所述通过预设循环神经网络模型根据各目标声波片段生成权值矩阵,具体包括:
通过预设循环神经网络模型从各目标声波片段中提取对应的波幅值、波峰值及波谷值,并根据各目标声波片段对应的波幅值、波峰值及波谷值生成权值矩阵。
A9、如A1~A4中任一项所述的基于语言模型的报警方法,所述根据所述比较结果判断是否进行报警,具体包括:
在所述比较结果为所述报警概率大于或等于所述预设不安全阈值时,进行报警。
A10、如A9所述的基于语言模型的报警方法,所述在所述比较结果为所述报警概率大于或等于所述预设不安全阈值时,进行报警之后,所述基于语言模型的报警方法还包括:
获取报警的准确率;
根据所述报警的准确率对所述预设不安全阈值进行调整。
A11、如A1~A4中任一项所述的基于语言模型的报警方法,所述通过预设循环神经网络模型对各目标声波片段进行安全性识别,获得安全性识别结果之前,所述基于语言模型的报警方法还包括:
获取样本声波片段及对应的样本安全性识别结果;
建立待训练循环神经网络模型;
根据所述样本声波片段及对应的所述样本安全性识别结果对待训练循环神经网络模型进行训练,获得预设循环神经网络模型。
A12、如A1~A4中任一项所述的基于语言模型的报警方法,所述对音频数据流进行分段,获得多个目标声波片段之前,所述基于语言模型的报警方法还包括:
通过麦克风对声波进行录入,并将所述声波转换成模拟信号;
通过模数转换器将所述模拟信号转换为数字信号;
将所述数字信号存储为预设格式的音频数据流。
A13、如A12所述的基于语言模型的报警方法,所述通过模数转换器将所述模拟信号转换为数字信号,具体包括:
通过模数转换器对所述模拟信号进行采样、量化及编码,获得数字信号。
本发明还公开了B14、一种基于语言模型的报警设备,所述基于语言模型的报警设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于语言模型的报警程序,所述基于语言模型的报警程序被所述处理器执行时实现如A1至A13中任一项所述的基于语言模型的报警方法的步骤。
本发明还公开了C15、一种存储介质,所述存储介质上存储有基于语言模型的报警程序,所述基于语言模型的报警程序被处理器执行时实现如A1至A13中任一项所述的基于语言模型的报警方法的步骤。
本发明还公开了D16、一种基于语言模型的报警装置,所述基于语言模型的报警装置包括:
分段模块,用于对音频数据流进行分段,获得多个目标声波片段;
识别模块,用于通过预设循环神经网络模型对各目标声波片段进行安全性识别,获得安全性识别结果;
计算模块,用于根据所述安全性识别结果,计算报警概率;
比较模块,用于将所述报警概率与预设不安全阈值进行比较,获得比较结果;
报警模块,用于根据所述比较结果判断是否进行报警。
D17、如D16所述的基于语言模型的报警装置,所述分段模块,还用于获取音频数据流的数据流长度,根据所述数据流长度设置目标长度的滑动窗口;对所述音频数据流通过所述目标长度的滑动窗口进行分段,获得多个目标声波片段。
D18、如D17所述的基于语言模型的报警装置,所述分段模块,还用于获取所述音频数据流的时间信息,所述时间信息包括开始时刻和终止时刻;以所述开始时刻为起始,通过所述目标长度的滑动窗口对所述音频数据流进行分段;根据所述时间信息,将所述目标长度的滑动窗口后移,继续对所述音频数据流进行分段,直至所述终止时刻为止,获得多个目标声波片段。
D19、如D16~D18中任一项所述的基于语言模型的报警装置,所述识别模块,还用于通过预设循环神经网络模型根据各目标声波片段生成权值矩阵;通过所述预设循环神经网络模型根据所述权值矩阵进行安全性识别,获得安全性识别结果。
D20、如D16~D18中任一项所述的基于语言模型的报警装置,所述基于语言模型的报警装置还包括:
获取模块,用于获取样本声波片段及对应的样本安全性识别结果;
建立模块,用于建立待训练循环神经网络模型;
训练模块,用于根据所述样本声波片段及对应的所述样本安全性识别结果对待训练循环神经网络模型进行训练,获得预设循环神经网络模型。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为标识。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器镜像(ReadOnly Memory image,ROM)/随机存取存储器(Random AccessMemory,RAM)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于语言模型的报警方法,其特征在于,所述基于语言模型的报警方法包括以下步骤:
对音频数据流进行分段,获得多个目标声波片段;
通过预设循环神经网络模型对各目标声波片段进行安全性识别,获得安全性识别结果;
根据所述安全性识别结果,计算报警概率;
将所述报警概率与预设不安全阈值进行比较,获得比较结果;
根据所述比较结果判断是否进行报警。
2.如权利要求1所述的基于语言模型的报警方法,其特征在于,所述对音频数据流进行分段,获得多个目标声波片段,具体包括:
获取音频数据流的数据流长度,根据所述数据流长度设置目标长度的滑动窗口;
对所述音频数据流通过所述目标长度的滑动窗口进行分段,获得多个目标声波片段。
3.如权利要求2所述的基于语言模型的报警方法,其特征在于,所述对所述音频数据流通过所述目标长度的滑动窗口进行分段,获得多个目标声波片段,具体包括:
获取所述音频数据流的时间信息,所述时间信息包括开始时刻和终止时刻;
以所述开始时刻为起始,通过所述目标长度的滑动窗口对所述音频数据流进行分段;
根据所述时间信息,将所述目标长度的滑动窗口后移,继续对所述音频数据流进行分段,直至所述终止时刻为止,获得多个目标声波片段。
4.如权利要求1~3中任一项所述的基于语言模型的报警方法,其特征在于,所述根据所述安全性识别结果,计算报警概率,具体包括:
获取预设统计周期内的安全性识别结果;
根据所述预设统计周期内的安全性识别结果,计算报警概率。
5.如权利要求4所述的基于语言模型的报警方法,其特征在于,所述安全性识别结果包括不安全结果;
所述根据所述预设统计周期内的安全性识别结果,计算报警概率,具体包括:
统计所述预设统计周期内所述不安全结果的不安全结果数量,并统计所述预设统计周期内所述安全性识别结果的总结果数量;
计算所述不安全结果数量与所述总结果数量之间的比值,并将所述比值作为所述预设统计周期内的报警概率。
6.如权利要求1~3中任一项所述的基于语言模型的报警方法,其特征在于,所通过预设循环神经网络模型对各目标声波片段进行安全性识别,获得安全性识别结果,具体包括:
通过预设循环神经网络模型根据各目标声波片段生成权值矩阵;
通过所述预设循环神经网络模型根据所述权值矩阵进行安全性识别,获得安全性识别结果。
7.如权利要求6所述的基于语言模型的报警方法,其特征在于,所述通过预设循环神经网络模型根据各目标声波片段生成权值矩阵,具体包括:
通过预设循环神经网络模型从各目标声波片段中提取对应的波幅值、波峰值及波谷值,并根据各目标声波片段对应的波幅值、波峰值及波谷值生成权值矩阵。
8.一种基于语言模型的报警设备,其特征在于,所述基于语言模型的报警设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于语言模型的报警程序,所述基于语言模型的报警程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于语言模型的报警方法的步骤。
9.一种存储介质,其特征在于,所述存储介质上存储有基于语言模型的报警程序,所述基于语言模型的报警程序被处理器执行时实现如权利要求1至7中任一项所述的基于语言模型的报警方法的步骤。
10.一种基于语言模型的报警装置,其特征在于,所述基于语言模型的报警装置包括:
分段模块,用于对音频数据流进行分段,获得多个目标声波片段;
识别模块,用于通过预设循环神经网络模型对各目标声波片段进行安全性识别,获得安全性识别结果;
计算模块,用于根据所述安全性识别结果,计算报警概率;
比较模块,用于将所述报警概率与预设不安全阈值进行比较,获得比较结果;
报警模块,用于根据所述比较结果判断是否进行报警。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010234114.8A CN113516970A (zh) | 2020-03-27 | 2020-03-27 | 基于语言模型的报警方法、设备、存储介质及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010234114.8A CN113516970A (zh) | 2020-03-27 | 2020-03-27 | 基于语言模型的报警方法、设备、存储介质及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113516970A true CN113516970A (zh) | 2021-10-19 |
Family
ID=78060031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010234114.8A Pending CN113516970A (zh) | 2020-03-27 | 2020-03-27 | 基于语言模型的报警方法、设备、存储介质及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113516970A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108648746A (zh) * | 2018-05-15 | 2018-10-12 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
CN108764042A (zh) * | 2018-04-25 | 2018-11-06 | 深圳市科思创动科技有限公司 | 一种异常路况信息识别方法、装置及终端设备 |
CN109065024A (zh) * | 2018-11-02 | 2018-12-21 | 科大讯飞股份有限公司 | 异常语音数据检测方法及装置 |
CN109192222A (zh) * | 2018-07-23 | 2019-01-11 | 浙江大学 | 一种基于深度学习的声音异常检测系统 |
CN110033787A (zh) * | 2018-01-12 | 2019-07-19 | 英特尔公司 | 触发视频分析的音频事件 |
CN110189769A (zh) * | 2019-05-23 | 2019-08-30 | 复钧智能科技(苏州)有限公司 | 基于多个卷积神经网络模型结合的异常声音检测方法 |
CN110910900A (zh) * | 2019-12-27 | 2020-03-24 | 科大讯飞股份有限公司 | 音质异常数据检测方法、装置、电子设备及存储介质 |
-
2020
- 2020-03-27 CN CN202010234114.8A patent/CN113516970A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033787A (zh) * | 2018-01-12 | 2019-07-19 | 英特尔公司 | 触发视频分析的音频事件 |
CN108764042A (zh) * | 2018-04-25 | 2018-11-06 | 深圳市科思创动科技有限公司 | 一种异常路况信息识别方法、装置及终端设备 |
CN108648746A (zh) * | 2018-05-15 | 2018-10-12 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
CN109192222A (zh) * | 2018-07-23 | 2019-01-11 | 浙江大学 | 一种基于深度学习的声音异常检测系统 |
CN109065024A (zh) * | 2018-11-02 | 2018-12-21 | 科大讯飞股份有限公司 | 异常语音数据检测方法及装置 |
CN110189769A (zh) * | 2019-05-23 | 2019-08-30 | 复钧智能科技(苏州)有限公司 | 基于多个卷积神经网络模型结合的异常声音检测方法 |
CN110910900A (zh) * | 2019-12-27 | 2020-03-24 | 科大讯飞股份有限公司 | 音质异常数据检测方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108520741B (zh) | 一种耳语音恢复方法、装置、设备及可读存储介质 | |
CN108833722B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN107516534B (zh) | 一种语音信息的比对方法、装置及终端设备 | |
CN112289323B (zh) | 语音数据处理方法、装置、计算机设备和存储介质 | |
CN105989836B (zh) | 一种语音采集方法、装置及终端设备 | |
US8046215B2 (en) | Method and apparatus to detect voice activity by adding a random signal | |
CN110853648B (zh) | 一种不良语音检测方法、装置、电子设备及存储介质 | |
CN110674385A (zh) | 客服升级场景下匹配客服的方法及装置 | |
CN111462758A (zh) | 智能会议角色分类的方法、装置、设备及存储介质 | |
CN111489517A (zh) | 螺丝锁附异常警报方法、装置、计算机装置及存储介质 | |
CN112738338A (zh) | 基于深度学习的电话识别方法、装置、设备及介质 | |
CN109240916B (zh) | 信息输出控制方法、装置及计算机可读存储介质 | |
JP4201204B2 (ja) | オーディオ情報分類装置 | |
CN112466287B (zh) | 一种语音分割方法、装置以及计算机可读存储介质 | |
CN113516970A (zh) | 基于语言模型的报警方法、设备、存储介质及装置 | |
CN111640450A (zh) | 多人声音频处理方法、装置、设备及可读存储介质 | |
JP4392805B2 (ja) | オーディオ情報分類装置 | |
CN111797397B (zh) | 恶意代码可视化及变种检测方法、设备及存储介质 | |
CN110364169A (zh) | 声纹识别方法、装置、设备及计算机可读存储介质 | |
CN114664313A (zh) | 语音识别方法、装置、计算机设备、存储介质和程序产品 | |
CN112509597A (zh) | 录音数据识别方法和装置、录音设备 | |
CN110931021A (zh) | 一种音频信号处理方法及装置 | |
JP4645866B2 (ja) | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 | |
CN116110373B (zh) | 智能会议系统的语音数据采集方法及相关装置 | |
CN110875043A (zh) | 声纹识别方法、装置、移动终端及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |