CN115132188A - 基于语音识别的预警方法、装置、终端设备及存储介质 - Google Patents

基于语音识别的预警方法、装置、终端设备及存储介质 Download PDF

Info

Publication number
CN115132188A
CN115132188A CN202211068240.6A CN202211068240A CN115132188A CN 115132188 A CN115132188 A CN 115132188A CN 202211068240 A CN202211068240 A CN 202211068240A CN 115132188 A CN115132188 A CN 115132188A
Authority
CN
China
Prior art keywords
early warning
voice
voice data
warning state
activity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211068240.6A
Other languages
English (en)
Inventor
郝德月
刘岩
苏剑飞
王杰
杨实
王治宇
黄智豪
吴林
胡婕
赵思媛
汤芯怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Xiangyi Aviation Technology Co Ltd
Original Assignee
Zhuhai Xiangyi Aviation Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Xiangyi Aviation Technology Co Ltd filed Critical Zhuhai Xiangyi Aviation Technology Co Ltd
Priority to CN202211068240.6A priority Critical patent/CN115132188A/zh
Publication of CN115132188A publication Critical patent/CN115132188A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B31/00Predictive alarm systems characterised by extrapolation or other computation using updated historic data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Emergency Management (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请涉及语音数据处理技术领域,具体涉及一种基于语音识别的预警方法、装置、终端设备及存储介质;包括以下方法:获取语音数据,并提取所述语音数据中的语音预警状态活动特征信息;将所述语音预警状态活动特征信息与预设的语音预警活动特征数据库进行比对,所述语音预警活动特征数据库中配置有多个预警活动特征信息;比较所述语音预警状态活动特征信息与多个所述预警活动特征信息中任一所述特征信息的相似度;基于相似度阈值确定对应的预警活动特征信息,并确定预警行为;本发明基于多次的识别过程可以将识别过程中的历史数据进行再次保存至样本数据集,针对于下一次的识别过程提供丰富的数据,进一步的提高了识别的准确度。

Description

基于语音识别的预警方法、装置、终端设备及存储介质
技术领域
本申请涉及语音数据处理技术领域,具体涉及一种基于语音识别的预警方法、装置、终端设备及存储介质。
背景技术
随着科技的发展和人们生活水平的提高,在多种公共场所均安置有监控、监听设备,以保障用户的生命及财产安全。
然而,相关的监管方法主要是通过保存监控、监听设备中的视频、音频数据,后期通过管理人员对视频、音频进行处理,查找其中相应的危险数据或证据,易消耗大量的人力,识别效率底下且识别效果不高。所以,针对于目前智能设备的普及针对于现有的监控设备中也配置有能够实现语音信息识别的方法,针对于获取的语音信息进行危险的识别,但现有技术中的识别方法识别准确率低,并且因为环境空间的原因导致需要进行复杂的识别过程才能进行初步的识别,识别的成本也较高。
发明内容
为了达到上述目的,本申请实施例采用的技术方案如下:
一种基于语音识别的预警方法,包括以下方法:获取语音数据,并提取所述语音数据中的语音预警状态活动特征信息;将所述语音预警状态活动特征信息与预设的语音预警活动特征数据库进行比对,所述语音预警活动特征数据库中配置有多个预警活动特征信息;比较所述语音预警状态活动特征信息与多个所述预警活动特征信息中任一所述预警活动特征信息的相似度;基于相似度阈值确定对应的预警活动特征信息,并确定预警行为;所述语音预警活动特征数据库构建基于多个语音数据,并提取多个语音数据中涉及的预警语音状态活动的预警状态活动特征信息,将多个所述预警状态活动特征信息集合为语音预警活动特征数据库,所述语音预警活动特征数据库用于表征所述预警语音状态活动对应的预警行为态势图谱。
在第一方面的第一种可实现方式中,在获取语音数据,并提取所述语音数据中的语音预警状态活动特征信息之前,还包括对所述语音数据进行分割处理,获得待识别人声数据,具体包括以下方法:构建多个语音样本数据,并确定多个所述语音样本数据中对应语音样本数据的声纹信息,所述语音样本数据包括多个人声语音样本数据以及多个环境语音样本数据,所述声纹信息包括多个人声语音样本数据对应的多个人声声纹信息,以及多个环境声音样本数据对应的多个环境声纹信息;提取所述语音数据中的多个声纹信息;将多个所述声纹信息与所述语音样本数据中多个人声声纹信息、多个环境声纹信息进行比对,获取多个所述声纹信息与多个所述人声声纹信息、多个所述环境声纹信息的相似度;基于所述相似度确定多个所述声纹信息中对应的人声数据以及环境声音数据,获得待识别人声数据。
结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,提取所述语音数据中的语音预警状态活动特征信息,包括提取所述待识别人声数据中的语音预警状态活动特征信息,包括以下方法:对所述待识别人声数据进行快速傅里叶变换处理,获得傅里叶变换特征信息;对所述傅里叶变换特征信息进行滤波处理,获得滤波特征信息;对所述滤波特征信息进行降噪处理,获得第一语音特征信息;依据满足网络收敛要求的预警状态决策网络对所述第一语音特征信息进行处理,获得所述待识别人声数据中所述语音预警状态活动特征信息。
结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述语音预警活动特征数据库构建基于多个语音数据,并提取多个语音数据中涉及的预警语音状态活动的预警状态活动特征信息,包括:依据满足网络收敛要求的预警状态决策网络对多个所述语音数据中的多个第一语音特征信息进行处理,获得对应的待识别人声数据中涉及的预警语音状态活动的预警状态活动特征信息。
结合第一方面的第二种可能或第三种可能的实现方式,在第四种可能的实现方式中,满足收敛要求的预警状态决策网络基于初始预警状态决策网络通过权重优化得到,权重优化过程包括:确定参考待识别人声数据集,以及在所述参考待识别人声数据集中确定多个参考预警状态活动的参考预警状态活动特征,多个参考预警状态活动的参考预警状态活动特征对应所述参考待识别人声数据集中的多个参考待识别人声数据配置;基于初始预警状态决策网络对多个所述参考待识别人声数据进行特征决策,获得多个所述参考预警状态活动对应的多个决策预警状态活动特征;基于多个所述预警状态活动特征以及多个所述决策预警状态活动特征,对所述初始预警状态决策网络进行网络权重优化,以获得满足网络收敛要求的所述预警状态决策网络。
结合第一方面的第四种可能的实现方式,在第五种可能的实现方式中,所述参考待识别人声数据集包括第一参考待识别人声数据和第二参考待识别人声数据,权重优化过程包括:基于第一参考待识别人声数据和第二参考待识别人声数据,确定第一参考待识别人声数据中的第一参考预警状态活动特征以及第二参考待识别人声数据中的第二参考预警状态活动特征;依据初始化预警状态决策网络,对所述第一参考待识别人声数据和第二参考待识别人声数据进行特征决策,获得所述第一参考待识别人声数据的第一决策预警状态活动特征以及所述第二参考待识别人声数据的第二决策预警状态活动特征;依据所述第一参考预警状态活动特征和第一决策预警状态活动特征、所述第二参考预警状态活动特征和第二决策预警状态活动特征,对所述初始化预警状态决策网络进行网络权重优化,以获得满足网络收敛要求的所述预警状态决策网络。
在第一方面的第六种可能的实现方式中,基于相似度阈值确定对应的预警活动特征信息,并确定预警行为,包括:对处于阈值范围内的相似度进行排序,将排序最高值对应的相似度所对应的预警活动特征信息作为目标预警活动特征信息,基于所述目标预警活动特征信息确定对应的预警行为。
第二方面,提供一种基于语音识别的预警装置,包括:语音数据获取模块,用于获取语音数据;特征获取模块,用于获取语音数据中的语音预警状态活动特征信息;比对模块,用于将所述语音预警状态活动特征信息与预设的语音预警活动特征数据库进行比对,并获得相似度;预警行为确定模块,用于基于相似度阈值确定对应的预警活动特征信息,并确定预警行为。
第三方面,一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述任一项所述的方法。
第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法。
本申请实施例提供的技术方案中,通过获取实时的语音数据,提取语音数据中用于表征预警活动的预警状态活动特征信息,并将预警状态活动特征信息与预设置的语音预警活动特征数据库进行比对,基于比对结果的相似度即预警状态活动特征信息与预设设置的语音预警活动特征数据库中的多个预警活动特征信息的相似度确定是否在语音数据中具有预警信息。具有识别精确度高,识别成本低的技术效果,并且基于多次的识别过程可以将识别过程中的历史数据进行再次保存至样本数据集,针对于下一次的识别过程提供丰富的数据,进一步的提高了识别的准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图中的方法、系统和/或程序将根据示例性实施例进一步描述。这些示例性实施例将参照图纸进行详细描述。这些示例性实施例是非限制的示例性实施例,其中示例数字在附图的各个视图中代表相似的机构。
图1是本申请实施例提供的终端设备的结构示意图。
图2是本申请的一些实施例所示的基于语音识别的预警方法的流程图。
图3是根据本申请实施例提供的装置方框示意图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本申请技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
在下面的详细描述中,通过实例阐述了许多具体细节,以便提供对相关指导的全面了解。然而,对于本领域的技术人员来说,显然可以在没有这些细节的情况下实施本申请。在其他情况下,公知的方法、程序、系统、组成和/或电路已经在一个相对较高水平上被描述,没有细节,以避免不必要的模糊本申请的方面。
本申请中使用流程图说明根据本申请的实施例的系统所执行的执行过程。应当明确理解的是,流程图的执行过程可以不按顺序执行。相反,这些执行过程可以以相反的顺序或同时执行。另外,可以将至少一个其他执行过程添加到流程图。一个或多个执行过程可以从流程图中删除。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
本申请实施例提供的技术方案,主要通过获取实时的语音数据,提取语音数据中用于表征预警活动的预警状态活动特征信息,并将预警状态活动特征信息与预设置的语音预警活动特征数据库进行比对,基于比对结果的相似度即预警状态活动特征信息与预设设置的语音预警活动特征数据库中的多个预警活动特征信息的相似度确定是否在语音数据中具有预警信息,并且因为相似度设置有判断阈值,当预警状态活动特征信息与预警活动特征信息的相似度在阈值范围内时,则判断具有预警信息并确定预警信息为配置在预警活动特征数据库中相似度最大的预警活动特征信息,并将此信息通过通信单元发送至对应的用户端。在本实施例中,用户端为后台监控终端使用者的终端,根据使用场景的不同对应的人员也不同。例如,在公共场合进行使用即例如公交车、地铁或公共室外空间,其用户端的使用者为安全执法人员;如果在家庭空间或者是在私有空间内例如家庭或私家车内,则用户端的使用者为车辆或家庭对应的人员。其中,针对于用户端需要提前进行注册,将用户端与对应的终端进行连接。
在本实施例中,预警状态活动特征信息为含有有效文字的信息,即通过有效文字的信息与预设的预警活动特征数据库中的多个预警活动特征信息进行比对,得到有效文字的信息与预警活动特征信息的相似度,基于相似度确定是否为预设的预警活动特征信息,如果判断在阈值范围内时则确定对应的预警活动特征信息。
本申请实施例提供一种终端设备100,该终端设备包括存储器110、处理器120以及存储在存储器中并可在处理器上运行的计算机程序,其中处理器执行基于语音识别的预警方法,对语音数据进行特征提取并获得对应的预警信息。在本实施例中,该终端设备与用户端进行通信,将获取到的预警活动特征信息发送至对应的用户端,在硬件上实现对于预警信息的发送。其中,针对于发送信息的方式基于网络实现,并且在终端设备进行应用之前需要对用户端与终端设备建立关联关系,可以通过注册的方式实现对于终端设备与用户端之间的关联。其中终端设备可以针对多个用户端,也可以针对一个用户端,并且用户端通过密码以及其他加密的方式与终端设备进行通信。
在本实施例中,该终端可以为服务器,针对于服务器的物理结构,包括存储器、处理器和通信单元。存储器、处理器以及通信单元各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器用于存储特定的信息和程序,通信单元用于将处理后的信息进行发送至对应的用户端。
本实施例将存储模块划分为两个存储区域,其中一个存储区为程序存储单元,另一个存储区域为数据存储单元。程序存储单元相当于固件区,该区域的读写权限设置为只读模式,其内存储的数据不可擦除和更改。而数据存储单元中的数据可以进行擦除或读写,当数据存储区域的容量已满时,新写入的数据会对最早期的历史数据进行覆盖。
其中,存储器可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Ele超声ric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(DSP))、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图2,在本实施例中,针对于基于语音识别的预警方法,其工作逻辑为,获取对应范围内的语音数据,其中语音数据的获取可以通过在终端设备上外设的语音采集设备进行得到,其中语音采集设备包括麦克风以及其他对应的收音设备,其设备对于语音数据的采集范围可以根据具体的适用范围进行确定。例如,在公共较为开阔的场合进行使用时其语音采集设备可以为大范围的采集设备,在私人小范围空间进行使用时,其语音采集设备可以为小范围的采集设备。本实施例中,语音数据采集设备可以通过现有的多种设备进行选型配置,在本实施例中不再进行说明。当采集到对应范围内的语音数据后对语音数据中的语音预警状态活动特征信息进行提取,其中预警状态活动特征信息为语音数据中的有效的文字信息,其中有效文字信息包括行为信息或者是身份信息,在本实施例中针对此内容不再进行详细描述。基于获取的预警状态活动特征信息进行识别,通过识别结果判断是否存在对应的预警信息以及预警行为。
针对于本实施例提供的工作逻辑提供一种基于语音识别的预警方法,参阅图2做详细的说明。
参阅图2,本实施例提供的基于语音识别的预警方法,具体包括以下方法:
步骤S210. 获取语音数据,提取语音数据中的特征信息。
在本实施例中,具体为基于获取的语音数据,提取语音数据中的预警状态活动特征信息。此过程是一个较为复杂的过程,因为获取的语音数据和最终输出的预警状态活动特征信息的数据性质不同,需要对数据进行较为复杂的处理。并且针对于语音数据采集设备使用场景不同,其采集到的语音数据较为复杂,不仅包括能够实现特征提取的语音数据还包括一些干扰的语音数据,为了精确地对预警状态活动特征信息进行提取,需要对语音数据进行降噪处理,将能够实现特征提取的语音数据进行筛选,并基于筛选后的语音数据进行特征的提取。
针对于此过程,其过程包括:
步骤S211.对语音数据进行分割处理,获得待识别人声数据。
在本实施例中,此过程配置在特征提取之前,即对获取的语音数据进行降噪筛选处理,将无法提取或不用参与特征提取过程的语音数据进行剔除,获得待识别人声数据。针对此步骤包括以下过程:
构建多个语音样本数据,并确定多个语音样本数据中对应语音样本数据的声纹信息。针对此步骤,其中多个语音样本数据的获得可以基于历史数据进行获得,还可以针对于多个相同配置的终端设备所处相同环境中获得的历史数据进行获得,针对此过程获得语音样本数据的数量在获取的能力范围内越多越好,即获得语音样本数据决定后续的判断准确度。其中针对于声纹信息的获得可以通过现有的声纹识别方法进行,在本实施例中针对于此过程不进行详细描述,采用现有的声纹提取方法即可。
在本实施例中,因为终端设备配置的环境较为复杂,所以针对于语音样本数据包括多个人声语音样本数据以及多个环境语音样本数据,其中人声语音样本数据以及环境语音样本数据分别存储于不同的空间内,即针对于人声语音样本数据存储至人声样本空间内,环境语音样本数据存储在环境样本空间内。通过分区存储的方式实现后期比对过程的便捷性。
在本实施例中,声纹信息包括多个人声语音样本数据对应的多个人声声纹信息,多个环境声音样本数据对应多个环境声纹信息,同样的人声声纹信息存储在人声样本空间内,环境声纹信息存储在环境样本空间内。
提取语音数据中的多个声纹信息,在此过程主要是提取声纹信息,其提取方法也可以通过现有的声纹提取方法来实现。
将多个声纹信息与语音样本数据中的多个人声声纹信息、多个环境声纹信息进行比对,获取多个所述声纹信息与多个所述人声声纹信息、多个所述环境声纹信息的相似度。在本实施例中,是将获取的语音数据中的多个声纹信息与语音样本数据中的人声声纹信息以及环境声纹信息进行比对,从而判断在语音数据中具有的人声声纹信息。因为在此方法的使用场景主要是用于对人的行为信息进行识别从而判断对应的人是否处于危险的环境中或者处于危险的行为中,例如,在公共场合受到小偷的盗窃,大喊救命,此“救命”属于预警行为。所以,需要在复杂的环境中对于人声声纹进行获取并是否具有相同性质的声音,从而获得预警信息。
在本实施例中,针对于复杂环境的人声提取基于配置的语音样本数据进行比对,基于比对的相似度获得是否具有人声声纹并提取人声声纹。其中提取后的人声声纹信息为待识别人声数据。
步骤S212.提取待识别人声数据中的预警状态活动特征信息。
针对于步骤S211,主要是获取人声声纹,针对于步骤S212为提取人声声纹中的预警状态活动特征信息,其方法主要包括以下过程:
对待识别人声数据进行快速傅里叶变换处理,获得傅里叶变换特征信息。傅里叶变换特征信息进行滤波处理,获得滤波特征信息。对所述滤波特征信息进行降噪处理,获得第一语音特征信息。
在本实施例中,对此过程主要是针对获取的待识别人声数据进行降噪处理得到第一语音特征信息,其中快速傅里叶变换(fast Fourier transform),即利用计算机计算离散傅里叶变换(DFT)的高效、快速计算方法的统称,简称FFT。FFT算法具有计算量小的显著的优点,使得FFT在信号处理技术领域获得了广泛应用,结合高速硬件就能实现对信号的实时处理。例如,对语音信号的分析和合成,对通信系统中实现全数字化的时分制与频分制(TDM/FDM)的复用转换,在频域对信号滤波以及相关分析,通过对雷达、声纳、振动信号的频谱分析以提高对目标的搜索和跟踪的分辨率等等,都要用到FFT。可以说FFT的出现,对数字信号处理学科的发展起了重要的作用。降噪处理方法具体采用的是谱减法。处理过程包括:获得每一帧的频谱,通过VAD算法检测人声/噪声片段,降噪声片段的频谱加起来求取平均值,使用原始的频谱减去噪声频谱,获得不包含噪声的频谱。
依据满足网络收敛要求的预警状态决策网络对所述第一语音特征信息进行处理,获得所述待识别人声数据中所述语音预警状态活动特征信息。
在本实施例中,满足网络收敛要求的预警状态决策网络为通过训练的方式进行获得,具体的训练方式包括以下步骤:
确定参考待识别人声数据集,以及在所述参考待识别人声数据集中确定多个参考预警状态活动的参考预警状态活动特征,多个参考预警状态活动的参考预警状态活动特征对应所述参考待识别人声数据集中的多个参考待识别人声数据配置。在本实施例中,参考待识别人声数据集为训练的基础数据集,其中参考待识别人声数据集为集合了与本实施例进行处理的语音数据中的人声数据相似性质的人声数据。
基于初始预警状态决策网络对多个所述参考待识别人声数据进行特征决策,获得多个所述参考预警状态活动对应的多个决策预警状态活动特征。在本实施例中,初始预警状态决策网络为预先配置的未经过训练的决策网络,在本实施例中,针对于具体的初始预警状态决策网络可以为神经网络,针对于此神经网络可以为现有技术中的神经网络结构。神经网络主要通过获取的特征经过多层的处理得到对应的决策概率分布,基于决策概率分布获取对应的决策并基于对应的决策与环境进行交互,在本实施例中环境为具体的训练行为环境,基于决策以及环境交互结果对初始预警状态决策网络进行训练直至网络满足收敛状态。
基于多个所述预警状态活动特征以及多个所述决策预警状态活动特征,对所述初始预警状态决策网络进行网络权重优化,以获得满足网络收敛要求的所述预警状态决策网络。具体为,通过以上的处理将初始预警状态决策网络进行网络权重优化,其中网络权重优化具体为对网络中的权重值进行优化,从而获得最终满足网络收敛要求的预警状态决策网络。
因为参考待识别人声数据集为多个数据,为了举例,在本实施例中将参考待识别人声数据集中的人声数据确定为第一参考待识别人声数据和第二参考待识别人声数据,而针对于训练过程则基于第一参考待识别人声数据和第二参考待识别人声数据实现,具体包括以下步骤:
定第一参考待识别人声数据中的第一参考预警状态活动特征以及第二参考待识别人声数据中的第二参考预警状态活动特征。
依据初始化预警状态决策网络,对所述第一参考待识别人声数据和第二参考待识别人声数据进行特征决策,获得所述第一参考待识别人声数据的第一决策预警状态活动特征以及所述第二参考待识别人声数据的第二决策预警状态活动特征。
依据所述第一参考预警状态活动特征和第一决策预警状态活动特征、所述第二参考预警状态活动特征和第二决策预警状态活动特征,对所述初始化预警状态决策网络进行网络权重优化,以获得满足网络收敛要求的所述预警状态决策网络。
步骤S220. 将所述语音预警状态活动特征信息与预设的语音预警活动特征数据库进行比对。
在本实施例中,基于满足网络收敛要求的预警状态决策模型提取到的预警状态活动特征信息与预设的语音预警活动特征数据库中的多个预警活动特征信息进行比对。在本实施例中,语音预警活动特征数据库的构建基于多个语音数据,并提取多个语音数据中涉及的预警语音状态活动的预警状态活动特征信息,将多个所述预警状态活动特征信息集合为语音预警活动特征数据库,所述语音预警活动特征数据库用于表征所述预警语音状态活动对应的预警行为态势图谱。并且在语音预警活动特征数据库中配置有多个预警活动特征信息。
本实施例通过构建数据库的方式实现对于预警状态活动特征信息的识别,具体的识别过程包括步骤S230.
步骤S230. 比较所述语音预警状态活动特征信息与多个所述预警活动特征信息中任一所述预警活动特征信息的相似度。
在本实施例中,将语音预警状态活动特征信息与配置在数据库中的多个预警活动特征信息中的任一特征信息进行比对,获取二者的相似度。并且相似度阈值确定对应的预警活动特征信息并确定预警行为。
在本实施例中,针对于比对并非仅对一个特征信息进行比对,而是与所有的特征信息比对,获得对于所有特征的相似度阈值。基于多个特征相似度阈值进行排序,其中相似度最高的特征信息为对应的预警活动特征信息,并且基于获取的预警活动特征信息确定其对应的预警行为,在数据库中针对于预警活动特征信息中配置有对应的行为标签,基于行为标签确定对应的预警行为。
参阅图3,本实施例还提供一种基于语音识别的预警装置300,包括:语音数据获取模块310,用于获取语音数据。特征获取模块320,用于获取语音数据中的语音预警状态活动特征信息。比对模块330,用于将所述语音预警状态活动特征信息与预设的语音预警活动特征数据库进行比对,并获得相似度。预警行为确定模块340,用于基于相似度阈值确定对应的预警活动特征信息,并确定预警行为。
本申请实施例提供的技术方案中,通过获取实时的语音数据,提取语音数据中用于表征预警活动的预警状态活动特征信息,并将预警状态活动特征信息与预设置的语音预警活动特征数据库进行比对,基于比对结果的相似度即预警状态活动特征信息与预设设置的语音预警活动特征数据库中的多个预警活动特征信息的相似度确定是否在语音数据中具有预警信息。具有识别精确度高,识别成本低的技术效果,并且基于多次的识别过程可以将识别过程中的历史数据进行再次保存至样本数据集,针对于下一次的识别过程提供丰富的数据,进一步的提高了识别的准确度。
需要理解的是,针对上述内容没有进行名词解释的技术术语,本领域技术人员可以根据上述所公开的内容进行前后推导毫无疑义地确定其所指代的含义在此均不作限定。
本领域技术人员可以根据上述已公开的内容毫无疑义对一些预设的、基准的、预定的、设定的以及偏好标签的技术特征/技术术语进行确定,例如阈值、阈值区间、阈值范围等。对于一些未作解释的技术特征术语,本领域技术人员完全能够基于前后文的逻辑关系进行合理地、毫无疑义地推导,从而清楚、完整地实施上述技术方案。未作解释的技术特征术语的前缀,例如“第一”、“第二”、“示例”、 “目标”等,可以根据前后文进行毫无疑义地推导和确定。未作解释的技术特征术语的后缀,例如“集合”、“列表”等,也可以根据前后文进行毫无疑义地推导和确定。
本申请实施例公开的上述内容对于本领域技术人员而言是清楚完整的。应当理解,本领域技术人员基于上述公开的内容对未作解释的技术术语进行推导和分析的过程是基于本申请所记载的内容进行的,因此上述内容并不是对整体方案的创造性的评判。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅作为示例,而并不构成对本申请的限定。虽然此处并没有明确说明,本领域技术人员可以对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定术语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同部分两次或多次提到的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的至少一个实施例中的某些特征、结构或特点可以进行适当的组合。
另外,本领域普通技术人员可以理解的是,本申请的各个方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可以被称为“单元”、“组件”或“系统”。此外,本申请的各方面可以表现为位于至少一个计算机可读介质中的计算机产品,所述产品包括计算机可读程序编码。
计算机可读信号介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等等、或合适的组合形式。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读信号介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤缆线、RF、或类似介质、或任何上述介质的组合。
本申请各方面执行所需的计算机程序码可以用一种或多种程序语言的任意组合编写,包括面向对象程序设计,如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET,Python等,或类似的常规程序编程语言,如"C"编程语言,Visual Basic,Fortran2003,Perl,COBOL 2002,PHP,ABAP,动态编程语言如Python,Ruby和Groovy或其它编程语言。所述程式设计编码可以完全在用户计算机上执行、或作为独立的软体包在用户计算机上执行、或部分在用户计算机上执行部分在远程计算机执行、或完全在远程计算机或服务器上执行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网络(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非申请专利范围中明确说明,本申请所述处理元件和序列的顺序、数位字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的申请专利范围并不仅限于披露的实施例,相反,申请专利范围旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件装置实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或行动装置上安装所描述的系统。
同样应当理解的是,为了简化本申请揭示的表述,从而帮助对至少一个发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。

Claims (10)

1.一种基于语音识别的预警方法,其特征在于,包括以下方法:
获取语音数据,并提取所述语音数据中的语音预警状态活动特征信息;
将所述语音预警状态活动特征信息与预设的语音预警活动特征数据库进行比对,所述语音预警活动特征数据库中配置有多个预警活动特征信息;
比较所述语音预警状态活动特征信息与多个所述预警活动特征信息中任一所述预警活动特征信息的相似度;
基于相似度阈值确定对应的预警活动特征信息,并确定预警行为;
所述语音预警活动特征数据库构建基于多个语音数据,并提取多个语音数据中涉及的预警语音状态活动的预警状态活动特征信息,将多个所述预警状态活动特征信息集合为语音预警活动特征数据库,所述语音预警活动特征数据库用于表征所述预警语音状态活动对应的预警行为态势图谱。
2.根据权利要求1所述的基于语音识别的预警方法,其特征在于,在获取语音数据,并提取所述语音数据中的语音预警状态活动特征信息之前,还包括对所述语音数据进行分割处理,获得待识别语音数据,具体包括以下方法:
构建多个语音样本数据,并确定多个所述语音样本数据中对应语音样本数据的声纹信息,所述语音样本数据包括多个人声语音样本数据以及多个环境语音样本数据,所述声纹信息包括多个人声语音样本数据对应的多个人声声纹信息,以及多个环境声音样本数据对应的多个环境声纹信息;
提取所述语音数据中的多个声纹信息;
将多个所述声纹信息与所述语音样本数据中多个人声声纹信息、多个环境声纹信息进行比对,获取多个所述声纹信息与多个所述人声声纹信息、多个所述环境声纹信息的相似度;
基于所述相似度确定多个所述声纹信息中对应的人声数据以及环境声音数据,获得待识别人声数据。
3.根据权利要求2所述的基于语音识别的预警方法,其特征在于,提取所述语音数据中的语音预警状态活动特征信息,包括提取所述待识别人声数据中的语音预警状态活动特征信息,包括以下方法:
对所述待识别人声数据进行快速傅里叶变换处理,获得傅里叶变换特征信息;
对所述傅里叶变换特征信息进行滤波处理,获得滤波特征信息;
对所述滤波特征信息进行降噪处理,获得第一语音特征信息;
依据满足网络收敛要求的预警状态决策网络对所述第一语音特征信息进行处理,获得所述待识别人声数据中的语音预警状态活动特征信息。
4.根据权利要求3所述的基于语音识别的预警方法,其特征在于,所述语音预警活动特征数据库构建基于多个语音数据,并提取多个语音数据中涉及的预警语音状态活动的预警状态活动特征信息,包括:
依据满足网络收敛要求的预警状态决策网络对多个所述语音数据中的多个第一语音特征信息进行处理,获得对应的待识别人声数据中涉及的预警语音状态活动的预警状态活动特征信息。
5.根据权利要求3或4所述的基于语音识别的预警方法,其特征在于,满足收敛要求的预警状态决策网络基于初始预警状态决策网络通过权重优化得到,权重优化过程包括:
确定参考待识别人声数据集,以及在所述参考待识别人声数据集中确定多个参考预警状态活动的参考预警状态活动特征,多个参考预警状态活动的参考预警状态活动特征对应所述参考待识别人声数据集中的多个参考待识别人声数据配置;
基于初始预警状态决策网络对多个所述参考待识别人声数据进行特征决策,获得多个所述参考预警状态活动对应的多个决策预警状态活动特征;
基于多个所述预警状态活动特征信息以及多个所述决策预警状态活动特征,对所述初始预警状态决策网络进行网络权重优化,以获得满足网络收敛要求的所述预警状态决策网络。
6.根据权利要求5所述的基于语音识别的预警方法,其特征在于,所述参考待识别人声数据集包括第一参考待识别人声数据和第二参考待识别人声数据,权重优化过程包括:
基于第一参考待识别人声数据和第二参考待识别人声数据,确定第一参考待识别人声数据中的第一参考预警状态活动特征以及第二参考待识别人声数据中的第二参考预警状态活动特征;
依据初始化预警状态决策网络,对所述第一参考待识别人声数据和第二参考待识别人声数据进行特征决策,获得所述第一参考待识别人声数据的第一决策预警状态活动特征以及所述第二参考待识别人声数据的第二决策预警状态活动特征;
依据所述第一参考预警状态活动特征和第一决策预警状态活动特征、所述第二参考预警状态活动特征和第二决策预警状态活动特征,对所述初始化预警状态决策网络进行网络权重优化,以获得满足网络收敛要求的所述预警状态决策网络。
7.根据权利要求1所述的基于语音识别的预警方法,其特征在于,基于相似度阈值确定对应的预警活动特征信息,并确定预警行为,包括:
对处于阈值范围内的相似度进行排序,将排序最高值对应的相似度所对应的预警活动特征信息作为目标预警活动特征信息,基于所述目标预警活动特征信息确定对应的预警行为。
8.一种基于语音识别的预警装置,其特征在于,包括:
语音数据获取模块,用于获取语音数据;
特征获取模块,用于获取语音数据中的语音预警状态活动特征信息;
比对模块,用于将所述语音预警状态活动特征信息与预设的语音预警活动特征数据库进行比对,并获得相似度;
预警行为确定模块,用于基于相似度阈值确定对应的预警活动特征信息,并确定预警行为。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
CN202211068240.6A 2022-09-02 2022-09-02 基于语音识别的预警方法、装置、终端设备及存储介质 Pending CN115132188A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211068240.6A CN115132188A (zh) 2022-09-02 2022-09-02 基于语音识别的预警方法、装置、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211068240.6A CN115132188A (zh) 2022-09-02 2022-09-02 基于语音识别的预警方法、装置、终端设备及存储介质

Publications (1)

Publication Number Publication Date
CN115132188A true CN115132188A (zh) 2022-09-30

Family

ID=83387793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211068240.6A Pending CN115132188A (zh) 2022-09-02 2022-09-02 基于语音识别的预警方法、装置、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN115132188A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116054910A (zh) * 2022-12-20 2023-05-02 中国人民解放军63819部队 基于知识图谱构建的地球站设备故障分析及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102014278A (zh) * 2010-12-21 2011-04-13 四川大学 一种基于语音识别技术的智能视频监控方法
CN107527617A (zh) * 2017-09-30 2017-12-29 上海应用技术大学 基于声音识别的监控方法、装置及系统
CN111243623A (zh) * 2019-12-26 2020-06-05 数海信息技术有限公司 一种渐进音频报警方法、装置及系统
CN111445664A (zh) * 2020-04-15 2020-07-24 杭州奥美健康科技有限公司 基于关键词“救命啊”的呼救报警方法、装置和应用
CN111986681A (zh) * 2020-08-31 2020-11-24 贵州乐诚技术有限公司 一种监仓监察管理系统
CN113228164A (zh) * 2021-04-02 2021-08-06 深圳市锐明技术股份有限公司 一种基于语音识别的安全预警方法、装置及终端设备
CN113345434A (zh) * 2021-05-31 2021-09-03 平安科技(深圳)有限公司 网约车用户报警方法、装置、计算机设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102014278A (zh) * 2010-12-21 2011-04-13 四川大学 一种基于语音识别技术的智能视频监控方法
CN107527617A (zh) * 2017-09-30 2017-12-29 上海应用技术大学 基于声音识别的监控方法、装置及系统
CN111243623A (zh) * 2019-12-26 2020-06-05 数海信息技术有限公司 一种渐进音频报警方法、装置及系统
CN111445664A (zh) * 2020-04-15 2020-07-24 杭州奥美健康科技有限公司 基于关键词“救命啊”的呼救报警方法、装置和应用
CN111986681A (zh) * 2020-08-31 2020-11-24 贵州乐诚技术有限公司 一种监仓监察管理系统
CN113228164A (zh) * 2021-04-02 2021-08-06 深圳市锐明技术股份有限公司 一种基于语音识别的安全预警方法、装置及终端设备
CN113345434A (zh) * 2021-05-31 2021-09-03 平安科技(深圳)有限公司 网约车用户报警方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
焦李成等, 西安:西安电子科技大学出版社 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116054910A (zh) * 2022-12-20 2023-05-02 中国人民解放军63819部队 基于知识图谱构建的地球站设备故障分析及装置
CN116054910B (zh) * 2022-12-20 2024-05-14 中国人民解放军63819部队 基于知识图谱构建的地球站设备故障分析及装置

Similar Documents

Publication Publication Date Title
CN108389578B (zh) 智能教室语音控制系统
CN111723728A (zh) 基于双向交互网络的行人搜索方法、系统、装置
CN111754982A (zh) 语音通话的噪声消除方法、装置、电子设备及存储介质
CN115132188A (zh) 基于语音识别的预警方法、装置、终端设备及存储介质
Zeppelzauer et al. Acoustic detection of elephant presence in noisy environments
CN112669822B (zh) 音频处理方法、装置、电子设备和存储介质
CN114760172B (zh) 射频基带综合特征信号识别方法与装置
CN112800772A (zh) 一种执法记录仪的危险自动预警方法及系统
Yudin et al. Speaker’s voice recognition methods in high-level interference conditions
CN110751942A (zh) 一种识别特征声音的方法和装置
AU2005100274A4 (en) Method and apparatus for analyising sound
CN110990455A (zh) 大数据识别房屋性质的方法与系统
CN112331208B (zh) 人身安全监控方法、装置、电子设备和存储介质
CN111400463A (zh) 对话响应方法、装置、设备和介质
CN112420056A (zh) 基于变分自编码器的说话人身份鉴别方法、系统及无人机
CN117388835A (zh) 一种多拼融合的声雷达信号增强方法
CN111640450A (zh) 多人声音频处理方法、装置、设备及可读存储介质
CN114898737A (zh) 声学事件检测方法、装置、电子设备和存储介质
CN113514147B (zh) 车辆噪声识别方法、系统、设备及计算机可读存储介质
CN113228164A (zh) 一种基于语音识别的安全预警方法、装置及终端设备
CN111933180B (zh) 音频拼接检测方法、系统、移动终端及存储介质
CN113421590A (zh) 异常行为检测方法、装置、设备及存储介质
Ghezaiel et al. Nonlinear multi-scale decomposition by EMD for Co-Channel speaker identification
CN113113051A (zh) 音频指纹提取方法、装置、计算机设备和存储介质
CN106782550A (zh) 一种基于dsp芯片的自动语音识别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220930

RJ01 Rejection of invention patent application after publication