CN113421590A - 异常行为检测方法、装置、设备及存储介质 - Google Patents
异常行为检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113421590A CN113421590A CN202110742006.6A CN202110742006A CN113421590A CN 113421590 A CN113421590 A CN 113421590A CN 202110742006 A CN202110742006 A CN 202110742006A CN 113421590 A CN113421590 A CN 113421590A
- Authority
- CN
- China
- Prior art keywords
- voice
- data
- recognized
- text
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 104
- 206010000117 Abnormal behaviour Diseases 0.000 title claims abstract description 96
- 230000008451 emotion Effects 0.000 claims abstract description 108
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 17
- 230000008909 emotion recognition Effects 0.000 claims description 26
- 238000013507 mapping Methods 0.000 claims description 22
- 238000000034 method Methods 0.000 claims description 22
- 230000002159 abnormal effect Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 15
- 239000012634 fragment Substances 0.000 claims description 14
- 230000003595 spectral effect Effects 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 14
- 230000003044 adaptive effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 208000019901 Anxiety disease Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000036506 anxiety Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 208000013875 Heart injury Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请涉及人工智能领域,尤其涉及异常行为检测方法,所述方法包括:获取用户的语音数据,并基于多个语音增强算法分别对所述语音数据进行处理,得到与每个所述语音增强算法对应的语音增强数据;将所述语音数据和每个所述语音增强数据分别作为待识别语音数据输入至预设的语音检测模型,得到与每个所述待识别语音数据对应的语音文本以及情感信息;根据多个所述待识别语音数据对应的语音文本以及情感信息,从多个所述待识别语音数据中确定目标语音数据;根据所述目标语音数据对应的语音文本以及情感信息,确定所述用户的异常行为,旨在解决无法实时监控家里的老人或小孩的异常行为的问题,为独居老人或孩子提供了安全保障。
Description
技术领域
本申请涉及人工智能领域,尤其涉及异常行为检测方法、异常行为检测装置、计算机设备及存储介质。
背景技术
现有的对于用户的异常行为的识别方法大多是通过视频确定的,通过视频对用户的行为动作进行实时监控,并对视频中的用户的行为动作进行检测,从而确定用户是否存在异常行为。而这种识别方法只能通过视频进行确定,现有的很多家庭并没有安装摄像头,同时安装摄像头的费用也较高并且容易泄露隐私,而且摄像头的视角也比较有限,因此便无法实时监控家里的老人或小孩的异常行为。
发明内容
本申请提供了一种异常行为检测方法、异常行为检测装置、计算机设备及存储介质,旨在解决无法实时监控家里的老人或小孩的异常行为的问题。
为实现上述目的,本申请提供一种异常行为检测方法,所述方法包括:
获取用户的语音数据,并基于多个语音增强算法分别对所述语音数据进行处理,得到与每个所述语音增强算法对应的语音增强数据;
将所述语音数据和每个所述语音增强数据分别作为待识别语音数据输入至预设的语音检测模型,得到与每个所述待识别语音数据对应的语音文本以及情感信息,其中,所述语音检测模型包括语音异常检测模型和语音情感识别模型,所述语音异常检测模型包括用于将语音转出文本的语音识别网络模型和用于文本异常检测的文本异常检测模型,所述语音情感识别模型用于识别语音数据的情感信息;
根据多个所述待识别语音数据对应的语音文本以及情感信息,从多个所述待识别语音数据中确定目标语音数据;
根据所述目标语音数据对应的语音文本以及情感信息,确定所述用户的异常行为。
为实现上述目的,本申请还提供一种异常行为检测装置,所述异常行为检测装置包括:
语音增强模块,用于获取用户的语音数据,并基于多个语音增强算法分别对所述语音数据进行处理,得到与每个所述语音增强算法对应的语音增强数据;
语音检测模块,用于将所述语音数据和每个所述语音增强数据分别作为待识别语音数据输入至预设的语音检测模型,得到与每个所述待识别语音数据对应的语音文本以及情感信息,其中,所述语音检测模型包括语音异常检测模型和语音情感识别模型,所述语音异常检测模型包括用于将语音转出文本的语音识别网络模型和用于文本异常检测的文本异常检测模型,所述语音情感识别模型用于识别语音数据的情感信息;
语音筛选模块,用于根据多个所述待识别语音数据对应的语音文本以及情感信息,从多个所述待识别语音数据中确定目标语音数据;
异常行为确定模块,用于根据所述目标语音数据对应的语音文本以及情感信息,确定所述用户的异常行为。
此外,为实现上述目的,本申请还提供一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述的计算机程序并在执行所述的计算机程序时实现本申请实施例提供的任一项所述的异常行为检测方法。
此外,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现本申请实施例提供的任一项所述的异常行为检测方法。
本申请实施例公开的异常行为检测方法、异常行为检测装置、设备及存储介质,通过对用户的语音数据进行分析,确定异常语音以及对应的异常行为,从而能够快速地通知到监护人,为独居老人或孩子提供了安全保障。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种异常行为检测方法的流程示意图;
图2是本申请实施例提供的一种得到每个待识别语音数据对应的语音文本以及情感信息的流程示意图;
图3是本申请一实施例提供的一种异常行为检测装置的示意性框图;
图4是本申请一实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。另外,虽然在装置示意图中进行了功能模块的划分,但是在某些情况下,可以以不同于装置示意图中的模块划分。
在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
现有的对于用户异常行为的识别方法大多是通过视频确定的,通过视频对用户的行为动作进行实时监控,并对视频中的用户的行为动作进行检测,从而确定用户是否存在异常行为。而这种识别方法只能通过视频进行确定,现有的很多家庭并没有安装摄像头,同时安装摄像头的费用也较高并且容易泄露隐私,而且摄像头的视角也比较有限,因此便无法实时监控家里的老人或小孩的异常行为。
因此亟需一种无需摄像头,且成本较低的方法来快速识别用户异常行为。
基于上述问题,本申请提出了一种异常行为检测方法,解决了无法实时监控家里的老人或小孩的异常行为的问题。
其中,上述异常行为检测方法可以应用在服务器中,当然也可以应用于终端设备上,从而可以对用户异常行为快速识别,能够快速监控到家庭里的老人或小孩摔倒、从床上跌落等异常行为,从而快速地通知到监护人,为独居老人或孩子提供了安全保障。其中,终端设备可以包括诸如手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)等固定终端。服务器例如可以为单独的服务器或服务器集群。但为了便于理解,以下实施例将以应用于服务器的异常行为检测方法进行详细介绍。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请实施例提供的一种异常行为检测方法的示意流程图。其中,该异常行为检测方法可以应用于服务器中,由此可以对用户异常行为快速识别,能够快速监控到家庭里的老人或小孩摔倒、从床上跌落等异常行为,从而快速地通知到监护人,为独居老人或孩子提供了安全保障。
如图1所示,该异常行为检测方法包括步骤S101至步骤S104。
S101、获取用户的语音数据,并基于多个语音增强算法分别对所述语音数据进行处理,得到与每个所述语音增强算法对应的语音增强数据。
其中,可以从录音设备中获取用户的语音,并将录音设备中录取的每一段的语音作为用户的语音数据,并基于多个语音增强算法分别对所述语音数据进行语音增强,得到所述多个语音增强算法对应的语音增强数据。录音设备可以是电脑、手机等能够实现录音功能的设备。
示例性的,可以在家中使用录音设备进行录音,并将录音设备中录取的每一段的语音作为用户的语音数据,从而基于用户的语音数据确定用户是否存在异常行为,并确定所述用户的异常行为。由于用户发生异常行为往往会伴随惨叫或求救等声音信息,由此可以对用户比如是独居老人或小孩进行实时录音监控,从而在发生异常行为时快速地通知到监护人。
在一些实施例中,基于谱减法对所述语音数据进行语音增强,得到所述谱减法对应的语音增强数据;基于自适应滤波算法对所述语音数据进行语音增强,得到所述自适应滤波算法对应的语音增强数据;基于短时对数谱的最小均方误差算法对所述语音数据进行语音增强,得到所述短时对数谱的最小均方误差对应的语音增强数据;以及基于预训练好的神经网络对所述语音数据进行语音增强,得到所述预训练好的神经网络对应的语音增强数据。
由于实际的录音环境基本都不会处于噪声干净的环境,即录音环境不可能没有任何干扰的声音以及噪声,为了能够在复杂的环境下获得更优的语音输入,因此需要对获取到的用户语音数据进行语音增强。
示例性的,对所述语音数据进行傅里叶变换,得到所述语音数据的频域;对所述语音数据的频域进行噪声过滤处理,得到基于谱减法的语音增强算法对应的语音增强数据。
具体地,先对所述语音数据的频域表示进行噪声估计处理,得到噪声估计结果;基于所述噪声估计结果对所述语音数据进行过滤处理,得到基于谱减法的语音增强算法对应的语音增强数据。
示例性的,通过自适应滤波器对所述语音数据进行自适应调整滤波器的参数,能够在不断的自适应调整过程中统计出所需要的统计特性,并以此为根据调整滤波器的参数,得到所述基于自适应滤波的语音增强算法对应的语音增强数据,由此可以达到最好的滤波效果,从而提高语音数据的信噪比。
具体地,通过自适应滤波器自身设置不同的参数,从而获取多个参数对应的语音增强数据,对多个参数对应的语音增强数据进行分析并不断学习,从而确定可以达到最好的滤波效果的滤波器的参数,并通过该参数得到基于自适应滤波的语音增强算法对应的语音增强数据。
示例性的,对所述语音数据进行快速傅里叶变换,得到所述语音数据对应的频谱分量,基于所述频谱分量计算所述语音数据中噪声分量对应的最小均方误差,得到所述基于短时对数谱的最小均方误差语音增强算法对应的语音增强数据。由此可以有效地抑制噪声,并能够大大改善语音质量。
示例性的,所述预训练好的神经网络至少包括输入层、特征提取层和输出层;将所述语音数据通过所述输入层输入所述神经网络模型;基于所述语音增强层对所述语音数据进行语音增强,得到语音增强信息;将所述语音增强信息输入至所述输出层,得到基于预训练好的神经网络的语音增强算法对应的语音增强数据。
具体地,基于所述语音增强层对所述语音数据进行降噪处理,得到对应的语音增强信息,并将该语音增强信息输入至所述输出层,得到基于预训练好的神经网络的语音增强算法对应的语音增强数据。
S102、将所述语音数据和每个所述语音增强数据分别作为待识别语音数据输入至预设的语音检测模型,得到与每个所述待识别语音数据对应的语音文本以及情感信息,其中,所述语音检测模型包括语音异常检测模型和语音情感识别模型,所述语音异常检测模型包括用于将语音转出文本的语音识别网络模型和用于文本异常检测的文本异常检测模型,所述语音情感识别模型用于识别语音数据的情感信息。
其中,将所述语音数据和每个所述语音增强数据分别作为待识别语音数据输入至预设的语音检测模型,具体地,分别对每个待识别语音数据输入到语音异常检测模型中,得到待识别语音数据对应的语音文本,分别将每个待识别语音数据输入到语音情感识别模型中,得到待识别语音数据对应的情感信息。所述语音情感识别模型可以包括隐马尔可夫模型、高斯混合模型、支持向量机或人工神经网络等等,所述情感信息包括但不限于生气、悲伤、高兴、害怕、中性和焦虑等情感倾向。
示例性的,如图2所示,将用户的语音数据作为语音1和四个经过语音增强的语音增强数据(分别为语音2、语音3、语音4和语音5)分别输入到语音检测模型中,具体输入到语音检测模型和语音情感识别模型中,分别得到语音1对应的语音文本1和情感信息1,以此类推,得到5个语音数据对应的语音文本和情感信息,再从中5个语音数据对应的语音文本和情感信息中确定目标语音数据对应的语音文本和情感信息。
在一些实施例中,基于语音识别网络模型对每个所述待识别语音数据进行语音识别,得到每个所述待识别语音数据对应的文本信息;基于文本异常检测模型对每个所述文本信息进行检测,得到检测结果,基于检测结果得到每个所述待识别语音数据对应的语音文本;基于语音情感识别模型对每个所述待识别语音数据进行情感识别,得到每个所述待识别语音数据对应的情感信息。其中,所述检测结果用于确定所述文本信息是否存在异常的片段,所述文本信息为未经过语音异常检测的文本,所述语音文本为经过语音异常检测的文本。
具体地,对每个所述待识别语音数据进行语音识别,得到每个所述待识别语音数据对应的文本信息。具体地,可以对每个待识别语音数据进行特征提取,如抽取MFCC(MelFrequency Cepstrum Coefficient)特征;然后利用提取的特征数据及预先训练的声学模型和语言模型进行解码操作;最后根据解码结果得到每个待识别语音数据对应的文本信息,同时基于语音情感识别模型对每个所述待识别语音数据进行情感识别,得到每个所述待识别语音数据对应的情感信息。
示例性的,基于语音识别技术对原语音数据和多个进行过语音增强的语音数据进行语音识别,得到原语音数据和多个进行过语音增强的语音数据对应的文本信息比如“今天去......扑通”或“今天去......啊”;基于文本异常网络对每个所述文本信息进行检测,从而得到每个所述待识别语音数据对应的语音文本。
在一些实施例中,基于检测结果获取每个所述文本信息的异常文本片段并对所述异常文本片段进行标记;将标记后的文本信息作为语音文本。由此可以直接将待检测语音片段发送给用户,并通过上述标识以使用户快速查看异常语音片段。
示例性的,可以直接对异常语音的识别文本添加下划线、删除线等标记。
示例性的,可以直接将异常语音的识别文本使用统一的特殊颜色显示,如灰色、红色等或统一使用粗体或斜体显示。
需要说明的是,还可以采用其它标记方式,对此本发明实施例不做限定。
在一些实施例中,检测每个文本信息是否包括预设的敏感词;若每个文本信息包括预设的敏感词,则将存在所述敏感词对应的文本片段作为异常文本片段。
示例性的,文本信息比如为“今天去......扑通”或“今天去......啊”检测上述文本信息是否包括预设的敏感词比如“扑通”或“啊”等词语;若所述文本信息包括预设的敏感词,则将存在所述敏感词对应的文本片段作为异常文本片段;若所述文本信息不包括预设的敏感词,则对下一个文本信息进行检测。其中,所述预设的敏感词可以为任意词语比如“扑通”、“啊”等摔倒的下意思呼叫或者可以是“救救我”或“帮帮我”等关于求救帮助词语。
在一些实施例中,对每个待识别语音数据进行片段截取,得到每个所述待识别语音数据对应的多个待检测语音片段;将每个所述待检测语音片段输入至预设的语音检测模型,得到每个所述待检测语音片段对应的语音文本和情感信息;将每个所述待检测语音片段对应的语音文本进行拼接,得到所述待识别语音数据对应的语音文本;根据每个待检测语音片段对应的情感信息,确定所述待识别语音数据对应情感信息。由此可以对待识别语音数据进行分段检测,提高检测效率,能够同步检测。
具体地,对待识别语音数据进行端点检测,得到所述待识别语音数据的多个端点;根据待识别语音数据中的多个端点进行片段截取,得到待识别语音数据对应的待检测语音片段。其中,所述端点检测就是从一段给定的语音信号中找出每个语音段的起始点和结束点。
具体地,可以从多个待检测语音片段对应的情感信息中,确定每种情感信息的出现频率,将出现频率最高的情感信息作为所述待识别语音数据对应的情感信息。还可以将出现敏感词的语音片段对应的情感信息作为所述待识别语音数据对应的情感信息。
示例性的,假如得到的多个待检测语音片段对应的语音文本分别为“今天”、“去”和“吃饭”,将每个所述待检测语音片段对应的语音文本进行拼接,得到所述待识别语音数据对应的语音文本为“今天去吃饭”,若“今天”、“去”和“吃饭”分别对应的情感信息为高兴、中性和高兴,则确定所述待识别语音数据对应的情感信息为高兴。
在一些实施例中,对每个待识别语音数据进行特征提取,得到每个所述待识别语音数据对应的语音特征;基于语音情感数据库,根据每个所述待识别语音数据对应的语音特征确定每个所述待识别语音数据对应的情感信息。
其中,所述语音特征可以包括韵律特征、音质特征、基于谱的相关特征,而所述韵律特征具体包括语速、能量、平均过零率、基音频率等;而所述音质特征具体包括共振峰等,这类特征有很好的识别效果;而所述基于谱的特征具体包括MFCC特征(梅尔倒谱系数)。所述语音情感数据库可以为Belfast英语情感数据库、柏林Emo-DB情感数据库、CASIA汉语情感数据库和ACCorpus系列汉语情感数据库。
具体地,在对每个所述待识别语音数据进行特征提取之前,先对每个所述待识别语音数据进行端点检测、预加重处理以及加窗分帧处理,对处理后的每个所述待识别语音数据进行特征提取,并统计每帧待识别语音数据的语音特征,从而得到每个所述待识别语音数据对应的语音特征,并基于所述语音特征在语音情感数据库中识别到对应的情感信息。其中,端点检测的目的是检测有效声音段的起始点与结束点,以去除无效声音段,从而提高语音信号的处理效率;预加重处理的目的是增加语音信号中高频段的分辨率,以去除口唇辐射的影响;加窗分帧处理的目的是由于语音信号本身是非平稳的,但是又兼具短时平稳的特点,因此将语音信号分成一小段将此看作平稳信号来处理。
示例性的,对每个所述待识别语音数据比如“今天去......扑通”进行特征提取,得到每个所述待识别语音数据对应的语音特征比如语速、能量、共振峰和MFCC特征等;在语音情感数据库比如CASIA汉语情感数据库中对上述语音特征进行识别,从而确定到对应的情感信息比如为焦虑或害怕。
S103、根据多个所述待识别语音数据对应的语音文本以及情感信息,从多个所述待识别语音数据中确定目标语音数据。
由于对所述语音数据和每个所述语音增强数据进行语音异常检测并进行语音情感识别,因此得到了多个待识别语音数据对应的语音文本以及对应的情感信息。其中,目标语音数据从多个待识别语音数据中确定。
在一些实施例中,基于多数投票算法对多个所述待识别语音数据对应的语音文本以及情感信息进行筛选,得到筛选后的语音文本以及情感信息,并将所述筛选后的语音文本以及情感信息作为目标语音文本以及对应的情感信息。
具体地,检测多个所述待识别语音数据对应的语音文本以及情感信息之间的相似度,对相似度最低的待识别语音数据进行过滤,不断重复上述筛选过程,最终从多个待识别语音数据对应的语音文本以及情感信息中确定目标语音数据对应的语音文本以及对应的情感信息。需要说明的是,当筛选剩下三个待识别语音数据时,选取相似度最高的待识别语音数据作为目标语音数据。
其中,对每个待识别语音数据对应的情感信息进行比较,得到每个待识别语音数据的情感信息相似度;对每个待识别语音数据对应的语音文本进行比较,得到每个待识别语音数据对应的语音文本相似度,再根据每个待识别语音数据对应的情感信息相似度和语音文本相似度综合确定每个待识别语音数据对应的相似度。
示例性的,假如每个待识别语音数据分别包括原语音数据、基于谱减法的语音增强数据、基于自适应滤波的语音增强数据和基于短时对数谱的最小均方误差的语音增强数据,基于多数投票算法对每个待识别语音数据对应的情感信息和语音文本进行不断筛选比如先筛选掉原语音数据对应的语音文本以及情感信息,再从另外三个语音数据中确定目标语音数据比如确定基于谱减法的语音增强数据为目标语音数据,并获取基于谱减法的语音增强数据对应的语音文本以及情感信息。
S104、根据所述目标语音数据对应的语音文本以及情感信息,确定所述用户的异常行为。
具体地,对所述目标语音数据对应的语音文本以及情感信息进行分析,得到对应的分析结果,并根据分析结果确定所述用户的异常行为。其中,所述异常行为可以为摔倒或碰撞等不正常行为。
在一些实施例,获取用户的异常行为映射表,所述异常行为映射表记录有语音文本、情感信息与用户的异常行为映射关系;基于所述异常行为映射表,根据所述目标语音数据对应的语音文本以及情感信息确定用户的异常行为。其中,所述用户异常行为映射表用于表示用户的异常行为与目标语音数据对应的情感信息和语音文本之间的映射关系,比如目标语音数据对应的情感信息为伤心或害怕,且语音文本包括啊或扑通等词语,则该目标语音数据对应的用户异常行为为摔倒或跌落。
需要说明的是,所述用户异常行为映射表还包括多对映射关系,且一个目标语音数据可以对应多个用户异常行为。
示例性的,根据所述目标语音数据对应的情感信息比如为害怕和语音文本比如包括啊、扑通和好痛等词语,则根据情感信息和语音文本在用户异常行为映射表中搜寻是否存在对应的映射关系,从而确定用户的异常行为摔倒或发生碰撞。
其中,若在用户异常行为映射表中无法搜寻存在对应的映射关系,还会确定语音文本的近似文本,从而再一次根据语音文本的近似文本进行搜寻,若仍无法搜寻存在对应的映射关系,则确定用户并没有发生异常行为。
在一些实施例中,基于行为预测模型对目标语音数据对应的情感信息和异常语音文本进行行为预测,得到所述用户的异常行为。
具体地,将目标语音数据对应的情感信息和语音文本输入到预先训练好的行为预测模型中,所述行为预测模型对情感信息和语音文本进行特征提取,得到行为特征信息;根据所述行为特征信息进行异常行为匹配,最后所述行为预测模型能够输出用户的异常行为。需要说明的是,行为预测模型能够匹配到多个异常行为以及对应概率,并根据所述概率确定一个或多个异常行为作为用户的异常行为。
请参阅图3,图3是本申请一实施例提供的一种异常行为检测装置的示意性框图,该异常行为检测装置可以配置于服务器中,用于执行前述的异常行为检测方法。
如图3所示,该异常行为检测装置200包括:语音增强模块201、语音检测模块202、语音筛选模块203和异常行为确定204。
语音增强模块,用于获取用户的语音数据,并基于多个语音增强算法分别对所述语音数据进行处理,得到与每个所述语音增强算法对应的语音增强数据;
语音检测模块,用于将所述语音数据和每个所述语音增强数据分别作为待识别语音数据输入至预设的语音检测模型,得到与每个所述待识别语音数据对应的语音文本以及情感信息,其中,所述语音检测模型包括语音异常检测模型和语音情感识别模型,所述语音异常检测模型包括用于将语音转出文本的语音识别网络模型和用于文本异常检测的文本异常检测模型,所述语音情感识别模型用于识别语音数据的情感信息;
语音筛选模块,用于根据多个所述待识别语音数据对应的语音文本以及情感信息,从多个所述待识别语音数据中确定目标语音数据;
异常行为确定模块,用于根据所述目标语音数据对应的语音文本以及情感信息,确定所述用户的异常行为。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请的方法、装置可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费终端设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
示例性的,上述的方法、装置可以实现为一种计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
请参阅图4,图4是本申请实施例提供的一种计算机设备的示意图。该计算机设备可以是服务器。
如图4所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种异常行为检测方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种异常行为检测方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,该计算机设备的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一些实施方式中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:获取用户的语音数据,并基于多个语音增强算法分别对所述语音数据进行处理,得到与每个所述语音增强算法对应的语音增强数据;将所述语音数据和每个所述语音增强数据分别作为待识别语音数据输入至预设的语音检测模型,得到与每个所述待识别语音数据对应的语音文本以及情感信息,其中,所述语音检测模型包括语音异常检测模型和语音情感识别模型,所述语音异常检测模型包括用于将语音转出文本的语音识别网络模型和用于文本异常检测的文本异常检测模型,所述语音情感识别模型用于识别语音数据的情感信息;根据多个所述待识别语音数据对应的语音文本以及情感信息,从多个所述待识别语音数据中确定目标语音数据;根据所述目标语音数据对应的语音文本以及情感信息,确定所述用户的异常行为。
在一些实施例中,所述处理器还用于:基于谱减法对所述语音数据进行语音增强,得到所述谱减法对应的语音增强数据;基于自适应滤波算法对所述语音数据进行语音增强,得到所述自适应滤波算法对应的语音增强数据;基于短时对数谱的最小均方误差算法对所述语音数据进行语音增强,得到所述短时对数谱的最小均方误差对应的语音增强数据;以及基于预训练好的神经网络对所述语音数据进行语音增强,得到所述预训练好的神经网络对应的语音增强数据。
在一些实施例中,所述处理器还用于:基于语音识别网络模型对每个所述待识别语音数据进行语音识别,得到每个所述待识别语音数据对应的文本信息;基于文本异常检测模型对每个所述文本信息进行检测,得到检测结果;基于所述检测结果确定每个所述待识别语音数据对应的语音文本;基于语音情感识别模型对每个所述待识别语音数据进行情感识别,得到每个所述待识别语音数据对应的情感信息。
在一些实施例中,所述处理器还用于:基于检测结果获取每个所述文本信息对应的异常文本片段;对每个所述文本信息对应的异常文本片段进行标记处理,并将标记处理后的文本信息作为语音文本。
在一些实施例中,所述处理器还用于:对每个待识别语音数据进行片段截取,得到每个所述待识别语音数据对应的多个待检测语音片段;将每个所述待检测语音片段输入至预设的语音检测模型,得到每个所述待检测语音片段对应的语音文本和情感信息;将每个所述待检测语音片段对应的语音文本进行拼接,得到所述待识别语音数据对应的语音文本;根据每个待检测语音片段对应的情感信息,确定所述待识别语音数据对应情感信息。
在一些实施例中,所述处理器还用于:基于多数投票算法对多个所述待识别语音数据对应的语音文本以及情感信息进行筛选,得到筛选后的语音文本以及情感信息;将所述筛选后的语音文本以及情感信息对应的待识别语音数据作为目标语音数据。
在一些实施例中,所述处理器还用于:获取用户的异常行为映射表,所述异常行为映射表记录有语音文本、情感信息与用户的异常行为映射关系;基于所述异常行为映射表,根据所述目标语音数据对应的语音文本以及情感信息确定用户的异常行为。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时实现本申请实施例提供的任一种异常行为检测方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链语言模型的存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种异常行为检测方法,其特征在于,所述方法包括:
获取用户的语音数据,并基于多个语音增强算法分别对所述语音数据进行处理,得到与每个所述语音增强算法对应的语音增强数据;
将所述语音数据和每个所述语音增强数据分别作为待识别语音数据输入至预设的语音检测模型,得到与每个所述待识别语音数据对应的语音文本以及情感信息,其中,所述语音检测模型包括语音异常检测模型和语音情感识别模型,所述语音异常检测模型包括用于将语音转出文本的语音识别网络模型和用于文本异常检测的文本异常检测模型,所述语音情感识别模型用于识别语音数据的情感信息;
根据多个所述待识别语音数据对应的语音文本以及情感信息,从多个所述待识别语音数据中确定目标语音数据;
根据所述目标语音数据对应的语音文本以及情感信息,确定所述用户的异常行为。
2.根据权利要求1所述的方法,其特征在于,所述基于多个语音增强算法分别对所述语音数据进行处理,得到与每个所述语音增强算法对应的语音增强数据,包括:
基于谱减法对所述语音数据进行语音增强,得到所述谱减法对应的语音增强数据;
基于自适应滤波算法对所述语音数据进行语音增强,得到所述自适应滤波算法对应的语音增强数据;
基于短时对数谱的最小均方误差算法对所述语音数据进行语音增强,得到所述短时对数谱的最小均方误差对应的语音增强数据;以及
基于预训练好的神经网络对所述语音数据进行语音增强,得到所述预训练好的神经网络对应的语音增强数据。
3.根据权利要求1所述的方法,其特征在于,所述将所述语音数据和每个所述语音增强数据分别作为待识别语音数据输入至预设的语音检测模型,得到与每个所述待识别语音数据对应的语音文本以及情感信息,包括:
基于语音识别网络模型对每个所述待识别语音数据进行语音识别,得到每个所述待识别语音数据对应的文本信息;
基于文本异常检测模型对每个所述文本信息进行检测,得到检测结果;
基于所述检测结果确定每个所述待识别语音数据对应的语音文本;
基于语音情感识别模型对每个所述待识别语音数据进行情感识别,得到每个所述待识别语音数据对应的情感信息。
4.根据权利要求3所述的方法,其特征在于,所述基于所述检测结果确定每个所述待识别语音数据对应的语音文本,包括:
基于检测结果获取每个所述文本信息对应的异常文本片段;
对每个所述文本信息对应的异常文本片段进行标记处理,并将标记处理后的文本信息作为语音文本。
5.根据权利要求1所述的方法,其特征在于,所述将所述语音数据和每个所述语音增强数据分别作为待识别语音数据输入至预设的语音检测模型,包括:
对每个待识别语音数据进行片段截取,得到每个所述待识别语音数据对应的多个待检测语音片段;
将每个所述待检测语音片段输入至预设的语音检测模型,得到每个所述待检测语音片段对应的语音文本和情感信息;
将每个所述待检测语音片段对应的语音文本进行拼接,得到所述待识别语音数据对应的语音文本;
根据每个所述待检测语音片段对应的情感信息,确定所述待识别语音数据对应的情感信息。
6.根据权利要求1所述的方法,其特征在于,所述根据多个所述待识别语音数据对应的语音文本以及情感信息,从多个所述待识别语音数据中确定目标语音数据,包括:
基于多数投票算法对多个所述待识别语音数据对应的语音文本以及情感信息进行筛选,得到筛选后的语音文本以及情感信息;
将所述筛选后的语音文本以及情感信息对应的待识别语音数据作为目标语音数据。
7.根据权利要求1所述的方法,其特征在于,所述根据所述目标语音数据对应的语音文本以及情感信息,确定所述用户的异常行为,包括:
获取用户的异常行为映射表,所述异常行为映射表记录有语音文本、情感信息与用户的异常行为映射关系;
基于所述异常行为映射表,根据所述目标语音数据对应的语音文本以及情感信息确定用户的异常行为。
8.一种异常行为检测装置,其特征在于,包括:
语音增强模块,用于获取用户的语音数据,并基于多个语音增强算法分别对所述语音数据进行处理,得到与每个所述语音增强算法对应的语音增强数据;
语音检测模块,用于将所述语音数据和每个所述语音增强数据分别作为待识别语音数据输入至预设的语音检测模型,得到与每个所述待识别语音数据对应的语音文本以及情感信息,其中,所述语音检测模型包括语音异常检测模型和语音情感识别模型,所述语音异常检测模型包括用于将语音转出文本的语音识别网络模型和用于文本异常检测的文本异常检测模型,所述语音情感识别模型用于识别语音数据的情感信息;
语音筛选模块,用于根据多个所述待识别语音数据对应的语音文本以及情感信息,从多个所述待识别语音数据中确定目标语音数据;
异常行为确定模块,用于根据所述目标语音数据对应的语音文本以及情感信息,确定所述用户的异常行为。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述的计算机程序并在执行所述的计算机程序时实现:
如权利要求1-7任一项所述的异常行为检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的异常行为检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110742006.6A CN113421590B (zh) | 2021-06-30 | 2021-06-30 | 异常行为检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110742006.6A CN113421590B (zh) | 2021-06-30 | 2021-06-30 | 异常行为检测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113421590A true CN113421590A (zh) | 2021-09-21 |
CN113421590B CN113421590B (zh) | 2024-02-06 |
Family
ID=77717715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110742006.6A Active CN113421590B (zh) | 2021-06-30 | 2021-06-30 | 异常行为检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113421590B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115062242A (zh) * | 2022-07-11 | 2022-09-16 | 广东加一信息技术有限公司 | 一种基于区块链和人工智能的信息智能识别方法及大数据系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101193958B1 (ko) * | 2012-04-16 | 2012-10-24 | (주) 장산아이티 | 음성분석을 통한 해양 선박 운항자의 비정상적인 심리상태 분석 시스템 |
US20140244264A1 (en) * | 2013-02-22 | 2014-08-28 | Riaex Inc., | Human emotion assessment reporting technology- system and method |
CN108109331A (zh) * | 2017-12-13 | 2018-06-01 | 四川西谷物联科技有限公司 | 监控方法及监控系统 |
CN110223715A (zh) * | 2019-05-07 | 2019-09-10 | 华南理工大学 | 一种基于声音事件检测的独居老人家中活动估计方法 |
CN110991289A (zh) * | 2019-11-25 | 2020-04-10 | 达闼科技成都有限公司 | 异常事件的监测方法、装置、电子设备及存储介质 |
CN112883932A (zh) * | 2021-03-30 | 2021-06-01 | 中国工商银行股份有限公司 | 员工异常行为检测方法、装置及系统 |
-
2021
- 2021-06-30 CN CN202110742006.6A patent/CN113421590B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101193958B1 (ko) * | 2012-04-16 | 2012-10-24 | (주) 장산아이티 | 음성분석을 통한 해양 선박 운항자의 비정상적인 심리상태 분석 시스템 |
US20140244264A1 (en) * | 2013-02-22 | 2014-08-28 | Riaex Inc., | Human emotion assessment reporting technology- system and method |
CN108109331A (zh) * | 2017-12-13 | 2018-06-01 | 四川西谷物联科技有限公司 | 监控方法及监控系统 |
CN110223715A (zh) * | 2019-05-07 | 2019-09-10 | 华南理工大学 | 一种基于声音事件检测的独居老人家中活动估计方法 |
CN110991289A (zh) * | 2019-11-25 | 2020-04-10 | 达闼科技成都有限公司 | 异常事件的监测方法、装置、电子设备及存储介质 |
CN112883932A (zh) * | 2021-03-30 | 2021-06-01 | 中国工商银行股份有限公司 | 员工异常行为检测方法、装置及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115062242A (zh) * | 2022-07-11 | 2022-09-16 | 广东加一信息技术有限公司 | 一种基于区块链和人工智能的信息智能识别方法及大数据系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113421590B (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Abdullah et al. | Sok: The faults in our asrs: An overview of attacks against automatic speech recognition and speaker identification systems | |
CN110457432B (zh) | 面试评分方法、装置、设备及存储介质 | |
CN108198547B (zh) | 语音端点检测方法、装置、计算机设备和存储介质 | |
CN110853648B (zh) | 一种不良语音检测方法、装置、电子设备及存储介质 | |
CN110335608B (zh) | 声纹验证方法、装置、设备及存储介质 | |
WO2022141868A1 (zh) | 一种提取语音特征的方法、装置、终端及存储介质 | |
Ludena-Choez et al. | Bird sound spectrogram decomposition through non-negative matrix factorization for the acoustic classification of bird species | |
Duraibi | Voice biometric identity authentication model for iot devices | |
CN111489819A (zh) | 检测认知和语言障碍的方法、服务器和计算机可读介质 | |
CN113646833A (zh) | 语音对抗样本检测方法、装置、设备及计算机可读存储介质 | |
CN115394318A (zh) | 一种音频检测方法和装置 | |
CN113421590B (zh) | 异常行为检测方法、装置、设备及存储介质 | |
CN112382309A (zh) | 情绪识别模型的训练方法、装置、设备及存储介质 | |
CN117037840A (zh) | 异响源识别方法、装置、设备及可读存储介质 | |
CN117115581A (zh) | 一种基于多模态深度学习的智能误操作预警方法及系统 | |
CN113436617B (zh) | 语音断句方法、装置、计算机设备及存储介质 | |
CN115565548A (zh) | 异常声音检测方法、装置、存储介质及电子设备 | |
Xavier | Identification of Age Voiceprint Using Machine Learning Algorithms | |
US8560469B2 (en) | Method for a pattern discovery and recognition | |
CN114530142A (zh) | 基于随机森林的信息推荐方法、装置、设备及存储介质 | |
Çakmak et al. | Audio captcha recognition using rastaplp features by svm | |
Ghezaiel et al. | Nonlinear multi-scale decomposition by EMD for Co-Channel speaker identification | |
CN112911334A (zh) | 基于音视频数据的情绪识别方法、装置、设备及存储介质 | |
Fennir et al. | Acoustic scene classification for speaker diarization | |
Nguyen et al. | Vietnamese speaker authentication using deep models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |