CN113241060B - 一种安保预警方法及系统 - Google Patents

一种安保预警方法及系统 Download PDF

Info

Publication number
CN113241060B
CN113241060B CN202110775181.5A CN202110775181A CN113241060B CN 113241060 B CN113241060 B CN 113241060B CN 202110775181 A CN202110775181 A CN 202110775181A CN 113241060 B CN113241060 B CN 113241060B
Authority
CN
China
Prior art keywords
emotion
neural network
voice
early warning
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110775181.5A
Other languages
English (en)
Other versions
CN113241060A (zh
Inventor
姚娟娟
钟南山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Mingping Medical Data Technology Co ltd
Original Assignee
Mingpinyun Beijing Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mingpinyun Beijing Data Technology Co Ltd filed Critical Mingpinyun Beijing Data Technology Co Ltd
Priority to CN202110775181.5A priority Critical patent/CN113241060B/zh
Publication of CN113241060A publication Critical patent/CN113241060A/zh
Application granted granted Critical
Publication of CN113241060B publication Critical patent/CN113241060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种安保预警方法及系统,方法包括:获取训练集,训练集包括:多个语音样本,以及与语音样本相对应的情感标签;将训练集输入神经网络进行训练,获取安保预警模型;神经网络包括:用于根据语音样本的第一语音特征进行第一情感判定的第一神经网络、用于根据语音样本中的情感语句和情感副词进行第二情感判定的第二神经网络,以及用于根据第一神经网络和第二神经网络的输出结果进行最终情感判定与预警的情感判定网络;采集目标场所的语音数据;将语音数据输入安保预警模型进行情感判定与预警,完成安保预警;本发明中的安保预警方法,具备一定的事故预知性,有助于相关安保人员提前进行介入与干预,避免发生冲突等事故,精确率较高。

Description

一种安保预警方法及系统
技术领域
本发明涉及语音识别领域,尤其涉及一种安保预警方法及系统。
背景技术
随着时代的发展,公共场所的安全保护受到了越来越高的重视。由于公共场所人流量较大,当出现争吵或情绪过激时,可能会对场所内的其他人造成伤害。目前,通常采用电子监控或人为监控的方式,对公共场所的安全进行监测。然而,上述方法不具备一定的提前预知性,相关安保人员需要等到争吵或事故发生之后,才能得到警示并做出反应,不能对即将发生的争吵等进行提前干预,容易导致事故的发生,造成不必要的损失。
发明内容
本发明提供一种安保预警方法及系统,以解决现有技术中的安保方法不具备一定的提前预知性,相关安保人员需要等到争吵或事故发生之后,才能得到警示并做出反应,不能对即将发生的争吵等进行提前干预的问题。
本发明提供的安保预警方法,包括:
获取训练集,所述训练集包括:多个语音样本,以及与所述语音样本相对应的情感标签;
将所述训练集输入神经网络进行训练,获取安保预警模型;
所述神经网络包括:用于根据语音样本的第一语音特征进行第一情感判定的第一神经网络、用于根据语音样本中的情感语句和情感副词进行第二情感判定的第二神经网络,以及用于根据第一神经网络和第二神经网络的输出结果进行最终情感判定与预警的情感判定网络;
采集目标场所的语音数据;
将所述语音数据输入所述安保预警模型进行情感判定与预警,完成安保预警;
将所述训练集输入神经网络进行训练,获取安保预警模型的步骤包括:
根据预设的第一损失函数和所述第一神经网络输出的第一情感判定结果,对所述第一神经网络进行训练;
根据预设的第二损失函数和所述第二神经网络输出的第二情感判定结果,对所述第二神经网络进行训练,获取安保预警模型;
第一情感判定结果的获取步骤包括:将所述训练集输入所述第一神经网络进行人声分离,获取一个或多个人声语音;
对所述人声语音进行第一语音特征提取,获取第一语音特征,所述第一语音特征包括:声纹特征、语速特征、语调特征和音量特征;
将所述声纹特征与预设的声纹特征库中的特征进行匹配,获取与所述声纹特征相对应的身份信息;
根据所述身份信息,确定目标人物;
根据所述语速特征,判断对应语速是否超出预设的语速阈值范围,获取第一判断结果;
将所述语调特征输入预设的语调特征库进行匹配,获取语调匹配结果;
根据所述音量特征,判断对应音量是否超出预设的音量阈值范围,获取第二判断结果;
根据所述第一判断结果、语调匹配结果和第二判断结果,获取与目标人物相对应的情感标签作为第一情感判定结果。
可选的,还包括:
采集目标场所的视频数据;
对所述视频数据进行人物框选,获取人物框;
对所述人物框进行唇形框选,获取所述视频数据中的唇形框;
将所述唇形框输入第三神经网络进行特征提取,获取第一唇形特征;
获取对应时刻的所述语音数据,对所述语音数据进行目标语音特征提取,获取目标语音特征;
将所述目标语音特征输入第四神经网络进行处理,获取对应的第二唇形特征;
将同一时刻的第一唇形特征和第二唇形特征进行对比,获取对比结果;
根据所述对比结果,确定所述语音数据与所述人物框的对应关系;
根据所述对应关系和所述安保预警模型输出的安保预警结果,确定对应的目标预警人物,进而进行安保预警。
可选的,所述第二情感判定结果的获取步骤包括:
将所述训练集输入第二神经网络进行第二情感判定,获取第二情感判定结果;
所述第二神经网络包括:用于获取情感语句的隐马尔科夫语音识别子网络、用于对所述情感语句进行语义识别的长短期记忆子网络和用于获取情感副词的卷积神经子网络。
可选的,将所述训练集输入第二神经网络进行第二情感判定,获取第二情感判定结果的步骤包括:
将所述训练集输入所述隐马尔科夫语音识别子网络进行第二语音特征提取,获取第二语音特征;
根据所述第二语音特征,获取对应的语音文本;
对所述语音文本进行情感语句提取,获取一个或多个情感语句;
将所述情感语句输入所述长短期记忆子网络进行语义识别,获取语义识别结果;
根据所述语义识别结果,获取对应的情感标签;
将所述情感语句输入所述卷积神经子网络进行情感副词提取,获取情感副词;
根据所述情感标签和情感副词,获取第二情感判定结果。
可选的,根据所述情感标签和情感副词,获取第二情感判定结果的步骤包括:
将所述情感副词输出预设的情感副词库进行匹配,获取对应的程度权值;
根据所述程度权值,对所述情感标签进行打分,获取打分结果;
当所述打分结果超出预设的分数阈值时,则确定对应的情感标签为所述第二情感判定结果。
可选的,将所述第一情感判定结果和所述第二情感判定结果分别输入情感判定网络进行情感标签匹配,判断所述第一情感判定结果中的情感标签和所述第二情感判定结果中的情感标签的相似度是否超出预设的相似度阈值,获取第三判断结果;
根据所述第三判断结果,确定一个或多个目标情感标签;
获取所述多个目标情感标签的置信度,判断所述置信度是否超出阈值的置信度阈值,获取第四判断结果;
根据所述第四判断结果,获取最终情感标签。
可选的,对所述最终情感标签进行累计,若预设时间段内,同一目标人物的最终情感标签为负面情感标签的数量超出预设的数量阈值,则将对应的目标人物确定为目标预警人物,进行预警或警示,并将预警信息传输至关联终端。
本发明还提供一种安保预警系统,包括:
训练集获取模块,用于获取训练集,所述训练集包括:多个语音样本,以及与所述语音样本相对应的情感标签;
训练模块,用于将所述训练集输入神经网络进行训练,获取安保预警模型;所述神经网络包括:用于根据语音样本的第一语音特征进行第一情感判定的第一神经网络、用于根据语音样本中的情感语句和情感副词进行第二情感判定的第二神经网络,以及用于根据第一神经网络和第二神经网络的输出结果进行最终情感判定与预警的情感判定网络;将所述训练集输入神经网络进行训练,获取安保预警模型的步骤包括:根据预设的第一损失函数和所述第一神经网络输出的第一情感判定结果,对所述第一神经网络进行训练;根据预设的第二损失函数和所述第二神经网络输出的第二情感判定结果,对所述第二神经网络进行训练,获取安保预警模型;
采集模块,用于采集目标场所的语音数据;
安保预警模块,用于将所述语音数据输入所述安保预警模型进行情感判定与预警,完成安保预警;所述训练集获取模块、训练模块、采集模块和安保预警模块连接;
第一情感判定结果的获取步骤包括:将所述训练集输入所述第一神经网络进行人声分离,获取一个或多个人声语音;
对所述人声语音进行第一语音特征提取,获取第一语音特征,所述第一语音特征包括:声纹特征、语速特征、语调特征和音量特征;
将所述声纹特征与预设的声纹特征库中的特征进行匹配,获取与所述声纹特征相对应的身份信息;
根据所述身份信息,确定目标人物;
根据所述语速特征,判断对应语速是否超出预设的语速阈值范围,获取第一判断结果;
将所述语调特征输入预设的语调特征库进行匹配,获取语调匹配结果;
根据所述音量特征,判断对应音量是否超出预设的音量阈值范围,获取第二判断结果;
根据所述第一判断结果、语调匹配结果和第二判断结果,获取与目标人物相对应的情感标签作为第一情感判定结果。
本发明的有益效果:本发明中的安保预警方法,通过将训练集输入神经网络进行训练,获取安保预警模型;所述神经网络包括:用于根据语音样本的第一语音特征进行第一情感判定的第一神经网络、用于根据语音样本中的情感语句和情感副词进行第二情感判定的第二神经网络,以及用于根据第一神经网络和第二神经网络的输出结果进行最终情感判定与预警的情感判定网络;并将目标场所的语音数据输入所述安保预警模型进行情感判定与预警,能够通过对语音数据中的目标人物的情感进行分析,针对负面情感或情绪较高,且容易发生争吵或冲突等事故的目标人物进行提前预警,具备一定的提前预知性,有助于相关安保人员提前进行介入与干预,避免发生冲突等事故,精确率较高。
附图说明
图1是本发明实施例中安保预警方法的一流程示意图。
图2是本发明实施例中安保预警方法的另一流程示意图。
图3是本发明实施例中安保预警方法中获取安保预警模型的流程示意图。
图4是本发明实施例中安保预警方法中第一情感判定结果的获取的流程示意图。
图5是本发明实施例中安保预警方法中第二情感判定结果的获取的流程示意图。
图6是本发明实施例中安保预警方法中获取最终情感标签的流程示意图。
图7是本发明实施例中安保预警系统的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
发明人发现,随着时代的发展,公共场所的安全保护受到了越来越高的重视。由于公共场所人流量较大,当出现争吵或情绪过激时,可能会对场所内的其他人造成伤害。例如:在医院或诊疗室等公共场所,经常出现医患情感过激,而产生冲突,存在一定的安全隐患。目前,通常采用电子监控或人为监控的方式,对公共场所的安全进行监测。然而,上述方法不具备一定的提前预知性,相关安保人员需要等到争吵或事故发生之后,才能得到警示并做出反应,不能对即将发生的争吵等进行提前干预,容易导致事故的发生,造成不必要的损失。因此,发明人提出一种安保预警方法及系统,通过将训练集输入神经网络进行训练,获取安保预警模型;所述神经网络包括:用于根据语音样本的第一语音特征进行第一情感判定的第一神经网络、用于根据语音样本中的情感语句和情感副词进行第二情感判定的第二神经网络,以及用于根据第一神经网络和第二神经网络的输出结果进行最终情感判定与预警的情感判定网络;并将目标场所的语音数据输入所述安保预警模型进行情感判定与预警,能够通过对语音数据中的目标人物的情感进行分析,针对负面情感或情绪较高,且容易发生争吵或冲突等事故的目标人物进行提前预警,具备一定的提前预知性,有助于相关安保人员提前进行介入与干预,避免发生冲突等事故,精确率较高,可实施性较强,成本较低。
如图1所示,本实施例中的安保预警方法,包括:
S101:获取训练集,所述训练集包括:多个语音样本,以及与所述语音样本相对应的情感标签;
S102:将所述训练集输入神经网络进行训练,获取安保预警模型;所述神经网络包括:用于根据语音样本的第一语音特征进行第一情感判定的第一神经网络、用于根据语音样本中的情感语句和情感副词进行第二情感判定的第二神经网络,以及用于根据第一神经网络和第二神经网络的输出结果进行最终情感判定与预警的情感判定网络;通过对语音样本进行多次情感判定,提高最终情感判定的准确性,便于进行安保预警。
S103:采集目标场所的语音数据;所述目标场所可以为医院和学校等公共场所。
S104:将所述语音数据输入所述安保预警模型进行情感判定与预警,完成安保预警。通过上述方法,能够对语音数据中的目标人物的情感进行分析,针对负面情感较高,且容易发生争吵或冲突等事故的目标人物进行提前预警,具备一定的提前预知性,有助于相关安保人员提前进行介入与干预,避免发生冲突等事故,精确率较高,可实施性较强,成本较低,实施较方便。
请参考图2,为了便于安保人员迅速确定目标预警人员,即确定安保预警模型输出的安保预警结果中的目标预警人员,目标预警人员为情绪过激,存在一定危险隐患的目标人员。本实施例中的安保预警方法,还包括:
S201:采集目标场所的视频数据;
S202:对所述视频数据进行人物框选,获取人物框;例如:获取所述视频数据中的人脸图像并对人脸图像进行人物或人脸框选,获取对应的人物框;
S203:对所述人物框进行唇形框选,获取所述视频数据中的唇形框;通过获取所述视频数据中目标人物的唇形框,有助于确定与语音对应的说话人。
S204:将所述唇形框输入第三神经网络进行特征提取,获取第一唇形特征;
S205:获取对应时刻的所述语音数据,对所述语音数据进行目标语音特征提取,获取目标语音特征;
S206:将所述目标语音特征输入第四神经网络进行处理,获取对应的第二唇形特征;
S207:将同一时刻的第一唇形特征和第二唇形特征进行对比,获取对比结果;
S208:根据所述对比结果,确定所述语音数据与所述人物框的对应关系;例如:将对比结果中相似度超过预设阈值的第一唇形特征所对应的人物框确定为目标人物框,建立该时刻的语音数据与目标人物框的对应关系。
S209:根据所述对应关系和所述安保预警模型输出的安保预警结果,确定对应的目标预警人物,进而进行安保预警。例如:当安保预警结果中出现目标预警人物时,根据所述对应关系,确定视频数据中对应的人物框,帮助安保人员确定目标预警人物的具体形象或样貌,有助于安保人员提前进行准确干预。
如图3所示,为了提高安保预警模型的预警精确度,本实施例中获取安保预警模型的步骤包括:
S301:根据预设的第一损失函数和所述第一神经网络输出的第一情感判定结果,对所述第一神经网络进行训练;
S302:根据预设的第二损失函数和所述第二神经网络输出的第二情感判定结果,对所述第二神经网络进行训练,获取安保预警模型。
所述第一损失函数的数学表达为:
Figure DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE003
为第一损失函数,
Figure DEST_PATH_IMAGE004
为预设的第一权值,
Figure DEST_PATH_IMAGE005
为预设的第二权值,
Figure DEST_PATH_IMAGE006
为样本数,
Figure DEST_PATH_IMAGE007
为真实情感标签,
Figure DEST_PATH_IMAGE008
为第一神经网络输出的第一情感识别结果中的情感标签,T为常见的代 价函数,K1为第一神经网络的第一误差值,
Figure DEST_PATH_IMAGE009
为第一控制参数,
Figure DEST_PATH_IMAGE010
为第一惩罚项。可以理解 的,常见的代价函数包括:指数函数和对数函数等代价函数,第一控制参数为用于控制第一 神经网络迭代学习过程中去相关性的偏好程度的参数。通过采用上述第一损失函数对第一 神经网络进行训练,有效提高第一神经网络的情感识别精确度。
所述第二损失函数的数学表达为:
Figure DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE012
其中,
Figure DEST_PATH_IMAGE013
为第二损失函数,
Figure DEST_PATH_IMAGE014
为预设的第三权值,
Figure DEST_PATH_IMAGE015
为预设的第四权值,
Figure 72785DEST_PATH_IMAGE006
为样本数,
Figure DEST_PATH_IMAGE016
为真实情感标签,
Figure DEST_PATH_IMAGE017
为第二神经网络输出的第二情感识别结果中的情感标签,T为常见的代 价函数,K2为第一神经网络的第二误差值,
Figure DEST_PATH_IMAGE018
为第二控制参数,
Figure DEST_PATH_IMAGE019
为第二惩罚项。可以理解 的,常见的代价函数包括:指数函数和对数函数等代价函数,第二控制参数为用于控制第二 神经网络迭代学习过程中去相关性的偏好程度的参数。通过采用第二损失函数对第二神经 网络进行训练,有效提高第二神经网络的情感判定精确度。
请参考图4,为了便于获取第一情感判定结果,提高第一情感判定的准确性,本实施例中第一情感判定结果的获取步骤包括:
S401:将所述训练集输入所述第一神经网络进行人声分离,获取一个或多个人声语音;通过对训练集中的语音样本进行人声分离,能够较好地将不同的人声分离开,并消除噪声。
S402:对所述人声语音进行第一语音特征提取,获取第一语音特征,所述第一语音特征包括:声纹特征、语速特征、语调特征和音量特征;通过获取人声语音中的声纹特征、语速特征、语调特征和音量特征,有助于对人声语音中携带的声音类型的情感或情绪进行精准识别与判定。
S403:将所述声纹特征与预设的声纹特征库中的特征进行匹配,获取与所述声纹特征相对应的身份信息;
S404:根据所述身份信息,确定目标人物;
S405:根据所述语速特征,判断对应语速是否超出预设的语速阈值范围,获取第一判断结果;
S406:将所述语调特征输入预设的语调特征库进行匹配,获取语调匹配结果;所述语调特征框包括:多个语调特征,以及与语调特征相对应的情感标签;通过将语调特征输入语调特征框进行匹配,能够较好地确定与所述语调特征相对应的情感标签。
S407:根据所述音量特征,判断对应音量是否超出预设的音量阈值范围,获取第二判断结果;所述语速阈值范围和音量阈值范围可以根据实际情况进行设置,此处不再赘述。不同语速阈值范围以及不同音量阈值范围对应的情感标签不同。
S408:根据所述第一判断结果、语调匹配结果和第二判断结果,获取与目标人物相对应的情感标签作为第一情感判定结果。所述情感标签包括:平静、高兴、悲伤、愤怒、过激、惊讶和恐惧等。
请参考图5,为了提高第二情感判定结果的准确性,本实施例中的第二情感判定结果的获取步骤包括:
S501:将所述训练集输入第二神经网络进行第二情感判定,获取第二情感判定结果;
S502:所述第二神经网络包括:用于获取情感语句的隐马尔科夫语音识别子网络、用于对所述情感语句进行语义识别的长短期记忆子网络和用于获取情感副词的卷积神经子网络。
进一步地,将所述训练集输入第二神经网络进行第二情感判定,获取第二情感判定结果的步骤包括:
将所述训练集输入所述隐马尔科夫语音识别子网络进行第二语音特征提取,获取第二语音特征;
根据所述第二语音特征,获取对应的语音文本;
对所述语音文本进行情感语句提取,获取一个或多个情感语句;
将所述情感语句输入所述长短期记忆子网络进行语义识别,获取语义识别结果;
根据所述语义识别结果,获取对应的情感标签;
将所述情感语句输入所述卷积神经子网络进行情感副词提取,获取情感副词;
根据所述情感标签和情感副词,获取第二情感判定结果。通过对情感语句中的情感副词进行提取,并结合所述语义识别结果对应的情感标签和所述情感副词,进行第二情感判定,能够有效提高第二情感判定的准确性。
在一些实施例中,根据所述情感标签和情感副词,获取第二情感判定结果的步骤包括:
将所述情感副词输出预设的情感副词库进行匹配,获取对应的程度权值;所述程度副词包括:很、非常、及其、相当、一点、明显地和特别等。不同情感副词对应不同的程度权值。
根据所述程度权值,对所述情感标签进行打分,获取打分结果;
当所述打分结果超出预设的分数阈值时,则确定对应的情感标签为所述第二情感判定结果。
如图6所示,为了提高最终情感判定结果的准确性,将第一情感判定结果和第二情感判定结果结合,得到最终情感判定结果。本实施例中获取最终情感判定结果的步骤包括:
S601:将所述第一情感判定结果和所述第二情感判定结果分别输入情感判定网络进行情感标签匹配,判断所述第一情感判定结果中的情感标签和所述第二情感判定结果中的情感标签的相似度是否超出预设的相似度阈值,获取第三判断结果;
S602:根据所述第三判断结果,确定一个或多个目标情感标签;
S603:获取所述多个目标情感标签的置信度,判断所述置信度是否超出阈值的置信度阈值,获取第四判断结果;
S604:根据所述第四判断结果,获取最终情感标签。通过对第一情感判定结果和第二情感判定结果进行有机结合,能够有效提高情感判定的准确性。
在一些实施例中,对所述最终情感标签进行累计,若预设时间段内,同一目标人物的最终情感标签为负面情感标签的数量超出预设的数量阈值,则将对应的目标人物确定为目标预警人物,进行预警或警示,并将预警信息传输至关联终端。例如:当预设时间段内,同一目标人物的最终情感标签为愤怒,且数量超出预设的数量阈值时,则确定该目标人物为目标预警人物并进行警示,将预警信息传输至安保人员的终端,提示相关安保人员进行提前介入与干预,避免发生不必要的冲突,消除一定的安全隐患。所述负面情感标签包括:悲伤、愤怒、过激和恐惧等。
请参考图7,本实施例还提供一种安保预警系统,包括:
训练集获取模块,用于获取训练集,所述训练集包括:多个语音样本,以及与所述语音样本相对应的情感标签;
训练模块,用于将所述训练集输入神经网络进行训练,获取安保预警模型;所述神经网络包括:用于根据语音样本的第一语音特征进行第一情感判定的第一神经网络、用于根据语音样本中的情感语句和情感副词进行第二情感判定的第二神经网络,以及用于根据第一神经网络和第二神经网络的输出结果进行最终情感判定与预警的情感判定网络;
采集模块,用于采集目标场所的语音数据;
安保预警模块,用于将所述语音数据输入所述安保预警模型进行情感判定与预警,完成安保预警;所述训练集获取模块、训练模块、采集模块和安保预警模块连接。通过将训练集输入神经网络进行训练,获取安保预警模型;所述神经网络包括:用于根据语音样本的第一语音特征进行第一情感判定的第一神经网络、用于根据语音样本中的情感语句和情感副词进行第二情感判定的第二神经网络,以及用于根据第一神经网络和第二神经网络的输出结果进行最终情感判定与预警的情感判定网络;并将目标场所的语音数据输入所述安保预警模型进行情感判定与预警,能够通过对语音数据中的目标人物的情感进行分析,针对负面情感或情绪较高,且容易发生争吵或冲突等事故的目标人物进行提前预警,具备一定的提前预知性,有助于相关安保人员提前进行介入与干预,避免发生冲突等事故,精确率较高。
在一些实施例中,还包括:辅助模块,用于采集目标场所的视频数据;
对所述视频数据进行人物框选,获取人物框;
对所述人物框进行唇形框选,获取所述视频数据中的唇形框;
将所述唇形框输入第三神经网络进行特征提取,获取第一唇形特征;
获取对应时刻的所述语音数据,对所述语音数据进行目标语音特征提取,获取目标语音特征;
将所述目标语音特征输入第四神经网络进行处理,获取对应的第二唇形特征;
将同一时刻的第一唇形特征和第二唇形特征进行对比,获取对比结果;
根据所述对比结果,确定所述语音数据与所述人物框的对应关系;
所述安保预警模块根据所述对应关系和所述安保预警模型输出的安保预警结果,确定对应的目标预警人物,进而进行安保预警。
在一些实施例中,将所述训练集输入神经网络进行训练,获取安保预警模型的步骤包括:
根据预设的第一损失函数和所述第一神经网络输出的第一情感判定结果,对所述第一神经网络进行训练;
根据预设的第二损失函数和所述第二神经网络输出的第二情感判定结果,对所述第二神经网络进行训练,获取安保预警模型。
在一些实施例中,第一情感判定结果的获取步骤包括:将所述训练集输入所述第一神经网络进行人声分离,获取一个或多个人声语音;
对所述人声语音进行第一语音特征提取,获取第一语音特征,所述第一语音特征包括:声纹特征、语速特征、语调特征和音量特征;
将所述声纹特征与预设的声纹特征库中的特征进行匹配,获取与所述声纹特征相对应的身份信息;
根据所述身份信息,确定目标人物;
根据所述语速特征,判断对应语速是否超出预设的语速阈值范围,获取第一判断结果;
将所述语调特征输入预设的语调特征库进行匹配,获取语调匹配结果;
根据所述音量特征,判断对应音量是否超出预设的音量阈值范围,获取第二判断结果;
根据所述第一判断结果、语调匹配结果和第二判断结果,获取与目标人物相对应的情感标签作为第一情感判定结果。
在一些实施例中,所述第二情感判定结果的获取步骤包括:
将所述训练集输入第二神经网络进行第二情感判定,获取第二情感判定结果;
所述第二神经网络包括:用于获取情感语句的隐马尔科夫语音识别子网络、用于对所述情感语句进行语义识别的长短期记忆子网络和用于获取情感副词的卷积神经子网络。
在一些实施例中,将所述训练集输入第二神经网络进行第二情感判定,获取第二情感判定结果的步骤包括:
将所述训练集输入所述隐马尔科夫语音识别子网络进行第二语音特征提取,获取第二语音特征;
根据所述第二语音特征,获取对应的语音文本;
对所述语音文本进行情感语句提取,获取一个或多个情感语句;
将所述情感语句输入所述长短期记忆子网络进行语义识别,获取语义识别结果;
根据所述语义识别结果,获取对应的情感标签;
将所述情感语句输入所述卷积神经子网络进行情感副词提取,获取情感副词;
根据所述情感标签和情感副词,获取第二情感判定结果。
在一些实施例中,根据所述情感标签和情感副词,获取第二情感判定结果的步骤包括:
将所述情感副词输出预设的情感副词库进行匹配,获取对应的程度权值;
根据所述程度权值,对所述情感标签进行打分,获取打分结果;
当所述打分结果超出预设的分数阈值时,则确定对应的情感标签为所述第二情感判定结果。
在一些实施例中,将所述第一情感判定结果和所述第二情感判定结果分别输入情感判定网络进行情感标签匹配,判断所述第一情感判定结果中的情感标签和所述第二情感判定结果中的情感标签的相似度是否超出预设的相似度阈值,获取第三判断结果;
根据所述第三判断结果,确定一个或多个目标情感标签;
获取所述多个目标情感标签的置信度,判断所述置信度是否超出阈值的置信度阈值,获取第四判断结果;
根据所述第四判断结果,获取最终情感标签。
在一些实施例中,对所述最终情感标签进行累计,若预设时间段内,同一目标人物的最终情感标签为负面情感标签的数量超出预设的数量阈值,则将对应的目标人物确定为目标预警人物,进行预警或警示,并将预警信息传输至关联终端。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本实施例中的任一项方法。
本实施例还提供一种电子终端,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行本实施例中任一项方法。
本实施例中的计算机可读存储介质,本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例提供的电子终端,包括处理器、存储器、收发器和通信接口,存储器和通信接口与处理器和收发器连接并完成相互间的通信,存储器用于存储计算机程序,通信接口用于进行通信,处理器和收发器用于运行计算机程序,使电子终端执行如上方法的各个步骤。
在本实施例中,存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (8)

1.一种安保预警方法,其特征在于,包括:
获取训练集,所述训练集包括:多个语音样本,以及与所述语音样本相对应的情感标签;
将所述训练集输入神经网络进行训练,获取安保预警模型;
所述神经网络包括:用于根据语音样本的第一语音特征进行第一情感判定的第一神经网络、用于根据语音样本中的情感语句和情感副词进行第二情感判定的第二神经网络,以及用于根据第一神经网络和第二神经网络的输出结果进行最终情感判定与预警的情感判定网络;
采集目标场所的语音数据;
将所述语音数据输入所述安保预警模型进行情感判定与预警,完成安保预警;
将所述训练集输入神经网络进行训练,获取安保预警模型的步骤包括:
根据预设的第一损失函数和所述第一神经网络输出的第一情感判定结果,对所述第一神经网络进行训练;
根据预设的第二损失函数和所述第二神经网络输出的第二情感判定结果,对所述第二神经网络进行训练,获取安保预警模型;
所述第一损失函数的数学表达为:
Figure 950329DEST_PATH_IMAGE001
Figure 929786DEST_PATH_IMAGE002
其中,
Figure 788152DEST_PATH_IMAGE003
为第一损失函数,
Figure 448941DEST_PATH_IMAGE004
为预设的第一权值,
Figure 341941DEST_PATH_IMAGE005
为预设的第二权值,
Figure 429983DEST_PATH_IMAGE006
为样本数,
Figure 24912DEST_PATH_IMAGE007
为真 实情感标签,
Figure 36862DEST_PATH_IMAGE008
为第一神经网络输出的第一情感识别结果中的情感标签,T为常见的代价函 数,K1为第一神经网络的第一误差值,
Figure 971320DEST_PATH_IMAGE009
为第一控制参数,
Figure 43312DEST_PATH_IMAGE010
为第一惩罚项;
所述第二损失函数的数学表达为:
Figure 63221DEST_PATH_IMAGE011
Figure 128129DEST_PATH_IMAGE012
其中,
Figure 667826DEST_PATH_IMAGE013
为第二损失函数,
Figure 159987DEST_PATH_IMAGE014
为预设的第三权值,
Figure 214662DEST_PATH_IMAGE015
为预设的第四权值,
Figure 817681DEST_PATH_IMAGE006
为样本数,
Figure 726731DEST_PATH_IMAGE016
为真 实情感标签,
Figure 140526DEST_PATH_IMAGE017
为第二神经网络输出的第二情感识别结果中的情感标签,T为常见的代价函 数,K2为第一神经网络的第二误差值,
Figure 135027DEST_PATH_IMAGE018
为第二控制参数,
Figure 292470DEST_PATH_IMAGE019
为第二惩罚项;
第一情感判定结果的获取步骤包括:将所述训练集输入所述第一神经网络进行人声分离,获取一个或多个人声语音;
对所述人声语音进行第一语音特征提取,获取第一语音特征,所述第一语音特征包括:声纹特征、语速特征、语调特征和音量特征;
将所述声纹特征与预设的声纹特征库中的特征进行匹配,获取与所述声纹特征相对应的身份信息;
根据所述身份信息,确定目标人物;
根据所述语速特征,判断对应语速是否超出预设的语速阈值范围,获取第一判断结果;
将所述语调特征输入预设的语调特征库进行匹配,获取语调匹配结果;
根据所述音量特征,判断对应音量是否超出预设的音量阈值范围,获取第二判断结果;
根据所述第一判断结果、语调匹配结果和第二判断结果,获取与目标人物相对应的情感标签作为第一情感判定结果。
2.根据权利要求1所述的安保预警方法,其特征在于,还包括:
采集目标场所的视频数据;
对所述视频数据进行人物框选,获取人物框;
对所述人物框进行唇形框选,获取所述视频数据中的唇形框;
将所述唇形框输入第三神经网络进行特征提取,获取第一唇形特征;
获取对应时刻的语音数据,对语音数据进行目标语音特征提取,获取目标语音特征;
将所述目标语音特征输入第四神经网络进行处理,获取对应的第二唇形特征;
将同一时刻的第一唇形特征和第二唇形特征进行对比,获取对比结果;
根据所述对比结果,确定所述语音数据与所述人物框的对应关系;
根据所述对应关系和所述安保预警模型输出的安保预警结果,确定对应的目标预警人物,进而进行安保预警。
3.根据权利要求1所述的安保预警方法,其特征在于,所述第二情感判定结果的获取步骤包括:
将所述训练集输入第二神经网络进行第二情感判定,获取第二情感判定结果;
所述第二神经网络包括:用于获取情感语句的隐马尔科夫语音识别子网络、用于对所述情感语句进行语义识别的长短期记忆子网络和用于获取情感副词的卷积神经子网络。
4.根据权利要求3所述的安保预警方法,其特征在于,将所述训练集输入第二神经网络进行第二情感判定,获取第二情感判定结果的步骤包括:
将所述训练集输入所述隐马尔科夫语音识别子网络进行第二语音特征提取,获取第二语音特征;
根据所述第二语音特征,获取对应的语音文本;
对所述语音文本进行情感语句提取,获取一个或多个情感语句;
将所述情感语句输入所述长短期记忆子网络进行语义识别,获取语义识别结果;
根据所述语义识别结果,获取对应的情感标签;
将所述情感语句输入所述卷积神经子网络进行情感副词提取,获取情感副词;
根据所述情感标签和情感副词,获取第二情感判定结果。
5.根据权利要求4所述的安保预警方法,其特征在于,根据所述情感标签和情感副词,获取第二情感判定结果的步骤包括:
将所述情感副词输出预设的情感副词库进行匹配,获取对应的程度权值;
根据所述程度权值,对所述情感标签进行打分,获取打分结果;
当所述打分结果超出预设的分数阈值时,则确定对应的情感标签为所述第二情感判定结果。
6.根据权利要求1所述的安保预警方法,其特征在于,
将所述第一情感判定结果和所述第二情感判定结果分别输入情感判定网络进行情感标签匹配,判断所述第一情感判定结果中的情感标签和所述第二情感判定结果中的情感标签的相似度是否超出预设的相似度阈值,获取第三判断结果;
根据所述第三判断结果,确定一个或多个目标情感标签;
获取所述多个目标情感标签的置信度,判断所述置信度是否超出阈值的置信度阈值,获取第四判断结果;
根据所述第四判断结果,获取最终情感标签。
7.根据权利要求6所述的安保预警方法,其特征在于,
对所述最终情感标签进行累计,若预设时间段内,同一目标人物的最终情感标签为负面情感标签的数量超出预设的数量阈值,则将对应的目标人物确定为目标预警人物,进行预警或警示,并将预警信息传输至关联终端。
8.一种安保预警系统,其特征在于,包括:
训练集获取模块,用于获取训练集,所述训练集包括:多个语音样本,以及与所述语音样本相对应的情感标签;
训练模块,用于将所述训练集输入神经网络进行训练,获取安保预警模型;所述神经网络包括:用于根据语音样本的第一语音特征进行第一情感判定的第一神经网络、用于根据语音样本中的情感语句和情感副词进行第二情感判定的第二神经网络,以及用于根据第一神经网络和第二神经网络的输出结果进行最终情感判定与预警的情感判定网络;将所述训练集输入神经网络进行训练,获取安保预警模型的步骤包括:根据预设的第一损失函数和所述第一神经网络输出的第一情感判定结果,对所述第一神经网络进行训练;根据预设的第二损失函数和所述第二神经网络输出的第二情感判定结果,对所述第二神经网络进行训练,获取安保预警模型;
采集模块,用于采集目标场所的语音数据;
安保预警模块,用于将所述语音数据输入所述安保预警模型进行情感判定与预警,完成安保预警;所述训练集获取模块、训练模块、采集模块和安保预警模块连接;
所述第一损失函数的数学表达为:
Figure 852765DEST_PATH_IMAGE001
Figure 889991DEST_PATH_IMAGE002
其中,
Figure 919258DEST_PATH_IMAGE003
为第一损失函数,
Figure 332922DEST_PATH_IMAGE004
为预设的第一权值,
Figure 498455DEST_PATH_IMAGE005
为预设的第二权值,
Figure 706582DEST_PATH_IMAGE006
为样本数,
Figure 675675DEST_PATH_IMAGE007
为真 实情感标签,
Figure 909342DEST_PATH_IMAGE008
为第一神经网络输出的第一情感识别结果中的情感标签,T为常见的代价函 数,K1为第一神经网络的第一误差值,
Figure 709807DEST_PATH_IMAGE009
为第一控制参数,
Figure 88836DEST_PATH_IMAGE010
为第一惩罚项;
所述第二损失函数的数学表达为:
Figure 92695DEST_PATH_IMAGE011
Figure 582582DEST_PATH_IMAGE012
其中,
Figure 722708DEST_PATH_IMAGE013
为第二损失函数,
Figure 272638DEST_PATH_IMAGE014
为预设的第三权值,
Figure 13061DEST_PATH_IMAGE015
为预设的第四权值,
Figure 322951DEST_PATH_IMAGE006
为样本数,
Figure 566850DEST_PATH_IMAGE016
为真 实情感标签,
Figure 22102DEST_PATH_IMAGE017
为第二神经网络输出的第二情感识别结果中的情感标签,T为常见的代价函 数,K2为第一神经网络的第二误差值,
Figure 988835DEST_PATH_IMAGE018
为第二控制参数,
Figure 820525DEST_PATH_IMAGE019
为第二惩罚项;
第一情感判定结果的获取步骤包括:将所述训练集输入所述第一神经网络进行人声分离,获取一个或多个人声语音;
对所述人声语音进行第一语音特征提取,获取第一语音特征,所述第一语音特征包括:声纹特征、语速特征、语调特征和音量特征;
将所述声纹特征与预设的声纹特征库中的特征进行匹配,获取与所述声纹特征相对应的身份信息;
根据所述身份信息,确定目标人物;
根据所述语速特征,判断对应语速是否超出预设的语速阈值范围,获取第一判断结果;
将所述语调特征输入预设的语调特征库进行匹配,获取语调匹配结果;
根据所述音量特征,判断对应音量是否超出预设的音量阈值范围,获取第二判断结果;
根据所述第一判断结果、语调匹配结果和第二判断结果,获取与目标人物相对应的情感标签作为第一情感判定结果。
CN202110775181.5A 2021-07-09 2021-07-09 一种安保预警方法及系统 Active CN113241060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110775181.5A CN113241060B (zh) 2021-07-09 2021-07-09 一种安保预警方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110775181.5A CN113241060B (zh) 2021-07-09 2021-07-09 一种安保预警方法及系统

Publications (2)

Publication Number Publication Date
CN113241060A CN113241060A (zh) 2021-08-10
CN113241060B true CN113241060B (zh) 2021-12-17

Family

ID=77141306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110775181.5A Active CN113241060B (zh) 2021-07-09 2021-07-09 一种安保预警方法及系统

Country Status (1)

Country Link
CN (1) CN113241060B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9493130B2 (en) * 2011-04-22 2016-11-15 Angel A. Penilla Methods and systems for communicating content to connected vehicle users based detected tone/mood in voice input
CN108305642B (zh) * 2017-06-30 2019-07-19 腾讯科技(深圳)有限公司 情感信息的确定方法和装置
CN110782622A (zh) * 2018-07-25 2020-02-11 杭州海康威视数字技术股份有限公司 一种安全监控系统、安全检测方法、装置及电子设备
CN110956953B (zh) * 2019-11-29 2023-03-10 中山大学 基于音频分析与深度学习的争吵识别方法
CN111091824B (zh) * 2019-11-30 2022-10-04 华为技术有限公司 一种语音匹配方法及相关设备

Also Published As

Publication number Publication date
CN113241060A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
US11714861B2 (en) Query selection method and system
US10991366B2 (en) Method of processing dialogue query priority based on dialog act information dependent on number of empty slots of the query
JP6857581B2 (ja) 成長型対話装置
US10438586B2 (en) Voice dialog device and voice dialog method
CN109087670B (zh) 情绪分析方法、系统、服务器及存储介质
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
CN108447471A (zh) 语音识别方法及语音识别装置
US20190164540A1 (en) Voice recognition system and voice recognition method for analyzing command having multiple intents
US20140350934A1 (en) Systems and Methods for Voice Identification
US20230058194A1 (en) Text classification method and apparatus, device, and computer-readable storage medium
CN113241096B (zh) 一种情绪监测装置及方法
CN106997342B (zh) 基于多轮交互的意图识别方法和装置
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
CN112818680B (zh) 语料的处理方法、装置、电子设备及计算机可读存储介质
CN110168527B (zh) 信息处理装置、信息处理方法及信息处理程序
CN111126084B (zh) 数据处理方法、装置、电子设备和存储介质
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN111832305A (zh) 一种用户意图识别方法、装置、服务器和介质
CN111898363B (zh) 文本长难句的压缩方法、装置、计算机设备及存储介质
CN113723077A (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN113362815A (zh) 语音交互方法、系统、电子设备及存储介质
CN113241060B (zh) 一种安保预警方法及系统
CN106157969B (zh) 一种语音识别结果的筛选方法及装置
CN113111855A (zh) 一种多模态情感识别方法、装置、电子设备及存储介质
CN114764437A (zh) 用户意图识别方法、装置以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220711

Address after: 201615 room 1904, G60 Kechuang building, No. 650, Xinzhuan Road, Songjiang District, Shanghai

Patentee after: Shanghai Mingping Medical Data Technology Co.,Ltd.

Address before: 102400 no.86-n3557, Wanxing Road, Changyang, Fangshan District, Beijing

Patentee before: Mingpinyun (Beijing) data Technology Co.,Ltd.