CN113241060B

CN113241060B - 一种安保预警方法及系统

Info

Publication number: CN113241060B
Application number: CN202110775181.5A
Authority: CN
Inventors: 姚娟娟; 钟南山
Original assignee: Mingpinyun Beijing Data Technology Co Ltd
Current assignee: Shanghai Mingping Medical Data Technology Co ltd
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2021-12-17
Anticipated expiration: 2041-07-09
Also published as: CN113241060A

Abstract

本发明提供一种安保预警方法及系统，方法包括：获取训练集，训练集包括：多个语音样本，以及与语音样本相对应的情感标签；将训练集输入神经网络进行训练，获取安保预警模型；神经网络包括：用于根据语音样本的第一语音特征进行第一情感判定的第一神经网络、用于根据语音样本中的情感语句和情感副词进行第二情感判定的第二神经网络，以及用于根据第一神经网络和第二神经网络的输出结果进行最终情感判定与预警的情感判定网络；采集目标场所的语音数据；将语音数据输入安保预警模型进行情感判定与预警，完成安保预警；本发明中的安保预警方法，具备一定的事故预知性，有助于相关安保人员提前进行介入与干预，避免发生冲突等事故，精确率较高。

Description

一种安保预警方法及系统

技术领域

本发明涉及语音识别领域，尤其涉及一种安保预警方法及系统。

背景技术

随着时代的发展，公共场所的安全保护受到了越来越高的重视。由于公共场所人流量较大，当出现争吵或情绪过激时，可能会对场所内的其他人造成伤害。目前，通常采用电子监控或人为监控的方式，对公共场所的安全进行监测。然而，上述方法不具备一定的提前预知性，相关安保人员需要等到争吵或事故发生之后，才能得到警示并做出反应，不能对即将发生的争吵等进行提前干预，容易导致事故的发生，造成不必要的损失。

发明内容

本发明提供一种安保预警方法及系统，以解决现有技术中的安保方法不具备一定的提前预知性，相关安保人员需要等到争吵或事故发生之后，才能得到警示并做出反应，不能对即将发生的争吵等进行提前干预的问题。

本发明提供的安保预警方法，包括：

获取训练集，所述训练集包括：多个语音样本，以及与所述语音样本相对应的情感标签；

将所述训练集输入神经网络进行训练，获取安保预警模型；

所述神经网络包括：用于根据语音样本的第一语音特征进行第一情感判定的第一神经网络、用于根据语音样本中的情感语句和情感副词进行第二情感判定的第二神经网络，以及用于根据第一神经网络和第二神经网络的输出结果进行最终情感判定与预警的情感判定网络；

采集目标场所的语音数据；

将所述语音数据输入所述安保预警模型进行情感判定与预警，完成安保预警；

将所述训练集输入神经网络进行训练，获取安保预警模型的步骤包括：

根据预设的第一损失函数和所述第一神经网络输出的第一情感判定结果，对所述第一神经网络进行训练；

根据预设的第二损失函数和所述第二神经网络输出的第二情感判定结果，对所述第二神经网络进行训练，获取安保预警模型；

第一情感判定结果的获取步骤包括：将所述训练集输入所述第一神经网络进行人声分离，获取一个或多个人声语音；

对所述人声语音进行第一语音特征提取，获取第一语音特征，所述第一语音特征包括：声纹特征、语速特征、语调特征和音量特征；

将所述声纹特征与预设的声纹特征库中的特征进行匹配，获取与所述声纹特征相对应的身份信息；

根据所述身份信息，确定目标人物；

根据所述语速特征，判断对应语速是否超出预设的语速阈值范围，获取第一判断结果；

将所述语调特征输入预设的语调特征库进行匹配，获取语调匹配结果；

根据所述音量特征，判断对应音量是否超出预设的音量阈值范围，获取第二判断结果；

根据所述第一判断结果、语调匹配结果和第二判断结果，获取与目标人物相对应的情感标签作为第一情感判定结果。

可选的，还包括：

采集目标场所的视频数据；

对所述视频数据进行人物框选，获取人物框；

对所述人物框进行唇形框选，获取所述视频数据中的唇形框；

将所述唇形框输入第三神经网络进行特征提取，获取第一唇形特征；

获取对应时刻的所述语音数据，对所述语音数据进行目标语音特征提取，获取目标语音特征；

将所述目标语音特征输入第四神经网络进行处理，获取对应的第二唇形特征；

将同一时刻的第一唇形特征和第二唇形特征进行对比，获取对比结果；

根据所述对比结果，确定所述语音数据与所述人物框的对应关系；

根据所述对应关系和所述安保预警模型输出的安保预警结果，确定对应的目标预警人物，进而进行安保预警。

可选的，所述第二情感判定结果的获取步骤包括：

将所述训练集输入第二神经网络进行第二情感判定，获取第二情感判定结果；

所述第二神经网络包括：用于获取情感语句的隐马尔科夫语音识别子网络、用于对所述情感语句进行语义识别的长短期记忆子网络和用于获取情感副词的卷积神经子网络。

可选的，将所述训练集输入第二神经网络进行第二情感判定，获取第二情感判定结果的步骤包括：

将所述训练集输入所述隐马尔科夫语音识别子网络进行第二语音特征提取，获取第二语音特征；

根据所述第二语音特征，获取对应的语音文本；

对所述语音文本进行情感语句提取，获取一个或多个情感语句；

将所述情感语句输入所述长短期记忆子网络进行语义识别，获取语义识别结果；

根据所述语义识别结果，获取对应的情感标签；

将所述情感语句输入所述卷积神经子网络进行情感副词提取，获取情感副词；

根据所述情感标签和情感副词，获取第二情感判定结果。

可选的，根据所述情感标签和情感副词，获取第二情感判定结果的步骤包括：

将所述情感副词输出预设的情感副词库进行匹配，获取对应的程度权值；

根据所述程度权值，对所述情感标签进行打分，获取打分结果；

当所述打分结果超出预设的分数阈值时，则确定对应的情感标签为所述第二情感判定结果。

可选的，将所述第一情感判定结果和所述第二情感判定结果分别输入情感判定网络进行情感标签匹配，判断所述第一情感判定结果中的情感标签和所述第二情感判定结果中的情感标签的相似度是否超出预设的相似度阈值，获取第三判断结果；

根据所述第三判断结果，确定一个或多个目标情感标签；

获取所述多个目标情感标签的置信度，判断所述置信度是否超出阈值的置信度阈值，获取第四判断结果；

根据所述第四判断结果，获取最终情感标签。

可选的，对所述最终情感标签进行累计，若预设时间段内，同一目标人物的最终情感标签为负面情感标签的数量超出预设的数量阈值，则将对应的目标人物确定为目标预警人物，进行预警或警示，并将预警信息传输至关联终端。

本发明还提供一种安保预警系统，包括：

训练集获取模块，用于获取训练集，所述训练集包括：多个语音样本，以及与所述语音样本相对应的情感标签；

训练模块，用于将所述训练集输入神经网络进行训练，获取安保预警模型；所述神经网络包括：用于根据语音样本的第一语音特征进行第一情感判定的第一神经网络、用于根据语音样本中的情感语句和情感副词进行第二情感判定的第二神经网络，以及用于根据第一神经网络和第二神经网络的输出结果进行最终情感判定与预警的情感判定网络；将所述训练集输入神经网络进行训练，获取安保预警模型的步骤包括：根据预设的第一损失函数和所述第一神经网络输出的第一情感判定结果，对所述第一神经网络进行训练；根据预设的第二损失函数和所述第二神经网络输出的第二情感判定结果，对所述第二神经网络进行训练，获取安保预警模型；

采集模块，用于采集目标场所的语音数据；

安保预警模块，用于将所述语音数据输入所述安保预警模型进行情感判定与预警，完成安保预警；所述训练集获取模块、训练模块、采集模块和安保预警模块连接；

根据所述身份信息，确定目标人物；

本发明的有益效果：本发明中的安保预警方法，通过将训练集输入神经网络进行训练，获取安保预警模型；所述神经网络包括：用于根据语音样本的第一语音特征进行第一情感判定的第一神经网络、用于根据语音样本中的情感语句和情感副词进行第二情感判定的第二神经网络，以及用于根据第一神经网络和第二神经网络的输出结果进行最终情感判定与预警的情感判定网络；并将目标场所的语音数据输入所述安保预警模型进行情感判定与预警，能够通过对语音数据中的目标人物的情感进行分析，针对负面情感或情绪较高，且容易发生争吵或冲突等事故的目标人物进行提前预警，具备一定的提前预知性，有助于相关安保人员提前进行介入与干预，避免发生冲突等事故，精确率较高。

附图说明

图1是本发明实施例中安保预警方法的一流程示意图。

图2是本发明实施例中安保预警方法的另一流程示意图。

图3是本发明实施例中安保预警方法中获取安保预警模型的流程示意图。

图4是本发明实施例中安保预警方法中第一情感判定结果的获取的流程示意图。

图5是本发明实施例中安保预警方法中第二情感判定结果的获取的流程示意图。

图6是本发明实施例中安保预警方法中获取最终情感标签的流程示意图。

图7是本发明实施例中安保预警系统的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

发明人发现，随着时代的发展，公共场所的安全保护受到了越来越高的重视。由于公共场所人流量较大，当出现争吵或情绪过激时，可能会对场所内的其他人造成伤害。例如：在医院或诊疗室等公共场所，经常出现医患情感过激，而产生冲突，存在一定的安全隐患。目前，通常采用电子监控或人为监控的方式，对公共场所的安全进行监测。然而，上述方法不具备一定的提前预知性，相关安保人员需要等到争吵或事故发生之后，才能得到警示并做出反应，不能对即将发生的争吵等进行提前干预，容易导致事故的发生，造成不必要的损失。因此，发明人提出一种安保预警方法及系统，通过将训练集输入神经网络进行训练，获取安保预警模型；所述神经网络包括：用于根据语音样本的第一语音特征进行第一情感判定的第一神经网络、用于根据语音样本中的情感语句和情感副词进行第二情感判定的第二神经网络，以及用于根据第一神经网络和第二神经网络的输出结果进行最终情感判定与预警的情感判定网络；并将目标场所的语音数据输入所述安保预警模型进行情感判定与预警，能够通过对语音数据中的目标人物的情感进行分析，针对负面情感或情绪较高，且容易发生争吵或冲突等事故的目标人物进行提前预警，具备一定的提前预知性，有助于相关安保人员提前进行介入与干预，避免发生冲突等事故，精确率较高，可实施性较强，成本较低。

如图1所示，本实施例中的安保预警方法，包括：

S101：获取训练集，所述训练集包括：多个语音样本，以及与所述语音样本相对应的情感标签；

S102：将所述训练集输入神经网络进行训练，获取安保预警模型；所述神经网络包括：用于根据语音样本的第一语音特征进行第一情感判定的第一神经网络、用于根据语音样本中的情感语句和情感副词进行第二情感判定的第二神经网络，以及用于根据第一神经网络和第二神经网络的输出结果进行最终情感判定与预警的情感判定网络；通过对语音样本进行多次情感判定，提高最终情感判定的准确性，便于进行安保预警。

S103：采集目标场所的语音数据；所述目标场所可以为医院和学校等公共场所。

S104：将所述语音数据输入所述安保预警模型进行情感判定与预警，完成安保预警。通过上述方法，能够对语音数据中的目标人物的情感进行分析，针对负面情感较高，且容易发生争吵或冲突等事故的目标人物进行提前预警，具备一定的提前预知性，有助于相关安保人员提前进行介入与干预，避免发生冲突等事故，精确率较高，可实施性较强，成本较低，实施较方便。

请参考图2，为了便于安保人员迅速确定目标预警人员，即确定安保预警模型输出的安保预警结果中的目标预警人员，目标预警人员为情绪过激，存在一定危险隐患的目标人员。本实施例中的安保预警方法，还包括：

S201：采集目标场所的视频数据；

S202：对所述视频数据进行人物框选，获取人物框；例如：获取所述视频数据中的人脸图像并对人脸图像进行人物或人脸框选，获取对应的人物框；

S203：对所述人物框进行唇形框选，获取所述视频数据中的唇形框；通过获取所述视频数据中目标人物的唇形框，有助于确定与语音对应的说话人。

S204：将所述唇形框输入第三神经网络进行特征提取，获取第一唇形特征；

S205：获取对应时刻的所述语音数据，对所述语音数据进行目标语音特征提取，获取目标语音特征；

S206：将所述目标语音特征输入第四神经网络进行处理，获取对应的第二唇形特征；

S207：将同一时刻的第一唇形特征和第二唇形特征进行对比，获取对比结果；

S208：根据所述对比结果，确定所述语音数据与所述人物框的对应关系；例如：将对比结果中相似度超过预设阈值的第一唇形特征所对应的人物框确定为目标人物框，建立该时刻的语音数据与目标人物框的对应关系。

S209：根据所述对应关系和所述安保预警模型输出的安保预警结果，确定对应的目标预警人物，进而进行安保预警。例如：当安保预警结果中出现目标预警人物时，根据所述对应关系，确定视频数据中对应的人物框，帮助安保人员确定目标预警人物的具体形象或样貌，有助于安保人员提前进行准确干预。

如图3所示，为了提高安保预警模型的预警精确度，本实施例中获取安保预警模型的步骤包括：

S301：根据预设的第一损失函数和所述第一神经网络输出的第一情感判定结果，对所述第一神经网络进行训练；

S302：根据预设的第二损失函数和所述第二神经网络输出的第二情感判定结果，对所述第二神经网络进行训练，获取安保预警模型。

所述第一损失函数的数学表达为：

其中，

为第一损失函数，

为预设的第一权值，

为预设的第二权值，

为样本数，

为真实情感标签，

为第一神经网络输出的第一情感识别结果中的情感标签，T为常见的代价函数，K1为第一神经网络的第一误差值，

为第一控制参数，

为第一惩罚项。可以理解的，常见的代价函数包括：指数函数和对数函数等代价函数，第一控制参数为用于控制第一神经网络迭代学习过程中去相关性的偏好程度的参数。通过采用上述第一损失函数对第一神经网络进行训练，有效提高第一神经网络的情感识别精确度。

所述第二损失函数的数学表达为：

其中，

为第二损失函数，

为预设的第三权值，

为预设的第四权值，

为样本数，

为真实情感标签，

为第二神经网络输出的第二情感识别结果中的情感标签，T为常见的代价函数，K2为第一神经网络的第二误差值，

为第二控制参数，

为第二惩罚项。可以理解的，常见的代价函数包括：指数函数和对数函数等代价函数，第二控制参数为用于控制第二神经网络迭代学习过程中去相关性的偏好程度的参数。通过采用第二损失函数对第二神经网络进行训练，有效提高第二神经网络的情感判定精确度。

请参考图4，为了便于获取第一情感判定结果，提高第一情感判定的准确性，本实施例中第一情感判定结果的获取步骤包括：

S401：将所述训练集输入所述第一神经网络进行人声分离，获取一个或多个人声语音；通过对训练集中的语音样本进行人声分离，能够较好地将不同的人声分离开，并消除噪声。

S402：对所述人声语音进行第一语音特征提取，获取第一语音特征，所述第一语音特征包括：声纹特征、语速特征、语调特征和音量特征；通过获取人声语音中的声纹特征、语速特征、语调特征和音量特征，有助于对人声语音中携带的声音类型的情感或情绪进行精准识别与判定。

S403：将所述声纹特征与预设的声纹特征库中的特征进行匹配，获取与所述声纹特征相对应的身份信息；

S404：根据所述身份信息，确定目标人物；

S405：根据所述语速特征，判断对应语速是否超出预设的语速阈值范围，获取第一判断结果；

S406：将所述语调特征输入预设的语调特征库进行匹配，获取语调匹配结果；所述语调特征框包括：多个语调特征，以及与语调特征相对应的情感标签；通过将语调特征输入语调特征框进行匹配，能够较好地确定与所述语调特征相对应的情感标签。

S407：根据所述音量特征，判断对应音量是否超出预设的音量阈值范围，获取第二判断结果；所述语速阈值范围和音量阈值范围可以根据实际情况进行设置，此处不再赘述。不同语速阈值范围以及不同音量阈值范围对应的情感标签不同。

S408：根据所述第一判断结果、语调匹配结果和第二判断结果，获取与目标人物相对应的情感标签作为第一情感判定结果。所述情感标签包括：平静、高兴、悲伤、愤怒、过激、惊讶和恐惧等。

请参考图5，为了提高第二情感判定结果的准确性，本实施例中的第二情感判定结果的获取步骤包括：

S501：将所述训练集输入第二神经网络进行第二情感判定，获取第二情感判定结果；

S502：所述第二神经网络包括：用于获取情感语句的隐马尔科夫语音识别子网络、用于对所述情感语句进行语义识别的长短期记忆子网络和用于获取情感副词的卷积神经子网络。

进一步地，将所述训练集输入第二神经网络进行第二情感判定，获取第二情感判定结果的步骤包括：

根据所述第二语音特征，获取对应的语音文本；

根据所述语义识别结果，获取对应的情感标签；

根据所述情感标签和情感副词，获取第二情感判定结果。通过对情感语句中的情感副词进行提取，并结合所述语义识别结果对应的情感标签和所述情感副词，进行第二情感判定，能够有效提高第二情感判定的准确性。

在一些实施例中，根据所述情感标签和情感副词，获取第二情感判定结果的步骤包括：

将所述情感副词输出预设的情感副词库进行匹配，获取对应的程度权值；所述程度副词包括：很、非常、及其、相当、一点、明显地和特别等。不同情感副词对应不同的程度权值。

如图6所示，为了提高最终情感判定结果的准确性，将第一情感判定结果和第二情感判定结果结合，得到最终情感判定结果。本实施例中获取最终情感判定结果的步骤包括：

S601：将所述第一情感判定结果和所述第二情感判定结果分别输入情感判定网络进行情感标签匹配，判断所述第一情感判定结果中的情感标签和所述第二情感判定结果中的情感标签的相似度是否超出预设的相似度阈值，获取第三判断结果；

S602：根据所述第三判断结果，确定一个或多个目标情感标签；

S603：获取所述多个目标情感标签的置信度，判断所述置信度是否超出阈值的置信度阈值，获取第四判断结果；

S604：根据所述第四判断结果，获取最终情感标签。通过对第一情感判定结果和第二情感判定结果进行有机结合，能够有效提高情感判定的准确性。

在一些实施例中，对所述最终情感标签进行累计，若预设时间段内，同一目标人物的最终情感标签为负面情感标签的数量超出预设的数量阈值，则将对应的目标人物确定为目标预警人物，进行预警或警示，并将预警信息传输至关联终端。例如：当预设时间段内，同一目标人物的最终情感标签为愤怒，且数量超出预设的数量阈值时，则确定该目标人物为目标预警人物并进行警示，将预警信息传输至安保人员的终端，提示相关安保人员进行提前介入与干预，避免发生不必要的冲突，消除一定的安全隐患。所述负面情感标签包括：悲伤、愤怒、过激和恐惧等。

请参考图7，本实施例还提供一种安保预警系统，包括：

训练模块，用于将所述训练集输入神经网络进行训练，获取安保预警模型；所述神经网络包括：用于根据语音样本的第一语音特征进行第一情感判定的第一神经网络、用于根据语音样本中的情感语句和情感副词进行第二情感判定的第二神经网络，以及用于根据第一神经网络和第二神经网络的输出结果进行最终情感判定与预警的情感判定网络；

采集模块，用于采集目标场所的语音数据；

安保预警模块，用于将所述语音数据输入所述安保预警模型进行情感判定与预警，完成安保预警；所述训练集获取模块、训练模块、采集模块和安保预警模块连接。通过将训练集输入神经网络进行训练，获取安保预警模型；所述神经网络包括：用于根据语音样本的第一语音特征进行第一情感判定的第一神经网络、用于根据语音样本中的情感语句和情感副词进行第二情感判定的第二神经网络，以及用于根据第一神经网络和第二神经网络的输出结果进行最终情感判定与预警的情感判定网络；并将目标场所的语音数据输入所述安保预警模型进行情感判定与预警，能够通过对语音数据中的目标人物的情感进行分析，针对负面情感或情绪较高，且容易发生争吵或冲突等事故的目标人物进行提前预警，具备一定的提前预知性，有助于相关安保人员提前进行介入与干预，避免发生冲突等事故，精确率较高。

在一些实施例中，还包括：辅助模块，用于采集目标场所的视频数据；

对所述视频数据进行人物框选，获取人物框；

所述安保预警模块根据所述对应关系和所述安保预警模型输出的安保预警结果，确定对应的目标预警人物，进而进行安保预警。

在一些实施例中，将所述训练集输入神经网络进行训练，获取安保预警模型的步骤包括：

根据预设的第二损失函数和所述第二神经网络输出的第二情感判定结果，对所述第二神经网络进行训练，获取安保预警模型。

在一些实施例中，第一情感判定结果的获取步骤包括：将所述训练集输入所述第一神经网络进行人声分离，获取一个或多个人声语音；

根据所述身份信息，确定目标人物；

在一些实施例中，所述第二情感判定结果的获取步骤包括：

在一些实施例中，将所述训练集输入第二神经网络进行第二情感判定，获取第二情感判定结果的步骤包括：

根据所述第二语音特征，获取对应的语音文本；

根据所述语义识别结果，获取对应的情感标签；

根据所述情感标签和情感副词，获取第二情感判定结果。

在一些实施例中，将所述第一情感判定结果和所述第二情感判定结果分别输入情感判定网络进行情感标签匹配，判断所述第一情感判定结果中的情感标签和所述第二情感判定结果中的情感标签的相似度是否超出预设的相似度阈值，获取第三判断结果；

根据所述第三判断结果，确定一个或多个目标情感标签；

根据所述第四判断结果，获取最终情感标签。

在一些实施例中，对所述最终情感标签进行累计，若预设时间段内，同一目标人物的最终情感标签为负面情感标签的数量超出预设的数量阈值，则将对应的目标人物确定为目标预警人物，进行预警或警示，并将预警信息传输至关联终端。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本实施例中的任一项方法。

本实施例还提供一种电子终端，包括：处理器及存储器；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行本实施例中任一项方法。

本实施例中的计算机可读存储介质，本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例提供的电子终端，包括处理器、存储器、收发器和通信接口，存储器和通信接口与处理器和收发器连接并完成相互间的通信，存储器用于存储计算机程序，通信接口用于进行通信，处理器和收发器用于运行计算机程序，使电子终端执行如上方法的各个步骤。

在本实施例中，存储器可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。