CN113516997A

CN113516997A - 一种语音事件识别装置和方法

Info

Publication number: CN113516997A
Application number: CN202110451720.XA
Authority: CN
Inventors: 杜文强; 张明; 关磊
Original assignee: Changzhou Fenyinta Technology Co ltd
Current assignee: Changzhou Fenyinta Technology Co ltd
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2021-10-19

Abstract

本发明涉及一种语音事件识别装置和方法，该装置包括：监听单元，用于采集监听到的语音流；敏感词提取单元，用于提取语音流中的敏感词；截取单元，用于当从语音流中提取到敏感词时，截取与敏感词相关的语音段发送至监控人员所持的监控终端。本申请提供的技术方案，不仅可以使监控人员通过听取推送过来的语音段判断事态严重等级，及时做出正确反应，遏制恶劣事件发生，提高了监控人员的工作效率；还提高了事件识别的准确率。

Description

一种语音事件识别装置和方法

技术领域

本发明属于安防和信号处理领域，具体涉及一种语音事件识别装置和方法。

背景技术

现有的安防领域普遍是基于视频监控的方案，该方案具有可控性，精准性，可以实时查看，事后追踪。但视频监控存在一定的缺点。现有的视频监控由于数量比较大，后台人员不可能做到实时监测到每个监控摄像头所监控的内容，都是基于事件发生后，根据监控内容做事件追溯。

现有一种事件检测技术，通过对周边音频的分析，判定音频所发出声音归属什么类型，如枪声、爆炸声、婴儿哭喊声等，根据音频所属类型进行判定。但是此种方法对事件识别的准确率低，例如，可能存在把玻璃杯子掉地碎掉的事件识别为枪声，因此这两种声音都很尖锐。当对事件识别的准确率低时，会导致后台人员不停唤醒来进行查看。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种语音事件识别装置和方法，以解决现有技术中事件识别的准确率低的问题。

根据本申请实施例的第一方面，提供一种语音事件识别装置，所述装置包括：

监听单元，用于采集监听到的语音流；

敏感词提取单元，用于提取所述语音流中的敏感词；

截取单元，用于当从所述语音流中提取到所述敏感词时，截取与所述敏感词相关的语音段发送至监控人员所持的监控终端。

优选的，所述监听单元，包括：多个声音探头；

每个所述声音探头，用于监听其周围环境中的语音流。

优选的，所述敏感词提取单元，包括：

第一提取模块，用于提取所述语音流中的预设维度的Fbank特征；

第二提取模块，用于提取所述预设维度的Fbank特征中的敏感词。

进一步的，所述第二提取模块具体用于：

利用WFST算法识别所述预设维度的Fbank特征中是否只含有预设的敏感词，若所述预设维度的Fbank特征中只含有预设的敏感词，则提取所述预设维度的Fbank特征中包含的敏感词；否则，无输出结果。

优选的，所述截取单元，具体用于：

当从所述语音流中提取到所述敏感词时，截取所述敏感词所在时刻之前和/或之后预设时长内的语音段发送至监控人员所持的监控终端，同时将报警提示发送至监控人员所持的监控终端。

根据本申请实施例的第二方面，提供一种语音事件识别方法，所述方法包括：

采集监听到的语音流；

提取所述语音流中的敏感词；

当从所述语音流中提取到所述敏感词时，截取与所述敏感词相关的语音段发送至监控人员所持的监控终端。

优选的，所述采集监听到的语音流，包括：

利用声音探头监听其周围环境中的语音流。

优选的，所述提取所述语音流中的敏感词，包括：

提取所述语音流中的预设维度的Fbank特征；

提取所述预设维度的Fbank特征中的敏感词。

进一步的，所述提取所述预设维度的Fbank特征中的敏感词，包括：

优选的，所述当从所述语音流中提取到所述敏感词时，截取与所述敏感词相关的语音段发送至监控人员所持的监控终端，包括：

本发明采用以上技术方案，能够达到的有益效果包括：

通过利用监听单元采集监听到的语音流，敏感词提取单元提取语音流中的敏感词，以及当从语音流中提取到敏感词时，利用截取单元截取与敏感词相关的语音段发送至监控人员所持的监控终端，不仅可以使监控人员通过听取推送过来的语音段判断事态严重等级，及时做出正确反应，遏制恶劣事件发生，提高了监控人员的工作效率；还提高了事件识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种语音事件识别装置的结构示意图；

图2是根据一示例性实施例示出的提取语音流中的敏感词的流程图；

图3是根据一示例性实施例示出的截取单元的工作流程图；

图4是根据一示例性实施例示出的一种语音事件识别方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

图1是根据一示例性实施例示出的一种语音事件识别装置的结构示意图，如图1所示，该装置包括：

监听单元，用于采集监听到的语音流；

敏感词提取单元，用于提取语音流中的敏感词；

截取单元，用于当从语音流中提取到敏感词时，截取与敏感词相关的语音段发送至监控人员所持的监控终端。

一些实施例中，监控终端可以但不限于为智能终端(例如，手机或平板等)或基于某一局域网配置的监控终端(例如，基于某学校的校园网配置的监控终端)。

需要说明的是，通过利用监听单元采集监听到的语音流，敏感词提取单元提取语音流中的敏感词，以及当从语音流中提取到敏感词时，利用截取单元截取与敏感词相关的语音段发送至监控人员所持的监控终端，不仅可以使监控人员通过听取推送过来的语音段判断事态严重等级，及时做出正确反应，遏制恶劣事件发生，提高了监控人员的工作效率；还提高了事件识别的准确率。

进一步的，监听单元，包括：多个声音探头；

每个声音探头，用于监听其周围环境中的语音流。

需要说明的是，本发明实施例对声音探头的数量和型号等不做限定，可以由本领域技术人员根据工程需要进行选择。

可以理解的是，采用声音探头的成本要远低于单个视频监控的成本。

进一步的，敏感词提取单元，包括：

第一提取模块，用于提取语音流中的预设维度的Fbank特征；

第二提取模块，用于提取预设维度的Fbank特征中的敏感词。

需要说明的是，本发明实施例中涉及的“提取语音流中的预设维度的Fbank特征”方式，是本领域技术人员所熟知的，因此，其具体实现方式不做过多描述。

还需要说明的是，本发明实施例对预设维度的具体数值不做限定，可以由本领域技术人员根据工程需要进行选择。一些实施例中，预设维度可以但不限于为40维度、41维度或42维度等。

进一步的，第二提取模块具体用于：

利用WFST算法识别预设维度的Fbank特征中是否只含有预设的敏感词，若预设维度的Fbank特征中只含有预设的敏感词，则提取预设维度的Fbank特征中包含的敏感词；否则，无输出结果。

需要说明的是，当预设维度的Fbank特征中只含有预设的敏感词时，只提取该敏感词，这样做可以保护个人隐私，其他与敏感词无关的内容不会被提取到。

例如，如图2所示，一些实施例中，可以但不限于基于WFST算法构建解码网络。该解码网络中，仅有预先设定好的敏感词，其它无关字会自动映射到无效音中。这样当从语音流中提取的预设维度的Fbank特征中仅含有敏感词时，才会有结果输出。当从语音流中提取的预设维度的Fbank特征中不仅含有敏感词，还有其他词时，不会有结果输出；例如说“救命”会有结果输出，“你知道救命怎么写吗”这种语音不会有结果输出。可以理解的是，将无关自自动映射到无效音，不仅可以保护个人隐私，还可以避免误触发。

进一步的，截取单元，具体用于：

当从语音流中提取到敏感词时，截取敏感词所在时刻之前和/或之后预设时长内的语音段发送至监控人员所持的监控终端，同时将报警提示发送至监控人员所持的监控终端。

需要说明的是，本发明实施例对“预设时长”的具体数值不做限定，可以由本领域技术人员根据工程需要进行选择。一些实施例中，预设时长可以但不限于为前几秒或前几分钟等。可以理解的是，只截取一部分的语音段也是出于保护个人隐私的目的，避免因为截取语音段太长，而侵犯到当事人或非当事人的隐私。

可以理解的是，当需要截取敏感词所在时刻之后预设时长内的语音段时，该预设时长需要设置的较短(例如，1秒或2秒)，因为设置的时长较长的话，会存在延迟。所以，在实际应用中，一般只采集敏感词所在时刻之前预设时长内的语音段。当如果真的需要截取敏感词所在时刻之后预设时长内的语音段时，可以先截取敏感词所在时刻之前预设时长内的语音段并将其发送至监控人员所持监控终端，然后再截取敏感词所在时刻之后预设时长内的语音段并将其发送至监控人员所持监控终端。

例如，如图3所示，假设从语音流只提取到敏感词“救命”，且“救命”的所在时间为上午九点，则可以利用截取单元截取上午九点、上午九点前10秒和上午九点后2秒的语音段，并将该语音段和报警提示发送至监控人员所持的监控终端，监控人员在终端收到报警提示后，通过听取发送过来的语音流片段(即语音段)判断事态严重等级，并及时做出正确反应。

进一步可选的，截取敏感词所在时刻之前和/或之后预设时长内的语音段发送至监控人员所持的监控终端，包括：

根据该敏感词的类型和/或范围，将该敏感词所在时刻之前和/或之后预设时长内的语音段发送至与该敏感词的类型和/或范围对应的监控人员。

可以理解的是，按照敏感词类型和/或范围划分监控人员时，可以选择具有相关经验的监控人员，从而得到更快速反应。

例如，可以将敏感词“救命”和“杀人了”等划分为同一类型，当敏感词为“救命”或“杀人了”时，就可以将该敏感词所在时刻之前和/或之后预设时长内的语音段发送到负责该类型敏感词的监控人员。

进一步可选的，声音探头，还用于：当监控人员收到报警提示时，为声音探头所在位置和监控人员之间传递语音信息。

可以理解的是，监控人员通过所持监控终端将其语音信息发送至声音探头，声音探头将该监控人员的语音信息外放，以使声音探头所在位置的当事人接收该监控人员的语音信息。声音探头采集声音探头所在位置的当事人的语音信息，并传送至监控人员所示的监控终端以使该监控人员接收到该当事人的语音信息。从而实现监控人员与声音探头所在位置进行实时对话，有助于监控人员进一步了解声音探头周围发生了什么。

进一步可选的，该装置，还包括：摄像单元，用于采集视频信息；

截取单元，还用于当从语音流中提取到敏感词时，截取敏感词所在时刻之前和/或之后预设时长内的视频信息发送至监控人员所持的监控终端，并提醒监控人员查看。

一些实施例中，截取单元除了主动将敏感词所在时刻之前和/或之后预设时长内的视频信息发送至监控人员所持的监控终端外，还可以先提示监控人员是否查看敏感词所在时刻之前和/或之后预设时长内的视频信息，然后监控人员根据实际需要来判断是否查看该视频信息。

需要说明的是，摄像单元与声音探头的数量和安装位置不需要一致。例如，在厕所安装声音探头，在厕所对应的走廊内安装摄像单元。即从与声音探头所在位置相同或附近的摄像单元获取敏感词所在时刻之前和/或之后预设时长内的视频信息。

一些实施例中，摄像单元可以但不限于通过摄像机实现。

本发明实施例提供的一种语音事件识别装置，通过利用监听单元采集监听到的语音流，敏感词提取单元提取语音流中的敏感词，以及当从语音流中提取到敏感词时，利用截取单元截取与敏感词相关的语音段发送至监控人员所持的监控终端，不仅可以使监控人员通过听取推送过来的语音段判断事态严重等级，及时做出正确反应，遏制恶劣事件发生，提高了监控人员的工作效率，还提高了事件识别的准确率。

本发明实施例提供的一种语音事件识别装置，相对于视频监控大部分只能事后追溯的情况，声音探头可以实时发现问题，避免时态进一步恶化；相对于事件检测，只提供简单的报警信号，本申请能具体到什么人、发生了什么事情，报警信号更加清晰准确；监控人员可以同时监控众多地点，不需要实时查看视频内容，提高工作效率。

本发明实施例还提供一种语音事件识别方法，如图4所示，该方法可以但不限于用于终端，包括：

步骤101：采集监听到的语音流；

步骤102：提取语音流中的敏感词；

步骤103：当从语音流中提取到敏感词时，截取与敏感词相关的语音段发送至监控人员所持的监控终端。

需要说明的是，通过采集监听到的语音流，提取语音流中的敏感词，以及当从语音流中提取到敏感词时，截取与敏感词相关的语音段发送至监控人员所持的监控终端，不仅可以使监控人员通过听取推送过来的语音段判断事态严重等级，及时做出正确反应，遏制恶劣事件发生，提高了监控人员的工作效率；还提高了事件识别的准确率。

进一步的，步骤101，包括：

利用声音探头监听其周围环境中的语音流。

进一步的，步骤102，包括：

步骤1021：提取语音流中的预设维度的Fbank特征；

步骤1022：提取预设维度的Fbank特征中的敏感词。

进一步的，步骤1022，包括：

进一步的，步骤103，包括：

进一步可选的，将报警提示发送至监控人员所持的监控终端之后，还包括：监控人员通过声音探头与声音探头所在位置进行语音信息的传递。

进一步可选的，该方法，还包括：当从语音流中提取到敏感词时，截取敏感词所在时刻之前和/或之后预设时长内的视频信息发送至监控人员所持的监控终端，并提醒监控人员查看。

一些实施例中，摄像单元可以但不限于通过摄像机实现。

一些实施例中，除了主动将敏感词所在时刻之前和/或之后预设时长内的视频信息发送至监控人员所持的监控终端外，还可以先提示监控人员是否查看敏感词所在时刻之前和/或之后预设时长内的视频信息，然后监控人员根据实际需要来判断是否查看该视频信息。

本发明实施例提供的一种语音事件识别方法，通过采集监听到的语音流，提取语音流中的敏感词，以及当从语音流中提取到敏感词时，截取与敏感词相关的语音段发送至监控人员所持的监控终端，不仅可以使监控人员通过听取推送过来的语音段判断事态严重等级，及时做出正确反应，遏制恶劣事件发生，提高了监控人员的工作效率，还提高了事件识别的准确率。

本发明实施例提供的一种语音事件识别方法，相对于视频监控大部分只能事后追溯的情况，声音探头可以实时发现问题，避免时态进一步恶化；相对于事件检测，只提供简单的报警信号，本申请能具体到什么人、发生了什么事情，报警信号更加清晰准确；监控人员可以同时监控众多地点，不需要实时查看视频内容，提高工作效率。

可以理解的是，上述提供的方法实施例与上述的装置实施例对应，相应的具体内容可以相互参考，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品，该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音事件识别装置，其特征在于，所述装置包括：

监听单元，用于采集监听到的语音流；

敏感词提取单元，用于提取所述语音流中的敏感词；

2.根据权利要求1所述的装置，其特征在于，所述监听单元，包括：多个声音探头；

每个所述声音探头，用于监听其周围环境中的语音流。

3.根据权利要求1所述的装置，其特征在于，所述敏感词提取单元，包括：

4.根据权利要求3所述的装置，其特征在于，所述第二提取模块具体用于：

5.根据权利要求1所述的装置，其特征在于，所述截取单元，具体用于：

6.一种语音事件识别方法，其特征在于，所述方法包括：

采集监听到的语音流；

提取所述语音流中的敏感词；

7.根据权利要求6所述的方法，其特征在于，所述采集监听到的语音流，包括：

利用声音探头监听其周围环境中的语音流。

8.根据权利要求6所述的方法，其特征在于，所述提取所述语音流中的敏感词，包括：

提取所述语音流中的预设维度的Fbank特征；

提取所述预设维度的Fbank特征中的敏感词。

9.根据权利要求8所述的方法，其特征在于，所述提取所述预设维度的Fbank特征中的敏感词，包括：

10.根据权利要求6所述的方法，其特征在于，所述当从所述语音流中提取到所述敏感词时，截取与所述敏感词相关的语音段发送至监控人员所持的监控终端，包括：