CN118072376A

CN118072376A - 安全交接文档的生成方法、装置、存储介质及计算机设备

Info

Publication number: CN118072376A
Application number: CN202410464849.8A
Authority: CN
Inventors: 张晨; 陈云鹏; 余雅滢; 张玲玲; 陈昌浩; 王青林; 覃会知; 王建东; 邱生顺
Original assignee: Three Gorges High Technology Information Technology Co ltd
Current assignee: Three Gorges High Technology Information Technology Co ltd
Priority date: 2024-04-18
Filing date: 2024-04-18
Publication date: 2024-05-24
Anticipated expiration: 2044-04-18
Also published as: CN118072376B

Abstract

本发明公开了一种安全交接文档的生成方法、装置、存储介质及计算机设备，涉及音视频处理技术领域。其中方法包括：采集预设区域的图像信息，并判断图像信息中是否出现预先确定的目标人员的人脸图像；若图像信息中出现目标人员的人脸图像，则录制预设区域内的音频信息并识别出音频信息中的对话音频，并将对话音频转化为文本信息；判断文本信息中是否包含预设的交接关键词，若文本信息包含所述交接关键词，则基于文本信息生成安全交接文档。上述方法能够在工作人员的交接过程中，自动化的生成安全交接文档，显著简化了安全交接文档的建立过程，提高了安全交接文档的生成效率。

Description

安全交接文档的生成方法、装置、存储介质及计算机设备

技术领域

本发明涉及音视频处理技术领域，尤其是涉及一种安全交接文档的生成方法、装置、存储介质及计算机设备。

背景技术

安全交接制度是企业或组织在员工交接班时遵循的一套规范和流程。这个制度的目的是保证在不同班次之间的信息传递畅通，确保员工之间的工作高度连贯，并确保安全工作的连续性和高效性。在不同班次的员工进行交接班时，需要将前一班次的工作情况和重要事项告知给下一班次的员工，以便他们能够及时进行工作，并了解前一班次出现的问题和解决方案。安全交接制度可以确保这些信息的准确流通，避免信息的遗漏或错误。

现有的安全交接的过程中，需要人员将工作班次间的应当注意的事项进行说明，并由专人对应当注意的事项进行记录，并将其简化整理为安全交接文档，通过安全交接文档实现对安全交接工作的事项进行记录，并实现工作交接行为可追溯能力。然而，上述建立安全交接文档的方式，需要专人听取不同班次的交接内容，并将交接的内容记录整理为安全交接文档，但安全交接文档的建立过程过于繁琐，严重降低了安全交接文档的生成效率。

发明内容

有鉴于此，本申请提供了一种安全交接文档的生成方法、装置、存储介质及计算机设备，主要目的在于解决安全交接文档的生成效率过低的技术问题。

根据本发明的第一个方面，提供了一种安全交接文档的生成方法，该方法包括：

采集预设区域的图像信息，并判断所述图像信息中是否出现预先确定的目标人员的人脸图像；

若所述图像信息中出现所述目标人员的人脸图像，则录制所述预设区域内的音频信息并识别出所述音频信息中的对话音频，并将所述对话音频转化为文本信息；

判断所述文本信息中是否包含预设的交接关键词，若所述文本信息包含所述交接关键词，则基于所述文本信息生成所述安全交接文档。

可选的，所述判断所述图像信息中是否出现预先确定的目标人员的人脸图像，包括：确定所述图像信息中包含的人脸图像的数量，在所述图像信息中的人脸图像的数量大于或等于两个时，分别将每个所述人脸图像与预先存储的多个对照人脸图像进行对比；判断每个所述人脸图像是否与多个所述对照人脸图像中的一个所述对照人脸图像相匹配；若存在与所述对照人脸图像相匹配的所述人脸图像，且与所述对照人脸图像相匹配的所述人脸图像的数量大于或等于两个，则确定所述图像信息中出现所述目标人员的人脸图像。

可选的，所述确定所述图像信息中包含的人脸图像的数量，包括：确定所述图像信息中的每个人脸图像存在的时间，并判断每个所述人脸图像在所述图像信息中存在的时间是否大于或等于预设时间阈值；若所述人脸图像在所述图像信息中存在的时间大于或等于预设时间阈值，则确定所述人脸图像为目标人脸图像；将所述目标人脸图像的数量确定为所述图像信息中包含的人脸图像的数量。

可选的，所述若所述人脸图像在所述图像信息中存在的时间大于或等于预设时间阈值，则确定所述人脸图像为目标人脸图像之后，还包括：分别识别出每个所述目标人脸图像的人脸面对方向；判断每个所述目标人脸图像的人脸面对方向之间是否存在同一方向交汇点；若每个所述目标人脸图像的人脸面对方向之间存在同一方向交汇点，则执行所述将所述目标人脸图像的数量确定为所述图像信息中包含的人脸图像的数量的步骤。

可选的，所述录制所述预设区域内的音频信息并识别出所述音频信息中的对话音频，并将所述对话音频转化为文本信息之后，还包括：获取每个所述目标人员的人脸图像，识别每个所述人脸图像的嘴型动作，以分别确定出每个所述目标人员的说话行为；确定每个所述目标人员的说话行为的持续时间段，并判断每个所述目标人员对应的持续时间段之间是否存在时间重叠；若存在任意两个所述目标人员对应的持续时间段之间存在时间重叠，则停止录制所述预设区域内的音频信息。

可选的，所述录制所述预设区域内的音频信息并识别出所述音频信息中的对话音频，包括：录制所述预设区域内的音频信息，并对所述音频信息进行语音识别，识别出分别发至不同目标人员的多个对话声音；判断每个所述对话声音之间是否存在声音重叠；若存在任意两个对话声音之间存在声音重叠，则停止对所述音频信息进行录制；若任意两个对话声音之间都不存在声音重叠，则基于每个所述对话声音的时间顺序生成所述对话音频。

可选的，所述判断所述文本信息中是否包含预设的交接关键词，包括：对所述文本信息进行无监督关键词抽取，得到多个抽取关键字；将多个所述交接关键词与所述抽取关键字进行对比，判断多个所述抽取关键字中是否包含全部的所述交接关键词，若多个所述抽取关键字中包含全部的所述交接关键词，则确定所述文本信息包含所述交接关键词。

可选的，所述基于所述文本信息生成所述安全交接文档，包括：获取所述文本信息，并对所述文本信息进行无监督式抽取摘要，生成所述安全交接文档。

根据本发明的第二个方面，提供了一种安全交接文档的生成装置，该装置包括：

图像处理模块，用于采集预设区域的图像信息，并判断所述图像信息中是否出现预先确定的目标人员的人脸图像；

音频处理模块，用于若所述图像信息中出现所述目标人员的人脸图像，则录制所述预设区域内的音频信息并识别出所述音频信息中的对话音频，并将所述对话音频转化为文本信息；

文档生成模块，用于判断所述文本信息中是否包含预设的交接关键词，若所述文本信息包含所述交接关键词，则基于所述文本信息生成所述安全交接文档。

根据本发明的第三个方面，提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述安全交接文档的生成方法。

根据本发明的第四个方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述安全交接文档的生成方法。

本发明提供的一种安全交接文档的生成方法、装置、存储介质及计算机设备，首先，通过采集工作人员进行交接的预设区域的图像信息，并判断图像信息中是否出现需要进行交接班的工作人员的人脸图像；然后，在图像信息中出现工作人员的人脸图像时，录制预设区域内的人员对话的音频信息并识别出音频信息中的对话音频，并将对话音频通过音频转换器等声音处理识别工具转化为文本信息，以记录工作人员交接时口述的交接注意事项等信息；最后，判断文本信息中是否包含预设的交接关键词，其中，交接关键词用于判定当前对话的工作人员正在进行安全交接；进一步的，若文本信息包含交接关键词，则基于文本信息生成安全交接文档。上述方法能够在工作人员的交接过程中，自动化的识别安全交接场景并生成安全交接文档，显著简化了安全交接文档的建立过程，提高了安全交接文档的生成效率。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了本发明实施例提供的一种安全交接文档的生成方法的流程示意图；

图2示出了本发明实施例提供的一种安全交接文档的生成装置的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

针对上述问题，在一个实施例中，如图1所示，提供了一种安全交接文档的生成方法，以该方法应用于计算机设备为例进行说明，包括以下步骤：

101、采集预设区域的图像信息，并判断所述图像信息中是否出现预先确定的目标人员的人脸图像。

其中，预设区域为相关工作人员进行安全交接的地点，可以将摄像装置的拍摄区域对准预设区域，以采集预设区域的图像信息；进一步的，目标人员可以为预先确定的需要进行安全交接的相关工作人员，可以为多个班次的工作人员。

具体的，可以基于摄像装置拍摄预设区域的视频图像以得到图像信息，当需要进行安全交接的工作人员进入到预设区域内开始进行安全交接时，工作人员的人脸图像会出现在图像信息之中；此时，可以基于面部识别技术（Face Recognition），如OpenCV算法识别并采集图像信息中出现的人脸图像，并将人脸图像与预存在本地的需要进行安全交接的目标人员的目标人脸图像进行面部特征相似度对比，以确定出现在图像信息中的工作人员为需要进行安全交接的目标人员；此处，当图像信息中的人脸图像与预存在本地的需要进行安全交接的目标人员的目标人脸图像匹配时，可以确图像信息中出现目标人员的人脸图像。此处，摄像装置可以实时采集预设区域的图像信息，以在工作人员出现在预设区域时，及时的采集到包含工作人员的人脸图像的图像信息。

102、若所述图像信息中出现所述目标人员的人脸图像，则录制所述预设区域内的音频信息并识别出所述音频信息中的对话音频，并将所述对话音频转化为文本信息。

其中，音频信息可以由设置在预设区域内的音频采集装置获取。

具体的，在获得音频信息后，可以基于深度学习方法将人声的对话音频从背景噪声中进行分离，具体可以应用卷积神经网络（CNN）和循环神经网络（RNN），基于深度学习模型，通过大量的训练数据来提取人声和背景噪声的特征，实现使用训练好的深度学习模型将人声的对话音频从包含背景噪声的音频信息中进行分离。进一步的，若图像信息中出现目标人员的人脸图像，则可以即触发实时的音频数据录制与截取，截取的音频的时间窗口可自定义大小，如截取从即刻起10分钟内的音频数据。

进一步的，在获取到对话音频后，可以基于自动语音识别技术（Automatic SpeechRecognition，ASR)等语音识别技术将截取的对话音频转化为文字形式的文本信息；进一步的，也可以将其输入到预先训练的深度神经网络+隐马尔科夫模型＋混合高斯模型的混合Tandem结构的语音识别模型中，以识别出对话音频，进而将其转化为文字形式的文本信息。

103、判断所述文本信息中是否包含预设的交接关键词，若所述文本信息包含所述交接关键词，则基于所述文本信息生成所述安全交接文档。

其中，交接关键词可以为交接过程中常见的词汇，如“交班”、“安全”以及“计划”等词汇，具体的交接关键词可以根据实际情况确定。

具体的，可以将每个交接关键词与文本信息进行对照，判断文本信息中是否包含全部的交接关键词，若文本信息包含全部的交接关键词，则基于文本信息生成安全交接文档。

本实施例提供的安全交接文档的生成方法，首先，通过采集工作人员进行交接的预设区域的图像信息，并判断图像信息中是否出现需要进行交接班的工作人员的人脸图像；然后，在图像信息中出现工作人员的人脸图像时，录制预设区域内的人员对话的音频信息并识别出音频信息中的对话音频，并将对话音频通过音频转换器等声音处理识别工具转化为文本信息，以记录工作人员交接时口述的交接注意事项等信息；最后，判断文本信息中是否包含预设的交接关键词，其中，交接关键词用于判定当前对话的工作人员正在进行安全交接；进一步的，若文本信息包含交接关键词，则基于文本信息生成安全交接文档。上述方法能够在工作人员的交接过程中，自动化的识别安全交接场景并生成安全交接文档，显著简化了安全交接文档的建立过程，提高了安全交接文档的生成效率。

在一个实施例中，步骤101中的所述判断所述图像信息中是否出现预先确定的目标人员的人脸图像，包括：

首先，确定所述图像信息中包含的人脸图像的数量，在所述图像信息中的人脸图像的数量大于或等于两个时，分别将每个所述人脸图像与预先存储的多个对照人脸图像进行对比。具体的，可以识别并采集图像信息中的人脸图像，并记录所采集的人脸图像的数量；随后，将每个采集到的人脸图像与预先存储的多个对照人脸图像进行对比。

然后，判断每个所述人脸图像是否与多个所述对照人脸图像中的一个所述对照人脸图像相匹配；具体的，可以分别将每个采集到的人脸图像与对照人脸图像相进行匹配，确定人脸图像是否与多个对照人脸图像中的一个所匹配。

最后，若存在与所述对照人脸图像相匹配的所述人脸图像，且与所述对照人脸图像相匹配的所述人脸图像的数量大于或等于两个，则确定所述图像信息中出现所述目标人员的人脸图像。具体的，当采集到的与对照人脸图像相匹配的人脸图像的数量大于或等于两个时，可以确定图像信息中出现所述目标人员的人脸图像，并进行后续的步骤。

本申请提供的实施例，能够基于图像信息中需要进行交接的人数判断工人是否正进行交接工作，防止错误的将普通的生产工作确定为安全交接工作，提高了生产安全交接文档的准确率与效率。

在一个实施例中，所述确定所述图像信息中包含的人脸图像的数量的实现方式可以为：首先，确定所述图像信息中的每个人脸图像存在的时间，并判断每个所述人脸图像在所述图像信息中存在的时间是否大于或等于预设时间阈值；其中，预设时间阈值为用于判定该人脸图像对应的人员是否在预设区域进行交接活动的时间阈值，其具体的时间长度可以基于实际情况确定；具体的，当识别到图像信息中出现人脸图像时，开始记录该人脸图像在图像信息中的存续时间，并确定该人脸图像在图像信息中的存续时间是否大于或等于预设时间阈值。进一步的，可以对图像信息中的每个人脸图像进行存续时间计算，确定每个人脸图像在图像信息中存在的时间是否大于或等于预设时间阈值。

然后，若所述人脸图像在所述图像信息中存在的时间大于或等于预设时间阈值，则确定所述人脸图像为目标人脸图像。最后，将所述目标人脸图像的数量确定为所述图像信息中包含的人脸图像的数量。本申请提供的实施例，能够基于每个人员的人脸图像在图像信息中的存续时间，得知需要交接的人员在预设区域内的停留时间，防止因人员路过而导致的错误进行安全交接文档的生成工作，提高了安全交接文档的生成效率。

在一个实施例中，所述若所述人脸图像在所述图像信息中存在的时间大于或等于预设时间阈值，则确定所述人脸图像为目标人脸图像之后，所述方法还包括：首先，分别识别出每个所述目标人脸图像的人脸面对方向；其中，人脸面对方向可以为图像中人员的面孔所面对的方向。具体的，可以基于深度学习的人脸检测技术，如多任务级联卷积神经网络（Multi-task Cascaded Convolutional Networks, MTCNN）算法对人脸图像进行人脸检测，并进行面部特征提取以识别出人脸图像对应的人脸的五官，进而根据五官，如眼睛所指向的角度，确定目标人脸图像的人脸面对方向。

然后，判断每个所述目标人脸图像的人脸面对方向之间是否存在同一方向交汇点。具体的，在确定出每个目标人脸图像的人脸面对方向后，可以以目标人脸图像为原点，向该目标人脸图像的人脸面对方做射线，并判断多个目标人脸图像对应的射线是否有共同的作为同一方向交汇点的交汇点。

最后，若每个所述目标人脸图像的人脸面对方向之间存在同一方向交汇点，则执行所述将所述目标人脸图像的数量确定为所述图像信息中包含的人脸图像的数量的步骤。

本申请提供的实施例，能够基于多个人员的面部朝向，判断上述多人是否在针对同一个安全交接工作进行交流，防止出现将偶然间停留的多个不相关的人的话语处理成安全交接文档的情况发生，提高了安全交接文档生成的准确性。

在一个实施例中，步骤102所述的录制所述预设区域内的音频信息并识别出所述音频信息中的对话音频，并将所述对话音频转化为文本信息的实现方式可以为：首先，获取每个所述目标人员的人脸图像，识别每个所述人脸图像的嘴型动作，以分别确定出每个所述目标人员的说话行为。具体的，可以基于MTCNN算法对人脸图像进行人脸检测以及面部特征提取，以识别出人脸图像对应的人脸的嘴部图像，并捕捉嘴部图像的动态特征，确定嘴部的开合动作，当目标人员的人脸图像的嘴部发生开合动作等说话动作，即可确定出每个目标人员正进行说话行为。

然后，确定每个所述目标人员的说话行为的持续时间段，并判断每个所述目标人员对应的持续时间段之间是否存在时间重叠。具体的，可以对每个目标人员发生说话行为的时间进行记录，确定每个目标人员发生说话行为的持续时间段。进一步的，判断每个目标人员对应的持续时间段是否存在时间重叠，作为示例，若A人员的持续时间段为6:00-6:10，而B人员的持续时间段为6:07-6:09，则A人员与B人员的对应的持续时间段存在时间重叠，若A人员的持续时间段为6:00-6:10，而B人员的持续时间段为6:11-6:12，则A人员与B人员的对应的持续时间段不存在时间重叠。

最后，若存在任意两个所述目标人员对应的持续时间段之间存在时间重叠，则停止录制所述预设区域内的音频信息。此处，若目标人员对应的持续时间段之间存在时间重叠，则可以说明目标人员之间未就相同的安全交接事项进行交流，可能存在正在打电话或其他行为的目标人员出现，各目标人员未进行交接工作，此时，可以停止录制预设区域内的音频信息，并停止进行安全交接文档的生成工作。

本申请提供的实施例，能够基于各相关人员的说话时间是否重叠，判断各人员间是否正进行安全交接工作，并在各人员未进行安全交接工作时停止安全交接文档的生成工作，提高了安全交接文档的生成工作的准确性与效率。

在一个实施例中，步骤102所述的录制所述预设区域内的音频信息并识别出所述音频信息中的对话音频的方式还可以为：首先，录制所述预设区域内的音频信息，并对所述音频信息进行语音识别，识别出分别发至不同目标人员的多个对话声音。具体的，可以基于不同人员主体说话声音频率的不同，区分不同主体对应的说话声音，识别出每个目标人员所发出的对话声音。

然后，判断每个所述对话声音之间是否存在声音重叠；具体的，可以判定在任意的相同时间点上，是否有一个以上的目标人员发出的对话声音，当在任意的相同时间点上存在一个以上的目标人员发出的对话声音，可以判定对话声音之间存在声音重叠。

进一步的，若存在任意两个对话声音之间存在声音重叠，则停止对所述音频信息进行录制。此时，可以判定多个目标人物之间并未就共同的安全交接问题进行交流，可能存在多组对话的情况或进行电话交流的情况，此时，可以停止安全交接文档的生成工作。

相对的，若任意两个对话声音之间都不存在声音重叠，则基于每个所述对话声音的时间顺序生成所述对话音频。本申请提供的实施例，能够基于各相关人员的说话音频是否重叠，判断各人员间是否正进行安全交接工作，并在各人员未进行安全交接工作时停止安全交接文档的生成工作，提高了安全交接文档的生成工作的准确性与效率。

在一个实施例中，步骤103中所述的判断所述文本信息中是否包含预设的交接关键词的实现方式可以为：对所述文本信息进行无监督关键词抽取，得到多个抽取关键词。此处，现有的无监督关键词抽取为对文本信息中的词语的权重进行特征化、将词的文本位置进行特征化以及将词语的关联信息进行特征化，以提取出文本信息中的关键词。

进一步的，将多个所述交接关键词与所述抽取关键字进行对比，判断多个所述抽取关键词中是否包含全部的所述交接关键词。具体的，可以将全部的抽取关键词与全部的交接关键词进行对比，确定每个交接关键词是否都与一个抽取关键词相同。

进一步的，若多个所述抽取关键词中包含全部的所述交接关键词，则确定所述文本信息包含所述交接关键词。

进一步的，步骤103所述的基于所述文本信息生成所述安全交接文档，包括：获取所述文本信息，并对所述文本信息进行无监督式抽取摘要，生成所述安全交接文档。此处，可以基于无监督式抽取摘要算法，将长文本进行压缩、归纳与总结，其主要通过从原文中选择若干条重要的句子，并对他们进行排序和重组而形成摘要的方法，以将文本信息进行简化得到简化的安全交接文档并进行存储。

本申请提供的实施例，能够采用无监督关键词提取算法，提取工作人员间对话内容的抽取关键词，若预设的安全交接内容关键词库中的交接关键词均在抽取关键词中出现，即确认工作人员进行了安全交底、开展了安全告知及危险点分析，提高了生成安全交接文档的准确性与效率。

本实施例提供的安全交接文档的生成方法，能够在工作人员的交接过程中，根据人员的人数、面部朝向、说话动作以及说话时间，排除非进行安全交接的情景，实现自动化的识别安全交接场景并生成安全交接文档，显著简化了安全交接文档的建立过程，并对安全交接文档进行精简与存储，提高了安全交接文档的生成效率。

进一步的，作为图1所示方法的具体实现，本实施例提供了一种安全交接文档的生成装置，如图2所示，该装置包括：图像处理模块21、音频处理模块22和文档生成模块23。

图像处理模块21，可用于采集预设区域的图像信息，并判断所述图像信息中是否出现预先确定的目标人员的人脸图像。

音频处理模块22，可用于若所述图像信息中出现所述目标人员的人脸图像，则录制所述预设区域内的音频信息并识别出所述音频信息中的对话音频，并将所述对话音频转化为文本信息。

文档生成模块23，可用于判断所述文本信息中是否包含预设的交接关键词，若所述文本信息包含所述交接关键词，则基于所述文本信息生成所述安全交接文档。

在具体的应用场景中，所述图像处理模块21，具体可用于：确定所述图像信息中包含的人脸图像的数量，在所述图像信息中的人脸图像的数量大于或等于两个时，分别将每个所述人脸图像与预先存储的多个对照人脸图像进行对比；判断每个所述人脸图像是否与多个所述对照人脸图像中的一个所述对照人脸图像相匹配；若存在与所述对照人脸图像相匹配的所述人脸图像，且与所述对照人脸图像相匹配的所述人脸图像的数量大于或等于两个，则确定所述图像信息中出现所述目标人员的人脸图像。

在具体的应用场景中，所述图像处理模块21，具体可用于确定所述图像信息中的每个人脸图像存在的时间，并判断每个所述人脸图像在所述图像信息中存在的时间是否大于或等于预设时间阈值；若所述人脸图像在所述图像信息中存在的时间大于或等于预设时间阈值，则确定所述人脸图像为目标人脸图像；将所述目标人脸图像的数量确定为所述图像信息中包含的人脸图像的数量。

在具体的应用场景中，所述图像处理模块21，具体可用于分别识别出每个所述目标人脸图像的人脸面对方向；判断每个所述目标人脸图像的人脸面对方向之间是否存在同一方向交汇点；若每个所述目标人脸图像的人脸面对方向之间存在同一方向交汇点，则执行所述将所述目标人脸图像的数量确定为所述图像信息中包含的人脸图像的数量的步骤。

在具体的应用场景中，所述音频处理模块22，具体可用于获取每个所述目标人员的人脸图像，识别每个所述人脸图像的嘴型动作，以分别确定出每个所述目标人员的说话行为；确定每个所述目标人员的说话行为的持续时间段，并判断每个所述目标人员对应的持续时间段之间是否存在时间重叠；若存在任意两个所述目标人员对应的持续时间段之间存在时间重叠，则停止录制所述预设区域内的音频信息。

在具体的应用场景中，所述音频处理模块22，具体可用于录制所述预设区域内的音频信息，并对所述音频信息进行语音识别，识别出分别发至不同目标人员的多个对话声音；判断每个所述对话声音之间是否存在声音重叠；若存在任意两个对话声音之间存在声音重叠，则停止对所述音频信息进行录制；若任意两个对话声音之间都不存在声音重叠，则基于每个所述对话声音的时间顺序生成所述对话音频。

在具体的应用场景中，所述文档生成模块23，具体可用于对所述文本信息进行无监督关键词抽取，得到多个抽取关键词；将多个所述交接关键词与所述抽取关键词进行对比，判断多个所述抽取关键词中是否包含全部的所述交接关键词；若多个所述抽取关键词中包含全部的所述交接关键词，则确定所述文本信息包含所述交接关键词。

需要说明的是，本实施例提供的一种安全交接文档的生成装置所涉及各功能单元的其它相应描述，可以参考图1中的对应描述，在此不再赘述。

基于上述如图1所示方法，相应的，本实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1示的安全交接文档的生成方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该待识别软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施场景所述的方法。

基于上述如图1所示的方法，以及图2所示的安全交接文档的生成装置实施例，为了实现上述目的，本实施例还提供了一种安全交接文档的生成的实体设备，具体可以为个人计算机、服务器、智能手机、平板电脑、智能手表、或者其它网络设备等，该实体设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1所示的方法。

可选的，该实体设备还可以包括用户接口、网络接口、摄像头、射频（RadioFrequency，RF）电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏（Display）、输入单元比如键盘（Keyboard）等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口（如WI-FI接口）等。

本领域技术人员可以理解，本实施例提供的一种安全交接文档的生成的实体设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述实体设备硬件和待识别软件资源的程序，支持信息处理程序以及其它待识别软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与信息处理实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，首先，采集预设区域的图像信息，并判断所述图像信息中是否出现预先确定的目标人员的人脸图像；然后，若所述图像信息中出现所述目标人员的人脸图像，则录制所述预设区域内的音频信息并识别出所述音频信息中的对话音频，并将所述对话音频转化为文本信息；最后，判断所述文本信息中是否包含预设的交接关键词，若所述文本信息包含所述交接关键词，则基于所述文本信息生成所述安全交接文档。与现有技术相比，能够在工作人员的交接过程中，自动化的生成安全交接文档，显著简化了安全交接文档的建立过程，提高了安全交接文档的生成效率。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种安全交接文档的生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述判断所述图像信息中是否出现预先确定的目标人员的人脸图像，包括：

确定所述图像信息中包含的人脸图像的数量，在所述图像信息中的人脸图像的数量大于或等于两个时，分别将每个所述人脸图像与预先存储的多个对照人脸图像进行对比；

判断每个所述人脸图像是否与多个所述对照人脸图像中的一个所述对照人脸图像相匹配；

若存在与所述对照人脸图像相匹配的所述人脸图像，且与所述对照人脸图像相匹配的所述人脸图像的数量大于或等于两个，则确定所述图像信息中出现所述目标人员的人脸图像。

3.根据权利要求2所述的方法，其特征在于，所述确定所述图像信息中包含的人脸图像的数量，包括：

确定所述图像信息中的每个人脸图像存在的时间，并判断每个所述人脸图像在所述图像信息中存在的时间是否大于或等于预设时间阈值；

若所述人脸图像在所述图像信息中存在的时间大于或等于预设时间阈值，则确定所述人脸图像为目标人脸图像；

将所述目标人脸图像的数量确定为所述图像信息中包含的人脸图像的数量。

4.根据权利要求3所述的方法，其特征在于，所述若所述人脸图像在所述图像信息中存在的时间大于或等于预设时间阈值，则确定所述人脸图像为目标人脸图像之后，还包括：

分别识别出每个所述目标人脸图像的人脸面对方向；

判断每个所述目标人脸图像的人脸面对方向之间是否存在同一方向交汇点；

若每个所述目标人脸图像的人脸面对方向之间存在同一方向交汇点，则执行所述将所述目标人脸图像的数量确定为所述图像信息中包含的人脸图像的数量的步骤。

5.根据权利要求1所述的方法，其特征在于，所述录制所述预设区域内的音频信息并识别出所述音频信息中的对话音频，并将所述对话音频转化为文本信息之后，还包括：

获取每个所述目标人员的人脸图像，识别每个所述人脸图像的嘴型动作，以分别确定出每个所述目标人员的说话行为；

确定每个所述目标人员的说话行为的持续时间段，并判断每个所述目标人员对应的持续时间段之间是否存在时间重叠；

若存在任意两个所述目标人员对应的持续时间段之间存在时间重叠，则停止录制所述预设区域内的音频信息。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述录制所述预设区域内的音频信息并识别出所述音频信息中的对话音频，包括：

录制所述预设区域内的音频信息，并对所述音频信息进行语音识别，识别出分别发至不同目标人员的多个对话声音；

判断每个所述对话声音之间是否存在声音重叠；

若存在任意两个对话声音之间存在声音重叠，则停止对所述音频信息进行录制；

若任意两个对话声音之间都不存在声音重叠，则基于每个所述对话声音的时间顺序生成所述对话音频。

7.根据权利要求1-5任一项所述的方法，其特征在于，所述判断所述文本信息中是否包含预设的交接关键词，包括：

对所述文本信息进行无监督关键词抽取，得到多个抽取关键词；

将多个所述交接关键词与所述抽取关键词进行对比，判断多个所述抽取关键词中是否包含全部的所述交接关键词；

若多个所述抽取关键词中包含全部的所述交接关键词，则确定所述文本信息包含所述交接关键词。

8.一种安全交接文档的生成装置，其特征在于，所述装置包括：

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。