CN112887659B

CN112887659B - 会议记录方法、装置、设备及存储介质

Info

Publication number: CN112887659B
Application number: CN202110130628.3A
Authority: CN
Inventors: 杨海军; 徐倩; 杨强
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2023-06-23
Anticipated expiration: 2041-01-29
Also published as: CN112887659A

Abstract

本发明实施例提供一种会议记录方法、装置、设备及存储介质，该方法包括：获取全景摄像设备采集的会议视频和红外线摄像设备采集的红外视频，所述会议视频中包括音频信息；根据所述音频信息确定多个文本段和每个文本段的第一时间信息；根据所述会议视频中的第一图像集合和所述红外视频中的第二图像集合，确定多个第一讲话时段、和每个第一讲话时段对应的对象信息，所述多个第一讲话时段按照时间顺序排列；根据所述多个文本段、每个文本段的第一时间信息、所述多个第一讲话时段、和每个第一讲话时段对应的对象信息，生成会议记录。提高了讲话对象分离的准确率，进而使得生成的会议记录的准确率更高。

Description

会议记录方法、装置、设备及存储介质

技术领域

本发明涉及信息处理技术领域，尤其涉及一种会议记录方法、装置、设备及存储介质。

背景技术

会议助手主要是用于在进行会议时帮助记录会议的具体内容，形成会议记录，并根据会议记录生成会议纪要。

目前会议助手的实现方案多是基于音频录音进行，即在会议进行时通过录音笔设备完成录音后，通过语音识别对录音进行语音识别和角色分离，然后生成会议记录和会议纪要，其中，会议记录和会议纪要中包括每个参会人员说话的文本，以及每个参会人员的身份。

由于一个录音文件中包含了参会的多个人的语音，参会人语音的时长各有不同，说话的间隔较短等因素，使得参会人的语音难以从录音中单独区分处理，即录音说话人分离的准确率较低，影响会议记录的生成。

发明内容

本发明的主要目的在于提供一种会议记录方法、装置、设备及存储介质，旨在解决由于会议中讲话对象分离的准确率低导致的会议记录生成不准确的技术问题。

为实现上述目的，本发明提供一种会议记录方法，所述方法包括：

获取全景摄像设备采集的会议视频和红外线摄像设备采集的红外视频，所述会议视频中包括音频信息；

根据所述音频信息确定多个文本段和每个文本段的第一时间信息；

根据所述会议视频中的第一图像集合和所述红外视频中的第二图像集合，确定多个第一讲话时段、和每个第一讲话时段对应的对象信息，所述多个第一讲话时段按照时间顺序排列；

根据所述多个文本段、每个文本段的第一时间信息、所述多个第一讲话时段、和每个第一讲话时段对应的对象信息，生成会议记录。

在一种可能的实施方式中，所述根据所述会议视频中的第一图像集合和所述红外视频中的第二图像集合，确定多个第一讲话时段、和每个第一讲话时段对应的对象信息，包括：

根据所述第二图像集合，确定各时刻的讲话对象；

根据各时刻的讲话对象，确定所述多个第一讲话时段，一个所述第一讲话时段中的讲话对象相同；

根据所述第一图像集合，确定每个第一讲话时段对应的对象信息。

在一种可能的实施方式中，所述根据所述第二图像集合，确定各时刻的讲话对象，包括：

在所述第二图像集合的每张第二图像中，确定多个参会对象的口腔红外特征；

根据每张第二图像中所述多个参会对象的口腔红外特征，确定所述各时刻的讲话对象。

在一种可能的实施方式中，所述根据所述第一图像集合，确定每个第一讲话时段对应的对象信息，包括：

针对任意一个第一讲话时段，确定所述第一讲话时段中的讲话对象在第二图像中的对象位置，所述第二图像为所述第二图像集合中的图像；

根据所述讲话对象在所述第二图像中的对象位置，确定所述讲话对象在第一图像中的对象位置，所述第一图像为所述第一图像集合中的图像，所述讲话对象在所述第二图像中的对象位置与所述讲话对象在所述第一图像中的对象位置相同；

根据所述讲话对象在第一图像中的对象位置，确定所述第一讲话时段对应的对象信息。

在一种可能的实施方式中，所述根据所述讲话对象在第一图像中的对象位置，确定所述第一讲话时段对应的对象信息，包括：

根据所述讲话对象在第一图像中的对象位置，确定所述讲话对象；

对所述讲话对象进行人脸识别和/或人体特征识别，得到第一特征信息；

根据所述第一特征信息、以及特征信息与对象信息之间的预设对应关系，确定所述第一讲话时段对应的对象信息。

在一种可能的实施方式中，所述方法还包括：

若所述预设对应关系中不存在所述第一特征信息对应的对象信息，确定所述讲话对象的临时身份标识；

将所述临时身份标识确定为所述讲话对象的对象信息。

在一种可能的实施方式中，所述根据所述多个文本段、每个文本段的第一时间信息、所述多个第一讲话时段、和每个第一讲话时段对应的对象信息，生成会议记录，包括：

根据每个文本段的第一时间信息，确定每个第一讲话时段对应的至少一个文本段；

根据每个第一讲话时段对应的对象信息和每个第一讲话时段对应的至少一个文本段，生成所述会议记录。

在一种可能的实施方式中，所述根据每个第一讲话时段对应的对象信息和每个第一讲话时段对应的至少一个文本段，生成所述会议记录，包括：

判断所述多个文本段中是否存在第一文本段，所述多个第一讲话时段对应的至少一个文本段中均不包括所述第一文本段；

若是，对所述第一文本段对应的第一音频段进行声纹识别，得到所述第一文本段对应的对象信息；根据所述第一文本段对应的对象信息、所述第一文本段的第一时间信息、每个第一讲话时段对应的对象信息和每个第一讲话时段对应的至少一个文本段，生成所述会议记录；

若否，根据每个第一讲话时段对应的对象信息和每个第一讲话时段对应的至少一个文本段，生成所述会议记录。

根据每个第一讲话时段对应的对象信息和每个第一讲话时段对应的至少一个文本段，生成每个第一讲话时段对应的子会议记录，所述子会议记录中包括所述第一讲话时段对应的对象信息和至少一个文本段；

按照时间顺序，对所述多个第一讲话时段对应的子会议记录进行排序，得到所述会议记录。

在一种可能的实施方式中，所述根据所述第一文本段对应的对象信息、所述第一文本段的第一时间信息、每个第一讲话时段对应的对象信息和每个第一讲话时段对应的至少一个文本段，生成所述会议记录，包括：

根据所述第一文本段的第一时间信息，确定第二讲话时段；

根据所述第一文本段对应的对象信息，确定所述第二讲话时段对应的对象信息；

根据第二讲话时段对应的对象信息、所述第一文本段、每个第一讲话时段对应的对象信息和每个第一讲话时段对应的至少一个文本段，生成所述会议记录。

在一种可能的实施方式中，所述根据第二讲话时段对应的对象信息、所述第一文本段、每个第一讲话时段对应的对象信息和每个第一讲话时段对应的至少一个文本段，生成所述会议记录，包括：

根据第二讲话时段对应的对象信息和所述第一文本段，生成所述第二讲话时段对应的子会议记录；

根据每个第一讲话时段对应的对象信息和每个第一讲话时段对应的至少一个文本段，生成每个第一讲话时段对应的子会议记录；

按照时间顺序，将所述多个第一讲话时段对应的子会议记录和所述第二讲话时段对应的子会议记录进行排序，得到所述会议记录。

本发明还提供一种会议记录装置，所述装置包括：

获取模块，用于获取全景摄像设备采集的会议视频和红外线摄像设备采集的红外视频，所述会议视频中包括音频信息；

确定模块，用于根据所述音频信息确定多个文本段和每个文本段的第一时间信息；

处理模块，用于根据所述会议视频中的第一图像集合和所述红外视频中的第二图像集合，确定多个第一讲话时段、和每个第一讲话时段对应的对象信息，所述多个第一讲话时段按照时间顺序排列；

生成模块，用于根据所述多个文本段、每个文本段的第一时间信息、所述多个第一讲话时段、和每个第一讲话时段对应的对象信息，生成会议记录。

在一种可能的实施方式中，所述处理模块具体用于：

根据所述第二图像集合，确定各时刻的讲话对象；

在一种可能的实施方式中，所述处理模块具体用于：

在一种可能的实施方式中，所述处理模块还用于：

将所述临时身份标识确定为所述讲话对象的对象信息。

在一种可能的实施方式中，所述生成模块具体用于：

根据所述第一文本段的第一时间信息，确定第二讲话时段；

在一种可能的实施方式中，所述生成模块具体用于：

本发明还提供一种会议记录设备，所述会议记录设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的会议记录程序，所述会议记录程序被所述处理器执行时实现如前述任一项所述的会议记录方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有会议记录程序，所述会议记录程序被处理器执行时实现如前述任一项所述的会议记录方法的步骤。

本发明还提供一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序在被处理器执行时实现如前述任一项所述的会议记录方法的步骤。

本发明中，首先获取全景摄像设备采集的会议视频和红外线摄像设备采集的红外视频，然后根据会议视频中包括的音频信息确定多个文本段和每个文本段的第一时间信息，从而将会议视频中讲话对象的发言转换为文字内容，并对文字内容进行了时间标记；然后，可以根据会议视频中的第一图像集合和红外视频中的第二图像集合，确定多个第一讲话时段和每个第一讲话时段对应的对象信息，从而确定了参会对象中的每个讲话对象讲话的时间段以及每个讲话对象的身份；最后根据多个文本段、每个文本段的第一时间信息、多个第一讲话时段和每个第一讲话时段对应的对象信息，生成会议记录。本发明实施例的方案，通过会议视频和红外视频，共同确定会议中的讲话对象讲话的第一讲话时段以及每个第一讲话时段对应的对象信息，然后，以时间对齐的方式，通过每个第一讲话时段在多个文本段中确定第一讲话时段讲话对象讲话的文本段，不受讲话对象讲话的时长和讲话间隔等因素的影响，能够更准确的将各个讲话对象的讲话内容区分开来，讲话对象分离的准确率较高，生成的会议记录的准确率更高。

附图说明

图1为本发明实施例提供的一种应用场景示意图；

图2为一种基于音频的会议记录生成框架示意图；

图3为本发明实施例提供的会议记录方法的流程示意图；

图4为本发明实施例提供的基于音视频的会议助手架构示意图；

图5为本发明实施例提供的确定讲话对象和对象信息的流程示意图；

图6为本发明实施例提供的确定对象信息的示意图；

图7为本发明实施例提供的会议记录生成的流程示意图；

图8为本发明实施例提供的确定第一讲话时段对应的文本段的示意图；

图9为本发明实施例提供的会议记录装置的结构示意图；

图10为本发明实施例提供的一种会议记录设备的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

会议助手是一种能够自动生成会议记录和会议纪要的智能工具，根据会议助手生成的会议记录和会议纪要，能够迅速获知会议的相关内容，为用户提供极大的便利。

图1为本发明实施例提供的一种应用场景示意图，如图1所示，为一个会议现场，会议现场包括多个参会人员，还包括一张会议桌。在会议桌上，放置了一个设备10。

在会议进行过程中，设备10会记录参会人员中每个人的发言，如图1中示意，正在发言的参会人员为人员11。然后，设备10可以将记录的文件发给会议助手，会议助手根据设备10记录的文件，对不同的参会人员的身份进行区分，并记录下每段发言以及每段发言对应的发言人的身份，从而得到会议记录。

在得到会议记录之后，还可以对会议记录进行分析处理，生成更为简要的会议纪要，供用户查阅。

在目前的会议助手生成会议记录以及会议纪要的实现方案中，通常是基于音频录音进行的，即在会议过程中，在会议桌上放置录音笔或类似的设备，对会议中的发言进行录音。

图2为一种基于音频的会议记录生成框架示意图，如图2所示，在会议进行中，会放置一个录音设备21，录音设备21可以为手机、录音笔、麦克风阵列等录音设备。通过录音设备21对会议进行录音之后，得到录音文件22。然后通过语音识别引擎对该录音文件进行语音识别处理，包括对会议中的讲话对象的分离，以及语音转文字之后，生成会议记录23。在生成的会议记录23中，每一行分别记录讲话对象的身份以及讲话对象讲话的内容。

然后，可以使用语义分析引擎对会议记录23进行分析，产生会议纪要24，其中，会议纪要24主要是对会议内容的浓缩和总结，会议记录23的准确性将会直接影响会议纪要24的生成。

图2示例的方案的主要缺点是：首先，讲话人的分离的准确率低。由于录音设备在一个相对封闭的空间中进行录音，一个录音文件中包括参会的多个人的语音。有的人语音时间较长，有的人语音时间较短，且各个人之间说话间隔长短不一，从而导致语音识别引擎很难将说话人的语音从录音文件中单独区分出来。即使进行了区分，区分后录音的交叉错误也较多，导致录音文件的讲话人的分离准确率较低，影响会议记录和会议纪要的生成。

其次，讲话人身份确认的准确率低。由于一个录音文件中包括参会的多个人的语音，即使对不同讲话人的语音进行了区分，得到多段录音，但是很难确定每段录音的说话人的身份。当讲话人的数量越多时，确定每段录音的说话人的身份就越困难，也会极大的影响会议记录和会议纪要的生成。

基于上述问题，本发明实施例提供一种会议记录生成的方案，提高会议记录生成的准确率，进而也提高会议纪要的准确率。

图3为本发明实施例提供的会议记录方法的流程示意图，如图3所示，该方法可以包括：

S31，获取全景摄像设备采集的会议视频和红外线摄像设备采集的红外视频，所述会议视频中包括音频信息。

本发明实施例中的执行主体可以为服务器，服务器首先获取全景摄像设备采集的会议视频和红外线摄像设备采集的红外视频。其中，会议视频和红外视频均是在会议进行过程中拍摄的。在会议开始之前，可以将全景设备设备和红外线摄像设备安装在固定的位置，例如安装在会议桌上。

其中，全景摄像设备和红外线摄像设备安装于同一位置，均为360度的全景拍摄，且全景摄像设备和红外线摄像设备是同步开启拍摄的，全景摄像设备和红外线摄像设备对应于相同的拍摄区域。因此，全景摄像设备采集的会议视频中的人物在对应的红外视频中也会出现，且同一人物在同一时间，在会议视频的画面中的位置，与在红外视频的画面中的位置几乎相同。

会议视频中除了包括拍摄的画面外，还包括音频信息，即各个参会人员讲话时的音频。该音频信息可以通过对会议视频提取语音得到。

S32，根据所述音频信息确定多个文本段和每个文本段的第一时间信息。

在通过会议视频提取语音得到音频信息之后，可以通过语音识别，将音频信息转换为多个文本段和每个文本段的第一时间信息。文本段为会议视频中的讲话对象讲话时的内容转换成的文字内容，文本段的第一时间信息为相应的会议视频中的讲话对象讲话时的时间信息。

S33，根据所述会议视频中的第一图像集合和所述红外视频中的第二图像集合，确定多个第一讲话时段、和每个第一讲话时段对应的对象信息，所述多个第一讲话时段按照时间顺序排列。

在获取会议视频和红外视频后，根据该会议视频得到第一图像集合，第一图像集合中的每个图像包括相应的时间信息，根据该红外视频得到第二图像集合，第二图像集合中的每个图像也包括相应的时间信息。

由于会议视频和红外视频是同步拍摄的，因此在第一图像集合中的任意一张图像，均可以在红外视频中找到相应的一张图像，这两张图像的时间信息相同。然后，可以根据这两张图像，判断图像中的哪些参会对象在讲话，将讲话的参会对象确定为讲话对象，并确定讲话对象的对象信息，图像的时间信息为对应的讲话对象讲话的时间信息。

对于多张图像均进行上述处理，就可以确定多个讲话对象的对象信息，以及每个讲话对象讲话的时间信息。然后，就可以根据每个讲话对象的对象信息，以及每个讲话对象讲话的时间信息，确定多个第一讲话时段和每个第一讲话时段对应的对象信息，其中，每个第一讲话时段对应的对象信息只有一个。

例如，根据第一图像集合和第二图像集合，确定在t1-t2这一时间段内有讲话对象A在讲话，t2-t3这一时间段内有讲话对象B在讲话，t4-t5这一时间段内有讲话对象A在讲话，则t1-t2、t2-t3、t4-t5这三个时间段均为一个第一讲话时段，讲话对象A为t1-t2、t4-t5这两个第一讲话时段对应的对象信息，讲话对象B为t2-t3这个第一讲话时段对应的对象信息，然后对这三个第一讲话时段按照时间顺序排列即可。

S34，根据所述多个文本段、每个文本段的第一时间信息、所述多个第一讲话时段、和每个第一讲话时段对应的对象信息，生成会议记录。

在S33中，确定了多个第一讲话时段和每个第一讲话时段对应的对象信息，每个第一讲话时段对应的对象信息只有一个，因此在一个第一讲话时段内，只有对应的对象信息指示的讲话对象在讲话。

由于根据音频信息确定了多个文本段和每个文本段的第一时间信息，因此，可以根据第一时间信息和第一讲话时段，来确定每个对象信息指示的讲话对象讲话的文本段。

针对任意一个第一讲话时段，可以根据每个文本段的第一时间信息，确定第一时间信息位于第一讲话时段内的文本段，则可以确定第一时间信息位于第一讲话时段内的文本段为第一讲话时段对应的对象信息指示的讲话对象所讲的话。

例如，现有一个第一讲话时段，为t2-t3，该第一讲话时段对应的对象信息为讲话对象B。则可以根据时间段t2-t3，在多个文本段中确定第一时间信息位于t2-t3内的文本段，此时第一时间信息位于t2-t3内的文本段即为讲话对象B在t2-t3内讲话的文本。

通过上述方法，可以确定出每个第一讲话时段的对象信息和对应的文本段，然后根据时间顺序排列，生成会议记录。在会议记录中，包括了每个讲话对象的对象信息、讲话的文本以及讲话的时间段。

本发明实施例提供的会议记录方法，首先获取全景摄像设备采集的会议视频和红外线摄像设备采集的红外视频，然后根据会议视频中包括的音频信息确定多个文本段和每个文本段的第一时间信息，从而将会议视频中讲话对象的发言转换为文字内容，并对文字内容进行了时间标记；然后，可以根据会议视频中的第一图像集合和红外视频中的第二图像集合，确定多个第一讲话时段和每个第一讲话时段对应的对象信息，从而确定了参会对象中的每个讲话对象讲话的时间段以及每个讲话对象的身份；最后根据多个文本段、每个文本段的第一时间信息、多个第一讲话时段和每个第一讲话时段对应的对象信息，生成会议记录。本发明实施例的方案，通过会议视频和红外视频，共同确定会议中的讲话对象讲话的第一讲话时段以及每个第一讲话时段对应的对象信息，然后，以时间对齐的方式，通过每个第一讲话时段在多个文本段中确定第一讲话时段讲话对象讲话的文本段，不受讲话对象讲话的时长和讲话间隔等因素的影响，能够更准确的将各个讲话对象的讲话内容区分开来，讲话对象分离的准确率较高，生成的会议记录的准确率更高。

下面结合附图对本发明实施例的方案进行详细介绍。

图4为本发明实施例提供的基于音视频的会议助手架构示意图，如4所示，在会议进行中，会放置摄像设备41，摄像设备41包括全景摄像设备和红外线摄像设备。首先通过全景摄像设备和红外线摄像设备对会议现场进行拍摄，生成音视频文件42，然后对音视频文件42进行多项处理。这多项处理中，包括人脸识别处理、人体识别处理、红外成像动作识别处理、声纹识别处理和语音识别处理等等。上述每项处理可以得到相应的处理结果，然后根据时间点对上述各项处理结果进行对齐，生成会议记录43。

在生成会议记录43之后，可以对生成的会议记录43进行语义分析，生成对应的会议纪要44，等等。

下面将基于图4示例的架构分别进行介绍。

图5为本发明实施例提供的确定讲话对象和对象信息的流程示意图，如图5所示，包括：

S51，根据所述第二图像集合，确定各时刻的讲话对象。

第二图像集合是根据红外视频得到的图像集合，第二图像集合中包括多张第二图像，以及每张第二图像的时间信息。根据第二图像集合，能够确定各时刻的讲话对象。

具体的，可以在第二图像集合的每张第二图像中，确定多个参会对象的口腔红外特征，然后，根据每张第二图像中多个参会对象的口腔红外特征，确定各时刻的讲话对象。

在确定各时刻的讲话对象时，需要判断哪些时候哪些参会对象在讲话。通常，可以通过训练样本中的人的嘴唇动作预先训练人脸动作识别模型，并通过人脸动作识别模型对第一图像集合处理，来判断会议视频中的哪些参会对象在讲话。其中，针对第一图像集合中的任意一张第一图像，通过人脸动作识别模型处理后可以得到每个参会对象是否在讲话。结合多张第一图像集合处理后的结果，以及第一图像集合中每张第一图像的时间信息，就可以确定每个讲话对象，以及每个讲话对象讲话的时间段。

但是上述方法存在一定的误差，例如会议视频中可能存在部分参会对象自言自语、打哈欠等行为，容易被误识别为参会对象在讲话，其识别的准确率不够高。

本发明实施例中，可以通过红外录像中人嘴唇附近热气流的变化预先训练红外热成像的动作识别模型，然后通过红外热成像的动作识别模型对第二图像集合中的每张第二图像进行处理。具体的，针对任意一张第二图像，可以将第二图像输入至红外热成像的动作识别模型中，提取多个参会对象的口腔红外特征，得到第二图像中标识的各个参会对象是否在讲话。将在讲话的参会对象确定为该时刻的讲话对象，该时刻即为对应的第二图像的时间信息。对每张第二图像均进行上述处理，就可以得到每张第二图像的时间信息指示的时刻有哪些讲话对象。

S52，根据各时刻的讲话对象，确定所述多个第一讲话时段，一个所述第一讲话时段中的讲话对象相同。

通过每张第二图像中的参会对象的口腔红外特征，确定了各时刻的讲话对象之后，就可以确定多个第一讲话时段。

例如，在连续的n张第二图像中，均识别出某个参会对象在讲话，这连续的n张第二图像对应的时刻可以确定出一个时间段。设n张第二图像中最早的时刻为t1，最晚的时刻为t2，则确定出的时间段为t1-t2，t1-t2即为一个第一讲话时段。

根据上述方法，就可以确定出多个第一讲话时段，每个第一讲话时段中只对应一个讲话对象。其中，一个讲话对象可以包括多个第一讲话时段，例如，某讲话对象可以在t1-t2时间段讲话，还可以在t3-t4时间段讲话。

S53，根据所述第一图像集合，确定每个第一讲话时段对应的对象信息。

通过S51和S52，能够确定出多个第一讲话时段，每个第一讲话时段中对应一个讲话对象，然后，需要进一步确定每个第一讲话时段中的讲话对象的对象信息，即确定讲话对象的身份。

本发明实施例中，是通过第一图像集合来确定讲话对象的对象信息的，对象信息指示的就是讲话对象的不同的身份，不同的讲话对象的对象信息各不相同。

具体的，针对任意一个第一讲话时段，首先确定第一讲话时段中的讲话对象在第二图像中的对象位置，第二图像为第二图像集合中的图像。

然后，根据该讲话对象在第二图像中的对象位置，确定讲话对象在第一图像中的对象位置，其中，第一图像为第一图像集合中的图像，讲话对象在第二图像中的对象位置与讲话对象在第一图像中的对象位置相同。由于全景摄像设备和红外线摄像设备安装于同一位置，且同步进行拍摄，因此在同一时刻，全景摄像设备和红外线摄像设备对应于相同的拍摄区域，拍摄的画面中，任意讲话对象在第一图像中的对象位置与在第二图像中的对象位置相同。因此，根据讲话对象在第二图像中的对象位置，可以确定出该讲话对象在第一图像中的对象位置。

最后，根据讲话对象在第一图像中的对象位置，可以确定第一讲话时段对应的对象信息。

可选的，可以根据该讲话对象在第一图像中的对象位置，确定该讲话对象，然后对该讲话对象进行人脸识别和/或人体特征识别，得到第一特征信息，然后根据该第一特征信息、以及特征信息与对象信息之间的预设对应关系，确定第一讲话时段对应的对象信息。

其中，人脸识别只有在讲话对象的人脸被全景摄像设备拍摄到时才能够进行，针对任意的讲话对象，在任意时刻该讲话对象的人脸可能正对着全景摄像设备，也可能背对着全景摄像设备。而人体特征识别则只需要人体位于全景摄像设备的拍摄范围内即可信息识别。

由于各个讲话对象之间的人体特征之间的差别相对人脸特征之间的差别较小，因此可以通过人脸识别来确定讲话对象的对象信息。只要第一图像集合中出现过讲话对象的人脸，则可以对该讲话对象的人脸进行人脸识别。同时，还可以对该讲话对象进行人体特征识别，将该讲话对象的人脸特征和人体特征进行绑定，并持续追踪。当讲话对象移动至背对全景摄像设备时，还可以通过讲话对象的人体特征继续确定讲话对象的对象信息。

其中，预设对应关系指的是特征信息与对象信息之间的对应关系。例如，部分讲话对象可以预先录制自身的人脸特征或者人体特征，并输入自身的对象信息，从而构成一对预设对应关系。当识别到该讲话对象的人脸特征或人体特征之后，就能够确定该讲话对象的对象信息。

在另一些情况下，预设对应关系中不存在第一特征信息对应的对象信息，即讲话对象并未预先录制自身的人脸特征或者人体特征，此时讲话对象为未知人物。可以确定讲话对象的临时身份标识，然后将该临时身份标识确定为讲话对象的对象信息。

图6为本发明实施例提供的确定对象信息的示意图，如图6所示，其中参会对象包括对象11、对象12、对象13、对象14和对象15，设备10为摄像设备，包括全景摄像设备和红外线摄像设备。图6中，示例的是第一图像集合中的一帧第一图像，针对该第一图像，可以对每个对象进行人脸识别处理以及人体特征识别处理，并生成相应的框。例如在图6中，对象11相应的框为方框61，方框61中即为对象11。对于每一帧第一图像，均会对其进行识别，生成相应的框，每个对象对应的框会随着对象的移动而移动。

在图6中，对象11此时人脸对着摄像设备，因此可以根据对象11的人脸识别结果确定对象11的对象信息，并进行标注。如果对象11预先录制了自身的人脸，则对象11为一个已知人物，可以确定该对象11的确切身份。如果对象11没有预先录制自身的人脸，则对象11为一个未知人物，可以为该对象11分配一个临时身份标识，作为对象11的对象信息。在一个会议中，未知人物可能有多个，则不同的未知人物需要分配不同的临时身份标识，例如可以分别标为人物A、人物B、人物C等等，不同的未知人物通过不同的人脸特征进行区分。

在第一图像集合中，有的第一图像中可能存在部分讲话对象的人脸背对着摄像设备，此时直接根据人体特征确定各参会人员的对象信息，可能会有较大的误差。但是，仍然可以对各参会对象进行人体特征识别，确定对应的框。只要讲话对象在至少一帧第一图像中出现了人脸，就可以根据该人脸进行人脸特征识别，确定该讲话对象对象的对象信息。

确定了每个讲话对象的对象信息之后，则可以得到每个第一讲话时段对应的对象信息。

在确定了每个第一讲话时段对应的对象信息之后，可以结合音频信息确定的多个文本段和每个文本段的第一时间信息生成会议记录。

图7为本发明实施例提供的会议记录生成的流程示意图，如图7所示，包括：

S71，根据每个文本段的第一时间信息，确定每个第一讲话时段对应的至少一个文本段。

在根据音频信息确定的多个文本段中，每个文本段的第一时间信息表示讲话对象讲这个文本段的时间信息。而第一讲话时段指示的是某个讲话对象在该时段内正在讲话，因此可以根据文本段的第一时间信息，来确定每个第一讲话时段对应的至少一个文本段。

图8为本发明实施例提供的确定第一讲话时段对应的文本段的示意图，如图8所示，示意了两个时间轴。在上面的时间轴中，示意的是每个第一讲话时段对应的时间。在下面的时间轴中，示意的是每个文本段的第一时间信息。

图8的示例中，根据会议视频和红外视频共确定了2个第一讲话时段，分别是第一讲话时段A和第一讲话时段B，其中，第一讲话时段A的时段为t1-t3时段，对应的对象信息为讲话对象甲，即讲话对象甲在t1-t3时段正在讲话。第一讲话时段B的时段为t4-t7时段，对应的对象信息为讲话对象乙，即讲话对象乙在t4-t7时段正在讲话。第一讲话时段A和第一讲话时段B在图8中按照时间先后顺序排列。

图8中根据音频信息确定了6个文本段，为文本段1-文本段6。其中，文本段1的第一时间信息为t1-t2，文本段2的第一时间信息为t2-t3，文本段3的第一时间信息为t4-t5，文本段4的第一时间信息为t5-t6，文本段5的第一时间信息为t6-t7，文本段6的第一时间信息为t8-t9，也根据时间的先后顺序排列。

然后，可以根据时间对齐来确定每个第一讲话时段对应的至少一个文本段。例如在图8中，第一讲话时段A对应的文本段为文本段1和文本段2，第一讲话时段B对应的文本段为文本段3、文本段4和文本段5。

S72，根据每个第一讲话时段对应的对象信息和每个第一讲话时段对应的至少一个文本段，生成所述会议记录。

首先判断多个文本段中是否存在第一文本段，多个第一讲话时段对应的至少一个文本段中均不包括第一文本段。

在一些情况下，可能存在文本段的第一时间信息不属于第一讲话时段内的情况，这样的文本段为第一文本段。例如，在多个文本段中，存在第一文本段，该第一文本段的第一时间信息为4分30秒-4分50秒。但是，每个第一讲话时段均不包括4分30秒-4分50秒这一时间段，这有可能是由于4分30秒-4分50秒时间段内讲话人背对着摄像设备造成的。

以图6为例，如果在4分30秒-4分50秒内，对象11背对着摄像设备讲话，此时能够录制到对象11讲话的录音，并根据录音生成相应的文本段。但是由于每个第一讲话时段，是根据参会对象的口腔红外特征来确定的，当对象11背对着摄像设备时，是无法采集到对象11的口腔红外特征的，此时也就不能判定对象11在讲话，产生了文本段和第一讲话时段无法对齐的情况。例如在图8中，文本段6即为一个第一文本段，第一讲话时段A和第一讲话时段B对应的文本段中均不包括文本段6。

如果存在第一文本段，则对第一文本段对应的第一音频段进行声纹识别，得到第一文本段对应的对象信息；然后根据第一文本段对应的对象信息、第一文本段的第一时间信息、每个第一讲话时段对应的对象信息和每个第一讲话时段对应的至少一个文本段，生成会议记录。

具体的，可以根据第一文本段的第一时间信息，确定第二讲话时段，然后根据第一文本段对应的对象信息，确定第二讲话时段对应的对象信息。确定了第二讲话时段对应的对象信息之后，根据第二讲话时段对应的对象信息、第一文本段、每个第一讲话时段对应的对象信息和每个第一讲话时段对应的至少一个文本段，就可以生成会议记录。

其中，可以先根据第二讲话时段对应的对象信息和第一文本段，生成第二讲话时段对应的子会议记录，然后根据每个第一讲话时段对应的对象信息和每个第一讲话时段对应的至少一个文本段，生成每个第一讲话时段对应的子会议记录。最后按照时间顺序，将多个第一讲话时段对应的子会议记录和第二讲话时段对应的子会议记录进行排序，就可以生成会议记录。

如果不存在第一文本段，则根据每个第一讲话时段对应的对象信息和每个第一讲话时段对应的至少一个文本段，生成会议记录。

具体的，可以根据每个第一讲话时段对应的对象信息和每个第一讲话时段对应的至少一个文本段，生成每个第一讲话时段对应的子会议记录，子会议记录中包括第一讲话时段对应的对象信息和至少一个文本段。然后，按照时间顺序，对多个第一讲话时段对应的子会议记录进行排序，得到会议记录。

例如，某会议中包括3个讲话对象，分别是对象甲、对象乙和对象丙。其中对象甲总共讲了两段话，分别是文本段A和文本段B，文本段A的第一时间信息为2分10秒-2分20秒，文本段B的第一时间信息为4分30秒-4分50秒；对象乙总共讲了三段话，分别是文本段C、文本段D和文本段E，文本段C的第一时间信息为1分2秒-1分50秒，文本段D的第一时间信息为3分25秒-3分55秒，文本段E的第一时间信息为2分30秒-2分55秒；对象丙总共讲了两段话，分别是文本段F和文本段G，文本段F的第一时间信息为3分5秒-3分20秒，文本段G的第一时间信息为4分55秒-5分20秒。则生成的会议记录大致如下：

对象乙：文本段C，时间1分2秒-1分50秒。

对象甲：文本段A，时间2分10秒-2分20秒。

对象乙：文本段E，时间2分30秒-2分55秒。

对象丙：文本段F，时间3分5秒-3分20秒。

对象乙：文本段D，时间3分25秒-3分55秒。

对象甲：文本段B，时间4分30秒-4分50秒。

对象丙：文本段G，时间4分55秒-5分20秒。

在生成了会议记录之后，可以对生成的会议记录进行语义识别，从而生成更为简要的会议纪要。当生成的会议记录的准确率提高时，能够进一步提高生成的会议纪要的准确性。

图9为本发明实施例提供的会议记录装置的结构示意图，如图9所示，该装置包括：

获取模块91，用于获取全景摄像设备采集的会议视频和红外线摄像设备采集的红外视频，所述会议视频中包括音频信息；

确定模块92，用于根据所述音频信息确定多个文本段和每个文本段的第一时间信息；

处理模块93，用于根据所述会议视频中的第一图像集合和所述红外视频中的第二图像集合，确定多个第一讲话时段、和每个第一讲话时段对应的对象信息，所述多个第一讲话时段按照时间顺序排列；

生成模块94，用于根据所述多个文本段、每个文本段的第一时间信息、所述多个第一讲话时段、和每个第一讲话时段对应的对象信息，生成会议记录。

在一种可能的实施方式中，所述处理模块93具体用于：

根据所述第二图像集合，确定各时刻的讲话对象；

在一种可能的实施方式中，所述处理模块93具体用于：

在一种可能的实施方式中，所述处理模块93还用于：

将所述临时身份标识确定为所述讲话对象的对象信息。

在一种可能的实施方式中，所述生成模块94具体用于：

根据所述第一文本段的第一时间信息，确定第二讲话时段；

在一种可能的实施方式中，所述生成模块94具体用于：

前述任一实施例提供的会议记录装置，用于执行前述任一方法实施例的技术方案，其实现原理和技术效果类似，在此不再赘述。

图10为本发明实施例提供的一种会议记录设备的结构示意图。如图10所示，所述会议记录设备可以包括：存储器101、处理器102及存储在所述存储器101上并可在所述处理器102上运行的会议记录程序，所述会议记录程序被所述处理器102执行时实现如前述任一实施例所述的会议记录方法的步骤。

可选地，存储器101既可以是独立的，也可以跟处理器102集成在一起。

本实施例提供的设备的实现原理和技术效果可以参见前述各实施例，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有会议记录程序，所述会议记录程序被处理器执行时实现如前述任一实施例所述的会议记录方法的步骤。

本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序在被处理器执行时实现如前述任一项所述的会议记录方法的步骤。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本发明各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(Central Processing Unit，简称CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种会议记录方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述会议视频中的第一图像集合和所述红外视频中的第二图像集合，确定多个第一讲话时段、和每个第一讲话时段对应的对象信息，包括：

根据所述第二图像集合，确定各时刻的讲话对象；

3.根据权利要求2所述的方法，其特征在于，所述根据所述第二图像集合，确定各时刻的讲话对象，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述第一图像集合，确定每个第一讲话时段对应的对象信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述讲话对象在第一图像中的对象位置，确定所述第一讲话时段对应的对象信息，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

将所述临时身份标识确定为所述讲话对象的对象信息。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述根据所述多个文本段、每个文本段的第一时间信息、所述多个第一讲话时段、和每个第一讲话时段对应的对象信息，生成会议记录，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据每个第一讲话时段对应的对象信息和每个第一讲话时段对应的至少一个文本段，生成所述会议记录，包括：

9.根据权利要求8所述的方法，其特征在于，所述根据每个第一讲话时段对应的对象信息和每个第一讲话时段对应的至少一个文本段，生成所述会议记录，包括：

10.根据权利要求8所述的方法，其特征在于，所述根据所述第一文本段对应的对象信息、所述第一文本段的第一时间信息、每个第一讲话时段对应的对象信息和每个第一讲话时段对应的至少一个文本段，生成所述会议记录，包括：

根据所述第一文本段的第一时间信息，确定第二讲话时段；

11.根据权利要求10所述的方法，其特征在于，所述根据第二讲话时段对应的对象信息、所述第一文本段、每个第一讲话时段对应的对象信息和每个第一讲话时段对应的至少一个文本段，生成所述会议记录，包括：

12.一种会议记录装置，其特征在于，所述装置包括：

13.一种会议记录设备，其特征在于，所述会议记录设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的会议记录程序，所述会议记录程序被所述处理器执行时实现如权利要求1-11中任一项所述的会议记录方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有会议记录程序，所述会议记录程序被处理器执行时实现如权利要求1-11中任一项所述的会议记录方法的步骤。