CN115329104A

CN115329104A - 会议纪要文件生成方法、装置、电子设备及存储介质

Info

Publication number: CN115329104A
Application number: CN202210941252.9A
Authority: CN
Inventors: 唐串串
Original assignee: Shenzhen Happycast Technology Co Ltd
Current assignee: Shenzhen Happycast Technology Co Ltd
Priority date: 2022-08-05
Filing date: 2022-08-05
Publication date: 2022-11-11

Abstract

本申请涉及人工智能技术领域，具体公开了一种会议纪要文件生成方法、装置、电子设备及存储介质，其中，方法包括：对会议录屏文件进行分帧处理，得到至少一个视频帧图像，其中，所述至少一个视频帧图像中的每个视频帧图像的内容均不相同；确定所述每个视频帧图像对应的时间段，得到至少一个第一时间段，其中，所述至少一个第一时间段与所述至少一个视频帧图像一一对应；根据所述至少一个时间段，对录音文件中进行拆分，得到至少一个子音频数据，其中，所述至少一个子音频数据与所述至少一个第一时间段一一对应；根据所述至少一个视频帧图像和所述至少一个子音频数据，生成会议纪要文件。

Description

会议纪要文件生成方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种会议纪要文件生成方法、装置、电子设备及存储介质。

背景技术

随着互联网技术和云技术的普及，视频会议系统在远程工作沟通方面得到广泛应用，提高了工作沟通效益。目前，视频会议的会议纪要通常由参会人员通过手动拍照、录屏、录音等方式进行记录后，进行后期手动整理得到。但是，通过上述方式获取的数据较多且对应关系不明，后期整理时比较麻烦，且耗费精力。

发明内容

为了解决现有技术中存在的上述问题，本申请实施方式提供了一种会议纪要文件生成方法、装置、电子设备及存储介质，可以通过基于会议录屏和录音自动生成会议纪要文件，且保证生成的会议纪要文件内容的准确性，减轻人力负担。

第一方面，本申请的实施方式提供了一种会议纪要文件生成方法，该方法包括：

对会议录屏文件进行分帧处理，得到至少一个视频帧图像，其中，至少一个视频帧图像中的每个视频帧图像的内容均不相同；

确定每个视频帧图像对应的时间段，得到至少一个第一时间段，其中，至少一个第一时间段与至少一个视频帧图像一一对应；

根据至少一个时间段，对录音文件中进行拆分，得到至少一个子音频数据，其中，至少一个子音频数据与至少一个第一时间段一一对应；

根据至少一个视频帧图像和至少一个子音频数据，生成会议纪要文件。

第二方面，本申请的实施方式提供了一种会议纪要文件生成装置，包括：

处理模块，用于对会议录屏文件进行分帧处理，得到至少一个视频帧图像，其中，至少一个视频帧图像中的每个视频帧图像的内容均不相同，确定每个视频帧图像对应的时间段，得到至少一个第一时间段，其中，至少一个第一时间段与至少一个视频帧图像一一对应，并根据至少一个时间段，对录音文件中进行拆分，得到至少一个子音频数据，其中，至少一个子音频数据与至少一个第一时间段一一对应；

生成模块，用于根据至少一个视频帧图像和至少一个子音频数据，生成会议纪要文件。

第三方面，本申请实施方式提供一种电子设备，包括：处理器，处理器与存储器相连，存储器用于存储计算机程序，处理器用于执行存储器中存储的计算机程序，以使得电子设备执行如第一方面的方法。

第四方面，本申请实施方式提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序使得计算机执行如第一方面的方法。

第五方面，本申请实施方式提供一种计算机程序产品，计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，计算机可操作来使计算机执行如第一方面的方法。

实施本申请实施方式，具有如下有益效果：

在本申请实施方式中，通过提取录屏文件中的多个视频帧图像，对整个视频会议的演讲内容进行精准划分，将较长的会议视频划分为多个小段的会议视频，提高了效率并降低的处理的复杂度。同时，通过多个小段的会议视频确定每个演讲内容对应的时间段，继而接取出对应时间段的录音文件，与同时段下的视频帧图像相互配合，获取精准的会议参数进行会议纪要文件的生成。由此，实现了会议纪要文件的自动化生成，且保证生成的会议纪要文件内容的准确性，减轻了人力负担。

附图说明

为了更清楚地说明本申请实施方式中的技术方案，下面将对实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施方式提供的一种会议纪要文件生成装置的硬件结构示意图；

图2为本申请实施方式提供的一种会议纪要文件生成方法的流程示意图；

图3为本申请实施方式提供的一种根据相邻两帧之间的相似度将会议录屏文件进行拆分的示意图；

图4为本申请实施方式提供的一种生成会议纪要文件前对至少一个视频帧图像进行预处理的流程示意图；

图5为本申请实施方式提供的一种对每个待修补图像中的内容进行文本识别，得到第一文本信息的示意图；

图6为本申请实施方式提供的一种缺失区域的边界区域和内部区域的示意图；

图7为本申请实施方式提供的一种根据第一文本信息和第二文本信息，对每个待修补图像中缺失区域的至少一个边界字符进行修补，得到第一修补文本的方法的流程示意图；

图8为本申请实施方式提供的一种会议纪要文件生成装置的功能模块组成框图；

图9为本申请实施方式提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施方式”意味着，结合实施方式描述的特定特征、结果或特性可以包含在本申请的至少一个实施方式中。在说明书中的各个位置出现该短语并不一定均是指相同的实施方式，也不是与其它实施方式互斥的独立的或备选的实施方式。本领域技术人员显式地和隐式地理解的是，本文所描述的实施方式可以与其它实施方式相结合。

首先，参阅图1，图1为本申请实施方式提供的一种会议纪要文件生成装置的硬件结构示意图。该会议纪要文件生成装置100包括至少一个处理器101，通信线路102，存储器103以及至少一个通信接口104。

在本实施方式中，处理器101，可以是一个通用中央处理器(central processingunit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路102，可以包括一通路，在上述组件之间传送信息。

通信接口104，可以是任何收发器一类的装置(如天线等)，用于与其他设备或通信网络通信，例如以太网，RAN，无线局域网(wireless local area networks，WLAN)等。

存储器103，可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

在本实施方式中，存储器103可以独立存在，通过通信线路102与处理器101相连接。存储器103也可以和处理器101集成在一起。本申请实施方式提供的存储器103通常可以具有非易失性。其中，存储器103用于存储执行本申请方案的计算机执行指令，并由处理器101来控制执行。处理器101用于执行存储器103中存储的计算机执行指令，从而实现本申请下述实施方式中提供的方法。

在可选的实施方式中，计算机执行指令也可以称之为应用程序代码，本申请对此不作具体限定。

在可选的实施方式中，处理器101可以包括一个或多个CPU，例如图1中的CPU0和CPU1。

在可选的实施方式中，该会议纪要文件生成装置100可以包括多个处理器，例如图1中的处理器101和处理器107。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在可选的实施方式中，若会议纪要文件生成装置100为服务器，例如，可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。则会议纪要文件生成装置100还可以包括输出设备105和输入设备106。输出设备105和处理器101通信，可以以多种方式来显示信息。例如，输出设备105可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备106和处理器101通信，可以以多种方式接收用户的输入。例如，输入设备106可以是鼠标、键盘、触摸屏设备或传感设备等。

上述的会议纪要文件生成装置100可以是一个通用设备或者是一个专用设备。本申请实施方式不限定会议纪要文件生成装置100的类型。

以下，将对本申请所公开的会议纪要文件生成方法进行说明：

参阅图2，图2为本申请实施方式提供的一种会议纪要文件生成方法的流程示意图。该会议纪要文件生成方法包括以下步骤：

201：对会议录屏文件进行分帧处理，得到至少一个视频帧图像。

在本实施方式中，该至少一个视频帧图像中的每个视频帧图像的内容均不相同。示例性的，首先，可以对录屏文件进行逐帧拆分，并计算每两个相邻的帧图像之间的相似度。继而将相似度低于预设阈值的两帧图像作为分界，将会议录屏文件进行拆分。

具体而言，如图3所示，会议录屏文件在第240帧和241帧之间进行了页面切换操作，切换了当前显示的画面。此时，第1帧-第240帧图像均为初始界面，其中相邻的两个帧图像之间的相似度较高，而第241帧图像为切换后的界面，由于界面的变化，导致第240帧图像和第241帧图像之间的相似度降低。因此，可以将第240帧图像和第241帧图像作为分界，将会议录屏文件进行拆分。同理，对于第241帧之后的会议录屏文件，可以同样执行该操作，直至会议录屏文件的最后一帧，得到拆分后的至少一个录屏文件。

然后，对拆分后的每个录屏文件，在其对应的多个帧图像中识别出图像质量最高的帧图像，作为该拆分后的录屏文件对应的视频帧图像，继而得到至少一个视频帧图像。简而言之，即每个视频帧图像均对应一个拆分后的录屏文件，同时，每个拆分后的录屏文件展示的界面互不相同。

202：确定每个视频帧图像对应的时间段，得到至少一个第一时间段。

在本实施方式中，该至少一个第一时间段与至少一个视频帧图像一一对应。如步骤202中所述，每个视频帧图像均对应一个拆分后的录屏文件，继而，可以将该拆分后的录屏文件的时间段，作为对应的视频帧图像的第一时间段。具体而言，沿用步骤202中的示例，其中第一个视频帧图像对应的拆分后的录屏文件为会议录屏文件的第1帧-第240帧，该会议录屏文件的帧率为24帧/秒，因此，该第一个视频帧图像对应的第一时间段即为：1-10秒。

203：根据至少一个时间段，对录音文件中进行拆分，得到至少一个子音频数据。

在本实施方式中，该至少一个子音频数据与至少一个第一时间段一一对应。具体而言，由于录屏和录音是同步进行的，因此，可以直接以每个视频帧图像对应的第一时间段，在录音文件中进行截取，继而得到每个视频帧图像对应的子音频数据。

204：根据至少一个视频帧图像和至少一个子音频数据，生成会议纪要文件。

在本实施方式中，在步骤204之前，还可以对每个视频帧图像进行质量检测，例如：检测每个视频帧图像中是否存在缺失区域、图像是否清晰等。继而对质量较差的视频帧图像进行修补，以确保每个视频帧图像中信息的完整性，使后续生成的会议纪要文件具有更高的完整度和精确性。

具体而言，如图4所示，在步骤204之前，该方法还包括：

401：对每个视频帧图像进行质量检测，并根据检测结果在至少一个视频帧图像中确定至少一个待修补图像。

在本实施方式中，可以在每个视频帧图像中确定有效区域，即重要信息所在的区域，继而对该区域的完整度和清晰度进行分析，继而在完整度和清晰度中任意一个低于对应的阈值时，将相应的视频帧图像标记为待修补图像。

402：根据至少一个待修补图像中的每个待修补图像对应的子音频数据，对每个待修补图像进行修补，得到至少一个修补图像。

在本实施方式中，该至少一个修补图像与至少一个待修补图像一一对应。示例性的，以下将以存在缺失区域的质量问题为例，对上述修补方法进行说明：

首先，可以对每个待修补图像中的内容进行文本识别，得到第一文本信息，并对每个待修补图像对应的子音频数据进行语音转化，得到第二文本信息。具体而言，在对每个待修补图像中的内容进行文本识别的过程中，如图5所示，识别其中完整的字符，并将识别出的字符按照其在对应的待修补图像中的位置进行排布，同时对缺失部分采用掩码进行替代，得到第一文本信息。

然后，可以根据第一文本信息和第二文本信息，对每个待修补图像中缺失区域的至少一个边界字符进行修补，得到第一修补文本。具体而言，在本实施方式中，将缺失区域划分为边界区域和内部区域，如图6所示，边界区域指位于缺失区域边界，部分缺失的字符所占的区域；内部区域则指位于缺失区域内部，完全缺失的字符所占的区域。

示例性的，本申请提供了一种根据第一文本信息和第二文本信息，对每个待修补图像中缺失区域的至少一个边界字符进行修补，得到第一修补文本的方法，如图7所示，该方法包括：

701：根据第一文本信息和第二文本信息，确定每个待修补图像对应的会议主题。

在本实施方式中，可以对第一文本信息和第二文本信息进行关键词提取，继而根据提取出的关键词确定每个待修补图像对应的会议主题。

702：根据至少一个边界字符中每个边界字符的形状，确定每个边界字符对应的至少一个第一候选字符。

在本实施方式中，边界字符指位于缺失区域边界，部分缺失的字符，如字符“艹”。对此，可以根据保留下来的部分的形状特征，将满足该形状特征的字符筛选出来，得到至少一个第一候选字符。以上述字符“艹”为例，其对应的第一候选字符即为所有包含草字头“艹”的字符，例如：草、曹、芊、艾、花、莲、莉、茉、萤等。

703：根据会议主题在至少一个第一候选字符中确定至少一个第二候选字符。

在本实施方式中，至少一个第二候选字符中的每个第二候选字符与会议主题之间的适配度大于预设的第一阈值。具体而言，即确认步骤702中确定的至少一个第一候选字符中，哪些字符时该会议主题下的常用字符，将这些常用字符筛选出来，作为第二候选字符。示例性的，可以计算每个第一候选字符在该会议主题下的词频-逆文档频率(TermFrequency–Inverse Document Frequency，TF-IDF)分数，继而将分数低于阈值的第一候选字符筛除，剩下的作为第二候选字符。

704：以第一文本信息的阅读顺序，在每个边界字符对应的至少一个第二候选字符确定每个边界字符对应的目标字符。

具体而言，第一文本信息的阅读顺序可以是横向的从左至右或者纵向的从上至下，对于不同的阅读顺序，确定出的边界字符的序号也不一样。例如：当第一文本信息的阅读顺序是横向的从左至右时，左上角边界字符则为第一个边界字符，左上角右相邻的边界字符即为第二个边界字符。

在本实施方式中，通过第一文本信息的阅读顺序确定出边界字符的序号后，由第一个边界字符开始，结合其上下文分析此处的语义，继而根据该语义在其对应的至少一个第二候选字符确定每个边界字符对应的目标字符。

705：用每个边界字符对应的目标字符替换每个边界字符，得到第一修补文本。

在本实施方式中，第一修补文本依旧按照边界字符在待修补图像中的位置进行排列。

在确定出第一修补文本后，可以根据第一文本信息、第二文本信息和第一修补文本，对缺失区域的内部字符进行联想，得到第二修补文本。具体而言，可以根据每个待修补图像，将第一修补文本填充进第一文本信息中缺失的区域，得到第三文本信息。继而确定第三文本信息和第二文本信息之间的差异信息，由此，根据差异信息和缺失区域的上下文，对内部字符进行联想，得到第二修补文本。

最后，可以根据第一修补文本和第二修补文本对缺失区域进行修补，得到每个待修补图像对应的修补图像，并将每个待修补图像对应的修补图像进行集合，得到至少一个修补图像。

403：用至少一个修补图像替换至少一个视频帧图像中的至少一个待修补图像。

在本实施方式中，替换完成的至少一个视频帧图像依旧按照原先的至少一个第一视频帧图像的顺序进行排列。

在本实施方式中，通过步骤401-403的修补过程，通过语音信息和未缺失区域的信息，对缺失区域的信息进行精准修补，在保证会议信息的完整性的同时，也保证了会议信息的准确性。

在本实施方式中，在对至少一个视频帧图像进行质量检测，并对其中不合格的图像进行修补后，即可根据修补后的至少一个视频帧图像，以及至少一个子音频数据，进行会议纪要文件的生成。

示例性的，首先可以根据每个视频帧图像和每个视频帧图像对应的子音频数据，确定每个视频帧图像的内容主题。具体而言，可以对每个视频帧图像进行文本识别，得到第四文本信息，并对每个视频帧图像对应的子音频数据进行语音识别，得到第五文本信息。继而在第四文本信息中确定至少一个第一关键词，在第五文本信息中确定至少一个第二关键词。

具体而言，以第四文本信息为例，可以对其进行分词处理，得到至少一个分词。示例性的，可以采用元数2的N-gram分割法对第一句子进行分词。具体而言，N-gram分割法是一种将句子分割成若干个分别由N个字符组成的片段序列的方法，每个片段称作一个N-gram。在N＝2时，N-gram分割法可以称作bi-gram(二元gram)，使用bi-gram进行分割时，会将被分割的文本相邻的两个字符依次输出，例如：对于文本“会议开始”，如果使用bi-gram去分割，则可以得到分词“会议”、“议开”和“开始”。

同时，在本实施方式中，关键词指的是可以反应文本中关键信息的词语，而这些词语在文本中常常以名词的形式出现。基于此，在得到至少一个分词后，可以对四文本信息的的语法进行分析，得到语法特征，并根据语法特征确定至少一个分词中每个分词的词性信息，继而将词性信息为名词的分词筛选出来，作为候选词语。

进一步的，通过获取每个候选词语的逆文档频率，确定该目标第三词语的重要性，继而将逆文档频率小于预设阈值的候选词语，即常见词进行剔除，将保留下来的候选词语作为第四文本信息对益康的第一关键词。

在本实施方式中，在第五文本信息中确定至少一个第二关键词的方法与所述在第四文本信息中确定至少一个第一关键词的方法类似，在此不再赘述。

最后，通过构建至少一个第一关键词和至少一个第二关键词的拓扑结构，并根据拓扑结构在预设的知识网络中进行匹配，即可确定每个视频帧图像的内容主题。

在本实施方式中，获取到每个视频帧图像的内容主题后，即可根据该内容主题获取对应的会议纪要模板，继而根据会议纪要模板，在每个视频帧图像和每个视频帧图像对应的子音频数据中获取对应的会议参数。

然后，将会议参数填入会议纪要模板中，生成每个视频帧图像对应的第一会议纪要子文件。同时，确定至少一个视频帧图像中，任意两个视频帧图像之间的关联度，并将关联度大于预设的第二阈值的视频帧图像对应的第一会议纪要子文件进行融合，得到至少一个第二会议纪要子文件。

最后，将至少一个第二会议纪要子文件进行集合，即可得到最终的会议纪要文件。

综上所述，本发明所提供的会议纪要文件生成方法中，通过提取录屏文件中的多个视频帧图像，对整个视频会议的演讲内容进行精准划分，将较长的会议视频划分为多个小段的会议视频，提高了效率并降低的处理的复杂度。同时，通过多个小段的会议视频确定每个演讲内容对应的时间段，继而接取出对应时间段的录音文件，与同时段下的视频帧图像相互配合，获取精准的会议参数进行会议纪要文件的生成。由此，实现了会议纪要文件的自动化生成，且保证生成的会议纪要文件内容的准确性，减轻了人力负担。

参阅图8，图8为本申请实施方式提供的一种会议纪要文件生成装置的功能模块组成框图。如图8所示，该会议纪要文件生成装置800包括：

处理模块801，用于对会议录屏文件进行分帧处理，得到至少一个视频帧图像，其中，至少一个视频帧图像中的每个视频帧图像的内容均不相同，确定每个视频帧图像对应的时间段，得到至少一个第一时间段，其中，至少一个第一时间段与至少一个视频帧图像一一对应，并根据至少一个时间段，对录音文件中进行拆分，得到至少一个子音频数据，其中，至少一个子音频数据与至少一个第一时间段一一对应；

生成模块802，用于根据至少一个视频帧图像和至少一个子音频数据，生成会议纪要文件。

在本发明的实施方式中，在根据至少一个视频帧图像和至少一个子音频数据，生成会议纪要文件之前，处理模块801，还用于：

对每个视频帧图像进行质量检测，并根据检测结果在至少一个视频帧图像中确定至少一个待修补图像；

根据至少一个待修补图像中的每个待修补图像对应的子音频数据，对每个待修补图像进行修补，得到至少一个修补图像，其中，至少一个修补图像与至少一个待修补图像一一对应；

用至少一个修补图像替换至少一个视频帧图像中的至少一个待修补图像。

在本发明的实施方式中，在根据至少一个待修补图像中的每个待修补图像对应的子音频数据，对每个待修补图像进行修补，得到至少一个修补图像方面，处理模块801，具体用于：

对每个待修补图像中的内容进行文本识别，得到第一文本信息；

对每个待修补图像对应的子音频数据进行语音转化，得到第二文本信息；

根据第一文本信息和第二文本信息，对每个待修补图像中缺失区域的至少一个边界字符进行修补，得到第一修补文本；

根据第一文本信息、第二文本信息和第一修补文本，对缺失区域的内部字符进行联想，得到第二修补文本；

根据第一修补文本和第二修补文本对缺失区域进行修补，得到每个待修补图像对应的修补图像；

将每个待修补图像对应的修补图像进行集合，得到至少一个修补图像。

在本发明的实施方式中，在根据第一文本信息和第二文本信息，对每个待修补图像中缺失区域的至少一个边界字符进行修补，得到第一修补文本方面，处理模块801，具体用于：

根据第一文本信息和第二文本信息，确定每个待修补图像对应的会议主题；

根据所至少一个边界字符中每个边界字符的形状，确定每个边界字符对应的至少一个第一候选字符；

根据会议主题在至少一个第一候选字符中确定至少一个第二候选字符，其中，至少一个第二候选字符中的每个第二候选字符与会议主题之间的适配度大于预设的第一阈值；

以第一文本信息的阅读顺序，在每个边界字符对应的至少一个第二候选字符确定每个边界字符对应的目标字符；

用每个边界字符对应的目标字符替换每个边界字符，得到第一修补文本。

在本发明的实施方式中，在根据第一文本信息、第二文本信息和第一修补文本，对缺失区域的内部字符进行联想，得到第二修补文本方面，处理模块801，具体用于：

根据每个待修补图像，将第一修补文本填充进第一文本信息中缺失的区域，得到第三文本信息；

确定第三文本信息和第二文本信息之间的差异信息；

根据差异信息和缺失区域的上下文，对内部字符进行联想，得到第二修补文本。

在本发明的实施方式中，在根据至少一个视频帧图像和至少一个子音频数据，生成会议纪要文件方面，生成模块802，具体用于：

根据每个视频帧图像和每个视频帧图像对应的子音频数据，确定每个视频帧图像的内容主题；

根据内容主题获取对应的会议纪要模板；

根据会议纪要模板，在每个视频帧图像和每个视频帧图像对应的子音频数据中获取对应的会议参数；

将会议参数填入会议纪要模板中，生成每个视频帧图像对应的第一会议纪要子文件；

确定至少一个视频帧图像中，任意两个视频帧图像之间的关联度，并将关联度大于预设的第二阈值的视频帧图像对应的第一会议纪要子文件进行融合，得到至少一个第二会议纪要子文件；

将至少一个第二会议纪要子文件的集合，作为会议纪要文件。

在本发明的实施方式中，在根据每个视频帧图像和每个视频帧图像对应的子音频数据，确定每个视频帧图像的内容主题方面，生成模块802，具体用于：

对每个视频帧图像进行文本识别，得到第四文本信息；

对每个视频帧图像对应的子音频数据进行语音识别，得到第五文本信息；

在第四文本信息中确定至少一个第一关键词，在第五文本信息中确定至少一个第二关键词；

构建至少一个第一关键词和至少一个第二关键词的拓扑结构；

根据拓扑结构在预设的知识网络中进行匹配，确定每个视频帧图像的内容主题。

参阅图9，图9为本申请实施方式提供的一种电子设备的结构示意图。如图9所示，电子设备900包括收发器901、处理器902和存储器903。它们之间通过总线904连接。存储器903用于存储计算机程序和数据，并可以将存储器903存储的数据传输给处理器902。

处理器902用于读取存储器903中的计算机程序执行以下操作：

在本发明的实施方式中，在根据至少一个视频帧图像和至少一个子音频数据，生成会议纪要文件之前，处理器902，还用于执行以下操作：

在本发明的实施方式中，在根据至少一个待修补图像中的每个待修补图像对应的子音频数据，对每个待修补图像进行修补，得到至少一个修补图像方面，处理器902，具体用于执行以下操作：

在本发明的实施方式中，在根据第一文本信息和第二文本信息，对每个待修补图像中缺失区域的至少一个边界字符进行修补，得到第一修补文本方面，处理器902，具体用于执行以下操作：

在本发明的实施方式中，在根据第一文本信息、第二文本信息和第一修补文本，对缺失区域的内部字符进行联想，得到第二修补文本方面，处理器902，具体用于执行以下操作：

确定第三文本信息和第二文本信息之间的差异信息；

在本发明的实施方式中，在根据至少一个视频帧图像和至少一个子音频数据，生成会议纪要文件方面，处理器902，具体用于执行以下操作：

根据内容主题获取对应的会议纪要模板；

在本发明的实施方式中，在根据每个视频帧图像和每个视频帧图像对应的子音频数据，确定每个视频帧图像的内容主题方面，处理器902，具体用于执行以下操作：

对每个视频帧图像进行文本识别，得到第四文本信息；

应理解，本申请中的会议纪要文件生成装置可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(Mobile Internet Devices，简称：MID)、机器人或穿戴式设备等。上述会议纪要文件生成装置仅是举例，而非穷举，包含但不限于上述会议纪要文件生成装置。在实际应用中，上述会议纪要文件生成装置还可以包括：智能车载终端、计算机设备等等。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施方式或者实施方式的某些部分所述的方法。

因此，本申请实施方式还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如上述方法实施方式中记载的任何一种会议纪要文件生成方法的部分或全部步骤。例如，所述存储介质可以包括硬盘、软盘、光盘、磁带、磁盘、优盘、闪存等。

本申请实施方式还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施方式中记载的任何一种会议纪要文件生成方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施方式，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施方式均属于可选的实施方式，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施方式中，对各个实施方式的描述都各有侧重，某个实施方式中没有详述的部分，可以参见其他实施方式的相关描述。

在本申请所提供的几个实施方式中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施方式的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施方式进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施方式的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种会议纪要文件生成方法，其特征在于，所述方法包括：

对会议录屏文件进行分帧处理，得到至少一个视频帧图像，其中，所述至少一个视频帧图像中的每个视频帧图像的内容均不相同；

确定所述每个视频帧图像对应的时间段，得到至少一个第一时间段，其中，所述至少一个第一时间段与所述至少一个视频帧图像一一对应；

根据所述至少一个时间段，对录音文件中进行拆分，得到至少一个子音频数据，其中，所述至少一个子音频数据与所述至少一个第一时间段一一对应；

根据所述至少一个视频帧图像和所述至少一个子音频数据，生成会议纪要文件。

2.根据权利要求1所述的方法，其特征在于，在所述根据所述至少一个视频帧图像和所述至少一个子音频数据，生成会议纪要文件之前，所述方法，还包括：

对所述每个视频帧图像进行质量检测，并根据检测结果在所述至少一个视频帧图像中确定至少一个待修补图像；

根据所述至少一个待修补图像中的每个待修补图像对应的子音频数据，对所述每个待修补图像进行修补，得到至少一个修补图像，其中，所述至少一个修补图像与所述至少一个待修补图像一一对应；

用所述至少一个修补图像替换所述至少一个视频帧图像中的至少一个待修补图像。

3.根据权利要求2所述的方法，其特征在于，所述根据所述至少一个待修补图像中的每个待修补图像对应的子音频数据，对所述每个待修补图像进行修补，得到至少一个修补图像，包括：

对所述每个待修补图像中的内容进行文本识别，得到第一文本信息；

对所述每个待修补图像对应的子音频数据进行语音转化，得到第二文本信息；

根据所述第一文本信息和所述第二文本信息，对所述每个待修补图像中缺失区域的至少一个边界字符进行修补，得到第一修补文本；

根据所述第一文本信息、所述第二文本信息和所述第一修补文本，对所述缺失区域的内部字符进行联想，得到第二修补文本；

根据所述第一修补文本和所述第二修补文本对所述缺失区域进行修补，得到所述每个待修补图像对应的修补图像；

将所述每个待修补图像对应的修补图像进行集合，得到所述至少一个修补图像。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一文本信息和所述第二文本信息，对所述每个待修补图像中缺失区域的至少一个边界字符进行修补，得到第一修补文本，包括：

根据所述第一文本信息和所述第二文本信息，确定所述每个待修补图像对应的会议主题；

根据所述至少一个边界字符中每个边界字符的形状，确定所述每个边界字符对应的至少一个第一候选字符；

根据所述会议主题在所述至少一个第一候选字符中确定至少一个第二候选字符，其中，所述至少一个第二候选字符中的每个第二候选字符与所述会议主题之间的适配度大于预设的第一阈值；

以所述第一文本信息的阅读顺序，在所述每个边界字符对应的至少一个第二候选字符确定所述每个边界字符对应的目标字符；

用所述每个边界字符对应的目标字符替换所述每个边界字符，得到所述第一修补文本。

5.根据权利要求3所述的方法，其特征在于，所述根据所述第一文本信息、所述第二文本信息和所述第一修补文本，对所述缺失区域的内部字符进行联想，得到第二修补文本，包括：

根据所述每个待修补图像，将所述第一修补文本填充进所述第一文本信息中缺失的区域，得到第三文本信息；

确定所述第三文本信息和所述第二文本信息之间的差异信息；

根据所述差异信息和所述缺失区域的上下文，对所述内部字符进行联想，得到所述第二修补文本。

6.根据权利要求1-5中任意一项所述的方法，其特征在于，所述根据所述至少一个视频帧图像和所述至少一个子音频数据，生成会议纪要文件，包括：

根据所述每个视频帧图像和所述每个视频帧图像对应的子音频数据，确定所述每个视频帧图像的内容主题；

根据所述内容主题获取对应的会议纪要模板；

根据所述会议纪要模板，在所述每个视频帧图像和所述每个视频帧图像对应的子音频数据中获取对应的会议参数；

将所述会议参数填入所述会议纪要模板中，生成所述每个视频帧图像对应的第一会议纪要子文件；

确定所述至少一个视频帧图像中，任意两个视频帧图像之间的关联度，并将关联度大于预设的第二阈值的视频帧图像对应的第一会议纪要子文件进行融合，得到至少一个第二会议纪要子文件；

将所述至少一个第二会议纪要子文件的集合，作为所述会议纪要文件。

7.根据权利要求6所述的方法，其特征在于，所述根据所述每个视频帧图像和所述每个视频帧图像对应的子音频数据，确定所述每个视频帧图像的内容主题，包括：

对所述每个视频帧图像进行文本识别，得到第四文本信息；

对所述每个视频帧图像对应的子音频数据进行语音识别，得到第五文本信息；

在所述第四文本信息中确定至少一个第一关键词，在所述第五文本信息中确定至少一个第二关键词；

构建所述至少一个第一关键词和所述至少一个第二关键词的拓扑结构；

根据所述拓扑结构在预设的知识网络中进行匹配，确定所述每个视频帧图像的内容主题。

8.一种会议纪要文件生成装置，其特征在于，所述装置包括：

处理模块，用于对会议录屏文件进行分帧处理，得到至少一个视频帧图像，其中，所述至少一个视频帧图像中的每个视频帧图像的内容均不相同，确定所述每个视频帧图像对应的时间段，得到至少一个第一时间段，其中，所述至少一个第一时间段与所述至少一个视频帧图像一一对应，并根据所述至少一个时间段，对录音文件中进行拆分，得到至少一个子音频数据，其中，所述至少一个子音频数据与所述至少一个第一时间段一一对应；

生成模块，用于根据所述至少一个视频帧图像和所述至少一个子音频数据，生成会议纪要文件。

9.一种电子设备，其特征在于，包括处理器、存储器、通信接口以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述一个或多个程序包括用于执行权利要求1-7任一项方法中所述的步骤的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-7任一项所述的方法。