CN118096056A

CN118096056A - 一种ai会议管理方法及系统

Info

Publication number: CN118096056A
Application number: CN202410100343.9A
Authority: CN
Inventors: 汪坚; 胡龙; 孟习柱; 周晓飞; 王胜利; 曹振江
Original assignee: Shanghai Lingang Yibang Intelligent Technology Co ltd
Current assignee: Shanghai Lingang Yibang Intelligent Technology Co ltd
Priority date: 2024-01-24
Filing date: 2024-01-24
Publication date: 2024-05-28

Abstract

本发明公开了一种AI会议管理方法及系统，包括：首先获取在线会议室内多个会议窗口的画面和语音输入信息。特定的目标会议窗口中的内容被分析以生成文字转录结果，同时应用预先训练好的音频解析模型对语音输入进行文字转换，产生文字提取结果。然后，系统将检测这些文字结果中的敏感词汇，并在确认无敏感词存在的情况下，将文字转录结果与文字提取结果融合，生成一份综合的融合文字结果。最后，基于融合文字结果自动生成会议摘要，并将该摘要与对应的目标会议窗口相关联，从而为用户提供清晰、准确的会议内容纪要。

Description

一种AI会议管理方法及系统

技术领域

本发明涉及人工智能技术领域，具体而言，涉及一种AI会议管理方法及系统。

背景技术

随着远程工作和在线交流的兴起，线上会议已成为现代商业和教育活动中不可或缺的一部分。在传统的会议管理中，会议记录往往依赖于参会人员手动记录重点或使用简单的录音设备来捕捉讨论内容，这样的做法效率低下且易出错。尽管有些软件支持自动记录会议内容，但这些系统常常无法准确区分不同发言者的声音，或者无法有效处理会议中出现的复杂语境和专业术语。此外，传统方法也无法保证敏感信息的识别和处理，可能导致机密信息的泄露。

发明内容

本发明的目的在于提供一种AI会议管理方法及系统。

第一方面，本发明实施例提供一种AI会议管理方法，包括：

获取在线会议室的多个会议窗口；

获取目标会议窗口的会议画面和语音输入信息，所述目标会议窗口为所述多个会议窗口中的任一会议窗口；

对所述会议画面进行分析，得到所述会议画面对应的文字转录结果；

调用预先训练的音频解析模型，对所述语音输入信息进行文字转换，得到所述语音输入信息对应的文字提取结果；

对所述文字转录结果和所述文字提取结果进行敏感词识别，在所述文字转录结果和所述文字提取结果均不存在敏感词的基础上，融合所述文字转录结果和所述文字提取结果，得到融合文字结果；

基于所述融合文字结果生成会议摘要，并将所述会议摘要与所述目标会议窗口关联。

在一种可能的实施方式中，所述对所述会议画面进行分析，得到所述会议画面对应的文字转录结果，包括：

获取会议画面对应的画面特征向量，所述会议画面中包括用户口型视频；

对所述画面特征向量进行属性提升，得到所述画面特征向量对应的特征增强向量；

根据所述画面特征向量获取所述会议画面对应的视频稳定值，所述视频稳定值用于表征所述会议画面的视频流畅性；

根据所述视频稳定值对所述特征增强向量进行用户口型视频分析，得到所述用户口型视频对应的文字转录结果，所述视频稳定值用于参与调整预置口型图像分析模型对所述特征增强向量进行所述用户口型视频分析时的重要程度占比，所述文字转录结果用于表征所述会议画面中分析得到的用户口型视频。

在一种可能的实施方式中，所述根据所述视频稳定值对所述特征增强向量进行用户口型视频分析，得到所述用户口型视频对应的文字转录结果，包括：

将所述视频稳定值和所述特征增强向量输入预置特征生成模型解析单元进行用户口型视频分析，输出得到所述用户口型视频对应的文字转录结果，所述解析单元中包括所述口型图像分析模型，所述解析单元用于通过所述口型图像分析模型和所述视频稳定值对所述特征增强向量进行用户口型视频分析。

在一种可能的实施方式中，所述用户口型视频中包括多个视频帧，所述文字转录结果中包括所述多个视频帧匹配的文字转录结果；

所述将所述视频稳定值和所述特征增强向量输入预置特征生成模型解析单元进行所述用户口型视频分析，输出得到所述用户口型视频对应的文字转录结果，包括：

将所述特征增强向量、前序所有视频帧对应的文字转录结果以及所述视频稳定值输入所述解析单元，输出得到目标视频帧对应的文字转录结果。

在一种可能的实施方式中，所述方法还包括：

响应于所述视频稳定值大于预设稳定值下限，设置所述解析单元中所述口型图像分析模型的重要性系数为第一重要程度占比；

响应于所述视频稳定值小于所述预设稳定值下限，设置所述解析单元中所述口型图像分析模型的重要性系数为第二重要程度占比，所述第一重要程度占比低于所述第二重要程度占比。

将所述特征增强向量、前序视频帧对应的文字转录结果以及所述视频稳定值输入所述解析单元，输出得到目标视频帧对应的文字转录结果。

在一种可能的实施方式中，所述解析单元中包括特征整合组件和第一类别判别模块；

所述将所述特征增强向量、前序视频帧对应的文字转录结果以及所述视频稳定值输入所述解析单元，输出得到目标视频帧对应的文字转录结果，包括：

将所述前序视频帧对应的文字转录结果输入所述口型图像分析模型，输出得到所述前序视频帧对应的用户口型特征向量；

通过所述特征整合组件根据所述视频稳定值将所述前序视频帧对应的用户口型特征向量以及所述特征增强向量执行合并操作，得到前序综合特征向量；

将所述前序综合特征向量输入所述第一类别判别模块，输出得到目标视频帧对应的文字转录结果。

在一种可能的实施方式中，所述多个视频帧中包括位于初始节点的初始视频帧；

所述方法还包括：

获取所述初始视频帧对应的初始特征；

将所述特征增强向量、所述初始特征和所述视频稳定值输入所述解析单元，输出得到初始视频帧对应的文字转录结果。

在一种可能的实施方式中，所述获取会议画面对应的画面特征向量，包括：

将所述会议画面输入特征抽取组件执行特征抽取操作，输出得到所述会议画面对应的所述画面特征向量；

所述对所述画面特征向量进行属性提升，得到所述画面特征向量对应的特征增强向量，包括：

将所述画面特征向量输入池化组件进行所述属性提升，输出得到所述特征增强向量；

所述根据所述画面特征向量获取所述会议画面对应的视频稳定值，包括：

将所述画面特征向量输入第二类别判别模块，输出得到所述会议画面对应的视频稳定值；

所述第二类别判别模块中包括多个流畅性状态；

将所述画面特征向量输入所述第二类别判别模块，输出得到所述会议画面对应的视频稳定值，包括：

将所述画面特征向量输入所述第二类别判别模块，输出得到所述会议画面在所述多个流畅性状态上匹配的类别判定置信度；

将所述会议画面在所述多个流畅性状态上匹配的类别判定置信度的平均置信度，作为所述会议画面对应的视频稳定值；

所述将所述画面特征向量输入所述第二类别判别模块，输出得到所述会议画面对应的视频稳定值之前，还包括：

获取样本会议画面对应的画面特征向量，所述样本会议画面中包括样本用户口型视频，所述样本会议画面被预先标记稳定性标识；

将所述画面特征向量输入基础类别判别模块，输出得到所述样本会议画面对应的视频稳定值；

根据所述视频稳定值和所述稳定性标识之间的差异对所述基础类别判别模块进行训练，得到所述第二类别判别模块；

所述样本会议画面中的所述样本用户口型视频还被预先标记用户口型标识；

所述将所述视频稳定值和所述特征增强向量输入所述解析单元进行所述用户口型视频分析，输出得到所述用户口型视频对应的文字转录结果之前，还包括：

将所述特征增强向量和所述视频稳定值输入样本解析单元，输出得到所述样本用户口型视频对应的预测文字转录结果；

根据所述预测文字转录结果和所述用户口型标识之前的差异，对所述样本解析单元进行训练，得到所述解析单元。

第二方面，本发明实施例提供一种服务器系统，包括服务器，所述服务器用于执行第一方面至少一种可能的实施方式中的方法。

相比现有技术，本发明提供的有益效果包括：采用本发明公开的一种AI会议管理方法及系统，通过获取在线会议室内多个会议窗口的画面和语音输入信息。特定的目标会议窗口中的内容被分析以生成文字转录结果，同时应用预先训练好的音频解析模型对语音输入进行文字转换，产生文字提取结果。然后，系统将检测这些文字结果中的敏感词汇，并在确认无敏感词存在的情况下，将文字转录结果与文字提取结果融合，生成一份综合的融合文字结果。最后，基于融合文字结果自动生成会议摘要，并将该摘要与对应的目标会议窗口相关联，从而为用户提供清晰、准确的会议内容纪要。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的AI会议管理方法步骤流程示意框图；

图2为本发明实施例提供的计算机设备结构示意框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

为了解决前述背景技术中的技术问题，图2为本公开实施例提供的AI会议管理方法的流程示意图，下面对该AI会议管理方法进行详细介绍。

步骤S201，获取在线会议室的多个会议窗口；

步骤S202，获取目标会议窗口的会议画面和语音输入信息，所述目标会议窗口为所述多个会议窗口中的任一会议窗口；

步骤S203，对所述会议画面进行分析，得到所述会议画面对应的文字转录结果；

步骤S204，调用预先训练的音频解析模型，对所述语音输入信息进行文字转换，得到所述语音输入信息对应的文字提取结果；

步骤S205，对所述文字转录结果和所述文字提取结果进行敏感词识别，在所述文字转录结果和所述文字提取结果均不存在敏感词的基础上，融合所述文字转录结果和所述文字提取结果，得到融合文字结果；

步骤S206，基于所述融合文字结果生成会议摘要，并将所述会议摘要与所述目标会议窗口关联。

在本发明实施例中，假设有一个公司正在使用Microsoft Teams进行全员大会，其中包括主题演讲、部门汇报等多个环节。这些环节在不同的会议窗口中同时进行。AI系统通过调用Teams的API接口获取了当前所有活跃的会议窗口列表。AI选择了“市场部门的季度销售汇报”作为目标会议窗口。它捕获了该窗口的视频流，视频里显示了正在发言的销售经理，以及音频流，音频中传输着销售经理的讲话声音。AI系统使用计算机视觉技术对视频流中销售经理的口型进行实时分析，以辅助语音识别。这种技术可以帮助在嘈杂的背景噪音或者当音频质量不佳时，更准确地识别说话者的话语。同时，AI使用预先训练好的深度学习音频解析模型处理从销售经理那里捕获的音频流。即使销售经理可能会快速说话或有轻微的口音，这个模型也能将他的话语转写成文本。接下来，AI系统检查从口型分析和语音转写中得到的文字内容，搜索是否有不适当的语言或敏感词汇。在确认没有敏感词后，它将基于口型分析得到的文字转录结果与基于音频得到的文字提取结果进行融合，从而提高整体的转写准确性。最终，AI利用融合后的文字结果，自动生成一份摘要，精炼地总结了市场部门销售经理的报告要点、数据亮点和未来策略。然后，这份摘要被存档并与“市场部门的季度销售汇报”这个目标会议窗口相关联，方便参会人员会后查阅。

在本发明实施例中，前述步骤S203通过以下步骤执行实施。

(1)获取会议画面对应的画面特征向量，所述会议画面中包括用户口型视频；

(2)对所述画面特征向量进行属性提升，得到所述画面特征向量对应的特征增强向量；

(3)根据所述画面特征向量获取所述会议画面对应的视频稳定值，所述视频稳定值用于表征所述会议画面的视频流畅性；

()根据所述视频稳定值对所述特征增强向量进行用户口型视频分析，得到所述用户口型视频对应的文字转录结果，所述视频稳定值用于参与调整预置口型图像分析模型对所述特征增强向量进行所述用户口型视频分析时的重要程度占比，所述文字转录结果用于表征所述会议画面中分析得到的用户口型视频。

在本发明实施例中，设想有一个在线商务会议正在进行，会议软件通过摄像头捕捉到了参与者的实时视频。其中一名团队成员正在进行项目汇报。AI系统首先会提取该成员的视频帧，并将其转化为一系列的画面特征向量，这些向量可能包括人脸定位、嘴唇移动轨迹、表情等信息。在提取的特征向量中，AI系统使用深度学习模型来增强与口型相关的特征。这意味着它可以更准确地识别出不同的口型形态，例如闭嘴、微张、全开等，从而对后续的读唇过程提供更多的信息。由于网络波动或者摄像头的抖动，参与者的视频流可能会出现不稳定，比如画面冻结或跳跃。AI系统计算每一帧的视频稳定值，以判断视频质量和流畅性。视频稳定值越高，代表视频质量越好，反之则可能需要额外处理以确保读唇分析的准确性。AI系统在分析团队成员的口型视频时，会考虑视频稳定值。如果视频很流畅，则直接根据特征增强向量进行读唇分析；若视频稳定性差，系统可能会调整预置的口型图像分析模型的参数，以降低视频不稳定因素的影响。例如，AI可能会忽略那些因为视频抖动导致的异常口型数据。经过上述步骤后，AI系统成功分析出了团队成员口型视频对应的文字内容。例如，尽管成员只是在屏幕前讲话，没有实际的语音输入(可能因为他们的麦克风被静音或者环境太吵)，AI系统仍能通过读唇技术将说话内容转录成文字。然后，这些文字内容可以作为实时字幕显示在其他与会者的屏幕上，或者存档用于会后审查。通过这种方式，AI系统不仅能提高对正在讲话者的识别准确率，也能在有声音干扰的环境下提供清晰的交流途径。这在实际应用中可以显著改善在线会议的交流效果，尤其是对于听力受损或者需要在安静环境中工作的人员。

在本发明实施例中，前述根据所述视频稳定值对所述特征增强向量进行用户口型视频分析，得到所述用户口型视频对应的文字转录结果的步骤，可以通过以下步骤执行实施。

在本发明实施例中，AI系统实时监控每个用户的视频流，计算视频的稳定性。比如说，项目经理Tom正在进行汇报，但他的网络连接不稳定，导致视频出现抖动和模糊。AI系统通过分析视频帧之间的变化，得到了一个反映视频质量波动的稳定值。同时，AI系统还专注于Tom的面部特征，尤其是他的口型。它利用高级图像处理技术从不稳定的视频中提取出增强的口型特征向量，这些向量包含了与Tom口型变化相关的关键信息。接下来，预置特征生成模型解析单元(一个先进的深度学习模型)开始工作。它接收来自前两步的视频稳定值和特征增强向量作为输入。假设Tom在讨论“第三季度销售目标”，但由于网络问题，他的声音有所干扰。此时，口型图像分析模型结合视频稳定值调整对特征增强向量的解释，从而优化对Tom口型的解读。通过复杂的神经网络运算，解析单元最终成功地将Tom的口型变化转换成文字，即使在视频信号不佳的情况下也能准确捕捉到他所说的，“我们的第三季度销售目标是增长15％。”这样的转录结果随后被显示在屏幕上，或者保存到会议记录中，供所有参与者查阅。即使面临网络波动和视频不稳定的挑战，该AI会议管理方法仍然能够有效地将口型视频信息转换为文字转录，保证了信息传递的准确性和会议效率。

在本发明实施例中，所述用户口型视频中包括多个视频帧，所述文字转录结果中包括所述多个视频帧匹配的文字转录结果；前述所述将所述视频稳定值和所述特征增强向量输入预置特征生成模型解析单元进行所述用户口型视频分析，输出得到所述用户口型视频对应的文字转录结果的步骤，可以通过以下示例执行实施。

(1)将所述特征增强向量、前序所有视频帧对应的文字转录结果以及所述视频稳定值输入所述解析单元，输出得到目标视频帧对应的文字转录结果。

在本发明实施例中，设想一场在线教育课程正在进行，教师正在远程讲授课程内容。学生通过网络连接观看教师的实时视频流。这个视频流由连续的视频帧组成，每一帧捕捉了教师不同时间点的口型。为了确保学生们即使在无声状态下也能理解讲授内容，AI系统需要逐帧分析教师的口型，并将每个口型与相应的文字转录匹配起来。这样，当教师提到“光合作用”这个概念时，哪怕学生没有听到声音，也能通过阅读实时生成的字幕来理解。AI系统在处理当前视频帧的同时，会考虑之前所有视频帧的文字转录结果和当前帧的视频稳定性。例如，如果当前帧画面抖动较少且前几帧的文字转录显示教师在讲解细胞结构，AI系统可以预测出教师接下来可能会讲到相关的术语，如“细胞膜”、“细胞核”。结合特征增强向量、历史转录信息和视频稳定性，AI系统通过其解析单元(可能是深度神经网络模型)计算出最可能匹配当前口型的文字。比如，当教师的嘴形呈现“m”时，紧跟着是“b”，并且上文提到了“细胞膜”，AI系统可以准确地转录出“膜”这个词。通过这种方法，AI系统不仅利用了单帧图像的信息，还结合了视频流中的连续性和稳定性因素，以及语境信息，从而大大提高了口型视频分析的准确性和效率。这种技术尤其适用于那些需要精确口型识别和转录的场合，如在线教育、远程会议、新闻播报等。此外，它对于改善听障人士的交流体验也具有重要价值。

在本发明实施例中，还提供了以下实施方式。

(1)响应于所述视频稳定值大于预设稳定值下限，设置所述解析单元中所述口型图像分析模型的重要性系数为第一重要程度占比；

(2)响应于所述视频稳定值小于所述预设稳定值下限，设置所述解析单元中所述口型图像分析模型的重要性系数为第二重要程度占比，所述第一重要程度占比低于所述第二重要程度占比。

在本发明实施例中，假设一个国际公司正在进行跨国视频会议，其中包括多个国家的分支机构。由于参与者所在的地理位置和网络环境差异，会议中的视频稳定性有高有低。AI系统持续监控每位参与者的视频质量。当英国分部的经理Sarah正在汇报时，她的网络非常稳定，因此她的视频稳定值高于预设的稳定值下限。而另一边，来自印度分部的经理Raj的网络较差，视频频繁冻结，导致他的视频稳定值低于预设的稳定值下限。对于Sarah的情况，由于视频流畅，AI系统设置解析单元中口型图像分析模型的重要性系数为第一重要程度占比，这意味着系统更多依赖实际音频输入，对口型图像分析模型的依赖较少。因此，AI系统主要使用音频识别来转录她的汇报内容，并辅以读唇技术以提高准确性。另一方面，针对Raj的情况，AI系统提高了口型图像分析模型的重要性系数，设为第二重要程度占比，这一占比高于第一重要程度占比。由于视频不稳定，AI系统降低对音频识别的依赖，增加对读唇分析的依赖，以确保转录的准确性。在这种智能调整下，当Sarah的清晰视频与她的清晰语音同步时，AI系统能够高效地生成准确的文字转录结果。即使在网络连接良好时，读唇技术也作为辅助手段提供额外的校验点。对于Raj的情况，即使他的语音信号被噪声干扰或丢失，AI系统依然可以通过读唇技术对其口型进行深入分析，以补充音频信息不足的部分。这样，即便在较差的网络条件下，系统也能提供相对准确的文字转录。随着会议的进行，无论网络条件如何变化，AI系统都能实时调整并生成所有参与者发言的文字转录结果。最终，这些转录结果会被用来生成会议摘要，它不仅记录了每位发言者的主要观点，还反映了讨论的全貌。通过这种方式，该AI会议管理方法能够适应不同的视频会议环境，并确保信息传递的连贯性和准确性。这对于多元化和分布式团队的沟通尤其重要，有助于跨越地理和语言障碍，提高会议效率和参与感。

在本发明实施例中，所述用户口型视频中包括多个视频帧，所述文字转录结果中包括所述多个视频帧匹配的文字转录结果；前述将所述视频稳定值和所述特征增强向量输入预置特征生成模型解析单元进行所述用户口型视频分析，输出得到所述用户口型视频对应的文字转录结果的步骤，还可以通过以下方式执行实施。

(1)将所述特征增强向量、前序视频帧对应的文字转录结果以及所述视频稳定值输入所述解析单元，输出得到目标视频帧对应的文字转录结果。

在本发明实施例中，假设有一家跨国公司正在举行董事会议，与会者遍布全球不同地区。由于网络条件的不同，某些参与者的视频流可能存在延迟或质量问题。AI系统需要在这种复杂环境中准确地捕获并转录每位与会者的发言内容。在会议中，首席财务官(CFO)正通过视频链接展示财务报告。她的发言伴随着幻灯片演示，因此即使听不到声音，参与者也可以通过看她的口型理解内容。AI系统连续捕获CFO的每个视频帧，并对其口型进行分析。AI系统不仅要识别当前视频帧中的口型，还要考虑之前视频帧中的发言内容，以便更准确地预测接下来的发言内容。例如，如果CFO先前的话语是关于“收入”的，那么当她的嘴型出现与“增长”相匹配的形态时，AI就可以推断她接下来会说“收入增长”。AI系统将包含最新画面特征的特征增强向量、前序视频帧的文字转录结果以及当前视频稳定值一同输入到预置的特征生成模型解析单元。这个解析单元可能是一个深度学习模型，它能够综合所有信息并准确预测当前视频帧的口型对应的文字。通过解析单元的计算，AI系统得到了CFO当前帧的口型对应的文字转录结果。尽管网络连接可能导致视频质量不佳，但是结合视频稳定值的分析，系统能够调整其预测模型，降低网络抖动对读唇准确性的影响。最终，即使CFO的声音因为网络故障而被切断，参与者仍然可以通过屏幕上的实时字幕跟上她的报告。通过这种方法，AI系统在面对多个视频帧的口型分析和转录任务时，不仅能处理单个视频帧，还能够综合使用视频流中的连续性和历史数据，提高转录的准确率和鲁棒性。这对于保证远程会议中信息交流的清晰度和效率至关重要，特别是在网络环境不稳定或者需要静音情况下的会议场景。

在本发明实施例中，所述解析单元中包括特征整合组件和第一类别判别模块；前述将所述特征增强向量、前序视频帧对应的文字转录结果以及所述视频稳定值输入所述解析单元，输出得到目标视频帧对应的文字转录结果的步骤，可以通过以下示例实现。

(1)将所述前序视频帧对应的文字转录结果输入所述口型图像分析模型，输出得到所述前序视频帧对应的用户口型特征向量；

(2)通过所述特征整合组件根据所述视频稳定值将所述前序视频帧对应的用户口型特征向量以及所述特征增强向量执行合并操作，得到前序综合特征向量；

(3)将所述前序综合特征向量输入所述第一类别判别模块，输出得到目标视频帧对应的文字转录结果。

在本发明实施例中，设想一个虚构的情境，一家国际公司正在举行董事会议，讨论即将发布的新产品。由于全球参与者需要远程连接，网络稳定性的波动成为了一个挑战。某些与会者的视频信号可能因为不稳定的互联网连接而时断时续。公司的首席技术官(CTO)正展示新产品的技术规格。AI系统实时捕获他的视频帧，并从每一帧中提取特征增强向量。同时，系统还存有之前发言人视频帧的文字转录结果。AI系统利用前序视频帧的文字转录结果，以及这些结果对应的用户口型特征向量，作为语境参考。例如，如果前一位发言者谈论了市场趋势，那么CTO可能接下来要提到的相关技术或数据。AI系统内部的特征整合组件会根据当前视频稳定值，将前序视频帧的用户口型特征向量与当前帧的特征增强向量进行合并操作，创建出一个综合的特征向量。这样做可以更好地适应网络波动，减少这些波动对文字转录精确度的影响。综合特征向量随后被送入第一类别判别模块。该模块使用先进的分类算法来预测目标视频帧的口型对应的正确文字。当CTO的视频信号突然变差时，这个模块就能够依赖已整合的特征信息，来保持文字转录的连贯性和准确性。最终，AI系统成功输出CTO当前视频帧的文字转录结果。即便在网络条件不佳时，与会者仍能看到清晰的字幕，准确理解CTO关于新产品技术规格的详细介绍。通过将前序视频帧的文字转录和口型特征向量与当前帧的特征整合，并使用分类判别模块来处理复杂的口型视频分析任务，大大提高了视频会议中文字转录的准确率和可靠性，尤其是在网络稳定性不一的环境中。

在本发明实施例中，所述多个视频帧中包括位于初始节点的初始视频帧；本发明实施例还提供以下示例。

(1)获取所述初始视频帧对应的初始特征；

(2)将所述特征增强向量、所述初始特征和所述视频稳定值输入所述解析单元，输出得到初始视频帧对应的文字转录结果。

在本发明实施例中，设想一个公司正在举办季度全员大会，会议以视频形式进行，参与者包括总部的高层管理人员和全球各地的分支机构员工。由于参与者众多，网络状况复杂，因此对视频流的稳定性和清晰度有很高的要求。大会开始时，首席执行官(CEO)发表开场白。AI系统定位到这个时间点作为初始节点，并获取CEO讲话开始时的初始视频帧。这个初始视频帧至关重要，因为它是后续转录和分析的基础。AI系统从初始视频帧中提取初始特征，这些特征可能包括CEO的面部特征、口型、背景环境等。这些信息有助于AI系统初始化其解析模型，并为后续视频帧的分析奠定基准。随着会议的进展，CEO的讲话被分割成多个连续的视频帧。AI系统结合特征增强向量、初始特征以及实时计算的视频稳定值，不断输入解析单元。解析单元根据这些输入数据生成初始视频帧的文字转录结果。当网络出现波动导致某些视频帧质量下降时，AI系统利用已经获得的初始特征和之前的转录结果来增强当前帧的分析。例如，如果CEO正在讨论公司的新战略，并且“战略”一词在初始帧中已经被提及，即使后续帧因为网络问题变得模糊，系统也能够凭借初始特征和上下文推断出相应的转录内容。通过上述过程，无论网络条件如何变化，AI系统都能够为CEO的每个视频帧提供准确的文字转录结果。这些实时字幕对于听力障碍的员工或者那些在嘈杂环境中无法清晰听见声音的员工尤其重要。同时，这些转录结果还可以被用来创建会议记录，供未来回顾和分析。

在本发明实施例中，前述获取会议画面对应的画面特征向量的步骤，包括：

(1)将所述会议画面输入特征抽取组件执行特征抽取操作，输出得到所述会议画面对应的所述画面特征向量；

前述对所述画面特征向量进行属性提升，得到所述画面特征向量对应的特征增强向量的步骤，包括：

(1)将所述画面特征向量输入池化组件进行所述属性提升，输出得到所述特征增强向量；

前述根据所述画面特征向量获取所述会议画面对应的视频稳定值的步骤，包括：

(1)将所述画面特征向量输入第二类别判别模块，输出得到所述会议画面对应的视频稳定值；

所述第二类别判别模块中包括多个流畅性状态；

前述将所述画面特征向量输入所述第二类别判别模块，输出得到所述会议画面对应的视频稳定值的步骤，包括：

(1)将所述画面特征向量输入所述第二类别判别模块，输出得到所述会议画面在所述多个流畅性状态上匹配的类别判定置信度；

(2)将所述会议画面在所述多个流畅性状态上匹配的类别判定置信度的平均置信度，作为所述会议画面对应的视频稳定值；

前述将所述画面特征向量输入所述第二类别判别模块，输出得到所述会议画面对应的视频稳定值的步骤之前，还包括：

(1)获取样本会议画面对应的画面特征向量，所述样本会议画面中包括样本用户口型视频，所述样本会议画面被预先标记稳定性标识；

(2)将所述画面特征向量输入基础类别判别模块，输出得到所述样本会议画面对应的视频稳定值；

(3)根据所述视频稳定值和所述稳定性标识之间的差异对所述基础类别判别模块进行训练，得到所述第二类别判别模块；

前述将所述视频稳定值和所述特征增强向量输入所述解析单元进行所述用户口型视频分析，输出得到所述用户口型视频对应的文字转录结果的步骤之前，还包括：

(1)对所述画面特征向量进行属性提升，得到所述画面特征向量对应的特征增强向量；

(2)将所述特征增强向量和所述视频稳定值输入样本解析单元，输出得到所述样本用户口型视频对应的预测文字转录结果；

(3)根据所述预测文字转录结果和所述用户口型标识之前的差异，对所述样本解析单元进行训练，得到所述解析单元。

在本发明实施例中，公司的视频会议系统集成了AI辅助系统，当欧洲区域经理通过视频发表演讲时，特征抽取组件实时工作，捕捉并分析他的画面，输出与会议画面相对应的画面特征向量。提取出的画面特征向量随后被送入池化组件。这个组件负责提炼和增强特征，以便更好地捕获关键视觉信息，比如说话者的表情、口型等，最终生成特征增强向量。为了训练第二类别判别模块，开发团队事先收集了大量不同网络条件下的样本会议画面，并对每个样本的稳定性和用户口型进行了标记。使用标记过的样本会议画面，开发团队训练了基础类别判别模块，使其能够根据画面特征向量预测视频稳定值。经过训练，第二类别判别模块能够对任何新的会议画面给出一个视频稳定值，这个值是基于画面特征向量在多个流畅性状态上的匹配类别判定置信度的平均值。与第二类别判别模块的训练类似，样本解析单元也通过大量预先标记过的用户口型视频进行训练，学习如何将特征增强向量和视频稳定值转换为准确的文字转录结果。在实际会议中，AI系统将特征增强向量和视频稳定值输入解析单元，这时解析单元利用训练得到的知识，分析当前说话者的口型视频，并输出对应的文字转录结果。如此设计，能够实现高精度的视频稳定性评估和口型转录，即使在网络环境不佳的情况下也能保持较高的准确性。通过这种方法，会议参与者可以获得更加流畅和清晰的会议体验，同时确保重要信息不会因技术问题而遗失。

本发明实施例提供一种计算机设备100，计算机设备100包括处理器及存储有计算机指令的非易失性存储器，计算机指令被处理器执行时，计算机设备100执行前述的AI会议管理方法。如图2所示，图2为本发明实施例提供的计算机设备100的结构框图。计算机设备100包括存储器111、处理器112及通信单元113。为实现数据的传输或交互，存储器111、处理器112以及通信单元113各元件相互之间直接或间接地电性连接。例如，可通过一条或多条通讯总线或信号线实现这些元件相互之间电性连接。

出于说明目的，前面的描述是参考具体实施例而进行的。但是，上述说明性论述并不打算穷举或将本公开局限于所公开的精确形式。根据上述教导，众多修改和变化都是可行的。选择并描述这些实施例是为了最佳地说明本公开的原理及其实际应用，从而使本领域技术人员最佳地利用本公开，并利用具有不同修改的各种实施例以适于预期的特定应用。出于说明目的，前面的描述是参考具体实施例而进行的。但是，上述说明性论述并不打算穷举或将本公开局限于所公开的精确形式。根据上述教导，众多修改和变化都是可行的。选择并描述这些实施例是为了最佳地说明本公开的原理及其实际应用，从而使本领域技术人员最佳地利用本公开，并利用具有不同修改的各种实施例以适于预期的特定应用。

Claims

1.一种AI会议管理方法，其特征在于，包括：

获取在线会议室的多个会议窗口；

2.根据权利要求1所述的方法，其特征在于，所述对所述会议画面进行分析，得到所述会议画面对应的文字转录结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述视频稳定值对所述特征增强向量进行用户口型视频分析，得到所述用户口型视频对应的文字转录结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述用户口型视频中包括多个视频帧，所述文字转录结果中包括所述多个视频帧匹配的文字转录结果；

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

6.根据权利要求3所述的方法，其特征在于，所述用户口型视频中包括多个视频帧，所述文字转录结果中包括所述多个视频帧匹配的文字转录结果；

7.根据权利要求6所述的方法，其特征在于，所述解析单元中包括特征整合组件和第一类别判别模块；

8.根据权利要求6所述的方法，其特征在于，所述多个视频帧中包括位于初始节点的初始视频帧；

所述方法还包括：

获取所述初始视频帧对应的初始特征；

9.根据权利要求3所述的方法，其特征在于，所述获取会议画面对应的画面特征向量，包括：

所述第二类别判别模块中包括多个流畅性状态；

10.一种服务器系统，其特征在于，包括服务器，所述服务器用于执行权利要求1至9中任一项所述的方法。