CN112820292B

CN112820292B - 生成会议纪要的方法、装置、电子装置及存储介质

Info

Publication number: CN112820292B
Application number: CN202011594202.5A
Authority: CN
Inventors: 夏斯勇
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2023-07-18
Anticipated expiration: 2040-12-29
Also published as: CN112820292A

Abstract

本发明涉及人工智能技术领域，提供一种生成会议纪要的方法，包括：获取会议中的语音信息；调用语音分离模型分离语音信息得到第一语音序列；调用聚类算法识别第一语音序列得到第一语音序列的起止点；根据所述第一语音序列的起止点识别所述语音信息得到多个第二语音序列的起止点，并根据所述多个第二语音序列的起止点得到多个第二语音序列；提取述第一语音序列和多个第二语音序列的音频特征，并根据音频特征确定发言者；及分别将所述第一语音序列和多个第二语音序列转换成文本信息，并将所述文本信息与所述发言者关联处理生成会议纪要。本发明还提供一种生成会议纪要的装置、电子装置及存储介质。通过本发明可以快速生成完整的会议纪要。

Description

生成会议纪要的方法、装置、电子装置及存储介质

技术领域

本发明涉及计算机技术领域，具体涉及一种生成会议纪要的方法、装置、电子装置及存储介质。

背景技术

企业内各部门项目组成员每天早上会参加项目组的晨会，主要是让整个项目组的成员了解项目的进展以及风险点等。会议上由主持人掌控整个会议流程，由专门的记录人来记录会议上的各种事项，整理每个人的发言，在会议结束后整理完会议纪要再群发给项目组成员。现有的方法存在容易遗漏关键信息，并且会后整理会议纪要耗时的问题。

发明内容

鉴于以上内容，有必要提出一种生成会议纪要的方法、装置、电子装置及存储介质，可以解决以上问题。

本发明的第一方面提供一种生成会议纪要的方法，所述方法包括：

获取会议中的语音信息；

调用语音分离模型分离所述语音信息得到第一语音序列，其中，所述第一语音序列为所述会议中的第一个发言者的语音序列；

调用聚类算法识别所述第一语音序列得到所述第一语音序列的起止点；

根据所述第一语音序列的起止点识别所述语音信息得到多个第二语音序列的起止点，并根据所述多个第二语音序列的起止点得到多个第二语音序列；

提取所述第一语音序列和多个第二语音序列的音频特征，并根据所述音频特征确定发言者信息；及

分别将所述第一语音序列和多个第二语音序列转换成文本信息，并将所述文本信息与所述发言者信息关联处理生成会议纪要。

根据本申请一些实施方式，训练所述语音分离模型的方法包括：

获取多个人的多个音频数据，并提取所述音频数据的音频特征；

将所述音频特征输入至预设神经网络模型中进行训练得到矢量特征；

获取第一发言者的第一矢量特征及第二矢量特征，并根据预设第一相似度函数计算所述第一矢量特征与所述第二矢量特征之间的第一相似度；

获取第二发言者的第三矢量特征，并根据预设第二相似度函数计算所述第一矢量特征与所述第三矢量特征之间的第二相似度；

将所述第一相似度及所述第二相似度输入至预设损失函数中计算损失函数值，当损失函数值小于或等于预设损失函数阈值时，结束所述语音分离模型的训练过程，并更新所述语音分离模型中的参数。

根据本申请一些实施方式，所述预设第一相似度函数为：COS(x_i,x_j)＝x_i ^Tx_j，其中，x_i代表第一发言者的第一矢量特征，x_j代表第一发言者的第二特征矢量，COS(x_i,x_j)为计算得到的第一相似度；所述预设第二相似度函数为：其中，x_i代表第一发言者的第一矢量特征，y_i代表第二发言者的第三矢量特征，L_p(x_i,y_i)为计算得到的第二相似度。

根据本申请一些实施方式，所述预设损失函数为：其中，α为正常数，S_i ¹³为所述第二相似度，S_i ¹²为所述第一相似度，L为计算出的损失函数值。

根据本申请一些实施方式，根据所述第一语音序列的起止点识别所述语音信息得到多个第二语音序列的起止点，并根据所述多个第二语音序列的起止点得到多个第二语音序列包括：

根据所述第一语音序列的起止点确定第一起始帧和第一终止帧；

提取所述第一起始帧的第一特征值和所述第一终止帧的第二特征值；

根据所述第一起始帧和所述第一终止帧建立滑动窗口；

将所述滑动窗口在所述语音信息中沿时间轴方向移动；

若确定所述第一特征值与所述语音信息的特征值相同时，固定所述第一起始帧在所述语音信息中的第一位置，继续滑动所述第一终止帧，直到所述第二特征值与所述语音信息的特征值相同，固定所述第一终止帧在所述语音信息中的第二位置；及

基于所述第一位置和所述第二位置确定所述第二语音的起止点，并根据所述第二语音的起止点截取所述语音信息得到第二语音序列。

根据本申请一些实施方式，根据所述第一语音序列的起止点识别所述语音信息得到多个第二语音序列的起止点，并根据所述多个第二语音序列的起止点得到多个第二语音序列还包括：

继续使用所述滑动窗口在所述语音信息中沿时间轴方向移动；

确定所述第一位置是否为所述语音信息的结尾；

若所述第一位置为所述语音信息的结尾，确认所述语音信息已分割完成；若所述第一位置不是所述语音信息的结尾，继续确定所述第一特征值与所述语音信息的特征值相同时，固定所述第一起始帧在所述语音信息中的第一位置；

继续滑动所述第一终止帧，直到所述第二特征值与所述语音信息的特征值相同，固定所述第一终止帧在所述语音信息中的第二位置；

基于所述第一位置和所述第二位置确定所述第二语音的起止点，并根据所述第二语音的起止点截取所述语音信息得到第二语音序列，直到截取完所述语音信息。

根据本申请一些实施方式，通过将所述第一语音序列和多个第二语音序列的音频特征与预存的发言者的音频特征进行比对，以确定所述第一语音序列和多个第二语音序列对应的发言者信息。

本发明的第二方面提供一种生成会议纪要的装置，所述装置包括：

获取模块，用于获取会议中的语音信息；

调用模块，用于调用语音分离模型分离所述语音信息得到第一语音序列，其中，所述第一语音序列为所述会议中的第一个发言者的语音序列；

所述调用模块，还用于调用聚类算法识别所述第一语音序列得到所述第一语音序列的起止点；

提取模块，用于根据所述第一语音序列的起止点识别所述语音信息得到多个第二语音序列的起止点，并根据所述多个第二语音序列的起止点得到多个第二语音序列；

所述提取模块，还用于提取所述第一语音序列和多个第二语音序列的音频特征，并根据所述音频特征确定发言者信息；及

生成模块，用于分别将所述第一语音序列和多个第二语音序列转换成文本信息，并将所述文本信息与所述发言者信息关联处理生成会议纪要。

本发明的第三方面提供一种电子装置，所述电子装置包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现所述生成会议纪要的方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述生成会议纪要的方法。

本发明所述的生成会议纪要的方法、装置、电子装置及存储介质。通过分离的第一语音序列处理所述语音信息得到多个第二语音序列，并且将所述第一语音序列和多个第二语音序列转换成文本后，与对应的发言人进行关联生产会议纪要。可以快速的生成完整的会议纪要，节省人力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明实施例一提供的生成会议纪要的方法的流程图。

图2是本发明实施例二提供的医学资料搜索的装置的功能模块图。

图3是本发明实施例三提供的电子装置的示意图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例的生成会议纪要的方法应用在电子装置中。所述对于需要生成会议纪要的电子装置，可以直接在电子装置上集成本发明的方法所提供的生成会议纪要的功能，或者安装用于实现本发明的方法的客户端。再如，本发明所提供的方法还可以以软件开发工具包(Software Development Kit，SDK)的形式运行在服务器等设备上，以SDK的形式提供生成会议纪要的功能的接口，电子装置或其他设备通过提供的接口即可实现生成会议纪要的功能。

实施例一

图1是本发明实施例一提供的生成会议纪要的方法的流程图。根据不同的需求，所述流程图中的执行顺序可以改变，某些步骤可以省略。

步骤S1：获取会议中的语音信息。

在本实施方式中，可以在会议进行过程中通过事先设置的音频设备(例如，录音机等)录制会议中的语音信息。也可以在会议完成后，接收其他设备(如手机)发送的在会议中录制的语音信息。需要说明的是，所述会议中的语音信息包括多人语音信息。

步骤S2：调用语音分离模型分离所述语音信息得到第一语音序列，其中，所述第一语音序列为所述会议中的第一个发言者的语音序列。

为了简化通过语音分离模型分离所述语音信息中的每个人的语音信息，在本申请中通过调用语音分离模型分离所述语音信息中的第一语音序列。再通过所述第一语音序列获取所述语音信息中的其他发言者的第二语音序列。其中，所述第一语音序列为所述会议中的第一个发言者的语音序列。

所述电子装置可以预先离线训练语音分离模型，用以分离所述语音信息中的语音序列。训练所述语音分离模型的方法包括：

其中，所述预设第一相似度函数为：COS(x_i,x_j)＝x_i ^Tx_j，其中，x_i代表第一发言者的第一矢量特征，x_j代表第一发言者的第二特征矢量，COS(x_i,x_j)为计算得到的第一相似度；所述预设第二相似度函数为：其中，x_i代表第一发言者的第一矢量特征，y_i代表第二发言者的第三矢量特征，L_p(x_i,y_i)为计算得到的第二相似度。

所述预设损失函数为：其中，α为正常数，S_i ¹³为所述第二相似度，S_i ¹²为所述第一相似度，L为计算出的损失函数值。

步骤S3：调用聚类算法识别所述第一语音序列得到所述第一语音序列的起止点。

在本实施方式中，所述第一语音序列的前几帧和后几帧可能仅包含杂音或者其他与会议无关的噪声信息(如汽笛声等)，而这些噪声信息与发言者的语音信息具有明显的区别性，通过聚类信息将噪声信息和发言者的语音信息区分开来，从而确定出第一语音序列的起始帧和终止帧，起始帧和终止帧之间的语音序列为第一语音信息帧。

示例性的，假设第一语音序列包含100帧信息，其中，前10帧信息和后15帧信息均只包含噪声信息，第11帧信息为所述第一语音序列的声音起始帧信息，第85帧信息为所述第一语音序列的声音结束帧信息。

步骤S4：根据所述第一语音序列的起止点识别所述语音信息得到多个第二语音序列的起止点，并根据所述多个第二语音序列的起止点得到多个第二语音序列。

在本实施方式中，通过所述第一语音序列获取所述语音信息中的其他发言者的第二语音序列，需要先确定所述第一语音序列的起止点。再根据所述第一语音序列的起止点获取所述语音信息中的其他发言者的语音序列的起止点。需要说明的是，所述第二语音序列可以是所述会议中的第一个发言者之后的发言者的语音序列。

具体地，得到所述第二语音序列的方法包括：

根据所述第一起始帧和所述第一终止帧建立滑动窗口；

将所述滑动窗口在所述语音信息中沿时间轴方向移动；

若确定所述第一特征值与所述语音信息的特征值相同时，固定所述第一起始帧在所述语音信息中的第一位置，继续滑动所述第一终止帧，直到所述第二特征值与所述语音信息的特征值相同，固定所述第一终止帧在所述语音信息中的第二位置；

基于所述第一位置和所述第二位置确定所述第二语音序列的起止点，并根据所述第二语音序列的起止点截取所述语音信息得到第二语音序列。

需要说明的是，若确定所述第一特征值与所述语音信息的特征值相同时，继续将所述滑动窗口在所述语音信息中沿时间轴方向移动，直到所述第一特征值与所述语音信息的特征值相同。如此，可以确定第二语音序列的起始位置。

由于所述语音信息中包括多个第二语音序列，在截取所述第一语音序列后的第一个第二语音序列后，可以继续截取所述语音信息中的其他第二语音序列。具体地，继续使用所述滑动窗口在所述语音信息中沿时间轴方向移动，确定所述第一位置是否为所述语音信息的结尾。若所述第一位置为所述语音信息的结尾，确认所述语音信息已分割完成；若所述第一位置不是所述语音信息的结尾，继续确定所述第一特征值与所述语音信息的特征值相同时，固定所述第一起始帧在所述语音信息中的第一位置，继续滑动所述第一终止帧，直到所述第二特征值与所述语音信息的特征值相同，固定所述第一终止帧在所述语音信息中的第二位置；基于所述第一位置和所述第二位置确定所述第二语音的起止点，并根据所述第二语音的起止点截取所述语音信息得到第二语音序列，直到截取完所述语音信息。

步骤S5：提取所述第一语音序列和多个第二语音序列的音频特征，并根据所述音频特征确定发言者信息。

在本实施方式中，会议记录需要将每个发言者的发言与发言者信息进行关联，因此需要根据所述音频特征确定发言者信息。具体地，所述计算机设备中预先存储有会议发言者的语音特征信息；通过将所述第一语音序列和多个第二语音序列的音频特征与预存的发言者的音频特征进行比对，以确定所述第一语音序列和多个第二语音序列对应的发言者信息。

例如，所述第一语音序列的音频特征与发言者A的语音特征相似，确定所述第一语音序列为所述发言者A在会议中的发言；所述第二语音序列的音频特征与发言者B的语音特征相似，确定所述第二语音序列为所述发言者B在会议中的发言。

需要说明的是所述音频特征与发言者的语音特征相似是指，所述音频特征与发言者的语音特征之间的相似度大于或等于所述预设值。

步骤S6：分别将所述第一语音序列和多个第二语音序列转换成文本信息，并将所述文本信息与所述发言者信息关联处理生成会议纪要。

在本实施方式中，通过文字语音转换技术将所述第一语音序列和多个第二语音序列转换成文本信息，并分别将所述第一语音序列对应的文本信息与发言者信息关联，将第二语音序列对应的文本信息与发言者信息关联。如此，可以将整个会议中的发言与对应的发言人关联，生成会议纪要。

例如，通过文字语音转换技术将所述第一语音序列转换成第一文本信息，并将所述第一文本信息与发言者A关联；通过文字语音转换技术将所述第二语音序列转换成第二文本信息，并将所述第二文本信息与发言者B关联。需要说明的是，所述文字语音转换技术为现有技术，在此不再赘述。

在本实施方式中，所述生成会议纪要的方法还包括：

发送所述会议纪要至所有参会人员。例如，将所述会议纪要通过邮件系统发送至所有参会人员。

综上所述，本发明提供的生成会议纪要的方法包括：获取会议中的语音信息；调用语音分离模型分离所述语音信息得到第一语音序列，其中，所述第一语音序列为所述会议中的第一个发言者的语音序列；调用聚类算法识别所述第一语音序列得到所述第一语音序列的起止点；根据所述第一语音序列的起止点识别所述语音信息得到多个第二语音序列的起止点，并根据所述多个第二语音序列的起止点得到多个第二语音序列；提取所述第一语音序列和多个第二语音序列的音频特征，并根据所述音频特征确定发言者信息；及分别将所述第一语音序列和多个第二语音序列转换成文本信息，并将所述文本信息与所述发言者信息关联处理生成会议纪要。本方法通过上述生成会议纪要的方法，可以无需要人工介入记录会议内容，且不会遗漏任何会议中的发言人的发言，并且通过系统发送会议纪要至所有参会人员。

以上所述，仅是本发明的具体实施方式，但本发明的保护范围并不局限于此，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出改进，但这些均属于本发明的保护范围。

下面结合图2和图3，分别对实现上述生成会议纪要的方法的电子装置的功能模块及硬件结构进行介绍。

实施例二

图2为本发明生成会议纪要的装置较佳实施例中的功能模块图。

在一些实施例中，所述生成会议纪要的装置20(为便于描述，简称为“生成装置”)运行于电子装置中。所述生成装置20可以包括多个由程序代码段所组成的功能模块。所述生成装置20中的各个程序段的程序代码可以存储于存储器中，并由至少一个处理器所执行，以执行生成会议纪要的功能。

本实施例中，所述生成装置20根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：获取模块201、调用模块202、提取模块203及生成模块204。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在一些实施例中，关于各模块的功能将在后续的实施例中详述。

所述获取模块201获取会议中的语音信息。

所述调用模块202调用语音分离模型分离所述语音信息得到第一语音序列，其中，所述第一语音序列为所述会议中的第一个发言者的语音序列。

所述调用模块202可以预先离线训练语音分离模型，用以分离所述语音信息中的语音序列。训练所述语音分离模型的方法包括：

所述调用模块202还调用聚类算法识别所述第一语音序列得到所述第一语音序列的起止点。

所述提取模块203根据所述第一语音序列的起止点识别所述语音信息得到多个第二语音序列的起止点，并根据所述多个第二语音序列的起止点得到多个第二语音序列。

具体地，得到所述第二语音序列的方法包括：

根据所述第一起始帧和所述第一终止帧建立滑动窗口；

将所述滑动窗口在所述语音信息中沿时间轴方向移动；

所述提取模块203还用于提取所述第一语音序列和多个第二语音序列的音频特征，并根据所述音频特征确定发言者信息。

所述生成模块204用于分别将所述第一语音序列和多个第二语音序列转换成文本信息，并将所述文本信息与所述发言者信息关联处理生成会议纪要。

在本实施方式中，所述生成会议纪要的装置20还可以发送所述会议纪要至所有参会人员。例如，将所述会议纪要通过邮件系统发送至所有参会人员。

综上所述，本发明所述的生成装置20，包括获取模块201、调用模块202、提取模块203及生成模块204。所述获取模块201用于获取会议中的语音信息；所述调用模块202用于调用语音分离模型分离所述语音信息得到第一语音序列，其中，所述第一语音序列为所述会议中的第一个发言者的语音序列；所述调用模块202还用于调用聚类算法识别所述第一语音序列得到所述第一语音序列的起止点；所述提取模块203用于根据所述第一语音序列的起止点识别所述语音信息得到多个第二语音序列的起止点，并根据所述多个第二语音序列的起止点得到多个第二语音序列；所述提取模块203还用于提取所述第一语音序列和多个第二语音序列的音频特征，并根据所述音频特征确定发言者信息；及所述生成模块204用于分别将所述第一语音序列和多个第二语音序列转换成文本信息，并将所述文本信息与所述发言者信息关联处理生成会议纪要。本装置通过分离的第一语音序列处理所述语音信息得到多个第二语音序列，并且将所述第一语音序列和多个第二语音序列转换成文本后，与对应的发言人进行关联生产会议纪要。既节省人力又能够方便快捷的生成完整的会议纪要。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，双屏设备，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

图3为本发明实施例三提供的电子装置的示意图。

所述电子装置3包括：存储器31、至少一个处理器32、存储在所述存储器31中并可在所述至少一个处理器32上运行的计算机程序33、至少一条通讯总线34及数据库35。

所述至少一个处理器32执行所述计算机程序33时实现上述生成会议纪要的方法实施例中的步骤。

示例性的，所述计算机程序33可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器31中，并由所述至少一个处理器32执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，所述指令段用于描述所述计算机程序33在所述电子装置3中的执行过程。

所述电子装置3可以是计算机、手机、平板电脑、个人数字助理(Personal DigitalAssistant，PDA)等安装有应用程序的设备。本领域技术人员可以理解，所述示意图3仅仅是电子装置3的示例，并不构成对电子装置3的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子装置3还可以包括输入输出设备、网络接入设备、总线等。

所述至少一个处理器32可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述处理器32可以是微处理器或者所述处理器32也可以是任何常规的处理器等，所述处理器32是所述电子装置3的控制中心，利用各种接口和线路连接整个电子装置3的各个部分。

所述存储器31可用于存储所述计算机程序33和/或模块/单元，所述处理器32通过运行或执行存储在所述存储器31内的计算机程序和/或模块/单元，以及调用存储在存储器31内的数据，实现所述电子装置3的各种功能。所述存储器31可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子装置3的使用所创建的数据(比如音频数据等)等。此外，存储器31可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

所述存储器31中存储有程序代码，且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如，图2中所述的各个模块(获取模块201、调用模块202、提取模块203及生成模块204)是存储在所述存储器31中的程序代码，并由所述至少一个处理器32所执行，从而实现所述各个模块的功能以达到生成会议纪要的目的。

所述数据库(Database)35是按照数据结构来组织、存储和管理数据的建立在所述电子装置3上的仓库。数据库通常分为层次式数据库、网络式数据库和关系式数据库三种。在本实施方式中，所述数据库35用于存储发言者的音频特征。

所述电子装置3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，所述计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)等。

在本发明所提供的几个实施例中，应所述理解到，所揭露的电子装置和方法，可以通过其它的方式实现。例如，以上所描述的电子装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

另外，在本发明各个实施例中的各功能单元可以集成在相同处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神范围。

Claims

1.一种生成会议纪要的方法，其特征在于，所述方法包括：

获取会议中的语音信息；

根据所述第一语音序列的起止点识别所述语音信息得到多个第二语音序列的起止点，并根据所述多个第二语音序列的起止点得到多个第二语音序列，包括：根据所述第一语音序列的起止点确定第一起始帧和第一终止帧；提取所述第一起始帧的第一特征值和所述第一终止帧的第二特征值；根据所述第一起始帧和所述第一终止帧建立滑动窗口；将所述滑动窗口在所述语音信息中沿时间轴方向移动；若确定所述第一特征值与所述语音信息的特征值相同时，固定所述第一起始帧在所述语音信息中的第一位置，继续滑动所述第一终止帧，直到所述第二特征值与所述语音信息的特征值相同，固定所述第一终止帧在所述语音信息中的第二位置；基于所述第一位置和所述第二位置确定所述第二语音的起止点，并根据所述第二语音的起止点截取所述语音信息得到第二语音序列；继续使用所述滑动窗口在所述语音信息中沿时间轴方向移动；确定所述第一位置是否为所述语音信息的结尾；若所述第一位置为所述语音信息的结尾，确认所述语音信息已分割完成；若所述第一位置不是所述语音信息的结尾，继续确定所述第一特征值与所述语音信息的特征值相同时，固定所述第一起始帧在所述语音信息中的第一位置；继续滑动所述第一终止帧，直到所述第二特征值与所述语音信息的特征值相同，固定所述第一终止帧在所述语音信息中的第二位置；基于所述第一位置和所述第二位置确定所述第二语音的起止点，并根据所述第二语音的起止点截取所述语音信息得到第二语音序列，直到截取完所述语音信息；

2.如权利要求1所述的生成会议纪要的方法，其特征在于，训练所述语音分离模型的方法包括：

3.如权利要求2所述的生成会议纪要的方法，其特征在于，所述预设第一相似度函数为：COS(x_i,x_j)＝x_i ^Tx_j，其中，x_i代表第一发言者的第一矢量特征，x_j代表第一发言者的第二特征矢量，COS(x_i,x_j)为计算得到的第一相似度；所述预设第二相似度函数为：其中，x_i代表第一发言者的第一矢量特征，y_i代表第二发言者的第三矢量特征，L_p(x_i,y_i)为计算得到的第二相似度。

4.如权利要求2所述的生成会议纪要的方法，其特征在于，所述预设损失函数为：其中，α为正常数，S_i ¹³为所述第二相似度，S_i ¹²为所述第一相似度，L为计算出的损失函数值。

5.如权利要求1所述的生成会议纪要的方法，其特征在于，通过将所述第一语音序列和多个第二语音序列的音频特征与预存的发言者的音频特征进行比对，以确定所述第一语音序列和多个第二语音序列对应的发言者信息。

6.一种生成会议纪要的装置，其特征在于，所述装置包括：

获取模块，用于获取会议中的语音信息；

提取模块，用于根据所述第一语音序列的起止点识别所述语音信息得到多个第二语音序列的起止点，并根据所述多个第二语音序列的起止点得到多个第二语音序列，包括：根据所述第一语音序列的起止点确定第一起始帧和第一终止帧；提取所述第一起始帧的第一特征值和所述第一终止帧的第二特征值；根据所述第一起始帧和所述第一终止帧建立滑动窗口；将所述滑动窗口在所述语音信息中沿时间轴方向移动；若确定所述第一特征值与所述语音信息的特征值相同时，固定所述第一起始帧在所述语音信息中的第一位置，继续滑动所述第一终止帧，直到所述第二特征值与所述语音信息的特征值相同，固定所述第一终止帧在所述语音信息中的第二位置；基于所述第一位置和所述第二位置确定所述第二语音的起止点，并根据所述第二语音的起止点截取所述语音信息得到第二语音序列；继续使用所述滑动窗口在所述语音信息中沿时间轴方向移动；确定所述第一位置是否为所述语音信息的结尾；若所述第一位置为所述语音信息的结尾，确认所述语音信息已分割完成；若所述第一位置不是所述语音信息的结尾，继续确定所述第一特征值与所述语音信息的特征值相同时，固定所述第一起始帧在所述语音信息中的第一位置；继续滑动所述第一终止帧，直到所述第二特征值与所述语音信息的特征值相同，固定所述第一终止帧在所述语音信息中的第二位置；基于所述第一位置和所述第二位置确定所述第二语音的起止点，并根据所述第二语音的起止点截取所述语音信息得到第二语音序列，直到截取完所述语音信息；

7.一种电子装置，其特征在于，所述电子装置包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至5中任意一项所述的生成会议纪要的方法。

8.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任意一项所述的生成会议纪要的方法。