CN112053691A

CN112053691A - 会议辅助方法、装置、电子设备及存储介质

Info

Publication number: CN112053691A
Application number: CN202010997217.XA
Authority: CN
Inventors: 邓滨
Original assignee: Guangdong Midin Technology Co ltd
Current assignee: Guangdong Midin Technology Co ltd
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2020-12-08
Anticipated expiration: 2040-09-21
Also published as: CN112053691B

Abstract

本发明实施例涉及智能会议技术领域，公开了一种会议辅助方法、装置、电子设备及存储介质。该方法包括：接收各会议终端发送的语音信号；对所述语音信号进行处理，获取对应的声纹信息以及语音转换后的文字信息；将所述声纹信息和文字信息相对应，按照语音信号的接收时间顺序得到会议记录。实施本发明实施例，通过声纹识别和语音转换，得到实时的会议记录包括了每个发言人的发言时间和发言内容，不需要在人工添加或调整会议信息，效率高。

Description

会议辅助方法、装置、电子设备及存储介质

技术领域

本发明涉及智能会议技术领域，具体涉及一种会议辅助方法、装置、电子设备及存储介质。

背景技术

现有的会议举行方式多为线下方式，即通过事先预定，线下通知方式实现。会议记录一般也是在会议过程中选定至少一人辅助人员，手动记录会议内容或者对参会人员的发言进行录音，在会议后整理成得到。这样的会议记录方式存在以下问题：1、效率低下，而且浪费人力成本；2、准确度和完整性可能存在一定的问题，特别是手动记录会议内容时。

也有通过语音转换文字方式实现会议自动记录的相关文献，这种方式较手动记录方式效率高很多，而且会议内容的完整性得到很好的保证，但是，还是需要辅助人员手动添加一些标识，例如哪位参会者的发言，很多时候并不难准确记住各个参会者的发言内容，造成一定程度的不准确，或者再借助录音信息，仍然存在效率低下的问题。

发明内容

针对所述缺陷，本发明实施例公开了一种会议辅助方法、装置、电子设备及存储介质，可以自动得到每个发言人的会议记录。

本发明实施例第一方面公开一种会议辅助方法，所述方法包括：

接收各会议终端发送的语音信号；

对所述语音信号进行处理，获取对应的声纹信息以及语音转换后的文字信息；

将所述声纹信息和文字信息相对应，按照语音信号的接收时间顺序得到会议记录。

作为一种可选的实施方式，在本发明实施例第一方面中，所述获取语音转换后的文字信息，包括：

对所述语音信号进行识别，得到第一部分和第二部分，其中，第一部分为基于所述语音信号识别得到的文字信息，第二部分是未被识别的语音信号；

获取每个所述第二部分的时长；

在所述时长大于或等于第一预设阈值时，确定所述第二部分在前和在后的声纹信息，并将所述第二部分输入预先训练的语音分离网络模型，得到对所述第二部分的语音进行分离得到的多个语音分离信息；

获取每个所述语音分离信息的声纹信息；

确定目标语音分离信息，所述目标语音分离信息为在所述语音分离信息的声纹信息中与所述在前的声纹信息或/和在后的声纹信息或/和预设声纹信息的相似度大于或等于第二预设阈值的语音分离信息；

根据所述目标语音分离信息得到第二部分的会议记录。

作为一种可选的实施方式，在本发明实施例第一方面中，根据所述目标语音分离信息得到第二部分的会议记录，包括：

在所述目标语音分离信息的声纹信息仅与在前的声纹信息的相似度大于或等于第二预设阈值时，添加所述目标语音分离信息得到的会议记录至所述在前的声纹信息对应的会议记录之后；

在所述目标语音分离信息的声纹信息仅与在后的声纹信息的相似度大于或等于第二预设阈值时，添加所述目标语音分离信息得到的会议记录至所述在后的声纹信息对应的会议记录之前；

在所述目标语音分离信息的声纹信息与所述在前和在后的声纹信息的相似度均大于或等于第二预设阈值时，添加所述目标语音分离信息得到的会议记录至所述在前和在后的声纹信息对应的会议记录之间；

在所述目标语音分离信息的声纹信息仅与所述预设声纹信息的相似度均大于或等于第二预设阈值时，将所述目标语音分离信息得到的会议记录独立于第一部分形成的会议记录，并为所述目标语音分离信息得到的会议记录添加起止时间。

作为一种可选的实施方式，在本发明实施例第一方面中，对所述语音信号进行处理，获取对应的声纹信息以及语音转换后的文字信息，包括：

对所述语音信号进行处理，得到对应的声纹信息；

将所述声纹信息与预设声纹信息进行相似度比对，当且仅当所述声纹信息与其中一个预设声纹信息的相似度大于或等于第三预设阈值时，将所述声纹信息对应的语音信号转换成文字信息。

作为一种可选的实施方式，在本发明实施例第一方面中，所述方法，还包括：

接收参会者通过会议终端进行签到得到的身份识别信息；

根据所述身份识别信息确定参会者对应的预设声纹信息；

对所述语音信号进行处理，获取对应的声纹信息以及语音转换后的文字信息，包括：

确定目标语音信号来源的目标会议终端，并获取在所述目标会议终端进行签到的一个或多个目标参会者；

获取所述一个或多个目标参会者对应的一个或多个目标预设声纹信息；

对所述目标语音信号进行处理，得到对应的目标声纹信息；

将所述目标声纹信息与所述一个或多个目标预设声纹信息进行相似度比对，当且仅当所述目标声纹信息与其中一个目标预设声纹信息的相似度大于或等于第三预设阈值时，将所述目标语音信号转换成文字信息。

作为一种可选的实施方式，在本发明实施例第一方面中，将所述声纹信息和文字信息相对应，按照语音信号的接收时间顺序得到会议记录，包括：

根据所述声纹信息获取对应的身份标识；

基于不同的声纹信息对所述文字信息进行分段，获取每段文字信息对应的身份标识和起止时间；

基于所述起止时间对每段文字信息进行排序，并为排序后的每段文字信息添加身份标识，得到会议记录。

接收通过会议终端发送的会议预定信息，根据所述会议预定信息生成会议提醒信息或/和会议冲突信息；

所述会议预定信息包括会议时间、地点和参会者；

所述会议提醒信息为向所述发送会议预定信息的会议终端发送的预定成功信息或/和向参会者发送的会议时间和会议地点；

所述会议冲突信息为向所述发送会议预定信息的会议终端发送的会议地点冲突信息或/和向参会者发送的会议时间冲突信息。

本发明实施例第二方面公开一种会议辅助装置，其包括：

接收单元，用于接收各会议终端发送的语音信号；

处理单元，用于对所述语音信号进行处理，获取对应的声纹信息以及语音转换后的文字信息；

生成单元，用于将所述声纹信息和文字信息相对应，按照语音信号的接收时间顺序得到会议记录。

本发明实施例第三方面公开一种电子设备，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行本发明实施例第一方面公开的一种会议辅助方法。

本发明实施例第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的一种会议辅助方法。

本发明实施例第五方面公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的一种会议辅助方法。

本发明实施例第六方面公开一种应用发布平台，所述应用发布平台用于发布计算机程序产品，其中，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的一种会议辅助方法。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，接收各会议终端发送的语音信号；对所述语音信号进行处理，获取对应的声纹信息以及语音转换后的文字信息；将所述声纹信息和文字信息相对应，按照语音信号的接收时间顺序得到会议记录。可见，实施本发明实施例，通过声纹识别和语音转换，得到实时的会议记录包括了每个发言人的发言时间和发言内容，不需要在人工添加或调整会议信息，效率高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人体来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种会议辅助方法的流程示意图；

图2是本发明实施例公开的语音信号转换文字信息的流程示意图；

图3是本发明实施例公开的会议记录生成的流程示意图；

图4是本发明实施例公开的另一种会议辅助方法的流程示意图；

图5是本发明实施例公开的又一种会议辅助方法的流程示意图；

图6是本发明实施例公开的一种会议辅助装置的结构示意图；

图7是本发明实施例公开的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人体在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象，而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，示例性地，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例公开了一种会议辅助方法、装置、电子设备及存储介质，其通过声纹识别和语音转换，得到实时的会议记录包括了每个发言人的发言时间和发言内容，不需要在人工添加或调整会议信息，效率高，以下结合附图进行详细描述。

实施例一

请参阅图1，图1是本发明实施例公开的一种会议辅助方法的流程示意图。其中，本发明实施例所描述的方法适用于手机、平板电脑、各种会议终端等智能终端以及具有较强计算能力的计算机、笔记本电脑以及云服务器或实体服务器等，这里根据其功能记为会议记录生成设备。如图1所示，该会议辅助方法包括以下步骤：

110、接收各会议终端发送的语音信号。

会议终端可以是小型的具有一定会议功能的设备例如手机、平板电脑、笔记本电脑以及自制的具有声音拾取和播放、视频采集和显示等会议功能的终端设备，会议终端一般会承载相应的会议软件例如腾讯会议、钉钉或者自制软件等。会议终端还可以是现有成熟的位于会议室的大型会议设备。

会议终端的数量可以是一个或多个，接收语音信号可以通过触发方式进行，触发方式有多种，示例性地，通过启动麦克风阵列或者启动相应的会议app，或者基于某些语音例如：现在开始开会等，会议终端具有一定的检测或处理功能，即对麦克风阵列的工作检测，或者启动会议app的检测，或者简短的语音识别。基于上述的触发方式可以使得会议终端启动语音信号的发送功能，通过有线或无线方式发送给接收语音信号的会议记录生成设备，当然，该会议记录生成设备也可以是会议终端本身，这种情况下，就无需发送操作。

120、对所述语音信号进行处理，获取对应的声纹信息以及语音转换后的文字信息。

声纹信息的获取可以有多种。示例性地，可以通过机器学习的方式实现，例如，将语音信号以预设时间间隔分割成多段，将每段语音信号通过STFT转换成时频域信号，然后将该时频域信号输入预先训练的LSTM网络，输出的声纹向量即为声纹信息。

语音转换成文字的实现方式也可以有多种。示例性地，可以通过科大讯飞的语音转写(Long Form ASR)技术实现。

声纹信息和语音转换成文字信息可以在会议记录生成设备内部完成，也可以是通过云端平台的相应处理技术完成，即有会议记录生成设备通过与云端平台的交互完成语音信号的上传，以及声纹信息和文字信息的下载。

在本发明较佳的实施例中，当某个声纹信息对应的语音信号的时长太短时，一般属于噪声，可以对其进行滤除，因此，当某个声纹信息对应的连续的语音信号的时长小于预设时长时，删除该部分的语音信号，不对其进行转换。

在一些实施例中，声纹信息要与对应的预设声纹信息相匹配，即如果某个语音信号的声纹识别结果与参会者或者某个区域例如某家企业的所有人员的声纹信息不匹配，则，这种情况下，不用对该声纹信息进行考虑。预设声纹信息为预设设置的所有参会者提前录制的干净声音经过声纹识别技术得到每个参会者的声纹信息，也可以是某个范围内例如整个企业所有人员的声纹信息。优选根据参会者名单设置预设声纹信息。在得到语音信号的声纹信息之后，将所述声纹信息与预设声纹信息进行相似度比对，当且仅当所述声纹信息与其中一个预设声纹信息的相似度大于或等于第三预设阈值时，将所述声纹信息对应的语音信号转换成文字信息。

另外，在多个参会者共用一个会议终端时，可能会出现两个或以上的参会者同时发出语音的情况，这种情况下，通过上述的语音转写技术可能就无法正确识别，因此，在本发明较佳的实施例中，请参照图2所示，采用以下步骤对其进行改进：

121、在对语音信号进行识别时，得到两部分内容，记为第一部分和第二部分。

第一部分为基于语音信号识别得到的文字信息，第二部分是该语音信号中未被识别的语音信号。可以理解的是，第一部分和第二部分均可能有多段组成，即可能存在一个或多个第一部分和第二部分。

122、获取每个第二部分的时长。

之所以获取每个第二部分的时长，是用于判断是否需要对这部分进行语音分离，当某个第二部分的时长小于第一预设阈值时，则对这部分语音信号不进行语音转写，可以通过语义分析方式对该第二部分前后对应的第一部分的文字进行语义分析，实现文字补全。

123、在所述时长大于或等于第一预设阈值时，确定所述第二部分在前和在后的声纹信息，并将所述第二部分输入预先训练的语音分离网络模型，得到对所述第二部分的语音进行分离得到的多个语音分离信息。

确定该第二部分在前的声纹信息和在后的声纹信息的方法可以参照上述过程，只要确定第二部分的起止时间即可。语音分离技术的实现方式有多种，示例性的，通过预先训练的语音分离网络模型例如DNN或LSTM网络等，得到每个第二部分的语音信号分离得到的多个语音分离信息。

在一些情况下，由于环境噪声干扰或者某些语音信息未被识别出，使用上述语音分离网络模型只分离出一个语音分离信息，这种情况下，可以忽略仅对该分离出一个语音分离信息转换成文字信息，其他部分不予考虑。

124、获取每个语音分离信息的声纹信息。

这里的语音分离信息与接收的语音信号类似，因此，其声纹信息的获取方式也可以使用上述的通过获取声纹向量的方式实现。

125、确定目标语音分离信息。

目标语音分离信息为在所述语音分离信息的声纹信息中与所述在前的声纹信息或/和在后的声纹信息或/和预设声纹信息的相似度大于或等于第二预设阈值的语音分离信息。

预设声纹信息为预设设置的所有参会者提前录制的干净声音经过声纹识别技术得到每个参会者的声纹信息，也可以是某个范围内例如整个企业所有人员的声纹信息。

因为声纹信息的表征方式是通过声纹向量完成，因此，相似度比对可以通过皮尔逊相关系统、欧几里德距离、余弦相似度、曼哈顿距离、马氏距离等中的任一种实现，相似度越大，则说明语音分离信息的声纹信息与比对的目标越接近。定义语音分离信息的声纹信息中与所述在前的声纹信息或/和在后的声纹信息或/和预设声纹信息的相似度大于或等于第二预设阈值的语音分离信息为目标语音分离信息，其余部分直接删除，不予语音转写。

126、根据所述目标语音分离信息得到第二部分的会议记录。

这里目标语音分离信息得到的会议记录分为以下情况，其中，前三种不考虑与预设声纹信息的比对结果，只有当前三种均不能满足时，才会考虑第四种，具体地：

第一种：在所述目标语音分离信息的声纹信息仅与在前的声纹信息的相似度大于或等于第二预设阈值时，添加所述目标语音分离信息得到的会议记录至所述在前的声纹信息对应的会议记录之后。

这种情况下，可以将目标语音分离信息的会议记录拼接到在前的会议记录(是指第二部分起始时间处的会议记录)之后，并以该目标语音分离信息的会议记录作为与在后的会议记录的分离点，例如可以通过换行方式实现该分离点前后的会议记录的分离，以示区分前后为不同的参与者发言得到的会议记录。

第二种：在所述目标语音分离信息的声纹信息仅与在后的声纹信息的相似度大于或等于第二预设阈值时，添加所述目标语音分离信息得到的会议记录至所述在后的声纹信息对应的会议记录之前。

类似的，这种情况下，可以将目标语音分离信息的会议记录拼接到在后的会议记录(是指第二部分终止时间处的会议记录)之后，并以该目标语音分离信息的会议记录作为与在前的会议记录的分离点，例如可以通过换行方式实现该分离点前后的会议记录的分离，以示区分前后为不同的参与者发言得到的会议记录。

第三种：在所述目标语音分离信息的声纹信息与所述在前和在后的声纹信息的相似度均大于或等于第二预设阈值时，添加所述目标语音分离信息得到的会议记录至所述在前和在后的声纹信息对应的会议记录之间。

这种情况下，只要将目标语音分离信息得到的会议记录至所述在前和在后的声纹信息对应的会议记录之间即可。

第四种：在所述目标语音分离信息的声纹信息仅与所述预设声纹信息的相似度均大于或等于第二预设阈值时，将所述目标语音分离信息得到的会议记录独立于第一部分形成的会议记录，并为所述目标语音分离信息得到的会议记录添加起止时间。

130、将所述声纹信息和文字信息相对应，按照语音信号的接收时间顺序得到会议记录。

请参照图3所示，会议记录的行程过程如下：

131、根据所述声纹信息获取对应的身份标识。

因为声纹信息在上一步中已经与预设声纹信息进行了相似度比对，因此，可以保证剩余待转换文字信息对应的声纹信息一定存在且仅存在一个预设声纹信息阈值相匹配，因为预设声纹信息是预先录制，在录制过程中，可以与具体的人员相关联，即通过预设声纹信息可以得到一个身份标识，例如员工编号或者名字全拼或缩写等，然后基于该身份信息可以确定具体的参会者名字。

132、基于不同的声纹信息对所述文字信息进行分段，获取每段文字信息对应的身份标识和起止时间。

对语音信号进行全程的声纹信息识别，得到一个或多个的声纹信息以及每个声纹信息的起止时间，根据这个起止时间就可以将语音信号进行分段，然后对每段语音信号进行语音转写。或者基于每个声纹信息的起止时间对已经完全完成语音转写的文字信息(其也是在时域中完成的转换)进行分段，从而得到每段的文字信息。

每段文字信息都会有先关联的身份标识和起止时间，身份标识和起止时间就是该段声纹信息对应的身份标识和起止时间。将每段文字信息以及其对应的身份标识和起止时间建立映射关系，例如通过映射表。

133、基于所述起止时间对每段文字信息进行排序，并为排序后的每段文字信息添加身份标识，得到会议记录。

通过起止时间可以对每段文字信息的先后排序，优选以起始时间作为排序依据，然后为排序后的每段文字信息添加身份标识，身份标识可以在该段文字信息之前或之后，也可以根据身份标识映射的参会者名字(还可以包括职位等)取代身份标识添加到对应的文字信息之前或之后。

每段添加有身份标识的文字信息可以分段显示或分块显示，以使区分，或者将各段文字信息根据模板结构进行排版，从而得到各种排版下的会议记录。

实施本发明实施例，可以通过声纹识别和语音转换，得到实时的会议记录包括了每个发言人的发言时间和发言内容，不需要在人工添加或调整会议信息，效率高。

实施例二

请参阅图4，图4是本发明实施例公开的另一种会议辅助方法的流程示意图。如图4所示，该会议辅助方法包括以下步骤：

210、接收参会者通过会议终端进行签到得到的身份识别信息；根据所述身份识别信息确定参会者对应的预设声纹信息。

220、接收各会议终端发送的语音信号。

230、对所述语音信号进行处理，获取对应的声纹信息以及语音转换后的文字信息。

240、将所述声纹信息和文字信息相对应，按照语音信号的接收时间顺序得到会议记录。

上述步骤220和步骤240的实现过程与实施例一中的步骤110和步骤130基本相同，这里不再赘述。

在步骤210中，会议终端还可以具有签到功能，当然，在集中于会议室参加会议室，也可以在会议室内或外设置具有签到功能的设备，签到结果会发送到会议记录生成设备。

签到方式可以是人脸识别签到、指纹签到、虹膜签到以及语音签到等中的任一种。可以理解的是：在数据库中存在上述对应签到方式的身份识别信息，即可以根据签到结果自动识别出参会者的身份信息，进而根据该身份信息确定预先已经存储的其对应的参会者的声纹信息，将这些声纹信息形成一个小数据库，记为预设声纹信息库，为示区分，将预设声纹信息库中的声纹信息记为预设声纹信息。

在步骤230中，确定目标语音信号来源的目标会议终端，并获取在所述目标会议终端进行签到的一个或多个目标参会者；获取所述一个或多个目标参会者对应的一个或多个目标预设声纹信息；对所述目标语音信号进行处理，得到对应的目标声纹信息；将所述目标声纹信息与所述一个或多个目标预设声纹信息进行相似度比对，当且仅当所述目标声纹信息与其中一个目标预设声纹信息的相似度大于或等于第三预设阈值时，将所述目标语音信号转换成文字信息。

步骤230中其余内容(主要涉及目标语音信号中的第二部分的处理过程)与实施例一中的步骤120大致相同，这里也不再赘述。

实施例三

请参阅图5，图5是本发明实施例公开的又一种会议辅助方法的流程示意图。如图5所示，该会议辅助方法包括以下步骤：

310、接收通过会议终端发送的会议预定信息，根据所述会议预定信息生成会议提醒信息或/和会议冲突信息。

所述会议预定信息包括会议时间、地点和参会者，由会议组织者或其助理使用相应的会议终端通过会议app手动操作生成会议预定信息，在一些情况下，会议预定信息还可以包括会议主题以及每个参会者或部分参会者的发言主题，这些主题也可以作为会议记录的一部分，直接添加到步骤350形成的会议纪要中。所述会议提醒信息为向所述发送会议预定信息的会议终端发送的预定成功信息(例如向会议终端的会议app发送预定成功通知)或/和向参会者发送的会议时间和会议地点(例如向参会者的手机发送短信，或者向参会者的会议app中发送会议时间和会议地点)。类似的，会议冲突信息为向所述发送会议预定信息的会议终端发送的会议地点冲突信息或/和向参会者发送的会议时间冲突信息。

320、接收参会者通过会议终端进行签到得到的身份识别信息；根据所述身份识别信息确定参会者对应的预设声纹信息。

330、接收各会议终端发送的语音信号。

340、对所述语音信号进行处理，获取对应的声纹信息以及语音转换后的文字信息。

350、将所述声纹信息和文字信息相对应，按照语音信号的接收时间顺序得到会议记录。

上述步骤320至步骤350的实现过程与实施例二中的步骤210至步骤240基本相同，这里不再赘述。

实施例四

请参阅图6，图6是本发明实施例公开的一种会议辅助装置的结构示意图。如图6所示，该会议辅助装置，可以包括：

接收单元430，用于接收各会议终端发送的语音信号；

处理单元440，用于对所述语音信号进行处理，获取对应的声纹信息以及语音转换后的文字信息；

生成单元450，用于将所述声纹信息和文字信息相对应，按照语音信号的接收时间顺序得到会议记录。

作为一种优选的实施例，所述处理单元440，可以包括：

第一识别子单元441，用于对所述语音信号进行处理，得到对应的声纹信息；

第一判断子单元442，用于将所述声纹信息与预设声纹信息进行相似度比对，当且仅当所述声纹信息与其中一个预设声纹信息的相似度大于或等于第三预设阈值时，将所述声纹信息对应的语音信号转换成文字信息。

作为一种优选的实施例，所述处理单元440，还可以包括：

第二识别子单元443，用于对所述语音信号进行识别，得到第一部分和第二部分，其中，第一部分为基于所述语音信号识别得到的文字信息，第二部分是未被识别的语音信号；

第一获取子单元444，用于获取每个所述第二部分的时长；

第二判断子单元445，用于在所述时长大于或等于第一预设阈值时，确定所述第二部分在前和在后的声纹信息，并将所述第二部分输入预先训练的语音分离网络模型，得到对所述第二部分的语音进行分离得到的多个语音分离信息；

第二获取子单元446，用于获取每个所述语音分离信息的声纹信息；

第三判断子单元447，用于确定目标语音分离信息，所述目标语音分离信息为在所述语音分离信息的声纹信息中与所述在前的声纹信息或/和在后的声纹信息或/和预设声纹信息的相似度大于或等于第二预设阈值的语音分离信息；

第三获取子单元448，用于根据所述目标语音分离信息得到第二部分的会议记录。

作为一种优选的实施例，第三获取子单元448，可以包括：

作为一种优选的实施例，所述会议辅助装置，还可以包括：

签到单元420，用于接收参会者通过会议终端进行签到得到的身份识别信息；根据所述身份识别信息确定参会者对应的预设声纹信息；

对所述语音信号进行处理，获取对应的声纹信息以及语音转换后的文字信息，还包括：

对所述目标语音信号进行处理，得到对应的目标声纹信息；

作为一种优选的实施例，所述生成单元450，可以包括：

第三识别子单元451，用于根据所述声纹信息获取对应的身份标识；

第四获取子单元452，用于基于不同的声纹信息对所述文字信息进行分段，获取每段文字信息对应的身份标识和起止时间；

排序子单元453，用于基于所述起止时间对每段文字信息进行排序，并为排序后的每段文字信息添加身份标识，得到会议记录。

作为一种优选的实施例，所述会议辅助装置，还可以包括：

预定单元410，用于接收通过会议终端发送的会议预定信息，根据所述会议预定信息生成会议提醒信息或/和会议冲突信息；

所述会议预定信息包括会议时间、地点和参会者；

图6所示的会议辅助装置，可以通过声纹识别和语音转换，得到实时的会议记录包括了每个发言人的发言时间和发言内容，不需要在人工添加或调整会议信息，效率高。

实施例五

请参阅图7，图7是本发明实施例公开的一种电子设备的结构示意图。电子设备可以是集成或外置毫米波雷达以及图像采集装置的手机、平板电脑、各种会议终端等智能终端。如图7所示，该电子设备可以包括：

存储有可执行程序代码的存储器510；

与存储器510耦合的处理器520；

其中，处理器520调用存储器510中存储的可执行程序代码，执行实施例一至实施例三任意一种会议辅助方法中的部分或全部步骤。

本发明实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行实施例一至实施例三任意一种会议辅助方法中的部分或全部步骤。

本发明实施例还公开一种计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一至实施例三任意一种会议辅助方法中的部分或全部步骤。

本发明实施例还公开一种应用发布平台，其中，应用发布平台用于发布计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一至实施例三任意一种会议辅助方法中的部分或全部步骤。

在本发明的各种实施例中，应理解，所述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。

在本发明所提供的实施例中，应理解，“与A对应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

本领域普通技术人体可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的一种会议辅助方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人体，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种会议辅助方法，其特征在于，包括：

接收各会议终端发送的语音信号；

2.根据权利要求1所述的会议辅助方法，其特征在于，所述获取语音转换后的文字信息，包括：

获取每个所述第二部分的时长；

获取每个所述语音分离信息的声纹信息；

根据所述目标语音分离信息得到第二部分的会议记录。

3.根据权利要求2所述的会议辅助方法，其特征在于，根据所述目标语音分离信息得到第二部分的会议记录，包括：

4.根据权利要求1所述的会议辅助方法，其特征在于，对所述语音信号进行处理，获取对应的声纹信息以及语音转换后的文字信息，包括：

对所述语音信号进行处理，得到对应的声纹信息；

5.根据权利要求4所述的会议辅助方法，其特征在于，所述方法，还包括：

接收参会者通过会议终端进行签到得到的身份识别信息；

根据所述身份识别信息确定参会者对应的预设声纹信息；

对所述目标语音信号进行处理，得到对应的目标声纹信息；

6.根据权利要求1-5任一项所述的会议辅助方法，其特征在于，将所述声纹信息和文字信息相对应，按照语音信号的接收时间顺序得到会议记录，包括：

根据所述声纹信息获取对应的身份标识；

7.根据权利要求1-5任一项所述的会议辅助方法，其特征在于，所述方法，还包括：

所述会议预定信息包括会议时间、地点和参会者；

8.一种会议辅助装置，其特征在于，其包括：

接收单元，用于接收各会议终端发送的语音信号；

9.一种电子设备，其特征在于，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行权利要求1至7任一项所述的一种会议辅助方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行权利要求1至7任一项所述的一种会议辅助方法。