CN112037791A

CN112037791A - 会议纪要转录方法、设备和存储介质

Info

Publication number: CN112037791A
Application number: CN202010806140.3A
Authority: CN
Inventors: 郑颖龙; 赖蔚蔚; 周昉昉; 林嘉鑫; 刘佳木; 谢彬瑜; 叶杭; 吴广财; 郑杰生
Original assignee: Guangdong Electric Power Information Technology Co Ltd
Current assignee: Guangdong Electric Power Information Technology Co Ltd
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2020-12-04
Anticipated expiration: 2040-08-12
Also published as: CN112037791B

Abstract

本申请涉及一种会议纪要转录方法、设备和存储介质。方法包括：获取麦克风阵列采集的会议中发言人的语音信号；针对语音信号提取声纹特征信息，并将声纹特征信息与预存储的声纹特征信息匹配；查找与匹配的预存储的声纹特征信息对应的用户身份信息，并将查找的用户身份信息识别为发言人的身份信息；将采集的语音信号转换为文本的会议发言内容；将文本的会议发言内容和发言人的身份信息关联记录；当未匹配到预存储声纹特征信息时，对语音信号进行声源方位定位，定位到发言人所处的方位；控制拍摄单元针对发言人所处的方位拍摄，得到发言人的图像，并将文本的会议发言内容和发言人的图像关联记录，生成会议纪要。采用本方法能够提高会议纪要生成效率。

Description

会议纪要转录方法、设备和存储介质

技术领域

本申请涉及计算机技术和语音识别技术领域，特别是涉及一种会议纪要转录方法、设备和存储介质。

背景技术

随着语音识别技术地不断发展，越来越多的行业中开始使用语音识别技术，例如，即时通信应用中的语音转文字功能、录音转文字的各类软件等。除此之外，会议纪要记录也是语音识别技术的一个应用场景。

传统方法中，可以通过搜集会议发言人的语音，并通过语音识别技术将搜集的语音进行文字转录。然而，传统方法只能简单地将语音转换为文字，会导致转录出来的会议内容比较杂乱，还需要人工进一步分析整理，导致效率比较低，不够智能化。因此，亟需一种会议纪要转录方法来实现快速转录会议纪要。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高效率的会议纪要转录方法、设备和存储介质。

一种会议纪要转录方法，该方法包括：

获取麦克风阵列采集的会议中发言人的语音信号；

针对采集的所述语音信号提取声纹特征信息，并将提取的所述声纹特征信息与预存储的声纹特征信息进行匹配；

查找与匹配的预存储的声纹特征信息对应的用户身份信息，并将查找到的用户身份信息识别为所述发言人的身份信息；

将采集的所述语音信号转换为文本的会议发言内容；

将所述文本的会议发言内容和所述发言人的身份信息进行关联记录；

当未匹配到预存储声纹特征信息时，对该发言人的语音信号进行声源方位定位，定位到该发言人所处的方位；

控制拍摄单元针对该发言人所处的方位进行拍摄，得到位于该方位上的该发言人的图像并将该文本的会议发言内容和该发言人的图像进行关联记录，生成会议纪要。

在其中一个实施例中，该对该发言人的语音信号进行声源方位定位，定位到该发言人所处的方位，包括：

根据该发言人的语音信号到达该麦克风阵列中不同麦克风的时间差异，确定该发言人所处的位置相对于该麦克风阵列的第一角度；

根据该第一角度、以及该麦克风阵列和拍摄单元的相对位置关系，确定该发言人所处的位置相对于该拍摄单元的第二角度；

该控制拍摄单元针对该发言人所处的方位进行拍摄，得到位于该方位上的该发言人的图像，包括：

控制该拍摄单元针对该第二角度下的人物进行拍摄，得到该发言人的图像。

在其中一个实施例中，该控制该拍摄单元针对该第二角度下的人物进行拍摄，得到该发言人的图像，包括：

控制该拍摄单元针对位于该第二角度下的人物进行拍摄；

当拍摄的图像中存在多个人物时，则将拍摄的该图像输入至基于深度学习训练的动作识别模型中，识别出该图像中正在执行说话动作的目标人物；

调整该拍摄单元的拍摄角度拍摄该目标人物，得到该发言人的图像。

在其中一个实施例中，该发言人的身份信息是通过声纹识别单元识别得到；该方法还包括：

在该声纹识别单元识别该发言人的身份信息后，控制该声纹识别单元进入休眠状态；

当该麦克风阵列采集的该发言人的语音信号之间的时间间隔不小于预设停顿时长时，则唤醒处于休眠状态的该声纹识别单元，返回执行声纹特征信息提取和匹配的步骤，以及执行查找用户身份信息的步骤。

在其中一个实施例中，该方法还包括：

当该声纹识别单元被唤醒后所查找的用户身份信息，与休眠前所识别的该发言人的身份信息不一致时，则判定唤醒后所查找的用户身份信息为该发言人结束发言后的下一个发言人的身份信息；

在该会议纪要中，将由该声纹识别单元唤醒后所针对的语音信号转换的文本的会议发言内容，与该下一个发言人的身份信息进行关联记录；

当唤醒后查找的用户身份信息与该发言人的身份信息一致时，则在该会议纪要中，将由该声纹识别单元唤醒后所针对的语音信号转换的文本的会议发言内容，与该发言人的身份信息进行关联记录、且相对于已与该发言人的身份信息关联记录的会议发言内容记录在不同段落。

在其中一个实施例中，该将该文本的会议发言内容和该发言人的身份信息进行关联记录，生成会议纪要包括：

按照预设的会议纪要格式，在每一位发言人的身份信息之后，关联记录由该发言人的语音信号转换的该文本的会议发言内容，得到每一位发言人的会议记录信息；

按照会议中各发言人发言的时序，依次记录每一位发言人的会议记录信息，生成会议纪要。

在其中一个实施例中，该预存储的声纹特征信息预先存储于声纹数据库中；

该方法还包括：

在未匹配到预存储声纹特征信息之后，则

将该发言人的声纹特征信息存储至该声纹数据库中，并针对该声纹特征信息添加该发言人的唯一性的陌生人身份标记；该唯一性的陌生人身份标记，用于唯一性标记每个陌生的发言人；

当在该声纹数据库中匹配到所存储的该发言人的声纹特征信息时，则根据该声纹特征信息的唯一性的陌生人身份标记，确定该发言人的身份信息。

一种会议纪要转录设备，包括：

声纹识别单元，用于获取麦克风阵列所采集的会议中发言人的语音信号，针对采集的所述语音信号提取声纹特征信息，并将提取的所述声纹特征信息与预存储的声纹特征信息进行匹配；查找与匹配的预存储的声纹特征信息对应的用户身份信息，并将查找到的用户身份信息识别为所述发言人的身份信息；

语音识别单元，用于将采集的所述语音信号转换为文本的会议发言内容；将所述文本的会议发言内容和所述发言人的身份信息进行关联记录；

拍摄单元，用于当未匹配到预存储声纹特征信息时，针对所述发言人的语音信号的声源方位进行拍摄，得到所述发言人的图像；

所述语音识别单元还用于将所述文本的会议发言内容和所述发言人的图像进行关联记录，生成会议纪要。

一种会议纪要转录设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行本申请各实施例所述的会议纪要转录方法中的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行本申请各实施例所述的会议纪要转录方法中的步骤。

上述会议纪要转录方法、系统、计算机设备和存储介质，预先对应存储与会人的声纹特征和身份信息，针对采集的语音信号提取声纹特征，根据声纹特征识别发言人的身份，进而将语音识别的发言人文本的会议发言内容与发言人的身份信息关联记录，当未识别到发言人的身份信息时，则根据发言人的信号定位声源方向，即，定位到所述发言人所处的方位。从而，控制拍摄单元针对发言人所处的方位进行拍摄，得到发言人的图像，并将文本的会议发言内容和所述发言人的图像进行关联记录。由于发言人的图像也能够表征发言人的身份，这样一来，通过结合声纹识别和图像拍摄，使得会议纪要中关联记录了发言人的身份和发言内容，提高了生成的会议纪要的准确性。而且，由于生成的会议纪要中已经明确记录了各个发言人的身份以及关联记录了相应的发言内容，所以，不需要人工做过多的分析整理，提高了会议纪要转录的效率，实现了会议记录的智能化。

附图说明

图1为一个实施例中会议纪要转录方法的应用环境图；

图2为一个实施例中会议纪要转录方法的流程示意图；

图3为另一个实施例中会议纪要转录方法的应用环境图；

图4为一个实施例中会议纪要转录设备的框图；

图5为另一个实施例中会议纪要转录设备的框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的会议纪要转录方法，可以应用于如图1所示的应用环境中。其中，麦克风阵列102通过网络与会议纪要转录设备104进行通信。其中，会议纪要转录设备104可以是独立存在的计算机设备(比如，可以由多个子硬件单元集成为一体的独立设备)，也可以是包括多个硬件单元的组合性设备。需要说明的是，本申请各实施例中，会议纪要转录设备104也可以通过运行各软件程序模块来实现各硬件单元的功能。

会议纪要转录设备104可以包括终端或服务器。终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

麦克风阵列102可以采集的会议中发言人的语音信号，并采集的语音信号传递至会议纪要转录设备104。会议纪要转录设备104可以针对采集的语音信号提取声纹特征信息，并将提取的声纹特征信息与预存储的声纹特征信息进行匹配；查找与匹配的预存储的声纹特征信息对应的用户身份信息，并将查找到的用户身份信息识别为发言人的身份信息；将采集的语音信号转换为文本的会议发言内容；将文本的会议发言内容和发言人的身份信息进行关联记录，生成会议纪要。

需要说明的是，在其他实施例中，麦克风阵列102也可以是会议纪要转录设备104的组成部分，即，也可以将麦克风阵列与其他设备单元集成为一体，得到会议纪要转录设备104。

在一个实施例中，如图2所示，提供了一种会议纪要转录方法，以应用于图1中的会议纪要转录设备，包括以下步骤：

步骤202，获取麦克风阵列采集的会议中发言人的语音信号。

其中，麦克风阵列(Microphone Array)，是指由至少两个麦克风按照预设形状规则进行排列所形成的阵列。麦克风阵列可以包括多个位于不同空间方向的麦克风，以采集不同空间方向的声音。本申请各实施例中的“多个”，即为至少两个。

在一个实施例中，麦克风阵列可以是由组成正三角形的三个麦克风形成。需要说明的是，本申请对麦克风阵列中麦克风的数量以及麦克风间组成的形状并不做限定，比如，麦克风阵列中的麦克风还可以形成圆形阵列或者T形阵列等。

发言人，是在会议中进行发言的人物对象。可以理解，麦克风阵列可以在发言人讲话时收录其语音信号。

步骤204，针对采集的语音信号提取声纹特征信息，并将提取的声纹特征信息与预存储的声纹特征信息进行匹配。

在一个实施例中，会议纪要转录设备中可以包括声纹识别单元，可以通过声纹识别单元执行步骤204～206。其中，声纹识别单元，是用于进行声纹识别处理的硬件单元。

具体地，在会议开始前，麦克风阵列可以预先采集各个与会人的样本声音信息，声纹识别单元可以对各样本声音信息进行声纹特征提取处理，以解析出各个与会人的声纹特征信息，并将解析出的声纹特征信息预先存储至声纹数据库中。那么，在会议过程中，当发言人讲话时，麦克风阵列则可以执行步骤202采集发言人讲话时的语音信号，声纹识别单元从采集的语音信号中提取声纹特征信息，并将提取的声纹特征信息与声纹数据库中预存储的声纹特征信息进行比对，以查找出与提取的声纹特征信息匹配一致的预存储的声纹特征信息。

在一个实施例中，声纹特征信息可以包括共振峰、基频、频谱、反射系数等中的至少一种。

在其他实施例中，预存储的声纹特征信息，可以并不限定于与会人的声纹特征信息，还可以包括非与会人的声纹特征信息，即，预存储的声纹特征信息，可以是预先针对海量的样本声音信息进行声纹识别得到的。其中，与会人，是指会议的实质性参与人。

可以理解，会议纪要转录设备也可以通过具备声纹识别功能的软件程序，来实现步骤204～206的处理，并不限定于通过一个硬件的声纹识别单元来实现。

可以理解，当匹配到预存储声纹特征信息时，执行步骤206，当未匹配到预存储声纹特征信息时，执行步骤212。

步骤206，将匹配的预存储的声纹特征信息所对应的用户身份信息，识别为发言人的身份信息。

具体地，声纹数据库中预先将预存储的声纹特征信息与其所对应的用户身份信息进行了对应存储。当提取的声纹特征信息匹配到预存储的声纹特征信息时，会议纪要转录设备则可以通过声纹识别单元或者用于实现声纹识别的软件程序在声纹数据库中，查找与匹配的预存储的声纹特征信息对应的用户身份信息，并将该用户身份信息判定为该发言人的身份信息，从而实现了对发言人身份的识别。

步骤208，将采集的语音信号转换为文本的会议发言内容。

在一个实施例中，会议纪要转录设备中可以包括语音识别单元。语音识别单元，是用于进行语音识别处理的硬件单元。会议纪要转录设备可以通过控制语音识别单元，识别发言人的语音内容并将语音内容转换为文本格式，得到文本的会议发言内容。

可以理解，当会议纪要转录设备，是包括多个硬件单元的组合性设备时，那么，各个硬件单元之间可以相互通信。比如，麦克风阵列和声纹识别单元分别可以与语音识别单元直接通信，将采集的发言人的语音信号、以及识别的发言人的身份信息传输至语音识别单元。

可以理解，会议纪要转录设备也可以通过具备语音识别功能的软件程序，来实现步骤208～210的处理，并不限定于通过一个硬件的语音识别单元来实现。

步骤210，将文本的会议发言内容和发言人的身份信息进行关联记录。

具体地，会议纪要转录设备可以将转换成的文本的会议发言内容，与相应的发言人的身份信息进行关联记录，即，将每个发言人的身份信息与由其发言的语音信号转换成的文本的会议发言内容进行关联记录，生成会议纪要。可以理解，通过关联记录，能够让会议纪要阅读者能够清晰地知晓每个发言人所发言的内容。

在一个实施例中，会议纪要转录设备可以通过语音识别单元或者用于实现语音识别的软件程序，执行步骤210。

可以理解，会议纪要转录设备可以通过将会议发言内容与发言人的身份信息记录在一起(比如，在发言人的身份信息之后，记录其会议发言内容)，或者，将发言人的身份信息与其会议发言内容使用同样的颜色进行标注，又或者，在点击发言人的身份信息之后，将其会议发言内容进行突出性显示等方式来实现二者的关联记录。这里并不限定于关联记录的具体实现方式。

在一个实施例中，当会议纪要转录设备包括声纹识别单元和语音识别单元时，在接收到第一个发言人的语音信号后，声纹识别单元和语音识别单元则可以开始工作，声纹识别单元和语音识别单元后续可以一直保持工作状态，也可以在完成自身工作后，进入休眠状态，待满足唤醒条件时再被唤醒，从而节省系统资源。

步骤212，对发言人的语音信号进行声源方位定位，定位到发言人所处的方位；控制拍摄单元针对发言人所处的方位进行拍摄，得到位于方位上的发言人的图像。

其中，发言人的图像，是具备发言人外在特征的能够唯一表征发言人身份的图像。拍摄单元，是用于进行图像采集的硬件单元，比如摄像头。可以理解，拍摄单元可以是独立于会议纪要转录设备之外存在的一个环境元件。除此之外，拍摄单元也可以是，包括于组合性的会议纪要转录设备中的一个硬件单元的成员，还可以是被集成在独立存在的会议纪要转录设备中。这里对拍摄单元与会议纪要转录设备之间的关系不做限定。

可以理解，也存在特征匹配失败的情况，即，并不存在与提取的声纹特征信息匹配的预存储的声纹特征信息(比如，临时增加的与会人，由于之前并未对其进行声音采样，所以其声纹特征信息并不存在于预存储的声纹特征信息中)。那么，会议纪要转录设备可以通过控制拍摄单元拍摄发言人的图像，将拍摄的图像与发言人的会议发言内容关联记录。可以理解，当每个发言人需要在固定位置(比如，会场讲台)处发言时，则可以在该固定位置处设置拍摄单元，以拍摄发言人的图像。当发言人发言的位置不固定时，则可以根据发言人的语音信号来自动调整拍摄单元的拍摄角度，从而拍摄发言人的图像。

具体地，当未匹配到预存储声纹特征信息时，说明未能识别出发言人的身份。会议纪要转录设备则可以定位发言人的语音信号的声源方向，从而确定出发言人所处的方位。会议纪要转录设备可以调整拍摄单元的拍摄角度至发言人所处的方位，从而对准对发言人所处的方位进行拍摄，得到位于方位上的发言人的图像。

图3为一个实施例中的应用环境图。参照图3，会议纪要转录设备在特征匹配失败，即，未识别到发言人身份的情况下，可以控制拍摄单元106拍摄发言人108的图像。

在一个实施例中，当会议纪要转录设备中包括麦克风阵列时，可以通过麦克风阵列定位发言人的语音信号的声源方向。在其他实施例中，麦克风阵列可以不包括于会议纪要转录设备，那么，会议纪要转录设备自身可以根据麦克风阵列采集的发言人的语音信号，进行声源方位定位。

步骤214，将文本的会议发言内容和发言人的图像进行关联记录，生成会议纪要。

具体地，会议纪要转录设备可以将文本的会议发言内容和拍摄单元拍摄的发言人的图像进行关联记录。可以理解，是根据识别到发言人的身份信息后生成的关联记录的发言人的身份信息和会议发言内容，以及未识别到身份信息后拍摄的发言人的图像和关联记录的会议发言内容，生成会议纪要。

在一个实施例中，拍摄单元可以将拍摄的发言人的图像发送至会议纪要转录设备中的语音识别单元，由语音识别单元将文本的会议发言内容和发言人的图像进行关联记录，生成会议纪要。

在一个实施例中，可以将发言人的图像对应于会议发言内容进行插入，从而生成会议纪要。可以理解，生成的会议纪要中可以直接通过发言人的图像来表征发言人的身份。即，会议纪要可以是图文结合的形式。在其他实施例中，会议内容整理人员可以根据插入发言人的图像确定出发言人的身份信息，从而将发言人的图像替换为会议内容整理人员输入的发言人的身份信息，生成最终文字版的会议纪要。

上述会议纪要转录方法中，预先对应存储与会人的声纹特征和身份信息，针对采集的语音信号提取声纹特征，根据声纹特征识别发言人的身份，进而将语音识别的发言人文本的会议发言内容与发言人的身份信息关联记录，当未识别到发言人的身份信息时，则根据发言人的信号定位声源方向，即，定位到所述发言人所处的方位。从而，控制拍摄单元针对发言人所处的方位进行拍摄，得到发言人的图像，并将文本的会议发言内容和所述发言人的图像进行关联记录。由于发言人的图像也能够表征发言人的身份，这样一来，通过结合声纹识别和图像拍摄，使得会议纪要中关联记录了发言人的身份和发言内容，提高了生成的会议纪要的准确性。而且，由于生成的会议纪要中已经明确记录了各个发言人的身份以及关联记录了相应的发言内容，所以，不需要人工做过多的分析整理，提高了会议纪要转录的效率，实现了会议记录的智能化。

在一个实施例中，对发言人的语音信号进行声源方位定位，定位到发言人所处的方位，包括：根据发言人的语音信号到达麦克风阵列中不同麦克风的时间差异，确定发言人所处的位置相对于麦克风阵列的第一角度；根据第一角度、以及麦克风阵列和拍摄单元的相对位置关系，确定发言人所处的位置相对于拍摄单元的第二角度。本实施例中，控制拍摄单元针对发言人所处的方位进行拍摄，得到位于方位上的发言人的图像，包括：控制拍摄单元针对第二角度下的人物进行拍摄，得到发言人的图像。

可以理解，麦克风阵列中各麦克风处于不同空间方向。那么，发言人的语音信号到达麦克风阵列中不同麦克风就会存在时间差异。因此，会议纪要转录设备可以根据发言人的语音信号到达麦克风阵列中不同麦克风的时间差异，确定发言人所处的位置相对于麦克风阵列的第一角度。这里的时间差异，可以包括发言人的语音信号到达麦克风阵列中不同麦克风的时间节点之间的先后差异。

麦克风阵列和拍摄单元的相对位置关系，是指拍摄单元所处的位置和麦克风阵列所处的位置之间的相对关系。可以理解，拍摄单元和麦克风阵列在会场中的位置可以是固定的，因此，二者之前的相对位置关系在设置好之后就固定不变。所以，麦克风阵列可以获取预设的拍摄单元和麦克风阵列的相对位置关系，并根据第一角度、以及该相对位置关系，确定发言人所处的位置相对于拍摄单元的第二角度。

可以理解，由于确定了发言人所处的位置和拍摄单元分别与麦克风阵列之间的相对位置，进而可以确定出发言人所处的位置与拍摄单元之间的相对位置，即，能够确定出发言人所处的位置相对于拍摄单元的第二角度。发言人所处的位置相对于拍摄单元的第二角度，可以用于表征发言人所处的方位信息。

需要说明的是，拍摄单元针对第二角度下的人物进行拍摄得到的图像中，可能存在多个人物(比如，假设多个与会人的位置比较接近，都在拍摄单元的视野范围内，那么，拍摄的图像中就会存在多个人物)，也可以只有发言人的图像。当拍摄的图像中存在多个人物时，则需要对拍摄的图像进一步识别，以从中识别发言人，并仅针对识别出的发言人进行单独拍摄，得到发言人的图像。可以理解，可以根据拍摄的图像中的多个人物的动作(比如，嘴部动作、手部动作、眼部动作等)来识别发言人。比如，可以通过嘴部动作识别发言人，或者根据眼部动作。此外，通常情况下，有人发言时，其他人都会将目光聚焦到该发言人身上，因此，可以通过眼部动作，将目光聚焦至的人物识别为发言人。

在一个实施例中，控制拍摄单元针对第二角度下的人物进行拍摄，得到发言人的图像，包括：控制拍摄单元针对位于第二角度下的人物进行拍摄；当拍摄的图像中存在多个人物时，则将拍摄的图像输入至基于深度学习训练的动作识别模型中，识别出图像中正在执行说话动作的目标人物；调整拍摄单元的拍摄角度拍摄目标人物，得到发言人的图像。

其中，动作识别模型，是预先根据样本数据进行机器学习训练的、且用于识别动作类别的深度学习模型。动作类别可以包括说话动作、眼部动作、手部动作、以及整体姿态动作等中的至少一种。

具体地，当拍摄的图像中存在多个人物时，会议纪要转录设备则可以将拍摄的图像输入至基于深度学习训练的动作识别模型中，通过该动作识别模型识别出图像中各人物所执行的动作的类别，从而筛选出正在执行说话动作的目标人物。该目标人物，即为识别出的发言人。进一步地，会议纪要转录设备可以调整拍摄单元的拍摄角度拍摄目标人物，得到发言人的图像。可以理解，除了调整拍摄角度以外，还可以通过调整拍摄焦距，拍摄目标人物，从而得到发言人的图像。

在一个实施例中，发言人的身份信息是通过声纹识别单元识别得到。该方法还包括：在声纹识别单元识别发言人的身份信息后，控制声纹识别单元进入休眠状态；当麦克风阵列采集的发言人的语音信号之间的时间间隔不小于预设停顿时长时，则唤醒处于休眠状态的声纹识别单元，返回执行声纹特征信息提取和匹配的步骤，以及执行查找用户身份信息的步骤。

其中，休眠状态，即指暂停声纹识别处理的状态。可以理解，处于唤醒状态下的声纹识别单元能够正常工作，即能进行声纹识别处理以识别用户身份信息，处于休眠状态下则暂停工作(即暂停声纹识别处理)直至被唤醒后才会再次进行正常工作。

具体地，步骤202和204可以是会议纪要转录设备通过控制声纹识别单元执行步骤202和204，从而识别出发言人的身份信息。由于在会议过程中一般一个发言人的发言是需要持续一段时间的，并在发言结束后交由下一个发言人进行发言，因此当识别出当前的发言人的身份信息后则可以控制声纹识别单元暂停工作，即，控制声纹识别单元进入休眠状态。

可以理解，一般当一个发言人发言结束后都会有一定的停顿以便于切换到下一个发言人进行发言，可以预先设置一个预设停顿时长，当麦克风阵列接收到的语音信号不连续或发言人的语音信号之间的时间间隔不小于该预设停顿时长时，说明此时极有可能切换到下一个发言人进行发言，因此，则可以唤醒处于休眠状态的声纹识别单元进行工作，即，控制唤醒的声纹识别单元。

可以理解，声纹识别单元被唤醒后，会针对最新采集的所述语音信号提取声纹特征信息(即，声纹特征信息提取步骤)，并将提取的所述声纹特征信息与预存储的声纹特征信息进行匹配(即，声纹特征信息匹配步骤)、以及查找与匹配的预存储的声纹特征信息对应的用户身份信息(即，查找用户身份信息的步骤)的步骤，以识别下一发言人的身份信息。

在一个实施例中，该方法还包括：当所述声纹识别单元被唤醒后所查找的用户身份信息，与休眠前所识别的所述发言人的身份信息不一致时，则判定唤醒后所查找的用户身份信息为所述发言人结束发言后的下一个发言人的身份信息；在所述会议纪要中，将由所述声纹识别单元唤醒后所针对的语音信号转换的文本的会议发言内容，与所述下一个发言人的身份信息进行关联记录。

具体地，当唤醒后的声纹识别单元所查找的用户身份信息，与休眠前所识别的发言人的身份信息不一致时，则判定唤醒后所识别的用户身份信息为发言人结束发言后的下一个发言人的身份信息。

声纹识别单元唤醒后所针对的语音信号，是指声纹识别单元被唤醒后进行声纹特征提取所针对的语音信号，即，声纹特征信息所提取自的语音信号。可以理解，会议纪要转录设备中的语音识别单元或者用于进行语音识别的软件程序，会继续将唤醒后所针对的语音信号转换为文本的会议发言内容，则可以在会议纪要中，将由声纹识别单元唤醒后所针对的语音信号转换的文本的会议发言内容，与所识别的下一个发言人的身份信息进行关联记录。

为了便于理解，现举例说明。假设，露西先发言，那么，在声纹识别单元识别完正在发言的露西的身份信息之后，会议纪要转录设备就可以控制声纹识别单元进入休眠状态，以节省系统资源。假设预设停顿时长为10秒，那么，在超过10秒未检测到露西的语音信号时，则可以唤醒声纹识别单元，以对新采集的语音信号执行声纹特征信息提取和匹配，以及查找用户身份信息的步骤，当查找的用户身份信息与露西的身份信息不一致，则可以判定当前发言的是露西的下一个发言人，假设，唤醒后查找的用户身份信息是莉莉的身份信息，那么，则可以判定当前讲话的是露西的下一个发言人莉莉，就可以将由唤醒后所针对的语音信号转换的文本的会议发言内容，与莉莉的身份信息进行关联记录，从而表明该会议发言内容是莉莉发言的。

在一个实施例中，该方法还包括：当唤醒后查找的用户身份信息与所述发言人的身份信息一致时，则在所述会议纪要中，将由所述声纹识别单元唤醒后所针对的语音信号转换的文本的会议发言内容，与所述发言人的身份信息进行关联记录、且相对于已与所述发言人的身份信息关联记录的会议发言内容记录在不同段落。

可以理解，有些特殊情况会导致同一发言人的讲话间隔时长比较久，这种情况下，声纹识别单元被唤醒后还是休眠前的同一发言人在讲话，则声纹识别单元被唤醒后所查找的用户身份信息，则与休眠前所识别的发言人的身份信息一致。那么，会议纪要转录设备可以将该发言人在声纹识别单元被唤醒后的文本的会议发言内容，与该发言人的身份信息进行关联记录，并且相较于之前已记录的该发言人的会议发言内容进行分段记录，即，相对于已与所述发言人的身份信息关联记录的会议发言内容记录在不同段落。从而增强会议纪要的可读性。

在一个实施例中，将文本的会议发言内容和发言人的身份信息进行关联记录，生成会议纪要包括：按照预设的会议纪要格式，在每一位发言人的身份信息之后，关联记录由发言人的语音信号转换的文本的会议发言内容，得到每一位发言人的会议记录信息；按照会议中各发言人发言的时序，依次记录每一位发言人的会议记录信息，生成会议纪要。

其中，会议纪要格式，是会议纪要的文本记录格式。

在一个实施例中，发言人的身份信息中包括发言人的姓名，那么，会议纪要转录设备可以按照会议纪要格式，在发言人姓名后面附上发言人的会议发言内容。例如，“露西：今天我们的主要工作内容是做好工作总结”。其中，“露西”，即为发言人的姓名，“今天我们的主要工作内容是做好工作总结”则为发言人的会议发言内容。

可以理解，会议中各发言人之间发言是有先后顺序的，会将每个发言人的会议发言内容记录在一起，作为该发言人的会议记录信息，在会议纪要中，会按照会议中各发言人发言的时序，依次记录每一位发言人的会议记录信息。

需要说明的是，在各发言人的发言过程中，依次记录每个发言人的会议记录信息，也可以记录各发言人发言的时间先后顺序(即时序)，在所有发言人发言完毕后，再按照发言的时间先后顺序，记录每个发言人的会议记录信息。

在一个实施例中，可以获取预设的会议纪要模板，会议纪要模板中包括多组发言人的身份填充区域和发言内容填充区域。即，一组发言人的身份填充区域和发言内容填充区域之间相关联，用于记录一个发言人的身份信息和会议发言内容。在识别每个发言人的身份信息后，可以将该发言人的身份信息填充至聚焦(即当前待填充)的身份填充区域，以及将相关联的会议发言内容填充至同组的发言内容填充区域，从而生成该发言人的会议记录信息。然后，可以聚焦到下一个身份填充区域(即，将下一个身份填充区域作为当前待填充的身份填充区域)，继续生成下一个发言人的会议记录信息。

在一个实施例中，预存储的声纹特征信息预先存储于声纹数据库中。该方法还包括：在未匹配到预存储声纹特征信息之后，则将发言人的声纹特征信息存储至声纹数据库中，并针对声纹特征信息添加发言人的唯一性的陌生人身份标记；当在声纹数据库中匹配到所存储的发言人的声纹特征信息时，则根据声纹特征信息的唯一性的陌生人身份标记，确定发言人的身份信息。

其中，唯一性的陌生人身份标记，用于唯一性标记每个陌生的发言人。可以理解，并非将所有陌生人添加统一的陌生人标记，这样一来，就无法对不同陌生人进行身份区分，所以，会针对每个陌生人添加唯一性的陌生人身份标记，以唯一标记每个陌生的发言人，从而区分不同陌生的发言人的发言。

具体地，在未匹配到预存储声纹特征信息之后，会议纪要转录设备中的声纹识别单元或用于进行声纹识别的软件程序，可以将发言人的声纹特征信息存储至声纹数据库中，并针对声纹特征信息添加发言人的唯一性的陌生人身份标记。

进一步地，会议纪要转录设备也可以将采集的所述语音信号转换为文本的会议发言内容，并将该文本的会议发言内容和陌生人身份标记进行关联记录，生成会议纪要。

可以理解，后续，当在声纹数据库中匹配到所存储的该陌生的发言人的声纹特征信息时，则根据声纹特征信息的唯一性的陌生人身份标记，确定该发言人为该陌生人，相当于也实现了对发言人的身份信息的识别，只不过识别的身份信息是唯一性的陌生人身份标记，而并非具体明确的身份信息。

比如，在当前的发言人的声纹特征信息未匹配到预存储声纹特征信息时，声纹识别单元则将该发言人的声纹特征信息添加至声纹数据库，并标记为陌生人A。以便于在下一次出现所述陌生人A发言时能够识别出所述陌生人A,从而避免在会议纪要中出现多个陌生发言人身份不统一的情况。

应该理解的是，虽然本申请各流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，本申请各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

如图4所示，在一个实施例中，提供了一种会议纪要转录设备。可以理解，该会议纪要转录设备是由多个硬件单元集成为一体的独立的电子设备。该会议纪要转录设备包括：声纹识别单元402、语音识别单元404和拍摄单元406；其中：

声纹识别单元402，用于获取麦克风阵列所采集的会议中发言人的语音信号，针对采集的所述语音信号提取声纹特征信息，并将提取的所述声纹特征信息与预存储的声纹特征信息进行匹配；查找与匹配的预存储的声纹特征信息对应的用户身份信息，并将查找到的用户身份信息识别为所述发言人的身份信息。

在一个实施例中，麦克风阵列可以是会议纪要转录设备的一部分，即，会议纪要转录设备中集成了麦克风阵列。在其他实施例中，麦克风阵列，也可以是独立于会议纪要转录设备之外的环境元件，即，会议纪要转录设备中可以不包括麦克风阵列。

语音识别单元404，用于将采集的所述语音信号转换为文本的会议发言内容；将所述文本的会议发言内容和所述发言人的身份信息进行关联记录。

拍摄单元406，用于当未匹配到预存储声纹特征信息时，针对所述发言人的语音信号的声源方位进行拍摄，得到所述发言人的图像。

可以理解，发言人的语音信号的声源方位，即为发言人所处的方位。

语音识别单元404还用于将文本的会议发言内容和发言人的图像进行关联记录，生成会议纪要。

如图5所示，在一个实施例中，该会议纪要转录设备还包括：

麦克风阵列401，用于当未匹配到预存储声纹特征信息时，对发言人的语音信号进行声源方位定位，定位到发言人所处的方位。

拍摄单元406，用于针对发言人所处的方位进行拍摄，得到位于方位上的发言人的图像。

40在一个实施例中，麦克风阵列401还用于根据发言人的语音信号到达麦克风阵列中不同麦克风的时间差异，确定发言人所处的位置相对于麦克风阵列的第一角度；根据第一角度、以及麦克风阵列和拍摄单元的相对位置关系，确定发言人所处的位置相对于拍摄单元的第二角度；拍摄单元406还用于针对第二角度下的人物进行拍摄，得到发言人的图像。

在一个实施例中，拍摄单元406还用于针对位于第二角度下的人物进行拍摄；当拍摄的图像中存在多个人物时，则将拍摄的图像输入至基于深度学习训练的动作识别模型中，识别出图像中正在执行说话动作的目标人物；调整拍摄角度拍摄目标人物，得到发言人的图像。

在一个实施例中，声纹识别单元402还用于在识别发言人的身份信息后，进入休眠状态。

麦克风阵列401还用于当采集的发言人的语音信号之间的时间间隔不小于预设停顿时长时，则唤醒处于休眠状态的声纹识别单元402，返回执行声纹特征信息提取和匹配的步骤，以及执行查找用户身份信息的步骤。

在一个实施例中，声纹识别单元402还用于当被唤醒后所查找的用户身份信息，与休眠前所识别的发言人的身份信息不一致时，则判定唤醒后所查找的用户身份信息为发言人结束发言后的下一个发言人的身份信息。

语音识别单元404还用于在会议纪要中，将由声纹识别单元唤醒后所针对的语音信号转换的文本的会议发言内容，与下一个发言人的身份信息进行关联记录。

在一个实施例中，语音识别单元404还用于当声纹识别单元402唤醒后查找的用户身份信息与发言人的身份信息一致时，则在会议纪要中，将由声纹识别单元唤醒后所针对的语音信号转换的文本的会议发言内容，与发言人的身份信息进行关联记录、且相对于已与发言人的身份信息关联记录的会议发言内容记录在不同段落。

在一个实施例中，语音识别单元404还用于按照预设的会议纪要格式，在每一位发言人的身份信息之后，关联记录由发言人的语音信号转换的文本的会议发言内容，得到每一位发言人的会议记录信息；按照会议中各发言人发言的时序，依次记录每一位发言人的会议记录信息，生成会议纪要。

在一个实施例中，预存储的声纹特征信息预先存储于声纹数据库中；声纹识别单元402还用于在未匹配到预存储声纹特征信息之后，则将发言人的声纹特征信息存储至声纹数据库中，并针对声纹特征信息添加发言人的唯一性的陌生人身份标记；唯一性的陌生人身份标记，用于唯一性标记每个陌生的发言人；当在声纹数据库中匹配到所存储的发言人的声纹特征信息时，则根据声纹特征信息的唯一性的陌生人身份标记，确定发言人的身份信息。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是图1中的会议纪要转录设备，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预先从样本声纹信息中提取的声纹特征信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种会议纪要转录方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种会议纪要转录方法，其特征在于，所述方法包括：

获取麦克风阵列采集的会议中发言人的语音信号；

将采集的所述语音信号转换为文本的会议发言内容；

当未匹配到预存储声纹特征信息时，对所述发言人的语音信号进行声源方位定位，定位到所述发言人所处的方位；

控制拍摄单元针对所述发言人所处的方位进行拍摄，得到位于所述方位上的所述发言人的图像，并将所述文本的会议发言内容和所述发言人的图像进行关联记录，生成会议纪要。

2.根据权利要求1所述的方法，其特征在于，所述对所述发言人的语音信号进行声源方位定位，定位到所述发言人所处的方位，包括：

根据所述发言人的语音信号到达所述麦克风阵列中不同麦克风的时间差异，确定所述发言人所处的位置相对于所述麦克风阵列的第一角度；

根据所述第一角度、以及所述麦克风阵列和拍摄单元的相对位置关系，确定所述发言人所处的位置相对于所述拍摄单元的第二角度；

所述控制拍摄单元针对所述发言人所处的方位进行拍摄，得到位于所述方位上的所述发言人的图像，包括：

控制所述拍摄单元针对所述第二角度下的人物进行拍摄，得到所述发言人的图像。

3.根据权利要求2所述的方法，其特征在于，所述控制所述拍摄单元针对所述第二角度下的人物进行拍摄，得到所述发言人的图像，包括：

控制所述拍摄单元针对位于所述第二角度下的人物进行拍摄；

当拍摄的图像中存在多个人物时，则将拍摄的所述图像输入至基于深度学习训练的动作识别模型中，识别出所述图像中正在执行说话动作的目标人物；

调整所述拍摄单元的拍摄角度拍摄所述目标人物，得到所述发言人的图像。

4.根据权利要求1所述的方法，其特征在于，所述发言人的身份信息是通过声纹识别单元识别得到；所述方法还包括：

在所述声纹识别单元识别所述发言人的身份信息后，控制所述声纹识别单元进入休眠状态；

当所述麦克风阵列采集的所述发言人的语音信号之间的时间间隔不小于预设停顿时长时，则唤醒处于休眠状态的所述声纹识别单元，返回执行声纹特征信息提取和匹配的步骤，以及执行查找用户身份信息的步骤。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

当所述声纹识别单元被唤醒后所查找的用户身份信息，与休眠前所识别的所述发言人的身份信息不一致时，则判定唤醒后所查找的用户身份信息为所述发言人结束发言后的下一个发言人的身份信息；

在所述会议纪要中，将由所述声纹识别单元唤醒后所针对的语音信号转换的文本的会议发言内容，与所述下一个发言人的身份信息进行关联记录；

当唤醒后查找的用户身份信息与所述发言人的身份信息一致时，则在所述会议纪要中，将由所述声纹识别单元唤醒后所针对的语音信号转换的文本的会议发言内容，与所述发言人的身份信息进行关联记录、且相对于已与所述发言人的身份信息关联记录的会议发言内容记录在不同段落。

6.根据权利要求1所述的方法，其特征在于，所述将所述文本的会议发言内容和所述发言人的身份信息进行关联记录，生成会议纪要包括：

按照预设的会议纪要格式，在每一位发言人的身份信息之后，关联记录由所述发言人的语音信号转换的所述文本的会议发言内容，得到每一位发言人的会议记录信息；

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述预存储的声纹特征信息预先存储于声纹数据库中；

所述方法还包括：

在未匹配到预存储声纹特征信息之后，则

将所述发言人的声纹特征信息存储至所述声纹数据库中，并针对所述声纹特征信息添加所述发言人的唯一性的陌生人身份标记；所述唯一性的陌生人身份标记，用于唯一性标记每个陌生的发言人；

当在所述声纹数据库中匹配到所存储的所述发言人的声纹特征信息时，则根据所述声纹特征信息的唯一性的陌生人身份标记，确定所述发言人的身份信息。

8.一种会议纪要转录设备，其特征在于，包括：

9.一种会议纪要转录设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。