CN110021302A

CN110021302A - 一种智能办公会议系统及会议记录方法

Info

Publication number: CN110021302A
Application number: CN201910166335.3A
Authority: CN
Inventors: 蒋伟滨; 李稀敏; 肖龙源; 蔡振华; 刘晓葳; 谭玉坤
Original assignee: Xiamen Express Business Information Consulting Co Ltd
Current assignee: Xiamen Express Business Information Consulting Co Ltd
Priority date: 2019-03-06
Filing date: 2019-03-06
Publication date: 2019-07-16

Abstract

本发明公开了一种智能办公会议系统及会议记录方法，其通过获取说话人的音频信息；根据所述音频信息进行声纹识别，得到所述说话人的身份信息；根据所述音频信息进行语音识别，将所述音频信息转换为文本信息；根据所述说话人的身份信息，对所述文本信息或者所述音频信息进行说话人分割，得到每个说话人对应的分割文本信息；根据所述说话人的身份信息和所述分割文本信息，输出会议记录，从而实现智能化办公，无需后期整理，提高工作效率。

Description

一种智能办公会议系统及会议记录方法

技术领域

本发明涉及通信技术领域，特别是一种智能办公会议系统及对应的方法。

背景技术

会议记录是指在会议过程中，由记录人员把会议的组织情况和具体内容记录下来，就形成了会议记录。"记"有详记与略记之别。略记是记会议大要，会议上的重要或主要言论。传统的人工记录方式通常只能实现略记，若要实现快速有效的详记，则需要利用摄像机、麦克风以及录音笔等设备对会议过程中各人员进行录音或录像；会议结束后，还需要通过查看、回放录音及录像做成会议记录，或者通过语音识别的方式将录下来的内容还原成文字记录。

对于现有技术的会议记录，一方面，人工记录方式不仅效率低而且容易出错；另一方面，录音录像的记录方式虽然能够记录得更详细，但其后期整理过程也是相当的繁杂和费时，效率低。

在当前社会中，几乎每时每刻都有人在进行各种大大小小的会议，如何实现快速的、准确的、详细的记录每个与会人员的发言内容、发言时间，以便最大限度地再现会议情境，是一个亟待解决的问题。

发明内容

本发明为解决上述问题，提供了一种智能办公会议系统及会议记录方法，其通过对会议的音频信息进行说话人的身份识别和文本化处理，自动输出每个说话人的发言内容，无需后期整理，从而实现智能化办公，提高工作效率。

为实现上述目的，本发明采用的技术方案为：

本发明的目的之一，在于提供一种智能办公会议系统，其包括：

麦克风阵列，用于获取说话人的音频信息；

声纹识别模块，用于根据所述音频信息进行声纹识别，得到所述说话人的身份信息；

语音识别模块，用于根据所述音频信息进行语音识别，将所述音频信息转换为文本信息；

说话人分割模块，根据所述说话人的身份信息，对所述文本信息进行说话人分割，得到每个说话人对应的分割文本信息；或者，根据所述说话人的身份信息，对所述音频信息进行说话人分割，得到每个说话人对应的分割音频信息，再通过所述语音识别模块将所述分割音频信息转换为分割文本信息；

记录输出模块，根据所述说话人的身份信息和所述分割文本信息，输出会议记录。

优选的，所述的麦克风阵列包括两个以上不同方位的麦克风阵元，并进一步根据不同方位的麦克风阵元所捕捉的音频信息对所述说话人进行声源定位，得到说话人的声源位置信息；所述说话人分割模块根据所述说话人的身份信息和声源位置信息，对所述文本信息或所述音频信息进行说话人分割。

优选的，所述声源定位进一步包括：

计算所述音频信息中的声源到达所述麦克风阵列中的各麦克风阵元之间的相对时间差；

根据所述相对时间差计算出声源到达各麦克风阵元的距离差；

结合阵列拓扑结构用几何算法或搜索确定声源位置信息。

优选的，根据所述说话人的身份信息和声源位置信息，对所述文本信息或所述音频信息进行说话人分割，进一步包括：

根据所述声源位置信息对所述文本信息和/或所述音频信息进行预分割，得到分割后的信息片段；

判断相邻两个信息片段的声源位置信息是否发生改变：

若所述声源位置信息不变，则判定为所述相邻两个信息片段属于相同说话人，并将所述相邻两个信息片段进行合并，对合并后的信息片段进一步通过所述声纹识别模块进行判断所述说话人的身份信息；

若所述声源位置信息发生改变，则判定为所述相邻两个信息片段属于不同说话人，则对两个信息片段分别通过所述声纹识别模块进行判断各个说话人的身份信息。

优选的，所述的声纹识别模块，是通过预先获取每个说话人的声纹信息和对应的身份信息并存储在声纹库中，对当前说话人的音频信息进行声纹识别时，将识别到的声纹信息与声纹库中的声纹信息进行匹配，将匹配得到的声纹信息所对应的身份信息作为当前说话人的身份信息。

优选的，还包括存储模块，用于将所述音频信息及其对应的身份信息、文本信息存储于会议记录数据库中。

优选的，还包括时间戳控制器，用于对所述音频信息和所述文本信息标记时间戳。

优选的，还包括降噪处理模块，所述麦克风阵列获取说话人的音频信息后，先通过所述降噪处理模块对所述音频信息进行降噪处理，再对降噪后的音频信息进行声纹识别和语音识别。

本发明的目的之二，在于提供一种智能办公会议系统的会议记录方法，其包括以下步骤：

获取说话人的音频信息；

根据所述音频信息进行声纹识别，得到所述说话人的身份信息；

根据所述音频信息进行语音识别，将所述音频信息转换为文本信息；

根据所述说话人的身份信息，对所述文本信息进行说话人分割，得到每个说话人对应的分割文本信息；

根据所述说话人的身份信息和所述分割文本信息，输出会议记录。

本发明的目的之三，在于提供一种智能办公会议系统的会议记录方法，其包括以下步骤：

获取说话人的音频信息；

根据所述说话人的身份信息，对所述音频信息进行说话人分割，得到每个说话人对应的分割音频信息；

将所述分割音频信息转换为分割文本信息；

本发明的有益效果是：

(1)本发明通过对会议的音频信息进行说话人的身份识别和文本化处理，自动输出每个说话人的发言内容，无需后期整理，从而实现智能化办公，提高整理会议文档的效率，提高工作效率，减轻会议记录人员的工作压力，并且准确率高。

(2)本发明结合声源定位技术和声纹识别技术进行说话人分割，不仅算法效率更高，而且分割结果更准确。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明一种智能办公会议系统的处理过程流程简图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图及实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

第一实施例(音频分割法)：

本发明提供了一种智能办公会议系统，其包括：

麦克风阵列，用于获取说话人的音频信息；

说话人分割模块，用于根据所述说话人的身份信息，对所述音频信息或所述文本信息进行说话人分割，得到每个说话人对应的分割文本信息；

本实施例中，所述说话人分割模块中，是根据所述说话人的身份信息，对所述音频信息进行说话人分割，得到每个说话人对应的分割音频信息，再通过所述语音识别模块将所述分割音频信息转换为分割文本信息。

本实施例中，所述的麦克风阵列包括两个以上不同方位的麦克风阵元，本实施例中，在会议室的三个左上，左下，右上三个方位放置录音麦克风，并在软件中标记三个麦克风的相对位置，可从会议室的各个方向的说话人声音进行录音，记录每个说话人的说话内容。

如图1所示，本实施例中还进一步根据不同方位的麦克风阵元所捕捉的音频信息对所述说话人进行声源定位，得到说话人的声源位置信息；所述说话人分割模块根据所述说话人的身份信息和声源位置信息，对所述所述音频信息进行说话人分割。

其中，所述声源定位进一步包括：

结合阵列拓扑结构用几何算法或搜索确定声源位置信息。

其中，根据所述说话人的身份信息和声源位置信息，对所述音频信息进行说话人分割，进一步包括：

根据所述声源位置信息对所述音频信息进行预分割，得到分割后的信息片段(音频片段)；

判断相邻两个信息片段的声源位置信息是否发生改变：

在会议中，麦克风每次收到声音时，由于同一个位置发出的声波，在空气中传播到各个方位的麦克风需要的时间不同，收音时间会有延迟，由此可计算出发声的方位。

持续同一个方位发出的声音即是同一个说话人的一段语音，只需执行一次声纹识别。每当有一段语音的发声方位与上一段语音的方位发生改变时，即可作为身份改变的时间点。当一段录音(即两次身份改变时间点之间的语音)完成后，将此段内容进行声纹识别，确认所属的具体说话人。

说话人确认完毕后，对所述音频信息进行语音内容的识别，转换成文字信息之后，依据识别出的身份信息，将该文字信息及其对应的身份信息写入数据库，完成此段会议内容的处理。

本实施例的说话人分割方法的主要特点是将发声位置的变化结合声纹识别出说话人身份与时间点，从而达到说话人记录分割的目的，适用于室内场景。

本实施例中，所述的声纹识别模块，是通过预先获取每个说话人的声纹信息和对应的身份信息并存储在声纹库中，对当前说话人的音频信息进行声纹识别时，将识别到的声纹信息与声纹库中的声纹信息进行匹配，将匹配得到的声纹信息所对应的身份信息作为当前说话人的身份信息。

另外，本实施例中，还包括存储模块、时间戳控制器、降噪处理模块等。其中，所述存储模块用于将所述音频信息及其对应的身份信息、文本信息存储于会议记录数据库中；所述时间戳控制器用于对所述音频信息和所述文本信息标记时间戳；所述麦克风阵列获取说话人的音频信息后，先通过所述降噪处理模块对所述音频信息进行降噪处理，再对降噪后的音频信息进行声纹识别和语音识别，避免噪音对会议录音产生干扰，进而导致音质不清楚等。

第二实施例(文本分割+音频分割)：

本实施例与第一实施例的主要区别在于：本实施例的所述说话人分割模块中，是根据所述说话人的身份信息，对所述文本信息进行说话人分割，得到每个说话人对应的分割文本信息。

本实施例中还进一步结合声源位置信息进行说话人分割，具体分割过程如下：所述的麦克风阵列包括两个以上不同方位的麦克风阵元，并进一步根据不同方位的麦克风阵元所捕捉的音频信息对所述说话人进行声源定位，得到说话人的声源位置信息；所述说话人分割模块根据所述说话人的身份信息和声源位置信息，对所述文本信息进行说话人分割。

其中，根据所述说话人的身份信息和声源位置信息，对所述文本信息进行说话人分割，进一步包括：

根据所述声源位置信息对所述文本信息和所述音频信息进行预分割，得到分割后的信息片段(文本片段和音频片段)；

判断相邻两个信息片段的声源位置信息是否发生改变：

若所述声源位置信息不变，则判定为所述相邻两个信息片段属于相同说话人，并将所述相邻两个信息片段(文本片段和音频片段)进行合并，对合并后的信息片段(音频片段)进一步通过所述声纹识别模块进行判断所述说话人的身份信息；

若所述声源位置信息发生改变，则判定为所述相邻两个信息片段属于不同说话人，则对两个信息片段(音频片段)分别通过所述声纹识别模块进行判断各个说话人的身份信息。

本实施例的分割方法采用音频分割和文本分割的同步分割的方法。

本实施例的其余模块及处理过程与第一实施例基本相似，在此不进行赘述。

第三实施例(基于音频分割的会议记录方法)

与第一实施例的智能办公会议系统相对应的，本发明还提供一种智能办公会议系统的会议记录方法，其包括以下步骤：

获取说话人的音频信息；

将所述分割音频信息转换为分割文本信息；

第四实施例(基于文本分割+音频分割的会议记录方法)

与第二实施例的智能办公会议系统相对应的，本发明还提供一种智能办公会议系统的会议记录方法，其包括以下步骤：

获取说话人的音频信息；

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于方法实施例而言，由于其与系统实施例基本相似，所以描述的比较简单，相关之处参见系统实施例的部分说明即可。并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外，本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种智能办公会议系统，其特征在于，包括：

麦克风阵列，用于获取说话人的音频信息；

2.根据权利要求1所述的一种智能办公会议系统，其特征在于：所述的麦克风阵列包括两个以上不同方位的麦克风阵元，并进一步根据不同方位的麦克风阵元所捕捉的音频信息对所述说话人进行声源定位，得到说话人的声源位置信息；所述说话人分割模块根据所述说话人的身份信息和声源位置信息，对所述文本信息或所述音频信息进行说话人分割。

3.根据权利要求2所述的一种智能办公会议系统，其特征在于：所述声源定位进一步包括：

结合阵列拓扑结构用几何算法或搜索确定声源位置信息。

4.根据权利要求2所述的一种智能办公会议系统，其特征在于：根据所述说话人的身份信息和声源位置信息，对所述文本信息或所述音频信息进行说话人分割，进一步包括：

判断相邻两个信息片段的声源位置信息是否发生改变：

5.根据权利要求1所述的一种智能办公会议系统，其特征在于：所述的声纹识别模块，是通过预先获取每个说话人的声纹信息和对应的身份信息并存储在声纹库中，对当前说话人的音频信息进行声纹识别时，将识别到的声纹信息与声纹库中的声纹信息进行匹配，将匹配得到的声纹信息所对应的身份信息作为当前说话人的身份信息。

6.根据权利要求1至5任一项所述的一种智能办公会议系统，其特征在于：还包括存储模块，用于将所述音频信息及其对应的身份信息、文本信息存储于会议记录数据库中。

7.根据权利要求1至5任一项所述的一种智能办公会议系统，其特征在于：还包括时间戳控制器，用于对所述音频信息和所述文本信息标记时间戳。

8.根据权利要求1至5任一项所述的一种智能办公会议系统，其特征在于：还包括降噪处理模块，所述麦克风阵列获取说话人的音频信息后，先通过所述降噪处理模块对所述音频信息进行降噪处理，再对降噪后的音频信息进行声纹识别和语音识别。

9.一种智能办公会议系统的会议记录方法，其特征在于，包括以下步骤：

获取说话人的音频信息；

10.一种智能办公会议系统的会议记录方法，其特征在于，包括以下步骤：

获取说话人的音频信息；

将所述分割音频信息转换为分割文本信息；