CN110298252A

CN110298252A - 会议纪要生成方法、装置、计算机设备及存储介质

Info

Publication number: CN110298252A
Application number: CN201910464418.0A
Authority: CN
Inventors: 陈琳琳
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2019-10-01

Abstract

本发明公开了一种会议纪要生成方法、装置、计算机设备及存储介质，所述方法包括：获取考勤设备中存储的参会人员的签到视频信息；提取签到视频信息中的人脸图像，对人脸图像进行人脸识别；从预设的声纹数据库中提取签到视频信息中的每一参会人员标识对应的声纹特征；获取检测请求中包含的音频信息和当前时间；对音频信息进行声纹特征识别，确定每一音频信息对应的参会人员标识，并对音频信息进行语音识别；将参会人员标识、当前时间和实时语音文本建立关联，得到会议纪要信息；采用自然语言语义识别的方式，对会议纪要信息进行语义识别，得到会议纪要信息的目标会议纪要。该会议纪要生成方法能够提高会议纪要的智能化程度和会议纪要生成效率。

Description

会议纪要生成方法、装置、计算机设备及存储介质

技术领域

本发明涉及语音语义领域，尤其涉及一种会议纪要生成方法、装置、计算机设备及存储介质。

背景技术

在日常办公过程当中，每个工作日几乎都可能会面临各项会议，而在参会过程中，参会成员一般专注于跟进会议内容、进程，在会议结束后，会议纪要往往需要依靠专门的工作人员根据参会过程进行收集整理，纪要人需要跟进会议上所有人的反馈做记录并会下整理、转发，甚至需要跟进，从而导致整理会议纪要的过程需要人力成本的投入，耗费人力又费时。

目前，会议纪要整理通常是通过纪要人员手记录，虽然有少部分使用了语音识别技术，由机器识别发言人的语音并转换为文字记录。但是，机器只能单纯实现从语音到文字上的转换，并不能够对会议内容进行理解和整理。因此，提供一种能够智能分析会议上的发言内容，实现自动会议记录是目前亟待解决的问题。

发明内容

本发明实施例提供一种会议纪要生成方法、装置、计算机设备及存储介质，以解决会议纪要的智能化程度和生成效率不高的问题。

一种会议纪要生成方法，包括：

获取考勤设备中存储的参会人员的签到视频信息；

提取所述签到视频信息中的人脸图像，对所述人脸图像进行人脸识别，得到参会人员标识；

从预设的声纹数据库中提取所述签到视频信息中的每一参会人员标识对应的声纹特征；

若检测到会议记录中的音频信息的检测请求，则获取所述检测请求中包含的音频信息和当前时间；

对所述音频信息进行声纹特征识别，确定每一所述音频信息对应的参会人员标识，并对所述音频信息进行语音识别，生成实时语音文本；

将所述参会人员标识、所述当前时间和所述实时语音文本建立关联，得到所述参会人员标识对应的参会人员的会议纪要信息；

采用自然语言语义识别的方式，对所述会议纪要信息进行语义识别，得到所述会议纪要信息的目标会议纪要。

一种会议纪要生成装置，包括：

视频信息获取模块，用于获取考勤设备中存储的参会人员的签到视频信息；

参会人员确认模块，用于提取所述签到视频信息中的人脸图像，对所述人脸图像进行人脸识别，得到参会人员标识；

声纹特征提取模块，用于从预设的声纹数据库中提取所述签到视频信息中的每一参会人员标识对应的声纹特征；

会议信息获取模块，用于若检测到会议记录中的音频信息的检测请求时，则获取所述检测请求中包含的音频信息和当前时间；

语音文本生成模块，用于对所述音频信息进行声纹特征识别，确定每一所述音频信息对应的参会人员标识，并对所述音频信息进行语音识别，生成实时语音文本；

会议纪要生成模块，用于将所述参会人员标识、所述当前时间和所述实时语音文本建立关联，得到所述参会人员标识对应的参会人员的会议纪要信息；

目标会议纪要获取模块，用于采用自然语言语义识别的方式，对所述会议纪要信息进行语义识别，得到所述会议纪要信息的目标会议纪要。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述会议纪要生成方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述会议纪要生成方法。

上述会议纪要生成方法、装置、计算机设备及存储介质中，首先，获取考勤设备中存储的参会人员的签到视频信息；然后，提取签到视频信息中的人脸图像，对人脸图像进行人脸识别，得到参会人员标识；接着，从预设的声纹数据库中提取签到视频信息中的每一参会人员标识对应的声纹特征，快速准确地确定了参会人员与声音特征的映射关系，方便后续对每一参会人员的发言信息进行自动记录；接下来，当检测到会议记录中的音频信息的检测请求时，则获取检测请求中包含的音频信息和当前时间；再接着，对音频信息进行声纹特征识别，确定每一音频信息对应的参会人员标识，并对音频信息进行语音识别，生成实时语音文本；进而将参会人员标识、当前时间和实时语音文本建立关联，得到参会人员标识对应的参会人员的会议纪要信息；最后，采用自然语言语义识别的方式，对会议纪要信息进行语义识别，得到会议纪要信息的目标会议纪要，使得目标会议纪要更加通顺准确，易于理解，同时还能突出重点内容，大大地提高了会议纪要的智能化程度和会议纪要生成效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的会议纪要生成方法的应用环境示意图；

图2是本发明实施例提供的会议纪要生成方法一示例图；

图3是本发明实施例提供的会议纪要生成方法的另一示例图；

图4是本发明实施例提供的会议纪要生成方法的另一示例图；

图5是本发明实施例提供的会议纪要生成方法的另一示例图；

图6是本发明实施例提供的会议纪要生成方法的另一示例图；

图7是本发明实施例提供的会议纪要生成装置的一原理框图；

图8是本发明实施例提供的会议纪要生成装置的一原理框图；

图9是本发明实施例提供的会议纪要生成装置的一原理框图；

图10是本发明实施例提供的计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的会议纪要生成方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务端进行通信，服务端接收客户端发送的考勤设备中存储的参会人员的签到视频信息，然后提取签到视频信息中的人脸图像，对人脸图像进行人脸识别，得到参会人员标识；接着，从预设的声纹数据库中提取签到视频信息中的每一参会人员标识对应的声纹特征；当检测到会议记录中的音频信息的检测请求时，则获取检测请求中包含的音频信息和当前时间；并对音频信息进行声纹特征识别，确定每一音频信息对应的参会人员标识，并对音频信息进行语音识别，生成实时语音文本；将参会人员标识、当前时间和实时语音文本建立关联，得到参会人员标识对应的参会人员的会议纪要信息；最后，采用自然语言语义识别的方式，对会议纪要信息进行语义识别，得到会议纪要信息的目标会议纪要。其中，客户端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，以该方法应用于图1中的服务端为例进行说明，包括如下步骤：

S10：获取考勤设备中存储的参会人员的签到视频信息。

其中，签到视频信息是指对参会人员进行视频考勤过程中拍摄的一段包含有人脸图像的视频信息，也即用户的打卡视频信息。其中，考勤设备是指用于对用户进行视频考勤的且存储有用户签到视频信息的客户端，例如，用户可以通过打开手机APP录入5秒钟的视频，该视频语音内容为“早上好，我是XXX”，考勤设备自动截取每个人脸识别的录入信息。可以理解地，该考勤设备中也可以预先存储有注册的用户打卡的视频信息。具体地，可以通过ffmpeg中av_open_input_file()函数可以直接打开考勤设备中存储的rtsp流，从rtsp流中获取签到视频信息。

S20：提取签到视频信息中的人脸图像，对人脸图像进行人脸识别，得到参会人员标识。

其中，人脸图像是指签到视频信息中的包含有人脸的图像，用于作为人脸识别的图像库，对每一人脸图像进行身份识别。参会人员标识是指对参会人员进行身份识别的标识。具体地，首先通过平均帧差的方法检测人体运动区域；然后根据人脸分布的特点,采用水平投影的方法在运动区域里分离人脸和身体；最后根据人脸器官的分布规律，利用k-means的聚类算法对人脸进行定位后，提取出每一人脸图像，并对提取出的人脸图像进行人脸识别，实现对人脸图像的识别，从而得到每一人脸图像对应的身份，也即参会人员标识。其中的人脸识别方法可以是基于几何特征的人脸识别方法，也可以是基于子空间方法的人脸识别方法，还可以是基于神经网络的人脸识别方法。

S30：从预设的声纹数据库中提取签到视频信息中的每一参会人员标识对应的声纹特征。

具体地，对签到视频信息进行声纹特征提取，具体过程为：通过对音频信息进行语音编码和语音信号的预处理，将音频信息从模拟信号转化成数字信号，进而从该数字信号中进行声纹特征的提取，进而得到音频信息的目标声纹特征。其中的声纹特征包括但不限于：声学特征、词法特征、韵律特征、语种方言口音信息和通道信息等。优选地，本发明采用的声纹特征为声学特征。

容易理解地，通过步骤S10-步骤S20确定了参会人员标识，然后从预设的数据库中直接提取每一参会人员标识对应的声纹特征，避免了对签到视频信息进行一一比对，大大缩减了确定参会人员标识声纹特征的范围，从而快速准确地确定了参会人员与声音特征的映射关系，方便后续对每一参会人员的发言信息进行自动记录。

S40：若检测到会议记录中的音频信息的检测请求，则获取检测请求中包含的音频信息和当前时间；

其中，会议记录中的音频信息的检测请求是通过客户端配置的采集通道收集参会人员的会议发言信息，其具体可以是各种话筒、麦克风或其他带有语音传输功能的通讯设备等，此处不作具体限制。具体地，当检测到客户端发送会议记录中的音频信息的检测请求，服务端接收该检测请求中的音频信息，并获取当前时间。

S50：对音频信息进行声纹特征识别，确定每一音频信息对应的参会人员标识，并对音频信息进行语音识别，生成实时语音文本；

其中，声纹特征识别是生物识别技术的一种，也称为说话人识别，有两类，即说话人辨认和说话人确认。声纹识别就是把声信号转换成电信号，再用计算机进行识别。具体地，在获取到每一参会人员标识对应的声纹特征之后，也就得到了参会人员标识与其声纹特征的映射关系，通过对音频信息进行声纹特征识别，根据参会人员标识与其声纹特征的映射关系，从而获取到该音频信息对应的参人员标识。容易理解地，本发明实施例采用声纹特征识别是为了辨认当前发言的参会标识，即说话人辨认。需要说明的是，本实施例中的客户端配置的每一采集通道采集一个参会人员的音频信息。

具体地，通过对音频信息进行语音识别，生成与参会人员标识的发言信息的实时语音文本，从而实现了自动记录发言信息，提高了会议纪要生成效率。其中，实时语音文本是指根据每次会议发言过程中的停顿静音，对会议发言的音频信息进行切分，得到的一段段切分音频信息，对每段切分音频信息经过语音识别，从而得到对应的识别文本，即为实时语音文本。

S60：将参会人员标识、当前时间和实时语音文本建立关联，得到参会人员标识对应的参会人员的会议纪要信息；

具体地，针对每个实时语音文本，将该实时语音文本和该实时语音文本对应的当前时间，对应的目标参会人员标识进行关联记录，从而得到该目标参会人员标识对应的目标参会人员的发言信息。

示例性地，获取到的实时语音文本为“现在我宣布会议正式开始”，对应的当前时间为“2019年2月18日13:52:00”，对应的参会人员标识为“工号003”，将实时语音文本及其对应的当前时间和参会人员标识进行关联记录，得到一条会议信息记录为：“2019年2月18日13:52:00，工号003，现在我宣布会议正式开始”。优选地，在会议结束后，可以按照时间的先后顺序，对所有会议信息记录进行排序。

本实施例中，通过将参会人员标识、当前时间和实时语音文本建立关联，得到参会人员标识对应的参会人员的会议纪要信息，也即对每个参会人员的发言按照发言时间进行自动记录和整理，从而实现了对每个参会人员的发言信息的自动记录，进一步地，根据当前时间进行记录，使得自动记录的会议纪要信息更加清晰条理性更强，提高了会议纪要的智能化程度和会议纪要生成效率。

S70：采用自然语言语义识别的方式，对会议纪要信息进行语义识别，得到会议纪要信息的目标会议纪要。

其中，自然语言语义识别(Natural Language Processing，NLP)是人工智能(AI)的一个子领域，通过机器学习的方式，对自然语言进行理解解析，从而解决自然语言领域的一些问题，NLP主要应用范围包括但不限于：文本朗读(Text to speech)/语音合成(Speechsynthesis)、语音识别(Speech recognition)、中文自动分词(Chinese wordsegmentation)、词性标注(Part-of-speech tagging)、句法分析(Parsing)、文本分类(Text categorization)、信息检索(Information retrieval)、自动摘要(Automaticsummarization)和文字校对(Text-proofing)等。

具体地，通过自然语言语义识别的方式，对每个会议纪要信息进行语义识别，以生成语义更通顺、规范的目标会议纪要。基于NLP自然语言算法建立的NLP分析引擎可以预先搜集并存储有大量的真实语料，从而可以实现对会议纪要中的字词中有瑕疵或不规范的语言行为进行修订。机器只能单纯实现从语音到文字上的转换，并不能够对会议内容进行理解和整理。

本实施例中通过NLP自然语言算法对上述生成的会议纪要进行进一步处理，不仅能对每个参会人员的会要纪要信息进行纠错，使得目标会议纪要更加通顺准确，易于理解，同时还能突出重点内容，大大地提高了会议纪要的智能化程度和会议纪要生成效率。

本实施例中，首先，获取考勤设备中存储的参会人员的签到视频信息；然后，提取签到视频信息中的人脸图像，对人脸图像进行人脸识别，得到参会人员标识；接着，从预设的声纹数据库中提取签到视频信息中的每一参会人员标识对应的声纹特征，快速准确地确定了参会人员与声音特征的映射关系，方便后续对每一参会人员的发言信息进行自动记录；接下来，当检测到会议记录中的音频信息的检测请求时，则获取检测请求中包含的音频信息和当前时间；再接着，对音频信息进行声纹特征识别，确定每一音频信息对应的参会人员标识，并对音频信息进行语音识别，生成实时语音文本；进而将参会人员标识、当前时间和实时语音文本建立关联，得到参会人员标识对应的参会人员的会议纪要信息；最后，采用自然语言语义识别的方式，对会议纪要信息进行语义识别，得到会议纪要信息的目标会议纪要，使得目标会议纪要更加通顺准确，易于理解，同时还能突出重点内容，大大地提高了会议纪要的智能化程度和会议纪要生成效率。

在一实施例中，如图3所示，步骤S50中，对音频信息进行语音识别，生成实时语音文本，包括：

S51：对音频信息进行语音解析，得到包含基础语音帧的帧集合。

其中，语音编码就是对模拟的语音信号进行编码，将模拟信号转化成数字信号，从而降低传输码率并进行数字传输，语音编码的基本方法可分为波形编码、参量编码(音源编码)和混合编码。优选地，本提案使用的语音编码方式为波形编码，波形编码是将时域的模拟话音的波形信号经过取样、量化、编码而形成的数字话音信号，波形编码可提供高话音的质量。

其中，语音信号的预处理是指在对语音信号进行分析和处理之前，对其进行预加重、分帧、加窗等预处理操作。语音信号的预处理的目的是消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素，对语音信号质量的影响。尽可能保证后续语音处理得到的信号更均匀、平滑，为信号参数提取提供优质的参数，提高语音处理质量。

具体地，对获取到的音频信息进行语音解析，得到包含基础语音帧的帧集合，语音解析包括但不限于：语音编码和语音信号的预处理等。

S52：对基础语音帧进行静音检测，得到基础语音帧中的K个连续静音帧，其中，K为自然数。

其中，检测静默音状态的方式包括但不限于：语音端点检测、探测音频静音算法和语音活动检测(Voice Activity Detection，VAD)算法等。优选地，本发明实施例使用的对基础语音帧进行静音检测，得到基础语音帧中的K个连续静音帧。具体地，在参会人员持续发言的过程中，音频信息中的语音信号可分为激活期和静默期两个状态，静默期不传送任何语音信号，上、下行链路的激活期和静默期相互独立。参会人员发言过程中，会有停顿的状态，这个状态会带来语音信号的停顿，即静默期，在进行语音识别并转换文本的时候，需要检测出静默期状态，进而将静默期与激活期进行分离，以得到持续的激活期，将保留下来的持续的激活期的语音信号作为目标语音帧。

S53：根据K个静音帧，将帧集合中包含的基础语音帧划分成K+1个目标语音帧。

具体地，将步骤S52中得到的K个连续静音帧作为分界点，将帧集合中包含的基础语音帧划分开来，得到K+1个基础语音帧的集合区间，将每个集合区间中包含的所有基础语音帧，作为一个目标语音帧。

S54：将每个目标语音帧转换为实时语音文本。

具体地，对每个目标语音帧进行文本转换，得到该目标语音帧对应的实时语音文本。其中，文本转换可使用支持语音转换文本的工具，也可以使用用于文本转换算法，此处不作具体限制。通过将每个目标语音帧转换为实时语音文本，使得收到的音频信号实时转换成一个个独立的实时语音文本，实现了实时对参会会人员的音频信息进行准确记录。

本实施例中，首先，对音频信息进行语音解析，得到包含基础语音帧的帧集合；然后，对基础语音帧进行静音检测，得到基础语音帧中的K个连续静音帧；接着，根据K个静音帧，将帧集合中包含的基础语音帧划分成K+1个目标语音帧；最后，将每个目标语音帧转换为实时语音文本，实现了实时对参会会人员的音频信息进行准确记录。

在一实施例中，如图4所示，步骤S51中，对音频信息进行语音解析，得到包含基础语音帧的帧集合，具体包括如下步骤：

S511：对音频信息进行幅值归一化处理，得到基础语音信号。

具体地，利用设备获取的音频信息都是模拟信号，在获取到音频信息后，要对音频信息采用脉冲编码调制技术(Pulse Code Modulation，PCM)进行编码，使这些模拟信号转化为数字信号，并将音频信息中的模拟信号每隔预设的时间对一个采样点进行采样，使其离散化，进而对采样信号量化，以二进制码组的方式输出量化后的数字信号，根据语音的频谱范围200-3400Hz，采样率可设置为8KHz，量化精度为16bit。

应理解，此处采样率和量化精度的数值范围，为本发明优选范围，但可以根据实际应用的需要进行设置，此处不做限制。

值得说明的是，在幅值归一化处理之后，将音频数据中每个采样点的采样值转换为对应的标准值，从而得到与音频信息对应的基础语音信号。

S512：对基础语音信号进行预加重处理，生成具有平坦频谱的目标语音信号。

具体地，由于声门激励和口鼻辐射会对基础语音信号的平均功率谱产生影响，导致高频在超过800Hz时会按6dB/倍频跌落，所以在计算基础语音信号频谱时，频率越高相应的成分越小，为此要在预处理中进行预加重(Pre-emphasis)处理，预加重的目的是提高高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或者声道参数分析。预加重可在语音信号数字化时在反混叠滤波器之前进行，这样不仅可以进行预加重，而且可以压缩信号的动态范围，有效地提高信噪比。预加重可使用一阶的数字滤波器来实现，例如：有限脉冲响应(Finite Impulse Response，FIR)滤波器。

S513：按照预设的帧长和预设的帧移，对目标语音信号进行分帧处理，得到包含基础语音帧的帧集合。

具体地，语音信号具有短时平稳的性质，语音信号在经过预加重处理后，需要对其进行分帧和加窗处理，来保持信号的短时平稳性，通常情况下，每秒钟包含的帧数在33～100帧之间。为了保持帧与帧之间的连续性，使得相邻两帧都能平滑过渡，采用交叠分帧的方式。优选地，帧移与帧长的比值的取值范围为(0，0.5)，可以理解地，通过对目标语音信号进行分帧处理，使得帧集合更加简洁准确。

本实施例中，首先，对音频信息进行幅值归一化处理，得到基础语音信号；接着，对基础语音信号进行预加重处理，生成具有平坦频谱的目标语音信号；最后，按照预设的帧长和预设的帧移，对目标语音信号进行分帧处理，得到包含基础语音帧的帧集合，使得帧集合更加简洁准确。

在一实施例中，如图5所示，在步骤S70之后，即在得到每个会议纪要信息的目标会议纪要之后，会议纪要生成方法还包括：

S80：基于每一参会人员标识标识获取参会人员的邮箱。

具体地，服务端根据每一参会人员标识确定每一参会人员的邮箱。

S90：根据所述邮箱发送目标会议纪要。

具体地，可以将步骤S70中得到的目标会议纪要以邮件或传真形式发送给每一参会人员的邮箱，也可以将目标会议纪要对应的链接发送至每一参会人员的邮箱。具体地，服务端将目标会议纪要以邮件或传真形式发送给参会人员邮箱，从而使得每个参会人员能够高效地获取到目标会议纪要。

本实施例中，将目标会议纪要发送至每一参会人员，从而使得每个参会人员能够高效地获取到目标会议纪要。

在一实施例中，如图6所示，步骤S70中，采用自然语言语义识别的方式，对会议纪要信息进行语义识别，得到会议纪要信息的目标会议纪要，具体包括如下步骤：

S71：通过预设的分词方式，对会议纪要信息进行分词处理，得到会议纪要信息中包含的基础分词。

具体地，通过预设的分词方式，对步骤S60中得到的会议纪要信息对应的语句均进行分词处理，得到会议纪要信息中包含的基础分词。

其中，预设的分词方式包括但不限于：通过第三方分词工具或者分词算法等。容易理解地，通过分词的方式提取基础分词，一方面，可以过滤掉有效基础语句中一些无意义的词汇，另一方面，也有利于后续使用这些基础分词生成词向量。

S72：将基础分词转换为词向量，并通过预设的聚类算法，对词向量进行聚类，得到每个基础语句对应的聚类中心。

在人工智能中，语言表示主要指语言的形式化或数学的描述，以便在计算机中表示语言，并能让计算机程序自动处理。本发明实施例中所指的词向量就是用向量的形式来表示一个基础分词。

具体地，先通过词向量的方式，对每个基础分词进行转化，得到每个基础分词对应的词向量，进而通过预设的聚类算法，对词向量进行聚类，得到每个基础分词对应的词向量的聚类中心，进而将同一个基础语句中的基础分词对应的聚类中心进行继续聚类，得到基础语句对应的聚类中心。

优选地，在本实施例中，采用K均值(K-Means)聚类算法，通过对各个基础分词对应的词向量进行聚类，确定每个基础分词对应的分类，进而对基础语句进行聚类，得到基础语句对应的聚类中心。

S73：针对每个基础语句，计算基础语句对应的聚类中心与每个预设词义向量的距离，并将最小距离对应的预设词义向量作为目标向量，将目标向量对应的语义信息作为目标会议纪要。

具体地，服务端预先存储有表示指定语义的预设语义向量，每个预设语义向量对应有预设的语义评分，针对每个基础语句，分别计算该基础语句对应的聚类中心与这些预设语义向量的距离，并将最小距离对应的预设词义向量作为目标向量，并将将目标向量对应的语义信息作为目标会议纪要，提高了会议纪要的智能化程度和生成效率。

本实施例中，通过预设的分词方式，对基础语句进行分词处理，得到基础语句中包含的基础分词，进而将基础分词转换为词向量，并通过预设的聚类算法，对词向量进行聚类，得到每个基础语句对应的聚类中心，针对每个基础语句，计算基础语句对应的聚类中心与每个预设词义向量的距离，并将最小距离对应的预设词义向量作为目标向量，将目标向量对应的语义信息作为目标会议纪要，提高了会议纪要的智能化程度和生成效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种会议纪要生成装置，该会议纪要生成装置与上述实施例中会议纪要生成方法一一对应。如图7所示，该会议纪要生成装置包括视频信息获取模块10、参会人员确认模块20、声纹特征提取模块30、会议信息获取模块40、语音文本生成模块50、会议纪要生成模块60和目标会议纪要获取模块70。各功能模块详细说明如下：

视频信息获取模块10，用于获取考勤设备中存储的参会人员的签到视频信息；

参会人员确认模块20，用于提取签到视频信息中的人脸图像，对人脸图像进行人脸识别，得到参会人员标识；

声纹特征提取模块30，用于从预设的声纹数据库中提取签到视频信息中的每一参会人员标识对应的声纹特征；

会议信息获取模块40，用于若检测到会议记录中的音频信息的检测请求，则获取检测请求中包含的音频信息和当前时间；

语音文本生成模块50，用于对音频信息进行声纹特征识别，确定每一音频信息对应的参会人员标识，并对音频信息进行语音识别，生成实时语音文本；

会议纪要生成模块60，用于将参会人员标识、当前时间和实时语音文本建立关联，得到参会人员标识对应的参会人员的会议纪要信息；

目标会议纪要获取模块70，用于采用自然语言语义识别的方式，对会议纪要信息进行语义识别，得到会议纪要信息的目标会议纪要。

优选地，如图8所示，语音文本生成模块50包括帧集合获取单元51、静音帧检测单元52、语音帧划分单元53和语音文本转换单元54。

帧集合获取单元51，用于对音频信息进行语音解析，得到包含基础语音帧的帧集合；

静音帧检测单元52，用于对基础语音帧进行静音检测，得到基础语音帧中的K个连续静音帧，其中，K为自然数；

语音帧划分单元53，用于根据K个静音帧，将帧集合中包含的基础语音帧划分成K+1个目标语音帧；

语音文本转换单元54，用于将每个目标语音帧转换为实时语音文本。

优选地，如图9所示，帧集合获取单元51包括语音信号获取子单元511、目标语音信号生成子单元512和帧集合获取子单元513。

语音信号获取子单元511，用于对音频信息进行幅值归一化处理，得到基础语音信号；

目标语音信号生成子单元512，用于对基础语音信号进行预加重处理，生成具有平坦频谱的目标语音信号；

帧集合获取子单元513，用于按照预设的帧长和预设的帧移，对目标语音信号进行分帧处理，得到包含基础语音帧的帧集合。

优选地，会议纪要生成装置还包括邮箱获取模块和纪要发送模块。

邮箱获取模块，用于基于每一参会人员标识标识获取参会人员的邮箱；

纪要发送模块，用于向邮箱发送目标会议纪要。

优选地，目标会议纪要获取模块包括分词单元、聚类单元和语义获取单元。

分词单元，用于通过预设的分词方式，对会议纪要信息进行分词处理，得到会议纪要信息中包含的基础分词；

聚类单元，用于将基础分词转换为词向量，并通过预设的聚类算法，对词向量进行聚类，得到每个基础语句对应的聚类中心；

语义获取单元，用于针对每个基础语句，计算基础语句对应的聚类中心与每个预设词义向量的距离，并将最小距离对应的预设词义向量作为目标向量，将目标向量对应的语义信息作为目标会议纪要。

关于会议纪要生成装置的具体限定可以参见上文中对于会议纪要生成方法的限定，在此不再赘述。上述会议纪要生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储会议纪要生成方法所使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种会议纪要生成方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的会议纪要生成方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中的会议纪要生成方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种会议纪要生成方法，其特征在于，所述会议纪要生成方法包括：

获取考勤设备中存储的参会人员的签到视频信息；

2.如权利要求1所述的会议纪要生成方法，其特征在于，所述对所述音频信息进行语音识别，生成实时语音文本，包括：

对所述音频信息进行语音解析，得到包含基础语音帧的帧集合；

对所述基础语音帧进行静音检测，得到所述基础语音帧中的K个连续静音帧，其中，K为自然数；

根据K个所述静音帧，将所述帧集合中包含的所述基础语音帧划分成K+1个目标语音帧；

将每个所述目标语音帧转换为所述实时语音文本。

3.如权利要求2所述的会议纪要生成方法，其特征在于，所述对所述音频信息进行语音解析，得到包含基础语音帧的帧集合，包括：

对所述音频信息进行幅值归一化处理，得到基础语音信号；

对所述基础语音信号进行预加重处理，生成具有平坦频谱的目标语音信号；

按照预设的帧长和预设的帧移，对所述目标语音信号进行分帧处理，得到包含基础语音帧的帧集合。

4.如权利要求1所述的会议纪要生成方法，其特征在于，在所述得到每个所述会议纪要信息的目标会议纪要之后，所述会议纪要生成方法还包括：

基于每一所述参会人员标识标识获取参会人员的邮箱；

根据所述邮箱发送所述目标会议纪要。

5.如权利要求1所述的会议纪要生成方法，其特征在于，所述采用自然语言语义识别的方式，对每个所述会议纪要信息进行语义识别，得到每个所述会议纪要信息的目标会议纪要，包括：

通过预设的分词方式，对所述会议纪要信息进行分词处理，得到所述会议纪要信息中包含的基础分词；

将所述基础分词转换为词向量，并通过预设的聚类算法，对所述词向量进行聚类，得到每个所述基础语句对应的聚类中心；

针对每个所述基础语句，计算所述基础语句对应的聚类中心与每个预设词义向量的距离，并将最小距离对应的预设词义向量作为目标向量，将目标向量对应的语义信息作为所述目标会议纪要。

6.一种会议纪要生成装置，其特征在于，所述会议纪要生成装置包括：

会议信息获取模块，用于在检测到会议记录中的音频信息的检测请求时，则获取所述检测请求中包含的音频信息和当前时间；

7.如权利要求6所述的会议纪要生成装置，其特征在于，所述语音文本生成模块包括：

帧集合获取单元，用于对所述音频信息进行语音解析，得到包含基础语音帧的帧集合；

静音帧检测单元，用于对所述基础语音帧进行静音检测，得到所述基础语音帧中的K个连续静音帧，其中，K为自然数；

语音帧划分单元，用于根据K个所述静音帧，将所述帧集合中包含的所述基础语音帧划分成K+1个目标语音帧；

语音文本转换单元，用于将每个所述目标语音帧转换为所述实时语音文本。

8.如权利要求7所述的基于会议纪要生成装置，其特征在于，所述帧集合获取单元包括：

语音信号获取子单元，用于对所述音频信息进行幅值归一化处理，得到基础语音信号；

目标语音信号生成子单元，用于对所述基础语音信号进行预加重处理，生成具有平坦频谱的目标语音信号；

帧集合获取子单元，用于按照预设的帧长和预设的帧移，对所述目标语音信号进行分帧处理，得到包含基础语音帧的帧集合。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述会议纪要生成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述会议纪要生成方法。