CN113658599A

CN113658599A - 基于语音识别的会议记录生成方法、装置、设备及介质

Info

Publication number: CN113658599A
Application number: CN202110948735.7A
Authority: CN
Inventors: 施园圆
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2021-11-16

Abstract

本发明涉及人工智能技术，提供了一种基于语音识别的会议记录生成方法、装置、设备及存储介质。所述方法包括：对原始音频数据执行预处理后进行划分得到至少两段待识别音频数据，根据待识别音频数据的特征信息将各段待识别音频数据分别划分为多个语音片段，将各语音片段的特征信息输入语音身份识别模型得到各语音片段的发言人身份信息，根据发言人身份信息与语音文本识别模型的映射关系，调用发言人身份信息对应的语音文本识别模型识别出各语音片段的文本信息，再将各语音片段对应的文本信息分别填充至预设模板生成会议记录。本发明可以提高生成的会议记录的准确性。本发明还涉及区块链技术领域，上述会议记录可以存储于一区块链的节点中。

Description

基于语音识别的会议记录生成方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于语音识别的会议记录生成方法、装置、设备及存储介质。

背景技术

目前，单人的语音转文字技术应用广泛，能够准确地和快速地识别语音信号对应的文本含义，然而，大多数会议场景中是多人发言的，多人语音识别不仅需要识别不同语音信号对应的发言人和语音含义，并且还要区分不同发言人相互之间的发言顺序以及发言人的说话口音带来误识别，采用单一的语音转文字技术，往往需要记录人员在得到文本后进行人工整理，并不能准确地生成会议记录。

发明内容

鉴于以上内容，本发明提供一种基于语音识别的会议记录生成方法、装置、设备及存储介质，其目的在于解决现有技术中生成会议记录的准确性较低的问题。

为实现上述目的，本发明提供一种基于语音识别的会议记录生成方法，该方法包括：

对会议的原始音频数据执行预处理操作得到处理后的音频数据，基于语音活动检测算法对所述处理后的音频数据进行划分，得到至少两段待识别音频数据；

提取每段待识别音频数据的特征信息，基于待识别音频数据的特征信息将各段待识别音频数据分别划分为至少两段语音片段；

将各语音片段对应的特征信息分别输入预先训练好的语音身份识别模型，得到各语音片段的发言人身份信息，根据预先建立的发言人身份信息与语音文本识别模型的映射关系，调用各发言人身份信息对应的语音文本识别模型识别出各语音片段对应的文本信息；

将各语音片段对应的文本信息分别填充至预设模板中，并关联各语音片段的发言人的身份信息，得到所述原始音频对应的会议记录。

优选的，所述对会议的原始音频数据执行预处理操作得到处理后的音频数据，包括：

对原始音频数据执行回声消除处理、波束成形处理、降噪处理及增强放大处理。

优选的，所述基于语音活动检测算法对所述处理后的音频数据进行划分，包括：

识别所述预处理后的音频数据中的第一停顿，记录第一停顿的开始时间和结束时间；

识别所述预处理后的音频数据中的第一段待识别音频数据，并将第一停顿的结束时间作为第一段待识别音频数据的开始时间；

识别第二停顿并记录第二停顿的开始时间和结束时间，将第二停顿的开始时间作为第一段待识别音频数据的结束时间，基于第一段待识别音频数据的开始时间和结束时间，得到划分后的第一段待识别音频；

依次执行上述步骤，直至完成所述处理后的音频数据的划分。

优选的，所述提取每段待识别音频数据的特征信息，包括：

对待识别音频数据执行预加重处理，将预加重处理后的待识别音频数据执行分帧处理，将分帧处理后的待识别音频数据执行加窗处理；

将加窗处理后的待识别音频数据执行快速傅里叶变换以得到频谱；

将所述频谱通过Mel滤波器组得到Mel频谱；

对所述Mel频谱执行倒谱分析，得到该待识别音频数据的MFCC特征信息。

优选的，所述语音身份识别模型是基于隐马尔科夫模型训练得到的，所述语音文本识别模型是基于RNN-LSTM模型及具有状态关系的样本数据训练得到的。

优选的，所述语音文本识别模型的具体训练过程包括：

从预设数据库获取语音样本特征集及与该语音样本特征集对应的文本样本特征集；

将所述语音样本特征集对应的多维特征向量矩阵拆分成预设固定维度的特征向量矩阵，得到多个特征向量矩阵组，选取第一预设数量的所述特征向量矩阵组作为一个音素，得到多个音素集；

从所述多个音素集中选取第二预设数量的音素映射为所述文本样本特征集的单词，建立所述文本样本特征集与所述语音样本特征集的状态关系；

将建立状态关系后的文本样本特征集与语音样本特征集，输入所述RNN-LSTM模型进行训练，当所述RNN-LSTM的准确率大于预设阈值时，得到所述语音文本识别模型。

优选的，所述方法还包括：

基于存储有真实语料的分析引擎对所述会议记录的错别字或不规范语音进行修订，将修订后的会议记录以邮件形式发送至预设用户群。

为实现上述目的，本发明还提供一种基于语音识别的会议记录生成装置，该基于语音识别的会议记录生成装置包括：

划分模块：用于对会议的原始音频数据执行预处理操作得到处理后的音频数据，基于语音活动检测算法对所述处理后的音频数据进行划分，得到至少两段待识别音频数据；

提取模块：用于提取每段待识别音频数据的特征信息，基于待识别音频数据的特征信息将各段待识别音频数据分别划分为至少两段语音片段；

识别模块：用于将各语音片段对应的特征信息分别输入预先训练好的语音身份识别模型，得到各语音片段的发言人身份信息，根据预先建立的发言人身份信息与语音文本识别模型的映射关系，调用各发言人身份信息对应的语音文本识别模型识别出各语音片段对应的文本信息；

生成模块：用于将各语音片段对应的文本信息分别填充至预设模板中，并关联各语音片段的发言人的身份信息，得到所述原始音频对应的会议记录。

为实现上述目的，本发明还提供一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的程序，所述程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的基于语音识别的会议记录生成方法的任意步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有基于语音识别的会议记录生成程序，所述基于语音识别的会议记录生成程序被处理器执行时，实现如上所述基于语音识别的会议记录生成方法的任意步骤。

本发明提出的基于语音识别的会议记录生成方法、装置、设备及存储介质，由于每种口音的特征信息是不同的，根据待识别音频数据的特征信息将待识别音频数据划分为至少两段语音片段，可以将不同发言人的讲话划分开来(即区分不同口音的语音片段)，语音身份识别模型可以识别出发言人对应的口音信息，语音文本识别模型可以识别各种口音的语音片段对应的文本信息，进而将得到的文本信息填充至模板中生成会议记录，由于语音文本识别模型是通过具有状态关系的样本数据训练RNN-LSTM模型得到识别模型，可以更准确地识别出语音片段对应的文本信息，从而提高生成的会议记录的准确性。

附图说明

图1为本发明基于语音识别的会议记录生成方法较佳实施例的流程图示意图；

图2为本发明基于语音识别的会议记录生成装置较佳实施例的模块示意图；

图3为本发明电子设备较佳实施例的示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种基于语音识别的会议记录生成方法。参照图1所示，为本发明基于语音识别的会议记录生成方法的实施例的方法流程示意图。该方法可以由一个电子设备执行，该电子设备可以由软件和/或硬件实现。基于语音识别的会议记录生成方法包括：

步骤S10：对会议的原始音频数据执行预处理操作得到处理后的音频数据，基于语音活动检测算法对所述处理后的音频数据进行划分，得到至少两段待识别音频数据。

在本实施例中，可以利用具有录音功能的设备(话筒、麦克风等)或者具有录像功能的录像设备(摄像机)等的声音采集装置获取会议中发言人的原始音频数据。原始音频数据的音频格式例如可以为mp3、wav等，具体的，当终端设备一侧的发言者开始发言时，该终端设备通过声音采集装置采集音频数据。原始音频数据还可以是用户从预设存储路径导入的音频数据，预设存储路径包括但不限于用于存储会议记录相关音频的数据库。

由于原始音频数据可能包含噪音片段，噪音片段指原始音频数据中的环境噪音对应的语音部分，例如，门窗开关、物体的碰撞等发出的与会议无关的声音。因此，为了提高后续语音识别的准确性，可以对原始音频数据执行预处理操作得到待识别音频数据。之后，可以根据语音活动检测算法对所述预处理后的音频数据进行划分，得到至少两段待识别音频数据。

实际的会议过程中由于发言人常常会因为短暂的思考出现发言停顿等静音的情况，即预处理后的音频数据可能存在多个静音片段，因此，可以利用语音活动检测算法，对预处理后的音频数据进行划分，得到至少两段划分后的待识别音频数据，即从预处理后的音频数据中识别出并删除长时间的静音片段，以消除待识别音频数据中的静音段的干扰，提高后续语音识别的准确性。其中，语音活动检测算法是从噪音环境中准确定位出语音数据的开始时间和结束时间的算法。

具体地，对会议的原始音频数据执行预处理操作得到处理后的音频数据，包括：

回声消除处理可以采用回波抵消方法，也可以通过估计回波信号的大小，然后在接收信号中减去该估计值以抵消回波。

波束成形处理可以通过多个麦克风在不同方位采集用户的语音信息，确定声源的方向。根据不同方位的权重不同，进行加权求和。例如，声源方向的权重比其他方位的声音权重更大，以保证增强发言人输入的语音信息，削弱其他声音的影响。

降噪处理可以先通过采用与噪音频率相同、振幅相同、相位相反的声音进行相互抵消，然后采用去混响的音频插件或者传声器阵列消除混响。

增强放大处理采用AGC(自动增益控制)方式对音频进行放大处理。通过对原始音频数据进行预处理，减少了外界干扰，可提高语音识别的精确性。

在一个实施例中，所述基于语音活动检测算法对所述处理后的音频数据进行划分，包括：

其中，第一停顿、第二停顿包括待识别音频数据中的静音片段以及非语音片段，第一停顿和第二停顿仅为了区分不同时间对应的停顿。

步骤S20：提取每段待识别音频数据的特征信息，基于待识别音频数据的特征信息将各段待识别音频数据分别划分为至少两段语音片段。

在本实施例中，得到多段待识别音频数据之后，利用预设的特征提取算法分别提取出每段待识别音频数据的特征信息，该特征信息可以是梅尔倒频谱系数(MCFF)，MCFF是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳察觉声音频率的非线性特性，其与频率的关系可以用以下公式表示：

其中，f表示语音频率。

在一个实施例中，所述提取每段待识别音频数据的特征信息，包括：

将所述频谱通过Mel滤波器组得到Mel频谱；

预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发声过程中声带和嘴唇效应，补偿语音信号受到发音系统所抑制的高频部分，突出高频的共振峰，将n个采样点集合成一个观测单位称一帧，通常情况下N的值为256或512，涵盖的时间约为20-30ms左右。将每一帧乘以汉明窗，以增加帧左端和右端的连续性，然后将每帧转换为频域上的能量分布来观察，提取不同的能量分布中语音特征。

由于每个发言人的MFCC特征信息是不同的，若仅根据语音端点检测对待识别音频进行划分，则一个语音片段中可能存在多个不同口音发言人的发言，可能导致后续模型识别的某些音素时出现错误，因此，可以根据待识别音频数据的MFCC特征信息，将待识别音频数据划分为至少一个语音片段，例如，一段待识别音频数据中若存在3个不同的发言人的发言，将被切分为3段语音片段。

具体地，可以对不同频谱使用基于深度学习的变化检测算法，将语音待识别音频数据切分为不同的语音片段，将语音片段与频谱进行关联打标，识别为不同的发言人，该过程确定了发言人的不同段落语音和发言顺序，完成了区分标签的打标(例如：发言人1、发言人2、发言人3……)。

步骤S30：将各语音片段对应的特征信息分别输入预先训练好的语音身份识别模型，得到各语音片段的发言人身份信息，根据预先建立的发言人身份信息与语音文本识别模型的映射关系，调用各发言人身份信息对应的语音文本识别模型识别出各语音片段对应的文本信息。

在本实施例中，语音身份识别模型用于确认发言人的身份，语音身份识别模型可以是隐马尔科夫模型(Hidden Markov Model，HMM)训练得到的，具体的，针对输入的语音片段，可从该语音片段中提取出指定参数，并将这些参数作为预先训练好的语音身份识别模型的输入参数进行输入，而训练好的语音身份识别模型可根据该输入参数，输出该语音片段对应的发言人的身份信息，在训练语音身份识别模型时，可以获取大量的不同口音的语音，并标注对应的口音标签来训练HMM模型，从而得到可以用于识别发言人语音片段的口音的模型。语音文本识别模型用于识别语音片段对应的文本信息，语音文本识别模型是基于RNN-LSTM模型及具有状态关系的样本数据训练得到的，RNN-LSTM模型具有3层LSTM layer，每层LSTM有1024个神经元节点，后面带有512结点的投影层。

由于有些发言人语音可能存在较浓的地方口音(例如，广东口音、东北口音)，因此可以构建用于识别发言人身份信息的语音身份识别模型来识别发言人的身份信息(口音信息)，再建立口音信息与语音文本识别模型的映射关系，语音文本识别模型是指不同口音对应的识别模型以及无口音对应的语音识别模型，通过确认发言人的口音信息调用对应的语音文本识别模型可以更准确地识别出发言人的发言文本信息。例如，若识别出发言人为A，A的普通话含有较浓的广东口音，则调用该口音对应的语音文本识别模型。

在一个实施例中，所述语音文本识别模型的具体训练过程包括：

语音样本特征集为用于训练识别模型的语音样本，可以理解的是，训练不同口音的语音文本识别模型时，获取的语音样本特征集跟口音是对应的。通过梅尔倒频谱系数特征提取方法可以提取出语音样本的多维特征向量矩阵，将语音样本特征集对应的多维特征向量矩阵拆分成固定维度的特征向量矩阵后，将3个特征向量状态矩阵组作为1个音素，选取7的音素映射为文本样本特征集的单词，从而建立文本样本特征集与语音样本特征集的状态关系。通过建立语音样本与文本样本之间的状态关系，使得模型可以更准确地识别出语音特征对应的文本信息。

步骤S40：将各语音片段对应的文本信息分别填充至预设模板中，并关联各语音片段的发言人的身份信息，得到所述原始音频对应的会议记录。

在本实施例中，将各语音片段对应的文本信息按照时间顺序，分别填充至预先配置的会议记录模板中，其中，会议记录模板中有不同发言人的栏位，之后在模板中关联各语音片段的发言人的身份信息，得到原始音频对应的会议记录。其中，会议记录的文本格式可以为word、pdf、txt等。

在一个实施例中，所述方法还包括：

基于NLP自然语言处理技术建立的分析引擎可以预先搜集并存储大量的真实语料，从而可以实现对会议记录中的字词中有明显错误或不规范的语言行为进行修订，之后将会议记录以邮件的形式发送给参会人员。

参照图2所示，为本发明基于语音识别的会议记录生成装置100的功能模块示意图。

本发明所述基于语音识别的会议记录生成装置100可以安装于电子设备中。根据实现的功能，所述基于语音识别的会议记录生成装置100可以包括划分模块110、提取模块120、识别模块130及生成模块140。本发所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

划分模块110，用于对会议的原始音频数据执行预处理操作得到处理后的音频数据，基于语音活动检测算法对所述处理后的音频数据进行划分，得到至少两段待识别音频数据。

提取模块120，用于提取每段待识别音频数据的特征信息，基于待识别音频数据的特征信息将各段待识别音频数据分别划分为至少两段语音片段。

识别模块130：用于将各语音片段对应的特征信息分别输入预先训练好的语音身份识别模型，得到各语音片段的发言人身份信息，根据预先建立的发言人身份信息与语音文本识别模型的映射关系，调用各发言人身份信息对应的语音文本识别模型识别出各语音片段对应的文本信息。

生成模块140，用于将各语音片段对应的文本信息分别填充至预设模板中，并关联各语音片段的发言人的身份信息，得到所述原始音频对应的会议记录。

在一个实施例中，所述对会议的原始音频数据执行预处理操作得到处理后的音频数据，包括：

将所述频谱通过Mel滤波器组得到Mel频谱；

在一个实施例中，所述语音身份识别模型是基于隐马尔科夫模型训练得到的，所述语音文本识别模型是基于RNN-LSTM模型及具有状态关系的样本数据训练得到的。

在一个实施例中，所述生成模块140还用于：

参照图3所示，为本发明电子设备1较佳实施例的示意图。

该电子设备1包括但不限于：存储器11、处理器12、显示器13及网络接口14。所述电子设备1通过网络接口14连接网络，获取原始数据。其中，所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobilecommunication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器11可以是所述电子设备1的内部存储单元，例如该电子设备1的硬盘或内存。在另一些实施例中，所述存储器11也可以是所述电子设备1的外部存储设备，例如该电子设备1配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器11还可以既包括所述电子设备1的内部存储单元也包括其外部存储设备。本实施例中，存储器11通常用于存储安装于所述电子设备1的操作系统和各类应用软件，例如基于语音识别的会议记录生成程序10的程序代码等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作，例如执行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行基于语音识别的会议记录生成程序10的程序代码等。

显示器13可以称为显示屏或显示单元。在一些实施例中显示器13可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-EmittingDiode，OLED)触摸器等。显示器13用于显示在电子设备1中处理的信息以及用于显示可视化的工作界面，例如显示数据统计的结果。

网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，该网络接口14通常用于在所述电子设备1与其它电子设备之间建立通信连接。

图3仅示出了具有组件11-14以及基于语音识别的会议记录生成程序10的电子设备1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，所述电子设备1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

该电子设备1还可以包括射频(Radio Frequency，RF)电路、传感器和音频电路等等，在此不再赘述。

在上述实施例中，处理器12执行存储器11中存储的基于语音识别的会议记录生成程序10时可以实现如下步骤：

所述存储设备可以为电子设备1的存储器11，也可以为与电子设备1通讯连接的其它存储设备。

关于上述步骤的详细介绍，请参照上述图2关于基于语音识别的会议记录生成装置100实施例的功能模块图以及图1关于基于语音识别的会议记录生成方法实施例的流程图的说明。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性的，也可以是易失性的。该计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括存储数据区和存储程序区，存储数据区存储根据区块链节点的使用所创建的数据，存储程序区存储有基于语音识别的会议记录生成程序10，所述基于语音识别的会议记录生成程序10被处理器执行时实现如下操作：

本发明之计算机可读存储介质的具体实施方式与上述基于语音识别的会议记录生成方法的具体实施方式大致相同，在此不再赘述。

本发明可基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在另一个实施例中，本发明所提供的基于语音识别的会议记录生成方法，为进一步保证上述所有出现的数据的私密和安全性，上述所有数据还可以存储于一区块链的节点中。例如原始音频数据及会议记录等，这些数据均可存储在区块链节点中。

需要说明的是，本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，电子装置，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于语音识别的会议记录生成方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于语音识别的会议记录生成方法，其特征在于，所述对会议的原始音频数据执行预处理操作得到处理后的音频数据，包括：

3.如权利要求1所述的基于语音识别的会议记录生成方法，其特征在于，所述基于语音活动检测算法对所述处理后的音频数据进行划分，包括：

4.如权利要求1所述的基于语音识别的会议记录生成方法，其特征在于，所述提取每段待识别音频数据的特征信息，包括：

将所述频谱通过Mel滤波器组得到Mel频谱；

5.如权利要求1所述的基于语音识别的会议记录生成方法，其特征在于，所述语音身份识别模型是基于隐马尔科夫模型训练得到的，所述语音文本识别模型是基于RNN-LSTM模型及具有状态关系的样本数据训练得到的。

6.如权利要求1或5所述的基于语音识别的会议记录生成方法，其特征在于，所述语音文本识别模型的具体训练过程包括：

7.如权利要求1至5中任意一项所述的基于语音识别的会议记录生成方法，其特征在于，所述方法还包括：

8.一种基于语音识别的会议记录生成装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的程序，所述程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的基于语音识别的会议记录生成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有基于语音识别的会议记录生成程序，所述基于语音识别的会议记录生成程序被处理器执行时，实现如权利要求1至7中任一项所述基于语音识别的会议记录生成方法的步骤。