CN112017632A - 一种自动化会议记录生成方法 - Google Patents

一种自动化会议记录生成方法 Download PDF

Info

Publication number
CN112017632A
CN112017632A CN202010908631.9A CN202010908631A CN112017632A CN 112017632 A CN112017632 A CN 112017632A CN 202010908631 A CN202010908631 A CN 202010908631A CN 112017632 A CN112017632 A CN 112017632A
Authority
CN
China
Prior art keywords
generation method
algorithm
model
record generation
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010908631.9A
Other languages
English (en)
Inventor
邓博
蔡卫卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202010908631.9A priority Critical patent/CN112017632A/zh
Publication of CN112017632A publication Critical patent/CN112017632A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Abstract

本发明特别涉及一种自动化会议记录生成方法。该自动化会议记录生成方法,收集音频数据,对音频数据进行预处理,采用DNN算法模型对处理后的数据进行声纹识别,识别说话人;采用翻译模型对处理后的数据进行语音识别,将语音转换为文字,获取文本数据;采用TextRank算法对文本信息进行文本摘要;采用了DCNN模型对文本信息进行句子级情感识别;最后生成会议记录。该自动化会议记录生成方法,可以对会议的音频数据进行音频预处理,通过声纹识别算法识别说话人,然后通过语音识别算法将语音转换成文字,并通过文本摘要算法生成会议摘要,同时通过情绪识别算法识别说话人的情绪,最后生成会议记录,大大节省了人力资源,提高了效率。

Description

一种自动化会议记录生成方法
技术领域
本发明涉及人工智能技术领域,特别涉及一种自动化会议记录生成方法。
背景技术
会议是企业成长的重要组成部分,每天都要针对不同的议题展开大大小小的各种会议,而每次会议都要有大量时间用于会议的记录以及会后的分析。性格不同的人在会议上的表现也不相同,他们的情绪可以通过观察文字来进行分析和衡量,这样可以看出他们对待问题的态度,以及分析会后可能采取的行动。
在日常会议中,传统的人工记录方式会存在各种问题,比如漏记和有主观感情色彩的记录。同样人工记录也有可能会出现各种错误。随着经济的快速增长,很多忙碌的高管不再倾向于参加传统会议,利用无处不在的通信召开的虚拟的线上会议成为更多企业的选择。
为了解决传统人工记录方式存在的记录效率低、错误率高的问题,本发明提出了一种自动化会议记录生成方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的自动化会议记录生成方法。
本发明是通过如下技术方案实现的:
一种自动化会议记录生成方法,其特征在于:包括以下步骤:
1)通过麦克风或者手机录音收集音频数据;
2)对音频数据进行预处理,包括音频数据预加重,组帧和加窗;
3)采用DNN(Deep Neural Networks,深度神经网络)算法模型对处理后的数据进行声纹识别,识别说话人;
4)采用翻译模型对处理后的数据进行语音识别,将语音转换为文字,获取文本数据;
5)采用TextRank算法对文本信息进行文本摘要;
6)采用了DCNN(Dynamic Convolutional Neural Network,深度卷积神经网络)模型对文本信息进行句子级情感识别;
7)生成会议记录。
所述步骤2)中,音频数据预加重是在噪声引入之前采用预加重网络,人为地加重发射机输入调制信号的高频分量;然后在接收机鉴频器的输出端进行相反的处理,即采用去加重网络把高频分量去加重,恢复原来的信号功率分布;其目的是将音频信号保留在一定的频率范围内;
所述步骤2)中,使用VAD噪声抑制算法来检测信号是否包含语音或噪声,将长会议记录将分成若干短音频,并对每个短音频进行MFCC(Mel Frequency CepstralCoefficents,梅尔频率倒谱系数)转换,将原始语音的参数提取到特征向量序列中,获取音频特征向量。
所述步骤3)中,声纹识别流程包的具体实现步骤如下:
S1.利用DNN分类器提取音频数据的帧级特征,所述DNN分类器是一个多层感知器,具有两个以上的隐藏层;
S2.在将每个帧级特征通过神经网络传递后,将其分配给一个声音单元;
S3.对在所有声音单元中构建的每个句子进行统计分析,然后为每个句子输出一个高维特征向量;
S4.通过有监督的学习,训练出声纹识别模型,用于声纹识别。
所述步骤S4中,声纹识别模型采用人工神经网络中的深度神经网络,深度神经网络可以直接学习原始音频数据作为模型的输入。
所述步骤4)中,采用端到端的翻译模型作为语音识别模型,所述翻译模型是利用LSTM(Long Short-Term Memory,长短期记忆网络)构建的,以音频特征作为输入,输出的是识别出来的文本信息。
所述步骤5)中,循环计算任意两个节点之间的相似度,根据阈值Y去掉两个节点之间相似度较低的边连接,构建出节点连接图,然后计算TextRank值,最后对所有TextRank值排序,选出TextRank值最高的m个节点对应的句子作为摘要;所述阈值Y和自然数m均由用户设定。
所述步骤5)中,每个句子都被视为图中的一个节点,如果两个句子之间存在相似性,则认为对应的两个节点之间存在间接联系,权重即为相似度;
TextRank权重算法公式如下所示:
Figure BDA0002662434940000031
其中,WS表示句子权重,Vi表示第i个句子节点,d为阻尼因子,是一个常数,用于函数曲线的平滑,ω表示两节点之间关联的权重。
所述步骤5)中,两个句子相似度的计算公式,如下:
Figure BDA0002662434940000032
其中,Si,Sj分别表示两个句子词的个数总数,Wk表示句子中的词,分子部分表示同时出现在两个句子中的同一个词的个数,分母则是对句子中词的个数求对数之和。
所述步骤6)中,DCNN模型卷积层为动态k-max卷积(k-max-pooling)算法,允许不同长度的输入进入模型;k-max最大值池化不返回单个池化结果的最大值,而是前k个池化结果的最大值;
池化算法中的参数k是一个动态函数,具体值取决于网络的输入长度和网络深度,计算公式如下:
Figure BDA0002662434940000033
其中,l表示当前位于卷积网络的第l层,L是神经网络的总层数,s是步长是一个常数,ktop为顶层k值也是一个常数。
本发明的有益效果是:该自动化会议记录生成方法,可以对会议的音频数据进行音频预处理,通过声纹识别算法识别说话人,然后通过语音识别算法将语音转换成文字,并通过文本摘要算法生成会议摘要,同时通过情绪识别算法识别说话人的情绪,最后生成会议记录,大大节省了人力资源,提高了效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1为本发明自动化会议记录生成方法示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明中的技术方案,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚,完整的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
该自动化会议记录生成方法,包括以下步骤:
1)通过麦克风或者手机录音收集音频数据;
2)对音频数据进行预处理,包括音频数据预加重,组帧和加窗;
3)采用DNN(Deep Neural Networks,深度神经网络)算法模型对处理后的数据进行声纹识别,识别说话人;
4)采用翻译模型对处理后的数据进行语音识别,将语音转换为文字,获取文本数据;
5)采用TextRank算法对文本信息进行文本摘要;
6)采用了DCNN(Dynamic Convolutional Neural Network,深度卷积神经网络)模型对文本信息进行句子级情感识别;
7)生成会议记录。
所述步骤2)中,音频数据预加重是在噪声引入之前采用预加重网络,人为地加重发射机输入调制信号的高频分量;然后在接收机鉴频器的输出端进行相反的处理,即采用去加重网络把高频分量去加重,恢复原来的信号功率分布;其目的是将音频信号保留在一定的频率范围内;
在音频数据去加重过程中,同时也减小了噪声的高频分量,但是预加重对噪声并没有影响,因此有效地提高了输出信噪比。预加重的目的是将信号保留在一定的频率范围内。该过程实际上是一个高通滤波器。
数字信号是随时间变化的随机序列,它不是平稳的随机过程。但是,在短时间内,可以将其视为近似平稳的随机过程。在离散序列的分组中,每个组都被视为一个帧。窗口用于组帧。对于每一帧,选择一个窗口函数。因此,窗口的宽度被认为是帧长。
所述步骤2)中,使用VAD噪声抑制算法来检测信号是否包含语音或噪声,将长会议记录将分成若干短音频,并对每个短音频进行MFCC(Mel Frequency CepstralCoefficents,梅尔频率倒谱系数)转换,将原始语音的参数提取到特征向量序列中,获取音频特征向量。
所述步骤3)中,声纹识别流程包的具体实现步骤如下:
S1.利用DNN分类器提取音频数据的帧级特征,所述DNN分类器是一个多层感知器,具有两个以上的隐藏层;
S2.在将每个帧级特征通过神经网络传递后,将其分配给一个声音单元;
S3.对在所有声音单元中构建的每个句子进行统计分析,然后为每个句子输出一个高维特征向量;
S4.通过有监督的学习,训练出声纹识别模型,用于声纹识别。
如果可以从原始数据中选择特征并提取特征,则可以将特征用作输入以改善模型的性能。因此所述步骤S4中,声纹识别模型采用人工神经网络中的深度神经网络,深度神经网络可以直接学习原始音频数据作为模型的输入。
所述步骤4)中,采用端到端的翻译模型作为语音识别模型,所述翻译模型是利用LSTM(Long Short-Term Memory,长短期记忆网络)构建的,以音频特征作为输入,输出的是识别出来的文本信息。
翻译模型本质上是将语音翻译成了文本,是RNN(循环神经网络)模型的一个变种。LSTM模型会对成词规则进行学习,即我们要说的单词之前之后是那些单词的概率大一些。和前馈型神经网络DNN相比,RNN模型更加适合具有时序性的数据,比如语言,语音等。
所述步骤5)中,循环计算任意两个节点之间的相似度,根据阈值Y去掉两个节点之间相似度较低的边连接,构建出节点连接图,然后计算TextRank值,最后对所有TextRank值排序,选出TextRank值最高的m个节点对应的句子作为摘要;所述阈值Y和自然数m均由用户设定。
所述步骤5)中,每个句子都被视为图中的一个节点,如果两个句子之间存在相似性,则认为对应的两个节点之间存在间接联系,权重即为相似度;
TextRank权重算法公式如下所示:
Figure BDA0002662434940000061
其中,WS表示句子权重,Vi表示第i个句子节点,d为阻尼因子,是一个常数,用于函数曲线的平滑,ω表示两节点之间关联的权重。
所述步骤5)中,两个句子相似度的计算公式,如下:
Figure BDA0002662434940000062
其中,Si,Sj分别表示两个句子词的个数总数,Wk表示句子中的词,分子部分表示同时出现在两个句子中的同一个词的个数,分母则是对句子中词的个数求对数之和。分母这样设计可以遏制较长的句子在相似度计算上的优势。
句子级别的情感识别,用于量化单个句子中所表达的情绪。在现有的深度学习模型中,情感分类通常是一个三分类问题,即积极,中性,消极。运用到的分类器是CNN(卷积神经网络)的一个变种,它不再使用词袋模型来构建单词的表示方法,而是通过一种嵌入式词向量的方式表示单词。本文使用Dynamic Convolutional Neural Network(DCNN)动态卷积神经网络作为情感识别的分类器,和传统卷积神经网络相比较,动态卷积神经网络使用了一种动态k-max池化算法。
所述步骤6)中,DCNN模型卷积层为动态k-max卷积(k-max-pooling)算法,允许不同长度的输入进入模型,也契合了输入句子长度不同的特点;k-max最大值池化不返回单个池化结果的最大值,而是前k个池化结果的最大值;
池化算法中的参数k是一个动态函数,具体值取决于网络的输入长度和网络深度,计算公式如下:
Figure BDA0002662434940000063
其中,l表示当前位于卷积网络的第l层,L是神经网络的总层数,s是步长是一个常数,ktop为顶层k值也是一个常数。
以上所述的实施例,只是本发明具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (9)

1.一种自动化会议记录生成方法,其特征在于:包括以下步骤:
1)通过麦克风或者手机录音收集音频数据;
2)对音频数据进行预处理,包括音频数据预加重,组帧和加窗;
3)采用DNN算法模型对处理后的数据进行声纹识别,识别说话人;
4)采用翻译模型对处理后的数据进行语音识别,将语音转换为文字,获取文本数据;
5)采用TextRank算法对文本信息进行文本摘要;
6)采用了DCNN模型对文本信息进行句子级情感识别;
7)生成会议记录。
2.根据权利要求1所述的自动化会议记录生成方法,其特征在于:所述步骤2)中,音频数据预加重是在噪声引入之前采用预加重网络,人为地加重发射机输入调制信号的高频分量;然后在接收机鉴频器的输出端进行相反的处理,即采用去加重网络把高频分量去加重,恢复原来的信号功率分布;其目的是将音频信号保留在一定的频率范围内;
所述步骤2)中,使用VAD噪声抑制算法来检测信号是否包含语音或噪声,将长会议记录将分成若干短音频,并对每个短音频进行MFCC转换,将原始语音的参数提取到特征向量序列中,获取音频特征向量。
3.根据权利要求1或2所述的自动化会议记录生成方法,其特征在于:所述步骤3)中,声纹识别流程包的具体实现步骤如下:
S1.利用DNN分类器提取音频数据的帧级特征,所述DNN分类器是一个多层感知器,具有两个以上的隐藏层;
S2.在将每个帧级特征通过神经网络传递后,将其分配给一个声音单元;
S3.对在所有声音单元中构建的每个句子进行统计分析,然后为每个句子输出一个高维特征向量;
S4.通过有监督的学习,训练出声纹识别模型,用于声纹识别。
4.根据权利要求3所述的自动化会议记录生成方法,其特征在于:所述步骤S4中,声纹识别模型采用人工神经网络中的深度神经网络,深度神经网络可以直接学习原始音频数据作为模型的输入。
5.根据权利要求1或2所述的自动化会议记录生成方法,其特征在于:所述步骤4)中,采用端到端的翻译模型作为语音识别模型,所述翻译模型是利用LSTM构建的,以音频特征作为输入,输出的是识别出来的文本信息。
6.根据权利要求1所述的自动化会议记录生成方法,其特征在于:所述步骤5)中,循环计算任意两个节点之间的相似度,根据阈值Y去掉两个节点之间相似度较低的边连接,构建出节点连接图,然后计算TextRank值,最后对所有TextRank值排序,选出TextRank值最高的m个节点对应的句子作为摘要;所述阈值Y和自然数m均由用户设定。
7.根据权利要求6所述的自动化会议记录生成方法,其特征在于:所述步骤5)中,每个句子都被视为图中的一个节点,如果两个句子之间存在相似性,则认为对应的两个节点之间存在间接联系,权重即为相似度;
TextRank权重算法公式如下所示:
Figure FDA0002662434930000021
其中,WS表示句子权重,Vi表示第i个句子节点,d为阻尼因子,是一个常数,用于函数曲线的平滑,ω表示两节点之间关联的权重。
8.根据权利要求7所述的自动化会议记录生成方法,其特征在于:所述步骤5)中,两个句子相似度的计算公式,如下:
Figure FDA0002662434930000022
其中,Si,Sj分别表示两个句子词的个数总数,Wk表示句子中的词,分子部分表示同时出现在两个句子中的同一个词的个数,分母则是对句子中词的个数求对数之和。
9.根据权利要求1所述的自动化会议记录生成方法,其特征在于:所述步骤6)中,DCNN模型卷积层为动态k-max卷积(k-max-pooling)算法,允许不同长度的输入进入模型;k-max最大值池化不返回单个池化结果的最大值,而是前k个池化结果的最大值;
池化算法中的参数k是一个动态函数,具体值取决于网络的输入长度和网络深度,计算公式如下:
Figure FDA0002662434930000031
其中,l表示当前位于卷积网络的第l层,L是神经网络的总层数,s是步长是一个常数,ktop为顶层k值也是一个常数。
CN202010908631.9A 2020-09-02 2020-09-02 一种自动化会议记录生成方法 Pending CN112017632A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010908631.9A CN112017632A (zh) 2020-09-02 2020-09-02 一种自动化会议记录生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010908631.9A CN112017632A (zh) 2020-09-02 2020-09-02 一种自动化会议记录生成方法

Publications (1)

Publication Number Publication Date
CN112017632A true CN112017632A (zh) 2020-12-01

Family

ID=73516368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010908631.9A Pending CN112017632A (zh) 2020-09-02 2020-09-02 一种自动化会议记录生成方法

Country Status (1)

Country Link
CN (1) CN112017632A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112466337A (zh) * 2020-12-15 2021-03-09 平安科技(深圳)有限公司 音频数据情绪检测方法、装置、电子设备及存储介质
CN113129898A (zh) * 2021-04-08 2021-07-16 上海交通大学 一种机器辅助的会议记录系统及方法
CN113257253A (zh) * 2021-06-29 2021-08-13 明品云(北京)数据科技有限公司 一种文本提取方法、系统、设备及介质
CN113691382A (zh) * 2021-08-25 2021-11-23 平安国际智慧城市科技股份有限公司 会议记录方法、装置、计算机设备及介质
CN113808577A (zh) * 2021-09-18 2021-12-17 平安银行股份有限公司 语音摘要的智能提取方法、装置、电子设备及存储介质
WO2022267322A1 (zh) * 2021-06-24 2022-12-29 深圳前海微众银行股份有限公司 会议纪要的生成方法、装置、终端设备及计算机存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005055666A (ja) * 2003-08-04 2005-03-03 Sony Corp 音声処理装置
CN107689225A (zh) * 2017-09-29 2018-02-13 福建实达电脑设备有限公司 一种自动生成会议记录的方法
CN108922538A (zh) * 2018-05-29 2018-11-30 平安科技(深圳)有限公司 会议信息记录方法、装置、计算机设备及存储介质
CN108984523A (zh) * 2018-06-29 2018-12-11 重庆邮电大学 一种基于深度学习模型的商品评论情感分析方法
CN109215665A (zh) * 2018-07-20 2019-01-15 广东工业大学 一种基于3d卷积神经网络的声纹识别方法
CN109285551A (zh) * 2018-09-18 2019-01-29 上海海事大学 基于wmfcc和dnn的帕金森患者声纹识别方法
CN109859772A (zh) * 2019-03-22 2019-06-07 平安科技(深圳)有限公司 情绪识别方法、装置及计算机可读存储介质
CN109977194A (zh) * 2019-03-20 2019-07-05 华南理工大学 基于无监督学习的文本相似度计算方法、系统、设备及介质
CN110021302A (zh) * 2019-03-06 2019-07-16 厦门快商通信息咨询有限公司 一种智能办公会议系统及会议记录方法
CN110134756A (zh) * 2019-04-15 2019-08-16 深圳壹账通智能科技有限公司 会议记录生成方法、电子装置及存储介质
CN110335612A (zh) * 2019-07-11 2019-10-15 招商局金融科技有限公司 基于语音识别的会议记录生成方法、装置及存储介质
CN110767239A (zh) * 2019-09-20 2020-02-07 平安科技(深圳)有限公司 一种基于深度学习的声纹识别方法、装置及设备
CN111223476A (zh) * 2020-04-23 2020-06-02 深圳市友杰智新科技有限公司 语音特征向量的提取方法、装置、计算机设备和存储介质
CN111445913A (zh) * 2020-03-24 2020-07-24 南开大学 基于神经网络的声纹特征提取方法和装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005055666A (ja) * 2003-08-04 2005-03-03 Sony Corp 音声処理装置
CN107689225A (zh) * 2017-09-29 2018-02-13 福建实达电脑设备有限公司 一种自动生成会议记录的方法
CN108922538A (zh) * 2018-05-29 2018-11-30 平安科技(深圳)有限公司 会议信息记录方法、装置、计算机设备及存储介质
CN108984523A (zh) * 2018-06-29 2018-12-11 重庆邮电大学 一种基于深度学习模型的商品评论情感分析方法
CN109215665A (zh) * 2018-07-20 2019-01-15 广东工业大学 一种基于3d卷积神经网络的声纹识别方法
CN109285551A (zh) * 2018-09-18 2019-01-29 上海海事大学 基于wmfcc和dnn的帕金森患者声纹识别方法
CN110021302A (zh) * 2019-03-06 2019-07-16 厦门快商通信息咨询有限公司 一种智能办公会议系统及会议记录方法
CN109977194A (zh) * 2019-03-20 2019-07-05 华南理工大学 基于无监督学习的文本相似度计算方法、系统、设备及介质
CN109859772A (zh) * 2019-03-22 2019-06-07 平安科技(深圳)有限公司 情绪识别方法、装置及计算机可读存储介质
CN110134756A (zh) * 2019-04-15 2019-08-16 深圳壹账通智能科技有限公司 会议记录生成方法、电子装置及存储介质
CN110335612A (zh) * 2019-07-11 2019-10-15 招商局金融科技有限公司 基于语音识别的会议记录生成方法、装置及存储介质
CN110767239A (zh) * 2019-09-20 2020-02-07 平安科技(深圳)有限公司 一种基于深度学习的声纹识别方法、装置及设备
CN111445913A (zh) * 2020-03-24 2020-07-24 南开大学 基于神经网络的声纹特征提取方法和装置
CN111223476A (zh) * 2020-04-23 2020-06-02 深圳市友杰智新科技有限公司 语音特征向量的提取方法、装置、计算机设备和存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112466337A (zh) * 2020-12-15 2021-03-09 平安科技(深圳)有限公司 音频数据情绪检测方法、装置、电子设备及存储介质
CN113129898A (zh) * 2021-04-08 2021-07-16 上海交通大学 一种机器辅助的会议记录系统及方法
WO2022267322A1 (zh) * 2021-06-24 2022-12-29 深圳前海微众银行股份有限公司 会议纪要的生成方法、装置、终端设备及计算机存储介质
CN113257253A (zh) * 2021-06-29 2021-08-13 明品云(北京)数据科技有限公司 一种文本提取方法、系统、设备及介质
CN113691382A (zh) * 2021-08-25 2021-11-23 平安国际智慧城市科技股份有限公司 会议记录方法、装置、计算机设备及介质
CN113808577A (zh) * 2021-09-18 2021-12-17 平安银行股份有限公司 语音摘要的智能提取方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN112017632A (zh) 一种自动化会议记录生成方法
CN110600018B (zh) 语音识别方法及装置、神经网络训练方法及装置
WO2021143327A1 (zh) 语音识别方法、装置和计算机可读存储介质
CN110379412B (zh) 语音处理的方法、装置、电子设备及计算机可读存储介质
WO2022121257A1 (zh) 模型训练方法、语音识别方法、装置、设备及存储介质
CN109949821B (zh) 一种利用cnn的u-net结构进行远场语音去混响的方法
CN111916058A (zh) 一种基于增量词图重打分的语音识别方法及系统
CN112259080B (zh) 一种基于神经网络模型的语音识别方法
Jiang et al. RETRACTED ARTICLE: Intelligent online education system based on speech recognition with specialized analysis on quality of service
CN111341351B (zh) 基于自注意力机制的语音活动检测方法、装置及存储介质
WO2023216760A1 (zh) 语音处理方法、装置、存储介质、计算机设备及程序产品
US20230186943A1 (en) Voice activity detection method and apparatus, and storage medium
Wang et al. A fusion model for robust voice activity detection
CN113327631B (zh) 一种情感识别模型的训练方法、情感识别方法及装置
CN115547345A (zh) 声纹识别模型训练及相关识别方法、电子设备和存储介质
Wang et al. Automatic voice quality evaluation method of IVR service in call center based on Stacked Auto Encoder
CN113470652A (zh) 一种基于工业互联网的语音识别及处理方法
Baird et al. A Prototypical Network Approach for Evaluating Generated Emotional Speech}}
CN116486786B (zh) 一种融合方言和小语种的语音识别控制方法
CN116866321B (zh) 一种无中心多路声音一致性选择方法及系统
Yechuri et al. A U-net with Gated Recurrent Unit and Efficient Channel Attention Mechanism for Real-time Speech Enhancement
Yuan et al. Joint Ideal Ratio Mask and Generative Adversarial Networks for Monaural Speech Enhancement
Park et al. Deep Q-network-based noise suppression for robust speech recognition
Chakraborty et al. Machine learning based noise suppression in narrow-band speech communication systems
Vasuki et al. Emotion recognition using ensemble of cepstral, perceptual and temporal features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination