CN114203180A - 会议纪要的生成方法、装置、电子设备及存储介质 - Google Patents
会议纪要的生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114203180A CN114203180A CN202111358381.7A CN202111358381A CN114203180A CN 114203180 A CN114203180 A CN 114203180A CN 202111358381 A CN202111358381 A CN 202111358381A CN 114203180 A CN114203180 A CN 114203180A
- Authority
- CN
- China
- Prior art keywords
- conference
- probability value
- voice data
- phoneme
- spectrogram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012937 correction Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000000737 periodic effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 235000019580 granularity Nutrition 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000002195 synergetic effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种会议纪要的生成方法、装置、电子设备及存储介质,通过提取会议语音数据的语谱图;利用预设智能解码引擎的声学模型,根据语谱图,确定会议语音数据的信号特征与音素模板之间的第一概率值,得到信号特征对应的音素特征,并利用预设智能解码引擎的语言模型,确定音素特征与文字模板之间的第二概率值,以及利用预设智能解码引擎的解码器,根据第一概率值和第二概率值,对会议语音数据进行解码,得到会议文本数据,以无需直接提取语音特征,实现端到端的语音识别,提高在复杂场景下的语音识别效率和准确率;最后对会议文本数据进行纠错操作,生成会议纪要,进一步保证最终结果的准确率。
Description
技术领域
本申请涉及会议记录技术领域,尤其涉及一种会议纪要的生成方法、装置、电子设备及存储介质。
背景技术
在举行会议时,传统方式采用人工手动记录会议过程的内容,并手动整理成会议纪要,但手动方式的效率较低。为提高记录效率,将语音识别技术应用到会议记录中,实现智能化生成会议纪要。
但是会议记录具有实时性和复杂性,不同的人说相同内容的话,或者相同的人在不同的时间、生理、心理状态下说相同内容的话存在很大差异;用户在连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音现象。而当前的语音识别模型都是针对特定用户或特定场景,其难以在会议记录的复杂场景实现快速和准确地识别用户发言信息。
发明内容
本申请提供了一种会议纪要的生成方法、装置、电子设备及存储介质,以解决的会议纪要的生成结果准确度低的技术问题。
为了解决上述技术问题,第一方面,本申请实施例提供了一种会议纪要的生成方法,包括:
提取会议语音数据的语谱图;
利用预设智能解码引擎的声学模型,根据语谱图,确定会议语音数据的信号特征与音素模板之间的第一概率值,得到信号特征对应的音素特征;
利用预设智能解码引擎的语言模型,确定音素特征与文字模板之间的第二概率值;
利用预设智能解码引擎的解码器,根据第一概率值和第二概率值,对会议语音数据进行解码,得到会议文本数据;
对会议文本数据进行纠错操作,生成会议纪要。
本实施例通过提取会议语音数据的语谱图,以将一段时间内的语音数据进行处理,从而达到连续语音处理的目的;利用预设智能解码引擎的声学模型,根据语谱图,确定会议语音数据的信号特征与音素模板之间的第一概率值,得到信号特征对应的音素特征,并利用预设智能解码引擎的语言模型,确定音素特征与文字模板之间的第二概率值,以及利用预设智能解码引擎的解码器,根据第一概率值和第二概率值,对会议语音数据进行解码,得到会议文本数据,以无需直接提取语音特征,实现端到端的语音识别,提高在复杂场景下的语音识别效率和准确率;最后对会议文本数据进行纠错操作,生成会议纪要,进一步保证最终结果的准确率。
在一实施例中,提取会议语音数据的语谱图,包括:
对会议语音数据进行分帧,得到多帧语音信号;
对每帧语音信号进行加窗处理,并对加窗处理后的语音信号进行快速傅里叶变换,得到每帧语音信号的频谱;
将多个频谱进行叠加,得到语谱图。
本实施例通过对会议语音数据进行分帧、加窗和快速傅里叶变换,以将会议语音数据从时域信号转换为频域信号,以更好的表征会议语音数据的信号特征。
在一实施例中,利用预设智能解码引擎的声学模型,根据语谱图,确定会议语音数据的信号特征与音素模板之间的第一概率值,得到信号特征对应的音素特征,包括:
利用声学模型,计算语谱图的信号特征与预设语言库中的音素模板之间的第一概率值,预设语言库包括小词汇的音素模板;
将与信号特征的第一概率值最大的音素模板确定为述音素特征。
本实施例通过预设语言库的音素模板进行概率计算,以使语音识别能够支持小词汇和方言识别,具有语言识别多样化。
在一实施例中,语言模型为三元模型,利用预设智能解码引擎的语言模型,确定音素特征与文字模板之间的第二概率值,包括:
利用三元模型,计算音素特征与预设文本库中的文字模板之间的第二概率值。
本实施例通过三元模型计算第二概率值,能够避免数据稀疏问题,从而提高计算结果准确度。
在一实施例中,利用预设智能解码引擎的解码器,根据第一概率值和第二概率值,对会议语音数据进行解码,得到会议文本数据,包括:
利用解码器的解码函数,根据第一概率值和第二概率值,对会议语音数据进行解码,得到会议文本数据,解码函数为:
w*=argmaxw(logP(w|o)+λlogPLM(w)+γlen(w));
其中P(ω|o)为第一概率值,PLM(ω)为第二概率值,γlen(ω)为会议语音数据的长度。
本实施例通过解码器的解码函数直接输出语言识别结果,实现端到端的语言识别过程,提高语言识别效率和识别准确度。
在一实施例中,对会议文本数据进行纠错操作,生成会议纪要,包括:
对会议文本数据进行分词操作,得到候选错误结果;
对候选错误结果进行词替换操作,生成会议纪要。
本实施例通过纠错操作,使得略带口音的普通话和粤语、四川话等方言,以及英语等外语,均可有效识别,并可根据句意自动纠错、自动分词断句添加标点,让输入更快捷,沟通交流更顺畅。
在一实施例中,提取会议语音数据的语谱图之前,还包括:
采集会议语音数据;
对会议语音数据进行声纹识别,确定会议语音数据对应的发言人。
本实施例通过声纹识别,以准确记录每个发言人的发言内容,保证所述记录的信息的准确性。
第二方面,本申请实施例提供一种会议纪要的生成装置,包括:
提取模块,用于提取会议语音数据的语谱图;
第一确定模块,用于利用预设智能解码引擎的声学模型,根据语谱图,确定会议语音数据的信号特征与音素模板之间的第一概率值,得到信号特征对应的音素特征;
第二确定模块,用于利用预设智能解码引擎的语言模型,确定音素特征与文字模板之间的第二概率值;
解码模块,用于利用预设智能解码引擎的解码器,根据第一概率值和第二概率值,对会议语音数据进行解码,得到会议文本数据;
纠错模块,用于对会议文本数据进行纠错操作,生成会议纪要。
第三方面,本申请实施例提供一种电子设备,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的会议纪要的生成方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的会议纪要的生成方法。
需要说明的是,上述第二方面至第四方面的有益效果请参见第一方面的相关描述,在此不再赘述。
附图说明
图1为本申请实施例提供的会议纪要的生成方法的流程示意图;
图2为本申请实施例提供的会议纪要的生成装置的结构示意图;
图3为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如相关技术记载,会议记录具有实时性和复杂性,不同的人说相同内容的话,或者相同的人在不同的时间、生理、心理状态下说相同内容的话存在很大差异;用户在连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音现象。而当前的语音识别模型都是针对特定用户或特定场景,其难以在会议记录的复杂场景实现快速和准确地识别用户发言信息。
为此,本申请实施例提供一种会议纪要的生成方法、装置、电子设备及存储介质,通过提取会议语音数据的语谱图,以将一段时间内的语音数据进行处理,从而达到连续语音处理的目的;利用预设智能解码引擎的声学模型,根据语谱图,确定会议语音数据的信号特征与音素模板之间的第一概率值,得到信号特征对应的音素特征,并利用预设智能解码引擎的语言模型,确定音素特征与文字模板之间的第二概率值,以及利用预设智能解码引擎的解码器,根据第一概率值和第二概率值,对会议语音数据进行解码,得到会议文本数据,以无需直接提取语音特征,实现端到端的语音识别,提高语音识别效率和准确率;最后对会议文本数据进行纠错操作,生成会议纪要,进一步保证最终结果的准确率。
请参照图1,图1为本申请实施例提供的一种会议纪要的生成方法的流程示意图。本申请实施例的会议纪要的生成方法可应用于电子设备,该电子设备包括但不限于智能手机、平板电脑、笔记本电脑和个人数字助理等设备。如图1所示,会议纪要的生成方法包括步骤S101值S105,详述如下:
步骤S101,提取会议语音数据的语谱图。
在本步骤中,语谱图为在一段时间内的频谱图叠加而成。可选地提取语谱图的主要步骤包括对会议语音数据进行分帧、加窗和快速傅立叶变换。
步骤S102,利用预设智能解码引擎的声学模型,根据所述语谱图,确定所述会议语音数据的信号特征与音素模板之间的第一概率值,得到所述信号特征对应的音素特征。
在本步骤中,预设解码引擎包括声学模型、语言模型和解码器。声学模型主要用于计算语音信号特征和每个发音模板(音素模板)之间的似然度(第一概率值)。
可选地,利用所述声学模型,计算所述语谱图的信号特征与预设语言库中的音素模板之间的第一概率值,预设语言库包括小词汇的音素模板;将与所述信号特征的第一概率值最大的音素模板确定为述音素特征。
在本实施例中,利用卷积神经网络处理训练数据,通过最大值池化提取主要特征,并根据CTC损失函数进行训练得出声学模型。示例性地,对一个新的语音或者方言以及对小词汇的应用,创建模型;采集有足够多的语音数据,例如单人的语音数据的长度至少为1小时,200个人的语音数据的长度至少为50小时;通过卷积神经网络处理训练数据,以进行训练和优化。
步骤S103,利用所述预设智能解码引擎的语言模型,确定所述音素特征与文字模板之间的第二概率值。
在本步骤中,语言模型能够保证文本的语法结构,使得识别后的语句通顺。语言模型是一种概率统计方法,利用已经训练好的语言模型,对任何一个文本给出概率,概率越高说明语法上越通顺。通过训练得出语言模型,并比较两句话在同一个语言模型上的概率,以判断语法的准确性以及语句的通顺与否,能够减少人力成本。
步骤S104,利用所述预设智能解码引擎的解码器,根据所述第一概率值和第二概率值,对所述会议语音数据进行解码,得到会议文本数据。
在本步骤中,可选地,利用所述解码器的解码函数,根据所述第一概率值和第二概率值,对所述会议语音数据进行解码,得到会议文本数据,所述解码函数为:
w*=argmaxw(logP(w|o)+λlogPLM(w)+γlen(w));
其中P(ω|o)为第一概率值,PLM(ω)为第二概率值,γlen(ω)为会议语音数据的长度。λ是语言模型的权重,λ越大表示越依赖语言模型。遍历所有可能词序列找到概率最大的位置输出结果。
步骤S105,对所述会议文本数据进行纠错操作,生成会议纪要。
在本步骤中,纠错操作包括对错别字、拼写错误、语法错误和常见格式错误进行识别,并返回修改建议,确认修改意见后,把错别字等错误进行修正,传输给会议纪要文档功能,生成会议纪要。
可选地,对自动生成会议纪要文档进行下载,提升会议记录效率。
需要说明的是,本实施例可以将音频流实时识别为文字,并返回每句话的开始和结束时间,适用于长句语音输入、音视频字幕、会议等场景。支持WebSocket API,支持Android、iOS、Linux SDK,可以在多种操作系统、多种设备终端上调用。应用于音频文件转写,将批量上传的音频文件识别为文字,支持普通话和略带口音的中文识别,支持英文识别。适合录音质检、会议内容总结、音频内容分析等场景。
在一实施例中,在图1所示实施例的基础上,步骤S101,包括:
对所述会议语音数据进行分帧,得到多帧语音信号;
对每帧所述语音信号进行加窗处理,并对加窗处理后的语音信号进行快速傅里叶变换,得到每帧所述语音信号的频谱;
将多个所述频谱进行叠加,得到所述语谱图。
在本实施例中,会议语音数据为语音信号,通过对语音信号进行分帧,然后在处理语音信号时,对语音信号进行加窗,即将一帧内的会议语音数据乘以一个窗函数,得到新的一帧数据,每次取一段数据,对数据进行快速傅立叶变换,进行分析,然后再取下一段数据,再进行分析。
由于语音信号在时域上比较难看出其特性,所以本实施例对每帧经过窗函数处理的信号做快速傅立叶变换,以将时域图转换成各帧的频谱图,然后对每个窗口的频谱叠加得到语谱图。
可以理解的使,傅立叶变换是一种分析信号的方法,它可分析信号的成分,也可用这些成分合成信号。许多波形可作为信号的成分,比如正弦波、方波、锯齿波等,傅立叶变换用正弦波作为信号的成分。
任何周期函数都可以用正弦函数和余弦函数构成的无穷级数来表示,这种表示方式就是傅里叶级数。假如有个波形比较复杂的周期函数,那么找出能用来构成这个周期函数的正弦函数和余弦函数的频率的方法就叫做傅里叶变换,用这些频率的正弦函数和余弦函数叠加起来表示这个周期函数的方法就叫做傅里叶逆变换。
在一实施例中,在图1所示实施例的基础上,步骤S103,包括:
利用所述三元模型,计算所述音素特征与预设文本库中的文字模板之间的第二概率值。
在本实施例中,语言模型是一串词序列的概率分布。具体地,语言模型是为一个长度为m的文本确定一个概率分布P,表示这段文本存在的可能性。在实践中,如果文本的长度较长,P(wi|w1,w2,…,wi-1)的计算会非常困难。因此,本实施例使用模型进行简化为n元模型(n-gram model),其中在n元模型中估算条件概率时,只需要对当前词的前n个词进行计算。而传统方法一般采用频率计数的比例来估算n元条件概率,当n较大时,机会存在数据稀疏问题,导致估算结果不准确。因此本实施例采用三元模型,以能够应对百万词级别的概率计算。
在一实施例中,在图1所示实施例的基础上,步骤S105,包括:
对所述会议文本数据进行分词操作,得到候选错误结果;
对所述候选错误结果进行词替换操作,生成所述会议纪要。
在本实施例中,纠错操作包括错误检测和错误纠正;其中错误检测部分先通过结巴中文分词器切词(即分词),由于句子中含有错别字,所以切词结果往往会有切分错误的情况,这样可以从字粒度和词粒度两方面检测错误,整合这两种粒度的疑似错误结果,形成疑似错误位置候选集(即候选错误结果)。错误纠正部分是根据疑似错误位置候选集,通过遍历所有的疑似错误位置,并使用音似词、形似词替换错误位置的词,然后通过语言模型计算句子困惑度,对所有候选集结果比较并排序,得到最优纠正词。本实施例能极大减少错别字,错别词的出现,避免了遗漏检查的问题。
在一实施例中,在图1所示实施例的基础上,步骤S101之前,还包括:
采集所述会议语音数据;
对所述会议语音数据进行声纹识别,确定所述会议语音数据对应的发言人。
在本实施例中,通过智能录音功能收录系统声音、麦克风声音或两者同时录制,同时支持保存音频资源、声音配音、录制会议纪要或转录音频格式。会议语音数据的数据格式可以包括但不限于MP3、AAC、OGG、WMA、WAV或FLAC,以适用于上传到各大平台,支持共享音频。
通过声纹识别,将会议语音数据生成为特征向量,并将预先已单独录入特征向量数据库的声纹特征向量比对,识别是否为同一个发言人,若不是同一个发言人,则作为新增发言人,并记录发言信息;若是同一个发言人,则按照同一发言人记录发言信息。本实施例能够区分出会议上不同发言人的声音,并能够很好的分类重点记录下来,使会议内容更加具体丰富,避免记录信息不明确。
为了执行上述方法实施例对应的会议纪要的生成方法,以实现相应的功能和技术效果。参见图2,图2示出了本申请实施例提供的一种会议纪要的生成装置的结构框图。为了便于说明,仅示出了与本实施例相关的部分,本申请实施例提供的会议纪要的生成装置,包括:
提取模块201,用于提取会议语音数据的语谱图;
第一确定模块202,用于利用预设智能解码引擎的声学模型,根据所述语谱图,确定所述会议语音数据的信号特征与音素模板之间的第一概率值,得到所述信号特征对应的音素特征;
第二确定模块203,用于利用所述预设智能解码引擎的语言模型,确定所述音素特征与文字模板之间的第二概率值;
解码模块204,用于利用所述预设智能解码引擎的解码器,根据所述第一概率值和第二概率值,对所述会议语音数据进行解码,得到会议文本数据;
纠错模块205,用于对所述会议文本数据进行纠错操作,生成会议纪要。
在一实施例中,所述提取模块201,包括:
分帧单元,用于对所述会议语音数据进行分帧,得到多帧语音信号;
加窗单元,用于对每帧所述语音信号进行加窗处理,并对加窗处理后的语音信号进行快速傅里叶变换,得到每帧所述语音信号的频谱;
叠加单元,用于将多个所述频谱进行叠加,得到所述语谱图。
在一实施例中,所述第一确定模块202,包括:
第一计算单元,用于利用所述声学模型,计算所述语谱图的信号特征与预设语言库中的音素模板之间的第一概率值,预设语言库包括小词汇的音素模板;
确定单元,用于将与所述信号特征的第一概率值最大的音素模板确定为述音素特征。
在一实施例中,所述第二确定模块203,包括:
第二计算单元,用于利用所述三元模型,计算所述音素特征与预设文本库中的文字模板之间的第二概率值。
在一实施例中,所述解码模块204,包括:
解码单元,用于利用所述解码器的解码函数,根据所述第一概率值和第二概率值,对所述会议语音数据进行解码,得到会议文本数据,所述解码函数为:
w*=argmaxw(logP(w|o)+λlogPLM(w)+γlen(w));
其中P(ω|o)为第一概率值,PLM(ω)为第二概率值。
在一实施例中,所述纠错模块205,包括:
分词单元,用于对所述会议文本数据进行分词操作,得到候选错误结果;
替换单元,用于对所述候选错误结果进行词替换操作,生成所述会议纪要。
在一实施例中,生成装置,还包括:
采集模块,用于采集所述会议语音数据;
第三确定模块,用于对所述会议语音数据进行声纹识别,确定所述会议语音数据对应的发言人。
上述的会议纪要的生成装置可实施上述方法实施例的会议纪要的生成方法。上述方法实施例中的可选项也适用于本实施例,这里不再详述。本申请实施例的其余内容可参照上述方法实施例的内容,在本实施例中,不再进行赘述。
图3为本申请一实施例提供的电子设备的结构示意图。如图3所示,该实施例的电子设备3包括:至少一个处理器30(图3中仅示出一个)处理器、存储器31以及存储在所述存储器31中并可在所述至少一个处理器30上运行的计算机程序32,所述处理器30执行所述计算机程序32时实现上述任意方法实施例中的步骤。
所述电子设备3可以是智能手机、平板电脑、桌上型计算机等计算设备。该电子设备可包括但不仅限于处理器30、存储器31。本领域技术人员可以理解,图3仅仅是电子设备3的举例,并不构成对电子设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器30可以是中央处理单元(Central Processing Unit,CPU),该处理器30还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器31在一些实施例中可以是所述电子设备3的内部存储单元,例如电子设备3的硬盘或内存。所述存储器31在另一些实施例中也可以是所述电子设备3的外部存储设备,例如所述电子设备3上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器31还可以既包括所述电子设备3的内部存储单元也包括外部存储设备。所述存储器31用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。
另外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行时实现上述各个方法实施例中的步骤。
在本申请所提供的几个实施例中,可以理解的是,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意的是,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本申请的具体实施例而已,并不用于限定本申请的保护范围。特别指出,对于本领域技术人员来说,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种会议纪要的生成方法,其特征在于,包括:
提取会议语音数据的语谱图;
利用预设智能解码引擎的声学模型,根据所述语谱图,确定所述会议语音数据的信号特征与音素模板之间的第一概率值,得到所述信号特征对应的音素特征;
利用所述预设智能解码引擎的语言模型,确定所述音素特征与文字模板之间的第二概率值;
利用所述预设智能解码引擎的解码器,根据所述第一概率值和第二概率值,对所述会议语音数据进行解码,得到会议文本数据;
对所述会议文本数据进行纠错操作,生成会议纪要。
2.如权利要求1所述的会议纪要的生成方法,其特征在于,所述提取会议语音数据的语谱图,包括:
对所述会议语音数据进行分帧,得到多帧语音信号;
对每帧所述语音信号进行加窗处理,并对加窗处理后的语音信号进行快速傅里叶变换,得到每帧所述语音信号的频谱;
将多个所述频谱进行叠加,得到所述语谱图。
3.如权利要求1所述的会议纪要的生成方法,其特征在于,所述利用预设智能解码引擎的声学模型,根据所述语谱图,确定所述会议语音数据的信号特征与音素模板之间的第一概率值,得到所述信号特征对应的音素特征,包括:
利用所述声学模型,计算所述语谱图的信号特征与预设语言库中的音素模板之间的第一概率值,预设语言库包括小词汇的音素模板;
将与所述信号特征的第一概率值最大的音素模板确定为述音素特征。
4.如权利要求1所述的会议纪要的生成方法,其特征在于,所述语言模型为三元模型,所述利用所述预设智能解码引擎的语言模型,确定所述音素特征与文字模板之间的第二概率值,包括:
利用所述三元模型,计算所述音素特征与预设文本库中的文字模板之间的第二概率值。
5.如权利要求1所述的会议纪要的生成方法,其特征在于,所述利用所述预设智能解码引擎的解码器,根据所述第一概率值和第二概率值,对所述会议语音数据进行解码,得到会议文本数据,包括:
利用所述解码器的解码函数,根据所述第一概率值和第二概率值,对所述会议语音数据进行解码,得到会议文本数据,所述解码函数为:
w*=argmaxw(logP(w|o)+λlogPLM(w)+γlen(w));
其中P(ω|o)为所述第一概率值,PLM(ω)为所述第二概率值,γlen(ω)为所述会议语音数据的长度。
6.如权利要求1所述的会议纪要的生成方法,其特征在于,所述对所述会议文本数据进行纠错操作,生成会议纪要,包括:
对所述会议文本数据进行分词操作,得到候选错误结果;
对所述候选错误结果进行词替换操作,生成所述会议纪要。
7.如权利要求1所述的会议纪要的生成方法,其特征在于,所述提取会议语音数据的语谱图之前,还包括:
采集所述会议语音数据;
对所述会议语音数据进行声纹识别,确定所述会议语音数据对应的发言人。
8.一种会议纪要的生成装置,其特征在于,包括:
提取模块,用于提取会议语音数据的语谱图;
第一确定模块,用于利用预设智能解码引擎的声学模型,根据所述语谱图,确定所述会议语音数据的信号特征与音素模板之间的第一概率值,得到所述信号特征对应的音素特征;
第二确定模块,用于利用所述预设智能解码引擎的语言模型,确定所述音素特征与文字模板之间的第二概率值;
解码模块,用于利用所述预设智能解码引擎的解码器,根据所述第一概率值和第二概率值,对所述会议语音数据进行解码,得到会议文本数据;
纠错模块,用于对所述会议文本数据进行纠错操作,生成会议纪要。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7任一项所述的会议纪要的生成方法。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的会议纪要的生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111358381.7A CN114203180A (zh) | 2021-11-16 | 2021-11-16 | 会议纪要的生成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111358381.7A CN114203180A (zh) | 2021-11-16 | 2021-11-16 | 会议纪要的生成方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114203180A true CN114203180A (zh) | 2022-03-18 |
Family
ID=80647839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111358381.7A Pending CN114203180A (zh) | 2021-11-16 | 2021-11-16 | 会议纪要的生成方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114203180A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116110373A (zh) * | 2023-04-12 | 2023-05-12 | 深圳市声菲特科技技术有限公司 | 智能会议系统的语音数据采集方法及相关装置 |
-
2021
- 2021-11-16 CN CN202111358381.7A patent/CN114203180A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116110373A (zh) * | 2023-04-12 | 2023-05-12 | 深圳市声菲特科技技术有限公司 | 智能会议系统的语音数据采集方法及相关装置 |
CN116110373B (zh) * | 2023-04-12 | 2023-06-09 | 深圳市声菲特科技技术有限公司 | 智能会议系统的语音数据采集方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11514891B2 (en) | Named entity recognition method, named entity recognition equipment and medium | |
US8478591B2 (en) | Phonetic variation model building apparatus and method and phonetic recognition system and method thereof | |
US7881930B2 (en) | ASR-aided transcription with segmented feedback training | |
CN109147796B (zh) | 语音识别方法、装置、计算机设备及计算机可读存储介质 | |
CN113168828A (zh) | 基于合成数据训练的会话代理管线 | |
Stan et al. | ALISA: An automatic lightly supervised speech segmentation and alignment tool | |
CN111862954A (zh) | 一种语音识别模型的获取方法及装置 | |
WO2022068233A1 (zh) | 一种语音识别的方法、装置及计算机可读存储介质 | |
Karpov | An automatic multimodal speech recognition system with audio and video information | |
CN112397053A (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
KR101122590B1 (ko) | 음성 데이터 분할에 의한 음성 인식 장치 및 방법 | |
KR101122591B1 (ko) | 핵심어 인식에 의한 음성 인식 장치 및 방법 | |
CN114203180A (zh) | 会议纪要的生成方法、装置、电子设备及存储介质 | |
Ziedan et al. | A unified approach for arabic language dialect detection | |
EP4275203B1 (en) | Self-learning end-to-end automatic speech recognition | |
CN112820281B (zh) | 一种语音识别方法、装置及设备 | |
Perero-Codosero et al. | Exploring Open-Source Deep Learning ASR for Speech-to-Text TV program transcription. | |
CN114048714A (zh) | 逆文本标准化方法和装置 | |
CN113990325A (zh) | 流式语音识别方法及装置、电子设备、存储介质 | |
JP2813209B2 (ja) | 大語彙音声認識装置 | |
CN111696530B (zh) | 一种目标声学模型获取方法及装置 | |
US20240153493A1 (en) | Techniques for improved audio processing using combinations of clipping engines and acoustic models | |
CN114023327B (zh) | 基于语音识别的文本修正方法、装置、设备及介质 | |
US20240304181A1 (en) | Connecting different asr application domains with speaker-tags | |
CN113035247B (zh) | 一种音频文本对齐方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |