CN115294987A - 一种会议记录生成方法、装置、设备及存储介质 - Google Patents
一种会议记录生成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115294987A CN115294987A CN202210308900.7A CN202210308900A CN115294987A CN 115294987 A CN115294987 A CN 115294987A CN 202210308900 A CN202210308900 A CN 202210308900A CN 115294987 A CN115294987 A CN 115294987A
- Authority
- CN
- China
- Prior art keywords
- conference
- audio
- voice
- participating
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000012545 processing Methods 0.000 claims abstract description 70
- 230000002708 enhancing effect Effects 0.000 claims abstract description 10
- 238000001228 spectrum Methods 0.000 claims description 60
- 230000008569 process Effects 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 33
- 238000003062 neural network model Methods 0.000 claims description 28
- 230000015654 memory Effects 0.000 claims description 16
- 230000000873 masking effect Effects 0.000 claims description 8
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 23
- 238000013527 convolutional neural network Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 238000010845 search algorithm Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请实施例提供了一种会议记录生成方法、装置、设备及存储介质,涉及人工智能技术领域及语音处理技术领域,方法包括:获取目标会议的会议音频;获取目标会议的至少一个与会对象中每个与会对象的语音特征,根据每个与会对象的语音特征对会议音频中每个与会对象的音频进行增强处理,得到每个与会对象的增强后的音频;对增强后的音频进行语音识别,得到增强后的音频对应的目标文本,并根据目标文本生成目标会议对应的会议记录。采用本申请,可以自动化智能化的生成会议记录。本申请涉及区块链技术,会议音频可从区块链获取。
Description
技术领域
本申请涉及语音处理技术领域,尤其涉及一种会议记录生成方法、装置、设备及存储介质。
背景技术
在现代各种办公会议中,完整的会议记录是十分必要的,会后回顾记录往往是以录制的音频形式保存的,但是音频文件占用存储容量较大,而且查看起来十分不方便,使用率不高。如果将音频转为文字的话,可以大大减少存储空间,方便传送。因此,如何自动化智能化生成会议记录成为研究的热点。
发明内容
本申请实施例提供了一种会议记录生成方法、装置、设备及存储介质,可以自动化智能化生成会议记录。
一方面,本申请实施例提供了一种会议记录生成方法,包括:
获取目标会议的会议音频,所述目标会议存在多个与会对象;
获取所述多个与会对象中的至少一个与会对象中每个与会对象的语音特征;
根据所述每个与会对象的语音特征对所述会议音频中所述每个与会对象的音频进行增强处理,得到所述每个与会对象的增强后的音频;
对所述增强后的音频进行语音识别,得到所述增强后的音频对应的目标文本,并根据所述目标文本生成所述目标会议对应的会议记录。
第二方面,本申请实施例提供了一种会议记录生成装置,包括:
获取模块,用于获取目标会议的会议音频,所述目标会议存在多个与会对象;
所述获取模块,还用于获取所述多个与会对象中的至少一个与会对象中每个与会对象的语音特征;
处理模块,用于根据所述每个与会对象的语音特征对所述会议音频中所述每个与会对象的音频进行增强处理,得到所述每个与会对象的增强后的音频,并对所述增强后的音频进行语音识别,得到所述增强后的音频对应的目标文本,并根据所述目标文本生成所述目标会议对应的会议记录。
再一方面,本申请实施例提供了一种计算机设备,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序指令,所述处理器被配置用于执行所述程序指令,实现所述的会议记录生成方法。
再一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行所述的会议记录生成方法。
综上所述,计算机设备获取目标会议的会议音频;计算机设备还可以获取目标会议中至少一个与会对象中每个与会对象的语音特征。并根据每个与会对象的语音特征对会议音频中每个与会对象的音频进行增强处理,得到每个与会对象的增强后的音频;计算机设备对增强后的音频进行语音识别,得到增强后的音频对应的目标文本,并根据目标文本生成目标会议对应的会议记录,实现了会议记录的自动化智能化生成过程。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种会议记录生成方法的流程示意图;
图2A是本申请提供的一种梅尔滤波器对数能量提取过程的示意图;
图2B是本申请实施例提供的一种生成增强后的音频以及训练语音过滤器的过程的示意图;
图2C是本申请实施例提供的一种生成会议记录的过程的示意图;
图3是本申请实施例提供的一种会议记录生成装置的结构示意图;
图4是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。需要说明的是,本申请所涉及各种音频,如会议音频、对象的音频的录制、处理和使用,均经过相关人员充分授权或者经过各方充分授权,本申请实施例涉及的各种音频的录制、处理和使用遵守相关国家和地区的相关法律法规和标准。
请参阅图1,为本申请实施例提供的一种会议记录生成方法的流程示意图。该方法可以应用于计算机设备。计算机设备可以为智能终端或服务器。智能终端可以为台式电脑等具备信息处理能力的智能终端。服务器可以是独立的服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。具体地,该方法可以包括以下步骤:
S101、获取目标会议的会议音频,所述目标会议存在多个与会对象。
其中,目标会议指待生成对应的会议记录的会议。与会对象指参加会议的人或虚拟角色(指虚拟出来的形象,如虚拟出来的人物形象),发言对象指在目标会议上发言的与会对象,如发言的人或虚拟角色。
其中,所述会议音频混合了所述多个与会对象中的至少一个发言对象中每个发言对象的音频。会议音频可以通过录音设备采集。录音设备为具有录音功能的电子设备,包括但不限于录音器、电话机、手机、电脑等。在实际的应用场景中,若目标会议为线下会议,则录音设备可以是设置在目标会议的举办地点的一个录音设备,若目标会议为线上会议,则录音设备可以是任一与会对象或指定的一个与会对象使用的录音设备。
其中,所述的会议音频可以以一个音频文件的形式存在。会议音频混合了至少一个发言对象中每个发言对象的音频。在播放会议音频时,可以听到至少一个发言对象中每个发言对象的语音。在实际的应用场景中,假设目标会议上有多人发言,此时通过录音设备采集的会议音频就包括多人语音。如果播放这个会议音频,就能够听到多个发言人中每个发言人的语音。正常情况下,如果能够正常采集到目标会议上所有发言对象中每个发言对象的语音,则会议音频就会混合有所有发言对象中每个发言对象的音频。
在一个实施例中,计算机设备可以在检测到目标会议的会议音频时,执行步骤S101。例如,计算机设备可以在检测到指定存储区域存储了会议音频时,执行步骤S101。或者,计算机设备可以在接收到针对目标会议的会议记录生成指令时,执行步骤S101。其中,会议记录生成指令可以由任一与会人员或指定的与会人员或除与会人员之外的其它人员提交。
在一个实施例中,录音设备采集完成目标会议的会议音频后,可以将会议音频发送至计算机设备或将会议音频存储于指定存储区域(录音设备的内部存储或外部存储、指定服务器或指定数据库),后续计算机设备可以获取指定存储区域存储的会议音频。
S102、获取所述多个与会对象中的至少一个与会对象中每个与会对象的语音特征。
其中,所述至少一个与会对象可以包括所述至少一个发言对象,或所述至少一个与会对象包括所述至少一个发言对象和所述多个与会对象中除所述至少一个发言对象之外的至少一个其它与会对象。
本申请实施例中,计算机设备可以获取已经生成了的每个与会对象的语音特征。在一个实施例中,计算机设备可以实时生成至少一个与会对象中每个与会对象的语音特征。事实上,计算机设备在获取至少一个与会对象中每个与会对象的语音特征的过程中,一种情况是能确定或需要确定目标会议上哪些对象发言,然后针对性的获取目标会议的与会对象中发言的这些对象的语音特征,此时步骤S102中的至少一个与会对象为至少一个发言对象;另一种情况是不能确定或无需确定目标会议上哪些对象发言,此时可以获取全部与会对象的语音特征,因此步骤S102中的至少一个与会对象为多个与会对象,此时至少一个与会对象包括至少一个发言对象,并且还包括多个与会对象中不发言的与会对象。也即是说,本申请实施例可以实现基于部分与会对象的语音特征生成会议记录,也可以实现基于全部与会对象的语音特征生成会议记录的过程,对于后者可以无需关注与会对象中究竟哪部分对象为发言对象哪部分对象为没有发言的对象。
在一个实施例中,计算机设备可以通过以下方式确定应当获取哪些与会对象的语音特征:计算机设备获取目标会议的与会对象列表,与会对象列表包括每个与会对象的标识信息,与会对象的标识信息可以为姓名等用于唯一标识该与会对象的信息;计算机设备可以根据与会对象列表包括的每个与会对象的标识信息查询出每个与会对象的语音特征。这种情况下,计算机设备可以将与会对象列表中的各个标识信息对应的与会对象确定为至少一个与会对象。这种情况下,至少一个与会对象为多个与会对象。或者,计算机设备可以获取目标会议的发言对象列表,发言对象列表包括每个发言对象的标识信息,发言对象的标识信息可以为姓名等用于唯一标识该发言对象的信息;计算机设备可以根据发言对象列表包括的每个发言对象的标识信息查询出每个发言对象的语音特征。这种情况下,计算机设备可以将发言对象列表中的各个标识信息对应的发言对象确定为至少一个与会对象。这种情况下,至少一个与会对象为至少一个发言对象。再或者,计算机设备可以获取目标会议的与会对象列表,与会对象列表包括每个与会对象的标识信息以及针对至少一个与会对象添加的指示该与会对象发言了的标记(为文字或图标等形式);计算机设备可以依据与会对象列表包括的标记确定出至少一个发言对象,然后根据与会对象列表包括的每个发言对象的标识信息查询出每个发言对象的语音特征。此外,除了针对发言对象添加特殊标记以从多个与会人员中识别出至少一个发言对象之外,还可以将发言对象的标识信息与没有发言的对象的标识信息采用不同的颜色或者字体等形式进行区分,以便根据与会对象列表查询出每个发言对象或每个与会人员的语音特征。这种情况下,至少一个与会对象可以为至少一个发言对象或为多个与会对象。需要说明的是,计算机设备确定应当获取哪些与会对象的语音特征的方式包括但不限于上述列举的方式,在此不一一列举。
在一个实施例中,在获取已经生成了的每个与会对象的语音特征的国中,计算机设备可以根据对象的标识信息和对象的语音特征之间的对应关系确定每个与会对象的标识信息对应的语音特征,以作为每个与会对象对应的语音特征。在一个实施例中,所述每个与会对象的标识信息记录在上述提及的与会对象列表或发言对象列表中。
在一个实施例中,与会对象的语音特征可以通过如下方式生成:计算机设备可以获取多个对象中每个对象的语音,并根据每个对象的语音提取每个对象对应的多组梅尔滤波器对数能量(log Mel-filterbank energy),多个对象包括至少一个与会对象;计算机设备根据每个对象对应的多组梅尔滤波器对数能量确定每个对象的语音特征信息,并对每个对象的语音特征信息进行编码处理,得到每个对象的语音特征。其中,每个对象的语音是针对该对象单独采集得到的,针对该对象单独采集的语音不会如会议音频一样存在多人语音的情况,该对象的语音仅存在对象的单人语音。通过上述方式生成的语音特征包含更多的信息,将该语音特征用于后续的音频增强处理过程,可以获取到更为准确的增强后的音频。
在一个实施例中,计算机设备还可以获取每个对象的标识信息,并根据每个对象的标识信息以及该对象对应的语音特征构建对象的标识信息与对象的语音特征之间的对应的关系。
在一个实施例中,对象对应的多组梅尔滤波器对数能量的提取过程可以如下:根据对象的语音得到对象的多段语音,每段语音的时长为第一时长(如1600ms),后一段语音与后一段语音的前一段语音有第二时长(第二时长小于第一时长,例如,第二时长可以为第一时长的一半时长,如800ms)的语音重复,提取每段语音对应的一组梅尔滤波器对数能量,从而得到对象对应的多组梅尔滤波器对数能量。或者,上述过程可以为计算机设备利用目标时长,如1600ms的时间窗口对对象的语音进行分段,在分段过程中将时间窗口以预设比例,如50%的重叠度滑动,得到多个语音时长为目标时长的语音片段。在预设比例为50%时,后一语音片段与该后一语音片段的前一语音片段存在50%的语音重复,这就表明后一语音片段的前半部分语音与前一语音频段的后半部分语音重复。本申请实施例的前与后是相对概念。而后,计算机设备可以根据每个语音片段提取该语音片段对应的一组梅尔滤波器组对数能量。相当于说,上述过程可以简单理解为将时间窗口以50%的重叠度在对象的语音上滑动,并根据单个时间窗口内的语音片段得到该语音片段对应的一组梅尔滤波器对数能量。
在一个实施例中,梅尔滤波器对数能量的提取过程还可以进一步参见图2A。其中,上述提及的“根据对象的语音得到对象的多段语音”的过程可以是经由下图的预加重以及分帧处理过程得到。具体来说,就是对语音进行预加重,得到预加重后的语音,然后将预加重后的语音进行分段,得到多段语音。其中,处理得到对象对应的多组梅尔滤波器对数能量的过程:预加重、分帧、加窗、快速傅里叶变换(Fast Fourier Transform,FFT)、梅尔滤波器组滤波以及对数运算的过程。其中,预加重、分帧、加窗、FFT、梅尔滤波器组滤波(将能量谱经梅尔滤波器组进行滤波处理,得到梅尔频谱)、对数运算。需要说明的是,上述过程不涉及离散余弦变换(Discrete Cosine Transform,DCT)的过程。之所以不进行DCT处理,这是发明人发现根据梅尔滤波器对数能量确定的语音特征信息,将保留更多的信息。如果使用经由DCT处理后得到的梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征进行后续处理,由于该处理过程会丢失大量的信息,而信息的丢失会导致后续音频增强效果变差,比如在信息丢失的情况下若通过模型进行音频增强处理等处理,将使得增强后的音频有可能缺失关键信息,进而导致后续基于增强后的音频生成的目标文本的准确性也较差。因此,本申请实施例使用梅尔滤波器对数能量确定语音特征信息后基于语音特征信息确定语音特征,可以有效避免关键信息的丢失,进而有效的提升生成的文本的准确性。
在一个实施例中,计算机设备根据每个对象对应的多组梅尔滤波器对数能量确定每个对象的语音特征信息的方式可以如下:计算机设备分别对每个对象对应的多组梅尔滤波器对数能量进行L2正则化处理,得到每个对象对应的多组正则化处理结果,然后分别对每个对象对应的多组正则化处理结果进行均值计算,得到每个对象对应的多个正则化处理结果均值,从而将每个对象对应的多个正则处理结果均值确定为每个对象的语音特征信息。举例来说,假设多个对象包括对象A。计算机设备可以对对象A的语音进行分段,得到10段语音,10段语音中每段语音的时长为1600ms,后一段语音与前一段语音有0.8s的语音重复。然后,计算机设备可以根据每段音频确定每段音频对应的一组梅尔滤波器能量对数,从而获得10组梅尔滤波器能量对数。之后,计算机设备可以分别对这10组梅尔滤波器能量对数进行L2正则化处理,得到10组梅尔滤波器能量对数中每组梅尔滤波器对数对应的一组正则化处理结果,相当于此处会得到10组正则化处理结果。再之后,计算机设备可以对每组正则化处理结果分别进行均值计算,得到每组正则化处理结果对应的均值(一组正则化处理结果计算得到的均值即为一个正则化处理结果均值),并将每组正则化处理结果对应的均值作为对象A的语音特征信息。因为有10组正则化处理结果,因此可以得到10个均值。比如,第1组正则化处理结果包括正则化处理结果X1(是一个特征值),正则化处理结果X2(是一个特征值)…正则化处理结果Xm(是一个特征值),那么第一组正则化处理结果的均值即为(X1+X2…Xm)/m。以此类推,假设第10组的正则化处理结果包括正则化处理结果包括正则化处理结果Y1(是一个特征值),正则化处理结果Y2(是一个特征值)…正则化处理结果Yn(是一个特征值),那么第一组正则化处理结果的均值即为(Y1+Y2…Yn)/n。也就是说,对象A的语音特征信息包括采用上面的方式得到的10个均值。
在一个实施例中,除了采用前述提及的对对象对应的多组正则化处理结果进行均值计算,得到对象对应的多个正则化处理结果均值之外,语音特征信息的确定方式还可以如下:确定对象对应的多组正则化处理结果中每组正则化处理结果对应的中值,以得到对象对应的多个中值,从而将对象对应的多个中值确定为对象的语音特征信息。在一个实施例中,确定中值的过程可以是在针对每组正则化处理结果删除该组正则化处理结果中最大值和最小值后,确定执行删除操作后的每组正则化处理结果对应的中值,从而得到对象对应的多个中值,并将对象对应的多个中值确定为对象的语音特征信息。
在一个实施例中,在得到每个对象的语音特征信息后,计算机设备根据语音特征信息确定语音特征的方式可以如下:计算机设备可以调用预训练的指定神经网络模型对每个对象的语音特征信息进行编码处理,得到每个对象的语音特征。在一个实施例中,指定神经网络模型可以包括长短时记忆(Long Short-Term Memory,LSTM)。例如指定神经网络模型具体可以包括多层,如3层LSTM网络,多层LSTM网络可以依次连接。它是一个泛化的多层LSTM神经网络,可以用端到端的损失函数进行训练。也就是说,预训练的指定神经网络模型可以是一个泛化的用端到端损失训练的多层LSTM神经网络。
S103、根据所述每个与会对象的语音特征对所述会议音频中所述每个与会对象的音频进行增强处理,得到所述每个与会对象的增强后的音频。
本申请实施例中,计算机设备可以根据每个与会对象的语音特征以及会议音频确定每个与会对象的增强后的音频。具体来讲,计算机设备可以根据每个与会对象的语音特征对会议音频中每个与会对象的音频进行增强处理,得到每个与会对象的增强后的音频,达到了语音分离和增强的目的。通过对与会对象的音频进行增强,能够降低背景噪音的对语音识别过程的影响,进而提高语音转文字的质量,从而提升转出的文字的准确度。
在一个实施例中,对象的增强后的音频具体可以如下方式确定:计算机设备获取会议音频的声音特征,并对会议音频的声音特征进行短时傅里叶变换,得到第一幅度频谱(指对会议音频的声音特征进行短时傅里叶变换后得到幅度频谱);计算机设备调用语音过滤器以根据至少一个与会对象中的与会对象Oi的语音特征以及第一幅度频谱进行处理,得到软掩码Pi,i为小于或等于M的正整数,M为至少一个与会对象的数量;计算机设备利用软掩码Pi对第一幅度频谱进行掩码处理,得到掩码后的幅度频谱Qi,并对掩码后的幅度频谱Qi进行短时逆傅里叶变换(或称之为短时傅里叶逆变换),得到与会对象Oi的增强后的音频。本申请实施例中,针对至少一个与会对象中的所有与会对象,都可以采用上述方式,得到该与会对象的增强后的音频,也就是说可以通过上述方式得到每个与会对象的增强后的音频。
举例来说,假设至少一个与会对象包括对象O1和对象O2。计算机设备获取会议音频的声音特征,并对会议音频的声音特征进行短时傅里叶变换,得到第一幅度频谱。在得到第一幅度频谱后,计算机设备可以调用语音过滤器以根据对象O1的语音特征以及第一幅度频谱进行处理,得到软掩码P1;计算机设备利用软掩码P1对第一幅度频谱进行掩码处理,得到掩码后的幅度频谱Q1,并对掩码后的幅度频谱Q1进行短时逆傅里叶变换,得到对象O1的增强后的音频。同样的,计算机设备也可以调用语音过滤器以根据对象O2的语音特征以及第一幅度频谱进行处理,得到软掩码P2;计算机设备利用软掩码P2对第一幅度频谱进行掩码处理,得到掩码后的幅度频谱Q2,并对掩码后的幅度频谱Q2进行短时逆傅里叶变换,得到对象O2的增强后的音频。
在一个实施例中,所述的会议音频的声音特征具体可以通过如下方式获取:计算机设备根据会议音频提取会议音频对应的多组梅尔滤波器对数能量,并根据会议音频对应的多组梅尔滤波器对数能量确定会议音频的声音特征信息,从而对会议音频的声音特征信息进行编码处理,得到会议音频的声音特征。其中,计算机设备根据会议音频提取会议音频对应的多组梅尔滤波器对数能量的过程,可以参见前述根据对象的音频提取对象对应的多组梅尔滤波器对数能量的过程,本申请实施例在此不做赘述。计算机设备根据会议音频对应的多组梅尔滤波器对数能量确定会议音频的声音特征信息的过程,可以参见前述根据对象对应的多组梅尔滤波器对数能量确定对象的语音特征信息的过程,本申请实施例在此不做赘述。
在一个实施例中,所述的语音过滤器可以通过如下方式得到:计算机设备获取样本会议音频,样本会议音频对应的会议存在多个样本与会对象。在一个实施例中,样本会议音频混合了所述多个样本与会对象中的至少一个样本发言对象中每个样本发言对象的音频。计算机设备获取多个样本与会对象中的至少一个样本与会对象中每个样本与会对象的语音特征。在一个实施例中,所述至少一个样本与会对象包括所述至少一个样本与会对象,或包括所述至少一个发言对象以及所述多个样本与会对象中除所述至少一个样本发言对象之外的至少一个其它样本与会对象。计算机设备根据样本会议音频确定样本会议音频的声音特征,并对样本会议音频的声音特征进行短时傅里叶变换,得到第二幅度频谱(指对样本会议音频的声音特征进行短时傅里叶变换后得到的幅度频谱);计算机设备调用初始的目标神经网络模型对第二幅度频谱以及至少一个样本与会对象中的样本与会对象Oj的语音特征进行处理,得到软掩码Pj,j为小于或等于N的正整数,N为样本与会对象的数量;计算机设备利用软掩码Pj对第二幅度频谱进行掩码处理,得到掩码后的幅度频谱Qj;计算机设备利用掩码后的幅度频谱Qj与样本与会对象Oj的语音特征经短时傅里叶变换后得到的幅度频谱计算损失函数的值;利用损失函数的值训练初始的目标神经网络模型,得到预训练的目标神经网络模型以作为语音过滤器。其中,样本会议音频指被选取的用于训练初始的目标神经网络模型的会议音频。样本与会对象指样本会议音频对应的会议存在的多个与会对象,之所以这样命名是为了将样本会议音频对应会议存在的多个与会对象与目标会议存在的多个与会对象区分开来。同样的,样本发言对象指样本会议音频对应的会议上的至少一个发言对象,之所以这样命名是为了将样本会议音频对应的会议上的至少一个发言对象与目标会议上的至少一个发言对象区分开来。
在一个实施例中,所述的目标神经网络模型可以包括卷积神经网络(Convolutional Neural Network,CNN)、LSTM网络、全连接神经网络。在一个实施例中,所述的目标神经网络模型具体可以包括多层(如8层)卷积神经网络,一层LSTM网络和多层(如2层)全连接神经网络。此处的全连接神经网络可以使用sigmoid激活函数,而目标神经网络模型中除全卷积神经网络之外的其它神经网络使用ReLu激活函数。在一个实施例中,在目标神经网络模型包括8层卷积神经网络和2层全卷积神经网络的情况下,计算机设备调用语音过滤器以根据至少一个与会对象中的与会对象Oi的语音特征以及第一幅度频谱进行处理,得到软掩码Pi的过程可以如下:计算机设备将第一幅度频谱输入第1层CNN,得到第1层CNN的输出,将第1层CNN的输出输入第2层CNN,得到第2层CNN的输出,以此类推,直到得到第8层CNN的输出,将第8层CNN的输出以及与会对象Oi的语音特征输入LSTM网络,得到LSTM网络的输出,将LSTM网络的输出输入第1层全连接神经网络,得到第1层全连接神经网络的输出,将第1层全连接神经网络的输出输入第2层全连接神经网络,由第2层全连接神经网络输出软掩码Pi。
在一个实施例中,上述提及的如何根据与会对象的语音以及会议音频确定对象的增强后的语音的过程以及如何根据目标样本与会对象的语音以及样本会议音频训练得到语音过滤器的过程可以参见图2B。
S104、对所述增强后的音频进行语音识别,得到所述增强后的音频对应的目标文本,并根据所述目标文本生成所述目标会议对应的会议记录。
计算机设备可以根据增强后的音频转换得到增强后的音频对应的目标文本,也就是说计算机设备可以通过这种方式得到每个增强后的音频对应的目标文本。而后,计算机设备可以根据每个增强后的音频对应的目标文本生成目标会议对应的会议记录。此处,计算机设备按照至少一个目标与会人员的发音顺序或发言顺序对各目标文本进行排序,并生成包括排序后的各目标文本的会议记录。
在一个实施例中,计算机设备得到增强后的音频对应的目标文本的具体方式可以为:计算机设备调用预训练的循环神经网络(Recurrent Neural Network,RNN)模型以将增强后的音频转换为第一文本(指增强后的音频通过预训练的循环神经网络模型处理后得到的文本);计算机设备采用预设的搜索策略,如集束搜索(Beam Search Algorithm,BeamSearch)算法以根据第一文本搜索得到文本集合,文本集合包括多个第二文本(指采用搜索策略根据第一文本搜索出的文本);计算机设备调用预训练的循环神经网络模型以根据多个第二文本进行处理,得到多个第二文本中每个第二文本的第一概率值;计算机设备调用预训练的语言模型以根据每个第二文本进行处理,得到每个第二文本的第二概率值;计算机设备根据每个第二文本的第一概率值以及每个第二文本的第二概率值计算目标函数的值,并根据目标函数的值从多个第二文本中筛选出目标第二文本以作为增强后的音频对应的目标文本。由于存在多个第二文本,因此计算出的目标函数的值也为多个,一个目标函数的值对应一个第二文本,在根据目标函数的值从多个第二文本中筛选出目标第二文本以作为增强后的音频对应的目标文本的过程中,计算机设备可以从多个第二文本中筛选出最大的目标函数的值对应的第二文本以作为该增强后的音频对应的目标文本。
在一个实施例中,上述提及的预训练的RNN模型和语言模型可以构成语音识别模型,而计算机设备得到增强后的音频对应的目标文本的过程,可以理解为计算机设备调用语音识别模型来对增强后的音频进行语音识别,得到增强后的音频对应的目标文本。
在一个实施例中,所述的预训练的RNN模型可以是根据增强后的样本会议音频以及该样本会议音频对应的真实文本训练得到的。所述的语言模型可以是通过预设的语料库训练得到的。所述的语言模型可以为N-Gram模型、基于变换器的双向编码器(Bidirectional Enoceder Representations from Transformers,BERT)模型等模型。语言模型可以用于计算语句的出现概率。将预训练的RNN模型和语言模型应用到语音识别过程中,能够使得生成的目标文本更准确更通顺。
在一个实施例中,所述的RNN模型可以包括5层神经网络。前3层为非循环神经网络(可以为普通的神经网络)。前3层神经网络均使用ReLu激活函数。第4层为双向RNN网络。第5层为全连接网络。第5层神经网络的输入为根据第4层的双向RNN网络输出的两组特征向量计算得到的再一组特征向量。举例来说,假设第5层神经网络输出第一组特征向量和第二组特征向量,再一组特征向量为第三组特征向量。第一组特征向量包括至少一个第一特征向量,第一特征向量是根据与会对象对应的增强后的音频得到的。第二组特征向量包括至少一个第二特征向量,第二特征向量同样是根据与会对象对应的增强后的音频得到的。计算机设备可以计算第一组特征向量包括的目标第一特征向量与第二组特征向量包括的目标第二特征向量之和,得到包括所述和的第三组特征向量,目标第一特征向量以及目标第二特征向量是根据同一目标与会人员的增强后的音频通过前4层神经网络处理得到的。例如,至少一个与会对象包括对象A和对象B,此处相当于第一组特征向量会包括两个特征向量,第二组特征向量也会包括两个特征向量,计算得到的和为两个,第三组特征向量包括计算得到的两个和。第5层神经网络使用softmax激活函数。RNN神经网络在预测时使用了CTC损失函数,在训练时在前3层神经网络采用了8%的dropout正则化处理方法。
在一个实施例中,所述的目标函数可以如下:
Q(c)=log(P(c|x))+αlog(Plm(c))+βword_count(c)
其中,α和β是可调参数,c为采用预设搜索策略,如Beam Search算法搜索出的文本(如上述的第二文本),x为增强后的音频,word_count(c)为搜索出的文本的词数量。P(c|x)为RNN模型输出的出现该搜索出的文本的概率,Plm(c)为语言模型输出的出现该搜索出的文本的概率。在一个实施例中,目标函数可以使用预设搜索策略,如Beam Search算法优化。Beam Size可以设置在1000-8000之间。
在一个实施例中,计算机设备可以根据会议记录生成会议摘要,并保存会议记录与会议摘要的对应关系,后续可以根据会议摘要检索出对应的会议记录。也就是说,计算机设备还可以根据会议记录生成会议摘要,然后提交到全文检索系统供随时搜索、查看。
所述的语音处理方法可以应用于系统、应用程序或小程序中。以应用于应用程序为例,应用程序可以为办公应用程序、会议应用程序或会议记录应用程序或具有录音转文字功能的应用程序等应用程序。在一个实施例中,所述的系统、应用程序或小程序可以将录制下来的会议音频,如多人会议的会议音频转为文字并可以将文字整理成会议记录,具体可将单个说话者的语音从多人语音中识别出来,实施语音增强,然后进行语音识别和会议文字记录合成。在一个实施例中,所述的系统、应用程序或小程序可以以离线的方式实现会议记录生成功能。在一个应用场景中,所述的会议记录生成方法可以不用依赖于特定设备,它不要求每人使用专业的录音话筒,只需要与会者事先录制一段自已的语音提交到至计算机设备以进行语音特征的生成,便能辨别与会者,为与会者生成高质量的文字版会议记录。
下面结合图2C对会议记录生成过程进行阐述。通过语音分离技术根据会议音频以及目标与会人员的语音特征确定目标与会人员的增强后的音频。通过语音识别技术将增强后的音频转为对应的文本。而后根据发言时间线将文本整合成完整的会议记录。后续可以根据会议记录生成会议摘要,并导入全文检索系统。本系统部署灵活,对会议场地和硬件设施没有特殊的要求,拓宽了使用场景。通过提取与会对象的语音特征,过滤掉其它与会对象及其它与会对象的杂音,提高了语音转文字的正确率,将生成的语音拼接完整,生成摘要并导入全文检索系统,使得会议记录的实用价值得到了及大的提高,并同时丰富了企业的数据资产。随着算法精度的不断提高,会议记录将不再需要专人记录,会议结束后就立刻能将会议摘要与会对象,需要时与会对象可随时查看、搜索完整的会议记录,极大的提高了会议效率和用户体验。
其中,前述提及的会议记录生成方法包括但不限于用于如下应用场景。在一个应用场景中,比如有10个人聚集在一个会议室在上午10:00-11:00开了一场会议。这个会议室可以是线上会议室或现下会议室,或者可以是线上会议室及现下会议室的结合。相应的,这个会议可以是远程开会或现场开会,或还可以是远程开会与现场会议的结合。会议期间,可以通过一台录音设备对这场会议所有发言人的语音进行录制。录音设备录制接收后,可以得到一个音频文件,这个音频文件即为这个会议的会议音频。这台录音设备可以是其中一个与会人员携带的手机或电脑等录音设备。或者,这台录音可以是设置于会议室的除手机或电脑之外的其他录音设备,包括但不限于具有录音功能的电话机(多用于涉及多方的电话会议)等设备。录音设备在生成会议音频后,计算机设备可以获取到这个会议音频。本申请实施例对计算机设备获取会议音频的手段不做限制。计算机设备在获取到会议音频后,便可以通过前述提及的会议记录生成方法生成这场会议的会议记录。假设这场会议有5个人发言,那么会议音频便会包括这5个人的发言语音,生成的会议记录便会包括这5个人按发言顺序排好的发言内容。在一个应用场景中,本申请实施例可以提供一个界面,包括指示生成会议记录的控件,当检测到对该控件的第一操作,如点击操作时,便可以生成会议记录生成指令,计算机设备当检测到会议记录生成指令时,可以执行获取会议音频的操作。其中,会议记录生成指令可以携带会议音频、会议音频的标识信息(名称或编号等)或会议音频的属性信息(录制时间等),通过会议音频的标识信息或会议音频的属性信息可以查询出会议音频。在一个应用场景中,本申请实施例还可以提供另一个界面,该界面显示了会议音频列表,当检测到针对会议音频列表中某个会议音频的第二操作,如长按操作时,便可以显示针对该会议音频的至少一个操作项,至少一个操作项包括指示生成会议记录的控件,当检测到对该控件的第一操作,如点击操作时,便可以生成会议记录生成指令,计算机设备当检测到会议记录生成指令时,可以执行获取会议音频的操作。
在一个实施例中,前述提及的会议音频可以存储于区块链,以便在需要时,可以从区块链获取。
请参阅图3,为本申请实施例提供的一种会议记录生成装置的结构示意图。该装置可以应用于前述提及的计算机设备。具体地,该装置可以包括:
获取模块301,用于获取目标会议的会议音频,所述目标会议存在多个与会对象。
获取模块301,还用于获取所述多个与会对象中的至少一个与会对象中每个与会对象的语音特征。
处理模块302,用于根据所述每个与会对象的语音特征对所述会议音频中所述每个与会对象的音频进行增强处理,得到所述每个与会对象的增强后的音频,并对所述增强后的音频进行语音识别,得到所述增强后的音频对应的目标文本,并根据所述目标文本生成所述目标会议对应的会议记录。
在一种可选的实施方式中,处理模块302,还用于通过获取模块301获取多个对象中每个对象的语音,所述多个对象包括所述至少一个与会对象;根据所述每个对象的语音提取所述每个对象对应的多组梅尔滤波器对数能量;根据所述每个对象对应的多组梅尔滤波器对数能量确定所述每个对象的语音特征信息;对所述每个对象的语音特征信息进行编码处理,得到所述每个对象的语音特征。
在一种可选的实施方式中,处理模块302根据所述每个对象对应的多组梅尔滤波器对数能量确定所述每个对象的语音特征信息,具体为分别对所述每个对象对应的多组梅尔滤波器对数能量进行L2正则化处理,得到所述每个对象对应的多组正则化处理结果;分别对所述每个对象对应的多组正则化处理结果进行均值计算,得到所述每个对象对应的多个正则化处理结果均值;将所述每个对象对应的多个正则处理结果均值确定为所述每个对象的语音特征信息。
在一种可选的实施方式中,处理模块302根据所述每个与会对象的语音特征对所述会议音频中所述每个与会对象的音频进行增强处理,得到所述每个与会对象的增强后的音频,具体为通过获取模块301获取所述会议音频的声音特征;对所述会议音频的声音特征进行短时傅里叶变换,得到第一幅度频谱;调用语音过滤器以根据所述至少一个与会对象中的与会对象Oi的语音特征以及所述第一幅度频谱进行处理,得到软掩码Pi,i为小于或等于M的正整数,M为所述至少一个与会对象的数量;利用所述软掩码Pi对所述第一幅度频谱进行掩码处理,得到掩码后的幅度频谱Qi;对所述掩码后的幅度频谱Qi进行短时逆傅里叶变换,得到所述与会对象Oi的增强后的音频。
在一种可选的实施方式中,处理模块302通过获取模块301获取所述会议音频的声音特征,具体为根据所述会议音频提取所述会议音频对应的多组梅尔滤波器对数能量;根据所述会议音频对应的多组梅尔滤波器对数能量确定所述会议音频的声音特征信息;对所述会议音频的声音特征信息进行编码处理,得到所述会议音频的声音特征。
在一种可选的实施方式中,处理模块302,还用于通过获取模块301获取样本会议音频,所述样本会议音频对应的会议存在多个样本与会对象;通过获取模块301获取所述多个样本与会对象中的至少一个与会对象中每个样本与会对象的语音特征;;根据所述样本会议音频确定所述样本会议音频的声音特征,并对所述样本会议音频的声音特征进行短时傅里叶变换,得到第二幅度频谱;调用初始的目标神经网络模型对所述第二幅度频谱以及所述至少一个样本与会对象中的目标与会对象Oj的语音特征进行处理,得到软掩码Pj,j为小于或等于N的正整数,N为所述至少一个样本与会对象的数量;利用所述软掩码Pj对所述第二幅度频谱进行掩码处理,得到掩码后的幅度频谱Qj;利用所述掩码后的幅度频谱Qj与所述样本与会对象Oj的语音特征经短时傅里叶变换后得到的幅度频谱计算损失函数的值;利用所述损失函数的值训练所述初始的目标神经网络模型,得到预训练的目标神经网络模型以作为语音过滤器。
在一种可选的实施方式中,处理模块302对所述增强后的音频进行语音识别,得到所述增强后的音频对应的目标文本,具体为调用预训练的循环神经网络模型以将所述增强后的音频转换为第一文本;采用预设的搜索策略以根据第一文本搜索得到文本集合,所述文本集合包括多个第二文本;调用所述预训练的循环神经网络模型以根据所述多个第二文本进行处理,得到所述多个第二文本中每个第二文本的第一概率值;调用预训练的语言模型以根据所述每个第二文本进行处理,得到所述每个第二文本的第二概率值;根据所述每个第二文本的第一概率值以及所述每个第二文本的第二概率值计算目标函数的值;根据所述目标函数的值从所述多个第二文本中筛选出目标第二文本以作为所述增强后的音频对应的目标文本。
可见,图3所示的实施例中,会议记录生成装置获取目标会议的会议音频;会议记录生成装置还可以获取目标会议中至少一个与会对象中每个与会对象的语音特征。并根据每个与会对象的语音特征对会议音频中每个与会对象的音频进行增强处理,得到每个与会对象的增强后的音频;会议记录生成装置对增强后的音频进行语音识别,得到增强后的音频对应的目标文本,并根据目标文本生成目标会议对应的会议记录,实现了会议记录的自动化智能化生成过程。
请参阅图4,为本申请实施例提供的一种计算机设备的结构示意图。本实施例中所描述的计算机设备可以包括:一个或多个处理器1000和存储器2000。处理器1000和存储器2000可以通过总线等方式连接。
处理器1000可以是中央处理模块(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器2000可以是高速RAM存储器,也可为非不稳定的存储器(non-volatilememory),例如磁盘存储器。存储器2000用于存储一组程序代码,处理器1000可以调用存储器2000中存储的程序代码。具体地:
处理器1000,用于获取目标会议的会议音频,所述目标会议存在多个与会对象;获取所述多个与会对象中的至少一个与会对象中每个与会对象的语音特征;根据所述每个与会对象的语音特征对所述会议音频中所述每个与会对象的音频进行增强处理,得到所述每个与会对象的增强后的音频;对所述增强后的音频进行语音识别,得到所述增强后的音频对应的目标文本,并根据所述目标文本生成所述目标会议对应的会议记录。
在一个实施例中,处理器1000,还用于获取多个对象中每个对象的语音,所述多个对象包括所述至少一个与会对象;根据所述每个对象的语音提取所述每个对象对应的多组梅尔滤波器对数能量;根据所述每个对象对应的多组梅尔滤波器对数能量确定所述每个对象的语音特征信息;对所述每个对象的语音特征信息进行编码处理,得到所述每个对象的语音特征。
在一个实施例中,在根据所述每个对象对应的多组梅尔滤波器对数能量确定所述每个对象的语音特征信息时,处理器1000具体用于分别对所述每个对象对应的多组梅尔滤波器对数能量进行L2正则化处理,得到所述每个对象对应的多组正则化处理结果;分别对所述每个对象对应的多组正则化处理结果进行均值计算,得到所述每个对象对应的多个正则化处理结果均值;将所述每个对象对应的多个正则处理结果均值确定为所述每个对象的语音特征信息。
在一个实施例中,在根据所述每个与会对象的语音特征对所述会议音频中所述每个与会对象的音频进行增强处理,得到所述每个与会对象的增强后的音频时,处理器1000具体用于获取所述会议音频的声音特征;对所述会议音频的声音特征进行短时傅里叶变换,得到第一幅度频谱;调用语音过滤器以根据所述至少一个与会对象中的与会对象Oi的语音特征以及所述第一幅度频谱进行处理,得到软掩码Pi,i为小于或等于M的正整数,M为所述至少一个与会对象的数量;利用所述软掩码Pi对所述第一幅度频谱进行掩码处理,得到掩码后的幅度频谱Qi;对所述掩码后的幅度频谱Qi进行短时逆傅里叶变换,得到所述与会对象Oi的增强后的音频。
在一个实施例中,在获取所述会议音频的声音特征时,处理器1000具体用于根据所述会议音频提取所述会议音频对应的多组梅尔滤波器对数能量;根据所述会议音频对应的多组梅尔滤波器对数能量确定所述会议音频的声音特征信息;对所述会议音频的声音特征信息进行编码处理,得到所述会议音频的声音特征。
在一个实施例中,处理器1000,还用于获取样本会议音频,所述样本会议音频对应的会议存在多个样本与会对象;获取所述多个样本与会对象中的至少一个样本与会对象中每个样本与会对象的语音特征;根据所述样本会议音频确定所述样本会议音频的声音特征,并对所述样本会议音频的声音特征进行短时傅里叶变换,得到第二幅度频谱;调用初始的目标神经网络模型对所述第二幅度频谱以及所述至少一个样本与会对象中的样本与会对象Oj的语音特征进行处理,得到软掩码Pj,j为小于或等于N的正整数,N为所述至少一个样本与会对象的数量;利用所述软掩码Pj对所述第二幅度频谱进行掩码处理,得到掩码后的幅度频谱Qj;利用所述掩码后的幅度频谱Qj与所述样本与会对象Oj的语音特征经短时傅里叶变换后得到的幅度频谱计算损失函数的值;利用所述损失函数的值训练所述初始的目标神经网络模型,得到预训练的目标神经网络模型以作为语音过滤器。
在一个实施例中,在对所述增强后的音频进行语音识别,得到所述增强后的音频对应的目标文本时,处理器1000具体用于调用预训练的循环神经网络模型以将所述增强后的音频转换为第一文本;采用预设的搜索策略以根据第一文本搜索得到文本集合,所述文本集合包括多个第二文本;调用所述预训练的循环神经网络模型以根据所述多个第二文本进行处理,得到所述多个第二文本中每个第二文本的第一概率值;调用预训练的语言模型以根据所述每个第二文本进行处理,得到所述每个第二文本的第二概率值;根据所述每个第二文本的第一概率值以及所述每个第二文本的第二概率值计算目标函数的值;根据所述目标函数的值从所述多个第二文本中筛选出目标第二文本以作为所述增强后的音频对应的目标文本。
具体实现中,本申请实施例中所描述的处理器1000可执行图1实施例所描述的实现方式,也可执行本申请实施例所描述的实现方式,在此不再赘述。
在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以是两个或两个以上模块集成在一个模块中。上述集成的模块既可以采样硬件的形式实现,也可以采样软件功能模块的形式实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的计算机可读存储介质可为易失性的或非易失性的。例如,该计算机存储介质可以为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。所述的计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所揭露的仅为本申请一种较佳实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于本申请所涵盖的范围。
Claims (10)
1.一种会议记录生成方法,其特征在于,包括:
获取目标会议的会议音频,所述目标会议存在多个与会对象;
获取所述多个与会对象中的至少一个与会对象中每个与会对象的语音特征;
根据所述每个与会对象的语音特征对所述会议音频中所述每个与会对象的音频进行增强处理,得到所述每个与会对象的增强后的音频;
对所述增强后的音频进行语音识别,得到所述增强后的音频对应的目标文本,并根据所述目标文本生成所述目标会议对应的会议记录。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取多个对象中每个对象的语音,所述多个对象包括所述至少一个与会对象;
根据所述每个对象的语音提取所述每个对象对应的多组梅尔滤波器对数能量;
根据所述每个对象对应的多组梅尔滤波器对数能量确定所述每个对象的语音特征信息;
对所述每个对象的语音特征信息进行编码处理,得到所述每个对象的语音特征。
3.根据权利要求2所述的方法,其特征在于,所述根据所述每个对象对应的多组梅尔滤波器对数能量确定所述每个对象的语音特征信息,包括:
分别对所述每个对象对应的多组梅尔滤波器对数能量进行L2正则化处理,得到所述每个对象对应的多组正则化处理结果;
分别对所述每个对象对应的多组正则化处理结果进行均值计算,得到所述每个对象对应的多个正则化处理结果均值;
将所述每个对象对应的多个正则处理结果均值确定为所述每个对象的语音特征信息。
4.根据权利要求1所述的方法,其特征在于,所述根据所述每个与会对象的语音特征对所述会议音频中所述每个与会对象的音频进行增强处理,得到所述每个与会对象的增强后的音频,包括:
获取所述会议音频的声音特征;
对所述会议音频的声音特征进行短时傅里叶变换,得到第一幅度频谱;
调用语音过滤器以根据所述至少一个与会对象中的与会对象Oi的语音特征以及所述第一幅度频谱进行处理,得到软掩码Pi,i为小于或等于M的正整数,M为所述至少一个与会对象的数量;
利用所述软掩码Pi对所述第一幅度频谱进行掩码处理,得到掩码后的幅度频谱Qi;
对所述掩码后的幅度频谱Qi进行短时逆傅里叶变换,得到所述与会对象Oi的增强后的音频。
5.根据权利要求4所述的方法,其特征在于,所述获取所述会议音频的声音特征,包括:
根据所述会议音频提取所述会议音频对应的多组梅尔滤波器对数能量;
根据所述会议音频对应的多组梅尔滤波器对数能量确定所述会议音频的声音特征信息;
对所述会议音频的声音特征信息进行编码处理,得到所述会议音频的声音特征。
6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:
获取样本会议音频,所述样本会议音频对应的会议存在多个样本与会对象;
获取所述多个样本与会对象中的至少一个样本与会对象中每个样本与会对象的语音特征;
根据所述样本会议音频确定所述样本会议音频的声音特征,并对所述样本会议音频的声音特征进行短时傅里叶变换,得到第二幅度频谱;
调用初始的目标神经网络模型对所述第二幅度频谱以及所述至少一个样本与会对象中的样本与会对象Oj的语音特征进行处理,得到软掩码Pj,j为小于或等于N的正整数,N为所述至少一个样本与会对象的数量;
利用所述软掩码Pj对所述第二幅度频谱进行掩码处理,得到掩码后的幅度频谱Qj;
利用所述掩码后的幅度频谱Qj与所述样本与会对象Oj的语音特征经短时傅里叶变换后得到的幅度频谱计算损失函数的值;
利用所述损失函数的值训练所述初始的目标神经网络模型,得到预训练的目标神经网络模型以作为语音过滤器。
7.根据权利要求1所述的方法,其特征在于,所述对所述增强后的音频进行语音识别,得到所述增强后的音频对应的目标文本,包括:
调用预训练的循环神经网络模型以将所述增强后的音频转换为第一文本;
采用预设的搜索策略以根据第一文本搜索得到文本集合,所述文本集合包括多个第二文本;
调用所述预训练的循环神经网络模型以根据所述多个第二文本进行处理,得到所述多个第二文本中每个第二文本的第一概率值;
调用预训练的语言模型以根据所述每个第二文本进行处理,得到所述每个第二文本的第二概率值;
根据所述每个第二文本的第一概率值以及所述每个第二文本的第二概率值计算目标函数的值;
根据所述目标函数的值从所述多个第二文本中筛选出目标第二文本以作为所述增强后的音频对应的目标文本。
8.一种会议记录生成装置,其特征在于,包括:
获取模块,用于获取目标会议的会议音频,所述目标会议存在多个与会对象;
所述获取模块,还用于获取所述多个与会对象中的至少一个与会对象中每个与会对象的语音特征;
处理模块,用于根据所述每个与会对象的语音特征对所述会议音频中所述每个与会对象的音频进行增强处理,得到所述每个与会对象的增强后的音频,并对所述增强后的音频进行语音识别,得到所述增强后的音频对应的目标文本,并根据所述目标文本生成所述目标会议对应的会议记录。
9.一种计算机设备,其特征在于,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序指令,所述处理器被配置用于执行所述程序指令,实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210308900.7A CN115294987A (zh) | 2022-03-22 | 2022-03-22 | 一种会议记录生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210308900.7A CN115294987A (zh) | 2022-03-22 | 2022-03-22 | 一种会议记录生成方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115294987A true CN115294987A (zh) | 2022-11-04 |
Family
ID=83819743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210308900.7A Pending CN115294987A (zh) | 2022-03-22 | 2022-03-22 | 一种会议记录生成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115294987A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11818086B1 (en) * | 2022-07-29 | 2023-11-14 | Sony Group Corporation | Group voice chat using a Bluetooth broadcast |
-
2022
- 2022-03-22 CN CN202210308900.7A patent/CN115294987A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11818086B1 (en) * | 2022-07-29 | 2023-11-14 | Sony Group Corporation | Group voice chat using a Bluetooth broadcast |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11894014B2 (en) | Audio-visual speech separation | |
US10334384B2 (en) | Scheduling playback of audio in a virtual acoustic space | |
CN107210045B (zh) | 会议搜索以及搜索结果的回放 | |
CN111866022B (zh) | 感知质量比会议中原始听到的更高的后会议回放系统 | |
WO2022095380A1 (zh) | 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质 | |
CN107211061B (zh) | 用于空间会议回放的优化虚拟场景布局 | |
CN107210034B (zh) | 选择性会议摘要 | |
US20240127798A1 (en) | Training speech recognition systems using word sequences | |
CN107210036B (zh) | 会议词语云 | |
US11562731B2 (en) | Word replacement in transcriptions | |
CN112309365B (zh) | 语音合成模型的训练方法、装置、存储介质以及电子设备 | |
CN107211058A (zh) | 基于会话动态的会议分段 | |
CN111883107B (zh) | 语音合成、特征提取模型训练方法、装置、介质及设备 | |
US10762906B2 (en) | Automatically identifying speakers in real-time through media processing with dialog understanding supported by AI techniques | |
CN115472174A (zh) | 声音降噪方法和装置、电子设备和存储介质 | |
CN115294987A (zh) | 一种会议记录生成方法、装置、设备及存储介质 | |
US11488604B2 (en) | Transcription of audio | |
CN113823303A (zh) | 音频降噪方法、装置及计算机可读存储介质 | |
CN115333879B (zh) | 一种远程会议方法及系统 | |
CN112634879B (zh) | 语音会议管理方法、装置、设备及介质 | |
CN115240696A (zh) | 一种语音识别方法及可读存储介质 | |
CN113724689A (zh) | 语音识别方法及相关装置、电子设备、存储介质 | |
CN113312928A (zh) | 文本翻译方法、装置、电子设备和存储介质 | |
WO2024082928A1 (zh) | 语音处理方法、装置、设备和介质 | |
CN118053439A (zh) | 语音降噪方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |