CN116189678A - 语音处理方法、装置及计算机设备 - Google Patents
语音处理方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN116189678A CN116189678A CN202310195530.5A CN202310195530A CN116189678A CN 116189678 A CN116189678 A CN 116189678A CN 202310195530 A CN202310195530 A CN 202310195530A CN 116189678 A CN116189678 A CN 116189678A
- Authority
- CN
- China
- Prior art keywords
- voice
- pooling
- frames
- global
- frame sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 31
- 238000011176 pooling Methods 0.000 claims abstract description 258
- 238000012545 processing Methods 0.000 claims abstract description 60
- 238000000034 method Methods 0.000 claims abstract description 37
- 239000013598 vector Substances 0.000 claims description 93
- 230000015654 memory Effects 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 12
- 230000007246 mechanism Effects 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012821 model calculation Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种语音处理方法、装置及计算机设备。其中,该方法包括:获取目标语音;提取目标语音的语音帧序列;对语音帧序列中的语音帧在语音帧序列范围内进行全局池化,得到全局特征;确定用于对语音帧序列中的语音帧进行池化的多个池化窗口,并分别在多个池化窗口下进行池化,得到与多个池化窗口分别对应的局部特征;基于全局特征,以及语音帧序列中的语音帧在多个池化窗口分别对应的局部特征,得到语音帧序列中的语音帧的语音特征;基于语音帧序列中的语音帧的语音特征,得到目标语音的语义编码结果。本发明解决了在相关技术中,对语音的语义识别存在识别效率较低的技术问题。
Description
技术领域
本发明涉及机器智能技术领域,具体而言,涉及一种语音处理方法、装置及计算机设备。
背景技术
在相关技术中,相对于文本表述而言,语音表述的效率更高。因此,机器智能技术与语音的结合也越来越多。由于机器智能对语音的语义识别的应用场景越来越广泛,对语义识别的要求也越来越高,因此,在对语音的语义识别的效率要求也在提升。但在相关技术中,对语音的语义进行识别时,大多采用多层自注意机制,导致识别过程中的运算复杂度高,识别效率较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种语音处理方法、装置及计算机设备,以至少解决在相关技术中,对语音的语义识别存在识别效率较低的技术问题。
根据本发明实施例的一个方面,提供了一种语音处理方法,包括:获取目标语音;提取所述目标语音的语音帧序列;对所述语音帧序列中的语音帧在所述语音帧序列范围内进行全局池化,得到全局特征;确定用于对所述语音帧序列中的语音帧进行池化的多个池化窗口,并分别在所述多个池化窗口下进行池化,得到与所述多个池化窗口分别对应的局部特征;基于所述全局特征,以及所述语音帧序列中的语音帧在所述多个池化窗口分别对应的局部特征,得到所述语音帧序列中的所述语音帧的语音特征;基于所述语音帧序列中的所述语音帧的语音特征,得到所述目标语音的语义编码结果。
可选地,所述对所述语音帧序列中的语音帧在所述语音帧序列范围内进行全局池化,得到全局特征,包括:获取所述语音帧序列所包括的语音帧的查询向量;基于所述语音帧序列所包括的语音帧的查询向量,确定所述语音帧序列的全局平均查询向量;基于所述全局平均查询向量确定所述全局特征。
可选地,所述基于所述全局平均查询向量确定所述全局特征,包括:确定所述语音帧的查询向量,以及所述全局平均查询向量对应的键向量和值向量;基于所述语音帧的查询向量和所述全局平均查询向量对应的键向量,确定所述语音帧的平均得分,其中,所述平均得分用于标识所述全局平均查询向量对所述语音帧的贡献度;基于所述平均得分和所述值向量,确定所述全局特征。
可选地,所述分别在所述多个池化窗口下进行池化,得到与所述多个池化窗口分别对应的局部特征,包括:分别在所述多个池化窗口下进行最大池化,得到与所述多个池化窗口分别对应的局部特征。
可选地,所述分别在所述多个池化窗口下进行最大池化,得到与所述多个池化窗口分别对应的局部特征,包括:在所述多个池化窗口为第一池化窗口和第二池化窗口,并且所述第一池化窗口大于所述第二池化窗口的情况下,确定所述第一池化窗口对应的第一核,以及所述第二池化窗口对应的第二核,其中,所述第一核大于所述第二核;采用所述第一核在所述第一池化窗口下进行最大池化,得到所述第一池化窗口对应的局部特征,以及采用所述第二核在所述第二池化窗口下进行最大池化,得到所述第二池化窗口对应的局部特征。
可选地,所述基于所述全局特征,以及所述语音帧序列中的语音帧在所述多个池化窗口分别对应的局部特征,得到所述语音帧序列中的所述语音帧的语音特征,包括:确定所述全局特征的权重,所述多个池化窗口分别对应的局部特征的权重;基于所述全局特征以及所述全局特征的权重,所述多个池化窗口分别对应的局部特征以及所述多个池化窗口分别对应的局部特征的权重,得到所述语音帧序列中的所述语音帧的语音特征。
可选地,所述基于所述语音帧序列中的所述语音帧的语音特征,得到所述目标语音的语义编码结果,包括:获取所述语音帧序列的序列查询特征,以及所述序列查询特征对应的权重;基于所述语音帧序列的序列查询特征以及所述序列查询特征对应的权重,确定序列特征;基于所述序列特征和所述语音特征,得到所述目标语音中所述语音帧的语义编码结果,其中,所述目标语音的语义编码结果包括所述语音序列中所包括的语音帧的语义编码结果。
可选地,所述目标语音为语音长度超过预定长度的长语音。
根据本发明实施例的另一方面,还提供了一种语音处理方法,包括:采集会议记录语音;生成所述会议记录语音的语义编码结果,其中,所述语义编码结果基于所述会议记录语音的语音帧序列中的语音帧的语音特征得到,所述语音特征基于全局特征和多个局部特征得到,所述全局特征基于对所述语音帧序列中的语音帧在所述语音帧序列范围内进行全局池化得到,所述多个局部特征基于对所述语音帧序列中的语音帧在对应的多个池化窗口内进行池化得到;基于所述语义编码结果生成包含所述会议记录语音的语义的第一目标语音;播放所述第一目标语音。
根据本发明实施例的又一方面,还提供了一种语音处理方法,包括:获取语音笔记;生成所述语音笔记的语义编码结果,其中,所述语义编码结果基于所述语音笔记的语音帧序列中的语音帧的语音特征得到,所述语音特征基于全局特征和多个局部特征得到,所述全局特征基于对所述语音帧序列中的语音帧在所述语音帧序列范围内进行全局池化得到,所述多个局部特征基于对所述语音帧序列中的语音帧在对应的多个池化窗口内进行池化得到;基于所述语义编码结果生成包含所述语音笔记的语义的第二目标语音;分享所述第二目标语音。
根据本发明实施例的再一方面,还提供了一种语音处理装置,包括:获取模块,用于获取目标语音;提取模块,用于提取所述目标语音的语音帧序列;第一池化模块,用于对所述语音帧序列中的语音帧在所述语音帧序列范围内进行全局池化,得到全局特征;第二池化模块,用于确定用于对所述语音帧序列中的语音帧进行池化的多个池化窗口,并分别在所述多个池化窗口下进行池化,得到与所述多个池化窗口分别对应的局部特征;第一处理模块,用于基于所述全局特征,以及所述语音帧序列中的语音帧在所述多个池化窗口分别对应的局部特征,得到所述语音帧序列中的所述语音帧的语音特征;第二处理模块,用于基于所述语音帧序列中的所述语音帧的语音特征,得到所述目标语音的语义编码结果。
根据本发明实施例的再一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的语音处理方法。
根据本发明实施例的再一方面,还提供了一种计算机设备,包括:存储器和处理器,所述存储器存储有计算机程序;所述处理器,用于执行所述存储器中存储的计算机程序,所述计算机程序运行时使得所述处理器执行上述任意一项所述的语音处理方法。
在本发明实施例中,采用获取待识别的目标语音中语音帧在语音帧序列的全局范围内的全局特征,以及在多个池化窗口分别对应的局部特征的方式,通过将语音帧的全局特征和局部特征进行结合,达到了对语音帧在保证一定识别准确度的情况下,有效地减少模型计算量的目的,从而实现了大大提升识别效率的技术效果,进而解决了在相关技术中,对语音的语义识别存在识别效率较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了一种用于实现语音处理方法的计算机终端的硬件结构框图;
图2是根据本发明实施例1的语音处理方法一的流程图;
图3是根据本发明实施例1的语音处理方法二的流程图;
图4是根据本发明实施例1的语音处理方法三的流程图;
图5是根据本发明可选实施方式提供的高效语音处理模型的结构示意图;
图6是根据本发明实施例提供的语音处理装置一的结构框图;
图7是根据本发明实施例提供的语音处理装置二的结构框图;
图8是根据本发明实施例提供的语音处理装置三的结构框图;
图9是根据本发明实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
端到端语音识别,是区别传统语音识别的一种框架。传统语音识别一般分为声学模型与语言模型,声学模型负责将音频序列转化为音素序列,常见的音素比如汉语拼音、英文音标等,语言模型则负责将这些音素序列转化成文字序列。声学模型和语言模型在训练时并不需要耦合,可以独立训练,传统语音模型的劣势在于需要有发音字典,需要有音素的标注。端到端模型就是克服了这一点,直接将音频序列转化为文字序列。
注意力机制,通过一定方法,给输入的表征序列中的每个元素分配一个权重系数,当前输出(可能是依次输出,每次输出一个结果元素)依据注意力系数,对输入序列中不同元素分配不一样的关注度。所谓的注意力机制就是要从序列中学习到每个元素对结果的重要程度,然后按重要程度将输入的元素合并。
注意力机制(Self-attention),又称为内部注意力(intra-attention),是一种将单个序列中不同位置的元素互相关联起来,再以这种关联关系建立起序列表示(序列表征)的注意力机制。Self-attention是Attention的一种特例。在Self-attention之前的Attention,重点强调的是输入序列中的各个元素对于输出的重要程度,而Self-attention强调的是当前输入(输出)序列中每一个元素对于本序列中其他元素的重要程度。
池化网络层,或者称为池化层,实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。例如,图像池化层是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。
语音帧,在大多数情况下,语音信号是一个非稳态的、时变的信号。但在短时间范围内可以认为语音信号是稳态的、时不变的,这个短时间例如一般可以取10-30ms。因此,在短时帧上进行傅里叶变换,通过连接相邻帧来获得信号频率轮廓的良好近似。进行语音信号处理时,为减少语音信号整体的非稳态、时变的影响,从而对语音信号进行分段处理,其中每一段称为一帧,即语音帧,帧长一般取25ms。另外,为了使帧与帧之间平滑过渡,保持其连续性,分帧一般采用交叠分段的方法,保证相邻两帧相互重叠一部分,末尾不足部分用零填充。相邻两帧的起始位置的时间差称为帧移,一般在使用中帧移取值为10ms。
实施例1
根据本发明实施例,还提供了一种语音处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现语音处理方法的计算机终端的硬件结构框图。如图1所示,计算机终端10(或移动设备)可以包括一个或多个处理器(图中采用102a、102b,……,102n来示出,处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的语音处理方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
针对相关技术中,对语音的语义进行识别时,大多采用训练好的神经网络模型,而神经网络模型的识别过程极其复杂,因此,导致识别效率较低。举例而言,在进行语义识别时,一般基于训练好的语音识别模型对语音进行语义识别,在进行语义识别的过程中,一般用到自注意力层来分别确定对整个语音中各个语音帧的关注程度,由于语音帧的数量庞大,基于自注意力层来进行语音识别时,由于需要关注语音帧两两之间的影响程度,因此,造成了极其在的复杂度,效率低下。
鉴于上述问题,本申请提供了如图2所示的语音处理方法。图2是根据本发明实施例1的语音处理方法一的流程图,如图2所示,该流程包括如下步骤:
S202,获取目标语音;
作为一种可选的实施例,本实施例方法的执行主体可以是用于对语音处理的终端或者服务器。比如,在应用于用来执行语音处理的终端上时,应用于终端上时,能够轻便地实现简单语音场景下的语音识别;又比如,在应用于服务器上时,可以调用服务器丰富的计算资源,或者相对更为庞大也更为准确的语音模型,进而可以更为准确地对语音进行识别。
需要说明的是,上述终端的类型可以是多种的,例如,可以是具备一定计算能力移动终端,也可以是具有识别识别能力的固定计算机设备,等。上述服务器的类型也可以是多种,例如,可以是本地服务器,也可以虚拟云服务器。服务器的按照计算能力可以是单个的计算机设备,也可以是多个计算机设备集成在一起的计算机集群。
作为一种可选的实施例,上述目标语音即是待进行语音识别的语音,可以是多种类型的语音,比如,可以是实时语音,也可以是非实时语音;可以是纯语音,也可以是视频语音;可以是现场语音,也可以录制语音,等。上述获取目标语音的方式也可以多种。例如,依据语音识别的场景不同,获取目标语音的方式也不同。比如,可以采用专门的录音软件进行录音得到,也可以采用语音合成器合成得到,等。
作为一种可选的实施例,上述目标语音为语音长度超过预定长度的长语音。长语音的应用场景有多种,例如,可以是会议记录语音、语音笔记、实时字幕语音等。这些场景通常面临说话人转换、复杂的声学场景、广泛的会议内容以及多语种的场景。
S204,提取目标语音的语音帧序列;
作为一种可选的实施例,目标语音是一定长度的语音段,该目标语音的语音帧序列即是对目标语音依据一定的长度进行分段得到的多个语音帧。
S206,对语音帧序列中的语音帧在语音帧序列范围内进行全局池化,得到全局特征;
作为一种可选的实施例,语音帧序列中的语音帧即是指语音帧序列中的任一语音帧。以该任一语音帧为目标,采用类似的方式,得到该任一语音帧的语义编码结果,进而得到语音帧序列所包括的所有语音帧的语义编码结果,即得到该目标语音的语义编码结果。
作为一种可选的实施例,对语音帧序列中的语音帧在语音帧序列范围内进行全局池化,得到全局特征,该全局特征表征的是整个目标语音,即语音帧序列作为一个整体对该语音帧编码所产生的特征贡献。在对整个目标语音进行表征时,可以选择整个语音序列的平均值。
作为一种可选的实施例,对语音帧序列中的语音帧在语音帧序列范围内进行全局池化,得到全局特征时,可以采用以下处理方式:获取语音帧序列所包括的语音帧的查询向量;基于语音帧序列所包括的语音帧的查询向量,确定语音帧序列的全局平均查询向量;基于全局平均查询向量确定全局特征。采用语音帧序列所包括的语音帧的查询向量的平均值来确定全局特征,一方面,能够准确地确定整个语音帧序列,另外,采用直接平均的方式,简单快速,提升处理效率。
作为一种可选的实施例,基于全局平均查询向量确定全局特征,包括:确定语音帧的查询向量,以及全局平均查询向量对应的键向量和值向量;基于语音帧的查询向量和全局平均查询向量对应的键向量,确定语音帧的平均得分,其中,平均得分用于标识全局平均查询向量对语音帧的贡献度;基于平均得分和值向量,确定全局特征。需要说明的是,上述查询向量,键向量和值向量均是针对基层语音嵌入特征而言的,语音嵌入特征依据一定的向量转换由语音帧所包含的语音特征转换得到。因此,对于语音帧序列中的语音帧有对应的查询向量,键向量,值向量,对于语音帧序列进行平均后得到的全局平均结果也有对应的查询向量,键向量和值向量。在语音帧与语音帧之间的影响,或者对双方编码的贡献度可以由上述各自的查询向量,键向量,值向量进行计算得到。
例如,需要考虑整个语音序列所包括的语音序列的全局平均结果对语音帧序列中某个语音帧的编码的影响,即可以将语音帧的查询向量和全局平均查询向量对应的键向量进行点点乘,得到语音帧的平均得分,基于该平均得到占其它所有影响的比例,确定全局平均结果的权重,依据该权重和全局平均查询向量对应的值向量,即可以得到该全局特征。需要说明的是,上述平均得分可以是基于归一化函数进行归一化后的归一化值,例如,可以基于Softmax函数进行归一化后得到的值。
S208,确定用于对语音帧序列中的语音帧进行池化的多个池化窗口,并分别在多个池化窗口下进行池化,得到与多个池化窗口分别对应的局部特征;
作为一种可选的实施例,分别在多个池化窗口下进行池化,得到与多个池化窗口分别对应的局部特征,包括:分别在多个池化窗口下进行最大池化,得到与多个池化窗口分别对应的局部特征。基于多个池化窗口下的最大池化,得到该语音帧在多个池化窗口下的局部特征。需要说明的是,多个池化窗口的数量可以不定,例如,可以是两个,三个,五个,或者更多。池化窗口的数量越多,所获得的局部特征的精细度越好,而所需要的计算量,所花费的计算资源也越多,因此,池化窗口数量的多少,可以基于局部特征的准确度和效率之间的平衡来得到。
作为一种可选的实施例,当池化窗口选择两个时,分别在多个池化窗口下进行最大池化,得到与多个池化窗口分别对应的局部特征,可以采用以下处理:在多个池化窗口为第一池化窗口和第二池化窗口,并且第一池化窗口大于第二池化窗口的情况下,确定第一池化窗口对应的第一核,以及第二池化窗口对应的第二核,其中,第一核大于第二核;采用第一核在第一池化窗口下进行最大池化,得到第一池化窗口对应的局部特征,以及采用第二核在第二池化窗口下进行最大池化,得到第二池化窗口对应的局部特征。在池化窗口有两个时,针对不同的池化窗口选择不同的核,比如,采用更大的核对应更大的池化窗口,以及采用相对较小的核对应更小的池化窗口进行池化时,使得基于不同的池化窗口得到的局部特征的精细度更高。
S210,基于全局特征,以及语音帧序列中的语音帧在多个池化窗口分别对应的局部特征,得到语音帧序列中的语音帧的语音特征;
作为一种可选的实施例,基于全局特征,以及语音帧序列中的语音帧在多个池化窗口分别对应的局部特征,得到语音帧序列中的语音帧的语音特征时,可以采用多种方式,例如,可以采用以下处理方式:确定全局特征的权重,多个池化窗口分别对应的局部特征的权重;基于全局特征以及全局特征的权重,多个池化窗口分别对应的局部特征以及多个池化窗口分别对应的局部特征的权重,得到语音帧序列中的语音帧的语音特征。采用上述处理,由于不同的特征本身的权重就不同,因此,基于不同的权重对各个池化结果对语音帧的影响,也能够更为准确地得到语音语音特征。其中,上述不同池化方式或者不同池化窗口对应的池化所对应的权重,可以依据目标语音的使用场景来确定。
S212,基于语音帧序列中的语音帧的语音特征,得到目标语音的语义编码结果。
作为一种可选的实施例,基于语音帧序列中的语音帧的语音特征,得到目标语音的语义编码结果,包括:获取语音帧序列的序列查询特征,以及序列查询特征对应的权重;基于语音帧序列的序列查询特征以及序列查询特征对应的权重,确定序列特征;基于序列特征和语音特征,得到目标语音中语音帧的语义编码结果,其中,目标语音的语义编码结果包括语音序列中所包括的语音帧的语义编码结果。在得到语音帧的语音特征后,结合考虑在对应权重下的整个语音帧序列的序列特征,使得语音帧的编码基于权重地关注了整个语音帧序列。
通过上述处理,采用获取待识别的目标语音中语音帧在语音帧序列的全局范围内的全局特征,以及在多个池化窗口分别对应的局部特征的方式,通过将语音帧的全局特征和局部特征进行结合,能够保证语音帧的识别准确度。另外,采用池化的方式相对于采用语音帧间的自注意力机制得到的识别结果而言,复杂度明显减小。因此,达到了对语音帧在保证一定识别准确度的情况下,有效地减少模型计算量的目的,从而实现了大大提升识别效率的技术效果,进而解决了在相关技术中,对语音的语义识别存在识别效率较低的技术问题。
图3是根据本发明实施例1的语音处理方法二的流程图,如图3所示,该流程包括如下步骤:
S302,采集会议记录语音;
S304,生成会议记录语音的语义编码结果,其中,语义编码结果基于会议记录语音的语音帧序列中的语音帧的语音特征得到,语音特征基于全局特征和多个局部特征得到,全局特征基于对语音帧序列中的语音帧在语音帧序列范围内进行全局池化得到,多个局部特征基于对语音帧序列中的语音帧在对应的多个池化窗口内进行池化得到;
S306,基于语义编码结果生成包含会议记录语音的语义的第一目标语音;
S308,播放第一目标语音。
通过上述处理,实现了采用上述语音处理方法一应用于会议记录语音的场景,即采用上述实施例及可选实施例的方式获取对会议记录语音的语义编码结果后,在对包括了会议记录语音的语义的第一目标语音后,在会议场景下进行播放,实现在在会议场景下高效对会议记录语音的语义的识别,有效提升智能会议体验。
图4是根据本发明实施例1的语音处理方法三的流程图,如图4所示,该流程包括如下步骤:
S402,获取语音笔记;
S404,生成语音笔记的语义编码结果,其中,语义编码结果基于语音笔记的语音帧序列中的语音帧的语音特征得到,语音特征基于全局特征和多个局部特征得到,全局特征基于对语音帧序列中的语音帧在语音帧序列范围内进行全局池化得到,多个局部特征基于对语音帧序列中的语音帧在对应的多个池化窗口内进行池化得到;
S406,基于语义编码结果生成包含语音笔记的语义的第二目标语音;
S408,分享第二目标语音。
通过上述处理,实现了采用上述语音处理方法一应用于语音笔记分享的场景,即采用上述实施例及可选实施例的方式获取对语音笔记的语义编码结果后,在对包括了语音笔记的语义的第一目标语音后,在语音笔记分享场景下将要分享的语音笔记进行分享,实现在社交场景下高效对语音笔记的语义的识别,有效提升交互体验。
下面对以端对端语音识别为例提供的可选实施方式进行说明。
为了清楚描述,以端到端语音模型为例,先说明一下一般端到端语音模型的结构,一般端到端语音模型大概包括三个部分:前端特征提取器、CTC分支和Attention分支。其中,前端特征提取器:可以是若干层卷积,其目的是在时间维度上降采样,从而减少计算开销。Attention分支:包含Attention机制的一系列模型,比如转换器(Transformer)模型、Comformer(Convolution-augmented Transformer for Speech Recognition)模型,长短期记忆(Long short-term memory,简称为LSTM),可以任意选择。通常用平滑交叉熵损失约束。CTC分支:其结构上通常是一个全连接层,将编码器的特征转化为每个字的概率,用CTC损失约束。需要说明的是,CTC分支和Attention分支实际上有其中一条就可以实现语音识别的基本功能。但是这两条支路的两种损失一起训练模型可以得到更好的效果。
但端对端语音处理模型在处理长语音时需要占用大量的运算资源(图形处理器GPU/中央处理器CPU、内存等),这导致部署时面临高延时的问题。端对端语音处理模型占用大量的运算资源的原因是:端对端语音处理模型依赖自注意力机制(Self-attention)来对语音序列进行建模。自注意力机制自注意机制需要计算语音序列上任意一对时间点的关联度,所以具有二次时间复杂度。在处理长语音序列时,随着序列变长,占用的运算资源会急剧增长,从而导致处理时间过长或者内存/显存溢出(Out-of-memory)。
鉴于上述问题,在本发明可选实施方式中,提出了一种高效语音处理模型,该高效语音处理模型可以在不明显损失处理效果(在语音识别和语音摘要等任务上)的同时,有效地提升在处理长语音数据的处理效率。
图5是根据本发明可选实施方式提供的高效语音处理模型的结构示意图,如图5所示,该模型包括:池化网络与卷积网络,在该池化网络中,采用上下文交互设计,利用全局池化模块来捕捉全局信息,同时提出了宽窄池化模块来进一步提升对于多细粒度的局部信息进行建模。在进行全局池化时,是利用全句中所有的查询向量的平均向量来作为新的查询向量,基于该查询向量得到全句的全局特征。采用不同的窗口大小分别对当前时间点周围的特征计算最大池化(Maxpooling),得到对应的局部特征。这样可以处理局部信息中的多细粒度问题。通过对全局特征,和各个窗口对应的局部信息计算加权和,得到整合特征。
在该高效语音处理模型中,提出了一种新的卷积增强的池化网络。在该高效语音处理模型中使用多跨度池化网络来替换卷积增强变换器模型(Conformer)中的自注意力结构,从而具有线性时间复杂度。在该高效语音处理模型中,使用卷积网络和多细粒度池化网络的复合结构,使用多细粒度的池化操作加强对局部信息的编码,同时引入局部信息和全局信息的融合,另外,通过引入了多细粒度池化操作,增加对局部多细粒度信息的建模能力,这使得提出的模型在处理长语音序列时,相对自注意力机制有明显的运算效率的增益。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述语音处理方法一的装置,图6是根据本发明实施例提供的语音处理装置一的结构框图,如图6所示,该装置包括:第一获取模块61,提取模块62,第一池化模块63,第二池化模块64,第一处理模块65和第二处理模块66,下面对该装置进行说明。
第一获取模块61,用于获取目标语音;提取模块62,连接至上述第一获取模块61,用于提取目标语音的语音帧序列;第一池化模块63,连接至上述提取模块62,用于对语音帧序列中的语音帧在语音帧序列范围内进行全局池化,得到全局特征;第二池化模块64,连接至上述第一池化模块63,用于确定用于对语音帧序列中的语音帧进行池化的多个池化窗口,并分别在多个池化窗口下进行池化,得到与多个池化窗口分别对应的局部特征;第一处理模块65,连接至上述第二池化模块64,用于基于全局特征,以及语音帧序列中的语音帧在多个池化窗口分别对应的局部特征,得到语音帧序列中的语音帧的语音特征;第二处理模块66,连接至上述第一处理模块65,用于基于语音帧序列中的语音帧的语音特征,得到目标语音的语义编码结果。
此处需要说明的是,上述第一获取模块61,提取模块62,第一池化模块63,第二池化模块64,第一处理模块65和第二处理模块66对应于实施例1中的步骤S202至步骤S212,上述模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
根据本发明实施例,还提供了一种用于实施上述语音处理方法二的装置,图7是根据本发明实施例提供的语音处理装置二的结构框图,如图7所示,该装置包括:采集模块72,第一生成模块74,第二生成模块76和播放模块78,下面对该装置进行说明。
采集模块72,用于采集会议记录语音;第一生成模块74,连接至上述采集模块72,用于生成会议记录语音的语义编码结果,其中,语义编码结果基于会议记录语音的语音帧序列中的语音帧的语音特征得到,语音特征基于全局特征和多个局部特征得到,全局特征基于对语音帧序列中的语音帧在语音帧序列范围内进行全局池化得到,多个局部特征基于对语音帧序列中的语音帧在对应的多个池化窗口内进行池化得到;第二生成模块76,连接至上述第一生成模块74,用于基于语义编码结果生成包含会议记录语音的语义的第一目标语音;播放模块78,连接至上述第二生成模块76,用于播放第一目标语音。
此处需要说明的是,上述采集模块72,第一生成模块74,第二生成模块76和播放模块78对应于实施例1中的步骤S302至步骤S308,上述模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
根据本发明实施例,还提供了一种用于实施上述语音处理方法三的装置,图8是根据本发明实施例提供的语音处理装置三的结构框图,如图8所示,该装置包括:第二获取模块82,第三生成模块84,第四生成模块86和分享模块88,下面对该装置进行说明。
第二获取模块82,用于获取语音笔记;第三生成模块84,连接至上述第二获取模块82,用于生成语音笔记的语义编码结果,其中,语义编码结果基于语音笔记的语音帧序列中的语音帧的语音特征得到,语音特征基于全局特征和多个局部特征得到,全局特征基于对语音帧序列中的语音帧在语音帧序列范围内进行全局池化得到,多个局部特征基于对语音帧序列中的语音帧在对应的多个池化窗口内进行池化得到;第四生成模块86,连接至上述第三生成模块84,用于基于语义编码结果生成包含语音笔记的语义的第二目标语音;分享模块88,连接至上述第四生成模块86,用于分享第二目标语音。
此处需要说明的是,上述第二获取模块82,第三生成模块84,第四生成模块86和分享模块88对应于实施例1中的步骤S402至步骤S408,上述模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
实施例3
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的语音处理方法中以下步骤的程序代码:获取目标语音;提取目标语音的语音帧序列;对语音帧序列中的语音帧在语音帧序列范围内进行全局池化,得到全局特征;确定用于对语音帧序列中的语音帧进行池化的多个池化窗口,并分别在多个池化窗口下进行池化,得到与多个池化窗口分别对应的局部特征;基于全局特征,以及语音帧序列中的语音帧在多个池化窗口分别对应的局部特征,得到语音帧序列中的语音帧的语音特征;基于语音帧序列中的语音帧的语音特征,得到目标语音的语义编码结果。
可选地,图9是根据本发明实施例的一种计算机终端的结构框图。如图9所示,该计算机终端可以包括:一个或多个(图中仅示出一个)处理器92、存储器94等。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的语音处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的语音处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取目标语音;提取目标语音的语音帧序列;对语音帧序列中的语音帧在语音帧序列范围内进行全局池化,得到全局特征;确定用于对语音帧序列中的语音帧进行池化的多个池化窗口,并分别在多个池化窗口下进行池化,得到与多个池化窗口分别对应的局部特征;基于全局特征,以及语音帧序列中的语音帧在多个池化窗口分别对应的局部特征,得到语音帧序列中的语音帧的语音特征;基于语音帧序列中的语音帧的语音特征,得到目标语音的语义编码结果。
可选的,上述处理器还可以执行如下步骤的程序代码:对语音帧序列中的语音帧在语音帧序列范围内进行全局池化,得到全局特征,包括:获取语音帧序列所包括的语音帧的查询向量;基于语音帧序列所包括的语音帧的查询向量,确定语音帧序列的全局平均查询向量;基于全局平均查询向量确定全局特征。
可选的,上述处理器还可以执行如下步骤的程序代码:基于全局平均查询向量确定全局特征,包括:确定语音帧的查询向量,以及全局平均查询向量对应的键向量和值向量;基于语音帧的查询向量和全局平均查询向量对应的键向量,确定语音帧的平均得分,其中,平均得分用于标识全局平均查询向量对语音帧的贡献度;基于平均得分和值向量,确定全局特征。
可选的,上述处理器还可以执行如下步骤的程序代码:分别在多个池化窗口下进行池化,得到与多个池化窗口分别对应的局部特征,包括:分别在多个池化窗口下进行最大池化,得到与多个池化窗口分别对应的局部特征。
可选的,上述处理器还可以执行如下步骤的程序代码:分别在多个池化窗口下进行最大池化,得到与多个池化窗口分别对应的局部特征,包括:在多个池化窗口为第一池化窗口和第二池化窗口,并且第一池化窗口大于第二池化窗口的情况下,确定第一池化窗口对应的第一核,以及第二池化窗口对应的第二核,其中,第一核大于第二核;采用第一核在第一池化窗口下进行最大池化,得到第一池化窗口对应的局部特征,以及采用第二核在第二池化窗口下进行最大池化,得到第二池化窗口对应的局部特征。
可选的,上述处理器还可以执行如下步骤的程序代码:基于全局特征,以及语音帧序列中的语音帧在多个池化窗口分别对应的局部特征,得到语音帧序列中的语音帧的语音特征,包括:确定全局特征的权重,多个池化窗口分别对应的局部特征的权重;基于全局特征以及全局特征的权重,多个池化窗口分别对应的局部特征以及多个池化窗口分别对应的局部特征的权重,得到语音帧序列中的语音帧的语音特征。
可选的,上述处理器还可以执行如下步骤的程序代码:基于语音帧序列中的语音帧的语音特征,得到目标语音的语义编码结果,包括:获取语音帧序列的序列查询特征,以及序列查询特征对应的权重;基于语音帧序列的序列查询特征以及序列查询特征对应的权重,确定序列特征;基于序列特征和语音特征,得到目标语音中语音帧的语义编码结果,其中,目标语音的语义编码结果包括语音序列中所包括的语音帧的语义编码结果。
可选的,上述处理器还可以执行如下步骤的程序代码:目标语音为语音长度超过预定长度的长语音。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:采集会议记录语音;生成会议记录语音的语义编码结果,其中,语义编码结果基于会议记录语音的语音帧序列中的语音帧的语音特征得到,语音特征基于全局特征和多个局部特征得到,全局特征基于对语音帧序列中的语音帧在语音帧序列范围内进行全局池化得到,多个局部特征基于对语音帧序列中的语音帧在对应的多个池化窗口内进行池化得到;基于语义编码结果生成包含会议记录语音的语义的第一目标语音;播放第一目标语音。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取语音笔记;生成语音笔记的语义编码结果,其中,语义编码结果基于语音笔记的语音帧序列中的语音帧的语音特征得到,语音特征基于全局特征和多个局部特征得到,全局特征基于对语音帧序列中的语音帧在语音帧序列范围内进行全局池化得到,多个局部特征基于对语音帧序列中的语音帧在对应的多个池化窗口内进行池化得到;基于语义编码结果生成包含语音笔记的语义的第二目标语音;分享第二目标语音。
本领域普通技术人员可以理解,图9所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如,计算机终端9还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图9所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,计算机可读存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
实施例4
本发明的实施例还提供了一种计算机可读存储介质。可选地,在本实施例中,上述计算机可读存储介质可以用于保存上述实施例1所提供的语音处理方法所执行的程序代码。
可选地,在本实施例中,上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:获取目标语音;提取目标语音的语音帧序列;对语音帧序列中的语音帧在语音帧序列范围内进行全局池化,得到全局特征;确定用于对语音帧序列中的语音帧进行池化的多个池化窗口,并分别在多个池化窗口下进行池化,得到与多个池化窗口分别对应的局部特征;基于全局特征,以及语音帧序列中的语音帧在多个池化窗口分别对应的局部特征,得到语音帧序列中的语音帧的语音特征;基于语音帧序列中的语音帧的语音特征,得到目标语音的语义编码结果。
可选地,在本实施例中,计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:对语音帧序列中的语音帧在语音帧序列范围内进行全局池化,得到全局特征,包括:获取语音帧序列所包括的语音帧的查询向量;基于语音帧序列所包括的语音帧的查询向量,确定语音帧序列的全局平均查询向量;基于全局平均查询向量确定全局特征。
可选地,在本实施例中,计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:基于全局平均查询向量确定全局特征,包括:确定语音帧的查询向量,以及全局平均查询向量对应的键向量和值向量;基于语音帧的查询向量和全局平均查询向量对应的键向量,确定语音帧的平均得分,其中,平均得分用于标识全局平均查询向量对语音帧的贡献度;基于平均得分和值向量,确定全局特征。
可选地,在本实施例中,计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:分别在多个池化窗口下进行池化,得到与多个池化窗口分别对应的局部特征,包括:分别在多个池化窗口下进行最大池化,得到与多个池化窗口分别对应的局部特征。
可选地,在本实施例中,计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:分别在多个池化窗口下进行最大池化,得到与多个池化窗口分别对应的局部特征,包括:在多个池化窗口为第一池化窗口和第二池化窗口,并且第一池化窗口大于第二池化窗口的情况下,确定第一池化窗口对应的第一核,以及第二池化窗口对应的第二核,其中,第一核大于第二核;采用第一核在第一池化窗口下进行最大池化,得到第一池化窗口对应的局部特征,以及采用第二核在第二池化窗口下进行最大池化,得到第二池化窗口对应的局部特征。
可选地,在本实施例中,计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:基于全局特征,以及语音帧序列中的语音帧在多个池化窗口分别对应的局部特征,得到语音帧序列中的语音帧的语音特征,包括:确定全局特征的权重,多个池化窗口分别对应的局部特征的权重;基于全局特征以及全局特征的权重,多个池化窗口分别对应的局部特征以及多个池化窗口分别对应的局部特征的权重,得到语音帧序列中的语音帧的语音特征。
可选地,在本实施例中,计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:基于语音帧序列中的语音帧的语音特征,得到目标语音的语义编码结果,包括:获取语音帧序列的序列查询特征,以及序列查询特征对应的权重;基于语音帧序列的序列查询特征以及序列查询特征对应的权重,确定序列特征;基于序列特征和语音特征,得到目标语音中语音帧的语义编码结果,其中,目标语音的语义编码结果包括语音序列中所包括的语音帧的语义编码结果。
可选地,在本实施例中,计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:目标语音为语音长度超过预定长度的长语音。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:采集会议记录语音;生成会议记录语音的语义编码结果,其中,语义编码结果基于会议记录语音的语音帧序列中的语音帧的语音特征得到,语音特征基于全局特征和多个局部特征得到,全局特征基于对语音帧序列中的语音帧在语音帧序列范围内进行全局池化得到,多个局部特征基于对语音帧序列中的语音帧在对应的多个池化窗口内进行池化得到;基于语义编码结果生成包含会议记录语音的语义的第一目标语音;播放第一目标语音。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:获取语音笔记;生成语音笔记的语义编码结果,其中,语义编码结果基于语音笔记的语音帧序列中的语音帧的语音特征得到,语音特征基于全局特征和多个局部特征得到,全局特征基于对语音帧序列中的语音帧在语音帧序列范围内进行全局池化得到,多个局部特征基于对语音帧序列中的语音帧在对应的多个池化窗口内进行池化得到;基于语义编码结果生成包含语音笔记的语义的第二目标语音;分享第二目标语音。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (13)
1.一种语音处理方法,其特征在于,包括:
获取目标语音;
提取所述目标语音的语音帧序列;
对所述语音帧序列中的语音帧在所述语音帧序列范围内进行全局池化,得到全局特征;
确定用于对所述语音帧序列中的语音帧进行池化的多个池化窗口,并分别在所述多个池化窗口下进行池化,得到与所述多个池化窗口分别对应的局部特征;
基于所述全局特征,以及所述语音帧序列中的语音帧在所述多个池化窗口分别对应的局部特征,得到所述语音帧序列中的所述语音帧的语音特征;
基于所述语音帧序列中的所述语音帧的语音特征,得到所述目标语音的语义编码结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述语音帧序列中的语音帧在所述语音帧序列范围内进行全局池化,得到全局特征,包括:
获取所述语音帧序列所包括的语音帧的查询向量;
基于所述语音帧序列所包括的语音帧的查询向量,确定所述语音帧序列的全局平均查询向量;
基于所述全局平均查询向量确定所述全局特征。
3.根据权利要求2所述的方法,其特征在于,所述基于所述全局平均查询向量确定所述全局特征,包括:
确定所述语音帧的查询向量,以及所述全局平均查询向量对应的键向量和值向量;
基于所述语音帧的查询向量和所述全局平均查询向量对应的键向量,确定所述语音帧的平均得分,其中,所述平均得分用于标识所述全局平均查询向量对所述语音帧的贡献度;
基于所述平均得分和所述值向量,确定所述全局特征。
4.根据权利要求1所述的方法,其特征在于,所述分别在所述多个池化窗口下进行池化,得到与所述多个池化窗口分别对应的局部特征,包括:
分别在所述多个池化窗口下进行最大池化,得到与所述多个池化窗口分别对应的局部特征。
5.根据权利要求4所述的方法,其特征在于,所述分别在所述多个池化窗口下进行最大池化,得到与所述多个池化窗口分别对应的局部特征,包括:
在所述多个池化窗口为第一池化窗口和第二池化窗口,并且所述第一池化窗口大于所述第二池化窗口的情况下,确定所述第一池化窗口对应的第一核,以及所述第二池化窗口对应的第二核,其中,所述第一核大于所述第二核;
采用所述第一核在所述第一池化窗口下进行最大池化,得到所述第一池化窗口对应的局部特征,以及采用所述第二核在所述第二池化窗口下进行最大池化,得到所述第二池化窗口对应的局部特征。
6.根据权利要求1所述的方法,其特征在于,所述基于所述全局特征,以及所述语音帧序列中的语音帧在所述多个池化窗口分别对应的局部特征,得到所述语音帧序列中的所述语音帧的语音特征,包括:
确定所述全局特征的权重,所述多个池化窗口分别对应的局部特征的权重;
基于所述全局特征以及所述全局特征的权重,所述多个池化窗口分别对应的局部特征以及所述多个池化窗口分别对应的局部特征的权重,得到所述语音帧序列中的所述语音帧的语音特征。
7.根据权利要求1所述的方法,其特征在于,所述基于所述语音帧序列中的所述语音帧的语音特征,得到所述目标语音的语义编码结果,包括:
获取所述语音帧序列的序列查询特征,以及所述序列查询特征对应的权重;
基于所述语音帧序列的序列查询特征以及所述序列查询特征对应的权重,确定序列特征;
基于所述序列特征和所述语音特征,得到所述目标语音中所述语音帧的语义编码结果,其中,所述目标语音的语义编码结果包括所述语音序列中所包括的语音帧的语义编码结果。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述目标语音为语音长度超过预定长度的长语音。
9.一种语音处理方法,其特征在于,包括:
采集会议记录语音;
生成所述会议记录语音的语义编码结果,其中,所述语义编码结果基于所述会议记录语音的语音帧序列中的语音帧的语音特征得到,所述语音特征基于全局特征和多个局部特征得到,所述全局特征基于对所述语音帧序列中的语音帧在所述语音帧序列范围内进行全局池化得到,所述多个局部特征基于对所述语音帧序列中的语音帧在对应的多个池化窗口内进行池化得到;
基于所述语义编码结果生成包含所述会议记录语音的语义的第一目标语音;
播放所述第一目标语音。
10.一种语音处理方法,其特征在于,包括:
获取语音笔记;
生成所述语音笔记的语义编码结果,其中,所述语义编码结果基于所述语音笔记的语音帧序列中的语音帧的语音特征得到,所述语音特征基于全局特征和多个局部特征得到,所述全局特征基于对所述语音帧序列中的语音帧在所述语音帧序列范围内进行全局池化得到,所述多个局部特征基于对所述语音帧序列中的语音帧在对应的多个池化窗口内进行池化得到;
基于所述语义编码结果生成包含所述语音笔记的语义的第二目标语音;
分享所述第二目标语音。
11.一种语音处理装置,其特征在于,包括:
获取模块,用于获取目标语音;
提取模块,用于提取所述目标语音的语音帧序列;
第一池化模块,用于对所述语音帧序列中的语音帧在所述语音帧序列范围内进行全局池化,得到全局特征;
第二池化模块,用于确定用于对所述语音帧序列中的语音帧进行池化的多个池化窗口,并分别在所述多个池化窗口下进行池化,得到与所述多个池化窗口分别对应的局部特征;
第一处理模块,用于基于所述全局特征,以及所述语音帧序列中的语音帧在所述多个池化窗口分别对应的局部特征,得到所述语音帧序列中的所述语音帧的语音特征;
第二处理模块,用于基于所述语音帧序列中的所述语音帧的语音特征,得到所述目标语音的语义编码结果。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至10中任意一项所述的语音处理方法。
13.一种计算机设备,其特征在于,包括:存储器和处理器,
所述存储器存储有计算机程序;
所述处理器,用于执行所述存储器中存储的计算机程序,所述计算机程序运行时使得所述处理器执行权利要求1至10中任意一项所述的语音处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310195530.5A CN116189678A (zh) | 2023-02-22 | 2023-02-22 | 语音处理方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310195530.5A CN116189678A (zh) | 2023-02-22 | 2023-02-22 | 语音处理方法、装置及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116189678A true CN116189678A (zh) | 2023-05-30 |
Family
ID=86446114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310195530.5A Pending CN116189678A (zh) | 2023-02-22 | 2023-02-22 | 语音处理方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116189678A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116825092A (zh) * | 2023-08-28 | 2023-09-29 | 珠海亿智电子科技有限公司 | 语音识别方法、语音识别模型的训练方法及装置 |
-
2023
- 2023-02-22 CN CN202310195530.5A patent/CN116189678A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116825092A (zh) * | 2023-08-28 | 2023-09-29 | 珠海亿智电子科技有限公司 | 语音识别方法、语音识别模型的训练方法及装置 |
CN116825092B (zh) * | 2023-08-28 | 2023-12-01 | 珠海亿智电子科技有限公司 | 语音识别方法、语音识别模型的训练方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220180202A1 (en) | Text processing model training method, and text processing method and apparatus | |
CN108520741A (zh) | 一种耳语音恢复方法、装置、设备及可读存储介质 | |
JP2023545543A (ja) | 情報生成方法、装置、コンピュータ機器、記憶媒体及びコンピュータプログラム | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
CN114895817B (zh) | 交互信息处理方法、网络模型的训练方法及装置 | |
US10783884B2 (en) | Electronic device-awakening method and apparatus, device and computer-readable storage medium | |
CN113421547B (zh) | 一种语音处理方法及相关设备 | |
JP2020004382A (ja) | 音声対話方法及び装置 | |
CN112804558B (zh) | 视频拆分方法、装置及设备 | |
CN114127849A (zh) | 语音情感识别方法和装置 | |
CN116050496A (zh) | 图片描述信息生成模型的确定方法及装置、介质、设备 | |
WO2023197749A9 (zh) | 背景音乐的插入时间点确定方法、装置、设备和存储介质 | |
CN116189678A (zh) | 语音处理方法、装置及计算机设备 | |
CN109670073A (zh) | 一种信息转换方法及装置、交互辅助系统 | |
CN113409803B (zh) | 语音信号处理方法、装置、存储介质及设备 | |
CN110610697B (zh) | 一种语音识别方法及装置 | |
CN113782042A (zh) | 语音合成方法、声码器的训练方法、装置、设备及介质 | |
CN113516972A (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN115883878A (zh) | 视频剪辑方法、装置、电子设备及存储介质 | |
CN111079854A (zh) | 信息识别方法、设备及存储介质 | |
CN113314101B (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
CN115019137A (zh) | 一种多尺度双流注意力视频语言事件预测的方法及装置 | |
CN114373443A (zh) | 语音合成方法和装置、计算设备、存储介质及程序产品 | |
CN117115312B (zh) | 一种语音驱动面部动画方法、装置、设备及介质 | |
CN115081459B (zh) | 口语文本生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |