CN116580702A - 基于人工智能的语音识别方法、装置、计算机设备及介质 - Google Patents
基于人工智能的语音识别方法、装置、计算机设备及介质 Download PDFInfo
- Publication number
- CN116580702A CN116580702A CN202310578554.9A CN202310578554A CN116580702A CN 116580702 A CN116580702 A CN 116580702A CN 202310578554 A CN202310578554 A CN 202310578554A CN 116580702 A CN116580702 A CN 116580702A
- Authority
- CN
- China
- Prior art keywords
- voice
- loss
- feature
- matrix
- voice frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims abstract description 195
- 238000001228 spectrum Methods 0.000 claims abstract description 117
- 230000004927 fusion Effects 0.000 claims abstract description 84
- 238000012549 training Methods 0.000 claims abstract description 50
- 238000005259 measurement Methods 0.000 claims abstract description 49
- 238000013507 mapping Methods 0.000 claims description 49
- 238000000605 extraction Methods 0.000 claims description 48
- 238000005070 sampling Methods 0.000 claims description 44
- 230000006870 function Effects 0.000 claims description 31
- 238000010606 normalization Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 230000000873 masking effect Effects 0.000 claims 2
- 238000005516 engineering process Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明适用于医疗技术领域,尤其涉及一种基于人工智能的语音识别方法、装置、计算机设备及介质。本发明通过对梅尔频谱矩阵进行随机行遮挡和列遮挡,得到缺失了不同语义信息的第一语音增强矩阵和第二语音增强矩阵;根据编码器提取第一语音帧特征和第二语音帧特征,计算度量子损失对编码器进行自监督训练;得到语音融合特征并输入至解码器中得到映射字符,结合预设字符计算预测损失来对语音识别模型进行有监督训练,根据零字符和非零字符的数量对预测损失和度量损失加权相加,得到目标损失来训练编码器和解码器,将自监督和有监督的训练方式相结合,提高了语音识别模型的识别准确率,极大地提高了医疗技术领域中信息录入的即时性、便利性和准确性。
Description
技术领域
本发明适用于医疗技术领域,尤其涉及一种基于人工智能的语音识别方法、装置、计算机设备及介质。
背景技术
随着医疗信息化建设的不断发展,医院信息系统不断完善,集成化平台的建设更加促进了数据共享和数据挖掘。面对庞多的子系统,医务人员需要完成大量的文字录入工作,文字录入的即时性、便利性、准确性在一定程度上影响着医院整体的工作效率、医疗成本、医疗质量,基于语音识别的文字录入方法极大地提高了信息录入的即时性和便利性。
其中,基于语音识别的文字录入方法依赖于语音识别模型,现有端到端的语音识别模型在训练时需要大量的有监督数据,然而在实际医疗领域的应用过程中,由于语音数据的标注较为困难,在训练过程中难以获取足够的标注样本来进行有监督训练,导致训练好的语音识别模型识别准确率不高,容易出现误识别等情况。
因此,在医疗技术领域的语音识别场景中,如何提高语音识别模型的识别准确率成为亟待解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种基于人工智能的语音识别方法、装置、计算机设备及介质,以解决现有语音识别模型的识别准确率较低的问题。
第一方面,本发明实施例提供一种基于人工智能的语音识别方法,所述语音识别方法包括:
获取待识别语音的N个语音帧信号,以及各个语音帧信号对应的预设字符,获取各个所述语音帧信号的梅尔频谱矩阵,其中,N为正整数;
对各个所述梅尔频谱矩阵的行进行随机遮挡,得到第一语音增强矩阵,对各个所述梅尔频谱矩阵的列进行随机遮挡,得到第二语音增强矩阵;
将各个所述第一语音增强矩阵输入至编码器中进行特征提取,得到第一语音帧特征,将各个所述第二语音增强矩阵输入至编码器中进行特征提取,得到第二语音帧特征,根据N个所述第一语音帧特征、N个所述第二语音帧特征和预设的度量损失函数,计算得到N个度量子损失;
对各个所述第一语音帧特征和对应的所述第二语音帧特征进行特征融合,得到N个语音融合特征,将各个所述语音融合特征输入至解码器中进行特征映射,得到N个所述语音帧信号对应的N个映射字符;
根据N个所述映射字符、N个所述预设字符和预设的预测损失函数,计算得到预测损失,将N个所述度量子损失相加,计算得到度量损失;
对所述预测损失和所述度量损失进行加权相加,确定加权相加结果为目标损失,以所述目标损失为依据,对所述编码器和所述解码器进行训练,得到训练好的编码器和训练好的解码器,作为训练好的语音识别模型进行语音识别。
第二方面,本发明实施例提供一种基于人工智能的语音识别装置,所述语音识别装置包括:
语音信息获取模块,用于获取待识别语音的N个语音帧信号,以及各个语音帧信号对应的预设字符,针对各个语音帧信号,获取所述语音帧信号的梅尔频谱矩阵,其中,N为正整数;
语音增强模块,用于对各个所述梅尔频谱矩阵的行进行随机遮挡,得到第一语音增强矩阵,对各个所述梅尔频谱矩阵的列进行随机遮挡,得到第二语音增强矩阵;
特征提取模块,用于将各个所述第一语音增强矩阵输入至编码器中进行特征提取,得到第一语音帧特征,将各个所述第二语音增强矩阵输入至编码器中进行特征提取,得到第二语音帧特征,根据N个所述第一语音帧特征、N个所述第二语音帧特征和预设的度量损失函数,计算得到N个度量子损失;
特征融合映射模块,用于对各个所述第一语音帧特征和对应的所述第二语音帧特征进行特征融合,得到N个语音融合特征,将各个所述语音融合特征输入至解码器中进行特征映射,得到N个所述语音帧信号对应的N个映射字符;
损失计算模块,用于根据N个所述映射字符、N个所述预设字符和预设的预测损失函数,计算得到预测损失,将N个所述度量子损失相加,计算得到度量损失;
模型训练模块,用于对所述预测损失和所述度量损失进行加权相加,确定加权相加结果为目标损失,以所述目标损失为依据,对所述编码器和所述解码器进行训练,得到训练好的编码器和训练好的解码器,作为训练好的语音识别模型进行语音识别。
第三方面,本发明实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的语音识别方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的语音识别方法。
本发明实施例与现有技术相比存在的有益效果是:通过获取待识别语音的N个语音帧信号,以及各个语音帧信号对应的预设字符,获取各个语音帧信号的梅尔频谱矩阵,对各个梅尔频谱矩阵进行随机行遮挡和列遮挡,得到缺失了不同语义信息的第一语音增强矩阵和第二语音增强矩阵,有效表征了待识别语音中各个语音帧的可懂度,以及待识别语音的特征提取准确性;将各个第一语音增强矩阵和第二语音增强矩阵分别输入至编码器中进行特征提取,得到N个第一语音帧特征和N个第二语音帧特征,并结合预设的度量损失函数计算得到N个度量子损失,通过度量子损失对编码器进行自监督训练,有效提高了编码器的特征提取准确性;对各个第一语音帧特征和对应的第二语音帧特征进行特征融合,得到N个语音融合特征,将各个语音融合特征输入至解码器中进行特征映射,得到N个语音帧信号对应的N个映射字符,并结合N个预设字符和预设的预测损失函数计算得到预测损失,将N个度量子损失相加计算得到度量损失,对预测损失和度量损失进行加权相加,确定加权相加结果为目标损失,以目标损失为依据,对编码器和解码器进行训练,得到训练好的编码器和训练好的解码器,作为训练好的语音识别模型进行语音识别,通过计算得到预测损失来对语音识别模型进行有监督训练,并根据零字符和非零字符的数量对预测损失和度量损失进行加权相加,将自监督和有监督的训练方式相结合,在确保模型训练稳定性的同时提高了模型的拟合效果,从而提高了语音识别模型的识别准确率,极大地提高了医疗技术领域中信息录入的即时性、便利性和准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种基于人工智能的语音识别方法的一应用环境示意图;
图2是本发明实施例一提供的一种基于人工智能的语音识别方法的流程示意图;
图3是本发明实施例二提供的一种基于人工智能的语音识别装置的结构示意图;
图4是本发明实施例三提供的一种计算机设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
应当理解,当在本发明说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本发明说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本发明说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
应理解,以下实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
为了说明本发明的技术方案,下面通过具体实施例来进行说明。
本发明实施例一提供的一种基于人工智能的语音识别方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、云端计算机设备、个人数字助理(personal digital assistant,PDA)等计算机设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
参见图2,是本发明实施例一提供的一种基于人工智能的语音识别方法的流程示意图,上述语音识别方法可以应用于图1中的客户端,该语音识别方法可以包括以下步骤:
步骤S201,获取待识别语音的N个语音帧信号,以及各个语音帧信号对应的预设字符,获取各个语音帧信号的梅尔频谱矩阵。
其中,在进行语音识别任务时,待识别语音可以是包含若干帧的语音音频,若直接对待识别语音进行特征提取和特征分析,根据待识别语音的全局语音信息得到语音识别结果,而忽略待识别语音中的音频局部信息,会降低对待识别语音的语义表征能力,导致语音识别结果的准确性较低。在医疗技术领域的信息录入场景中,待识别语音可以通过医务人员朗读需要录入至集成化平台的文字得到,并将待识别语音存储在对应的数据库中,便于集中进行语音识别得到语音识别结果,该语音识别结果即为对应的待录入的文本内容,则可将文字录入任务转换为语言识别任务,从而提高信息录入的即时性和便利性,提高医院整体的工作效率和医疗质量,同时降低医疗成本。
因此,为了提高对待识别语音的语义表征能力,首先将待识别语音切分为N个语音帧信号,通过对各个语音帧信号进行特征提取和特征分析,得到待识别语音的音频局部信息,然后结合N个语音帧信号的语音信息得到待识别语音的全局语音信息,从而将待识别语音的音频局部信息和全局语音信息相结合,提高对待识别语音的语义表征能力,提高语音识别结果的准确性,其中,N为正整数。
在本实施例中,该待识别语音可以作为语音识别模型中各个模型参数的优化基础,为了提高待识别语音的识别准确性,在获取待识别语音的N个语音帧信号的同时,还获取各个语音帧信号对应的预设字符,可以作为语音识别模型的识别准确率的计算基础,来提高语音识别模型的识别准确率。
其中,在语音处理领域,我们需要将语音信号转换成对应的语谱图,将语谱图上的数据作为语音信号的特征。通常的语谱图频率是线性分布的,但是人耳对频率的感受是对数的,即对低频段的变化敏感,对高频段的变化迟钝,因此线性分布的语谱图不适用于语音的特征提取任务,而非线性分布的梅尔频谱可以有效匹配人耳对频率的感受,广泛应用于语音的特征提取任务。
因此,在本实施例中,获取各个语音帧信号的梅尔频谱矩阵,将梅尔频谱矩阵作为语音帧信号的语谱图,以提高语谱图的可靠性。
上述获取待识别语音的N个语音帧信号,以及各个语音帧信号对应的预设字符,获取各个语音帧信号的梅尔频谱矩阵的步骤,将待识别语音切分为N个语音帧信号以便于提取待识别语音的音频局部信息,并获取有效匹配人耳对频率的感受的梅尔频谱矩阵,可以有效提高对待识别语音的语义表征能力。
步骤S202,对各个梅尔频谱矩阵的行进行随机遮挡,得到第一语音增强矩阵,对各个梅尔频谱矩阵的列进行随机遮挡,得到第二语音增强矩阵。
其中,语音增强的主要目标是从带噪语音信号中提取尽可能纯净的原始语音。然而,由于干扰通常都是随机的,从带噪语音中提取完全纯净的语音几乎不可能。在这种情况下,语音增强的目的主要有两个:一是改进语音质量,消除背景噪音,二是增加语音的可懂度,该可懂度是在给定条件下对语音理解能力的一种度量,且这两个目的往往不能兼得。
由于难以将待识别语音提取为纯净的原始语音,无法得到高质量的增强语音,因此,本实施例通过语音增强来提高待识别语音的可懂度,从而提高对待识别语音的语义表征能力。
具体地,在本实施例中,对各个梅尔频谱矩阵的行进行随机遮挡,得到第一语音增强矩阵,对各个梅尔频谱矩阵的列进行随机遮挡,得到第二语音增强矩阵,则与梅尔频谱矩阵相比,对梅尔频谱矩阵进行了部分遮挡后得到的第一语音增强矩阵和第二语音增强矩阵缺失了部分语义信息,且第一语音增强矩阵和第二语音增强矩阵缺失的语义信息不同。
因此,可以将缺失了不同语义信息的第一语音增强矩阵和第二语音增强矩阵作为对语音识别模型进行自监督训练的基础,同时,通过对梅尔频谱矩阵进行随机行遮挡和列遮挡,可以得到大量的自监督训练样本。
具体地,对第一语音增强矩阵和第二语音增强矩阵分别进行特征提取后,计算分别提取到的特征的相似度,由于第一语音增强矩阵和第二语音增强矩阵来源于同一个梅尔频谱矩阵,则缺失了不同语义信息的第一语音增强矩阵和第二语音增强矩阵仍可以提取出相似度较高的特征,因此,可以通过分别提取到的特征的相似度来表征待识别语音的可懂度,以及语音识别模型进行特征提取的准确性,从而提高对待识别语音中各个语音帧的语义表征能力。
可选的是,对各个梅尔频谱矩阵的行进行随机遮挡,得到第一语音增强矩阵包括:
统计各个梅尔频谱矩阵的行数量,将第一预设值和行数量的比值作为各个梅尔频谱矩阵的第一采样频率;
按照第一采样频率对各个梅尔频谱矩阵的所有行进行采样,在梅尔频谱矩阵中对采样到的行进行遮挡;
重复按照第一采样频率对各个梅尔频谱矩阵的所有行进行采样,在梅尔频谱矩阵中对采样到的行进行遮挡的步骤,直至梅尔频谱矩阵中被遮挡的行数量和预设的第一遮挡数量一致,确定遮挡完成的梅尔频谱矩阵为第一语音增强矩阵。
其中,需要根据实际情况对梅尔频谱矩阵待遮挡的行的数量进行设定,以保证遮挡后缺失了部分语义信息的第一语音增强矩阵,在进行特征提取后仍可以有效表征梅尔频谱矩阵中的语义信息,同时保证可以尽可能地对梅尔频谱矩阵进行行遮挡,以提高语音识别模型中特征提取的准确性,因此,根据实际情况设定第一预设值来来确定对梅尔频谱矩阵进行行采样的第一采样频率,并设定预设的第一遮挡数量。
因此,统计各个梅尔频谱矩阵的行数量,将第一预设值和行数量的比值作为各个梅尔频谱矩阵的第一采样频率,然后按照第一采样频率对梅尔频谱矩阵的所有行进行采样,在梅尔频谱矩阵中对采样到的行进行遮挡,然后重复上述行采样和行遮挡的过程,直至梅尔频谱矩阵中被遮挡的行数量和预设的第一遮挡数量一致,确定遮挡完成的梅尔频谱矩阵为第一语音增强矩阵。
可选的是,对各个梅尔频谱矩阵的列进行随机遮挡,得到第二语音增强矩阵包括:
统计各个梅尔频谱矩阵的列数量,将第二预设值和列数量的比值作为各个梅尔频谱矩阵的第二采样频率;
按照第二采样频率对各个梅尔频谱矩阵的所有列进行采样,在梅尔频谱矩阵中对采样到的列进行遮挡;
重复按照第一采样频率对各个梅尔频谱矩阵的所有列进行采样,在梅尔频谱矩阵中对采样到的列进行遮挡的步骤,直至梅尔频谱矩阵中被遮挡的列数量和预设的第二遮挡数量一致,确定遮挡完成的梅尔频谱矩阵为第二语音增强矩阵。
其中,需要根据实际情况对梅尔频谱矩阵待遮挡的列的数量进行设定,以保证遮挡后缺失了部分语义信息的第二语音增强矩阵,在进行特征提取后仍可以有效表征梅尔频谱矩阵中的语义信息,同时保证可以尽可能地对梅尔频谱矩阵进行列遮挡,以提高语音识别模型中特征提取的准确性,因此,根据实际情况设定第二预设值来来确定对梅尔频谱矩阵进行列采样的第二采样频率,并设定预设的第二遮挡数量。
因此,统计各个梅尔频谱矩阵的列数量,将第二预设值和列数量的比值作为各个梅尔频谱矩阵的第二采样频率,然后按照第二采样频率对梅尔频谱矩阵的所有列进行采样,在梅尔频谱矩阵中对采样到的列进行遮挡,然后重复上述列采样和列遮挡的过程,直至梅尔频谱矩阵中被遮挡的列数量和预设的第二遮挡数量一致,确定遮挡完成的梅尔频谱矩阵为第二语音增强矩阵。
上述对各个梅尔频谱矩阵的行进行随机遮挡,得到第一语音增强矩阵,对各个梅尔频谱矩阵的列进行随机遮挡,得到第二语音增强矩阵的步骤,通过对梅尔频谱矩阵进行随机行遮挡和列遮挡,得到缺失了不同语义信息的第一语音增强矩阵和第二语音增强矩阵,可以用来表征待识别语音中各个语音帧的可懂度,以及语音识别模型进行特征提取的准确性,作为对语音识别模型进行自监督训练的基础,有效提高了对待识别语音中各个语音帧的语义表征能力。
步骤S203,将各个第一语音增强矩阵输入至编码器中进行特征提取,得到第一语音帧特征,将各个第二语音增强矩阵输入至编码器中进行特征提取,得到第二语音帧特征,根据N个第一语音帧特征、N个第二语音帧特征和预设的度量损失函数,计算得到N个度量子损失。
其中,第一语音增强矩阵和第二语音增强矩阵在同一个梅尔频谱矩阵的基础上缺失了不同的语义信息,首先将各个第一语音增强矩阵输入至编码器中进行特征提取,得到第一语音帧特征,将各个第二语音增强矩阵输入至编码器中进行特征提取,得到第二语音帧特征。
由于第一语音增强矩阵和第二语音增强矩阵来源于同一个梅尔频谱矩阵,则当编码器的特征提取准确性较高时,第一语音帧特征和第二语音帧特征之间的相似度较高,则第一语音增强矩阵和第二语音增强矩阵可以用来表征编码器进行特征提取的准确性,可以根据第一语音帧特征和第二语音帧特征之间的相似度来对编码器进行自监督训练,并通过对梅尔频谱矩阵进行随机行遮挡和列遮挡,得到大量的自监督训练样本,从而有效提高编码器的特征提取准确性。
具体地,对于N个梅尔频谱矩阵对应的N个第一语音帧特征和N个第二语音帧特征,将各个第一语音帧特征和对应的第二语音帧特征代入预设的度量损失函数中,计算得到对应的N个度量子损失。
举例说明,将第i(i=1,2,…,N)个第一语音帧特征记为X1i,将第i个第二语音帧特征记为X2i,预设的度量损失函数为:
式中,l1i为第i个度量子损失,X1i为第i个第一语音帧特征,X2i为第i个第二语音帧特征。
上述将各个第一语音增强矩阵输入至编码器中进行特征提取,得到第一语音帧特征,将各个第二语音增强矩阵输入至编码器中进行特征提取,得到第二语音帧特征,根据N个第一语音帧特征、N个第二语音帧特征和预设的度量损失函数,计算得到N个度量子损失的步骤,通过编码器对第一语音帧特征和第二语音帧特征进行特征提取得到第一语音帧特征和第二语音帧特征,并计算第一语音帧特征和第二语音帧特征之间的相似度来对编码器进行自监督训练,有效提高了编码器的特征提取准确性。
步骤S204,对各个第一语音帧特征和对应的第二语音帧特征进行特征融合,得到N个语音融合特征,将各个语音融合特征输入至解码器中进行特征映射,得到N个语音帧信号对应的N个映射字符。
其中,第一语音帧特征和对应的第二语音帧特征来源于同一个梅尔频谱矩阵,在进行语音识别任务时,将各个第一语音帧特征和对应的第二语音帧特征进行特征融合,得到语音融合特征,该语音融合特征可以有效表征待识别语音的各个语音帧中的语义信息。
则将各个语音融合特征输入至解码器中进行特征映射,可以得到各个语音帧信号对应的映射字符,该映射字符即为对应语音帧的语音识别结果,则得到N个语音帧信号对应的N个映射字符,即为待识别语音的语音识别结果。
可选的是,第一语音帧特征对应于被遮挡的行数量,第二语音帧特征对应于被遮挡的列数量;
对各个第一语音帧特征和对应的第二语音帧特征进行特征融合,得到语音融合特征包括:
计算被遮挡的行数量和被遮挡的列数量的数量和;
对被遮挡的行数量、被遮挡的列数量及数量和进行最大值归一化处理,得到第一语音帧特征的第一融合权重和第二语音帧特征的第二融合权重;
根据第一语音帧特征、第一融合权重、对应的第二语音帧特征和第二融合权重进行加权融合,得到语音融合特征。
其中,第一语音帧特征和第二语音帧特征分别是对第一语音增强矩阵和第二语音增强矩阵进行特征提取得到的,而第一语音增强矩阵是在梅尔频谱矩阵的基础上进行若干行的遮挡后得到的,第二语音增强矩阵是在梅尔频谱矩阵的基础上进行若干列的遮挡后得到的,则对梅尔频谱矩阵的遮挡行数或者遮挡列数越多,对应语音增强矩阵缺失的语义信息越多,则在进行特征融合时对应的融合权重较小。
因此,第一语音帧特征对应于被遮挡的行数量,第二语音帧特征对应于被遮挡的列数量,首先计算被遮挡的行数量和被遮挡的列数量的数量和,然后对被遮挡的行数量、被遮挡的列数量及数量和进行最大值归一化处理,得到行数量归一化值和列数量归一化值,然后将行数量归一化值与1的差值作为第一语音帧特征的第一融合权重,将列数量归一化值与1的差值作为第二语音帧特征的第二融合权重,并根据第一语音帧特征、第一融合权重、对应的第二语音帧特征和第二融合权重进行加权融合,得到语音融合特征。
举例说明,将被遮挡的行数量记为S1,将被遮挡的列数量记为S2,被遮挡的行数量和被遮挡的列数量的数量和为S,即S=S1+S2。然后对被遮挡的行数量S1、被遮挡的列数量S2及数量和S进行最大值归一化处理,得到行数量归一化值和列数量归一化值为:
式中,S′1是行数量归一化值,S′2是列数量归一化值,S1是被遮挡的行数量,S2是被遮挡的列数量,S是被遮挡的行数量和被遮挡的列数量的数量和。
然后,计算行数量归一化值与1的差值,作为第一语音帧特征的第一融合权重,并计算列数量归一化值与1的差值,作为第二语音帧特征的第二融合权重,则第一融合权重和第二融合权重为:
α1=1-S′1;α2=1-S′2
式中,α1是第一融合权重,α2是第二融合权重,S′1是行数量归一化值,S′2是列数量归一化值。
最后,根据第i个第一语音帧特征X1i、第一融合权重α1、对应的第i个第二语音帧特征X2i和第二融合权重α2进行加权融合,得到第i个语音融合特征为:
Xi=α1X1i+α2X2i
式中,Xi为第i个语音融合特征,X1i为第i个第一语音帧特征,X2i为第i个第二语音帧特征,α1是第一融合权重,α2是第二融合权重。
上述对各个第一语音帧特征和对应的第二语音帧特征进行特征融合,得到N个语音融合特征,将各个语音融合特征输入至解码器中进行特征映射,得到N个语音帧信号对应的N个映射字符的步骤,对多个语音增强矩阵提取到的多个语音帧特征进行特征融合,得到的语音融合特征有效地表征了待识别语音的各个语音帧中的语义信息,提高了语音识别结果的准确性。
步骤S205,根据N个映射字符、N个预设字符和预设的预测损失函数,计算得到预测损失,将N个度量子损失相加,计算得到度量损失。
其中,在模型训练过程中,由于语音数据的标注较为困难,难以获取足够的标注样本来进行有监督训练,因此,本实施例对各个语音帧信号的梅尔频谱矩阵进行语音增强,基于各个第一语音增强矩阵和第二语音增强矩阵计算度量子损失,并计算得到度量损失来对语音识别模型进行自监督训练,但是仅使用自监督训练模型时,模型的稳定性难以保证。
因此,本实施例根据N个映射字符、N个预设字符和预设的预测损失函数,计算得到预测损失来对语音识别模型进行有监督训练,将自监督和有监督的训练方式相结合,在确保模型训练稳定性的同时提高模型的拟合效果,从而提高语音识别模型的识别准确率。
可选的是,根据N个映射字符、N个预设字符和预设的预测损失函数,计算得到预测损失包括:
对N个映射字符和N个预设字符进行配对操作,得到N个匹配字符对;
根据各个匹配字符对中的映射字符、预设字符以及预设的预测损失函数,计算各个匹配字符对的预测子损失;
将N个匹配字符对的预测子损失相加,确定相加结果为预测损失。
其中,映射字符和对应的预设字符越接近,表示编码器的特征提取准确率以及解码器的特征映射准确率越高,因此,首先对N个映射字符和N个预设字符进行配对操作,得到N个匹配字符对,每个匹配字符对中包括一个映射字符和一个对应的预设字符。
然后,根据各个匹配字符对中的映射字符、预设字符以及预设的预测损失函数,计算各个匹配字符对的预测子损失,具体地,计算各个匹配字符对中的映射字符和预设字符之间的相似度,作为对应的预测子损失,然后将N个匹配字符对的预测子损失相加,确定相加结果为预测损失,用来表征编码器的特征提取准确率以及解码器的特征映射准确率。
举例说明,为了便于计算相似度,首先根据词向量技术将第i个映射字符转换为第i个映射字符向量Yi,根据词向量技术将第i个预设字符转换为第i个预设字符向量Zi,然后,将第i个映射字符向量Yi和第i个预设字符向量Zi代入预设的预测损失函数中计算相似度,得到第i个预测子损失为:
式中,l2i为第i个预测子损失,Yi为第i个映射字符向量,Zi为第i个预设字符向量。
则将N个预测子损失相加,得到预测损失为:
式中,L2为预测损失,N为预测子损失的数量,l2i为第i个预测子损失。
同时,将N个度量子损失相加,计算得到度量损失为:
式中,L1为度量损失,N为度量子损失的数量,l1i为第i个度量子损失。
上述根据N个映射字符、N个预设字符和预设的预测损失函数,计算得到预测损失,将N个度量子损失相加,计算得到度量损失的步骤,计算得到度量损失来对语音识别模型进行自监督训练,同时计算得到预测损失来对语音识别模型进行有监督训练,将自监督和有监督的训练方式相结合,在确保模型训练稳定性的同时提高了模型的拟合效果,从而提高了语音识别模型的识别准确率。
步骤S206,对预测损失和度量损失进行加权相加,确定加权相加结果为目标损失,以目标损失为依据,对编码器和解码器进行训练,得到训练好的编码器和训练好的解码器,作为训练好的语音识别模型进行语音识别。
其中,预测损失用于衡量语音识别模型的有监督损失,度量损失用于衡量语音识别模型的无监督损失,因此,为了提高语音识别模型的识别准确率,首先对预测损失和度量损失进行加权相加,得到目标损失,然后以目标损失为依据,对编码器和解码器进行训练,得到训练好的编码器和训练好的解码器,作为训练好的语音识别模型进行语音识别。
可选的是,预设字符包括零字符和非零字符;对预测损失和度量损失进行加权相加,确定加权相加结果为目标损失包括:
统计N个预设字符中零字符的第一字符数量,以及非零字符的第二字符数量;
对第一字符数量、第二字符数量及预设字符的数量N进行最大归一化处理,得到非零字符的归一化值,作为度量损失的第一加权权重,以及零字符的归一化值,作为预测损失的第二加权权重;
根据预测损失、第二加权权重、度量损失和第一加权权重,对预测损失和度量损失进行加权相加,确定加权相加结果为目标损失。
其中,由于N个语音帧信号是通过对待识别语音切分得到的,且待识别语音中语音文字之间存在停顿时间,因此,各个语音帧信号可能对应零字符,也可能对应非零字符,则预设字符包括零字符和非零字符。
当语音帧信号对应的预设字符为零字符时,对语音帧信号进行语音增强和特征提取后,得到的第一语音帧特征和第二语音帧特征之间的差异很小,则对应的度量子损失很小,因此,度量子损失仅能在一定程度上表征编码器的特征提取准确度,且N个预设字符中零字符的数量越多,度量子损失对编码器的特征提取准确度的表征程度越小。由于预测损失用于衡量语音识别模型的有监督损失,度量损失用于衡量语音识别模型的无监督损失,因此,在对预测损失和度量损失进行加权相加时,N个预设字符中零字符的数量越多,度量损失在加权时的权重越小,预测损失在加权时的权重越大。
因此,统计N个预设字符中零字符的第一字符数量,以及非零字符的第二字符数量,然后对第一字符数量、第二字符数量及预设字符的数量N进行最大归一化处理,则度量损失的第一加权权重与非零字符的第二字符数量成正比,预测损失的第二加权权重与零字符的第一字符数量成正比,因此,将非零字符的归一化值作为度量损失的第一加权权重,将零字符的归一化值作为预测损失的第二加权权重,然后根据预测损失、第二加权权重、度量损失和第一加权权重,对预测损失和度量损失进行加权相加,确定加权相加结果为目标损失,该目标损失可以用来表征编码器的特征提取准确度以及解码器的特征映射准确度。
可选的是,以目标损失为依据,对编码器和解码器进行训练,得到训练好的编码器和训练好的解码器包括:
以目标损失为依据,根据梯度下降法对编码器和解码器进行训练,直至目标损失收敛,得到训练好的编码器和训练好的解码器。
其中,由于目标损失越大,表示编码器的特征提取准确度以及解码器的特征映射准确度越低,目标损失越小,表示编码器的特征提取准确度以及解码器的特征映射准确度越高,因此,为了提高编码器的特征提取准确度以及解码器的特征映射准确度,以目标损失为依据,根据梯度下降法对编码器和解码器进行训练,直至目标损失收敛,得到训练好的编码器和训练好的解码器。
上述对预测损失和度量损失进行加权相加,确定加权相加结果为目标损失,以目标损失为依据,对编码器和解码器进行训练,得到训练好的编码器和训练好的解码器,作为训练好的语音识别模型进行语音识别的步骤,基于N个预设字符中零字符的数量越多,度量子损失对编码器的特征提取准确度的表征程度越小,将非零字符的归一化值作为度量损失的第一加权权重,将零字符的归一化值作为预测损失的第二加权权重,对预测损失和度量损失进行加权相加,得到目标损失来对编码器和解码器进行训练,提高了目标损失的准确性,从而提高了编码器和解码器的训练质量。
本发明实施例通过获取待识别语音的N个语音帧信号,以及各个语音帧信号对应的预设字符,获取各个语音帧信号的梅尔频谱矩阵,对各个梅尔频谱矩阵进行随机行遮挡和列遮挡,得到缺失了不同语义信息的第一语音增强矩阵和第二语音增强矩阵,有效表征了待识别语音中各个语音帧的可懂度,以及待识别语音的特征提取准确性;将各个第一语音增强矩阵和第二语音增强矩阵分别输入至编码器中进行特征提取,得到N个第一语音帧特征和N个第二语音帧特征,并结合预设的度量损失函数计算得到N个度量子损失,通过度量子损失对编码器进行自监督训练,有效提高了编码器的特征提取准确性;对各个第一语音帧特征和对应的第二语音帧特征进行特征融合,得到N个语音融合特征,将各个语音融合特征输入至解码器中进行特征映射,得到N个语音帧信号对应的N个映射字符,并结合N个预设字符和预设的预测损失函数计算得到预测损失,将N个度量子损失相加计算得到度量损失,对预测损失和度量损失进行加权相加,确定加权相加结果为目标损失,以目标损失为依据,对编码器和解码器进行训练,得到训练好的编码器和训练好的解码器,作为训练好的语音识别模型进行语音识别,通过计算得到预测损失来对语音识别模型进行有监督训练,并根据零字符和非零字符的数量对预测损失和度量损失进行加权相加,将自监督和有监督的训练方式相结合,在确保模型训练稳定性的同时提高了模型的拟合效果,从而提高了语音识别模型的识别准确率,极大地提高了医疗技术领域中信息录入的即时性、便利性和准确性。
对应于上文实施例的语音识别方法,图3给出了本发明实施例二提供的基于人工智能的语音识别装置的结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。
参见图3,该语音识别装置包括:
语音信息获取模块31,用于获取待识别语音的N个语音帧信号,以及各个语音帧信号对应的预设字符,针对各个语音帧信号,获取语音帧信号的梅尔频谱矩阵,其中,N为正整数;
语音增强模块32,用于对各个梅尔频谱矩阵的行进行随机遮挡,得到第一语音增强矩阵,对各个梅尔频谱矩阵的列进行随机遮挡,得到第二语音增强矩阵;
特征提取模块33,用于将各个第一语音增强矩阵输入至编码器中进行特征提取,得到第一语音帧特征,将各个第二语音增强矩阵输入至编码器中进行特征提取,得到第二语音帧特征,根据N个第一语音帧特征、N个第二语音帧特征和预设的度量损失函数,计算得到N个度量子损失;
特征融合映射模块34,用于对各个第一语音帧特征和对应的第二语音帧特征进行特征融合,得到N个语音融合特征,将各个语音融合特征输入至解码器中进行特征映射,得到N个语音帧信号对应的N个映射字符;
损失计算模块35,用于根据N个映射字符、N个预设字符和预设的预测损失函数,计算得到预测损失,将N个度量子损失相加,计算得到度量损失;
模型训练模块36,用于对预测损失和度量损失进行加权相加,确定加权相加结果为目标损失,以目标损失为依据,对编码器和解码器进行训练,得到训练好的编码器和训练好的解码器,作为训练好的语音识别模型进行语音识别。
可选的是,上述语音增强模块32包括:
第一采样频率计算子模块,用于统计各个梅尔频谱矩阵的行数量,将第一预设值和行数量的比值作为各个梅尔频谱矩阵的第一采样频率;
第一遮挡子模块,用于按照第一采样频率对各个梅尔频谱矩阵的所有行进行采样,在梅尔频谱矩阵中对采样到的行进行遮挡;
第一语音增强子模块,用于重复按照第一采样频率对各个梅尔频谱矩阵的所有行进行采样,在梅尔频谱矩阵中对采样到的行进行遮挡的步骤,直至梅尔频谱矩阵中被遮挡的行数量和预设的第一遮挡数量一致,确定遮挡完成的梅尔频谱矩阵为第一语音增强矩阵。
可选的是,上述语音增强模块32包括:
第二采样频率计算子模块,用于统计各个梅尔频谱矩阵的列数量,将第二预设值和列数量的比值作为各个梅尔频谱矩阵的第二采样频率;
第二遮挡子模块,用于按照第二采样频率对各个梅尔频谱矩阵的所有列进行采样,在梅尔频谱矩阵中对采样到的列进行遮挡;
第二语音增强子模块,用于重复按照第一采样频率对各个梅尔频谱矩阵的所有列进行采样,在梅尔频谱矩阵中对采样到的列进行遮挡的步骤,直至梅尔频谱矩阵中被遮挡的列数量和预设的第二遮挡数量一致,确定遮挡完成的梅尔频谱矩阵为第二语音增强矩阵。
可选的是,第一语音帧特征对应于被遮挡的行数量,第二语音帧特征对应于被遮挡的列数量,上述特征融合映射模块34包括:
遮挡数量和计算子模块,用于计算被遮挡的行数量和被遮挡的列数量的数量和;
融合权重计算子模块,用于对被遮挡的行数量、被遮挡的列数量及数量和进行最大值归一化处理,得到第一语音帧特征的第一融合权重和第二语音帧特征的第二融合权重;
特征融合子模块,用于根据第一语音帧特征、第一融合权重、对应的第二语音帧特征和第二融合权重进行加权融合,得到语音融合特征。
可选的是,上述损失计算模块35包括:
字符匹配子模块,用于对N个映射字符和N个预设字符进行配对操作,得到N个匹配字符对;
预测子损失计算子模块,用于根据各个匹配字符对中的映射字符、预设字符以及预设的预测损失函数,计算各个匹配字符对的预测子损失;
预测损失计算子模块,用于将N个匹配字符对的预测子损失相加,确定相加结果为预测损失。
可选的是,预设字符包括零字符和非零字符,上述模型训练模块36包括:
字符数量统计子模块,用于统计N个预设字符中零字符的第一字符数量,以及非零字符的第二字符数量;
加权权重计算子模块,用于对第一字符数量、第二字符数量及预设字符的数量N进行最大归一化处理,得到非零字符的归一化值,作为度量损失的第一加权权重,以及零字符的归一化值,作为预测损失的第二加权权重;
目标损失计算子模块,用于根据预测损失、第二加权权重、度量损失和第一加权权重,对预测损失和度量损失进行加权相加,确定加权相加结果为目标损失。
可选的是,上述模型训练模块36包括:
模型训练子模块,用于以目标损失为依据,根据梯度下降法对编码器和解码器进行训练,直至目标损失收敛,得到训练好的编码器和训练好的解码器。
需要说明的是,上述模块之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
图4为本发明实施例三提供的一种计算机设备的结构示意图。如图4所示,该实施例的计算机设备包括:至少一个处理器(图4中仅示出一个)、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序,处理器执行计算机程序时实现上述任意各个语音识别方法实施例中的步骤。
该计算机设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图4仅仅是计算机设备的举例,并不构成对计算机设备的限定,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括网络接口、显示屏和输入装置等。
所称处理器可以是CPU,该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器包括可读存储介质、内存储器等,其中,内存储器可以是计算机设备的内存,内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘,在另一些实施例中也可以是计算机设备的外部存储设备,例如,计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
本发明实现上述实施例方法中的全部或部分流程,也可以通过一种计算机程序产品来完成,当计算机程序产品在计算机设备上运行时,使得计算机设备执行时实现可实现上述方法实施例中的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对各个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于人工智能的语音识别方法,其特征在于,所述语音识别方法包括:
获取待识别语音的N个语音帧信号,以及各个语音帧信号对应的预设字符,获取各个所述语音帧信号的梅尔频谱矩阵,其中,N为正整数;
对各个所述梅尔频谱矩阵的行进行随机遮挡,得到第一语音增强矩阵,对各个所述梅尔频谱矩阵的列进行随机遮挡,得到第二语音增强矩阵;
将各个所述第一语音增强矩阵输入至编码器中进行特征提取,得到第一语音帧特征,将各个所述第二语音增强矩阵输入至编码器中进行特征提取,得到第二语音帧特征,根据N个所述第一语音帧特征、N个所述第二语音帧特征和预设的度量损失函数,计算得到N个度量子损失;
对各个所述第一语音帧特征和对应的所述第二语音帧特征进行特征融合,得到N个语音融合特征,将各个所述语音融合特征输入至解码器中进行特征映射,得到N个所述语音帧信号对应的N个映射字符;
根据N个所述映射字符、N个所述预设字符和预设的预测损失函数,计算得到预测损失,将N个所述度量子损失相加,计算得到度量损失;
对所述预测损失和所述度量损失进行加权相加,确定加权相加结果为目标损失,以所述目标损失为依据,对所述编码器和所述解码器进行训练,得到训练好的编码器和训练好的解码器,作为训练好的语音识别模型进行语音识别。
2.根据权利要求1所述的语音识别方法,其特征在于,所述对各个所述梅尔频谱矩阵的行进行随机遮挡,得到第一语音增强矩阵包括:
统计各个所述梅尔频谱矩阵的行数量,将第一预设值和所述行数量的比值作为各个所述梅尔频谱矩阵的第一采样频率;
按照所述第一采样频率对各个所述梅尔频谱矩阵的所有行进行采样,在所述梅尔频谱矩阵中对采样到的行进行遮挡;
重复所述按照所述第一采样频率对各个所述梅尔频谱矩阵的所有行进行采样,在所述梅尔频谱矩阵中对采样到的行进行遮挡的步骤,直至所述梅尔频谱矩阵中被遮挡的行数量和预设的第一遮挡数量一致,确定遮挡完成的梅尔频谱矩阵为所述第一语音增强矩阵。
3.根据权利要求2所述的语音识别方法,其特征在于,所述对各个所述梅尔频谱矩阵的列进行随机遮挡,得到第二语音增强矩阵包括:
统计各个所述梅尔频谱矩阵的列数量,将第二预设值和所述列数量的比值作为各个所述梅尔频谱矩阵的第二采样频率;
按照所述第二采样频率对各个所述梅尔频谱矩阵的所有列进行采样,在所述梅尔频谱矩阵中对采样到的列进行遮挡;
重复所述按照所述第一采样频率对各个所述梅尔频谱矩阵的所有列进行采样,在所述梅尔频谱矩阵中对采样到的列进行遮挡的步骤,直至所述梅尔频谱矩阵中被遮挡的列数量和预设的第二遮挡数量一致,确定遮挡完成的梅尔频谱矩阵为所述第二语音增强矩阵。
4.根据权利要求3所述的语音识别方法,其特征在于,所述第一语音帧特征对应于所述被遮挡的行数量,所述第二语音帧特征对应于所述被遮挡的列数量;
所述对各个所述第一语音帧特征和对应的所述第二语音帧特征进行特征融合,得到语音融合特征包括:
计算所述被遮挡的行数量和所述被遮挡的列数量的数量和;
对所述被遮挡的行数量、所述被遮挡的列数量及所述数量和进行最大值归一化处理,得到所述第一语音帧特征的第一融合权重和所述第二语音帧特征的第二融合权重;
根据所述第一语音帧特征、所述第一融合权重、对应的所述第二语音帧特征和所述第二融合权重进行加权融合,得到语音融合特征。
5.根据权利要求1所述的语音识别方法,其特征在于,所述根据N个所述映射字符、N个所述预设字符和预设的预测损失函数,计算得到预测损失包括:
对N个所述映射字符和N个所述预设字符进行配对操作,得到N个匹配字符对;
根据各个匹配字符对中的所述映射字符、所述预设字符以及预设的预测损失函数,计算各个匹配字符对的预测子损失;
将N个所述匹配字符对的所述预测子损失相加,确定相加结果为预测损失。
6.根据权利要求5所述的语音识别方法,其特征在于,所述预设字符包括零字符和非零字符;
所述对所述预测损失和所述度量损失进行加权相加,确定加权相加结果为目标损失包括:
统计N个所述预设字符中零字符的第一字符数量,以及非零字符的第二字符数量;
对所述第一字符数量、所述第二字符数量及所述预设字符的数量N进行最大归一化处理,得到所述非零字符的归一化值,作为所述度量损失的第一加权权重,以及所述零字符的归一化值,作为所述预测损失的第二加权权重;
根据所述预测损失、所述第二加权权重、所述度量损失和所述第一加权权重,对所述预测损失和所述度量损失进行加权相加,确定加权相加结果为目标损失。
7.根据权利要求1所述的语音识别方法,其特征在于,以所述目标损失为依据,对所述编码器和所述解码器进行训练,得到训练好的编码器和训练好的解码器包括:
以所述目标损失为依据,根据梯度下降法对所述编码器和所述解码器进行训练,直至所述目标损失收敛,得到训练好的编码器和训练好的解码器。
8.一种基于人工智能的语音识别装置,其特征在于,所述语音识别装置包括:
语音信息获取模块,用于获取待识别语音的N个语音帧信号,以及各个语音帧信号对应的预设字符,针对各个语音帧信号,获取所述语音帧信号的梅尔频谱矩阵,其中,N为正整数;
语音增强模块,用于对各个所述梅尔频谱矩阵的行进行随机遮挡,得到第一语音增强矩阵,对各个所述梅尔频谱矩阵的列进行随机遮挡,得到第二语音增强矩阵;
特征提取模块,用于将各个所述第一语音增强矩阵输入至编码器中进行特征提取,得到第一语音帧特征,将各个所述第二语音增强矩阵输入至编码器中进行特征提取,得到第二语音帧特征,根据N个所述第一语音帧特征、N个所述第二语音帧特征和预设的度量损失函数,计算得到N个度量子损失;
特征融合映射模块,用于对各个所述第一语音帧特征和对应的所述第二语音帧特征进行特征融合,得到N个语音融合特征,将各个所述语音融合特征输入至解码器中进行特征映射,得到N个所述语音帧信号对应的N个映射字符;
损失计算模块,用于根据N个所述映射字符、N个所述预设字符和预设的预测损失函数,计算得到预测损失,将N个所述度量子损失相加,计算得到度量损失;
模型训练模块,用于对所述预测损失和所述度量损失进行加权相加,确定加权相加结果为目标损失,以所述目标损失为依据,对所述编码器和所述解码器进行训练,得到训练好的编码器和训练好的解码器,作为训练好的语音识别模型进行语音识别。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的语音识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310578554.9A CN116580702A (zh) | 2023-05-19 | 2023-05-19 | 基于人工智能的语音识别方法、装置、计算机设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310578554.9A CN116580702A (zh) | 2023-05-19 | 2023-05-19 | 基于人工智能的语音识别方法、装置、计算机设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116580702A true CN116580702A (zh) | 2023-08-11 |
Family
ID=87541050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310578554.9A Pending CN116580702A (zh) | 2023-05-19 | 2023-05-19 | 基于人工智能的语音识别方法、装置、计算机设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116580702A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117079646A (zh) * | 2023-10-13 | 2023-11-17 | 之江实验室 | 一种语音识别模型的训练方法、装置、设备及存储介质 |
-
2023
- 2023-05-19 CN CN202310578554.9A patent/CN116580702A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117079646A (zh) * | 2023-10-13 | 2023-11-17 | 之江实验室 | 一种语音识别模型的训练方法、装置、设备及存储介质 |
CN117079646B (zh) * | 2023-10-13 | 2024-01-09 | 之江实验室 | 一种语音识别模型的训练方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11017774B2 (en) | Cognitive audio classifier | |
CN110363220B (zh) | 行为类别检测方法、装置、电子设备和计算机可读介质 | |
CN108962231B (zh) | 一种语音分类方法、装置、服务器及存储介质 | |
CN116580702A (zh) | 基于人工智能的语音识别方法、装置、计算机设备及介质 | |
CN111444807A (zh) | 目标检测方法、装置、电子设备和计算机可读介质 | |
CN115457982A (zh) | 情感预测模型的预训练优化方法、装置、设备及介质 | |
KR20220116395A (ko) | 사전 훈련 모델의 결정 방법, 장치, 전자 기기 및 저장 매체 | |
CN115034315A (zh) | 基于人工智能的业务处理方法、装置、计算机设备及介质 | |
CN108847251B (zh) | 一种语音去重方法、装置、服务器及存储介质 | |
CN113435499B (zh) | 标签分类方法、装置、电子设备和存储介质 | |
CN116881674B (zh) | 医疗器械使用量的预测方法、装置及电子设备 | |
CN116844573A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
CN116403569A (zh) | 基于人工智能的语音识别方法、装置、计算机设备及介质 | |
CN116680385A (zh) | 基于人工智能的对话问答方法、装置、计算机设备及介质 | |
CN116703659A (zh) | 一种应用于工程咨询的数据处理方法、装置及电子设备 | |
CN115048487B (zh) | 基于人工智能的舆情分析方法、装置、计算机设备及介质 | |
CN114218574A (zh) | 一种数据检测方法、装置、电子设备以及存储介质 | |
CN113836297A (zh) | 文本情感分析模型的训练方法及装置 | |
CN117076766A (zh) | 基于人工智能的知识缺陷识别方法、装置、设备及介质 | |
CN115563933B (zh) | 词编码方法、装置、存储介质与电子设备 | |
CN115273801A (zh) | 基于人工智能的语音合成方法、装置、计算机设备及介质 | |
CN116432858A (zh) | 基于人工智能的风险分析方法、装置、计算机设备及介质 | |
CN116631422A (zh) | 基于人工智能的语音转换方法、装置、计算机设备及介质 | |
CN116580690A (zh) | 基于人工智能的语音合成方法、装置、计算机设备及介质 | |
CN116663570A (zh) | 基于人工智能的文本翻译方法、装置、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |