CN116665652A - 语音识别方法、语音识别系统、计算机设备和存储介质 - Google Patents
语音识别方法、语音识别系统、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN116665652A CN116665652A CN202310671896.5A CN202310671896A CN116665652A CN 116665652 A CN116665652 A CN 116665652A CN 202310671896 A CN202310671896 A CN 202310671896A CN 116665652 A CN116665652 A CN 116665652A
- Authority
- CN
- China
- Prior art keywords
- decoding
- target
- candidate
- loss data
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000012545 processing Methods 0.000 claims abstract description 105
- 238000010586 diagram Methods 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 16
- 230000008569 process Effects 0.000 description 21
- 238000004891 communication Methods 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 11
- 230000003068 static effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种语音识别方法、语音识别系统、计算机设备和存储介质,属于金融科技技术领域。该方法包括:对待识别的目标语音进行特征提取,得到初步语音特征;将初步语音特征输入至预先训练的声学模型进行发音识别处理,得到包括预设发音类别的声学数据;根据预设发音类别对目标解码图进行类别搜索处理,得到候选解码词和第一解码损失数据;根据候选解码词对关键词图进行关键词搜索处理,得到第二解码损失数据;对第一解码损失数据和第二解码损失数据进行加权计算得到目标损失数据;根据目标解码图对候选解码词进行文本拼接得到候选解码文本;根据目标损失数据和候选解码文本得到目标解码文本。本申请实施例能够提高语音识别的准确率。
Description
技术领域
本申请涉及金融科技技术领域,尤其涉及一种语音识别方法、语音识别系统、计算机设备和存储介质。
背景技术
随着金融科技和社会经济的快速发展,人们对于银行服务水平的要求越来越高。在智能客服、多轮对话、机器人外呼场景中,能够正确识别目标对象语音中的关键词汇,才能准确识别目标对象的意图,从而针对具体的语义意图去构造话术,提高回复精准度。目前,相关技术中的语音识别方法为:根据预先设置的解码器的解码路径对识别出的语音特征进行解码,以生成与待识别的初始语音内容相同的语音文本。然而,现有的语音识别方法只能对常用词给出准确的概率预测,例如,“是”、“做”等常用词汇,而对于其他特殊词汇识别的准确率较低,从而导致对完整的初始语音的识别准确率较低。因此,如何提供一种能够提高语音识别的准确率的方法,成为了亟待解决的技术问题。
发明内容
本申请实施例的主要目的在于提出了一种语音识别方法、语音识别系统、计算机设备和存储介质,能够提高语音识别的准确率。
为实现上述目的,本申请实施例的第一方面提出了一种语音识别方法,所述方法包括:
对待识别的目标语音进行特征提取,得到初步语音特征;
将所述初步语音特征输入至预先训练的声学模型进行发音识别处理,得到声学数据,所述声学数据包括预设发音类别;
根据所述预设发音类别对预设的目标解码图进行类别搜索处理,得到候选解码词和所述候选解码词的第一解码损失数据;其中,所述候选解码词包括候选发音类别,所述候选发音类别与所述预设发音类别相同;
根据所述候选解码词对预设的关键词图进行关键词搜索处理,得到所述候选解码词的第二解码损失数据;
对所述第一解码损失数据和所述第二解码损失数据进行加权计算,得到目标损失数据;
根据所述目标解码图对所述候选解码词进行文本拼接处理,得到候选解码文本;
根据所述目标损失数据和所述候选解码文本得到目标解码文本。
在一些实施例中,在所述根据所述候选解码词对预设的关键词图进行关键词搜索处理,得到所述候选解码词的第二解码损失数据之前,所述方法包括:构建所述关键词图,具体包括:
从预定义的关键词库获取关键词数据;其中,所述关键词数据包括初始关键词、所述初始关键词的初始关键损失数据;
根据预设的状态转换机结构对所述初始关键词和所述初始关键损失数据进行图构建处理,得到所述关键词图。
在一些实施例中,所述声学数据还包括所述预设发音类别的发音概率数据;
在所述根据所述预设发音类别对预设的目标解码图进行类别搜索处理,得到候选解码词和所述候选解码词的第一解码损失数据之前,所述方法还包括:构建所述目标解码图,具体包括:
根据预先训练的语言模型对预设的发音词典进行图构建处理,得到初始解码图,所述初始解码图包括初始解码数据,所述初始解码数据包括初始解码词、所述初始解码词的初始发音类别和所述初始解码词的初始解码损失数据;
对所述预设发音类别和所述初始发音类别进行类别匹配,得到匹配结果;
若所述匹配结果表示所述预设发音类别与所述初始发音类别相同,则根据所述发音概率数据对所述初始解码损失数据进行损失数据增强处理,得到所述初始解码词的目标解码损失数据;
根据所述目标解码损失数据更新所述初始解码图,得到所述目标解码图。
在一些实施例中,所述目标解码图包括第一解码节点和第一解码路径,所述第一解码节点用于表征所述初始解码词、所述初始解码词的发音类别和所述初始解码词的所述初始解码损失数据,所述第一解码路径用于表征两个所述第一解码节点的第一解码方向;
所述根据所述预设发音类别对预设的目标解码图进行类别搜索处理,得到候选解码词和所述候选解码词的第一解码损失数据,包括:
根据所述预设发音类别对所述第一解码节点进行类别搜索处理,确定当前解码节点,所述当前解码节点包括当前发音类别,所述当前发音类别与所述预设发音类别相同;
根据所述当前解码节点和所述第一解码方向对所述目标解码图进行节点搜索处理,确定第一目标解码节点;
根据所述第一目标解码节点确定所述候选解码词、所述候选发音类别和所述候选解码词的所述第一解码损失数据。
在一些实施例中,所述关键词图包括第二解码节点和第二解码路径,所述第二解码节点用于表征所述初始关键词、所述初始关键词的发音类别和所述初始关键词的所述初始关键损失数据,所述第二解码路径用于表征两个所述第二解码节点的第二解码方向;
所述根据所述候选解码词对预设的关键词图进行关键词搜索处理,得到所述候选解码词的第二解码损失数据,包括:
根据所述候选解码词对所述第二解码节点进行节点搜索处理,确定当前关键节点,所述当前关键节点包括关键发音类别,所述关键发音类别与所述候选解码词的发音类别相同;
根据所述当前关键节点和所述第二解码方向对所述关键词图进行节点搜索处理,确定第一目标关键节点;
根据所述第一目标关键节点确定所述候选解码词的所述第二解码损失数据。
在一些实施例中,所述对所述第一解码损失数据和所述第二解码损失数据进行加权计算,得到目标损失数据,包括:
对所述第一目标解码节点的节点类型进行判断,得到第一判断结果;
根据所述第一判断结果对所述第一解码损失数据和所述第二解码损失数据进行加权计算,得到所述目标损失数据。
在一些实施例中,所述节点类型包括中间节点,所述根据所述第一判断结果对所述第一解码损失数据和所述第二解码损失数据进行加权计算,得到所述目标损失数据,包括:
若所述第一判断结果表示所述目标解码节点为所述中间节点,根据所述目标解码节点更新所述当前解码节点;
对所述第一解码损失数据和所述第二解码损失数据进行加权计算,得到搜索损失数据;
根据所述当前解码节点和所述当前解码节点的解码方向对所述目标解码图进行节点搜索处理,确定第二目标解码节点;
根据所述第二目标解码节点确定所述候选解码词和所述候选解码词的第三解码损失数据;
根据所述候选解码词的发音类别对所述关键词图进行类别搜索处理,确定候选关键节点,所述候选关键节点包括候选关键发音类别,所述候选关键发音类别与所述候选发音类别相同;
根据所述候选关键节点和所述候选关键节点的解码方向对所述关键词图进行节点搜索处理,确定第二目标关键节点;
根据所述第二目标关键节点确定所述候选解码词的第四解码损失数据;
对所述第二目标解码节点的节点类型进行判断,得到第二判断结果;
根据所述第二判断结果对所述搜索损失数据、所述第三解码损失数据和所述第四解码损失数据进行加权计算,并根据计算的结果更新所述目标损失数据。
本申请实施例的第二方面提出了一种语音识别系统,所述系统包括:
特征提取模块,用于对待识别的目标语音进行特征提取,得到初步语音特征;
发音识别模块,用于将所述初步语音特征输入至预先训练的声学模型进行发音识别处理,得到声学数据,所述声学数据包括预设发音类别;
第一解码搜索模块,用于根据所述预设发音类别对预设的目标解码图进行类别搜索处理,得到候选解码词和所述候选解码词的第一解码损失数据;其中,所述候选解码词包括候选发音类别,所述候选发音类别与所述预设发音类别相同;
第二解码搜索模块,用于根据所述候选解码词对预设的关键词图进行关键词搜索处理,得到所述候选解码词的第二解码损失数据;
解码计算模块,用于对所述第一解码损失数据和所述第二解码损失数据进行加权计算,得到目标损失数据;
文本拼接模块,用于根据所述目标解码图对所述候选解码词进行文本拼接处理,得到候选解码文本;
目标文本解码模块,用于根据所述目标损失数据和所述候选解码文本得到目标解码文本。
本申请实施例的第三方面提出了一种计算机设备,所述计算机设备包括存储器和处理器,其中,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时所述处理器用于执行如本申请第一方面实施例中任一项所述的方法。
本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,在所述计算机程序被计算机执行时,所述计算机用于执行如本申请第一方面实施例任一项所述的方法。
本申请实施例提出的语音识别方法、语音识别系统、计算机设备和存储介质,首先,对待识别的目标语音进行特征提取,得到初步语音特征,并将初步语音特征输入至预先训练的声学模型进行发音识别处理,得到声学数据,该声学数据包括预设发音类别。然后,根据预设发音类别对预设的目标解码图进行类别搜索处理,得到候选解码词和该候选解码词的第一解码损失数据,其中,候选解码词包括候选发音类别,该候选发音类别与预设发音类别相同,本申请实施例根据该目标解码图实现对目标语音的初步解码。为了生成更准确的解码文本,根据候选解码词对预设的关键词图进行关键词搜索处理,得到候选解码词的第二解码损失数据。并对第一解码损失数据和第二解码损失数据进行加权计算,得到目标损失数据。之后,根据目标解码图对候选解码词进行文本拼接处理,得到候选解码文本。最后,根据目标损失数据和候选解码文本得到目标解码文本。本申请实施例将目标语音对应的声学数据通过目标解码图和关键词图进行搜索处理以得到目标语音对应的目标损失数据,从而确定更准确的目标解码文本。由此可知,当根据本申请实施例提供的语音识别方法对目标语音进行语音识别时,能够提高语音识别的准确率。
附图说明
图1是本申请实施例提供的语音识别方法的第一流程图;
图2是本申请实施例提供的语音识别方法的第二流程图;
图3是本申请实施例提供的语音识别方法的第三流程图;
图4是图1中的步骤S130的流程图;
图5是图1中的步骤S140的流程图;
图6是图1中的步骤S150的流程图;
图7是图6中的步骤S620的流程图;
图8是本申请实施例提供的目标解码图的一个结构示意图;
图9是本申请实施例提供的关键词图的一个结构示意图;
图10是本申请实施例提供的语音识别系统的模块结构框图;
图11是本申请实施例提供的计算机设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
首先,对本申请中涉及的若干名词进行解析:
人工智能(Artificial Intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
音素:是指根据语音的自然属性划分出来的最小语音单位,可以依据音节里的发音动作来分析,一个动作构成一个音素。
随着金融科技和社会经济的快速发展,人们对于银行服务水平的要求越来越高。在智能客服、多轮对话、机器人外呼场景中,能够正确识别目标对象语音中的关键词汇,才能准确识别目标对象的意图,从而针对具体的语义意图去构造话术,提高回复精准度。目前,相关技术中的语音识别方法为:根据预先设置的解码器的解码路径对识别出的语音特征进行解码,以生成与待识别的初始语音内容相同的语音文本。然而,现有的语音识别方法中的解码器可以分为动态解码器和静态解码器。动态解码器虽然解码灵活,但其解码效率较低。静态解码器是通过预先生成的解码图中的解码路径进行解码,具体为在解码搜索的过程中,解码图保持不变,即无需动态生成/扩展解码路径。因此,静态解码器具有解码速度快的优点,但其在解码过程中由于对搜索路径无法进行动态调整,则只能对常用词给出准确的概率预测,例如,“是”、“做”等常用词汇,而对于其他特殊词汇识别的准确率较低,从而导致对完整的初始语音的识别准确率较低。
因此,如何提供一种能够提高语音识别的准确率和效率的方法,成为了亟待解决的技术问题。
基于此,本申请实施例提出了一种语音识别方法、语音识别系统、计算机设备和存储介质,能够提高语音识别的准确率。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的语音识别方法,涉及人工智能领域。本申请实施例提供的语音识别方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现语音识别方法的应用等,但并不局限于以上形式。
本申请实施例可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
需要说明的是,在本申请的各个具体实施方式中,当涉及到需要根据用户信息、用户行为数据,用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时,都会先获得用户的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关法律法规和标准。此外,当本申请实施例需要获取用户的敏感个人信息时,会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意,在明确获得用户的单独许可或者单独同意之后,再获取用于使本申请实施例能够正常运行的必要的用户相关数据。
请参照图1,图1是本申请实施例提供的语音识别方法的一个可选的流程图。在一些实施例中,图1中的方法具体可以包括但不限于步骤S110至步骤S170,下面结合图1对这七个步骤进行详细介绍。
步骤S110,对待识别的目标语音进行特征提取,得到初步语音特征;
步骤S120,将初步语音特征输入至预先训练的声学模型进行发音识别处理,得到声学数据,声学数据包括预设发音类别;
步骤S130,根据预设发音类别对预设的目标解码图进行类别搜索处理,得到候选解码词和候选解码词的第一解码损失数据;
步骤S140,根据候选解码词对预设的关键词图进行关键词搜索处理,得到候选解码词的第二解码损失数据;
步骤S150,对第一解码损失数据和第二解码损失数据进行加权计算,得到目标损失数据;
步骤S160,根据目标解码图对候选解码词进行文本拼接处理,得到候选解码文本;
步骤S170,根据目标损失数据和候选解码文本得到目标解码文本。
需要说明的是,本申请实施例提供的语音识别方法可以分别由终端或服务器执行,或由终端和服务器协同执行。其中,终端通过网络与服务器进行通信,以实现本申请的语音识别方法。例如,以该语音识别方法对应的终端执行为例进行说明:终端可以包括处理器以及语音采集装置,其中,处理器可以与语音采集装置进行通信,语音采集装置能够采集目标对象输入的目标语音。进一步地,在本发明实施例中,语音采集装置可以为麦克风、麦克风阵列等,本发明实施例不作具体限定。之后,处理器根据采集的目标语音执行本申请的语音识别方法,以得到目标解码文本,该目标解码文本与该目标语音的内容相同。
在一些实施例的步骤S110中,终端可以安装具有语音输入功能的应用,例如,在智能客服场景下的语音助手、即时通信应用、语音输入法应用等,则目标对象可以在这些场景下输入待识别的目标语音。该目标语音中的每个音频可以对应于波形上的采样点。例如,当目标语音为一个采样率为16000赫兹且时长为2秒的语音,则该目标语音对应的是波形上的32000个采样点。为了通过给定数量的信号分量来描述目标语音,首先对待识别的目标语音进行特征提取,得到初步语音特征。例如,当设定10毫秒的语音为一帧,且设定特征维度为40,则对时长为2秒的目标语音进行特征提取得到初步语音特征的矩阵为200*40,其中,矩阵的每一行表示一帧。
需要说明的是,在实际应用中,当目标对象使用即时通信应用进行语音识别时,可以通过点击即时通信应用的语音识别界面,并通过在该界面设置的语音输入控件进行目标语音的输入,此时,即时通信应用通过调用语音采集装置,如开启麦克风等方式让目标对象说话,以获取到待识别目标语音。
在一些实施例的步骤S120中,为了准确地识别出目标语音中的语音信息,将初步语音特征输入至预先训练的声学模型,该声学模型用于根据设定的声学特性计算输入的语音特征在声学特征上的声学数据。具体地,处理器根据该声学模型对初步语音特征进行发音识别处理,得到多个声学数据,该声学数据包括预设发音类别,该预设发音类别用于表征该声学数据所属的声韵母类别信息。
需要说明的是,当采用声韵母形式的声学特征构建声学模型,其中的预设发音类别可以根据23个声母和24个韵母进行设置,即预设发音类别可以为a、o、e等。因此,输出声学数据的矩阵的每一行可以表示一个声韵母,例如,第一维可以表示韵母a,第二维可以表示韵母o,依次类推,在此不再赘述。
需要说明的是,该声学模型还可以采用预设的音素集中的音素形式进行构建,在此不作具体限定。
需要说明的是,声学模型的建模方式可以采用马尔科夫模型、深度学习网络模型、卷积神经网络模型等,在此不作具体限定。
请参照图2,图2是本申请实施例提供的语音识别方法的另一个可选的流程图。在一些实施例中,声学数据还包括预设发音类别的发音概率数据,则在步骤S130之前,本申请实施例提供的语音识别方法还包括步骤:构建目标解码图,则该步骤具体可以包括但不限于步骤S210至步骤S240,下面结合图2对这四个步骤进行详细介绍。
步骤S210,根据预先训练的语言模型对预设的发音词典进行图构建处理,得到初始解码图,初始解码图包括初始解码数据,初始解码数据包括初始解码词、初始解码词的初始发音类别和初始解码词的初始解码损失数据;
步骤S220,对预设发音类别和初始发音类别进行类别匹配,得到匹配结果;
步骤S230,若匹配结果表示预设发音类别与候选发音类别相同,则根据发音概率数据对初始解码损失数据进行损失数据增强处理,得到初始解码词的目标解码损失数据;
步骤S240,根据目标解码损失数据更新初始解码图,得到目标解码图。
需要说明的是,当采用声韵母形式的声学特征构建声学模型,由于每个声学数据所属的发音类别用于确定该目标语音对应的发音情况,则声学数据还包括预设发音类别的发音概率数据,即发音概率数据为发音概率值。该发音概率值在其中一个预设的声韵母类别下对应的概率值接近于1,而在其他预设的声韵母类别下对应的概率值接近于0,从而唯一确定声学数据的预设发音类别。
在一些实施例的步骤S210中,为了实现对发音识别后的声学数据进行文字输出,根据预先训练的语言模型对预设的发音词典进行图构建处理,得到初始解码图,该初始解码图用于将多个初始解码数据映射到基于加权有限状态转换机(Weighted Finite StateTransducer,WFST)结构的解码图上,则语音识别任务就可以转化成在WFST图上搜索最优路径的问题。其中,每个初始解码数据包括初始解码词、初始解码词的初始解码类别和该初始解码词的初始解码损失数据,初始解码词用于表征根据解码图翻译出的词;初始解码类别用于表征该初始解码词所属的发音类别,该初始解码词的设置与预设发音类别的设置相同;初始解码损失数据用于表征搜索出该初始解码词所需的损失值,该损失值可以为正值或负值,如,0.1或(-0.25)等。
需要说明的是,发音词典用于表征初始解码词与初始解码类别的对应关系,语言模型用于表征通过训练得到单个初始解码词相互关联的概率,即根据一个初始解码词预测到下一个初始解码词的概率。
需要说明的是,语言模型可以采用卷积神经网络模型、循环神经网络模型等任一种模型进行构建,在此不作具体限定。
在一些实施例的步骤S220至步骤S240中,为了避免不同的语音内容生成相同的解码文本,以提高语音识别的准确率,对预设发音类别和初始发音类别进行类别匹配,若匹配结果表示预设发音类别与初始发音类别相同,则根据发音概率数据对初始解码损失数据进行损失数据增强处理,得到初始解码词的目标解码损失数据。即将初始解码词对应的初始解码损失数据和匹配的预设发音类别对应的发音概率数据进行加权计算,得到目标解码损失数据。并根据目标解码损失数据更新初始解码图,得到目标解码图,该目标解码损失数据用于表征目标语音对应构建的目标解码图搜索出该初始解码词所需的目标损失值。本申请实施例根据发音概率数据对初始解码损失数据进行损失数据增强处理,能够提高对目标语音识别的准确率。
在一些实施例的步骤S130中,在对目标语音进行解码搜索的过程中,先根据预设发音类别对预设的目标解码图进行类别搜索处理,得到候选解码词和候选解码词的第一解码损失数据。其中,候选解码词为初始解码词中的一个词,候选解码词包括候选发音类别,该候选发音类别与预设发音类别相同。
请参照图3,图3是本申请提供的语音识别方法的另一个可选的流程图。在一些实施例中,在步骤S140之前,本申请实施例提供的语音识别方法还包括步骤:构建关键词图,则该步骤具体可以包括但不限于步骤S310和步骤S320,下面结合图3对这两个步骤进行详细介绍。
步骤S310,从预定义的关键词库获取关键词数据;其中,关键词数据包括初始关键词、初始关键词的初始关键损失数据;
步骤S320,根据预设的状态转换机结构对初始关键词和初始关键损失数据进行图构建处理,得到关键词图。
在一些实施例的步骤S310中,为了提高解码图解码的灵活性,并提高对其他特殊词汇识别的准确率,本申请将目标解码图和构建的关键词图联合使用,以增强对特殊词汇的识别效果。具体地,从预定义的关键词库获取关键词数据。需要说明的是,该关键词库可以为根据目标语音的应用领域预构建得到,也可以为根据实际需要将预定义的人名、地名等特殊词汇构建所得到,也可以为预先对目标语音进行关键词提取后构建得到,在此不作具体限定。
在一些实施例的步骤S320中,为了实现对关键词搜索解码,根据预设的状态转换机结构对初始关键词和初始关键损失数据进行图构建处理,即在该关键词图上把初始关键词拆成若干单字的组合。例如,若初始关键词为“张A”,则在构建关键词图中将“张A”拆分成“张”和“A”的单字组合。初始关键损失数据用于表征在利用关键词图进行解码搜索时搜索出该初始关键词所需的损失值,其中,该初始关键损失数据可以根据实际需要进行调整,以控制对初始关键词增强的强度。
请参照图4,图4是本申请提供的步骤S130的具体方法的流程图。在一些实施例中,目标解码图包括第一解码节点和第一解码路径,第一解码节点用于表征初始解码词、初始解码词的发音类别和初始解码词的初始解码损失数据,第一解码路径用于表征两个第一解码节点的第一解码方向,则步骤S130具体可以包括但不限于步骤S410至步骤S430,下面结合图4对这三个步骤进行详细介绍。
步骤S410,根据预设发音类别对第一解码节点进行类别搜索处理,确定当前解码节点,当前解码节点包括当前发音类别,当前发音类别与预设发音类别相同;
步骤S420,根据当前解码节点和第一解码方向对目标解码图进行节点搜索处理,确定第一目标解码节点;
步骤S430,根据第一目标解码节点确定候选解码词、候选发音类别和候选解码词的第一解码损失数据。
在一些实施例的步骤S410中,根据预设发音类别对第一解码节点进行类别搜索处理,确定当前解码节点,该当前解码节点用于表征在目标解码图中确定的解码起始节点,当前解码节点包括当前发音类别,当前发音类别与预设发音类别相同。
在一些实施例的步骤S420中,进行节点搜索处理的过程中,根据当前解码节点和第一解码方向对目标解码图进行节点搜索处理,确定至少一个第一目标解码节点。需要说明的是,当前解码节点和每个第一目标解码节点分别构成一条第一解码路径。
在一些实施例的步骤S430中,将第一目标解码节点对应的初始解码词作为候选解码词,并确定候选发音类别和候选解码词的第一解码损失数据。
在一些实施例的步骤S140中,为了实现解码过程中对特殊关键词汇的数据增强,根据候选解码词对预设的关键词图进行关键词搜索处理,得到候选解码词的第二解码损失数据,该第二解码损失数据用于表征候选解码词在关键词图上的解码损失值。
请参照图5,图5是本申请提供的步骤S140的具体方法的流程图。在一些实施例中,关键词图包括第二解码节点和第二解码路径,第二解码节点用于表征初始关键词、初始关键词的发音类别和初始关键词的初始关键损失数据,第二解码路径用于表征两个第二解码节点的第二解码方向,则步骤S140具体可以包括但不限于步骤S510至步骤S530,下面结合图5对这三个步骤进行详细介绍。
步骤S510,根据候选解码词对第二解码节点进行节点搜索处理,确定当前关键节点,当前关键节点包括关键发音类别,关键发音类别与候选解码词的发音类别相同;
步骤S520,根据当前关键节点和第二解码方向对关键词图进行节点搜索处理,确定第一目标关键节点;
步骤S530,根据第一目标关键节点确定候选解码词的第二解码损失数据。
在一些实施例的步骤S510中,根据候选解码词对关键词图上的第二解码节点进行节点搜索处理,确定当前关键节点,该当前关键节点用于表征候选解码词在关键词图上的解码起始节点,当前关键节点包括关键发音类别,关键发音类别与候选解码词的发音类别相同。
需要说明的是,当候选解码词对第二解码节点进行节点搜索处理时,未搜索找到当前关键节点,则确定新的候选解码节点后,再重新执行根据候选解码词对第二解码节点进行节点搜索处理。
在一些实施例的步骤S520中,进行关键词搜索处理的过程中,根据当前关键节点和第二解码方向对关键词图进行节点搜索处理,确定至少一个第一目标关键节点。需要说明的是,当前关键节点和每个第一目标关键节点分别构成一条第二解码路径。
在一些实施例的步骤S530中,将第一目标关键节点对应的初始关键词的初始关键损失数据作为候选解码词的第二解码损失数据。
在一些实施例的步骤S150中,对第一解码损失数据和第二解码损失数据进行加权计算,得到目标损失数据,该目标损失数据用于表征以第一解码损失数据和第二解码损失数据对应的候选解码词构建的解码路径的目标解码得分,该解码路径为第一解码路径的路径连接。
请参照图6,图6是本申请提供的步骤S150的具体方法的流程图。在一些实施例中,步骤S150具体可以包括但不限于步骤S610和步骤S620,下面结合图6对这两个步骤进行详细介绍。
步骤S610,对第一目标解码节点的节点类型进行判断,得到第一判断结果;
步骤S620,根据第一判断结果对第一解码损失数据和第二解码损失数据进行加权计算,得到目标损失数据。
在一些实施例的步骤S610和步骤S620中,节点用于表征目标解码图中的第一目标解码节点在解码图的位置,对第一目标解码节点的节点类型进行判断,得到第一判断结果,并根据第一判断结果对第一解码损失数据和第二解码损失数据进行加权计算,得到目标损失数据。
请参照图7,图7是本申请提供的步骤S620的具体方法的流程图。在一些实施例中,节点类型包括中间节点,步骤S620具体可以包括但不限于步骤S710至步骤S790,下面结合图7对这九个步骤进行详细介绍。
步骤S710,若第一判断结果表示目标解码节点为中间节点,根据目标解码节点更新当前解码节点;
步骤S720,对第一解码损失数据和第二解码损失数据进行加权计算,得到搜索损失数据;
步骤S730,根据当前解码节点和当前解码节点的解码方向对目标解码图进行节点搜索处理,确定第二目标解码节点;
步骤S740,根据第二目标解码节点确定候选解码词和候选解码词的第三解码损失数据;
步骤S750,根据候选解码词的发音类别对关键词图进行类别搜索处理,确定候选关键节点,候选关键节点包括候选关键发音类别,候选关键发音类别与候选发音类别相同;
步骤S760,根据候选关键节点和候选关键节点的解码方向对关键词图进行节点搜索处理,确定第二目标关键节点;
步骤S770,根据第二目标关键节点确定候选解码词的第四解码损失数据;
步骤S780,对第二目标解码节点的节点类型进行判断,得到第二判断结果;
步骤S790,根据第二判断结果对搜索损失数据、第三解码损失数据和第四解码损失数据进行加权计算,并根据计算的结果更新目标损失数据。
在一些实施例的步骤S710中,若第一判断结果表示目标解码节点为中间节点,根据候选解码词的目标解码节点更新当前解码节点,即将当前的目标解码节点作为新的当前解码节点再次在目标解码图上执行节点搜索处理。
需要说明的是,若第一判断结果表示目标解码节点为结束节点,则得到的目标损失数据即为目标语音的一个解码路径的目标解码得分。
在一些实施例的步骤S720至步骤S790中,先对第一解码损失数据和第二解码损失数据进行加权计算,得到搜索损失数据,该搜索损失数据相当于一个初始解码得分。根据当前解码节点和当前解码节点的解码方向对目标解码图进行节点搜索处理,确定第二目标解码节点,并根据第二目标解码节点确定候选解码词和候选解码词的第三解码损失数据。同时,在关键词图上,根据候选解码词的发音类别对关键词图进行类别搜索处理,确定候选关键节点,候选关键节点包括候选关键发音类别,候选关键发音类别与候选发音类别相同。根据候选关键节点和候选关键节点的解码方向对关键词图进行节点搜索处理,确定第二目标关键节点,并根据第二目标关键节点确定候选解码词的第四解码损失数据。之后,对第二目标解码节点的节点类型进行判断,得到第二判断结果,该第二判断结果用于表示第二目标解码节点是否为结束节点。对搜索损失数据、第三解码损失数据和第四解码损失数据进行加权计算,更新目标损失数据。若第二目标解码节点仍为中间节点,则将第二解码节点作为当前解码节点,并重复执行步骤S720至步骤S790,直至识别到第二目标解码节点为结束节点为止,以确定最终的目标损失数据。
请参照图8,图8是本申请提供的目标解码图的一个结构示意图,图8中设置了七个第一解码节点,分别用00、01、02、03、04、05、06表示节点状态。其中,每条第一解码路径用于表征的信息可以表示为[ilabel:olabel/cost]的形式,ilabel用于表示初始解码词的初始发音类别,olabel用于表示搜索到的初始解码词,cost1用于表示该初始解码词对应的初始解码损失数据,图中的箭头表示解码方向。
请参照图9,图9是本申请提供的关键词图的一个结构示意图,该关键词图中仅表示了用于增强初始关键词“王B21B22”,图9中设置了三个第二解码节点,分别用10、11、12表示节点状态。其中,每条第二解码路径用于表征的信息的形式与上述目标解码图中对第一解码路径定义的形式相同,<eps>用于表示解码词的结束标识,cost2用于表示该初始关键词对应的初始关键损失数据,具体的形式设定与图8相同,在此不再赘述。需要说明的是,实际中,可以根据需求构建包括多个初始关键词的关键词图。
示例性的,请参照图8和图9,在对向智能语音助手输入的语音“我去王B1家”进行解码搜索过程中,将目标解码图上正在进行解码的节点状态用S1表示,将关键词图上正在进行解码的节点状态用S2表示。首先,根据预设发音类别对第一解码节点进行类别搜索处理,确定当前解码节点,即S1为00。并且00至01只有一条第一解码路径,则根据第一解码方向进行节点搜索处理,确定第一目标解码节点,即S1更新为01。此时的cost1为0.1,该第一目标解码节点对应的候选解码词“我”为候选解码词。根据候选解码词“我”对第二解码节点进行节点搜索处理,确定当前关键节点,即确定此时当前关键节点对应的S2为10。根据候选解码词“我”、当前的节点状态的10和10对应的第二解码方向进行节点搜索处理,若未搜索到初始关键词,则关键词图上的当前关键节点保持不变,cost2为0,此时的目标解码得分为0.1。
同理,以候选解码词“我”对应的节点作为新的当前解码节点进行节点搜索处理,确定第二目标解码节点,S1更新为02。第二目标解码节点对应的解码词“去”为候选解码词,cost1为0.15,根据候选解码词“去”对第二解码节点进行节点搜索处理,若未搜索到初始关键词,则关键词图上的当前关键节点保持不变,S2仍为10。此时的目标解码得分为“0.1+0.15”等于0.25。之后,对第二目标解码节点的节点类型进行判断,若第二目标解码节点为中间节点,再以解码词“去”的节点为新的当前解码节点进行节点搜索处理,将S1更新为03,第二目标解码节点对应的解码词“王”为候选解码词,cost1为0.2,根据候选解码词“王”对第二解码节点进行节点搜索处理,搜索到第一目标关键节点,则关键词图的S2更新为11,cost2为“-0.25”,此时的目标解码得分为“0.25+0.2+(-0.25)”等于0.2。
之后,以候选解码词“王”对应的节点作为新的当前解码节点进行节点搜索处理,此时的目标解码图有两条第二解码路径,可以记为第一路径R1和第二路径R2,其中,第一路径R1表示从03解码到04,第二路径R2表示从03-05-04之间的解码路径。第一路径中的S1更新为04,第二目标解码节点对应的解码词“B1”为候选解码词,第一路径R1的第三解码损失数据即cost1为0.1;第二路径R2对应的S1更新为05,第二目标解码节点对应的解码词“B21”为新的候选解码词,cost1为0.4,在以解码词“B21”的节点为新的当前解码节点进行节点搜索处理,得到S1更新为04,第二目标解码节点对应的解码词“B22”为候选解码词,cost1为0.15,第二路径R2的第三解码损失数据cost1为0.65。若根据第一路径R1的候选解码词“B1”对第二解码节点进行节点搜索处理,若未搜索到候选解码词“B1”,则关键词图的S2更新为10,cost2为0.25,此时,结合关键词图的搜索结果确定第一路径R1对应的目标解码得分更新为“0.2+0.1+0.25”等于0.55。若根据第二路径R2的候选解码词“B21”对第二解码节点进行节点搜索处理,搜索到“B21”对应的第二目标关键节点,则关键词图的S2更新为12,第四解码损失数据对应的cost2为“-0.25”,并根据第二路径R2的候选解码词“B22”对第二解码节点进行节点搜索处理,搜索到“B22”对应的第二目标关键节点,则将S2更新为10,第四解码损失数据对应的cost2为“-0.25”,则结合关键词图的搜索结果确定第二路径R2的目标解码得分更新为“0.2+0.4+0.15+(-0.25+)+(-0.25)”等于0.25。依次类推,分别根据第一路径R1和第二路径R2进行后续的解码搜索。最后,得到两个路径分别对应的目标损失数据的得分,分别为0.85和0.55。
在一些实施例的步骤S160中,在目标解码图和关键词图上解码搜索完成后,确定多条由第一解码路径连接的候选解码路径,根据目标解码图对每条候选解码路径对应的候选解码词进行文本拼接处理,得到每条候选解码路径对应的候选解码文本,即可以得到至少一个候选解码文本。
在一些实施例的步骤S170中,对每个候选解码文本对应的目标损失数据进行比较,即对每个候选解码文本的目标解码得分进行数值比较,并将得分最低的候选解码文本作为目标解码文本。其中,本申请用于执行语音识别方法的设备可以将解码后的字符串显示在语音识别界面上,也可以将字符串转换为语音信号输出给目标对象,以实现与目标对象的语音交互。本申请实施例不作具体限定。
示例性的,在金融科技的保险理赔场景下,关键词库可以为根据保险理赔的具体疾病关键词、车况关键词进行预构建得到,也可以为根据实际需要将预定义的人名、地名等特殊词汇构建所得到,从而提高对特殊词汇的识别准确率。因此,本申请实施例可以在静态解码器的基础上,实现关键词增强的功能,同时搜索关键词图和目标解码图进行解码,以增强目标语音中的关键词的强度。且本申请实施例在解码搜索过程中无需额外的数据,也无需额外的模型训练过程,提高了语音识别的效率。此外,本申请实施例的关键词图可以根据实际需要进行设定和修改,能够有效提升目标对象体验。由此可知,当根据本申请实施例提供的语音识别方法对目标语音进行语音识别时,能够提高语音识别的准确率。
请参照图10,图10是本申请实施例提供的语音识别系统的一种结构示意图,该语音识别系统可以实现上述语音识别方法,该系统包括:特征提取模块1010、发音识别模块1020、第一解码搜索模块1030、第二解码搜索模块1040、解码计算模块1050、文本拼接模块1060和目标文本解码模块1070。
特征提取模块1010,用于对待识别的目标语音进行特征提取,得到初步语音特征;
发音识别模块1020,用于将初步语音特征输入至预先训练的声学模型进行发音识别处理,得到声学数据,声学数据包括预设发音类别;
第一解码搜索模块1030,用于根据预设发音类别对预设的目标解码图进行类别搜索处理,得到候选解码词和候选解码词的第一解码损失数据;其中,候选解码词包括候选发音类别,候选发音类别与预设发音类别相同;
第二解码搜索模块1040,用于根据候选解码词对预设的关键词图进行关键词搜索处理,得到候选解码词的第二解码损失数据;
解码计算模块1050,用于对第一解码损失数据和第二解码损失数据进行加权计算,得到目标损失数据;
文本拼接模块1060,用于根据目标解码图对候选解码词进行文本拼接处理,得到候选解码文本;
目标文本解码模块1070,用于根据目标损失数据和候选解码文本得到目标解码文本。
本申请实施例的语音识别系统用于执行上述实施例中的语音识别方法,其具体处理过程与上述实施例中的语音识别方法相同,此处不再一一赘述。
本申请实施例还提供了一种计算机设备,该计算机设备包括存储器和处理器,其中,存储器中存储有计算机程序,计算机程序被处理器执行时处理器用于执行上述实施例中的语音识别方法。
下面结合图11对计算机设备的硬件结构进行详细说明。该计算机设备包括:处理器1110、存储器1120、输入/输出接口1130、通信接口1140和总线1150。
处理器1110,可以采用通用的中央处理器(Central Processin Unit,CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
存储器1120,可以采用只读存储器(Read Only Memory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory,RAM)等形式实现。存储器1120可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1120中,并由处理器1110来调用执行本申请实施例的语音识别方法;
输入/输出接口1130,用于实现信息输入及输出;
通信接口1140,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线1150,在设备的各个组件(例如处理器1110、存储器1120、输入/输出接口1130和通信接口1140)之间传输信息;
其中处理器1110、存储器1120、输入/输出接口1130和通信接口1140通过总线1150实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种存储介质,该存储介质是计算机可读存储介质,该计算机可读存储介质存储有计算机程序,在计算机程序被计算机执行时,计算机用于执行本申请实施例的语音识别方法。
本申请实施例提供的一种语音识别方法、语音识别系统、计算机设备和存储介质,首先,对待识别的目标语音进行特征提取,得到初步语音特征,并将初步语音特征输入至预先训练的声学模型进行发音识别处理,得到声学数据,该声学数据包括预设发音类别。然后,根据预设发音类别对预设的目标解码图进行类别搜索处理,得到候选解码词和该候选解码词的第一解码损失数据,其中,候选解码词包括候选发音类别,该候选发音类别与预设发音类别相同,以根据该目标解码图实现对目标语音的初步解码。为了提高语音识别的准确率,以生成准确的解码文本,根据候选解码词对预设的关键词图进行关键词搜索处理,得到候选解码词的第二解码损失数据。并对第一解码损失数据和第二解码损失数据进行加权计算,得到目标损失数据。之后,根据目标解码图对候选解码词进行文本拼接处理,得到候选解码文本。最后,根据目标损失数据和候选解码文本得到目标解码文本。本申请实施例将目标语音对应的声学数据通过目标解码图和关键词图进行搜索处理,能够准确得到目标语音对应的目标损失数据,从而确定最终的目标解码文本。本申请实施例可以在静态解码器的基础上,实现关键词增强的功能,同时搜索关键词图和目标解码图进行解码,以增强目标语音中的关键词的强度,且本申请实施例在解码搜索过程中无需额外的数据,也无需额外的模型训练过程,提高了语音识别的效率。此外,本申请实施例的关键词图可以根据实际需要进行设定和修改,能够有效提升目标对象体验。由此可知,当根据本申请实施例提供的语音识别方法对目标语音进行语音识别时,能够提高语音识别的准确率。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。
Claims (10)
1.一种语音识别方法,其特征在于,所述方法包括:
对待识别的目标语音进行特征提取,得到初步语音特征;
将所述初步语音特征输入至预先训练的声学模型进行发音识别处理,得到声学数据,所述声学数据包括预设发音类别;
根据所述预设发音类别对预设的目标解码图进行类别搜索处理,得到候选解码词和所述候选解码词的第一解码损失数据;其中,所述候选解码词包括候选发音类别,所述候选发音类别与所述预设发音类别相同;
根据所述候选解码词对预设的关键词图进行关键词搜索处理,得到所述候选解码词的第二解码损失数据;
对所述第一解码损失数据和所述第二解码损失数据进行加权计算,得到目标损失数据;
根据所述目标解码图对所述候选解码词进行文本拼接处理,得到候选解码文本;
根据所述目标损失数据和所述候选解码文本得到目标解码文本。
2.根据权利要求1所述的方法,其特征在于,在所述根据所述候选解码词对预设的关键词图进行关键词搜索处理,得到所述候选解码词的第二解码损失数据之前,所述方法包括:构建所述关键词图,具体包括:
从预定义的关键词库获取关键词数据;其中,所述关键词数据包括初始关键词、所述初始关键词的初始关键损失数据;
根据预设的状态转换机结构对所述初始关键词和所述初始关键损失数据进行图构建处理,得到所述关键词图。
3.根据权利要求1或2所述的方法,其特征在于,所述声学数据还包括所述预设发音类别的发音概率数据;
在所述根据所述预设发音类别对预设的目标解码图进行类别搜索处理,得到候选解码词和所述候选解码词的第一解码损失数据之前,所述方法还包括:构建所述目标解码图,具体包括:
根据预先训练的语言模型对预设的发音词典进行图构建处理,得到初始解码图,所述初始解码图包括初始解码数据,所述初始解码数据包括初始解码词、所述初始解码词的初始发音类别和所述初始解码词的初始解码损失数据;
对所述预设发音类别和所述初始发音类别进行类别匹配,得到匹配结果;
若所述匹配结果表示所述预设发音类别与所述初始发音类别相同,则根据所述发音概率数据对所述初始解码损失数据进行损失数据增强处理,得到所述初始解码词的目标解码损失数据;
根据所述目标解码损失数据更新所述初始解码图,得到所述目标解码图。
4.根据权利要求3所述的方法,其特征在于,所述目标解码图包括第一解码节点和第一解码路径,所述第一解码节点用于表征所述初始解码词、所述初始解码词的发音类别和所述初始解码词的所述初始解码损失数据,所述第一解码路径用于表征两个所述第一解码节点的第一解码方向;
所述根据所述预设发音类别对预设的目标解码图进行类别搜索处理,得到候选解码词和所述候选解码词的第一解码损失数据,包括:
根据所述预设发音类别对所述第一解码节点进行类别搜索处理,确定当前解码节点,所述当前解码节点包括当前发音类别,所述当前发音类别与所述预设发音类别相同;
根据所述当前解码节点和所述第一解码方向对所述目标解码图进行节点搜索处理,确定第一目标解码节点;
根据所述第一目标解码节点确定所述候选解码词、所述候选发音类别和所述候选解码词的所述第一解码损失数据。
5.根据权利要求2所述的方法,其特征在于,所述关键词图包括第二解码节点和第二解码路径,所述第二解码节点用于表征所述初始关键词、所述初始关键词的发音类别和所述初始关键词的所述初始关键损失数据,所述第二解码路径用于表征两个所述第二解码节点的第二解码方向;
所述根据所述候选解码词对预设的关键词图进行关键词搜索处理,得到所述候选解码词的第二解码损失数据,包括:
根据所述候选解码词对所述第二解码节点进行节点搜索处理,确定当前关键节点,所述当前关键节点包括关键发音类别,所述关键发音类别与所述候选解码词的发音类别相同;
根据所述当前关键节点和所述第二解码方向对所述关键词图进行节点搜索处理,确定第一目标关键节点;
根据所述第一目标关键节点确定所述候选解码词的所述第二解码损失数据。
6.根据权利要求4所述的方法,其特征在于,所述对所述第一解码损失数据和所述第二解码损失数据进行加权计算,得到目标损失数据,包括:
对所述第一目标解码节点的节点类型进行判断,得到第一判断结果;
根据所述第一判断结果对所述第一解码损失数据和所述第二解码损失数据进行加权计算,得到所述目标损失数据。
7.根据权利要求6所述的方法,其特征在于,所述节点类型包括中间节点,所述根据所述第一判断结果对所述第一解码损失数据和所述第二解码损失数据进行加权计算,得到所述目标损失数据,包括:
若所述第一判断结果表示所述目标解码节点为所述中间节点,根据所述目标解码节点更新所述当前解码节点;
对所述第一解码损失数据和所述第二解码损失数据进行加权计算,得到搜索损失数据;
根据所述当前解码节点和所述当前解码节点的解码方向对所述目标解码图进行节点搜索处理,确定第二目标解码节点;
根据所述第二目标解码节点确定所述候选解码词和所述候选解码词的第三解码损失数据;
根据所述候选解码词的发音类别对所述关键词图进行类别搜索处理,确定候选关键节点,所述候选关键节点包括候选关键发音类别,所述候选关键发音类别与所述候选发音类别相同;
根据所述候选关键节点和所述候选关键节点的解码方向对所述关键词图进行节点搜索处理,确定第二目标关键节点;
根据所述第二目标关键节点确定所述候选解码词的第四解码损失数据;
对所述第二目标解码节点的节点类型进行判断,得到第二判断结果;
根据所述第二判断结果对所述搜索损失数据、所述第三解码损失数据和所述第四解码损失数据进行加权计算,并根据计算的结果更新所述目标损失数据。
8.一种语音识别系统,其特征在于,所述系统包括:
特征提取模块,用于对待识别的目标语音进行特征提取,得到初步语音特征;
发音识别模块,用于将所述初步语音特征输入至预先训练的声学模型进行发音识别处理,得到声学数据,所述声学数据包括预设发音类别;
第一解码搜索模块,用于根据所述预设发音类别对预设的目标解码图进行类别搜索处理,得到候选解码词和所述候选解码词的第一解码损失数据;其中,所述候选解码词包括候选发音类别,所述候选发音类别与所述预设发音类别相同;
第二解码搜索模块,用于根据所述候选解码词对预设的关键词图进行关键词搜索处理,得到所述候选解码词的第二解码损失数据;
解码计算模块,用于对所述第一解码损失数据和所述第二解码损失数据进行加权计算,得到目标损失数据;
文本拼接模块,用于根据所述目标解码图对所述候选解码词进行文本拼接处理,得到候选解码文本;
目标文本解码模块,用于根据所述目标损失数据和所述候选解码文本得到目标解码文本。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,其中,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时所述处理器用于执行:
如权利要求1至7中任一项所述的方法。
10.一种存储介质,所述存储介质为计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,在所述计算机程序被计算机执行时,所述计算机用于执行:
如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310671896.5A CN116665652A (zh) | 2023-06-07 | 2023-06-07 | 语音识别方法、语音识别系统、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310671896.5A CN116665652A (zh) | 2023-06-07 | 2023-06-07 | 语音识别方法、语音识别系统、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116665652A true CN116665652A (zh) | 2023-08-29 |
Family
ID=87725877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310671896.5A Pending CN116665652A (zh) | 2023-06-07 | 2023-06-07 | 语音识别方法、语音识别系统、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116665652A (zh) |
-
2023
- 2023-06-07 CN CN202310671896.5A patent/CN116665652A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10192545B2 (en) | Language modeling based on spoken and unspeakable corpuses | |
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
US20190163691A1 (en) | Intent Based Dynamic Generation of Personalized Content from Dynamic Sources | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
JP7400112B2 (ja) | 自動音声認識のための英数字列のバイアス付加 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
CN116578688A (zh) | 基于多轮问答的文本处理方法、装置、设备及存储介质 | |
CN114783421A (zh) | 智能推荐方法和装置、设备、介质 | |
CN116541493A (zh) | 基于意图识别的交互应答方法、装置、设备、存储介质 | |
CN115273815A (zh) | 语音关键词检测的方法、装置、设备及存储介质 | |
CN116343747A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
CN116680386A (zh) | 基于多轮对话的答案预测方法和装置、设备、存储介质 | |
CN109408175B (zh) | 通用高性能深度学习计算引擎中的实时交互方法及系统 | |
CN112349294A (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN114786059B (zh) | 视频生成方法、视频生成装置、电子设备、存储介质 | |
CN114611529B (zh) | 意图识别方法和装置、电子设备及存储介质 | |
CN116127066A (zh) | 文本聚类方法、文本聚类装置、电子设备及存储介质 | |
CN116432705A (zh) | 文本生成模型构建、文本生成方法和装置、设备及介质 | |
CN115017886A (zh) | 文本匹配方法、文本匹配装置、电子设备及存储介质 | |
CN112397053B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
CN116665652A (zh) | 语音识别方法、语音识别系统、计算机设备和存储介质 | |
CN114267324A (zh) | 语音生成方法、装置、设备和存储介质 | |
CN113763934A (zh) | 音频识别模型的训练方法、装置和存储介质及电子设备 | |
CN114218356A (zh) | 基于人工智能的语义识别方法、装置、设备及存储介质 | |
CN115116443A (zh) | 语音识别模型的训练方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |