CN114333774B - 语音识别方法、装置、计算机设备及存储介质 - Google Patents
语音识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN114333774B CN114333774B CN202111536323.9A CN202111536323A CN114333774B CN 114333774 B CN114333774 B CN 114333774B CN 202111536323 A CN202111536323 A CN 202111536323A CN 114333774 B CN114333774 B CN 114333774B
- Authority
- CN
- China
- Prior art keywords
- character
- tail
- matching
- semantic
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 108
- 238000012545 processing Methods 0.000 claims description 47
- 230000008569 process Effects 0.000 claims description 36
- 230000015654 memory Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 16
- 230000004927 fusion Effects 0.000 claims description 15
- 238000009432 framing Methods 0.000 claims description 6
- 239000002243 precursor Substances 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 20
- 238000013473 artificial intelligence Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 15
- 238000004891 communication Methods 0.000 description 11
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 7
- 230000033001 locomotion Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000006403 short-term memory Effects 0.000 description 5
- 238000012216 screening Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Abstract
本申请实施例公开了一种语音识别方法、装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:获取语言信息,获取语音数据中的多个音频帧的语义特征,语义特征包括音频帧分别属于多个字符的第一概率;基于多个语义特征中区分度大于第一阈值的语义特征,从语言信息中提取与语音数据匹配的语义路径,将语义路径确定为语音数据的语义信息。本申请实施例提供的方法,从多个语义特征中筛选出区分度满足要求的语义特征,结合语言信息中各个字符之间的连接关系,从语言信息中提取出与该语音数据匹配的语义路径,作为识别到的语义信息,无需再对不满足区分度条件的语义特征进行处理,从而提升了语音识别效率,也保证了识别结果的准确性。
Description
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种语音识别方法、装置、计算机设备及存储介质。
背景技术
语音识别是通过识别和理解将语音数据转换成对应的语义信息,近年来,语音识别技术的应用越来越广泛,常应用于语音控制设备、智能对话等多种场景下。但是相关技术中的语音识别方式,无法兼顾语音识别的效率和准确性。
发明内容
本申请实施例提供了一种语音识别方法、装置、计算机设备及存储介质,能够提升语音识别效率和准确性。所述技术方案如下:
一方面,提供了一种语音识别方法,所述方法包括:
获取语言信息,所述语言信息包括多个字符及至少两个所述字符之间的连接关系;
获取语音数据中的多个音频帧的语义特征,所述语义特征包括所述音频帧分别属于多个所述字符的第一概率;
基于多个所述语义特征中区分度大于第一阈值的语义特征,从所述语言信息中提取与所述语音数据匹配的语义路径,所述区分度表示所述音频帧分别属于多个所述字符的所述第一概率之间的差异程度,所述语义路径由至少一个所述字符连接构成;
将所述语义路径确定为所述语音数据的语义信息。
另一方面,提供了一种语音识别装置,所述装置包括:
获取模块,用于获取语言信息,所述语言信息包括多个字符及至少两个所述字符之间的连接关系;
所述获取模块,还用于获取语音数据中的多个音频帧的语义特征,所述语义特征包括所述音频帧分别属于多个所述字符的第一概率;
提取模块,用于基于多个所述语义特征中区分度大于第一阈值的语义特征,从所述语言信息中提取与所述语音数据匹配的语义路径,所述区分度表示所述音频帧分别属于多个所述字符的所述第一概率之间的差异程度,所述语义路径由至少一个所述字符连接构成;
确定模块,用于将所述语义路径确定为所述语音数据的语义信息。
在一种可能实现方式中,所述语言信息中的每个所述字符仅有一个前序字符,所述提取模块,包括:
遍历单元,用于遍历所述语音数据中的多个所述音频帧;
获取单元,用于对于遍历到的所述语义特征的区分度大于所述第一阈值的所述音频帧,基于所述音频帧的语义特征,获取当前确定的尾字符的后继字符对应的匹配度,其中初次确定的尾字符为所述语言信息中的起始字符,所述后继字符对应的匹配度指示从所述起始字符到所述后继字符构成的路径与所述语音数据的匹配程度;
确定单元,用于在所述后继字符对应的匹配度满足第一匹配条件的情况下,将所述尾字符删除,将所述后继字符确定为本次最新的尾字符;
所述确定单元,还用于在所述多个音频帧遍历完成后,确定从所述起始字符到最新确定的尾字符构成的语义路径。
在另一种可能实现方式中,所述获取单元,用于对于当前确定的尾字符中匹配度满足第二匹配条件的尾字符,基于所述音频帧的语义特征,获取所述尾字符的后继字符对应的匹配度。
在另一种可能实现方式中,所述装置还包括:
处理模块,用于对当前确定的多个尾字符对应的匹配度进行卷积处理,得到第一匹配参数;
所述确定模块,还用于对于当前确定的每个尾字符,在所述尾字符对应的匹配度与所述第一匹配参数的乘积大于第二阈值的情况下,确定所述尾字符对应的匹配度满足所述第二匹配条件。
在另一种可能实现方式中,所述装置还包括:
处理模块,用于对当前确定的多个尾字符对应的匹配度进行卷积处理,得到第二匹配参数;
所述确定模块,还用于在所述后继字符对应的匹配度与所述第二匹配参数的乘积大于第三阈值的情况下,确定所述后继字符对应的匹配度满足第一匹配条件。
在另一种可能实现方式中,所述获取单元,用于从所述音频帧的语义特征中,确定所述音频帧属于所述后继字符的第一概率;对所述第一概率及所述尾字符对应的匹配度进行加权融合,得到所述后继字符对应的匹配度。
在另一种可能实现方式中,所述获取模块,还用于获取从所述起始字符到所述后继字符构成的路径对应的语言概率,所述语言概率指示所述路径的语言逻辑的合理程度;
所述获取单元,用于对所述第一概率、所述语言概率及所述尾字符对应的匹配度进行加权融合,得到所述后继字符对应的匹配度。
在另一种可能实现方式中,所述装置还包括:
删除模块,用于将当前确定的多个尾字符中匹配度不大于匹配度阈值的尾字符删除。
在另一种可能实现方式中,所述确定模块,还用于确定当前确定的多个尾字符对应的最大匹配度;在所述音频帧的语义特征的区分度属于剪裁区间内的情况下,确定第四阈值与裁减系数的乘积;将所述最大匹配度与所述乘积之间的差值确定为所述匹配度阈值;或者,在所述音频帧的语义特征的区分度不属于所述剪裁区间内的情况下,将所述最大匹配度与所述第四阈值之间的差值确定为所述匹配度阈值。
在另一种可能实现方式中,所述提取模块,用于基于多个所述语义特征中的目标语义特征,从所述语言信息中提取与所述语音数据匹配的语义路径;
其中,所述目标语义特征的区分度大于所述第一阈值,且所述目标语义特征中最大第一概率对应的字符不是静音字符。
在另一种可能实现方式中,所述语义特征还包括第二概率,所述第二概率指示多个所述第一概率的分布情况,所述确定模块,还用于对于任一所述音频帧的语义特征,将所述语义特征中多个所述第一概率与所述第二概率的方差,确定为所述语义特征的区分度。
在另一种可能实现方式中,所述获取模块,用于对所述语音数据进行分帧处理,得到多个所述音频帧;对于每个所述音频帧,基于所述音频帧对应的其他音频帧,对所述音频帧进行特征提取,得到所述音频帧的语义特征。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现如上述方面所述的语音识别方法所执行的操作。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如上述方面所述的语音识别方法所执行的操作。
再一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述方面所述的语音识别方法所执行的操作。
本申请实施例提供的方法、装置、计算机设备及存储介质,在语音识别的过程中,从语音数据中的多个音频帧的语义特征中筛选出区分度满足要求的语义特征,基于筛选出的语义特征,结合语言信息中各个字符之间的连接关系,从语言信息中提取出与该语音数据匹配的语义路径,作为该语音数据的语义信息,无需再对不满足区分度条件的语义特征进行处理,节省了语音识别的耗时,从而提升了语音识别效率,并且,在语音识别过程中,将区分度不满足要求的语义特征的筛除,也就消除了这部分语义特征的影响,避免了由于这部分语义特征导致提取到的语义路径与该语音数据不匹配的情况,从而保证了识别结果的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的结构示意图;
图2是本申请实施例提供的一种语音识别方法的流程图;
图3是本申请实施例提供的一种语音识别方法的流程图;
图4是本申请实施例提供的一种对尾字符列表更新的流程图;
图5是本申请实施例提供的一种解码监控子模的结构示意图;
图6是本申请实施例提供的一种基于语音识别模型进行语音识别的流程图;
图7是本申请实施例提供的一种语音识别装置的流程图;
图8是本申请实施例提供的一种语音识别装置的流程图;
图9是本申请实施例提供的一种终端的结构示意图;
图10是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请所使用的术语“第一”、“第二”、“第三”、“第四”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说,在不脱离本申请的范围的情况下,可将第一阈值称为第二阈值,且类似地,可将第二阈值称为第一阈值。
本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”,至少一个包括一个、两个或两个以上,多个包括两个或两个以上,而每个是指对应的多个中的每一个,任一是指多个中的任意一个。举例来说,多个音频帧包括3个音频帧,而每个是指这3个音频帧中的每一个音频帧,任一是指这3个音频帧中的任意一个音频帧,能够是第一个音频帧,或者,是第二个音频帧,或者,是第三个音频帧。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition,ASR)和语音合成技术(Text To Speech,TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
本申请实施例提供的方案,基于人工智能的机器学习技术,能够训练出语音识别模型,利用训练后的语音识别模型,对任意的语音数据进行识别,得到该语音数据的语义信息,从而实现了语音识别方法。
本申请实施例提供的语音识别方法,由计算机设备执行。可选地,该计算机设备为终端或服务器。可选地,该服务器是独立的物理服务器,或者,是多个物理服务器构成的服务器集群或者分布式系统,或者,是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地,该终端是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电及车载终端等,但并不局限于此。
在一些实施例中,本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备能够组成区块链系统。
在一些实施例中,计算机设备被提供为服务器。图1是本申请实施例提供的一种实施环境的示意图。参见图1,该实施环境包括终端101和服务器102。终端101和服务器102之间通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
终端101上安装由服务器102提供服务的目标应用,终端101能够通过该目标应用实现例如数据传输、消息交互等功能。可选地,目标应用为终端101操作系统中的目标应用,或者为第三方提供的目标应用。例如,目标应用为语音识别应用,该语音识别应用具有语音识别功能,当然,该语音识别应用还能够具有其他功能,例如,点评功能、购物功能、导航功能、游戏功能等。
终端101用于基于用户标识登录目标应用,基于该目标应用获取语音数据,通过目标应用向服务器102发送该语音数据,服务器102用于接收终端101发送的语音数据,对该语音数据进行语音识别,得到该语音数据的语义信息。
可选地,服务器确定与该语义信息匹配的答复信息,向终端101发送该答复信息,终端101基于该目标应用接收该答复信息,显示该答复信息,或者,将该答复信息转换成语音数据并进行播放。
需要说明的是,在本申请实施例中,待识别的语音数据和对该语音数据进行语音识别的过程均需要获得用户许可或同意,且语音数据和语音数据的语义信息的收集、使用、处理和存储均需要符合所在地区的规定。
图2是本申请实施例提供的一种语音识别方法的流程图,由计算机设备执行,如图2所示,该方法包括:
201、计算机设备获取语言信息,该语言信息包括多个字符及至少两个字符之间的连接关系。
在本申请实施例中,语言信息中的字符是具有含义的字符。该字符能够是任意形式表示的字符,例如,语言信息中的字符为中文字符或英文字符等。再例如,每个字符为一个字、一个词、一个音节或者一个字母等,如一个字符为一个单词中的字符,或者为拼音中的一个声母或一个韵母等,本申请对此不作限定。在语言信息包括的多个字符中,至少两个字符之间具有连接关系,语言信息中具有连接关系的至少两个字符能够组成一个词语或者一句话。例如,语言信息包括的字符为“我”、“饿”和“了”,“我”与“饿”连接,“饿”与“了”连接,即这三个字符构成了“我饿了”。
202、计算机设备获取语音数据中的多个音频帧的语义特征,该语义特征包括音频帧分别属于多个字符的第一概率。
其中,该语音数据为待识别的数据,该语音数据包括多个音频帧,每个音频帧为语音数据中的部分数据。每个音频帧的语义特征用于表示该音频帧所代表的含义,该语义特征包括多个第一概率,该音频帧属于一个字符的第一概率表示为该音频帧所代表的含义为该字符的可能性。对于每个音频帧,基于该音频帧的语义特征,能够获知该音频帧所代表的含义为多个字符的可能性。在本申请实施例中,待识别的语音数据包括多个音频帧,每个音频帧具有一个语义特征,即获取到多个语义特征。
203、计算机设备基于多个语义特征中区分度大于第一阈值的语义特征,从语言信息中提取与语音数据匹配的语义路径,该区分度表示音频帧分别属于多个字符的第一概率之间的差异程度,该语义路径由至少一个字符连接构成。
其中,第一阈值为任意的数值,例如,第一阈值为0.3或0.5等。该语义路径是语言信息中与该语音数据所表达的含义匹配的路径,该语义路径是由至少一个字符构成,即该语义路径相当于与该语音数据匹配的语句。在本申请实施例中,对于每个音频帧,该音频帧的语义特征的区分度表示该语义特征中的多个第一概率之间的差异程度,该区分度能够反映出音频帧的质量。任一音频帧的语义特征的区分度越大,表示该音频帧的质量越高,基于该音频帧的语义特征,能够确定出多个字符中能代表音频帧所表达的含义的字符;任一音频帧的语义特征的区分度越小,表示该音频帧的质量越低,基于该音频帧的语义特征,可能无法确定出多个字符中能代表音频帧所表达的含义的字符。
204、计算机设备将语义路径确定为语音数据的语义信息。
其中,语义信息用于表示语音数据所表达的含义,该语义信息为任意形式的信息,例如,该语义信息为文本形式的信息。
本申请实施例提供的方法,在语音识别的过程中,从语音数据中的多个音频帧的语义特征中筛选出区分度满足要求的语义特征,基于筛选出的语义特征,结合语言信息中各个字符之间的连接关系,从语言信息中提取出与该语音数据匹配的语义路径,作为该语音数据的语义信息,无需再对不满足区分度条件的语义特征进行处理,节省了语音识别的耗时,从而提升了语音识别效率,并且,在语音识别过程中,将区分度不满足要求的语义特征的筛除,也就消除了这部分语义特征的影响,避免了由于这部分语义特征导致提取到的语义路径与该语音数据不匹配的情况,从而保证了识别结果的准确性。
在图2所示实施例的基础上,在获取到语音数据包括的多个音频帧的语义特征后,采取逐帧遍历的方式,从语言信息中提取与语音数据匹配的语义路径,具体过程详见下述实施例。
图3是本申请实施例提供的一种语音识别方法的流程图,由计算机设备执行,如图3所示,该方法包括:
301、计算机设备获取语言信息,该语言信息包括多个字符及至少两个字符之间的连接关系。
其中,语言信息能够以任意的形式表示,例如,该语言信息以特征图的形式表示。可选地,该语言信息为语言特征图,该语言特征图包括多个字符节点及至少两个字符节点之间的连接关系。其中,每个字符节点用于表征一个字符。
在一种可能实现方式中,语言信息还包括起始字符。
其中,起始字符指示语言信息中的第一个字符。在语音识别过程中,从该语义信息中提取的每个语义路径均是从该起始字符开始的。可选地,该起始字符仅表示语言信息中的语义路径的起始。例如,该起始字符为任意的字符。在本申请实施例中,按照语言信息中各个字符之间的连接关系,从字符节点开始到任一字符之间的路径,即为一个符合语言逻辑的语句。
在一种可能实现方式中,语言信息中每个字符仅有一个前序字符。
其中,对于任一字符,该字符的前序字符与该字符之间具有连接关系,且该字符的前序字符为该字符的上层字符,即该字符在该字符的前序字符之后。可选地,语言信息中具有连接关系的任两个字符之间的连接关系具有指向。任一字符与该字符的前序字符之间的连接关系是由该前序字符指向该字符。例如,语言信息中的两个字符为“我”和“们”,“我”与“们”之间具有连接关系,“我”是“们”的前序字符,这两个字符之间的连接关系是由“我”指向“们”,表示由“我”到“们”构成的路径“我们”中“我”在“们”之前。
302、计算机设备获取该语音数据中的多个音频帧的语义特征。
其中,任一音频帧的语义特征包括该音频帧分别属于多个字符的第一概率,该语义特征能够以任意的形式表示,例如,该语义特征以向量的形式表示,或者,以表格的形式表示。例如,任一音频帧的语义特征以表格的形式表示,该语义特征如表1所示。
表1
序列 | 代表意义 | 得分 |
0 | 字符0 | 0.125 |
1 | 字符1 | 0.96 |
2 | 字符2 | 0.56 |
3 | 字符3 | 0.654 |
4 | 字符4 | 0.22 |
5 | 字符5 | 0.44 |
6 | 字符6 | 0.11 |
…… | …… | …… |
k | 字符k | 0.33 |
k+1 | * | 0.5 |
在一种可能实现方式中,该步骤302包括:对待识别的语音数据进行分帧处理,得到多个音频帧;对于每个音频帧,基于该音频帧对应的其他音频帧,对该音频帧进行特征提取,得到该音频帧的语义特征。
其中,每个音频帧的帧长为任意值,例如,每个音频帧的帧长为25毫秒。可选地,不同音频帧的帧长相同,或者,不同音频帧的帧长不同。对于该多个音频帧中的任一音频帧,该音频帧对应的其他音频帧为该音频帧之前的N个音频帧,或者为该音频帧之后的M个音频帧,或者为该音频帧之前的N个音频帧及该音频帧之后的M个音频帧。其中,N和M均为任意的正整数。可选地,N和M相同,或者,N和M不同。在获取任一音频帧的语义特征时,考虑到该音频帧对应的其他音频帧对该音频帧的影响,基于该音频帧对应的其他音频帧,对该音频帧进行特征提取,以保证得到的语义特征的准确性。
可选地,对音频帧进行特征提取的过程包括:分别对每个音频帧进行第一特征提取,得到每个音频帧的音频特征;对于每个音频帧,将该音频帧对应的其他音频帧的音频特征及该音频帧的音频特征进行第二特征提取,得到该音频帧的语义特征。
其中,音频特征用于表征音频帧,该音频特征为任意类型的特征,例如,该音频特征为FBank(FilterBank,滤波器组)特征,该FBank特征是采用FilterBank算法提取到的特征;或者,该音频特征为MFCC(Mel Frequency Cepstral Coefficient,一种语言特征)或PLP(Perceptual Linear Predictive,感知线性预测)特征。由于每个音频帧的音频特征能够表征对应的音频帧,在获取任一音频帧的语义特征时,基于该音频帧的音频特征及该音频帧对应的其他音频帧的音频特征来进行特征提取,使得到的该音频帧的语义特征考虑到了其他音频帧的音频特征的影响,即考虑到了多个音频帧之间的关联性,以保证语义特征的准确性。
可选地,对音频帧和该音频帧对应的其他音频帧进行第二特征提取的过程包括:将该音频帧对应的其他音频帧的音频特征及该音频帧的音频特征进行拼接,得到拼接特征,对该拼接特征进行第二特征提取,得到该音频帧的语义特征。
其中,在对多个音频特征进行拼接时,按照多个音频帧的先后顺序进行拼接。通过将音频帧的音频帧特及该音频帧对应的其他音频帧的音频特征进行拼接,利用拼接特征来进行第二特征提取,充分融入了多个音频帧之间的关联性,从而保证了得到的语义特征的准确性。
可选地,对语音数据进行分帧处理的过程包括:基于目标帧长及目标帧移,对该语音数据进行分帧处理,得到多个音频帧。
其中,该目标帧长用于表示分帧处理到的音频帧的帧长,该目标帧长为任意值。目标帧移指示相邻两个音频帧的起始时间点之间的间隔时长,该目标帧移为任意的时长。在对语义数据进行分帧处理时,从语音数据的起始时间点开始,以该目标帧长为窗口,以该目标帧长为窗口的移动步长,逐渐移动窗口,每次将窗口内的部分语音数据作为一个音频帧,从而得到多个音频帧。
在本申请实施例中,在目标帧长大于目标帧移的情况下,相邻两个音频帧中部分数据相同;在目标帧长等于该目标帧移的情况下,相邻两个音频帧中的数据不同。例如,目标帧长为25毫秒,目标帧移为10毫秒,对于相邻的两个音频帧,第一个音频帧中后15毫秒的数据与第二个音频帧中前15毫秒的数据相同。再例如,目标帧长与目标帧移相等,对于相邻的两个音频帧,前一个音频帧的结束时间点和后一个音频帧的起始时间点相同,即相邻的两个音频帧中没有相同的数据,且多个音频帧能够拼接成该语音数据。
303、计算机设备遍历该语音数据中的多个音频帧。
在本申请实施例中,在获取到语音数据中多个音频帧的语义特征后,按照多个音频帧的顺序,依次遍历该多个音频帧,以便后续结合该语言信息中各个字符之间的连接关系,从中提取与语音数据匹配的语义路径。
304、计算机设备对于遍历到的语义特征的区分度大于第一阈值的音频帧,基于该音频帧的语义特征,获取当前确定的尾字符的后继字符对应的匹配度。
其中,初次确定的尾字符为语言信息中的起始字符,当前确定的尾字符包括一个或多个。在当前遍历到语义特征的区分度大于第一阈值的第一个音频帧的情况下,当前确定的尾字符包括一个,即为该起始字符;在当前遍历到语义特征的区分度大于第一阈值的其他音频帧的情况下,当前确定的尾字符包括一个或多个,且当前确定的尾字符可能不包括该起始字符。对于任一尾字符,在语言信息中与该尾字符连接且在该尾字符之后的字符即为该尾字符的后继字符。任一尾字符的后继字符对应的匹配度指示从起始字符到后继字符构成的路径与语音数据的匹配程度。
在一种可能实现方式中,语言信息中任一字符的后继字符包括该字符连接的下层字符以及该字符本身。
例如,任一字符为“我”,在语言信息中与“我”连接的下层字符包括“去”和“们”,则该字符“我”的后继字符包括:“去”、“们”及“我”。
可选地,任一字符连接的下层字符包括与该字符相同的字符。例如,任一字符为“马”,在语言信息中与“马”连接的下层字符包括“马”、“上”,即字符“马”的下层字符包括与该字符相同的字符,则该字符“马”的后继字符包括“马”、“上”和“马”,第一个“马”为下层字符,第二个“马”为该字符本身。
在一种可能实现方式中,在获取当前确定的尾字符的后继字符对应的匹配度时,能够基于当前确定的尾字符对应的匹配度,或者任一尾字符的后继字符个数,或者后继字符在当前遍历的音频帧的语义特征中对应的第一概率,来进行获取,则该步骤304包括以下三种方式:
第一种方式:对于遍历到的语义特征的区分度大于第一阈值的音频帧,基于该音频帧的语义特征,获取当前确定的、且匹配度满足第二匹配条件的尾字符的后继字符对应的匹配度。
其中,第二匹配条件指示由起始字符到尾字符构成的路径与该语音数据的匹配程度所需满足的条件,在任一尾字符对应的匹配度满足第二匹配条件的情况下,则获取该尾字符的后继字符对应的匹配度,以便后续从后继字符中选取新的尾字符;在该尾字符对应的匹配度不满足第二匹配条件的情况下,则对于当前的音频帧,无需从该尾字符的后继字符中选取新的尾字符,因此,无需再获取该尾字符的后继字符对应的匹配度。
在本申请实施例中,在遍历到语义特征的区分度大于第一阈值的任一音频帧的情况下,确定当前确定的尾字符对应的匹配度,基于当前确定的尾字符对应的匹配度,从当前确定的尾字符中筛选出匹配度满足第二匹配条件的尾字符;对于匹配度满足第二匹配条件的每个尾字符,分别获取筛选出的每个尾字符的后继字符对应的匹配度。例如,在遍历到语义特征的区分度大于第一阈值的任一音频帧的情况下,当前确定的尾字符个数为5,当前确定的尾字符中第1个尾字符和第5个尾字符对应的匹配度满足第二匹配条件,则基于该音频帧的语义特征,获取该第1个尾字符的后继字符对应的匹配度以及第5个尾字符的后继字符对应的匹配度。
在一种可能实现方式中,确定尾字符对应的匹配度是否满足第二匹配条件的过程,包括:对当前确定的多个尾字符对应的匹配度进行卷积处理,得到第一匹配参数;对于当前确定的每个尾字符,在该尾字符对应的匹配度与第一匹配参数的乘积大于第二阈值的情况下,确定该尾字符对应的匹配度满足第二匹配条件。
其中,第一匹配参数能够反映出当前确定的多个尾字符的匹配度的分布情况,第二阈值为任意的数值。在任一尾字符对应的匹配度与第一匹配参数的乘积大于第二阈值的情况下,确定该尾字符对应的匹配度满足第二匹配条件;在任一尾字符对应的匹配度与第一匹配参数的乘积不大于第二阈值的情况下,确定该尾字符对应的匹配度不满足第二匹配条件。
在本申请实施例中,以任一尾字符对应的匹配度与第一匹配参数的乘积是否大于第二阈值为例,确定该尾字符对应的匹配度是否满足第二匹配条件。也即是,确定第二阈值与第一匹配参数的比值,以任一尾字符对应的匹配度是否大于该比值,确定该尾字符对应的匹配度是否满足第二匹配条件。由于第一匹配参数能够指示当前确定的多个尾字符对应的匹配度的分布情况,基于该第一匹配参数来调整尾字符对应的匹配度所需满足的阈值,即考虑到了当前确定的多个尾字符对应的匹配度的影响,以保证后续仅会对满足要求的尾字符进行扩展,无需对不满足要求的尾字符进行扩展,从而节省耗时,提升语音识别效率,也保证了后续识别结果的准确性。
可选地,获取第一匹配参数的过程包括:从当前确定的多个尾字符中选取匹配度最大的目标数目的尾字符,对选取的尾字符对应的匹配度进行卷积处理,得到该第一匹配参数。其中,目标数目为任意的数目,例如,目标数目为256。
在一种可能实现方式中,确定尾字符对应的匹配度是否满足第二匹配条件的过程,包括:在当前确定的任一尾字符对应的匹配度大于第二阈值的情况下,确定该尾字符对应的匹配度满足第二匹配条件。
第二种方式,对于当前确定的任一尾字符,该尾字符包括多个后继字符:基于该音频帧的语义特征,获取该尾字符的每个后继字符对应的匹配度。
在尾字符具有多个后继字符的情况下,获取每个后继字符对应的匹配度,以便后续从多个后继字符中筛选出新的尾字符。
第三种方式,对于当前确定的任一尾字符,该尾字符包括多个后继字符:基于该音频帧的语义特征,确定该尾字符的多个后继字符对应的第一概率,从该尾字符的多个后继字符中筛选出第一概率大于第五阈值的后继字符,基于该音频帧的语义特征,获取筛选出的后继字符对应的匹配度。
其中,第五阈值为任意的数值。该音频帧的语义特征包括该音频帧属于多个字符的第一概率,基于该音频帧的语义特征,能够确定出该音频帧属于每个后继字符的第一概率,即确定出每个后继字符对应的第一概率。由于尾字符的后继字符具有多个,通过后继字符对应的第一概率,对多个后继字符进行筛选,以便筛除与该音频帧匹配度不高的后继字符,无需获取与该音频帧匹配度不高的后继字符对应的匹配度,从而减少了计算量,从而提升语音识别效率。
需要说明的是,上述三种方式能够任意结合,例如,第一种方式与第二种方式结合,或者,第一种方式与第三种方式结合。以第一种方式与第三种方式结合为例:对于遍历到的语义特征的区分度大于第一阈值的音频帧,筛选出当前确定的尾字符中匹配度满足第二匹配条件的尾字符,对于筛选出的每个尾字符,基于该音频帧的语义特征,确定该尾字符的多个后继字符对应的第一概率,从该尾字符的多个后继字符中筛选出第一概率大于第五阈值的后继字符,基于该音频帧的语义特征,获取筛选出的后继字符对应的匹配度。例如,在遍历到的语义特征的区分度大于第一阈值的任一音频帧的情况下,当前确定的尾字符包括5个,其中第1个尾字符和第5个尾字符对应的匹配度满足第二匹配条件;第1个尾字符包括3个后继字符,仅第1个后继字符对应的第一概率大于第五阈值,则获取第1个尾字符的第1个后继字符对应的匹配度;第5个尾字符包括4个后继字符,且4个后继字符对应的第一概率均大于第五阈值,则获取第5个尾字符的4个后继字符对应的匹配度。
在一种可能实现方式中,该步骤304包括:对于遍历到的语义特征的区分度大于第一阈值的音频帧,从该音频帧的语义特征中,确定该音频帧属于当前确定的尾字符的后继字符的第一概率;对第一概率及当前确定的尾字符对应的匹配度进行加权融合,得到后继字符对应的匹配度。
其中,后继字符对应的第一概率表示当前遍历的音频帧属于该后继字符的可能性,而当前确定的尾字符对应的匹配度表示从起始字符到该尾字符的路径与语音数据的匹配程度。通过将第一概率与当前确定的尾字符对应的匹配度进行加权融合,得到该后继字符对应的匹配度,从而能够体现出从起始字符到该后继字符构成的路径与语音数据的匹配程度。
可选地,获取当前确定的尾字符的后继字符对应的匹配度的过程包括:获取从起始字符到当前确定的尾字符的后继字符构成的路径对应的语言概率,对该第一概率、该语言概率及该尾字符对应的匹配度进行加权融合,得到该后继字符对应的匹配度。
其中,语言概率指示从起始字符到该后继字符构成的路径的语言逻辑的合理程度,该语言概率越大,表示该起始字符到该后继字符构成的路径的语言逻辑越合理,该语言概率越小,表示该起始字符到该后继字符构成的路径的语言逻辑越不合理。通过将第一概率、该语言概率及尾字符对应的匹配度进行加权融合,得到从起始字符到该后继字符构成的路径与语音数据的匹配程度,以保证得到的后继字符对应的匹配度的准确性。
可选地,基于语言处理模型获取从起始字符到当前确定的尾字符的后继字符构成的路径对应的语言概率。例如,该语言处理模型为N-Gram(一种模型)或RNN(RecurrentNeural Network,循环神经网络)。
在一种可能实现方式中,音频帧的语义特征还包括第二概率,确定音频帧的语义特征的区分度的过程,包括:对于任一音频帧的语义特征,将该音频帧的语义特征中多个第一概率与第二概率的方差,确定为该音频帧的语义特征的区分度。
其中,第二概率指示多个第一概率的分布情况。可选地,第二概率为多个第一概率的平均值;或者,该第二概率为多个第一概率中大于第六阈值的第一概率的平均值。其中,第六概率为任意的数值。
由于第二概率能够表示多个第一概率的分布情况,将多个第一概率与第二概率的方差,确定为语义特征的区分度,以使该区分度能够表示出多个第一概率之间的差异情况。
可选地,确定任一音频帧的语义特征的区分度的过程包括:确定该音频帧的语义特征中每个第一概率与第二概率的差值的平方,确定多个第一概率对应的差值的平方的平均值,将该平均值确定为该音频帧的语义特征的区分度。
305、计算机设备在当前确定的尾字符的后继字符对应的匹配度满足第一匹配条件的情况下,将该后继字符对应的尾字符删除,将该后继字符确定为本次最新的尾字符。
其中,第一匹配条件指示由起始字符到后继字符构成的路径与该语音数据的匹配程度所需满足的条件。在当前确定的尾字符的后继节点中,任一后继字符对应的匹配度满足第一匹配条件,表示由起始字符到该后继字符构成的路径与该语音数据更匹配,则将当前确定的尾字符中该后继字符对应的尾字符删除,将该后继字符确定为本次最新的尾字符。
在一种可能实现方式中,当前确定的尾字符的后继字符包括与该尾字符连接的下层字符及该尾字符本身,则步骤305包括:将该尾字符删除,在与该尾字符连接的下层字符对应的匹配度满足第一匹配条件的情况下,将该下层字符确定为最新确定的尾字符,在该尾字符的后继字符中的尾字符本身对应的匹配度满足第一匹配条件的情况下,将该尾字符本身确定为最新的尾字符。
其中,当前确定的尾字符的后继字符中尾字符本身对应的匹配度,与当前确定的尾字符对应的匹配度可能不同。在当前确定的尾字符的后继字符中包括尾字符本身时,该尾字符本身对应的匹配度是将原来尾字符对应的匹配度,与当前音频帧的语义特征中该尾字符对应的第一概率进行加权融合得到的,使作为后继字符的尾字符本身对应的匹配度与尾字符之前对应的匹配度不同,即该尾字符对应的匹配度得到更新,在尾字符更新后的匹配度满足第一匹配条件的情况下,将作为后继字符的尾字符本身作为最新的尾字符,也保留了最新的尾字符对应的匹配度。
例如,当前确定的任一尾字符为“我”,该尾字符“我”对应的匹配度为0.7,该尾字符的后继字符包括下层字符“们”和“去”,该包括该尾字符本身“我”。基于当前遍历的音频帧的语义特征,获取到每个后继字符对应的匹配度,即“们”对应的匹配度为0.8,“去”对应的匹配度为0.9,尾字符本身“我”对应的匹配度为0.9,将原来的尾字符“我”删除,如果作为后继节点的“们”、“去”及“我”对应的匹配度均满足第一匹配条件,将“们”、“去”及“我”均作为最新的尾字符,最新的尾字符“我”对应的匹配度为0.9,即相当于更新了尾字符“我”对应的匹配度。
在一种可能实现方式中,确定当前确定的尾字符的后继字符对应的匹配度是否满足第一匹配条件的过程,包括:对当前确定的多个尾字符对应的匹配度进行卷积处理,得到第二匹配参数;在当前确定的尾字符的后继字符对应的匹配度与该第二匹配参数的乘积大于第三阈值的情况下,确定该后继字符对应的匹配度满足第一匹配条件。
其中,第二匹配参数能够反映出当前确定的多个尾字符的匹配度的分布情况,第三阈值为任意的数值。在当前确定的尾字符对应的匹配度与第一匹配参数的乘积大于第三阈值的情况下,该尾字符对应的匹配度满足第一匹配条件;在该尾字符对应的匹配度与第一匹配参数的乘积不大于第三阈值的情况下,该尾字符对应的匹配度不满足第一匹配条件。
在本申请实施例中,以当前确定的尾字符的后继字符对应的匹配度与第二匹配参数的乘积是否大于第三阈值为例,确定该后继字符对应的匹配度是否满足第一匹配条件。也即是,确定第三阈值与第二匹配参数的比值,以该后继字符对应的匹配度是否大于该比值,确定该后继字符对应的匹配度是否满足第一匹配条件。由于第二匹配参数能够指示当前确定的多个尾字符对应的匹配度的分布情况,基于该第二匹配参数来调整后继字符对应的匹配度所需满足的阈值,即考虑到了当前确定的多个尾字符对应的匹配度的影响,以保证后续仅会将满足要求的后继字符作为最新的尾字符,无需将不满足要求的后继字符作为最新的尾字符,以便后续无需对不满足要求的后继字符进行扩展,从而节省耗时,提升语音识别效率,也保证了后续识别结果的准确性。
可选地,获取第二匹配参数的过程包括:从当前确定的多个尾字符中选取匹配度最大的目标数目的尾字符,对选取的尾字符对应的匹配度进行卷积处理,得到该第二匹配参数。其中,目标数目为任意的数目,例如,目标数目为256。
需要说明的是,对于当前遍历到的语义特征的区分度大于第一阈值的音频帧,在执行完上述步骤305之后,当前确定的尾字符包括上述步骤305中本次新确定的尾字符以及之前确定的且未删除的尾字符。
在一种可能实现方式中,在上述步骤304中,获取的仅是当前确定的、且匹配度满足第二匹配条件的尾字符的后继字符对应的匹配度,则在步骤305之后,当前确定的尾字符包括上述步骤305本次新确定的尾字符,以及之前确定的、且匹配度不满足第二匹配条件的尾字符。
例如,在遍历到语义特征的区分度大于第一阈值的任一音频帧时,当前确定的尾字符为3个,仅第2个尾字符对应的匹配度满足第二匹配条件,该第2个尾字符的后继字符包括4个,获取第2个尾字符的4个后继字符对应的匹配度,在这4个后继字符中3个后继字符对应的匹配度满足第一匹配条件的情况下,将之前的3个尾字符中第2个尾字符删除,将这3个后继字符确定为本次最新的尾字符,在基于当前遍历的音频帧的音频特征处理完成后,当前确定的尾字符包括本次最新确定的3个尾字符,以及之前确定的不满足第二匹配条件的2个尾字符。
306、计算机设备在多个音频帧遍历完成后,确定从该起始字符到最新确定的尾字符构成的语义路径。
在本申请实施例中,在执行完步骤305之后,遍历下一个语义特征的区分度大于第一阈值的音频帧,并按照上述步骤304-305确定最新的尾字符,重复执行上述步骤304-305,直至遍历完成多个音频帧中的最后一个音频帧,即表示多个音频帧遍历完成。在多个音频帧遍历完成后,在语言信息中由起始字符到最新确定的尾字符构成的路径即为与语音数据匹配的语义路径。
在一种可能实现方式中,在多个音频帧遍历完成后,当前最新确定的尾字符包括多个,则该步骤306包括:在多个音频帧遍历完成后,确定当前确定的多个尾字符中匹配度最大的目标尾字符,确定语言信息中从起始字符到目标尾字符构成的语义路径。
在当前确定的尾字符包括多个的情况下,每个尾字符代表一个路径,每个尾字符对应的匹配度表示该尾字符所代表的路径与语音数据的匹配程度,选择与语音数据匹配度最大的路径作为语义路径,以保证选取的语义路径的准确性,从而保证语音识别的准确性。
需要说明的是,本申请实施例是采用遍历多个音频帧的方式,从语言信息中提取语义路径的,而在另一实施例中,无需执行步骤303-306,能够采取其他方式,基于多个音频帧的语义特征中区分度大于第一阈值的语义特征,从语言信息中提取与语音数据匹配的语义路径。
307、计算机设备将该语义路径确定为语音数据的语义信息。
由于语义路径是由至少一个字符构成的,即从起始字符到最新确定的尾字符构成的路径,将至少一个字符构成的信息作为该语义信息。
本申请实施例提供的方法,在语音识别的过程中,从语音数据中的多个音频帧的语义特征中筛选出区分度满足要求的语义特征,基于筛选出的语义特征,结合语言信息中各个字符之间的连接关系,从语言信息中提取出与该语音数据匹配的语义路径,作为该语音数据的语义信息,无需再对不满足区分度条件的语义特征进行处理,节省了语音识别的耗时,从而提升了语音识别效率,并且,在语音识别过程中,将区分度不满足要求的语义特征的筛除,也就消除了这部分语义特征的影响,避免了由于这部分语义特征导致提取到的语义路径与该语音数据不匹配的情况,从而保证了识别结果的准确性。
并且,采取遍历多个音频帧的方式,对语音数据进行语音识别,以保证获取到识别结果的准确性。
并且,在基于音频帧的语义特征对尾字符进行更新的过程中,对当前确定的尾字符、尾字符的后继字符进行多次判断,以保证确定出的尾字符尽是与语音数据匹配度的尾字符,避免了确定出与语音数据不匹配的尾字符,以便后续无需对与语音数据不匹配的尾字符进行扩展,对提取语义路径的过程进行预判,合理优化提取语义路径的过程,避免了无效路径的扩展,从而节省耗时,提升语音识别效率,也保证了后续识别结果的准确性。
基于本申请实施例提供的方法,能够提升语音识别效率,从而能够提升语音识别的实时率,该实时率用于度量语音识别速度,例如,实时率为语音识别所需耗时和音频数据的时长的比值。例如,实时率为RTF(Real Time Factor,实时因子)。
需要说明的是,在上述图3所示的实施例中,在遍历多个音频帧的过程中,按照上述步骤304-305,基于语义特征的区分度大于第一阈值的音频帧的语义特征,更新当前确定的尾字符,之后,再基于语义特征的区分度大于第一阈值的下一个音频帧的语义特征,再更新当前确定的尾字符。在此基础上,在基于语义特征的区分度大于第一阈值的任一音频帧的语义特征,更新当前确定的尾字符之后,还需要对当前确定的尾字符进行筛选,之后,再基于语义特征的区分度大于第一阈值的下一个音频帧的语义特征,对筛选后的尾字符进行更新。
在一种可能实现方式中,对当前确定的尾字符进行筛选的过程,包括:将当前确定的多个尾字符中匹配度不大于匹配度阈值的尾字符删除。
其中,匹配度阈值为任意的数值。基于当前的多个尾字符对应的匹配度,将当前确定的多个尾字符中匹配度大于匹配度阈值的尾字符删除,从而减少当前剩余的尾字符的数量,以便减少后续确定新的尾字符所需的计算量,从而提升语音识别效率。
可选地,确定匹配度阈值的过程包括:确定当前确定的多个尾字符对应的最大匹配度;在当前遍历的音频帧的语义特征的区分度属于剪裁区间内的情况下,确定第四阈值与裁减系数的乘积;将该最大匹配度与该乘积之间的差值确定为匹配度阈值;或者,在当前遍历的音频帧的语义特征的区分度不属于该剪裁区间内的情况下,将该最大匹配度与该第四阈值之间的差值确定为该匹配度阈值。
其中,剪裁系数为任意的数值,例如,该裁剪系数为大于0小于1的任意值。第四阈值为任意的数值,剪裁区间是任意的取值区间,例如,该裁剪区间为大于第七阈值且小于第八阈值的区间,该第七阈值和第八阈值均为任意的数值,且该第七阈值小于第八阈值,第七阈值不小于第一阈值,例如,第七阈值与第一阈值相等。在语义特征的区分度属于该剪裁区间内,表示该语义特征的区分度不足够好,因此,在基于当前遍历的音频帧的语义特征确定新的尾字符后,基于该裁剪系数来调整匹配度阈值,尽可能裁剪多个尾字符,保证剩余的尾字符对应的匹配度足够大,既保证了尾字符的质量,也避免了过多的尾字符所带来的计算量,从而节省了后续确定新的尾字符的过程所需的耗时,提升了语音识别效率,也保证了识别准确度。
例如,在当前遍历到任一音频帧的情况下,该音频帧的语义特征的区分度大于第一阈值且属于剪裁区间内,基于该音频帧的语义特征,按照上述步骤304-305,确定出最新的尾字符,之后,从当前确定的多个尾字符对应的匹配度中,确定出最大匹配度,确定第四阈值与裁减系数的乘积,将该最大匹配度与该乘积之间的差值确定为匹配度阈值,从当前确定的多个尾字符中筛除匹配度小于该匹配度阈值的尾字符,使剩余的尾字符对应的匹配度均大于该匹配度阈值。
在上述图2所示的实施例的基础上,不仅需要确定音频帧的语义特征的区分度是否大于第一阈值,还需要确定该音频帧的语义特征中最大的第一概率对应的字符是否是静音字符,则获取语义路径的过程包括:基于多个语义特征中的目标语义特征,从语言信息中提取与语音数据匹配的语义路径。
其中,目标语义特征的区分度大于第一阈值,且目标语义特征中最大第一概率对应的字符不是静音字符。在任一音频帧的语义特征中最大第一概率对应的字符是静音字符的情况下,该音频帧在该语音数据中属于无效的音频帧,该音频帧没有有效的内容,因此,不再基于该音频帧提取语义路径,以节省提取语义路径所需的耗时,从而提升了语音识别效率,并且,语义特征中最大第一概率对应的字符是静音字符的音频帧没有有效的内容,即使不再基于该音频帧进行提取语义路径,也不会影响语音识别到的结果,也能保证识别结果的准确性。
在上述图2和图3所示的实施例的基础上,按照多个音频帧的顺序,依次遍历多个音频帧,在遍历到任一音频帧时,不仅需要确定音频帧的语义特征的区分度是否大于第一阈值,还需要确定该音频帧的语义特征中最大的第一概率对应的字符是否是静音字符,基于语义特征的区分度大于第一阈值且语义特征中最大第一概率对应的字符不是静音字符的音频帧的语义特征,从语言信息中提取语义路径。遍历多个音频帧来获取语义路径的过程,包括以下步骤308-312:
308、按照多个音频帧的顺序,依次遍历每个音频帧。
309、对于当前遍历的任一音频帧,确定该音频帧的语义特征中最大的第一概率是否为静音字符;在该音频帧的语义特征中最大的第一概率是静音字符的情况下,遍历下一个音频帧;在该音频帧的语义特征中最大的第一概率不是静音字符的情况下,执行步骤310。
310、确定该音频帧的语义特征的区分度,确定该音频帧的语义特征的区分度是否大于第一阈值;在该音频帧的语义特征的区分度不大于第一阈值的情况下,遍历下一个音频帧;在该音频帧的语义特征的区分度大于第一阈值的情况下,确定该音频帧的语义特征的区分度是否属于裁剪区间内,之后按照上述步骤304-305,确定本次新的尾字符。
311、确定当前确定的多个尾字符对应的最大匹配度;在该音频帧的区分度不属于裁剪区间内,将该最大匹配度与该第四阈值之间的差值确定为该匹配度阈值;在当前遍历的音频帧的语义特征的区分度属于剪裁区间内的情况下,确定第四阈值与裁减系数的乘积,将该最大匹配度与该乘积之间的差值确定为匹配度阈值;将当前确定的多个尾字符中匹配度不大于匹配度阈值的尾字符删除,之后遍历下一个音频帧。
在一种可能实现方式中,在遍历多个音频帧的过程中,将确定的尾字符加入尾字符列表中。例如,从第一个音频帧开始,该尾字符列表中仅包括起始字符,在遍历到任一音频帧的情况下,删除第一尾字符并确定本次新的尾字符时,是将尾字符列表中第一尾字符删除,在该尾字符列表中添加本次新的尾字符,在按照上述步骤311删除尾字符时,删除尾字符列表中匹配度不大于匹配度阈值的尾字符。如图4所示,按照上述步骤309-311,基于尾字符列表中的尾字符的后继字符401,对尾字符列表进行更新。
312、重复执行上述步骤309-311,直至遍历完成最后一个音频帧,在遍历完成最后一个音频帧后,基于当前确定的尾字符对应的匹配度,从当前确定的尾字符中选取匹配度最大的目标尾字符,将语言信息中从起始字符到该目标尾字符构成的路径确定为语义路径。
需要说明的是,在上述图2和图3所示的实施例的基础上,还能够基于语音识别模型来对语音数据进行识别,得到语音数据的语义信息。
在一种可能实现方式中,该语音识别模型包括该语言信息,对语音数据进行语音识别的过程包括:获取待识别的语音数据;基于该语音识别模型,获取该语音数据中的多个音频帧的语义特征;基于该语音识别模型,按照上述步骤308-311,从该语言信息中提取与该语音数据匹配的语义路径,将该语义路径确定为该语音数据的语义信息。
可选地,语音识别模型包括特征提取子模型、第一判断子模型、解码监控子模型及解码子模型。
特征提取子模型用于获取语音数据中多个音频帧的语义特征。例如,特征提取子模型为CTC LSTM(Connectionist Temporal Classification Long Short Term Memory,时序分类-长短期记忆网络)、DNN(Deep Neural Networks,深度神经网络)、CNN-DNN(Convolutional Neural Network-Deep Neural Networks,深度卷积神经网络)、SpeechModel(一种语言模型)或Conformer(一种卷积增强的变压器模型)。
可选地,将语音数据分成多个音频帧的过程由基于特征提取子模型执行的,即基于该特征提取子模型,对该语音数据进行处理,得到语音数据中多个音频帧的语义特征。可选地,先将语音数据分成多个音频帧,之后,基于该语音识别模型中的特征提取子模型,获取多个音频帧的语义特征。可选地,基于该特征提取子模型获取到的每个语义特征包括多个第一概率及第二概率。
第一判断子模型用于确定该音频帧的语义特征中最大的第一概率是否为静音字符,在该音频帧的语义特征中最大的第一概率不是静音字符的情况下,确定该音频帧的语义特征的区分度,确定该音频帧的语义特征的区分度是否大于第一阈值,并确定该音频帧的语义特征的区分度是否属于裁剪区间内。
解码监控子模型用于在遍历到任一音频帧时,对当前确定的多个尾字符对应的匹配度进行卷积处理,得到第一匹配参数及第二匹配参数。可选地,基于该解码监控子模型,从前确定的多个尾字符中选取匹配度最大的目标数目的尾字符,对选取的尾字符对应的匹配度进行卷积处理,得到该以匹配参数及第二匹配参数。例如,该解码监控子模型为CNN-LSTM(Convolutional Neural Network Long Short-Term Memory,长短期记忆卷积网络)。如图5所示,解码监控子模型501包括卷积层、第一激活层、标准化层、长短期记忆层、线性层及第二激活层。例如,第一激活层为ReLU(Rectified Linear Unit,整流线性单元),标准化层为Batch Norm(Batch Normalization),长短期记忆层为LSTM(Long Short-TermMemory,长短期记忆网络),线性层为Linear(线性网络),第二激活层为Sigmoid(激活网络)。
解码子模型用于执行上述步骤304-305以及上述步骤311-312。
可选地,语音识别模型还包括语言子模型,该语言子模型用于获取从起始字符到当前确定的尾字符的后继字符构成的路径对应的语言概率,以便解码子模型基于该语言概率来获取该后继字符对应的匹配度。该过程与上述步骤304中获取后继字符对应的匹配度的过程同理,在此不再赘述,该语言子模型与上述图3所示的实施例中的语言处理模型相同。
如图6所示,本申请实施例提供的语音识别方法由服务器执行,终端安装由该服务器提供的目标应用,对语音数据识别的过程包括:
601、终端基于目标应用进行录音,得到待识别的语音数据,将语音数据分成多个数据包,采取分包上传的方式,通过该目标应用向服务器发送该多个数据包。
602、服务器接收该多个数据包,基于该多个数据包得到该语音数据,基于特征提取子模型,将语音数据分成多个音频帧,对每个音频帧进行第一特征提取,得到每个音频帧的音频特征,对于每个音频帧,将该音频帧对应的其他音频帧的音频特征及该音频帧的音频特征进行第二特征提取,得到该音频帧的语义特征,即得到多个音频帧的语义特征。基于第一判断子模型,依次遍历多个音频帧,对于当前遍历的音频帧,确定该音频帧的语义特征中最大的第一概率是否为静音字符,在该音频帧的语义特征中最大的第一概率不是静音字符的情况下,确定该音频帧的语义特征的区分度,确定该音频帧的语义特征的区分度是否大于第一阈值,并确定该音频帧的语义特征的区分度是否属于裁剪区间内。在该音频帧的语义特征中最大的第一概率不是静音字符、且该音频帧的语义特征的区分度大于第一阈值的情况下,基于解码监控子模型,对当前确定的多个尾字符对应的匹配度进行卷积处理,得到第一匹配参数及第二匹配参数。并且,在更新尾字符的过程中,基于该语言子模型,获取从起始字符到当前确定的尾字符的后继字符构成的路径对应的语言概率,基于解码子模型按照上述步骤304,基于语言子模型输出的语言概率,获取当前确定的尾字符的后继字符对应的匹配度,之后执行上述步骤305以及步骤311。在遍历完成多个音频帧后,得到该语音数据的语义信息。
基于本申请实施例提供的语音识别方法与相关技术中的语音识别方法进行对比,如表2所示。通过对语音识别的字错误率WER(Word Error Rate)、语音识别耗时进行对比,基于本申请实施例提供的方法来进行语音识别时,语音识别效率更高,能够兼顾语音识别效率和准确性。
表2
/>
基于上述所示的实施例,本申请提供的语音识别方法能够应用于多种场景下。例如,在语音控制设备的场景下,第一终端具有控制多个第二终端的权限。用户通过第一终端录制用户发出的声音,得到语音数据,第一终端按照本申请实施例提供的方法,对语音数据进行语音识别,得到该语音数据的语义信息,基于该语义信息向该语义信息指示的第二终端发送指令,第二终端接收该指令,基于该指令执行操作。例如,用户唤醒智能音箱,用户说“打开电视”,智能音箱录制用户发出的声音,得到语音数据,按照本申请实施例提供的方法,对语音数据进行语音识别,得到该语音数据的语义信息,该语义信息为“打开电视”,基于该语义信息,向电视发送启动指令,电视接收到该启动指令,基于该启动指令开始启动,实现了语音控制电视开启的方式。
再例如,在智能对话场景下,用户与智能机器人对话时,智能机器人录制用户发出的声音,得到语音数据,按照本申请实施例提供的方法,对语音数据进行语音识别,得到该语音数据的语义信息,确定该语义信息对应的答复信息,将该答复信息转换成语音数据并进行播放,实现了用户与智能机器人之间的对话。或者,智能机器人在获取到语音数据后,将语音数据发送至该智能机器人对应的服务器,由该服务器按照本申请实施例提供的方法,对语音数据进行语音识别,得到该语音数据的语义信息,确定该语义信息对应的答复信息,向智能机器人发送答复信息,该智能机器人将该答复信息转换成语音数据并进行播放,实现了用户与智能机器人之间的对话。
需要说明的是,本申请仅是以上述两个场景为例来说明的,而在另一实施例中,本申请实施例提供的方法还能够应用在其他场景下,如智能在线语音识别场景下或其他场景下。
图7是本申请实施例提供的一种语音识别装置的结构示意图,如图7所示,该装置包括:
获取模块701,用于获取语言信息,语言信息包括多个字符及至少两个字符之间的连接关系;
获取模块701,还用于获取语音数据中的多个音频帧的语义特征,语义特征包括音频帧分别属于多个字符的第一概率;
提取模块702,用于基于多个语义特征中区分度大于第一阈值的语义特征,从语言信息中提取与语音数据匹配的语义路径,区分度表示音频帧分别属于多个字符的第一概率之间的差异程度,语义路径由至少一个字符连接构成;
确定模块703,用于将语义路径确定为语音数据的语义信息。
在一种可能实现方式中,语言信息中的每个字符仅有一个前序字符,如图8所示,提取模块702,包括:
遍历单元7021,用于遍历语音数据中的多个音频帧;
获取单元7022,用于对于遍历到的语义特征的区分度大于第一阈值的音频帧,基于音频帧的语义特征,获取当前确定的尾字符的后继字符对应的匹配度,其中初次确定的尾字符为语言信息中的起始字符,后继字符对应的匹配度指示从起始字符到后继字符构成的路径与语音数据的匹配程度;
确定单元7023,用于在后继字符对应的匹配度满足第一匹配条件的情况下,将尾字符删除,将后继字符确定为本次最新的尾字符;
确定单元7023,还用于在多个音频帧遍历完成后,确定从起始字符到最新确定的尾字符构成的语义路径。
在另一种可能实现方式中,获取单元7022,用于对于当前确定的尾字符中匹配度满足第二匹配条件的尾字符,基于音频帧的语义特征,获取尾字符的后继字符对应的匹配度。
在另一种可能实现方式中,如图8所示,装置还包括:
处理模块704,用于对当前确定的多个尾字符对应的匹配度进行卷积处理,得到第一匹配参数;
确定模块703,还用于对于当前确定的每个尾字符,在尾字符对应的匹配度与第一匹配参数的乘积大于第二阈值的情况下,确定尾字符对应的匹配度满足第二匹配条件。
在另一种可能实现方式中,如图8所示,装置还包括:
处理模块704,用于对当前确定的多个尾字符对应的匹配度进行卷积处理,得到第二匹配参数;
确定模块703,还用于在后继字符对应的匹配度与第二匹配参数的乘积大于第三阈值的情况下,确定后继字符对应的匹配度满足第一匹配条件。
在另一种可能实现方式中,获取单元7022,用于从音频帧的语义特征中,确定音频帧属于后继字符的第一概率;对第一概率及尾字符对应的匹配度进行加权融合,得到后继字符对应的匹配度。
在另一种可能实现方式中,获取模块701,还用于获取从起始字符到后继字符构成的路径对应的语言概率,语言概率指示路径的语言逻辑的合理程度;
获取单元7022,用于对第一概率、语言概率及尾字符对应的匹配度进行加权融合,得到后继字符对应的匹配度。
在另一种可能实现方式中,如图8所示,装置还包括:
删除模块705,用于将当前确定的多个尾字符中匹配度不大于匹配度阈值的尾字符删除。
在另一种可能实现方式中,确定模块703,还用于确定当前确定的多个尾字符对应的最大匹配度;在音频帧的语义特征的区分度属于剪裁区间内的情况下,确定第四阈值与裁减系数的乘积;将最大匹配度与乘积之间的差值确定为匹配度阈值;或者,在音频帧的语义特征的区分度不属于剪裁区间内的情况下,将最大匹配度与第四阈值之间的差值确定为匹配度阈值。
在另一种可能实现方式中,提取模块702,用于基于多个语义特征中的目标语义特征,从语言信息中提取与语音数据匹配的语义路径;
其中,目标语义特征的区分度大于第一阈值,且目标语义特征中最大第一概率对应的字符不是静音字符。
在另一种可能实现方式中,语义特征还包括第二概率,第二概率指示多个第一概率的分布情况,确定模块703,还用于对于任一音频帧的语义特征,将语义特征中多个第一概率与第二概率的方差,确定为语义特征的区分度。
在另一种可能实现方式中,获取模块701,用于对语音数据进行分帧处理,得到多个音频帧;对于每个音频帧,基于音频帧对应的其他音频帧,对音频帧进行特征提取,得到音频帧的语义特征。
需要说明的是:上述实施例提供的语音识别装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音识别装置与语音识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现上述实施例的语音识别方法所执行的操作。
可选地,计算机设备提供为终端。图9示出了本申请一个示例性实施例提供的终端900的结构框图。该终端900可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑、车载终端或台式电脑。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
终端900包括有:处理器901和存储器902。
处理器901可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器901可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器901还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器902可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器902中的非暂态的计算机可读存储介质用于存储至少一个计算机程序,该至少一个计算机程序用于被处理器901所执行以实现本申请中方法实施例提供的语音识别方法。
在一些实施例中,终端900还可选包括有:外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地,外围设备包括:射频电路904、显示屏905、摄像头组件906、音频电路907和电源909中的至少一种。
外围设备接口903可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中,处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上;在一些其他实施例中,处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路904用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路904包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路904还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏905用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时,显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时,显示屏905还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏905可以为一个,设置在终端900的前面板;在另一些实施例中,显示屏905可以为至少两个,分别设置在终端900的不同表面或呈折叠设计;在另一些实施例中,显示屏905可以是柔性显示屏,设置在终端900的弯曲表面上或折叠面上。甚至,显示屏905还可以设置成非矩形的不规则图形,也即异形屏。显示屏905可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件906用于采集图像或视频。可选地,摄像头组件906包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器901进行处理,或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路907还可以包括耳机插孔。
电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于:加速度传感器911、陀螺仪传感器912、压力传感器913、光学传感器914以及接近传感器915。
加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号,控制显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器912可以检测终端900的机体方向及转动角度,陀螺仪传感器912可以与加速度传感器911协同采集用户对终端900的3D动作。处理器901根据陀螺仪传感器912采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器913可以设置在终端900的侧边框和/或显示屏905的下层。当压力传感器913设置在终端900的侧边框时,可以检测用户对终端900的握持信号,由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在显示屏905的下层时,由处理器901根据用户对显示屏905的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
光学传感器914用于采集环境光强度。在一个实施例中,处理器901可以根据光学传感器914采集的环境光强度,控制显示屏905的显示亮度。具体地,当环境光强度较高时,调高显示屏905的显示亮度;当环境光强度较低时,调低显示屏905的显示亮度。在另一个实施例中,处理器901还可以根据光学传感器914采集的环境光强度,动态调整摄像头组件906的拍摄参数。
接近传感器915,也称距离传感器,设置在终端900的前面板。接近传感器915用于采集用户与终端900的正面之间的距离。在一个实施例中,当接近传感器915检测到用户与终端900的正面之间的距离逐渐变小时,由处理器901控制显示屏905从亮屏状态切换为息屏状态;当接近传感器915检测到用户与终端900的正面之间的距离逐渐变大时,由处理器901控制显示屏905从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图9中示出的结构并不构成对终端900的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
可选地,计算机设备提供为服务器。图10是本申请实施例提供的一种服务器的结构示意图,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)1001和一个或一个以上的存储器1002,其中,存储器1002中存储有至少一条计算机程序,至少一条计算机程序由处理器1001加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现上述实施例的语音识别方法所执行的操作。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述方面所述的语音识别方法所执行的操作。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请实施例的可选实施例,并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (25)
1.一种语音识别方法,其特征在于,所述方法包括:
获取语言信息,所述语言信息包括多个字符及至少两个所述字符之间的连接关系,所述语言信息中的每个所述字符仅有一个前序字符;
获取语音数据中的多个音频帧的语义特征,所述语义特征包括所述音频帧分别属于多个所述字符的第一概率;
遍历所述语音数据中的多个所述音频帧;
对于遍历到的所述语义特征的区分度大于第一阈值的所述音频帧,基于所述音频帧的语义特征,获取当前确定的尾字符的后继字符对应的匹配度,其中初次确定的尾字符为所述语言信息中的起始字符,所述后继字符对应的匹配度指示从所述起始字符到所述后继字符构成的路径与所述语音数据的匹配程度,所述区分度表示所述音频帧分别属于多个所述字符的所述第一概率之间的差异程度;
在所述后继字符对应的匹配度满足第一匹配条件的情况下,将所述尾字符删除,将所述后继字符确定为本次最新的尾字符;
在所述多个音频帧遍历完成后,确定从所述起始字符到最新确定的尾字符构成的语义路径,所述语义路径由至少一个所述字符连接构成;
将所述语义路径确定为所述语音数据的语义信息。
2.根据权利要求1所述的方法,其特征在于,所述基于所述音频帧的语义特征,获取当前确定的尾字符的后继字符对应的匹配度,包括:
对于当前确定的尾字符中匹配度满足第二匹配条件的尾字符,基于所述音频帧的语义特征,获取所述尾字符的后继字符对应的匹配度。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对当前确定的多个尾字符对应的匹配度进行卷积处理,得到第一匹配参数;
对于当前确定的每个尾字符,在所述尾字符对应的匹配度与所述第一匹配参数的乘积大于第二阈值的情况下,确定所述尾字符对应的匹配度满足所述第二匹配条件。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对当前确定的多个尾字符对应的匹配度进行卷积处理,得到第二匹配参数;
在所述后继字符对应的匹配度与所述第二匹配参数的乘积大于第三阈值的情况下,确定所述后继字符对应的匹配度满足所述第一匹配条件。
5.根据权利要求1所述的方法,其特征在于,所述基于所述音频帧的语义特征,获取当前确定的尾字符的后继字符对应的匹配度,包括:
从所述音频帧的语义特征中,确定所述音频帧属于所述后继字符的第一概率;
对所述第一概率及所述尾字符对应的匹配度进行加权融合,得到所述后继字符对应的匹配度。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取从所述起始字符到所述后继字符构成的路径对应的语言概率,所述语言概率指示所述路径的语言逻辑的合理程度;
所述对所述第一概率及所述尾字符对应的匹配度进行加权融合,得到所述后继字符对应的匹配度,包括:
对所述第一概率、所述语言概率及所述尾字符对应的匹配度进行加权融合,得到所述后继字符对应的匹配度。
7.根据权利要求1所述的方法,其特征在于,所述在所述后继字符对应的匹配度满足第一匹配条件的情况下,将所述尾字符删除,将所述后继字符确定为本次最新的尾字符之后,所述方法还包括:
将当前确定的多个尾字符中匹配度不大于匹配度阈值的尾字符删除。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
确定当前确定的多个尾字符对应的最大匹配度;
在所述音频帧的语义特征的区分度属于剪裁区间内的情况下,确定第四阈值与裁减系数的乘积;将所述最大匹配度与所述乘积之间的差值确定为所述匹配度阈值;或者,
在所述音频帧的语义特征的区分度不属于所述剪裁区间内的情况下,将所述最大匹配度与所述第四阈值之间的差值确定为所述匹配度阈值。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于多个所述语义特征中的目标语义特征,从所述语言信息中提取与所述语音数据匹配的语义路径;
其中,所述目标语义特征的区分度大于所述第一阈值,且所述目标语义特征中最大第一概率对应的字符不是静音字符。
10.根据权利要求1-9任一所述的方法,其特征在于,所述语义特征还包括第二概率,所述第二概率指示多个所述第一概率的分布情况,所述方法还包括:
对于任一所述音频帧的语义特征,将所述语义特征中多个所述第一概率与所述第二概率的方差,确定为所述语义特征的区分度。
11.根据权利要求1-9任一所述的方法,其特征在于,所述获取语音数据中的多个音频帧的语义特征,包括:
对所述语音数据进行分帧处理,得到多个所述音频帧;
对于每个所述音频帧,基于所述音频帧对应的其他音频帧,对所述音频帧进行特征提取,得到所述音频帧的语义特征。
12.一种语音识别装置,其特征在于,所述装置包括:
获取模块,用于获取语言信息,所述语言信息包括多个字符及至少两个所述字符之间的连接关系,所述语言信息中的每个所述字符仅有一个前序字符;
所述获取模块,还用于获取语音数据中的多个音频帧的语义特征,所述语义特征包括所述音频帧分别属于多个所述字符的第一概率;
提取模块,包括:
遍历单元,用于遍历所述语音数据中的多个所述音频帧;
获取单元,用于对于遍历到的所述语义特征的区分度大于第一阈值的所述音频帧,基于所述音频帧的语义特征,获取当前确定的尾字符的后继字符对应的匹配度,其中初次确定的尾字符为所述语言信息中的起始字符,所述后继字符对应的匹配度指示从所述起始字符到所述后继字符构成的路径与所述语音数据的匹配程度,所述区分度表示所述音频帧分别属于多个所述字符的所述第一概率之间的差异程度;
确定单元,用于在所述后继字符对应的匹配度满足第一匹配条件的情况下,将所述尾字符删除,将所述后继字符确定为本次最新的尾字符;
所述确定单元,还用于在所述多个音频帧遍历完成后,确定从所述起始字符到最新确定的尾字符构成的语义路径,所述语义路径由至少一个所述字符连接构成;
确定模块,用于将所述语义路径确定为所述语音数据的语义信息。
13.根据权利要求12所述的装置,其特征在于,所述获取单元,用于对于当前确定的尾字符中匹配度满足第二匹配条件的尾字符,基于所述音频帧的语义特征,获取所述尾字符的后继字符对应的匹配度。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括:
处理模块,用于对当前确定的多个尾字符对应的匹配度进行卷积处理,得到第一匹配参数;
所述确定模块,还用于对于当前确定的每个尾字符,在所述尾字符对应的匹配度与所述第一匹配参数的乘积大于第二阈值的情况下,确定所述尾字符对应的匹配度满足所述第二匹配条件。
15.根据权利要求12所述的装置,其特征在于,所述装置还包括:
处理模块,用于对当前确定的多个尾字符对应的匹配度进行卷积处理,得到第二匹配参数;
所述确定模块,还用于在所述后继字符对应的匹配度与所述第二匹配参数的乘积大于第三阈值的情况下,确定所述后继字符对应的匹配度满足所述第一匹配条件。
16.根据权利要求12所述的装置,其特征在于,所述获取单元,用于从所述音频帧的语义特征中,确定所述音频帧属于所述后继字符的第一概率;对所述第一概率及所述尾字符对应的匹配度进行加权融合,得到所述后继字符对应的匹配度。
17.根据权利要求16所述的装置,其特征在于,所述获取模块,还用于获取从所述起始字符到所述后继字符构成的路径对应的语言概率,所述语言概率指示所述路径的语言逻辑的合理程度;
所述获取单元,用于对所述第一概率、所述语言概率及所述尾字符对应的匹配度进行加权融合,得到所述后继字符对应的匹配度。
18.根据权利要求12所述的装置,其特征在于,所述装置还包括:
删除模块,用于将当前确定的多个尾字符中匹配度不大于匹配度阈值的尾字符删除。
19.根据权利要求18所述的装置,其特征在于,所述确定模块,还用于确定当前确定的多个尾字符对应的最大匹配度;在所述音频帧的语义特征的区分度属于剪裁区间内的情况下,确定第四阈值与裁减系数的乘积;将所述最大匹配度与所述乘积之间的差值确定为所述匹配度阈值;或者,在所述音频帧的语义特征的区分度不属于所述剪裁区间内的情况下,将所述最大匹配度与所述第四阈值之间的差值确定为所述匹配度阈值。
20.根据权利要求12所述的装置,其特征在于,所述提取模块,用于基于多个所述语义特征中的目标语义特征,从所述语言信息中提取与所述语音数据匹配的语义路径;
其中,所述目标语义特征的区分度大于所述第一阈值,且所述目标语义特征中最大第一概率对应的字符不是静音字符。
21.根据权利要求12-20任一所述的装置,其特征在于,所述语义特征还包括第二概率,所述第二概率指示多个所述第一概率的分布情况,所述确定模块,还用于对于任一所述音频帧的语义特征,将所述语义特征中多个所述第一概率与所述第二概率的方差,确定为所述语义特征的区分度。
22.根据权利要求12-20任一所述的装置,其特征在于,所述获取模块,用于对所述语音数据进行分帧处理,得到多个所述音频帧;对于每个所述音频帧,基于所述音频帧对应的其他音频帧,对所述音频帧进行特征提取,得到所述音频帧的语义特征。
23.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现如权利要求1至11任一权利要求所述的语音识别方法所执行的操作。
24.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至11任一权利要求所述的语音识别方法所执行的操作。
25.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至11任一权利要求所述的语音识别方法所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111536323.9A CN114333774B (zh) | 2021-12-15 | 2021-12-15 | 语音识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111536323.9A CN114333774B (zh) | 2021-12-15 | 2021-12-15 | 语音识别方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114333774A CN114333774A (zh) | 2022-04-12 |
CN114333774B true CN114333774B (zh) | 2024-02-23 |
Family
ID=81052647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111536323.9A Active CN114333774B (zh) | 2021-12-15 | 2021-12-15 | 语音识别方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114333774B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111352086B (zh) * | 2020-03-06 | 2022-08-02 | 电子科技大学 | 一种基于深度卷积神经网络的未知目标识别方法 |
CN117238276B (zh) * | 2023-11-10 | 2024-01-30 | 深圳市托普思维商业服务有限公司 | 一种基于智能化语音数据识别的分析纠正系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070102267A (ko) * | 2006-04-14 | 2007-10-18 | 학교법인 포항공과대학교 | 대화 관리 장치 및 그를 위한 대화 예제 기반의 대화모델링기법을 통한 대화 관리 방법 |
CN101464898A (zh) * | 2009-01-12 | 2009-06-24 | 腾讯科技(深圳)有限公司 | 一种提取文本主题词的方法 |
CN106776564A (zh) * | 2016-12-21 | 2017-05-31 | 张永成 | 一种基于知识图谱的语义识别方法及系统 |
CN111597779A (zh) * | 2020-04-23 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、设备以及存储介质 |
CN112397053A (zh) * | 2020-11-02 | 2021-02-23 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、电子设备及可读存储介质 |
CN113744368A (zh) * | 2021-08-12 | 2021-12-03 | 北京百度网讯科技有限公司 | 动画合成方法、装置、电子设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101055578A (zh) * | 2006-04-12 | 2007-10-17 | 龙搜(北京)科技有限公司 | 基于规则的文档内容挖掘器 |
US8374859B2 (en) * | 2008-08-20 | 2013-02-12 | Universal Entertainment Corporation | Automatic answering device, automatic answering system, conversation scenario editing device, conversation server, and automatic answering method |
-
2021
- 2021-12-15 CN CN202111536323.9A patent/CN114333774B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070102267A (ko) * | 2006-04-14 | 2007-10-18 | 학교법인 포항공과대학교 | 대화 관리 장치 및 그를 위한 대화 예제 기반의 대화모델링기법을 통한 대화 관리 방법 |
CN101464898A (zh) * | 2009-01-12 | 2009-06-24 | 腾讯科技(深圳)有限公司 | 一种提取文本主题词的方法 |
CN106776564A (zh) * | 2016-12-21 | 2017-05-31 | 张永成 | 一种基于知识图谱的语义识别方法及系统 |
CN111597779A (zh) * | 2020-04-23 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、设备以及存储介质 |
CN112397053A (zh) * | 2020-11-02 | 2021-02-23 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、电子设备及可读存储介质 |
CN113744368A (zh) * | 2021-08-12 | 2021-12-03 | 北京百度网讯科技有限公司 | 动画合成方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Oluwasegun Adedugbe et al..A Cloud Computing Capability Model for Large-Scale Semantic Annotation.2020 13th International Conference on Developments in eSystems Engineering (DeSE).2020,全文. * |
韦向峰 ; 张全 ; 熊亮 ; .一种基于语义分析的汉语语音识别纠错方法.计算机科学.2006,(第10期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN114333774A (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299315B (zh) | 多媒体资源分类方法、装置、计算机设备及存储介质 | |
CN105654952B (zh) | 用于输出语音的电子设备、服务器和方法 | |
US20220172737A1 (en) | Speech signal processing method and speech separation method | |
CN110209784B (zh) | 消息交互方法、计算机设备及存储介质 | |
CN111933112B (zh) | 唤醒语音确定方法、装置、设备及介质 | |
CN110164421B (zh) | 语音解码方法、装置及存储介质 | |
CN110263131B (zh) | 回复信息生成方法、装置及存储介质 | |
CN110570840B (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
CN114333774B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN111753498B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN111739517B (zh) | 语音识别方法、装置、计算机设备及介质 | |
CN110162604B (zh) | 语句生成方法、装置、设备及存储介质 | |
CN111491123A (zh) | 视频背景处理方法、装置及电子设备 | |
WO2022227507A1 (zh) | 唤醒程度识别模型训练方法及语音唤醒程度获取方法 | |
CN111950255B (zh) | 诗词生成方法、装置、设备及存储介质 | |
CN113409770A (zh) | 发音特征处理方法、装置、服务器及介质 | |
CN115168643B (zh) | 音频处理方法、装置、设备及计算机可读存储介质 | |
CN115116437B (zh) | 语音识别方法、装置、计算机设备、存储介质及产品 | |
CN111341307A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN116956814A (zh) | 标点预测方法、装置、设备及存储介质 | |
CN116977884A (zh) | 视频切分模型的训练方法、视频切分方法及装置 | |
CN114328815A (zh) | 文本映射模型的处理方法、装置、计算机设备及存储介质 | |
CN114462580A (zh) | 文本识别模型的训练方法、文本识别方法、装置和设备 | |
CN113822084A (zh) | 语句翻译方法、装置、计算机设备及存储介质 | |
CN113823266A (zh) | 关键词检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40070830 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |