CN114842871A - 语音数据的处理方法和装置、存储介质及电子装置 - Google Patents
语音数据的处理方法和装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN114842871A CN114842871A CN202210302059.0A CN202210302059A CN114842871A CN 114842871 A CN114842871 A CN 114842871A CN 202210302059 A CN202210302059 A CN 202210302059A CN 114842871 A CN114842871 A CN 114842871A
- Authority
- CN
- China
- Prior art keywords
- voice
- data
- recognition
- misrecognized
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title description 5
- 230000003993 interaction Effects 0.000 claims abstract description 165
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 137
- 238000000034 method Methods 0.000 claims abstract description 66
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 19
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000004364 calculation method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 238000012937 correction Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000012163 sequencing technique Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请公开了一种语音数据的处理方法和装置、存储介质及电子装置,上述方法包括:从语音交互数据中确定误识别语音数据;通过多种语音识别算法分别对所述误识别语音数据进行重识别,得到多个第一识别结果;根据预设算法计算所述多个第一识别结果的分数,确定分数最大的第一识别结果作为所述误识别语音数据的识别结果;采用上述技术方案,解决了相关技术中,在智能电器的语音交互过程中,出现识别错误的语音数据时,无法对错误的语音数据进行再次识别等问题。
Description
技术领域
本申请涉及通信领域,具体而言,涉及一种语音数据的处理方法和装置、存储介质及电子装置。
背景技术
在智能电器进行语音交互时,有时会出现语音识别错误或无法识别的问题,影响用户的使用体验。
相关技术中,通常是从算法、应用场景和模型数据等方面提升语音识别的正确率。具体而言,包括:不断优化语音识别算法、针对用户不同的口音进行语音识别训练等。但上述技术方案仅仅针对一个问题进行优化,而语音识别不仅依赖于产品侧的性能,还需要考虑到用户的实际情况,用户可能存在浓厚的地域口音,因此以上方案并不能切实满足用户的需求。
针对相关技术中,在智能电器的语音交互过程中,出现识别错误的语音数据时,无法对错误的语音数据进行再次识别,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种语音数据的处理方法和装置、存储介质及电子装置,以至少解决相关技术中,智能电器语音交互时出现的语音识别错误的问题。
根据本申请实施例的一个实施例,提供了一种语音数据的处理方法,包括:从语音交互数据中确定误识别语音数据;通过多种语音识别算法分别对所述误识别语音数据进行重识别,得到多个第一识别结果;根据预设算法计算所述多个第一识别结果的分数,确定分数最大的第一识别结果作为所述误识别语音数据的识别结果。
在一个示例性实施例中,从语音交互数据中确定误识别语音数据,包括以下步骤中的至少一个:接收第一对象针对控制操作的反馈指令,根据所述反馈指令确定误识别语音数据,其中,所述控制操作为响应于第一对象的第一语音交互数据的操作;根据预设时间内接收到的第一对象的第二语音交互数据的数量,确定误识别语音数据;其中,所述语音交互数据包括以下至少之一:第一语音交互数据,第二语音交互数据。
在一个示例性实施例中,接收第一对象针对控制操作的反馈指令,根据所述反馈指令确定误识别语音数据,包括:根据预设的语音识别算法对所述第一语音交互数据进行识别,得到所述第一语音交互数据对应的控制操作;接收所述第一对象根据所述控制操作所发送的反馈指令;在所述反馈指令包括预设关键词的情况下,确定所述第一语音数据为误识别语音数据。
在一个示例性实施例中,根据预设时间内接收到的第一对象的所述第二语音交互数据的数量,确定误识别语音数据,包括:通过流式计算算法计算在预设时间内的所述第二语音交互数据的数量;在所述预设时间内的第二语音交互数据的数量大于第一预设阈值的情况下,确定所述预设时间内的第二语音交互数据为误识别语音数据。
在一个示例性实施例中,根据预设算法计算所述多个第一识别结果的分数,包括:从配置中心获取所述多种语音识别算法的算法系数,并将所述多种语音识别算法的算法系数作为所述多个第一识别结果的第一分数,其中,所述算法系数用于指示所述多种语音识别算法的成熟度,所述配置中心用于存储所述算法系数;确定所述多个第一识别结果中的识别结果相同的第三识别结果,以及所述多个第一识别结果中除所述第三识别结果之外的其他识别结果;获取所述第三识别结果对应的多个第一分数,将所述多个第一分数之和作为所述第三识别结果的分数,以及将所述其他识别结果分别对应的第一分数作为所述其他识别结果的分数。
在一个示例性实施例中,确定分数最大的第一识别结果作为所述误识别语音数据的识别结果之前,所述方法还包括:获取所述分数最大的第一识别结果的分数,确定所述分数是否大于第二预设阈值,其中,所述第二预设阈值指示所述第一识别结果的分数的有效值;在所述分数大于第二预设阈值的情况下,确定所述分数最大的第一识别结果作为所述误识别语音数据的识别结果。
在一个示例性实施例中,根据预设算法计算所述多个第一识别结果的分数,确定分数最大的第一识别结果作为所述误识别语音数据的识别结果之后,所述方法还包括:将所述误识别语音数据的识别结果确定为所述误识别语音数据的标签;将多个误识别语音数据和所述多个误识别语音数据对应的标签作为训练样本,根据所述训练样本对所述语音识别算法的参数进行调整,得到调整后的语音识别算法。
根据本申请实施例的另一个实施例,还提供了一种语音数据的处理装置,包括:确定模块,用于从语音交互数据中确定误识别语音数据;识别模块,用于通过多种语音识别算法分别对所述误识别语音数据进行重识别,得到多个第一识别结果;计算模块,用于根据预设算法计算所述多个第一识别结果的分数,确定分数最大的第一识别结果作为所述误识别语音数据的识别结果。
根据本申请实施例的另一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述语音数据的处理方法。
根据本申请实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的语音数据的处理方法。
在本申请实施例中,通过从语音交互数据中确定误识别语音数据;并通过多种语音识别算法分别对所述误识别语音数据进行重识别,得到多个第一识别结果;根据预设算法分别计算所述多个第一识别结果的分数并排序,确定分数最大的第一识别结果作为所述误识别语音数据的识别结果,以确保得到的识别结果最接近正确结果;采用上述技术方案,解决了相关技术中,在智能电器的语音交互过程中,出现识别错误的语音数据时,无法对错误的语音数据进行再次识别。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请实施例的一种可选的语音数据的处理方法的语音交互设备的硬件结构框图;
图2是本申请实施例的一种可选的语音数据的处理方法的流程示意图;
图3是根据本申请实施例的一种可选的语音交互设备的整体结构示意图;
图4是根据本申请实施例的一种可选的误识别语音数据的确定方法的流程示意图;
图5是根据本申请实施例的另一种可选的误识别语音数据的确定方法的流程示意图;
图6是根据本申请实施例的一种可选的误识别语音数据的识别结果确定方法的流程示意图;
图7是根据本申请实施例的另一种可选的语音数据的处理装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例所提供的方法实施例可以在语音交互设备或者类似的运算系统中执行。以运行在语音交互设备上为例,图1是本申请实施例的一种语音数据的处理方法的语音交互设备的硬件结构框图。如图1所示,语音交互设备可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理系统)和用于存储数据的存储器104,在一个示例性实施例中,上述语音交互设备还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述语音交互设备的结构造成限定。例如,语音交互设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的语音数据的处理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储系统、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至语音数据。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输系统106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括语音交互设备的通信供应商提供的无线网络。在一个实例中,传输系统106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。
在本实施例中提供了一种语音数据的处理方法,应用于上述语音交互设备,图2是根据本申请实施例的一种可选的语音数据的处理方法的流程图,该流程包括如下步骤:
步骤S202,从语音交互数据中确定误识别语音数据;
步骤S204,通过多种语音识别算法分别对所述误识别语音数据进行重识别,得到多个第一识别结果;
步骤S206,根据预设算法计算所述多个第一识别结果的分数,确定分数最大的第一识别结果作为所述误识别语音数据的识别结果。
通过上述步骤,从语音交互数据中确定误识别语音数据;通过多种语音识别算法分别对所述误识别语音数据进行重识别,得到多个第一识别结果;根据预设算法分别计算所述多个第一识别结果的分数并排序,在确定最高得分超过预设阈值时,确定分数最大的第一识别结果作为所述误识别语音数据的识别结果以确保得到的识别结果最接近正确结果;采用上述技术方案,解决了相关技术中,在智能电器的语音交互过程中,出现识别错误的语音数据时,无法对错误的语音数据进行再次识别,实现了自动提取并纠正识别错误的语音数据的技术效果。
需要说明的是,上述从语音交互数据中确定误识别语音数据可以理解为从大量的用户实际语音交互数据中确定出识别错误的语音数据。
需要说明的是,上述多种语音识别算法可以为自研语音识别算法,也可以为第三方提供的语音识别服务,本申请对此不做限制。
在一个示例性实施例中,从语音交互数据中确定误识别语音数据,包括以下步骤中的至少一个:接收第一对象针对控制操作的反馈指令,根据所述反馈指令确定误识别语音数据,其中,所述控制操作为响应于第一对象的第一语音交互数据的操作;根据预设时间内接收到的第一对象的第二语音交互数据的数量,确定误识别语音数据;其中,所述语音交互数据包括以下至少之一:第一语音交互数据,第二语音交互数据。
为了从大量的用户实际语音交互数据中确定出误识别的语音数据,本申请提出以下两种方法:在执行完识别出的指令后,通过接收用户可能发出的的反馈指令,将该反馈指令所指示的第一语音交互数据确定为误识别语音数据;通过流式计算方法对语音交互数据进行统计判断,对于满足条件的第二语音交互数据,将其确定为误识别语音数据;其中,第一语音交互数据和第二语音交互数据都属于语音交互数据,即都为用户实际的语音交互数据;本申请通过以上至少之一的方式从大量用户实际的语音交互数据中确定出误识别的语音交互数据。
需要说明的是,上述确定误识别语音数据的方法还可以包括:将语音交互过程中语音识别无识别结果的数据确定为误识别语音数据、或将识别出的结果无法解析的语音交互数据确定为误识别语音数据,本申请对此不做限制。
基于上述过程,接收第一对象针对控制操作的反馈指令,根据所述反馈指令确定误识别语音数据,包括:根据预设的语音识别算法对所述第一语音交互数据进行识别,得到所述第一语音交互数据对应的控制操作;接收所述第一对象根据所述控制操作所发送的反馈指令;在所述反馈指令包括预设关键词的情况下,确定所述第一语音数据为误识别语音数据。
在语音交互过程中,语音交互设备先通过预设的语音识别算法对第一语音交互数据进行语音识别,得到该第一语音交互数据的识别结果,进而确定出识别结果对应的控制操作,并控制语音交互设备执行该控制操作;在语音交互设备执行完该控制操作后,接收第一对象根据语音交互设备处理完该控制操作后的结果所发送的反馈指令,判断该反馈指令中是否包含了预设关键词,例如“识别错误”,“错了”等;若反馈指令中包含了预设关键词,则确定该第一语音交互数据为误识别语音数据。
此外,根据预设时间内接收到的第一对象的所述第二语音交互数据的数量,确定误识别语音数据,包括:通过流式计算算法计算在预设时间内的所述第二语音交互数据的数量;在所述预设时间内的第二语音交互数据的数量大于第一预设阈值的情况下,确定所述预设时间内的第二语音交互数据为误识别语音数据。
在实际交互过程中,如果用户发现语音交互设备识别错了语音指令的情况下,会再次发出语音指令,直至识别正确,因此,可以基于这一点判断是否发生误识别;通过使用大数据处理技术,以流式计算按设备统计特定时间窗口的用户的第二语音交互数据,当判断第二语音交互数据数量超出第一预设阈值时,即为不正常的交互过程,则将该时间窗口内的语音交互数据确定为误识别语音数据。具体而言,例如,当统计到在一分钟内的第二语音交互数据的数量超过3次时,就将位于这一分钟内的所有第二语音交互数据标记为错误数据,等待下一步处理,以此更精确地获取到误识别语音数据。
在一个示例性实施例中,根据预设算法计算所述多个第一识别结果的分数,包括:从配置中心获取所述多种语音识别算法的算法系数,并将所述多种语音识别算法的算法系数作为所述多个第一识别结果的第一分数,其中,所述算法系数用于指示所述多种语音识别算法的成熟度,所述配置中心用于存储所述算法系数;确定所述多个第一识别结果中的识别结果相同的第三识别结果,以及所述多个第一识别结果中除所述第三识别结果之外的其他识别结果;获取所述第三识别结果对应的多个第一分数,将所述多个第一分数之和作为所述第三识别结果的分数,以及将所述其他识别结果分别对应的第一分数作为所述其他识别结果的分数。
在通过多种语音识别算法对误识别语音数据进行重识别得到多个第一识别结果之后,需要确定出最可能正确的第一识别结果,因此,通过计算出各识别结果的分数来进行排序;先从配置中心中获取到所述多个语音识别算法的对应的算法系数,算法系数用于指示语音识别算法的成熟度,语音识别算法越成熟,算法系数越高;将各语音识别算法对应的算法系数作为各语音识别算法识别误识别语音数据得到的第一识别结果对应的第一分数;将各个相同的第一识别结果归类为多个第三识别结果,将各个第三识别结果对应的多个第一分数之和作为对应的第三识别结果的分数;具体而言,根据六种语音识别算法分别对误识别语音数据进行重识别,得到的多个第一识别结果分别为:a,a,b,b,b,c;其中六种语音识别算法对应的算法系数分别为:A,B,C,D,E,F;则第三识别结果为:a,b,c;第三识别结果的分数分别为:a=A+B;b=C+D+E。
需要说明的是,上述配置中心还可以用于存储第二预设阈值,以及其他配置数据,本申请对此不做限制。
进一步地,确定分数最大的第一识别结果作为所述误识别语音数据的识别结果之前,所述方法还包括:获取所述分数最大的第一识别结果的分数,确定所述分数是否大于第二预设阈值,其中,所述第二预设阈值指示所述第一识别结果的分数的有效值;在所述分数大于第二预设阈值的情况下,确定所述分数最大的第一识别结果作为所述误识别语音数据的识别结果。
为了避免以错误的识别结果作为误识别语音数据的识别结果,防止出现多种语音识别算法均识别错误的情况,在获取到各第一识别结果的分数之后,确定分数最大的第一识别结果的分数,对该分数值进行判断,判断是否大于第二预设阈值,第二预设阈值指示第一识别结果的分数的有效值,在该分数值大于第二预设阈值的情况下,第一识别结果的分数才为有效分数,即确定该第一识别结果为误识别语音数据的正确识别结果。
基于上述过程,根据预设算法计算所述多个第一识别结果的分数,确定分数最大的第一识别结果作为所述误识别语音数据的识别结果之后,所述方法还包括:将所述误识别语音数据的识别结果确定为所述误识别语音数据的标签;将多个误识别语音数据和所述多个误识别语音数据对应的标签作为训练样本,根据所述训练样本对所述语音识别算法的参数进行调整,得到调整后的语音识别算法。
为了不断优化语音识别算法,避免再次发生相同的误识别,在得到误识别语音数据的识别结果之后,将误识别语音数据的识别结果确定为该误识别语音数据的标签,将大量误识别语音数据及其对应的标签作为训练样本,根据该训练样本对语音识别算法的参数进行调整,以不断优化语音识别算法,使语音识别算法的识别准确率不断提高,为用户带来更好的使用体验。
图3是本申请实施例的一种可选的语音交互设备的整体结构示意图,如图3所示,各部分结构具体作用如下:
错误数据筛选模块:从大量的用户实际语音交互数据中筛选出识别错误的数据,具体而言,可以包括但不限于以下几种方式:
(1)将无识别结果的语音交互数据,或识别出的结果无法解析的语音交互数据确定为误识别语音数据;
(2)为智能电器增加语音判错的入口:在识别出用户的语音指令并执行后,开启智能电器的语音判错的入口,接收用户可能发出的判错语音指令,在接收到判错语音指令的情况下,将该语音交互数据(相当于上述第一语音交互数据)确定为误识别语音数据;
(3)在app、网站等为用户提供服务的地方,为用户提供操作历史记录,用户可以通过标记出错的功能把某次语音交互标记为错误识别,即将该次语音交互的语音交互数据确定为误识别语音数据;
(4)增加一种自动判定的方法:使用大数据处理技术,对大量用户语音交互数据进行流式计算,按设备统计特定时间窗口的用户语音交互数据,当位于该特定时间窗口的语音交互数据数量超过一定阈值时,将位于该特定时间窗口的语音交互数据(相当于上述第二语音交互数据)确定为误识别语音数据。
识别结果纠错模块:在获取到误识别语音数据后,将获取到的误识别语音数据输入到识别结果纠错模块中进行识别纠错,通过多种语音识别算法分别对误识别语音数据进行重识别,依据各语音识别算法的算法系数为对应的识别结果进行打分,将相同的识别结果的得分求和并排序,取得分结果最高的识别结果,判断该识别结果的分数是否超过一定的阈值,以确保结果的可信度,在该分数超过预设阈值的情况下,将该识别结果作为正确识别结果(相当于上述误识别语音数据的识别结果);若分数未超过预设阈值,则将该结果剔除,防止对正常数据造成干扰。
训练数据推送模块:将误识别语音数据和正确的识别结果(相当于上述误识别语音数据的识别结果)一起发送到各语音识别训练数据库,用于调整语音识别训练模型,进而优化语音识别算法,提高识别的准确率。
配置中心模块:用于存储算法系数和得分阈值等参数。
通过上述模块,将大量的用户语音数据发送到错误数据筛选模块,以确定出误识别语音数据,将误识别语音数据发送到识别结果纠错模块进行重识别,识别结果纠错模块通过多种语音识别算法分别对误识别语音数据进行重识别,并将各语音识别算法的算法系数作为分数赋给对应的识别结果,将相同的识别结果的分数对应求和作为该识别结果的得分,取得分最高的识别结果,判断该得分是否超过得分阈值,在超过得分阈值的情况下确定该识别结果为正确识别结果(相当于上述误识别语音数据的识别结果),并将误识别语音数据和正确识别结果(相当于上述误识别语音数据的识别结果)一起发送到语音识别训练数据库中,用于调整语音识别训练模型;采用上述技术方案,解决了相关技术中,智能电器语音交互时出现的语音识别错误等问题,实现了自动提取并纠正识别错误的语音数据的技术效果。
图4是根据本申请实施例的一种可选的误识别语音数据的确定方法的流程示意图,如图4所示,具体如下步骤:
步骤S402:用户发出语音“太热了”;
步骤S404:语音交互设备即智能空调识别为“热一点”;
步骤S406:执行调高空调温度并播放语音“已为您调高1度”;
步骤S408:用户发现智能空调识别错误后补充语音提示“你听错了/你识别错了”;
步骤S410:智能空调接收该语音提示将该语音交互数据确定为误识别语音数据,并播放回复语音“已收到您的报错信息”。
在本发明实施例中,通过上述步骤,语音交互设备接收用户发出的语音,识别出语音所对应的指令并执行,并开启判错入口,用户在发现语音交互设备识别错误后发出语音提示,语音交互设备通过判错入口接收到该语音提示并将该语音交互数据确定为误识别语音数据;采用上述技术方案,解决了相关技术中,智能电器语音交互时出现的语音识别错误等问题,实现了自动提取并纠正识别错误的语音数据的技术效果。
根据本申请的另一可选实施例,提出了另一种可选的误识别语音数据的确定方法的流程示意图,如图5所示:
对大量用户语音交互数据进行流式计算,按设备统计特定时间窗口(例如1分钟)内的语音交互数据的数量,筛选出各时间窗口中超过一定阈值的设备,将该设备关联的语音交互数据确定为误识别语音数据,即将超过一定阈值的该时间窗口内的语音交互数据确定为误识别语音数据。
可以理解的是,在实际语音交互过程中,智能电器没有执行或者没有正确执行用户意图时,用户会再次进行语音交互,因此会出现在短时间内出现多次语音交互的情况;通过流式计算的方法精准统计出满足条件的语音交互数据,即可确定出误识别语音数据。
图6是根据本申请实施例的一种可选的误识别语音数据的识别结果确定方法的流程示意图,如图6所示:
将获取到的误识别语音数据输入到多个语音识别算法分别进行重识别,得到多个第一识别结果,通过各语音识别算法的算法系数计算各识别结果的得分;例如,采用了三个语音识别算法进行重识别,三个语音识别算法对应的算法系数分别为:算法1系数、算法2系数、算法3系数;三个语音识别算法重识别得到的识别结果分别是:a,b,a;即算法1和算法3得到的识别结果相同,则识别结果a得分:算法1系数+算法3系数;识别结果b得分:算法2系数;将各识别结果的得分按大小排序,取识别结果得分最高的结果,判断得分是否超过一定的阈值,若超过则将该识别结果作为正确识别结果,若未超过则将结果剔除,以确保结果的可信度。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
图7是根据本申请实施例的一种语音数据的处理装置的结构框图;如图7所示,包括:
确定模块72,用于从语音交互数据中确定误识别语音数据;
识别模块74,用于通过多种语音识别算法分别对所述误识别语音数据进行重识别,得到多个第一识别结果;
计算模块76,用于根据预设算法计算所述多个第一识别结果的分数,确定分数最大的第一识别结果作为所述误识别语音数据的识别结果。
通过上述装置,从语音交互数据中确定误识别语音数据;通过多种语音识别算法分别对所述误识别语音数据进行重识别,得到多个第一识别结果;根据预设算法分别计算所述多个第一识别结果的分数并排序,在确定最高得分超过预设阈值时,确定分数最大的第一识别结果作为所述误识别语音数据的识别结果以确保得到的识别结果最接近正确结果;采用上述技术方案,解决了相关技术中,在智能电器的语音交互过程中,出现识别错误的语音数据时,无法对错误的语音数据进行再次识别,实现了自动提取并纠正识别错误的语音数据的技术效果。
在一个示例性实施例中,所述确定模块,还用于通过以下步骤中的至少一个从语音交互数据中确定误识别语音数据:接收第一对象针对控制操作的反馈指令,根据所述反馈指令确定误识别语音数据,其中,所述控制操作为响应于第一对象的第一语音交互数据的操作;根据预设时间内接收到的第一对象的第二语音交互数据的数量,确定误识别语音数据;其中,所述语音交互数据包括以下至少之一:第一语音交互数据,第二语音交互数据。
为了从大量的用户实际语音交互数据中确定出误识别的语音数据,本申请提出以下两种方法:在执行完识别出的指令后,通过接收用户可能发出的的反馈指令,将该反馈指令所指示的第一语音交互数据确定为误识别语音数据;通过流式计算方法对语音交互数据进行统计判断,对于满足条件的第二语音交互数据,将其确定为误识别语音数据;其中,第一语音交互数据和第二语音交互数据都属于语音交互数据,即都为用户实际的语音交互数据;本申请通过以上至少之一的方式从大量用户实际的语音交互数据中确定出误识别的语音交互数据。
基于上述过程,所述确定模块,还用于根据预设的语音识别算法对所述第一语音交互数据进行识别,得到所述第一语音交互数据对应的控制操作;接收所述第一对象根据所述控制操作所发送的反馈指令;在所述反馈指令包括预设关键词的情况下,确定所述第一语音数据为误识别语音数据。
在语音交互过程中,语音交互设备先通过预设的语音识别算法对第一语音交互数据进行语音识别,得到该第一语音交互数据的识别结果,进而确定出识别结果对应的控制操作,并控制语音交互设备执行该控制操作;在语音交互设备执行完该控制操作后,接收第一对象根据语音交互设备处理完该控制操作后的结果所发送的反馈指令,判断该反馈指令中是否包含了预设关键词,例如“识别错误”,“错了”等;若反馈指令中包含了预设关键词,则确定该第一语音交互数据为误识别语音数据。
此外,所述计算模块,还用于通过流式计算算法计算在预设时间内的所述第二语音交互数据的数量;在所述预设时间内的第二语音交互数据的数量大于第一预设阈值的情况下,确定所述预设时间内的第二语音交互数据为误识别语音数据。
在实际交互过程中,如果用户发现语音交互设备识别错了语音指令的情况下,会再次发出语音指令,直至识别正确,因此,可以基于这一点判断是否发生误识别;通过使用大数据处理技术,以流式计算按设备统计特定时间窗口的用户的第二语音交互数据,当判断第二语音交互数据数量超出第一预设阈值时,即为不正常的交互过程,则将该时间窗口内的语音交互数据确定为误识别语音数据。具体而言,例如,当统计到在一分钟内的第二语音交互数据的数量超过3次时,就将位于这一分钟内的所有第二语音交互数据标记为错误数据,等待下一步处理,以此更精确地获取到误识别语音数据。
在一个示例性实施例中,所述计算模块,还用于从配置中心获取所述多种语音识别算法的算法系数,并将所述多种语音识别算法的算法系数作为所述多个第一识别结果的第一分数,其中,所述算法系数用于指示所述多种语音识别算法的成熟度,所述配置中心用于存储所述算法系数;确定所述多个第一识别结果中的识别结果相同的第三识别结果,以及所述多个第一识别结果中除所述第三识别结果之外的其他识别结果;获取所述第三识别结果对应的多个第一分数,将所述多个第一分数之和作为所述第三识别结果的分数,以及将所述其他识别结果分别对应的第一分数作为所述其他识别结果的分数。
在通过多种语音识别算法对误识别语音数据进行重识别得到多个第一识别结果之后,需要确定出最可能正确的第一识别结果,因此,通过计算出各识别结果的分数来进行排序;先从配置中心中获取到所述多个语音识别算法的对应的算法系数,算法系数用于指示语音识别算法的成熟度,语音识别算法越成熟,算法系数越高;将各语音识别算法对应的算法系数作为各语音识别算法识别误识别语音数据得到的第一识别结果对应的第一分数;将各个相同的第一识别结果归类为多个第三识别结果,将各个第三识别结果对应的多个第一分数之和作为对应的第三识别结果的分数;具体而言,根据六种语音识别算法分别对误识别语音数据进行重识别,得到的多个第一识别结果分别为:a,a,b,b,b,c;其中六种语音识别算法对应的算法系数分别为:A,B,C,D,E,F;则第三识别结果为:a,b,c;第三识别结果的分数分别为:a=A+B;b=C+D+E。
进一步地,所述识别模块,还用于获取所述分数最大的第一识别结果的分数,确定所述分数是否大于第二预设阈值,其中,所述第二预设阈值指示所述第一识别结果的分数的有效值;在所述分数大于第二预设阈值的情况下,确定所述分数最大的第一识别结果作为所述误识别语音数据的识别结果。
为了避免以错误的识别结果作为误识别语音数据的识别结果,防止出现多种语音识别算法均识别错误的情况,在获取到各第一识别结果的分数之后,确定分数最大的第一识别结果的分数,对该分数值进行判断,判断是否大于第二预设阈值,第二预设阈值指示第一识别结果的分数的有效值,在该分数值大于第二预设阈值的情况下,第一识别结果的分数才为有效分数,即确定该第一识别结果为误识别语音数据的正确识别结果。
基于上述过程,根据预设算法计算所述多个第一识别结果的分数,确定分数最大的第一识别结果作为所述误识别语音数据的识别结果之后,所述方法还包括:将所述误识别语音数据的识别结果确定为所述误识别语音数据的标签;将多个误识别语音数据和所述多个误识别语音数据对应的标签作为训练样本,根据所述训练样本对所述语音识别算法的参数进行调整,得到调整后的语音识别算法。
为了不断优化语音识别算法,避免再次发生相同的误识别,在得到误识别语音数据的识别结果之后,将误识别语音数据的识别结果确定为该误识别语音数据的标签,将大量误识别语音数据及其对应的标签作为训练样本,根据该训练样本对语音识别算法的参数进行调整,以不断优化语音识别算法,使语音识别算法的识别准确率不断提高,为用户带来更好的使用体验。
本申请的实施例还提供了一种存储介质,该存储介质包括存储的程序,其中,上述程序运行时执行上述任一项的方法。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:
S1,从语音交互数据中确定误识别语音数据;
S2,通过多种语音识别算法分别对所述误识别语音数据进行重识别,得到多个第一识别结果;
S3,根据预设算法计算所述多个第一识别结果的分数,确定分数最大的第一识别结果作为所述误识别语音数据的识别结果。
本申请的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,从语音交互数据中确定误识别语音数据;
S2,通过多种语音识别算法分别对所述误识别语音数据进行重识别,得到多个第一识别结果;
S3,根据预设算法计算所述多个第一识别结果的分数,确定分数最大的第一识别结果作为所述误识别语音数据的识别结果。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储在存储系统中由计算系统来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种语音数据的处理方法,其特征在于,包括:
从语音交互数据中确定误识别语音数据;
通过多种语音识别算法分别对所述误识别语音数据进行重识别,得到多个第一识别结果;
根据预设算法计算所述多个第一识别结果的分数,确定分数最大的第一识别结果作为所述误识别语音数据的识别结果。
2.根据权利要求1所述的语音数据的处理方法,其特征在于,从语音交互数据中确定误识别语音数据,包括以下步骤中的至少一个:
接收第一对象针对控制操作的反馈指令,根据所述反馈指令确定误识别语音数据,其中,所述控制操作为响应于第一对象的第一语音交互数据的操作;
根据预设时间内接收到的第一对象的第二语音交互数据的数量,确定误识别语音数据;
其中,所述语音交互数据包括以下至少之一:第一语音交互数据,第二语音交互数据。
3.根据权利要求2所述的语音数据的处理方法,其特征在于,接收第一对象针对控制操作的反馈指令,根据所述反馈指令确定误识别语音数据,包括:
根据预设的语音识别算法对所述第一语音交互数据进行识别,得到所述第一语音交互数据对应的控制操作;
接收所述第一对象根据所述控制操作所发送的反馈指令;
在所述反馈指令包括预设关键词的情况下,确定所述第一语音数据为误识别语音数据。
4.根据权利要求2所述的语音数据的处理方法,其特征在于,根据预设时间内接收到的第一对象的所述第二语音交互数据的数量,确定误识别语音数据,包括:
通过流式计算算法计算在预设时间内的所述第二语音交互数据的数量;
在所述预设时间内的第二语音交互数据的数量大于第一预设阈值的情况下,确定所述预设时间内的第二语音交互数据为误识别语音数据。
5.根据权利要求1-4任一项所述的语音数据的处理方法,其特征在于,根据预设算法计算所述多个第一识别结果的分数,包括:
从配置中心获取所述多种语音识别算法的算法系数,并将所述多种语音识别算法的算法系数作为所述多个第一识别结果的第一分数,其中,所述算法系数用于指示所述多种语音识别算法的成熟度,所述配置中心用于存储所述算法系数;
确定所述多个第一识别结果中的识别结果相同的第三识别结果,以及所述多个第一识别结果中除所述第三识别结果之外的其他识别结果;
获取所述第三识别结果对应的多个第一分数,将所述多个第一分数之和作为所述第三识别结果的分数,以及将所述其他识别结果分别对应的第一分数作为所述其他识别结果的分数。
6.根据权利要求5所述的语音数据的处理方法,其特征在于,确定分数最大的第一识别结果作为所述误识别语音数据的识别结果之前,所述方法还包括:
获取所述分数最大的第一识别结果的分数,确定所述分数是否大于第二预设阈值,其中,所述第二预设阈值指示所述第一识别结果的分数的有效值;
在所述分数大于第二预设阈值的情况下,确定所述分数最大的第一识别结果作为所述误识别语音数据的识别结果。
7.根据权利要求1-6任一项所述的语音数据的处理方法,其特征在于,根据预设算法计算所述多个第一识别结果的分数,确定分数最大的第一识别结果作为所述误识别语音数据的识别结果之后,所述方法还包括:
将所述误识别语音数据的识别结果确定为所述误识别语音数据的标签;
将多个误识别语音数据和所述多个误识别语音数据对应的标签作为训练样本,根据所述训练样本对所述语音识别算法的参数进行调整,得到调整后的语音识别算法。
8.一种语音数据的处理装置,其特征在于,包括:
确定模块,用于从语音交互数据中确定误识别语音数据;
识别模块,用于通过多种语音识别算法分别对所述误识别语音数据进行重识别,得到多个第一识别结果;
计算模块,用于根据预设算法计算所述多个第一识别结果的分数,确定分数最大的第一识别结果作为所述误识别语音数据的识别结果。
9.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210302059.0A CN114842871A (zh) | 2022-03-25 | 2022-03-25 | 语音数据的处理方法和装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210302059.0A CN114842871A (zh) | 2022-03-25 | 2022-03-25 | 语音数据的处理方法和装置、存储介质及电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114842871A true CN114842871A (zh) | 2022-08-02 |
Family
ID=82562652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210302059.0A Pending CN114842871A (zh) | 2022-03-25 | 2022-03-25 | 语音数据的处理方法和装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114842871A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103645876A (zh) * | 2013-12-06 | 2014-03-19 | 百度在线网络技术(北京)有限公司 | 语音输入方法和装置 |
CN105374357A (zh) * | 2015-11-23 | 2016-03-02 | 青岛海尔智能技术研发有限公司 | 一种语音识别方法、装置及语音控制系统 |
CN105810188A (zh) * | 2014-12-30 | 2016-07-27 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
CN106448675A (zh) * | 2016-10-21 | 2017-02-22 | 科大讯飞股份有限公司 | 识别文本修正方法及系统 |
CN108257602A (zh) * | 2018-01-30 | 2018-07-06 | 海信集团有限公司 | 车牌号字符串矫正方法、装置、服务器和终端 |
CN109102804A (zh) * | 2018-08-17 | 2018-12-28 | 飞救医疗科技(赣州)有限公司 | 一种语音病历终端输入的方法及其系统 |
CN110148416A (zh) * | 2019-04-23 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备和存储介质 |
-
2022
- 2022-03-25 CN CN202210302059.0A patent/CN114842871A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103645876A (zh) * | 2013-12-06 | 2014-03-19 | 百度在线网络技术(北京)有限公司 | 语音输入方法和装置 |
CN105810188A (zh) * | 2014-12-30 | 2016-07-27 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
CN105374357A (zh) * | 2015-11-23 | 2016-03-02 | 青岛海尔智能技术研发有限公司 | 一种语音识别方法、装置及语音控制系统 |
CN106448675A (zh) * | 2016-10-21 | 2017-02-22 | 科大讯飞股份有限公司 | 识别文本修正方法及系统 |
CN108257602A (zh) * | 2018-01-30 | 2018-07-06 | 海信集团有限公司 | 车牌号字符串矫正方法、装置、服务器和终端 |
CN109102804A (zh) * | 2018-08-17 | 2018-12-28 | 飞救医疗科技(赣州)有限公司 | 一种语音病历终端输入的方法及其系统 |
CN110148416A (zh) * | 2019-04-23 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107798032B (zh) | 自助语音会话中的应答消息处理方法和装置 | |
EP1704668B1 (en) | System and method for providing claimant authentication | |
JP2019509523A (ja) | 音声データ処理の方法、装置及び記憶媒体 | |
CN109065051B (zh) | 一种语音识别处理方法及装置 | |
CN106847305B (zh) | 一种处理客服电话的录音数据的方法及装置 | |
CN112365894A (zh) | 基于ai的复合语音交互方法、装置及计算机设备 | |
CN108932947B (zh) | 语音控制方法及家电设备 | |
CN109036386B (zh) | 一种语音处理方法及装置 | |
CN110401662A (zh) | 一种工控设备指纹识别方法、存储介质 | |
CN113593535B (zh) | 语音数据的处理方法及装置、存储介质、电子装置 | |
CN110751960A (zh) | 噪声数据的确定方法及装置 | |
CN109347708A (zh) | 一种语音识别方法、装置、家电设备、云服务器及介质 | |
CN108922522A (zh) | 设备的控制方法、装置、存储介质及电子装置 | |
CN110034976B (zh) | 一种数据识别的方法及装置 | |
CN117059074B (zh) | 一种基于意图识别的语音交互方法、装置及存储介质 | |
CN114842871A (zh) | 语音数据的处理方法和装置、存储介质及电子装置 | |
CN110262278B (zh) | 智能家电设备的控制方法及装置、智能电器设备 | |
CN112201248B (zh) | 基于长连接的流式语音识别方法和系统 | |
CN111429920B (zh) | 用户区分方法、用户行为库确定方法、装置及设备 | |
CN114464193A (zh) | 声纹聚类方法、装置、存储介质及电子装置 | |
CN111933152B (zh) | 注册音频的有效性的检测方法、检测装置和电子设备 | |
CN113191711A (zh) | 快递寄件策略确定方法、装置、设备及存储介质 | |
CN113111157A (zh) | 问答处理方法、装置、计算机设备和存储介质 | |
CN113409793B (zh) | 语音识别方法及智能家居系统、会议设备、计算设备 | |
CN112735394B (zh) | 一种语音的语义解析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |