CN112885338A - 语音识别方法、设备、计算机可读存储介质及程序产品 - Google Patents
语音识别方法、设备、计算机可读存储介质及程序产品 Download PDFInfo
- Publication number
- CN112885338A CN112885338A CN202110127147.7A CN202110127147A CN112885338A CN 112885338 A CN112885338 A CN 112885338A CN 202110127147 A CN202110127147 A CN 202110127147A CN 112885338 A CN112885338 A CN 112885338A
- Authority
- CN
- China
- Prior art keywords
- training
- data
- recognition result
- sample data
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000012549 training Methods 0.000 claims description 311
- 238000002372 labelling Methods 0.000 claims description 42
- 230000015654 memory Effects 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 5
- 230000001902 propagating effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 112
- 238000005516 engineering process Methods 0.000 description 15
- 239000013598 vector Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 210000000936 intestine Anatomy 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 240000002853 Nelumbo nucifera Species 0.000 description 2
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 2
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- ZOXJGFHDIHLPTG-UHFFFAOYSA-N Boron Chemical compound [B] ZOXJGFHDIHLPTG-UHFFFAOYSA-N 0.000 description 1
- 244000061456 Solanum tuberosum Species 0.000 description 1
- 235000002595 Solanum tuberosum Nutrition 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 235000015278 beef Nutrition 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 229910052796 boron Inorganic materials 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种语音识别方法、设备、计算机可读存储介质及程序产品,所述方法包括:获取待识别语音信息和上文识别结果,所述上文识别结果为所述待识别语音信息的上文语音信息的语音识别结果;对所述待识别语音信息进行识别,得到多个候选识别结果;分别将所述上文识别结果与各个候选识别结果输入至训练好的匹配模型,得到各个匹配结果,所述各个匹配结果包括所述上文识别结果与所述各个候选识别结果的相关度;基于所述各个匹配结果,从所述多个候选识别结果中确定目标识别结果。如此,通过结合上文内容对待识别语音进行关联识别,能够使识别结果符合实际对话场景,实现基于上文内容的语音识别,能够提高语音识别结果的准确率。
Description
技术领域
本申请涉及人工智能技术领域,涉及但不限于一种语音识别方法、设备、计算机可读存储介质及程序产品。
背景技术
随着智能设备的发展,语音交互成为一个重要的互动方式,自动语音识别(ASR,Automatic Speech Recognition)技术也变得尤为重要。在语音对话场景下,相关技术中ASR主要是采用模式匹配法:在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库;在识别阶段,将待识别语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者确定为识别结果。相关技术中基于模式匹配的语音识别方法,由于环境噪音影响、模板库中存在的多个同音模板等情况,导致识别结果的准确率较低。例如模板库中存在“事实”与“适时”两个模板,采用相关技术中基于模式匹配法的ASR,无法根据当前待识别语音确定哪一模板的准确率更高,存在将“事实”误识别为“适时”、或者将“适时”误识别为“事实”的情况,使得识别结果不符合实际对话场景,导致语音识别结果准确率低。
发明内容
本申请实施例提供一种语音识别方法、装置、设备、计算机可读存储介质及计算机程序产品,实现基于上文的语音识别,能够提高语音识别结果的准确率。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种语音识别方法,所述方法包括:
获取待识别语音信息和上文识别结果,所述上文识别结果为所述待识别语音信息的上文语音信息的语音识别结果;
对所述待识别语音信息进行识别,得到多个候选识别结果;
分别将所述上文识别结果与各个候选识别结果输入至训练好的匹配模型,得到各个匹配结果,所述各个匹配结果包括所述上文识别结果与所述各个候选识别结果的相关度;
基于所述各个匹配结果,从所述多个候选识别结果中确定目标识别结果。
本申请实施例提供一种语音识别装置,所述装置包括:
第一获取模块,用于获取待识别语音信息和上文识别结果,所述上文识别结果为所述待识别语音信息的上文语音信息的语音识别结果;
识别模块,用于对所述待识别语音信息进行识别,得到多个候选识别结果;
输入模块,用于分别将所述上文识别结果与各个候选识别结果输入至训练好的匹配模型,得到各个匹配结果,所述各个匹配结果包括所述上文识别结果与所述各个候选识别结果的相关度;
确定模块,用于基于所述各个匹配结果,从所述多个候选识别结果中确定目标识别结果。
本申请实施例提供一种语音识别设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的方法。
本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的方法。
本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本申请实施例提供的方法。
本申请实施例具有以下有益效果:
在本申请实施例提供的语音识别方法中,语音识别设备首先获取待识别语音信息和上文识别结果,所述上文识别结果为所述待识别语音信息的上文语音信息的语音识别结果;然后对所述待识别语音信息进行识别,得到多个候选识别结果;再分别将所述上文识别结果与各个候选识别结果输入至训练好的匹配模型,得到各个匹配结果,所述各个匹配结果包括所述上文识别结果与所述各个候选识别结果的相关度;最后基于所述各个匹配结果,从所述多个候选识别结果中确定目标识别结果。如此,与相关技术中仅对待识别语音进行识别的方案、以及基于多个候选文本中提取的辅助文本和上文文本确定目标识别结果的相关技术相比,本申请实施例提供的语音识别方法通过结合预先训练的匹配模型和上文内容对待识别语音进行识别,能够使识别结果与上文内容相匹配,使识别的内容符合实际对话场景,实现基于上文内容的语音识别,能够提高语音识别结果的准确率。
附图说明
图1为本申请实施例提供的语音识别方法的网络架构示意图;
图2是本申请实施例提供的语音识别设备的组成结构示意图;
图3为本申请实施例提供的语音识别方法的一种实现流程示意图;
图4为本申请实施例提供的语音识别方法的另一种实现流程示意图;
图5为本申请实施例提供的语音识别方法的再一种实现流程示意图;
图6为本申请实施例提供的匹配模型的整体结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)自动语音识别(ASR,Automatic Speech Recognition)技术,一种将人的语音转换为文本的技术,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。其基本原理为:在训练阶段,预先分析出语音特征参数,制作语音模板,并存放在语音参数库中。在识别阶段,将待识别语音经过与训练时相同的分析,得到语音特征参数;将语音特征参数与语音参数库中的每个语音模板进行相似度比较,找出最接近语音特征的语音模板作为识别结果。
2)N-Gram,是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM,Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,可以实现语音到汉字的自动转换。该模型基于这样一种假设:第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。
3)深度神经网络(DNN,Deep Neural Networks),为有很多隐藏层的神经网络。从DNN按不同层的位置划分,DNN内部的神经网络层可以分为三类:输入层,隐藏层和输出层。一般来说第一层是输入层,最后一层是输出层,而中间的层数都是隐藏层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。
4)隐马尔可夫模型(HMM,Hidden Markov Model),在被建模的系统被认为是一个马尔可夫过程与未观测到的(隐藏的)的状态的统计马尔可夫模型,用来描述一个含有隐含未知参数的马尔可夫过程。隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。
5)损失函数(Loss Function),又称为代价函数(cost function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中,损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。例如在统计学和机器学习中被用于模型的参数估计,是机器学习模型的优化目标。
下面说明实现本申请实施例的装置的示例性应用,本申请实施例提供的装置可以实施为终端设备。下面,将说明装置实施为终端设备时涵盖终端设备的示例性应用。
图1为本申请实施例提供的语音识别方法的网络架构示意图,如图1所示,在该网络架构中至少包括语音识别设备100、终端200和网络300。为实现支撑一个示例性应用,语音识别设备100为进行语音识别的设备,可以为服务器,也可以是台式计算机、笔记本电脑、智能终端等设备。终端200为发送语音信息或接收语音信息的终端,可以是移动电话(手机)、平板电脑、笔记本电脑等设备。语音识别设备100通过网络300连接终端200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线或有线链路实现数据传输。
在进行语音识别时,语音识别设备100先从终端200获取待识别的语音信息和该待识别的语音信息的上文语音信息,然后语音识别设备100获取上文语音信息对应的上文识别结果,并对待识别语音信息进行识别,得到多个候选识别结果。再将上文识别结果和一个候选识别结果输入至预先训练好的匹配模型,得到该候选识别结果对应的匹配结果,如此将上文识别结果和各个候选识别结果分别输入至预先训练好的匹配模型,得到各个匹配结果。再基于各个匹配结果,从多个候选识别结果中确定出目标识别结果。最后语音识别设备100将目标识别结果发送至终端200,以在终端200上输出该目标识别结果。本申请实施例通过结合上文内容对待识别语音进行关联识别,能够使识别结果与上文内容相匹配,使识别的内容符合实际对话场景,实现基于上文内容的语音识别,能够提高语音识别结果的准确率。
需要说明的是,语音识别设备100获取上文语音信息对应的上文识别结果时,可以直接采用与上文无关的语音识别方法对上文语音信息进行语音识别,得到上文识别结果;或者,语音识别设备100也可以采用本申请实施例提供的语音识别方法利用上上文语音信息对上文语音信息进行语音识别,得到上文识别结果,如此反向递归,得到长语音或者多条语音对话包括的各个语音信息的语音识别结果。
在一些实施例中,终端200可以为终端集合,例如包括终端200a和终端200b,终端200a和终端200b为正在对话的两个用户所持有的终端,语音识别设备100从终端200b获取待识别语音信息,从终端200a获取该待识别语音信息的上文语音信息。此时,语音识别设备100对从不同终端获取的具有上下文关系的多个语音信息进行语音识别。
在一些实施例中,语音识别设备100和终端200可以为一个同一个设备,例如均为终端,该应用场景下,终端可基于人机交互接收用户发出的语音,从而获得待识别语音信息,或者,待识别语音信息为预先存储在终端中的语音文件(如录音文件),终端基于上文识别结果和预先训练好的匹配模型确定待识别语音信息的目标识别结果。
本申请实施例提供的装置可以实施为硬件或者软硬件结合的方式,下面说明本申请实施例提供的装置的各种示例性实施。
根据图2示出的语音识别设备100的示例性结构,以预见语音识别设备的其他的示例性结构,因此这里所描述的结构不应视为限制,例如可以省略下文所描述的部分组件,或者,增设下文所未记载的组件以适应某些应用的特殊需求。
图2所示的语音识别设备100包括:至少一个处理器110、存储器140、至少一个网络接口120和用户接口130。语音识别设备100中的每个组件通过总线系统150耦合在一起。可理解,总线系统150用于实现这些组件之间的连接通信。总线系统150除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统150。
用户接口130可以包括显示器、键盘、鼠标、触感板和触摸屏等。
存储器140可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)。易失性存储器可以是随机存取存储器(RAM,Random Acces s Memory)。本申请实施例描述的存储器140旨在包括任意适合类型的存储器。
本申请实施例中的存储器140能够存储数据以支持语音识别设备100的操作。这些数据的示例包括:用于在语音识别设备100上操作的任何计算机程序,如操作系统和应用程序。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
作为本申请实施例提供的方法采用软件实施的示例,本申请实施例所提供的方法可以直接体现为由处理器110执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器140,处理器110读取存储器140中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器110以及连接到总线150的其他组件)完成本申请实施例提供的方法。
作为示例,处理器110可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
将结合本申请实施例提供的终端的示例性应用和实施,说明本申请实施例提供的语音识别方法。
图3为本申请实施例提供的语音识别方法的一种实现流程示意图,应用于图1所示网络架构的语音识别设备,将结合图3示出的步骤进行说明。
步骤S301,获取待识别语音信息和上文识别结果。
这里,所述上文识别结果为所述待识别语音信息的上文语音信息的语音识别结果。
相关技术中,根据识别的对象不同,语音识别任务大体可分为3类:孤立词识别(Isolated Word Recognition),关键词识别(Keyword Spotting)和连续语音识别。其中,孤立词识别的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;关键词识别的任务针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。
本申请实施例提供的语音识别方法,针对的是连续语音识别。在进行语音识别时,语音识别设备获取待识别语音信息和上文识别结果。在一种实现方式中,步骤S301可以实现为:获取用于进行语音识别的请求信息;对所述请求信息进行解析,得到所述请求信息携带的待识别语音信息;基于所述待识别语音信息,获取所述待识别语音信息的上文语音信息;获取所述上文语音信息的语音识别结果,并将所述上文语音信息的语音识别结果确定为上文识别结果。
其中,待识别语音信息可以是根据用户实时输入的语音生成的信息,也可以是语音识别设备实时从其他设备接收的语音信息,还可以为预先存储在语音识别设备存储空间中的语音信息。并且,待识别语音可以为一个用户输入的长语音中的一句,也可以为不同用户输入的对话语音中的一句。再者,本申请实施例提供的语音识别方法,需要基于上文对待识别语音信息进行识别,因此,待识别语音不为长语音或对话语音中的第一句语音。
这里,上文识别结果为上文语音信息的识别结果,该上文语音信息是根据待识别语音的上一句语音生成的。当待识别语音为第二句语音,即上文语音为第一句语音时,可基于现有的无关上文的语音识别方法对该上文语音(即第一句语音)生成的上文语音信息进行识别得到上文识别结果;当待识别语音为第二句之后的任一句语音,即上文语音不为第一句语音时,可基于本申请实施例提供的语音识别方法递归地获得上文识别结果,当然也可基于现有的无关上文的语音识别方法对该上文语音(非第一句语音)生成的上文语音信息进行识别得到上文识别结果。
步骤S302,对所述待识别语音信息进行识别,得到多个候选识别结果。
这里,基于现有的无关上文的语音识别方法,例如可以使用ASR模型(例如DNN-HMM或CTC模型)对待识别语音信息进行识别,得到待识别语音信息对应的文本内容。由于模板库中存在多个同音模板,使得识别结果存在多种可能性,从而得到多个候选识别结果。
以待识别语音为“看了,比赛非常精彩,易建联得到最有价值球员(MVP,MostValuable Player)名副其实”为例进行说明,对该待识别语音生成的待识别语音信息进行识别,得到多个候选识别结果为:“砍了,比赛非常精彩,意见连得到MVP名副其实”、“看了,比赛非常精彩,易建联得到MVP名副其实”、“看了,比赛肥肠竞猜,易剑莲得道爱慕V批名府其实”等等。
步骤S303,分别将所述上文识别结果与各个候选识别结果输入至训练好的匹配模型,得到各个匹配结果。
这里,所述各个匹配结果包括所述上文识别结果与所述各个候选识别结果的相关度。
为了对步骤S302得到的多个候选识别结果进行进一步识别,从中筛选出准确率最高的识别结果,本申请实施例考虑上文语音,利用上下文语义相关的特点,从多个候选识别结果中筛选出与上文识别结果相关度最高的候选识别结果作为该待识别语音信息的目标识别结果。
在实现时,将上文识别结果与各个候选识别结果分别输入至预先训练好的匹配模型,得到上文识别结果与每个候选识别结果对应的匹配结果。
举例说明,在步骤S301中获取到的上文识别结果X=“你有没有看昨天晚上的中国男子篮球职业联赛(CBA,China Basketball Association),广东队大比分赢了对手”,3个候选识别结果为Y1=“砍了,比赛非常精彩,意见连得到MVP名副其实”、Y2=“看了,比赛非常精彩,易建联得到MVP名副其实”、Y3=“看了,比赛肥肠竞猜,易剑莲得道爱慕V批名府其实”,将(X,Y1)、(X,Y2)、(X,Y3)分别输入至训练好的匹配模型BERT,得到匹配结果Score(X,Y1)=0.7、Score(X,Y2)=1、Score(X,Y3)=0.2。
由于上文识别结果X中存在“有没有看”,则与包含“砍了”的候选识别结果Y1相比,包含“看了”的候选识别结果Y2与X更相关。同理,由于上文识别结果X中包含“CBA”、“广东队”,与包含“易剑莲”的候选识别结果Y3相比,可以确定包含“易建联”的候选识别结果Y2与X更相关。由此可见,候选识别结果对应的匹配结果即为上文识别结果与该候选识别结果的相关度。
本申请实施例提供的语音识别方法,与从多个候选文本中提取辅助文本,并基于上文文本和辅助文本确定目标识别结果的相关技术相比,本申请实施例在得到多个候选识别结果后,无需进一步根据提取策略对每个候选结果进行辅助文本的提取,仅需将上文识别结果与各个候选识别结果分别输入至预先训练好的匹配模型即可,一个候选识别结果对应一个匹配结果,能够将复杂的操作简洁化。并且,相关技术中进行辅助文本的提取时,由于提取策略与各个候选文本中各个词语的频次相关,不适用于上下文中重复词语较少的识别,无法确保对重复词语较少的上下文进行语音识别时的准确度。本申请实施例中基于大量样本训练的匹配模型,能够确保基于匹配模型得到的匹配结果的准确度,从而提高语音识别的准确率。
步骤S304,基于所述各个匹配结果,从所述多个候选识别结果中确定目标识别结果。
在一种实现中,首先对所述各个匹配结果包括的相关度进行对比,得到最大相关度;然后从所述多个候选识别结果中,筛选出所述最大相关度对应的候选识别结果;最后将筛选出的候选识别结果确定为目标识别结果。
仍以上述举例说明,对匹配结果包括的相关度Score(X,Y1)=0.7、Score(X,Y2)=1和Score(X,Y3)=0.2进行对比,得到最大相关度为Score(X,Y2)=1,该最大相关度对应的候选识别结果为Y2=“看了,比赛非常精彩,易建联得到MVP名副其实”,则确定待识别语音“看了,比赛非常精彩,易建联得到MVP名副其实”进行语音识别得到的目标识别结果为“看了,比赛非常精彩,易建联得到MVP名副其实”。
本申请实施例提供的语音识别方法,包括获取待识别语音信息和上文识别结果,所述上文识别结果为所述待识别语音信息的上文语音信息的语音识别结果;对所述待识别语音信息进行识别,得到多个候选识别结果;分别将所述上文识别结果与各个候选识别结果输入至训练好的匹配模型,得到各个匹配结果,所述各个匹配结果包括所述上文识别结果与所述各个候选识别结果的相关度;基于所述各个匹配结果,从所述多个候选识别结果中确定目标识别结果。如此,与相关技术中仅对待识别语音进行识别的方案、以及基于多个候选文本中提取的辅助文本和上文文本确定目标识别结果的相关技术相比,本申请实施例提供的语音识别方法通过结合预先训练的匹配模型和上文内容对待识别语音进行识别,能够使识别结果与上文内容相匹配,使识别的内容符合实际对话场景,实现基于上文内容的语音识别,能够提高语音识别结果的准确率。
基于前述的实施例,本申请实施例再提供一种语音识别方法,图4为本申请实施例提供的语音识别方法的另一种实现流程示意图,应用于图1所示的网络架构中的语音识别设备,如图4所示,所述语音识别方法包括以下步骤:
步骤S401,获取正样本数据集和负样本数据集。
本申请实施例中,在对待识别语音信息进行语音识别之前,需要通过步骤S401至步骤S403训练得到训练好的匹配模型。
正样本数据集中包括属于目标类别的正样本数据,负样本数据集中包括不属于目标类别的负样本数据。在本申请实施例中,所述正样本数据集中的各个正样本数据包括相关度大于或等于预设阈值的训练上文文本数据和训练文本数据,即正样本数据包括的训练上文文本数据和训练文本数据的相关度大于或等于预设阈值。所述负样本数据集中的各个负样本数据包括相关度小于预设阈值的训练上文文本数据和训练文本数据,即负样本数据包括的训练上文文本数据和训练文本数据的相关度小于预设阈值。这里的预设阈值可以设置为0.95。
举例说明,训练上文文本数据“今天天气怎么样”和训练文本数据“晴天”为正样本数据。而训练上文文本数据“今天天气怎么样”和训练文本数据“我中午吃的土豆炖牛肉”为负样本数据。
步骤S402,获取所述各个正样本数据对应的标注相关度和各个负样本数据对应的标注相关度。
这里,标注相关度可以是由用户预先根据样本数据中训练上文文本数据和训练文本数据的相关度标注好的。
步骤S403,基于所述各个正样本数据、所述各个正样本数据对应的标注相关度、所述各个负样本数据和所述各个负样本数据对应的标注相关度对预设匹配模型进行训练,得到训练好的匹配模型。
在实现时,可以将各个正样本数据包括的训练上文文本数据和训练文本数据输入至预设匹配模型进行训练,得到各个正样本数据对应的预测相似度;将各个负样本数据包括的训练上文文本数据和训练文本数据输入至预设匹配模型进行训练,得到各个负样本数据对应的预测相似度;将各个正样本数据对应的标注相关度、各个正样本数据对应的预测相似度、各个负样本数据对应的标注相关度和各个负样本数据对应的预测相似度反向传播至所述匹配模型,利用损失函数对所述匹配模型进行训练,以对所述匹配模型的参数进行调整。
这里,损失函数为分类损失函数,例如可以是交叉熵损失函数。利用各个正样本数据、各个正样本数据对应的标注相关度、各个负样本数据和各个负样本数据对应的标注相关度对预设匹配模型的参数进行调整,得到最终训练好的匹配模型。
步骤S404,获取待识别语音信息和上文识别结果。
这里,所述上文识别结果为所述待识别语音信息的上文语音信息的语音识别结果。
本申请实施例中步骤S404至步骤S407,其实现方式与效果分别对应图3所示实施例中的步骤S301至步骤S304,具体参见图3所示实施例中的步骤S301至步骤S304的描述。
步骤S405,对所述待识别语音信息进行识别,得到多个候选识别结果。
步骤S406,分别将所述上文识别结果与各个候选识别结果输入至训练好的匹配模型,得到各个匹配结果。
这里,所述各个匹配结果包括所述上文识别结果与所述各个候选识别结果的相关度。
步骤S407,基于所述各个匹配结果,从所述多个候选识别结果中确定目标识别结果。
本申请实施例提供的语音识别方法,在训练阶段,首先获取正样本数据集和负样本数据集,并获取所述各个正样本数据对应的标注相关度和各个负样本数据对应的标注相关度;然后基于所述各个正样本数据、所述各个正样本数据对应的标注相关度、所述各个负样本数据和所述各个负样本数据对应的标注相关度对预设匹配模型进行训练,得到训练好的匹配模型,本申请实施例通过大量多样的正样本数据和负样本数据,能够训练得到具有较高的识别精准度的匹配模型。在识别阶段,获取待识别语音信息和上文识别结果,所述上文识别结果为所述待识别语音信息的上文语音信息的语音识别结果;对所述待识别语音信息进行识别,得到多个候选识别结果;分别将所述上文识别结果与各个候选识别结果输入至训练好的匹配模型,得到各个匹配结果,所述各个匹配结果包括所述上文识别结果与所述各个候选识别结果的相关度;基于所述各个匹配结果,从所述多个候选识别结果中确定目标识别结果。如此,相较于相关技术中的语音识别方法,本申请实施例提供的语音识别方法通过结合预先训练的匹配模型和上文内容对待识别语音进行识别,能够使识别结果与上文内容相匹配,使识别的内容符合实际对话场景,实现基于上文内容的语音识别,能够提高语音识别结果的准确率。
在一些实施例中,图2所示实施例的步骤S401中“获取正样本数据集”可以通过以下步骤实现:
步骤S4011,获取训练数据集。
这里,所述训练数据集中各个训练数据包括训练语音数据和所述训练语音数据的训练上文语音数据。
本申请实施例中,训练数据集是录制的语音数据,每个训练数据包括的训练上文语音数据和训练语音数据组成一个语音对。
例如,一个训练数据中,训练上文语音为“你有没有看昨天晚上的CBA,广东队大比分赢了对手”,训练语音为“看了,比赛非常精彩,易建联得到MVP名副其实”。“你有没有看昨天晚上的CBA,广东队大比分赢了对手”和“看了,比赛非常精彩,易建联得到MVP名副其实”即为对话上下文,组成一个语音对。
步骤S4012,获取各个训练语音数据对应的训练文本数据和各个训练上文语音数据对应的训练上文文本数据。
用户对录制的语音数据进行人工识别,得到各个训练语音数据对应的训练文本数据和各个训练上文语音数据对应的训练上文文本数据。人工识别后,将这些语音数据和对应的文本数据进行存储。
在训练阶段,语音识别设备从存储空间中获取这些数据对预设匹配模型进行训练。
步骤S4013,将一个训练数据对应的训练上文文本数据和训练文本数据确定为一个正样本数据。
同一个训练数据的语音对为语义相关的两个语音数据,将该类训练数据对应的文本数据确定为正样本数据。
举例说明,训练上文文本数据为“你有没有看昨天晚上的CBA,广东队大比分赢了对手”,训练文本数据为“看了,比赛非常精彩,易建联得到MVP名副其实”,将语音对“你有没有看昨天晚上的CBA,广东队大比分赢了对手”。同一个训练数据对应的训练上文文本数据“你有没有看昨天晚上的CBA,广东队大比分赢了对手”和训练文本数据“看了,比赛非常精彩,易建联得到MVP名副其实”即为一个正样本数据。
步骤S4014,将各个训练数据确定的各个正样本数据确定为正样本数据集。
对训练数据集中各个训练数据确定其正样本数据,组成正样本数据集。
本申请实施例通过获取训练数据集,所述训练数据集中各个训练数据包括训练语音数据和所述训练语音数据的训练上文语音数据;获取各个训练语音数据对应的训练文本数据和各个训练上文语音数据对应的训练上文文本数据;将一个训练数据对应的训练上文文本数据和训练文本数据确定为一个正样本数据;将各个训练数据确定的各个正样本数据确定为正样本数据集,实现正样本数据集的获取。通过本申请实施例的方法获取正样本数据集,由于正样本数据集中包括的是训练文本数据和对应的训练上文文本数据,如此基于大量的正样本数据进行训练,能够保证训练好的匹配模型能够匹配出与上文内容关联的识别结果,从而提高识别精准度。
在一些实施例中,图2所示实施例的步骤S401中“获取负样本数据集”可以通过以下步骤来实现:
步骤S4015,获取各个训练语音数据对应的至少一个训练候选文本数据。
这里,所述训练候选文本数据不同于所述训练文本数据。
在训练阶段,由人工设置至少一个训练候选文本数据,该至少一个训练候选文本数据为与训练文本数据相关且不相同的数据。
举例说明,训练文本数据为“看了,比赛非常精彩,易建联得到MVP名副其实”,两个训练候选文本数据为“砍了,比赛非常精彩,意见连得到MVP名副其实”、“看了,比赛肥肠竞猜,易剑莲得道爱慕V批名府其实”。
步骤S4016,将一个训练数据对应的训练上文文本数据和一个训练候选文本数据确定为一个负样本数据。
一个训练数据对应的训练上文文本数据和该训练数据对应的任意一个训练候选文本数据可以作为一个负样本数据。
仍以上述举例说明,训练上文文本数据“你有没有看昨天晚上的CBA,广东队大比分赢了对手”和训练候选文本数据“砍了,比赛非常精彩,意见连得到MVP名副其实”为一个负样本数据;训练上文文本数据“你有没有看昨天晚上的CBA,广东队大比分赢了对手”和训练候选文本数据“看了,比赛肥肠竞猜,易剑莲得道爱慕V批名府其实”也可以作为一个负样本数据。
步骤S4017,将各个训练数据确定的各个负样本数据确定为负样本数据集。
对训练数据集中各个训练数据确定其负样本数据,组成负样本数据集。
本申请实施例通过获取训练数据集,所述训练数据集中各个训练数据包括训练语音数据和所述训练语音数据的训练上文语音数据;获取各个训练语音数据对应的训练文本数据和各个训练上文语音数据对应的训练上文文本数据;获取各个训练语音数据对应的至少一个训练候选文本数据,所述训练候选文本数据不同于所述训练文本数据;将一个训练数据对应的训练上文文本数据和一个训练候选文本数据确定为一个负样本数据;将各个训练数据确定的各个负样本数据确定为负样本数据集,实现负样本数据集的获取。本申请实施例直接使用候选文本数据作为负样本进行训练,这样得到的匹配模型可以在相似的候选句子中选出更相关的识别结果,能够使训练好的匹配模型具有较高的识别精准度。
在另一些实施例中,也可以基于随机获取的方式获取负样本数据,此时上述步骤S4015至步骤S4017可以替换为下述步骤S4015’至步骤S4018’,也就是说,图2所示实施例的步骤S401中“获取负样本数据集”,也可以通过以下步骤来实现:
步骤S4015’,从所述各个训练数据中获取除一个训练数据以外的剩余训练数据。
例如,该一个训练数据为“你有没有看昨天晚上的CBA,广东队大比分赢了对手”、“看了,比赛非常精彩,易建联得到MVP名副其实”。获取训练数据集中除该一个训练数据以外的其他训练数据。
步骤S4016’,从所述剩余训练数据中随机选取另一个训练数据。
从除该一个训练数据以外的剩余训练数据中随机选取一个训练数据,例如选取的该另一个训练数据为“今天天气怎么样”、“晴天”。
步骤S4017’,将所述一个训练数据对应的训练上文文本数据和所述另一个训练数据对应的训练文本数据确定为一个负样本数据。
将不同训练数据的训练上文文本数据和训练文本数据组成一个负样本数据,如将“你有没有看昨天晚上的CBA,广东队大比分赢了对手”和“晴天”确定为一个负样本数据。
步骤S4018’,将各个训练数据确定的各个负样本数据确定为负样本数据集。
对训练数据集中各个训练数据随机确定其负样本数据,组成负样本数据集。
本申请实施例通过获取训练数据集,所述训练数据集中各个训练数据包括训练语音数据和所述训练语音数据的训练上文语音数据;获取各个训练语音数据对应的训练文本数据和各个训练上文语音数据对应的训练上文文本数据;从所述各个训练数据中获取除一个训练数据以外的剩余训练数据;从所述剩余训练数据中随机选取另一个训练数据;将所述一个训练数据对应的训练上文文本数据和所述另一个训练数据对应的训练文本数据确定为一个负样本数据;将各个训练数据确定的各个负样本数据确定为负样本数据集,实现负样本数据集的获取。本申请实施例通过随机的从数据中选取文本数据作为负样本进行训练,训练好的匹配模型可以具备区分相关句子与无关句子的能力,而且随机选取的方式,能够快速得到大量负样本数据,缩短训练时长,并且大量的训练数据,能够使训练好的匹配模型具有较高的识别精准度。
在一些实施例中,图2所述实施例中步骤S403“基于所述各个正样本数据、所述各个正样本数据对应的标注相关度、所述各个负样本数据和所述各个负样本数据对应的标注相关度对预设匹配模型进行训练,得到训练好的匹配模型”,可以通过以下步骤实现:
步骤S4031,将各个正样本数据包括的输入至预设匹配模型进行训练,得到各个正样本数据对应的预测相似度。
这里,将正样本数据中的训练上文文本数据和训练文本数据输入至预设匹配模型,得到该正样本数据对应的预测相似度。
步骤S4032,将各个负样本数据包括的训练上文文本数据和训练文本数据输入至预设匹配模型进行训练,得到各个负样本数据对应的预测相似度。
与步骤S4031类似,步骤S4032在实现时,将一个负样本数据中的训练上文文本数据和训练文本数据输入至预设匹配模型,得到该负样本数据对应的预测相似度。
步骤S4033,将各个正样本数据对应的标注相关度、各个正样本数据对应的预测相似度、各个负样本数据对应的标注相关度和各个负样本数据对应的预测相似度反向传播至所述匹配模型,利用损失函数对所述匹配模型进行训练,以对所述匹配模型的参数进行调整。
这里,损失函数为分类损失函数,例如可以是交叉熵损失函数。利用各个正样本数据、各个正样本数据对应的标注相关度、各个负样本数据和各个负样本数据对应的标注相关度对预设匹配模型的参数进行调整,得到最终训练好的匹配模型。
在步骤S4031至步骤S4033中,首先将各个正样本数据包括的输入至预设匹配模型进行训练,得到各个正样本数据对应的预测相似度,并将各个负样本数据包括的训练上文文本数据和训练文本数据输入至预设匹配模型进行训练,得到各个负样本数据对应的预测相似度,然后利用损失函数和各个正样本数据对应的标注相关度、各个正样本数据对应的预测相似度、各个负样本数据对应的标注相关度、各个负样本数据对应的预测相似度对匹配模型的参数进行训练,通过引入损失函数,能够加快匹配模型收敛速度,提高匹配模型的训练效率。
基于前述的实施例,本申请实施例再提供一种语音识别方法,图5为本申请实施例提供的语音识别方法的再一种实现流程示意图,应用于图1所示的网络架构,如图5所示,所述语音识别方法包括以下步骤:
步骤S501,语音识别设备获取训练数据集。
这里,所述训练数据集中各个训练数据包括训练语音数据和所述训练语音数据的训练上文语音数据。
步骤S502,语音识别设备获取各个训练语音数据对应的训练文本数据和各个训练上文语音数据对应的训练上文文本数据。
步骤S503,语音识别设备将一个训练数据对应的训练上文文本数据和训练文本数据确定为一个正样本数据。
步骤S504,语音识别设备将各个训练数据确定的各个正样本数据确定为正样本数据集。
步骤S505,语音识别设备获取各个训练语音数据对应的至少一个训练候选文本数据。
这里,所述训练候选文本数据不同于所述训练文本数据。
步骤S506,语音识别设备将一个训练数据对应的训练上文文本数据和一个训练候选文本数据确定为一个负样本数据。
步骤S507,语音识别设备将各个训练数据确定的各个负样本数据确定为负样本数据集。
在一些实施例中,步骤S505至步骤S507可以替换为下述步骤S505’至步骤S508’:
步骤S505’,语音识别设备从所述各个训练数据中获取除一个训练数据以外的剩余训练数据。
步骤S506’,语音识别设备从所述剩余训练数据中随机选取另一个训练数据。
步骤S507’,语音识别设备将所述一个训练数据对应的训练上文文本数据和所述另一个训练数据对应的训练文本数据确定为一个负样本数据。
步骤S508’,语音识别设备将各个训练数据确定的各个负样本数据确定为负样本数据集。
步骤S508,语音识别设备获取所述各个正样本数据对应的标注相关度和各个负样本数据对应的标注相关度。
步骤S509,语音识别设备将各个正样本数据包括的训练上文文本数据和训练文本数据输入至预设匹配模型进行训练,得到各个正样本数据对应的预测相似度。
步骤S510,语音识别设备将各个负样本数据包括的训练上文文本数据和训练文本数据输入至预设匹配模型进行训练,得到各个负样本数据对应的预测相似度。
步骤S511,语音识别设备将各个正样本数据对应的标注相关度、各个正样本数据对应的预测相似度、各个负样本数据对应的标注相关度和各个负样本数据对应的预测相似度反向传播至所述匹配模型,利用损失函数对所述匹配模型进行训练,以对所述匹配模型的参数进行调整。
至此,得到训练好的匹配模型。
步骤S512,终端向语音识别设备发送用于进行语音识别的请求信息。
步骤S513,语音识别设备对所述请求信息进行解析,得到所述请求信息携带的待识别语音信息。
步骤S514,语音识别设备基于所述待识别语音信息,获取所述待识别语音信息的上文语音信息。
步骤S515,语音识别设备获取所述上文语音信息的语音识别结果,并将所述上文语音信息的语音识别结果确定为上文识别结果。
步骤S516,语音识别设备对所述待识别语音信息进行识别,得到多个候选识别结果。
步骤S517,语音识别设备分别将所述上文识别结果与各个候选识别结果输入至训练好的匹配模型,得到各个匹配结果。
这里,所述各个匹配结果包括所述上文识别结果与所述各个候选识别结果的相关度。
步骤S518,语音识别设备对所述各个匹配结果包括的相关度进行对比,得到最大相关度。
步骤S519,语音识别设备从所述多个候选识别结果中,筛选出所述最大相关度对应的候选识别结果。
步骤S520,语音识别设备将筛选出的候选识别结果确定为目标识别结果。
步骤S521,语音识别设备向所述终端发送响应信息。
这里,所述响应信息中携带有所述目标识别结果。
步骤S522,终端输出所述目标识别结果。
本申请实施例提供的语音识别方法,在训练阶段,首先获取正样本数据集和负样本数据集,并获取所述各个正样本数据对应的标注相关度和各个负样本数据对应的标注相关度;然后基于所述各个正样本数据、所述各个正样本数据对应的标注相关度、所述各个负样本数据和所述各个负样本数据对应的标注相关度对预设匹配模型进行训练,得到训练好的匹配模型。在识别阶段,获取待识别语音信息和上文识别结果,所述上文识别结果为所述待识别语音信息的上文语音信息的语音识别结果;对所述待识别语音信息进行识别,得到多个候选识别结果;分别将所述上文识别结果与各个候选识别结果输入至训练好的匹配模型,得到各个匹配结果,所述各个匹配结果包括所述上文识别结果与所述各个候选识别结果的相关度;基于所述各个匹配结果,从所述多个候选识别结果中确定目标识别结果。如此,通过结合上文内容对待识别语音进行关联识别,能够使识别结果与上文内容相匹配,使识别的内容符合实际对话场景,实现基于上文内容的语音识别。与相关技术中仅对待识别语音进行识别的方案、以及基于多个候选文本中提取的辅助文本和上文文本确定目标识别结果的相关技术相比,本申请实施例提供的语音识别方法,通过结合预先训练的匹配模型和上文内容对待识别语音进行识别,能够提高语音识别结果的准确率。并且,语音识别设备将目标识别结果发送至终端并由终端进行显示,便于用户查看识别结果。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
近些年来随着智能设备的发展,语音交互成为一个重要的互动方式,自动语音识别(ASR,Automatic Speech Recognition)技术也变得尤为重要。在语音对话场景下,现有的自动语音识别ASR模型(包含声学模型跟语言模型)中的语言模型并不能很好的建模对话上文信息。
传统的ASR算法中的语言模型采用N-Gram等模型对当前解码的内容进行建模,并不会考虑到当前内容的上文信息(即对话上文),然而在很多情况下上文信息对于当前内容的解码可以起到重要的作用。
例如,存在这样的日常语音对话,对应的实际文本为:“A:你有没有看昨天晚上的中国男子篮球职业联赛(CBA,China Basketball Association),广东队大比分赢了对手。B:看了,比赛非常精彩,易建联得到最有价值球员(MV P,Most Valuable Player)名副其实。”在对说话人B的语音进行解码时,假如使用传统ASR算法中的N-Gram模型,只会对已经解码出来的文本进行建模,在解码“易建联”这个词的时候,只会用到当前语句中位于“易建联”前面的部分内容,即“看了,比赛非常精彩,”,而完全忽略说话人A提供的上文信息。“看了,比赛非常精彩,”与上文中的“CBA”、“广东队”等相比较,“CBA”跟“广东队”对于解码出“易建联”这个词更能起到作用。因此,使用传统的N-Gram模型对于对话场景下的ASR具有很强的局限性,会使得模型解码出来的内容有偏差,降低识别准确率,对后续的应用造成不良的影响。
相关技术中,针对上述问题,提出了一种基于缓存的方法,例如,将对话上文出现的词进行加权,让其出现的概率增大。但是这种方法比较简单,不能对对话上下文之间词语词的对话关系进行建模。
随着深度学习技术的发展,ASR技术的效果得到了极大的提升,在一些场景上的表现能力可以与人类持平。基于此,可以使用ASR模型对语音文件进行解码(例如输入语音文件至深度神经网络-隐马尔科夫模型(DNN-HMM,Dee p Neural Networks-Hidden MarkovModel)或联结主义时间分类(CTC,Conn ectionist Temporal Classification)得到对应的文本内容),得到N个候选句子,记为D1,D2,…,DN,然后使用匹配模型对这N个候选句子进行评分,将分数最高的候选句子作为最终的解码结果。
图6为本申请实施例提供的匹配模型的整体结构示意图,如图6所示,在匹配模型600中,context X 603表示为上文信息,candidate Y 604表示为候选句子,也就是上文提到的N个候选句子:D1,D2,…,DN。
该匹配模型600主要构成为BERT模型601,然后输入包含了三个部分:[C LS]602,context X 603和candidate Y 604。通过BERT模型601可以有效将context X 603和candidate Y 604的信息进行整合,即充分利用了对话上文信息。[CLS]602作为特殊的字符进行输入,在BERT模型601最后一层可以得到[CLS]602对应的向量h[CLS]605。我们添加了一层全连接层606(FCL,F ully Connected Layer),将h[CLS]605向量中的信息进行挖掘得到最终X与Y的相关性打分score(X,Y)607。其中,[SEP]608为分隔符,用于分隔上文信息和候选句子。
训练该匹配模型时,需要构造正样本和负样本,从而让匹配模型具备区分能力,可以对N个候选句子进行重排后,从中选取最相关的结果。我们选择真实数据中的回复文本作为正样本,例如实际文本“A:你有没有看昨天晚上的C BA,广东队大比分赢了对手。B:看了,比赛非常精彩,易建联得到MVP名副其实。”中,将回复文本“看了,比赛非常精彩,易建联得到MVP名副其实。”作为正样本。针对负样本的构造,我们提出了两种方法:
1)随机从数据中选取其他句子作为负样本;
2)使用ASR模型解码出来的候选句子作为负样本。
第1)种方法中,选取的负样本往往与上文句子X的相关性比较低,因此匹配模型通过区分正样本与随机选取的负样本可以具备区分相关句子与无关句子的能力。但正如上文所述,现阶段语音识别技术已经相对成熟,解码产生的结果都会比较相关,如果使用方法1)进行负样本的构建,可能无法有效地对相关的候选句子进行区分。因此,针对这种情况,我们使用方法2)进行负样本的构建,直接使用候选句子作为负样本进行训练,这样得到的匹配模型就可以具备在相似的候选句子中选出更相关的结果。
通过训练匹配模型让其具备区别相关性的能力,我们将N个候选句子与上文句子分别作为输入得到对应的N个分数,从中选取最高分数对应的候选句子作为解码结果,这样可以使得最终的结果利用上文信息,与实际场景更为符合和准确。
本申请实施例基于BERT构建匹配模型,将对话上文信息进行有效利用,可以使得解码结果更准确,符合实际场景,效果更能满足实际应用需求;提出两种不同的构建负样本的方法,能够使匹配模型具备相关性区别能力,同时,基于语音识别的场景能够更有效地区分候选集的差异。
本申请实施例基于BERT的匹配模型对候选集合进行重排,使用对话上下文的信息,可以使得在对话场景下语音解码能够得到对话更多信息,从而在解码过程中更准确地选择更符合语义的词,达到整体更优的解码信息。ASR模型解码的提升,也更有利于智能设备等给用户带来的体验。
下面继续说明本申请实施例提供的语音识别装置的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器140的语音识别装置70中的软件模块可以包括:
第一获取模块71,用于获取待识别语音信息和上文识别结果,所述上文识别结果为所述待识别语音信息的上文语音信息的语音识别结果;
识别模块72,用于对所述待识别语音信息进行识别,得到多个候选识别结果;
输入模块73,用于分别将所述上文识别结果与各个候选识别结果输入至训练好的匹配模型,得到各个匹配结果,所述各个匹配结果包括所述上文识别结果与所述各个候选识别结果的相关度;
确定模块74,用于基于所述各个匹配结果,从所述多个候选识别结果中确定目标识别结果。
在一些实施例中,所述语音识别装置70中的软件模块还可以包括:
第二获取模块,用于获取正样本数据集和负样本数据集,所述正样本数据集中的各个正样本数据包括相关度大于或等于预设阈值的训练上文文本数据和训练文本数据,所述负样本数据集中的各个负样本数据包括相关度小于预设阈值的训练上文文本数据和训练文本数据;
第三获取模块,用于获取所述各个正样本数据对应的标注相关度和各个负样本数据对应的标注相关度;
训练模块,用于基于所述各个正样本数据、所述各个正样本数据对应的标注相关度、所述各个负样本数据和所述各个负样本数据对应的标注相关度对预设匹配模型进行训练,得到训练好的匹配模型。
在一些实施例中,所述第二获取模块,还用于:
获取训练数据集,所述训练数据集中各个训练数据包括训练语音数据和所述训练语音数据的训练上文语音数据;
获取各个训练语音数据对应的训练文本数据和各个训练上文语音数据对应的训练上文文本数据;
将一个训练数据对应的训练上文文本数据和训练文本数据确定为一个正样本数据;
将各个训练数据确定的各个正样本数据确定为正样本数据集。
在一些实施例中,所述第二获取模块,还用于:
获取各个训练语音数据对应的至少一个训练候选文本数据,所述训练候选文本数据不同于所述训练文本数据;
将一个训练数据对应的训练上文文本数据和一个训练候选文本数据确定为一个负样本数据;
将各个训练数据确定的各个负样本数据确定为负样本数据集。
在一些实施例中,所述第二获取模块,还用于:
从所述各个训练数据中获取除一个训练数据以外的剩余训练数据;
从所述剩余训练数据中随机选取另一个训练数据;
将所述一个训练数据对应的训练上文文本数据和所述另一个训练数据对应的训练文本数据确定为一个负样本数据;
将各个训练数据确定的各个负样本数据确定为负样本数据集。
在一些实施例中,所述训练模块,还用于:
将各个正样本数据包括的训练上文文本数据和训练文本数据输入至预设匹配模型进行训练,得到各个正样本数据对应的预测相似度;
将各个负样本数据包括的训练上文文本数据和训练文本数据输入至预设匹配模型进行训练,得到各个负样本数据对应的预测相似度;
将各个正样本数据对应的标注相关度、各个正样本数据对应的预测相似度、各个负样本数据对应的标注相关度和各个负样本数据对应的预测相似度反向传播至所述匹配模型,利用损失函数对所述匹配模型进行训练,以对所述匹配模型的参数进行调整。
在一些实施例中,所述第一获取模块,还用于:
获取用于进行语音识别的请求信息;
对所述请求信息进行解析,得到所述请求信息携带的待识别语音信息;
基于所述待识别语音信息,获取所述待识别语音信息的上文语音信息;
获取所述上文语音信息的语音识别结果,并将所述上文语音信息的语音识别结果确定为上文识别结果。
在一些实施例中,所述确定模块,还用于:
对所述各个匹配结果包括的相关度进行对比,得到最大相关度;
从所述多个候选识别结果中,筛选出所述最大相关度对应的候选识别结果;
将筛选出的候选识别结果确定为目标识别结果。
这里需要指出的是:以上语音识别装置实施例项的描述,与上述方法描述是类似的,具有同方法实施例相同的有益效果。对于本申请语音识别装置实施例中未披露的技术细节,本领域的技术人员请参照本申请方法实施例的描述而理解。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的语音识别方法。
本申请实施例提供一种存储有可执行指令的存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法,例如,如图3至图5示出的方法。
在一些实施例中,存储介质可以是FRAM、ROM、PROM、EPROM、EE PROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(H TML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (12)
1.一种语音识别方法,其特征在于,所述方法包括:
获取待识别语音信息和上文识别结果,所述上文识别结果为所述待识别语音信息的上文语音信息的语音识别结果;
对所述待识别语音信息进行识别,得到多个候选识别结果;
分别将所述上文识别结果与各个候选识别结果输入至训练好的匹配模型,得到各个匹配结果,所述各个匹配结果包括所述上文识别结果与所述各个候选识别结果的相关度;
基于所述各个匹配结果,从所述多个候选识别结果中确定目标识别结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取正样本数据集和负样本数据集,所述正样本数据集中的各个正样本数据包括相关度大于或等于预设阈值的训练上文文本数据和训练文本数据,所述负样本数据集中的各个负样本数据包括相关度小于预设阈值的训练上文文本数据和训练文本数据;
获取所述各个正样本数据对应的标注相关度和各个负样本数据对应的标注相关度;
基于所述各个正样本数据、所述各个正样本数据对应的标注相关度、所述各个负样本数据和所述各个负样本数据对应的标注相关度对预设匹配模型进行训练,得到训练好的匹配模型。
3.根据权利要求2所述的方法,其特征在于,所述获取正样本数据集,包括:
获取训练数据集,所述训练数据集中各个训练数据包括训练语音数据和所述训练语音数据的训练上文语音数据;
获取各个训练语音数据对应的训练文本数据和各个训练上文语音数据对应的训练上文文本数据;
将一个训练数据对应的训练上文文本数据和训练文本数据确定为一个正样本数据;
将各个训练数据确定的各个正样本数据确定为正样本数据集。
4.根据权利要求3所述的方法,其特征在于,获取负样本数据集,包括:
获取各个训练语音数据对应的至少一个训练候选文本数据,所述训练候选文本数据不同于所述训练文本数据;
将一个训练数据对应的训练上文文本数据和一个训练候选文本数据确定为一个负样本数据;
将各个训练数据确定的各个负样本数据确定为负样本数据集。
5.根据权利要求3所述的方法,其特征在于,获取负样本数据集,包括:
从所述各个训练数据中获取除一个训练数据以外的剩余训练数据;
从所述剩余训练数据中随机选取另一个训练数据;
将所述一个训练数据对应的训练上文文本数据和所述另一个训练数据对应的训练文本数据确定为一个负样本数据;
将各个训练数据确定的各个负样本数据确定为负样本数据集。
6.根据权利要求3所述的方法,其特征在于,所述基于所述各个正样本数据、所述各个正样本数据对应的标注相关度、所述各个负样本数据和所述各个负样本数据对应的标注相关度对预设匹配模型进行训练,得到训练好的匹配模型,包括:
将各个正样本数据包括的训练上文文本数据和训练文本数据输入至预设匹配模型进行训练,得到各个正样本数据对应的预测相似度;
将各个负样本数据包括的训练上文文本数据和训练文本数据输入至预设匹配模型进行训练,得到各个负样本数据对应的预测相似度;
将各个正样本数据对应的标注相关度、各个正样本数据对应的预测相似度、各个负样本数据对应的标注相关度和各个负样本数据对应的预测相似度反向传播至所述匹配模型,利用损失函数对所述匹配模型进行训练,以对所述匹配模型的参数进行调整。
7.根据权利要求1所述的方法,其特征在于,所述获取待识别语音信息和上文识别结果,包括:
获取用于进行语音识别的请求信息;
对所述请求信息进行解析,得到所述请求信息携带的待识别语音信息;
基于所述待识别语音信息,获取所述待识别语音信息的上文语音信息;
获取所述上文语音信息的语音识别结果,并将所述上文语音信息的语音识别结果确定为上文识别结果。
8.根据权利要求1所述的方法,其特征在于,所述基于所述各个匹配结果,从所述多个候选识别结果中确定目标识别结果,包括:
对所述各个匹配结果包括的相关度进行对比,得到最大相关度;
从所述多个候选识别结果中,筛选出所述最大相关度对应的候选识别结果;
将筛选出的候选识别结果确定为目标识别结果。
9.一种语音识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取待识别语音信息和上文识别结果,所述上文识别结果为所述待识别语音信息的上文语音信息的语音识别结果;
识别模块,用于对所述待识别语音信息进行识别,得到多个候选识别结果;
输入模块,用于分别将所述上文识别结果与各个候选识别结果输入至训练好的匹配模型,得到各个匹配结果,所述各个匹配结果包括所述上文识别结果与所述各个候选识别结果的相关度;
确定模块,用于基于所述各个匹配结果,从所述多个候选识别结果中确定目标识别结果。
10.一种语音识别设备,其特征在于,所述设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有可执行指令,用于引起处理器执行时,实现权利要求1至8任一项所述的方法。
12.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110127147.7A CN112885338B (zh) | 2021-01-29 | 2021-01-29 | 语音识别方法、设备、计算机可读存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110127147.7A CN112885338B (zh) | 2021-01-29 | 2021-01-29 | 语音识别方法、设备、计算机可读存储介质及程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112885338A true CN112885338A (zh) | 2021-06-01 |
CN112885338B CN112885338B (zh) | 2024-05-14 |
Family
ID=76053711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110127147.7A Active CN112885338B (zh) | 2021-01-29 | 2021-01-29 | 语音识别方法、设备、计算机可读存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112885338B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114218356A (zh) * | 2021-12-15 | 2022-03-22 | 平安科技(深圳)有限公司 | 基于人工智能的语义识别方法、装置、设备及存储介质 |
CN114648980A (zh) * | 2022-03-03 | 2022-06-21 | 科大讯飞股份有限公司 | 数据分类和语音识别方法、装置、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180330714A1 (en) * | 2017-05-12 | 2018-11-15 | Apple Inc. | Machine learned systems |
CN108897852A (zh) * | 2018-06-29 | 2018-11-27 | 北京百度网讯科技有限公司 | 对话内容连贯性的判断方法、装置以及设备 |
US20190051291A1 (en) * | 2017-08-14 | 2019-02-14 | Samsung Electronics Co., Ltd. | Neural network method and apparatus |
CN109582793A (zh) * | 2018-11-23 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 模型训练方法、客服系统及数据标注系统、可读存储介质 |
CN109658938A (zh) * | 2018-12-07 | 2019-04-19 | 百度在线网络技术(北京)有限公司 | 语音与文本匹配的方法、装置、设备及计算机可读介质 |
US20200184959A1 (en) * | 2018-12-10 | 2020-06-11 | Amazon Technologies, Inc. | Generating input alternatives |
CN111401071A (zh) * | 2019-01-02 | 2020-07-10 | 百度在线网络技术(北京)有限公司 | 模型的训练方法、装置、计算机设备和可读存储介质 |
CN111524517A (zh) * | 2020-06-24 | 2020-08-11 | 深圳前海微众银行股份有限公司 | 语音识别方法、装置、设备及存储介质 |
KR20200102309A (ko) * | 2019-02-21 | 2020-08-31 | 한국전자통신연구원 | 단어 유사도를 이용한 음성 인식 시스템 및 그 방법 |
CN112259084A (zh) * | 2020-06-28 | 2021-01-22 | 北京沃东天骏信息技术有限公司 | 语音识别方法、装置和存储介质 |
-
2021
- 2021-01-29 CN CN202110127147.7A patent/CN112885338B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180330714A1 (en) * | 2017-05-12 | 2018-11-15 | Apple Inc. | Machine learned systems |
US20190051291A1 (en) * | 2017-08-14 | 2019-02-14 | Samsung Electronics Co., Ltd. | Neural network method and apparatus |
CN108897852A (zh) * | 2018-06-29 | 2018-11-27 | 北京百度网讯科技有限公司 | 对话内容连贯性的判断方法、装置以及设备 |
CN109582793A (zh) * | 2018-11-23 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 模型训练方法、客服系统及数据标注系统、可读存储介质 |
CN109658938A (zh) * | 2018-12-07 | 2019-04-19 | 百度在线网络技术(北京)有限公司 | 语音与文本匹配的方法、装置、设备及计算机可读介质 |
US20200184959A1 (en) * | 2018-12-10 | 2020-06-11 | Amazon Technologies, Inc. | Generating input alternatives |
CN111401071A (zh) * | 2019-01-02 | 2020-07-10 | 百度在线网络技术(北京)有限公司 | 模型的训练方法、装置、计算机设备和可读存储介质 |
KR20200102309A (ko) * | 2019-02-21 | 2020-08-31 | 한국전자통신연구원 | 단어 유사도를 이용한 음성 인식 시스템 및 그 방법 |
CN111524517A (zh) * | 2020-06-24 | 2020-08-11 | 深圳前海微众银行股份有限公司 | 语音识别方法、装置、设备及存储介质 |
CN112259084A (zh) * | 2020-06-28 | 2021-01-22 | 北京沃东天骏信息技术有限公司 | 语音识别方法、装置和存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114218356A (zh) * | 2021-12-15 | 2022-03-22 | 平安科技(深圳)有限公司 | 基于人工智能的语义识别方法、装置、设备及存储介质 |
CN114218356B (zh) * | 2021-12-15 | 2024-07-26 | 平安科技(深圳)有限公司 | 基于人工智能的语义识别方法、装置、设备及存储介质 |
CN114648980A (zh) * | 2022-03-03 | 2022-06-21 | 科大讯飞股份有限公司 | 数据分类和语音识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112885338B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
CN109844743B (zh) | 在自动聊天中生成响应 | |
CN109840287A (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN108711421A (zh) | 一种语音识别声学模型建立方法及装置和电子设备 | |
KR20190039079A (ko) | 대화 시스템 및 그것을 위한 컴퓨터 프로그램 | |
CN111833845A (zh) | 多语种语音识别模型训练方法、装置、设备及存储介质 | |
CN111445898B (zh) | 语种识别方法、装置、电子设备和存储介质 | |
CN112017645B (zh) | 一种语音识别方法及装置 | |
CN104156349B (zh) | 基于统计词典模型的未登录词发现和分词系统及方法 | |
CN106652999A (zh) | 语音识别系统以及方法 | |
CN109271524B (zh) | 知识库问答系统中的实体链接方法 | |
CN110096698A (zh) | 一种考虑主题的机器阅读理解模型生成方法与系统 | |
CN112487139A (zh) | 基于文本的自动出题方法、装置及计算机设备 | |
CN113220890A (zh) | 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法 | |
JP6605105B1 (ja) | 文章記号挿入装置及びその方法 | |
CN112885338B (zh) | 语音识别方法、设备、计算机可读存储介质及程序产品 | |
CN107093422A (zh) | 一种语音识别方法和语音识别系统 | |
CN110853669B (zh) | 音频识别方法、装置及设备 | |
CN111968646A (zh) | 一种语音识别方法及装置 | |
CN116978367A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN110826341A (zh) | 一种基于seq2seq模型的语义相似度计算方法 | |
CN115132170A (zh) | 语种分类方法、装置及计算机可读存储介质 | |
CN113095086B (zh) | 义原预测方法及系统 | |
CN111104806A (zh) | 神经机器翻译模型的构建方法及装置、翻译方法及装置 | |
CN112131343B (zh) | 一种中文小说对话人物识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |