CN115525749A - 语音问答方法、装置、电子设备和存储介质 - Google Patents
语音问答方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN115525749A CN115525749A CN202211218001.4A CN202211218001A CN115525749A CN 115525749 A CN115525749 A CN 115525749A CN 202211218001 A CN202211218001 A CN 202211218001A CN 115525749 A CN115525749 A CN 115525749A
- Authority
- CN
- China
- Prior art keywords
- voice
- text
- features
- feature
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Abstract
本发明提供一种语音问答方法、装置、电子设备和存储介质,其中方法包括:确定问题语音;基于问题语音的转写文本进行文本纠错,得到纠错文本;分别对纠错文本和问题语音进行特征提取,得到文本特征和语音特征,基于文本特征和语音特征之间的相关性,对文本特征和语音特征进行融合,得到问题融合特征;将问题融合特征与各候选问题的候选问题融合特征进行匹配,将匹配成功的候选问题所对应的答案确定为问题语音的答案,通过转写文本的显式纠错,以及在特征融合过程中在特征层面的容错处理,可以使得转写文本中的转写错误对于下游的问答任务的负面影响最小,克服了传统方案中在垂直领域下的语音问答效果欠佳的缺陷,极大地提升了语音问答的准确率。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种语音问答方法、装置、电子设备和存储介质。
背景技术
随着人工智能的快速发展,语音问答已逐渐被应用至社会生产生活的各个方面。而语音问答过程中通常需将输入语音转写为文本以便后续处理,但是,语音转写时往往会出现许多不可避免的转写错误,并且这些错误会在后续过程中累计,以致影响最终的语音问答效果。为保证语音问答效果,需对语音问答过程中的转写文本进行纠错。
目前,对于文本的纠错方案主要有以下两类,其一是基于统计语言模型的文本纠错方法,此种方法在低级转写错误上表现良好,但由于模型有先天缺陷,无法很好地捕获句子中的语义关联关系,因而,对于有语义关联的转写错误,其难以纠正;其二是基于深度学习模型的文本纠错方法,该方法在垂直领域的语音问答场景中,由于缺少相关训练数据,致使模型在训练过程中极易陷入过拟合状态,进而使得模型在垂直领域下的应用效果欠佳。
发明内容
本发明提供一种语音问答方法、装置、电子设备和存储介质,用以解决现有技术中无法纠正有语义关联的长距离依赖型错误,以及在垂直领域下的语音问答效果欠佳的缺陷,实现了在特征层面上的容错处理,提升了语音问答准确率。
本发明提供一种语音问答方法,包括:
确定问题语音;
基于所述问题语音的转写文本进行文本纠错,得到纠错文本;
分别对所述纠错文本和所述问题语音进行特征提取,得到文本特征和语音特征,基于所述文本特征和所述语音特征之间的相关性,对所述文本特征和所述语音特征进行融合,得到问题融合特征;
将所述问题融合特征与各候选问题的候选问题融合特征进行匹配,将匹配成功的候选问题所对应的答案确定为所述问题语音的答案。
根据本发明提供的一种语音问答方法,所述分别对所述纠错文本和所述问题语音进行特征提取,得到文本特征和语音特征,基于所述文本特征和所述语音特征之间的相关性,对所述文本特征和所述语音特征进行融合,得到问题融合特征,包括:
基于特征提取模型,对所述纠错文本和所述问题语音分别进行特征提取,得到文本特征和语音特征,基于所述文本特征和所述语音特征之间的相关性,对所述文本特征和所述语音特征进行融合,得到问题融合特征;
所述特征提取模型基于样本问题对,以及所述样本问题对中两个样本问题语音之间的语义是否相同训练得到。
根据本发明提供的一种语音问答方法,所述特征提取模型基于如下步骤训练:
基于初始特征提取模型,确定样本问题语音的样本问题融合特征;
从所述样本问题语音中,选取语义相同的两个样本问题语音,作为正样本问题对,从所述各样本问题语音中,选取语义不同的两个样本问题语音,作为负样本问题对;
基于所述正样本问题对中两个样本问题语音的样本问题融合特征之间的特征相似度,以及所述负样本问题对中两个样本问题语音的样本问题融合特征之间的特征相似度,对所述初始特征提取模型进行参数迭代,得到特征提取模型。
根据本发明提供的一种语音问答方法,所述特征提取模型包括语音特征提取网络、文本特征提取网络、以及特征融合网络;
其中,所述语音特征提取网络用于对所述问题语音进行特征提取,得到所述问题语音的语音特征;
所述文本特征提取网络用于对所述纠错文本进行特征提取,得到所述纠错文本的文本特征;
所述特征融合网络用于基于所述文本特征和所述语音特征之间的相关性,对所述文本特征和所述语音特征进行融合,得到问题融合特征。
根据本发明提供的一种语音问答方法,所述特征融合网络包括特征加权层和特征融合层,所述特征加权层和所述特征融合层残差连接;
所述特征加权层用于基于所述文本特征和所述语音特征之间的相关性,确定所述语音特征的权重,并基于所述权重对所述语音特征进行加权,得到加权语音特征;
所述特征融合层用于基于所述加权语音特征和所述语音特征,确定第一语音特征,并对所述第一语音特征和所述文本特征进行融合,得到问题融合特征。
根据本发明提供的一种语音问答方法,所述基于所述问题语音的转写文本进行文本纠错,得到纠错文本,包括:
基于文本纠错模型,对所述问题语音的转写文本进行文本纠错,得到纠错文本;
所述文本纠错模型是在统计语言模型的基础上,应用样本文本,以及所述样本文本的样本纠错文本训练得到的。
根据本发明提供的一种语音问答方法,所述初始特征提取模型包括初始语音特征提取网络、初始文本特征提取网络、以及初始特征融合网络;
其中,所述初始语音特征提取网络用于对所述样本问题语音进行特征提取,得到样本语音特征;
所述初始文本特征提取网络用于对所述样本问题语音的样本纠错文本进行特征提取,得到样本文本特征,所述样本纠错文本是基于所述样本问题语音的样本转写文本进行文本纠错得到的;
所述初始特征融合网络用于基于所述样本文本特征和所述样本语音特征之间的相关性,对所述样本文本特征和所述样本语音特征进行融合,得到样本问题融合特征;
所述初始语音特征提取网络是在语音预训练模型的基础上构建的,所述初始文本特征提取网络是在语言模型的基础上构建的。
本发明还提供一种语音问答装置,包括:
语音确定单元,用于确定问题语音;
文本纠错单元,用于基于所述问题语音的转写文本进行文本纠错,得到纠错文本;
特征融合单元,用于分别对所述纠错文本和所述问题语音进行特征提取,得到文本特征和语音特征,基于所述文本特征和所述语音特征之间的相关性,对所述文本特征和所述语音特征进行融合,得到问题融合特征;
答案确定单元,用于将所述问题融合特征与各候选问题的候选问题融合特征进行匹配,将匹配成功的候选问题所对应的答案确定为所述问题语音的答案。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的语音问答方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的语音问答方法。
本发明提供的语音问答方法、装置、电子设备和存储介质,对问题语音的转写文本进行文本纠错,得到纠错文本,并对纠错文本和问题语音分别进行特征提取,得到文本特征和语音特征,借助两者之间的相关性进行特征融合,得到问题融合特征;将问题融合特征与各候选问题的候选问题融合特征进行匹配,将匹配成功的候选问题所对应的答案确定为问题语音的答案,通过转写文本的显式纠错,以及在特征融合过程中在特征层面的容错处理,可以使得转写文本中的转写错误对于下游的问答任务的负面影响最小,克服了传统方案中无法纠正有语义关联的长距离依赖型错误,以及在垂直领域下的语音问答效果欠佳的缺陷,通过针对于转写错误的显式纠错和容错处理,能够在极大程度上提升语音问答的准确率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的语音问答方法的流程示意图;
图2是本发明提供的模型训练过程的流程示意图;
图3是本发明提供的特征融合过程的框架示例图;
图4是本发明提供的语音问答方法的总体框架图;
图5是本发明提供的语音问答装置的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
近年来,语音问答已逐渐被应用至社会生产生活的各个方面。语音问答过程中,首先需要将采集的输入语音转写为文本,以便进行后续处理,而在语音转写为文本的过程中往往会出现许多不可避免的转写错误,并且这些转写错误会累加至后续的文本特征抽取过程,从而对最终的语音问答效果产生较大负面影响。因此,为保证最终的语音问答效果,需对语音问答过程中的转写文本进行纠错。
而通用的语音转写模型在迁移到垂直领域的小样本语音转写中后,由于缺乏大量的相关训练数据或使用外部语音转写技术,在对输入语音进行语音转写时,对于其中涉及的专业词汇、场景话术、固定搭配等通常会转写错误;因而,在整个语音问答过程中需研究下游任务对垂直领域小样本语音转写错误的容错能力,即研究如何减少转写错误对于下游任务的干扰,使下游任务可以不受转写错误的影响依然返回正确的答案。
目前,对于语音问答过程中的文本纠错方案,主要有以下几种:
其一是基于规则的文本纠错方法,构建易混淆词典库和易混淆拼音词典库,只要在这两个库中则代表可能出错,因而可以按照词典库中的替换词召回候选词,并计算替换为候选词后句子的困惑度,按照困惑度排序选取困惑度低的替换词。
其二是基于统计语言模型的文本纠错方法,该方法主要将句子中连续词汇间的概率依存关系作为错误定位依据,并利用同音字词、相似字词召回打分,将困惑度最低的召回词语确定为最终的替换词,此种方法在固定词组纠错上表现良好;
其三是基于深度学习模型的文本纠错方法,在大量相关训练数据的基础上,模型可以借助预训练模型强大的语义特征建模能力,特别是其对文本关键词或语音关键段的预测能力,可以有效的解决有语义关联的长距离依赖纠错问题。
但是,上述基于统计语言模型的文本纠错方法,其虽在低级转写错误上表现良好,但是又由于模型具有先天缺陷,即其无法很好地捕获句子中的语义关联关系,而若试图将统计语言模型的滑动窗口扩展到4、5乃至更高,则会产生很多空值,平滑之后的分数大多会高于设定阈值,致使无法发现转写文本中的转写错误。因此,该方法难以纠正具有语义关联的转写错误。
而基于预训练深度学习模型的文本纠错方法,虽然性能取得了进一步提升,但是在垂直领域的语音问答场景中,由于缺少相关训练训练数据,即缺少垂直领域下成对的原始句子与正确句子,因而易导致模型在训练过程中陷入过拟合状态,进而使得模型在垂直领域实际应用中的表现欠佳,即垂直领域下的应用效果较差。
综上可知,目前的文本纠错方案主要是在文本层面直接对转写文本进行显示纠错,这在一定程度上取得了较好的效果,但是对于难以纠错的文本的容错机制却鲜有研究。
对此,本发明提供一种语音问答方法,旨在对转写文本进行显式纠错后,提出容错机制,使得转写文本中的转写错误对于下游的问答任务的负面影响最小;克服了语音问答过程中统计语言模型无法解决有语义关联的长距离依赖型错误,以及预训练深度学习模型在垂直领域中由于缺乏相关训练数据,导致模型过拟合,致使应用效果欠佳的缺陷,实现了针对于转写错误的容错处理,为语音问答准确率的提升提供了助力。图1是本发明提供的语音问答方法的流程示意图,如图1所示,该方法包括:
步骤110,确定问题语音;
具体地,在进行语音问答之前,首先需要确定待解答的语音,该语音即问题语音,问题语音可以是用户直接输入的,也可以是从语音采集模块实时采集得到的语音数据流中截取的一段语音,或者是从历史语音数据中截取的一段语音,本发明实施例对此不做具体限定。
问题语音中包含需解答的问题语句,问题语句可以是用户根据实际需求提出的,也可以是在受到场景内容的启发后提出的,或者是在看到垂直领域下的报文、期刊等后提出的,本发明实施例对此不做具体限定。例如,可以是“稻飞虱如何防治?”、“小麦白粉病症状如何?”、“猪痢疾如何治疗?”等。
需要说明的是,此处的问题语音可以是一段也可以是多段,在问题语音为多段的情况下,需确定各段问答语音的答案,从而实现语音问答,然而在这一过程中,还需对各段问题语音的转写文本进行文本纠错,以及在特征层面进行容错处理,以使转写错误对于后续的问答过程的影响程度最小,从而实现语音问答准确率的提升。
步骤120,基于问题语音的转写文本进行文本纠错,得到纠错文本;
具体地,在经过步骤110得到问题语音后,即可执行步骤120,对问题语音的转写文本进行文本纠错,从而得到纠错文本,具体过程包括如下步骤:
首先,可以对问题语音进行语音转写,以将问题语音转写为文本,从而得到问题语音的转写文本,此处的语音转写过程可以通过常规的语音转写手段实现,例如,可以是语音转写软件、语音转写模型等;
随即,可以依据问题语音的转写文本进行文本纠错,以得到纠错文本,此处的文本纠错实际上是显式纠错,即对转写文本中存在的同音字词、相似字词、固定搭配等层面的转写错误进行纠正,具体可以是,依据转写文本中语句中连续词汇间的概率依存关系进行错误定位,并利用同音字词、相似字词进行召回打分,计算困惑度并将困惑度最低的召回词作为最终的替换词,通过显示纠错可以实现转写文本中表层的错误纠正,最终可以得到显示纠错后的纠错文本。
此处,针对于转写文本的显式纠错过程,可以通过文本纠错模型实现,具体过程可以是,首先可以将问题语音的转写文本输入至文本纠错模型,然后由文本纠错模型对输入的转写文本进行文本纠错,以纠正其中的同音字词、相似字词、固定搭配等的转写错误,最终得到文本纠错模型输出的纠错文本。
而在将问题语音的转写文本输入至文本纠错模型之前,还可以预先训练得到文本纠错模型,文本纠错模型的训练过程包括如下步骤:首先,收集大量的样本文本,并确定样本文本的样本纠错文本;随即,可以基于样本文本,以及样本文本的样本纠错文本,对初始文本纠错模型进行训练,从而得到文本纠错模型。此处的初始文本纠错模型可以是统计语言模型,例如,n-gram。
本发明实施例中,通过显式纠错中基于概率依存关系的错词定位,以及基于拼音的错词替换,可以实现转写文本中表层的错误纠正,为后续的容错处理,以及语音问答准确率的提升奠定了数据基础。
步骤130,分别对纠错文本和问题语音进行特征提取,得到文本特征和语音特征,基于文本特征和语音特征之间的相关性,对文本特征和语音特征进行融合,得到问题融合特征;
考虑到传统方案中统计语言模型和预训练深度学习模型在显式纠错上的性能限制,本发明实施例中转从特征层面上进行隐式纠错(容错处理),原因在于:特征层面上的隐式纠错更易被模型学习到,因而,本发明实施例中在传统的基于统计语言模型的显式纠错的基础上,使用了问题语音和转写文本的融合特征在特征层面进行隐式纠错(容错处理),使得转写错误对于下游的问答任务的影响最小,为语音问答准确率的提升提供了关键性的助力。
具体地,在步骤120中,进行文本纠错得到转写文本的纠错文本后,可以执行步骤130,分别对纠错文本和问题语音进行特征提取,得到文本特征和语音特征,并基于文本特征和语音特征之间的相关性,对文本特征和语音特征进行融合,从而得到问题融合特征,这一过程具体可以包括如下步骤:
首先,可以对纠错文本和问题语音分别进行特征提取,以提取两者中蕴含的问题语句的相关特征,从而得到纠错文本的文本特征,以及问题语音的语音特征;由于不同问题问句的语音波形,以及语音谱图之间存在较为明显的差异,而这些差异恰好能够反映出问题语句的语义信息之间的语义差异;因此,提取问题语音的语音特征,通过该语音特征中蕴含的语义信息可以很好的弥补转写文本中因转写错误丢失的语义信息;
此处,对于纠错文本和问题语音的特征提取过程,可以通过特征提取网络实现,具体可以是,将纠错文本和问题语音分别输入至文本特征提取网络和语音特征提取网络,通过文本特征提取网络对输入的纠错文本进行特征提取,通过语音特征提取网络对问题语音进行特征提取,然后由文本特征提取网络和语音特征提取网络分别输出纠错文本的文本特征和问题语音的语音特征;
而在对纠错文本和问题语音分别进行特征提取之前,还可以应用预先训练得到特征提取网络;而值得注意的是,训练过程中的初始文本特征提取网络是在语言模型的基础上构建的,而语音特征提取网络则是在通用的语音预训练模型的基础上构建的。
随即,考虑到文本特征与语音特征所表征的问题语句的语义信息在信息层面、信息角度以及信息侧重点上的差异,以及基于转写文本的纠错文本在语音转写过程中因转写错误丢失了一部分信息,而语音特征中蕴含的语义信息又恰好能够补充这一部分信息,因而,本发明实施例中,可以对此两者进行融合,以使文本特征和语音特征能够互相补充,融合过程可以是以文本特征和语音特征之间的相关性为基准进行的,即可以依据文本特征和语音特征之间的相关性,对纠错文本的文本特征和问题语音的语音特征进行融合,从而得到问题融合特征;
需要说明的是,基于两者之间的相关性进行融合实际上等同于基于注意力机制对此两者进行融合,注意力机制的本质为特征加权,注意力机制的引入,可以在高维的多模态特征(文本模态和语音模态)中聚焦于对当前任务更为关键的信息,同时降低对其他信息的关注度,甚至可以过滤掉无关的信息,具体在本发明实施例中,通过注意力机制,对此两者进行融合可以使得融合过程加重容错处理的相关特征的权重,并削弱不相关特征的权重,从而有效解决信息过载问题,提高了任务处理的准确性,最终得到问题融合特征。
此处,选用的注意力机制为类似于非局部块的结构,融合所得的问题融合特征,不仅蕴含了问题语音中有关于问题语句的语义信息,还囊括了纠错文本中转写错误相关特征的表观信息;并且,以文本特征和语音特征之间的相关性为前提,进行特征融合,能够使融合所得的问题融合特征增添问题语句相关的细微特征(语义、语气等),此细微特征对于同音字词、相似字词的纠错和容错处理具有关键性的作用,即可以识别具有相同拼音的字词,以及相似的字词,使得其对于后续的问答过程的影响最小,为语音问答准确率的提升提供了助力。
步骤140,将问题融合特征与各候选问题的候选问题融合特征进行匹配,将匹配成功的候选问题所对应的答案确定为问题语音的答案。
具体地,经过上述步骤,得到问题融合特征后,即可步骤140,对问题融合特征与各候选问题的候选问题融合特征进行匹配,结合匹配结果确定问题语音的答案,完成语音问答过程,具体过程可以包括:
首先,可以需要各候选问题,此处的各候选问题即预先收集的多个用于与问题语音进行匹配的问题,其可以是语音形式的,并且可以同问题语音一样,通过上述步骤110至步骤130得到其对应的候选问题融合特征;
需要说明的是,在筛选候选问题时,为缩小匹配范围,节省运算资源,加快语音问答速率,可以将问题语音中包含的问题语句对应的领域作为筛选条件,以筛选出与问题语句对应的领域相同或相近领域的多个问题,作为候选问题。
随后,可以将问题融合特征和各候选问题的候选问题融合特征进行匹配,以得到匹配结果,具体可以是,计算问题融合特征与各候选问题融合特征之间的特征相似度,通过特征相似度衡量两者之间的匹配关系,即在特征相似度大于等于预设相似度阈值时,判定两者匹配,即匹配结果为匹配成功,对应地,在特征相似度小于预设相似度阈值时,确定两者不匹配,即匹配结果为匹配失败;
此处,问题融合特征与各候选问题融合特征之间的特征相似度,可以通过特征之间的余弦相似度、欧式距离、闵氏距离等计算得到。
此后,即可根据匹配结果,确定问题语音的答案,即可以确定匹配成功情况下的候选问题,匹配成功即表明了问题融合特征和对应的候选问题融合特征之间的较高,换而言之,问题语音所表征的问题语句与候选问题中蕴含的问题语句的语义信息十分接近,因而可以将此种情况下的候选问题所对应的答案直接作为问题语音的答案。
本发明提供的语音问答方法,对问题语音的转写文本进行文本纠错,得到纠错文本,并对纠错文本和问题语音分别进行特征提取,得到文本特征和语音特征,借助两者之间的相关性进行特征融合,得到问题融合特征;将问题融合特征与各候选问题的候选问题融合特征进行匹配,将匹配成功的候选问题所对应的答案确定为问题语音的答案,通过转写文本的显式纠错,以及在特征融合过程中在特征层面的容错处理,可以使得转写文本中的转写错误对于下游的问答任务的负面影响最小,克服了传统方案中无法纠正有语义关联的长距离依赖型错误,以及在垂直领域下的语音问答效果欠佳的缺陷,通过针对于转写错误的显式纠错和容错处理,能够在极大程度上提升语音问答的准确率。
基于上述实施例,步骤130包括:
基于特征提取模型,对纠错文本和问题语音分别进行特征提取,得到文本特征和语音特征,基于文本特征和语音特征之间的相关性,对文本特征和语音特征进行融合,得到问题融合特征;
特征提取模型基于样本问题对,以及样本问题对中两个样本问题语音之间的语义是否相同训练得到。
具体地,步骤130中,分别对纠错文本和问题语音进行特征提取,得到文本特征和语音特征,基于文本特征和语音特征之间的相关性,对文本特征和语音特征进行融合,得到问题融合特征的过程,可以借助特征提取模型实现,具体过程可以包括如下步骤:
首先,可以通过特征提取模型,分别对纠错文本和问题语音进行特征提取,从而得到纠错文本的文本特征,以及问题语音的语音特征,此过程具体可以是通过特征提取模型中的文本特征提取网络和语音特征提取网络实现的,具体可以是,将纠错文本和问题语音分别输入至特征提取模型中的文本特征提取网络和语音特征提取网络,通过文本特征提取网络对输入的纠错文本进行特征提取,通过语音特征提取网络对问题语音进行特征提取,然后由文本特征提取网络和语音特征提取网络分别输出纠错文本的文本特征,以及问题语音的语音特征;
随即,考虑到文本特征与语音特征所表征的问题语句的语义信息在信息层面、信息角度以及信息侧重点上的差异,以及基于转写文本的纠错文本在语音转写过程中因转写错误丢失了一部分信息,而语音特征中蕴含的语义信息又恰好能够补充这一部分信息,因而,本发明实施例中可以在特征提取模型中,对此两者进行融合,以使文本特征和语音特征能够互相补充,融合过程可以是以文本特征和语音特征之间的相关性为基准进行的,即特征提取模型可以依据文本特征和语音特征之间的相关性,对纠错文本的文本特征和问题语音的语音特征进行融合,从而得到问题融合特征;
此处的特征融合实际上是通过特征提取模型中的特征融合网络实现的,具体可以是,将文本特征和图像特征输入至特征提取模型中的特征融合网络,特征融合网络可以依据文本特征和语音特征之间的相关性,对比两者进行融合,从而得到问题融合特征。
值得注意的是,此处的特征融合网络可以理解为注意力机制,其可以捕获文本特征和语音特征之间的关联关系,并可以借用此关联关系,在特征融合的过程中增加有益于隐式纠错(容错处理)的特征权重,并削弱不相关特征的权重,从而使得下游的问答任务能够不受转写错误的干扰,依然输出返回正确的答案。
而在纠错文本和问题语音输入至特征提取模型之前,还可以应用样本问题对,以及样本问题对中两个样本问题语音之间的语义关系预先训练得到特征提取模型,此处的语义关系表征的是两个样本问题语音中蕴含的样本问题语句的语义异同,即语义相同还是语义不同。
特征提取模型的训练过程具体包括:首先,收集大量的样本问题语音,以组建正样本问题对和负样本问题对;其中,正样本问题对中的两个样本问题语音的语义相同,负样本问题对中的两个样本问题语音的语义不同;随即,可以基于正样本问题对和负样本问题对,对初始特征提取模型进行训练,从而得到训练完成的特征提取模型。
本发明实施例中,通过正负样本问题对进行模型训练,可以使模型充分学习到不同语义情况下,两个样本问题语音的样本问题融合特征之间的远近关系,以在语义相同时,通过训练使得模型输出的两个样本问题语音的样本问题融合特征之间的相似度尽可能的高;对应地,在语义不同时,使得模型输出的两个样本问题语音的样本问题融合特征之间的尽可能的低,为语音问答准确率的提升提供了助益。
基于上述实施例,图2是本发明提供的模型训练过程的流程示意图,如图2所示,特征提取模型基于如下步骤训练:
步骤210,基于初始特征提取模型,确定样本问题语音的样本问题融合特征;
步骤220,从样本问题语音中,选取语义相同的两个样本问题语音,作为正样本问题对,从各样本问题语音中,选取语义不同的两个样本问题语音,作为负样本问题对;
步骤230,基于正样本问题对中两个样本问题语音的样本问题融合特征之间的特征相似度,以及负样本问题对中两个样本问题语音的样本问题融合特征之间的特征相似度,对初始特征提取模型进行参数迭代,得到特征提取模型。
具体地,特征提取模型的训练过程,具体可以包括如下步骤:
首先,执行步骤210,需要确定初始特征提取模型,此处的初始特征提取模型中包括初始文本特征提取网络,初始语音特征提取网络,以及初始特征融合网络;通过初始特征提取模型中的此三个网络可以确定样本问题语音的样本问题融合特征,具体可以是,通过初始文本特征提取网络对样本纠错文本进行特征提取,以得到样本文本特征,此处的样本纠错文本是在基于样本问题语音的样本转写文本的基础上确定的;通过初始语音特征提取网络,对样本问题语音进行特征提取,以得到样本语音特征;然后,可在初始特征融合网络中,以样本文本特征和样本语音特征之间的相关性为基准,对此两者进行融合,从而得到样本问题融合特征;
随即,执行步骤220,确定样本问题语音之间的语义关系,此处的语义关系表征的是两者中蕴含的样本问题语句的语义异同,其可以通过特征之间的相似度进行度量,也可以是预先标注的,本发明实施例对此不做具体限定;然后,可以以样本问题语音之间的语义是否相同为依据,从样本问题语音中选取语义相同的两个样本问题语音,作为正样本问题对,即通过两个语义相同的样本问题语音,组建正样本问题对;对应地,可以从样本问题语音中选取语义不同的两个样本问题语音,作为负样本问题对,即通过两个语义不同的样本问题语音,组建负样本问题对;
此后,执行步骤330,分别确定初始特征提取模型输出的正样本问题对中的两个样本问题语音的样本问题融合特征之间的特征相似度,以及负样本问题对中的两个样本问题语音的样本问题融合特征之间的特征相似度,并基于此两个特征相似度确定模型的损失,依据损失对初始特征提取模型进行参数迭代,从而得到特征提取模型,这一过程实质上是对初始特征提取模型的参数进行调整,以使其在调整过程中能够充分学习到正负样本问题对中样本问题语音与样本问题融合特征之间的映射关系,从而可以在应用过程中凭借此映射关系,输出与纠错文本和问题语音对应的问题融合特征。
值得注意的是,此处的特征相似度可以表示为余弦相似度、欧式距离、闵氏距离等;而作为优选,本发明实施例中特征相似度可以是通过余弦相似度度量的特征之间的语义相似度。
需要说明的是,上述过程中,以正样本问题对中两个样本问题语音的样本问题融合特征之间的特征相似度,以及负样本问题对中两个样本问题语音的样本问题融合特征之间的特征相似度为训练目标,对初始特征提取模型进行训练,可以使得模型充分学习到不同语义情况下,两个样本问题语音的样本问题融合特征之间的远近关系,即可以是初始特征提取模型根据样本问题语音之间的语义异同,判定其样本问题语音的样本问题融合特征之间的特征相似度,旨在语义相同的情况下,使模型输出的两个样本问题语音的样本问题融合特征之间的相似度尽可能的高;对应地,在语义不同时,使得模型输出的两个样本问题语音的样本问题融合特征之间的尽可能的低。
进一步地,上述基于特征相似度进行模型训练时,若输出的正样本问题对中的两个样本问题语音的样本问题融合特征之间的特征相似度高,且负样本问题对中的两个样本问题语音的样本问题融合特征之间的特征相似度低,则可以确定初始特征提取模型的损失较小;对应地,若输出的正样本问题对中的两个样本问题语音的样本问题融合特征之间的特征相似度低,和/或,负样本问题对中的两个样本问题语音的样本问题融合特征之间的特征相似度高,则可以确定初始特征提取模型的损失较大。
本发明实施例中,应用正负样本问题对中两个样本问题语音的样本问题融合特征之间的特征相似度进行模型训练,不仅能够保障模型的性能,还能使模型在训练过程中充分学习到不同样本组合下两个样本问题语音之间的语义关系,为应用过程的容错处理,以及语音问答准确率的提升提供了关键性的助力。
基于上述实施例,上述训练过程的损失函数可以表示为如下公式:
式中,Loss(x,y,l;w)表示训练过程中的损失函数,x与y表示样本问题对中的两个样本问题语音,l表示表示x与y之间的语义关系,即两者语义异同,1表示两者语义相同,-1则表示两者语义不同,w为初始特征提取模型的参数,为保证损失函数的有效性,margin的设定范围为(-1,1),通常默认为0。
基于上述实施例,特征提取模型包括语音特征提取网络、文本特征提取网络、以及特征融合网络;
其中,语音特征提取网络用于对问题语音进行特征提取,得到问题语音的语音特征;
文本特征提取网络用于对纠错文本进行特征提取,得到纠错文本的文本特征;
特征融合网络用于基于文本特征和语音特征之间的相关性,对文本特征和语音特征进行融合,得到问题融合特征。
具体地,上述过程中,用于特征提取和特征融合的特征提取模型包括三个网络,分别为文本特征提取网络、语音特征提取网络,以及特征融合网络;其中,文本特征提取网络和语音特征提取网络并行,且文本特征提取网络和语音特征提取网络同时与特征融合网络串行连接,换而言之,文本特征提取网络和语音特征提取网络的输出为特征融合网络的输入。
其中,文本特征提取网络的输入为问题语音的纠错文本,其用于对问题语音的纠错文本进行特征提取,提取其中能够表征问题语句的特征,从而得到纠错文本的文本特征。
语音特征提取网络的输入为问题语音,其可以用于对问题语音进行特征提取,提取问题语音的语音波形和语音频谱中蕴含的丰富的有关于问题语句的特征,从而得到问题语句的语音特征。
特征提取网络的输入为纠错文本的文本特征和问题语音的语音特征,其可以捕获到文本特征和语音特征之间的关联关系,以得到文本特征和语音特征之间的相关性,从而可以应用此相关性,对此两者进行融合,以在融合的过程中聚焦于有助于容错处理的相关特征,忽略其他特征,从而能够较少转写错误对于后续的问答任务的干扰。
基于上述实施例,特征融合网络包括特征加权层和特征融合层,特征加权层和特征融合层残差连接;
特征加权层用于基于文本特征和语音特征之间的相关性,确定语音特征的权重,并基于权重对语音特征进行加权,得到加权语音特征;
特征融合层用于基于加权语音特征和语音特征,确定第一语音特征,并对第一语音特征和文本特征进行融合,得到问题融合特征。
具体地,特征融合网络包括有特征加权层和特征融合层,两者之间残差连接,即将特征加权层的输入和输出,共同作为特征融合层的输入。此处的特征融合网络可以视为注意力机制,基于注意力机制的特征融合过程可以分为两个步骤,其一是特征加权,其二是特征融合。
其中,特征加权层用于实现特征加权,其可以以文本特征和语音特征之间的相关性为基准,确定语音特征的权重,并可依据该权重对语音特征进行加权,从而得到加权语音特征。
特征融合层则用于实现特征融合,其可以在特征加权层输出的加权语音特征的基础上,叠加语音特征,以得到第一语音特征,然后,即可对第一语音特征和文本特征进行融合,从而得到问题融合特征。
本发明实施例种,特征加权层和特征融合层之间残差连接关系,可以使得特征提取模型在训练速率加快,即可以加速模型收敛。
基于上述实施例,图3是本发明提供的特征融合过程的框架示例图,如图3所示,对文本特征施加自注意力机制,可以学习纠错文本中各分词的分词特征之间的关联关系,而对语音特征施加自注意力机制,则可以捕捉问题语音中各语音帧的语音帧特征之间的依赖关系,这一过程可通过如下公式进行表示:
式中,Q、K、V为依赖于文本特征和语音特征产生的矩阵,KT为K的转置,dk则表示矩阵K的维度。
通过自注意力机制处理后得到的文本特征与语音特征,可以通过注意力机制进行融合,以实现两种特征的高效融合,从而生成最终的问题融合特征。
此处的注意力机制由两个全连接的层组成,两个全连接层之间残差连接。在通过另一个全连接层之前,需要利用权重对语音特征进行加权,以得到语音加权特征,在此基础上引入残差连接以加速模型收敛。具体而言,对于输入的语音特征Z1,以及文本特征Z2,可以输出问题融合特征X,其计算公式如下式所示:
a=σ(W2δ(W1Z1))
δ=a*Z1+Z1
X=S*Z2
式中,W1、W2为全连接层的参数,δ为激活函数(The Rectified Linear Unit,ReLU),σ是sigmoid激活函数,a为语音特征的权重,Z1为语音特征,Z2为文本特征,S为第一语音特征,X为问题融合特征。
基于上述实施例,步骤120包括:
基于文本纠错模型,对问题语音的转写文本进行文本纠错,得到纠错文本;
文本纠错模型是在统计语言模型的基础上,应用样本文本,以及样本文本的样本纠错文本训练得到的。
具体地,步骤120中,根据问题语音的转写文本进行文本纠错,从而得到纠错文本的过程,可以通过文本纠错模型实现,具体过程可以包括如下步骤:
首先,可以将转写文本输入至文本纠错模型,然后由文本纠错模型对输入的转写文本进行文本纠错,以纠正其中存在的同音字词、相似字词、固定搭配等表层的转写错误,最终得到文本纠错模型输出的纠错文本。
而在将转写文本输入至文本纠错模型之前,还可以应用样本文本及其样本纠错文本预先训练得到文本纠错模型,文本纠错模型的训练过程包括如下步骤:首先,收集大量的样本文本,并确定样本文本的样本纠错文本;随即,可以基于样本文本,以及样本文本的样本纠错文本,对初始文本纠错模型进行训练,从而得到文本纠错模型。
本发明实施例中,初始文本纠错模型可以是统计语言模型,例如,n-gram,换而言之,针对于样本转写文本的显式纠错过程其实是在统计语言模型中实现的。统计语言模型n-gram在进行文本纠错时,通常使用bi-gram或者tri-gram来对语句进行建模。
以样本转写文本中的样本问题语句“小麦在春天该施什么肥”为例,对基于统计语言模型的文本纠错过程进行说明:
统计语言模型首先可以对样本转写文本进行分词,即将样本问题语句“小麦在春天该施什么肥”划分为“小麦/春天/该/是/什么/肥”;然后,可以将分词得到的字词列表组成二元对列表和三元对列表,其中二元对列表为“[小麦春天][春天该][该是][是什么][什么肥]”,三元对列表则为“[小麦春天该][春天该是][该是什么][是什么肥]”;在这之后,可以通过bi-gram和tri-gram模型依次计算样本问题语句中二元组列表的得分,以及三元组列表的得分(对数概率),其中,bi-gram模型计算得到的分数个数为5,tri-gram模型计算得到的分数个数为4,从得分左右两端头尾值向外填充n-1次,使用大小为n的滑动窗口对得分求平均,由此得到形状为(6,2)的得分,其中n为n-gram模型阶数。沿着列的方向求平均可以得到形状为(6,1)的向量,其中每个值对应着当前位置的平均语言对数概率。
当平均语言对数概率低于预设阈值时,判定当前位置出错。而对于出错词,可以通过搜索同音字词作为替换词,将所有替换词替换至对应位置并计算PPL(perplexity,困惑度),然后对PPL进行排序,选取困惑度最低的替换词作为该位置的修正词。
以bi-gram为例,PPL计算公式可以表示为:
式中,M表示样本问题语句,wi表示样本问题语句中的第i个分词,k表示样本问题语句中分词的数目,n表示n-gram模型阶数。
基于上述实施例,初始特征提取模型包括初始语音特征提取网络、初始文本特征提取网络、以及初始特征融合网络;
其中,初始语音特征提取网络用于对样本问题语音进行特征提取,得到样本语音特征;
初始文本特征提取网络用于对样本问题语音的样本纠错文本进行特征提取,得到样本文本特征,样本纠错文本是基于样本问题语音的样本转写文本进行文本纠错得到的;
初始特征融合网络用于基于样本文本特征和样本语音特征之间的相关性,对样本文本特征和样本语音特征进行融合,得到样本问题融合特征;
初始语音特征提取网络是在语音预训练模型的基础上构建的,初始文本特征提取网络是在语言模型的基础上构建的。
具体地,初始特征提取模型中同样包括三个网络,分别为初始语音特征提取网络、初始文本特征提取网络、以及初始特征融合网络。
其中,初始语音特征提取网络的输入为样本问题语音,其可以对输入的样本问题语音进行特征提取,从而得到样本语音特征。
初始文本特征提取网络的输入则为样本问题语音的样本纠错文本,其可以对输入的样本纠错文本进行特征提取,从而得到样本文本特征,此处的样本纠错文本是在样本问题语音进行语音转写得到的样本转写文本的基础山,进行文本纠错得到的。
初始特征融合网络的输入则为初始语音特征提取网络输出的样本语音特征,以及初始文本特征提取网络输出的样本文本特征,其可以利用样本文本特征和样本语音特征之间的相关性,对样本文本特征和样本语音特征进行融合,从而得到样本问题融合特征。
其中,初始语音特征提取网络是在语音预训练模型的基础上构建的,例如,通用的语音预训练模型WavLM,本发明实施例中使用WavLM语音预训练模型作为初始语音特征提取网络,可以提取样本问题语音中蕴含的丰富语义信息,并且通过其预训练过程中的掩膜语音降噪/预测框架(Masked Speech Denoising and Prediction Framework),可以使模型对样本问题语音中语音关键位置有极强的语义表征能力。
WavLM的特点在于其摈弃了语音低级描述子(Low-Level-Descriptor)的提取,直接使用语音波形作为模型输入,并使用掩码语音降噪(Masked Speech Denoising)的方式对离散伪标签进行建模;此外,在WavLM的Transformer编码器中,使用了门控相对位置编码(gated relative position bias),将语音帧的相对位置引入到了注意力计算中,从而能够更好地对语音局部信息进行建模。
而初始文本特征提取网络是在语言模型的基础上构建的,例如,BERT(Bidirectional Encoder Representation from Transformers),本发明实施例中使用BERT作为初始文本特征提取网络,可以对样本纠错文本进行特征提取,即能够从样本纠错文本中抽取能够表征样本问题语句的特征;在这一过程中,对样本问题语句的表征有着关键作用的信息主要有以下三点,其一是组成样本问题语句中各分词的语义信息,其二是各分词在样本问题语句中的位置信息,其三是各分词之间的交互关系,三种信息输入BERT中的transformer的编码器进行特征提取,编码器由多头自注意力机制层(Multi-Head Self-Attention Layer)与前向全连接层(Feed Forward Network)组成,能够学习输入信息间的交互关系,从而生成样本问题语句中各分词的分词特征。
而在对BERT进行迁移训练的过程中,可以使用大量的垂直领域下的样本问答数据,对BERT进行掩码微调训练,训练过程中以15%的概率使用mask token随机地对每一个训练序列中的token进行替换,然后预测出掩码位置的原有词语,如此可以使得模型在下游的问答任务中对掩码位置的字词敏感(即文本纠错模型无法纠正的转写错误字词),进而可以在生成特征时引入特征级别的纠错机制。
基于上述实施例,图4是本发明提供的语音问答方法的总体框架图,如图4所示,该方法包括:
首先,需要确定问题语音;
随即,可以基于问题语音的转写文本进行文本纠错,从而得到纠错文本,具体可以是,基于文本纠错模型,对问题语音的转写文本进行文本纠错,得到纠错文本;此处的文本纠错模型是在统计语言模型的基础上,应用样本文本,以及样本文本的样本纠错文本训练得到的;
随后,可以分别对纠错文本和问题语音进行特征提取,得到文本特征和语音特征,基于文本特征和语音特征之间的相关性,对文本特征和语音特征进行融合,得到问题融合特征,具体可以是,基于特征提取模型,对纠错文本和问题语音分别进行特征提取,得到文本特征和语音特征,基于文本特征和语音特征之间的相关性,对文本特征和语音特征进行融合,得到问题融合特征;其中,特征提取模型基于样本问题对,以及样本问题对中两个样本问题语音之间的语义是否相同训练得到;
其中,特征提取模型包括语音特征提取网络、文本特征提取网络、以及特征融合网络;其中,语音特征提取网络用于对问题语音进行特征提取,得到问题语音的语音特征;文本特征提取网络用于对纠错文本进行特征提取,得到纠错文本的文本特征;特征融合网络用于基于文本特征和语音特征之间的相关性,对文本特征和语音特征进行融合,得到问题融合特征。
进一步地,特征融合网络包括特征加权层和特征融合层,特征加权层和特征融合层残差连接;其中,特征加权层用于基于文本特征和语音特征之间的相关性,确定语音特征的权重,并基于权重对语音特征进行加权,得到加权语音特征;特征融合层用于基于加权语音特征和语音特征,确定第一语音特征,并对第一语音特征和文本特征进行融合,得到问题融合特征。
特征提取模型包括如下步骤:基于初始特征提取模型,确定样本问题语音的样本问题融合特征;从样本问题语音中,选取语义相同的两个样本问题语音,作为正样本问题对,从各样本问题语音中,选取语义不同的两个样本问题语音,作为负样本问题对;基于正样本问题对中两个样本问题语音的样本问题融合特征之间的特征相似度,以及负样本问题对中两个样本问题语音的样本问题融合特征之间的特征相似度,对初始特征提取模型进行参数迭代,得到特征提取模型。
其中,初始特征提取模型包括初始语音特征提取网络、初始文本特征提取网络、以及初始特征融合网络;初始语音特征提取网络用于对样本问题语音进行特征提取,得到样本语音特征;初始文本特征提取网络用于对样本问题语音的样本纠错文本进行特征提取,得到样本文本特征,样本纠错文本是基于样本问题语音的样本转写文本进行文本纠错得到的;初始特征融合网络用于基于样本文本特征和样本语音特征之间的相关性,对样本文本特征和样本语音特征进行融合,得到样本问题融合特征;初始语音特征提取网络是在语音预训练模型的基础上构建的,初始文本特征提取网络是在语言模型的基础上构建的。
此后,即可将问题融合特征与各候选问题的候选问题融合特征进行匹配,将匹配成功的候选问题所对应的答案确定为问题语音的答案。
本发明实施例提供的方法,对问题语音的转写文本进行文本纠错,得到纠错文本,并对纠错文本和问题语音分别进行特征提取,得到文本特征和语音特征,借助两者之间的相关性进行特征融合,得到问题融合特征;将问题融合特征与各候选问题的候选问题融合特征进行匹配,将匹配成功的候选问题所对应的答案确定为问题语音的答案,通过转写文本的显式纠错,以及在特征融合过程中在特征层面的容错处理,可以使得转写文本中的转写错误对于下游的问答任务的负面影响最小,克服了传统方案中无法纠正有语义关联的长距离依赖型错误,以及在垂直领域下的语音问答效果欠佳的缺陷,通过针对于转写错误的显式纠错和容错处理,能够在极大程度上提升语音问答的准确率。
下面对本发明提供的语音问答装置进行描述,下文描述的语音问答装置与上文描述的语音问答方法可相互对应参照。
图5是本发明提供的语音问答装置的结构示意图,如图5所示,该装置包括:
语音确定单元510,用于确定问题语音;
文本纠错单元520,用于基于所述问题语音的转写文本进行文本纠错,得到纠错文本;
特征融合单元530,用于分别对所述纠错文本和所述问题语音进行特征提取,得到文本特征和语音特征,基于所述文本特征和所述语音特征之间的相关性,对所述文本特征和所述语音特征进行融合,得到问题融合特征;
答案确定单元540,用于将所述问题融合特征与各候选问题的候选问题融合特征进行匹配,将匹配成功的候选问题所对应的答案确定为所述问题语音的答案。
本发明提供的语音问答装置,对问题语音的转写文本进行文本纠错,得到纠错文本,并对纠错文本和问题语音分别进行特征提取,得到文本特征和语音特征,借助两者之间的相关性进行特征融合,得到问题融合特征;将问题融合特征与各候选问题的候选问题融合特征进行匹配,将匹配成功的候选问题所对应的答案确定为问题语音的答案,通过转写文本的显式纠错,以及在特征融合过程中在特征层面的容错处理,可以使得转写文本中的转写错误对于下游的问答任务的负面影响最小,克服了传统方案中无法纠正有语义关联的长距离依赖型错误,以及在垂直领域下的语音问答效果欠佳的缺陷,通过针对于转写错误的显式纠错和容错处理,能够在极大程度上提升语音问答的准确率。
基于上述实施例,特征融合单元530用于
基于特征提取模型,对所述纠错文本和所述问题语音分别进行特征提取,得到文本特征和语音特征,基于所述文本特征和所述语音特征之间的相关性,对所述文本特征和所述语音特征进行融合,得到问题融合特征;
所述特征提取模型基于样本问题对,以及所述样本问题对中两个样本问题语音之间的语义是否相同训练得到。
基于上述实施例,所述装置还包括模型训练单元,用于:
基于初始特征提取模型,确定样本问题语音的样本问题融合特征;
从所述样本问题语音中,选取语义相同的两个样本问题语音,作为正样本问题对,从所述各样本问题语音中,选取语义不同的两个样本问题语音,作为负样本问题对;
基于所述正样本问题对中两个样本问题语音的样本问题融合特征之间的特征相似度,以及所述负样本问题对中两个样本问题语音的样本问题融合特征之间的特征相似度,对所述初始特征提取模型进行参数迭代,得到特征提取模型。
基于上述实施例,所述特征提取模型包括语音特征提取网络、文本特征提取网络、以及特征融合网络;
其中,所述语音特征提取网络用于对所述问题语音进行特征提取,得到所述问题语音的语音特征;
所述文本特征提取网络用于对所述纠错文本进行特征提取,得到所述纠错文本的文本特征;
所述特征融合网络用于基于所述文本特征和所述语音特征之间的相关性,对所述文本特征和所述语音特征进行融合,得到问题融合特征。
基于上述实施例,所述特征融合网络包括特征加权层和特征融合层,所述特征加权层和所述特征融合层残差连接;
所述特征加权层用于基于所述文本特征和所述语音特征之间的相关性,确定所述语音特征的权重,并基于所述权重对所述语音特征进行加权,得到加权语音特征;
所述特征融合层用于基于所述加权语音特征和所述语音特征,确定第一语音特征,并对所述第一语音特征和所述文本特征进行融合,得到问题融合特征。
基于上述实施例,文本纠错单元520用于:
基于文本纠错模型,对所述问题语音的转写文本进行文本纠错,得到纠错文本;
所述文本纠错模型是在统计语言模型的基础上,应用样本文本,以及所述样本文本的样本纠错文本训练得到的。
基于上述实施例,所述初始特征提取模型包括初始语音特征提取网络、初始文本特征提取网络、以及初始特征融合网络;
其中,所述初始语音特征提取网络用于对所述样本问题语音进行特征提取,得到样本语音特征;
所述初始文本特征提取网络用于对所述样本问题语音的样本纠错文本进行特征提取,得到样本文本特征,所述样本纠错文本是基于所述样本问题语音的样本转写文本进行文本纠错得到的;
所述初始特征融合网络用于基于所述样本文本特征和所述样本语音特征之间的相关性,对所述样本文本特征和所述样本语音特征进行融合,得到样本问题融合特征;
所述初始语音特征提取网络是在语音预训练模型的基础上构建的,所述初始文本特征提取网络是在语言模型的基础上构建的。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行语音问答方法,该方法包括:确定问题语音;基于所述问题语音的转写文本进行文本纠错,得到纠错文本;分别对所述纠错文本和所述问题语音进行特征提取,得到文本特征和语音特征,基于所述文本特征和所述语音特征之间的相关性,对所述文本特征和所述语音特征进行融合,得到问题融合特征;将所述问题融合特征与各候选问题的候选问题融合特征进行匹配,将匹配成功的候选问题所对应的答案确定为所述问题语音的答案。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的语音问答方法,该方法包括:确定问题语音;基于所述问题语音的转写文本进行文本纠错,得到纠错文本;分别对所述纠错文本和所述问题语音进行特征提取,得到文本特征和语音特征,基于所述文本特征和所述语音特征之间的相关性,对所述文本特征和所述语音特征进行融合,得到问题融合特征;将所述问题融合特征与各候选问题的候选问题融合特征进行匹配,将匹配成功的候选问题所对应的答案确定为所述问题语音的答案。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法所提供的语音问答方法,该方法包括:确定问题语音;基于所述问题语音的转写文本进行文本纠错,得到纠错文本;分别对所述纠错文本和所述问题语音进行特征提取,得到文本特征和语音特征,基于所述文本特征和所述语音特征之间的相关性,对所述文本特征和所述语音特征进行融合,得到问题融合特征;将所述问题融合特征与各候选问题的候选问题融合特征进行匹配,将匹配成功的候选问题所对应的答案确定为所述问题语音的答案。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音问答方法,其特征在于,包括:
确定问题语音;
基于所述问题语音的转写文本进行文本纠错,得到纠错文本;
分别对所述纠错文本和所述问题语音进行特征提取,得到文本特征和语音特征,基于所述文本特征和所述语音特征之间的相关性,对所述文本特征和所述语音特征进行融合,得到问题融合特征;
将所述问题融合特征与各候选问题的候选问题融合特征进行匹配,将匹配成功的候选问题所对应的答案确定为所述问题语音的答案。
2.根据权利要求1所述的语音问答方法,其特征在于,所述分别对所述纠错文本和所述问题语音进行特征提取,得到文本特征和语音特征,基于所述文本特征和所述语音特征之间的相关性,对所述文本特征和所述语音特征进行融合,得到问题融合特征,包括:
基于特征提取模型,对所述纠错文本和所述问题语音分别进行特征提取,得到文本特征和语音特征,基于所述文本特征和所述语音特征之间的相关性,对所述文本特征和所述语音特征进行融合,得到问题融合特征;
所述特征提取模型基于样本问题对,以及所述样本问题对中两个样本问题语音之间的语义是否相同训练得到。
3.根据权利要求2所述的语音问答方法,其特征在于,所述特征提取模型基于如下步骤训练:
基于初始特征提取模型,确定样本问题语音的样本问题融合特征;
从所述样本问题语音中,选取语义相同的两个样本问题语音,作为正样本问题对,从所述各样本问题语音中,选取语义不同的两个样本问题语音,作为负样本问题对;
基于所述正样本问题对中两个样本问题语音的样本问题融合特征之间的特征相似度,以及所述负样本问题对中两个样本问题语音的样本问题融合特征之间的特征相似度,对所述初始特征提取模型进行参数迭代,得到特征提取模型。
4.根据权利要求2或3所述的语音问答方法,其特征在于,所述特征提取模型包括语音特征提取网络、文本特征提取网络、以及特征融合网络;
其中,所述语音特征提取网络用于对所述问题语音进行特征提取,得到所述问题语音的语音特征;
所述文本特征提取网络用于对所述纠错文本进行特征提取,得到所述纠错文本的文本特征;
所述特征融合网络用于基于所述文本特征和所述语音特征之间的相关性,对所述文本特征和所述语音特征进行融合,得到问题融合特征。
5.根据权利要求4所述的语音问答方法,其特征在于,所述特征融合网络包括特征加权层和特征融合层,所述特征加权层和所述特征融合层残差连接;
所述特征加权层用于基于所述文本特征和所述语音特征之间的相关性,确定所述语音特征的权重,并基于所述权重对所述语音特征进行加权,得到加权语音特征;
所述特征融合层用于基于所述加权语音特征和所述语音特征,确定第一语音特征,并对所述第一语音特征和所述文本特征进行融合,得到问题融合特征。
6.根据权利要求1至3中任一项所述的语音问答方法,其特征在于,所述基于所述问题语音的转写文本进行文本纠错,得到纠错文本,包括:
基于文本纠错模型,对所述问题语音的转写文本进行文本纠错,得到纠错文本;
所述文本纠错模型是在统计语言模型的基础上,应用样本文本,以及所述样本文本的样本纠错文本训练得到的。
7.根据权利要求3所述的语音问答方法,其特征在于,所述初始特征提取模型包括初始语音特征提取网络、初始文本特征提取网络、以及初始特征融合网络;
其中,所述初始语音特征提取网络用于对所述样本问题语音进行特征提取,得到样本语音特征;
所述初始文本特征提取网络用于对所述样本问题语音的样本纠错文本进行特征提取,得到样本文本特征,所述样本纠错文本是基于所述样本问题语音的样本转写文本进行文本纠错得到的;
所述初始特征融合网络用于基于所述样本文本特征和所述样本语音特征之间的相关性,对所述样本文本特征和所述样本语音特征进行融合,得到样本问题融合特征;
所述初始语音特征提取网络是在语音预训练模型的基础上构建的,所述初始文本特征提取网络是在语言模型的基础上构建的。
8.一种语音问答装置,其特征在于,包括:
语音确定单元,用于确定问题语音;
文本纠错单元,用于基于所述问题语音的转写文本进行文本纠错,得到纠错文本;
特征融合单元,用于分别对所述纠错文本和所述问题语音进行特征提取,得到文本特征和语音特征,基于所述文本特征和所述语音特征之间的相关性,对所述文本特征和所述语音特征进行融合,得到问题融合特征;
答案确定单元,用于将所述问题融合特征与各候选问题的候选问题融合特征进行匹配,将匹配成功的候选问题所对应的答案确定为所述问题语音的答案。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的语音问答方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的语音问答方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211218001.4A CN115525749A (zh) | 2022-09-30 | 2022-09-30 | 语音问答方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211218001.4A CN115525749A (zh) | 2022-09-30 | 2022-09-30 | 语音问答方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115525749A true CN115525749A (zh) | 2022-12-27 |
Family
ID=84701701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211218001.4A Pending CN115525749A (zh) | 2022-09-30 | 2022-09-30 | 语音问答方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115525749A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116665675A (zh) * | 2023-07-25 | 2023-08-29 | 上海蜜度信息技术有限公司 | 语音转写方法、系统、电子设备和存储介质 |
-
2022
- 2022-09-30 CN CN202211218001.4A patent/CN115525749A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116665675A (zh) * | 2023-07-25 | 2023-08-29 | 上海蜜度信息技术有限公司 | 语音转写方法、系统、电子设备和存储介质 |
CN116665675B (zh) * | 2023-07-25 | 2023-12-12 | 上海蜜度信息技术有限公司 | 语音转写方法、系统、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11100921B2 (en) | Pinyin-based method and apparatus for semantic recognition, and system for human-machine dialog | |
CN110163181B (zh) | 手语识别方法及装置 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
US11580145B1 (en) | Query rephrasing using encoder neural network and decoder neural network | |
KR20230040951A (ko) | 음성 인식 방법, 장치 및 디바이스, 및 저장 매체 | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN111339781A (zh) | 意图识别方法、装置、电子设备和存储介质 | |
CN112257437A (zh) | 语音识别纠错方法、装置、电子设备和存储介质 | |
CN112992125B (zh) | 一种语音识别方法、装置、电子设备、可读存储介质 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN111382231A (zh) | 意图识别系统及方法 | |
CN114781651A (zh) | 基于对比学习的小样本学习鲁棒性提升方法 | |
CN111611791A (zh) | 一种文本处理的方法及相关装置 | |
CN115064154A (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN115525749A (zh) | 语音问答方法、装置、电子设备和存储介质 | |
CN114386399A (zh) | 一种文本纠错方法及装置 | |
CN114239589A (zh) | 语义理解模型的鲁棒性评估方法、装置及计算机设备 | |
CN110969005A (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN111462734A (zh) | 语义槽填充模型训练方法及系统 | |
CN115376547A (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
CN111104806A (zh) | 神经机器翻译模型的构建方法及装置、翻译方法及装置 | |
CN112016281B (zh) | 错误医疗文本的生成方法、装置及存储介质 | |
CN113012685B (zh) | 音频识别方法、装置、电子设备及存储介质 | |
CN114239555A (zh) | 一种关键词提取模型的训练方法及相关装置 | |
CN113761874A (zh) | 事件事实性预测方法、装置、电子设备与存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |