CN111613219A - 语音数据识别方法、设备及介质 - Google Patents

语音数据识别方法、设备及介质 Download PDF

Info

Publication number
CN111613219A
CN111613219A CN202010417957.1A CN202010417957A CN111613219A CN 111613219 A CN111613219 A CN 111613219A CN 202010417957 A CN202010417957 A CN 202010417957A CN 111613219 A CN111613219 A CN 111613219A
Authority
CN
China
Prior art keywords
data
result
preset
candidate
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010417957.1A
Other languages
English (en)
Other versions
CN111613219B (zh
Inventor
宋元峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202010417957.1A priority Critical patent/CN111613219B/zh
Publication of CN111613219A publication Critical patent/CN111613219A/zh
Priority to PCT/CN2021/093033 priority patent/WO2021228084A1/zh
Application granted granted Critical
Publication of CN111613219B publication Critical patent/CN111613219B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Abstract

本申请公开了一种语音数据识别方法、装置、设备和介质,该方法包括:对待识别语音数据进行语音识别得到所述待识别语音数据的各候选结果;获取所述各候选结果的初始排序结果,并获取所述各候选结果的关联主题信息;基于所述初始排序结果以及所述关联主题信息,对所述各候选结果进行重新排序,得到目标排序结果;根据所述目标排序结果从各所述候选结果中选取目标候选结果作为所述待识别语音数据的语音识别结果。本申请解决现有技术中语音识别的准确性低的技术问题。

Description

语音数据识别方法、设备及介质
技术领域
本申请涉及金融科技(Fintech)的人工智能技术领域,尤其涉及一种语音数据识别方法、设备及介质。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对语音数据识别也有更高的要求。
随着移动设备的发展,语音成了日常的输入沟通方式,其中,自动语音识别(Automatic Speech Recognition,ASR)技术是语音输入的重要前提,然而,目前,在对语音数据进行自动识别的过程中,未考虑词突发(burstiness)的现象,词突发(burstiness)的现象指的是一个词如"电影"出现之后,这个词("电影"本身)以及和它相关的词如"演员"出现的频率会增加,而未考虑词突发(burstiness)的现象,致使语音识别的准确性低。
发明内容
本申请的主要目的在于提供一种语音数据识别方法、装置、设备和介质,旨在解决现有技术中语音识别的准确性低的技术问题。
为实现上述目的,本申请提供一种语音数据识别方法,所述语音数据识别方法包括:
对待识别语音数据进行语音识别得到所述待识别语音数据的各候选结果;
获取所述各候选结果的初始排序结果,并获取所述各候选结果的关联主题信息;
基于所述初始排序结果以及所述关联主题信息,对所述各候选结果进行重新排序,得到目标排序结果;
根据所述目标排序结果从各所述候选结果中选取目标候选结果作为所述待识别语音数据的语音识别结果。
可选地,所述获取所述各候选结果的关联主题信息的步骤,包括:
将所述候选结果输入至已标注训练数据优化的预设对话主题模型中,对所述候选结果进行主题特征提取处理,得到所述各候选结果的关联主题信息;
其中,所述已标注训练数据是基于模拟标签数据优化的预设预训练模型得到的,所述模拟标签数据是基于预设无标签原始语句数据转换得到的。
可选地,所述模拟标签数据为通过将预设无标签原始语句数据,部分替换为生成的无标签语句数据后,得到的,且所述模拟标签数据至少包括真假模拟标签的数据。
可选地,所述将所述候选结果输入至已标注训练数据优化的预设对话主题模型中,对所述候选结果进行主题特征提取处理,得到所述各候选结果的关联主题信息的步骤之前,所述方法还包括:
获取预设无标签的原始语句数据;
生成无标签语句数据,将所述预设无标签原始语句数据,部分替换为所述无标签语句数据,得到模拟标签数据;
基于所述模拟标签数据,对预设训练模型进行训练,得到满足预设条件的目标模型,将所述目标模型设置为所述预设预训练模型;
将预设训练语句数据输入至所述预设预训练模型中,得到已标注训练数据;
基于所述已标注训练数据,训练得到预设对话主题模型。
可选地,所述基于所述模拟标签数据,对预设训练模型进行训练,得到满足预设条件的目标模型,将所述目标模型设置为所述预设预训练模型的步骤,包括:
确定所述模拟标签数据中的模拟假标签数据以及模拟真标签数据;
将所述模拟假标签数据以及模拟真标签数据输入至预设训练模型中,得到识别结果;
基于所述识别结果以及所述模拟标签数据中的真假模拟标签调整所述预设训练模型的模型参数,直至得到满足预设条件的目标模型,将所述目标模型设置为所述预设预训练模型。
可选地,所述基于所述初始排序结果以及所述关联主题信息,对所述各候选结果进行重新排序,得到目标排序结果的步骤,包括:
提取所述候选结果对应的特征数据,将所述特征数据以及所述关联主题信息,输入至预设排序模型中,对所述各候选结果进行重新排序,得到目标排序结果;
其中,所述排序模型是采用候选特征集训练得到的,所述候选特征集中的一条训练数据包括多个候选结果对应的特征数据,所述多个候选结果对应的关联主题信息以及所述多个候选结果的排序标签。
可选地,所述对待识别语音数据进行语音识别得到所述待识别语音数据的各候选结果的步骤,包括:
对所述待识别语音数据进行语音特征提取,得到所述待识别语音数据的语音特征数据;
采用预设语音模型和预设语言模型对所述语音特征数据进行识别,得到所述待识别语音数据的各候选结果。
本申请还提供一种语音数据识别装置,所述语音数据识别装置包括:
识别模块,用于对待识别语音数据进行语音识别得到所述待识别语音数据的各候选结果;
第一获取模块,用于获取所述各候选结果的初始排序结果,并获取所述各候选结果的关联主题信息;
重新排序模块,用于基于所述初始排序结果以及所述关联主题信息,对所述各候选结果进行重新排序,得到目标排序结果;
选取模块,用于根据所述目标排序结果从各所述候选结果中选取目标候选结果作为所述待识别语音数据的语音识别结果。
可选地,所述第一获取模块包括:
第一提取单元,用于将所述候选结果输入至已标注训练数据优化的预设对话主题模型中,对所述候选结果进行主题特征提取处理,得到所述各候选结果的关联主题信息;
其中,所述已标注训练数据是基于模拟标签数据优化的预设预训练模型得到的,所述模拟标签数据是基于预设无标签原始语句数据转换得到的。
可选地,所述模拟标签数据为通过将预设无标签原始语句数据,部分替换为生成的无标签语句数据后,得到的,且所述模拟标签数据至少包括真假模拟标签的数据。
可选地,所述语音数据识别装置还包括:
第二获取模块,用于获取预设无标签的原始语句数据;
生成模块,用于生成无标签语句数据,将所述预设无标签原始语句数据,部分替换为所述无标签语句数据,得到模拟标签数据;
预设预训练模型生成模块,用于基于所述模拟标签数据,对预设训练模型进行训练,得到满足预设条件的目标模型,将所述目标模型设置为所述预设预训练模型;
输入模块,用于将预设训练语句数据输入至所述预设预训练模型中,得到已标注训练数据;
训练模块,基于所述已标注训练数据,训练得到预设对话主题模型。
可选地,所述生成模块包括:
确定单元,用于确定所述模拟标签数据中的模拟假标签数据以及模拟真标签数据;
输入单元,用于将所述模拟假标签数据以及模拟真标签数据输入至预设训练模型中,得到识别结果;
调整单元,用于基于所述识别结果以及所述模拟标签数据中的真假模拟标签调整所述预设训练模型的模型参数,直至得到满足预设条件的目标模型,将所述目标模型设置为所述预设预训练模型。
可选地,所述重新排序模块包括:
第二提取单元,用于提取所述候选结果对应的特征数据,将所述特征数据以及所述关联主题信息,输入至预设排序模型中,对所述各候选结果进行重新排序,得到目标排序结果;
其中,所述排序模型是采用候选特征集训练得到的,所述候选特征集中的一条训练数据包括多个候选结果对应的特征数据,所述多个候选结果对应的关联主题信息以及所述多个候选结果的排序标签。
可选地,所述选取模块包括:
获取单元,用于对所述待识别语音数据进行语音特征提取,得到所述待识别语音数据的语音特征数据;
识别单元,用于采用预设语音模型和预设语言模型对所述语音特征数据进行识别,得到所述待识别语音数据的各候选结果。
本申请还提供一种语音数据识别设备,所述语音数据识别设备为实体设备,所述语音数据识别设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述语音数据识别方法的程序,所述语音数据识别方法的程序被处理器执行时可实现如上述的语音数据识别方法的步骤。
本申请还提供一种介质,所述介质上存储有实现上述语音数据识别方法的程序,所述语音数据识别方法的程序被处理器执行时实现如上述的语音数据识别方法的步骤。
本申请通过对待识别语音数据进行语音识别得到所述待识别语音数据的各候选结果;获取所述各候选结果的初始排序结果,并获取所述各候选结果的关联主题信息;基于所述初始排序结果以及所述关联主题信息,对所述各候选结果进行重新排序,得到目标排序结果;根据所述目标排序结果从各所述候选结果中选取目标候选结果作为所述待识别语音数据的语音识别结果。在本申请中,在得到待识别语音数据的各候选结果后,还获取所述各候选结果的关联主题信息,即是基于关联主题信息考虑词突发(burstiness)的现象,进而基于所述初始排序结果以及所述关联主题信息对所述各候选结果进行重新排序,提升得到目标排序结果的准确性,以提升得到语音识别结果的准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请语音数据识别方法第一实施例的流程示意图;
图2为本申请语音数据识别方法第一实施例中对待识别语音数据进行语音识别得到所述待识别语音数据的各候选结果的的步骤细化流程示意图;
图3为本申请实施例方案涉及的硬件运行环境的设备结构示意图;
图4为本申请语音数据识别方法中的第一场景示意图;
图5为本申请语音数据识别方法中的第一场景示意图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种语音数据识别方法,在本申请语音数据识别方法的第一实施例中,参照图1,所述语音数据识别方法包括:
步骤S10,对待识别语音数据进行语音识别得到所述待识别语音数据的各候选结果;
步骤S20,获取所述各候选结果的初始排序结果,并获取所述各候选结果的关联主题信息;
步骤S30,基于所述初始排序结果以及所述关联主题信息,对所述各候选结果进行重新排序,得到目标排序结果;
步骤S40,根据所述目标排序结果从各所述候选结果中选取目标候选结果作为所述待识别语音数据的语音识别结果。
具体步骤如下:
步骤S10,对待识别语音数据进行语音识别得到所述待识别语音数据的各候选结果;
在本实施例中,在获取待识别语音数据后,对待识别语音数据进行语音识别得到所述待识别语音数据的各候选结果,具体地,在获取待识别语音数据后,通过预设语音特征提取模型提取所述待识别语音数据的语音特征,该语音特征可以是梅尔频率倒谱MFCC特征等,如图4所示,在得到语音特征后,通过预设的语音模型对语音特征进行处理,得到语音识别结果,语音识别结果即是每帧语音对应的状态,在得到语音识别结果后,将语音识别结果输入至语言识别模型中,得到语音识别结果的文本识别结果,在得到文本识别结果后,基于各个文本识别结果组合得到词网格,基于词网格得到各候选结果。
具体地,参照图2,所述对待识别语音数据进行语音识别得到所述待识别语音数据的各候选结果的步骤,包括:
步骤S11,对所述待识别语音数据进行语音特征提取,得到所述待识别语音数据的语音特征数据;
在本实施例中,首先对所述待识别语音数据进行语音特征提取,在进行特征提取之前,对所述待识别语音数据进行分帧处理,其中,每帧的长度可以为25毫秒,每两帧之间有交叠,以避免信息流失,在分帧后,语音就变成了很多小段,为了描述,根据人耳的生理特性,把每一帧波形变成一个多维向量,该多维向量包含了这帧语音的内容信息,这个过程可以叫做声学特征提取,即是通过声学特征提取得到语音特征数据,提取后,声音就成了一个M行如12行(假设声学特征是12维)、N列的一个矩阵(语音特征数据),其中,N为总帧数,且每维向量大小不同。
步骤S12,采用预设语音模型和预设语言模型对所述语音特征数据进行识别,得到所述待识别语音数据的各候选结果。
在得到语音特征数据后,采用预设语音模型对所述语音特征数据进行识别,得到语音识别结果,语音识别结果即是每帧语音对应的可能状态,每三个状态组合成一个音素,若干个音素组合成一个比特位词如韵母声母,也就是说,只要知道每帧语音对应哪个状态了,语音识别的结果(可能的)也就出来了(通过因素与词典中词语的映射关系),需要说明的是,语音识别结果可能存在多个,在得到语音识别结果(各个比特位词如韵母声母)后,通过预设语言模型对语音识别结果进行组合排序处理,得到各候选结果,例如图4中N候选中的每句话都是一个候选结果。具体地,通过预设语言模型,确定各个语音识别结果构成的词序列的解码得分,该解码得分输出的是针对所述词序列的评分,其能够表征各个词序列的概率。
步骤S20,获取所述各候选结果的初始排序结果,并获取所述各候选结果的关联主题信息;
在本实施例中,在得到各候选结果后,根据各候选结果出现的概率,得到所述各候选结果的初始排序结果,其中,出现概率最大的排序最靠前。
在本实施例中,还获取所述各候选结果的关联主题信息,具体地,首先获取各候选结果整体的主题信息,该主题信息可以是多个,可以从主题信选取概率最大的主题信息作为关联主题信息。其中,可以通过预设语音对话主题模型(Dialogue Speech Topic Model,DSTM)确定关联主题信息,也即,将各候选结果输入至预设语音对话主题模型中,通过已经训练好的预设语音对话主题模型得到关联主题信息。
其中,所述获取所述各候选结果的关联主题信息的步骤,包括:
步骤S21,将所述候选结果输入至非人工标注训练语句数据优化的预设对话主题模型中,对所述候选结果进行主题特征提取处理,得到所述各候选结果的关联主题信息;
其中,所述非人工标注训练语句数据是基于模拟标签数据优化的预设预训练模型得到的,所述模拟标签数据是基于预设无标签原始语句数据转换得到的。
在本实施例中,预设对话主题模型能够准确对所述候选结果进行主题特征提取处理,得到所述各候选结果的关联主题信息的原因在于:所述预设对话主题模型是基于非人工标注训练语句数据优化得到的,其中,非人工标注训练语句数据可以是人为标注的数据,也可以是非人为标注的数据,由于训练语句数据已经标注完成的,因而,在训练过程中,基于基础训练模型对非人工标注训练语句数据进行预测后的预测结果,与非人工标注训练语句数据对应的标注结果进行比对,进而,进行基础训练模型的参数调整,基于非人工标注训练语句数据对基础训练模型的参数进行持续调整,直至基础训练模型的预设损失函数收敛,或者对基础训练模型的训练次数达到第一预设次数,即得到预设对话主题模型。
需要说明的是,在本实施例中,预设对话主题模型是基于非人工标注训练语句数据而不是预设训练词语数据对基础训练模型进行训练得到的,这是因为对话数据的结构较短,通常一句话对应一个主题,而不是每个词都有不同的主题,由于基于非人工标注训练语句数据(以句子为单位)而不是预设训练词语数据(以词语为单位)对基础训练模型进行训练得到预设对话主题模型,因而,可以提升模型的训练准确性(避免每个词语对应有一个主题造成的主题分散)以及模型的训练效率(避免每个词语的主题判断,较少判断次数)。
步骤S30,基于所述初始排序结果以及所述关联主题信息,对所述各候选结果进行重新排序,得到目标排序结果;
在本实施例中,基于所述初始排序结果以及所述关联主题信息,对所述各候选结果进行重新排序,得到目标排序结果,具体地,在得到所述关联主题信息后,确定每个候选结果与该关联主题信息之间的关联关系,该关联关系可以是主题信息相似度或者是贡献度概率,具体地,例如,确定每个候选结果在得到该关联主题信息过程中的贡献度概率,基于该每个候选结果的贡献度概率以及所述初始排序结果(每个候选结果的出现概率),按照预设公式计算得到各候选结果的整体概率,并基于该整体概率进行排名,得到目标排序结果。
例如,候选结果有5个,将该5个候选结果输入至预设对话主题模型中,得到该5个候选结果整体的关联主题信息(概率最大),然后确定每个候选结果得到该关联主题信息的贡献度概率,即是得到每个候选结果的主题信息在得到该关联主题信息中的贡献占比,然后结合每个候选结果的出现概率,得到目标排序结果。
步骤S40,根据所述目标排序结果从各所述候选结果中选取目标候选结果作为所述待识别语音数据的语音识别结果。
在本实施例中,在得到目标排序结果后,根据所述目标排序结果从各所述候选结果中选取目标候选结果,即是选取整体概率最大的候选结果作为所述待识别语音数据的语音识别结果。
本申请通过对待识别语音数据进行语音识别得到所述待识别语音数据的各候选结果;获取所述各候选结果的初始排序结果,并获取所述各候选结果的关联主题信息;基于所述初始排序结果以及所述关联主题信息,对所述各候选结果进行重新排序,得到目标排序结果;根据所述目标排序结果从各所述候选结果中选取目标候选结果作为所述待识别语音数据的语音识别结果。在本申请中,在得到待识别语音数据的各候选结果后,还获取所述各候选结果的关联主题信息,即是基于关联主题信息考虑词突发(burstiness)的现象,进而基于所述初始排序结果以及所述关联主题信息对所述各候选结果进行重新排序,提升得到目标排序结果的准确性,以提升得到语音识别结果的准确性。
进一步地,基于本申请中第一实施例,在本申请的另一实施例中,所述模拟标签数据为通过将预设无标签原始语句数据,部分替换为生成的无标签语句数据后,得到的,且所述模拟标签数据至少包括真假模拟标签的数据。
需要说明的是,所述预设预训练模型是已经训练完成的,具体地,所述预设预训练模型是基于模拟标签数据得到的,所述模拟标签数据是基于预设无标签原始语句数据转换得到的。由于对预设训练模型进行训练的数据是基于模拟标签数据得到的,所述模拟标签数据是基于预设无标签原始语句数据转换得到的,当预设训练模型训练充分时,学习到了原始语句数据的隐藏表示,隐藏表示的内部包含了说话人等信息,也即,预设训练模型是经过充分训练后得到的,因而,能够准确进行标注,另外,预设训练模型是基于无监督的数据(无标注)训练得到的,因而,具有强的泛化能力。需要说明的是,为了学习到到原始语句数据的隐藏表示,该原始语句数据是需要经过多个特征编码的如每条原始语句数据的编码为(1,0,1,0)或者是(1,0,1,0,1,0)等。虽然每条原始语句数据的编码的特征为多个,但是为了得到模拟标签数据,每条原始语句数据可以至少包括表示原始语句数据是真实的而非合成的首位编码特征1,另外,该原始语句数据是需要经过多个特征编码的如每条原始语句数据的编码为(1,0,1,0,1,0,1,0)或者是(1,0,1,0,1,0)等,虽然每条原始语句数据的编码的特征为多个,但是为了得到模拟标签数据,每条原始语句数据可以至少包括表示原始语句数据所包含的帧数据的数量为预设数量的首位编码特征1。
需要说明的是,预设对话主题模型可以内嵌该预设预训练模型构成的标注层,以在预设对话主题模型内得到已标注训练数据进行训练,进而进行训练,另外,在本实施例中,预设对话主题模型也可以基于将语音数据发送给外部的预设预训练模型进行标注后,得到已标注训练数据进行优化得到的。
需要说明的是,所述模拟标签数据为通过将预设无标签原始语句数据,部分替换为生成的无标签语句数据后,得到的,且所述模拟标签数据至少包括真假模拟标签的数据。
或者所述模拟标签数据是通过将预设无标签原始语句数据,部分删除帧数据后,得到的,且所述模拟标签数据至少包括真假模拟标签的数据。
具体地,在本实施例中,所述无标签语句数据(语音形式)包括无标签随机语音帧数据或者无标签随机语音片段数据,在生成无标签语句数据后,将所述预设无标签原始语句数据,部分替换为所述无标签语句数据,得到模拟标签数据包括:在生成无标签随机语音帧数据后,选取多条预设无标签原始语句数据,将该多条预设无标签原始语句数据中的每一条数据的至少一帧数据替换为该无标签随机语音帧数据,得到模拟标签数据,或者在生成无标签随机语音片段数据后,选取多条预设无标签原始语句数据,将该多条预设无标签原始语句数据中的每一条数据的至少一个片段数据替换为该无标签随机语音片段数据,得到模拟标签数据,需要说明的是,每条预设无标签原始语句数据可以包括多个语音片段,每个语音片段可以包括多帧数据。
另外,在本实施例中,在生成无标签随机语音帧数据后,选取多条预设无标签原始语句数据,将该多条预设无标签原始语句数据中的每一条数据增加无标签随机语音帧数据,得到模拟标签数据,或者在生成无标签随机语音片段数据后,选取多条预设无标签原始语句数据,将该多条预设无标签原始语句数据中的每一条数据增加至少两帧无标签随机语音帧数据,得到模拟标签数据。
或者,在本实施例中,选取多条预设无标签原始语句数据,将该多条预设无标签原始语句数据中的每一条数据减少无标签随机语音帧数据,得到模拟标签数据,或者选取多条预设无标签原始语句数据,将该多条预设无标签原始语句数据中的每一条数据减少至少两帧无标签随机语音帧数据,得到模拟标签数据。
在本实施例中,每条原始语句数据的编码特征还可以至少包括说话人声音的编码特征。因而,可以得到标注说话人声音特征的语音数据。
在本实施例中,以在预设对话主题模型中内嵌该预设预训练模型构成的标注层为例进行具体说明。
所述将所述候选结果输入至已标注训练数据优化的预设对话主题模型中,对所述候选结果进行主题特征提取处理,得到所述各候选结果的关联主题信息的步骤之前,所述方法还包括:
步骤A1,获取预设无标签的原始语句数据;
在本实施例中,首先获取预设无标签的原始语句数据,为了确保训练效果,该原始语句数据的数量大于预设数量值,需要说明的是,原始语句数据是语音形式的。且该原始语句数据(语音形式)可以是真实的非合成或者生成的语音数据,以便生成模拟标签数据,非合成或者生成的语句数据指的是采集的人发出的语音数据,而非通过机器拟合的语音数据,其中,需要说明的是,每条语句数据包括多个语音文件如图5中的z1,z2,z3,z4等,每个语音文件中包括多帧语音数据如图5中的X1,X2,X3,X4等。
或者,每条语句数据包括多个语音文件如图5中的z1,z2,z3,z4等,该多个语音文件的数目是确定的,每个语音文件中包括多帧语音数据如图5中的X1,X2,X3,X4等。该语音文件的帧的数目是确定的,以便生成模拟标签数据。
其中,本实施例中原始语句数据的具体数据内容不做限制,且该原始数据是无标签的数据。即实现通过无监督方式训练得到预设预训练模型。
步骤A2,生成无标签语句数据,将所述预设无标签原始语句数据,部分替换为所述无标签语句数据,得到模拟标签数据;
在得到原始语句数据后,生成无标签语句数据,具体地,通过预设的生成器(图5中的generator)生成无标签语句数据,即是通过机器拟合得到无标签语句数据,该无标签语句数据是生成的或者合成的模拟假标签数据,需要说明的是,无标签语句数据可以是每帧的数据长度,也可以是每个片段的数据长度,具体不做限定,为了确保可以随时进行替换,生成器是生成了各个数据长度的无标签语句数据,将所述预设无标签原始语句数据,部分替换为所述无标签语句数据,得到模拟标签数据。
在本实施例中,还提供另一种得到模拟标签数据的方式,在该另一种得到模拟标签数据的方式中,随机删除预设无标签的原始语句数据中的帧数据,或者是随机添加预设无标签原始语句数据中的帧数据,得到模拟标签数据。
步骤A3,基于所述模拟标签数据,对预设训练模型进行训练,得到满足预设条件的目标模型,将所述目标模型设置为所述预设预训练模型;
所述基于所述模拟标签数据,对预设训练模型进行训练,得到满足预设条件的目标模型,将所述目标模型设置为所述预设预训练模型的步骤,包括:
步骤B1,确定所述模拟标签数据中的模拟假标签数据以及模拟真标签数据;
在本实施例中,被替换的原始语句数据是已知的模拟假标签数据,其他未被替换的原始语句数据是已知的模拟真标签数据,即是该已知的模拟假标签数据以及已知的模拟真标签数据构成模拟标签数据。
或者,在本实施例中,被删除帧数据后或者添加帧数据后的原始语句数据是已知的模拟假标签数据,其他未被处理的原始语句数据是已知的模拟真标签数据,即是该已知的模拟假标签数据以及已知的模拟真标签数据构成模拟标签数据。
步骤B2,将所述模拟假标签数据以及模拟真标签数据输入至预设训练模型中,得到识别结果;
步骤B3,基于所述识别结果以及所述模拟标签数据中的真假模拟标签调整所述预设训练模型的模型参数,直至得到满足预设条件的目标模型,将所述目标模型设置为所述预设预训练模型。
在得到已知的模拟假标签数据以及已知的模拟真标签数据后,将所述已知的模拟假标签数据以及已知的模拟真标签数据输入至预设训练模型中,以对预设训练模型进行训练,具体地,获取预设训练模型对模拟假标签数据以及模拟真标签数据进行预测后的识别结果,如图5所示,该识别结果中,预测原始语句数据中哪些是original(原始的,非替换的或者是非处理的),哪些是replaced(非原始的,替换的或者是删除等处理后的),而由于模拟假标签数据以及模拟真标签数据都是已知的,也即,原始语句数据中哪些是original(原始的或者是非替换的),哪些是replaced(非原始的或者是非替换的)是已知的,因而,将识别结果与已知结果进行比对,确定两者之间的误差,在确定误差后,基于该误差有针对性地调整预设训练模型的模型参数,直至得到满足预设条件的目标模型,将所述目标模型设置为所述预设预训练模型。
需要说明的是,由于预设无标签原始语句数据是经过多个特征编码的,因而,在对预设无标签原始语句数据进行真假识别的过程中,能够学习到预设无标签原始语句数据的其他隐含表示。
步骤A4,将预设训练语句数据输入至所述预设预训练模型中,得到已标注训练数据;
步骤A5,基于所述已标注训练数据,训练得到预设对话主题模型。
在得到预设预训练模型后,基于预设预训练模型得到已标注训练数据;基于所述已标注训练数据,得到预设对话主题模型,具体地,基于已标注训练数据对基础模型进行训练,得到满足一定预设条件的模型,将所述满足一定预设条件的模型设置为所述预设对话主题模型。需要说明的是,该一定的预设条件可以是:基础模型的预设损失函数收敛或者是基础模型的训练此时达到预设设定的次数。
在本实施例中,获取预设无标签的原始语句数据;生成无标签语句数据,将所述预设无标签原始语句数据,部分替换为所述无标签语句数据,得到模拟标签数据;基于所述模拟标签数据,对预设训练模型进行训练,得到满足预设条件的目标模型,将所述目标模型设置为所述预设预训练模型;将预设训练语句数据输入至所述预设预训练模型中,得到已标注训练数据;基于所述已标注训练数据,训练得到预设对话主题模型。进而实现快速的完成预设对话主题模型的训练。
本申请实施例提供一种语音数据识别方法,在本申请语音数据识别方法的另一实施例中,所述基于所述初始排序结果以及所述关联主题信息,对所述各候选结果进行重新排序,得到目标排序结果的步骤,包括:
步骤C1,提取所述候选结果对应的特征数据,将所述特征数据以及所述关联主题信息,输入至预设排序模型中,对所述各候选结果进行重新排序,得到目标排序结果;
其中,所述排序模型是采用候选特征集训练得到的,所述候选特征集中的一条训练数据包括多个候选结果对应的特征数据,所述多个候选结果对应的关联主题信息以及所述多个候选结果的排序标签。
在本实施例中,存在预设排序模型,所述排序模型是采用候选特征集训练得到的,所述候选特征集中的一条训练数据包括多个候选结果对应的特征数据,所述多个候选结果对应的关联主题信息以及所述多个候选结果的排序标签,其中,该特征数据包括候选结果的向量表示数据,或者候选结果的评分数据(通过将候选结果输入至预设语音模型和/预设语言模型中得到),具体地,所述排序模型是采用候选特征集训练得到的,所述候选特征集中的一条训练数据包括多个候选结果对应的向量表示数据,所述多个候选结果对应的关联主题信息以及所述多个候选结果的排序标签,或者所述排序模型是采用候选特征集训练得到的,所述候选特征集中的一条训练数据包括多个候选结果对应的评分数据,所述多个候选结果对应的关联主题信息以及所述多个候选结果的排序标签,其中,评分数据通过将候选结果输入至预设语音模型和/预设语言模型中得到。
由于准确训练得到排序模型,因而,可以准确对输入的特征数据以及对应关联主题信息进行识别处理,因而,在得到候选结果,提取所述候选结果对应的特征数据,并将所述特征数据以及所述关联主题信息,输入至预设排序模型中后,可以对所述各候选结果进行重新排序,得到目标排序结果。
在本实施例中,提取所述候选结果对应的特征数据,将所述特征数据以及所述关联主题信息,输入至预设排序模型中,对所述各候选结果进行重新排序,得到目标排序结果;其中,所述排序模型是采用候选特征集训练得到的,所述候选特征集中的一条训练数据包括多个候选结果对应的特征数据,所述多个候选结果对应的关联主题信息以及所述多个候选结果的排序标签。本实施例中由于通过模型预测的方式,考虑词突发(burstiness)的现象,提升得到目标排序结果的准确性,提升了得到语音识别结果的准确性。
参照图3,图3是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
如图3所示,该语音数据识别设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该语音数据识别设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图3中示出的语音数据识别设备结构并不构成对语音数据识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图3所示,作为一种计算机介质的存储器1005中可以包括操作系统、网络通信模块以及语音数据识别程序。操作系统是管理和控制语音数据识别设备硬件和软件资源的程序,支持语音数据识别程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与语音数据识别系统中其它硬件和软件之间通信。
在图3所示的语音数据识别设备中,处理器1001用于执行存储器1005中存储的语音数据识别程序,实现上述任一项所述的语音数据识别方法的步骤。
本申请语音数据识别设备具体实施方式与上述语音数据识别方法各实施例基本相同,在此不再赘述。
本申请还提供一种语音数据识别装置,所述语音数据识别装置包括:
识别模块,用于对待识别语音数据进行语音识别得到所述待识别语音数据的各候选结果;
第一获取模块,用于获取所述各候选结果的初始排序结果,并获取所述各候选结果的关联主题信息;
重新排序模块,用于基于所述初始排序结果以及所述关联主题信息,对所述各候选结果进行重新排序,得到目标排序结果;
选取模块,用于根据所述目标排序结果从各所述候选结果中选取目标候选结果作为所述待识别语音数据的语音识别结果。
可选地,所述第一获取模块包括:
第一提取单元,用于将所述候选结果输入至已标注训练数据优化的预设对话主题模型中,对所述候选结果进行主题特征提取处理,得到所述各候选结果的关联主题信息;
其中,所述已标注训练数据是基于模拟标签数据优化的预设预训练模型得到的,所述模拟标签数据是基于预设无标签原始语句数据转换得到的。
可选地,所述模拟标签数据为通过将预设无标签原始语句数据,部分替换为生成的无标签语句数据后,得到的,且所述模拟标签数据至少包括真假模拟标签的数据。
可选地,所述语音数据识别装置还包括:
第二获取模块,用于获取预设无标签的原始语句数据;
生成模块,用于生成无标签语句数据,将所述预设无标签原始语句数据,部分替换为所述无标签语句数据,得到模拟标签数据;
预设预训练模型生成模块,用于基于所述模拟标签数据,对预设训练模型进行训练,得到满足预设条件的目标模型,将所述目标模型设置为所述预设预训练模型;
输入模块,用于将预设训练语句数据输入至所述预设预训练模型中,得到已标注训练数据;
训练模块,基于所述已标注训练数据,训练得到预设对话主题模型。
可选地,所述生成模块包括:
确定单元,用于确定所述模拟标签数据中的模拟假标签数据以及模拟真标签数据;
输入单元,用于将所述模拟假标签数据以及模拟真标签数据输入至预设训练模型中,得到识别结果;
调整单元,用于基于所述识别结果以及所述模拟标签数据中的真假模拟标签调整所述预设训练模型的模型参数,直至得到满足预设条件的目标模型,将所述目标模型设置为所述预设预训练模型。
可选地,所述重新排序模块包括:
第二提取单元,用于提取所述候选结果对应的特征数据,将所述特征数据以及所述关联主题信息,输入至预设排序模型中,对所述各候选结果进行重新排序,得到目标排序结果;
其中,所述排序模型是采用候选特征集训练得到的,所述候选特征集中的一条训练数据包括多个候选结果对应的特征数据,所述多个候选结果对应的关联主题信息以及所述多个候选结果的排序标签。
可选地,所述选取模块包括:
获取单元,用于对所述待识别语音数据进行语音特征提取,得到所述待识别语音数据的语音特征数据;
识别单元,用于采用预设语音模型和预设语言模型对所述语音特征数据进行识别,得到所述待识别语音数据的各候选结果。
本申请语音数据识别装置的具体实施方式与上述语音数据识别方法各实施例基本相同,在此不再赘述。
本申请实施例提供了一种介质,且所述介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的语音数据识别方法的步骤。
本申请介质具体实施方式与上述语音数据识别方法各实施例基本相同,在此不再赘述。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。

Claims (10)

1.一种语音数据识别方法,其特征在于,所述语音数据识别方法包括:
对待识别语音数据进行语音识别得到所述待识别语音数据的各候选结果;
获取所述各候选结果的初始排序结果,并获取所述各候选结果的关联主题信息;
基于所述初始排序结果以及所述关联主题信息,对所述各候选结果进行重新排序,得到目标排序结果;
根据所述目标排序结果从各所述候选结果中选取目标候选结果作为所述待识别语音数据的语音识别结果。
2.如权利要求1所述语音数据识别方法,其特征在于,所述获取所述各候选结果的关联主题信息的步骤,包括:
将所述候选结果输入至非人工标注训练语句数据优化的预设对话主题模型中,对所述候选结果进行主题特征提取处理,得到所述各候选结果的关联主题信息;
其中,所述非人工标注训练语句数据是基于模拟标签数据优化的预设预训练模型得到的,所述模拟标签数据是基于预设无标签原始语句数据转换得到的。
3.如权利要求2所述语音数据识别方法,其特征在于,所述模拟标签数据为通过将预设无标签原始语句数据,部分替换为生成的无标签语句数据后,得到的,且所述模拟标签数据至少包括真假模拟标签的数据。
4.如权利要求3所述语音数据识别方法,其特征在于,所述将所述候选结果输入至非人工标注训练语句数据优化的预设对话主题模型中,对所述候选结果进行主题特征提取处理,得到所述各候选结果的关联主题信息的步骤之前,所述方法还包括:
获取预设无标签的原始语句数据;
生成无标签语句数据,将所述预设无标签原始语句数据,部分替换为所述无标签语句数据,得到模拟标签数据;
基于所述模拟标签数据,对预设训练模型进行训练,得到满足预设条件的目标模型,将所述目标模型设置为所述预设预训练模型;
将预设训练语句数据输入至所述预设预训练模型中,得到非人工标注训练语句数据;
基于所述非人工标注训练语句数据,训练得到预设对话主题模型。
5.如权利要求4所述语音数据识别方法,其特征在于,所述基于所述模拟标签数据,对预设训练模型进行训练,得到满足预设条件的目标模型,将所述目标模型设置为所述预设预训练模型的步骤,包括:
确定所述模拟标签数据中的模拟假标签数据以及模拟真标签数据;
将所述模拟假标签数据以及模拟真标签数据输入至预设训练模型中,得到识别结果;
基于所述识别结果以及所述模拟标签数据中的真假模拟标签调整所述预设训练模型的模型参数,直至得到满足预设条件的目标模型,将所述目标模型设置为所述预设预训练模型。
6.如权利要求1-5任一项所述语音数据识别方法,其特征在于,所述基于所述初始排序结果以及所述关联主题信息,对所述各候选结果进行重新排序,得到目标排序结果的步骤,包括:
提取所述候选结果对应的特征数据,将所述特征数据以及所述关联主题信息,输入至预设排序模型中,对所述各候选结果进行重新排序,得到目标排序结果;
其中,所述排序模型是采用候选特征集训练得到的,所述候选特征集中的一条训练数据包括多个候选结果对应的特征数据,所述多个候选结果对应的关联主题信息以及所述多个候选结果的排序标签。
7.如权利要求1所述的语音识别方法,其特征在于,所述对待识别语音数据进行语音识别得到所述待识别语音数据的各候选结果的步骤,包括:
对所述待识别语音数据进行语音特征提取,得到所述待识别语音数据的语音特征数据;
采用预设语音模型和预设语言模型对所述语音特征数据进行识别,得到所述待识别语音数据的各候选结果。
8.一种语音数据识别装置,其特征在于,所述语音数据识别装置包括:
识别模块,用于对待识别语音数据进行语音识别得到所述待识别语音数据的各候选结果;
第一获取模块,用于获取所述各候选结果的初始排序结果,并获取所述各候选结果的关联主题信息;
重新排序模块,用于基于所述初始排序结果以及所述关联主题信息,对所述各候选结果进行重新排序,得到目标排序结果;
选取模块,用于根据所述目标排序结果从各所述候选结果中选取目标候选结果作为所述待识别语音数据的语音识别结果。
9.一种语音数据识别设备,其特征在于,所述语音数据识别设备包括:存储器、处理器以及存储在存储器上的用于实现所述语音数据识别方法的程序,
所述存储器用于存储实现语音数据识别方法的程序;
所述处理器用于执行实现所述语音数据识别方法的程序,以实现如权利要求1至7中任一项所述语音数据识别方法的步骤。
10.一种介质,其特征在于,所述介质上存储有实现语音数据识别方法的程序,所述实现语音数据识别方法的程序被处理器执行以实现如权利要求1至7中任一项所述语音数据识别方法的步骤。
CN202010417957.1A 2020-05-15 2020-05-15 语音数据识别方法、设备及介质 Active CN111613219B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010417957.1A CN111613219B (zh) 2020-05-15 2020-05-15 语音数据识别方法、设备及介质
PCT/CN2021/093033 WO2021228084A1 (zh) 2020-05-15 2021-05-11 语音数据识别方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010417957.1A CN111613219B (zh) 2020-05-15 2020-05-15 语音数据识别方法、设备及介质

Publications (2)

Publication Number Publication Date
CN111613219A true CN111613219A (zh) 2020-09-01
CN111613219B CN111613219B (zh) 2023-10-27

Family

ID=72203423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010417957.1A Active CN111613219B (zh) 2020-05-15 2020-05-15 语音数据识别方法、设备及介质

Country Status (2)

Country Link
CN (1) CN111613219B (zh)
WO (1) WO2021228084A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113314099A (zh) * 2021-07-28 2021-08-27 北京世纪好未来教育科技有限公司 语音识别置信度的确定方法和确定装置
WO2021228084A1 (zh) * 2020-05-15 2021-11-18 深圳前海微众银行股份有限公司 语音数据识别方法、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6108628A (en) * 1996-09-20 2000-08-22 Canon Kabushiki Kaisha Speech recognition method and apparatus using coarse and fine output probabilities utilizing an unspecified speaker model
CN104516986A (zh) * 2015-01-16 2015-04-15 青岛理工大学 一种语句识别方法及装置
KR20160000218A (ko) * 2014-06-24 2016-01-04 한국전자통신연구원 언어모델 군집화 기반 음성인식 장치 및 방법
US20160104478A1 (en) * 2014-10-14 2016-04-14 Sogang University Research Foundation Voice recognition method using machine learning
CN110460715A (zh) * 2018-05-07 2019-11-15 苹果公司 用于操作数字助理的方法、设备和介质
US20200020321A1 (en) * 2016-12-20 2020-01-16 Nippon Telegraph And Telephone Corporation Speech recognition results re-ranking device, speech recognition results re-ranking method, and program

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105244024B (zh) * 2015-09-02 2019-04-05 百度在线网络技术(北京)有限公司 一种语音识别方法及装置
CN106683677B (zh) * 2015-11-06 2021-11-12 阿里巴巴集团控股有限公司 语音识别方法及装置
CN106328147B (zh) * 2016-08-31 2022-02-01 中国科学技术大学 语音识别方法和装置
CN108062954B (zh) * 2016-11-08 2020-12-08 科大讯飞股份有限公司 语音识别方法和装置
CN110083837B (zh) * 2019-04-26 2023-11-24 科大讯飞股份有限公司 一种关键词生成方法及装置
CN111613219B (zh) * 2020-05-15 2023-10-27 深圳前海微众银行股份有限公司 语音数据识别方法、设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6108628A (en) * 1996-09-20 2000-08-22 Canon Kabushiki Kaisha Speech recognition method and apparatus using coarse and fine output probabilities utilizing an unspecified speaker model
KR20160000218A (ko) * 2014-06-24 2016-01-04 한국전자통신연구원 언어모델 군집화 기반 음성인식 장치 및 방법
US20160104478A1 (en) * 2014-10-14 2016-04-14 Sogang University Research Foundation Voice recognition method using machine learning
CN104516986A (zh) * 2015-01-16 2015-04-15 青岛理工大学 一种语句识别方法及装置
US20200020321A1 (en) * 2016-12-20 2020-01-16 Nippon Telegraph And Telephone Corporation Speech recognition results re-ranking device, speech recognition results re-ranking method, and program
CN110460715A (zh) * 2018-05-07 2019-11-15 苹果公司 用于操作数字助理的方法、设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈文实等: "面向多标签文本分类的深度主题特征提取", 模式识别与人工智能 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021228084A1 (zh) * 2020-05-15 2021-11-18 深圳前海微众银行股份有限公司 语音数据识别方法、设备及介质
CN113314099A (zh) * 2021-07-28 2021-08-27 北京世纪好未来教育科技有限公司 语音识别置信度的确定方法和确定装置

Also Published As

Publication number Publication date
CN111613219B (zh) 2023-10-27
WO2021228084A1 (zh) 2021-11-18

Similar Documents

Publication Publication Date Title
CN109214386B (zh) 用于生成图像识别模型的方法和装置
CN111883110B (zh) 语音识别的声学模型训练方法、系统、设备及介质
CN110990543A (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN112487139B (zh) 基于文本的自动出题方法、装置及计算机设备
CN108710704B (zh) 对话状态的确定方法、装置、电子设备及存储介质
CN107437417B (zh) 基于循环神经网络语音识别中语音数据增强方法及装置
CN110807314A (zh) 文本情感分析模型训练方法、装置、设备及可读存储介质
CN109087667B (zh) 语音流利度识别方法、装置、计算机设备及可读存储介质
CN110992929A (zh) 一种基于神经网络的语音关键词检测方法、装置及系统
CN112397056B (zh) 语音评测方法及计算机存储介质
CN111653274B (zh) 唤醒词识别的方法、装置及存储介质
CN112992125B (zh) 一种语音识别方法、装置、电子设备、可读存储介质
US20200012650A1 (en) Method and apparatus for determining response for user input data, and medium
CN114639386A (zh) 文本纠错及文本纠错词库构建方法
CN111613219A (zh) 语音数据识别方法、设备及介质
CN116341651A (zh) 实体识别模型训练方法、装置、电子设备及存储介质
CN116070632A (zh) 一种非正式文本实体标签识别方法和装置
CN115312034A (zh) 基于自动机和字典树处理语音信号的方法、装置和设备
CN114639096A (zh) 文本识别方法、装置、电子设备和存储介质
CN111241820A (zh) 不良用语识别方法、装置、电子装置及存储介质
CN112735479B (zh) 语音情绪识别方法、装置、计算机设备和存储介质
CN113140221A (zh) 语言模型融合方法、设备、介质及计算机程序产品
CN111554277B (zh) 语音数据识别方法、装置、设备及介质
CN113920987A (zh) 一种语音识别的方法、装置、设备及存储介质
CN112784573A (zh) 文本情感内容分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant