CN112908295A - 一种地域性的离线口音语音识别系统的生成方法和装置 - Google Patents

一种地域性的离线口音语音识别系统的生成方法和装置 Download PDF

Info

Publication number
CN112908295A
CN112908295A CN202110142560.0A CN202110142560A CN112908295A CN 112908295 A CN112908295 A CN 112908295A CN 202110142560 A CN202110142560 A CN 202110142560A CN 112908295 A CN112908295 A CN 112908295A
Authority
CN
China
Prior art keywords
xvector
feature
model
voice
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110142560.0A
Other languages
English (en)
Other versions
CN112908295B (zh
Inventor
兰泽华
林昱
陈少伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ringslink Xiamen Network Communication Technologies Co ltd
Original Assignee
Ringslink Xiamen Network Communication Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ringslink Xiamen Network Communication Technologies Co ltd filed Critical Ringslink Xiamen Network Communication Technologies Co ltd
Priority to CN202110142560.0A priority Critical patent/CN112908295B/zh
Publication of CN112908295A publication Critical patent/CN112908295A/zh
Application granted granted Critical
Publication of CN112908295B publication Critical patent/CN112908295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

一种地域性的离线口音语音识别系统的生成方法,所述方法包括:导入不同地域的语音音频数据;将所述语音音频数据转化为语音识别的语音特征;通过所述语音特征训练包含具有不同地域发音特征的Xvector模型后,提取所述Xvector模型中不同地域的多维度的Xvector特征;利用前置神经网络进一步提取所述语音特征中的第一Xvector特征,并通过所述Xvector模型中Xvector特征所对应的真实标签用于指导所述第一Xvector特征进行第一模型的训练;基于所述第一Xvector特征提取第一语音识别特征进行第二模型的训练后,利用所述第一模型与所述第二模型进行反向更新所述前置神经网络的权重值,得到口音语音识别模型。本方案能够提升离线语音识别系统在同种语音下不同口音的识别性能。

Description

一种地域性的离线口音语音识别系统的生成方法和装置
技术领域
本发明涉及语音识别技术领域,尤其涉及一种地域性的离线口音语音识别系统的生成方法和装置以及设备。
背景技术
随着深度学习的兴起,语音识别性能也在大幅度的提升,语音识别在智能家居的控制系统中占有重要的比重。然后,在实际的交互当中,不同地域的口音相差较大,这也给语音识别带来了非常大的难点,就目前而言,口音仍然是语音识别技术的一个研究热点和难点。语音识别在不同的领域都有着较大的需求,在很多场景下,包括在一些低成本、无网络等环境下,要求在有限计算资源的嵌入式端上实时运行语音识别系统,对于这种离线语音识别,口音的引入无疑是对语音识别模型更大的考验。
现有中为了支持不同口音的语音识别,往往会针对不同的口音训练多个不同的模型或者一个大的语音识别模型,如果需要使用一个单一的模型来支持不同口音,则该模型的体积必然会比常规模型体积更大,不管是混合多个模型还是单一模型,在嵌入式端是无法部署的。于此同时,为了支持不同口音,需要采集更多的语料,该语音也是随口音成倍增长。
发明内容
有鉴于此,本发明的目的在于提出一种地域性的离线口音语音识别系统的生成方法和装置以及设备,能够实现在嵌入式平台下部署离线语音识别模型,从而提升离线语音识别系统在同种语音下不同口音的识别性能。
为实现上述目的,本发明提供一种地域性的离线口音语音识别系统的生成方法,所述方法包括:
导入不同地域的语音音频数据;
将所述语音音频数据转化为语音识别的语音特征;
通过所述语音特征训练包含具有不同地域发音特征的Xvector模型后,提取所述Xvector模型中不同地域的多维度的Xvector特征;
利用前置神经网络进一步提取所述语音特征中的第一Xvector特征,并通过所述Xvector模型中Xvector特征所对应的真实标签用于指导所述第一Xvector特征进行第一模型的训练,其中,所述前置神经网络为tdnn网络组成;
基于所述第一Xvector特征提取第一语音识别特征进行第二模型的训练后,利用所述第一模型与所述第二模型进行反向更新所述前置神经网络的权重值,得到口音语音识别模型,其中,所述第一语音识别特征通过对所述第一Xvector特征进行聚合后所输出的有效语音识别特征。
优选的,所述语音特征为语谱图特征或MFCC特征。
优先的,所述提取所述语音特征中的第一Xvector特征,进一步包括:
通过xvector生成器提取所述语音特征中的第一Xvector特征。
优选的,所述Xvector特征为512维度Xvector特征;所述第一Xvector特征为512维度Xvector特征。
优选的,所述第一语音识别特征为音素标签或单词标签。
为实现上述目的,本发明还提供一种地域性的离线口音语音识别系统的生成装置,所述装置包括:
导入单元,用于导入不同地域的语音音频数据;
转化单元,用于将所述语音音频数据转化为语音识别的语音特征;
提取单元,用于通过所述语音特征训练包含具有不同地域发音特征的Xvector模型后,提取所述Xvector模型中不同地域的多维度的Xvector特征;
训练单元,用于利用前置神经网络进一步提取所述语音特征中的第一Xvector特征,并通过所述Xvector模型中Xvector特征所对应的真实标签用于指导所述第一Xvector特征进行第一模型的训练,其中,所述前置神经网络为tdnn网络组成;
更新单元,用于基于所述第一Xvector特征提取第一语音识别特征进行第二模型的训练后,利用所述第一模型与所述第二模型进行反向更新所述前置神经网络的权重值,得到口音语音识别模型,其中,所述第一语音识别特征通过对所述第一Xvector特征进行聚合后所输出的有效语音识别特征。
优选的,所述语音特征为语谱图特征或MFCC特征。
优选的,所述提取所述语音特征中的第一Xvector特征,进一步包括:
通过xvector生成器提取所述语音特征中的第一Xvector特征。
优选的,所述Xvector特征为512维度Xvector特征;所述第一Xvector特征为512维度Xvector特征;所述第一语音识别特征为音素标签或单词标签。
为实现上述目的,本发明还提供一种地域性的离线口音语音识别系统的生成设备,包括处理器、存储器以及存储在所述存储器内的计算机程序,所述计算机程序能够被所述处理器执行以实现如上述实施例所述的一种地域性的离线口音语音识别系统的生成方法。
有益效果:
以上方案,通过语音特征训练得到的xvector模型,该模型提取了不同地域的口音下的xvector特征,由该特征来指导语音识别模型训练,从而得到的语音识别模型体积小、且易于在嵌入式端上部署,通过上述方式能够有指向性的学习到需要的特征,模型泛化能力更强。
为了解决不同口音下的语音识别模型,通常需要采集更多的语料(所谓语料就是语音音频),而本发明的xvector模型基于为一种文本无关的模型,很容易收集到不同地域下的不同文本音频,但对于嵌入式端的离线语音识别,仅需要支持少量的词汇,因此,在语音识别端的语料上需要的语料更小。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种地域性的离线口音语音识别系统的生成方法的流程示意图。
图2为本发明一实施例提供的基于训练服务器上的模型训练架构示意图。
图3为本发明一实施例提供的一种地域性的离线口音语音识别系统的生成装置的结构示意图。
发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以下结合实施例详细阐述本发明的内容。
本发明提供一种地域性的离线口音语音识别系统的生成方法能够实现在嵌入式平台下部署离线语音识别模型,从而提升离线语音识别系统在同种语音下不同口音的识别性能。
参照图1所示为本发明一实施例提供的一种地域性的离线口音语音识别系统的生成方法的流程示意图。
本实施例中,该方法包括:
S11,导入不同地域的语音音频数据。
S12,将所述语音音频数据转化为语音识别的语音特征。
进一步的,所述语音特征为语谱图特征或MFCC特征。
S13,通过所述语音特征训练包含具有不同地域发音特征的Xvector模型后,提取所述Xvector模型中不同地域的多维度的Xvector特征。
特别地,该Xvector模型还根据不同国家的语种特征进行训练得到的,通过对不同国家的语种特征进行训练用以识别不同国家的语言。
在本实施例中,由于xvector声纹识别模型是一个声纹识别上应用比较多的模型,通过该xvector模型能够提取到不同的声纹特征,通过不同的声纹特征,使用余弦距离或者PLDA能够计算两段音频的相似性,以此来做声纹匹配。因此,本方案通过根据不同地区的口音特征进行训练得到的Xvector模型,该模型用于区分不同地域的口音,而提取出来的xvector特征就是不同地域的声纹特征。也就是提取不同国家/地区的声纹特征,由于不同地域的发音特征分布不同,通过提取发音特征从而得到这种分布。用于在后面的语音识别模型中,用获得的发音特征来指导小模型的训练。
S14,利用前置神经网络进一步提取所述语音特征中的第一Xvector特征,并通过所述Xvector模型中Xvector特征所对应的真实标签用于指导所述第一Xvector特征进行第一模型的训练,其中,所述前置神经网络为tdnn网络组成。
进一步的,所述提取所述语音特征中的第一Xvector特征,进一步包括:
通过xvector生成器提取所述语音特征中的第一Xvector特征。
进一步的,所述Xvector特征为512维度Xvector特征;所述第一Xvector特征为512维度Xvector特征。
S15,基于所述第一Xvector特征提取第一语音识别特征进行第二模型的训练后,利用所述第一模型与所述第二模型进行反向更新所述前置神经网络的权重值,得到口音语音识别模型,其中,所述第一语音识别特征通过对所述第一Xvector特征进行聚合后所输出的有效语音识别特征。
进一步的,所述第一语音识别特征为音素标签或单词标签。
在本实施例中,通过所述口音语音识别模型对待识别的语音音频进行实时的离线语音识别,以获得语音信息。通过在嵌入式端平台上实时运行该口音语音识别模型,从而提升离线语音识别系统在同种语音下不同口音的识别性能。
参照图2所示为本发明一实施例提供的基于训练服务器上的模型训练架构示意图。
在本实施例中,通过在训练服务器上进行模型训练好后,可在移动端上进行部署,以实现实时的离线语音识别。其中,Xvector模型特征提取部件M2和特征生成部件M4只提供发音特征作为小模型的label标签,指导训练使用,在实际的部署阶段是不需要使用的。
如图2所示,包括:音频数据处理部件M1、Xvector模型特征提取部件M2、语音识别前置神经网络部件M3、特征生成部件M4、第一神经网络更新部件M5、语音识别后置神经网络部件M6和第二神经网络更新部件M7。其中,
音频数据处理部件M1:用于将获取的音频数据转化为语音识别需要的特征(包括MFCC,Fbank等)并输出至M2、M3,在本实施例中,使用的是Fbank语谱图特征。
Xvector模型特征提取部件M2:该部件为一个基于口音识别特征进行训练的xvector模型,通过该部件M2提取xvector特征,输入为M1的语谱图特征,向M5输出512维度Xvector特征。
语音识别前置神经网络部件M3:该部件M3为一个tdnn骨干网络,由tdnn(时延神经网络)组成,输入为M1的语谱图特征,向M4、M6输出神经网络前向所提取的特征。
特征生成部件M4:该部件M4本质上是一个浅层的tdnn网络,通过在M3的基础上进一步提取特征,输出为512维度Xvector特征,该特征生成部件M4相当于是一个xvector生成器,向M5输出512维度特征。
第一神经网络更新部件M5:该部件M5为一个神经网络更新部件,是Xvector分支更新部件,输入为M2的512维度特征(真实标签)和M4的512维度特征(预测标签)进行训练后,根据真实值与预测值去反向更新M3、M4的神经网络参数权值。
语音识别后置神经网络部件M6:该部件M6也是一个浅层的tdnn网络,输入为M3提取的特征,通过部件M6进一步提取的语音识别特征(也就是在M3所提取的特征的基础上进一步对特征聚合,提取实际有效的特征),向M7输出,该输出可为音素发射概率,也可以是具体的单词标签。
第二神经网络更新部件M7:该部件M7为神经网络的更新部件,输入为M6提取的特征,反向去更新M3、M6的神经网络参数权值。
在本实施例中,通过M3-M4-M5分支进行发音特征的训练,其中该发音特征的标注信息来自于Xvector模型特征提取部件M2所提取的xvector特征,进一步的训练结果就是使得语音识别前置神经网络部件M3能够学习到不同地区的发音特征。因此,通过M3-M4-M5分支进行发音特征的训练后,语音识别前置神经网络部件M3具备提取不同地区发音特征的能力,再进一步参与到M3-M6–M7语音识别分支的训练中,从而有指向性的提取所需的特征进行训练后,以得到口音语音识别模型对待识别的语音音频进行实时的离线语音识别。
本发明还提供一种地域性的离线口音语音识别系统的生成装置能够实现在嵌入式平台下部署离线语音识别模型,从而提升离线语音识别系统在同种语音下不同口音的识别性能。
参照图3所示为本发明一实施例提供的一种地域性的离线口音语音识别系统的生成装置的结构示意图。
本实施例中,该装置30包括:
导入单元31,用于导入不同地域的语音音频数据;
转化单元32,用于将所述语音音频数据转化为语音识别的语音特征;
提取单元33,用于通过所述语音特征训练包含具有不同地域发音特征的Xvector模型后,提取所述Xvector模型中不同地域的多维度的Xvector特征;
训练单元34,用于利用前置神经网络进一步提取所述语音特征中的第一Xvector特征,并通过所述Xvector模型中Xvector特征所对应的真实标签用于指导所述第一Xvector特征进行第一模型的训练,其中,所述前置神经网络为tdnn网络组成;
更新单元35,用于基于所述第一Xvector特征提取第一语音识别特征进行第二模型的训练后,利用所述第一模型与所述第二模型进行反向更新所述前置神经网络的权重值,得到口音语音识别模型,其中,所述第一语音识别特征通过对所述第一Xvector特征进行聚合后所输出的有效语音识别特征。
进一步的,所述语音特征为语谱图特征或MFCC特征。
进一步的,所述提取所述语音特征中的第一Xvector特征,进一步包括:
通过xvector生成器提取所述语音特征中的第一Xvector特征。
进一步的,所述Xvector特征为512维度Xvector特征;所述第一Xvector特征为512维度Xvector特征;所述第一语音识别特征为音素标签或单词标签。
该装置30的各个单元模块可分别执行上述方法实施例中对应步骤,故在此不对各单元模块进行赘述,详细请参见以上对应步骤的说明。
本发明实施例还提供一种地域性的离线口音语音识别系统的生成设备,包括处理器、存储器以及存储在所述存储器内的计算机程序,所述计算机程序能够被所述处理器执行以实现如上述实施例所述的地域性的离线口音语音识别系统的生成方法。
所述地域性的离线口音语音识别系统的生成设备可包括但不仅限于处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是地域性的离线口音语音识别系统的生成设备的示例,并不构成对地域性的离线口音语音识别系统的生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述地域性的离线口音语音识别系统的生成设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述地域性的离线口音语音识别系统的生成设备的控制中心,利用各种接口和线路连接整个地域性的离线口音语音识别系统的生成设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述地域性的离线口音语音识别系统的生成设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述地域性的离线口音语音识别系统的生成设备集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例中的实施方案可以进一步组合或者替换,且实施例仅仅是对本发明的优选实施例进行描述,并非对本发明的构思和范围进行限定,在不脱离本发明设计思想的前提下,本领域中专业技术人员对本发明的技术方案作出的各种变化和改进,均属于本发明的保护范围。

Claims (10)

1.一种地域性的离线口音语音识别系统的生成方法,其特征在于,所述方法包括:
导入不同地域的语音音频数据;
将所述语音音频数据转化为语音识别的语音特征;
通过所述语音特征训练包含具有不同地域发音特征的Xvector模型后,提取所述Xvector模型中不同地域的多维度的Xvector特征;
利用前置神经网络进一步提取所述语音特征中的第一Xvector特征,并通过所述Xvector模型中Xvector特征所对应的真实标签用于指导所述第一Xvector特征进行第一模型的训练,其中,所述前置神经网络为tdnn网络组成;
基于所述第一Xvector特征提取第一语音识别特征进行第二模型的训练后,利用所述第一模型与所述第二模型进行反向更新所述前置神经网络的权重值,得到口音语音识别模型,其中,所述第一语音识别特征通过对所述第一Xvector特征进行聚合后所输出的有效语音识别特征。
2.根据权利要求1所述的一种地域性的离线口音语音识别系统的生成方法,其特征在于,所述语音特征为语谱图特征或MFCC特征。
3.根据权利要求1所述的一种地域性的离线口音语音识别系统的生成方法,其特征在于,所述提取所述语音特征中的第一Xvector特征,进一步包括:
通过xvector生成器提取所述语音特征中的第一Xvector特征。
4.根据权利要求1所述的一种地域性的离线口音语音识别系统的生成方法,其特征在于,所述Xvector特征为512维度Xvector特征;所述第一Xvector特征为512维度Xvector特征。
5.根据权利要求1所述的一种地域性的离线口音语音识别系统的生成方法,其特征在于,所述第一语音识别特征为音素标签或单词标签。
6.一种地域性的离线口音语音识别系统的生成装置,其特征在于,所述装置包括:
导入单元,用于导入不同地域的语音音频数据;
转化单元,用于将所述语音音频数据转化为语音识别的语音特征;
提取单元,用于通过所述语音特征训练包含具有不同地域发音特征的Xvector模型后,提取所述Xvector模型中不同地域的多维度的Xvector特征;
训练单元,用于利用前置神经网络进一步提取所述语音特征中的第一Xvector特征,并通过所述Xvector模型中Xvector特征所对应的真实标签用于指导所述第一Xvector特征进行第一模型的训练,其中,所述前置神经网络为tdnn网络组成;
更新单元,用于基于所述第一Xvector特征提取第一语音识别特征进行第二模型的训练后,利用所述第一模型与所述第二模型进行反向更新所述前置神经网络的权重值,得到口音语音识别模型,其中,所述第一语音识别特征通过对所述第一Xvector特征进行聚合后所输出的有效语音识别特征。
7.根据权利要求6所述的一种地域性的离线口音语音识别系统的生成装置,其特征在于,所述语音特征为语谱图特征或MFCC特征。
8.根据权利要求6所述的一种地域性的离线口音语音识别系统的生成装置,其特征在于,所述提取所述语音特征中的第一Xvector特征,进一步包括:
通过xvector生成器提取所述语音特征中的第一Xvector特征。
9.根据权利要求6所述的一种地域性的离线口音语音识别系统的生成装置,其特征在于,所述Xvector特征为512维度Xvector特征;所述第一Xvector特征为512维度Xvector特征;所述第一语音识别特征为音素标签或单词标签。
10.一种地域性的离线口音语音识别系统的生成设备,其特征在于,包括处理器、存储器以及存储在所述存储器内的计算机程序,所述计算机程序能够被所述处理器执行以实现如权利要求1至6任意一项所述的一种地域性的离线口音语音识别系统的生成方法。
CN202110142560.0A 2021-02-02 2021-02-02 一种地域性的离线口音语音识别系统的生成方法和装置 Active CN112908295B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110142560.0A CN112908295B (zh) 2021-02-02 2021-02-02 一种地域性的离线口音语音识别系统的生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110142560.0A CN112908295B (zh) 2021-02-02 2021-02-02 一种地域性的离线口音语音识别系统的生成方法和装置

Publications (2)

Publication Number Publication Date
CN112908295A true CN112908295A (zh) 2021-06-04
CN112908295B CN112908295B (zh) 2023-05-16

Family

ID=76121333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110142560.0A Active CN112908295B (zh) 2021-02-02 2021-02-02 一种地域性的离线口音语音识别系统的生成方法和装置

Country Status (1)

Country Link
CN (1) CN112908295B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428803A (zh) * 2019-07-22 2019-11-08 北京语言大学 一种基于发音属性的发音人国别识别方法及系统
CN110517663A (zh) * 2019-08-01 2019-11-29 北京语言大学 一种语种识别方法及识别系统
CN111091809A (zh) * 2019-10-31 2020-05-01 国家计算机网络与信息安全管理中心 一种深度特征融合的地域性口音识别方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428803A (zh) * 2019-07-22 2019-11-08 北京语言大学 一种基于发音属性的发音人国别识别方法及系统
CN110517663A (zh) * 2019-08-01 2019-11-29 北京语言大学 一种语种识别方法及识别系统
CN111091809A (zh) * 2019-10-31 2020-05-01 国家计算机网络与信息安全管理中心 一种深度特征融合的地域性口音识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈亚峰;郭武;: "基于内容的x-vector文本相关SV研究", 数据采集与处理 *

Also Published As

Publication number Publication date
CN112908295B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN107680582B (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
CN110853626B (zh) 基于双向注意力神经网络的对话理解方法、装置及设备
CN110277088B (zh) 智能语音识别方法、装置及计算机可读存储介质
CN106997342B (zh) 基于多轮交互的意图识别方法和装置
CN112562640B (zh) 多语言语音识别方法、装置、系统及计算机可读存储介质
CN112242144A (zh) 基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质
JP2020004382A (ja) 音声対話方法及び装置
US20170301346A1 (en) Hierarchical speech recognition decoder
Rasipuram et al. Acoustic and lexical resource constrained ASR using language-independent acoustic model and language-dependent probabilistic lexical model
US20220399013A1 (en) Response method, terminal, and storage medium
US7844459B2 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
CN116306679A (zh) 一种基于语义可配置的多模态智能客服对话的方法和系统
CN110597958B (zh) 文本分类模型训练和使用方法及装置
CN110377708B (zh) 一种多情景对话切换方法及装置
CN113051384A (zh) 基于对话的用户画像抽取方法及相关装置
US20180330719A1 (en) Accent invariant speech recognition
CN111508481A (zh) 语音唤醒模型的训练方法、装置、电子设备及存储介质
CN112908295B (zh) 一种地域性的离线口音语音识别系统的生成方法和装置
CN109346065A (zh) 一种语音识别方法及系统
CN111354346B (zh) 一种语音识别数据扩充方法与系统
CN115050351A (zh) 生成时间戳的方法、装置及计算机设备
KR20160015005A (ko) 클래스 기반 음향 모델의 변별 학습 방법 및 장치, 그리고 이를 이용한 음성 인식 장치
CN113327587A (zh) 特定场景下语音识别的方法、装置、电子设备和存储介质
CN113724690A (zh) Ppg特征的输出方法、目标音频的输出方法及装置
CN113539247A (zh) 语音数据处理方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant