CN111833852B - 一种声学模型的训练方法、装置以及计算机可读存储介质 - Google Patents

一种声学模型的训练方法、装置以及计算机可读存储介质 Download PDF

Info

Publication number
CN111833852B
CN111833852B CN202010618657.XA CN202010618657A CN111833852B CN 111833852 B CN111833852 B CN 111833852B CN 202010618657 A CN202010618657 A CN 202010618657A CN 111833852 B CN111833852 B CN 111833852B
Authority
CN
China
Prior art keywords
acoustic
model
acoustic model
training
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010618657.XA
Other languages
English (en)
Other versions
CN111833852A (zh
Inventor
薛峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN202010618657.XA priority Critical patent/CN111833852B/zh
Publication of CN111833852A publication Critical patent/CN111833852A/zh
Application granted granted Critical
Publication of CN111833852B publication Critical patent/CN111833852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种声学模型的训练方法、装置以及计算机可读存储介质,包括获取带标注的声学训练数据;将所获取的声学训练数据作为云端声学模型的输入进行训练,得到第一声学后验概率;将云端声学模型中的模型参数信息更新至本地第一声学模型;基于声学训练数据和第一声学后验概率,对本地第一声学模型进行训练,得到目标第一声学模型;以所训练得到的目标第一声学模型为基础,利用模型压缩算法得到本地第二声学模型;基于声学训练数据和第一声学后验概率,对本地第二声学模型进行训练,得到目标第二声学模型。利用云端的计算资源来得到模型参数,并且通过模型参数移植和模型压缩算法来得到可应用于芯片端的本地声学模型,因而大大提高了训练效率。

Description

一种声学模型的训练方法、装置以及计算机可读存储介质
技术领域
本发明涉及语音识别技术领域,尤其涉及一种声学模型的训练方法、装置以及计算机可读存储介质。
背景技术
语音识别是一种让机器通过识别和理解过程把语音信号转变为相应的文本或命令的人工智能技术。近年来,随着高质量的训练数据的增加,加上本地芯片计算能力不足,导致现如今依靠芯片来训练一个模型的效率变得十分低下。
发明内容
本发明实施例提供了一种声学模型的训练方法、装置以及计算机可读存储介质,具有高效地训练声学模型的效果。
本发明一方面提供一种声学模型的训练方法,所述方法包括:获取带标注的声学训练数据;将所获取的声学训练数据作为云端声学模型的输入进行训练,得到第一声学后验概率;将所述云端声学模型中的模型参数信息更新至本地第一声学模型;基于所述声学训练数据和第一声学后验概率,对所述本地第一声学模型进行训练,得到目标第一声学模型;以所训练得到的目标第一声学模型为基础,利用模型压缩算法得到本地第二声学模型;基于所述声学训练数据和第一声学后验概率,对所述本地第二声学模型进行训练,得到目标第二声学模型。
在一可实施方式中,所述带标注的声学训练数据包括相互对应的声学特征信息和文本信息。
在一可实施方式中,所述云端声学模型、本地第一声学模型以及本地第二声学模型均为FSMN模型。
在一可实施方式中,所述云端声学模型、本地第一声学模型以及本地第二声学模型均使用粗粒度并且不带音调的音节作为建模单元。
在一可实施方式中,所述基于所述声学训练数据和第一声学后验概率,对所述本地第一声学模型进行训练,得到目标第一声学模型,包括:将所述声学训练数据作为所述本地第一声学模型的输入进行训练,得到第二声学后验概率;基于所述第一声学后验概率和第二声学后验概率,更新所述本地第一声学模型中的参数信息,得到目标第一声学模型。
在一可实施方式中,所述基于所述声学训练数据和第一声学后验概率,对所述本地第二声学模型进行训练,得到目标第二声学模型,包括:将所述声学训练数据作为所述本地第二声学模型的输入进行训练,得到第三声学后验概率;基于所述第一声学后验概率和第三声学后验概率,更新所述本地第二声学模型中的参数信息;利用序列建模模型训练准则进一步更新所述本地第二声学模型的参数信息,得到目标第二声学模型。
在一可实施方式中,在对所述本地第二声学模型训练的过程中,所述方法还包括:利用语音端点检测技术去除所述声学训练数据中的长静音部分。
本发明另一方面提供一种声学模型的训练装置,所述装置包括:训练数据获取模块,用于获取带标注的声学训练数据;声学后验概率生成模块,用于将所获取的声学训练数据作为云端声学模型的输入,得到第一声学后验概率;参数更新模块,用于将所述云端声学模型中的模型参数信息更新至本地第一声学模型;第一训练模块,用于基于所述声学训练数据和第一声学后验概率,对所述本地第一声学模型进行训练,得到目标第一声学模型;模型生成模块,用于以所训练得到的目标第一声学模型为基础,利用模型压缩算法得到本地第二声学模型;第二训练模块,用于基于所述声学训练数据和第一声学后验概率,对所述本地第二声学模型进行训练,得到目标第二声学模型。
在一可实施方式中,所述第一训练模块具体用于:将所述声学训练数据作为所述本地第一声学模型的输入进行训练,得到第二声学后验概率;基于所述第一声学后验概率和第二声学后验概率,更新所述本地第一声学模型中的参数信息,得到目标第一声学模型。
本发明另一方面提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行一种声学模型的训练方法。
在本发明实施例中,利用云端的计算资源来得到模型参数,并且通过模型参数移植和模型压缩算法来得到可应用于芯片端的本地本地的声学模型,相比较于在芯片端训练声学模型而言,本方案大大提高了训练效率,并且还可以应用于其他神经网络模型。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明实施例一种声学模型的训练方法的实现流程示意图;
图2为本发明实施例一种声学模型的训练装置的结构组成示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一种声学模型的训练方法的实现流程示意图;
如图1所示,本发明一方面提供一种声学模型的训练方法,方法包括:
步骤101,获取带标注的声学训练数据;
步骤102,将所获取的声学训练数据作为云端声学模型的输入进行训练,得到第一声学后验概率;
步骤103,将云端声学模型中的模型参数信息更新至本地第一声学模型;
步骤104,基于声学训练数据和第一声学后验概率,对本地第一声学模型进行训练,得到目标第一声学模型;
步骤105,以所训练得到的目标第一声学模型为基础,利用模型压缩算法得到本地第二声学模型;
步骤106,基于声学训练数据和第一声学后验概率,对本地第二声学模型进行训练,得到目标第二声学模型。
本实施例中,在步骤101中,声学训练数据具体为由特征提取模块提取的特征向量,获取方式可以是利用爬虫技术从线上获取,也可以从本地语料库中直接获取。
在步骤102中,云端声学模型放置于云端中,一般为训练成熟的模型,具有强大并且高效的计算能力,能快速地训练大量的训练数据,得到对应的第一声学后验概率。
在步骤103中,模型参数信息为模型中的变化信息参数,包括权重参数、卷积核参数等。此步骤目的在于将本地第一声学模型中的模型参数信息与云端声学模型中的模型参数一致,可通过迁移学习方法进行参数移植操作。结合步骤102,省去了在本地端进行数据训练的过程,提高了训练效率。
步骤104中,本地第一声学模型中的“本地”可以是服务器,也可以是计算机等终端设备。
步骤105中,利用模型压缩算法将本地第一声学模型进行模型压缩,得到本地第二声学模型,以在保证模型预测效果的前提下,从中减少了模型参数,尽可能地降低模型的大小,使本地第二声学模型能够应用于芯片端;
步骤106中,再利用训练数据和第一声学后验概率,进一步对本地第二声学模型进行训练,以再次调整本地第二声学模型中的模型参数,得到目标第二声学模型。
由此,利用云端的计算资源来得到模型参数,并且通过模型参数移植和模型压缩算法来得到可应用于芯片端的本地声学模型,相比较于在芯片端训练声学模型而言,本方案大大提高了训练效率,并且还可以应用于其他神经网络模型。
在一可实施方式中,带标注的声学训练数据包括相互对应的声学特征信息和文本信息。
本实施例中,声学特征信息可以利用梅尔频率倒谱系数特征提取法从语音信息中提取得到。文本信息与语音信息相对应,可以由人工书写得到,也可以从线上获取。
在一可实施方式中,云端声学模型、本地第一声学模型以及本地第二声学模型均为FSMN模型。
本实施例中,FSMN即前馈型序列记忆网络,FSMN模型相比较其他模型而言,能大大缩减训练时间,进而提升训练效率。
在一可实施方式中,云端声学模型、本地第一声学模型以及本地第二声学模型均使用粗粒度并且不带音调的音节作为建模单元。
本实施例中,通过将建模单元均设置为粗粒度并且不带音调的音节,可提升复杂声学环境下模型的泛化能力。
在一可实施方式中,基于声学训练数据和第一声学后验概率,对本地第一声学模型进行训练,得到目标第一声学模型,包括:
将声学训练数据作为本地第一声学模型的输入进行训练,得到第二声学后验概率;
基于第一声学后验概率和第二声学后验概率,更新本地第一声学模型中的参数信息,得到目标第一声学模型。
本实施例中,步骤104的具体过程为:将声学训练数据作为本地第一声学模型的输入进行训练,也同样利用神经网络前向传播得到第二声学后验概率,接着通过损失函数计算所得到的第二声学后验概率与第一声学后验概率之间的误差,当误差大小在预设阈值范围之外时,则更新第一声学模型中的参数信息,并继续对本地第一声学模型进行训练,直到当所计算得到的误差小于预设阈值时,训练完成,最终得到目标第一声学模型。
在一可实施方式中,基于声学训练数据和第一声学后验概率,对本地第二声学模型进行训练,得到目标第二声学模型,包括:
将声学训练数据作为本地第二声学模型的输入进行训练,得到第三声学后验概率;
基于第一声学后验概率和第三声学后验概率,更新本地第二声学模型中的参数信息;
利用序列建模模型训练准则进一步更新本地第二声学模型的参数信息,得到目标第二声学模型。
本实施例中,步骤106的具体过程为:将声学训练数据作为本地第二声学模型的输入进行训练,也同样利用神经网络前向传播得到第三声学后验概率,接着通过损失函数计算所得到的第三声学后验概率与第一声学后验概率之间的误差,当误差大小在预设阈值范围之外时,则更新本地第二声学模型中的参数信息,并继续对本地第二声学模型进行训练,直到所计算得到的误差小于预设阈值时,初步训练完成,接着利用序列建模模型训练准则进一步更新本地第二声学模型的参数信息,最终得到目标第二声学模型。其中序列建模模型训练准则为最大互信息训练准则、交叉熵训练准则和状态级贝叶斯风险训练准则中的一种或者多种,以上三种训练准则为现有技术,在本实施例中不再详细阐述。
在一可实施方式中,在对本地第二声学模型训练的过程中,方法还包括:
利用语音端点检测技术去除声学训练数据中的静音信息和噪声信息。
本实施例中,在训练云端声学模型、本地第一声学模型以及本地第二声学模型的过程中,在将声学训练数据输入于上述三种模型之后,利用语音端点检测技术(即VAD)来去除声学训练数据中的长静音部分,以保证模型训练的准确性,并且能最大化利用有限的空间资源。
本发明实施例还提供一种基于上文中所训练的目标第二声学模型的语音识别系统。
语音识别系统主要包括基于本地语法的搜索网络、置信度判别器。
在测试阶段,搜索网络与目标第二声学模型结合,对输入数据进行逐帧维特比解码,搜索得到发音特征序列对应的识别结果,及其相应的识别概率,作为识别结果的置信度,再通过置信度判别器来确定输出识别结果。
图2为本发明实施例一种声学模型的训练装置的结构组成示意图,如图2所示。
基于上文提供的一种声学模型的训练方法,本发明另一方面提供一种声学模型的训练装置,装置包括:
训练数据获取模块201,用于获取带标注的声学训练数据;
声学后验概率生成模块202,用于将所获取的声学训练数据作为云端声学模型的输入,得到第一声学后验概率;
参数更新模块203,用于将云端声学模型中的模型参数信息更新至本地第一声学模型;
第一训练模块204,用于基于声学训练数据和第一声学后验概率,对本地第一声学模型进行训练,得到目标第一声学模型;
模型生成模块205,用于以所训练得到的目标第一声学模型为基础,利用模型压缩算法得到本地第二声学模型;
第二训练模块206,用于基于声学训练数据和第一声学后验概率,对本地第二声学模型进行训练,得到目标第二声学模型。
本实施例中,在训练数据获取模块201中,声学训练数据具体为由特征提取模块提取的特征向量,获取方式可以是利用爬虫技术从线上获取,也可以从本地语料库中直接获取。
在声学后验概率生成模块202中,云端声学模型放置于云端中,一般为训练成熟的模型,具有强大并且高效的计算能力,能快速地训练大量的训练数据,得到对应的第一声学后验概率。
在参数更新模块203中,模型参数信息为模型中的变化信息参数,包括权重参数、卷积核参数等。此步骤目的在于将本地第一声学模型中的模型参数信息与云端声学模型中的模型参数一致,可通过迁移学习方法进行参数移植操作。结合声学后验概率生成模块202,省去了在本地端进行数据训练的过程,提高了训练效率。
第一训练模块204中,本地第一声学模型中的“本地”可以是服务器,也可以是计算机等终端设备。
模型生成模块205中,利用模型压缩算法将本地第一声学模型进行模型压缩,得到本地第二声学模型,以在保证模型预测效果的前提下,从中减少了模型参数,尽可能地降低模型的大小,使本地第二声学模型能够应用于芯片端;
第二训练模块206中,再利用训练数据和第一声学后验概率,进一步对本地第二声学模型进行训练,以再次调整本地第二声学模型中的模型参数,得到目标第二声学模型。
由此,利用云端的计算资源来得到模型参数,并且通过模型参数移植和模型压缩算法来得到可应用于芯片端的本地声学模型,相比较于在芯片端训练声学模型而言,本方案大大提高了训练效率,并且还可以应用于其他神经网络模型。
在一可实施方式中,第一训练模块204具体用于:
将声学训练数据作为所述本地第一声学模型的输入进行训练,得到第二声学后验概率;
基于第一声学后验概率和第二声学后验概率,更新本地第一声学模型中的参数信息,得到目标第一声学模型。
本实施例中,第一训练模块204具体用于:将声学训练数据作为本地第一声学模型的输入进行训练,也同样利用神经网络前向传播得到第二声学后验概率,接着通过损失函数计算所得到的第二声学后验概率与第一声学后验概率之间的误差,当误差大小在预设阈值范围之外时,则更新第一声学模型中的参数信息,并继续对本地第一声学模型进行训练,直到当所计算得到的误差小于预设阈值时,训练完成,最终得到目标第一声学模型。
本发明另一方面提供一种计算机可读存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的一种声学模型的训练方法。
在本发明实施例中计算机可读存储介质包括一组计算机可执行指令,当指令被执行时用于,获取带标注的声学训练数据;将所获取的声学训练数据作为云端声学模型的输入进行训练,得到第一声学后验概率,并通过迁移学习算法将所得到的第一声学后验概率移至本地;基于声学训练数据和第一声学后验概率,对第一声学模型进行训练,得到目标第一声学模型;以所训练得到的目标第一声学模型为基础,利用模型压缩算法得到第二声学模型;基于声学训练数据和第一声学后验概率,对第二声学模型进行训练,得到目标第二声学模型。
由此,利用云端的计算资源来得到模型参数,并且通过模型参数移植和模型压缩算法来得到可应用于芯片端的本地声学模型,相比较于在芯片端训练声学模型而言,本方案大大提高了训练效率,并且还可以应用于其他神经网络模型。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种声学模型的训练方法,其特征在于,所述方法包括:
获取带标注的声学训练数据;
将所获取的声学训练数据作为云端声学模型的输入进行训练,得到第一声学后验概率;
将所述云端声学模型中的模型参数信息更新至本地第一声学模型;
基于所述声学训练数据和第一声学后验概率,对所述本地第一声学模型进行训练,得到目标第一声学模型;
以所训练得到的目标第一声学模型为基础,利用模型压缩算法得到本地第二声学模型;
基于所述声学训练数据和第一声学后验概率,对所述本地第二声学模型进行训练,得到目标第二声学模型。
2.根据权利要求1所述的方法,其特征在于,所述带标注的声学训练数据包括相互对应的声学特征信息和文本信息。
3.根据权利要求1所述的方法,其特征在于,所述云端声学模型、本地第一声学模型以及本地第二声学模型均为FSMN模型。
4.根据权利要求1所述的方法,其特征在于,所述云端声学模型、本地第一声学模型以及本地第二声学模型均使用粗粒度并且不带音调的音节作为建模单元。
5.根据权利要求1所述的方法,其特征在于,所述基于所述声学训练数据和第一声学后验概率,对所述本地第一声学模型进行训练,得到目标第一声学模型,包括:
将所述声学训练数据作为所述本地第一声学模型的输入进行训练,得到第二声学后验概率;
基于所述第一声学后验概率和第二声学后验概率,更新所述本地第一声学模型中的参数信息,得到目标第一声学模型。
6.根据权利要求1所述的方法,其特征在于,所述基于所述声学训练数据和第一声学后验概率,对所述本地第二声学模型进行训练,得到目标第二声学模型,包括:
将所述声学训练数据作为所述本地第二声学模型的输入进行训练,得到第三声学后验概率;
基于所述第一声学后验概率和第三声学后验概率,更新所述本地第二声学模型中的参数信息;
利用序列建模模型训练准则进一步更新所述本地第二声学模型的参数信息,得到目标第二声学模型。
7.根据权利要求6所述的方法,其特征在于,在对所述本地第二声学模型训练的过程中,所述方法还包括:
利用语音端点检测技术去除所述声学训练数据中的长静音部分。
8.一种声学模型的训练装置,其特征在于,所述装置包括:
训练数据获取模块,用于获取带标注的声学训练数据;
声学后验概率生成模块,用于将所获取的声学训练数据作为云端声学模型的输入,得到第一声学后验概率;
参数更新模块,用于将所述云端声学模型中的模型参数信息更新至本地第一声学模型;
第一训练模块,用于基于所述声学训练数据和第一声学后验概率,对所述本地第一声学模型进行训练,得到目标第一声学模型;
模型生成模块,用于以所训练得到的目标第一声学模型为基础,利用模型压缩算法得到本地第二声学模型;
第二训练模块,用于基于所述声学训练数据和第一声学后验概率,对所述本地第二声学模型进行训练,得到目标第二声学模型。
9.根据权利要求8所述的装置,其特征在于,所述第一训练模块具体用于:
将所述声学训练数据作为所述本地第一声学模型的输入进行训练,得到第二声学后验概率;
基于所述第一声学后验概率和第二声学后验概率,更新所述本地第一声学模型中的参数信息,得到目标第一声学模型。
10.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-7任一项所述的一种声学模型的训练方法。
CN202010618657.XA 2020-06-30 2020-06-30 一种声学模型的训练方法、装置以及计算机可读存储介质 Active CN111833852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010618657.XA CN111833852B (zh) 2020-06-30 2020-06-30 一种声学模型的训练方法、装置以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010618657.XA CN111833852B (zh) 2020-06-30 2020-06-30 一种声学模型的训练方法、装置以及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111833852A CN111833852A (zh) 2020-10-27
CN111833852B true CN111833852B (zh) 2022-04-15

Family

ID=72899936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010618657.XA Active CN111833852B (zh) 2020-06-30 2020-06-30 一种声学模型的训练方法、装置以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111833852B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2602976B (en) * 2021-01-20 2023-08-23 Toshiba Kk Speech recognition systems and methods
CN113362814B (zh) * 2021-08-09 2021-11-09 中国科学院自动化研究所 一种融合组合模型信息的语音鉴别模型压缩方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103730114A (zh) * 2013-12-31 2014-04-16 上海交通大学无锡研究院 一种基于联合因子分析模型的移动设备声纹识别方法
CN106384587B (zh) * 2015-07-24 2019-11-15 科大讯飞股份有限公司 一种语音识别方法及系统
CN107680582B (zh) * 2017-07-28 2021-03-26 平安科技(深圳)有限公司 声学模型训练方法、语音识别方法、装置、设备及介质
CN107610709B (zh) * 2017-08-01 2021-03-19 百度在线网络技术(北京)有限公司 一种训练声纹识别模型的方法及系统
CN107919130B (zh) * 2017-11-06 2021-12-17 百度在线网络技术(北京)有限公司 基于云端的语音处理方法和装置
US20190362737A1 (en) * 2018-05-25 2019-11-28 i2x GmbH Modifying voice data of a conversation to achieve a desired outcome
CN110600014B (zh) * 2019-09-19 2022-09-02 深圳酷派技术有限公司 一种模型训练方法、装置、存储介质及电子设备
CN111243574B (zh) * 2020-01-13 2023-01-03 苏州奇梦者网络科技有限公司 一种语音模型自适应训练方法、系统、装置及存储介质
CN111210821A (zh) * 2020-02-07 2020-05-29 普强时代(珠海横琴)信息技术有限公司 一种基于互联网应用的智能语音识别系统

Also Published As

Publication number Publication date
CN111833852A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
US11062699B2 (en) Speech recognition with trained GMM-HMM and LSTM models
CN106098059B (zh) 可定制语音唤醒方法及系统
US10332507B2 (en) Method and device for waking up via speech based on artificial intelligence
KR102323046B1 (ko) 음성 감정 검출 방법 및 장치, 컴퓨터 장치 및 저장 매체
CN110033758B (zh) 一种基于小训练集优化解码网络的语音唤醒实现方法
WO2018227781A1 (zh) 语音识别方法、装置、计算机设备及存储介质
CN104143327B (zh) 一种声学模型训练方法和装置
CN108899013B (zh) 语音搜索方法、装置和语音识别系统
CN111968629A (zh) 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法
US20220262352A1 (en) Improving custom keyword spotting system accuracy with text-to-speech-based data augmentation
CN102280106A (zh) 用于移动通信终端的语音网络搜索方法及其装置
CN111833852B (zh) 一种声学模型的训练方法、装置以及计算机可读存储介质
CN107093422B (zh) 一种语音识别方法和语音识别系统
JP2019144402A (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
CN112802461B (zh) 语音识别方法和装置、服务器、计算机可读存储介质
CN114627863A (zh) 一种基于人工智能的语音识别方法和装置
Price et al. Speaker adaptation of deep neural networks using a hierarchy of output layers
CN112509560B (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
CN111599339B (zh) 具有高自然度的语音拼接合成方法、系统、设备及介质
CN103559289A (zh) 语种无关的关键词检索方法及系统
Lee et al. Training hidden Markov models by hybrid simulated annealing for visual speech recognition
CN108010518B (zh) 一种语音交互设备的语音采集方法、系统及存储介质
Deng et al. History utterance embedding transformer lm for speech recognition
CN114974310A (zh) 基于人工智能的情感识别方法、装置、计算机设备及介质
Li et al. Graphical model approach to pitch tracking.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 215024 building 14, Tengfei Innovation Park, No. 388, Xinping street, Suzhou Industrial Park, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215024 building 14, Tengfei Innovation Park, No. 388, Xinping street, Suzhou Industrial Park, Jiangsu Province

Applicant before: AI SPEECH Ltd.

GR01 Patent grant
GR01 Patent grant