CN110164445A - 语音识别方法、装置、设备及计算机存储介质 - Google Patents

语音识别方法、装置、设备及计算机存储介质 Download PDF

Info

Publication number
CN110164445A
CN110164445A CN201810149483.XA CN201810149483A CN110164445A CN 110164445 A CN110164445 A CN 110164445A CN 201810149483 A CN201810149483 A CN 201810149483A CN 110164445 A CN110164445 A CN 110164445A
Authority
CN
China
Prior art keywords
data
voice data
speech
text
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810149483.XA
Other languages
English (en)
Other versions
CN110164445B (zh
Inventor
杨占磊
李威
雷鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810149483.XA priority Critical patent/CN110164445B/zh
Publication of CN110164445A publication Critical patent/CN110164445A/zh
Application granted granted Critical
Publication of CN110164445B publication Critical patent/CN110164445B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

本发明实施例公开了一种语音识别方法、装置、设备及计算机存储介质。该方法包括:获得第一用户的第一语音数据,第一语音数据对应于第一文本数据;基于第一语音数据,确定与第一文本数据相似的第二文本数据、以及与第一语音数据相似的第二语音数据;依据第一文本数据和第二文本数据训练第一用户对应的语言模型;并依据第一语音数据和第二语音数据训练第一用户对应的声学模型。本发明实施例的语音识别方法、装置、设备及计算机存储介质,能够提升语音识别效果和提高语音识别模型的可扩展性。

Description

语音识别方法、装置、设备及计算机存储介质
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别方法、装置、设备及计算机存储介质。
背景技术
自动语音识别(Automatic Speech Recognition,ASR)是将人类的语音中的词汇内容转换为计算机可读的输入。ASR目前被广泛应用于搜索、游戏控制、翻译等领域。
语音识别系统性能受很多因素的影响,包括不同说话人、口音、信道传输、语速、环境噪音等等。根据这些因素的来源,针对性地对语音识别系统进行调整,可以降低上述因素对语音识别系统性能的影响,改善语音识别准确率。
目前,对语音识别系统进行调整一般是在基础模型的基础上,采用用户给定的语音数据进行调优。通常情况下,用户一般只会提供少量的语音数据用于优化模型,直接使用这些数据会导致以下两个问题:
问题一:由于数据量少,在模型训练的过程中为了保证收敛性,需要做很多平滑处理,语音识别效果提升不明显。
问题二:为了在少量的数据上综合考虑口音、语速、信道传输、说话内容等影响因素,需要非常精细的调整语音识别系统的各个模块。精细调整各模块需要技术人员具备相当强的经验,整个调整过程需要大量的人工参与,很难实现大规模应用,可扩展性不强。
发明内容
本发明实施例提供一种语音识别方法、装置、设备及计算机存储介质,能够提升语音识别效果和提高语音识别模型的可扩展性。
一方面,本发明实施例提供了一种语音识别方法,方法包括:
获得第一用户的第一语音数据,第一语音数据对应于第一文本数据;
基于第一语音数据,确定与第一文本数据相似的第二文本数据、以及与第一语音数据相似的第二语音数据;
依据第一文本数据和第二文本数据训练第一用户对应的语言模型;
依据第一语音数据和第二语音数据训练第一用户对应的声学模型。
另一方面,本发明实施例提供了一种语音识别装置,装置包括:
获得模块,用于获得第一用户的第一语音数据,第一语音数据对应于第一文本数据;
第一确定模块,用于基于第一语音数据,确定与第一文本数据相似的第二文本数据;
第二确定模块,用于确定与第一语音数据相似的第二语音数据;
第一训练模块,用于依据第一文本数据和第二文本数据训练第一用户对应的语言模型;
第二训练模块,用于依据第一语音数据和第二语音数据训练第一用户对应的声学模型。
再一方面,本发明实施例提供了一种语音识别设备,设备包括:处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现本发明实施例提供的语音识别方法。
再一方面,本发明实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令;计算机程序指令被处理器执行时实现本发明实施例提供的语音识别方法。
本发明实施例的语音识别方法、装置、设备及计算机存储介质,能够提升语音识别效果和提高语音识别模型的可扩展性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例提供的训练语言模型和声学模型的过程示意图;
图2示出了本发明实施例提供的语音识别方法的流程示意图;
图3示出了本发明实施例提供的语音识别装置的结构示意图;
图4示出了能够实现根据本发明实施例的语音识别方法和装置的计算设备的示例性硬件架构的结构图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
鉴于利用现有的基于较少的语音数据训练出的语音识别模型,语音识别效果差,语音识别模型的可扩展性不强的问题,本发明实施例提供了一种语音识别方法,方法包括:获得第一用户的第一语音数据,第一语音数据对应于第一文本数据;基于第一语音数据,确定与第一文本数据相似的第二文本数据、以及与第一语音数据相似的第二语音数据;依据第一文本数据和第二文本数据训练第一用户对应的语言模型;依据第一语音数据和第二语音数据训练第一用户对应的声学模型。本发明实施例的语音识别方法,在训练用户对应的语音识别模型时,仅需获得用户的一个语音数据,即可训练出与用户对应的语音识别模型,利用该语音识别模型能提升对用户的语音识别效果,并且利用本发明实施例的语音识别方法训练语音识别模型,能提高语音识别模型的可扩展性。
通常情况下,语音识别模型包括语言模型和声学模型,其中,声学模型对应于语音到音节概率的计算,语言模型对应于音节到字概率的计算,通过声学模型和语音模型结合的语音识别模型能够识别出语音数据中的字,语音数据中的字被识别出后,即识别出了语音数据中的语音内容。
可以理解的是,本发明实施例提供的语音识别方法可以应用于语音支付场景中,也可以应用于语音搜索场景中,等等。
下面以本发明实施例提供的语音识别方法应用于语音支付场景为例进行说明。
当用户购买某一产品进行支付、且用户选择语音支付时,接收用户语音数据并获得用户的标识信息,通过用户的标识信息,检测是否存在与用户对应的语音识别模型。
若检测到存在与用户对应的语音识别模型,则利用与用户对应的语音识别模型识别用户语音数据,进而根据识别的出的语音内容进行相应的处理。比如识别出用户语音数据中的语音内容为“取消支付”,则退出支付界面;再比如识别出用户语音数据中的语音内容为一串由数字和字母组成的字符串,则比较该字符串与用户的支付密码是否相同,如果相同,则进入支付成功界面,如果不相同,则提示用户密码不对,提示用户重新说支付密码,等等。
若检测到不存在与用户对应的语音识别模型,则基于用户语音数据,训练用户对应的语言模型和声学模型,当用户的语言模型和声学模型训练完成后,此时利用训练完成的用户对应的语言模型和声学模型对用户语音数据进行识别。
基于用户语音数据,训练用户对应的语言模型和声学模型的过程,如图1所示,图1示出了本发明实施例提供的训练语言模型和声学模型的过程示意图。
在训练语音模型时,首先从用户语音数据中通过人工标注技术,获得用户语音数据对应的文本数据,再从文本数据库中筛选与所获得的文本数据相似的文本数据。
具体的,在从文本数据库中筛选与所获得的文本数据相似的文本数据时,可以将文本数据库中的文本数据与所获得的文本数据进行分词处理,得到每一文本数据对应的关键字集合;将基于关键字集合计算得到的词向量相似度中不小于词向量相似度阈值的词向量相似度对应的文本数据,确定为与所获得的文本数据相似的文本数据。
在本发明的一个实施例中,上述的词向量相似度可以为杰卡德(Jaccard)系数,Jaccard系数为两个集合交集的大小与两个集合并集的大小的比值。在将文本数据库中的文本数据与所获得的文本数据进行分词处理时,可采用字符串匹配分词法,也可以采用词义分词法,还可以采用统计分词法。本发明实施例并不对分词处理所采用的方法进行限定,任何可用的分词方法均可应用于本发明实施例中。
当筛选出与所获得的文本数据相似的文本数据后,利用所获得的文本数据以及筛选得到的文本数据,训练与用户对应的语音模型。
在本发明的一个实施例中,在从文本数据库中筛选与所获得的文本数据相似的文本数据时,还可以通过基于关键词的检索算法、基于空间向量的余弦算法或基于语音相似度的文本相似度算法等,从文本数据库中筛选与所获得的文本数据相似的文本数据。
在训练声学模型时,先通过语音分析技术,获得用户语音数据的属性信息,基于所获得的属性信息,从语音数据库中筛选与用户语音数据相似的语音数据。当筛选与用户语音数据相似的语音数据后,利用用户语音数据以及筛选得到的语音数据,训练与用户对应的语音模型。
在训练声学模型时,还可以基于语言模型训练过程中,所获得的与用户语音数据相似对应的文本数据相似的文本数据进行训练。具体的,从语音数据库中获得与用户语音数据相似对应的文本数据相似的文本数据所对应的语音数据,再基于语音数据的属性信息,从所获得语音数据中筛选与用户语音数据相似的语音数据。当筛选与用户语音数据相似的语音数据后,利用用户语音数据以及筛选得到的语音数据,训练与用户对应的语音模型。
本发明实施例的属性信息可以包括:编解码格式、信噪比、语速、语音频率、语音音量、说话人性别和说话人年龄等。
示例性的,以编解码格式为例,从语音数据库中或者从语音数据库中获得与用户语音数据相似对应的文本数据相似的文本数据所对应的语音数据中,筛选与用户语音数据的编解码格式相同的语音数据,将用户语音数据的编解码格式相同的语音数据作为与用户语音数据相似的语音数据。
再示例性的,以语音音量为例,首先依据用户语音数据,确定用户语音音量,假设确定出用户语音音量为20分贝。则从语音数据库中或者从语音数据库中获得与用户语音数据相似对应的文本数据相似的文本数据所对应的语音数据中,筛选语音音量比如在19分贝至21分贝的语音数据,将语音音量在19分贝至21分贝的语音数据作为与用户语音数据相似的语音数据。
再示例性的,以编解码格式和语音音量为例,可以依据用户语音数据,确定用户语音音量,假设确定出用户语音音量为20分贝。则从语音数据库中或者从语音数据库中获得与用户语音数据相似对应的文本数据相似的文本数据所对应的语音数据中,筛选语音音量比如在19分贝至21分贝的语音数据,然后再从筛选出的语音音量在19分贝至21分贝的语音数据中,筛选与用户语音数据的编解码格式相同的语音数据,将此时筛选出的语音数据作为与用户语音数据相似的语音数据。
依据编解码格式、信噪比、语速、语音频率、语音音量、说话人性别和说话人年龄中的一种或几种组合进行语音数据的筛选过程,与上述以编解码格式、语音音量、编解码格式和语音音量进行语音数据的筛选过程相同或相似。本发明实施例在此不对其进行赘述。
在本发明的一个实施例中,在依据用户语音数据和筛选出的语音数据训练用户对应的声学模型时,可以将筛选出的语音数据的属性信息修改为用户语音数据的属性信息,即修改筛选出的语音数据的属性信息使之与用户语音数据的属性信息相同,依据用户语音数据以及修改属性后的所筛选出的语音数据,训练用户对应的声学模型。
在本发明的一个实施例中,在训练声学模型时,可以通过特征提取和训练并行的方式进行声学模型的训练。即在某一时刻T时,对T时刻的用户语音数据进行特征提取,利用T-1时刻所提取的特征进行训练。通过特征提取和训练并行的方式来提高模型训练速度。
当训练出用户对应的语言模型和声学模型后,建立用户的标识信息与包含训练出的用户对应的语言模型和声学模型的语音识别模型的对应关系。
当再次接收到用户语音数据时,通过用户的标识信息,获得与用户的标识信息具有对应关系的语音识别模型,即获得用户对应的语音识别模型,利用获得的语音识别模型对用户语音数据进行识别。
本发明实施例的语音识别方法,无需用户提供大量的语音数据,仅需用户的一条语音数据,即可训练与用户对应的语音识别模型,能够提高语音识别模型的可扩展性。并且所训练的模型是依据与用户语音数据相似的语音数据以及与用户语音数据对应的文本数据相似的文本数据训练得到的,能够提升语音识别效果。
基于上述的过程,本发明实施例提供的语音识别方法可以归纳为图2所示的步骤。图2示出了本发明实施例提供的语音识别方法的流程示意图。其可以包括:
S201:获得第一用户的第一语音数据,第一语音数据对应于第一文本数据。
S202:基于第一语音数据,确定与第一文本数据相似的第二文本数据、以及与第一语音数据相似的第二语音数据。
S203:依据第一文本数据和第二文本数据训练第一用户对应的语言模型。
S204:依据第一语音数据和第二语音数据训练第一用户对应的声学模型。
在本发明的一个实施例中,确定与第一文本数据相似的第二文本数据,可以包括:利用人工标注技术,获得与第一语音数据对应的第一文本数据;从文本数据库中筛选与第一文本数据相似的第二文本数据。
在本发明的一个实施例中,从文本数据库中筛选与第一文本数据相似的第二文本数据,可以包括:将文本数据库中的文本数据与第一文本数据进行分词处理,得到每一文本数据对应的关键字集合;将基于关键字集合计算得到的词向量相似度中不小于词向量相似度阈值的词向量相似度对应的文本数据,确定为与第一文本数据相似的第二文本数据。
在本发明的一个实施例中,词向量相似度可以包括:杰卡德系数。
在本发明的一个实施例中,确定与第一语音数据相似的第二语音数据,可以包括:从语音数据库中获得第二文本数据对应的语音数据;基于语音数据的属性信息,从所获得的语音数据中筛选与第一语音数据相似的第二语音数据。
在本发明的一个实施例中,确定与第一语音数据相似的第二语音数据,可以包括:基于语音数据的属性信息,从语音数据库中筛选与第一语音数据相似的第二语音数据。
在本发明的一个实施例中,属性信息可以包括以下所列项中的一种或几种组合:编解码格式、信噪比、语速、语音频率、语音音量、说话人性别和说话人年龄。
在本发明的一个实施例中,依据第一语音数据和第二语音数据训练第一用户对应的声学模型,可以包括:将第二语音数据的属性信息修改为第一语音数据的属性信息;依据第一语音数据以及修改属性信息后的第二语音数据,训练第一用户对应的声学模型。
本发明实施例的语音识别方法,无需用户提供大量的语音数据,仅需用户的一条语音数据,即可训练与用户对应的语音识别模型,能够提高语音识别模型的可扩展性。并且所训练的模型是依据与用户语音数据相似的语音数据以及与用户语音数据对应的文本数据相似的文本数据训练得到的,能够提升语音识别效果。
基于上述的过程,本发明实施例还提供一种语音识别装置。
如图3所示,图3示出了本发明实施例提供的语音识别装置的结构示意图。其可以包括:
获得模块301,用于获得第一用户的第一语音数据,第一语音数据对应于第一文本数据。
第一确定模块302,用于确定与第一文本数据相似的第二文本数据。
第二确定模块303,用于确定与第一语音数据相似的第二语音数据。
第一训练模块304,用于依据第一文本数据和第二文本数据训练第一用户对应的语言模型。
第二训练模块305,用于依据第一语音数据和第二语音数据训练第一用户对应的声学模型。
在本发明的一个实施例中,第一确定模块302,可以包括:
第一获得单元,用于利用人工标注技术,获得与第一语音数据对应的第一文本数据;
第一筛选单元,用于从文本数据库中筛选与第一文本数据相似的第二文本数据。
在本发明的一个实施例中,第一筛选单元,具体可以用于:
将文本数据库中的文本数据与第一文本数据进行分词处理,得到每一文本数据对应的关键字集合;
将基于关键字集合计算得到的词向量相似度中不小于词向量相似度阈值的词向量相似度对应的文本数据,确定为与第一文本数据相似的第二文本数据。
在本发明的一个实施例中,词向量相似度可以包括:杰卡德系数。
在本发明的一个实施例中,第二确定模块303,可以包括:
第二获得单元,用于从语音数据库中获得第二文本数据对应的语音数据;
第二筛选单元,用于基于语音数据的属性信息,从所获得的语音数据中筛选与第一语音数据相似的第二语音数据。
在本发明的一个实施例中,第二确定模块,具体可以用于:
基于语音数据的属性信息,从语音数据库中筛选与第一语音数据相似的第二语音数据。
在本发明的一个实施例中,属性信息可以包括以下所列项中的一种或几种组合:编解码格式、信噪比、语速、语音频率、语音音量、说话人性别和说话人年龄。
在本发明的一个实施例中,第二训练模块305,具体可以用于:
将第二语音数据的属性信息修改为第一语音数据的属性信息;
依据第一语音数据以及修改属性信息后的第二语音数据,训练第一用户对应的声学模型。
另外,结合图1至图3描述的本发明实施例的语音识别方法和装置可以由语音识别设备来实现。图4示出了能够实现根据本发明实施例的语音识别方法和装置的计算设备的示例性硬件架构的结构图。如图4所示,计算设备400包括输入设备401、输入接口402、中央处理器403、存储器404、输出接口405、以及输出设备406。其中,输入接口402、中央处理器403、存储器404、以及输出接口405通过总线410相互连接,输入设备401和输出设备406分别通过输入接口402和输出接口405与总线410连接,进而与计算设备400的其他组件连接。
具体地,输入设备401接收来自外部的输入信息,并通过输入接口402将输入信息传送到中央处理器403;中央处理器403基于存储器404中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器404中,然后通过输出接口405将输出信息传送到输出设备406;输出设备406将输出信息输出到计算设备400的外部供用户使用。
也就是说,图4所示的计算设备也可以被实现为语音识别设备,该语音识别设备可以包括:存储有计算机可执行指令的存储器;以及处理器,该处理器在执行计算机可执行指令时可以实现结合图1至图3描述的语音识别方法和装置。
本发明实施例还提供一种计算机存储介质,该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现本发明实施例提供的语音识别方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (18)

1.一种语音识别方法,其特征在于,所述方法包括:
获得第一用户的第一语音数据,所述第一语音数据对应于第一文本数据;
基于所述第一语音数据,确定与所述第一文本数据相似的第二文本数据、以及与所述第一语音数据相似的第二语音数据;
依据所述第一文本数据和所述第二文本数据训练所述第一用户对应的语言模型;
依据所述第一语音数据和所述第二语音数据训练所述第一用户对应的声学模型。
2.根据权利要求1所述的方法,其特征在于,所述确定与所述第一文本数据相似的第二文本数据,包括:
利用人工标注技术,获得与所述第一语音数据对应的第一文本数据;
从文本数据库中筛选与所述第一文本数据相似的第二文本数据。
3.根据权利要求2所述的方法,其特征在于,所述从文本数据库中筛选与所述第一文本数据相似的第二文本数据,包括:
将所述文本数据库中的文本数据与所述第一文本数据进行分词处理,得到每一文本数据对应的关键字集合;
将基于所述关键字集合计算得到的词向量相似度中不小于词向量相似度阈值的词向量相似度对应的文本数据,确定为与所述第一文本数据相似的第二文本数据。
4.根据权利要求3所述的方法,其特征在于,所述词向量相似度包括:杰卡德系数。
5.根据权利要求2所述的方法,其特征在于,确定与所述第一语音数据相似的第二语音数据,包括:
从语音数据库中获得所述第二文本数据对应的语音数据;
基于语音数据的属性信息,从所获得的语音数据中筛选与所述第一语音数据相似的第二语音数据。
6.根据权利要求1所述的方法,其特征在于,确定与所述第一语音数据相似的第二语音数据,包括:
基于语音数据的属性信息,从语音数据库中筛选与所述第一语音数据相似的第二语音数据。
7.根据权利要求5或6所述的方法,其特征在于,所述属性信息包括以下所列项中的一种或几种组合:
编解码格式、信噪比、语速、语音频率、语音音量、说话人性别和说话人年龄。
8.根据权利要求5或6所述的方法,其特征在于,所述依据所述第一语音数据和所述第二语音数据训练所述第一用户对应的声学模型,包括:
将所述第二语音数据的属性信息修改为所述第一语音数据的属性信息;
依据所述第一语音数据以及修改属性信息后的所述第二语音数据,训练所述第一用户对应的声学模型。
9.一种语音识别装置,其特征在于,所述装置包括:
获得模块,用于获得第一用户的第一语音数据,所述第一语音数据对应于第一文本数据;
第一确定模块,用于基于所述第一语音数据,确定与所述第一文本数据相似的第二文本数据;
第二确定模块,用于确定与所述第一语音数据相似的第二语音数据;
第一训练模块,用于依据所述第一文本数据和所述第二文本数据训练所述第一用户对应的语言模型;
第二训练模块,用于依据所述第一语音数据和所述第二语音数据训练所述第一用户对应的声学模型。
10.根据权利要求9所述的装置,其特征在于,所述第一确定模块,包括:
第一获得单元,用于利用人工标注技术,获得与所述第一语音数据对应的第一文本数据;
第一筛选单元,用于从文本数据库中筛选与所述第一文本数据相似的第二文本数据。
11.根据权利要求10所述的装置,其特征在于,所述第一筛选单元,具体用于:
将所述文本数据库中的文本数据与所述第一文本数据进行分词处理,得到每一文本数据对应的关键字集合;
将基于所述关键字集合计算得到的词向量相似度中不小于词向量相似度阈值的词向量相似度对应的文本数据,确定为与所述第一文本数据相似的第二文本数据。
12.根据权利要求11所述的装置,其特征在于,所述词向量相似度包括:杰卡德系数。
13.根据权利要求10所述的装置,其特征在于,所述第二确定模块,包括:
第二获得单元,用于从语音数据库中获得所述第二文本数据对应的语音数据;
第二筛选单元,用于基于语音数据的属性信息,从所获得的语音数据中筛选与所述第一语音数据相似的第二语音数据。
14.根据权利要求9所述的装置,其特征在于,所述第二确定模块,具体用于:
基于语音数据的属性信息,从语音数据库中筛选与所述第一语音数据相似的第二语音数据。
15.根据权利要求13或14所述的装置,其特征在于,所述属性信息包括以下所列项中的一种或几种组合:
编解码格式、信噪比、语速、语音频率、语音音量、说话人性别和说话人年龄。
16.根据权利要求13或14所述的装置,其特征在于,所述第二训练模块,具体用于:
将所述第二语音数据的属性信息修改为所述第一语音数据的属性信息;
依据所述第一语音数据以及修改属性信息后的所述第二语音数据,训练所述第一用户对应的声学模型。
17.一种语音识别设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-8任意一项所述的语音识别方法。
18.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令;所述计算机程序指令被处理器执行时实现如权利要求1-8任意一项所述的语音识别方法。
CN201810149483.XA 2018-02-13 2018-02-13 语音识别方法、装置、设备及计算机存储介质 Active CN110164445B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810149483.XA CN110164445B (zh) 2018-02-13 2018-02-13 语音识别方法、装置、设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810149483.XA CN110164445B (zh) 2018-02-13 2018-02-13 语音识别方法、装置、设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN110164445A true CN110164445A (zh) 2019-08-23
CN110164445B CN110164445B (zh) 2023-06-16

Family

ID=67635363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810149483.XA Active CN110164445B (zh) 2018-02-13 2018-02-13 语音识别方法、装置、设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN110164445B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611261A (zh) * 2020-05-24 2020-09-01 济南欣格信息科技有限公司 基于文本解耦合的垃圾分类识别系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1591570A (zh) * 2003-08-13 2005-03-09 松下电器产业株式会社 用于紧凑声学建模的泡分裂法
JP2008176202A (ja) * 2007-01-22 2008-07-31 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
US20090240499A1 (en) * 2008-03-19 2009-09-24 Zohar Dvir Large vocabulary quick learning speech recognition system
US20120253794A1 (en) * 2011-03-29 2012-10-04 Kabushiki Kaisha Toshiba Voice conversion method and system
US20130006604A1 (en) * 2011-06-28 2013-01-03 International Business Machines Corporation Cross-lingual audio search
CN103310788A (zh) * 2013-05-23 2013-09-18 北京云知声信息技术有限公司 一种语音信息识别方法及系统
JP2015026057A (ja) * 2013-07-29 2015-02-05 韓國電子通信研究院Electronics and Telecommunications Research Institute インタラクティブキャラクター基盤の外国語学習装置及び方法
US20150142438A1 (en) * 2013-11-18 2015-05-21 Beijing Lenovo Software Ltd. Voice recognition method, voice controlling method, information processing method, and electronic apparatus
CN105845125A (zh) * 2016-05-18 2016-08-10 百度在线网络技术(北京)有限公司 语音合成方法和语音合成装置
US20170092258A1 (en) * 2015-09-29 2017-03-30 Yandex Europe Ag Method and system for text-to-speech synthesis

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1591570A (zh) * 2003-08-13 2005-03-09 松下电器产业株式会社 用于紧凑声学建模的泡分裂法
JP2008176202A (ja) * 2007-01-22 2008-07-31 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
US20090240499A1 (en) * 2008-03-19 2009-09-24 Zohar Dvir Large vocabulary quick learning speech recognition system
US20120253794A1 (en) * 2011-03-29 2012-10-04 Kabushiki Kaisha Toshiba Voice conversion method and system
US20130006604A1 (en) * 2011-06-28 2013-01-03 International Business Machines Corporation Cross-lingual audio search
CN103310788A (zh) * 2013-05-23 2013-09-18 北京云知声信息技术有限公司 一种语音信息识别方法及系统
JP2015026057A (ja) * 2013-07-29 2015-02-05 韓國電子通信研究院Electronics and Telecommunications Research Institute インタラクティブキャラクター基盤の外国語学習装置及び方法
US20150142438A1 (en) * 2013-11-18 2015-05-21 Beijing Lenovo Software Ltd. Voice recognition method, voice controlling method, information processing method, and electronic apparatus
US20170092258A1 (en) * 2015-09-29 2017-03-30 Yandex Europe Ag Method and system for text-to-speech synthesis
CN105845125A (zh) * 2016-05-18 2016-08-10 百度在线网络技术(北京)有限公司 语音合成方法和语音合成装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MARDA ROSE: "Cross‐Language Identification of Spanish Consonants in English", 《FOREIGN LANGUAGE ANNALS》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611261A (zh) * 2020-05-24 2020-09-01 济南欣格信息科技有限公司 基于文本解耦合的垃圾分类识别系统
CN111611261B (zh) * 2020-05-24 2023-09-01 山东三宏信息科技有限公司 基于文本解耦合的垃圾分类识别系统

Also Published As

Publication number Publication date
CN110164445B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
EP3477633A1 (en) Systems and methods for robust speech recognition using generative adversarial networks
CN103544955B (zh) 识别语音的方法及其电子装置
WO2019191554A1 (en) Adaptive permutation invariant training with auxiliary information for monaural multi-talker speech recognition
KR101807948B1 (ko) 잔향 환경에서의 음성인식을 위한 결합 학습된 심화신경망 앙상블 기반의 음향 모델 및 이를 이용한 음성인식 방법
US20220076674A1 (en) Cross-device voiceprint recognition
US11120802B2 (en) Diarization driven by the ASR based segmentation
CN112949708B (zh) 情绪识别方法、装置、计算机设备和存储介质
CN110070859B (zh) 一种语音识别方法及装置
EP3989217B1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
CN111028845A (zh) 多音频识别方法、装置、设备及可读存储介质
CN110136715A (zh) 语音识别方法和装置
JP2016180839A (ja) 雑音抑圧音声認識装置およびそのプログラム
CN105654955A (zh) 语音识别方法及装置
KR102406512B1 (ko) 음성인식 방법 및 그 장치
Ferrer et al. A phonetically aware system for speech activity detection
CN108806725A (zh) 语音区分方法、装置、计算机设备及存储介质
US10468031B2 (en) Diarization driven by meta-information identified in discussion content
CN110675865B (zh) 用于训练混合语言识别模型的方法和装置
CN111477212B (zh) 内容识别、模型训练、数据处理方法、系统及设备
CN110164445A (zh) 语音识别方法、装置、设备及计算机存储介质
CN111063338B (zh) 音频信号识别方法、装置、设备、系统和存储介质
WO2016152132A1 (ja) 音声処理装置、音声処理システム、音声処理方法、および記録媒体
CN112735432B (zh) 音频识别的方法、装置、电子设备及存储介质
CN109872721A (zh) 语音认证方法、信息处理设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40012710

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant