CN115579012A - 语音识别方法、装置、存储介质及电子设备 - Google Patents
语音识别方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN115579012A CN115579012A CN202211168152.3A CN202211168152A CN115579012A CN 115579012 A CN115579012 A CN 115579012A CN 202211168152 A CN202211168152 A CN 202211168152A CN 115579012 A CN115579012 A CN 115579012A
- Authority
- CN
- China
- Prior art keywords
- voice data
- voiceprint
- user
- recognized
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012545 processing Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 6
- 238000013441 quality evaluation Methods 0.000 claims description 4
- 238000007499 fusion processing Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 5
- 239000013598 vector Substances 0.000 description 15
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请实施例公开了一种语音识别方法、装置、存储介质及电子设备,其中,本申请实施例接收用户的识别语音数据进行识别,提取该待识别语音数据的第一声纹特征,将该第一声纹特征与预设声纹库中的第二声纹特征进行匹配,以判断该用户是否为已知说话人,如果该用户不是已知说话人,则根据通用语音识别模型对该待识别语音数据进行识别处理,得到识别结果,并且基于该待识别语音数据和第一声纹特征对该通用语音识别模型进行再训练,得到该用户对应的第一语音识别模型,并将该用户的第一声纹特征添加到预设声纹库中,当下次再接收到该用户的语音数据时,可以使用该用户对应的第一语音识别模型对该语音数据进行识别,从而提高了语音识别的准确率。
Description
技术领域
本申请涉及语音识别技术领域,具体涉及一种语音识别方法、装置、存储介质及电子设备。
背景技术
语音识别是一种涵盖了声学与语言学、数学与统计学计算机与人工智能等学科的技术,是人机自然交互技术中的关键环节。通过语音识别技术,来识别说话人说出的语音中的文本内容信息。语音识别技术在多场景有所应用,如电话,手机,应用程序,门禁系统,智能音响,机器人等。
在相关技术中,一般是通过模型训练的方式,预先训练出通用的用于语音识别的语音识别模型,但是在模型的实际应用中,可能由于说话人口音、音色等差别而导致语音识别的准确率较低。
发明内容
本申请实施例提供一种语音识别方法、装置、存储介质及电子设备,能够提高语音识别的准确率。
第一方面,本申请实施例提供一种语音识别方法,包括:
获取用户的待识别语音数据,并提取所述待识别语音数据的第一声纹特征;
基于预设声纹库对所述第一声纹特征进行说话人辨认处理,以确定所述用户是否为已知说话人;
当所述用户不是已知说话人时,根据通用语音识别模型对所述待识别语音数据进行识别处理,得到识别结果;
基于所述待识别语音数据和所述第一声纹特征对所述通用语音识别模型进行再训练,得到所述用户对应的第一语音识别模型;
将所述第一声纹特征添加至所述预设声纹库中。
第二方面,本申请实施例还提供一种语音识别装置,包括:
获取模块,用于获取用户的待识别语音数据,并提取所述待识别语音数据的第一声纹特征;
辨认模块,用于基于预设声纹库对所述第一声纹特征进行说话人辨认处理,以确定所述用户是否为已知说话人;
识别模块,用于当所述用户不是已知说话人时,根据通用语音识别模型对所述待识别语音数据进行识别处理,得到识别结果;
训练模块,用于基于所述待识别语音数据和所述第一声纹特征对所述通用语音识别模型进行再训练,得到所述用户对应的第一语音识别模型;
添加模块,用于将所述第一声纹特征添加至所述预设声纹库中。
第三方面,本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如本申请任一实施例提供的语音识别方法。
第四方面,本申请实施例还提供一种电子设备,包括处理器和存储器,所述存储器有计算机程序,所述处理器通过调用所述计算机程序,用于执行如本申请任一实施例提供的语音识别方法。
本申请实施例提供的技术方案,接收用户的识别语音数据进行识别,提取该待识别语音数据的第一声纹特征,将该第一声纹特征与预设声纹库中的第二声纹特征进行匹配,以判断该用户是否为已知说话人,如果该用户不是已知说话人,则根据通用语音识别模型对该待识别语音数据进行识别处理,得到识别结果,并且基于该待识别语音数据和第一声纹特征对该通用语音识别模型进行再训练,得到该用户对应的第一语音识别模型,并将该用户的第一声纹特征添加到预设声纹库中,当下次再接收到该用户的语音数据时,可以使用该用户对应的第一语音识别模型对该语音数据进行识别,由于该第一语音识别模型的训练过程中结合了该用户的声纹特征,使得可以通过该模型更加准确地对该用户的语音数据进行识别,从而从整体上提高了语音识别的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的语音识别方法的第一种流程示意图。
图2为本申请实施例提供的语音识别装置的结构示意图。
图3为本申请实施例提供的电子设备的第一种结构示意图。
图4为本申请实施例提供的电子设备的第二种结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请的保护范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例提供一种语音识别方法,该语音识别方法的执行主体可以是本申请实施例提供的语音识别装置,或者集成了该语音识别装置的电子设备,其中该语音识别装置可以采用硬件或者软件的方式实现。其中,电子设备可以是智能手机、平板电脑、笔记本电脑等终端设备;或者,电子设备还可以是智能电视、智能音箱、智能冰箱等智能家电设备。
请参阅图1,图1为本申请实施例提供的语音识别方法的第一种流程示意图。本申请实施例提供的语音识别方法的具体流程可以如下:
101、获取用户的待识别语音数据,并提取待识别语音数据的第一声纹特征。
本申请实施例提供的语音识别方法可以应用于具有语音控制或者语音交互功能的终端或者设备,例如,本申请实施例的执行主体可以是智能手机,该智能手机提供有语音助手,该语音助手可以对用户发出的语音指令进行响应。又例如,本申请实施例的执行主体还可以是智能电视,该智能电视设置有语音助手,以实现语音控制功能。这些能够实现语音控制功能的终端或者设备能够将用户发出的语音数据转换为对应的文本数据,继而根据文本数据直至的信息对该语音数据做出响应。
在这个过程中,用户发出的语音指令或者语音信息为待识别语音数据,电子设备可以采用ASR(Automatic Speech Recognition,自动语音识别)技术对该待识别语音数据进行识别,得到对应的文本特征。而相关技术中,采用的ASR算法一般是采用多人语音数据训练得到通用语音识别模型。
而本申请实施例的方案中,考虑到上述所举例的电子设备在应用时,其使用者一般是一个或者多个特定的说话人,或者其使用者在一段时间内一般是一个或者多个特定的说话人。为了提高对这些特定说话人的语音数据的识别准确率。当获取到用户的待识别语音数据后,先获取该待识别语音数据的声纹特征。为了将下文中的预设声纹库中的声纹特征区分开,这里将从待识别语音数据中提取的声纹特征记为第一声纹特征,将预设声纹库中的声纹特征记为第二声纹特征。其中,声纹特征可以是声纹向量,例如,在一实施例中,可以采用i-vector向量提取算法,提取得到i-vector向量来表示声纹特征,其中,i-vector(identity-vector,身份认证向量)是一种基于向量分析的算法。该算法在对说话人语音的向量分析中,通常信道子空间中会包含说话人的信息。i-vector空间用一个低维的总变量空间来表示说话人子空间和信道子空间,将说话人语音通过降维投影到该空间,可得到一个固定长度的矢量表征,即i-vector向量。或者,在其他实施例中,也可以采用其他的声纹提取算法,例如降噪自动编码器、基于卷积神经网络训练得到的声纹提取模型等算法,在此不再一一赘述。
102、基于预设声纹库对第一声纹特征进行说话人辨认处理,以确定用户是否为已知说话人。
其中,预设声纹库中存储的是已知说话人的声纹特征(如声纹向量)。这些声纹特征可以是通过预先录制特定说话人的语音数据并进行声纹提取得到的,也可以是按照下文中的一些实施例提供的方法提取得到的,也就是说,该预设声纹库初始为空,随着电子设备的语音识别功能使用一段时间后,会增加新的声纹特征到该预设声纹库。
例如,电子设备为智能电视,某家庭有多个家庭成员使用该智能电视,该智能电视可以提供添加特定说话人的功能,例如,在添加说话人模式下,录制该说话人的至少一条语音数据,其中,录制的语音数据越多,则可以有越多的样本用来对通用语音模型进行再训练,得到的说话人语音识别模型对该说话人的语音识别的准确度越高。在录制得到该说话人的至少一条语音数据之后,基于这至少一条语音数据对通用语音模型进行再训练,从而微调该模型的参数,其中,在训练该模型时,除了提取声学特征之外,还提取语音数据的声纹特征输入到模型中,从而得到符合该特定说话人的声纹的语音识别模型,为了将该语音识别模型与通用语音识别模型区分开,可以将该语音识别模型记为说话人语音识别模型。在得到该说话人语音识别模型后,将该说话人标记为已知说话人,可以将该说话人的声纹特征添加到预设声纹库中,还可以为该声纹特征添加说话人标识,并且将该说话人对应的说话人语音识别模型添加同样的说话人标记。按照这样的方式,用户可以根据需要预先采集多个说话人的声纹特征,存储到预设声纹库,同时存储该说话人对应的说话人语音识别模型。
在后续的使用过程中,在电子设备获取到用户的待识别语音数据并提取到该待识别语音数据的第一声纹特征后,基于预设声纹库对第一声纹特征进行说话人辨认处理,即判断预设声纹库中是否有与该第一声纹特征匹配的声纹特征。
可以理解的是,在电子设备使用的初始一段时间内,该预设声纹库可能为空,这种情况下,可以直接判定该用户不是已知说话人。
当预设声纹库中没有与该第一声纹特征匹配的声纹特征时,可以判定当前用户不是已知说话人。
其中,在一实施例中,基于预设声纹库对第一声纹特征进行说话人辨认处理,以确定用户是否为已知说话人,包括:对于预设声纹库中的每一第二声纹特征,计算第一声纹特征与第二声纹特征之间的相似度,其中,当有相似度大于或等于预设相似度时,判定用户为已知说话人,当相似度均小于预设相似度时,判定用户不是已知说话人。
例如,第一声纹特征和第二声纹特征均是按照同样的算法提取得到的声纹向量,具有相同的长度,可以通过计算两个声纹向量之间的相似度来判断是否匹配。例如,计算两个声纹向量之间的余弦相似度或者欧式距离等作为两个声纹向量之间的相似度。其中,预设相似度的值可以根据对精确度的要求等用户需求来设置。
当有第二声纹特征与该第一声纹特征之间的相似度大于预设相似度时,可以判定该用户为已知说话人,并且是与该第一声纹特征之间的相似度大于预设相似度的第二声纹特征对应的说话人,一般情况下,设置合适的预设相似度之后,当有第二声纹特征与该第一声纹特征之间的相似度大于预设相似度时,只会有一个这样的第二声纹特征。可以理解的是,如果出现多个第二声纹特征与该第一声纹特征之间的相似度大于预设相似度,则选择相似度最大的第二声纹特征作为目标声纹特征,将用户确定为该目标声纹特征对应的已知说话人。
反之,如果预设声纹库中的第二声纹特征与第一声纹特征之间的相似度均小于预设相似度,则说明当前用户是新的说话人,不是任何一个已知说话人。
103、当用户不是已知说话人时,根据通用语音识别模型对待识别语音数据进行识别处理,得到识别结果。
如果当前的用户不是已知说话人,则根据通用的语音识别模型对该待识别语音数据进行识别处理,得到识别结果,这里的识别结果一般是对应的文本数据。
可以理解的是,在一些实施例中,基于预设声纹库对第一声纹特征进行说话人辨认处理,以确定用户是否为已知说话人之后,该方法还包括:当用户是已知说话人时,确定与第一声纹特征匹配的第二声纹特征对应的已知说话人,并确定已知说话人的第二语音识别模型;根据第二语音识别模型对待识别语音数据进行识别处理,得到识别结果。
如果当前的用户是已知说话人,则可以确定出预设声纹库中与该第一声纹特征匹配的第二声纹特征,确定方式参见上文。从而确定与该第一声纹特征匹配的第二声纹特征对应的已知说话人,例如获取该第二声纹特征携带的说话人标识,进而确定该说话人标识对应的第二语音识别模型。上文中对已知说话人的说话人语音识别模型已有介绍,该第二语音识别模型就是该说话人对应的说话人语音识别模型。然后,根据第二语音识别模型对待识别语音数据进行识别处理,得到识别结果。
104、基于待识别语音数据和第一声纹特征对通用语音识别模型进行再训练,得到用户对应的第一语音识别模型。
105、将第一声纹特征添加至预设声纹库中。
该通用语音识别模型是在部署到电子设备之前已经过多人数据训练得到的模型,可以用于对语音数据进行直接识别。判定该用户不是已知说话人之后,可以使用待识别语音数据和第一声纹特征对通用语音识别模型进行再训练,这里的再训练是指对模型参数进行微调,使该模型学习该用户的、区分于其他说话人的特征,从而得到该用户对应的说话人语音识别模型,记为第一语音识别模型。
此外,可以理解的是,当属于同一个说话人的样本语音数据越多,则再训练得到的说话人语音识别模型的准确度越高。因此,其中,在一些实施例中,基于待识别语音数据和第一声纹特征对通用语音识别模型进行再训练,得到用户对应的第一语音识别模型的步骤包括:将待识别语音数据作为样本语音数据添加至样本库;对样本库中的样本语音数据进行聚类处理,得到至少一个样本语音数据集合;从至少一个样本语音数据集合中确定出待识别语音数据所在的目标样本语音数据集合;当目标样本语音数据集合中的样本语音数据的数量大于预设数量时,根据目标样本语音数据集合对通用语音识别模型进行再训练,得到用户对应的第一语音识别模型。
该实施例中,当判定当前的用户不是已知说话人时,先将该待识别语音数据添加到样本库,然后对样本库中的样本语音数据进行聚类处理,得到至少一个样本语音数据集合。例如,获取样本库中的样本语音数据的第一声纹特征;基于对应的第一声纹特征对样本语音数据进行聚类处理,得到至少一个样本语音数据集合。对于同一个说话人来说,即使是不同的语音数据,提取得到的声纹特征也是相同或者高度相似的,因此,在不确定样本库中的语音数据对应哪些说话人的情况下,对这些样本语音数据进行聚类处理,可以将这些样本语音数据中属于同一个说话人的分为一类,基于此,可以得到待识别语音数据所在的目标样本语音数据集合。若该集合中的样本语音数量大于预设数量,则基于该目标样本语音数据集合对通用语音识别模型进行再训练,得到用户对应的第一语音识别模型。其中,预设数量的值可以根据需要设置,例如,预设数量为20-30。
其中,在一些实施例中,将该待识别语音数据添加到样本库之后,确定该样本库中的样本语音数据的数量,当样本库中的样本语音数据的数量大于预设数量时,执行对样本库中的样本语音数据进行聚类处理,得到至少一个样本语音数据集合。因为,当样本库中的样本语音数据的数量不大于预设数量时,目标样本语音数据集合中的样本语音数据的数量必然不大于该预设数量。
其中,在一些实施例中,根据目标样本语音数据集合对通用语音识别模型进行再训练,得到用户对应的第一语音识别模型的步骤包括:对于目标样本语音数据集合中的每一样本语音数据,获取样本语音数据对应的文本内容;提取样本语音数据的声学特征,并将样本语音数据的第三声纹特征与声学特征进行融合处理,得到融合声学特征;根据融合声学特征和文本内容对通用语音识别模型进行再训练,直至模型收敛,得到用户对应的第一语音识别模型。
该实施例中,在使用目标样本语音数据集合对通用语音识别模型进行再训练时,提取每一样本语音数据的声学特征和第三声纹特征,将样本语音数据的第三声纹特征与声学特征进行融合处理,得到融合声学特征。根据融合声学特征,以及样本语音数据对应的文本内容对通用语音识别模型进行再训练,直至模型收敛,得到用户对应的第一语音识别模型。其中,模型收敛的条件可以是迭代次数达到预设次数等。
其中,在一些实施例中,基于待识别语音数据和第一声纹特征对通用语音识别模型进行再训练,得到用户对应的第一语音识别模型之前,该方法还包括:对待识别语音数据进行质量评价,得到待识别语音数据的质量评分;当质量评分大于预设分数时,执行基于待识别语音数据和第一声纹特征对通用语音识别模型进行再训练,得到用户对应的第一语音识别模型的步骤。
该实施例中,在基于待识别语音数据和第一声纹特征对通用语音识别模型进行再训练之前,先对该待识别语音数据进行质量评价,得到待识别语音数据的质量评分,当该质量评分大于预设分数,也就是说,当该待识别语音数据的质量达到可用标准时,基于待识别语音数据和第一声纹特征对通用语音识别模型进行再训练。其中,可以采用xgboost方法训练预先构建的卷积神经网络,得到质量评分模型。其中,该模型包括多个全连接层,每一个全连接层对应于一个评分维度,包括但不限于声音大小、音质好坏、背噪情况等,该多个全连接层输出的多个维度的评分,经过该模型的输出层的加权平均,得到待识别语音数据的质量评分。
通过本申请实施例的方案,动态地构建了声纹库,并且对于该声纹库中每一个声纹特征对应的说话人,都可以将其标记为已知说话人,并训练得到该已知说话人专用的说话人语音识别模型,从而对于不同的说话人来说,随着对电子设备的使用次数的增加,可以构建自己专属的语音识别模型,相对于通用语音识别模型来说,该说话人专用的说话人语音识别模型对该说话人的语音数据具有更高的识别准确率。基于此,本申请从整体上提高了语音识别的准确率。
具体实施时,本申请不受所描述的各个步骤的执行顺序的限制,在不产生冲突的情况下,某些步骤还可以采用其它顺序进行或者同时进行。
由上可知,本申请实施例提供的语音识别方法,接收用户的识别语音数据进行识别,提取该待识别语音数据的第一声纹特征,将该第一声纹特征与预设声纹库中的第二声纹特征进行匹配,以判断该用户是否为已知说话人,如果该用户不是已知说话人,则根据通用语音识别模型对该待识别语音数据进行识别处理,得到识别结果,并且基于该待识别语音数据和第一声纹特征对该通用语音识别模型进行再训练,得到该用户对应的第一语音识别模型,并将该用户的第一声纹特征添加到预设声纹库中,当下次再接收到该用户的语音数据时,可以使用该用户对应的第一语音识别模型对该语音数据进行识别,由于该第一语音识别模型的训练过程中结合了该用户的声纹特征,使得可以通过该模型更加准确地对该用户的语音数据进行识别,从而从整体上提高了语音识别的准确率。
在一实施例中还提供一种语音识别装置。请参阅图2,图2为本申请实施例提供的语音识别装置300的结构示意图。其中该语音识别装置300应用于电子设备,该语音识别装置300包括:
获取模块301,用于获取用户的待识别语音数据,并提取所述待识别语音数据的第一声纹特征;
辨认模块302,用于基于预设声纹库对所述第一声纹特征进行说话人辨认处理,以确定所述用户是否为已知说话人;
识别模块303,用于当所述用户不是已知说话人时,根据通用语音识别模型对所述待识别语音数据进行识别处理,得到识别结果;
训练模块304,用于基于所述待识别语音数据和所述第一声纹特征对所述通用语音识别模型进行再训练,得到所述用户对应的第一语音识别模型;
添加模块305,用于将所述第一声纹特征添加至所述预设声纹库中。
在一些实施例中,训练模块304还用于:将所述待识别语音数据作为样本语音数据添加至样本库;对所述样本库中的样本语音数据进行聚类处理,得到至少一个样本语音数据集合;从所述至少一个样本语音数据集合中确定出所述待识别语音数据所在的目标样本语音数据集合;以及,当所述目标样本语音数据集合中的样本语音数据的数量大于预设数量时,根据所述目标样本语音数据集合对所述通用语音识别模型进行再训练,得到所述用户对应的第一语音识别模型。
在一些实施例中,训练模块304还用于:获取所述样本库中的样本语音数据的第一声纹特征;以及,基于对应的第一声纹特征对所述样本语音数据进行聚类处理,得到至少一个样本语音数据集合。
在一些实施例中,训练模块304还用于:对于所述目标样本语音数据集合中的每一样本语音数据,获取所述样本语音数据对应的文本内容;提取所述样本语音数据的声学特征,并将所述样本语音数据的第三声纹特征与所述声学特征进行融合处理,得到融合声学特征;以及,根据所述融合声学特征和所述文本内容对所述通用语音识别模型进行再训练,直至模型收敛,得到所述用户对应的第一语音识别模型。
在一些实施例中,辨认模块302还用于:对于所述预设声纹库中的每一第二声纹特征,计算所述第一声纹特征与所述第二声纹特征之间的相似度,其中,当有所述相似度大于或等于预设相似度时,判定所述用户为已知说话人,当所述相似度均小于所述预设相似度时,判定所述用户不是已知说话人。
在一些实施例中,识别模块303还用于:当所述用户是已知说话人时,确定与所述第一声纹特征匹配的第二声纹特征对应的已知说话人,并确定所述已知说话人的第二语音识别模型;以及,根据所述第二语音识别模型对所述待识别语音数据进行识别处理,得到识别结果。
在一些实施例中,训练模块304还用于:对所述待识别语音数据进行质量评价,得到所述待识别语音数据的质量评分;当所述质量评分大于预设分数时,执行基于所述待识别语音数据和所述第一声纹特征对所述通用语音识别模型进行再训练,得到所述用户对应的第一语音识别模型的步骤。
应当说明的是,本申请实施例提供的语音识别装置与上文实施例中的语音识别方法属于同一构思,通过该语音识别装置可以实现语音识别方法实施例中提供的任一方法,其具体实现过程详见语音识别方法实施例,此处不再赘述。
由上可知,本申请实施例提出的语音识别装置,接收用户的识别语音数据进行识别,提取该待识别语音数据的第一声纹特征,将该第一声纹特征与预设声纹库中的第二声纹特征进行匹配,以判断该用户是否为已知说话人,如果该用户不是已知说话人,则根据通用语音识别模型对该待识别语音数据进行识别处理,得到识别结果,并且基于该待识别语音数据和第一声纹特征对该通用语音识别模型进行再训练,得到该用户对应的第一语音识别模型,并将该用户的第一声纹特征添加到预设声纹库中,当下次再接收到该用户的语音数据时,可以使用该用户对应的第一语音识别模型对该语音数据进行识别,由于该第一语音识别模型的训练过程中结合了该用户的声纹特征,使得可以通过该模型更加准确地对该用户的语音数据进行识别,从而从整体上提高了语音识别的准确率。
本申请实施例还提供一种电子设备。所述电子设备可以是智能手机、平板电脑等设备。请参阅图3,图3为本申请实施例提供的电子设备的第一种结构示意图。电子设备400包括处理器401和存储器402。其中,处理器401与存储器402电性连接。
处理器401是电子设备400的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或调用存储在存储器402内的计算机程序,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。
存储器402可用于存储计算机程序和数据。存储器402存储的计算机程序中包含有可在处理器中执行的指令。计算机程序可以组成各种功能模块。处理器401通过调用存储在存储器402的计算机程序,从而执行各种功能应用以及数据处理。
在本实施例中,电子设备400中的处理器401会按照如下的步骤,将一个或一个以上的计算机程序的进程对应的指令加载到存储器402中,并由处理器401来运行存储在存储器402中的计算机程序,从而实现各种功能:
获取用户的待识别语音数据,并提取所述待识别语音数据的第一声纹特征;
基于预设声纹库对所述第一声纹特征进行说话人辨认处理,以确定所述用户是否为已知说话人;
当所述用户不是已知说话人时,根据通用语音识别模型对所述待识别语音数据进行识别处理,得到识别结果;
基于所述待识别语音数据和所述第一声纹特征对所述通用语音识别模型进行再训练,得到所述用户对应的第一语音识别模型;
将所述第一声纹特征添加至所述预设声纹库中。
在一些实施例中,请参阅图4,图4为本申请实施例提供的电子设备的第二种结构示意图。电子设备400还包括:射频电路403、显示屏404、控制电路405、输入单元406、音频电路407、传感器408以及电源409。其中,处理器401分别与射频电路403、显示屏404、控制电路405、输入单元406、音频电路407、传感器408以及电源409电性连接。
射频电路403用于收发射频信号,以通过无线通信与网络设备或其他电子设备进行通信。
显示屏404可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口,这些图形用户接口可以由图像、文本、图标、视频和其任意组合来构成。
控制电路405与显示屏404电性连接,用于控制显示屏404显示信息。
输入单元406可用于接收输入的数字、字符信息或用户特征信息(例如指纹),以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。其中,输入单元406可以包括指纹识别模组。
音频电路407可通过扬声器、传声器提供用户与电子设备之间的音频接口。其中,音频电路407包括麦克风。所述麦克风与所述处理器401电性连接。所述麦克风用于接收用户输入的语音数据。
传感器408用于采集外部环境信息。传感器408可以包括环境亮度传感器、加速度传感器、陀螺仪等传感器中的一种或多种。
电源409用于给电子设备400的各个部件供电。在一些实施例中,电源409可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
虽然图中未示出,电子设备400还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本实施例中,电子设备400中的处理器401会按照如下的步骤,将一个或一个以上的计算机程序的进程对应的指令加载到存储器402中,并由处理器401来运行存储在存储器402中的计算机程序,从而实现各种功能:
获取用户的待识别语音数据,并提取所述待识别语音数据的第一声纹特征;
基于预设声纹库对所述第一声纹特征进行说话人辨认处理,以确定所述用户是否为已知说话人;
当所述用户不是已知说话人时,根据通用语音识别模型对所述待识别语音数据进行识别处理,得到识别结果;
基于所述待识别语音数据和所述第一声纹特征对所述通用语音识别模型进行再训练,得到所述用户对应的第一语音识别模型;
将所述第一声纹特征添加至所述预设声纹库中。
由上可知,本申请实施例提供了一种电子设备,所述电子设备接收用户的识别语音数据进行识别,提取该待识别语音数据的第一声纹特征,将该第一声纹特征与预设声纹库中的第二声纹特征进行匹配,以判断该用户是否为已知说话人,如果该用户不是已知说话人,则根据通用语音识别模型对该待识别语音数据进行识别处理,得到识别结果,并且基于该待识别语音数据和第一声纹特征对该通用语音识别模型进行再训练,得到该用户对应的第一语音识别模型,并将该用户的第一声纹特征添加到预设声纹库中,当下次再接收到该用户的语音数据时,可以使用该用户对应的第一语音识别模型对该语音数据进行识别,由于该第一语音识别模型的训练过程中结合了该用户的声纹特征,使得可以通过该模型更加准确地对该用户的语音数据进行识别,从而从整体上提高了语音识别的准确率。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,所述计算机执行上述任一实施例所述的语音识别方法。
需要说明的是,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成,所述计算机程序可以存储于计算机可读存储介质中,所述计算机可读存储介质可以包括但不限于:只读存储器(ROM,ReadOnly Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
此外,本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是某些实施例还包括没有列出的步骤或模块,或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
以上对本申请实施例所提供的语音识别方法、装置、存储介质及电子设备进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种语音识别方法,其特征在于,包括:
获取用户的待识别语音数据,并提取所述待识别语音数据的第一声纹特征;
基于预设声纹库对所述第一声纹特征进行说话人辨认处理,以确定所述用户是否为已知说话人;
当所述用户不是已知说话人时,根据通用语音识别模型对所述待识别语音数据进行识别处理,得到识别结果;
基于所述待识别语音数据和所述第一声纹特征对所述通用语音识别模型进行再训练,得到所述用户对应的第一语音识别模型;
将所述第一声纹特征添加至所述预设声纹库中。
2.如权利要求1所述的方法,其特征在于,所述基于所述待识别语音数据和所述第一声纹特征对所述通用语音识别模型进行再训练,得到所述用户对应的第一语音识别模型,包括:
将所述待识别语音数据作为样本语音数据添加至样本库;
对所述样本库中的样本语音数据进行聚类处理,得到至少一个样本语音数据集合;
从所述至少一个样本语音数据集合中确定出所述待识别语音数据所在的目标样本语音数据集合;
当所述目标样本语音数据集合中的样本语音数据的数量大于预设数量时,根据所述目标样本语音数据集合对所述通用语音识别模型进行再训练,得到所述用户对应的第一语音识别模型。
3.如权利要求2所述的方法,其特征在于,所述对所述样本库中的样本语音数据进行聚类处理,得到至少一个样本语音数据集合,包括:
获取所述样本库中的样本语音数据的第一声纹特征;
基于对应的第一声纹特征对所述样本语音数据进行聚类处理,得到至少一个样本语音数据集合。
4.如权利要求2所述的方法,其特征在于,所述当所述目标样本语音数据集合中的样本语音数据的数量大于预设数量时,根据所述目标样本语音数据集合对所述通用语音识别模型进行再训练,得到所述用户对应的第一语音识别模型,包括:
对于所述目标样本语音数据集合中的每一样本语音数据,获取所述样本语音数据对应的文本内容;
提取所述样本语音数据的声学特征,并将所述样本语音数据的第三声纹特征与所述声学特征进行融合处理,得到融合声学特征;
根据所述融合声学特征和所述文本内容对所述通用语音识别模型进行再训练,直至模型收敛,得到所述用户对应的第一语音识别模型。
5.如权利要求1所述的方法,其特征在于,所述基于预设声纹库对所述第一声纹特征进行说话人辨认处理,以确定所述用户是否为已知说话人,包括:
对于所述预设声纹库中的每一第二声纹特征,计算所述第一声纹特征与所述第二声纹特征之间的相似度,其中,当有所述相似度大于或等于预设相似度时,判定所述用户为已知说话人,当所述相似度均小于所述预设相似度时,判定所述用户不是已知说话人。
6.如权利要求5所述的方法,其特征在于,所述基于预设声纹库对所述第一声纹特征进行说话人辨认处理,以确定所述用户是否为已知说话人之后,所述方法还包括:
当所述用户是已知说话人时,确定与所述第一声纹特征匹配的第二声纹特征对应的已知说话人,并确定所述已知说话人的第二语音识别模型;
根据所述第二语音识别模型对所述待识别语音数据进行识别处理,得到识别结果。
7.如权利要求1至6任一项所述的方法,其特征在于,所述基于所述待识别语音数据和所述第一声纹特征对所述通用语音识别模型进行再训练,得到所述用户对应的第一语音识别模型之前,所述方法还包括:
对所述待识别语音数据进行质量评价,得到所述待识别语音数据的质量评分;
当所述质量评分大于预设分数时,执行基于所述待识别语音数据和所述第一声纹特征对所述通用语音识别模型进行再训练,得到所述用户对应的第一语音识别模型的步骤。
8.一种语音识别装置,其特征在于,包括:
获取模块,用于获取用户的待识别语音数据,并提取所述待识别语音数据的第一声纹特征;
辨认模块,用于基于预设声纹库对所述第一声纹特征进行说话人辨认处理,以确定所述用户是否为已知说话人;
识别模块,用于当所述用户不是已知说话人时,根据通用语音识别模型对所述待识别语音数据进行识别处理,得到识别结果;
训练模块,用于基于所述待识别语音数据和所述第一声纹特征对所述通用语音识别模型进行再训练,得到所述用户对应的第一语音识别模型;
添加模块,用于将所述第一声纹特征添加至所述预设声纹库中。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至7任一项所述的语音识别方法。
10.一种电子设备,包括处理器和存储器,所述存储器存储有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,用于执行如权利要求1至7任一项所述的语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211168152.3A CN115579012A (zh) | 2022-09-23 | 2022-09-23 | 语音识别方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211168152.3A CN115579012A (zh) | 2022-09-23 | 2022-09-23 | 语音识别方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115579012A true CN115579012A (zh) | 2023-01-06 |
Family
ID=84581544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211168152.3A Pending CN115579012A (zh) | 2022-09-23 | 2022-09-23 | 语音识别方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115579012A (zh) |
-
2022
- 2022-09-23 CN CN202211168152.3A patent/CN115579012A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110853618B (zh) | 一种语种识别的方法、模型训练的方法、装置及设备 | |
CN108874967B (zh) | 对话状态确定方法及装置、对话系统、终端、存储介质 | |
CN107147618B (zh) | 一种用户注册方法、装置及电子设备 | |
CN108346427A (zh) | 一种语音识别方法、装置、设备及存储介质 | |
CN109903773B (zh) | 音频处理方法、装置及存储介质 | |
CN110853617B (zh) | 一种模型训练的方法、语种识别的方法、装置及设备 | |
CN108701453A (zh) | 模块化深度学习模型 | |
CN107481718A (zh) | 语音识别方法、装置、存储介质及电子设备 | |
CN110570840B (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
CN108962241B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
CN111045639A (zh) | 语音输入方法、装置、电子设备及存储介质 | |
CN111833872B (zh) | 对电梯的语音控制方法、装置、设备、系统及介质 | |
CN111581958A (zh) | 对话状态确定方法、装置、计算机设备及存储介质 | |
CN114333774B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN110858479B (zh) | 语音识别模型更新方法、装置、存储介质及电子设备 | |
CN111796926A (zh) | 指令执行方法、装置、存储介质及电子设备 | |
KR20210001082A (ko) | 사용자 발화를 처리하는 전자 장치와 그 동작 방법 | |
CN112735388B (zh) | 网络模型训练方法、语音识别处理方法及相关设备 | |
CN114691839A (zh) | 一种意图槽位识别方法 | |
CN111816211B (zh) | 情绪识别方法、装置、存储介质及电子设备 | |
CN115798459B (zh) | 音频处理方法、装置、存储介质及电子设备 | |
CN108989551B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
CN109064720B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
US20220358918A1 (en) | Server for identifying false wakeup and method for controlling the same | |
CN115579012A (zh) | 语音识别方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |