CN114420109A - 语音性别联合识别方法、装置、电子设备及存储介质 - Google Patents
语音性别联合识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114420109A CN114420109A CN202210308617.4A CN202210308617A CN114420109A CN 114420109 A CN114420109 A CN 114420109A CN 202210308617 A CN202210308617 A CN 202210308617A CN 114420109 A CN114420109 A CN 114420109A
- Authority
- CN
- China
- Prior art keywords
- gender
- joint
- voice
- recognition
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 107
- 238000012549 training Methods 0.000 claims abstract description 176
- 230000008569 process Effects 0.000 claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 27
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000008451 emotion Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种语音性别联合识别方法、装置、电子设备及存储介质,所述方法包括:获取待识别的语音数据;基于所述待识别的语音数据和语音性别联合识别模型,获得语音性别联合识别结果;其中,所述语音性别联合识别模型为预先基于联合训练集和联合网络算法训练得到的。本方法有效地将性别识别和语音识别进行了信息互补,以在此情况下进行待识别数据的识别,相当于同步进行性别识别和语音识别,以及为语音识别过程中增添了性别识别信息,同时为性别识别过程附加了语音中包含的文字内容,能够从整体上有效提升语音识别的准确率。
Description
技术领域
本发明涉及信息识别技术领域,尤其涉及一种语音性别联合识别方法、装置、电子设备及存储介质。
背景技术
随着科技发展,人工智能产品在生活中的渗透率越来越高,语音识别作为人机交互的基本技术,其在智能家居、智能汽车、智能客服等场景下均有着广阔的应用。在智能客服场景的实际应用中,通常的主要业务模式为语音转文字、语义理解、话术生成、用户画像等,而识别客户性别也非常重要,因为识别客户性别可以在语音识别之外做能力补充,以辅助于智能客服系统更好地完成上述各项主要业务。
现有相关技术中,性别识别任务通常是语音识别任务之外的另一个独立的任务,具体方法是从语音样本中提取MFCC或FBANK特征,结合相关方法进行性别分类,性别分类一般采用按帧分类加后处理的two-stage方案或整句分类方案。上述性别识别任务完全独立于语音识别任务,使得两项任务之间信息孤立而不互通,并且在任务部署时还需额外部署性别识别模型资源,费时费力。
发明内容
本发明提供一种语音性别联合识别方法、装置、电子设备及存储介质,用以解决现有技术中性别识别任务和语音识别任务相互独立、信息孤立且模型资源浪费的缺陷,实现在性别识别和语音识别信息互补的情况下进行语音识别。
本发明提供一种语音性别联合识别方法,包括:
获取待识别的语音数据;
基于所述待识别的语音数据和语音性别联合识别模型,获得语音性别联合识别结果;
其中,所述语音性别联合识别模型为预先基于联合训练集和联合网络算法训练得到的。
根据本发明提供的一种语音性别联合识别方法,所述语音性别联合识别模型的训练过程包括:
获取语音性别联合训练数据样本,以作为联合训练集;
基于所述联合网络算法中的语音识别网络对所述联合训练集进行学习训练,以获得注重内容式识别结果;
基于所述联合网络算法中的性别识别网络对所述联合训练集与所述注重内容式识别结果进行学习训练,以获得注重性别式识别结果;
基于所述注重内容式识别结果和所述注重性别式识别结果,获得语音性别联合识别结果;
基于语音性别联合识别结果获得所述语音性别联合识别模型。
根据本发明提供的一种语音性别联合识别方法,所述基于所述联合网络算法中的性别识别网络对所述联合训练集与所述注重内容式识别结果进行学习训练,以获得注重性别式识别结果,包括:
将所述注重内容式识别结果与所述联合训练集进行匹配,获得内容匹配数据;
选取所述联合训练集中除所述内容匹配数据以外的数据,以作为联合训练子集;
基于所述性别识别网络对所述联合训练子集进行学习训练,以获得注重性别式识别结果。
根据本发明提供的一种语音性别联合识别方法,所述联合训练集的获取过程包括:
获取若干语音识别数据样本,以作为第一训练集;
获取若干性别识别数据样本,以作为第二训练集;
基于所述第二训练集和整句分类法,获得所述性别识别网络;
基于所述第一训练集和所述性别识别网络,获得第三训练集;
将所述第二训练集和所述第三训练集进行融合,以获得所述联合训练集。
根据本发明提供的一种语音性别联合识别方法,所述基于所述第一训练集和所述性别识别网络,获得第三训练集,包括:
从所述第一训练集中随机选取若干语音识别数据样本;
基于所述性别识别网络对所选取的语音识别数据样本进行性别识别及分类处理,以获得分类数据样本;
从所述分类数据样本中筛选分类置信度大于等于预设置信度值的分类数据样本,以作为第三训练集。
根据本发明提供的一种语音性别联合识别方法,所述方法还包括:
基于所述语音性别联合识别结果对所述语音性别联合识别模型进行动态更新。
根据本发明提供的一种语音性别联合识别方法,所述待识别的语音数据为数据流形式,以使所述语音性别联合识别模型对所述待识别的语音数据进行流式计算。
本发明还提供一种语音性别联合识别装置,包括:
获取模块,用于获取待识别的语音数据;
识别模块,用于基于所述待识别的语音数据和语音性别联合识别模型,获得语音性别联合识别结果;
其中,所述语音性别联合识别模型为预先基于联合训练集和联合网络算法训练得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音性别联合识别方法的全部或部分步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音性别联合识别方法的全部或部分步骤。
本发明提供一种语音性别联合识别方法、装置、电子设备及存储介质,所述方法通过获取待识别的语音数据,再基于预先训练好的语音性别联合识别模型对所述待识别的语音数据进行识别,以获得语音性别联合识别结果,其有效地将性别识别和语音识别进行了信息互补,以在此情况下进行待识别数据的识别,相当于同步进行性别识别和语音识别,以及为语音识别过程中增添了性别识别信息,同时为性别识别过程附加了语音中包含的文字内容,能够从整体上有效提升语音识别的准确率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的语音性别联合识别方法的流程示意图之一;
图2是本发明提供的语音性别联合识别方法中语音性别联合识别模型的训练过程流程图之一;
图3是本发明提供的语音性别联合识别方法中联合识别模型逻辑框架图;
图4是本发明提供的语音性别联合识别方法中语音性别联合识别模型的训练过程流程图之二;
图5是本发明提供的语音性别联合识别方法中联合训练集的获取过程流程图之一;
图6是本发明提供的语音性别联合识别方法中联合训练集的获取过程流程图之二;
图7是本发明提供的语音性别联合识别方法的流程示意图之二;
图8是本发明提供的语音性别联合识别装置的结构示意图;
图9是本发明提供的电子设备的结构示意图。
附图标记:
810:获取模块;820:识别模块;
910:处理器;920:通信接口;930:存储器;940:通信总线。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图9详细描述本发明所提供的一种语音性别联合识别方法、装置、电子设备及存储介质。
本发明提供一种语音性别联合识别方法,包括以下步骤:
110、获取待识别的语音数据。
在只能客服等需要人机交互的语音识别场景,利用语音采集设备采集当前待识别的语音数据。
120、基于所述待识别的语音数据和语音性别联合识别模型,获得语音性别联合识别结果。
其中,所述语音性别联合识别模型为预先基于联合训练集和联合网络算法训练得到的。
基于语音内容识别和语音性别识别等不同识别目的预先形成语音和性别识别的联合训练集,并且还可以基于语音内容识别的网络算法和语音性别识别的网络算法预先形成联合网络算法。然后可以基于上述的联合训练集和联合网络算法进行机器学习训练,以预先获得语音性别联合识别模型。
进而利用上述预先获得的语音性别联合识别模型对上述采集的当前待识别的语音数据进行识别处理,获得相应的语音性别联合识别结果。
本发明提供一种语音性别联合识别方法,通过获取待识别的语音数据,再基于预先训练好的语音性别联合识别模型对所述待识别的语音数据进行识别,以获得语音性别联合识别结果,其有效地将性别识别和语音识别进行了信息互补,以在此情况下进行待识别数据的识别,相当于同步进行性别识别和语音识别,以及为语音识别过程中增添了性别识别信息,同时为性别识别过程附加了语音中包含的文字内容,能够从整体上有效提升语音识别的准确率。
根据本发明提供的一种语音性别联合识别方法,图2是本发明提供的语音性别联合识别方法中语音性别联合识别模型的训练过程流程图之一,如图2所示,所述语音性别联合识别模型的训练过程包括以下步骤:
210、获取语音性别联合训练数据样本,以作为联合训练集。
语音性别联合训练数据样本是指语音内容以及说话人性别均已知晓的数据样本,采集大量语音性别联合训练数据样本作为联合训练集。当然,所述联合训练集既可以是直接采集获得,也可以使分别采集语音内容样本数据和语音性别样本数据后进行相应整合处理而获得。
220、基于所述联合网络算法中的语音识别网络对所述联合训练集进行学习训练,以获得注重内容式识别结果。
联合网络算法中既包括基于注意力机制的注重语音内容的语音识别网络,又包括基于注意力机制的注重语音性别的性别识别网络,两个识别网络相互配合工作。当以语音识别网络对所述联合训练集进行学习训练时,相应获得注重内容式识别结果。注重内容式识别结果则是指在识别出的结果中更加关注说话的具体内容,而会自动忽略其语音音频中的噪音、情绪、性别、语调等其他因素。
230、基于所述联合网络算法中的性别识别网络对所述联合训练集与所述注重内容式识别结果进行学习训练,以获得注重性别式识别结果。
同样的,当以性别识别网络进行学习训练时,相应获得注重性别式识别结果。注重性别式识别结果则是指在识别出的结果中更加关注说话人的性别,而会自动忽略其语音音频中的噪音、情绪、内容、语调等其他因素。而进一步说明的是,需要性别识别网络对联合训练集和所述注重内容式识别结果这两类数据综合进行处理,以进行深度的学习训练,最终获得注重性别式识别结果。两类数据综合进行处理是有益处的,若性别识别网络单独对注重内容式识别结果进行进一步处理,则受语音识别网络注重内容的影响,其所识别出的结果中已经忽略了语音音频中的性别等等信息,如此继续进行性别识别,势必识别的性别不够精准。而若仅对联合训练集进行学习训练,则仅能识别出性别信息,而又无法实现语音内容识别和性别识别的信息互补,如此则成为了现有的单纯语音性别识别的过程。因此,只有对两类数据综合进行处理,才能实现语音内容识别和性别识别之间的信息互补。本方法同步进行性别识别和语音识别,一方面为语音识别过程中增添了性别识别信息,同时为性别识别过程附加了语音音频中包含的文字内容,使性别识别过程更加关注于语音音频中所包含的性别信息,也有效提升性别识别的结果,能够从整体上有效提升语音识别的准确率。
240、基于所述注重内容式识别结果和所述注重性别式识别结果,获得语音性别联合识别结果。
基于所述注重内容式识别结果和经过对两类数据综合处理之后获得的注重性别式识别结果,最终获得语音性别联合识别结果,既能识别到语音内容又能识别出性别,从而提升整体的识别准确率。
250、基于语音性别联合识别结果获得所述语音性别联合识别模型。
重复进行上述各步骤,获得多个语音性别联合识别结果,由所述多个语音性别联合识别结果共同组成语音性别联合识别模型。
另外,图3是本发明提供的语音性别联合识别方法中联合识别模型逻辑框架图,再结合图3所示,首先获取语音性别联合训练数据样本,以作为联合训练集。将所述联合训练集按箭头①的流向输入至所述联合网络算法中的语音识别网络net1中进行学习训练,以获得注重内容式识别结果。同时还将所述联合训练集按箭头①的流向输入至所述联合网络算法中的性别识别网络net2中。再将语音识别网络net1所输出的注重内容式识别结果按箭头②的流向输入至所述联合网络算法中的性别识别网络net2中。所述联合训练集和所述注重内容式识别结果共同作为性别识别网络net2的输入,基于所述性别识别网络net2对二者进行学习训练,以获得注重性别式识别结果。
再基于所述注重内容式识别结果按箭头②的流向和所述注重性别式识别结果按箭头③的流向,将二者作为整体进行输出,以获得语音性别联合识别结果。
上述各个步骤综合作为所述语音性别联合识别模型的训练过程,进而获得所述语音性别联合识别模型,并可将所述语音性别联合识别模型用于待识别语音数据的有效识别。比如直接将联合训练集输入至所述语音性别联合识别模型,即可获得所述语音性别联合识别结果。
根据本发明提供的一种语音性别联合识别方法,图4是本发明提供的语音性别联合识别方法中语音性别联合识别模型的训练过程流程图之二,如图4所示,在图2所示训练过程的基础上,其步骤230、基于所述联合网络算法中的性别识别网络对所述联合训练集与所述注重内容式识别结果进行学习训练,以获得注重性别式识别结果,进一步包括以下子步骤:
231、将所述注重内容式识别结果与所述联合训练集进行匹配,获得内容匹配数据。
将所述注重内容式识别结果与所述联合训练集进行匹配处理即从所述联合训练集中找出于注重内容式识别结果所注重的内容相同的数据段,以作为内容匹配数据。
232、选取所述联合训练集中除所述内容匹配数据以外的数据,以作为联合训练子集。
再从所述联合训练集中,选取除所述内容匹配数据以外的数据,即排除仅注重内容所带来的干扰之后的数据,以作为联合训练子集。
233、基于所述性别识别网络对所述联合训练子集进行学习训练,以获得注重性别式识别结果。
最后利用性别识别网络对该联合训练子集进行深度学习训练,最终获得注重性别式识别结果。
所述联合训练集和所述注重内容式识别结果共同作为性别识别网络net2的输入,基于所述性别识别网络net2对二者进行学习训练,以获得注重性别式识别结果,该过程具体包括:将所述注重内容式识别结果与所述联合训练集进行匹配,获得内容匹配数据;选取所述联合训练集中除所述内容匹配数据以外的数据,以作为联合训练子集;基于所述性别识别网络对所述联合训练子集进行学习训练,以获得注重性别式识别结果。
其中,所述联合训练集和所述注重内容式识别结果共同作为性别识别网络net2的输入的过程,可以这样理解:所述联合训练集和所述注重内容式识别结果在数据形式上进行拼接,共同作为性别识别网络net2的输入,而其实际的物理意义为:所述注重内容式识别结果的主要信息是文字内容(由于语音识别网络默认是结合了注意力机制,导致其识别结果更注重文字内容),而所述联合训练集则含有音频的所有信息,包括文字内容、性别信息,甚至还包括情绪信息、语调信息、音量信息、噪音信息等等,故而在用所述联合训练集和所述注重内容式识别结果共同作为性别识别网络net2的输入时,是让性别识别网络net2自动学习所述联合训练集中与音频的文字内容无关的信息,也是学习二者之间的区别。还可以理解为是在学习目标为性别(男/女)的限制下去关注输入的所述联合训练集中所包含的性别信息。
需要说明的是,还可将选取联合训练集中除内容匹配数据以外的数据作为联合训练子集的过程理解为是将联合训练集中数据信息和注重内容式识别结果的数据信息在信息进行相减的过程,注意其信息上的相减情况通过性别识别网络net2这一非线性神经网络学习到的,而由于二者并不是同一个空间的东西,顾问二者之间的关系不能直接用减法符号连接,也不能用直接加权相减等方式理解。
根据本发明提供的一种语音性别联合识别方法,图5是本发明提供的语音性别联合识别方法中联合训练集的获取过程流程图之一,如图5所示,所述联合训练集的获取过程包括以下步骤:
310、获取若干语音识别数据样本,以作为第一训练集;
320、获取若干性别识别数据样本,以作为第二训练集;
330、基于所述第二训练集和整句分类法,获得所述性别识别网络;
340、基于所述第一训练集和所述性别识别网络,获得第三训练集;
350、将所述第二训练集和所述第三训练集进行融合,以获得所述联合训练集。
获取若干语音识别数据样本,作为第一训练集,以第一训练集训练得到语音识别网络net1。再获取若干性别识别数据样本,使用性别标注逐一所获取的若干性别识别数据样本,并注意在进行标注时需要将性别和说话的内容均进行标注,将经过标注后的各样本数据作为第二训练集。结合整句分类法对所述第二训练集进行学习训练,以得到性别识别网络net2。其中,语音识别网络net1和性别识别网络net2也可以分别理解为语音性别联合识别模型中的两个子模型或子模块。基于所述性别识别网络预先对所述第一训练集进行一次性别识别处理,以对其按性别信息进行分类处理,并从分类处理后的数据中选取置信度较高的数据作为第三训练集。将所述第二训练集和所述第三训练集进行融合,以获得所述联合训练集。
根据本发明提供的一种语音性别联合识别方法,图6是本发明提供的语音性别联合识别方法中联合训练集的获取过程流程图之二,如图6所示,在图5所示获取过程的基础上,其步骤340、基于所述第一训练集和所述性别识别网络,获得第三训练集,进一步包括以下子步骤:
341、从所述第一训练集中随机选取若干语音识别数据样本。
第一训练集可以理解为是类似现有语音识别模型中所采集的基础语音样本,从所述第一训练集的样本数据中随机选取一部分语音识别数据样本。
342、基于所述性别识别网络对所选取的语音识别数据样本进行性别识别及分类处理,以获得分类数据样本。
对于所选取的部分语音识别数据样本,由性别识别网络对其进行一次性别识别预处理,以获得按性别分类的分类数据样本。
343、从所述分类数据样本中筛选分类置信度大于等于预设置信度值的分类数据样本,以作为第三训练集。
从所获得的按性别分类的分类样本中筛选出分类置信度符合预设置信度值的样本,以保证分类准确性,最后以这些数据作为第三训练集。
具体而言,第一训练集中数据量一般非常大,而性别识别的样本数据往往不需要那么大的数据体量,因此可以从第一训练集中随机选取一定量的数据样本出来,选取合适量的数据样本的好处是既能保证数据样本的多样性,又能节约计算资源。基于所述性别识别网络预先对所述第一训练集进行一次性别识别处理,实际上仅对从第一训练集中选取出来的部分语音识别数据样本进行性别识别处理即可,对其以按性别信息进行分类处理,并从分类处理后的数据中筛选分类置信度大于等于预设置信度值的分类数据样本,比如筛选出分类置信度≥0.8的分类数据样本,此类样本的性别识别结果较为精准,将其作为第三训练集,也能更有利于提升后续所建立语音性别联合识别模型的建模精度。
根据本发明提供的一种语音性别联合识别方法,图7是是本发明提供的语音性别联合识别方法的流程示意图之二,如图7所示,在图1所示方法的基础上,所述语音性别联合识别方法还包括模型更新步骤:
130、基于所述语音性别联合识别结果对所述语音性别联合识别模型进行动态更新。
基于最终的语音性别联合识别结果反向地、实时地对所述语音性别联合识别模型进行更新,使得所述语音性别联合识别模型可以得到不断的优化,提升其识别的准确率。
根据本发明提供的一种语音性别联合识别方法,所述待识别的语音数据为数据流形式,以使所述语音性别联合识别模型对所述待识别的语音数据进行流式计算。
所述语音性别联合识别方法可以支持流式计算,即,语音性别联合识别模型可以对数据流形式的待识别的语音数据进行实时的计算处理。流式计算的特点在于,将大量待计算的数据平摊到每个时间点上,连续地对小批量数据进行传输处理,数据持续流动,计算完之后就丢弃,并且在每次小批量数据完成计算后,其计算结果可以立刻投递出来,做到低延迟实时化的结果展现。由于使用了流式计算方式,从而使得在被识别人的话语在输入的过程中即可通过本方法同时获得到其语音性别联合识别结果,即在获知其说话内容的同时也获知了其性别信息。由此能够节省当前识别任务的识别时间,而为下一个识别任务预留出充足的时间。当然,本方法中,还可以根据具体应用场景支持批量计算、交互计算或图计算等计算方式,此处不做限制。
下面对本发明提供的语音性别联合识别装置进行描述,下文描述的语音性别联合识别装置与上文描述的语音性别联合识别方法可相互对应参照。
本发明还提供一种语音性别联合识别装置,图8是本发明提供的语音性别联合识别装置的结构示意图,如图8所示,所述装置包括获取模块810和识别模块820,其中,
所述获取模块810,用于获取待识别的语音数据;
所述识别模块820,用于基于所述待识别的语音数据和语音性别联合识别模型,获得语音性别联合识别结果;
其中,所述语音性别联合识别模型为预先基于联合训练集和联合网络算法训练得到的。
本发明提供一种语音性别联合识别装置,包括获取模块810和识别模块820,各模块相互配合工作,使得获取模块810在获取待识别的语音数据后,识别模块820再基于预先训练好的语音性别联合识别模型对所述待识别的语音数据进行识别,以获得语音性别联合识别结果,其有效地将性别识别和语音识别进行了信息互补,以在此情况下进行待识别数据的识别,相当于同步进行性别识别和语音识别,以及为语音识别过程中增添了性别识别信息,并能够有效提升语音识别的准确率。
本发明还提供一种电子设备,图9示例了一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(CommunicationsInterface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行所述语音性别联合识别方法,该方法包括:
获取待识别的语音数据;
基于所述待识别的语音数据和语音性别联合识别模型,获得语音性别联合识别结果;
其中,所述语音性别联合识别模型为预先基于联合训练集和联合网络算法训练得到的。
此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述语音性别联合识别方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的所述语音性别联合识别方法,该方法包括:
获取待识别的语音数据;
基于所述待识别的语音数据和语音性别联合识别模型,获得语音性别联合识别结果;
其中,所述语音性别联合识别模型为预先基于联合训练集和联合网络算法训练得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的所述语音性别联合识别方法,该方法包括:
获取待识别的语音数据;
基于所述待识别的语音数据和语音性别联合识别模型,获得语音性别联合识别结果;
其中,所述语音性别联合识别模型为预先基于联合训练集和联合网络算法训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的所述语音性别联合识别方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音性别联合识别方法,其特征在于,包括:
获取待识别的语音数据;
基于所述待识别的语音数据和语音性别联合识别模型,获得语音性别联合识别结果;
其中,所述语音性别联合识别模型为预先基于联合训练集和联合网络算法训练得到的。
2.根据权利要求1所述的语音性别联合识别方法,其特征在于,所述语音性别联合识别模型的训练过程包括:
获取语音性别联合训练数据样本,以作为联合训练集;
基于所述联合网络算法中的语音识别网络对所述联合训练集进行学习训练,以获得注重内容式识别结果;
基于所述联合网络算法中的性别识别网络对所述联合训练集与所述注重内容式识别结果进行学习训练,以获得注重性别式识别结果;
基于所述注重内容式识别结果和所述注重性别式识别结果,获得语音性别联合识别结果;
基于语音性别联合识别结果获得所述语音性别联合识别模型。
3.根据权利要求1所述的语音性别联合识别方法,其特征在于,所述基于所述联合网络算法中的性别识别网络对所述联合训练集与所述注重内容式识别结果进行学习训练,以获得注重性别式识别结果,包括:
将所述注重内容式识别结果与所述联合训练集进行匹配,获得内容匹配数据;
选取所述联合训练集中除所述内容匹配数据以外的数据,以作为联合训练子集;
基于所述性别识别网络对所述联合训练子集进行学习训练,以获得注重性别式识别结果。
4.根据权利要求1-3任一项所述的语音性别联合识别方法,其特征在于,所述联合训练集的获取过程包括:
获取若干语音识别数据样本,以作为第一训练集;
获取若干性别识别数据样本,以作为第二训练集;
基于所述第二训练集和整句分类法,获得所述性别识别网络;
基于所述第一训练集和所述性别识别网络,获得第三训练集;
将所述第二训练集和所述第三训练集进行融合,以获得所述联合训练集。
5.根据权利要求4所述的语音性别联合识别方法,其特征在于,所述基于所述第一训练集和所述性别识别网络,获得第三训练集,包括:
从所述第一训练集中随机选取若干语音识别数据样本;
基于所述性别识别网络对所选取的语音识别数据样本进行性别识别及分类处理,以获得分类数据样本;
从所述分类数据样本中筛选分类置信度大于等于预设置信度值的分类数据样本,以作为第三训练集。
6.根据权利要求1所述的语音性别联合识别方法,其特征在于,还包括:
基于所述语音性别联合识别结果对所述语音性别联合识别模型进行动态更新。
7.根据权利要求1所述的语音性别联合识别方法,其特征在于,所述待识别的语音数据为数据流形式,以使所述语音性别联合识别模型对所述待识别的语音数据进行流式计算。
8.一种语音性别联合识别装置,其特征在于,包括:
获取模块,用于获取待识别的语音数据;
识别模块,用于基于所述待识别的语音数据和语音性别联合识别模型,获得语音性别联合识别结果;
其中,所述语音性别联合识别模型为预先基于联合训练集和联合网络算法训练得到的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述语音性别联合识别方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音性别联合识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210308617.4A CN114420109B (zh) | 2022-03-28 | 2022-03-28 | 语音性别联合识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210308617.4A CN114420109B (zh) | 2022-03-28 | 2022-03-28 | 语音性别联合识别方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114420109A true CN114420109A (zh) | 2022-04-29 |
CN114420109B CN114420109B (zh) | 2022-06-21 |
Family
ID=81263189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210308617.4A Active CN114420109B (zh) | 2022-03-28 | 2022-03-28 | 语音性别联合识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114420109B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010014895A1 (en) * | 1998-04-03 | 2001-08-16 | Nameeta Sappal | Method and apparatus for dynamic software customization |
CN108806667A (zh) * | 2018-05-29 | 2018-11-13 | 重庆大学 | 基于神经网络的语音与情绪的同步识别方法 |
CN111524534A (zh) * | 2020-03-20 | 2020-08-11 | 北京捷通华声科技股份有限公司 | 一种语音分析方法、系统、设备及存储介质 |
US20210104245A1 (en) * | 2019-06-03 | 2021-04-08 | Amazon Technologies, Inc. | Multiple classifications of audio data |
CN113850291A (zh) * | 2021-08-18 | 2021-12-28 | 北京百度网讯科技有限公司 | 文本处理及模型训练方法、装置、设备和存储介质 |
-
2022
- 2022-03-28 CN CN202210308617.4A patent/CN114420109B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010014895A1 (en) * | 1998-04-03 | 2001-08-16 | Nameeta Sappal | Method and apparatus for dynamic software customization |
CN108806667A (zh) * | 2018-05-29 | 2018-11-13 | 重庆大学 | 基于神经网络的语音与情绪的同步识别方法 |
US20210104245A1 (en) * | 2019-06-03 | 2021-04-08 | Amazon Technologies, Inc. | Multiple classifications of audio data |
CN111524534A (zh) * | 2020-03-20 | 2020-08-11 | 北京捷通华声科技股份有限公司 | 一种语音分析方法、系统、设备及存储介质 |
CN113850291A (zh) * | 2021-08-18 | 2021-12-28 | 北京百度网讯科技有限公司 | 文本处理及模型训练方法、装置、设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
王礼敏等: "基于双通道LSTM模型的用户性别分类方法研究", 《计算机科学》 * |
王礼敏等: "基于双通道LSTM模型的用户性别分类方法研究", 《计算机科学》, no. 02, 15 February 2018 (2018-02-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN114420109B (zh) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112804400B (zh) | 客服呼叫语音质检方法、装置、电子设备及存储介质 | |
US11281945B1 (en) | Multimodal dimensional emotion recognition method | |
CN108520741B (zh) | 一种耳语音恢复方法、装置、设备及可读存储介质 | |
CN108428447B (zh) | 一种语音意图识别方法及装置 | |
CN108305641B (zh) | 情感信息的确定方法和装置 | |
CN108305643B (zh) | 情感信息的确定方法和装置 | |
CN111026843A (zh) | 一种人工智能语音外呼方法、系统及存储介质 | |
CN112233680B (zh) | 说话人角色识别方法、装置、电子设备及存储介质 | |
CN111833871A (zh) | 基于意图识别的智能外呼系统及其方法 | |
CN108053840A (zh) | 一种基于pca-bp的情绪识别方法及系统 | |
CN111312292A (zh) | 基于语音的情绪识别方法、装置、电子设备及存储介质 | |
CN111597818A (zh) | 呼叫质检方法、装置、计算机设备和计算机可读存储介质 | |
CN114495217A (zh) | 基于自然语言和表情分析的场景分析方法、装置及系统 | |
CN113128284A (zh) | 一种多模态情感识别方法和装置 | |
CN114065720A (zh) | 会议纪要生成方法、装置、存储介质及电子设备 | |
WO2024114303A1 (zh) | 音素识别方法、装置、电子设备及存储介质 | |
CN116935889B (zh) | 一种音频类别的确定方法、装置、电子设备及存储介质 | |
CN114420109B (zh) | 语音性别联合识别方法、装置、电子设备及存储介质 | |
CN115424605B (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
CN113111855B (zh) | 一种多模态情感识别方法、装置、电子设备及存储介质 | |
CN107066567B (zh) | 文字对话中基于话题侦测的用户画像建模方法及系统 | |
CN114373448B (zh) | 话题检测方法、装置、电子设备及存储介质 | |
CN113255800B (zh) | 基于音视频的鲁棒情感建模系统 | |
CN113239147B (zh) | 基于图神经网络的智能会话方法、系统及介质 | |
CN111914777B (zh) | 一种跨模态识别机器人指令的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |