CN113763968A - 用于识别语音的方法、装置、设备、介质和产品 - Google Patents
用于识别语音的方法、装置、设备、介质和产品 Download PDFInfo
- Publication number
- CN113763968A CN113763968A CN202111049667.7A CN202111049667A CN113763968A CN 113763968 A CN113763968 A CN 113763968A CN 202111049667 A CN202111049667 A CN 202111049667A CN 113763968 A CN113763968 A CN 113763968A
- Authority
- CN
- China
- Prior art keywords
- encoder
- sample
- target
- user
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000013598 vector Substances 0.000 claims abstract description 174
- 238000012549 training Methods 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000002372 labelling Methods 0.000 description 8
- 238000001914 filtration Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了用于识别语音的方法、装置、设备、介质和产品,涉及人工智能技术领域,尤其涉及语音技术领域。具体实现方案为:获取目标语音;基于目标语音和预设的语音识别模型,确定目标语音对应的用户特征向量集合;将用户特征向量集合中的各个用户特征向量拼接,得到目标特征向量;基于目标特征向量,确定目标语音对应的用户特征信息。本实现方式可以提高对用户特征的识别准确度。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及语音技术领域,具体涉及一种用于识别语音的方法、装置、电子设备、计算机可读存储介质和程序产品。
背景技术
目前,在人机交互、用户画像分析等应用场景中,经常会对用户语音进行识别,以确定语音对应的用户特征。
通常,对于用户特征的数量为至少两个的情况,需要采用相对应的至少两个模型进行识别。例如,如果需要识别用户的年龄和用户的性别,则需要采用年龄识别模型识别用户的年龄,以及采用性别识别模型识别用户的性别。在实践中发现,这种语音识别方式存在着识别准确率较低的问题。
发明内容
本公开提供了一种用于识别语音的方法、装置、设备、介质和产品。
根据本公开的一方面,提供了一种用于识别语音的方法,包括:获取目标语音;基于目标语音和预设的语音识别模型,确定目标语音对应的用户特征向量集合;将用户特征向量集合中的各个用户特征向量拼接,得到目标特征向量;基于目标特征向量,确定目标语音对应的用户特征信息。
根据本公开的另一方面,提供了一种用于识别语音的装置,包括:语音获取单元,被配置成获取目标语音;特征确定单元,被配置成基于目标语音和预设的语音识别模型,确定目标语音对应的用户特征向量集合;特征拼接单元,被配置成将用户特征向量集合中的各个用户特征向量拼接,得到目标特征向量;语音识别单元,被配置成基于目标特征向量,确定目标语音对应的用户特征信息。
根据本公开的另一方面,提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上任意一项用于识别语音的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如上任意一项用于识别语音的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如上任意一项用于识别语音的方法。
根据本公开的技术,能够提高对用户特征的识别准确度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本公开的用于识别语音的方法的一个实施例的流程图;
图3是根据本公开的用于识别语音的方法的一个应用场景的示意图;
图4是根据本公开的用于识别语音的方法的另一个实施例的流程图;
图5是根据本公开的用于识别语音的装置的一个实施例的结构示意图;
图6是用来实现本公开实施例的用于识别语音的方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以为手机、电脑以及平板等电子设备,终端设备101、102、103可以采集用户发出的语音,并将该语音通过网络104发送给服务器105,以使服务器105返回对语音的识别结果,例如返回语音对应的用户年龄、用户性别。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于车载电脑、车载平板、车辆控制设备等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如,服务器105可以获取终端设备101、102、103发送的语音,并将该语音输入预设的语音识别模型,以使语音识别模型先确定语音对应的用户性别特征向量和用户年龄特征向量,再将用户性别特征向量和用户年龄特征向量拼接,得到目标特征向量,基于目标特征向量得到与语音对应的用户特征类别,如识别出语音对应的用户特征类别为成年女。服务器105可以将得到的用户特征类别返回给终端设备101、102、103。
需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本公开实施例所提供的用于识别语音的方法可以由终端设备101、102、103执行,也可以由服务器105执行,用于识别语音的装置可以设置于终端设备101、102、103中,也可以设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本公开的用于识别语音的方法的一个实施例的流程200。本实施例的用于识别语音的方法,包括以下步骤:
步骤201,获取目标语音。
在本实施例中,执行主体(如图1中的终端设备101、102、103或者服务器105)可以从本地存储获取目标语音,也可以从预先建立连接的其他电子设备中获取目标语音,本实施例对于目标语音的具体获取来源不做限定。并且,这里的目标语音可以是用户发出的语音,通过对语音进行识别,能够得到语音所对应的用户特征信息。可选的,获取的目标语音可以为人机交互过程中用户所输出的语音,基于确定目标语音所对应的用户特征信息,能够有针对性地确定相应的答复策略,能够提高人机交互效果。另一种可选的,获取的目标语音可以为电话客服所接收到的用户语音,基于语音识别,能够基于目标语音所对应的用户特征信息构建用户标签,能够提高用户标签的确定精准度。
步骤202,基于目标语音和预设的语音识别模型,确定目标语音对应的用户特征向量集合。
在本实施例中,预设的语音识别模型能够对目标语音进行分析处理,得到目标语音对应的用户特征信息。执行主体在获取目标语音之后,可以将目标语音输入预设的语音识别模型,预设的语音识别模型会先确定目标语音对应的用户特征向量集合。其中,用户特征向量集合中包含至少两个用户特征向量。对于用户特征向量集合中的不同用户特征向量,具备不同的特征维度。这里的特征维度可以包括但不限于性别、年龄、地区等,本实施例对此不做限定。
其中,执行主体在将目标语音输入预设的语音识别模型之后,语音识别模型可以基于不同的特征维度提取目标语音的特征。对于每个特征维度,语音识别模型可以确定该特征维度的特征信息,从而得到该特征维度对应的特征向量。可选的,对于语音识别模型内部,可以预设有针对不同特征维度的识别模块。在模型训练阶段,可以对这些识别模块进行有针对性地训练,以使各个识别模块能够实现相应的特征维度的语音特征识别。之后,执行主体汇总各个特征维度对应特征向量,得到目标语音对应的用户特征向量集合。
步骤203,将用户特征向量集合中的各个用户特征向量拼接,得到目标特征向量。
在本实施例中,执行主体在得到用户特征向量集合之后,执行主体可以直接将用户特征向量集合中的各个用户特征向量拼接,得到目标特征向量。也可以对用户特征向量集合中的各个用户特征向量进行预先设置的处理操作,再将执行处理操作之后的各个用户特征向量进行拼接,得到目标特征向量。其中,预先设置的处理操作可以包括但不限于按照预设的排序顺序标记用户特征向量、按照预设的权重信息对用户特征向量进行加权、按照预设的筛选方式对用户特征向量进行过滤等,本实施例对此不做限定。
在本实施例的一些可选的实现方式中,将用户特征向量集合中的各个用户特征向量拼接,得到目标特征向量可以包括:响应于确定用户特征向量集合中的用户特征向量的数量大于预设的数量阈值,从用户特征向量集合中确定向量数值异常的用户特征向量,并将这些向量数值异常的用户特征向量筛除,得到筛除后的用户特征向量集合。之后,执行主体可以对筛除后的用户特征向量集合中的各个用户特征向量进行加权,得到各个加权特征向量。之后,执行主体可以按照预设的排序顺序,将各个加权特征向量拼接,得到目标特征向量。
步骤204,基于目标特征向量,确定目标语音对应的用户特征信息。
在本实施例中,在得到目标特征向量之后,执行主体可以基于对目标特征向量进行分析处理,得到目标语音对应的用户特征信息。其中,用户特征信息用于描述不同特征维度对应的用户特征,如用户年龄、用户性别、用户地区等,本实施例对此不做限定。
需要说明的是,步骤203至步骤204可以由上述的语音识别模型实现。上述的语音识别模型内部可以包含不同的模块,各个模块用于实现不同的识别处理操作。这些模块中可以包括用于实现向量拼接的模块、用于实现拼接向量的分析的模块、以及上述的针对不同特征维度的识别模块。
继续参见图3,其示出了根据本公开的用于识别语音的方法的一个应用场景的示意图。在图3的应用场景中,执行主体可以先获取用户发出的目标语音301,之后将目标语音301输入语音识别模型,以使语音识别模型对目标语音301进行语音识别,得到目标语音301对应的用户年龄性别信息308。具体的,语音识别模型内部可以至少包括性别编码器302、年龄编码器303以及解码器307。其中,性别编码器302用于识别目标语音301中的性别特征,年龄编码器303用于识别目标语音301中的年龄特征,解码器307用于识别整合的特征向量。其中,将目标语音301输入语音识别模型时,可以先将目标语音301分别输入语音识别模型中的性别编码器302和年龄编码器303,以使性别编码器302识别目标语音301的性别特征,输出性别特征向量304,以及使得年龄编码器303识别目标语音301的年龄特征,输出年龄特征向量305。之后,执行主体可以将性别特征向量304和年龄特征向量305进行拼接,得到目标特征向量306。再将目标特征向量306输入解码器307,以使解码器307识别目标特征向量306,得到用户性别年龄信息308。
本公开上述实施例提供的用于识别语音的方法,可以利用语音识别模型识别目标语音的用户特征向量集合,并对用户特征向量集合中的各个用户特征向量进行拼接,基于拼接得到的目标特征向量,确定目标语音对应的用户特征信息,这一过程能够针对用户特征的数量至少为两个的情况,采用一个语音识别模型,得到至少两个用户特征向量,构成用户特征向量集合,基于对各个用户特征向量进行拼接再识别,能够综合考虑特征之间的相互作用关系,从而提高了对用户特征的识别准确度。
继续参见图4,其示出了根据本公开的用于识别语音的方法的另一个实施例的流程400。如图4所示,本实施例的用于识别语音的方法可以包括以下步骤:
步骤401,获取初始语音。
在本实施例中,执行主体可以从本地存储获取用于模型训练的初始语音,可以基于预先建立连接的其他电子设备获取用于模型训练的初始语音,本实施例对此不做限定。其中,初始语音是用户发出的音频数据。并且,这里所获取的初始语音的数量通常较多,用于提高模型训练的准确度。
步骤402,对初始语音进行语音过滤,得到过滤后的语音。
在本实施例中,执行主体可以基于现有的语音处理技术,对初始语音进行语音过滤,得到过滤后的语音。这里所过滤的语音可以包括但不限于环境噪音、非人声杂音等,本实施例对此不做限定。举例来说,如果初始语音为获取到的用户的通话音频,则需要过滤的语音可以包括通话过程中的彩铃声、电话忙音等各类干扰音频。
步骤403,对过滤后的语音进行数据增强,得到语音样本。
在本实施例中,执行主体可以对过滤后的语音基于速度变化进行数据增强,还可以对过滤后的语音基于频域时域掩盖进行数据增强。具体的,基于速度变化进行数据增强时,可以将速度降速或者提速至预先设定的倍速,实现数据增强。例如,将语音的速度降速至0.9倍速,或者将语音的速度提速至1.1倍速,将降速后的语音和提速后的语音均作为语音样本。基于频域时域掩盖进行数据增强时,可以对语音对应的频谱图进行频域和时域的遮盖,将遮盖后的频谱图对应的语音作为语音样本。
在本实施例一些可选的实现方式中,在对过滤后的语音进行数据增强得到数据增强后的语音之后,可以执行以下步骤:提取数据增强后的语音中的特征,这里的特征可以包括但不限于基音频率、梅尔倒谱系数等,本实施例对此不做限定。并且对这些特征进行二阶差分增强,得到二阶差分增强后的特征。这里的二阶差分增强可以采用现有的基于二阶差分实现数据增强的方式实现,在此不再赘述。之后,可以将二阶差分之后的特征打乱顺序,并将这些特征划分为不同的训练批次,作为不同批次用于模型训练的语音样本。
需要说明的是,上述步骤401至步骤403可以是一种优选的实施方式,在实际应用中,也可以直接将初始语音作为语音样本。
步骤404,获取语音样本和样本标注数据。
在本实施例中,执行主体可以获取语音样本,并进一步确定与语音样本对应的样本标注数据,样本标注数据可以由人工预先标注得到。并且,这里的样本标注数据与特征维度相对应,包含需要训练的各个特征维度对应的标注数据。例如,在特征维度为性别和年龄的情况下,样本标注数据可以包含对语音样本中的各个音频所标注的年龄性别数据。
步骤405,对于编码器集合中的每个编码器,基于语音样本和样本标注数据,对该编码器进行训练,得到训练完成的编码器。
在本实施例中,语音识别模型中至少包括编码器集合。其中,编码器集合中的每个编码器用于识别相应的特征维度的特征。这里的编码器可以采用预设的神经网络结构组成,可以包括但不限于卷积神经网络层、双向长短期记忆神经网络层、卷积神经网络层与双向长短期记忆神经网络层组合得到的神经网络结构等,本实施例对此不做限定。
例如,对于包含年龄和性别两个特征维度的语音识别模型,其中的编码器集合中包含用于识别年龄特征的年龄编码器,以及包含用于识别性别特征的性别编码器。
在模型训练阶段,执行主体可以对于编码器集合中的每个编码器,将语音样本输入该编码器,得到该编码器输出的相应特征维度的特征信息,基于该编码器输出的特征信息、样本标注数据和预设的损失函数,反向更新该编码器的参数,直至损失函数满足预设的收敛条件,得到训练完成的编码器。其中,损失函数可以采用交叉熵损失函数。
步骤406,基于各个训练完成的编码器,对解码器进行训练,得到训练完成的解码器。
在本实施例中,执行主体可以在编码器训练完成之后,基于训练完成的编码器训练解码器,或者,执行主体也可以同时训练编码器和解码器,本实施例对此不做限定。其中,解码器用于识别各个特征维度对应的特征信息,网络结构可以采用自注意力层、卷积神经网络层、自注意力层和卷积神经网络层的组合等,本实施例对此不做限定。
在本实施例的一些可选的实现方式中,训练完成的编码器至少包括年龄编码器和性别编码器;以及,基于各个训练完成的编码器,对解码器进行训练,得到训练完成的解码器,包括:基于语音样本和年龄编码器,确定样本年龄特征向量;基于语音样本和性别编码器,确定样本性别特征向量;将样本年龄特征向量和样本性别特征向量进行拼接,得到样本特征向量;基于样本特征向量和样本标注数据,对解码器进行训练,得到训练完成的解码器。
在本实现方式中,如果训练完成的编码器包括训练完成的年龄编码器和性别编码器,执行主体可以将语音样本输入年龄编码器,得到相应的样本年龄特征向量。以及,执行主体可以将语音样本输入性别编码器,得到相应的样本性别特征向量。之后,执行主体可以将样本年龄特征向量和样本性别特征向量进行拼接,得到样本特征向量。将样本特征向量输入解码器,得到解码器输出的特征信息。再基于特征信息、样本标注数据和预设的损失函数,反向更新解码器的的参数,直至损失函数满足预设的收敛条件,得到训练完成的解码器。
步骤407,基于各个训练完成的编码器和训练完成的解码器,确定预设的语音识别模型。
在本实施例中,执行主体可以将各个训练完成的编码器和训练完成的解码器组成语音识别模型。
步骤408,获取目标语音。
在本实施例中,对于步骤408的详细描述请参照对于步骤201的详细描述,在此不再赘述。
步骤409,对于编码器集合中的每个编码器,基于目标语音和该编码器,确定该编码器对应的用户特征向量。
在本实施例中,预设的语音识别模型至少包括编码器集合。这里的编码器集合中的各个编码器即为上述训练完成的各个编码器。执行主体可以对每个编码器,将目标语音输入该编码器,得到该编码器对应的用户特征向量。其中,用户特征向量是用于描述不同特征维度的用户特征的向量。例如,在编码器集合包括年龄编码器和性别编码器时,可以基于目标语音和年龄编码器,确定年龄特征向量,以及基于目标语音和性别编码器,确定性别特征向量。
步骤410,基于编码器集合中各个编码器对应的用户特征向量,确定用户特征向量集合,用户特征向量集合至少包括年龄特征向量和性别特征向量。
在本实施例中,执行主体可以将各个编码器对应的用户特征向量组成用户特征向量集合。
步骤411,将用户特征向量集合中的各个用户特征向量拼接,得到目标特征向量。
在本实施例中,对于步骤411的详细描述请参照对于步骤203的详细描述,在此不再赘述。
步骤412,基于目标特征向量和解码器,确定目标语音对应的年龄性别联合特征信息。
在本实施例中,预设的语音识别模型至少包括解码器,用户特征信息至少包括年龄性别联合特征信息。这里的解码器即为上述训练完成的解码器,这里的年龄性别联合特征信息可以为小女孩、成年男、成年女、老年男、老年女等,对于类别的划分也可以采用其他划分方式,本实施例对此不做限定。执行主体可以将拼接得到的目标特征向量输入解码器,以使解码器输出年龄性别联合特征信息。可以理解的,在编码器集合包含除年龄、性别之外的特征维度对应的编码器的情况下,解码器可以输出各个编码器所对应的特征维度的联合特征信息。
本公开的上述实施例提供的用于识别语音的方法,还可以在语音识别模型的训练阶段,采用语音过滤、数据增强等数据预处理手段,得到语音样本,提高了语音样本的可靠性。并且,在训练编码器和解码器时,可以基于训练好的编码器训练解码器,提高了解码器的训练效率以及训练精准度。以及,在基于目标语音得到用户特征信息时,可以先基于编码器得到用户特征向量,如得到年龄特征向量和性别特征向量,以及再基于解码器对拼接后的特征向量进行识别,得到联合特征信息,如年龄性别联合特征信息,从而提高了语音识别的准确度。
进一步参考图5,作为对上述各图所示方法的实现,本公开提供了一种用于识别语音的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于终端设备、服务器等电子设备中。
如图5所示,本实施例的用于识别语音的装置500包括:语音获取单元501、特征确定单元502、特征拼接单元503和语音识别单元504。
语音获取单元501,被配置成获取目标语音。
特征确定单元502,被配置成基于目标语音和预设的语音识别模型,确定目标语音对应的用户特征向量集合。
特征拼接单元503,被配置成将用户特征向量集合中的各个用户特征向量拼接,得到目标特征向量。
语音识别单元504,被配置成基于目标特征向量,确定目标语音对应的用户特征信息。
在本实施例的一些可选的实现方式中,用户特征向量集合至少包括年龄特征向量和性别特征向量;以及,语音识别单元504进一步被配置成:基于目标特征向量,确定目标语音对应的年龄性别联合特征信息。
在本实施例的一些可选的实现方式中,预设的语音识别模型至少包括编码器集合;以及,特征确定单元502进一步被配置成:对于编码器集合中的每个编码器,基于目标语音和该编码器,确定该编码器对应的用户特征向量;基于编码器集合中各个编码器对应的用户特征向量,确定用户特征向量集合。
在本实施例的一些可选的实现方式中,预设的语音识别模型至少包括解码器;以及,语音识别单元504进一步被配置成:基于目标特征向量和解码器,确定目标语音对应的用户特征信息。
在本实施例的一些可选的实现方式中,上述装置还包括:模型训练单元,被配置成获取语音样本和样本标注数据;对于编码器集合中的每个编码器,基于语音样本和样本标注数据,对该编码器进行训练,得到训练完成的编码器;基于各个训练完成的编码器,对解码器进行训练,得到训练完成的解码器;基于各个训练完成的编码器和训练完成的解码器,确定预设的语音识别模型。
在本实施例的一些可选的实现方式中,训练完成的编码器至少包括年龄编码器和性别编码器;以及,模型训练单元进一步被配置成:基于语音样本和年龄编码器,确定样本年龄特征向量;基于语音样本和性别编码器,确定样本性别特征向量;将样本年龄特征向量和样本性别特征向量进行拼接,得到样本特征向量;基于样本特征向量和样本标注数据,对解码器进行训练,得到训练完成的解码器。
在本实施例的一些可选的实现方式中,模型训练单元进一步被配置成:获取初始语音;对初始语音进行语音过滤,得到过滤后的语音;对过滤后的语音进行数据增强,得到语音样本。
应当理解,用于识别语音的装置500中记载的单元501至单元504分别与参考图2中描述的方法中的各个步骤相对应。由此,上文针对用于识别语音的方法描述的操作和特征同样适用于装置500及其中包含的单元,在此不再赘述。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如用于识别语音的方法。例如,在一些实施例中,用于识别语音的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的用于识别语音的方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行用于识别语音的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (15)
1.一种用于识别语音的方法,包括:
获取目标语音;
基于所述目标语音和预设的语音识别模型,确定所述目标语音对应的用户特征向量集合;
将所述用户特征向量集合中的各个用户特征向量拼接,得到目标特征向量;
基于所述目标特征向量,确定所述目标语音对应的用户特征信息。
2.根据权利要求1所述的方法,其中,所述用户特征向量集合至少包括年龄特征向量和性别特征向量;以及
所述基于所述目标特征向量,确定所述目标语音对应的用户特征信息,包括:
基于所述目标特征向量,确定所述目标语音对应的年龄性别联合特征信息。
3.根据权利要求1所述的方法,其中,所述预设的语音识别模型至少包括编码器集合;以及
所述基于所述目标语音和预设的语音识别模型,确定所述目标语音对应的用户特征向量集合,包括:
对于所述编码器集合中的每个编码器,基于所述目标语音和该编码器,确定该编码器对应的用户特征向量;
基于所述编码器集合中各个编码器对应的用户特征向量,确定所述用户特征向量集合。
4.根据权利要求1所述的方法,其中,所述预设的语音识别模型至少包括解码器;以及
所述基于所述目标特征向量,确定所述目标语音对应的用户特征信息,包括:
基于所述目标特征向量和所述解码器,确定所述目标语音对应的所述用户特征信息。
5.根据权利要求1所述的方法,其中,所述预设的语音识别模型基于以下步骤训练得到:
获取语音样本和样本标注数据;
对于编码器集合中的每个编码器,基于所述语音样本和所述样本标注数据,对该编码器进行训练,得到训练完成的编码器;
基于各个所述训练完成的编码器,对解码器进行训练,得到训练完成的解码器;
基于各个所述训练完成的编码器和所述训练完成的解码器,确定所述预设的语音识别模型。
6.根据权利要求5所述的方法,其中,所述训练完成的编码器至少包括年龄编码器和性别编码器;以及
所述基于各个所述训练完成的编码器,对解码器进行训练,得到训练完成的解码器,包括:
基于所述语音样本和所述年龄编码器,确定样本年龄特征向量;
基于所述语音样本和所述性别编码器,确定样本性别特征向量;
将所述样本年龄特征向量和所述样本性别特征向量进行拼接,得到样本特征向量;
基于所述样本特征向量和所述样本标注数据,对解码器进行训练,得到所述训练完成的解码器。
7.一种用于识别语音的装置,包括:
语音获取单元,被配置成获取目标语音;
特征确定单元,被配置成基于所述目标语音和预设的语音识别模型,确定所述目标语音对应的用户特征向量集合;
特征拼接单元,被配置成将所述用户特征向量集合中的各个用户特征向量拼接,得到目标特征向量;
语音识别单元,被配置成基于所述目标特征向量,确定所述目标语音对应的用户特征信息。
8.根据权利要求7所述的装置,其中,所述用户特征向量集合至少包括年龄特征向量和性别特征向量;以及
所述语音识别单元进一步被配置成:
基于所述目标特征向量,确定所述目标语音对应的年龄性别联合特征信息。
9.根据权利要求7所述的装置,其中,所述预设的语音识别模型至少包括编码器集合;以及
所述特征确定单元进一步被配置成:
对于所述编码器集合中的每个编码器,基于所述目标语音和该编码器,确定该编码器对应的用户特征向量;
基于所述编码器集合中各个编码器对应的用户特征向量,确定所述用户特征向量集合。
10.根据权利要求7所述的装置,其中,所述预设的语音识别模型至少包括解码器;以及
所述语音识别单元进一步被配置成:
基于所述目标特征向量和所述解码器,确定所述目标语音对应的所述用户特征信息。
11.根据权利要求7所述的装置,还包括:
模型训练单元,被配置成获取语音样本和样本标注数据;对于编码器集合中的每个编码器,基于所述语音样本和所述样本标注数据,对该编码器进行训练,得到训练完成的编码器;基于各个所述训练完成的编码器,对解码器进行训练,得到训练完成的解码器;基于各个所述训练完成的编码器和所述训练完成的解码器,确定所述预设的语音识别模型。
12.根据权利要求11所述的装置,其中,所述训练完成的编码器至少包括年龄编码器和性别编码器;以及
所述模型训练单元进一步被配置成:
基于所述语音样本和所述年龄编码器,确定样本年龄特征向量;
基于所述语音样本和所述性别编码器,确定样本性别特征向量;
将所述样本年龄特征向量和所述样本性别特征向量进行拼接,得到样本特征向量;
基于所述样本特征向量和所述样本标注数据,对解码器进行训练,得到所述训练完成的解码器。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111049667.7A CN113763968B (zh) | 2021-09-08 | 2021-09-08 | 用于识别语音的方法、装置、设备、介质和产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111049667.7A CN113763968B (zh) | 2021-09-08 | 2021-09-08 | 用于识别语音的方法、装置、设备、介质和产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113763968A true CN113763968A (zh) | 2021-12-07 |
CN113763968B CN113763968B (zh) | 2024-05-07 |
Family
ID=78793875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111049667.7A Active CN113763968B (zh) | 2021-09-08 | 2021-09-08 | 用于识别语音的方法、装置、设备、介质和产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113763968B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114639375A (zh) * | 2022-05-09 | 2022-06-17 | 杭州海康威视数字技术股份有限公司 | 基于音频切片调节的智能语音识别安全防御方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180074785A1 (en) * | 2015-03-31 | 2018-03-15 | Sony Corporation | Information processing device, control method, and program |
US20180233151A1 (en) * | 2016-07-15 | 2018-08-16 | Tencent Technology (Shenzhen) Company Limited | Identity vector processing method and computer device |
CN109145148A (zh) * | 2017-06-28 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 信息处理方法和装置 |
CN111326136A (zh) * | 2020-02-13 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、电子设备及存储介质 |
CN112259104A (zh) * | 2020-10-10 | 2021-01-22 | 西南政法大学 | 一种声纹识别模型的训练装置 |
CN112487381A (zh) * | 2020-11-13 | 2021-03-12 | 中信银行股份有限公司 | 身份认证方法、装置、电子设备及可读存储介质 |
CN113160819A (zh) * | 2021-04-27 | 2021-07-23 | 北京百度网讯科技有限公司 | 用于输出动画的方法、装置、设备、介质和产品 |
-
2021
- 2021-09-08 CN CN202111049667.7A patent/CN113763968B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180074785A1 (en) * | 2015-03-31 | 2018-03-15 | Sony Corporation | Information processing device, control method, and program |
US20180233151A1 (en) * | 2016-07-15 | 2018-08-16 | Tencent Technology (Shenzhen) Company Limited | Identity vector processing method and computer device |
CN109145148A (zh) * | 2017-06-28 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 信息处理方法和装置 |
CN111326136A (zh) * | 2020-02-13 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、电子设备及存储介质 |
CN112259104A (zh) * | 2020-10-10 | 2021-01-22 | 西南政法大学 | 一种声纹识别模型的训练装置 |
CN112487381A (zh) * | 2020-11-13 | 2021-03-12 | 中信银行股份有限公司 | 身份认证方法、装置、电子设备及可读存储介质 |
CN113160819A (zh) * | 2021-04-27 | 2021-07-23 | 北京百度网讯科技有限公司 | 用于输出动画的方法、装置、设备、介质和产品 |
Non-Patent Citations (1)
Title |
---|
杜先娜;俞一彪;: "有效频带多分辨率特征提取及说话人年龄识别", 信号处理, no. 09, 25 September 2016 (2016-09-25) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114639375A (zh) * | 2022-05-09 | 2022-06-17 | 杭州海康威视数字技术股份有限公司 | 基于音频切片调节的智能语音识别安全防御方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113763968B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114360557B (zh) | 语音音色转换方法、模型训练方法、装置、设备和介质 | |
CN112259089B (zh) | 语音识别方法及装置 | |
JP6306528B2 (ja) | 音響モデル学習支援装置、音響モデル学習支援方法 | |
CN112966082A (zh) | 音频质检方法、装置、设备以及存储介质 | |
CN113658586B (zh) | 语音识别模型的训练方法、语音交互方法及装置 | |
CN113327596B (zh) | 语音识别模型的训练方法、语音识别方法和装置 | |
CN113763968B (zh) | 用于识别语音的方法、装置、设备、介质和产品 | |
CN113793599A (zh) | 语音识别模型的训练方法和语音识别方法及装置 | |
CN110675865B (zh) | 用于训练混合语言识别模型的方法和装置 | |
CN113889089B (zh) | 语音识别模型的获取方法、装置、电子设备以及存储介质 | |
CN113920987B (zh) | 一种语音识别的方法、装置、设备及存储介质 | |
CN113889088B (zh) | 训练语音识别模型的方法及装置、电子设备和存储介质 | |
CN113808619B (zh) | 一种语音情绪识别方法、装置及电子设备 | |
CN113724698B (zh) | 语音识别模型的训练方法、装置、设备及存储介质 | |
CN113035230B (zh) | 认证模型的训练方法、装置及电子设备 | |
CN114220430A (zh) | 多音区语音交互方法、装置、设备以及存储介质 | |
CN115312042A (zh) | 用于处理音频的方法、装置、设备以及存储介质 | |
CN114678040B (zh) | 语音一致性检测方法、装置、设备及存储介质 | |
CN115169549B (zh) | 人工智能模型更新方法、装置、电子设备及存储介质 | |
CN113793598B (zh) | 语音处理模型的训练方法和数据增强方法、装置及设备 | |
CN110634475B (zh) | 语音识别方法、装置、电子设备和计算机可读存储介质 | |
CN113763921B (zh) | 用于纠正文本的方法和装置 | |
CN113380233A (zh) | 音频识别方法、装置、训练方法、训练装置、设备及存储介质 | |
CN114882890A (zh) | 深度学习模型的训练方法、声纹识别方法、装置和设备 | |
CN115841813A (zh) | 语音识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |