CN110910865B

CN110910865B - 语音转换方法和装置、存储介质及电子装置

Info

Publication number: CN110910865B
Application number: CN201911167796.9A
Authority: CN
Inventors: 刘洋; 唐大闰; 吴明辉
Original assignee: Miaozhen Information Technology Co Ltd
Current assignee: Miaozhen Information Technology Co Ltd
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2022-12-13
Anticipated expiration: 2039-11-25
Also published as: CN110910865A

Abstract

本发明公开了一种语音转换方法和装置、存储介质及电子装置。其中，该方法包括：获取待转换的第一口音的语音数据；提取第一口音的语音数据中的第一语音特征；将第一语音特征转换为第一语音向量；将第一语音向量输入语音识别模型；获取语音识别模型的输出结果中携带的对第一口音的语音数据进行识别转换后所得到的目标口音的目标语音数据。本发明解决了由于收集与标注带口音训练数据的难度系数高造成的带口音语音识别系统的训练成本高的技术问题。

Description

语音转换方法和装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种语音转换方法和装置、存储介质及电子装置。

背景技术

语音识别训练数据的标注成本高，难度大。特别是针对汉语语言中带地方方言口音的训练数据，如四川话、粤语、上海话等。在需要训练一个上述类型的语音识别系统的过程中，需要收集对应的语音数据并对其进行标注，进而导致语音识别系统的训练成本过于昂贵。

因此，相关技术中存在由于收集与标注带口音训练数据的难度系数高造成的带口音语音识别系统的训练成本高的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音转换方法和装置、存储介质及电子装置，以至少解决由于收集与标注带口音训练数据的难度系数高造成的带口音语音识别系统的训练成本高的技术问题。

根据本发明实施例的一个方面，提供了一种语音转换方法，包括：获取待转换的第一口音的语音数据；提取上述第一口音的语音数据中的第一语音特征；将上述第一语音特征转换为第一语音向量；将上述第一语音向量输入语音识别模型，其中，上述语音识别模型为对多个样本语音数据进行机器训练的神经网络模型，用于将上述样本语音数据转换为目标口音的语音数据，上述多个样本语音数据为实际场景中产生的不同口音的语音数据；获取上述语音识别模型的输出结果中携带的对上述第一口音的语音数据进行识别转换后所得到的上述目标口音的目标语音数据。

作为一种可选的实施方式，在上述获取待转换的第一口音的语音数据之前，还包括：获取上述多个样本语音数据，其中，上述多个样本语音数据中包括至少两个口音的语音数据；提取上述多个样本语音数据中每个样本语音数据的样本语音特征；将每个上述样本语音数据的上述样本语音特征依次输入初始分类模型进行机器训练，以得到口音分类模型，其中，上述口音分类模型用于区分上述样本语音数据的口音类型，上述口音分类模型的输出结果包括：上述样本语音数据的上述口音类型为上述目标口音，上述样本语音数据的上述口音类型并非上述目标口音。

作为一种可选的实施方式，在上述获取上述多个样本语音数据之后，还包括：从上述多个样本语音数据中获取待测样本语音数据；提取上述至少一个待测样本语音数据中每个待测样本语音数据的待测样本语音特征；将上述待测样本语音特征依次输入特征转换网络模型，以得到待测样本语音向量；依次将上述待测样本语音向量输入上述语音识别模型。

作为一种可选的实施方式，依次将上述待测样本语音向量输入上述语音识别模型包括：重复执行以下步骤，直至得到上述语音识别模型：获取当前待测样本语音向量；将上述当前待测样本语音向量输入当前语音识别模型，得到当前输出结；比对上述当前输出结果及与上述当前待测样本语音向量匹配的标签语音向量，得到识别错误比例；在上述识别错误比例未达到收敛条件的情况下，根据上述识别错误比例调整上述当前语音识别模型中的识别参数，以更新上述当前语音识别模型；获取下一个待测样本语音向量作为上述当前待测样本语音向量。

作为一种可选的实施方式，在上述比对上述当前输出结果及与上述当前待测样本语音向量匹配的标签语音向量，得到识别错误比例之后，包括：在连续多个上述识别错误比例均小于目标阈值的情况下，确定上述识别错误比例达到上述收敛条件。

根据本发明实施例的另一方面，还提供了一种语音转换装置，包括：第一获取单元，用于获取待转换的第一口音的语音数据；第一提取单元，用于提取上述第一口音的语音数据中的第一语音特征；转换单元，用于将上述第一语音特征转换为第一语音向量；第一输入单元，用于将上述第一语音向量输入语音识别模型，其中，上述语音识别模型为对多个样本语音数据进行机器训练的神经网络模型，用于将上述样本语音数据转换为目标口音的语音数据，上述多个样本语音数据为实际场景中产生的不同口音的语音数据；第二获取单元，用于获取上述语音识别模型的输出结果中携带的对上述第一口音的语音数据进行识别转换后所得到的上述目标口音的目标语音数据。

作为一种可选的实施方式，第三获取单元，用于在上述获取待转换的第一口音的语音数据之前，获取上述多个样本语音数据，其中，上述多个样本语音数据中包括至少两个口音的语音数据；第二提取单元，用于在上述获取待转换的第一口音的语音数据之前，提取上述多个样本语音数据中每个样本语音数据的样本语音特征；第二输入单元，用于在上述获取待转换的第一口音的语音数据之前，将每个上述样本语音数据的上述样本语音特征依次输入初始分类模型进行机器训练，以得到口音分类模型，其中，上述口音分类模型用于区分上述样本语音数据的口音类型，上述口音分类模型的输出结果包括：上述样本语音数据的上述口音类型为上述目标口音，上述样本语音数据的上述口音类型并非上述目标口音。

作为一种可选的实施方式，第四获取单元，用于在上述获取上述多个样本语音数据之后，从上述多个样本语音数据中获取待测样本语音数据；第三提取单元，用于在上述获取上述多个样本语音数据之后，提取上述至少一个待测样本语音数据中每个待测样本语音数据的待测样本语音特征；第三输入单元，用于在上述获取上述多个样本语音数据之后，将上述待测样本语音特征依次输入特征转换网络模型，以得到待测样本语音向量；第四输入单元，用于在上述获取上述多个样本语音数据之后，依次将上述待测样本语音向量输入上述语音识别模型。

作为一种可选的实施方式，上述第四输入单元包括：重复模块，用于重复执行以下步骤，直至得到上述语音识别模型：第一获取模块，用于获取当前待测样本语音向量；输入模块，用于将上述当前待测样本语音向量输入当前语音识别模型，得到当前输出结果；比对模块，用于比对上述当前输出结果及与上述当前待测样本语音向量匹配的标签语音向量，得到识别错误比例；更新模块，用于在上述识别错误比例未达到收敛条件的情况下，根据上述识别错误比例调整上述当前语音识别模型中的识别参数，以更新上述当前语音识别模型；第二获取模块，用于获取下一个待测样本语音向量作为上述当前待测样本语音向量。

作为一种可选的实施方式，包括：确定模块，用于在上述比对上述当前输出结果及与上述当前待测样本语音向量匹配的标签语音向量，得到识别错误比例之后，在连续多个上述识别错误比例均小于目标阈值的情况下，确定上述识别错误比例达到上述收敛条件。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述语音转换方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的语音转换方法。

在本发明实施例中，采用获取待转换的第一口音的语音数据，并提取上述第一口音的语音数据中的第一语音特征，以及将上述第一语音特征转换为第一语音向量，将上述第一语音向量输入语音识别模型，进而获取上述语音识别模型的输出结果中携带的对上述第一口音的语音数据进行识别转换后所得到的上述目标口音的目标语音数据的方式，通过训练容易收集到的标准普通话口音数据，从而实现了降低带口音语音识别系统的训练成本的技术效果，进而解决了由于收集与标注带口音训练数据的难度系数高造成的带口音语音识别系统的训练成本高的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的语音转换方法的流程示意图；

图2是根据本发明实施例的一种可选的语音转换方法的示意图；

图3是根据本发明实施例的另一种可选的语音转换方法的示意图；

图4是根据本发明实施例的另一种可选的语音转换方法的示意图；

图5是根据本发明实施例的另一种可选的语音转换方法的示意图；

图6是根据本发明实施例的一种可选的语音转换装置的示意图；

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种语音转换方法，可选地，作为一种可选的实施方式，如图1所示，上述语音转换方法包括：

S102，获取待转换的第一口音的语音数据；

S104，提取第一口音的语音数据中的第一语音特征；

S106，将第一语音特征转换为第一语音向量；

S108，将第一语音向量输入语音识别模型，其中，语音识别模型为对多个样本语音数据进行机器训练的神经网络模型，用于将样本语音数据转换为目标口音的语音数据，多个样本语音数据为实际场景中产生的不同口音的语音数据；

S110，获取语音识别模型的输出结果中携带的对第一口音的语音数据进行识别转换后所得到的目标口音的目标语音数据

可选的，上述语音转换方法可以但不限于应用在标准口音转化为目标口音的场景下，还可以但不限于应用在多种类型语言转化的场景下。可选的，在本实施例中，第一口音可以但不限于为标准口音或指定口音。其中，标准口音可以但不限于为标准普通话口音。指定口音可以但不限于为指定的非普通话口音，如粤语、闽南话、四川话等。提取第一口音的语音数据中的第一语音特征可以但不限于基于Mel频率倒谱系数(Mel-FrequencyCepstrum Coefficients，简称MFCC)。语音识别模型可以但不限于基于第一语音特征，并通过隐含马尔柯夫模型(Hidden Markov Model，简称HMM)以及深度神经网络(Deep NeuralNetwork，简称DNN)共同实现的。

需要说明的是，在本实施例中，获取待转换的第一口音的语音数据，并提取第一口音的语音数据中的第一语音特征，以及将第一语音特征转换为第一语音向量，进而将第一语音向量输入语音识别模型，最终获取语音识别模型的输出结果中携带的对第一口音的语音数据进行识别转换后所得到的目标口音的目标语音数据。其中，多个样本语音数据为实际场景中产生的不同口音的语音数据可以但不限于表示，上述样本语音数据为非处理过或精密处理过的语音数据，换而言之，上述样本语音数据具备获取途径多、采集难度小或购买成本低等特征。可选的，样本语音数据可以但不限于为标准口音(标准普通话)数据和/或非标准口音(非标准普通话，如带方言口音等)数据。

进一步举例说明，可选的，如图2所示步骤S202-210，假设第一口音的语音数据为语音数据202，从语音数据202中提取语音数据特征204，并将语音数据特征204输入至语音特征转换模型206，进而语音特征转换模型206将语音数据特征204转换为语音数据向量208，并根据语音数据向量208训练出语音识别模型210，以实现输入的语音数据向量202、输出目标口音的语音数据212的效果。

通过本申请提供的实施例，利用实际场景中产生的不同口音的语音数据训练获得的语音识别模型，通过输入第一口音的语音数据，获取目标口音的目标语音数据，实现了降低带口音语音识别系统的训练成本的技术效果。

作为一种可选的方案，在获取待转换的第一口音的语音数据之前，还包括：

S1，获取多个样本语音数据，其中，多个样本语音数据中包括至少两个口音的语音数据；

S2，提取多个样本语音数据中每个样本语音数据的样本语音特征；

S3，将每个样本语音数据的样本语音特征依次输入初始分类模型进行机器训练，以得到口音分类模型，其中，口音分类模型用于区分样本语音数据的口音类型，口音分类模型的输出结果包括：样本语音数据的口音类型为目标口音，样本语音数据的口音类型并非目标口音。

可选的，在本实施例中，口音分类模型可以但不限于为径向基(RBF-Radial BasisFunction，简称RBF)神经网络模型、自组织神经网络模型、二分类神经网络模型等。

需要说明的是，在本实施例中，获取多个样本语音数据，其中，多个样本语音数据中包括至少两个口音的语音数据，并提取多个样本语音数据中每个样本语音数据的样本语音特征，以及将每个样本语音数据的样本语音特征依次输入初始分类模型进行机器训练，以得到口音分类模型。

进一步举例说明，可选的，如图3所示步骤S302-306：假设样本语音数据中包括了为标准口音数据的语音数据A302，以及为非标准口音数据(如带粤语语音数据)的语音数据B304，进而对上述语音数据A302与语音数据B304作特征提取，获取语音特征306；进一步，将上述语音特征306输入初始分类模型进行机械训练，进而获取口音分类模型308；最终，通过口音分类模型308，输入语音数据A302与语音数据B304，输出分类判别结果310，其中，分类判别结果310中可以但不限于包括判别标准口音特征结果、判别非标准口音特征结果，其中，判别非标准口音特征结果还可以但不限于包括判别粤语口音特征结果、判别四川话口音特征结果等。

通过本申请提供的实施例，利用获取多个样本语音数据并提取多个样本语音数据中每个样本语音数据的样本语音特征的方式，通过将每个样本语音数据的样本语音特征依次输入初始分类模型进行机器训练，以得到口音分类模型，实现了提高样本语音数据处理效率的技术效果。

作为一种可选的方案，在获取多个样本语音数据之后，还包括：

S1，从多个样本语音数据中获取待测样本语音数据；

S2，提取至少一个待测样本语音数据中每个待测样本语音数据的待测样本语音特征；

S3，将待测样本语音特征依次输入特征转换网络模型，以得到待测样本语音向量；

S4，依次将待测样本语音向量输入语音识别模型。

需要说明的是，在本实施例中，从多个样本语音数据中获取待测样本语音数据；提取至少一个待测样本语音数据中每个待测样本语音数据的待测样本语音特征；将待测样本语音特征依次输入特征转换网络模型，以得到待测样本语音向量；依次将待测样本语音向量输入语音识别模型。可选的，待测样本语音数据可以但不限于为多个样本语音数据中随机抽取的样本语音数据。

进一步举例说明，可选的，如图4所示步骤S402-410，假设样本语音数据为语音数据B402，在语音数据B402中随机抽取并获得待测样本语音数据404，进一步提取并获得待测样本语音数据404中的语音数据B特征406，并将语音数据B特征406输入语音特征转换模型408中，进而获得语音特征转换模型转换后并输出的语音数据B向量410，最终将语音数据B向量410输入语音识别模型412中。

通过本申请提供的实施例，利用从多个样本语音数据中获取待测样本语音数据，提取至少一个待测样本语音数据中每个待测样本语音数据的待测样本语音特征；将待测样本语音特征依次输入特征转换网络模型，以得到待测样本语音向量；依次将待测样本语音向量输入初始语音识别模型的方式，实现了提高语音识别模块的识别准确性的效果。

作为一种可选的方案，依次将待测样本语音向量输入语音识别模型包括：

S1，重复执行以下步骤，直至得到语音识别模型：

S2，获取当前待测样本语音向量；

S3，将当前待测样本语音向量输入当前语音识别模型，得到当前输出结果；

S4，比对当前输出结果及与当前待测样本语音向量匹配的标签语音向量，得到识别错误比例；

S5，在识别错误比例未达到收敛条件的情况下，根据识别错误比例调整当前语音识别模型中的识别参数，以更新当前语音识别模型；

S6，获取下一个待测样本语音向量作为当前待测样本语音向量。

需要说明的是，在本实施例中，重复执行以下步骤，直至得到语音识别模型，获取当前待测样本语音向量，将当前待测样本语音向量输入当前语音识别模型，得到当前输出结果；比对当前输出结果及与当前待测样本语音向量匹配的标签语音向量，得到识别错误比例，在识别错误比例未达到收敛条件的情况下，根据识别错误比例调整当前语音识别模型中的识别参数，以更新当前语音识别模型，最终获取下一个待测样本语音向量作为当前待测样本语音向量。可选的，当前待测样本语音向量匹配的标签语音向量可以但不限于由口音分类模型输出获得的。可选的，当前待测样本语音向量匹配的标签语音向量可以但不限于由语音特征转换模型、口音分类模型中获取。

进一步举例说明，可选的，如图5所示步骤S502-524，假设样本语音数据为语音数据B512，第一语言数据为语音数据A502，首先提取语音特征514，并将提取的语音特征514输入口音分类模型516，进而输出分类判定结果518；单独提取语音数据A502的语音数据A特征504，并将提取的语音数据A特征504输入语音特征转换模型506以得到语音数据A向量508，进而根据得到语音数据A向量508训练得到语音识别模型510；从语音数据B512中抽取待测样本语音数据520，并提取抽取待测样本语音数据520的语音数据B特征522，且将提取到的语音数据B特征522输入语音特征转换模型524中，进而将语音特征转换模型524转换后得到的对应向量输入语音识别模型510中，并将识别结果输出；进一步，根据上述识别结果与分类判定结果518，获得识别错误比例526，进而以识别错误比例526为损失函数的参考值，持续更新(训练)语音识别模型510，并直至识别错误比例526达到收敛条件的情况下，确定当前的语音识别模型510为最终语音识别模型。

通过本申请提供的实施例，利用识别错误比例调整当前语音识别模型中的识别参数，以更新当前语音识别模型的方式，实现了提高语音识别模型识别准确率的效果。

作为一种可选的方案，在比对当前输出结果及与当前待测样本语音向量匹配的标签语音向量，得到识别错误比例之后，包括：

在连续多个识别错误比例均小于目标阈值的情况下，确定识别错误比例达到收敛条件。

需要说明的是，在本实施例中，在连续多个识别错误比例均小于目标阈值的情况下，确定识别错误比例达到收敛条件。可选的，连续多个可以但不限于为至少两个或两个以上。

进一步举例说明，可选的，假设将第一段待测样本语音向量输入当前语音识别模型，其中，第一段待测样本语音数据为多段带粤语口音的语音数据中，随机抽取的一段语音数据(包含十个语音向量)。进一步，输出当前语音识别模型对待测样本语音向量的识别结果，并与待测样本语音向量匹配的标签语音向量比对发现，十个语音向量中，存在两个非待测样本语音向量匹配的标签语音向量的语音向量，则当前的识别错误比例为一比四；进一步，再此从多段带粤语口音的语音数据中抽取第二段待测样本语音数据，并确定当前第二段的识别错误比例为一比五。进一步，预设目标阈值为一比二，则连续两个识别错误比例均小于目标阈值，在预设收敛条件为连续两识别错误比例均小于目标阈值的情况下，确定识别错误比例达到收敛条件。

通过本申请提供的实施例，利用在连续多个识别错误比例均小于目标阈值的情况下，确定识别错误比例达到收敛条件的方式，实现了提高语音识别模块收敛效率的效果。

根据本发明实施例的另一个方面，还提供了一种用于实施上述语音转换方法的语音转换装置。如图6示，该装置包括：

第一获取单元602，获取待转换的第一口音的语音数据；

第一提取单元604，用于提取第一口音的语音数据中的第一语音特征；

转换单元606，用于将第一语音特征转换为第一语音向量；

第一输入单元608，用于将第一语音向量输入语音识别模型，其中，语音识别模型为对多个样本语音数据进行机器训练的神经网络模型，用于将样本语音数据转换为目标口音的语音数据，多个样本语音数据为实际场景中产生的不同口音的语音数据；

第二获取单元610，用于获取语音识别模型的输出结果中携带的对第一口音的语音数据进行识别转换后所得到的目标口音的目标语音数据。

可选的，上述语音转换方法可以但不限于应用在标准口音转化为目标口音的场景下，还可以但不限于应用在多种类型语言转化的场景下。可选的，在本实施例中，第一口音可以但不限于为标准口音或指定口音。其中，标准口音可以但不限于为标准普通话口音。指定口音可以但不限于为指定的非普通话口音，如粤语、闽南话、四川话等。提取第一口音的语音数据中的第一语音特征可以但不限于基于Mel频率倒谱系数(Mel-FrequencyCepstrum Coefficient，简称MFCC)。语音识别模型可以但不限于基于第一语音特征，并通过隐含马尔柯夫模型(Hidden Markov Model，简称HMM)以及深度神经网络(Deep NeuralNetwork，简称DNN)共同实现的。

需要说明的是，在本实施例中，获取待转换的第一口音的语音数据，并提取第一口音的语音数据中的第一语音特征，以及将第一语音特征转换为第一语音向量，进而将第一语音向量输入语音识别模型，最终获取语音识别模型的输出结果中携带的对第一口音的语音数据进行识别转换后所得到的目标口音的目标语音数据。其中，多个样本语音数据为实际场景中产生的不同口音的语音数据可以但不限于表示，上述样本语音数据为非处理过或精密处理过的语音数据，换而言之，上述样本语音数据具备的获取途径多、采集难度小或购买成本低等特征。可选的，样本语音数据可以但不限于为标准口音(标准普通话)数据和/或非标准口音(非标准普通话，如带方言口音等)数据。

进一步举例说明，可选的，如图2所示步骤S202-210，假设第一口音的语音数据为语音数据202，从语音数据202中提取语音数据特征204，并将语音数据特征204输入至语音特征转换模型206，进而语音特征转换模型206将语音数据特征204转换为语音数据向量208，并根据语音数据向量208训练出语音识别模型210，最终实现输入语音数据向量202、输出目标口音的语音数据212的效果。

作为一种可选的方案，还包括：

第三获取单元，用于在获取待转换的第一口音的语音数据之前，获取多个样本语音数据，其中，多个样本语音数据中包括至少两个口音的语音数据；

第二提取单元，用于在获取待转换的第一口音的语音数据之前，提取多个样本语音数据中每个样本语音数据的样本语音特征；

第二输入单元，用于在获取待转换的第一口音的语音数据之前，将每个样本语音数据的样本语音特征依次输入初始分类模型进行机器训练，以得到口音分类模型，其中，口音分类模型用于区分样本语音数据的口音类型，口音分类模型的输出结果包括：样本语音数据的口音类型为目标口音，样本语音数据的口音类型并非目标口音。

作为一种可选的方案，还包括：

第四获取单元，用于在获取多个样本语音数据之后，从多个样本语音数据中获取待测样本语音数据；

第三提取单元，用于在获取多个样本语音数据之后，提取至少一个待测样本语音数据中每个待测样本语音数据的待测样本语音特征；

第三输入单元，用于在获取多个样本语音数据之后，将待测样本语音特征依次输入特征转换网络模型，以得到待测样本语音向量；

第四输入单元，用于在获取多个样本语音数据之后，依次将待测样本语音向量输入语音识别模型。

进一步举例说明，可选的，如图4所示步骤S402-410，假设样本语音数据为语音数据B412，在语音数据B412中随机抽取并获得待测样本语音数据404，进一步提取并获得待测样本语音数据404中的语音数据A特征404，并将语音数据A特征404输入语音特征转换模型406中，进而获得语音特征转换模型408转换后并输出的语音数据B向量408，最终将语音数据B向量408输入语音识别模型410中。

作为一种可选的方案，第四输入单元包括：

重复模块，用于重复执行以下步骤，直至得到语音识别模型：

第一获取模块，用于获取当前待测样本语音向量；

输入模块，用于将当前待测样本语音向量输入当前语音识别模型，得到当前输出结果；

比对模块，用于比对当前输出结果及与当前待测样本语音向量匹配的标签语音向量，得到识别错误比例；

更新模块，用于在识别错误比例未达到收敛条件的情况下，根据识别错误比例调整当前语音识别模型中的识别参数，以更新当前语音识别模型；

第二获取模块，用于获取下一个待测样本语音向量作为当前待测样本语音向量。

作为一种可选的方案，包括：

确定模块，用于在比对当前输出结果及与当前待测样本语音向量匹配的标签语音向量，得到识别错误比例之后，在连续多个识别错误比例均小于目标阈值的情况下，确定识别错误比例达到收敛条件。

根据本发明实施例的又一个方面，还提供了一种语音转换方法的电子装置，电子装置包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取待转换的第一口音的语音数据；

S2，提取第一口音的语音数据中的第一语音特征；

S3，将第一语音特征转换为第一语音向量；

S4，将第一语音向量输入语音识别模型，其中，语音识别模型为对多个样本语音数据进行机器训练的神经网络模型，用于将样本语音数据转换为目标口音的语音数据，多个样本语音数据为实际场景中产生的不同口音的语音数据；

S5，获取语音识别模型的输出结果中携带的对第一口音的语音数据进行识别转换后所得到的目标口音的目标语音数据。

需要说明的是，对于前述的各装置实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

可选地，本领域普通技术人员可以理解，本申请实施例中的结构仅为示意，电子装置可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。本申请实施例并不对上述电子装置的结构造成限定。例如，电子装置还可包括更多或者更少的组件(如网络接口等)，或者更多不同的配置。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的一种语音转换方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述语音转换方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器具体可以但不限于用于存储语音数据、语音特征、语音向量、语音识别模型等信息。作为一种示例，上述存储器、中可以但不限于包括上述语音转换装置中的第一获取单元602、第一提取单元604、转换单元606、第一输入单元608以及第二获取单元610，还可以包括但不限于上述语音转换装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置包括一个网络适配器(NetworkInterface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：播放器，用于播放上述语音数据、语音特征、语音向量等；和连接总线，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取待转换的第一口音的语音数据；

S2，提取第一口音的语音数据中的第一语音特征；

S3，将第一语音特征转换为第一语音向量；

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上上述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音转换方法，其特征在于，包括：

获取待转换的第一口音的语音数据；

提取所述第一口音的语音数据中的第一语音特征；

将所述第一语音特征转换为第一语音向量；

将所述第一语音向量输入语音识别模型，其中，所述语音识别模型为对多个样本语音数据进行机器训练的神经网络模型，用于将所述样本语音数据转换为目标口音的语音数据，所述多个样本语音数据为实际场景中产生的不同口音的语音数据、且所述样本语音数据为非处理过或精密处理过的语音数据；在对所述语音识别模型进行机器训练的过程中，比对当前语音识别模型的当前输出结果及与当前待测样本语音向量匹配的标签语音向量，得到识别错误比例；在所述识别错误比例未达到收敛条件的情况下，根据所述识别错误比例调整所述当前语音识别模型中的识别参数，以更新所述当前语音识别模型；其中，所述当前待测样本语音向量匹配的标签语音向量是由口音分类模型输出获得的，其中，所述口音分类模型用于区分所述样本语音数据的口音类型，所述口音分类模型的输出结果包括：所述样本语音数据的所述口音类型为目标口音，所述样本语音数据的所述口音类型并非所述目标口音；

获取所述语音识别模型的输出结果中携带的对所述第一口音的语音数据进行识别转换后所得到的所述目标口音的目标语音数据。

2.根据权利要求1所述的方法，其特征在于，在所述获取待转换的第一口音的语音数据之前，还包括：

获取所述多个样本语音数据，其中，所述多个样本语音数据中包括至少两个口音的语音数据；

提取所述多个样本语音数据中每个样本语音数据的样本语音特征；

将每个所述样本语音数据的所述样本语音特征依次输入初始分类模型进行机器训练，以得到口音分类模型，其中，所述口音分类模型用于区分所述样本语音数据的口音类型，所述口音分类模型的输出结果包括：所述样本语音数据的所述口音类型为所述目标口音，所述样本语音数据的所述口音类型并非所述目标口音。

3.根据权利要求2所述的方法，其特征在于，在所述获取所述多个样本语音数据之后，还包括：

从所述多个样本语音数据中获取待测样本语音数据；

提取所述至少一个待测样本语音数据中每个待测样本语音数据的待测样本语音特征；

将所述待测样本语音特征依次输入特征转换网络模型，以得到待测样本语音向量；

依次将所述待测样本语音向量输入所述语音识别模型。

4.根据权利要求3所述的方法，其特征在于，依次将所述待测样本语音向量输入所述语音识别模型包括：

重复执行以下步骤，直至得到所述语音识别模型：

获取当前待测样本语音向量；

将所述当前待测样本语音向量输入当前语音识别模型，得到当前输出结果；

比对所述当前输出结果及与所述当前待测样本语音向量匹配的标签语音向量，得到识别错误比例；

在所述识别错误比例未达到收敛条件的情况下，根据所述识别错误比例调整所述当前语音识别模型中的识别参数，以更新所述当前语音识别模型；

获取下一个待测样本语音向量作为所述当前待测样本语音向量。

5.根据权利要求4所述的方法，其特征在于，在所述比对所述当前输出结果及与所述当前待测样本语音向量匹配的标签语音向量，得到识别错误比例之后，包括：

在连续多个所述识别错误比例均小于目标阈值的情况下，确定所述识别错误比例达到所述收敛条件。

6.一种语音转换装置，其特征在于，包括：

第一获取单元，用于获取待转换的第一口音的语音数据；

第一提取单元，用于提取所述第一口音的语音数据中的第一语音特征；

转换单元，用于将所述第一语音特征转换为第一语音向量；

第一输入单元，用于将所述第一语音向量输入语音识别模型，其中，所述语音识别模型为对多个样本语音数据进行机器训练的神经网络模型，用于将所述样本语音数据转换为目标口音的语音数据，所述多个样本语音数据为实际场景中产生的不同口音的语音数据、且所述样本语音数据为非处理过或精密处理过的语音数据；在对所述语音识别模型进行机器训练的过程中，比对当前语音识别模型的当前输出结果及与当前待测样本语音向量匹配的标签语音向量，得到识别错误比例；在所述识别错误比例未达到收敛条件的情况下，根据所述识别错误比例调整所述当前语音识别模型中的识别参数，以更新所述当前语音识别模型；其中，所述当前待测样本语音向量匹配的标签语音向量是由口音分类模型输出获得的，其中，所述口音分类模型用于区分所述样本语音数据的口音类型，所述口音分类模型的输出结果包括：所述样本语音数据的所述口音类型为目标口音，所述样本语音数据的所述口音类型并非所述目标口音；

第二获取单元，用于获取所述语音识别模型的输出结果中携带的对所述第一口音的语音数据进行识别转换后所得到的所述目标口音的目标语音数据。

7.根据权利要求6所述的装置，还包括：

第三获取单元，用于在所述获取待转换的第一口音的语音数据之前，获取所述多个样本语音数据，其中，所述多个样本语音数据中包括至少两个口音的语音数据；

第二提取单元，用于在所述获取待转换的第一口音的语音数据之前，提取所述多个样本语音数据中每个样本语音数据的样本语音特征；

第二输入单元，用于在所述获取待转换的第一口音的语音数据之前，将每个所述样本语音数据的所述样本语音特征依次输入初始分类模型进行机器训练，以得到口音分类模型，其中，所述口音分类模型用于区分所述样本语音数据的口音类型，所述口音分类模型的输出结果包括：所述样本语音数据的所述口音类型为所述目标口音，所述样本语音数据的所述口音类型并非所述目标口音。

8.根据权利要求7所述的装置，还包括：

第四获取单元，用于在所述获取所述多个样本语音数据之后，从所述多个样本语音数据中获取待测样本语音数据；

第三提取单元，用于在所述获取所述多个样本语音数据之后，提取所述至少一个待测样本语音数据中每个待测样本语音数据的待测样本语音特征；

第三输入单元，用于在所述获取所述多个样本语音数据之后，将所述待测样本语音特征依次输入特征转换网络模型，以得到待测样本语音向量；

第四输入单元，用于在所述获取所述多个样本语音数据之后，依次将所述待测样本语音向量输入所述语音识别模型。

9.根据权利要求8所述的装置，所述第四输入单元包括：

重复模块，用于重复执行以下步骤，直至得到所述语音识别模型：

第一获取模块，用于获取当前待测样本语音向量；

输入模块，用于将所述当前待测样本语音向量输入当前语音识别模型，得到当前输出结果；

比对模块，用于比对所述当前输出结果及与所述当前待测样本语音向量匹配的标签语音向量，得到识别错误比例；

更新模块，用于在所述识别错误比例未达到收敛条件的情况下，根据所述识别错误比例调整所述当前语音识别模型中的识别参数，以更新所述当前语音识别模型；

第二获取模块，用于获取下一个待测样本语音向量作为所述当前待测样本语音向量。

10.根据权利要求9所述的装置，包括：

确定模块，用于在所述比对所述当前输出结果及与所述当前待测样本语音向量匹配的标签语音向量，得到识别错误比例之后，在连续多个所述识别错误比例均小于目标阈值的情况下，确定所述识别错误比例达到所述收敛条件。

11.一种计算机可读的存储介质，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至5任一项中所述的方法。

12.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至5任一项中所述的方法。