CN109074804A

CN109074804A - 基于口音的语音识别处理方法、电子设备和存储介质

Info

Publication number: CN109074804A
Application number: CN201880000936.0A
Authority: CN
Inventors: 谢冠宏; 廖明进; 高铭坤
Original assignee: Shenzhen Magic Ear Intelligent Acoustics Technology Co Ltd
Current assignee: Shenzhen Magic Ear Intelligent Acoustics Technology Co Ltd
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2018-12-21
Anticipated expiration: 2038-07-18
Also published as: CN109074804B; WO2020014890A1

Abstract

本申请涉及一种基于口音的语音识别处理方法、电子设备和存储介质。该方法包括：接收并识别预设数量的训练语音指令，得到与各训练语音信号对应的语音识别结果；当满足预设的训练触发条件时，触发进入口音训练状态，对各训练语音指令的语音识别结果进行比对，得到比对结果；当比对结果满足一致性条件时，将语音识别结果与标准语音指令进行模糊匹配，得到候选标准语音指令；对候选标准语音指令进行确认，确定与训练语音指令匹配的标准语音指令；根据训练语音指令以及匹配的标准语音指令，确定训练语音指令的口音特征，口音特征用于修正识别携带有对应口音特征的待识别的语音指令。利用口音训练得到修正语音指令的口音特征，从而提高识别准确率。

Description

基于口音的语音识别处理方法、电子设备和存储介质

技术领域

本申请涉及语音识别技术领域，特别是涉及一种基于口音的语音识别处理方法、电子设备和存储介质。

背景技术

随着移动互联网、车联网和智能家居的发展，语音识别发挥了越来越重要的作用。比如，通过语音实现与车载信息通讯系统的交互、通过语音指令控制智能家居等。随着语音识别技术的广泛应用，提高语音识别的准确率也成为语音识别技术发展所面临的重点及难点。

在传统技术中，语音识别的研究以及开发基本是基于标准普通话，然而，在实际应用中，用户发音往往难以达到标准普通话的水平，而是通常携带有不同的口音。由于传统的语音识别算法均是基于标准普通话建立的，因此，当面临携带有口音的语音时，无法识别出口音，导致语音识别的准确率很低。

发明内容

根据本申请的各种实施例，提供一种能够提高语音识别准确率的基于口音的语音识别处理方法、电子设备和存储介质。

一种基于口音的语音识别处理方法，所述方法包括：

接收并识别预设数量的训练语音指令，得到与各所述训练语音信号对应的语音识别结果；

当满足预设的训练触发条件时，触发进入口音训练状态，对各所述训练语音指令的所述语音识别结果进行比对，得到比对结果；

当比对结果满足一致性条件时，将所述语音识别结果与标准语音指令进行模糊匹配，得到候选标准语音指令；

对所述候选标准语音指令进行确认，确定与所述训练语音指令匹配的标准语音指令；

根据所述训练语音指令以及匹配的所述标准语音指令，确定所述训练语音指令的口音特征，所述口音特征用于修正识别携带有对应口音特征的待识别的语音指令。

一种电子设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如下步骤：

一个或多个存储有计算机可读指令的非易失性存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中基于口音的语音识别处理方法的应用环境图；

图2为一个实施例中基于口音的语音识别处理方法的流程示意图；

图3为一个实施例中触发口音训练并比对的步骤的流程示意图；

图4为另一个实施例中口音特征生成步骤的流程示意图；

图5为一个实施例中口音修正识别步骤的流程示意图；

图6为一个实施例中基于口音的语音识别处理方法的流程示意图；

图7为一个实施例中基于口音的语音识别处理装置的结构框图；

图8为一个实施例中电子设备的结构框图。

具体实施方式

为使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本申请，并不限定本申请的保护范围。

本申请提供的基于口音的语音识别处理方法，可以应用于如图1所示的应用环境中。其中，用户通过发送声音信号与电子设备102进行交互。具体地，由用户发出声音信号，电子设备102通过麦克风阵列采集用户发出的声音信号得到携带有相关信息的语音指令，对语音指令进行分析。以声音信号为进行口音训练的声音信号为例，电子设备102通过麦克风阵列采集用户连续发出的多次重复声音信号，得到携带有相关信息的训练语音指令，电子设备102再对训练语音指令进行初步识别，得到与各训练语音指令对应的语音识别结果。当满足预设的训练触发条件时，触发进入口音训练状态，通过口音训练，确定与训练语音指令匹配的标准语音指令。进而根据训练语音指令以及匹配的标准语音指令，确定训练语音指令的口音特征。在后续语音识别过程中，电子设备102利用口音特征，对待识别的语音指令进行修正识别，以准确得到与之匹配的标准语音指令。其中，电子设备102可以是具有语音识别功能的电子设备，包括但不限于是各种智能家居设备、个人计算机、智能手机、语音交互机器人等。其中，智能家居设备为通过语音指令执行对应操作的设备，比如可实现语音控制的智能音箱、智能家电、车载语音控制系统等。

在一个实施例中，如图2所示，提供了一种基于口音的语音识别处理方法，以该方法应用于图1中的电子设备为例进行说明，包括以下步骤：

S202，接收并识别预设数量的训练语音指令，得到与各训练语音指令对应的语音识别结果。

其中，语音指令通过麦克风阵列采集用户发出的声音信号得到的携带有控制指令文字内容的语音信号。以电子设备为智能音箱为例，当控制指令为唤醒指令时，其对应的语音指令为携带有“播放”这一文字内容的语音信号；当控制指令为切换指令时，其对应的语音指令为携带有“下一首”这一文字内容的语音信号。电子设备设置有麦克风阵列，采集声音信号。可以理解的是，为达到较好的语音信号的采集效果，可根据电子设备的应用场景，可采用环形麦克风阵列、线性麦克风阵列或立体麦克风阵列的任意一种。例如，对于智能音箱而言，为了采集360度范围内的声源信号，可采用环形麦克风阵列。

进一步地，训练语音指令是电子设备的麦克风阵列采集用户连续发出预设数量的、携带有特定文字内容的声音所得到的语音指令。训练语音指令携带了用户的口音特征。预设数量可根据需求预先进行设置。以智能语音设备为例，假设预设数量为3，当智能语音设备处于待机或者正常工作状态时，接收由用户连续发出的3次声音信号对应的语音指令。其中，基于不同电子设备，用户可发出不同特定文字内容的声音。比如，对于智能音箱或是智能家电，特定文字内容可以是这些设备的控制指令。在智能音箱口音训练状态下，特定文字可以为“开启”、“下一首”、“循环播放”等；在智能空调口音训练状态下，特定文字可以为“制冷”、“换气”，或者时特定的温度值，比如“27度”等。口音训练状态是指处于通过对接收到的训练语音指令进行处理，最终得到与训练语音指令匹配的标准语音指令过程的状态。

在本实施例中，每当用户在电子设备的麦克风阵列可接收范围内发出的声音信号时，电子设备麦克风阵列采集声音信号得到语音指令，由电子设备对接收到的语音指令进行识别，得到对应的语音识别结果并存储。对接收到的语音指令的数量进行判断，当接收到的语音指令的数量达到预设数量时，确定该预设数量的语音指令为训练语音指令。其中，识别方法为预设的语音识别算法。预设的语音识别算法为传统的语音识别算法，比如，基于神经网络的语音识别算法、基于DTW(Dynamic Time Warping，动态时间归整)的语音识别算法等。

S204，当满足预设的训练触发条件时，触发进入口音训练状态，对各训练语音指令的语音识别结果进行比对，得到比对结果。

训练触发条件是指可用于触发进入口音训练状态的条件。比如，接收到的训练语音指令是否在规定时长内发出等。

本实施例中，当接收到预设数量的训练语音指令时，判断是否满足预设的训练触发条件，当满足预设的训练触发条件时，触发进入口音训练状态，获取已存储的各训练语音指令的语音识别结果，将各语音识别结果进行比对，以判断各语音识别结果是否满足一致性条件。其中，比对结果是指各语音识别结果之间的相似度。一致性条件是指表示各语音识别结果对应的训练语音指令是否为相同语音指令，也即各训练语音指令是否携带有相同信息，比如，训练语音指令为由同一用户重复发出的预设数量的“开启”语音指令。具体地，一致性条件为各语音识别结果之间的相似度达到相似度阈值。通过对多次重复语音指令进行口音训练，确保最终得到的口音特征能够充分表示用户的口音。

此外，当判断是否满足预设的训练触发条件时，判断结果为不满足预设的训练触发条件时，当存在与最后接收到的语音指令对应的控制指令时，也即该语音指令的识别结果与控制指令文字内容相同时，则执行该控制指令对应的操作；否则，切换至接收训练语音指令前的待机或工作状态。比如，切换至待机模式，等待接收语音指令；或者切换至工作状态，执行接收训练语音指令之前的工作等。

S206，当比对结果满足一致性条件时，将语音识别结果与标准语音指令进行模糊匹配，得到候选标准语音指令。

其中，标准语音指令是指预存储的、可被精确识别的语音信息。通常，语音识别算法是基于标准普通话建立的识别算法，则标准语音指令是指符合标准普通话发音规律的语音信息。在智能语音设备中，标准语音指令为携带有控制指令文字内容的语音信息，且标准语音指令是可以被预设的语音识别算法准确识别出的。候选标准语音指令是指由标准语音指令匹配模型输出的结果。

具体地，当比对结果满足一致性条件时，对各语音识别结果进行模糊识别，得到一个模糊识别结果，将模糊识别结果与预存储的标准语音指令进行匹配，得到与训练语音指令匹配的候选标准语音指令。其中，模糊识别包括进行易混拼音替换、简单的语法分析等。

S208，对候选标准语音指令进行确认，确定与训练语音指令匹配的标准语音指令。

具体地，基于预设的确认方法对候选标准语音指令进行确认，当确认该候选标准语音指令与训练语音指令相同时，将该候选语音指令作为与训练语音指令匹配的标准语音指令。预设的确认方法既可以是基于用户反馈确认，也可以是基于所设定的自动确认规则进行确认。自动确认规则可以为当候选标准语音指令与训练语音指令之间的相似度达到预设值时，认为该候选语音指令与训练语音指令相同。

S210，根据训练语音指令以及匹配的标准语音指令，确定训练语音指令的口音特征，口音特征用于修正识别携带有对应口音特征的待识别的语音指令。

口音特征是指语音指令与标准语音指令相比，存在的特有特征。比如，口音特征包括训练语音指令本身的声音特征以及与标准语音指令相比存在的修正系数等。不同用户说出的声音，通常具有不同的口音特征。声音特征，顾名思义是指声音所包含的特征信息，比如音色、音调、语速等。在语音识别系统的模型中，通常包括声学模型和语言模型，分别对应于语音到音节概率的计算和音节到字概率的计算，通过声学模型可对声音特征进行提取。修正系数，又可称为口音识别修正系数，是指训练语音指令与标准语音指令之间的差异修正系数，比如，包括口音系数、误差系数等。口音训练状态下，电子设备根据采集得到的训练语音指令与特定文字内容对应的标准语音指令进行比较，得到匹配的标准语音指令，进一步对二者进行差异分析，得到口音识别修正系数。

具体地，对训练语音指令以及匹配的标准语音指令进行差异分析，确定训练语音指令的口音特征，以便在后续语音识别过程中，将口音特征应用于语音识别算法中，对语音指令进行修正识别，进而得到准确的语音识别结果。由于口音特征是基于训练语音指令与标准语音指令之间的差异分析得到，因此，基于该口音特征能够有效识别出携带有相应口音的语音指令。

上述基于口音的语音识别处理方法，通过接收并识别预设数量的训练语音指令，得到与各训练语音指令对应的语音识别结果。当满足预设的训练触发条件时，触发进入口音训练状态，对各训练语音指令的语音识别结果进行比对，当比对结果满足一致性条件时，将语音识别结果与标准语音信息进行模糊匹配，得到候选标准语音指令，并对候选标准语音指令进行确认，确定与训练语音指令匹配的标准语音指令。再根据训练语音指令以及匹配的标准语音指令，确定用于修正识别待识别语音指令的口音特征。通过充分考虑口音特征对语音识别结果的影响，利用口音训练得到口音特征，口音特征用于对待识别的语音指令进行修正识别，优化语音识别结果，从而提高语音识别的准确率。

在一实施例中，如图3所示，当满足预设的训练触发条件时，触发进入口音训练状态，将各语音指令的语音识别结果进行比对，得到比对结果的步骤，包括：

S302，获取接收训练语音指令的接收时长。

其中，接收时长是指第一次接收到训练语音指令到最后一次接收到训练语音指令的时间间隔长度。具体地，可通过记录每次接收到训练语音指令的时间点，基于时间点的计算获得接收时长；或者，在第一次接收到训练语音指令时启动计时器计时，最后一次接收到训练语音指令时结束计时，基于计时器的计时结果获得接收时长。

S304，当接收时长小于或等于预设时长时，触发进入口音训练状态。

其中，预设时长是指基于训练语音指令的估计时长而预先设定的时间长度。当训练语音指令的接收时长小于或等于预设时长时，说明当前需要进行口音训练；当训练语音指令的接收时长大于预设时长时，则说明当前并非需要进行口音训练。

本实施例中，判断接收时长是否小于或等于预设时长，当接收时长小于或等于预设时长时，则触发进入口音训练状态，以进行口音训练。可以理解，当接收时长大于预设时长时，判断是否存在与最后接收到的语音指令对应的控制指令，也即该语音指令的识别结果是否与控制指令文字内容相同，若是，则执行该控制指令对应的操作；否则，则切换至接收训练语音指令前的待机或工作状态。

S306，对各训练语音指令的语音识别结果进行比对，得到比对结果。

获取以存储的各训练语音指令的语音识别结果，将各语音识别结果进行比对，以判断各语音识别结果是否满足一致性条件。

在一具体实施例中，将各训练语音指令的语音识别结果进行比对，包括：对各语音识别结果进行相似度计算，得到各语音识别结果之间的相似度；当各语音识别结果之间的相似度达到相似度阈值时，确定比对结果满足一致性条件，也即各语音识别结果满足一致性条件。

其中，相似度阈值是指可确定各语音识别结果对应语音指令相同时，所需达到的最小相似度数值。可以理解，当各语音识别结果之间的相似度达到相似度阈值时，认为各语音识别结果对应的训练语音指令为重复相同的语音指令。

具体地，对各语音识别结果进行相似度计算，得到各语音识别结果之间的相似度，并判断各语音识别结果之间的相似度是否达到相似度阈值，若各语音识别结果之间的相似度达到相似度阈值，则确定语音识别结果满足一致性条件。

在一实施例中，对候选标准语音指令进行确认，确定与训练语音信号匹配的标准语音指令的步骤，包括：将候选标准语音指令输出；根据用户对候选标准语音指令的反馈，确定与训练语音指令匹配的标准语音指令。

具体地，当比对结果满足一致性条件时，将语音识别结果与预存储的标准语音指令进行模糊匹配，得到与语音识别结果模糊匹配的一个标准语音指令，并将该标准语音指令作为候选标准语音指令输出。用户通过输出的信息获取到候选标准语音指令时，判断该候选标准语音指令是否为与训练语音指令匹配的标准语音指令，也即该候选标准语音指令是否与训练语音指令所携带的文字内容相同，若相同则反馈确认信息，根据反馈的确认信息，确定该候选标准语音指令为与训练语音指令匹配的标准语音指令。其中，输出的方式可以是通过显示屏显示文字的方式，也可以是语音播报的方式。

在一实施例中，根据用户对候选标准语音指令的反馈，确定与语音识别结果匹配的标准语音指令的步骤，包括：接收用户对候选标准语音指令的反馈信息；当反馈信息包括语音识别结果和候选标准语音指令匹配的结果时，确定候选标准语音指令为与训练语音指令匹配的标准语音指令。

其中，反馈信息是指用户根据输出的候选标准语音指令反馈的信息，包括语音识别结果和候选标准语音指令匹配的结果，或者语音识别结果和候选标准语音指令不匹配的结果。具体地，可通过显示的指示信息输入确认信息(比如“是”)，以表示语音识别结果和候选标准语音指令匹配的结果；或者通过显示的指示信息输非确认信息(比如“否”)，以表示语音识别结果和候选标准语音指令不匹配的结果。

接收用户对候选标准语音指令的反馈信息，并对反馈信息进行分析，当反馈信息包括语音识别结果和候选标准语音指令匹配的结果时，确定候选标准语音指令为与训练语音指令匹配的标准语音指令。可以理解，与语音识别结果匹配的标准语音指令，也就是与该语音识别结果对应的训练语音指令匹配。

通过将训练语音指令的语音识别结果与标准语音指令进行模糊匹配，得到候选标准语音指令，进一步再由用户对匹配结果进行确认，提高匹配结果的准确性，确保训练语音指令与对应的标准语音指令匹配无误。

进一步地，当比对结果不满足一致性条件时，或者当反馈信息包括语音识别结果和候选标准语音指令不匹配的结果时，退出口音训练状态，切换至接收训练语音指令前的待机或工作状态。

在一实施例中，对候选标准语音指令进行确认，确定与训练语音指令匹配的标准语音指令之后，还包括：关联存储训练语音指令以及与训练语音指令匹配的标准语音指令。

通过将训练语音指令以及与训练语音指令匹配的标准语音指令关联存储，以便在满足口音特征确定确定条件时，获取已存储的训练语音指令以及与匹配的标准语音指令，执行口音特征确定的步骤。

进一步地，关联存储训练语音指令以及与训练语音指令对应的标准语音指令的步骤之后，还包括：退出口音训练状态，并切换至接收训练语音指令前的待机或工作状态。当完成本次口音训练时，则退出口音训练状态，并切换至接收训练语音指令前的待机或工作状态。

在一实施例中，关联存储训练语音指令以及与训练语音指令对应的标准语音指令的步骤之后，还包括：生成是否执行训练语音指令对应操作的提示信息并输出。用户根据该提示信息反馈是否执行训练语音指令对应操作的结果，若反馈的结果为执行训练语音指令对应操作，则执行与该训练语音指令匹配的标准语音指令对应的操作。

在一实施例中，口音特征包括：训练语音指令的声音特征和口音识别修正系数。如图4所示，根据训练语音指令以及匹配的标准语音指令，确定训练语音指令的口音特征，包括：

S402，当满足口音特征确定条件时，获取训练语音指令以及与训练语音指令匹配的标准语音指令。

其中，口音特征确定条件是指同一用户的口音训练达到预设次数。当同一用户的口音训练达到预设次数时，获取已存储的该用户的训练语音指令，以及与训练语音指令匹配的标准语音指令。

S404，分别得到训练语音指令以及标准语音指令的声音特征。

其中，标准语音指令是未携带有口音的语音信息，而与其对应的训练语音指令是指携带有与标准语音指令相同的特定文字信息、以及口音的语音信息，二者存在声音特征之间的差异。

本实施例中，基于声音特征的提取方法，分别提取得到训练语音指令的声音特征，以及标准语音指令的声音特征。其中，声音特征的提取方法可以采用传统的声学模型进行提取，比如采用常用的基于隐马尔可夫模型建立的声学模型、基于循环神经网络建立的声学模型等。

S406，根据训练语音指令以及标准语音指令的声音特征之间的差异，确定训练语音指令对应的口音识别修正系数。

具体地，对训练语音指令和标准语音指令的声音特征之间的差异进行分析，基于得到的差异系数确定训练语音指令对应的口音识别修正系数，以在语音识别过程中利用口音识别修正系数优化语音识别结果。

在一实施例中，如图5所示，基于口音的语音识别处理方法还包括：

S502，接收待识别的语音指令。

其中，语音指令通过麦克风阵列采集用户发出的声音信号得到的携带有控制指令文字内容的信号，通过语音指令可实现对对应智能语音设备的控制。可以理解，待识别的语音指令是指当前需要进行识别的语音指令。以电子设备为智能音箱为例，以电子设备为智能音箱为例，待识别的语音指令可以为携带有“播放”这一控制指令文字内容的语音信号；可以为携带有“下一首”这一控制指令文字内容的语音信号。

在本实施例中，当用户在电子设备的麦克风阵列可接收范围内发出的声音信号时，电子设备麦克风阵列采集得到待识别的语音指令。

S504，对语音指令进行分析，得到声音特征。

具体地，通过预设的语音识别算法中的声学模型对接收到的语音指令进行分析，提取该语音信号的声音特征。其中，预设的语音识别算法为传统的语音识别算法，比如，基于神经网络的语音识别算法、基于DTW(Dynamic Time Warping，动态时间归整)的语音识别算法等。

S506，当声音特征与存储的口音特征匹配时，获取匹配的口音特征对应的口音识别修正系数。

其中，口音特征是指电子设备基于口音训练得到的与训练语音指令对应的口音特征，口音特征中包括训练语音指令本身的声音特征，比如，包括训练语音指令的音色、音调、语速等。同时，口音特征中还包括用于修正待识别的语音指令的口音识别修正系数。

具体地，将待识别的语音指令的声音特征与已存储的口音特征中的声音特征进行匹配，得到与待识别的语音指令的声音特征匹配的口音特征，进而获取匹配的口音特征中的口音识别修正系数。

S508，根据口音识别修正系数对语音指令进行识别，得到语音识别结果。

具体地，将口音识别修正系数应用于语音识别算法中，对语音指令进行修正识别，进而得到语音识别结果。由于口音识别修正系数是基于训练语音指令与标准语音指令得到差异修正系数，因此，基于该差异修正系数能够有效识别出携带有相应口音的语音指令。

在得到待识别的语音指令的语音识别结果后，基于该语音识别结果即可执行对应的操作。以智能音箱为例，语音识别结果为“播放”指令，则控制智能音箱执行播放操作。

上述基于口音的语音识别处理方法，通过对待识别的语音指令进行分析，得到声音特征，当该声音特征与存储的口音特征匹配时，获取口音特征对应的口音识别修正系数，进而根据口音识别修正系数对该语音指令进行识别，得到语音识别结果。通过充分考虑口音特征对语音识别结果的影响，将待识别的语音指令的口音特征与存储的口音特征匹配，并得到匹配的口音特征对应的口音识别修正系数，进而基于口音特征对应的口音识别修正系数，对待识别的语音指令进行识别，以优化语音识别结果，从而提高了语音识别的准确率。

在一实施例中，根据口音识别修正系数对语音指令进行识别，得到语音识别结果，包括：根据口音识别修正系数，对语音指令进行修正；对修正后的语音指令进行识别，得到语音识别结果。

口音识别修正系数是基于训练语音指令与标准语音指令得到差异修正系数，基于该口音识别修正系数可建立训练语音指令与标准语音指令之间的修正关系，利用该修正关系以及口音识别修正系数，对接收到语音指令进行修正，而后基于预设的语音识别算法对修正后的语音指令进行识别，得到语音识别结果。

具体地，口音识别修正系数包括口音系数和误差系数，训练语音指令可被描述等价于为相匹配的标准语音指令与口音系数的乘积，再加上误差系数。因此，基于该描述关系以及已获得的口音系数和误差系数，即可对待识别的语音指令进行修正，使修正后的语音指令尽可能地符合标准语音指令。

通过利用口音识别修正系数对语音指令进行修正，使其尽可能地符合标准语音指令，进而对修正后的语音指令进行识别，一定程度优化了语音识别结果，提高了语音识别的准确率。

下面以智能音箱为例，对本申请的基于口音的语音识别处理方法进行说明，如图6所示，该方法包括以下步骤：

S601，接收并识别预设数量的训练语音指令，得到与各训练语音指令对应的语音识别结果。

具体地，智能音箱处于待机或者工作状态时，接收麦克风连续采集的多次训练语音指令。比如，通过麦克风采集到的用户连续发出的3次“随机模式”语音指令，每接收到一次“随机模式”指令时，均对该指令进行识别，并将识别结果存储至存储器。由于存在口音特征的干扰，识别结果难以达到完全精确的程度，比如第一次“随机模式”指令的识别结果为“谁机模式”对应的数据，第二次“随机模式”指令的识别结果为“随机模式”对应的数据、第三次“随机模式”指令的识别结果为“随机么事”对应的数据。在其他实施例中，通过麦克风采集的用户连续发出的3次指令可能为不同的指令，则对应的识别结果也为不同的识别结果。对接收到的语音信号的数量进行判断，当接收到的语音信号的数量达到预设数量3次时，确定该预设数量的语音信号为训练语音指令，进而判断是否满足预设的训练触发条件。

S602，获取接收训练语音指令的接收时长。

具体地，可通过记录每次接收到训练语音指令的时间点，基于时间点的计算获得接收时长；或者，在第一次接收到训练语音指令时启动计时器计时，最后一次接收到训练语音指令时结束计时，基于计时器的计时结果获得接收时长。比如，记录第一次接收到“随机模式”指令的时间点，以及第三次接收到“随机模式”指令的时间点，将该两个时间点的间隔时长作为接收时长。

S603，当接收时长小于或等于预设时长时，触发进入口音训练状态；否则执行步骤S611。

假设预设时长为30秒，则判断接收时长是否小于或等于30秒。当接收时长小于或等于30秒时，则触发进入智能音箱的口音训练状态，以进行口音训练；当接收时长大于预设时长时，判断是否存在与最后接收到的语音指令对应的控制指令，也即该语音指令的识别结果是否与控制指令文字内容相同，若是，则执行该控制指令对应的操作；否则，则退出口音训练状态，切换至接收训练语音指令前的待机或工作状态。假设不存在与最后接收到的语音指令对应的控制指令，且在接收训练语音语音指令前，智能音箱处于播放状态，则切换至播放状态继续播放歌曲。

S604，对各语音识别结果进行相似度计算，得到各语音识别结果之间的相似度。

本实施例中，对各语音识别结果进行相似度计算，得到各语音识别结果之间的相似度，以判断各语音识别结果之间的相似度是否达到相似度阈值。比如，分别计算“谁机模式”对应的数据和“随机模式”对应的数据的相似度、“谁机模式”对应的数据和“随机么事”对应的数据的相似度、“随机模式”对应的数据和“随机么事”对应的数据的相似度。

S605，当各语音识别结果之间的相似度达到相似度阈值时，确定比对结果满足一致性条件。

判断各语音识别结果之间的相似度是否达到相似度阈值，若各语音识别结果之间的相似度达到相似度阈值，则确定语音识别结果满足一致性条件。比如，“谁机模式”对应的数据和“随机模式”对应的数据的相似度、“谁机模式”对应的数据和“随机么事”对应的数据的相似度、“随机模式”对应的数据和“随机么事”对应的数据的相似度均达到99％时，则认为比对结果满足一致性条件。

S606，当比对结果满足一致性条件时，将语音识别结果与标准语音指令进行模糊匹配，得到候选标准语音指令；否则，执行步骤S611。

具体地，当各语音识别结果的比对结果满足一致性条件时，将语音识别结果与预存储的标准语音指令进行模糊匹配，得到与语音识别结果模糊匹配的一个标准语音指令，并将该标准语音指令作为候选标准语音指令。若不满足一致性条件，则退出口音训练状态，切换至接收训练语音指令前的待机或工作状态。

智能音箱中存储有可执行的标准语音指令，假设包括“随机模式”的标准语音指令。当各语音识别结果满足一致性条件时，将语音识别结果与预存储的标准语音指令进行模糊匹配，得到与语音识别结果模糊匹配的“随机模式”标准语音指令，并将“随机模式”作为候选标准语音指令通过智能音箱输出。比如通过智能音箱的扬声器输出。若三个相似度存在小于99％的情况时，则退出口音训练状态，切换至播放状态继续播放歌曲。

S607，将候选标准语音指令输出。其中，输出的方式为语音播报的方式。

S608，接收用户对候选标准语音指令的反馈信息。

S609，当反馈信息包括语音识别结果和候选标准语音指令匹配的结果时，确定候选标准语音指令为与训练语音指令匹配的标准语音指令；否则，执行步骤S611。

接收用户对候选标准语音指令的反馈信息，并对反馈信息进行分析，当反馈信息包括语音识别结果和候选标准语音指令匹配的结果时，确定候选标准语音指令为与语音指令匹配的标准语音指令。可以理解，与语音识别结果匹配的标准语音指令，也就是与该语音识别结果对应的训练语音指令匹配。当反馈信息包括语音识别结果和候选标准语音指令不匹配的结果时，退出口音训练状态，切换至接收语音指令前的待机或工作状态。

比如，反馈信息可以为“是”或者“否”的语音信息，智能音箱在输出候选标准语音指令后的预设时间内接收到“是”的语音信息时，确定候选标准语音指令“随机模式”为与训练语音指令匹配的标准语音指令。若接收到的为“否”的语音信息时，则退出口音训练状态，切换至播放状态继续播放歌曲。

S610，关联存储训练语音指令以及与训练语音指令匹配的标准语音信息。而后执行步骤S611。

通过训练语音指令以及与训练语音指令匹配的标准语音指令关联存储，以便在满足训练语音指令的修正系数确定条件时，获取已存储的训练语音指令以及与训练语音指令匹配的标准语音指令，执行口音识别修正系数提取的步骤。

比如，将接收到的三次“随机模式”训练语音指令与“随机模式”标准语音指令关联存储至智能音箱的存储器中。

S611，退出口音训练状态，执行语音指令对应的操作，或者，切换至接收语音指令前的待机或工作状态。

S612，当满足口音特征确定条件时，获取训练语音指令以及与训练语音指令匹配的标准语音指令。

当同一用户的口音训练达到预设次数时，获取已存储的该用户的训练语音指令，以及与训练语音指令匹配的标准语音指令。假设智能音箱对同一用户进行了7次口音训练，7次口音训练的训练语音指令分别为“播放”、“暂停”、“关闭”、“待机”、“下一首”、“随机模式”、“顺序播放”，获取7次训练语音指令及其匹配的标准语音指令。

S613，分别得到训练语音指令以及标准语音指令的声音特征。

基于声音特征的提取方法，分别提取得到训练语音指令以及标准语音指令的声音特征。

S614，根据训练语音指令以及标准语音指令的声音特征之间的差异，确定口音特征对应的口音识别修正系数。

具体地，对训练语音指令和标准语音指令的声音特征之间的差异进行分析，基于得到的差异系数确定训练语音指令的口音识别修正系数，以在语音识别过程中利用口音识别修正系数优化语音识别结果。

S615，接收待识别的语音指令。

当用户在电子设备的麦克风阵列可接收范围内发出的声音信号时，电子设备的麦克风阵列采集得到待识别的语音信号。比如，智能音箱通过麦克风采集到用户发出的“单曲循环”指令。

S616，对语音指令进行分析，得到声音特征。

通过预设的语音识别算法对接收到的语音指令进行分析，提取该语音指令的声音特征。比如，对接收到“单曲循环”指令进行分析，得到音色、音调、语速等口音特征。

S617，当声音特征与存储的口音特征匹配时，获取匹配的口音特征对应的口音识别修正系数。

智能语音设备预先存储有通过口音训练得到的口音特征，口音特征包括声音特征和口音识别修正系数。将待识别的语音指令的声音特征与存储的口音特征中的声音特征进行匹配，得到匹配的口音特征，获取匹配的口音特征对应的口音识别修正系数。

S618，根据口音识别修正系数，对语音指令进行修正。

S619，对修正后的语音指令进行识别，得到语音识别结果。

口音识别修正系数是基于训练语音指令与标准语音指令得到差异修正系数，基于该口音识别修正系数可建立训练语音指令与标准语音指令之间的修正关系，利用该修正关系以及口音识别修正系数，对接收到语音指令进行修正，而后基于预设的语音识别算法对修正后的语音指令进行识别，得到语音识别结果。比如，通过获得的口音识别修正系数对待识别的“单曲循环”指令进行指令，而后对修正后的“单曲循环”指令进行识别，得到识别结果，基于对携带有口音的“单曲循环”指令进行修正后再识别，确保“单曲循环”指令被准确识别出。

上述基于口音的语音识别处理方法，充分考虑了口音特征对语音识别结果的影响，将待识别的语音指令的声音特征与存储的口音特征匹配，并得到匹配的口音特征对应的口音识别修正系数，进而基于口音特征对应的口音识别修正系数，对待识别的语音指令进行识别。由于口音识别修正系数是基于训练语音指令与标准语音指令得到差异修正系数，因此，基于该差异修正系数能够有效识别出携带有相应口音的语音指令。

在一实施例中，如图7所示，提供一种基于口音的语音识别处理装置，该装置包括：语音识别模块702、比对模块704、匹配模块706、标准指令确认模块708和口音特征确定模块710。

语音识别模块702，用于接收并识别预设数量的训练语音指令，得到与各训练语音指令对应的语音识别结果。

在本实施例中，每当用户在电子设备的麦克风阵列可接收范围内发出的声音信号时，电子设备麦克风阵列采集声音信号得到语音指令，语音识别模块702接收语音指令，并对接收到的语音指令进行识别，得到对应的语音识别结果并存储。对接收到的语音指令的数量进行判断，当接收到的语音指令的数量达到预设数量时，确定该预设数量的语音指令为语音指令。其中，识别方法为预设的语音识别算法。预设的语音识别算法为传统的语音识别算法，比如，基于神经网络的语音识别算法、基于DTW(Dynamic Time Warping，动态时间归整)的语音识别算法等。

比对模块704，用于当满足预设的训练触发条件时，触发进入口音训练状态，对各训练语音指令的语音识别结果进行比对，得到比对结果。

本实施例中，当接收到预设数量的训练语音指令时，判断是否满足预设的训练触发条件，当满足预设的训练触发条件时，触发进入口音训练状态，获取已存储的各训练语音指令的语音识别结果，将各语音识别结果进行比对，以判断各语音识别结果是否满足一致性条件。其中，比对结果是指各语音识别结果之间的相似度。一致性条件是指表示各语音识别结果对应的训练语音指令是否为相同语音指令，也即各训练语音指令是否携带有相同信息，比如，训练语音指令为由同一用户重复发出的预设数量的“开启”语音信号。具体地，一致性条件为各语音识别结果之间的相似度达到相似度阈值。通过对多次重复语音指令进行口音训练，确保最终得到的口音特征能够充分表示用户的口音。

匹配模块706，用于当比对结果满足一致性条件时，将语音识别结果与标准语音指令进行模糊匹配，得到候选标准语音指令。

当比对结果满足一致性条件时，匹配模块706将语音识别结果与预存储的标准语音指令进行模糊匹配，基于匹配结果确定与训练语音指令匹配的标准语音指令。

标准指令确认模块708，用于对候选标准语音指令进行确认，确定与训练语音指令匹配的标准语音信息。

口音特征确定模块710，用于根据训练语音指令以及匹配的标准语音指令，确定训练语音指令的口音特征，口音特征用于修正识别携带有对应口音特征的待识别的语音指令。

具体地，口音特征确定模块710对训练语音指令以及匹配的标准语音指令进行差异分析，确定训练语音指令的口音特征。以便在后续语音识别过程中，将口音特征应用于语音识别算法中，对语音指令进行修正识别，进而得到语音识别结果。由于口音特征是基于训练语音指令与标准语音指令之间的差异分析得到，因此，基于该口音特征能够有效识别出携带有相应口音的语音指令。

上述基于口音的语音识别处理装置，通过接收并识别预设数量的训练语音指令，得到与各训练语音指令对应的语音识别结果。当满足预设的训练触发条件时，触发进入口音训练状态，对各训练语音指令的语音识别结果进行比对，当比对结果满足一致性条件时，将语音识别结果与标准语音信息进行模糊匹配，得到候选标准语音指令，并对候选标准语音指令进行确认，确定与训练语音指令匹配的标准语音指令。再根据训练语音指令以及匹配的标准语音指令，确定用于修正识别待识别语音指令的口音特征。通过充分考虑口音特征对语音识别结果的影响，利用口音训练得到口音特征，以基于口音特征对待识别的语音指令进行修正识别，优化语音识别结果，从而提高语音识别的准确率。

进一步地，比对模块704包括触发模块和比对执行模块。

其中，触发模块用于获取接收训练语音指令的接收时长；当接收时长小于或等于预设时长时，触发进入口音训练状态。

具体地，可通过记录每次接收到训练语音指令的时间点，基于时间点的计算获得接收时长；或者，在第一次接收到训练语音指令时启动计时器计时，最后一次接收到训练语音指令时结束计时，基于计时器的计时结果获得接收时长。判断接收时长是否小于或等于预设时长，当接收时长小于或等于预设时长时，则触发进入口音训练状态，以进行口音训练。可以理解，当接收时长大于预设时长时，则切换至接收训练语音指令前的待机或工作状态。

比对执行模块，用于对各训练语音指令的语音识别结果进行比对，得到比对结果。具体地，获取以存储的各训练语音指令的语音识别结果，将各语音识别结果进行比对，以判断各语音识别结果是否满足一致性条件。

在一实施例中，比对执行模块进一步包括：相似度计算模块和一致性确定模块。其中，相似度计算模块，用于对各语音识别结果进行相似度计算，得到各语音识别结果之间的相似度；一致性确定模块，用于当各语音识别结果之间的相似度达到相似度阈值时，确定比对结果满足一致性条件。

进一步地，匹配模块706包括：输出模块和反馈确定模块。其中，输出模块用于将候选标准语音指令输出；反馈确定模块用于根据用户对候选标准语音指令的反馈，确定与训练语音指令匹配的标准语音指令。

具体地，当比对结果满足一致性条件时，候选语音模块将语音识别结果与预存储的标准语音指令进行模糊匹配，得到与语音识别结果模糊匹配的一个标准语音指令，并将该标准语音指令作为候选标准语音指令输出。用户通过输出的信息获取到候选标准语音指令时，判断该候选标准语音指令是否为与训练语音指令匹配的标准语音信息，也即该候选标准语音指令是否与训练语音指令所携带的文字内容相同，若相同则反馈确认信息，反馈确定模块根据反馈的确认信息，确定该候选标准语音指令为与训练语音指令匹配的标准语音信息。

在一具体实施例中，反馈确定模块还用于接收用户对候选标准语音指令的反馈信息；当反馈信息包括语音识别结果和候选标准语音指令匹配的结果时，确定候选标准语音指令为与训练语音指令匹配的标准语音指令。

反馈确定模块接收用户对候选标准语音指令的反馈信息，并对反馈信息进行分析，当反馈信息包括语音识别结果和候选标准语音指令匹配的结果时，确定候选标准语音指令为与训练语音指令匹配的标准语音指令。可以理解，与语音识别结果匹配的标准语音指令，也就是与该语音识别结果对应的训练语音指令匹配。

进一步地，口音特征确定模块710包括：信号获取模块、声音特征模块和系数确定模块，其中：

信号获取模块，用于当满足口音特征确定条件时，获取训练语音指令以及与训练语音指令匹配的标准语音指令。

具体地，当同一用户的口音训练达到预设次数时，信号获取模块获取已存储的该用户的训练语音指令，以及与训练语音指令匹配的标准语音指令。

声音特征模块，用于分别得到训练语音指令以及标准语音指令的声音特征。

具体地，声音特征模块基于声音特征的提取方法，分别提取得到训练语音指令以及标准语音指令的声音特征。

系数确定模块，用于根据训练语音指令以及标准语音指令的声音特征之间的差异，确定训练语音指令对应的口音识别修正系数。

系数确定模块对训练语音指令和标准语音指令的声音特征之间的差异进行分析，基于得到的差异系数确定训练语音指令对应的口音识别修正系数，以在语音识别过程中利用口音识别修正系数优化语音识别结果。

在一实施例中，基于口音的语音识别处理装置还包括存储模块，用于关联存储训练语音指令以及与训练语音指令匹配的标准语音指令。通过将训练语音指令以及与训练语音指令匹配的标准语音指令关联存储，以便在满足训练语音指令的修正系数确定条件时，获取已存储的训练语音指令以及与匹配的标准语音指令，执行口音特征确定操作。

进一步地，基于口音的语音识别处理装置还包括状态切换模块，用于退出口音训练状态，并切换至接收训练语音指令前的待机或工作状态。

在一实施例中，基于口音的语音识别处理装置进一步包括：修正系数获取模块和修正识别模块。

在本实施例中，语音识别模块还用于接收待识别的语音指令，对语音指令进行分析，得到声音特征。

具体地，语音识别模块接收待识别的语音指令，通过预设的语音识别算法中的声学模型对接收到的语音指令进行分析，提取该语音指令的声音特征。其中，预设的语音识别算法为传统的语音识别算法，比如，基于神经网络的语音识别算法、基于DTW(Dynamic TimeWarping，动态时间归整)的语音识别算法等。

修正系数获取模块，用于当声音特征与存储的口音特征匹配时，获取匹配的口音特征对应的口音识别修正系数。

基于口音的语音识别处理装置预先存储有通过口音训练得到的口音特征，口音特征包括口音识别修正系数。将待识别的语音指令的声音特征与存储的口音特征进行匹配，当二者匹配时，修正系数获取模块706获取匹配的口音特征对应的口音识别修正系数。

修正识别模块，用于根据口音识别修正系数对语音指令进行识别，得到语音识别结果。

修正识别模块将口音识别修正系数应用于语音识别算法中，对语音指令进行修正识别，进而得到语音识别结果。由于口音识别修正系数是基于训练语音指令与标准语音指令得到差异修正系数，因此，基于该差异修正系数能够有效识别出携带有相应口音的语音信号。

在一实施例中，修正识别模块还用于根据口音识别修正系数，对语音指令进行修正；对修正后的语音指令进行识别，得到语音识别结果。

关于基于口音的语音识别处理装置的具体限定可以参见上文中对于基于口音的语音识别处理方法的限定，在此不再赘述。上述基于口音的语音识别处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种电子设备，其内部结构图可以如图8所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、输入装置和麦克风阵列。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一实施例中，提供一种电子设备，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行如下步骤：

接收并识别预设数量的训练语音指令，得到与各训练语音信号对应的语音识别结果；

当满足预设的训练触发条件时，触发进入口音训练状态，对各训练语音指令的语音识别结果进行比对，得到比对结果；

当比对结果满足一致性条件时，将语音识别结果与标准语音指令进行模糊匹配，得到候选标准语音指令；

对候选标准语音指令进行确认，确定与训练语音指令匹配的标准语音指令；

根据训练语音指令以及匹配的标准语音指令，确定训练语音指令的口音特征，口音特征用于修正识别携带有对应口音特征的待识别的语音指令。

在一实施例中，计算机可读指令还使得处理器执行如下步骤：

获取接收训练语音指令的接收时长；

当接收时长小于或等于预设时长时，触发进入口音训练状态；

对各训练语音指令的语音识别结果进行比对，得到比对结果。

将候选标准语音指令输出；

根据用户对候选标准语音指令的反馈，确定与训练语音指令匹配的标准语音指令。

接收用户对候选标准语音指令的反馈信息；

当反馈信息包括语音识别结果和候选标准语音指令匹配的结果时，确定候选标准语音指令为与训练语音指令匹配的标准语音指令。

当满足预设的训练触发条件时，触发进入口音训练状态；

对各语音识别结果进行相似度计算，得到各语音识别结果之间的相似度；

当各语音识别结果之间的相似度达到相似度阈值时，确定比对结果满足一致性条件。

关联存储训练语音指令以及与训练语音指令匹配的标准语音指令。

退出口音训练状态，并切换至接收训练语音指令前的待机或工作状态。

当满足口音特征确定条件时，获取训练语音指令以及与训练语音指令匹配的标准语音指令；

分别得到训练语音指令以及标准语音指令的声音特征；

根据训练语音指令以及标准语音指令的声音特征之间的差异，确定训练语音指令对应的口音识别修正系数。

接收待识别的语音指令；

对语音指令进行分析，得到声音特征；

当声音特征与存储的口音特征匹配时，获取匹配的口音特征对应的口音识别修正系数；

根据口音识别修正系数对语音指令进行识别，得到语音识别结果。

根据口音识别修正系数，对语音指令进行修正；

对修正后的语音指令进行识别，得到语音识别结果。

在一实施例中，提供一个或多个存储有计算机可读指令的非易失性存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

在一实施例中，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

获取接收训练语音指令的接收时长；

将候选标准语音指令输出；

接收用户对候选标准语音指令的反馈信息；

当满足预设的训练触发条件时，触发进入口音训练状态；

分别得到训练语音指令以及标准语音指令的声音特征；

接收待识别的语音指令；

对语音指令进行分析，得到声音特征；

根据口音识别修正系数，对语音指令进行修正；

对修正后的语音指令进行识别，得到语音识别结果。

应该理解的是，虽然本申请各实施例中的各个步骤并不是必然按照步骤标号指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于口音的语音识别处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述当满足预设的训练触发条件时，触发进入口音训练状态，将各所述训练语音指令的所述语音识别结果进行比对，得到比对结果，包括：

获取接收所述训练语音指令的接收时长；

当所述接收时长小于或等于预设时长时，触发进入口音训练状态；

对各所述训练语音指令的所述语音识别结果进行比对，得到比对结果。

3.根据权利要求1所述的方法，其特征在于，所述对所述候选标准语音指令进行确认，确定与所述训练语音信号匹配的标准语音指令，包括：

将所述候选标准语音指令输出；

根据用户对所述候选标准语音指令的反馈，确定与所述训练语音指令匹配的标准语音指令。

4.根据权利要求3所述的方法，其特征在于，所述根据用户对所述候选标准语音指令的反馈，确定与所述训练语音指令匹配的标准语音指令，包括：

接收用户对所述候选标准语音指令的反馈信息；

当所述反馈信息包括所述语音识别结果和所述候选标准语音指令匹配的结果时，确定所述候选标准语音指令为与所述训练语音指令匹配的标准语音指令。

5.根据权利要求1所述的方法，其特征在于，所述当满足预设的训练触发条件时，触发进入口音训练状态，将各所述训练语音指令的所述语音识别结果进行比对，得到比对结果，包括：

当满足预设的训练触发条件时，触发进入口音训练状态；

对各所述语音识别结果进行相似度计算，得到各所述语音识别结果之间的相似度；

当各所述语音识别结果之间的相似度达到相似度阈值时，确定比对结果满足一致性条件。

6.根据权利要求1所述的方法，其特征在于，所述对所述候选标准语音指令进行确认，确定与所述训练语音指令匹配的标准语音指令之后，还包括：

关联存储所述训练语音指令以及与所述训练语音指令匹配的所述标准语音指令。

7.根据权利要求6所述的方法，其特征在于，所述关联存储所述训练语音指令以及与所述训练语音指令对应的所述标准语音指令之后，还包括：

退出所述口音训练状态，并切换至接收训练语音指令前的待机或工作状态。

8.根据权利要求1所述的方法，其特征在于，所述口音特征包括：所述训练语音指令的声音特征和口音识别修正系数，所述根据所述训练语音指令以及匹配的所述标准语音指令，确定所述训练语音指令的口音特征，包括：

当满足口音特征确定条件时，获取训练语音指令以及与所述训练语音指令匹配的标准语音指令；

分别得到所述训练语音指令以及所述标准语音指令的声音特征；

根据所述训练语音指令以及所述标准语音指令的声音特征之间的差异，确定所述训练语音指令对应的口音识别修正系数。

9.根据权利要求8所述的方法，其特征在于，所述根据所述训练语音指令以及匹配的所述标准语音指令，确定所述训练语音指令的口音特征之后，还包括：

接收待识别的语音指令；

对所述语音指令进行分析，得到声音特征；

当所述声音特征与存储的口音特征匹配时，获取匹配的所述口音特征对应的口音识别修正系数；

根据所述口音识别修正系数对所述语音指令进行识别，得到语音识别结果。

10.根据权利要求9所述的方法，其特征在于，所述根据所述口音识别修正系数对所述语音指令进行识别，得到语音识别结果，包括：

根据所述口音识别修正系数，对所述语音指令进行修正；

对修正后的语音指令进行识别，得到语音识别结果。

11.一种电子设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如下步骤：

接收并识别预设数量的训练语音指令，得到与各所述训练语音指令对应的语音识别结果；

12.根据权利要求11所述的电子设备，其特征在于，所述计算机可读指令还使得所述处理器执行如下步骤：

获取接收所述训练语音指令的接收时长；

13.根据权利要求11所述的电子设备，其特征在于，所述计算机可读指令还使得所述处理器执行如下步骤：

将所述候选标准语音指令输出；

14.根据权利要求11所述的电子设备，其特征在于，所述计算机可读指令还使得所述处理器执行如下步骤：

15.根据权利要求14所述的电子设备，其特征在于，所述计算机可读指令还使得所述处理器执行如下步骤：

接收待识别的语音指令；

对所述语音指令进行分析，得到声音特征；

当所述声音特征与存储的口音特征匹配时，获取所述口音特征对应的口音识别修正系数；

16.一个或多个存储有计算机可读指令的非易失性存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

17.根据权利要求16所述的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

获取接收所述训练语音指令的接收时长；

18.根据权利要求16所述的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

将所述候选标准语音指令输出；

19.根据权利要求16所述的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

20.根据权利要求19所述的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

接收待识别的语音指令；

对所述语音指令进行分析，得到声音特征；