CN103077713B

CN103077713B - 一种语音处理方法及装置

Info

Publication number: CN103077713B
Application number: CN201310001239.6A
Authority: CN
Inventors: 张庆芬; 洪烨
Original assignee: Qingdao Hisense Electronics Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2012-12-25
Filing date: 2013-01-04
Publication date: 2019-02-01
Anticipated expiration: 2033-01-04
Also published as: CN103077713A

Abstract

本申请公开了一种语音处理方法及装置，首先一种语音处理方法，所述方法包括：接收第一语音信息；使用声纹识别模型对所述第一语音信息进行声纹识别，判断是否具有输出所述第一语音信息的声纹源的记录；若有所述记录，在所述声纹源对应的声纹库中搜索是否具有所述第一语音信息；若在所述声纹库中具有所述第一语音信息，输出与所述第一语音信息对应的第一语音结果；若在声纹库中没有所述第一语音信息，在基本语音库中搜索所述第一语音信息。使用该方法进行语音识别操作，并没有依赖于用户修改的输出文本，仅使用了语音进行处理，因此处理过程简单，效率高，相较于基于修改的输出文本来说，还具有耗时低的特点。

Description

一种语音处理方法及装置

技术领域

本发明涉及音频处理技术领域，特别涉及一种语音处理方法及装置。

背景技术

随着通信领域的飞速发展，目前，语音识别技术已经能够使人机之间进行交互，通过系统对用户进行语音识别，来实现人机交互。

而语音识别的原理具体如下：

如图1所示，

S10，获得语音信息。

S11，对语音信息进行预处理，如分帧、预加重、加窗等。

S12，在预处理之后，提取特征参数。

该特征参数是用来表征语音信息的特征参数。

S13，将该特征参数带入在语音库存储的语音模型中进行搜索，输出与该特征参数最匹配的结果。

在上述步骤中，使用了语音模型，语音模型是表示词汇的基于统计方法得到的模型，由多个语音特征参数样本经过训练得来的。

而语音模型中的词汇是普通词汇，并且是基于标准的口音发音而形成的模型，因此，对于一些具体用户来说并不适用，比如某一个用户具有地方口音，或发音音调与语音模型中不同，则当用户输出一语音信息，即使是语音模型中已有的词汇，系统也很难识别。

而为了解决这一问题，现有技术采用了下面的技术方案：

用户在需要进行人机交互时，向系统输入语音信息，系统会根据用户输入的语音信息，输出相应的文本在一文本框内，以便用户修改，并根据用户对文本的修改情况，综合用户输入的语音信息，来进行人机交互，以此解决了上述当用户具有地方口音，或发音音调与语音模型中不同，或者用户输入的词汇语音模型中并不存在时，系统无法识别的技术问题。

而进一步的，系统还会根据判断结果，向系统添加新词汇、新发音，然后根据这些新词汇以及新发音来调整语言模型。

而本申请人在实现本申请的过程中发现，使用上述方法时，系统会依赖于用户修改的输出文本进行语音识别操作，进而导致识别过程复杂，效率低，以及耗时长的技术问题。

发明内容

本发明提供一种语音处理方法及装置，用以解决现有技术中存在的系统会依赖于用户修改的输出文本进行语音识别操作，进而导致识别过程复杂，效率低，以及耗时长的技术问题。

一方面，本发明通过本申请的一个实施例，提供如下技术方案：

一种语音处理方法，所述方法包括：接收第一语音信息；使用声纹识别模型对所述第一语音信息进行声纹识别，判断是否具有输出所述第一语音信息的声纹源的记录；若有所述记录，在所述声纹源对应的声纹库中搜索是否具有所述第一语音信息；若在所述声纹库中具有所述第一语音信息，输出与所述第一语音信息对应的第一语音结果；若在声纹库中没有所述第一语音信息，在基本语音库中搜索所述第一语音信息。

另一方面，本发明通过本申请的另一实施例提供：

一种语音处理装置，包括：接收单元，用于接收第一语音信息；第一判断单元，用于使用声纹识别模型对所述第一语音信息进行声纹识别，判断是否具有输出所述第一语音信息的声纹源的记录；第一搜索单元，用于若有所述记录，在所述声纹源对应的声纹库中在声纹库中搜索是否具有所述第一语音信息；第一输出单元，用于若在所述声纹库中具有所述第一语音信息，输出与所述第一语音信息对应的第一语音结果；第二搜索单元，用于若在声纹库中没有所述第一语音信息，在基本语音库中搜索所述第一语音信息。

上述技术方案中的一个或多个技术方案，至少具有如下技术效果或优点：

在本申请中，首先通过使用在系统中建立的声纹识别模型对获得的第一语音信息进行声纹识别。当识别正确时，则能够说明该用户在系统中有记录，即在系统中建立了该用户专属的声纹库。当具有声纹库时，首先会在为该用户建立的专属的暂存区中搜索是否存在该第一语音信息。当不存在暂存区时，则去声纹库中搜索。此时，当第一语音信息的内容已经存储于声纹库中时，则输出对应的语音结果。使用该方法进行语音识别操作，并没有依赖于用户修改的输出文本，仅使用了语音进行处理，因此处理过程简单，效率高，相较于基于修改的输出文本来说，还具有耗时低的特点。

进一步的，在声纹库中不能够搜索的第一语音信息时，由于还可以转到基本语音库中进行搜索，所以具有保证该第一语音信息的识别准确率的技术效果。

进一步的，由于在系统中没有记录的声纹源，在使用了该系统进行第一语音信息的识别之后，还能够建立其专属的声纹库，所以，在以后的使用中，通过不断的识别，记录更新等过程，能够实现不断地提高针对该用户的第一语音信息的准确识别率的技术效果。

进一步的，在系统的暂存区中搜索该第一语音信息时，在识别的过程中，会经过识别，判断，记录，更新等一系列操作，不断地刷新暂存区中的第一语音信息的记录，所以，具有提高对第一语音信息的识别率的技术效果。

附图说明

图1为背景技术中语音识别的原理的流程图；

图2为本申请实施例中系统中的语音库的示意图；

图3为本申请实施例中语音处理方法的流程图；

图4为本申请实施例中整体的流程图；

图5为本申请实施例中语音处理装置的示意图。

具体实施方式

为了解决现有技术中存在的系统会依赖于用户修改的输出文本进行语音识别操作，进而导致识别过程复杂，效率低，以及耗时长的技术问题，本发明实施例提出了一种语音处理方法及装置，其解决方案总体思路如下：

在本申请中，为了解决上述技术问题，提供了一种语音处理方法，该方法首先使用声纹识别模型对第一语音信息进行声纹识别，判断是否具有输出第一语音信息的声纹源的记录。接着，若有记录，在声纹源对应的声纹库中搜索是否具有第一语音信息。进一步的，若在声纹库中具有第一语音信息，输出与第一语音信息对应的第一语音结果。若在声纹库中没有第一语音信息，在基本语音库中搜索第一语音信息。而声纹库则是用户专属的声纹库，记录了用户特有的语音习惯，比如，用户的口音，以及用户发出语音时，语音的音调等，使用用户专属的声纹库进行搜索，则避免了用户因为口音或者发出的语音音调不准确，而导致获得的结果不准确的问题。此时，当第一语音信息的内容已经存储于声纹库中时，则会在声纹库中进行搜索，并输出对应的语音结果。使用该方法进行语音识别操作，并没有依赖于用户修改的输出文本，仅使用了语音进行处理，因此处理过程简单，效率高，相较于基于修改的输出文本来说，还具有耗时低的特点。

下面结合说明书附图对本发明实施例的主要实现原理、具体实施过程及其对应能够达到的有益效果进行详细的阐述。

实施例一：

在本申请实施例中，首先，对该方法需要用到的装置进行介绍。

即语音模型，基本语音库，暂存区，声纹识别模型，声纹库。

下面的各个装置都存在于同一语音库中。其中：语音模型，表示由词汇基于统计方法得到的模型，由多个语音特征参数样本经过训练得来的。

基本语音库，包含了所有输入的词组，以及词组对应的语音模型。

暂存区，是系统为声纹源建立的存储区域。

更进一步的，暂存区是系统为每个采集声纹信息的用户开辟的一个用户专属的，暂时用于存储用户输入的词组的存储区域，其存放的内容包括：语音信息，该语音信息对应的语音结果，对应的语音结果的序号，该语音信息被识别正确的次数，而语音信息即是系统接收到的由声纹源发出的词或者词组。

声纹识别模型，通过采集用户的声纹建立的模型，用于对用户进行身份识别，声纹识别模型是针对特定的用户建立的，包含了用户的特定的口音，以及唯一的音色音调响度等声音参数。

声纹库，是为每个采集过声纹信息的用户建立的语音库。

声纹库包含了用户的声纹识别模型，以及用户使用自己带有特色的口音输入的词组，该词组由于具有口音，因此在基本语音库中不易识别。

而声纹库能够最大的特点，是能够通过用户持续使用该系统而不断提高声纹库的语音识别准确率。并且，系统提高声纹库的语音识别准确率的过程是在后台运行的，不影响用户的操作。

请参看图2，下面用具体的示意图介绍基本语音库和声纹库的关系。

在图2中，语音库20包含两大组成部分：基本语音库20a和声纹库。

其中，声纹库以用户A的声纹库20b与用户B的声纹库20c进行举例。

而更为具体的，用户A的声纹库20b又包含了用户A的声纹识别模型20bb。用户B的声纹库20c包含了用户B的声纹识别模型20cc。

基本语音库与声纹库的区别在于：

在两者中，同一词组对应的模型可以不相同，声纹库中的语音信息更具有用户特色，是系统为每一个用户单独建立的储存库，并且，声纹库中的语音信息对应的语音结果并不会如基本语音库中的模型，匹配度最高的语音结果，不一定是正确的语音结果。

下面举例进行说明。

比如在基本语音库中，用户输入的语音信息“音量减”对应有如下语音结果：

表1

候选词组	匹配度	序号
			音量键	98％	1
一靓姐	95%	2
			音量减	90％	3

从上述的表1中可以看出，在系统中，对应于“音量减”的语音信息，“音量键”的语音结果匹配度是最高的，但是并不一定正确。

而声纹库中，由于语音模型是经过学习得到的，具有用户特色，用户输入语音信息“音量减”对应有如下结果：

表2

语音信息	语音结果	匹配度	被搜索的次数	序号
					音量减	音量减	99％	5	3
音量减	音量键	59％	0	1

从上述的表2中可知，得到匹配度最高的语音结果是“音量减”，而这个匹配度最高的语音结果就是正确的识别结果。同理，而当用户输入“音量键”的语音信息时，“音量键”的语音结果匹配度应当是最高的。

进一步的，而声纹库中存储的是用户带有用户口音特色的语音词组，基本语音库存储了所有的语音词组，即基本语音库中包含了声纹库中存储的语音词组，而对于用户能够在基本语音库中搜索到的一些简单的词组，在声纹库中可以不进行存储。

而在进行搜索时，由于基本语音库中具有大量的词组，搜索效率低下，因此，在本申请中，首先会在声纹库中进行搜索，以提高搜索效率，而到声纹库中搜索不到结果时，则会转入基本语音库进行进一步搜索。

比如，对于在基本语音库中能识别的语音信息，比如“音量增大”的语音信息，即使用户输入该语音信息时带有地方口音，但是发音和语调基本正确，因此，在基本语音库中能够识别，并反应出正确的识别结果，因此，该语音信息则会存储于基本语音库中，不会存储于声纹库中。

进而，在搜索时，若在声纹库中没有搜索结果时，会转入基本语音库中进行搜索。

进一步的，下面对建立声纹识别模型的方法进行介绍。

该方法的大概思路为：

通过采集用户的声纹信息，然后经过一系列的预处理，提取特征参数，进行模型训练等过程，在训练结束之后，形成了声纹识别模型，因此，声纹识别模型由一个或者多个语音特征参数样本经过训练得来。

当建立了声纹识别模型之后，则将其存储于声纹库中，在需要验证用户身份时，调用该声纹识别模型即可。

而具体的建立方法有如下两种。

第一种：

根据系统提供的文本内容，获得对应的声纹信息。

其中，声纹信息为声纹源发出的声纹信息。

然后，根据文本内容以及声纹信息，建立声纹识别模型。

比如，当需要建立声纹识别模型时，首先，系统会提供一文本内容给用户，如“请识别”三个字。

在用户侧，用户则会按照文本中的内容念出这三个字。

此时，系统则会采集到用户的声纹信息，并将根据文本内容以及用户的声纹信息，建立起声纹识别模型，然后将其存储于声纹库中。

而具体的处理过程如下。

首先，系统则会根据用户发出的声纹信息，对声纹信息进行预处理。

然后，在预处理之后，则会提取声纹信息中的特征参数。

最后，会将该特征参数进行模型训练，当训练结束后，使用该特征参数形成声纹识别模型。

在建立声纹识别模型时，声纹识别可以是文本有关，也可以是文本无关。下面的方法即为没有使用文本内容建立声纹识别模型的方法。

第二种：

当声纹源发出任意声纹信息时，采集任意声纹信息，并根据任意声纹信息，建立声纹识别模型。

当系统采集到该用户的任意声纹信息，会将该声纹信息进行预处理、提取特征参数，进行模型训练等一系列过程，最后形成声纹识别模型。

而此时，由于本方法是不基于文本内容来处理的，因此，在提取特征参数时，则不会提取出用户发出的具体的内容，而仅仅提取用户的声纹信息有关的特征参数。

当然，在实际应用中，建立声纹识别模型具有多种方法，并不仅限于本申请实施例中的两种方法，因此，在实际中建立声纹识别模型的方法，本申请不对其进行限制。

下面，对语音处理方法进行具体的介绍。

如图3所示，该方法具体实现过程如下：

S301，接收第一语音信息。

S302，使用声纹识别模型对第一语音信息进行声纹识别，判断是否具有输出第一语音信息的声纹源的记录。

S303，若有记录，在声纹源对应的声纹库中搜索是否具有第一语音信息。

S304，若在声纹库中具有第一语音信息，输出与第一语音信息对应的第一语音结果。

S305，若在声纹库中没有第一语音信息，在基本语音库中搜索第一语音信息。

对于S302中的声纹识别的具体方法，在本申请实施例中，具有两种方法。

第一种：

以上述第一种方法建立的声纹识别模型为例时，其实现过程如下：

首先，会提供一文本内容给用户，如“请识别”三个字。

在用户侧，用户则会按照文本中的内容念出这三个字。

此时，则会采集到用户的“请识别”三个字的语音信息，将该语音信息进行预处理之后，提取特征参数。

然后，将该特征参数与存储于声纹识别模型中的特征参数进行对比，以判断输出语音信息的用户在声纹识别模型中是否有记录。

第二种：

以上述第二种方法建立的声纹识别模型为例时，其实现过程如下：

首先，会将接收的第一语音信息进行预处理。

在预处理之后，则会提取出该第一语音信息中的特征参数。

然后，将该特征参数与声纹识别模型中存储的特征参数进行对比，以判断输出第一语音信息的用户在声纹识别模型中是否有记录。

对于判断该声纹识别模型中是否具有输出第一语音信息的声纹源的记录时，具有两种判断结果：

第一种，没有声纹源的记录。

第二种，具有声纹源的记录。

下面将分别针对这两种情况进行说明。

第一种：没有声纹源的记录。

当没有声纹源的记录时，则表明系统中并没有建立关于该用户的声纹库，用户可能是第一次使用该系统，则转入基本语音库中搜索第一语音信息，输出第四语音结果。

比如具体有一用户，该用户输入了语音信息“启动网页”。首先会利用声纹识别模型对该用户的声纹进行声纹识别，若没有，则会将该语音信息转入基本语音库中进行搜索，并输出对应的结果。

第二种，具有声纹源的记录。

当具有声纹源的记录时，则可以执行S303：若有记录，在声纹源对应的声纹库中搜索是否具有第一语音信息。

而进一步的，在搜索时，则会具有两种搜索结果。

第一种，在声纹库中具有第一语音信息。

第二种，在声纹库中没有第一语音信息。

下面将分别针对这两种情况进行说明。

第一种：在声纹库中具有第一语音信息。

若出现第一种情况，则执行S304：若在声纹库中具有第一语音信息，输出与第一语音信息对应的第一语音结果。

第二种：在声纹库中没有第一语音信息。

若出现第二种情况，则执行S305：若在声纹库中没有第一语音信息，在基本语音库中搜索第一语音信息。

更为具体的，具体的搜索过程如下：

首先判断第一语音信息在暂存区中是否为连续语音信息，其中，暂存区是为声纹源建立的存储区域。

而进一步的，在本申请实施例中，判断第一语音信息是否为连续语音信息的主要目的，是想输出用户认为正确的语音结果，进一步的，此处的判断方法是基于两种情况进行判断：第一，是否两次输入的语音信息是否一致。第二，两次输入的语音信息的时间间隔是否在规定的时间范围内。

因此，基于上面描述的基础，该判断方法如下：

第一，判断第一语音信息与第二语音信息是否相同，第二语音信息为系统上一次接收的语音信息。

第二，判断接收第一语音信息与接收第二语音信息的时间间隔是否小于规定的时间阈值。

判断结果有两种。

第一种，第一语音信息是连续语音信息。

当接收的第一语音信息与第二语音信息相同，且两者的时间间隔小于规定的时间阈值时，则说明第一语音信息是连续语音信息。

第二种，第一语音信息不是连续语音信息。

当上述两个条件任意一个条件不满足，或是两个条件都不满足时，则说明第一语音信息不是连续语音信息。

而更为具体的，第一语音信息不是连续语音信息的情况有三种：第一，本次接收的第一语音信息与上一次接受的语音信息不同。第二，本次接收的语音信息和上一次接受的语音信息相同，但是两者的时间间隔太长，已超出规定的时间范围。第三，本次接收的语音信息和上一次接受的语音信息不相同，并且两者的时间间隔已超出规定的时间范围。

而进一步的，上面两种不同的情况具有不同的处理方式。

第一种，当第一语音信息是连续语音信息时，具体的处理情况如下：

在基本语音库中搜索第一语音信息。

当搜索出第一语音信息时，输出第二语音结果，第二语音结果为第一语音信息对应的第二语音结果；

更新第一语音信息在暂存区中的第一记录，第二记录包括第一语音信息，第二语音结果，第一语音信息在暂存区中被正确搜索的次数，以及第二语音结果的序列号。

下面使用具体的例子进行说明。

当用户需要在语音处理装置中使用语音触发该装置输出文本时，用户会发出第一语音信息——音量减。

在装置侧，当该装置接收到“音量减”的第一语音信息时，在对其进行声纹识别，并判断出声纹识别模型中有该声纹源的记录。声纹识别模型中有声纹源的记录是有两种情况的，第一种，是用户虽然在装置中建立了声纹识别模型，但是并没有使用该装置进行语音识别。第二种，是用户在装置中建立了声纹识别模型，并已经使用该装置进行了语音识别。

进一步的，当判断出声纹识别模型中有该声纹源的记录时，则会在声纹库中搜索第一语音信息，而该声纹库中没有关于该声纹信息的记录，此时，则转入基本语音库中进行识别。

而更为具体的，在基本语音库中，存储了该语音信息的特征参数、识别的结果、序号、被识别的次数等。

而该语音信息，在基本语音库中，具有一些同音字，比如在基本语音库中有如表1的内容。

因此，在基本语音库中搜索“音量减”的第一语音信息时，首先会搜索出匹配度最高的，即序号为1的“音量键”，并反馈给用户，而匹配度最高第一语音信息不一定是正确的。

而更为具体的，当第一语音信息为连续语音信息时，具有下面的处理方法：在基本语音库中搜索第一语音信息。

当在基本语音库中搜索出第一语音信息时，输出第二语音结果，第二语音结果为第一语音信息对应的第二语音结果；

更新第一语音信息在暂存区中的第一记录，第一记录包括第一语音信息，第二语音结果，第一语音信息始终被记录为1次的搜索记录，以及第二语音结果的序列号。

如上述举例，若已经建立了关于该用户的声纹识别模型，当用户第一次输入“音量减”的第一语音信息，则会输出“音量键”的语音结果，在用户侧，则会基于该错误结果再一次输入相同的语音信息，希望能够反映出对的语音结果。

当用户第二次输入第一语音信息时，会根据一系列的条件判断其是否为连续输入语音信息。

当判断出是连续语音信息时，则会输出这一次语音信息对应的语音结果，即“一靓姐”，并由用户判断该语音结果是否正确，若用户判断出该语音结果还是不对，则会再次重新输入，进而获得对的结果为止，比如用户第三次输入“音量减”的第一语音信息，此时，则会经过一系列判断之后输出正确的第一语音结果，即“音量减”。

进一步的，会在暂存区中对“音量减”的语音结果进行记录更新，用以替换上一次的记录。

而记录的内容，则为用户输入的第一语音信息“音量减”，该第一语音信息对应的“音量减”的第二语音结果，该第一语音信息始终被记录为1次的搜索记录，该搜索记录被用户认为是正确识别的搜索记录，以及第二语音结果“音量减”的序列号3。

此时，将该第一语音信息的搜索记录始终记录为1次的主要原因，是因为该第一语音信息被判断为连续语音信息时，则根据用户的使用习惯，认为以前搜索的语音结果为错误的，用户是想通过再次输入来得到正确的结果，暂时认为本次搜索的语音结果为正确，因此，此时记录的正确搜索次数为1。

比如当用户输入“音量减”的第一语音信息时，搜索出的语音结果不对，此时用户则会重新输入一次，该次输入的第一语音信息被判定为连续语音信息时，则认为上一次输入的第一语音信息反应出的语音结果是错误的，而暂时认为本次搜索的语音结果是正确的，因此，则会记录搜索次数为1次。

而进一步的，本次搜索的语音结果有可能也是错误的，因此会根据用户的反应进一步修正识别结果，当用户判断识别结果为错误时，会重新输入第一语音信息，然后装置会进行下一次的搜索并记录，直到反应出用户认为正确的结果。若用户在判断为错误的情况下并不进行重复输入，则装置也会暂时记录本次的搜索结果，并记录搜索次数。

若用户在显示“一靓姐”的语音结果时停止输入，装置则会将“一靓姐”的语音结果进行记录。

而记录的内容，则为用户输入“音量减”的第一语音信息，以及该第一语音信息对应的“一靓姐”的第二语音结果，该第一语音信息始终被记录为1次的搜索记录，以及第二语音结果“一靓姐”的序列号2。

而此时，用户在输入时，并不一定都为连续输入，当出现下面的几种情况时，可以表明该第一语音信息不是连续语音信息。

第一，第一次接收用户输入的第一语音信息时，根据上面的判断条件可以判断出该第一语音信息不是连续语音信息。

第二，接收到用户输入的第一语音信息时，而该第一语音信息和上一次接收的语音信息虽然是相同的语音信息，但是两者的时间间隔已经超过了规定的时间范围。

第三，接收到用户输入的第一语音信息和上一次接收的语音信息不同，无论两者的时间间隔有没有超过的规定，都为不连续的语音信息。

第四，接收到用户输入的第一语音信息和上一次接收的语音信息不同，并且两者的时间间隔超过了规定的时间范围。

因此，当第一语音信息不是连续语音信息时，则会执行下面的步骤：当第一语音信息不是连续语音信息时，判断第一语音信息在暂存区中是否有记录。

而此时，判断暂存区中是否有记录又具有两种结果。

第一种，判断出第一语音信息在暂存区中有记录。

第二种，判断出第一语音信息在暂存区中没有记录。

下面将分别针对这两种情况进行说明。

当出现第一种情况，即第一语音信息在暂存区中有记录时，则表明暂存区中具有第二语音信息，并不是第一次处理第一语音信息。

此时，则会输出第二语音结果，并在暂存区中的更新第二记录。

第二记录包括第一语音信息，第二语音结果，第一语音信息在暂存区中被正确搜索的次数，以及第二语音结果的序列号。

比如用户在上述的例子中输入了三次“音量减”的第一语音信息，并且，装置已经更新了正确识别结果之后，用户第四次输入该“音量减”的第一语音信息的时间间隔很长，而这次接收的第一语音信息虽然不是连续语音信息，但是在暂存区中是有关于该第一语音信息的记录的，而该第一语音信息则为第二语音信息，即接收上一次接收的语音信息，因此，在用户判断出第一语音信息在暂存区中有记录时，则会输出上一次接收到的语音信息对应的第二语音结果，即“音量减”，并在暂存区中更新第三记录，进一步的，第三记录即第一语音信息“音量减”，第二语音结果“音量减”，“音量减”被搜索到的次数2次，以及第二语音结果“音量减”的序列号3。

此时更新的被搜索到的次数，是被用户认为正确识别的搜索次数，在装置侧，由于在之前该第一语音信息的搜索次数已经被记录为1次，因此，在本次识别结束之后，则会在原来被记录的次数上增加1次。

而进一步的，在完成该记录之外，还会判断该第一语音信息是否满足了被存入声纹库的条件，更为具体的，则具有以下的处理方法：

首先，判断第二记录中第一语音信息在暂存区中被正确搜索的次数是否满足一预设的数目阈值。

其次，当被正确搜索的次数满足数目阈值时，将第一语音信息存入声纹库。

最后，清除第一语音信息在暂存区中的记录。

比如，首先判断“音量减”在暂存区中被正确搜索的次数是否满足了装置规定的被正确识别了3次，当满足之后，则将该第一语音信息存入声纹库，对应的，还会将该第一语音信息对应的正确的语音结果存入声纹库进行保存。而最后，则会清除第一语音信息在暂存区中的记录，以释放暂存区的空间。

上述的方法，在用户输入第一语音信息时，装置可以不断的进行判断并识别，当在暂存区中的第一语音信息还没有达到能够存储于声纹库中的阈值时，则会暂时存储于暂存区，在识别正确的次数达到一定的次数时，才能够将其存入声纹库中。

而当暂存区中出现第二种情况，即第一语音信息在暂存区中没有记录时，则会执行S305：当第一语音信息在暂存区中没有记录时，在声纹库中搜索第一语音信息。

当暂存区中没有第一语音信息时，则在基本语音库中搜索第一语音信息，并输出与第一语音信息对应的第三语音结果。

在输出第三语音结果之后，更新第一语音信息在暂存区中的第三记录，第三记录包括第一语音信息，第三语音结果，第一语音信息在暂存区中被正确搜索的次数，以及第三语音结果的序列号。

下面，请参看图4，对该语音处理方法的过程进行整体描述。

S401，接收第一语音信息。

S402，判断声纹源在装置中是否有记录。

具体的方法为：使用声纹识别模型对第一语音信息进行声纹识别，判断输出第一语音信息的声纹源在装置中是否有记录。

当声纹源在装置中没有记录时，执行S403，转入基本语音库中搜索。

当搜索到语音结果时，则会执行S404，结束操作。

当声纹源在装置中有记录时，执行S405：在声纹库中搜索。

当在声纹库中搜索时，具有两种结果，第一种，在声纹库中搜索到语音结果。此时，则会执行S406：若搜索到，输出第一语音结果。

第二种：在声纹库中没有搜索到语音结果。此时，会执行S407：转入基本语音库中搜索。

在基本语音库中搜索时，首先执行S408：判断是否为连续语音信息。

当该第一语音信息为连续语言时，执行S409，在基本语音库中搜索第一语音信息。

当搜索出第一语音信息时，执行S410，输出第二语音结果。

第二语音结果为第一语音信息对应的第二语音结果。

进一步的，执行S411，更新第一记录。

第一语音信息在暂存区中的第二记录，第二记录包括第一语音信息，第二语音结果，第一语音信息在暂存区中始终被记录为1次的搜索记录，以及第二语音结果的序列号。

然后执行S412，结束操作。

当该第一语音信息不是连续语言时，执行S413，判断第一语音信息在暂存区中是否有记录。

当暂存区中有该记录时，执行S414，输出第二语音结果。

第二语音结果即上一次接受的语音信息对应的语音结果。

S415，更新第二记录。

更新记录之后，执行S416，判断第一语音信息被正确搜索的次数是否满足数目阈值。

当不满足时结束操作。

当满足时，执行S417，将第一语音信息存入声纹库。

然后执行S418，清除第一语音信息在暂存区中的记录。

当在暂存区中没有记录时，执行S419，转入基本语音库中进行搜索。

进一步的，在搜索并输出了对应的第三语音结果之后，则会执行S420，更新第三记录。

上述实施例详细的描述了语音处理的方法，其中，涉及到在不同的情况下，在暂存区，声纹库，以及基本语音库中不同的搜索方法以及处理方法。

实施例二：

在下面的实施例中，描述了一种语音处理装置。

请参看图5，该装置包括：接收单元501，第一判断单元502，第一搜索单元503，第一输出单元504，第二搜索单元505。

接收单元501，用于接收第一语音信息；

第一判断单元502，用于使用声纹识别模型对第一语音信息进行声纹识别，判断是否具有输出第一语音信息的声纹源的记录；

第一搜索单元503，用于若有记录，在声纹源对应的声纹库中在声纹库中搜索是否具有第一语音信息；

第一输出单元504，用于若在声纹库中具有第一语音信息，输出与第一语音信息对应的第一语音结果；

第二搜索单元505，用于若在声纹库中没有第一语音信息，在基本语音库中搜索第一语音信息。

进一步的，第二搜索单元505具体包括：

第二判断单元，用于若在声纹库中没有第一语音信息，判断第一语音信息在暂存区中是否为连续语音信息；

第三搜索单元，用于当第一语音信息是连续语音信息时，在基本语音库中搜索第一语音信息。

进一步的，装置还包括：

第二输出单元，用于在基本语音库中搜索第一语音信息之后，当搜索出第一语音信息时，输出第二语音结果，第二语音结果为第一语音信息对应的第二语音结果；

第一更新单元，用于更新第一语音信息在暂存区中的第二记录，第二记录包括第一语音信息，第二语音结果，第一语音信息在暂存区中始终被记录为1次的搜索记录，以及第二语音结果的序列号。

进一步的，装置还包括：

第三判断单元，用于在判断第一语音信息是否为连续语音信息之后，当第一语音信息不是连续语音信息时，判断第一语音信息在暂存区中是否有记录；

第三输出单元，用于当第一语音信息在暂存区中有记录时，输出第二语音结果，并在暂存区中更新第二记录，第二记录包括第一语音信息，第二语音结果，第一语音信息在暂存区中被正确搜索的次数，以及第二语音结果的序列号；

第四输出单元，用于当第一语音信息在暂存区中没有记录时，在基本语音库中搜索第一语音信息，并输出与第一语音信息对应的第三语音结果；

第二更新单元，用于在输出第三语音结果之后，更新第一语音信息在暂存区中的第三记录，第三记录包括第一语音信息，第三语音结果，第一语音信息在暂存区中被正确搜索的次数，以及第三语音结果的序列号。

通过本发明的一个或多个实施例，可以实现如下技术效果：

在本申请中，首先通过使用在系统中建立的声纹识别模型对获得的第一语音信息进行声纹识别。当识别正确时，则能够说明该用户在系统中有记录，即在系统中建立了该用户专属的声纹库。当具有声纹库时，首先会在为该用户建立的专属的暂存区中搜索是否存在该第一语音信息。当不存在暂存区时，则去声纹库中搜索，而声纹库则是用户专属的声纹库，记录了用户特有的语音习惯，比如，用户的口音，以及用户发出语音时，语音的音调等，使用用户专属的声纹库进行搜索，则避免了用户因为口音或者发出的语音音调不准确，而导致获得的结果不准确的问题。此时，当第一语音信息的内容已经存储于声纹库中时，则输出对应的语音结果。使用该方法进行语音识别操作，并没有依赖于用户修改的输出文本，仅使用了语音进行处理，因此处理过程简单，效率高，相较于基于修改的输出文本来说，还具有耗时低的特点。

进一步的，由于在装置中没有记录的声纹源，在使用了该装置进行第一语音信息的识别之后，还能够建立其专属的声纹库，所以，在以后的使用中，通过不断的识别，记录更新等过程，能够实现不断地提高针对该用户的第一语音信息的准确识别率的技术效果。

进一步的，在装置的暂存区中搜索该第一语音信息时，在识别的过程中，会经过识别，判断，记录，更新等一系列操作，不断地刷新暂存区中的第一语音信息的记录，所以，具有提高对第一语音信息的识别率的技术效果。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

接收第一语音信息；

使用声纹识别模型对所述第一语音信息进行声纹识别，判断是否具有输出所述第一语音信息的声纹源的记录；

若有所述记录，在所述声纹源对应的声纹库中搜索是否具有所述第一语音信息；

若在所述声纹库中具有所述第一语音信息，输出与所述第一语音信息对应的第一语音结果；

若在所述声纹库中没有所述第一语音信息，在基本语音库中搜索所述第一语音信息；

其中，所述在基本语音库中搜索所述第一语音信息，具体为：

判断所述第一语音信息在暂存区中是否为连续语音信息，所述暂存区是为所述声纹源建立的存储区域，所述连续语音信息为连续两次输入的语音信息一致，且所述两次输入的语音信息的时间间隔在规定的时间范围内的语音信息，以及当所述第一语音信息是连续语音信息时，在所述基本语音库中搜索所述第一语音信息。

2.如权利要求1所述的方法，其特征在于，在所述基本语音库中搜索所述第一语音信息之后，所述方法还包括：

当搜索出所述第一语音信息时，输出第二语音结果，所述第二语音结果为所述第一语音信息对应的第二语音结果；

更新所述第一语音信息在所述暂存区中的第一记录，所述第一记录包括所述第一语音信息，所述第二语音结果，所述第一语音信息在所述暂存区中始终被记录为1次的搜索记录，以及所述第二语音结果的序列号。

3.如权利要求2所述的方法，其特征在于，在所述判断所述第一语音信息是否为连续语音信息之后，所述方法还包括：

当所述第一语音信息不是连续语音信息时，判断所述第一语音信息在所述暂存区中是否有记录；

当所述第一语音信息在所述暂存区中有记录时，输出所述第二语音结果，并在所述暂存区中更新第二记录，所述第二记录包括所述第一语音信息，所述第二语音结果，所述第一语音信息在所述暂存区中被正确搜索的次数，以及所述第二语音结果的序列号；

当所述第一语音信息在所述暂存区中没有记录时，在所述基本语音库中搜索所述第一语音信息，并输出与所述第一语音信息对应的第三语音结果；

在输出所述第三语音结果之后，更新所述第一语音信息在所述暂存区中的第三记录，所述第三记录包括所述第一语音信息，所述第三语音结果，所述第一语音信息在所述暂存区中被正确搜索的次数，以及所述第三语音结果的序列号。

4.如权利要求3所述的方法，其特征在于，在所述在所述暂存区中的更新第二记录之后，所述方法还包括：

判断所述第二记录中所述第一语音信息在所述暂存区中被正确搜索的次数是否满足一预设的数目阈值；

当所述被正确搜索的次数满足所述数目阈值时，将所述第一语音信息存入所述声纹库；

清除所述第一语音信息在所述暂存区中的记录。

5.如权利要求1所述的方法，其特征在于，所述方法还包括：

若不具有输出所述第一语音信息的声纹源的记录，在基本语音库中搜索所述第一语音信息，输出第四语音结果。

6.一种语音处理装置，其特征在于，包括：

接收单元，用于接收第一语音信息；

第一判断单元，用于使用声纹识别模型对所述第一语音信息进行声纹识别，判断是否具有输出所述第一语音信息的声纹源的记录；

第一搜索单元，用于若有所述记录，在所述声纹源对应的声纹库中在声纹库中搜索是否具有所述第一语音信息；

第一输出单元，用于若在所述声纹库中具有所述第一语音信息，输出与所述第一语音信息对应的第一语音结果；

第二搜索单元，用于若在所述声纹库中没有所述第一语音信息，在基本语音库中搜索所述第一语音信息；其中，所述第二搜索单元具体包括：

第二判断单元，用于若在声纹库中没有所述第一语音信息，判断所述第一语音信息在暂存区中是否为连续语音信息，所述连续语音信息为连续两次输入的语音信息一致，且所述两次输入的语音信息的时间间隔在规定的时间范围内的语音信息；

第三搜索单元，用于当所述第一语音信息是连续语音信息时，在所述基本语音库中搜索所述第一语音信息。

7.如权利要求6所述的装置，其特征在于，所述装置还包括：

第二输出单元，用于在基本语音库中搜索所述第一语音信息之后，当搜索出所述第一语音信息时，输出第二语音结果，所述第二语音结果为所述第一语音信息对应的第二语音结果；

第一更新单元，用于更新所述第一语音信息在所述暂存区中的第二记录，所述第二记录包括所述第一语音信息，所述第二语音结果，所述第一语音信息在所述暂存区中始终被记录为1次的搜索记录，以及所述第二语音结果的序列号。

8.如权利要求7所述的装置，其特征在于，所述装置还包括：

第三判断单元，用于在判断所述第一语音信息是否为连续语音信息之后，当所述第一语音信息不是连续语音信息时，判断所述第一语音信息在所述暂存区中是否有记录；

第三输出单元，用于当所述第一语音信息在所述暂存区中有记录时，输出所述第二语音结果，并在所述暂存区中更新第二记录，所述第二记录包括所述第一语音信息，所述第二语音结果，所述第一语音信息在所述暂存区中被正确搜索的次数，以及所述第二语音结果的序列号；

第四输出单元，用于当所述第一语音信息在所述暂存区中没有记录时，在所述基本语音库中搜索所述第一语音信息，并输出与所述第一语音信息对应的第三语音结果；

第二更新单元，用于在输出所述第三语音结果之后，更新所述第一语音信息在所述暂存区中的第三记录，所述第三记录包括所述第一语音信息，所述第三语音结果，所述第一语音信息在所述暂存区中被正确搜索的次数，以及所述第三语音结果的序列号。