CN111933107A

CN111933107A - 语音识别方法、装置、存储介质和处理器

Info

Publication number: CN111933107A
Application number: CN202010923594.9A
Authority: CN
Inventors: 魏雨枫; 马颖江
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2020-11-13

Abstract

本发明公开了一种语音识别方法、装置、存储介质和处理器。其中，该方法包括：获取目标对象的目标语音信息和目标对象的目标定位信息；基于目标定位信息确定目标对象所使用的方言；基于方言对目标语音信息进行识别，得到识别结果。本发明解决了语音识别的准确率低的技术问题。

Description

语音识别方法、装置、存储介质和处理器

技术领域

本发明涉及语音识别领域，具体而言，涉及一种语音识别方法、装置、存储介质和处理器。

背景技术

目前，随着语音识别的技术进步和深度学习技术的普及，语音助手的实用性和智能性正在不断的提高。

但是，由于用户存在一些自己的话术使用习惯，使得用户在使用方言的时候，现有的语音助手无法准确地识别用户的话术，从而导致语音识别的准确率低的问题。

针对上述语音识别的准确率低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音识别方法、装置、存储介质和处理器，以至少解决语音识别的准确率低的技术问题。

根据本发明实施例的一个方面，提供了一种语音识别方法，包括：获取目标对象的目标语音信息和目标对象的目标定位信息；基于目标定位信息确定目标对象所使用的方言；基于方言对目标语音信息进行识别，得到识别结果。

可选地，基于目标定位信息确定目标对象所使用的方言，包括：确定目标定位信息对应的方言使用范围；通过深度学习在方言使用范围中确定目标对象所使用的方言。

可选地，在获取目标对象的目标语音信息之后，该方法还包括：将目标语音信息存储至与目标对象关联的目标语料库中；基于目标语料库确定语音行为特征，其中，语音行为特征用于指示目标对象表述语音的行为习惯。

可选地，基于方言对目标语音信息进行识别，得到识别结果，包括：基于方言和语音行为特征对目标语音信息进行识别，得到识别结果。

可选地，将目标语音信息存储至与目标对象关联的目标语料库中，包括：发送目标语音信息至第一服务器，其中，目标语音信息由第一服务器透传至第二服务器，目标语音信息由第二服务器进行解析，并将得到的解析结果返回至第一服务器，解析结果由第一服务器存储至第三服务器。

可选地，在获取目标对象的目标定位信息之后，该方法还包括：将目标定位信息存储至第三服务器中。

可选地，在基于目标语料库确定语音行为特征之后，该方法还包括：推荐与语音行为特征关联的目标功能。

可选地，基于目标语料库确定语音行为特征，包括：使用目标语料库中的语音信息对深度学习子模型进行训练，得到神经网络模型，其中，神经网络模型用于确定输入的语音信息对应的语音行为特征；基于神经网络模型对目标语音信息进行分析，得到语音行为特征。

可选地，使用目标语料库中的语音信息对深度学习子模型进行训练，得到神经网络模型，包括：使用目标语料库中的语音信息、目标语料库中的语音信息发生的时间、目标语料库中的语音信息发生的地点对深度学习子模型进行训练，得到神经网络模型。

可选地，在将目标语音信息存储至与目标对象关联的目标语料库中之后，该方法还包括：在目标语料库中确定使用频率大于目标阈值，且在同一时间重复使用的语音信息样本；统计语音信息样本所指示的目标含义；建立语音信息样本与目标含义的第一表链接。

可选地，在统计语音信息样本所指示的目标含义之后，该方法还包括：响应目标操作指令，修改目标含义；建立语音信息样本与修改后的目标含义的第二表链接。

根据本发明实施例的另一个方面，还提供了另一种语音识别方法，包括：读取目标对象的目标语音信息，并在交互界面上显示目标对象的目标定位信息；在交互界面上显示识别结果，其中，识别结果为基于目标对象所使用的方言对目标语音信息进行识别得到，方言为基于目标定位信息确定。

根据本发明实施例的另一方面，还提供了一种语音识别装置，包括：获取单元，用于获取目标对象的目标语音信息和目标对象的目标定位信息；确定单元，用于基于目标定位信息确定目标对象所使用的方言；识别单元，用于基于方言对目标语音信息进行识别，得到识别结果。

根据本发明实施例的另一方面，还提供了一种语音识别装置，包括：处理单元，用于读取目标对象的目标语音信息，并在交互界面上显示目标对象的目标定位信息；显示单元，用于在交互界面上显示识别结果，其中，识别结果为基于目标对象所使用的方言对目标语音信息进行识别得到，方言为基于目标定位信息确定。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，该计算机可读存储介质包括存储的程序，其中，在程序被处理器运行时控制计算机可读存储介质所在设备执行本发明实施例的语音识别方法。

根据本发明实施例的另一方面，还提供了一种处理器，该处理器用于运行程序，其中，程序运行时执行本发明实施例的语音识别方法。

在本发明实施例中，采用获取目标对象的目标语音信息和目标对象的目标定位信息；基于目标定位信息确定目标对象所使用的方言；基于方言对目标语音信息进行识别，得到识别结果的方式。也就是说，本申请通过对目标对象的定位信息进行判断，确定目标对象使用的方言，从而可以根据方言信息对目标对象的语音信息进行识别，这样就可以对每个目标对象的语音识别进行优化，从而解决了语音识别的准确率低的技术问题，达到了提高语音识别的准确率的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种语音识别方法的流程图；

图2是根据本发明实施例的另一种语音识别方法的流程图；

图3是根据本发明实施例的用户反复使用的话术处理方法的示意图；

图4是根据本发明实施例的用户方言处理方法的示意图；

图5是根据本发明实施例的用户语音处理方法的示意图；

图6是根据本发明实施例的用户语音话术使用习惯处理方法的示意图；

图7是根据本发明实施例的一种语音识别装置的示意图；以及

图8是根据本发明实施例的另一种语音识别装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种语音识别方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的语音识别方法的流程图。如图1所示，该方法可以包括如下步骤：

步骤S102，获取目标对象的目标语音信息和目标对象的目标定位信息。

在本发明上述步骤S102提供的技术方案中，可以在目标对象使用语音助手的时候，将需要处理的语音信息作为目标语音信息，将该目标语音信息对应的定位信息作为目标定位信息。

可选地，该实施例通过目标对象与语音助手之间的交互来收集目标对象的目标语音信息，通过语音助手的全球定位系统(Global Positioning System，简称为GPS)确认目标对象的目标定位信息。

可选地，该实施例可以针对每一个目标对象建立一个目标语料库，将获取到的目标对象的目标语音信息和目标定位信息存储至目标语料库中，以便在需要的时候可以调用目标对象的目标语音信息和目标定位信息。

步骤S104，基于目标定位信息确定目标对象所使用的方言。

在本发明上述步骤S104提供的技术方案中，由于每个地方的方言可能都会有所不同，一个地方的方言可能会有很多种，也即，定位信息和方言之间是对应的，因此，该实施例在获取到目标定位信息之后，可以根据目标定位信息确定目标对象所使用的方言。

步骤S106，基于方言对目标语音信息进行识别，得到识别结果。

在本发明上述步骤S106提供的技术方案中，在获取到目标对象所使用的方言之后，可以根据得到的方言的发音、事物表述等特征，使用深度学习对目标对象的目标语音信息进行识别，得到识别结果。

通过本申请的上述步骤S102至步骤S106，获取目标对象的目标语音信息和目标对象的目标定位信息；基于目标定位信息确定目标对象所使用的方言；基于方言对目标语音信息进行识别，得到识别结果。也就是说，通过对目标对象的定位信息进行判断，确定目标对象使用的方言，从而可以根据方言信息对目标对象的语音信息进行识别，这样就可以对每个目标对象的语音识别进行优化，从而解决了语音识别的准确率低的技术问题，达到了提高语音识别的准确率的技术效果。

下面对该实施例的上述方法进行进一步介绍。

作为一种可选的实施方式，步骤S104，基于目标定位信息确定目标对象所使用的方言，包括：确定目标定位信息对应的方言使用范围；通过深度学习在方言使用范围中确定目标对象所使用的方言。

在该实施例中，在得到目标定位信息之后，由于定位信息和方言之间是对应的，因此，可以通过目标定位信息确定与其对应的方言使用范围，并使用深度学习的深度信任算法对目标对象的方言进行分析，例如，方言的发音，从而可以在上述方言使用范围中确定目标对象使用的方言。

可选地，该实施例在获取到目标定位信息之后，可以将目标对象的目标定位信息保存至目标对象的个人服务器中。

可选地，该实施例可以将目标对象的个人服务器设置为与该目标对象使用的方言对应，这样就可以提高对目标语音信息的识别率。

可选地，该实施例通过深度学习在方言使用范围中确定目标对象所使用的方言，可以直接通过采用目标对象设定的方式来减小深度学习的算法的开销。

在上述实施例中，通过使用深度学习技术对方言进行分析，可以准确地识别目标对象所使用的方言，避免了现有技术中无法准确判断目标对象的方言，解决了无法准确判断方言种类的技术问题，达到了可以准确判断方言种类的技术效果。

作为一种可选的实施方式，在获取目标对象的目标语音信息之后，该方法还包括：将目标语音信息存储至与目标对象关联的目标语料库中；基于目标语料库确定语音行为特征，其中，语音行为特征用于指示目标对象表述语音的行为习惯。

在该实施例中，可以预先建立一个目标语料库，该目标语料库与目标对象相关联，也即，每个目标对象都有一个与之对应的目标语料库，在获取到目标对象的目标语音信息之后，可以将获取到的目标语音信息存储至目标语料库中，并在目标语料库中对目标语音信息进行分析，以确定目标语音信息的语音行为特征，这样就可以得到目标对象表述语音的行为习惯，从而可以更好的对目标语音信息进行识别。

可选地，可以通过深度学习在目标语料库中对目标语音信息进行分析。

在上述实施例中，针对每一个目标对象建立一个目标语料库，避免了由于每个目标对象都有自己的语音行为习惯，而无法将目标语音信息与目标对象对应，导致获取目标对象的语音行为特征效率低，从而实现了使用目标语料库优化目标对象的使用体验的目的，进而解决了获取目标对象的语音行为特征效率低的技术问题，达到了提高获取目标对象的语音行为特征效率的技术效果。

作为一种可选的实施方式，步骤S106，基于方言对目标语音信息进行识别，得到识别结果，包括：基于方言和语音行为特征对目标语音信息进行识别，得到识别结果。

在该实施例中，在得到目标对象的方言和语音行为特征之后，由于方言具有很强的地域性，通常会在一定地区中使用，因此，基于目标对象的方言可以在很大程度上提高对目标语音信息的识别准确率，并且，语音行为特征指示的是目标对象表述语音信息的行为习惯，而通过目标对象表述语音信息的行为习惯，也可以在一定程度上提高对目标语音信息的识别准确率，进而可以基于方言和语音行为特征对目标语音信息进行识别，这样就可以得到更加精确的识别结果。

可选地，该实施例可以使用大数据分析方法对目标对象的语音行为特征进行分析，总结出目标对象的个人说话习惯，该个人说话习惯可以为目标对象不同于其他对象的说话习惯，可以不是标准的发音，从而可以根据目标对象的个人说话习惯，在一定程度上提高对该目标对象的目标语音信息的识别准确率。

作为一种可选的实施方式，将目标语音信息存储至与目标对象关联的目标语料库中，包括：发送目标语音信息至第一服务器，其中，目标语音信息由第一服务器透传至第二服务器，目标语音信息由第二服务器进行解析，并将得到的解析结果返回至第一服务器，解析结果由第一服务器存储至第三服务器。

在该实施例中，当目标对象和语音助手之间进行交互时，语音助手可以通过录音功能获取目标对象的目标语音信息，然后将目标语音信息发送至第一服务器，例如，物联网服务器，再通过第一服务器将目标语音信息透传至第二服务器，例如，讯飞服务器，并使用第二服务器对目标语音信息进行语音解析，在得到解析结果后，将解析结果返回到第一服务器中，并且，可以在第一服务器中将解析结果进行整理包装，然后将整理包装后的解析结果进行收集，并存储至第三服务器，例如，个人服务器。

可选地，上述第三服务器可以包括目标语料库。

作为一种可选的实施方式，在获取目标对象的目标定位信息之后，该方法还包括：将目标定位信息存储至第三服务器中。

在该实施例中，在获取到目标对象的目标定位信息之后，可以将获取到的目标定位信息存储至第三服务器中，可选地，由于该第三服务器可以包括目标语料库，因此，可以将得到的目标定位信息存储至目标语料库中。

作为一种可选的实施方式，在基于目标语料库确定语音行为特征之后，该方法还包括：推荐与语音行为特征关联的目标功能。

在该实施例中，在得到语音行为特征之后，可以通过语音行为特征指示出目标对象表述语音信息的行为习惯，然后，可以根据深度学习相关算法学习该行为习惯，得到目标对象使用语音助手的习惯，例如，目标对象询问语音助手与美食、旅游等的相关信息，以及目标对象使用语音助手的时间、地点等，并对目标对象推荐与上述语音行为特征关联的目标功能，例如，在对应的情况下打开语音助手，可以对目标对象推荐相应的话术。

可选地，对目标对象推荐与语音行为特征关联的目标功能，可以为主动推荐。

作为一种可选的实施方式，基于目标语料库确定语音行为特征，包括：使用目标语料库中的语音信息对深度学习子模型进行训练，得到神经网络模型，其中，神经网络模型用于确定输入的语音信息对应的语音行为特征；基于神经网络模型对目标语音信息进行分析，得到语音行为特征。

在该实施例中，在将语音信息存储至目标语料库中之后，可以使用目标语音库中存储的语音信息对深度学习子模型进行训练，以得到神经网络模型，然后在目标语料库中确定出需要处理的语音信息作为目标语音信息，将该目标语音信息输入至神经网络模型中，在神经网络模型中使用深度学习算法对目标语音信息进行分析，得到语音行为特征，可选地，在上述神经网络模型中可以确定出与输入的语音信息对应的语音行为特征。

在上述实施例中，通过神经网络模型对目标语音信息进行分析，可以精准高效地获取到语音行为特征，解决了无法准确地获取到目标对象的语音行为特征的技术问题，达到了可以准确的获取到目标对象的语音行为特征的技术效果。

作为一种可选的实施方式，使用目标语料库中的语音信息对深度学习子模型进行训练，得到神经网络模型，包括：使用目标语料库中的语音信息、目标语料库中的语音信息发生的时间、目标语料库中的语音信息发生的地点对深度学习子模型进行训练，得到神经网络模型。

在该实施例中，在目标对象与语音助手进行交互时，语音助手可以获取到目标对象的语音信息、语音信息发生的时间、语音信息发生的地点等，在将目标对象的语音信息存储至目标语料库中的同时，也可以将语音信息发生的时间、语音信息发生的地点等信息存储至目标语料库中，在对深度学习子模型进行训练时，可以使用目标语料库中的语音信息、语音信息发生的时间以及语音信息发生的地点对其进行训练，这样得到的神经网络模型在对目标语音信息进行分析时，可以更加全面，得到语音行为特征也更加全面。

作为一种可选的实施方式，在将目标语音信息存储至与目标对象关联的目标语料库中之后，该方法还包括：在目标语料库中确定使用频率大于目标阈值，且在同一时间重复使用的语音信息样本；统计语音信息样本所指示的目标含义；建立语音信息样本与目标含义的第一表链接。

在该实施例中，可以对目标对象使用目标语音信息设定一个目标阈值，当目标语料库中的某一个语音信息的使用频率大于该目标阈值，且目标对象在同一时间重复使用该语音信息的情况下，将该语音信息作为一个样本，然后在目标语料库中获取至少一个相同的语音信息样本，使用大数据分析方法对上述语音信息样本进行分析，得到其所指示的语音含义，将该语音含义作为目标含义，并将上述目标含义进行统计，然后根据得到的语音信息样本和目标含义，建立语音信息样本与目标含义之间的第一表链接，该第一表链接可以用于指示语音信息样本与目标含义之间的对应关系。

作为一种可选的实施方式，在统计语音信息样本所指示的目标含义之后，该方法还包括：响应目标操作指令，修改目标含义；建立语音信息样本与修改后的目标含义的第二表链接。

在该实施例中，在统计语音信息样本所指示的目标含义之后，可以将该目标含义返回到目标对象进行确认，判断该目标含义是否正确，若该目标含义不正确，则可以提供一个入口接收用户触发的目标操作指令，该目标操作指令可以为修改操作指令，在对该指令响应之后，对不正确的目标含义进行修改，直到得到正确的目标含义，然后建立语音信息样本与修改后的目标含义之间的第二表链接，该第二表链接可以用于指示语音信息样本与修改后的目标含义之间的对应关系。

本发明实施例还从用户交互角度提供了另一种语音识别方法。

图2是根据本发明实施例的另一种语音识别方法的流程图。如图2所示，该方法可以包括如下步骤：

步骤S202，读取目标对象的目标语音信息，并在交互界面上显示目标对象的目标定位信息。

在本发明上述步骤S202提供的技术方案中，在获取目标对象的目标语音信息的同时，可以获取目标对象在提供目标语音信息时的目标定位信息，然后将目标对象的该定位信息显示在交互界面上，这样就可以使目标对象更加直观地查看到其当时所处的位置。

举例而言，当目标对象与语音助手之间进行交互时，语音助手在通过录音功能收集目标对象的语音信息时，可以通过全球定位系统获取到该时刻的目标对象的定位信息，并将该定位信息显示在语音助手的界面上。

步骤S204，在交互界面上显示识别结果，其中，识别结果为基于目标对象所使用的方言对目标语音信息进行识别得到，方言为基于目标定位信息确定。

在本发明上述步骤S204提供的技术方案中，在确定目标对象的目标定位信息之后，可以根据该目标定位信息确定目标对象的方言，并基于该方言对目标语音信息进行识别，得到识别结果后，将识别结果显示在交互界面上，这样就可以使目标对象更加直观地查看到识别结果，例如，通过语音助手对目标语音信息进行识别，并将识别结果显示在语音助手的界面上。

在相关技术中，由于用户存在一些自己的话术使用习惯，使得用户在使用方言的时候，现有的语音助手无法准确地识别用户的话术，从而会导致语音识别的准确率低的问题。

而本申请通过对目标对象的定位信息进行判断，确定目标对象使用的方言，从而可以根据方言信息对目标对象的语音信息进行识别，这样就可以对每个目标对象的语音识别进行优化，实现了精准识别语音信息的目的，从而解决了语音识别的准确率低的技术问题，达到了提高语音识别的准确率的技术效果，并且，本申请还可以通过将语音识别的识别结果显示在交互界面的方式，实现了目标对象可以直观地查看识别结果的目的，增强了目标对象的交互感，进一步解决了查看语音识别结果的效率低的技术问题，达到了提高查看语音识别结果的效率的技术效果。

实施例2

下面结合优选的实施方式对本发明实施例的语音识别方法进行具体介绍。

图3是根据本发明实施例的用户反复使用的话术处理方法的示意图。如图3所示，该方法可以包括如下步骤：

步骤S302，根据服务器的数据收集用户反复使用的话术。

在本发明上述步骤S302提供的技术方案中，该服务器可以为用户的个人服务器，例如，目标语料库，并从该服务器中保存的数据(用户的语音信息等)中获取用户反复使用的话术。

步骤S304，判断用户反复使用的话术是否在同一时间。

在本发明上述步骤S304提供的技术方案中，得到的判断结果分为两种情况，第一种情况为用户反复使用的话术不在同一时间，则跳转至步骤S306，第二种情况为用户反复使用的话术在同一时间，则跳转至步骤S308。

步骤S306，将用户反复使用的话术列入用户的常用列表。

在本发明上述步骤S306提供的技术方案中，若用户反复使用的话术不在同一时间，则说明此话术是用户在日常生活中可能经常会说到的话术，因此，可以将该话术列入用户的常用列表中。

步骤S308，根据大数据分析方法对用户的此话术的语义进行分析。

在本发明上述步骤S308提供的技术方案中，若用户反复使用的话术在同一时间，则说明该话术为用户在特定时间才会说的话术，此时可以使用大数据分析方法对该话术的语义进行分析，得到分析结果。

步骤S310，将分析结果返回至用户进行确认。

在本发明上述步骤S310提供的技术方案中，在得到分析结果之后，可以将分析结果返回给用户，这样就可以通过用户对该分析结果进行判断。

步骤S312，用户判断分析结果是否正确。

在本发明上述步骤S312提供的技术方案中，用户对得到的分析结果进行判断，若分析结果不正确，则跳转至步骤S314，否则，跳转至步骤S316。

步骤S314，为用户提供直接修改正确语义的方法。

在本发明上述步骤S314提供的技术方案中，若用户进行判断的分析结果不正确，则可以为用户提供直接修改正确语义的方法，直到得到语义正确的话术。

步骤S316，对话术进行语义定制，提高语音识别率。

在本发明上述步骤S316提供的技术方案中，在接收到步骤S306中列入用户的常用列表的话术，以及步骤S314中语义正确的话术之后，可以对该话术进行语义定制，这样在下一次识别到同样的话术时，可以直接获取到该话术的语义，避免了重复识别话术，提高了该话术的语音识别率。

图4是根据本发明实施例的用户方言处理方法的示意图。如图4所示，该方法可以包括如下步骤：

步骤S402，获取用户的话术。

在本发明上述步骤S402提供的技术方案中，可以通过语音助手采集用户的话术，也可以直接在目标语料库中获取用户需要处理的话术。

步骤S404，判断该话术是否有定位信息。

在本发明上述步骤S404提供的技术方案中，在得到用户的话术之后，需要对该话术是否有定位信息进行判断，若该话术没有对应的定位信息，则跳转至步骤S406，否则，跳转至步骤S408。

可选地，判断该话术是否有定位信息可以分为两种情况，第一种情况为，通过语音助手是否有定位功能来判断用户在说话时是否可以对用户的位置进行定位；第二种情况为，直接在目标语料库中搜索对应话术是否包含定位信息。

步骤S406，将各大主流方言作为阈值，并将用户的话术输入至神经网络模型中进行分析。

在本发明上述步骤S406提供的技术方案中，若用户的话术没有对应的定位信息，则可以将各大主流方言作为阈值对该话术进行判断，并将该话术输入至神经网络模型中，在神经网络模型中通过深度学习算法对话术进行分析。

步骤S408，根据定位信息将该定位信息附近的方言的优先级提高。

在本发明上述步骤S408提供的技术方案中，若用户的话术有对应的定位信息，则将该定位信息附近的方言的优先级进行提高，这样就可以对该定位信息附近的方言进行确定，以便于确定用户所使用的方言。

步骤S410，根据多层网络和阈值判断用户使用的方言，得到判断结果。

在本发明上述步骤S410提高的技术方案中，在步骤S406中得到阈值，以及步骤S408中得到方言的优先级之后，可以根据阈值和多层网络对用户的方言进行判断，并根据判断结果确定用户所使用的方言。

步骤S412，将得到的判断结果存储至个人服务器中，进行方言优化。

在本发明上述步骤S412提供的技术方案中，在得到判断结果之后，可以将该判断结果存储至用户的个人服务器中，由于用户的个人服务器为针对用户个人的，因此可以针对个人服务器对用户所使用的方言话术进行优化，这样就可以提高对方言的识别效率。

图5是根据本发明实施例的用户语音处理方法的示意图。如图5所示，该方法可以包括如下步骤：

步骤S502，用户通过语音助手输入语音信息。

在本发明上述步骤S502提供的技术方案中，可以通过语音助手输入语音信息，来获取用户的语音信息。

步骤S504，判断是否使用优化方法。

在本发明上述步骤S504提供的技术方案中，优化方法可以为针对用户口音方言和使用习惯深度学习优化识别的方法，若用户使用该优化方法，则跳转至步骤S506，否则跳转至步骤S508。

步骤S506，包装所有信息对应JSON加密字段为真。

在本发明上述步骤S506提供的技术方案中，所有信息可以为用户输入的所有语音信息，若用户使用优化方法，则可以包装所有信息对应的JSON加密字段为真，此时，可以将使用优化方法优化的语音信息进行加密传输。

步骤S508，包装所有信息对应JSON加密字段为假。

在本发明上述步骤S508提供的技术方案中，若用户使用优化方法，则可以包装所有信息对应的JSON加密字段为假，此时，对未优化的用户输入的语音信息直接进行传输。

步骤S510，通过物联网服务器将语音信息透传至讯飞服务器中进行语音解析。

在本发明上述步骤S510提供的技术方案中，可以将步骤S506和步骤S508中需要传输的语音信息发送至物联网服务器中，然后在通过物联网服务器将语音信息透传至讯飞服务器中，在讯飞服务器中通过大数据分析方法对该语音信息进行解析。

步骤S512，使用讯飞服务器返回语音信息至物联网信息。

在本发明上述步骤S512提供的技术方案中，在通过讯飞服务器对语音信息进行解析之后，可以将解析过的语音信息返回至物联网服务器中，以便于物联网服务器将语音信息存储至个人服务器中。

步骤S514，根据用户ID进入对应用户的个人服务器中，对语音信息进行分析。

在本发明上述步骤S514提供的技术方案中，每个用户都拥有一个个人服务器，因此，可以根据用的ID进入到对应用户的个人服务器中，然后可以在个人服务器中使用大数据分析方法对存储至其中的语音信息的语义进行分析，得到分析结果。

步骤S516，将分析结果返回至语音助手中，并基于分析结果对语音信息进行对应的操作。

在本发明上述步骤S516提供的技术方案中，在得到分析结果以后，可以将分析结果返回至语音助手中，若分析结果为语音信息的语义不正确，则需要在语音助手中对不正确的语义进行修改，直到得到正确的语义，然后将语义正确的语音信息存储至个人服务器中。

图6是根据本发明实施例的用户语音话术使用习惯处理方法的示意图。如图6所示，该方法可以包括如下步骤：

步骤S602，通过语音助手收集用户的语音话术使用习惯。

在本发明上述步骤S602提供的技术方案中，语音助手的录音功能可以用于收集用户的语音话术，在语音助手收集到语音话术之后，可以在语音助手中通过深度学习对收集到的语音话术进行分析，以得到用户的语音话术使用习惯，例如，语音话术的发音、使用语音话术的时间、使用语音话术的地点等。

步骤S604，根据对应的时间、地点的语音话术确定用户的各个条件。

在本发明上述步骤S604提供的技术方案中，在收集到用户使用语音话术的时间、地点之后，可以确定出该时间、地点对应的语音话术，这样就可以将用户输入语音话术与时间、地点对应起来，以便于确定用户的各个条件，例如，用户的性别、年龄、职业等基本属性信息。

步骤S606，将各个条件设置为神经节点，并根据用户的语音话术使用习惯设置阈值。

在本发明上述步骤S606提供的技术方案中，每个用户的条件可能都不一样，因此，可以将用户的各个条件设置为神经节点，这样就可以针对每个用户对用户的语音话术进行更好的优化。

步骤S608，根据用户使用语音助手的条件，使用深度学习算法对该条件进行学习。

在本发明上述步骤S608提供的技术方案中，用户使用语音助手的条件可以包括用户使用语音助手的时间、地点、输入的语音话术等，然后可以将该条件输入至深度学习模型中，在深度学习模型中通过深度学习算法进行学习。

步骤S610，学习出当下用户想要完成的操作并反馈相关功能的推荐。

在本发明上述步骤S610提供的技术方案中，采用深度学习算法学习用户使用语音助手的条件之后，可以学习出在当前的时间、地点，该用户想要完成的操作，并根据用户想要完成的操作对用户推荐相关的功能。

该实施例的语音识别方法，通过对用户反复使用的话术、用户方言、用户语音以及用户语音话术使用习惯进行处理，采用深度学习和大数据分析方法，避免了现有技术中无法准确判断目标对象的方言，也避免了由于每个目标对象都有自己的语音行为习惯，而无法将目标语音信息与目标对象对应，导致的获取目标对象的语音行为特征效率低，实现了对每个目标对象的语音识别进行优化的目的，从而解决了语音识别的准确率低的技术问题，达到了提高语音识别的准确率的技术效果。

实施例3

根据本发明实施例，还提供了一种用于实施上述语音识别方法的语音识别装置。需要说明的是，该实施例的语音识别装置可以用于执行本发明实施例图1所示的语音识别方法。

图7是根据本发明实施例的一种语音识别装置的示意图。如图7所示，该语音识别装置70可以包括：获取单元71、确定单元72和识别单元73。

获取单元71，用于获取目标对象的目标语音信息和目标对象的目标定位信息；

确定单元72，用于基于目标定位信息确定目标对象所使用的方言；

识别单元73，用于基于方言对目标语音信息进行识别，得到识别结果。

根据本发明实施例，还提供了另一种用于实施上述语音识别方法的语音识别装置。需要说明的是，该实施例的语音识别装置可以用于执行本发明实施例图2所示的语音识别方法。

图8是根据本发明实施例的另一种语音识别装置的示意图。如图8所示，该语音识别装置80可以包括：处理单元81和显示单元82。

处理单元81，用于读取目标对象的目标语音信息，并在交互界面上显示目标对象的目标定位信息；

显示单元82，用于在交互界面上显示识别结果，其中，识别结果为基于目标对象所使用的方言对目标语音信息进行识别得到，方言为基于目标定位信息确定。

该实施例的语音识别装置通过对目标对象的定位信息进行判断，确定目标对象使用的方言，从而可以根据方言信息对目标对象的语音信息进行识别，这样就可以对每个目标对象的语音识别进行优化，实现了精准识别语音信息的目的，从而解决了语音识别的准确率低的技术问题，达到了提高语音识别的准确率的技术效果，并且，本申请还可以通过将语音识别的识别结果显示在交互界面的方式，实现了目标对象可以直观地查看识别结果的目的，增强了目标对象的交互感，进一步解决了查看语音识别结果的效率低的技术问题，达到了提高查看语音识别结果的效率的技术效果。

实施例4

根据本发明实施例，还提供了一种计算机可读存储介质，该计算机可读存储介质包括存储的程序，其中，该程序执行实施例1中所述的语音识别方法。

实施例5

根据本发明实施例，还提供了一种处理器，该处理器用于运行程序，其中，程序运行时执行实施例1中所述的语音识别方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音识别方法，其特征在于，包括：

获取目标对象的目标语音信息和所述目标对象的目标定位信息；

基于所述目标定位信息确定所述目标对象所使用的方言；

基于所述方言对所述目标语音信息进行识别，得到识别结果。

2.根据权利要求1所述的方法，其特征在于，基于所述目标定位信息确定所述目标对象所使用的方言，包括：

确定所述目标定位信息对应的方言使用范围；

通过深度学习在所述方言使用范围中确定所述目标对象所使用的方言。

3.根据权利要求1所述的方法，其特征在于，在获取目标对象的目标语音信息之后，所述方法还包括：

将所述目标语音信息存储至与所述目标对象关联的目标语料库中；

基于所述目标语料库确定语音行为特征，其中，所述语音行为特征用于指示所述目标对象表述语音的行为习惯。

4.根据权利要求3所述的方法，其特征在于，基于所述方言对所述目标语音信息进行识别，得到识别结果，包括：

基于所述方言和所述语音行为特征对所述目标语音信息进行识别，得到所述识别结果。

5.根据权利要求3所述的方法，其特征在于，将所述目标语音信息存储至与所述目标对象关联的目标语料库中，包括：

发送所述目标语音信息至第一服务器，其中，所述目标语音信息由所述第一服务器透传至第二服务器，所述目标语音信息由所述第二服务器进行解析，并将得到的解析结果返回至所述第一服务器，所述解析结果由所述第一服务器存储至第三服务器。

6.根据权利要求5所述的方法，其特征在于，在获取所述目标对象的目标定位信息之后，所述方法还包括：

将所述目标定位信息存储至所述第三服务器中。

7.根据权利要求3所述的方法，其特征在于，在基于所述目标语料库确定语音行为特征之后，所述方法还包括：

推荐与所述语音行为特征关联的目标功能。

8.根据权利要求3所述的方法，其特征在于，基于所述目标语料库确定语音行为特征，包括：

使用所述目标语料库中的语音信息对深度学习子模型进行训练，得到神经网络模型，其中，所述神经网络模型用于确定输入的语音信息对应的语音行为特征；

基于所述神经网络模型对所述目标语音信息进行分析，得到所述语音行为特征。

9.根据权利要求8所述的方法，其特征在于，使用所述目标语料库中的语音信息对深度学习子模型进行训练，得到神经网络模型，包括：

使用所述目标语料库中的语音信息、所述目标语料库中的语音信息发生的时间、所述目标语料库中的语音信息发生的地点对深度学习子模型进行训练，得到所述神经网络模型。

10.根据权利要求3所述的方法，其特征在于，在将所述目标语音信息存储至与所述目标对象关联的目标语料库中之后，所述方法还包括：

在所述目标语料库中确定使用频率大于目标阈值，且在同一时间重复使用的语音信息样本；

统计所述语音信息样本所指示的目标含义；

建立所述语音信息样本与所述目标含义的第一表链接。

11.根据权利要求10所述的方法，其特征在于，在统计所述语音信息样本所指示的目标含义之后，所述方法还包括：

响应目标操作指令，修改所述目标含义；

建立所述语音信息样本与修改后的所述目标含义的第二表链接。

12.一种语音识别方法，其特征在于，包括：

读取目标对象的目标语音信息，并在交互界面上显示所述目标对象的目标定位信息；

在所述交互界面上显示识别结果，其中，所述识别结果为基于所述目标对象所使用的方言对所述目标语音信息进行识别得到，所述方言为基于所述目标定位信息确定。

13.一种语音识别装置，其特征在于，包括：

获取单元，用于获取目标对象的目标语音信息和所述目标对象的目标定位信息；

确定单元，用于基于所述目标定位信息确定所述目标对象所使用的方言；

识别单元，用于基于所述方言对所述目标语音信息进行识别，得到识别结果。

14.一种语音识别装置，其特征在于，包括：

处理单元，用于读取目标对象的目标语音信息，并在交互界面上显示所述目标对象的目标定位信息；

显示单元，用于在所述交互界面上显示识别结果，其中，所述识别结果为基于所述目标对象所使用的方言对所述目标语音信息进行识别得到，所述方言为基于所述目标定位信息确定。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序被处理器运行时控制所述计算机可读存储介质所在设备执行权利要求1至12中任意一项所述的方法。

16.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至12中任意一项所述的方法。