CN109256136A

CN109256136A - 一种语音识别方法和装置

Info

Publication number: CN109256136A
Application number: CN201811008804.0A
Authority: CN
Inventors: 杨荷花; 叶韵
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2019-01-22
Anticipated expiration: 2038-08-31
Also published as: CN109256136B

Abstract

本发明提供了一种语音识别方法和装置，应用于智能设备，该方法包括：收集用户的语音数据，提取用户的语音数据包含的声纹信息，使用声纹训练器对提取的所有声纹信息进行训练，得到该用户的语音特征信息和声纹模型；接收到该用户的语音指令时，根据该用户的语音特征信息和该用户的声纹模型对该条语音指令进行转换，得到符合智能设备的用户指令格式要求的语音指令。本发明能够结合语音特征提取用户的真实表达，提高语音识别的准确率。

Description

一种语音识别方法和装置

技术领域

本发明涉及语音识别技术领域，特别涉及一种语音识别方法和装置。

背景技术

语音作为人类沟通最快捷高效的方式，却一直没能被很好的运用在机器领域，随着人工智能技术的发展，语音在人机交互上的优势也得以体现，相应的产品也应运而生，比如移动终端的语音助手软件、智能音箱设备等。

语音助手在使用过程中，常常由于外部噪声的影响，导致识别错误。也会因为个人表达方式的不同，导致识别不了用户真正的意图。现有的语音助手都有做提升识别率的处理，比如对用户语音指令进行降噪、固定用户的表达方式、让用户自己定制指令等。

目前主流的降噪都是通过增加硬件来实现，成本太高，软件上纯粹通过算法降噪实现难度系数较大，而固定用户的指令格式，这种做法让用户体验很不友好，灵活性较低。而且智能设备的语音助手或者是智能音箱都没有收集用户所有语音数据的行为，仅仅是对唤醒后收集的语音数据进行人工智能训练，由于语音助手对于用户指令的限制性，很多用户自身的声纹特征会被刻意隐藏掉，比如，用户会固定自己的表达方式，刻意的说清楚的普通话等，从而导致这些数据并不能表现出用户日常生活中的状态，这样很难提炼出用户本身的语音特征，训练出来的模型也缺乏针对性，因此对用户语音的识别率并不理想。

发明内容

有鉴于此，本发明的目的在于提供一种语音识别方法和装置，能够结合语音特征提取用户的真实表达，提高语音识别的准确率。

为了达到上述目的，本发明提供了如下技术方案：

一种语音识别方法，应用于智能设备，该方法包括：

收集用户的语音数据，提取该用户的语音数据包含的声纹信息，使用声纹训练器对提取的所有声纹信息进行训练，得到该用户的语音特征信息和声纹模型；

接收到该用户的语音指令时，根据该用户的语音特征信息和声纹模型对该条语音指令进行转换，得到符合智能设备的用户指令格式要求的语音指令。

一种语音识别装置，应用于智能设备，该装置包括：数据收集单元、模型生成单元、指令处理单元；

所述数据收集单元，用于收集用户的语音数据；

所述模型生成单元，提取该用户的语音数据包含的声纹信息，使用声纹训练器对提取的所有声纹信息进行训练，得到该用户的语音特征信息和声纹模型；

所述指令处理单元，用于接收用户的语音指令，根据该用户的语音特征信息和声纹模型对该条语音指令进行转换，得到符合智能设备的用户指令格式要求的语音指令。

由上面的技术方案可知，本发明中，通过收集用户日常生活中的所有语音数据，利用人工智能技术进行数据分析处理，尽可能多的提取出用户声波频谱里能体现出来的语音特征，生成能够识别出用户语音特征的模型。当用户输入语音指令时，将语音经过模型识别处理，并根据用户的语音特征把模糊不清的语音表达转换成机器能理解的清晰准确的指令。由于用户自己的语音数据对自己的模型匹配度要高于其他用户的语音输入，因此可以很好的提高智能设备对用户语音的识别率，而且随着用户使用智能设备的时间增加，收集的用户语音数据会随之增大，有效的语音数据也会越来越多，从而能够提取出更多更精确的用户语音特征，利用这些语音特征之后，可以更进一步提高用户语音的识别率，让用户体验越来越好。

附图说明

图1是本发明实施例语音识别系统示意图；

图2是本发明实施例声纹模型生成模型图；

图3是本发明实施例训练频率示意图；

图4是本发明实施例语音识别方法的流程图；

图5是本发明实施例语音识别装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图并据实施例，对本发明的技术方案进行详细说明。

实际生活中，人们在交流时，外界环境不良好的情况下，个人的说话内容以及想表达的意图却可以通过参考此人的说话习惯、语气语调等语音特征推测出来，本发明通过人工智能技术结合语音特征提取用户的真实表达，可以有效提高语音识别的准确率。

参见图1，图1是本发明实施例语音识别系统示意图，如图1所示，该系统包括智能设备和云端，其中，智能设备分为本地硬件层、本地中间层和本地软件层，智能终端和云端配合，实现对用户语音的识别。

下面结合图1，对用户语音识别过程进行说明：

一、用户的语音数据的收集

本发明中，在用户使用智能设备的过程中，将智能设备获取的所有用户语音数据收集起来。

收集过程如下：

S1011、位于本地硬件层的收音装置(如麦克风)拾取语音数据，将语音数据送往位于本地软件层的目标应用软件。

智能设备中有很多语音软件入口，例如聊天软件(微信、QQ)、电话软件、录音软件、语音助手等应用软件都提供语音软件入口，但是硬件入口只有作为收音装置的麦克风，因此，所有语音数据都需要由收音装置拾取，然后通过相应语音软件入口送入目标应用软件。

S1012、位于本地中间层的声纹识别器截获该语音数据，利用存储的声纹信息对该语音数据进行识别，如果识别确定该语音数据是用户的语音数据，则将该语音数据作为收集的该用户的语音数据进行存储，如果识别确定该语音数据不是用户的语音数据，则丢弃该语音数据。

智能设备在首次启动时，可以在初始化过程中要求用户输入少量语音数据，智能设备中配置的声纹识别器(轻量级声纹识别器)从这些语音数据中提取声纹信息并存储，以便后续截获到收音装置拾取的语音数据时，利用这些声纹信息实现对用户语音的识别，对于识别出的用户语音数据进行存储，对于识别出的非用户语音数据，直接丢弃。

在本发明实施例中，在云端存储收集的用户语音数据。当声纹识别器识别出一条用户语音数据后，可以将该用户语音数据直接上传到云端，也可以先在本地保存该用户语音数据，并在本地存储的该用户语音数据达到一定数量时再上传到云端存储，同时删除本地存储的该用户语音数据并释放本地存储空间，以便继续存储后续识别出的该用户的语音数据。

在本发明实施例中，云端为每个注册用户分配一个存储空间，用来存储该用户的语音数据。注册用户登录不同的智能设备时，其在云端对应的是同一存储空间。因此，同一用户的语音数据被上传到云端后，均被存储到该用户对应的存储空间。

另外，在存储语音数据时，可以同时存储该语音数据的记录时间、数据大小、设备来源、录取数据位置等相关数据。

二、用户语音数据的训练

本发明实施例中，利用人工智能声纹训练器对用户的语音数据进行训练。

云端可以使用同一声纹训练器实现对不同用户的语音数据的训练，这样可以减少声纹训练器的分布，如图2所示，每个用户在云端中有一个存储空间存储该用户的语音数据(每个用户的全部语音数据构成一个数据集)，但是所有用户共用一个人工智能声纹训练器，各用户的语音数据经此人工智能声纹训练器的训练得到该用户对应的声纹模型。

使用声纹训练器对用户的语音数据进行训练时，可以遵循一定的训练频率，例如图3所示，在用户的语音数据集到达一定数量时才开始训练，声纹训练器训练的频率会随着收集到的用户语音数据集的变大而变低，这主要是因为前期有效数据较多，所以训练频率较高，后期有效数据会变少，重复数据变多，训练频率也随之下降。同时，由于后期用户语音数据量的增大，训练时长也会增大，因此减少训练频率可以减少资源占用。

参与训练的用户语音数据量的多少，对后续的语音识别正确率有一定关系。实验证明，当语音时长为7-12秒的10000条用户语音数据参与训练时，使用训练得到的用户语音特征信息和声纹模型对用户语音进行识别时，错误率为13％；当语音时长为7-12秒的57451条用户语音数据参与训练时，使用训练得到的用户语音特征信息和声纹模型对用户语音进行识别时，错误率为3％。这说明数据集的大小对训练效果起正相关的作用。

本发明实施例中，对用户的语音数据进行训练时，声纹训练器首先提取用户的每一语音数据包含的声纹信息，然后采用人工智能方法对所有声纹信息进行训练，从而确定用户的语音特征信息并生成用户的声纹模型。

本发明实施例中，声纹信息是用户语音声波频谱中所能体现出来的所有语音特征，具体包括：语速，语调，语气，语势，音色，音高，音强，音长，口头禅，尾音(如儿话音)，方言，别名(例如老爸、阿爸、爹、爹地、daddy均是标准名称“爸爸”的别名)、语言表达方式(如倒桩表达方式)、情感特征(如高兴、伤心、兴奋、激动、低落等表征用户情绪的语音特征)等等。语音特征信息除了包括这些语音特征外，还包括每个语音特征对应的一个特征参数，此特征参数可以是一个具体的值(也可以视为只有一个取值的取值范围)，也可以是一个取值范围。例如，语速对应的特征参数可能是一个语速的取值范围、音高对应的特征参数是一个音高的取值范围等，又如，方言对应的特征参数可能是一个具体值(例如山东方言)。

一般情况下，用户的一条语音数据中不可能包含该用户的所有语音特征，因此，一条语音数据中包含的声纹信息实际上只会包含上述语音特征的一部分，而声纹训练器提取了用户的所有语音数据包含的声纹信息后，可以通过训练的方法得到这些声纹信息包含的所有语音特征以及每个语音特征对应的特征参数，也即用户的语音特征信息。当参与训练的用户的语音数据量较少时，得到的用户的语音特征信息可能不全(即不能涵盖用户的所有语音特征)，但是随着参与训练的用户的语音数据量的增多，用户的语音特征信息会越来越完整，这也是用户的有效语音数据会随着用户语音数据量的增多而逐渐减少的原因。

本发明中，为了便于区分，将语音特征分为两类，第一类语音特征为狭义的语音特征，具体包括语速，语调，语气，语势，音色，音高，音强，音长等可以从用户语音的声波频谱中所能体现出来的所有语音特征；第二类语音特征为扩展的语音特征，具体包括口头禅，尾音，方言，别名、语言表达方式、情感特征、职业、性格等可以通过自然语言理解及语义分析获取得到的引申信息，例如，声纹识别器在训练用户语音数据的过程中，可以通过添加对于用户词频的统计分析，来体现用户的某些职业特征；添加对于用户口头禅词性的分析，体现用户性格特征；通过检测用户语音的特色属性，例如突然出现持续的鼻音(感冒引起)，体现用户近期身体健康问题；通过分析用户的语音、语调、语速、音高等确定用户的情感特征等等。

三、用户语音识别

声纹训练器对用户语音数据训练得到用户的语音特征信息和声纹模型(声纹模型用于提取用户语音数据中的声纹信息)后，就可以将用户的语音特征信息和声纹模型用于用户语音识别。

具体地，训练得到用户的语音特征信息和声纹模型后，可以将用户的语音特征信息存储到同样位于云端的用户语音信息库和位于本地的声纹识别器，其中，用户的语音特征信息送入云端的用户语音信息库之后，可以用户智能设备后续的用户语音识别和内容推荐，后续会进行详细介绍；还可以将用户的语音特征信息送入本地的声纹识别器，本地的声纹识别器将用户的语音特征信息与之前存储的声纹信息合并，从而在后续对截获的语音数据进行用户语音识别和收集过程中，可以更准确地区分出用户语音数据，提高用户语音数据收集的准确率。

以下对用户语音识别的实现进行说明。

前面已经提到，声纹训练器对用户的语音数据进行训练可以得到用户的语音特征信息和声纹模型，而用户的语音特征信息和声纹模型则可以用于后续的用户语音识别。

具体地，当智能设备接收到该用户的语音指令时，可以根据该用户的语音特征信息和该用户的声纹模型对该条语音指令进行转换，得到符合用户指令格式要求的语音指令。

其中，根据用户的语音特征信息和该用户的声纹模型对用户的语音指令进行转换的方法具体可以为：利用该用户的声纹模型提取该条语音指令包含的声纹信息，将该声纹信息中的所有语音特征与该用户的语音特征信息中的所有语音特征进行比较，并根据比较结果对语音指令进行转换。

下面对用户的语音指令到符合用户指令格式的语音指令的转换进行说明：

用户在日常生活中，语言习惯、语气语调等都是有各自的语音特征的。

例如，用户为东北人时，说话常带儿化音(尾音)，那么收集到的用户语音数据大多数多数都是带有儿化音的数据，在声纹训练器训练用户语音数据时，就可以提取到这个语音特征：尾音，对应的特征参数是“儿化音”，此语音特征会被存储到用户语音信息库。当用户使用智能设备时，发出的语音指令结尾习惯性的带有儿化音时，智能设备在识别时，即可以直接将儿化音数据过滤掉，而不用再考虑用户是不是说了什么其他的不清楚的指令。

又如，不同地域的用户可能会使用不同的方言，尤其是在使用聊天软件、电话软件等通讯应用软件时使用方言的概率会很大，当收集到这些带有方言的用户语音数之后，声纹训练器在训练时可以识别出用户常用的是哪种方言，从而可以得到这个语音特征：方言，对应的特征参数是方言的属性或类别(例如方言所属地域)，此语音特征会被存储到用户语音信息库。当用户使用智能设备时，发出的语音指令中可能会夹带有方言，智能设备可以根据用户的语音特征信息识别出此方言，从而可以将其替换成该方言所对应的标准语言，这样智能设备就能够很好的识别出正确语音指令。

有如，不同用户有不同的语言习惯，可能会使用不同的别名表达同一标准用语，例如，有的用户会称呼爸爸为爹，有的用户则称呼爸爸为“老爸”。如果用户习惯对某些用语使用别名，则声纹训练器可以在训练用户语音数据的过程中，识别出该用户的语音特征：别名，其对应的特征参数为具体的别名表达(如老爸)，此语音特征会被存储到用户语音信息库。当用户使用智能设备时，发出的语音指令中可能带有此别名，智能设备可以根据用户的语音特征信息识别出此别名，从而可以将其替换成该别名所对应的标准用语，这样智能设备就能够很好的识别出正确语音指令。

再如，每个用户都有其特有的一套语言表达方式，比如该用户习惯性使用倒桩语句，收集到的语音数据集就可以体现出来，声纹训练器可以在训练用户语音数据的过程中，识别出该用户的一个语音特征：语言表达方式，其对应的特征参数为倒桩语句，此语音特征会被存储到用户语音信息库。当用户使用智能设备时，发出的语音指令中可能是倒桩语句，例如“你站在那儿，静静”，此时用户的真实表达有很大可能是说“你静静站在那儿”，而不是对着静静说“你站在那儿”，而智能设备可以根据用户的语音特征信息确定用户习惯使用倒桩语句，因此可以将用户的语音指令转化为：“你静静站在那儿”。

由此可知，本发明中，将该声纹信息中的所有语音特征与该用户的语音特征信息中的所有语音特征进行比较，并根据比较结果对语音指令进行转换，至少包括：

如果该声纹信息中包括尾音，且该尾音和该用户的语音特征信息中的尾音对应的特征参数相符，均是儿化音，则过滤掉该语音指令中的儿化音；

如果该声纹信息中包括方言，且该方言和该用户的语音特征信息中的方言对应的特征参数相符(这里的相符是指前者的取值落入后者的取值范围内)，则将该语音指令中的方言转化为标准语言；

如果该声纹信息中包括别名，且该别名和该用户的语音特征信息中的别名对应的特征参数相符，则将该语音指令中的别名转化为标准用语；

如果该声纹信息中包括该语音指令的语言表达方式，且该语言表达方式和该用户的语音特征信息中的语言表达方式对应的特征参数相符(这里的相符是指)，则将该语音指令的语音表达方式转化为符合用户指令格式的语音表达方式。

需要说明的是，这里的X与Y相符，是指X的取值落入Y的取值范围内。例如，声纹信息中的尾音的取值是儿化音，用户的语音特征信息中的尾音对应的特征参数也是儿化音，则称两者是相符的。

本发明实施例中，用户语音识别还可以用于内容推荐：

用户在日常生活中的语音数据可以反应出很多用户的个人特征，比如收集到的用户的语音数据里，时常会有“同学们”，“课后”，“作业”等这样的高频词出现，获取到的语音数据带有的位置标签是学校或者教育机构，那么这个用户很可能就是一个老师，或者是教育从业者。声纹训练器通过采用人工智能方法对该用户的语音数据的训练，可以确定该用户的语音特征：职业，其对应的特征参数为教育工作者。这样，当需要进行内容推荐时，例如用户输入的查看政策的语音指令时，可以推送教育相关政策、新闻等内容给用户，给用户提供有可能希望看到的最新行业资讯。

用户说话时常夹带有计算机英语，如code、project、pm、java、android等等，语音数据段带有的时间标签时常出现凌晨，获取的语音数据大多来自手机及电脑设备而不是家电、音箱，节假日仍时常有相关语音数据出现等等现象，那么该用户是一个IT相关从业者的可能性就会很大。声纹训练器通过采用人工智能方法对该用户的语音数据的训练，可以确定该用户的语音特征：职业，其对应的特征参数为IT工作者。当该用户使用智能设备“查看科技新闻”时，智能设备就完全可以优先推送IT相关行业的最新消息给用户，将其他如航天科技，农业科技等领域的新闻优先级降低。

口头禅还是个人性格特征的很好体现，时常说“好”“没问题”的人，就很大可能是个积极开朗、乐于助人的人，时常说“不知道”“你看着办”的人，就很有可能是个没有主见、依赖性强的人。声纹训练器通过对用户的语音数据训练，可以确定用户的口头禅，而根据用户的口头禅可以确定用户性格；分析出来的用户性格可以应用在内容推荐中；例如性格较真的人在购物时，推荐的产品应该偏向于精品，而性格大条的人，推荐的产品应该更偏向于性价比高的产品等。

可见，本发明中，还可以根据用户的口头禅分析确定用户的性格，在需要进行内容推荐时，根据用户的性格和/或职业选择为用户推荐的内容。

本发明实施例中，用户语音识别还可用于信息安全方面的验证。

随着时间的推移，收集到的用户语音数据越来越多，能够提取到用户的声纹信息也会变得越来越多，越来越精准，这时可以升级用户的语音解锁设备功能，当前语音解锁功能存在的很多缺陷都可以得到解决，例如：识别不准确，需要固定解锁语音段等。

同时在智能家居领域，精准的语音识别可以得到广泛的运用。比如：家里的智能设备都处于用户自建的局域网中，当家里的小孩想要打开电视设备时，发送的语音指令不是用户自身的语音时，电视设备可以拒绝执行该指令，很显然用户是不希望孩子一直在家看电视的；当家里有客人到访时，聊天的过程中出现了与用户指令相同的语音时，由于声纹信息的不匹配，智能设备也很容易将其抛弃，而不会误执行指令；用户语音声纹的精准匹配，可以视为用户自带权限设置功能，家里的孩子是没法打开具有危险性的设备，如洗衣机，电风扇等，而用户自己的隐私设备，如手机，也可以选择不跟家人共享。

可见，本发明中，还可以为智能设备设置语音验证功能，当智能设备接收到设备拥有者之外其它用户的语音指令后，根据设备拥有者的语音特征信息和声纹模型对该语音指令进行转换时，可以发现该语音指令包含的声纹信息与设备拥有者的语音特征信息不匹配，进而确定该语音指令并非设备拥有者发出的语音指令，因而拒绝执行该语音指令。

本发明实施例中，将用户的语音指令转化为符合智能设备的用户指令格式要求的语音指令之后，还可以接着执行转化后的语音指令，并将执行结果通过输出或其它方式反馈给用户，而在输出执行结果时，还可以结合用户发出语音指令时的情感特征，输出一些用于调节用户情感特征的情感符号。其中，根据用户的语音特征信息和声纹模型提取用户的语音令包含的声纹信息中包含有情感特征，该情感特征即为用户发出语音指令时的情感特征。用户的情感特征包括兴奋、激动、高兴、伤心、低落等，可以预先针对每种情感特征设置相应的用于情绪调节的情感符号，情感符合可以是文字，也可以是图片，例如，伤心对应的用于情绪调节的情感符号可以是一个滑稽的笑脸图片。

本发明实施例中，对语音指令的接收、转换过程可以由智能设备中的语音助手执行。另外，本发明提供的语音识别方法可以应用在移动设备，智能音箱、机器人、车载系统智能设备或智能系统中。

以上对本发明语音识别的实现原理进行了详细说明，基于上述时限原理，本发明提供了一种语音识别方法和一种语音识别装置，以下结合图4和图5进行说明。

参见图4，图4是本发明实施例语音识别方法的流程图，该方法应用于智能设备，主要包括以下步骤：

步骤401、收集用户的语音数据，提取该用户的语音数据包含的声纹信息，使用声纹训练器对提取的所有声纹信息进行训练，得到该用户的语音特征信息和声纹模型；

步骤402、接收到该用户的语音指令时，根据该用户的语音特征信息和声纹模型对该条语音指令进行转换，得到符合智能设备的用户指令格式要求的语音指令。

图4所示方法进一步包括：

预先获取该用户的N条语音数据，将该N条语音数据送入智能设备中配置的声纹识别器，由所述声纹识别器提取该N条语音数据中包含的声纹信息并存储；其中，N是小于预设值的正整数；

收集用户的语音数据的方法为：利用智能设备中配置的声纹识别器截获由智能设备的收音装置拾取并输入到智能设备中任一应用软件的语音数据，利用声纹识别器存储的声纹信息对该语音数据进行识别，如果该语音数据不属于该用户，则丢弃该语音数据，否则，将该语音数据作为收集到的该用户的语音数据进行存储；其中，所述应用软件包括：语音助手、录音软件、聊天软件和电话软件。

图4所示方法中，

将该语音数据作为收集到的该用户的语音数据进行存储的方法为：将该语音数据作为该用户的语音数据存储在本地，如果本地存储的该用户的语音数据超过预设数据量，则将本地存储的该用户的所有语音数据送往云端中该用户对应的存储空间进行存储，并删除本地存储的该用户的所有语音数据；

使用声纹训练器对提取的所有声纹信息进行训练，得到该用户的语音特征信息和声纹模型的方法为：利用设置在云端的声纹训练器对存储在云端的该用户的所有语音数据进行训练，得到该用户的语音特征信息和声纹模型。

图4所示方法中，

使用声纹训练器对提取的所有声纹信息进行训练，得到该用户的语音特征信息之后，进一步包括：将该用户的语音特征信息送到该用户的语音信息库存储，并利用该用户的语音特征信息更新智能设备中的声纹识别器存储的声纹信息。

图4所示方法中，

语音数据包含的声纹信息为从该语音数据的声波频谱中提取到的语音特征构成的集合；

用户的语音特征信息包括用户的所有语音特征及每个语音特征对应的特征参数；所述特征参数为一取值范围，包括至少一个取值；

根据该用户的语音特征信息和该用户的声纹模型对该条语音指令进行转换的方法为：利用该用户的声纹模型提取该条语音指令包含的声纹信息，将该声纹信息中的所有语音特征与该用户的语音特征信息中的所有语音特征进行比较，并根据比较结果对语音指令进行转换。

图4所示方法中，

所述语音特征包括第一类语音特征和第二类语音特征；

所述第一类语音特征包括：语速、语调、语气、语势、音色、音高、音强、音长；所述第二类语音特征包括：尾音、方言、别名、语言表达方式；

将该声纹信息中的所有语音特征与该用户的语音特征信息中的所有语音特征进行比较，并根据比较结果对语音指令进行转换，包括：

如果该声纹信息中包括尾音，且该尾音和该用户的语音特征信息中的尾音对应的特征参数相符，均为儿化音，则过滤掉该语音指令中的尾音；

如果该声纹信息中包括方言，且该方言和该用户的语音特征信息中的方言对应的特征参数相符，则将该语音指令中的方言转化为标准语言；

如果该声纹信息中包括该语音指令的语言表达方式，且该语言表达方式和该用户的语音特征信息中的语言表达方式对应的特征参数相符，则将该语音指令的语音表达方式转化为符合用户指令格式的语音表达方式。

图4所示方法中，

所述第二类语音特征还包括：口头禅和职业；

该方法进一步包括：根据用户的口头禅分析确定用户的性格，在需要进行内容推荐时，根据该用户性格和职业在所有推送内容中选择适用于用户的推荐内容。

图4所示方法中，

所述第二类语音特征还包括：用于表征用户情绪的情感特征；

得到符合智能设备的用户指令格式要求的语音指令之后，进一步包括：执行该语音指令，输出执行结果，并在输出执行结果时，进一步确定用户的语音指令包含的声纹信息中的情感特征，输出预先设定的该情感特征对应的用于情绪调节的情感符号，所述情感符号为文字和/或图片。

图4所示方法中，

智能设备中配置有语音解锁功能；

智能设备接收到一条语音指令后，根据智能设备拥有者的语音特征信息和声纹模型对该条语音指令进行转换时，如果确定该条语音指令不是智能设备拥有者发出的语音指令，则拒绝执行该语音指令。

参见图5，图5是本发明实施例语音识别装置的结构示意图，如图5所示，该装置应用于智能设备，包括：数据收集单元501、模型生成单元502、指令处理单元503；其中，

数据收集单元501，用于收集用户的语音数据；

模型生成单元502，提取该用户的语音数据包含的声纹信息，使用声纹训练器对提取的所有声纹信息进行训练，得到该用户的语音特征信息和声纹模型；

指令处理单元503，用于接收用户的语音指令，根据该用户的语音特征信息和声纹模型对该条语音指令进行转换，得到符合智能设备的用户指令格式要求的语音指令。

图5所示装置还包括预处理单元504；

所述预处理单元504，用于预先获取该用户的N条语音数据，将该N条语音数据送入智能设备中配置的声纹识别器，由所述声纹识别器提取该N条语音数据中包含的声纹信息并存储；其中，N是小于预设值的正整数；

所述数据收集单元501，收集用户的语音数据时，用于：利用智能设备中配置的声纹识别器截获智能设备的收音装置拾取并输入到智能设备中任一应用软件的语音数据，利用声纹识别器存储的声纹信息对该语音数据进行识别，如果该语音数据不属于该用户，则丢弃该语音数据，否则，将该语音数据作为收集到的该用户的语音数据进行存储；其中，所述应用软件包括：语音助手、录音软件、聊天软件和电话软件。

图5所示装置中，

所述数据收集单元501，将该语音数据作为收集到的该用户的语音数据进行存储时，用于：将该语音数据作为该用户的语音数据存储在本地，如果本地存储的该用户的语音数据超过预设数据量，则将本地存储的该用户的所有语音数据送往云端中该用户对应的存储空间进行存储，并删除本地存储的该用户的所有语音数据；

所述模型生成单元502，使用声纹训练器对提取的所有声纹信息进行训练，得到该用户的语音特征信息和声纹模型时，用于：利用设置在云端的声纹训练器对存储在云端的该用户的所有语音数据进行训练，得到该用户的语音特征信息和声纹模型。

图5所示装置中，

所述模型生成单元502，使用声纹训练器对提取的所有声纹信息进行训练，得到该用户的语音特征信息之后，进一步用于：将该用户的语音特征信息送到该用户的语音信息库存储，并利用该用户的语音特征信息更新智能设备中的声纹识别器存储的声纹信息。

图5所示装置中，

所述指令处理单元503，根据该用户的语音特征信息和该用户的声纹模型对该条语音指令进行转换时，用于：利用该用户的声纹模型提取该条语音指令包含的声纹信息，将该声纹信息中的所有语音特征与该用户的语音特征信息中的所有语音特征进行比较，并根据比较结果对语音指令进行转换。

图5所示装置中，

所述语音特征包括第一类语音特征和第二类语音特征；

所述指令处理单元503，将该声纹信息中的所有语音特征与该用户的语音特征信息中的所有语音特征进行比较，并根据比较结果对语音指令进行转换，包括：

图5所示装置中，

所述第二类语音特征还包括：口头禅和职业；

该装置还包括内容推荐单元505，用于根据用户的口头禅分析确定用户的性格，在需要对用户进行内容推荐时，根据该用户性格和职业在所有推送内容中选择适用于用户的推荐内容。

图5所示装置中，

该装置还包括指令执行单元506，用于在指令处理单元得到符合智能设备的用户指令格式要求的语音指令之后，执行该语音指令，输出执行结果，并在输出执行结果时，进一步确定用户的语音指令包含的声纹信息中的情感特征，输出预先设定的该情感特征对应的用于情绪调节的情感符号，所述情感符号为文字和/或图片。

图5所示装置中，

智能设备中配置有语音解锁功能；

所述指令处理单元503，接收到一条语音指令后，根据智能设备拥有者的语音特征信息和声纹模型对该条语音指令进行转换时，如果确定该条语音指令不是智能设备拥有者发出的语音指令，则拒绝执行该语音指令。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语音识别方法，应用于智能设备，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，该方法进一步包括：

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求1所述的方法，其特征在于，

5.根据权利要求1所述的方法，其特征在于，

6.根据权利要求5所述的方法，其特征在于，

所述语音特征包括第一类语音特征和第二类语音特征；

7.根据权利要求6所述的方法，其特征在于，

所述第二类语音特征还包括：口头禅和职业；

8.根据权利要求6所述的方法，其特征在于，

9.根据权利要求6所述的方法，其特征在于，

智能设备中配置有语音解锁功能；

10.一种语音识别装置，应用于智能设备，其特征在于，该装置包括：数据收集单元、模型生成单元、指令处理单元；

所述数据收集单元，用于收集用户的语音数据；

11.根据权利要求10所述的装置，其特征在于，该装置还包括预处理单元；

所述预处理单元，用于预先获取该用户的N条语音数据，将该N条语音数据送入智能设备中配置的声纹识别器，由所述声纹识别器提取该N条语音数据中包含的声纹信息并存储；其中，N是小于预设值的正整数；

所述数据收集单元，收集用户的语音数据时，用于：利用智能设备中配置的声纹识别器截获智能设备的收音装置拾取并输入到智能设备中任一应用软件的语音数据，利用声纹识别器存储的声纹信息对该语音数据进行识别，如果该语音数据不属于该用户，则丢弃该语音数据，否则，将该语音数据作为收集到的该用户的语音数据进行存储；其中，所述应用软件包括：语音助手、录音软件、聊天软件和电话软件。

12.根据权利要求11所述的装置，其特征在于，

所述数据收集单元，将该语音数据作为收集到的该用户的语音数据进行存储时，用于：将该语音数据作为该用户的语音数据存储在本地，如果本地存储的该用户的语音数据超过预设数据量，则将本地存储的该用户的所有语音数据送往云端中该用户对应的存储空间进行存储，并删除本地存储的该用户的所有语音数据；

所述模型生成单元，使用声纹训练器对提取的所有声纹信息进行训练，得到该用户的语音特征信息和声纹模型时，用于：利用设置在云端的声纹训练器对存储在云端的该用户的所有语音数据进行训练，得到该用户的语音特征信息和声纹模型。

13.根据权利要求10所述的装置，其特征在于，

所述模型生成单元，使用声纹训练器对提取的所有声纹信息进行训练，得到该用户的语音特征信息之后，进一步用于：将该用户的语音特征信息送到该用户的语音信息库存储，并利用该用户的语音特征信息更新智能设备中的声纹识别器存储的声纹信息。

14.根据权利要求10所述的装置，其特征在于，

所述指令处理单元，根据该用户的语音特征信息和该用户的声纹模型对该条语音指令进行转换时，用于：利用该用户的声纹模型提取该条语音指令包含的声纹信息，将该声纹信息中的所有语音特征与该用户的语音特征信息中的所有语音特征进行比较，并根据比较结果对语音指令进行转换。

15.根据权利要求14所述的装置，其特征在于，

所述语音特征包括第一类语音特征和第二类语音特征；

所述指令处理单元，将该声纹信息中的所有语音特征与该用户的语音特征信息中的所有语音特征进行比较，并根据比较结果对语音指令进行转换，包括：

16.根据权利要求15所述的装置，其特征在于，

所述第二类语音特征还包括：口头禅和职业；

该装置还包括内容推荐单元，用于根据用户的口头禅分析确定用户的性格，在需要对用户进行内容推荐时，根据该用户性格和职业在所有推送内容中选择适用于用户的推荐内容。

17.根据权利要求15所述的装置，其特征在于，

该装置还包括指令执行单元，用于在指令处理单元得到符合智能设备的用户指令格式要求的语音指令之后，执行该语音指令，输出执行结果，并在输出执行结果时，进一步确定用户的语音指令包含的声纹信息中的情感特征，输出预先设定的该情感特征对应的用于情绪调节的情感符号，所述情感符号为文字和/或图片。

18.根据权利要求15所述的装置，其特征在于，

智能设备中配置有语音解锁功能；

所述指令处理单元，接收到一条语音指令后，根据智能设备拥有者的语音特征信息和声纹模型对该条语音指令进行转换时，如果确定该条语音指令不是智能设备拥有者发出的语音指令，则拒绝执行该语音指令。