CN110570843A

CN110570843A - 一种用户语音识别方法和装置

Info

Publication number: CN110570843A
Application number: CN201910578720.9A
Authority: CN
Inventors: 鞠向宇; 赵晓朝; 袁志伟; 戴帅湘
Original assignee: Beijing Suddenly Cognitive Technology Co Ltd
Current assignee: Beijing Suddenly Cognitive Technology Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-12-13
Anticipated expiration: 2039-06-28
Also published as: CN110570843B

Abstract

本发明公开了一种用户语音识别方法和装置，所述方法包括：根据用户的声纹识别用户，得到用户ID；根据用户ID判断该用户是否为首次接入用户；如果该用户是首次接入用户，则根据该用户的声纹特征获得用户特征数据，根据用户特征数据加载对应的初始声学模型和初始语言模型，并将所述用户的初始声学模型和/或初始语言模型分享到特定群体中进行训练，得到与该用户对应的声学模型和语言模型；如果该用户不是首次接入用户，则根据该用户ID，分别加载与该用户对应的声学模型和语言模型。通过本发明的方法和装置，解决了不同用户由于发音习惯，说话习惯，使用场景新词而导致的识别效果差的问题。

Description

一种用户语音识别方法和装置

技术领域

本发明实施例涉及语音识别技术领域，特别涉及一种用户语音识别方法和装置。

背景技术

语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。目前的语音识别中使用的声学模型和语言模型大都是通用模型，例如，隐马尔可夫模型HMM和N-Gram。

但是目前的语音识别引擎识别效果还不够准确，通用模型往往解决不了用户的发音习惯和说话习惯问题，例如当用户说话语速较快或者使用发言导致前后鼻音不分，发不了翘舌音等，又或者用户的语言习惯不完全符合语法，如导航去某地点，我要去，推荐吃饭的地方，附近有哪些好吃的等等，利用现有的这些通用模型无法准确识别。

发明内容

针对现有技术中的问题，本发明提供一种用户语音识别方法和装置。

本发明提供一种用户语音识别方法，其特征在于：

步骤100，根据用户的声纹识别用户，得到用户ID；

步骤101，根据用户ID判断该用户是否为首次接入用户；

步骤102，如果该用户是首次接入用户，则根据该用户的声纹特征获得用户特征数据，根据用户特征数据加载对应的初始声学模型和初始语言模型；

步骤103，如果该用户不是首次接入用户，则根据该用户ID，分别加载与该用户对应的声学模型和语言模型。

进一步的，所述步骤102之后还包括步骤1021，对所述初始声学模型和初始语言模型进行训练，得到与该用户对应的声学模型和语言模型。

进一步的，所述步骤1021中，所述对初始声学模型和初始语言模型进行训练，得到与该用户对应的声学模型和语言模型具体为：

根据该用户的语音识别记录该用户的常用高频词和/或不同场景常用的前缀词，积累用户数据，持续调整所述初始语言模型以得到与该用户对应的声学模型和语言模型。

优选的，所述步骤1021中，还包括将所述用户的初始声学模型和/或初始语言模型分享到特定群体中进行训练。

进一步的，所述用户将初始声学模型和/或初始语言模型分享到特定群体中进行训练具体为：

所述用户将所述初始声学模型分享到与该用户具有相同或相似发音习惯的群体中进行训练；和/或所述用户将所述初始语言模型分享到与该用户具有相同或相似的语言习惯的群体中进行训练。

进一步的，所述根据用户特征数据加载对应的初始声学模型和初始语言模型具体为通过声纹识别所述用户的地域和/或性别和/或年龄，对应的加载初始声学模型。

进一步的，所述用户向特定群体或其他用户分享与所述用户对应的语言模型或声学模型；和/或，所述用户调用其他群体或其他用户的语言模型作为该用户的初始语言模型和/或所述用户调用其他群体或其他用户的声学模型作为该用户的初始声学模型。

本发明提供一种用户语音识别装置，其特征在于，所述装置包括：

识别模块，根据用户的声纹识别用户，得到用户ID；

判断模块，根据用户ID判断该用户是否为首次接入用户；

模型加载模块，如果该用户是首次接入用户，则根据该用户的声纹特征获得用户特征数据，根据用户特征数据加载对应的初始声学模型和初始语言模型；如果该用户不是首次接入用户，则根据该用户ID，分别加载与该用户对应的声学模型和语言模型。

进一步的，还包括模型训练模块，用于对所述初始声学模型和初始语言模型进行训练，得到与该用户对应的声学模型和语言模型。

进一步的，所述模型训练模块，用于对所述初始声学模型和初始语言模型进行训练，得到与该用户对应的声学模型和语言模型具体为：

优选的，所述模型训练模块，还包括模型分享模块，用于将所述用户的初始声学模型和/或初始语言模型分享到特定群体中进行训练。

进一步的，所述模型分享模块用于将所述用户的初始声学模型和/或初始语言模型分享到特定群体中进行训练具体为：

进一步的，所述模型分享模块还用于所述用户向特定群体或其他用户分享与所述用户对应的语言模型或声学模型；和/或，所述用户调用其他群体或其他用户的语言模型作为该用户的初始语言模型和/或所述用户调用其他群体或其他用户的声学模型作为该用户的初始声学模型。

本发明还提供一种用户语音识别装置，其特征在于，所述装置包括处理器和存储器，所述存储器中存储有可在处理器上运行的计算机程序，所述计算机程序在被所述处理器执行时实现如前所述的方法。

本发明还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如前所述的方法。

本发明还提供一种车辆，其特征在于，所述车辆包括：如权利要求8-14任一项所述的装置。

本发明还提供一种终端，其特征在于，所述终端包括：如权利要求8-14任一项所述的装置。

通过本发明的方法和装置，解决了不同用户由于发音习惯，说话习惯，使用场景新词而导致的识别效果差的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一个实施例中的用户语音识别方法。

图2是本发明一个实施例中的用户语音识别装置。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。本发明的实施例以及实施例的具体特征是对本发明实施例技术方案的详细说明，而非对本发明说明书技术方案的限定，在不冲突的情况下，本发明的实施例以及实施例的技术特征可以相互结合。

以下对本发明的用户语音识别方法进行说明，参见图1，所述方法包括如下步骤：

步骤100，根据用户的声纹识别用户，得到用户ID；

步骤101，根据用户ID判断该用户是否为首次接入用户；

具体的，步骤100中，通过声纹识别技术识别用户的声纹特征，根据声纹特征生成用户ID信息。声纹特征生成用户ID信息的方法是不变的，保证用户的声纹特征和用户ID具有唯一的对应关系。本领域技术人员能够利用现有技术生成用户ID。例如，对声纹特征进行量化编码得到用户ID，也可以利用其他算法得到用户ID。

优选的，步骤101中，将所有已接入用户ID存储在已接入用户ID列表中，利用所述用户的用户ID在所述已接入用户ID列表中查找是否有匹配的用户ID，根据查找结果判断该用户是否首次接入；如果查找到匹配的用户ID，则判断所述用户不是首次接入用户，如果没有查找到匹配的用户ID，则判断该用户是首次接入用户，并将该首次接入用户ID存储到已接入用户ID列表中。

步骤102，如果该用户是首次接入用户，则根据该用户的声纹特征获得用户特征数据，根据用户特征数据加载对应的初始声学模型和初始语言模型；具体的，如果该用户是首次接入用户，分析该用户的声纹特征，获得包括用户的性别、年龄、地域等数据的用户特征数据，根据用户特征数据在通用模型库中或公共模型库中获得匹配度最高的声学模型和语言模型，作为该用户的初始声学模型和初始语言模型进行加载。通用模型库或公共模型库存有大量的开放模型，开放模型指的是允许用户利用特定的语音识别结果或语料进行进一步训练的模型，该模型可以是采用了现有技术的任意模型算法的通用模型。

例如，根据声纹特征分析出该用户为25岁左右的上海女性，在通用模型库或公共模型库中匹配到声学模型11和语言模型11与之最匹配。则加载该声学模型11和语言模型11作为该用户的初始声学模型和初始语言模型。初始声学模型和初始语言模型是根据用户的特征数据确定的模型，与用户具有一定的匹配度，但是不能完全满足用户的定制化需求，还需要对其进行进一步的训练，使其成为与该用户的匹配度高、满足该用户的使用习惯和个性化需求的模型。

进一步的，所述步骤102之后还包括步骤1021，对所述初始声学模型和初始语言模型进行训练，得到与该用户对应的声学模型和语言模型。通过对初始声学模型和初始语言模型进行训练，使其匹配该用户的发声习惯和语言习惯。在对初始声学模型和初始语言模型进行训练时，可以利用该用户的语音识别进行训练。具体的利用用户的语音识别结果进行训练，用户的语音识别结果，可以共享用户使用任意涉及语音识别应用的识别结果，例如将使用语音订餐、语音订票等应用的识别结果用来训练模型，也可以专用于模型训练的该用户语音输入的识别结果。

根据该用户的语音识别记录该用户的高频词和/或不同场景常用的前缀词，积累用户数据，持续调整所述初始语言模型以得到与该用户对应的声学模型和语言模型。

高频词是指用户使用频次较高的词，例如“小蓦”、“订饭”、“导去” 等等，高频词的使用习惯能够反映出用户的语言习惯。通过大量高频词来训练语言模型，能够更加贴近用户的使用习惯，满足个性化需求。

优选的，还记录该用户在不同场景下常用的前缀词，能够更好的识别说话人的语言。例如，在订票场景下，该用户习惯使用“我要看***”来表达“订*** 电影票”的需求，通过识别“我要看”，预先知道了用户要看电影，在继续识别的时候可以直接加载电影列表出现的新词，更好的识别电影名。比如“我要看《你好，之华》”。又例如，在导航场景下，该用户习惯使用“走去***”来表达导航目的地，通过识别“走去”，预先获知用户要导航到某一个地点，在继续识别的时候可以直接加载目的地名词，更好的识别目的地。比如“走去故宫”。

通过上述方法，能够训练出符合该用户发声习惯和语言习惯的模型。但是，仅使用该用户个人的语音识别结果往往训练效率不高，需要较长的时间才能训练出成熟的模型，无法满足用于需求。本发明进一步提出一种声学模型和语言模型的共享训练方法。

所述声学模型和语言模型的共享训练方法包括：步骤200、用户建立初始声学模型和初始语言模型，其中用户可以通过调用现有模型的方法建立初始声学模型和初始语言模型；步骤201、将所述用户的初始声学模型和语言模型共享给与该用户关联的包括一个或多个其他用户的一个或多个特定群体中；步骤202、获得所述一个或多个其他用户的授权；203、利用所述一个或多个其他用户的语音识别结果对所述初始声学模型和初始语言模型进行训练，得到共享声学模型和共享语言模型；步骤204、所述用户和所述一个或多个其他用户再次使用或再次分享所述共享声学模型和共享语言模型。

优选的，步骤201中，所述用户通过网络共享所述初始模型，所述网络包括但不限于公共或专用的社交网络、社交平台、即时通信系统、互联网、蜂窝网等，特定群体包括但不限于一个或多个其他用户或一个或多个用户群体，例如朋友圈、微信群等。也可以建立专用的可共享的声学模型和语言模型训练平台，所述用户通过该专用的训练平台共享所述模型。

优选的，步骤202是可选步骤。步骤202中，一个或多个其他用户或用户群体，可以通过响应所述用户的授权请求，或通过登录训练平台来授权所述共享模型获得其语音识别结果。

优选的，步骤204中，所述一个或多个其他用户再次使用或再次分享所述共享声学模型和共享语言模型需要获得所述用户的授权。

例如，用户A来自四川，他希望快速训练一个符合他发声习惯、能够识别他的方言的声学模型，他首先从声学模型库中调用一个四川话的通用声学模型作为初始声学模型；然后将该初始声学模型通过即使通信软件共享特定群体，例如共享给他的家庭群，以请求该特定群体的成员也即家庭成员帮助他对该初始声学模型进行训练，或者他将该初始声学模型上传到专用训练平台，并将该模型在专用训练平台的ID号发送给他家庭群的成员，以请求家庭成员帮助他对该初始声学模型进行训练，同意该请求的家庭成员可以通过特定操作授权该初始模型获得自身的全部或某些特定的语音识别，例如，他的姐姐同意该模型获得她的订餐软件的语音识别结果。不同意该请求的家庭成员可以不响应或拒绝该请求。所述初始声学模型根据所述特定群体成员的响应自动开始训练。优选的，所述用户A可以中止或终止所述训练。

同时，用户A还需要训练符合他语言习惯的语言模型，他可以一个或多个在特定主题下与他有相似语言习惯的群体帮助他训练语言模型，例如，选择他的健身群、自驾游群等帮助训练语言模型。特定场景群的聊天语言通常主要涉及某个特定主题，例如，健身群的成员的聊天内容主要围绕健身主题，在该主题下，群成员使用的语言习惯相同或相似，以此训练的语言模型符合该用户A 在健身主题下的语言习惯。用户A通过将初始语言模型分享到多个不同的特定群体，能够快速训练得到在不同场景或不同主题下均符合其语言习惯的语言模型。

优选的，允许用户A的所在群的成员选择是否帮助用户A训练其初始发声模型或初始语言模型，具体的，其他成员通过响应用户A的共享训练请求来决定是否对训练进行授权。当其他成员同意用户A的共享训练请求时，可以响应同意，当其他成员不同意用户A的共享训练请求时，可以响应拒绝或不响应。当有其他成员不同意用户A的共享训练请求时，该初始模型无法获得该其他成员的语音识别结果。

优选的，该共享训练方法还允许用户A或其授权的其他用户分享训练中的，或者训练完成后的发声模型和语言模型。被分享的其他用户可以直接使用该发声模型和语言模型，也可以进一步训练该发声模型和语言模型。

优选的，上述声学模型和语言模型的共享训练方法可以应用到本发明的语音识别方法中。例如，在所述步骤1021中，还包括将所述用户的初始声学模型和/或初始语言模型分享到特定群体中进行训练。

进一步的，所述根据用户特征数据加载对应的初始声学模型和初始语言模型具体为通过声纹识别所述用户的地域和/或性别和/或年龄，对应的加载初始声学模型和初始语言模型。

进一步的，本发明的语音识别方法还包括：所述用户向特定群体或其他用户分享与所述用户对应的语言模型或声学模型；和/或，所述用户调用其他群体或其他用户的语言模型作为该用户的初始语言模型和/或所述用户调用其他群体或其他用户的声学模型作为该用户的初始声学模型。

通过本发明的方法，能够灵活的训练符合用户发声习惯和语言习惯的声学模型和语言模型，通过共享训练的方式，允许用户选择特定的群体帮助其完成声学模型和语言模型的训练，提高训练效率。

本发明还提供一种用户语音识别装置，参见图2，所述装置包括：

识别模块，根据用户的声纹识别用户，得到用户ID；

判断模块，根据用户ID判断该用户是否为首次接入用户；

所述用户将所述初始声学模型分享到与该用户具有相同或相似发音习惯的群体中进行训练；和/或所述用户将所述初始语言模型分享到与该用户具有相同或相似的生活习惯或生活轨迹的群体中进行训练。

本发明还提供一种车辆，其特征在于，所述车辆包括如前所述的装置。

本发明还提供一种终端，其特征在于，所述终端包括如前所述的装置。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦式可编程只读存储器(EPROM)、光纤、便携式紧凑磁盘只读存储器 (CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码。

以上说明只是为了方便理解本发明而举出的例子，不用于限定本发明的范围。在具体实现时，本领域技术人员可以根据实际情况对装置的部件进行变更、增加、减少，在不影响方法所实现的功能的基础上可以根据实际情况对方法的步骤进行变更、增加、减少或改变顺序。

尽管已经示出和描述了本发明的实施例，本领域技术人员应当理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同替换所限定，在未经创造性劳动所作的改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用户语音识别方法，其特征在于，所述方法包括：

步骤100，根据用户的声纹识别用户，得到用户ID；

步骤101，根据用户ID判断该用户是否为首次接入用户；

2.根据权利要求1所述的方法，其特征在于，所述步骤102之后还包括步骤1021，对所述初始声学模型和初始语言模型进行训练，得到与该用户对应的声学模型和语言模型。

3.根据权利要求2所述的方法，其特征在于，所述步骤1021中，所述对初始声学模型和初始语言模型进行训练，得到与该用户对应的声学模型和语言模型具体为：

4.根据权利要求3所述的方法，其特征在于，所述步骤1021中，还包括将所述用户的初始声学模型和/或初始语言模型分享到特定群体中进行训练。

5.根据权利要求4所述的方法，其特征在于，所述用户将初始声学模型和/或初始语言模型分享到特定群体中进行训练具体为：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述根据用户特征数据加载对应的初始声学模型和初始语言模型具体为通过声纹识别所述用户的地域和/或性别和/或年龄，对应的加载初始声学模型和初始语言模型。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述用户向特定群体或其他用户分享与所述用户对应的语言模型或声学模型；

和/或，所述用户调用其他群体或其他用户的语言模型作为该用户的初始语言模型和/或所述用户调用其他群体或其他用户的声学模型作为该用户的初始声学模型。

8.一种用户语音识别装置，其特征在于，所述装置包括：

识别模块，根据用户的声纹识别用户，得到用户ID；

判断模块，根据用户ID判断该用户是否为首次接入用户；

9.根据权利要求8所述的装置，其特征在于，还包括模型训练模块，用于对所述初始声学模型和初始语言模型进行训练，得到与该用户对应的声学模型和语言模型。

10.根据权利要求9所述的装置，其特征在于，所述模型训练模块，用于对所述初始声学模型和初始语言模型进行训练，得到与该用户对应的声学模型和语言模型具体为：

11.根据权利要求10所述的装置，其特征在于，所述模型训练模块，还包括模型分享模块，用于将所述用户的初始声学模型和/或初始语言模型分享到特定群体中进行训练。

12.根据权利要求11所述的装置，其特征在于，所述模型分享模块，用于将所述用户的初始声学模型和/或初始语言模型分享到特定群体中进行训练具体为：

13.根据权利要求8-12任一项所述的装置，其特征在于，所述根据用户特征数据加载对应的初始声学模型和初始语言模型具体为通过声纹识别所述用户的地域和/或性别和/或年龄，对应的加载初始声学模型和初始语言模型。

14.根据权利要求8-13任一项所述的装置，其特征在于，所述模型分享模块还用于所述用户向特定群体或其他用户分享与所述用户对应的语言模型或声学模型；

15.一种用户语音识别装置，其特征在于，所述装置包括处理器和存储器，所述存储器中存储有可在处理器上运行的计算机程序，所述计算机程序在被所述处理器执行时实现如权利要求1-7任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如权利要求1-7任一项所述的方法。

17.一种车辆，其特征在于，所述车辆包括：如权利要求8-14任一项所述的装置。

18.一种终端，其特征在于，所述终端包括：如权利要求8-14任一项所述的装置。