CN108010518A

CN108010518A - 一种语音交互设备的语音采集方法、系统及存储介质

Info

Publication number: CN108010518A
Application number: CN201711324790.9A
Authority: CN
Inventors: 王辉
Original assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2017-12-13
Filing date: 2017-12-13
Publication date: 2018-05-08
Anticipated expiration: 2037-12-13
Also published as: CN108010518B

Abstract

本发明实施例公开了语音交互设备的语音采集方法、系统及存储介质，应用于信息处理技术领域。在本实施例的方法中，在对服务器中语音识别数据库进行优化时，可以通过语音交互设备进行语音数据的采集，并由服务器将采集的语音数据进行自动分类，从而可以不需要到具体的特定场地进行语音采集，只需通过语音交互设备即可实现，方便了语音数据的采集；且由于语音交互设备在采集多条语音数据时，在采集完成某一条语音数据，语音交互设备会直接启动语音采集接口，进入下一条语音数据的采集，而不需要重新唤醒语音交互设备来采集下一条语音数据，使得采集语音数据的效率比较高。

Description

一种语音交互设备的语音采集方法、系统及存储介质

技术领域

本发明涉及信息处理技术领域，特别涉及一种语音交互设备的语音采集方法、系统及存储介质。

背景技术

在语音识别领域，主要是通过数据库中的声学模型和语音模型对用户语音进行在线识别，而数据库中的声学模型和语音模型又是通过对采集的大量语音进行训练得到的，在需要优化数据库时，就需要采集语音数据。在传统的语音采集方法中，有一种是通过语音交互设备进行语音采集，具体地，当语音交互设备唤醒，采集一条语音数据后，语音交互设备会进行一定的反应，比如，播放音乐或朗读文字，这样如果需要采集另一条语音数据时，需要重新唤醒语音交互设备。

而由于我国的各个方言都比较复杂，例如，四川话里还有很多分支，这样，为了优化数据库，就需要大量地采集各个方言的语音，如果使用传统的语音采集方法，则每次需要唤醒语音交互设备，使得采集效率低下。

因此，如果为了优化数据库需要采集语音数据时，都是依赖第三方录音公司，在录音公司场地的录音设备上采集了语音数据后，需要后台用户将采集的语音数据储存到对应的方言普通话或标准普通话的数据库中，这样，采音的周期也比较长，成本会随之增长。

发明内容

本发明实施例提供一种语音交互设备的语音采集方法、系统及存储介质，实现了在采集一条用户操作指令的语音数据后，直接启动语音采集接口以采集下一条语音数据。

本发明实施例的第一方面提供一种语音交互设备的语音采集方法，包括：

语音交互设备被唤醒后，当接收到语音采集指令，确定所述语音交互设备是否具有采集资格；

如果语音交互设备具有采集权限，所述语音交互设备向服务器获取一条用户操作指令，所述用户操作指令中包括待采集语音的内容；

所述语音交互设备输出所述用户操作指令，且启动所述语音交互设备的语音采集接口；

所述语音交互设备从所述语音采集接口采集所述一条用户操作指令对应的一条语音数据；

所述语音交互设备将所述采集的一条语音数据发送给所述服务器，以便所述服务器根据预置的各个类型的声学模型对所述一条语音数据进行归类；

所述语音交互设备在采集到所述一条语音数据后，针对另一条用户操作指令，执行所述向所述服务器获取所述另一条用户操作指令、输出所述另一条用户操作指令，启动语音采集接口，采集另一条语音数据及将另一条语音数据发送给所述服务器的步骤。

本发明实施例第二方面提供一种语音交互设备的语音采集方法，包括：

如果语音交互设备具有采集资格，服务器向所述语音交互设备发送用户操作指令，所述用户操作指令中包括待采集语音的内容；

所述服务器接收所述语音交互设备根据所述用户操作指令采集的语音数据；

所述服务器确定所述采集的语音数据包括的多个初始基元分别对应的初始声学模型，得到多个初始声学模型；

所述服务器计算各个初始声学模型分别与预置的标准普通话的声学模型之间的声学距离；

如果至少一个初始声学模型对应的声学距离大于第一阈值且小于第二阈值，将所述预置的标准普通话的声学模型与所述多个初始声学模型基于相关基元进行归并后，将所述归并后声学模型作为所述采集的语音数据的最终声学模型，根据所述最终声学模型及预置的各个方言普通话的声学模型，确定所述采集的语音数据所属的某一方言普通话类型。

本发明实施例的第三方面提供一种语音交互设备，包括：

权限确定单元，用于语音交互设备被唤醒后，当接收到语音采集指令，确定所述语音交互设备是否具有采集权限，如果具有采集权限，则通知指令获取单元获取一条用户操作指令；

所述指令获取单元，用于如果语音交互设备具有采集权限，向服务器获取一条用户操作指令，并输出所述一条用户操作指令，所述用户操作指令中包括待采集语音的内容；

采集单元，用于启动语音采集接口，从所述语音采集接口采集所述一条用户操作指令对应的一条语音数据；

采集发送单元，用于将采集的所述一条语音数据发送给所述服务器，以便所述服务器根据预置的各个类型的声学模型对所述采集的语音数据进行归类；

所述采集单元，还用于采集到所述一条语音数据后，触发所述指令获取单元获取另一条用户操作指令并输出。

本发明实施例第四方面提供一种服务器，包括：

指令发送单元，用于如果语音交互设备具有采集资格，向所述语音交互设备发送用户操作指令，所述用户操作指令中包括待采集语音的内容；

采集接收单元，用于接收所述语音交互设备根据所述用户操作指令采集的语音数据；

模型确定单元，用于确定所述采集的语音数据包括的多个初始基元分别对应的初始声学模型，得到多个初始声学模型；

距离计算单元，用于计算各个初始声学模型分别与预置的标准普通话的声学模型之间的声学距离；

距离处理单元，用于如果至少一个初始声学模型对应的声学距离大于第一阈值且小于第二阈值，将所述预置的标准普通话的声学模型与多个初始声学模型基于相关基元进行归并后，将所述归并后声学模型作为所述采集的语音数据的最终声学模型，根据所述最终声学模型及预置的各个方言普通话的声学模型，确定所述采集的语音数据所属的某一方言普通话类型。

本发明实施例第五方面提供一种存储介质，所述存储介质储存多条指令，所述指令适于由处理器加载并执行如本发明实施例第一方面或第二方面所述的语音交互设备的语音采集方法。

本发明实施例第六方面提供一种终端设备，包括处理器和存储介质，所述处理器，用于实现各个指令；

所述存储介质用于储存多条指令，所述指令用于由处理器加载并执行如本发明实施例第一方面所述的语音交互设备的语音采集方法。

本发明实施例第七方面提供一种语音采集系统，包括语音交互设备和服务器，所述语音交互设备是如本发明实施例第三方面所述的语音交互设备；所述服务器是如本发明实施例第四方面所述的服务器。

可见，在本实施例的方法中，在对服务器中的语音识别数据库进行优化时，可以通过语音交互设备进行语音数据的采集，并由服务器将采集的语音数据进行自动分类后储存，从而可以不需要到具体的特定场地进行语音采集，只需通过语音交互设备即可实现，方便了语音数据的采集；且由于语音交互设备在采集多条语音数据时，在采集完成某一条语音数据，语音交互设备会直接启动语音采集接口，进入下一条语音数据的采集，而不需要重新唤醒语音交互设备以采集下一条语音数据，使得采集语音数据的效率比较高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音交互设备的语音采集方法所应用的场景的结构示意图；

图2是本发明一个实施例提供的一种语音交互设备的语音采集方法的流程图；

图3是本发明一个实施例中服务器在语音交互设备进行语音采集过程中的方法流程图；

图4是本发明应用实施例中语音交互设备的语音采集的示意图；

图5是本发明实施例提供的语音交互设备的结构示意图；

图6是本发明实施例提供的服务器的结构示意图；

图7是本发明实施例提供的一种终端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排它的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供一种语音交互设备的语音采集方法，主要可以应用于如图1所示的场景中，在该场景中包括服务器，至少一种客户端(图1中以一种为例说明)和多个语音交互设备(图1中以n个为例说明)。

其中，服务器可以事先通过多种方式向至少一种客户端推送语音征集活动的信息，由客户端显示语音征集活动的信息，该语音征集活动的信息包括向各个用户征集语音的信息，还可以包括输入用户信息的启动接口。这样，如果用户想要响应该语音征集活动，进行语音采集，可以点击输入用户信息的启动接口，客户端会显示用户信息的输入界面，用户将该用户的语音采集报名信息输入到输入界面，并通过输入界面上传到服务器进行储存。

其中，服务器推送语音征集活动的信息的方式具体可以包括：服务器向某一客户端发送某一活动的网页，并在该活动的网页上包括的输入用户信息的启动接口为输入界面的链接信息，或为输入界面的链接信息对应的二维码等信息。用户输入到输入界面的语音采集报名信息可以包括语音交互设备所绑定的用户信息(比如用户标识)，用户的方言，地域和年龄等信息。

当用户通过上述的输入界面将语音采集报名信息上传到服务器后，就可以通过上述任一语音交互设备采集语音数据，具体地，对于语音交互设备来说：

语音交互设备被唤醒后，当接收到语音采集指令，确定语音交互设备是否具有采集资格，如果语音交互设备对应用户具有采集权限，语音交互设备会向服务器获取一条用户操作指令，该用户操作指令中包括待采集语音就的内容；然后语音交互设备再输出该条用户操作指令，且启动语音采集接口；语音交互设备从语音采集接口采集一条用户操作指令对应的一条语音数据后，将采集的一条语音数据发送给服务器；且语音交互设备在采集到一条语音数据后，针对另一条用户操作指令，执行上述向服务器获取另一条用户操作指令，输出另一条用户操作指令，启动语音采集接口，采集另一条语音数据及将另一条语音数据发送给服务器的步骤。

而对于服务器来说，如果语音交互设备具有采集资格，服务器会向语音交互设备发送用户操作指令，在用户操作指令中包括待采集语音的内容；当服务器接收到语音交互设备根据用户操作指令采集的语音数据，确定采集的语音数据包括的多个初始基元分别对应的初始声学模型，得到多个初始声学模型；计算各个初始声学模型分别与预置的标准普通话的声学模型之间的声学距离；如果至少一个初始声学模型对应的声学距离大于第一阈值且小于第二阈值，将预置的标准普通话的声学模型与多个初始声学模型基于相关基元进行归并后，将归并后声学模型作为采集的语音数据的最终声学模型，根据最终声学模型及预置的各个方言普通话的声学模型，确定采集的语音数据所属的某一方言普通话类型。

这样，在对语音识别的数据库进行优化时，可以通过语音交互设备进行语音采集即可实现，不需要到具体的特定场地进行，方便了语音数据的采集；且由于语音交互设备在采集多条语音数据时，在针对一条用户操作指令采集完成某一条语音数据后，语音交互设备会直接获取另一条用户操作指令，并启动语音采集接口，进入下一条语音数据的采集，而并不需要重新唤醒语音交互设备来采集下一条语音数据，使得采集语音数据的效率比较高。

本发明的一个实施例提供一种语音交互设备的语音采集方法，主要是由上述的语音交互设备所执行的方法，流程图如图2所示，包括：

步骤101，语音交互设备被唤醒后，接收到语音采集指令，确定语音交互设备是否具有采集权限，如果语音交互设备具有采集权限，则语音交互设备执行步骤102。如果语音交互设备不具有采集权限，则语音交互设备可以进行用户提示，提示用户不具有采集权限。

可以理解，语音交互设备是识别用户语音，且主要根据识别的用户语音进行用户反馈的设备，比如智能机器人。任一语音交互设备可以通过所绑定的用户信息登录到服务器，而在服务器中会储存各个语音交互设备所绑定的用户信息，比如，用户账号(即用户标识)和密码的对应关系。

本实施例中，当用户通过语音交互设备进行语音采集时，可以向语音交互设备输入唤醒指令，当语音交互设备识别到用户的唤醒指令时，会从休眠状态转化为工作状态，且在识别到用户的语音采集指令时，触发执行本实施例的流程。例如，用户对准语音交互设备输入“你好”的语音，则语音交互设备识别到唤醒指令，当用户对准语音交互设备输入“开始采集语音”的语音，则语音交互设备识别到语音采集指令。

语音交互设备在确定该语音交互设备是否具有采集权限时，可以向服务器发送查询请求，在查询请求中包括该语音交互设备的用户标识；这样服务器根据查询请求，查询是否储存该用户标识对应的语音采集报名信息，并向语音交互设备返回查询结果；如果语音交互设备接收的查询结果为服务器储存有该用户标识对应的语音采集报名信息，则确定语音交互设备具有采集权限，如果语音交互设备接收的查询结果为服务器未储存有该用户标识对应的语音采集报名信息，则确定语音交互设备不具有采集权限。

步骤102，向服务器获取一条用户操作指令，用户操作指令中包括待采集语音的内容。具体地，语音交互设备可以向服务器发送获取请求，该获取请求用于获取上述语音征集活动中待采集语音的内容，服务器会根据该获取请求将待采集语音的内容通过用户操作指令返回给语音交互设备。

这里语音交互设备获取的用户操作指令是指需要用户进行一定操作的指令，具体可以包括待采集语音的内容，比如用户操作指令中包括的内容可以为“今年天气怎么样”和“我喜欢周杰伦的稻香”等。

需要说明的是，上述语音征集活动中待采集语音的内容较多，需要通过多条用户操作指令发送给语音交互设备，在本实施例中，服务器会将这多条用户操作指令逐条地发送给语音交互设备。

步骤103，输出上述步骤102中获取的一条用户操作指令，并启动语音采集接口，由语音交互设备从语音采集接口采集该条用户操作指令对应的一条语音数据。

具体地，如果语音交互设备中包括显示屏幕，语音交互设备在输出一条用户操作指令时，可以在该语音交互设备所包括的屏幕上显示一条用户操作指令，比如在屏幕上显示“请对着语音交互设备阅读****”；如果语音交互设备中不包括显示屏幕，而包括播放装置，则语音交互设备在输出一条用户操作指令时，可以通过语音交互设备包括的播放装置播放用户操作指令，比如播放“请对着语音交互设备阅读****”的语音；如果语音交互设备中不包括显示屏幕，而通过打印接口连接打印装置，则语音交互设备在输出一条用户操作指令时，可以通过打印接口打印用户操作指令，比如打印“请对着语音交互设备阅读****”。

语音交互设备在启动语音采集接口时，具体可以开启语音交互设备的麦克风。这样用户可以对准语音交互设备的麦克风阅读该条用户操作指令中待采集语音的内容，则语音交互设备会采集到该条用户操作指令对应的一条语音数据。

步骤104，语音交互设备将上述步骤103采集的一条语音数据发送给服务器，以便服务器根据预置的各个类型的声学模型对该条语音数据进行归类，主要是将服务器接收的该条语音数据归入到标准普通话或任一种方言普通话的类型中，并进行储存。

需要说明的是，当语音交互设备采集到一条语音数据后，可以自动返回执行上述步骤102到104，即获取到另一条用户操作指令，并针对另一条用户操作指令，执行上述输出另一条用户操作指令，启动语音采集接口，采集另一条语音数据及将另一条语音数据发送给服务器的步骤。这样，重复执行步骤102到104，直到语音交互设备将针对上述语音征集活动中的所有待采集语音的内容，即多条用户操作指令，分别采集了对应的语音数据后发送给服务器为止。

另外需要说明的是，当语音交互设备将上述语音征集获取中的所有待采集语音的内容，即多条用户操作指令，分别采集了对应的语音数据后发送给服务器，当服务器接收到语音交互设备发送的多条用户操作指令分别对应的语音数据，服务器会发送奖励信息给该语音交互设备的用户对应的终端设备。其中，奖励信息可以是优惠券的信息等。

可见，在本实施例的方法中，在对服务器中的语音识别数据库进行优化时，可以通过语音交互设备进行语音数据的采集，并由服务器将采集的语音数据进行自动分类后储存，从而可以不需要到具体的特定场地进行语音采集，只需通过语音交互设备即可实现，方便了语音数据的采集；且由于语音交互设备在采集多条语音数据时，在采集完成某一条语音数据，语音交互设备会直接启动语音采集接口，进入下一条语音数据的采集，而不需要重新唤醒语音交互设备来采集下一条语音数据，使得采集语音数据的效率比较高。

在一个具体的实施例中，由于语音交互设备在针对一条用户操作指令采集完一条语音数据后，可以马上启动语音采集接口，这样可以针对另一条用户操作指令采集另一条语音数据，这样，两条语音数据的采集之间的时间间隔就比较短，使得在有些情况下，即语音交互设备在针对一条语音数据还未执行完上述步骤104，语音交互设备已采集到另一条语音数据。

这样，在语音交互设备中会设置一个发送缓存，该发送缓存用于缓存发送给服务器的语音数据。这样，在语音交互设备采集到一条语音数据后，先将该条语音数据储存到发送缓存中，语音交互设备会将发送缓存中储存的各条语音数据按照顺序发送给服务器。因此，语音交互设备在执行上述步骤104时，具体会将上述一条用户操作指令对应的一条语音数据先储存到发送缓存中，当该条语音数据的发送周期达到时，将发送缓存中该条语音数据发送给服务器。

参考图3所示，在另一个具体的实施例中，对于上述图1所示场景中的服务器来说，可以通过如下实施例来实现语音采集方法，具体包括：

步骤201，如果语音交互设备具有采集资格，服务器向语音交互设备发送用户操作指令，用户操作指令中包括待采集语音的内容。

可以理解，服务器中可以储存多个用户的语音采集报名信息，当某一用户通过语音交互设备采集语音数据时，语音交互设备会先向服务器确定该语音交互设备是否具有采集权限。

具体地，语音交互设备会向服务器发送查询请求，当服务器接收语音交互设备发送的查询请求，该查询请求包括语音交互设备的用户标识；服务器会查询在服务器中是否储存有该用户标识对应的语音采集报名信息，并向语音交互设备返回查询结果。其中，如果查询结果为服务器储存有该用户标识对应的语音采集报名信息，则确定语音交互设备具有采集权限。

进一步地，如果服务器确定语音交互设备具有采集权限，会向语音交互设备发送用户操作指令，语音交互设备会按照上述步骤102到104的方法采集语音数据并发送给服务器。

步骤202，服务器接收上述语音交互设备根据步骤201发送的用户操作指令采集的语音数据。

进一步地，在实际应用中，一个语音征集活动中的待采集语音的内容较多，需要将待采集语音的内容通过多条用户操作指令发送给语音交互设备，当服务器将多条用户操作指令发送给语音交互设备，并接收到语音交互设备采集的多条用户操作指令分别对应的语音数据后，还可以发送奖励信息给所述语音交互设备的用户对应的终端设备。这里的终端设备与上述的语音交互设备可以相同，也可以不同。

步骤203，服务器确定上述采集的语音数据所包括的多个初始基元分别对应的初始声学模型，得到多个初始声学模型。

可以理解，语音数据是由多个基元(即初始基元)组成的，比如某一初始基元可以为一个声母b，或一个韵母an等；初始声学模型用于描述从能观测到的语音信息识别出任一隐式状态的音节的概率，即从上述服务器接收的语音数据中每个初始基元分别识别出任一隐式状态的音节的概率，这样，每个初始基元会对应一个初始声学模型，具体地：

某一个初始基元的初始声学模型可以为上下无关的隐马尔可夫(Hidden MarkovModel，HMM)模型，主要是用多个高斯混合分布来表示。

步骤204，服务器计算各个初始声学模型分别与预置的标准普通话的声学模型之间的声学距离。

其中，预置的标准普通话的声学模型是服务器事先已储存的，是根据大量的语音数据训练得到的，具体可以为上下文相关的HMM模型；这里的声学距离可以用来量度标准普通话的基元与上述语音数据的初始基元之间的相似度，具体可以为非对称马氏距离等。

本步骤中，服务器需要计算每个初始基元对应的初始声学模型分别与标准普通话的各个基元的声学模型之间的声学距离，这样，针对某一个初始声学模型可以计算得到多个声学距离，服务器可以将多个声学距离中最小的声学距离作为该初始声学模型与标准普通话的声学模型之间的声学距离。

例如，某一初始声学模型与标准普通话的声学模型之间的声学距离可以通过如下公式1来表示：

在公式1中，λ_i和λ_j分别为标准普通话的声学模型和初始声学模型；M和N分别为标准普通话的声学模型和初始声学模型中包括的高斯混合的数目，K表示初始声学模型中状态的数目；和分别为标准普通话的声学模型和初始声学模型中高斯混合分布的权重；表示高斯混合分布m_i，k与高斯混合分布n_j，k之间的距离。

而任意两个高斯混合分布i与j之间的距离可以通过如下公式2来表示：

上述公式中，μ和∑分别表示高斯混合分布的均值和方差。

步骤205，确定上述步骤204计算的声学距离与第一阈值和第二阈值的关系，如果各个初始声学模型对应的声学距离都小于第一阈值，则执行步骤206；如果至少一个初始声学模型对应的声学距离大于第一阈值且小于第二阈值，则执行步骤207；如果至少一个初始声学模型对应的声学距离大于第二阈值，则执行步骤208。

步骤206，确定上述采集的语音数据属于标准普通话类型，可以将上述采集的语音数据储存到标准普通话的数据库中。

步骤207，将预置的标准普通话的声学模型与上述步骤203得到的多个初始声学模型基于相关基元进行归并后，将归并后声学模型作为上述采集的语音数据的最终声学模型。然后根据最终声学模型及预置的各个方言普通话的声学模型，确定采集的语音数据所属的某一方言普通话类型。

其中，由于预置的标准普通话的声学模型是上下文相关的HMM模型，在这种情况下，一个上下文相关的HMM模型对应一个上下文相关的基元，比如，一个上下文相关的基元为*-an+*，该基元表示中心基元为韵母an，且与该中心基元之前和之后的基元相关的基元，比如，b-an+d，l-an+d等。而上述初始声学模型是上下文无关的HMM模型，则一个上下文无关的HMM模型对应语音数据所包括的一个初始基元。

这样服务器在执行本步骤中的归并时，如果上述语音数据所包括的某一初始基元，与标准普通话的某一上下文相关的基元相关，即与该上下文相关的基元的中心基元相同，则将该初始基元的上下文无关HMM模型与标准普通话相关基元的上下文相关HMM模型在状态相同的前提下进行归并。归并后的HMM模型的表述中，该相同的状态下包括的多个高斯分布分别来自于上述语音数据和标准普通话。其中，状态相同是指都具有相同的隐式状态的音节。

例如：语音数据包括某一初始基元an，而标准普通话的某一上下文相关的基元为*-an+*，则将这两个基元分别对应的HMM模型在状态相同的情况下进行归并。

例如，归并后的HMM模型可以通过各个状态的输出概率密度函数来表示，而一个状态的输出概率密度函数具体可以如下公式3所示：

在公式3中，x表示输入特征向量，和分别表示标准普通话的声学模型与上述初始声学模型的第i个状态；K和N分别表示标准普通话的声学模型与上述初始声学模型中，在第i个状态下所包括的高斯混合分布的数目，M表示参与归并的初始声学模型的状态的数目；λ表示插入因子，w_ik表示第i个状态的第k个高斯混合分布的权重，N(·)表示高斯混合分布。

在根据最终声学模型及预置的各个方言普通话的声学模型，确定语音数据所属的某一方言普通话类型时，服务器可以计算最终声学模型分别与各个方言普通话的声学模型之间的声学距离，如果最终声学模型与某一方言普通话的声学模型之间的声学距离最小，则将上述语音数据确定为该方言普通话类型，可以将上述语音数据储存到该类方言普通话的数据库中。

步骤208，重新确定采集的语音数据包括的多个最终基元，最终基元中包括上述多个初始基元及新增基元，根据多个最终基元对应的最终声学模型及预置的标准普通话和各个方言普通话的声学模型，确定采集的语音数据所属的某一方言普通话类型或标准普通话类型。

具体地，服务器会增加至少一个新增基元，重新确定上述采集的语音数据所包括的最终基元。例如，通过上述步骤203得到的初始基元为ABCD，而通过步骤208得到的最终基元为ABCDEF等，其中，EF是新增基元。

然后服务器会确定多个最终基元分别对应的最终声学模型，并计算最终声学模型分别与各个方言普通话及标准普通话的声学模型之间的声学距离，如果最终声学模型与某一方言普通话或是标准普通话的声学模型之间的声学距离最小，则将上述采集的语音数据确定为该方言普通话类型或标准普通话类型。

以下以一个具体的实施例来说明本发明的语音采集方法，本实施例的方法可以应用于如图1所示的场景中，且语音交互设备具体为机器人，该机器人具有显示屏幕，本实施例的方法具体包括如下几个部分，示意图如图4所示：

(1)服务器推送语音征集活动的信息

11，服务器通过某一活动的网页向某一客户端(比如qq客户端)推送语音征集活动的信息，在该网页中包括输入用户信息的启动接口。

12，如果用户想要响应该语音征集活动，进行语音采集，可以点击该启动接口，这样上述客户端会启动网页客户端，通过网页客户端显示用户信息的输入界面，用户将语音采集报名信息输入到该输入界面，并通过输入界面将用户输入的语音采集报名信息上传到服务器进行储存；服务器向网页客户端返回确认信息。

其中，语音采集报名信息中可以包括用户所具有的机器人所绑定的用户信息(比如用户标识)，用户的方言，地域和年龄等信息。

(2)用户通过机器人采集语音

21，用户通过唤醒指令唤醒机器人，并通过语音采集指令，使得机器人向服务器发送查询请求，在查询请求中包括该机器人的用户标识；服务器根据查询请求查询服务器中是否储存该用户标识对应的语音采集报名信息，并向机器人返回查询结果；机器人根据查询结果确定机器人是否具有采集权限。

22，如果机器人确定对应用户具有采集权限，则服务器将该语音征集活动对应的待采集语音的内容，通过多条用户操作指令逐条地发送给机器人。

23，机器人通过显示屏幕显示用户操作指令，分别根据各条用户操作指令采集对应的语音数据。具体地，机器人每次会显示一条用户操作指令，并启动语音采集接口，通过语音采集接口采集一条用户操作指令对应的语音数据，在采集到该条用户操作指令对应的语音数据后，将采集的语音数据发送给服务器。

当机器人采集完一条用户操作指令对应的语音数据后，会自动获取另一条用户操作指令，开启语音采集接口，并采集另一条用户操作指令的语音数据。

(3)服务器对采集的语音数据进行归类，具体地，服务器可以按照上述图3所示的流程确定每条采集的语音数据所属的类型(某一方言普通话或标准普通话)，并将该条语音数据储存到相应类型的数据库中。

(4)当用户通过机器人采集完上述多条用户操作指令分别对应的语音数据后，服务器可以发送奖励信息给该机器人的用户对应的终端设备。

本发明实施例还提供一种语音交互设备，比如机器人等，其结构示意图如图5所示，具体可以包括：

权限确定单元10，用于语音交互设备被唤醒后，当接收到语音采集指令，确定所述语音交互设备是否具有采集权限，如果具有采集权限，则通知指令获取单元11获取一条用户操作指令。

该权限确定单元10，具体用户向服务器发送查询请求，所述查询请求中包括所述语音交互设备的用户标识，以便所述服务器根据所述查询请求，查询是否储存所述用户标识对应的语音采集报名信息，并向所述语音交互设备返回查询结果；如果所述语音交互设备接收的查询结果为所述服务器储存有所述用户标识对应的语音采集报名信息，则确定所述语音交互设备具有采集权限。

指令获取单元11，用于如果所述语音交互设备具有采集权限，向服务器获取一条用户操作指令，并输出所述一条用户操作指令，所述用户操作指令中包括待采集语音的内容；

采集单元12，用于启动语音采集接口，通过语音采集接口采集所述指令获取单元11输出的一条用户操作指令对应的一条语音数据；

采集发送单元13，用于将所述采集单元12采集的一条语音数据发送给所述服务器，以便所述服务器根据预置的各个类型的声学模型对所述一条语音数据进行归类。

其中，当采集单元12采集到所述一条的语音数据后，触发所述指令获取单元11获取所述另一条用户操作指令，且针对另一条用户操作指令，由采集单元12执行所述启动语音采集接口，采集另一条用户操作指令对应的另一条语音数据及采集发送单元13将另一条语音数据发送给所述服务器的步骤。

在一个具体的实施例中，语音交互设备还可以包括设置单元14，用于设置发送缓存，所述发送缓存用于缓存发送给所述服务器的语音数据。则当采集单元12采集到一条语音数据后，会将采集的所述一条语音数据储存到所述设置单元14设置的语音交互设备的发送缓存中，当所述一条语音数据的发送周期到达时，采集发送单元13会将所述发送缓存中的所述一条语音数据发送给所述服务器。

可见，在本实施例的设备中，在对服务器中语音识别数据库进行优化时，可以通过语音交互设备中的采集单元12进行语音数据的采集，并由采集发送单元13将采集的语音数据发送给服务器，由服务器将采集的语音数据进行自动分类，从而可以不需要到具体的特定场地进行语音采集，只需通过语音交互设备即可实现，方便了语音数据的采集；且由于语音交互设备在采集多条语音数据时，采集单元12在采集完成某一条语音数据，语音交互设备会直接启动语音采集接口，进入下一条语音数据的采集，而不需要重新唤醒语音交互设备来采集下一条语音数据，使得采集语音数据的效率比较高。

本发明实施例还提供一种服务器，其结构示意图如图6所示，具体可以包括：

指令发送单元21，用于如果语音交互设备具有采集权限，向所述语音交互设备发送用户操作指令，所述用户操作指令中包括待采集语音的内容。

进一步地，该指令发送单元21，还可以用于接收所述语音交互设备发送的查询请求，所述查询请求中包括所述语音交互设备的用户标识；查询是否储存所述用户标识对应的语音采集报名信息，并向所述语音交互设备返回查询结果；其中，如果所述查询结果为所述服务器储存有所述用户标识对应的语音采集报名信息，则确定所述语音交互设备具有采集权限。

采集接收单元22，用于接收具有采集权限的语音交互设备采集的语音数据，具体地接收所述语音交互设备采集的所述指令发送单元21发送的用户操作指令对应的语音数据。

模型确定单元23，用于确定所述采集接收单元22接收的语音数据所包括的多个初始基元分别对应的初始声学模型，得到多个初始声学模型。

距离计算单元24，用于计算所述模型确定单元23确定的各个初始声学模型分别与预置的标准普通话的声学模型之间的声学距离。

该距离计算单元24，具体用于计算所述各个初始基元对应的初始声学模型分别与标准普通话的各个基元的声学模型之间的声学距离；针对某一初始声学模型得到的多个声学距离中，将最小的声学距离作为所述某一初始声学模型与标准普通话的声学模型之间的声学距离。

距离处理单元25，用于如果所述距离计算单元24计算的至少一个初始声学模型对应的声学距离大于第一阈值且小于第二阈值，将所述预置的标准普通话的声学模型与所述多个初始声学模型基于相关基元进行归并后，将所述归并后声学模型作为所述语音数据的最终声学模型，根据所述最终声学模型及预置的各个方言普通话的声学模型，确定所述采集的语音数据所属的某一方言普通话类型。

进一步地，所述距离处理单元25，还用于如果各个初始声学模型对应的声学距离都小于第一阈值，确定所述采集的语音数据属于标准普通话类型；如果至少一个初始声学模型对应的声学距离大于所述第二阈值，重新确定所述语音数据包括的多个最终基元，所述最终基元中包括所述多个初始基元及新增基元，根据所述多个最终基元对应的最终声学模型及预置的标准普通话和各个方言普通话的声学模型，确定所述采集的语音数据所属的某一方言普通话类型或标准普通话类型。

且距离处理单元25在确定了一条语音数据所属的类型后，会将该语音数据储存到该类型的语音数据库中。

在本实施例的服务器中，服务器中的指令发送单元21和采集接收单元22可以通过与语音交互设备之间的交互获取到采集的语音数据，并由模型确定单元23，距离计算单元24和距离处理单元25将采集的语音数据进行自动分类，从而可以不需要到具体的特定场地进行语音采集，只需通过语音交互设备即可实现，方便了语音数据的采集。

本发明实施例还提供一种终端设备，其结构示意图如图7所示，该终端设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)30(例如，一个或一个以上处理器)和存储器31，一个或一个以上存储应用程序321或数据322的存储介质32(例如一个或一个以上海量存储设备)。其中，存储器31和存储介质32可以是短暂存储或持久存储。存储在存储介质32的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对终端设备中的一系列指令操作。更进一步地，中央处理器30可以设置为与存储介质32通信，在终端设备上执行存储介质32中的一系列指令操作。

具体地，在存储介质32中储存的应用程序321包括语音采集的应用程序，且该程序可以包括上述语音交互设备中的权限确定单元10，指令获取单元11，采集单元12，采集发送单元13和设置单元14，在此不进行赘述。更进一步地，中央处理器30可以设置为与存储介质32通信，在终端设备上执行存储介质32中储存的语音采集的应用程序对应的一系列操作。

终端设备还可以包括一个或一个以上电源33，一个或一个以上有线或无线网络接口34，一个或一个以上输入输出接口35，和/或，一个或一个以上操作系统323，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述方法实施例中所述的由语音交互设备所执行的步骤可以基于该图7所示的终端设备的结构。

本发明实施例还提供一种服务器，其结构与图7所示的终端设备的结构类似，不同的是，在本实施例的服务器中，存储介质中储存的应用程序包括语音采集的应用程序，且该程序可以包括上述服务器中的指令发送单元21，采集接收单元22，模型确定单元23，距离计算单元24和距离处理单元25，在此不进行赘述。更进一步地，中央处理器可以设置为与存储介质通信，在服务器上执行存储介质中储存的语音采集的应用程序对应的一系列操作。

本发明实施例还提供一种存储介质，所述存储介质储存多条指令，所述指令适于由处理器加载并执行如上述语音交互设备或服务器所执行的语音交互设备的语音采集方法。

本发明实施例还提供一种终端设备，包括处理器和存储介质，所述处理器，用于实现各个指令；

所述存储介质用于储存多条指令，所述指令用于由处理器加载并执行如上述语音交互设备所执行的语音交互设备的语音采集方法。

本发明实施例还提供一种语音采集系统，包括语音交互设备和服务器，所述语音交互设备的结构可以如图5所示的语音交互设备的结构；所述服务器的结构可以如图6所示的服务器的结构，在此不进行赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM)、随机存取存储器RAM)、磁盘或光盘等。

以上对本发明实施例所提供的语音交互设备的语音采集方法、系统及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音交互设备的语音采集方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述确定所述语音交互设备是否具有采集资格，包括：

所述语音交互设备向所述服务器发送查询请求，所述查询请求中包括所述语音交互设备的用户标识，以便所述服务器根据所述查询请求，查询是否储存所述用户标识对应的语音采集报名信息，并向所述语音交互设备返回查询结果；

如果所述语音交互设备接收的查询结果为所述服务器储存有所述用户标识对应的语音采集报名信息，则确定所述语音交互设备具有采集权限。

3.如权利要求1所述的方法，其特征在于，所述语音交互设备将所述采集的一条语音数据发送给所述服务器之前，所述方法还包括：

所述语音交互设备设置发送缓存，所述发送缓存用于缓存发送给所述服务器的语音数据。

4.如权利要求3所述的方法，其特征在于，所述语音交互设备将所述采集的一条语音数据发送给所述服务器，具体包括：

所述语音交互设备将所述采集的一条语音数据储存到所述语音交互设备所包括的发送缓存中，在所述一条语音数据的发送周期到达时，将所述发送缓存中的所述一条语音数据发送给所述服务器。

5.一种语音交互设备的语音采集方法，其特征在于，所述方法包括：

6.如权利要求5所述的方法，其特征在于，所述服务器计算各个初始声学模型分别与预置的标准普通话的声学模型之间的声学距离，具体包括：

计算所述各个初始基元对应的初始声学模型分别与标准普通话的各个基元的声学模型之间的声学距离；

针对某一初始声学模型得到的多个声学距离中，将最小的声学距离作为所述某一初始声学模型与标准普通话的声学模型之间的声学距离。

7.如权利要求5所述的方法，其特征在于，所述方法还包括：

如果各个初始声学模型对应的声学距离都小于第一阈值，确定所述采集的语音数据属于标准普通话类型。

8.如权利要求5所述的方法，其特征在于，所述方法还包括：

如果至少一个初始声学模型对应的声学距离大于所述第二阈值，重新确定所述语音数据包括的多个最终基元，所述最终基元中包括所述多个初始基元及新增基元，根据所述多个最终基元分别对应的最终声学模型及预置的标准普通话和各个方言普通话的声学模型，确定所述采集的语音数据所属的某一方言普通话类型或标准普通话类型。

9.如权利要求5至8任一项所述的方法，其特征在于，

所述初始声学模型为上下文无关的隐马尔可夫模型，所述预置的标准普通话的声学模型为上下文相关的隐马尔可夫模型；所述声学距离为非对称马氏距离。

10.如权利要求5至8任一项所述的方法，其特征在于，所述服务器向所述语音交互设备发送用户操作指令之前，所述方法还包括：

所述服务器接收所述语音交互设备发送的查询请求，所述查询请求中包括所述语音交互设备的用户标识；

所述服务器查询是否储存所述用户标识对应的语音采集报名信息，并向所述语音交互设备返回查询结果；

其中，如果所述查询结果为所述服务器储存有所述用户标识对应的语音采集报名信息，则确定所述语音交互设备具有采集权限。

11.如权利要求5至8任一项所述的方法，其特征在于，所述用户操作指令有多条，则所述方法还包括：

所述服务器接收到语音交互设备采集的多条用户操作指令分别对应的语音数据，发送奖励信息给所述语音交互设备的用户对应的终端设备。

12.一种语音交互设备，其特征在于，包括：

13.一种服务器，其特征在于，包括：

14.一种存储介质，其特征在于，所述存储介质储存多条指令，所述指令适于由处理器加载并执行如权利要求1至11任一项所述的语音交互设备的语音采集方法。

15.一种终端设备，其特征在于，包括处理器和存储介质，所述处理器，用于实现各个指令；

所述存储介质用于储存多条指令，所述指令用于由处理器加载并执行如权利要求1至4任一项所述的语音交互设备的语音采集方法。

16.一种语音采集系统，其特征在于，包括语音交互设备和服务器，所述语音交互设备是如权利要求12任一项所述的语音交互设备；

所述服务器是如权利要求13所述的服务器。