CN108989341A

CN108989341A - 语音自主注册方法、装置、计算机设备及存储介质

Info

Publication number: CN108989341A
Application number: CN201810952189.2A
Authority: CN
Inventors: 黄锦伦
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-08-21
Filing date: 2018-08-21
Publication date: 2018-12-11
Anticipated expiration: 2038-08-21
Also published as: CN108989341B

Abstract

本发明公开一种语音自主注册方法、装置、计算机设备及存储介质，应用在人工智能领域。该方法包括：接收语音注册请求，语音注册请求携带注册标识；基于注册标识进入语音注册流程，依据录音播放顺序给客户端发送至少两个引导录音，以使客户端依序播放引导录音；接收基于每一引导录音采集到的注册语音数据；采用目标语音静态解码网络对注册语音数据进行文本翻译，获取注册文本数据；采用文本语音转换工具将注册文本数据转换成回馈语音数据，并通过客户端播放回馈语音数据；获取确认语音数据，若确认语音数据携带确认标识，则基于注册文本数据完成用户身份注册。该方法可实现语音自主注册的过程，提高身份注册的灵活性和操作方便性。

Description

语音自主注册方法、装置、计算机设备及存储介质

技术领域

本发明涉及语音处理领域，尤其涉及一种语音自主注册方法、装置、计算机设备及存储介质。

背景技术

在很多业务场景中，需要对用户进行身份认证。比如，在账户登录时，需要用户输入帐号密码来确定用户是否具备操作权限，在支付业务中，需要用户输入支付密码来确认用户是否为合法用户。对用户进行身份认证的实现前提是预先在业务系统完成用户注册操作，以使业务系统可根据用户预先注册中的用户信息完成对身份认证过程。当前业务系统的用户注册操作主要通过用户在网页端或APP端采用书写方式输入用户信息这一种方式实现，使得书写困难的用户操作不方便。

发明内容

本发明实施例提供一种语音自主注册方法、装置、计算机设备及存储介质，以解决当前业务系统仅采用书写方式实现用户注册时存在的操作不方便的问题。

一种语音自主注册方法，包括：

接收客户端发送的语音注册请求，所述语音注册请求携带注册标识；

基于所述注册标识进入语音注册流程，依据与所述语音注册流程相对应的录音播放顺序给所述客户端发送至少两个引导录音，以使所述客户端依序播放所述引导录音；

接收所述客户端发送的基于每一所述引导录音采集到的注册语音数据；

采用目标语音静态解码网络对所述注册语音数据进行文本翻译，获取注册文本数据；

采用文本语音转换工具将所述注册文本数据转换成回馈语音数据，并通过所述客户端播放所述回馈语音数据；

获取客户端发送的基于所述回馈语音数据反馈的确认语音数据，若所述确认语音数据携带确认标识，则基于所述注册文本数据完成用户身份注册。

一种语音自主注册装置，包括：

语音注册请求接收模块，用于接收客户端发送的语音注册请求，所述语音注册请求携带注册标识；

引导录音播放模块，用于基于所述注册标识进入语音注册流程，依据与所述语音注册流程相对应的录音播放顺序给所述客户端发送至少两个引导录音，以使所述客户端依序播放所述引导录音；

注册语音数据接收模块，用于接收所述客户端发送的基于每一所述引导录音采集到的注册语音数据；

注册文本数据获取模块，用于采用目标语音静态解码网络对所述注册语音数据进行文本翻译，获取注册文本数据；

回馈语音数据播放模块，用于采用文本语音转换工具将所述注册文本数据转换成回馈语音数据，并通过所述客户端播放所述回馈语音数据；

身份确定处理模块，用于获取客户端发送的基于所述回馈语音数据反馈的确认语音数据，若所述确认语音数据携带确认标识，则基于所述注册文本数据完成用户身份注册。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音自主注册方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音自主注册方法的步骤。

上述语音自主注册方法、装置、计算机设备及存储介质，在基于语音注册请求中的注册标识进入语音注册流程之后，使客户端依序播放至少两个引导录音，以使用户可根据引导录音进行身份注册，使得身份注册过程不限于书写方式，增加身份注册的灵活性。采用目标语音静态解码网络对基于引导录音采集的注册语音数据进行文本翻译，其解码速度较快且解码准确率较高。再采用文本语音转换工具将注册文本数据转换成回馈语音数据并播放，获取客户端反馈的确认语音数据，在确认语音数据中携带确认标识时，基于注册文本数据完成用户身份注册，以保障用户身份注册时身份数据的准确性，以实现语音自主注册的过程，提高身份注册的灵活性和操作方便性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语音自主注册方法的一应用环境示意图；

图2是本发明一实施例中语音自主注册方法的一流程图；

图3是本发明一实施例中语音自主注册方法的另一流程图；

图4是本发明一实施例中语音自主注册方法的另一流程图；

图5是本发明一实施例中语音自主注册方法的另一流程图；

图6是本发明一实施例中语音自主注册方法的另一流程图；

图7是本发明一实施例中语音自主注册方法的另一流程图；

图8是本发明一实施例中计算机设备的一示意图；

图9是本发明一实施例中语音自主注册装置的一原理框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的语音自主注册方法，该语音自主注册方法可应用如图1所示的应用环境中。具体地，该语音自主注册方法应用在可实现语音自主注册的业务系统中，该业务系统包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于使用户通过客户端实现在业务系统上语音注册，完成用户身份注册操作，以便后续进行用户身份认证。其中，客户端又称为用户端，是指与服务器相对应，为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上，本实施例中以智能手机为例进行说明。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种语音自主注册方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：接收客户端发送的语音注册请求，语音注册请求携带注册标识。

其中，语音注册请求是指用户通过客户端向服务器发送的用于在业务系统通过语音方式进行身份注册的请求。注册标识是用于识别该语音注册请求为身份注册的标识。可以理解地，业务系统可预先设置特定的注册标识，以便后续在进行语音注册时，在识别到语音注册请求携带有该注册标识，使得服务器可了解该语音注册请求的功能需求，从而进入语音注册流程。

例如，业务系统预先设置其注册标识为**或##，则用户通过手机这一客户端向服务器发送语音注册请求时，可先点击手机上的特定按键**或##，然后通过手机采集用户的需求请求，以形成语音注册请求，该语音注册请求携带有注册标识；并将该语音注册请求发送给服务器，以使服务器接收到该语音注册请求。或者，业务系统预先设置其注册标识为携带有“注册”这关键词，用户通过手机这一客户端进行语音导航，即向客户端说出“我要注册账号”，该客户端采集这一语音数据作为语音注册请求发送给服务器，服务器接收到该语音注册请求之后，将其中的语音数据识别成文字后，进行关键字“注册”进行匹配处理，若匹配成功，则进入语音注册流程。

S20：基于注册标识进入语音注册流程，依据与语音注册流程相对应的录音播放顺序给客户端发送至少两个引导录音，以使客户端依序播放引导录音。

其中，语音注册流程是指业务系统预先设置的用于引导用户进行语音注册的流程。可以理解地，服务器根据语音注册请求中的注册标识，识别到用户想要进行注册的意图，即可进入相应的语音注册流程，并控制客户端显示这一语音注册流程所需上传的与用户相关的身份信息。该身份信息包括但不限于用户的姓名、帐号、手机号、身份证号、地址、安全问题及答案等。该身份信息的设置，是实现用户身份认证以保障数据安全的前提。

本实施例中，服务器基于注册标识进入语音注册流程，在语音注册流程需使用户上传对应的身份信息。具体地，服务器在进入语音注册流程时，可控制客户端进入语音注册界面，在语音注册界面上可显示需要用户提供的身份信息字段和与该身份信息字段对应的输入框和录音按键，该身份信息字段包括但不限于姓名、帐号、手机号、身份证号、地址、安全问题及答案等。用户可通过该输入框采用书写方式输入相应的身份信息，也可以通过录音按键选择语音方式相应的身份信息，选择方式灵活多样，以应用不同用户的需求。相对应地，该身份信息字段除了可用文字形式显示在客户端的语音注册流程上，还可以用于语音导航引导方式播放相应的引导录音，以使视力较弱(如老花或散光)或者书写困难的用户可根据该引导录音完成用户身份注册操作。

具体地，服务器预先基于需要用户提供的身份信息字段配置相应的引导话术，如“请问您的姓名为……”和“请录入您的手机号”等。然后，基于该引导话术采集相应的引导录音，即将引导话术转换成录音形式。最后，给引导录音配置相应的录音播放顺序，并将该引导录音和对应的录音播放顺序关联存储在数据库中。其中，每一引导录音对应一录音标识，该录音标识用于唯一识别其对应的引导录音。本实施例中，服务器基于注册标识进入语音注册流程之后，依据该录音播放顺序给客户端发送至少两个引导录音，以使客户端依序播放引导录音，以使视力较弱(如老花或散光)或者书写困难的用户可根据该引导录音完成用户身份注册操作。

S30：接收客户端发送的基于每一引导录音采集到的注册语音数据。

其中，注册语音数据是客户端基于每一引导录音采集到的与用户信息相关的语音数据，该注册语音数据是用户对引导录音所提及的问题的回复。客户端采集到用户基于每一引导录音所录入的注册语音数据之后，将该注册语音数据发送给服务器，以使服务器接收到该注册语音数据。本实施例中，每一注册语音数据携带有一数据标识，该数据标识用于唯一识别其对应的注册语音数据。

相应地，客户端的语音注册界面中每一身份信息字段对应的录音按键与一录音标识关联，以使用户点击任一录音按键进行进行录音时，其所采集到的注册语音数据对应的数据标识与该录音标识相关，以便服务器根据该录音标识确定其对应的引导录音，以将引导录音与其对应的注册语音数据进行关联。进一步地，服务器在通过客户端播放任一引导录音时，可对客户端的注册语音界面上相应的录音按键进行突出显示(如发光等)处理，以使用户点击该突出显示处理之后的录音按键，从而基于引导录音的问题进行语音回复，以获取相对应的注册语音数据。

例如，用户在听到“请录入您的手机号”这一段引导录音时，点击手机上的“开始录音”这一录音按键或者手机上突出显示的录音按键后，录入相应的注册语音数据，然后点击“录音完成”或者手机键盘上预设的结束按键后，手机即可将录入的注册语音数据发送给服务器，以使服务器接收到与录音标识相对应的注册语音数据。

S40：采用目标语音静态解码网络对注册语音数据进行文本翻译，获取注册文本数据。

目标语音静态解码网络是预先采用训练文本数据和对应的训练语音数据进行模型训练后获取到的用于识别语音中文本内容的静态解码网络。该训练文本数据具体为与回复关于身份信息的引导话术相对应的文本数据，例如，“我的姓名是张三”、“我的家庭住址是北京市海淀区海淀南路甲21号中关村知识产权大厦”等。由于目标语音静态解码网络是基于特定领域的训练文本数据进行训练所获取的静态解码网络，使得其在对该特定领域的注册语音数据进行识别时，针对性强，使得解码准确率较高。由于静态解码网络已经把搜索空间全部展开，因此其在进行文本翻译时，解码速度非常快，从而可快速获取注册文本数据。本实施例中，采用目标语音静态解码网络对注册语音数据进行文本翻译，可快速获取识别准确率较高的注册文本数据。该注册文本数据是采用目标语音静态解码网络对注册语音数据进行识别后以文本形式存在的数据。

S50：采用文本语音转换工具将注册文本数据转换成回馈语音数据，并通过客户端播放回馈语音数据。

其中，文本语音转换工具是用于实现文本数据转换成语音数据的工具。回馈语音数据是指采用文本语音转换工具对注册文本数据进行文本语音转换所获得的语音数据。

在用户通过客户端上传注册语音数据，且服务器将注册语音数据转换成注册文本数据之后，需要将该注册文本数据反馈给客户端进行确认，以确保用户身份信息的准确性。本实施例中，服务器在获取到注册文本数据之后，先采用预先配置在服务器上的文本语音转换工具将该注册文本数据转换为回馈语音数据，并通过客户端播放该回馈语音数据，以使用户可通过客户端了解服务器解码出的注册文本数据是否与自己上传的注册语音数据所提供的身份信息相匹配，以保证语音注册所保存的身份信息的准确性，方便用户进行身份信息确认。进一步地，服务器还可将该注册文本数据和回馈语音数据一并发送给客户端，以使客户端在播放该回馈语音数据的同时，显示该注册文本数据，以方便不同的用户进行身份信息确认。

S60：获取客户端发送的基于回馈语音数据反馈的确认语音数据，若确认语音数据携带确认标识，则基于注册文本数据完成用户身份注册。

其中，确认语音数据是包含确认标识或否认标识的语音数据。该确认标识可以为“信息准确”“信息没有错误”或者其他表示回馈语音数据所对应的身份信息为用户身份信息的标识。相应地，否认标识可以为“信息不准确”“信息错误”或者其他表示回馈语音数据所对应的身份信息不为用户身份信息的标识。

本实施例中，服务器可接收用户通过客户端发送的基于回馈语音数据反馈的确认语音数据，若确认语音数据中携带确认标识，则基于步骤S40解码出的注册文本数据完成用户身份注册，以便后续根据该注册文本数据进行身份认证操作。相应地，若确认语音数据中携带否认标识，则重复执行步骤S20-S60。

进一步地，若确认语音数据中携带否认标识，还可采用目标语音静态解码网络对确认语音数据进行解码，获取对应的确认文本数据。再对确认文本数据进行关键词提取，提取对携带否认标识对应的语句，从而确定注册文本数据中提及的哪一部分身份信息不准确，即获取待确认身份信息。然后，基于该待确认身份信息查询数据库，获取与该待确认身份信息相对应的引导录音，并通过客户端播放该引导录音，重复执行步骤S30-S60的步骤，直至确认所有身份信息后，基于注册文本数据完成用户身份注册。可以理解地，通过确认语音数据对应的确认文本数据查询对应的引导录音，再重复执行步骤S30-S60，以实现查漏补缺的作用，保证用户的身份信息的完整性和准确性，避免对已确认的身份信息进行重复采集，影响语音注册的效率。

本实施例提供的语音自主注册方法，在基于语音注册请求中的注册标识进入语音注册流程之后，使客户端依序播放至少两个引导录音，以使用户可根据引导录音进行身份注册，使得身份注册过程不限于书写方式，增加身份注册的灵活性。采用目标语音静态解码网络对基于引导录音采集的注册语音数据进行文本翻译，其解码速度较快且解码准确率较高。再采用文本语音转换工具将注册文本数据转换成回馈语音数据并播放，获取客户端反馈的确认语音数据，在确认语音数据中携带确认标识时，基于注册文本数据完成用户身份注册，以保障用户身份注册时身份数据的准确性，以实现语音自主注册的过程，提高身份注册的灵活性和操作方便性。

在一实施例中，在依据与语音注册流程相对应的录音播放顺序给客户端发送至少两个引导录音，以使客户端依序播放引导录音的步骤之后，语音自主注册方法还包括：获取客户端上传的每一引导录音对应的播放时间。

本实施例中，引导录音包含多帧音频帧，该音频帧是构成引导录音的最小单元。服务器在通过客户端播放每一引导录音时，是依序播放多帧音频帧，每一音频帧对应一帧播放结束时间。其中，引导录音的播放时间是引导录音中最后一帧音频帧的帧播放结束时间。本实施例中，服务器在通过客户端播放每一引导录音时，记录该引导录音的最后一帧音频帧的帧播放结束时间作为该引导录音的播放时间，客户端在获取引导录音的播放时间之后，将该引导录音的播放时间发送给服务器，以使服务器获取到该播放时间。具体地，客户端在播放完最后一帧音频帧之后，在客户端采用currentTimeMillis方法这一时间戳函数获取最后一帧音频帧的帧播放结束时间，以确定引导录音的播放时间。

相应地，如图3所示，接收客户端发送的基于每一引导录音采集到的注册语音数据，具体包括如下步骤：

S31：在引导录音的播放时间之后的预设时间内，判断能否接收客户端发送的基于每一引导录音采集到的注册语音数据。

其中，预设时间是服务器预先设置的时间。本实施例中，服务器在接收到注册语音数据之后，获取引导录音的播放时间，基于该播放时间和预设时间，确定该引导录音对应的问题的回复期限(即播放时间之后的预设时间内)。可以理解地，服务器在确定该回复期限之后，需判断在该回复期限内能否接收到客户端发送的基于每一引导录音采集到的注册语音数据，以确定语音注册流程能否继续进行。

S32：若能接收到注册语音数据，则执行采用目标语音静态解码网络对注册语音数据进行文本翻译，获取注册文本数据的步骤。

具体地，若服务器在该引导录音对应的回复期限内，能够接收到基于该引导录音采集到的注册语音数据，即可执行步骤S40-S60，以便完成语音注册过程。具体地，服务器可获取注册语音数据的接收时间，若该接收时间在该引导录音的播放时间之后的预设时间内，则认定该注册语音数据是在回复期限内，服务器能够接收到该注册语音数据，可执行步骤S40-S60。

本实施例中，服务器在接收到客户端发送的注册语音数据之后，采用服务器预先设置的时间戳函数获取该注册语音数据的接收时间。例如，服务器在接收到注册语音数据之后，触发预先设置在服务器中的currentTimeMillis方法这一时间戳函数获取系统当前时间，将该系统当前时间作为注册语音数据的接收时间。

S33：若不能接收到注册语音数据，则更新重复播放次数，若重复播放次数小于预设阈值，则通过客户端重复播放引导录音，执行接收客户端发送的基于每一引导录音采集到的注册语音数据的步骤。

其中，重复播放次数是指引导录音被播放的次数。预设阈值是服务器预先设置的用于限定每一引导录音的可播放次数的阈值。具体地，若服务器在该引导录音的回复期限内，不能接收到基于该引导录音采集的注册语音数据，此时需查询数据库，获取与该引导录音的录音标识相对应的重复播放次数，使该重复播放次数加1，以更新重复播放次数。再将更新后的重复播放次数与预设阈值进行比较，若重复播放次数小于预设阈值，则可通过客户端重复播放该引导录音，以避免因用户未听清引导录音或者其他原因不能及时回复注册语音数据的情形发生，以使注册语音数据与引导录音提及的问题相匹配，保障注册语音数据的准确性。若重复播放次数不小于预设阈值，则说明用户可能因各种原因未能继续进行身份注册过程中，此时需注销该语音注册流程，以减轻服务器负担，保障其他用户的语音注册流程的处理效率。

本实施例中，将引导录音的播放时间之后的预设时间作为该引导录音的回复期限，以保证语音注册流程的时效率。若在该回复期限内能接收到客户端发送的注册语音数据，说明用户可及时处理身份注册操作，可执行后续的步骤。若该回复期限内不能接收到客户端发送的注册语音数据，且重复播放次数小于预设阈值，则通过客户端重复播放引导录音，重复执行步骤S30，以避免因用户未听清引导录音而不能及时回复注册语音数据的情形发生，以使注册语音数据与引导录音提及的问题相匹配，保障注册语音数据的准确性。若该回复期限内不能接收到客户端发送的注册语音数据，且重复播放次数不小于预设阈值，则说明用户暂时无法继续进行身份注册操作，此时注销语音注册流程，以减轻服务器负担，保障其他用户的语音注册流程的处理效率。

在一实施例中，如图4所示，在采用目标语音静态解码网络对注册语音数据进行文本翻译的步骤之前，语音自主注册方法还包括：

S401：获取模型训练请求，模型训练请求包括模型类型。

其中，模型训练请求是用于训练语音解码模型的请求。模型类型是用于限定所训练的语音解码模型的类型。模型类型包括专用模型和通用模型，其中，专用模型是采用特定领域的训练数据进行训练的模型；相对应地，通用模型不是采用特定领域的训练数据进行训练的模型。本实施例中，特定领域的训练数据存在特定格式，使得依据该特定领域的训练数据训练所得的专用模型对该特定领域的语音数据的识别准确率更高。专用模型包括但不限于本实施例提及的身份证专用模型和地址专用模型。

S402：基于模型类型查询相应的语料库，获取对应的训练文本数据。

具体地，服务器基于模型类型查询相应的语料库，从该语料库中获取对应的训练文本数据。其中，训练文本数据是从语料库中提取出来的用于进行模型训练的文本数据。本实施例中，若模型类型为身份证专用模型，则需从身份证专用模型对应的身份证语料库中获取与身份证号码对应的训练文本数据；若模型类型为地址专用模型，则需从地址专用模型对应的地址语料库中获取与地址对应的训练文本数据；若模型类型为通用模型，则需从通用模型对应的通用语料库中获取对应的训练文本数据。

本实施例以身份证这一特定领域为例进行说明，存储在身份证语料库中的训练文本数据是基于身份证号码形成的训练文本数据。身份证号码的结构有固定格式，身份号码是特征组合码，由十七位数字本体码和一位校验码组成，其排列顺序从左至右依次为：六位数字地址码、八位数字出生日期码、三位数字顺序码和一位数字校验码。其地址码表示编码对象常住户口所在县(市、旗、区)的行政区划代码，按GB/T2260的规定执行。出生日期码表示编码对象出生的年、月、日，按GB/T7408的规定执行，年、月、日代码之间不用分隔符。顺序码表示在同一地址码所标识的区域范围内，对同年、同月、同日出生的人编定的顺序号，顺序码的奇数分配给男性，偶数分配给女性。校验码(第十八位数)其获取过程包括如下步骤：

1)十七位数字本体码加权求和公式S＝Sum(Ai*Wi)，i＝0，...，16，先对前17位数字的权求和，其中，Ai表示第i位置上的身份证号码数字值；Wi表示第i位置上的加权因子Wi为7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4 2

2)计算模Y＝mod(S，11)

3)通过模得到对应的校验码Y:0 1 2 3 4 5 6 7 8 9 10，校验码:10X 9 8 7 6 54 3 2*/

例如，第十八位数字(校验码)的计算方法为：1)将前面的身份证号码17位数分别乘以不同的系数，从第一位到第十七位的系数分别为：7 9 10 5 8 4 2 1 6 3 7 9 10 5 84。2)将这17位数字和系数相乘的结果相加。3)用加出来和除以11，获取余数。4)余数只可能有0 1 2 3 4 5 6 7 8 9 10这11个数字，其分别对应的最后一位身份证的号码为1 0 X 98 7 6 5 4 3 2。如果余数是2，就会在身份证的第18位数字上出现罗马数字的Ⅹ，如果余数是10，身份证的最后一位号码就是2。

S403：将训练文本数据输入到N-gram模型进行模型训练，获取目标语言模型。

其中，N-gram是大词汇连续语音识别中常用的基于统计语言模型算法，利用上下文中相邻词间的搭配信息，在需要把连续无空格的拼音转换成汉字串(即句子)时，可以计算出具有最大概率的句子，从而实现到汉字的自动转换，无需用户手动选择，避开许多汉字对应一个相同拼音而导致重码问题。N-gram是将文本里面的内容按照字节进行大小为n的滑动窗口操作，形成了长度是n的字节片段序列。每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。

N-gram基于马尔科夫假设：第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从所有训练文本数据中统计N个词同时出现的次数得到。即P(T)＝P(W₁W₂W₃…W_n)＝P(W₁)P(W₂|W₁)P(W₃|W₁W₂)…P(W_n|W₁W₂…W_n-1)，其中，P(W_n|W₁W₂…W_n-1)是指第n个分词出现在n-1个分词组成的语序序列之后的概率。在N-gram模型中，通常使用最大似然估计(Maximum LikelihoodEstimate)来计算P(W_n|W₁W₂…W_n-1)，即其中，C(W_n)为第n个分词在所有训练文本数据中的词频，C(W₁W₂…W_n)为(W₁W₂…W_n)序列在所有训练文本数据中的词序列频度，C(W₁W₂…W_n-1)为(W₁W₂…W_n-1)序列在所有训练文本数据中的词序列频度。本实施例中，基于不同模型类型对应的语料库中的训练文本数据对N-gram模型进行训练，使得获取的目标语言模型针对模型类型相对应的注册语音数据的识别更准确。

S404：基于训练文本数据，采集与每一训练文本数据相对应的训练语音数据。

具体地，服务器中预先设置有语音采集工具，有用户点击客户端上的“开始录音”按钮后，采集不同坐席人员阅读该训练文本数据时的语音，以获取与每一训练文本数据相对应的训练语音数据。可以理解地，服务器每采集到一训练语音数据之后，将该训练语音数据存储在数据库中，作为后续训练目标声学模型的训练样本。

S405：将训练语音数据输入到GMM-HMM模型进行模型训练，获取目标声学模型。

其中，目标声学模型是采用训练语音数据对GMM-HMM模型进行训练后获取的声学模型。具体地，服务器将训练语音数据输入到GMM-HMM模型进行模型训练，获取目标声学模型的过程包括如下步骤：

首先，对训练语音数据进行特征提取，获取MFCC(Mel-frequency CepstrumCoefficients，即梅尔频率倒谱系数)特征。其中，梅尔频率倒谱系数可采用多维特征向量(m维n列)的方式表达，m维1列向量为一帧波形，若干帧波形对应一个状态，每三个状态组合成一个音素。

然后，采用MFCC特征对GMM(Gaussian Mixed Model，高斯混合模型)进行训练，获取目标GMM模型，其过程具体包括：(1)初始化GMM的参数，该初始参数包括分量数目K，混合系数π_k，均值μ_k和协方差∑_k，对于所有MFCC特征所形成的点x＝{x₁,x₂,...,x_N}，其GMM模型为(2)采用EM(Expectation Maximization Algorithm，最大期望)算法更新GMM的参数，获取目标GMM。该EM算法包括E step和M Step。在E step中，根据当前的混合系数π_k，均值μ_k和协方差∑_k，计算后验概率γ(z_nk)，其中，在M step中，根据计算得到的后验概率γ(z_nk)，计算新的混合系数π_k，均值μ_k和协方差∑_k，在参数收敛时获取目标GMM模型，即其中，N为点的个数。

最后，将目标GMM模型输入到HMM进行模型训练，获取目标声学模型，其过程具体包括：(1)假设状态观测序列中服从单核高斯概率分布b_j(x)＝p(x|s_j)＝N(x；μ_j,∑_j)，初始化HMM的参数λ，该参数λ包括前向转移概率α_ij、后面转移概率β_t(s_j)、均值μ_j和协方差∑_j，其中，α_ij为从状态s_i转移到其他状态s_j的转移概率，且β_t(s_j)为时刻t处于状态s_j的话，t时刻未来观测的概率，即β_t(s_j)＝p(x_t+1,x_t+2,x_T|s(t)＝s_j,λ)，其中，α_ij为从状态s_i转移到其他状态s_j的转移概率，b_j(x_t+1)为状态i下观测到x_t+1的概率，β_t+1(s_j)为t时刻处于状态s_j的话，t+1后观测的概率。(2)采用EM算法更新HMM的前向转移概率α_ij、均值μ_j和协方差∑_j，获取目标声学模型。采用EM算法更新HMM中参数的过程与更新GMM中参数的过程一致，在此不一一赘述。

S406：基于目标语言模型和目标声学模型，构建与模型类型相对应的目标语音静态解码网络。

具体地，服务器基于步骤S403获取到的目标语言模型、步骤S405获取到的目标声学模型和预先设置的发音词典和声学上下文，构建与模型类型相对应的目标语音静态解码网络，其构建过程包括如下步骤：

(1)将目标语言模型、目标声学模型、发音词典和声学上下文转换成WFST(Weighted Finite-state Transduce，加权有限状态转换器)网络，即分别获得语言模型WFST(以下简称为G)、发音词典WFST(以下简称为L)、声学上下文WFST(以下简称为C)和声学模型WFST(以下简称为H)。该语言模型WFST中，是一个WFSA(acceptor接受机)，可与其它三个WFST进行操作，将其视为一个输入符号和输出符号相同的WFST，具体定义词序列出现的概率。发音词典WFST，输入符号为monophone(音素)，输出符号为词。发音词典定义音素序列所表示的词，根据跨词三音子模型产生的可能的音素序列，可以得到相应的词序列。声学上下文WFST，输入符号为triphone(三音子)，输出符号为monophnoe(音素)，该WFST网络定义从三音子到音素的对应关系，根据HMM模型产生的三音子序列。声学模型WFST，输入符号为HMM transitions-ids(transition identifiers转换标识符，用于指示对应的特征向量)，输出符号为triphone(三音子)，定义每个三音子所对应的HMM状态序列。在语音识别时，通过对每一帧所对应的状态进行假设，可以在HMM的状态序列上进行搜索，从而产生可能的三音子序列。

(2)对四个WFST网络进行合并和压缩优化，获取目标语音静态解码网络。

具体地，先采用H℃°L°G°对四个WFST网络进行合并，获取原始语音静态解码网络，其中，H为声学模型WFST，C为声学上下文WFST，L为发音词典WFST，G为语言模型WFST，°指模型合并(Composition)。然后，对原始语音静态解码网络进行压缩优化，获取目标语音静态解码网络。由于原始语音静态解码网络的占用内存非常大，需进一步优化，以使优化后的目标语音静态解码网络能够有较小的体积。具体地，采用N＝π_ε(min(det(H°det(C°det(L°G)))))对原始语音静态解码网络进行压缩优化，获取目标语音静态解码网络，使得其形成的识别网络较小，其中，det(Determinization)为确定化算法，min(Minimization)为最小化算法，π_ε为空转移去除(ε-Removal)算法。

本实施例中，所获取的目标语音静态解码网络采用迭代计算，让概率信息在网络节点间传递更新，以进行语音解码，并且由于静态解码网络已经把搜索空间全部展开，因此，不需要根据解码路径的前驱词构造搜索空间副本，也不需要在词尾节点根据历史信息查询语音模型，使得其后续进行语音识别时，解码速度非常快。

在一实施例中，依据四个WFST对应的输入输出关系可知，步骤S40中采用采用目标语音静态解码网络对注册语音数据进行文本翻译，获取注册文本数据，具体包括如下步骤：(1)采用声学模型WFST对注册语音数据进行处理，获取HMM状态序列，每一HMM状态序列为一triphone(三音子)的状态序列。HMM(Hidden Markov Model，隐马尔可夫模型)是预先训练好的状态网络，将获取到的每一帧语音数据属于每个状态的概率输入HMM中，可从该状态网络中寻找帧与状态间最匹配路径，将最匹配路径对应的状态作为目标状态，从状态网络中寻找状态与音素间最匹配路径，依据该最匹配路径确定音素序列。其中，HMM中路径搜索的算法是一种动态规划剪枝的算法，称之为Viterbi(维特比)算法，用于寻找全局最优路径，进而实现将MFCC特征转换为HMM状态序列。(2)采用声学上下文WFST对HMM状态序列进行处理，获取对应的音素序列。声学上下文WFST定义了三音子到音素的对应关系，因此，可采用声学上下文WFST对HMM状态序列进行处理，获取对应的音素序列。(3)采用发音词典WFST对音素序列进行处理，获取对应的词序列。(4)采用语言模型WFST对词序列进行处理，获取注册文本数据。

可以理解地，由于声学模型WFST、声学上下文WFST、发音词典WFST和语言模型WFST是训练好的目标语音静态解码网络中四个串联的子系统，每一个子系统的输出是下一个子系统的输入，使得对四个WFST进行合并、确定化、最小化和空转移去除之后获得的静态解码网络，可以直接将注册语音数据输入到声学模型WFST，依次经过声学上下文WFST、发音词典WFST和语言模型WFST处理，可获取对应的通话录音文本数据，其解码过程中由于已经将搜索空间全部展开，可采用Viterbi(维特比)算法快速获取最优解码结果，使得其解码速度快。

在一实施例中，如图5所示，采用文本语音转换工具将注册文本数据转换成回馈语音数据，包括：

S51：对注册文本数据进行分析和标识，获取注册音素序列。

音素是语音识别领域的最小单元，在文本到语音转换过程中，将文本转换成音素是TTS(TextToSpeech，从文本到语音)技术中一个重要的前提步骤。本实施例中，服务器通过对注册文本数据进行分析和识别，以将注册文本数据转换为注册音素序列，以标出注册音素序列中每个音素的起止时间和频率变化等信息，以便后续处理过程中可实现对拼写相同但读音不同的词的区分、缩写处理和停顿位置确定等功能。本实施例中，可采用python(phonemizer)包对注册文本数据进行分析和标识，以获取注册音素序列，具体调用python包中festival and espeak和espeak-ng两个系统文件，这两个系统文件提供一个接口调用的音素转换工具。

本实施例中，服务器对注册文本数据进行分析是指对输入的注册文本数据进行语言学分析，具体是指逐句对注册文本数据进行词汇、语法和语义的分析，以确定句子的低层结构和每个字的音素的组成，从而获取注册音素序列。其分析的内容具体包括文本的断句、字词切分、多音字的处理、数字的处理和缩略语的处理等。

本实施例中，服务器需对注册文本数据分析后获得的注册音素序列进行标识，以保证后续语音合成的顺利进行。具体地，对于复杂文本，某些内容程序无法直接进行处理，需要对其进行标识。比如，单纯的数字“128”，是应该念成“一百二十八”还是“一二八”，这需要加入XML标识，如微软的TTS：”<context ID＝“number_cardinal”>128</context>”念成“一百二十八”，”<context ID＝“number_digit”>128</context>”将念成“一二八”，以使得后续采用TTS进行语音合成时，先调用TTS引擎可以去解释这些标识，以保证语音合成的准确性。

S52：采用文本到语音算法对注册音素序列进行语音合成，获取回馈语音数据。

文本到语音(即Text To Speech，简称TTS)算法语音合成应用的一种，它将储存于电脑中的文件，如帮助文件或者网页，转换成自然语音输出。具体地，服务器可采用TTS算法对注册音素序列进行语音合成处理，以获取回馈语音数据。该回馈语音数据是采用TTS对注册音素序列进行语音合成所得的语音数据。

本实施例中，服务器采用TTS算法具体采用拼接法，即采用拼接法对注册音素序列进行语音合成的具体过程如下：即从注册音素序列中，选择基本音素单元(如音节或音素)或者双音子(从一个音素的中央到下一个音素的中央)作为拼接单元进行拼接，即可获取对应的回馈语音数据。拼接法进行语音合成所获得的回馈语音数据的语音质量较高，以使客户端播放该回馈语音数据时，用户可听到语音较清晰的回馈语音数据。

可以理解地，采用拼接法对注册音素序列进行语音合成时，需要将注册音素序列中的基本音素单元或双音子从语音合成库提取相应的波形，并拼接成相应的语言波形；然后对语言波形进行韵律处理-合成音质(Qualityof Synthetic Speech)，以保证所转换成的回馈语音数据的语音质量。回馈语音数据的语音质量一般从清晰度(或可懂度)、自然度和连贯性等评价指标进行评价，在韵律处理-合成音质过程中，需要保证回馈语音数据的各项评价指标符合其对应的阈值，从而保证语音质量。其中，清晰度是正确听辨有意义词语的百分率；自然度用来评价合成语音音质是否接近人说话的声音，合成词语的语调是否自然；连贯性用来评价合成语句是否流畅。

在一实施例中，在基于注册文本数据完成用户身份注册的步骤之后，语音自主注册方法还包括如下步骤：S70：基于注册语音数据训练专用声纹识别模型，并基于注册语音数据和专用声纹识别模型，获取注册声纹特征，将专用声纹识别模型和注册声纹特征与用户标识关联存储在数据库中。

其中，专用声纹识别模型是基于注册语音数据进行训练的声纹识别模型，该声纹识别模型专门用于识别某一语音的说话人是否为注册语音数据对应的说话人，以便进行用户身份认证。本实施例中，可基于注册语音数据，采用PLDA、GMM或者算法训练与用户身份相对应的专用声纹识别模型。PLDA(Probabilistic Linear Discriminant Analysis，概率线性判别分析)也一种信道补偿算法，PLDA是基于I-vector特征的，因为I-vector特征即包含说话人信息又包含信道信息，而我们只关心说话人信息，所以才需要信道补偿。GMM(Gaussian Mixed Model，即混合高斯模型)指的是多个高斯分布函数的线性组合，理论上GMM可以拟合出任意类型的分布，通常用于解决同一集合下的数据包含多个不同的分布的情况(或者是同一类分布但参数不一样，或者是不同类型的分布，比如正态分布和伯努利分布)。

注册声纹特征是将注册语音数据输入到专用声纹识别模型进行处理，所获得的声纹特征。可以理解地，服务器在基于注册文本数据完成用户身份注册之后，会给该用户分配唯一的用户标识，该用户标识可以是用户的身份证号、手机号或自定义的用户帐号等。而步骤S70之后，训练得到专用声纹识别模型，并基于该专用声纹识别模型和注册语音数据获取到注册声纹特征之后，会将该专用声纹识别模型和注册声纹特征与用户标识关联存储在数据库中，以便后续根据该用户标识查询数据库，获取对应的专用声纹识别模型身份认证。

在一实施例中，如图6所示，步骤S70的基于注册语音数据训练专用声纹识别模型，并基于注册语音数据和专用声纹识别模型，获取注册声纹特征，具体包括如下步骤：

S71：对注册语音数据进行特征提取，获取对应的注册语音特征。

注册语音特征是对注册语音数据进行特征提取后获取的语音特征，该语音特征具体为MFCC(Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)特征，MFCC特征在低频部分的分辨率较高，与人耳的听觉特性相符。对注册语音数据进行特征提取具体包括预加重、分帧和加窗等预处理过程，还包括快速傅里叶变换，获取注册语音数据的频谱，并根据频谱获取注册语音数据的功率谱，再采用采用梅尔刻度滤波器组处理注册语音数据的功率谱，获取注册语音数据的梅尔功率谱，然后在梅尔功率谱上进行倒谱分析，获取注册语音数据的MFCC特征。该MFCC特征可作为注册语音特征与其他语音的区别特征。

S72：基于注册语音特征训练专用UBM模型，将基于专用UBM模型训练出的总体变化子空间作为专用声纹识别模型。

预设UBM(Universal Background Model,通用背景模型)是一个表征大量非特定说话人语音特征分布的高斯混合模型(Gaussian Mixture Models，高斯混合模型)。UBM模型的训练通常采用大量的与特定说话人无关、信道无关的语音数据，因此通常可以认为UBM模型是与特定说话人无关的模型，它只是拟合人的语音特征分布，而并不代表某个具体的说话人。由于注册语音数据的数据量较少，只使用GMM模型对注册语音特征进行建模，注册语音特征通常无法覆盖到GMM所在的特征空间。本实施例中，基于注册语音特征训练专用UBM模型是指采用注册语音特征和UBM进行建模，获取到专用UBM模型，具体采用注册语音特征调整UBM模型的参数来表征特定说话人的个性信息，注册语音特征覆盖不到的特征用UBM模型中相似的特征分布来近似，以获取专用UBM模型。可较好地解决注册语音特征不足带来的系统性能的问题。

总体变化子空间(Total Variability Space，简称T空间)，是直接设置一个全局变化的投影矩阵，用以包含语音数据中说话人所有可能的信息，在T空间内不分开说话人空间和信道空间。T空间能把高维充分统计量(超矢量)投影到可以作为低维说话人表征的i-vector，起到降维作用。T空间的训练过程包括：获取专用UBM模型的高维充分统计量，通过EM(Expectation Maximization Algorithm，最大期望)算法迭代更新上述高维充分统计量即可生成收敛的T空间，从其中收敛计算出T空间。

本步骤中，基于预设UBM模型训练得到的总体变化子空间不区分说话人空间和信道空间，将声道空间的信息和信道空间的信息收敛于一个空间，以降低计算复杂度，便于进一步基于总体变化子空间获取i-vector向量。

S73：将注册语音特征投影到总体变化子空间上，获取第一i-vector向量。

其中，第一i-vector向量是将注册语音特征投影到低维的总体变化子空间，得到的一个固定长度的矢量表征的向量，即i-vector向量。具体地，本步骤中采用公式w₁＝(s₁-m)/T将注册语音特征投影到总体变化子空间上，获取第一i-vector向量，其中，s₁是D*G维的与第一i-vector向量相对应的均值超矢量；m是与说话人无关且信道无关的D*G维超向量；T是总体变化子空间，维度为DG*M；w₁是第一i-vector向量，维度为M。本实施例中，由于投影在T空间中的所有i-vector向量均满足公式s₁＝m+Tw₁，因s₁、m和T都是已知的，即可获取w₁，也即第一i-vector向量，其中，w₁＝(s₁-m)/T。本实施例中，步骤S73可获取高维的注册语音特征投影在总体变化子空间后形成低维的第一i-vector向量，降低注册语音特征投影的维度和去除更多的噪声，便于基于第一i-vector向量对说话人进行识别。

S74：将第一i-vector向量投影到总体变化子空间上，获取对应的注册i-vector向量。

注册i-vector向量是将第一i-vector向量投影到低维的总体变化子空间，得到的一个用于记录在识别服务器的数据库中、固定长度的矢量表征的向量，即i-vector。步骤S74中，采用公式w₂＝(s₂-m)/T将第一i-vector向量投影在总体变化子空间上，获取注册i-vector向量，其中，s₂是D*G维的与注册i-vector向量相对应的均值超矢量；m是与说话人无关且信道无关的D*G维超向量；T是总体变化子空间，维度为DG*M；w₂是注册i-vector向量，维度为M。本实施例中，由于投影在T空间中的所有i-vector向量均满足公式s₂＝m+Tw₂，因s₂、m和T都是已知的，即可获取w₂，也即注册i-vector向量，其中，w₂＝(s₂-m)/T。

本实施例中，通过将注册语音特征投影在总体变化子空间上获取第一i-vector向量后，再将第一i-vector向量第二次投影在总体变化子空间上获取注册i-vector向量，使得注册i-vector向量经过两次投影(也即降低维度)后可去除更多的噪音特征，提高获取到的注册i-vector向量的纯净度，同时降维后减少计算空间也提高语音识别的识别效率，降低识别复杂度。

在一实施例中，如图7所示，语音自主注册方法还包括：

S81：接收客户端发送的语音登录请求，语音登录请求携带用户标识和待识别语音数据。

其中，语音登录请求是用于通过客户端向服务器发送的用于登录业务系统的请求。待识别语音数据是用户在登录业务系统过程中向服务器发送的用于进行身份认证的语音数据。用户标识是用户的唯一身份标识，如身份证号、手机号和在业务系统的用户帐号等。具体地，用户在通过客户端登录业务系统时，在客户端的登录界面配置有用户标识的输入框和语音认证按键，用户点击该语音认证按键，并开始依据客户端提示的问题进行语音回复，即可使客户端采集到待识别语音数据；在语音回复完成之后，形成语音登录请求并发送给服务器。可以理解地，用户在一客户端登录业务系统时，会默认保存用户在该业务系统的用户标识，以便在用户下次登录时，无需重新输入该用户标识，以便直接根据客户端提示的问题进行语音回复，以输入相应的语音登录请求。

S82：采用目标语音静态解码网络对待识别语音数据进行文本翻译，获取待识别文本数据。

目标语音静态解码网络是步骤S40所提及的预先训练好的用于识别语音中文本内容的静态解码网络，可快速解码出准确率较高的待识别文本数据。其解码识别过程如上所示，为避免重复，在此不一一表述。

S83：采用与用户标识相对应的专用声纹识别模型对待识别语音数据进行声纹识别，获取待识别声纹向量。

专用声纹识别模型是基于与用户标识相对应的注册语音数据进行训练所获得的声纹识别模型，采用该专用声纹识别模型对与用户标识相对应的待识别语音数据进行声纹识别，使得其识别所获得的待识别声纹向量的识别准确度更高，更有利于保障身份认证的安全可靠性。本实施例中，待识别声纹向量和注册声纹向量均为i-vector向量。

S84：计算待识别文本数据与注册文本数据的文本相似度，并计算待识别声纹向量和与用户标识相对应的注册声纹向量的声纹相似度。

其中，文本相似度是待识别文本数据和注册文本数据之间的相似度，而声纹相似度是待识别声纹向量和注册声纹向量之间的相似度。本实施全中，文本相似度和声纹相似度均可以采用余弦相似度计算公式进行处理。其中，余弦相似度计算公式为S为文本相似度或声纹相似度，A_i为待识别文本数据对应的词频向量或者待识别声纹向量，B_i为注册文本数据对应的词频向量或注册声纹向量，i为维度，n为维度数量。

进一步地，在采用余弦相似度计算公式计算待识别文本数据和注册文本数据的文本相似度之前，需先对待识别文本数据和注册文本数据进行向量化处理，以使两者可应用于余弦相似度计算公式中进行相似度计算。具体地，对待识别文本数据和注册文本数据进行向量化处理包括：对待识别文本数据和注册文本数据进行中文分词和去停用词处理，获取对应的关键词；计算每一关键词的词频，并利用该词频和所有关键词获取相对应的词频向量，以便后续进行相似度计算。例如，若待识别文本数据进行中文分词或去停用词之后获取的关键词为ABCDAE；而注册文本数据进行中文分词或去停用词之后获取的关键词为ABCFBE，则待识别文本数据对应的词频向量A_i＝(2，1，1，1，1，0)，注册文本数据对应的词频向量B_i＝(1，2，1，0，1，1)。

S85：若文本相似度或声纹相似度大于第一阈值，则通过语音登录请求。

第一阈值是预先设置的用于基于文本相似度或声纹相似度这两个单一指标进行身份认证的阈值。该第一阈值一般设置较大，认为文本相似度或者声纹相似度达到该第一阈值，则待识别语音数据极大可能为用户本人的语音数据。本实施例中，服务器可先将文本相似度与第一阈值进行比较，也可先将声纹相似度与第一阈值进行比较，比较顺序不受限制，只要两者中的至少一个大于第一阈值，则完成身份认证过程，通过语音登录请求。

S86：若文本相似度和声纹相似度均不大于第一阈值，则采用加权算法对文本相似度和声纹相似度进行加权运算，获取综合相似度；若综合相似度大于第二阈值，则通过语音登录请求；若综合相似度不大于第二阈值，则不通过语音登录请求。

若文本相似度和声纹相似度均不大于第一阈值，则说明基于单一指标无法达到身份认证通过，此时，需采用加权算法对文本相似度和声纹相似度进行加权处理，获取综合相似度。其中，加权算法的公式为且p_i为文本相似度或声纹相似度，w_i为文本相似度的权重或声纹相似度的权重。

第二阈值是预先设置的用于判断综合相似度是否达到身份认证要求的阈值。一般而言，第二阈值小于第一阈值。本实施例中，服务器将综合相似度与第二阈值进行比较，若综合相似度大于第二阈值，则说明身份认证通过，使得该语音登录请求通过；若综合相似度不大于第二阈值，则说明身份认证不通过，使得该语音登录请求不通过。

本实施例中，采用专用声纹识别模型对待识别语音数据进行识别，使得其所识别出的待识别声纹特征的准确率更高，以保障身份认证的准确性。然后，基于文本相似度或声纹相似与第一阈值的比较结果，只要文本相似度或声纹相似度大于第一阈值，即身份认证通过，通过该语音登录请求，以使用户可登录业务系统；在文本相似度和声纹相似度均在不大于第一阈值时，采用加权算法计算出两者的综合相似度，并基于综合相似度与第二阈值的比较结果，确定能否通过语音登录请求，从而保障用户登录业务系统时，身份认证的安全性和灵活性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种语音自主注册装置，该语音自主注册装置与上述实施例中语音自主注册方法一一对应。如图9所示，该语音自主注册装置包括语音注册请求接收模块10、引导录音播放模块20、注册语音数据接收模块30、注册文本数据获取模块40、回馈语音数据播放模块50和身份确定处理模块60。各功能模块详细说明如下：

语音注册请求接收模块10，用于接收客户端发送的语音注册请求，语音注册请求携带注册标识。

引导录音播放模块20，用于基于注册标识进入语音注册流程，依据与语音注册流程相对应的录音播放顺序给客户端发送至少两个引导录音，以使客户端依序播放引导录音。

注册语音数据接收模块30，用于接收客户端发送的基于每一引导录音采集到的注册语音数据。

注册文本数据获取模块40，用于采用目标语音静态解码网络对注册语音数据进行文本翻译，获取注册文本数据。

回馈语音数据播放模块50，用于采用文本语音转换工具将注册文本数据转换成回馈语音数据，并通过客户端播放回馈语音数据。

身份确定处理模块60，用于获取客户端发送的基于回馈语音数据反馈的确认语音数据，若确认语音数据携带确认标识，则基于注册文本数据完成用户身份注册。

优选地，引导录音播放模块20，还用于获取客户端上传的每一引导录音对应的播放时间。

注册语音数据接收模块30包括播放时间判断单元31、第一判断处理单元32和第二判断处理单元33。

播放时间判断单元31，用于在引导录音的播放时间之后的预设时间内，判断能否接收客户端发送的基于每一引导录音采集到的注册语音数据。

第一判断处理单元32，用于若能接收到注册语音数据，则执行采用目标语音静态解码网络对注册语音数据进行文本翻译，获取注册文本数据的步骤。

第二判断处理单元33，用于若不能接收到注册语音数据，则更新重复播放次数，若重复播放次数小于预设阈值，则通过客户端重复播放引导录音，执行接收客户端发送的基于每一引导录音采集到的注册语音数据的步骤。

优选地，语音自主注册装置还包括模型训练请求获取单元401、训练文本数据获取单元402、目标语言模型获取单元403、训练语音数据获取单元404、目标声学模型获取单元405和静态解码网络获取单元406。

模型训练请求获取单元401，用于获取模型训练请求，模型训练请求包括模型类型。

训练文本数据获取单元402，用于基于模型类型查询相应的语料库，获取对应的训练文本数据。

目标语言模型获取单元403，用于将训练文本数据输入到N-gram模型进行模型训练，获取目标语言模型。

训练语音数据获取单元404，用于基于训练文本数据，采集与每一训练文本数据相对应的训练语音数据。

目标声学模型获取单元405，用于将训练语音数据输入到GMM-HMM模型进行模型训练，获取目标声学模型。

静态解码网络获取单元406，用于基于目标语言模型和目标声学模型，构建与模型类型相对应的目标语音静态解码网络。

优选地，回馈语音数据播放模块50包括音素序列获取单元51和回馈语音获取单元52。

音素序列获取单元51，用于对注册文本数据进行分析和标识，获取注册音素序列。

回馈语音获取单元52，用于采用文本到语音算法对注册音素序列进行语音合成，获取回馈语音数据。

优选地。语音自主注册装置还包括声纹模型特征获取模块70，用于基于注册语音数据训练专用声纹识别模型，并基于注册语音数据和专用声纹识别模型，获取注册声纹特征，将专用声纹识别模型和注册声纹特征与用户标识关联存储在数据库中。

优选地，语音自主注册装置还包括语音录音请求获取单元81、待识别文本获取单元82、待识别声纹获取单元83、相似度计算单元84、第一登录处理单元85和第二登录处理单元86。

语音录音请求获取单元81，用于接收客户端发送的语音登录请求，语音登录请求携带用户标识和待识别语音数据。

待识别文本获取单元82，用于采用目标语音静态解码网络对待识别语音数据进行文本翻译，获取待识别文本数据。

待识别声纹获取单元83，用于采用与用户标识相对应的专用声纹识别模型对待识别语音数据进行声纹识别，获取待识别声纹向量。

相似度计算单元84，用于计算待识别文本数据与注册文本数据的文本相似度，并计算待识别声纹向量和与用户标识相对应的注册声纹向量的声纹相似度。

第一登录处理单元85，用于若文本相似度或声纹相似度大于第一阈值，则通过语音登录请求。

第二登录处理单元86，用于若文本相似度和声纹相似度均不大于第一阈值，则采用加权算法对文本相似度和声纹相似度进行加权运算，获取综合相似度；若综合相似度大于第二阈值，则通过语音登录请求；若综合相似度不大于第二阈值，则不通过语音登录请求。

优选地，注册声纹特征为注册i-vector向量。

声纹模型特征获取模块70包括注册语音特征获取单元71、声纹识别模型获取单元72、第一向量获取单元73和第二向量获取单元74。

注册语音特征获取单元71，用于对注册语音数据进行特征提取，获取对应的注册语音特征。

声纹识别模型获取单元72，用于基于注册语音特征训练专用UBM模型，将基于专用UBM模型训练出的总体变化子空间作为专用声纹识别模型。

第一向量获取单元73，用于将注册语音特征投影到总体变化子空间上，获取第一i-vector向量。

第二向量获取单元74，用于将第一i-vector向量投影到总体变化子空间上，获取对应的注册i-vector向量。

关于语音自主注册装置的具体限定可以参见上文中对于语音自主注册方法的限定，在此不再赘述。上述语音自主注册装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于执行语音自主注册方法过程中所形成的数据，如注册语音数据和注册文本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音自主注册方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中语音自主注册方法的步骤，例如图2所示的步骤S10-S60，或者图3至图7中所示的步骤。或者，处理器执行计算机程序时实现上述实施例中语音自主注册装置的各模块/单元的功能，例如图9所示的各模块/单元的功能，为避免重复，这里不再赘述。

在一实施例中，提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中上述实施例中语音自主注册方法的步骤，例如图2所示的步骤S10-S60，或者图3至图7中所示的步骤，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现上述实施例中语音自主注册装置的各模块/单元的功能，例如图9所示的各模块/单元的功能，为避免重复，这里不再赘述。

该计算机可读存储介质均可非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音自主注册方法，其特征在于，包括：

2.如权利要求1所述的语音自主注册方法，其特征在于，在所述依据与所述语音注册流程相对应的录音播放顺序给所述客户端发送至少两个引导录音，以使所述客户端依序播放所述引导录音的步骤之后，所述语音自主注册方法还包括：获取所述客户端上传的每一所述引导录音对应的播放时间；

所述接收所述客户端发送的基于每一所述引导录音采集到的注册语音数据，包括：

在所述引导录音的播放时间之后的预设时间内，判断能否接收所述客户端发送的基于每一所述引导录音采集到的注册语音数据；

若能接收到所述注册语音数据，则执行所述采用目标语音静态解码网络对所述注册语音数据进行文本翻译，获取注册文本数据的步骤；

若不能接收到所述注册语音数据，则更新重复播放次数，若重复播放次数小于预设阈值，则通过所述客户端重复播放所述引导录音，执行所述接收所述客户端发送的基于每一所述引导录音采集到的注册语音数据的步骤。

3.如权利要求1所述的语音自主注册方法，其特征在于，在所述采用目标语音静态解码网络对所述注册语音数据进行文本翻译的步骤之前，所述语音自主注册方法还包括：

获取模型训练请求，所述模型训练请求包括模型类型；

基于所述模型类型查询相应的语料库，获取对应的训练文本数据；

将所述训练文本数据输入到N-gram模型进行模型训练，获取目标语言模型；

基于所述训练文本数据，采集与每一所述训练文本数据相对应的训练语音数据；

将所述训练语音数据输入到GMM-HMM模型进行模型训练，获取目标声学模型；

基于所述目标语言模型和所述目标声学模型，构建与所述模型类型相对应的目标语音静态解码网络。

4.如权利要求1所述的语音自主注册方法，其特征在于，所述采用文本语音转换工具将所述注册文本数据转换成回馈语音数据，包括：

对所述注册文本数据进行分析和标识，获取注册音素序列；

采用文本到语音算法对所述注册音素序列进行语音合成，获取回馈语音数据。

5.如权利要求1所述的语音自主注册方法，其特征在于，在所述基于所述注册文本数据完成用户身份注册的步骤之后，所述语音自主注册方法还包括：基于所述注册语音数据训练专用声纹识别模型，并基于所述注册语音数据和所述专用声纹识别模型，获取注册声纹特征，将所述专用声纹识别模型和注册声纹特征与用户标识关联存储在数据库中。

6.如权利要求5所述的语音自主注册方法，其特征在于，在所述将所述专用声纹识别模型和注册声纹特征与用户标识关联存储在数据库中的步骤之后，所述语音自主注册方法还包括：

接收客户端发送的语音登录请求，所述语音登录请求携带用户标识和待识别语音数据；

采用目标语音静态解码网络对所述待识别语音数据进行文本翻译，获取待识别文本数据；

采用与所述用户标识相对应的专用声纹识别模型对所述待识别语音数据进行声纹识别，获取待识别声纹向量；

计算所述待识别文本数据与所述注册文本数据的文本相似度，并计算所述待识别声纹向量和与所述用户标识相对应的注册声纹向量的声纹相似度；

若所述文本相似度或所述声纹相似度大于第一阈值，则通过所述语音登录请求；

若所述文本相似度和所述声纹相似度均不大于第一阈值，则采用加权算法对所述文本相似度和所述声纹相似度进行加权运算，获取综合相似度；若所述综合相似度大于第二阈值，则通过所述语音登录请求；若所述综合相似度不大于第二阈值，则不通过所述语音登录请求。

7.如权利要求5所述的语音自主注册方法，其特征在于，所述注册声纹特征为注册i-vector向量；

所述基于所述注册语音数据训练专用声纹识别模型，并基于所述注册语音数据和所述专用声纹识别模型，获取注册声纹特征，包括：

对注册语音数据进行特征提取，获取对应的注册语音特征；

基于注册语音特征训练专用UBM模型，将基于专用UBM模型训练出的总体变化子空间作为专用声纹识别模型；

将所述注册语音特征投影到所述总体变化子空间上，获取第一i-vector向量；

将所述第一i-vector向量投影到所述总体变化子空间上，获取对应的注册i-vector向量。

8.一种语音自主注册装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述语音自主注册方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音自主注册方法的步骤。