CN107909995B

CN107909995B - 语音交互方法和装置

Info

Publication number: CN107909995B
Application number: CN201711138106.8A
Authority: CN
Inventors: 韩晋; 王晗; 高雪
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2017-11-16
Filing date: 2017-11-16
Publication date: 2021-08-17
Anticipated expiration: 2037-11-16
Also published as: CN107909995A

Abstract

本公开是关于一种语音交互方法和装置，该方法包括：获取用户的语音信息中的第一模糊发音；根据预设模糊发音与预设标准发音之间的对应关系，将所述第一模糊发音转换为对应的标准发音；控制语音交互终端根据转换后的标准发音与所述用户进行语音交互。本公开能够识别用户的模糊发音并进行智能补偿，获取标准发音，从而保证语音交互终端能够为用户提供更加准确的信息，提高人机语音交互的体验。

Description

语音交互方法和装置

技术领域

本公开涉及通信领域，尤其涉及语音交互方法和装置。

背景技术

随着智能终端的发展，具有语音交互功能的儿童故事机在低龄儿童消费者中受到普遍欢迎。儿童故事机不仅可以播放歌曲、故事等，还可以通过语音智能识别功能识别语言，并与儿童进行交流。例如，小朋友对故事机说：“讲故事”，故事机问小朋友：“小朋友，你想听什么故事？”小朋友说：“白雪公主”，则故事机开始播放白雪公主的故事。

发明内容

为克服相关技术中存在的问题，本公开提供一种语音交互方法和装置。

根据本公开实施例的第一方面，提供一种语音交互方法，包括：

获取用户的语音信息中的第一模糊发音；

根据预设模糊发音与预设标准发音之间的对应关系，将所述第一模糊发音转换为对应的标准发音；

控制语音交互终端根据转换后的标准发音与所述用户进行语音交互。

一个实施例中，所述获取用户的语音信息中的第一模糊发音，包括：

获取所述语音信息中携带的用户声纹，并根据所述用户声纹确定所述用户的身份；

若所述用户的身份为目标身份，则获取所述用户的语音信息中的第一模糊发音。

一个实施例中，所述根据所述用户声纹确定所述用户的身份，包括：

获取所述用户声纹与预存声纹之间的相似度；

若所述相似度大于预设阈值，则确定所述用户的身份为所述预存声纹所对应的预存身份。

一个实施例中，在所述目标身份为儿童身份的情况下，在获取所述用户声纹与预存声纹之间的相似度之前，所述方法还包括：

输出第一提示信息，所述第一提示信息用于提示家长引导儿童发出目标语音；

在儿童发出所述目标语音的情况下，采集所述目标语音中携带的儿童声纹，记录所述儿童声纹与儿童身份之间的对应关系，其中，所述预存声纹包括所述儿童声纹，所述预存身份包括所述儿童身份。

一个实施例中，所述方法还包括：

输出第二提示信息，所述第二提示信息用于提示所述用户复述所述语音交互终端播放的预设标准发音；

在所述用户复述所述语音交互终端播放的预设标准发音时，采集并识别所述预设模糊发音；

建立所述预设模糊发音与所述预设标准发音之间的对应关系。

一个实施例中，所述方法还包括：

在所述用户与语音交互终端交流时，获取所述用户的第二模糊发音和所述第二模糊发音对应的矫正发音；

根据所述第二模糊发音和所述第二模糊发音对应的矫正发音校验所述对应关系的准确度。

一个实施例中，所述方法还包括：

在所述语音交互终端待机时，在预设的关键词范围内识别所述用户的第三模糊发音和所述第三模糊发音对应的矫正发音；

根据所述第三模糊发音和所述第三模糊发音对应的矫正发音更新所述对应关系。

根据本公开实施例的第二方面，提供一种语音交互装置，包括：

第一获取模块，配置为获取用户的语音信息中的第一模糊发音；

转换模块，被配置为根据预设模糊发音与预设标准发音之间的对应关系，将所述第一模糊发音转换为对应的标准发音；

交互模块，被配置为控制语音交互终端根据转换后的标准发音与所述用户进行语音交互。

一个实施例中，所述第一获取模块包括：

确定子模块，配置为获取所述语音信息中携带的用户声纹，并根据所述用户声纹确定所述用户的身份；

第一获取子模块，被配置为若所述用户的身份为目标身份，则获取所述用户的语音信息中的第一模糊发音。

一个实施例中，所述确定子模块包括：

第二获取子模块，被配置为获取所述用户声纹与预存声纹之间的相似度；若所述相似度大于预设阈值，则所述用户的身份为所述预存声纹所对应的预存身份。

一个实施例中，在所述目标身份为儿童身份的情况下，所述装置还包括：

第一输出模块，被配置为输出第一提示信息，所述第一提示信息用于提示家长引导儿童发出目标语音；

第一采集模块，被配置为在儿童发出所述目标语音的情况下，采集所述目标语音中携带的儿童声纹，记录所述儿童声纹与儿童身份之间的对应关系，其中，所述预存声纹包括所述儿童声纹，所述预存身份包括所述儿童身份。

一个实施例中，所述装置还包括：

第二输出模块，被配置为输出第二提示信息，所述第二提示信息用于提示所述用户复述所述语音交互终端播放的预设标准发音；

第二采集模块，被配置为在所述用户复述所述语音交互终端播放的预设标准发音时，采集并识别所述预设模糊发音；

第一建立模块，被配置为建立所述预设模糊发音与所述预设标准发音之间的对应关系。

一个实施例中，所述装置还包括：

第二获取模块，被配置为在所述用户与语音交互终端交流时，获取所述用户的第二模糊发音和所述第二模糊发音对应的矫正发音；

校验模块，被配置为根据所述第二模糊发音和所述第二模糊发音对应的矫正发音校验所述对应关系的准确度。

一个实施例中，所述装置还包括：

识别模块，被配置为在所述语音交互终端待机时，在预设的关键词范围内识别所述用户的第三模糊发音和所述第三模糊发音对应的矫正发音；

更新模块，被配置为根据所述第三模糊发音和所述第三模糊发音对应的矫正发音更新所述对应关系。

根据本公开实施例的第三方面，提供一种语音交互装置，包括：处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行第一方面任一实施例所述的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面任一实施例所述方法的步骤。

根据本公开实施例的第五方面，提供一种语音交互终端，包括上述任一种语音交互装置。

本公开的实施例提供的技术方案可以包括以下有益效果：获取用户的语音信息中的第一模糊发音，根据预设模糊发音与预设标准发音之间的对应关系，将第一模糊发音转换为对应的标准发音，控制语音交互终端根据转换后的标准发音与用户进行语音交互，终端能够识别用户的模糊发音并进行智能补偿，获取标准发音，从而为用户提供更加准确的信息，提高人机语音交互的体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种语音交互方法的流程图；

图2是根据另一示例性实施例示出的一种语音交互方法的流程图；

图3是根据另一示例性实施例示出的一种语音交互方法的流程图；

图4是根据另一示例性实施例示出的一种语音交互方法的流程图；

图5是根据另一示例性实施例示出的一种语音交互方法的流程图；

图6是根据再一示例性实施例示出的一种语音交互方法的流程图；

图7是根据再一示例性实施例示出的一种语音交互方法的流程图；

图8是根据再一示例性实施例示出的一种语音交互方法的流程图；

图9是根据一示例性实施例示出的一种语音交互装置的框图；

图10是根据另一示例性实施例示出的一种语音交互装置的框图；

图11是根据另一示例性实施例示出的一种语音交互装置的框图；

图12是根据另一示例性实施例示出的一种语音交互装置的框图；

图13是根据另一示例性实施例示出的一种语音交互装置的框图；

图14是根据另一示例性实施例示出的一种语音交互装置的框图；

图15是根据再一示例性实施例示出的一种语音交互装置的框图；

图16是根据一示例性实施例示出的一种用于语音交互方法的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种语音交互方法的流程图，该方法用于终端中，该终端可以为儿童故事机、早教机、点读机等语音交互终端，也可以是与语音交互终端连接的计算机、服务器等第三方控制终端。如图1所示，该语音交互方法包括以下步骤：

在步骤S11中，获取用户的语音信息中的第一模糊发音。

其中，第一模糊发音为用户不清楚的发音。

在本实施例中，生活中，经常会有很多人对于某些音标发不清楚，例如，以普通话为例，有些人对n和l、zh和z等声母发不清楚，有些人对in和ing、un和ong等前鼻音、后鼻音发不清楚，不标准的发音经常不能被智能终端所识别。

在本实施例中，终端可以对用户的语音信息中的第一模糊发音进行识别。在一种可选的实施例中，可以根据一些预设词句来获取第一模糊发音，例如，预设词句包括“niulai”、“gong jv”、“du du”、“fo che”等，当终端识别出用户的语音信息中包含这些发音时，获取这些第一模糊发音。预设词句可以采用统计的方式收集大量的用户语音，从中统计出比较容易出错的一些词句，建立模糊语音库，将统计出的容易出错的词语的模糊发音保存在模糊语音库中，终端将用户的语音信息的词句与模糊语音库中的词句进行比对，识别出第一模糊发音。

在另一种可选的实施例中，可以建立标准语音库，用于存储标准发音。将获取的用户语音信息与标准语音库中的标准语音进行匹配，无法正确匹配的语音认为是第一模糊发音。

在一种可选的实施例中，在获取到用户的语音信息之后，可以对语音信息进行关键词拆解，针对每一个拆解得到的关键词进行匹配。比如，与模糊发音库中模糊发音进行匹配，如果有关键词匹配成功，则该关键词作为第一模糊发音；或者，与标准发音库中的标准发音进行匹配，如果匹配失败，则该关键词作为第一模糊发音。

在步骤S12中，根据预设模糊发音与预设标准发音之间的对应关系，将第一模糊发音转换为对应的标准发音。

在本实施例中，可以通过统计的方式预先建立预设模糊发音与预设标准发音之间的对应关系，例如，可以让用户复述终端播放的标准发音，然后记录用户的模糊发音与标准发音之间的对应关系，或者，可以让用户A发音，用户B对用户A的不清楚的发音进行矫正，终端在用户A和B的交流过程中识别和统计用户的模糊发音与标准发音之间的对应关系，又或者，还可以预先统计大量用户的一些不清楚的发音，然后建立适合大众的模糊发音与标准发音之间的对应关系的数据库。

在本实施例中，终端自动识别用户的语音信息的中的第一模糊发音，将第一模糊发音转换为标准发音，以故事机为例，用户的语音信息中包括“白雪公举”，故事机自动识别出“公举”为模糊发音，根据模糊发音与标准发音之间的对应关系将“公举”转换为“公主”。

在步骤S13中，控制语音交互终端根据转换后的标准发音与用户进行语音交互。

在本实施例中，语音交互终端中可以保存预设模糊发音与预设标准发音之间的对应关系，当语音交互终端获取第一模糊发音之后，将第一模糊发音转换为标准发音，根据转换后的标准发音与所述用户进行语音交互。例如，故事机发出：“小主人你想听什么故事？”，儿童说：“我想听‘白雪公举’”，故事机识别出“公举”为模糊发音，将“公举”转换为“公主，”，然后，故事机发出：“好的，白雪公主的故事来了”。

或者，由第三方控制终端保存预设模糊发音与预设标准发音之间的对应关系，第三方控制终端通过语音交互终端获取第一模糊发音之后，将第一模糊发音转换为标准发音，向语音交互终端发送包括标准发音的指令信息，语音交互终端根据该指令信息与用户交互。例如，故事机发出：“小主人你想听什么故事？”，儿童说：“我想听‘白雪公举’”，与故事机连接的计算机识别出“公举”为模糊发音，将“公举”转换为“公主”，然后，向故事机发送包括“公主”的指令信息，故事机根据该指令信息发出：“好的，白雪公主的故事来了”。

本公开实施例提供的语音交互方法，获取用户的语音信息中的第一模糊发音，根据预设模糊发音与预设标准发音之间的对应关系，将第一模糊发音转换为对应的标准发音，控制语音交互终端根据转换后的标准发音与用户进行语音交互，终端能够识别用户的模糊发音并进行智能补偿，获取标准发音，从而为用户提供更加准确的信息，提高人机语音交互的体验。

图2是根据另一示例性实施例示出的一种语音交互方法的流程图，该方法涉及的主要是将语音交互方法应用在与目标身份的用户进行语音交互的场景中，在图1所示实施例的基础上，如图2所示，步骤S11“获取用户的语音信息中的第一模糊发音”的一种可能实现方式可以包括以下步骤：

在步骤S21中，获取语音信息中携带的用户声纹，并根据用户声纹确定用户的身份。

在本实施例中，人的发生器官主要包括声带、软颚、舌头、牙齿、唇等，发声共鸣器包括咽腔、口腔、鼻腔。因为不同人的发声器官存在着大小、形态及功能上的差异，而这些微小差异导致了发声气流的改变，于是造成了不同人的音质、音色的差别。而声纹是一种用电声学仪器显示的携带言语信息的声波频谱，声纹不仅具有特定性，而且有相对稳定性的特点，所以通过对声纹的记忆和识别，能够识别发出声音的人的具体身份。

在本实施例中，可以获取语音信息中携带的用户声纹，并根据用户声纹确定用户的身份。例如，可以预先建立声纹库，存储不同用户的声纹，再将从语音信息中获取到的用户声纹与声纹库中的声纹进行匹配，从而确定用户的具体身份。

在步骤S22中，若用户的身份为目标身份，则获取用户的语音信息中的第一模糊发音。

优选的，目标身份可以为儿童、语言障碍人群、超过一定年龄的老人等。

在本实施例中，若根据声纹确定该用户为目标身份，则开始获取用户的语音信息中的第一模糊发音。例如，若该目标身份为儿童，当家长与儿童同时与故事机交流时，故事机仅在判断该语音信息为儿童的语音时，才会识别和获取不清楚的发音，若该语音信息为家长的语音，则不会识别不清楚的发音，由于成人通常发音比较清楚，仅对儿童的语音进行识别，可以提高人机语音交互的时效性。

本公开实施例提供的语音交互方法，获取语音信息中携带的用户声纹，并根据用户声纹确定用户的身份，若用户的身份为目标身份，则获取用户的语音信息中的第一模糊发音，由于声纹不仅具有特定性，而且有相对稳定性的特点，有助于准确判断发出声音的人的具体身份，而且，仅在用户的身份为目标身份的场景下获取用户的语音信息中的第一模糊发音，可以提高人机语音交互的时效性。

图3是根据另一示例性实施例示出的一种语音交互方法的流程图，本实施例主要涉及的是根据声纹识别用户身份的方法，在图2所示实施例的基础上，如图3所示，步骤“根据用户声纹确定用户的身份”的一种可能的实现方式可以包括以下步骤：

在步骤S31中，获取用户声纹与预存声纹之间的相似度。

在本实施例中，可以对获取到的用户声纹与预存声纹进行相似处理，获取相似度。预存声纹可以包括多个声纹，可以将用户声纹与每个声纹进行相似处理，获取多个相似度，将最大的相似度作为用户声纹与预存声纹之间的相似度。

在步骤S31中，若相似度大于预设阈值，则用户的身份为预存声纹所对应的预存身份。

其中，预设阈值可以根据实际情况来确定，例如，预设阈值设置为80％、85％、90％等。

在本实施例中，每个预存声纹均对应一个预存身份，例如，第一预存声纹对应的预存身份为儿童，第二预存声纹对应的预存身份为语言障碍人群，则分别获取用户声纹与第一预存声纹和第二预存声纹之间的相似度，其中，用户声纹与第一预存声纹之间的相似度为90％，用户声纹与第二预存声纹之间的相似度为20％，则该用户的身份为儿童。

本公开实施例提供的语音交互方法，获取用户声纹与预存声纹之间的相似度，若相似度大于预设阈值，则用户的身份为预存声纹所对应的预存身份，可以根据用户声纹快速、精确的识别用户身份，提高语音交互的速度。

图4是根据另一示例性实施例示出的一种语音交互方法的流程图，在图3所示实施例的基础上，在目标身份为儿童身份的情况下，在获取用户声纹与预存声纹之间的相似度之前，还方法还包括以下步骤：

在步骤S41中，输出第一提示信息，第一提示信息用于提示家长引导儿童发出目标语音。

在本实施例中，以普通话为标准语，城乡的绝大部分幼儿都能基本发清普通话中的韵母，而对声母的发音正确率稍低；或者，大多数3岁的幼儿可以发清声母，一部分幼儿发声母的错误主要集中在zh、ch、sh、z、c、s等辅音上，研究者认为3岁的幼儿发辅音错误较多，主要是因为其生理上发育不够成熟，不善于掌握发音部位与方法，故发辅音时分化不明显，常介于两个语音之间，如混淆zh和z、ch和c、sh和s等。常见的错误比如牛奶念作“niu lai”、公主念作“gong jv”、姑姑念作“du du”、火车念作“fo che”、语气词“了”念作“ne”等。同理，这种发音不清楚的场景适应于英语等其他语言，比如在英语中儿童更倾向于用发音位置相同的塞音(stops)来代替擦音(fricatives)，比[d]代替[z]等，[t]代替[s]等。

在本实施例中，当目标身份为儿童身份，需要采集儿童声纹时，输出第一提示信息，提示家长引导儿童发出目标语音，例如，家长引导儿童与故事机交流，自我介绍、唱歌、念书等，家长还可以在儿童发音不准确时进行纠正。

在步骤S42中，在儿童发出目标语音的情况下，采集目标语音中携带的儿童声纹，记录儿童声纹与儿童身份之间的对应关系，其中，预存声纹包括儿童声纹，预存身份包括儿童身份。

在本实施例中，可以是在语音交互故事机初次使用时请家长引导孩子与故事机进行自我介绍等交流，使故事机采集家庭中儿童的声纹，记录儿童声纹与儿童身份之间的对应关系，这样可以将儿童的语音指令与其他家庭成员的指令作区分识别。。

本公开实施例提供的语音交互方法，输出第一提示信息，提示家长引导儿童发出目标语音，在儿童发出目标语音的情况下，采集目标语音中携带的儿童声纹，记录儿童声纹与儿童身份之间的对应关系，可以简单快速的区分儿童与成人，若用户为儿童，则需要识别语音信息中的模糊发音。

图5是根据另一示例性实施例示出的一种语音交互方法的流程图，该方法主要涉及的是一种建立预设模糊发音与预设标准发音之间的对应关系的方法，如图5所示，该方法还包括以下步骤：

在步骤S51中，输出第二提示信息，第二提示信息用于提示用户复述语音交互终端播放的预设标准发音。

在本实施例中，终端可以提醒用户复述语音交互终端播放的预设标准发音，例如，请家长引导儿童复述故事机给出的词语或者句子，并在儿童发音不准确时进行纠正。

在步骤S52中，在用户复述语音交互终端播放的预设标准发音时，采集并识别预设模糊发音。

在本实施例中，在用户复述预设标准发音时，终端根据预设标准发音自动识别用户发音中的预设模糊发音。

在步骤S53中，建立预设模糊发音与预设标准发音之间的对应关系。

在本实施例中，终端可以根据终端播放的预设标准发音和识别的预设模糊发音建立模糊发音与标准发音之间的对应关系。例如，故事机通过对儿童特定字句发音的采集和识别，建立儿童发音与标准发音的对应关系，比如牛奶＝“niu lai”、公主＝“gong jv”等，并将此对应关系进行存储。

本公开实施例提供的语音交互方法，输出第二提示信息，提示用户复述语音交互终端播放的预设标准发音，在用户复述终语音交互端播放的预设标准发音时，采集并识别预设模糊发音，建立预设模糊发音与预设标准发音之间的对应关系，采用该方法可以简单的获取预设模糊发音与预设标准发音之间的对应关系，而且，在以家庭为单位的小范围内，模糊发音与标准发音之间的对应关系的准确度比较高。

图6是根据再一示例性实施例示出的一种语音交互方法的流程图，该方法主要涉及的是一种校验预设模糊发音与预设标准发音之间的对应关系的方法，如图6所示，该方法还包括以下步骤：

在步骤S61中，在用户与语音交互终端交流时，获取用户的第二模糊发音和第二模糊发音对应的矫正发音。

在本实施例中，在用户与终端进行交流时，可以由一个用户矫正另一个用户的矫正发音，从而获取用户的第二模糊发音和第二模糊发音对应的矫正发音，例如，家长引导儿童与故事机进行交流的过程中，对于儿童错误的发音，家长可以进行矫正，故事机可以根据声纹识别儿童的发音和家长的发音，然后再识别出儿童的模糊发音和家长的矫正发音。

在步骤S62中，根据第二模糊发音和第二模糊发音对应的矫正发音校验对应关系的准确度。

在本实施例中，矫正发音即为标准发音，可以根据第二模糊发音和第二模糊发音对应的矫正发音验证预设模糊发音与预设标准发音之间的对应关系的准确度，对于准确度较低的对应关系进行纠正，保证预设模糊发音与预设标准发音之间的对应关系的准确性。

本公开实施例提供的语音交互方法，在用户与语音交互终端交流时，获取用户的第二模糊发音和第二模糊发音对应的矫正发音，根据第二模糊发音和第二模糊发音对应的矫正发音校验对应关系的准确度，保证语音交互的准确性，提高人机交互体验。

图7是根据再一示例性实施例示出的一种语音交互方法的流程图，该方法主要涉及的是一种更新预设模糊发音与预设标准发音之间的对应关系的方法，如图7所示，该方法还包括以下步骤：

在步骤S71中，在语音交互终端待机时，在预设的关键词范围内识别用户的第三模糊发音和第三模糊发音对应的矫正发音。

在本实施例中，终端待机时，还可以采集用户的语音，识别其中的第三模糊发音和第三模糊发音对应的矫正发音，例如，同样依赖于对儿童声纹数据的记忆，故事机在待机状态下可以持续识别儿童和非儿童的声音数据，在特定的关键词内识别家长的矫正发音以及儿童的模糊发音，不断更新预设模糊发音与预设标准发音之间的对应关系。

在步骤S72中，根据第三模糊发音和第三模糊发音对应的矫正发音更新对应关系。

在本实施例中，矫正发音为标准发音，可以根据第三模糊发音和第三模糊发音对应的矫正发音对预设模糊发音与预设标准发音之间的对应关系进行更新，将其中不正确的对应关系进行修改，将新建立的模糊发音与标准发音之间的对应关系进行存储。

本公开实施例提供的语音交互方法，在语音交互终端待机时，在预设的关键词范围内识别用户的第三模糊发音和第三模糊发音对应的矫正发音，根据第三模糊发音和第三模糊发音对应的矫正发音更新预设模糊发音与预设标准发音之间的对应关系，不断提升预设模糊发音与预设标准发音之间的对应关系的准确度和内容，提高人机交互的可靠性，还可提高终端的利用率。

图8是根据再一示例性实施例示出的一种语音交互方法的流程图，该方法主要涉及的是一种根据模糊发音错误信息向用户推送矫正方案的方法，如图8所示，该方法还包括以下步骤：

在步骤S81中，建立模糊发音数据库。

在本实施例中，终端可以通过机器学习方式不断的收集用户的模糊发音，建立模糊发音数据库。

在步骤S82中，对模糊发音数据库中的语音数据进行分析，获取模糊发音错误信息，模糊发音错误信息包括用户发音不清的字母，也即上述的模糊发音。

在本实施例中，终端可以采用一些算法对模糊发音数据库中的语音数据进行分析，获得用户容易发声错误的原因，例如，故事机在不断地的学习中会对儿童的发音问题建立比较全的数据库，并且通过计算可以更加理论化的提出儿童发音错误的根源，比如“公主”和“gong jv”，故事机可以由此分析出孩子是对哪类辅音发音错误。

在步骤S83中，根据模糊发音错误信息向用户推送矫正方案。

在本实施例中，终端可以根据模糊发音错误信息指定一定的矫正方案，并将该矫正方案推送给用户，以使用户进行有针对性的矫正训练，而不是每次出现错误发音时进行单独的纠正。

本公开实施例提供的语音交互方法，建立模糊发音数据库，对模糊发音数据库中的语音数据进行分析，获取模糊发音错误信息，根据模糊发音错误信息向用户推送矫正方案，以使用户进行有针对性的矫正训练，而不是每次出现错误发音时进行单独的纠正，从而帮助用户快速解决发音不清楚的问题。

图9是根据一示例性实施例示出的一种语音交互装置的框图，如图9所示，该装置包括：

第一获取模块11被配置为获取用户的语音信息中的第一模糊发音；

转换模块12被配置为根据预设模糊发音与预设标准发音之间的对应关系，将第一模糊发音转换为对应的标准发音；

交互模块13被配置为控制语音交互终端根据转换后的标准发音与用户进行语音交互。

图10是根据另一示例性实施例示出的一种语音交互装置的框图，在图9所示实施例的基础上，如图10所示，第一获取模块11包括：

确定子模块111配置为获取语音信息中携带的用户声纹，并根据用户声纹确定用户的身份；

第一获取子模块112被配置为若用户的身份为目标身份，则获取用户的语音信息中的第一模糊发音。

可选地，如图10所示，确定子模块111包括：

第二获取子模块1111被配置为获取所述用户声纹与预存声纹之间的相似度；若所述相似度大于预设阈值，则确定所述用户的身份为所述预存声纹所对应的预存身份。

可选地，如图10所示，在所述目标身份为儿童身份的情况下，该装置还包括：

第一输出模块14被配置为输出第一提示信息，第一提示信息用于提示家长引导儿童发出目标语音；

第一采集模块15被配置为在儿童发出所述目标语音的情况下，采集所述目标语音中携带的儿童声纹，记录所述儿童声纹与儿童身份之间的对应关系，其中，所述预存声纹包括所述儿童声纹，所述预存身份包括所述儿童身份。

图11是根据另一示例性实施例示出的一种语音交互装置的框图，在图9或图10实施例的基础上，该装置还包括：

第二输出模块16被配置为输出第二提示信息，第二提示信息用于提示用户复述语音交互终端播放的预设标准发音；

第二采集模块17被配置为在用户复述语音交互终端播放的标准发音时，采集并识别预设模糊发音；

第一建立模块18被配置为建立预设模糊发音与预设标准发音之间的对应关系。

图12是根据另一示例性实施例示出的一种语音交互装置的框图，在图9或图10实施例的基础上，该装置还包括：

第二获取模块19被配置为在所述用户与语音交互终端交流时，获取所述用户的第二模糊发音和所述第二模糊发音对应的矫正发音；

校验模块20被配置为根据所述第二模糊发音和所述第二模糊发音对应的矫正发音校验所述对应关系的准确度。

图13是根据另一示例性实施例示出的一种语音交互装置的框图，在图9或图10实施例的基础上，该装置还包括：

识别模块21被配置为在所述语音交互终端待机时，在预设的关键词范围内识别所述用户的第三模糊发音和所述第三模糊发音对应的矫正发音；

更新模块22被配置为根据所述第三模糊发音和所述第三模糊发音对应的矫正发音更新所述对应关系。

图14是根据另一示例性实施例示出的一种语音交互装置的框图，在图9或图10实施例的基础上，如图14所示，该装置还包括：

第二建立模块23被配置为建立模糊发音数据库；

分析模块24被配置为对模糊发音数据库中的语音数据进行分析，获取模糊发音错误信息，模糊发音错误信息包括用户发音不清的字母；

推送模块25被配置为根据模糊发音错误信息向用户推送矫正方案。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图15是根据再一示例性实施例示出的一种语音交互装置的框图，如图15所示，该终端设备包括：

处理器31；

用于存储处理器31可执行指令的存储器32；

其中，所述处理器32被配置为执行图1-图8任一实施例所述的方法。

本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现图1-图8任一实施例所示方法的步骤。

本公开实施例还提供了一种语音交互终端，包括上述任一种语音交互装置。

图16是根据一示例性实施例示出的一种用于语音交互方法的装置的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理，语音交互终端等。

参照图16，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行上述任一种语音交互方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求书指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

Claims

1.一种语音交互方法，其特征在于，包括：

获取用户的语音信息中的第一模糊发音；

控制语音交互终端根据转换后的标准发音与所述用户进行语音交互；

所述方法还包括：

2.根据权利要求1所述的方法，其特征在于，所述获取用户的语音信息中的第一模糊发音，包括：

3.根据所述权利要求2所述的方法，其特征在于，所述根据所述用户声纹确定所述用户的身份，包括：

获取所述用户声纹与预存声纹之间的相似度；

4.根据权利要求3所述的方法，其特征在于，在所述目标身份为儿童身份的情况下，在获取所述用户声纹与预存声纹之间的相似度之前，所述方法还包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

7.一种语音交互装置，其特征在于，包括：

交互模块，被配置为控制语音交互终端根据转换后的标准发音与所述用户进行语音交互；

所述装置还包括：

8.一种语音交互装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6任一项所述方法的步骤。