CN112489636A

CN112489636A - 一种智能语音播报助手选择方法和系统

Info

Publication number: CN112489636A
Application number: CN202011102660.2A
Authority: CN
Inventors: 王玮蔚
Original assignee: Nanjing Skyworth Information Technology Research Institute Co ltd
Current assignee: Nanjing Skyworth Information Technology Research Institute Co ltd
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-03-12

Abstract

本发明公开了一种智能语音播报助手选择方法和系统，涉及语音播报的技术领域，旨在解决现有技术中，没有能针对不同年龄段的用户采用播报助手进行对话的方案，在用户体验上会稍显薄弱的问题。其技术方案要点是采集用户语音；利用神经网络按照性别和年龄对用户进行分类，获得用户语音对应的分类标签；基于大数据统计的方法分析不同分类标签对应人群对不同语音助手的喜好程度，根据统计结果使用适用于当前分类标签的语音助手进行播报。本发明达到了根据大数据统计方式预测不同用户对应喜好的语音助手，提高用户体验。

Description

一种智能语音播报助手选择方法和系统

技术领域

本发明涉及语音播报的技术领域，尤其是涉及一种智能语音播报助手选择方法和系统。

背景技术

近年来，随着语音合成技术的突飞猛进，各种各样的语音播报助手也随之出现，解决了很多从文本到语音转化的问题。

而随着各种语音播报助手的普及，用户的群体也随之扩展，从一开始的用户大多集中在二三十岁的年轻人，到现在基本上各个年龄段的人都有一部分用户群体，而现在的语音播报助手播放的音色较为单一，没有能针对不同年龄段、不同性别的用户采用不同的播报助手进行对话的方案。因此，在用户体验上会稍显薄弱。

发明内容

本发明的目的是提供一种智能语音播报助手选择方法和系统，通过大数据学习的方式，对用户进行分类，分类标准如不同年龄段、不同性别，然后针对不同类别的用户，从库中采用不同的语音助手进行播报，显著提高用户体验。

本发明的上述发明目的一是通过以下技术方案得以实现的：

一种智能语音播报助手选择方法，包括以下步骤：

采集用户语音；

利用神经网络按照性别和年龄对用户进行分类，获得用户语音对应的分类标签；

基于大数据统计的方法分析不同分类标签对应人群对不同语音助手的喜好程度，根据统计结果使用适用于当前分类标签的语音助手进行播报。

本发明进一步设置为：不同所述语音助手的区别包括有音色和虚拟形象。

本发明进一步设置为：所述采集用户语音包括以下步骤：

利用麦克风阵列获取包含有用户语音的音频；

对所述音频进行预处理，预处理方法包括有噪声抑制、回声消除、语音增强。

本发明进一步设置为：所述分类标签包括有儿童男、儿童女、青年男、青年女、老年男、老年女。

本发明的上述发明目的二是通过以下技术方案得以实现的：

一种智能语音播报助手选择系统，包括有语音采集模块、用户分类模块、语音助手选择模块；

所述用户分类模块用于利用神经网络按照性别和年龄对用户进行分类，获得用户语音对应的分类标签；

所述语音助手选择模块用于基于大数据统计的方法分析不同分类标签对应人群对不同语音助手的喜好程度，根据统计结果使用适用于当前分类标签的语音助手进行播报。

本发明进一步设置为：所述语音助手选择模块包括有音色选择模块和虚拟形象选择模块，所述音色选择模块与虚拟形象选择模块之间存在映射关系。

本发明进一步设置为：所述语音采集模块包括有麦克风阵列和预处理模块，所述麦克风阵列获取包含有用户语音的音频，所述预处理模块对音频进行预处理，预处理方法包括有噪声抑制、回声消除、语音增强。

综上所述，本发明的有益技术效果为：

利用神经网络获取用户的分类标签，得到用户的基本画像，根据大数据统计方式预测不同用户对应喜好的语音助手并推动合适的语音助手，提高用户体验。

附图说明

图1是本发明实施例一的整体流程图；

图2是本发明实施例二的整体结构示意图。

具体实施方式

实施例一

本发明公开了一种智能语音播报助手选择方法，参照图1，包括以下步骤：

S1、采集用户语音。具体地，通过录音设备，如麦克风阵列，对用户的语音进行采集，并通过噪声抑制、回声消除、语音增强等处理提高采集的音频质量。

S2、利用神经网络按照性别和年龄对用户进行分类，获得用户语音对应的分类标签；

S3、基于大数据统计的方法分析不同分类标签对应人群对不同语音助手的喜好程度，根据统计结果使用适用于当前分类标签的语音助手进行播报。不同语音助手的区别包括有音色和虚拟形象，通过系统喇叭播放选定音色的语音，在带屏设备上显示选定的虚拟形象。

步骤S2包括以下步骤：

S2.1、将采集到的音频文件按照儿童男、儿童女、青年男、青年女、老年男、老年女六个标签进行分类，得到带分类标签的数据集；

S2.2、将带分类标签的数据集按照0.8：0.2的比例分为训练数据集和测试数据集，将训练数据集作为长短期记忆网络(LSTM，Long Short-Term Memory)的输入参数。LSTM网络能够将信息按照时序存储在存储器单元中，并且可以学习与分类任务相关的上下文信息。为了控制信息的流动，在LSTM神经网络的内部节点中专门设计了记忆单元(memorycell)，并通过门结构来控制信息的删除或增加。门是一种对信息进行选择通过的方法，LSTM神经网络的节点中有输入门(input gate)、遗忘门(forget gate)和输出门(outputgate)三种门结构来保护和控制节点的状态。

实施例二

参照图2，本发明公开了一种智能语音播报助手选择系统，包括有语音采集模块、用户分类模块、语音助手选择模块。

其中，用户分类模块用于利用神经网络按照性别和年龄对用户进行分类，获得用户语音对应的分类标签，分类标签包括有儿童男、儿童女、青年男、青年女、老年男、老年女。

语音助手选择模块用于基于大数据统计的方法分析不同分类标签对应人群对不同语音助手的喜好程度，根据统计结果使用适用于当前分类标签的语音助手进行播报。

语音助手选择模块包括有音色选择模块和虚拟形象选择模块，音色选择模块与虚拟形象选择模块之间存在映射关系。例如，男生的虚拟形象与男生的音色映射，老人的虚拟形象与老人的音色映射，该种映射关系为多与多之间的映射。

在本实施例中，语音采集模块包括有麦克风阵列和预处理模块，麦克风阵列获取包含有用户语音的音频，预处理模块对音频进行预处理，预处理方法包括有噪声抑制、回声消除、语音增强。

本具体实施方式的实施例均为本发明的较佳实施例，并非依此限制本发明的保护范围，故：凡依本发明的结构、形状、原理所做的等效变化，均应涵盖于本发明的保护范围之内。

Claims

1.一种智能语音播报助手选择方法，其特征在于，包括以下步骤：

采集用户语音；

2.根据权利要求1所述的一种智能语音播报助手选择方法，其特征在于：不同所述语音助手的区别包括有音色和虚拟形象。

3.根据权利要求2所述的一种智能语音播报助手选择方法，其特征在于，所述采集用户语音包括以下步骤：

利用麦克风阵列获取包含有用户语音的音频；

4.根据权利要求3所述的一种智能语音播报助手选择方法，其特征在于：所述分类标签包括有儿童男、儿童女、青年男、青年女、老年男、老年女。

5.一种智能语音播报助手选择系统，其特征在于：包括有语音采集模块、用户分类模块、语音助手选择模块；

6.根据权利要求5所述的一种智能语音播报助手选择系统，其特征在于：所述语音助手选择模块包括有音色选择模块和虚拟形象选择模块，所述音色选择模块与虚拟形象选择模块之间存在映射关系。

7.根据权利要求6所述的一种智能语音播报助手选择系统，其特征在于：所述语音采集模块包括有麦克风阵列和预处理模块，所述麦克风阵列获取包含有用户语音的音频，所述预处理模块对音频进行预处理，预处理方法包括有噪声抑制、回声消除、语音增强。

8.根据权利要求7所述的一种智能语音播报助手选择系统，其特征在于：所述分类标签包括有儿童男、儿童女、青年男、青年女、老年男、老年女。