CN112489636A - 一种智能语音播报助手选择方法和系统 - Google Patents
一种智能语音播报助手选择方法和系统 Download PDFInfo
- Publication number
- CN112489636A CN112489636A CN202011102660.2A CN202011102660A CN112489636A CN 112489636 A CN112489636 A CN 112489636A CN 202011102660 A CN202011102660 A CN 202011102660A CN 112489636 A CN112489636 A CN 112489636A
- Authority
- CN
- China
- Prior art keywords
- voice
- assistant
- user
- module
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims description 13
- 230000001629 suppression Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 230000015654 memory Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/686—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种智能语音播报助手选择方法和系统,涉及语音播报的技术领域,旨在解决现有技术中,没有能针对不同年龄段的用户采用播报助手进行对话的方案,在用户体验上会稍显薄弱的问题。其技术方案要点是采集用户语音;利用神经网络按照性别和年龄对用户进行分类,获得用户语音对应的分类标签;基于大数据统计的方法分析不同分类标签对应人群对不同语音助手的喜好程度,根据统计结果使用适用于当前分类标签的语音助手进行播报。本发明达到了根据大数据统计方式预测不同用户对应喜好的语音助手,提高用户体验。
Description
技术领域
本发明涉及语音播报的技术领域,尤其是涉及一种智能语音播报助手选择方法和系统。
背景技术
近年来,随着语音合成技术的突飞猛进,各种各样的语音播报助手也随之出现,解决了很多从文本到语音转化的问题。
而随着各种语音播报助手的普及,用户的群体也随之扩展,从一开始的用户大多集中在二三十岁的年轻人,到现在基本上各个年龄段的人都有一部分用户群体,而现在的语音播报助手播放的音色较为单一,没有能针对不同年龄段、不同性别的用户采用不同的播报助手进行对话的方案。因此,在用户体验上会稍显薄弱。
发明内容
本发明的目的是提供一种智能语音播报助手选择方法和系统,通过大数据学习的方式,对用户进行分类,分类标准如不同年龄段、不同性别,然后针对不同类别的用户,从库中采用不同的语音助手进行播报,显著提高用户体验。
本发明的上述发明目的一是通过以下技术方案得以实现的:
一种智能语音播报助手选择方法,包括以下步骤:
采集用户语音;
利用神经网络按照性别和年龄对用户进行分类,获得用户语音对应的分类标签;
基于大数据统计的方法分析不同分类标签对应人群对不同语音助手的喜好程度,根据统计结果使用适用于当前分类标签的语音助手进行播报。
本发明进一步设置为:不同所述语音助手的区别包括有音色和虚拟形象。
本发明进一步设置为:所述采集用户语音包括以下步骤:
利用麦克风阵列获取包含有用户语音的音频;
对所述音频进行预处理,预处理方法包括有噪声抑制、回声消除、语音增强。
本发明进一步设置为:所述分类标签包括有儿童男、儿童女、青年男、青年女、老年男、老年女。
本发明的上述发明目的二是通过以下技术方案得以实现的:
一种智能语音播报助手选择系统,包括有语音采集模块、用户分类模块、语音助手选择模块;
所述用户分类模块用于利用神经网络按照性别和年龄对用户进行分类,获得用户语音对应的分类标签;
所述语音助手选择模块用于基于大数据统计的方法分析不同分类标签对应人群对不同语音助手的喜好程度,根据统计结果使用适用于当前分类标签的语音助手进行播报。
本发明进一步设置为:所述语音助手选择模块包括有音色选择模块和虚拟形象选择模块,所述音色选择模块与虚拟形象选择模块之间存在映射关系。
本发明进一步设置为:所述语音采集模块包括有麦克风阵列和预处理模块,所述麦克风阵列获取包含有用户语音的音频,所述预处理模块对音频进行预处理,预处理方法包括有噪声抑制、回声消除、语音增强。
本发明进一步设置为:所述分类标签包括有儿童男、儿童女、青年男、青年女、老年男、老年女。
综上所述,本发明的有益技术效果为:
利用神经网络获取用户的分类标签,得到用户的基本画像,根据大数据统计方式预测不同用户对应喜好的语音助手并推动合适的语音助手,提高用户体验。
附图说明
图1是本发明实施例一的整体流程图;
图2是本发明实施例二的整体结构示意图。
具体实施方式
实施例一
本发明公开了一种智能语音播报助手选择方法,参照图1,包括以下步骤:
S1、采集用户语音。具体地,通过录音设备,如麦克风阵列,对用户的语音进行采集,并通过噪声抑制、回声消除、语音增强等处理提高采集的音频质量。
S2、利用神经网络按照性别和年龄对用户进行分类,获得用户语音对应的分类标签;
S3、基于大数据统计的方法分析不同分类标签对应人群对不同语音助手的喜好程度,根据统计结果使用适用于当前分类标签的语音助手进行播报。不同语音助手的区别包括有音色和虚拟形象,通过系统喇叭播放选定音色的语音,在带屏设备上显示选定的虚拟形象。
步骤S2包括以下步骤:
S2.1、将采集到的音频文件按照儿童男、儿童女、青年男、青年女、老年男、老年女六个标签进行分类,得到带分类标签的数据集;
S2.2、将带分类标签的数据集按照0.8:0.2的比例分为训练数据集和测试数据集,将训练数据集作为长短期记忆网络(LSTM,Long Short-Term Memory)的输入参数。LSTM网络能够将信息按照时序存储在存储器单元中,并且可以学习与分类任务相关的上下文信息。为了控制信息的流动,在LSTM神经网络的内部节点中专门设计了记忆单元(memorycell),并通过门结构来控制信息的删除或增加。门是一种对信息进行选择通过的方法,LSTM神经网络的节点中有输入门(input gate)、遗忘门(forget gate)和输出门(outputgate)三种门结构来保护和控制节点的状态。
实施例二
参照图2,本发明公开了一种智能语音播报助手选择系统,包括有语音采集模块、用户分类模块、语音助手选择模块。
其中,用户分类模块用于利用神经网络按照性别和年龄对用户进行分类,获得用户语音对应的分类标签,分类标签包括有儿童男、儿童女、青年男、青年女、老年男、老年女。
语音助手选择模块用于基于大数据统计的方法分析不同分类标签对应人群对不同语音助手的喜好程度,根据统计结果使用适用于当前分类标签的语音助手进行播报。
语音助手选择模块包括有音色选择模块和虚拟形象选择模块,音色选择模块与虚拟形象选择模块之间存在映射关系。例如,男生的虚拟形象与男生的音色映射,老人的虚拟形象与老人的音色映射,该种映射关系为多与多之间的映射。
在本实施例中,语音采集模块包括有麦克风阵列和预处理模块,麦克风阵列获取包含有用户语音的音频,预处理模块对音频进行预处理,预处理方法包括有噪声抑制、回声消除、语音增强。
本具体实施方式的实施例均为本发明的较佳实施例,并非依此限制本发明的保护范围,故:凡依本发明的结构、形状、原理所做的等效变化,均应涵盖于本发明的保护范围之内。
Claims (8)
1.一种智能语音播报助手选择方法,其特征在于,包括以下步骤:
采集用户语音;
利用神经网络按照性别和年龄对用户进行分类,获得用户语音对应的分类标签;
基于大数据统计的方法分析不同分类标签对应人群对不同语音助手的喜好程度,根据统计结果使用适用于当前分类标签的语音助手进行播报。
2.根据权利要求1所述的一种智能语音播报助手选择方法,其特征在于:不同所述语音助手的区别包括有音色和虚拟形象。
3.根据权利要求2所述的一种智能语音播报助手选择方法,其特征在于,所述采集用户语音包括以下步骤:
利用麦克风阵列获取包含有用户语音的音频;
对所述音频进行预处理,预处理方法包括有噪声抑制、回声消除、语音增强。
4.根据权利要求3所述的一种智能语音播报助手选择方法,其特征在于:所述分类标签包括有儿童男、儿童女、青年男、青年女、老年男、老年女。
5.一种智能语音播报助手选择系统,其特征在于:包括有语音采集模块、用户分类模块、语音助手选择模块;
所述用户分类模块用于利用神经网络按照性别和年龄对用户进行分类,获得用户语音对应的分类标签;
所述语音助手选择模块用于基于大数据统计的方法分析不同分类标签对应人群对不同语音助手的喜好程度,根据统计结果使用适用于当前分类标签的语音助手进行播报。
6.根据权利要求5所述的一种智能语音播报助手选择系统,其特征在于:所述语音助手选择模块包括有音色选择模块和虚拟形象选择模块,所述音色选择模块与虚拟形象选择模块之间存在映射关系。
7.根据权利要求6所述的一种智能语音播报助手选择系统,其特征在于:所述语音采集模块包括有麦克风阵列和预处理模块,所述麦克风阵列获取包含有用户语音的音频,所述预处理模块对音频进行预处理,预处理方法包括有噪声抑制、回声消除、语音增强。
8.根据权利要求7所述的一种智能语音播报助手选择系统,其特征在于:所述分类标签包括有儿童男、儿童女、青年男、青年女、老年男、老年女。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011102660.2A CN112489636A (zh) | 2020-10-15 | 2020-10-15 | 一种智能语音播报助手选择方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011102660.2A CN112489636A (zh) | 2020-10-15 | 2020-10-15 | 一种智能语音播报助手选择方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112489636A true CN112489636A (zh) | 2021-03-12 |
Family
ID=74926638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011102660.2A Pending CN112489636A (zh) | 2020-10-15 | 2020-10-15 | 一种智能语音播报助手选择方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112489636A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113035203A (zh) * | 2021-03-26 | 2021-06-25 | 合肥美菱物联科技有限公司 | 一种动态变换语音应答风格的控制方法 |
CN113763046A (zh) * | 2021-09-07 | 2021-12-07 | 四川易海天科技有限公司 | 一种基于大数据分析的移动互联网车载智能投放系统 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103236259A (zh) * | 2013-03-22 | 2013-08-07 | 乐金电子研发中心(上海)有限公司 | 语音识别处理及反馈系统、语音回复方法 |
US20140379421A1 (en) * | 2013-06-25 | 2014-12-25 | The Nielsen Company (Us), Llc | Methods and apparatus to characterize households with media meter data |
CN105047193A (zh) * | 2015-08-27 | 2015-11-11 | 百度在线网络技术(北京)有限公司 | 语音播报方法和装置 |
CN105184201A (zh) * | 2015-10-29 | 2015-12-23 | 陕西科技大学 | 一种基于rfid技术的儿童早教互动学习机及其学习方法 |
CN106128478A (zh) * | 2016-06-28 | 2016-11-16 | 北京小米移动软件有限公司 | 语音播报方法及装置 |
CN107071710A (zh) * | 2017-04-10 | 2017-08-18 | 胡渐佳 | 基于用户识别的进出门语音智能播放系统 |
CN107452400A (zh) * | 2017-07-24 | 2017-12-08 | 珠海市魅族科技有限公司 | 语音播报方法及装置、计算机装置和计算机可读存储介质 |
CN107507620A (zh) * | 2017-09-25 | 2017-12-22 | 广东小天才科技有限公司 | 一种语音播报声音设置方法、装置、移动终端及存储介质 |
CN109817217A (zh) * | 2019-01-17 | 2019-05-28 | 深圳壹账通智能科技有限公司 | 基于语音识别的自助贩卖方法、装置、设备及介质 |
KR20190085272A (ko) * | 2018-01-10 | 2019-07-18 | (주)트리포스 | MQtt 프로토콜을 통한 Json 포맷 방식 지원의 오픈 API 시스템 및 방법 |
CN110619889A (zh) * | 2019-09-19 | 2019-12-27 | Oppo广东移动通信有限公司 | 体征数据识别方法、装置、电子设备和存储介质 |
CN110675302A (zh) * | 2019-11-14 | 2020-01-10 | 湖南意度展览服务有限公司 | 一种基于云计算的展馆智能导览系统 |
CN111739516A (zh) * | 2020-06-19 | 2020-10-02 | 中国—东盟信息港股份有限公司 | 一种针对智能客服通话的语音识别系统 |
-
2020
- 2020-10-15 CN CN202011102660.2A patent/CN112489636A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103236259A (zh) * | 2013-03-22 | 2013-08-07 | 乐金电子研发中心(上海)有限公司 | 语音识别处理及反馈系统、语音回复方法 |
US20140379421A1 (en) * | 2013-06-25 | 2014-12-25 | The Nielsen Company (Us), Llc | Methods and apparatus to characterize households with media meter data |
CN105047193A (zh) * | 2015-08-27 | 2015-11-11 | 百度在线网络技术(北京)有限公司 | 语音播报方法和装置 |
CN105184201A (zh) * | 2015-10-29 | 2015-12-23 | 陕西科技大学 | 一种基于rfid技术的儿童早教互动学习机及其学习方法 |
CN106128478A (zh) * | 2016-06-28 | 2016-11-16 | 北京小米移动软件有限公司 | 语音播报方法及装置 |
CN107071710A (zh) * | 2017-04-10 | 2017-08-18 | 胡渐佳 | 基于用户识别的进出门语音智能播放系统 |
CN107452400A (zh) * | 2017-07-24 | 2017-12-08 | 珠海市魅族科技有限公司 | 语音播报方法及装置、计算机装置和计算机可读存储介质 |
CN107507620A (zh) * | 2017-09-25 | 2017-12-22 | 广东小天才科技有限公司 | 一种语音播报声音设置方法、装置、移动终端及存储介质 |
KR20190085272A (ko) * | 2018-01-10 | 2019-07-18 | (주)트리포스 | MQtt 프로토콜을 통한 Json 포맷 방식 지원의 오픈 API 시스템 및 방법 |
CN109817217A (zh) * | 2019-01-17 | 2019-05-28 | 深圳壹账通智能科技有限公司 | 基于语音识别的自助贩卖方法、装置、设备及介质 |
CN110619889A (zh) * | 2019-09-19 | 2019-12-27 | Oppo广东移动通信有限公司 | 体征数据识别方法、装置、电子设备和存储介质 |
CN110675302A (zh) * | 2019-11-14 | 2020-01-10 | 湖南意度展览服务有限公司 | 一种基于云计算的展馆智能导览系统 |
CN111739516A (zh) * | 2020-06-19 | 2020-10-02 | 中国—东盟信息港股份有限公司 | 一种针对智能客服通话的语音识别系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113035203A (zh) * | 2021-03-26 | 2021-06-25 | 合肥美菱物联科技有限公司 | 一种动态变换语音应答风格的控制方法 |
CN113763046A (zh) * | 2021-09-07 | 2021-12-07 | 四川易海天科技有限公司 | 一种基于大数据分析的移动互联网车载智能投放系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110517689B (zh) | 一种语音数据处理方法、装置及存储介质 | |
CN110364146B (zh) | 语音识别方法、装置、语音识别设备及存储介质 | |
JP2020056982A (ja) | 音声評価方法、装置、機器及び読み取り可能な記憶媒体 | |
CN109189980A (zh) | 与用户进行语音交互的方法和电子设备 | |
CN107211062A (zh) | 虚拟声学空间中的音频回放调度 | |
CN116484318B (zh) | 一种演讲训练反馈方法、装置及存储介质 | |
CN110519636A (zh) | 语音信息播放方法、装置、计算机设备及存储介质 | |
CN111462733B (zh) | 多模态语音识别模型训练方法、装置、设备及存储介质 | |
CN107507620A (zh) | 一种语音播报声音设置方法、装置、移动终端及存储介质 | |
CN112489636A (zh) | 一种智能语音播报助手选择方法和系统 | |
CN111666831A (zh) | 一种基于解耦表示学习的说话人脸视频生成方法 | |
CN114121006A (zh) | 虚拟角色的形象输出方法、装置、设备以及存储介质 | |
Kong et al. | Acoustic scene generation with conditional SampleRNN | |
CN108153875B (zh) | 语料处理方法、装置、智能音箱和存储介质 | |
Godambe et al. | Speech data acquisition for voice based agricultural information retrieval | |
CN114882862A (zh) | 一种语音处理方法及相关设备 | |
CN113238654A (zh) | 基于多模态的反应式响应生成 | |
CN117313785A (zh) | 一种基于弱势人群的智能数字人交互方法、设备和介质 | |
CN112201262A (zh) | 一种声音处理方法及装置 | |
CN114582355B (zh) | 基于音视频融合的婴儿哭泣检测方法及装置 | |
CN113314096A (zh) | 语音合成方法、装置、设备和存储介质 | |
CN111460094A (zh) | 一种基于tts的音频拼接优化的方法及其装置 | |
CN114925206A (zh) | 人工智能体、语音信息识别方法、存储介质和程序产品 | |
Hou et al. | Cooperative scene-event modelling for acoustic scene classification | |
Feng et al. | Self-supervised audio-visual representation learning for in-the-wild videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |