CN112489636A - 一种智能语音播报助手选择方法和系统 - Google Patents

一种智能语音播报助手选择方法和系统 Download PDF

Info

Publication number
CN112489636A
CN112489636A CN202011102660.2A CN202011102660A CN112489636A CN 112489636 A CN112489636 A CN 112489636A CN 202011102660 A CN202011102660 A CN 202011102660A CN 112489636 A CN112489636 A CN 112489636A
Authority
CN
China
Prior art keywords
voice
assistant
user
module
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011102660.2A
Other languages
English (en)
Inventor
王玮蔚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Skyworth Information Technology Research Institute Co ltd
Original Assignee
Nanjing Skyworth Information Technology Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Skyworth Information Technology Research Institute Co ltd filed Critical Nanjing Skyworth Information Technology Research Institute Co ltd
Priority to CN202011102660.2A priority Critical patent/CN112489636A/zh
Publication of CN112489636A publication Critical patent/CN112489636A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种智能语音播报助手选择方法和系统,涉及语音播报的技术领域,旨在解决现有技术中,没有能针对不同年龄段的用户采用播报助手进行对话的方案,在用户体验上会稍显薄弱的问题。其技术方案要点是采集用户语音;利用神经网络按照性别和年龄对用户进行分类,获得用户语音对应的分类标签;基于大数据统计的方法分析不同分类标签对应人群对不同语音助手的喜好程度,根据统计结果使用适用于当前分类标签的语音助手进行播报。本发明达到了根据大数据统计方式预测不同用户对应喜好的语音助手,提高用户体验。

Description

一种智能语音播报助手选择方法和系统
技术领域
本发明涉及语音播报的技术领域,尤其是涉及一种智能语音播报助手选择方法和系统。
背景技术
近年来,随着语音合成技术的突飞猛进,各种各样的语音播报助手也随之出现,解决了很多从文本到语音转化的问题。
而随着各种语音播报助手的普及,用户的群体也随之扩展,从一开始的用户大多集中在二三十岁的年轻人,到现在基本上各个年龄段的人都有一部分用户群体,而现在的语音播报助手播放的音色较为单一,没有能针对不同年龄段、不同性别的用户采用不同的播报助手进行对话的方案。因此,在用户体验上会稍显薄弱。
发明内容
本发明的目的是提供一种智能语音播报助手选择方法和系统,通过大数据学习的方式,对用户进行分类,分类标准如不同年龄段、不同性别,然后针对不同类别的用户,从库中采用不同的语音助手进行播报,显著提高用户体验。
本发明的上述发明目的一是通过以下技术方案得以实现的:
一种智能语音播报助手选择方法,包括以下步骤:
采集用户语音;
利用神经网络按照性别和年龄对用户进行分类,获得用户语音对应的分类标签;
基于大数据统计的方法分析不同分类标签对应人群对不同语音助手的喜好程度,根据统计结果使用适用于当前分类标签的语音助手进行播报。
本发明进一步设置为:不同所述语音助手的区别包括有音色和虚拟形象。
本发明进一步设置为:所述采集用户语音包括以下步骤:
利用麦克风阵列获取包含有用户语音的音频;
对所述音频进行预处理,预处理方法包括有噪声抑制、回声消除、语音增强。
本发明进一步设置为:所述分类标签包括有儿童男、儿童女、青年男、青年女、老年男、老年女。
本发明的上述发明目的二是通过以下技术方案得以实现的:
一种智能语音播报助手选择系统,包括有语音采集模块、用户分类模块、语音助手选择模块;
所述用户分类模块用于利用神经网络按照性别和年龄对用户进行分类,获得用户语音对应的分类标签;
所述语音助手选择模块用于基于大数据统计的方法分析不同分类标签对应人群对不同语音助手的喜好程度,根据统计结果使用适用于当前分类标签的语音助手进行播报。
本发明进一步设置为:所述语音助手选择模块包括有音色选择模块和虚拟形象选择模块,所述音色选择模块与虚拟形象选择模块之间存在映射关系。
本发明进一步设置为:所述语音采集模块包括有麦克风阵列和预处理模块,所述麦克风阵列获取包含有用户语音的音频,所述预处理模块对音频进行预处理,预处理方法包括有噪声抑制、回声消除、语音增强。
本发明进一步设置为:所述分类标签包括有儿童男、儿童女、青年男、青年女、老年男、老年女。
综上所述,本发明的有益技术效果为:
利用神经网络获取用户的分类标签,得到用户的基本画像,根据大数据统计方式预测不同用户对应喜好的语音助手并推动合适的语音助手,提高用户体验。
附图说明
图1是本发明实施例一的整体流程图;
图2是本发明实施例二的整体结构示意图。
具体实施方式
实施例一
本发明公开了一种智能语音播报助手选择方法,参照图1,包括以下步骤:
S1、采集用户语音。具体地,通过录音设备,如麦克风阵列,对用户的语音进行采集,并通过噪声抑制、回声消除、语音增强等处理提高采集的音频质量。
S2、利用神经网络按照性别和年龄对用户进行分类,获得用户语音对应的分类标签;
S3、基于大数据统计的方法分析不同分类标签对应人群对不同语音助手的喜好程度,根据统计结果使用适用于当前分类标签的语音助手进行播报。不同语音助手的区别包括有音色和虚拟形象,通过系统喇叭播放选定音色的语音,在带屏设备上显示选定的虚拟形象。
步骤S2包括以下步骤:
S2.1、将采集到的音频文件按照儿童男、儿童女、青年男、青年女、老年男、老年女六个标签进行分类,得到带分类标签的数据集;
S2.2、将带分类标签的数据集按照0.8:0.2的比例分为训练数据集和测试数据集,将训练数据集作为长短期记忆网络(LSTM,Long Short-Term Memory)的输入参数。LSTM网络能够将信息按照时序存储在存储器单元中,并且可以学习与分类任务相关的上下文信息。为了控制信息的流动,在LSTM神经网络的内部节点中专门设计了记忆单元(memorycell),并通过门结构来控制信息的删除或增加。门是一种对信息进行选择通过的方法,LSTM神经网络的节点中有输入门(input gate)、遗忘门(forget gate)和输出门(outputgate)三种门结构来保护和控制节点的状态。
实施例二
参照图2,本发明公开了一种智能语音播报助手选择系统,包括有语音采集模块、用户分类模块、语音助手选择模块。
其中,用户分类模块用于利用神经网络按照性别和年龄对用户进行分类,获得用户语音对应的分类标签,分类标签包括有儿童男、儿童女、青年男、青年女、老年男、老年女。
语音助手选择模块用于基于大数据统计的方法分析不同分类标签对应人群对不同语音助手的喜好程度,根据统计结果使用适用于当前分类标签的语音助手进行播报。
语音助手选择模块包括有音色选择模块和虚拟形象选择模块,音色选择模块与虚拟形象选择模块之间存在映射关系。例如,男生的虚拟形象与男生的音色映射,老人的虚拟形象与老人的音色映射,该种映射关系为多与多之间的映射。
在本实施例中,语音采集模块包括有麦克风阵列和预处理模块,麦克风阵列获取包含有用户语音的音频,预处理模块对音频进行预处理,预处理方法包括有噪声抑制、回声消除、语音增强。
本具体实施方式的实施例均为本发明的较佳实施例,并非依此限制本发明的保护范围,故:凡依本发明的结构、形状、原理所做的等效变化,均应涵盖于本发明的保护范围之内。

Claims (8)

1.一种智能语音播报助手选择方法,其特征在于,包括以下步骤:
采集用户语音;
利用神经网络按照性别和年龄对用户进行分类,获得用户语音对应的分类标签;
基于大数据统计的方法分析不同分类标签对应人群对不同语音助手的喜好程度,根据统计结果使用适用于当前分类标签的语音助手进行播报。
2.根据权利要求1所述的一种智能语音播报助手选择方法,其特征在于:不同所述语音助手的区别包括有音色和虚拟形象。
3.根据权利要求2所述的一种智能语音播报助手选择方法,其特征在于,所述采集用户语音包括以下步骤:
利用麦克风阵列获取包含有用户语音的音频;
对所述音频进行预处理,预处理方法包括有噪声抑制、回声消除、语音增强。
4.根据权利要求3所述的一种智能语音播报助手选择方法,其特征在于:所述分类标签包括有儿童男、儿童女、青年男、青年女、老年男、老年女。
5.一种智能语音播报助手选择系统,其特征在于:包括有语音采集模块、用户分类模块、语音助手选择模块;
所述用户分类模块用于利用神经网络按照性别和年龄对用户进行分类,获得用户语音对应的分类标签;
所述语音助手选择模块用于基于大数据统计的方法分析不同分类标签对应人群对不同语音助手的喜好程度,根据统计结果使用适用于当前分类标签的语音助手进行播报。
6.根据权利要求5所述的一种智能语音播报助手选择系统,其特征在于:所述语音助手选择模块包括有音色选择模块和虚拟形象选择模块,所述音色选择模块与虚拟形象选择模块之间存在映射关系。
7.根据权利要求6所述的一种智能语音播报助手选择系统,其特征在于:所述语音采集模块包括有麦克风阵列和预处理模块,所述麦克风阵列获取包含有用户语音的音频,所述预处理模块对音频进行预处理,预处理方法包括有噪声抑制、回声消除、语音增强。
8.根据权利要求7所述的一种智能语音播报助手选择系统,其特征在于:所述分类标签包括有儿童男、儿童女、青年男、青年女、老年男、老年女。
CN202011102660.2A 2020-10-15 2020-10-15 一种智能语音播报助手选择方法和系统 Pending CN112489636A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011102660.2A CN112489636A (zh) 2020-10-15 2020-10-15 一种智能语音播报助手选择方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011102660.2A CN112489636A (zh) 2020-10-15 2020-10-15 一种智能语音播报助手选择方法和系统

Publications (1)

Publication Number Publication Date
CN112489636A true CN112489636A (zh) 2021-03-12

Family

ID=74926638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011102660.2A Pending CN112489636A (zh) 2020-10-15 2020-10-15 一种智能语音播报助手选择方法和系统

Country Status (1)

Country Link
CN (1) CN112489636A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113035203A (zh) * 2021-03-26 2021-06-25 合肥美菱物联科技有限公司 一种动态变换语音应答风格的控制方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103236259A (zh) * 2013-03-22 2013-08-07 乐金电子研发中心(上海)有限公司 语音识别处理及反馈系统、语音回复方法
US20140379421A1 (en) * 2013-06-25 2014-12-25 The Nielsen Company (Us), Llc Methods and apparatus to characterize households with media meter data
CN105047193A (zh) * 2015-08-27 2015-11-11 百度在线网络技术(北京)有限公司 语音播报方法和装置
CN105184201A (zh) * 2015-10-29 2015-12-23 陕西科技大学 一种基于rfid技术的儿童早教互动学习机及其学习方法
CN106128478A (zh) * 2016-06-28 2016-11-16 北京小米移动软件有限公司 语音播报方法及装置
CN107071710A (zh) * 2017-04-10 2017-08-18 胡渐佳 基于用户识别的进出门语音智能播放系统
CN107452400A (zh) * 2017-07-24 2017-12-08 珠海市魅族科技有限公司 语音播报方法及装置、计算机装置和计算机可读存储介质
CN107507620A (zh) * 2017-09-25 2017-12-22 广东小天才科技有限公司 一种语音播报声音设置方法、装置、移动终端及存储介质
CN109817217A (zh) * 2019-01-17 2019-05-28 深圳壹账通智能科技有限公司 基于语音识别的自助贩卖方法、装置、设备及介质
KR20190085272A (ko) * 2018-01-10 2019-07-18 (주)트리포스 MQtt 프로토콜을 통한 Json 포맷 방식 지원의 오픈 API 시스템 및 방법
CN110619889A (zh) * 2019-09-19 2019-12-27 Oppo广东移动通信有限公司 体征数据识别方法、装置、电子设备和存储介质
CN110675302A (zh) * 2019-11-14 2020-01-10 湖南意度展览服务有限公司 一种基于云计算的展馆智能导览系统
CN111739516A (zh) * 2020-06-19 2020-10-02 中国—东盟信息港股份有限公司 一种针对智能客服通话的语音识别系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103236259A (zh) * 2013-03-22 2013-08-07 乐金电子研发中心(上海)有限公司 语音识别处理及反馈系统、语音回复方法
US20140379421A1 (en) * 2013-06-25 2014-12-25 The Nielsen Company (Us), Llc Methods and apparatus to characterize households with media meter data
CN105047193A (zh) * 2015-08-27 2015-11-11 百度在线网络技术(北京)有限公司 语音播报方法和装置
CN105184201A (zh) * 2015-10-29 2015-12-23 陕西科技大学 一种基于rfid技术的儿童早教互动学习机及其学习方法
CN106128478A (zh) * 2016-06-28 2016-11-16 北京小米移动软件有限公司 语音播报方法及装置
CN107071710A (zh) * 2017-04-10 2017-08-18 胡渐佳 基于用户识别的进出门语音智能播放系统
CN107452400A (zh) * 2017-07-24 2017-12-08 珠海市魅族科技有限公司 语音播报方法及装置、计算机装置和计算机可读存储介质
CN107507620A (zh) * 2017-09-25 2017-12-22 广东小天才科技有限公司 一种语音播报声音设置方法、装置、移动终端及存储介质
KR20190085272A (ko) * 2018-01-10 2019-07-18 (주)트리포스 MQtt 프로토콜을 통한 Json 포맷 방식 지원의 오픈 API 시스템 및 방법
CN109817217A (zh) * 2019-01-17 2019-05-28 深圳壹账通智能科技有限公司 基于语音识别的自助贩卖方法、装置、设备及介质
CN110619889A (zh) * 2019-09-19 2019-12-27 Oppo广东移动通信有限公司 体征数据识别方法、装置、电子设备和存储介质
CN110675302A (zh) * 2019-11-14 2020-01-10 湖南意度展览服务有限公司 一种基于云计算的展馆智能导览系统
CN111739516A (zh) * 2020-06-19 2020-10-02 中国—东盟信息港股份有限公司 一种针对智能客服通话的语音识别系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113035203A (zh) * 2021-03-26 2021-06-25 合肥美菱物联科技有限公司 一种动态变换语音应答风格的控制方法

Similar Documents

Publication Publication Date Title
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
CN110364146B (zh) 语音识别方法、装置、语音识别设备及存储介质
CN110519636B (zh) 语音信息播放方法、装置、计算机设备及存储介质
JP2020056982A (ja) 音声評価方法、装置、機器及び読み取り可能な記憶媒体
CN109189980A (zh) 与用户进行语音交互的方法和电子设备
CN111666831B (zh) 一种基于解耦表示学习的说话人脸视频生成方法
CN111462733B (zh) 多模态语音识别模型训练方法、装置、设备及存储介质
CN116484318B (zh) 一种演讲训练反馈方法、装置及存储介质
CN111048064A (zh) 基于单说话人语音合成数据集的声音克隆方法及装置
CN107507620A (zh) 一种语音播报声音设置方法、装置、移动终端及存储介质
Kong et al. Acoustic scene generation with conditional SampleRNN
CN108153875B (zh) 语料处理方法、装置、智能音箱和存储介质
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
Godambe et al. Speech data acquisition for voice based agricultural information retrieval
CN113238654A (zh) 基于多模态的反应式响应生成
CN114882862A (zh) 一种语音处理方法及相关设备
CN109035922B (zh) 一种基于视频的外语学习方法和设备
CN112489636A (zh) 一种智能语音播报助手选择方法和系统
CN111460094A (zh) 一种基于tts的音频拼接优化的方法及其装置
CN117313785A (zh) 一种基于弱势人群的智能数字人交互方法、设备和介质
CN113314096A (zh) 语音合成方法、装置、设备和存储介质
Li et al. Non-Parallel Many-to-Many Voice Conversion with PSR-StarGAN.
CN116561294A (zh) 手语视频的生成方法、装置、计算机设备及存储介质
CN114925206A (zh) 人工智能体、语音信息识别方法、存储介质和程序产品
CN113538645A (zh) 一种用于虚拟形象的肢体动作与语言因素匹配方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination