CN107507620A - 一种语音播报声音设置方法、装置、移动终端及存储介质 - Google Patents
一种语音播报声音设置方法、装置、移动终端及存储介质 Download PDFInfo
- Publication number
- CN107507620A CN107507620A CN201710876039.3A CN201710876039A CN107507620A CN 107507620 A CN107507620 A CN 107507620A CN 201710876039 A CN201710876039 A CN 201710876039A CN 107507620 A CN107507620 A CN 107507620A
- Authority
- CN
- China
- Prior art keywords
- voice
- user
- voice broadcast
- data
- biological
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000000605 extraction Methods 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 16
- 230000001815 facial effect Effects 0.000 claims description 7
- 241001269238 Data Species 0.000 claims description 6
- 238000013480 data collection Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 239000012472 biological sample Substances 0.000 claims 1
- 230000006870 function Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000005291 magnetic effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000011017 operating method Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005025 nuclear technology Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种语音播报声音设置方法、装置、移动终端及存储介质。该方法包括:采集与用户的语音特征关联的生物数据;从所述生物数据中提取用户的语音属性信息;根据所述语音属性信息设置语音播报时的声音属性。本发明实施例解决了无法自动切换语音播报模式,灵活性较差的问题,提升了用户体验,使得语音播报类型切换更加便捷。
Description
技术领域
本发明实施例涉及通信技术,尤其涉及一种语音播报声音设置方法、装置、移动终端及存储介质。
背景技术
移动终端为了满足用户的个性化需求,往往提供语音播报功能,例如:天气语音播报、短信语音播报、联系人语音播报、家教机学习听课文语音播放等。此外,语音播报能够支持的语音播放模式也越来越丰富,例如,多语种,如如中文、英文、韩文、日文等;多方言,如广东话、四川话、上海话、天津话等;多角色,如成年男音、成年女音、小男孩的声音、小女孩的声音等。用户通常会设置希望听到的语音播放模式。
现有技术中,通常是通过触摸屏幕手动选择希望听到的语音播放模式,例如,广东用户,往往希望以广东话进行语音播报等。上述只能通过手动切换语音播报模式,灵活性较差,用户体验度低。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本发明提供一种语音播报声音设置方法、装置、移动终端及存储介质,以实现语音播报模式自动切换,提升用户体验。
第一方面,本发明实施例提供了一种语音播报声音设置方法,该方法包括:
采集与用户的语音特征关联的生物数据;
从所述生物数据中提取用户的语音属性信息;
根据所述语音属性信息设置语音播报时的声音属性。
进一步的,所述采集与用户的语音特征关联的生物数据之前,还包括:
获取多个与语音特征关联的生物样本数据,从所述生物样本数据中提取标准特征生成标准特征库。
进一步的,所述从所述生物数据中提取用户的语音属性信息,具体包括:
从所述生物数据库中提取用户特征,基于所述用户特征从所述标准特征库中匹配出所述生物数据的语音属性信息。
可选的,所述生物数据包括用户的人脸图像数据和/或语音数据。
可选的,所述语音属性信息包括性别、年龄段、语种和地域方言中的至少一种。
进一步的,所述采集与用户的语音特征关联的生物数据之前,还包括:
确认语音播报模式处于启用状态。
第二方面,本发明实施例还提供了一种语音播报声音设置装置,该装置包括:
语音特征相关的生物数据采集模块,用于采集与用户的语音特征关联的生物数据;
语音属性信息提取模块,用于从所述生物数据中提取用户的语音属性信息;
声音播报属性设置模块,用于根据所述语音属性信息设置语音播报时的声音属性。
进一步的,所述装置,还包括:
标准特征库生成模块,用于获取多个与语音特征关联的生物样本数据,从所述生物样本数据中提取标准特征生成标准数据库。
进一步的,所述语音属性信息提取模块,具体用于:
从所述生物数据中提取用户特征,基于所述用户特征从所述标准特征库中匹配出所述生物数据的语音属性信息。
进一步的,所述装置,还包括:
语音播报模式确认模块,用于确认语音播报模式处于启用状态。
第三方面,本发明实施例还提供了一种移动终端,该终端包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
摄像头,用于采集图像;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如前文所述的语音播报声音设置方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前文所述的语音播报声音设置方法。
本发明通过采集与用户的语音特征关联的生物数据,并从生物数据中提取语音属性信息,进而根据语音属性信息设置语音播报时的声音属性,解决了无法自动切换语音播报模式,灵活性较差的问题,提升了用户体验,使得语音播报类型切换更加便捷。
附图说明
图1是本发明实施例一中的一种语音播报声音设置方法的流程图;
图2是本发明实施例二中的一种语音播报声音设置方法的流程图;
图3是本发明实施例三中的一种语音播报声音设置装置的结构示意图;
图4是本发明实施例四中的一种移动终端结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种语音播报声音设置方法的流程图,本实施例可适用于自动切换语音播报的类型的情况,该方法可以由语音播报声音设置装置来执行,该装置可以采用软件和/或硬件的方式实现,该装置可以配置于移动终端中,例如典型的是针对学生用户而设计的学生平板电脑、家教机、学习机、智能佩戴设备等。如图1所示,该方法具体包括如下步骤:
步骤S110、采集与用户的语音特征关联的生物数据;
可选的,与用户的语音特征关联的生物数据包括用户的人脸图像数据和/或语音数据,示例性的,可以通过启用摄像头按照预设周期采集人脸图像数据,可以通过启用语音功能采集用户的语音数据,其中,启用摄像头可以但不限定于在开启微信、QQ、Facebook等通讯工具进行视频聊天过程中或直接开启照相功能。启用语音功能可以但不限定于在打电话过程中,开启录音功能,在开启微信、QQ、Facebook等通讯工具进行语音聊天的过程中,发送语音消息或在开启某种课文朗/跟读程序进行课文朗读或跟读过程中,存储语音片段。
上述人脸图像数据以及语音数据中包含丰富的信息,例如,通过人脸图像数据可以获知用户的性别、年龄段、种族、表情或身份等,同样,通过语音数据可以获知用户的性别、年龄段、语种或表情等。
优选的,用户的人脸图像数据和语音数据均采集,例如,针对正在使用家教机进行课文跟读的学生用户来说,可以在跟读过程中保存相应语音数据,同时启用摄像头采集人脸图像数据。这样一方面使得与用户的语音特征关联的信息更加丰富,另一方面可以提高后续匹配的精度。
通过采集与用户的语音特征关联的生物数据为后续语音属性信息提取及语音播报时的声音属性设置提供数据基础。
步骤S120、从所述生物数据中提取用户的语音属性信息;
可选的,用户的语音属性信息包括性别、年龄段、语种和地域方言中的至少一种。此外,通过模式识别技术可以实现从生物数据中提取用户的语音属性信息,上述提取过程就是获取原始空间中的主要分类信息。
示例性的,当生物数据为用户的人脸图像数据时,基于人脸图像进行性别、年龄段的语音属性信息的提取可以但不限定于采用如下几种方法进行:基于几何特征的方法,主要是根据人脸器官的形状描述以及它们之间的距离特性来获得有助于人脸分类的特征数据,提取特征时往往要用到脸部图谱结构的一些先验知识,如人脸特征点的间距、比率等参数;基于子空间的方法,由于人脸图像维数很高,直接显式地表述人脸特征非常困难,而且人脸具有对称性且局部像素之间又具有很强的相关性,说明像素之间具有很强的冗余性。因此,可以考虑将高维人脸图像投影到一个低维空间中,去除冗余信息,使得样本点在新空间中更为紧凑,以便更好地描述人脸数据,这个低维空间被称为子空间。子空间方法可分为线性子空间方法和非线性子空间方法。其中,线性的方法有特征脸方法、线性判别分析方法、独立分量分析方法、多维尺度分析方法和局部映射方法等;而非线性的方法则包括等规度映射方法、局部线性嵌入方法、拉普拉斯特征映射方法以及一些利用核技术的方法等;基于神经网络的方法,人工神经网络是一种模仿生物神经网络行为特征的分布式并行信息处理算法结构的动力学模型。最简单的方法是建立一个网络,其中每个神经元对应图像中的一个像素,同样由于图像的维数非常高,需要先对输入图像进行降维,如先通过主成分分析方法降维,然后采用径向基函数神经网络;基于小波变换的方法,如基于Gabor小波变换;基于支持向量机的方法,其基本思想是首先通过非线性变换降输入空间变换到一个高维空间,然后在这个高维空间中求得最优线性分类面,求出输入模型与所得的最优线性分类面的距离,实现对未知样本的分类;基于模型的方法,主动形状模型和主动外观模型将人脸描述为二维形状和纹理形状两个分离的部分,分别用统计的方法进行建模,然后进一步通过主分量分析将两者融合起来对人脸进行统计建模;基于局部二进制模式的特征提取方法,是一种强有力的纹理描述方法,具有灰度级选择不变性,并且对光照不敏感,可将人脸均分为许多个子窗口,从每个子窗口中提取出局部二进制模式直方图,然后将这些直方图连接成一个直方图,用此直方图来描述人脸,作为人脸部特征。
此外,在实际应用中,图像采集系统(如摄像头)因受到客观世界的限制和干扰,采集到的图像可能会带有很多噪声和干扰信号,这对于对图像质量要求较高的人脸性别、年龄段提取问题会产生较大的影响,造成后续匹配准确率的下降。因此,在对图像进行特征提取之前,优选的,进行人脸图像的预处理,即对于一幅人脸图像来说,首先将其转换成灰度图像,然后根据眼睛的位置将脸部区域图像从整幅图像中剪裁出来,获得脸部图像,最后进行直方图均衡化和面部区域去燥处理。
当生物数据为用户的语音数据时,基于语音数据进行性别、语种、地域方言的语音属性信息的提取可以但不限定于采用如下几种方法进行:对于性别特征提取,可以采用基于倒谱系数、韵律特征、共振峰分析、支持向量机、高斯混合模型等方法;对于语种提取,可以采用基于梅尔倒谱系数、线性感知系数、转移差分倒谱、矢量量化、支持向量机、混合高斯模型等方法;对于地域方言提取,可以采用基于全局特征融合方法并结合大词汇库连续识别、基于高斯符号化的语言模型、基于半监督矢量量化的分类、基于相对熵-高斯混合模型等方法。
同样,优选的,进行语音数据的预处理,预处理流程为采样和量化-预加重-加窗-端点检测,其中,预加重的目的是滤除低频干扰,提升有用的高频部分,使信号的频谱变得平坦,以便进行频谱分析或声道参数分析。端点检测的目的是从语音数据中检测出语音数据段和噪音数据段,减少计算量。
通过从生物数据中提取用户的语音属性信息为后续语音播报时的声音属性设置提供判断依据。
步骤S130、根据所述语音属性信息设置语音播报时的声音属性。
示例性的,如针对正在使用家教机进行课文跟读的学生用户来说,通过采集用户的人脸图像数据和语音数据,并从中提取出了语音属性信息,语音属性信息包括性别和年龄段,其中,性别为男,年龄段为儿童,根据上述语音属性信息设置课文语音播报的声音属性为小男孩声音。又如获取语音属性信息包括性别、年龄段和地域方言,其中,性别为男,年龄段为成年人,地域方言为广东话,同样,根据上述语音属性信息设置语音播报时的声音属性为广东话成年女生声音。再如,获取语音属性信息包括性别、年龄段和语种,其中,性别为女,年龄段为成年人,语种为英语,根据上述语音属性信息设置语音播报时的声音属性为英语成年女生声音。
需要说明的是,根据语音属性信息设置语音播报时的声音属性并不限于上述形式,用户可以根据自身喜好度进行其它组合方式的设置,如获取语音属性信息中性别为女,年龄段为成年人,语种为英语,根据上述语音属性信息设置语音播报时的声音属性为英语小女孩声音。
本实施例的技术方案,通过采集与用户的语音特征关联的生物数据,并从生物数据中提取语音属性信息,进而根据语音属性信息设置语音播报时的声音属性,解决了无法自动切换语音播报模式,灵活性较差的问题,提升了用户体验,使得语音播报类型切换更加便捷。
进一步的,在上述技术方案的基础上,在所述采集与用户的语音特征关联的生物数据之前,还包括:
步骤S100、获取多个与语音特征关联的生物样本数据,从所述生物样本数据中提取标准特征生成标准特征库。
可选的,与用户的语音特征关联的生物样本数据同样包括用户的人脸图像数据和/或语音数据。获取生物样本数据的方式可以与步骤S110中采集生物数据的方式相同。标准特征可以与步骤S120中用户的语音属性信息包含的信息相同,即包括性别、年龄段、语种和地域方言中的至少一种,相应的,提取方法也可以与步骤S120中的相同。其中,性别包括男、女,年龄段包括成年人、儿童,语种包括汉语、英语、日语和韩语等,地域方言包括天津话、广东话、上海话、北京话、四川话和陕西话等。
需要说明的是,上述标准特征库需要加以存储,以便后续用户的语音属性信息的匹配得以实现,优选的,上述标准特征库可以但不限于保存至云端或内置于应用APP中,并且标准特征库中的数据可以定期更新,以便更好的满足用户的需求。
进一步的,在上述技术方案的基础上,所述从所述生物数据中提取用户的语音属性信息,具体为:
从所述生物数据中提取用户特征,基于所述用户特征从所述标准特征库中匹配出所述生物数据的语音属性信息。
可选的,可以采用步骤S120中的提取方法提取用户特征,用户特征包括性别、年龄段、语种和地域方言中的至少一种。
示例性的,通过预先设置相似度阈值来将用户特征与标准特征进行匹配,如预先设置相似度阈值为大于0.9,如果得到的用户特征中年龄段与标准特征中年龄段中成年人的相似度为0.98,则可获知用户特征中年龄段为成年人。如果得到的用户特征中语种与标准特征中语种中韩语的相似度为0.92,则可获知用户特征中语种为韩语。其它用户特征中包含的信息的判断方法与上述相同。此外,也可采用其它分类方法,如聚类分析,基于用户特征从标准特征中匹配出生物数据的语音属性信息。
进一步的,在上述技术方案的基础上,在所述采集与用户的语音特征关联的生物数据之前,还包括:
步骤S101、确认语音播报模式处于启用状态。
示例性的,语音播报模式包括家教机听课文语音播报、天气语音播报、短信语音播报、联系人语音播报中的至少一种。
上述确认语音播报模式处于启用状态的目的是如果当前语音播报模式为与用户的语音属性信息相对应的播报模式,则继续使用所述播报模式即可,无需进行后续操作,从而简化了操作步骤。
需要说明的是,上述步骤S101与步骤S100的先后顺序并不作限定。
实施例二
图2为本发明实施例二提供的一种语音播报声音设置方法的流程图,本实施例是上述实施例的一个具体实施例,本实施例可适用于自动切换语音播报的类型的情况,该方法可以由语音播报声音设置装置来执行,该装置可以采用软件和/或硬件的方式实现,该装置可以配置于移动终端中,例如典型的是针对学生用户而设计的学生平板电脑、家教机、学习机、智能佩戴设备等。如图2所示,该方法具体包括如下步骤:
步骤S210、开启语音播报模式;
其中,如果当前语音播报模式为与用户的语音属性信息相对应的播报模式,则继续使用所述播报模式即可,无需进行后续操作,从而简化了操作步骤。
步骤S220、采集与用户的语音特征关联的生物数据;
步骤S230、从所述生物数据中提取用户特征,基于所述用户特征从标准特征库中匹配出生物数据的语音属性信息;
步骤S240、根据所述语音属性信息设置语音播报时的声音属性。
上述语音播报的声音设置具体实现过程为:以使用家教机进行课文跟读的学生用户为例进行说明,首先,开启课文语音播报模式;其次,采集与该名学生的语音特征关联的生物数据,其中,生物数据包括人脸图像数据和语音数据,其中,人脸图像数据通过在利用微信进行视频聊天过程中启用摄像头实时获取,同时,语音数据通过在利用微信进行语音聊天过程中,发送语音消息获取;接着,从生物数据中提取该名学生特征,学生特征包括性别、年龄段、语种和地域方言,根据预先设置的相似度阈值,将学生特征与标准特征库中的标准特征进行匹配,获取生物数据的语音属性信息,匹配结果为性别为男,年龄段为小孩子,语种为汉语,其中,标准特征包括性别、年龄段、语种和地域方言,性别包括男、女,年龄段包括成年人、儿童,语种包括汉语、英语、日语和韩语等,地域方言包括天津话、广东话、上海话、北京话、四川话和陕西话等;最后,根据性别为男,年龄段为儿童,语种为汉语设置课文语音播报时的声音属性为汉语小男孩声音。
本实施例的技术方案,通过采集与用户的语音特征关联的生物数据,并基于从生物数据中提取出的用户特征从标准特征库中匹配出生物数据的语音属性信息,进而根据语音属性信息设置语音播报时的声音属性,解决了无法自动切换语音播报模式,灵活性较差的问题,提升了用户体验,使得语音播报类型切换更加便捷。
实施例三
图3为本发明实施例三提供的一种语音播报声音设置装置的结构示意图,本实施例可适用于自动切换语音播报的类型的情况,该装置可以采用软件和/或硬件的方式实现,该装置可以配置于移动终端中,例如典型的是针对学生用户而设计的学生平板电脑、家教机、学习机、智能佩戴设备等。如图3所示,该装置具体包括:
生物数据采集模块310,用于采集与用户的语音特征关联的生物数据;
可选的,与用户的语音特征关联的生物数据包括用户的人脸图像数据和/或语音数据。
语音属性信息提取模块320,用于从所述生物数据中提取用户的语音属性信息;
可选的,用户的语音属性信息包括性别、年龄段、语种和地域方言中的至少一种。
声音播报属性设置模块330,用于根据所述语音属性信息设置语音播报时的声音属性。
本实施例的技术方案,通过采集与用户的语音特征关联的生物数据,并从生物数据中提取语音属性信息,进而根据语音属性信息设置语音播报时的声音属性,解决了无法自动切换语音播报模式,灵活性较差的问题,提升了用户体验,使得语音播报类型切换更加便捷。
进一步的,在上述技术方案的基础上,所述装置,还包括:
标准特征库生成模块300,用于获取多个与语音特征关联的生物样本数据,从所述生物样本数据中提取标准特征生成标准特征库。
进一步的,在上述技术方案的基础上,所述语音属性信息提取模块,具体用于从所述生物数据中提取用户特征,基于所述用户特征从所述标准特征库中匹配出所述生物数据的语音属性信息。
进一步的,在上述技术方案的基础上,所述装置,还包括:
语音播报模式确认模块301,用于确认语音播报模式处于启用状态。
本发明实施例所提供的配置于移动终端的语音播报的声音设置装置可执行本发明任意实施例所提供的应用于移动终端的语音播报的声音设置方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4为本发明实施例四提供的一种移动终端的结构示意图。图4显示的移动终端仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图4所示,本发明实施例四提供的移动终端,包括处理器41、存储器42、输入装置43、输出装置44和摄像头45;移动终端中处理器41的数量可以是一个或多个,图4中以一个处理器41为例;移动终端中的处理器41、存储器42、输入装置43、输出装置44和摄像头45可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器42作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的使用数据统计方法对应的程序指令/模块(例如,使用语音播报的声音设置装置中的语音特征相关的生物数据采集模块310、语音属性信息提取模块320、声音播报属性设置模块330)。处理器41通过运行存储在存储器42中的软件程序、指令以及模块,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的应用于移动终端的语音播报的声音设置方法。
存储器42可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据移动终端的使用所创建的数据等。此外,存储器42可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器42可进一步包括相对于处理器41远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置43可用于接收用户输入的数字或字符信息,以产生与移动终端的用户设置以及功能控制有关的键信号输入。输出装置44可包括显示屏等显示设备。
摄像头45,用于采集图像,也是移动终端上语音特征相关的生物数据采集模块的主要实现方式。可通过移动终端中摄像头45采集用户的语音特征关联的生物数据。
实施例五
本发明实施例五还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的应用于移动终端的语音播报声音设置方法,该方法包括:
采集与用户的语音特征关联的生物数据;
从所述生物数据中提取用户的语音属性信息;
根据所述语音属性信息设置语音播报时的声音属性。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种语音播报声音设置方法,其特征在于,包括:
采集与用户的语音特征关联的生物数据;
从所述生物数据中提取用户的语音属性信息;
根据所述语音属性信息设置语音播报时的声音属性。
2.根据权利要求1所述的方法,其特征在于,所述采集与用户的语音特征关联的生物数据之前,还包括:
获取多个与语音特征关联的生物样本数据,从所述生物样本数据中提取标准特征生成标准特征库;
所述从所述生物数据中提取用户的语音属性信息,具体为:
从所述生物数据中提取用户特征,基于所述用户特征从所述标准特征库中匹配出所述生物数据的语音属性信息。
3.根据权利要求1或2所述的方法,其特征在于,所述生物数据包括用户的人脸图像数据和/或语音数据。
4.根据权利要求1或2所述的方法,其特征在于,所述语音属性信息包括性别、年龄段、语种和地域方言中的至少一种。
5.根据权利要求1所述的方法,其特征在于,所述采集与用户的语音特征关联的生物数据之前,还包括:
确认语音播报模式处于启用状态。
6.一种语音播报声音设置装置,其特征在于,包括:
生物数据采集模块,用于采集与用户的语音特征关联的生物数据;
语音属性信息提取模块,用于从所述生物数据中提取用户的语音属性信息;
声音播报属性设置模块,用于根据所述语音属性信息设置语音播报时的声音属性。
7.根据权利要求6所述的装置,其特征在于,还包括:
标准特征库生成模块,用于获取多个与语音特征关联的生物样本数据,从所述生物样本数据中提取标准特征生成标准特征库;
所述语音属性信息提取模块,具体用于:
从所述生物数据中提取用户特征,基于所述用户特征从所述标准特征库中匹配出所述生物数据的语音属性信息。
8.根据权利要求6所述的装置,其特征在于,还包括:
语音播报模式确认模块,用于确认语音播报模式处于启用状态。
9.一种移动终端,其特征在于,所述移动终端包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
摄像头,用于采集图像;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的语音播报声音设置方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的语音播报声音设置方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710876039.3A CN107507620A (zh) | 2017-09-25 | 2017-09-25 | 一种语音播报声音设置方法、装置、移动终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710876039.3A CN107507620A (zh) | 2017-09-25 | 2017-09-25 | 一种语音播报声音设置方法、装置、移动终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107507620A true CN107507620A (zh) | 2017-12-22 |
Family
ID=60698818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710876039.3A Pending CN107507620A (zh) | 2017-09-25 | 2017-09-25 | 一种语音播报声音设置方法、装置、移动终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107507620A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767754A (zh) * | 2019-01-15 | 2019-05-17 | 谷晓佳 | 一种模拟发声方法、装置、电子设备及存储介质 |
CN110289010A (zh) * | 2019-06-17 | 2019-09-27 | 百度在线网络技术(北京)有限公司 | 一种声音采集的方法、装置、设备和计算机存储介质 |
CN110610703A (zh) * | 2019-07-26 | 2019-12-24 | 深圳壹账通智能科技有限公司 | 基于机器人识别的语音输出方法、装置、机器人及介质 |
CN111916052A (zh) * | 2020-07-30 | 2020-11-10 | 北京声智科技有限公司 | 一种语音合成方法及装置 |
CN112185344A (zh) * | 2020-09-27 | 2021-01-05 | 北京捷通华声科技股份有限公司 | 语音交互方法、装置、计算机可读存储介质和处理器 |
WO2021004113A1 (zh) * | 2019-07-05 | 2021-01-14 | 深圳壹账通智能科技有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
CN112489636A (zh) * | 2020-10-15 | 2021-03-12 | 南京创维信息技术研究院有限公司 | 一种智能语音播报助手选择方法和系统 |
CN112820270A (zh) * | 2020-12-17 | 2021-05-18 | 北京捷通华声科技股份有限公司 | 语音播报方法、装置和智能设备 |
CN113129902A (zh) * | 2019-12-30 | 2021-07-16 | 北京猎户星空科技有限公司 | 一种语音处理方法、装置、电子设备及存储介质 |
CN113643684A (zh) * | 2021-07-21 | 2021-11-12 | 广东电力信息科技有限公司 | 语音合成方法、装置、电子设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101187990A (zh) * | 2007-12-14 | 2008-05-28 | 华南理工大学 | 一种会话机器人系统 |
KR20100003672A (ko) * | 2008-07-01 | 2010-01-11 | (주)디유넷 | 영상정보를 이용한 음성인식 장치 및 방법 |
CN103236259A (zh) * | 2013-03-22 | 2013-08-07 | 乐金电子研发中心(上海)有限公司 | 语音识别处理及反馈系统、语音回复方法 |
CN104123938A (zh) * | 2013-04-29 | 2014-10-29 | 富泰华工业(深圳)有限公司 | 语音控制系统、电子装置及语音控制方法 |
CN105058393A (zh) * | 2015-08-17 | 2015-11-18 | 李泉生 | 一种迎宾机器人 |
CN105700682A (zh) * | 2016-01-08 | 2016-06-22 | 北京乐驾科技有限公司 | 基于视觉和语音的智能性别、情绪识别检测系统及方法 |
CN106127156A (zh) * | 2016-06-27 | 2016-11-16 | 上海元趣信息技术有限公司 | 基于声纹和人脸识别的机器人交互方法 |
CN106354790A (zh) * | 2016-08-25 | 2017-01-25 | 深圳前海弘稼科技有限公司 | 多媒体信息的播放方法、播放装置和终端 |
CN106503275A (zh) * | 2016-12-30 | 2017-03-15 | 首都师范大学 | 聊天机器人的音色配置方法及装置 |
CN106648082A (zh) * | 2016-12-09 | 2017-05-10 | 厦门快商通科技股份有限公司 | 一种模拟真人互动的智能服务设备及方法 |
CN106782606A (zh) * | 2017-01-17 | 2017-05-31 | 山东南工机器人科技有限公司 | 用于导讲机器人的语言交流与互动系统及其工作方法 |
-
2017
- 2017-09-25 CN CN201710876039.3A patent/CN107507620A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101187990A (zh) * | 2007-12-14 | 2008-05-28 | 华南理工大学 | 一种会话机器人系统 |
KR20100003672A (ko) * | 2008-07-01 | 2010-01-11 | (주)디유넷 | 영상정보를 이용한 음성인식 장치 및 방법 |
CN103236259A (zh) * | 2013-03-22 | 2013-08-07 | 乐金电子研发中心(上海)有限公司 | 语音识别处理及反馈系统、语音回复方法 |
CN104123938A (zh) * | 2013-04-29 | 2014-10-29 | 富泰华工业(深圳)有限公司 | 语音控制系统、电子装置及语音控制方法 |
CN105058393A (zh) * | 2015-08-17 | 2015-11-18 | 李泉生 | 一种迎宾机器人 |
CN105700682A (zh) * | 2016-01-08 | 2016-06-22 | 北京乐驾科技有限公司 | 基于视觉和语音的智能性别、情绪识别检测系统及方法 |
CN106127156A (zh) * | 2016-06-27 | 2016-11-16 | 上海元趣信息技术有限公司 | 基于声纹和人脸识别的机器人交互方法 |
CN106354790A (zh) * | 2016-08-25 | 2017-01-25 | 深圳前海弘稼科技有限公司 | 多媒体信息的播放方法、播放装置和终端 |
CN106648082A (zh) * | 2016-12-09 | 2017-05-10 | 厦门快商通科技股份有限公司 | 一种模拟真人互动的智能服务设备及方法 |
CN106503275A (zh) * | 2016-12-30 | 2017-03-15 | 首都师范大学 | 聊天机器人的音色配置方法及装置 |
CN106782606A (zh) * | 2017-01-17 | 2017-05-31 | 山东南工机器人科技有限公司 | 用于导讲机器人的语言交流与互动系统及其工作方法 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767754A (zh) * | 2019-01-15 | 2019-05-17 | 谷晓佳 | 一种模拟发声方法、装置、电子设备及存储介质 |
CN110289010A (zh) * | 2019-06-17 | 2019-09-27 | 百度在线网络技术(北京)有限公司 | 一种声音采集的方法、装置、设备和计算机存储介质 |
US11295724B2 (en) | 2019-06-17 | 2022-04-05 | Baidu Online Network Technology (Beijing) Co., Ltd. | Sound-collecting method, device and computer storage medium |
CN110289010B (zh) * | 2019-06-17 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 一种声音采集的方法、装置、设备和计算机存储介质 |
WO2021004113A1 (zh) * | 2019-07-05 | 2021-01-14 | 深圳壹账通智能科技有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
CN110610703A (zh) * | 2019-07-26 | 2019-12-24 | 深圳壹账通智能科技有限公司 | 基于机器人识别的语音输出方法、装置、机器人及介质 |
CN113129902A (zh) * | 2019-12-30 | 2021-07-16 | 北京猎户星空科技有限公司 | 一种语音处理方法、装置、电子设备及存储介质 |
CN113129902B (zh) * | 2019-12-30 | 2023-10-24 | 北京猎户星空科技有限公司 | 一种语音处理方法、装置、电子设备及存储介质 |
CN111916052A (zh) * | 2020-07-30 | 2020-11-10 | 北京声智科技有限公司 | 一种语音合成方法及装置 |
CN111916052B (zh) * | 2020-07-30 | 2021-04-27 | 北京声智科技有限公司 | 一种语音合成方法及装置 |
CN112185344A (zh) * | 2020-09-27 | 2021-01-05 | 北京捷通华声科技股份有限公司 | 语音交互方法、装置、计算机可读存储介质和处理器 |
CN112489636A (zh) * | 2020-10-15 | 2021-03-12 | 南京创维信息技术研究院有限公司 | 一种智能语音播报助手选择方法和系统 |
CN112820270A (zh) * | 2020-12-17 | 2021-05-18 | 北京捷通华声科技股份有限公司 | 语音播报方法、装置和智能设备 |
CN113643684A (zh) * | 2021-07-21 | 2021-11-12 | 广东电力信息科技有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN113643684B (zh) * | 2021-07-21 | 2024-02-27 | 广东电力信息科技有限公司 | 语音合成方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107507620A (zh) | 一种语音播报声音设置方法、装置、移动终端及存储介质 | |
CN110519636B (zh) | 语音信息播放方法、装置、计算机设备及存储介质 | |
CN110364146B (zh) | 语音识别方法、装置、语音识别设备及存储介质 | |
CN110085244B (zh) | 直播互动方法、装置、电子设备及可读存储介质 | |
CN110796199B (zh) | 一种图像处理方法、装置以及电子医疗设备 | |
CN108009521A (zh) | 人脸图像匹配方法、装置、终端及存储介质 | |
CN108376144B (zh) | 基于深度神经网络的场景自动切换的人机多轮对话方法 | |
EP4099709A1 (en) | Data processing method and apparatus, device, and readable storage medium | |
CN103024530A (zh) | 智能电视语音应答系统及方法 | |
CN110555896A (zh) | 一种图像生成方法、装置以及存储介质 | |
CN104217718A (zh) | 依据环境参数及群体趋向数据的语音识别方法和系统 | |
CN114359517A (zh) | 虚拟形象生成方法、虚拟形象生成系统和计算设备 | |
CN116564338A (zh) | 语音动画生成方法、装置、电子设备和介质 | |
Song et al. | A review of audio-visual fusion with machine learning | |
CN115712739B (zh) | 舞蹈动作生成方法、计算机设备及存储介质 | |
CN117152308A (zh) | 一种虚拟人动作表情优化方法与系统 | |
CN109961152B (zh) | 虚拟偶像的个性化互动方法、系统、终端设备及存储介质 | |
DE112018007850B4 (de) | Spracherkennungssystem und betriebsverfahren eines spracherkennungssystems | |
CN107180629B (zh) | 一种语音采集识别方法与系统 | |
CN114548262B (zh) | 一种情感计算中多模态生理信号的特征级融合方法 | |
US20220375223A1 (en) | Information generation method and apparatus | |
CN112420063A (zh) | 一种语音增强方法和装置 | |
CN115690276A (zh) | 虚拟形象的视频生成方法、装置、计算机设备和存储介质 | |
CN110321802B (zh) | 面部图像生成方法和装置、存储设备和电子设备 | |
CN116705013B (zh) | 语音唤醒词的检测方法、装置、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171222 |
|
RJ01 | Rejection of invention patent application after publication |