CN111627417A - 播放语音的方法、装置及电子设备 - Google Patents

播放语音的方法、装置及电子设备 Download PDF

Info

Publication number
CN111627417A
CN111627417A CN201910141059.5A CN201910141059A CN111627417A CN 111627417 A CN111627417 A CN 111627417A CN 201910141059 A CN201910141059 A CN 201910141059A CN 111627417 A CN111627417 A CN 111627417A
Authority
CN
China
Prior art keywords
presenter
voice
parameters
preset
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910141059.5A
Other languages
English (en)
Other versions
CN111627417B (zh
Inventor
乔慧丽
张文涛
袁武文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Horizon Robotics Technology Research and Development Co Ltd
Original Assignee
Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Horizon Robotics Technology Research and Development Co Ltd filed Critical Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority to CN201910141059.5A priority Critical patent/CN111627417B/zh
Publication of CN111627417A publication Critical patent/CN111627417A/zh
Application granted granted Critical
Publication of CN111627417B publication Critical patent/CN111627417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44204Monitoring of content usage, e.g. the number of times a movie has been viewed, copied or the amount which has been watched
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4826End-user interface for program selection using recommendation lists, e.g. of programs or channels sorted out according to their score
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

公开了一种播放语音的方法,包括:确定当前播放的多媒体曲目的演播者的声学参数和韵律参数;根据所述演播者的声学参数和韵律参数,合成演播者音色语音;使用所述演播者音色语音播报预设内容。播放语音的装置包括:参数确定模块、合成模块和播放模块。通过根据演播者的声学参数和韵律参数,合成演播者音色语音,使用演播者音色语音播报预设内容,增加了播放语音(例如车载语音)的种类,提高了播放语音(例如车载语音)的多样性和选择性,可以满足众多用户的需求。

Description

播放语音的方法、装置及电子设备
技术领域
本发明涉及车载电子技术领域,具体涉及一种播放语音的方法、装置及电子设备。
背景技术
随着汽车技术的发展,汽车越来越智能化,汽车的各种车载设施也越来越先进。在车载领域,智能语音助手越来越普及,但是音色单一、无法满足众多用户的需求。
发明内容
为了解决上述技术问题,本申请实施例提供了一种播放语音的方法、装置及电子设备。
根据本申请的一个方面,提供了一种播放语音的方法,包括:确定当前播放的多媒体曲目的演播者的声学参数和韵律参数;根据所述演播者的声学参数和韵律参数,合成演播者音色语音;使用所述演播者音色语音播报预设内容。
根据本申请的另一个方面,提供了一种播放语音的装置,包括:参数确定模块,用于确定当前播放的多媒体曲目的演播者的声学参数和韵律参数;合成模块,用于根据所述演播者的声学参数和韵律参数,合成演播者音色语音;播放模块,用于使用所述演播者音色语音播报预设内容。
根据本申请的另一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一所述的方法。
根据本申请的另一个方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于执行上述任一所述的方法。
本申请实施例提供的播放语音的方法,通过根据演播者的声学参数和韵律参数,合成演播者音色语音,使用演播者音色语音播报预设内容,增加了播放语音(例如车载语音)的种类,提高了播放语音(例如车载语音)的多样性和选择性,可以满足众多用户的需求。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本申请一示例性实施例提供的播放语音的方法的流程示意图。
图2是本申请一示例性实施例提供的确定当前播放的多媒体曲目的演播者的声学参数和韵律参数的流程示意图。
图3是本申请另一示例性实施例提供的确定当前播放的多媒体曲目的演播者的声学参数和韵律参数的流程示意图。
图4是本申请一示例性实施例提供的从预设演播者音频资源库中确定演播者的声学参数和韵律参数的流程示意图。
图5是本申请一示例性实施例提供的基于演播者的多媒体声音数据,确定演播者的语音的声学特征的流程示意图。
图6是本申请一示例性实施例提供的根据演播者的声学参数和韵律参数,合成演播者音色语音的流程示意图。
图7是本申请另一示例性实施例提供的播放语音的方法的流程示意图。
图8是本申请一示例性实施例提供的播放语音的装置的结构示意图。
图9是本申请一示例性实施例提供的播放语音的装置中参数确定模块的结构示意图。
图10是本申请另一示例性实施例提供的播放语音的装置中确定模块的结构示意图。
图11是本申请一示例性实施例提供的播放语音的装置中第二确定单元的结构示意图。
图12是本申请一示例性实施例提供的播放语音的装置中第一确定子单元的结构示意图。
图13是本申请一示例性实施例提供的播放语音的装置中合成模块的结构示意图。
图14是本申请另一示例性实施例提供的播放语音的装置的结构示意图。
图15是本申请一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
目前,可以通过智能语音助手进行导航或进行语音播报提醒,然而现有智能语音助手大部分都是按照出厂默认的音色进行导航或者进行语音播报提醒,音色单一、无法满足众多用户的需求。
针对上述技术问题,本申请的基本构思是提出一种播放语音的方法、装置及电子设备,该播放语音的方法通过根据演播者的声学参数和韵律参数,合成演播者音色语音,使用演播者音色语音播报预设内容,增加了播放语音(例如车载语音)的种类,提高了播放语音(例如车载语音)的多样性和选择性,可以满足众多用户的需求。
需要说明的是,本申请的应用范围不局限于车载电子技术领域。例如,本申请实施例提及的技术方案还可以应用于其他智能可移动设备,具体用于对智能可移动设备的语音助手提供播放技术支持。
下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性方法
图1是本申请一示例性实施例提供的播放语音的方法的流程示意图。本申请实施例提供的播放语音的方法可应用到汽车的车载电子播放技术领域,亦可应用到智能机器人的播放类功能领域。如图1所示,本申请实施例提供的播放语音的方法包括如下步骤:
步骤101,确定当前播放的多媒体曲目的演播者的声学参数和韵律参数。
需要说明的是,多媒体曲目可以是音频曲目(比如音频歌曲)、视频曲目(比如MV)等。演播者可以是歌唱者等。例如:当前播放的多媒体曲目为音频歌曲,确定当前播放的音频歌曲的歌唱者的声学参数和韵律参数。
需要说明的是,本申请实施例的方法可以应用在车载领域的智能语音助手中,也可以应用在手机、计算机等终端上,以及其它类似设备和场景中,对此不做具体限定。当本申请实施例的方法应用在车载领域的智能语音助手时,确定当前播放的多媒体曲目的演播者的声学参数和韵律参数为:确定当前车内播放的多媒体曲目的演播者的声学参数和韵律参数;当本申请实施例的方法可以应用在手机、计算机等终端上时,确定当前播放的多媒体曲目的演播者的声学参数和韵律参数为:确定当前终端播放的多媒体曲目的演播者的声学参数和韵律参数。
步骤102,根据演播者的声学参数和韵律参数,合成演播者音色语音。
需要说明的是,根据演播者的声学参数和韵律参数,合成具有演播者的声音特征的演播者音色语音。
步骤103,使用演播者音色语音播报预设内容。
需要说明的是,预设内容可以是导航信息、提醒信息、交互信息等。
在一实施例中,在使用演播者音色语音播报预设内容之前,可以设置提醒例如:在利用智能语音助手进行导航时,可语音提醒“是否设置为演播者XX的声音为您导航”,如果选择是,则使用演播者XX的演播者音色语音播报预设内容。如果没有选择或者没有相应,则继续用默认音色进行语音播报。
本申请实施例所提及的播放语音的方法,通过根据演播者的声学参数和韵律参数,合成演播者音色语音,使用演播者音色语音播报预设内容,增加了播放语音(例如车载语音)的种类,提高了播放语音(例如车载语音)的多样性和选择性,可以满足众多用户的需求。
图2是本申请一示例性实施例提供的确定当前播放的多媒体曲目的演播者的声学参数和韵律参数的流程示意图。在本申请图1所示实施例的基础上延伸出本申请图2所示实施例,下面着重叙述图2所示实施例与图1所示实施例的不同之处,相同之处不再赘述。
如图2所示,在本申请实施例提供的播放语音的方法中,确定当前播放的多媒体曲目的演播者的声学参数和韵律参数(即步骤101),包括:
步骤1011,每隔一预设时间段,统计多媒体播放器中播放的多媒体曲目的频次。
需要说明的是,预设时间段可以根据实际应用状况进行设置,对此不做具体限定,例如:可以设置为1个月、10天、1周等。
步骤1012,确定播放频次最高的多媒体曲目的演播者。
需要说明的是,如果播放频次最高的多媒体曲目的演播者有多个时,则至少可以采用下面的一种方式进行处理:1)确定每个演播者均是播放频次最高的多媒体曲目的演播者,合成每个演播者对应的演播者音色语音,随机使用某个演播者的演播者音色语音播报预设内容。2)按照演播者的知名度,选取知名度最高的演播者为播放频次最高的多媒体曲目的演播者。3)通过摄像头获取用户在听歌曲时的图像,基于该图像识别用户的姿态以及表情,以及确定与该姿态以及表情对应的演播者,当确定该用户已经听了多个演播者的歌曲时,可以基于每一个演播者对应的姿态以及表情从多个演播者中确定用户听歌曲时心情最好的演播者,将用户心情最好时对应的演播者为播放频次最高的多媒体曲目的演播者。
步骤1013,从预设演播者音频资源库中确定演播者的声学参数和韵律参数。
需要说明的是,预设演播者音频资源库中存储有演播者相关的声音数据,根据预设演播者音频资源库中存储的演播者相关的声音数据确定演播者的声学参数和韵律参数。
本申请实施例所提及的播放语音的方法,通过统计多媒体播放器中播放的多媒体曲目的频次,由播放频次最高的多媒体曲目的演播者的声学参数和韵律参数,合成演播者音色语音,可以确定演播者音色语音为用户最喜欢的语音,可以提供更精准的播放语音服务。
图3是本申请另一示例性实施例提供的确定当前播放的多媒体曲目的演播者的声学参数和韵律参数的流程示意图。在本申请图2所示实施例的基础上延伸出本申请图3所示实施例,下面着重叙述图3所示实施例与图2所示实施例的不同之处,相同之处不再赘述。
如图3所示,在本申请实施例提供的播放语音的方法中,确定当前播放的多媒体曲目的演播者的声学参数和韵律参数(即步骤1013)之前,还包括:
步骤1014,确定演播者的多媒体声音数据。
需要说明的是,可以收集演播者无伴唱纯人声版的歌声、朗读声音、说话声音等,作为演播者的多媒体声音数据。
步骤1015,将演播者的多媒体声音数据存储在预设演播者音频资源库中。
需要说明的是,将演播者的多媒体声音数据存储在预设演播者音频资源库中,即将演播者与演播者的多媒体声音数据一一对应存储在预设演播者音频资源库中,可以通过演播者的姓名与多媒体声音数据进行对应存储。例如:演播者的姓名为XX,则将XX以及与XX对应的多媒体声音数据存储在预设演播者音频资源库中。将演播者的多媒体声音数据存储在预设演播者音频资源库中,供后续确定演播者的声学参数和韵律参数使用。
本申请实施例所提及的播放语音的方法,通过确定并将演播者的多媒体声音数据,存储在预设演播者音频资源库中,方便后续确定演播者的声学参数和韵律参数使用,可以提高播放语音的实现速度。
图4是本申请一示例性实施例提供的从预设演播者音频资源库中确定演播者的声学参数和韵律参数的流程示意图。在本申请图2所示实施例的基础上延伸出本申请图4所示实施例,下面着重叙述图4所示实施例与图2所示实施例的不同之处,相同之处不再赘述。
如图4所示,在本申请实施例提供的播放语音的方法中,从预设演播者音频资源库中确定演播者的声学参数和韵律参数(即步骤1013),包括:
步骤10131,从预设演播者音频资源库中搜索演播者的多媒体声音数据。
需要说明的是,可以根据演播者的姓名,从预设演播者音频资源库中搜索演播者的多媒体声音数据。例如:演播者的姓名为XX,根据XX,从预设演播者音频资源库中搜索与XX对应的多媒体声音数据。
步骤10132,基于演播者的多媒体声音数据,确定演播者的语音的声学特征。
需要说明的是,基于演播者的多媒体声音数据,确定演播者的语音的声学特征,当演播者是歌曲的歌唱者时,可以是根据歌唱者的声音的音频数据确定歌唱者的语音的声学特征。
步骤10133,根据演播者的语音的声学特征确定演播者的声学参数和韵律参数。
需要说明的是,声学特征中包含声学参数、韵律参数等,根据演播者的语音的声学特征即可以确定演播者的声学参数和韵律参数。
本申请实施例所提及的播放语音的方法,通过从预设演播者音频资源库中搜索演播者的多媒体声音数据,基于演播者的多媒体声音数据,得到演播者的声学参数和韵律参数,实现过程简单方便,可以提高演播者音色语音的合成速度。
图5是本申请一示例性实施例提供的基于演播者的多媒体声音数据,确定演播者的语音的声学特征的流程示意图。在本申请图4所示实施例的基础上延伸出本申请图5所示实施例,下面着重叙述图5所示实施例与图4所示实施例的不同之处,相同之处不再赘述。
如图5所示,在本申请实施例提供的播放语音的方法中,基于演播者的多媒体声音数据,确定演播者的语音的声学特征(即步骤10132),包括:
步骤101321,确定预设多媒体声音语音映射模型。
在一实施例中,预设多媒体声音语音映射模型可以利用Seq2Seq(SequencetoSequence,序列到序列)模型实现。可以利用深度神经网络训练样本,建立一个从多媒体声音数据映射到语音的声学特征的Seq2Seq模型。
步骤101322,将演播者的多媒体声音数据输入预设多媒体声音语音映射模型,通过预设多媒体声音语音映射模型确定演播者的语音的声学特征。
在一实施例中,当多媒体声音数据为歌唱者的歌声时,将歌唱者的歌声输入训练好的Seq2Seq模型,通过Seq2Seq模型提取歌声的基频、时长、能量等特征,预测其正常说话时语音的声学特征。
本申请实施例所提及的播放语音的方法,通过预设多媒体声音语音映射模型,即可以将演播者的多媒体声音数据转化为演播者的语音的声学特征,可以实现多媒体声音到语音的声学特征的转化,为合成演播者音色语音提供支持,且实现过程简单快捷,可以提高播放语音的实现速度。
图6是本申请一示例性实施例提供的根据演播者的声学参数和韵律参数,合成演播者音色语音的流程示意图。在本申请图1所示实施例的基础上延伸出本申请图6所示实施例,下面着重叙述图6所示实施例与图1所示实施例的不同之处,相同之处不再赘述。
如图6所示,在本申请实施例提供的播放语音的方法中,根据演播者的声学参数和韵律参数,合成演播者音色语音(即步骤102),包括:
步骤1021,将演播者的声学参数和韵律参数,压缩为演播者音色语音编码。
需要说明的是,将演播者的声学参数和韵律参数,压缩为演播者音色语音编码,作为演播者的专属编码。
步骤1022,将演播者音色语音编码存储在预设定制演播者音色语音库中。
需要说明的是,将演播者音色语音编码存储在预设定制演播者音色语音库中,当后续再次选择使用该演播者的语音进行播报时,可以从预设定制演播者音色语音库中提取演播者音色语音编码进行合成。
步骤1023,通过预设语音合成算法对演播者音色语音编码进行合成,得到演播者音色语音。
需要说明的是,预设语音合成算法可以采用拼接合成算法和参数合成算法等,对此不做具体限定。
需要说明的是,随着后续收集的演播者的声音的数据的逐步增加,机器自动学习持续优化,在音色、音调和语速上与演播者的声音逐步接近,甚至模拟声音达到演播者本人的发音特点。
本申请实施例所提及的播放语音的方法,通过将演播者音色语音编码存储在预设定制演播者音色语音库中,后续再次选择使用,可以直接从预设定制演播者音色语音库中得到,再通过预设语音合成算法对演播者音色语音编码进行合成,得到演播者音色语音,可以加快演播者音色语音的速度。
图7是本申请另一示例性实施例提供的播放语音的方法的流程示意图。在本申请图1-6任一所示实施例的基础上延伸出本申请图7所示实施例,下面着重叙述图7所示实施例与图1-6所示实施例的不同之处,相同之处不再赘述。
如图7所示,在本申请实施例提供的播放语音的方法中,使用演播者音色语音播报预设内容(即步骤103)之前,还包括:
步骤104,采集目标用户的人脸图像和声音。
在一实施例中,采集目标用户的人脸图像可以利用摄像头监测目标用户的脸部位置,根据声源定位信息辅助调整摄像头的拍摄角度,拍摄目标用户的正脸图片作为目标用户的人脸图像。
在一实施例中,采集目标用户的声音可以采用麦克风阵列形式的声音采集模块采集目标用户的声音,并通过对麦克风阵列的各路输出信号进行分析和处理,得到一个或多个声源的位置信息,实现声源定位功能,形成定向拾音波束,并对波束以外的噪音进行抑制、对回声进行消除,保证采集到的声音的质量。
步骤105,从目标用户的人脸图像中提取目标用户的人脸特征信息,从目标用户的声音中提取目标用户的声纹特征信息。
需要说明的是,人脸特征信息如视觉特征、像素统计特征、人脸图像变换系数特征、人脸图像代数特征等,声纹特征信息如声波频谱等。
步骤106,根据目标用户的人脸特征信息和声纹特征信息,确定目标用户是否为注册用户。
在一实施例中,将目标用户的人脸特征信息和声纹特征信息,分别与预设人物匹配库中注册用户的人脸特征信息和声纹特征信息进行比较,根据比较结果,确定目标用户是否为注册用户。预设人物匹配库中保存有注册用户的人脸特征信息和声纹特征信息。
步骤107,若目标用户为注册用户,展示预设演播者音色语音列表。
需要说明的是,预设演播者音色语音列表中包括多个演播者发音和默认发音选项。将预设演播者音色语音列表展示给目标用户,供目标用户按自己的喜好和心情去选择不同的发音人的声音去播报。例如:预设演播者音色语音列表中包括演播者XX发音、演播者YY发音和默认发音。
步骤108,从预设演播者音色语音列表中,确定目标用户选择使用的演播者音色语音。
在一实施例中,根据目标用户对预设演播者音色语音列表的操作选项确定目标用户选择使用的演播者音色语音。例如:目标用户在预设演播者音色语音列表中的操作选项为演播者XX发音。
本申请实施例所提及的播放语音的方法,通过确定目标用户是否为注册用户,若目标用户为注册用户时,才展示预设演播者音色语音列表,供目标用户选择使用,提高了播放语音的私密性和安全性。
示例性装置
图8是本申请一示例性实施例提供的播放语音的装置的结构示意图。本申请实施例提供的播放语音的装置可应用到汽车的播放语音领域,亦可应用到智能机器人的播放类功能领域。如图10所示,本申请实施例提供的播放语音的装置,包括:
参数确定模块201,用于确定当前播放的多媒体曲目的演播者的声学参数和韵律参数;
合成模块202,用于根据演播者的声学参数和韵律参数,合成演播者音色语音;
播放模块203,用于使用演播者音色语音播报预设内容。
图9是本申请一示例性实施例提供的播放语音的装置中参数确定模块201的结构示意图。在本申请图8所示实施例的基础上延伸出本申请图9所示实施例,下面着重叙述图9所示实施例与图8所示实施例的不同之处,相同之处不再赘述。
如图9所示,在本申请实施例提供的播放语音的装置中,参数确定模块201包括:
统计单元2011,用于每隔一预设时间段,统计多媒体播放器中播放的多媒体曲目的频次;
第一确定单元2012,用于确定播放频次最高的多媒体曲目的演播者;
第二确定单元2013,用于从预设演播者音频资源库中确定演播者的声学参数和韵律参数。
图10是本申请另一示例性实施例提供的播放语音的装置中确定模块201的结构示意图。在本申请图9所示实施例的基础上延伸出本申请图10所示实施例,下面着重叙述图10所示实施例与图9所示实施例的不同之处,相同之处不再赘述。
如图10所示,参数确定模块201,还包括:
第三确定单元2014,用于确定演播者的多媒体声音数据;
第一存储单元2015,用于将演播者的多媒体声音数据存储在预设演播者音频资源库中。
图11是本申请一示例性实施例提供的播放语音的装置中第二确定单元2013的结构示意图。在本申请图9所示实施例的基础上延伸出本申请图11所示实施例,下面着重叙述图11所示实施例与图9所示实施例的不同之处,相同之处不再赘述。
如图11所示,在本申请实施例提供的播放语音的装置中,第二确定单元2013,包括:
搜索子单元20131,用于从预设演播者音频资源库中搜索演播者的多媒体声音数据;
第一确定子单元20132,用于基于演播者的多媒体声音数据,确定演播者的语音的声学特征;
第二确定子单元20133,用于根据演播者的语音的声学特征确定演播者的声学参数和韵律参数。
图12是本申请一示例性实施例提供的播放语音的装置中第一确定子单元20132的结构示意图。在本申请图11所示实施例的基础上延伸出本申请图12所示实施例,下面着重叙述图12所示实施例与图11所示实施例的不同之处,相同之处不再赘述。
如图12所示,在本申请实施例提供的播放语音的装置中,第一确定子单元20132,包括:
第一确定孙单元201321,用于确定预设多媒体声音语音映射模型;
第二确定孙单元201322,用于将演播者的多媒体声音数据输入预设多媒体声音语音映射模型,通过预设多媒体声音语音映射模型确定演播者的语音的声学特征。
图13是本申请一示例性实施例提供的播放语音的装置中合成模块202的结构示意图。在本申请图8所示实施例的基础上延伸出本申请图13所示实施例,下面着重叙述图13所示实施例与图8所示实施例的不同之处,相同之处不再赘述。
如图13所示,在本申请实施例提供的播放语音的装置中,合成模块202,包括:
压缩单元2021,用于将演播者的声学参数和韵律参数,压缩为演播者音色语音编码;
第二存储单元2022,用于将演播者音色语音编码存储在预设定制演播者音色语音库中;
合成单元2023,用于通过预设语音合成算法对演播者音色语音编码进行合成,得到演播者音色语音。
图14是本申请另一示例性实施例提供的播放语音的装置的结构示意图。在本申请图8-13所示实施例的基础上延伸出本申请图14所示实施例,下面着重叙述图14所示实施例与图8-13所示实施例的不同之处,相同之处不再赘述。
如图14所示,在本申请实施例提供的播放语音的装置中,还包括:
采集模块204,用于采集目标用户的人脸图像和声音;
提取模块205,用于从目标用户的人脸图像中提取目标用户的人脸特征信息,从目标用户的声音中提取目标用户的声纹特征信息;
注册用户确定模块206,用于根据目标用户的人脸特征信息和声纹特征信息,确定目标用户是否为注册用户;
展示模块207,用于若目标用户为注册用户,展示预设演播者音色语音列表;
演播者音色语音确定模块208,用于从预设演播者音色语音列表中,确定目标用户选择使用的演播者音色语音。
应当理解,图8至图14提供的播放语音的装置中的参数确定模块201、合成模块202、播放模块203、采集模块204、提取模块205、注册用户确定模块206、展示模块207和演播者音色语音确定模块208,以及参数确定模块201中包括的统计单元2011、第一确定单元2012、第二确定单元2013、第三确定单元2014和第一存储单元2015,第二确定单元2013中包括的搜索子单元20131、第一确定子单元20132和第二确定子单元20133,第一确定子单元20132中包括的第一确定孙单元201321和第二确定孙单元201322,以及合成模块202中包括的压缩单元2021、第二存储单元2022和合成单元2023的操作和功能可以参考上述图1至图7提供的播放语音的方法,为了避免重复,在此不再赘述。
示例性电子设备
图15图示了根据本申请实施例的电子设备的框图。
如图15所示,电子设备11包括一个或多个处理器111和存储器112。
处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备11中的其他组件以执行期望的功能。
存储器112可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器111可以运行所述程序指令,以实现上文所述的本申请的各个实施例的播放语音的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备11还可以包括:输入装置113和输出装置114,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,该输入装置113可以是上述的摄像头或麦克风、麦克风阵列等,用于捕捉图像或声源的输入信号。在该电子设备是单机设备时,该输入装置113可以是通信网络连接器,用于从网络处理器接收所采集的输入信号。
此外,该输入设备113还可以包括例如键盘、鼠标等等。
该输出装置114可以向外部输出各种信息,包括确定出的输出电压、输出电流信息等。该输出设备114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图15中仅示出了该电子设备11中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备11还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的播放语音的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的播放语音的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种播放语音的方法,包括:
确定当前播放的多媒体曲目的演播者的声学参数和韵律参数;
根据所述演播者的声学参数和韵律参数,合成演播者音色语音;
使用所述演播者音色语音播报预设内容。
2.根据权利要求1所述的方法,其中,确定当前播放的多媒体曲目的演播者的声学参数和韵律参数,包括:
每隔一预设时间段,统计多媒体播放器中播放的多媒体曲目的频次;
确定播放频次最高的多媒体曲目的演播者;
从预设演播者音频资源库中确定所述演播者的声学参数和韵律参数。
3.根据权利要求2所述的方法,其中,从预设演播者音频资源库中确定所述演播者的声学参数和韵律参数之前,还包括:
确定所述演播者的多媒体声音数据;
将所述演播者的多媒体声音数据存储在所述预设演播者音频资源库中。
4.根据权利要求2所述的方法,其中,从预设演播者音频资源库中确定所述演播者的声学参数和韵律参数,包括:
从所述预设演播者音频资源库中搜索所述演播者的多媒体声音数据;
基于所述演播者的多媒体声音数据,确定所述演播者的语音的声学特征;
根据所述演播者的语音的声学特征确定所述演播者的声学参数和韵律参数。
5.根据权利要求4所述的方法,其中,基于所述演播者的多媒体声音数据,确定所述演播者的语音的声学特征,包括:
确定预设多媒体声音语音映射模型;
将所述演播者的多媒体声音数据输入预设多媒体声音语音映射模型,通过所述预设多媒体声音语音映射模型确定所述演播者的语音的声学特征。
6.根据权利要求1所述的方法,其中,根据所述演播者的声学参数和韵律参数,合成演播者音色语音,包括:
将所述演播者的声学参数和韵律参数,压缩为演播者音色语音编码;
将所述演播者音色语音编码存储在预设定制演播者音色语音库中;
通过预设语音合成算法对所述演播者音色语音编码进行合成,得到所述演播者音色语音。
7.根据权利要求1-6任一权利要求所述的方法,其中,使用所述演播者音色语音播报预设内容之前,还包括:
采集目标用户的人脸图像和声音;
从所述目标用户的人脸图像中提取所述目标用户的人脸特征信息,从所述目标用户的声音中提取所述目标用户的声纹特征信息;
根据所述目标用户的人脸特征信息和声纹特征信息,确定所述目标用户是否为注册用户;
若所述目标用户为注册用户,展示预设演播者音色语音列表;
从所述预设演播者音色语音列表中,确定所述目标用户选择使用的演播者音色语音。
8.一种播放语音的装置,包括:
参数确定模块,用于确定当前播放的多媒体曲目的演播者的声学参数和韵律参数;
合成模块,用于根据所述演播者的声学参数和韵律参数,合成演播者音色语音;
播放模块,用于使用所述演播者音色语音播报预设内容。
9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7任一所述的播放语音的方法。
10.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1-7任一所述的播放语音的方法。
CN201910141059.5A 2019-02-26 2019-02-26 播放语音的方法、装置及电子设备 Active CN111627417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910141059.5A CN111627417B (zh) 2019-02-26 2019-02-26 播放语音的方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910141059.5A CN111627417B (zh) 2019-02-26 2019-02-26 播放语音的方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111627417A true CN111627417A (zh) 2020-09-04
CN111627417B CN111627417B (zh) 2023-08-08

Family

ID=72259609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910141059.5A Active CN111627417B (zh) 2019-02-26 2019-02-26 播放语音的方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111627417B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509552A (zh) * 2020-11-27 2021-03-16 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03132699A (ja) * 1989-10-04 1991-06-06 Philips Gloeilampenfab:Nv 音声合成用デバイス
JP2007101632A (ja) * 2005-09-30 2007-04-19 Oki Electric Ind Co Ltd 音韻モデル選択装置,音韻モデル選択方法およびコンピュータプログラム
CN102779508A (zh) * 2012-03-31 2012-11-14 安徽科大讯飞信息科技股份有限公司 语音库生成设备及其方法、语音合成系统及其方法
CN104464716A (zh) * 2014-11-20 2015-03-25 北京云知声信息技术有限公司 一种语音播报系统和方法
EP2930714A1 (en) * 2012-12-04 2015-10-14 National Institute of Advanced Industrial Science and Technology Singing voice synthesizing system and singing voice synthesizing method
CN105304081A (zh) * 2015-11-09 2016-02-03 上海语知义信息技术有限公司 一种智能家居的语音播报系统及语音播报方法
CN105304080A (zh) * 2015-09-22 2016-02-03 科大讯飞股份有限公司 语音合成装置及方法
CN105427855A (zh) * 2015-11-09 2016-03-23 上海语知义信息技术有限公司 一种智能软件的语音播报系统及语音播报方法
CN108737872A (zh) * 2018-06-08 2018-11-02 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN108847215A (zh) * 2018-08-29 2018-11-20 北京云知声信息技术有限公司 基于用户音色进行语音合成的方法及装置
CN108962217A (zh) * 2018-07-28 2018-12-07 华为技术有限公司 语音合成方法及相关设备
CN111429882A (zh) * 2019-01-09 2020-07-17 北京地平线机器人技术研发有限公司 播放语音的方法、装置及电子设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03132699A (ja) * 1989-10-04 1991-06-06 Philips Gloeilampenfab:Nv 音声合成用デバイス
JP2007101632A (ja) * 2005-09-30 2007-04-19 Oki Electric Ind Co Ltd 音韻モデル選択装置,音韻モデル選択方法およびコンピュータプログラム
CN102779508A (zh) * 2012-03-31 2012-11-14 安徽科大讯飞信息科技股份有限公司 语音库生成设备及其方法、语音合成系统及其方法
EP2930714A1 (en) * 2012-12-04 2015-10-14 National Institute of Advanced Industrial Science and Technology Singing voice synthesizing system and singing voice synthesizing method
CN104464716A (zh) * 2014-11-20 2015-03-25 北京云知声信息技术有限公司 一种语音播报系统和方法
CN105304080A (zh) * 2015-09-22 2016-02-03 科大讯飞股份有限公司 语音合成装置及方法
CN105304081A (zh) * 2015-11-09 2016-02-03 上海语知义信息技术有限公司 一种智能家居的语音播报系统及语音播报方法
CN105427855A (zh) * 2015-11-09 2016-03-23 上海语知义信息技术有限公司 一种智能软件的语音播报系统及语音播报方法
CN108737872A (zh) * 2018-06-08 2018-11-02 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN108962217A (zh) * 2018-07-28 2018-12-07 华为技术有限公司 语音合成方法及相关设备
CN108847215A (zh) * 2018-08-29 2018-11-20 北京云知声信息技术有限公司 基于用户音色进行语音合成的方法及装置
CN111429882A (zh) * 2019-01-09 2020-07-17 北京地平线机器人技术研发有限公司 播放语音的方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
R J SKERRY-RYAN 等: "Towards End to End Prosody Transfer for Expressive Speech Synthesis with Tacotron" *
吕声: "说话人转换方法的研究" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509552A (zh) * 2020-11-27 2021-03-16 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质
CN112509552B (zh) * 2020-11-27 2023-09-26 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN111627417B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN110970014B (zh) 语音转换、文件生成、播音、语音处理方法、设备及介质
CN106898340B (zh) 一种歌曲的合成方法及终端
JP2019216408A (ja) 情報を出力するための方法、及び装置
US11120785B2 (en) Voice synthesis device
WO2014161282A1 (zh) 视频文件播放进度的调整方法及装置
JP7453712B2 (ja) オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器
JP2002358092A (ja) 音声合成システム
CN101044549A (zh) 向用户通知媒体内容项目的类别的数据处理设备和方法
CN111370024B (zh) 一种音频调整方法、设备及计算机可读存储介质
CN113691909B (zh) 具有音频处理推荐的数字音频工作站
CN111627417B (zh) 播放语音的方法、装置及电子设备
CN110992984B (zh) 音频处理方法及装置、存储介质
CN111429882B (zh) 播放语音的方法、装置及电子设备
CN110503991A (zh) 语音播报方法、装置、电子设备及存储介质
CN113823300B (zh) 语音处理方法及装置、存储介质、电子设备
CN110232911B (zh) 跟唱识别方法、装置、存储介质及电子设备
JP6044490B2 (ja) 情報処理装置、話速データ生成方法、及びプログラム
JP2006189799A (ja) 選択可能な音声パターンの音声入力方法及び装置
CN113808611A (zh) 音频播放方法、装置、计算机可读存储介质及电子设备
KR101429138B1 (ko) 복수의 사용자를 위한 장치에서의 음성 인식 방법
CN111696566A (zh) 语音处理方法、装置和介质
CN111091807A (zh) 语音合成方法、装置、计算机设备及存储介质
CN114464151B (zh) 修音方法及装置
CN109977239B (zh) 一种信息处理方法和电子设备
CN110289010B (zh) 一种声音采集的方法、装置、设备和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant