CN108364638A - 一种语音数据处理方法、装置、电子设备和存储介质 - Google Patents

一种语音数据处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN108364638A
CN108364638A CN201810029103.9A CN201810029103A CN108364638A CN 108364638 A CN108364638 A CN 108364638A CN 201810029103 A CN201810029103 A CN 201810029103A CN 108364638 A CN108364638 A CN 108364638A
Authority
CN
China
Prior art keywords
data
voice data
account
voice
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810029103.9A
Other languages
English (en)
Inventor
潘杨
廖宇
袁敏
肖巍
刘佳佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
MIGU Music Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
MIGU Music Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, MIGU Music Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201810029103.9A priority Critical patent/CN108364638A/zh
Publication of CN108364638A publication Critical patent/CN108364638A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]
    • H04L51/046Interoperability with other network applications or services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/06Message adaptation to terminal or network requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0876Network architectures or network communication protocols for network security for authentication of entities based on the identity of the terminal or configuration, e.g. MAC address, hardware or software configuration or device fingerprint
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details

Abstract

本发明公开了一种语音数据处理方法,所述方法包括:识别第一语音数据,确定所述第一语音数据的语义;选择与所述语义相适配的声学特征;利用所述声学特征,将所述第一语音数据转换为第二语音数据。本发明公开了一种语音数据处理装置、电子设备和存储介质。

Description

一种语音数据处理方法、装置、电子设备和存储介质
技术领域
本发明涉及移动终端领域中的信息处理技术,特别涉及一种语音数据处理的方法、装置、电子设备和存储介质。
背景技术
随着移动通信技术的飞速发展,除了传统的电话通信、短信等功能外,目前又衍生出了许多其他功能。比如,依托于电信语音交互技术的发展而产生的语音交互业务,该语音交互业务利用互动式语音应答(Interactive Voice Response,IVR)系统,为用户实现了各种各样的服务。用户只需要通过手机拨打固定的号码,即可接入服务中心,并根据操作提示语音进行操作以获得用户需要的信息,或者实现语音互动等功能。
语音聊天交友是IVR系统所提供的一种常见的功能。用户通过手机拨打指定号码进入IVR系统,通过全程的语音引导,即可进入语音聊天室,并与其他用户进行语音聊天交互。相比于其他社交软件,IVR系统所提供的这种语音聊天方式,操作简单,且全程有语音引导,使得一些文化层次偏低和对新事物接收程度较低的人群也可以轻松快速的上手使用。
然而,用户之间只能通过单一的数字身份标识号(Identification,ID)作为认识彼此的标识,极大的影响了用户之间的交流以及自我个性的展示,且用户在语音交流过程中,只能通过系统电子合成音播报的数字号来确定正在跟自己交流的用户,极大的影响了用户使用体验。
发明内容
为解决现有存在的技术问题,本发明实施例主要提供一种语音数据处理方法、装置、电子设备和存储介质,可以解决用户在使用IVR系统与其他用户进行语音交流过程中,仅能通过数字号进行身份确认的问题。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种语音数据处理方法,所述方法包括:
识别第一语音数据,确定所述第一语音数据的语义;
选择与所述语义相适配的声学特征;
利用所述声学特征,将所述第一语音数据转换为第二语音数据。
上述方案中,所述方法还包括:
根据预存的声学特征建立声学特征库,其中,所述声学特征库中的声学特征具有特征标签,所述特征标签用于选择与所述第一语音数据的语义相适配的特征标签。
上述方案中,其特征在于,所述选择与所述语义相适配的声学特征,包括:
将所述第一语音数据转换成文字数据;
确定与所述文字数据对应的特征标签;
根据确定的特征标签,获取与所述语义相适配的声学特征。
上述方案中,所述确定所述文字数据对应的特征标签,包括:
提取所述文字数据的关键字;
将所述关键字与所述特征标签进行匹配,得到匹配成功的特征标签。
上述方案中,所述方法还包括:
建立所述第二语音数据与第一账号的对应关系,所述第一账号为与所述第一语音数据对应的用户账号;
存储所述第二语音数据以及所述对应关系;
当所述第一账号与第二账号建立会话时,将所述第二语音数据发送给所述第二账号的终端。
本发明实施例还提供了一种语音数据处理装置,所述装置包括:识别模块、处理模块和转换模块;其中,
所述识别模块,用于识别第一语音数据,确定所述第一语音数据的语义;
所述处理模块,用于选择与所述语义相适配的声学特征;
所述转换模块,用于利用所述声学特征,将所述第一语音数据转换为第二语音数据。
上述方案中,所述处理模块,还用于根据预存的声学特征建立声学特征库,其中,所述声学特征库中的声学特征具有特征标签,所述特征标签用于选择与所述第一语音数据的语义相适配的特征标签。
上述方案中,所述处理模块,具体用于将所述第一语音数据转换成文字数据;确定与所述文字数据对应的特征标签;根据确定的特征标签,获取与所述语义相适配的声学特征。
上述方案中,所述处理模块,具体用于提取所述文字数据的关键字;将所述关键字与所述特征标签进行匹配,得到匹配成功的特征标签。
上述方案中,所述处理模块,还用于建立所述第二语音数据与第一账号的对应关系,所述第一账号为与所述第一语音数据对应的用户账号;
所述装置还包括:存储模块和发送模块;
所述存储模块,用于存储所述第二语音数据以及所述对应关系;
所述发送模块,用于当所述第一账号与第二账号建立会话时,将所述第二语音数据发送给所述第二账号的终端。
本发明实施例还提供了一种电子设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
所述处理器与所述存储器连接,用于运行所述计算机程序时,执行上述任一项所述方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。
本发明实施例所提供的语音数据处理的方法、装置、电子设备和存储介质,可以识别用户输入的第一语音数据,确定所述第一语音数据的语义,进而选择与第一语音数据的语义相适配的声学特征,通过选择的声学特征将所述第一语音数据转换成第二语音数据。由于语音数据的语义会存在差异,进而根据语音数据的语义选择的声学特征也可以不同,从而在利用选择的声学特征转换用户输入的语音数据时,得到的第二语音数据也可以不同,使得转换后的语音数据的声学特征是与语音内容相适配的,从而使得接收方听到的声音特定与语音内容一致,从而丰富了语音转换的效果,提升了用户使用满意度。在一些应用场景下,可以利用第二语音数据标识用户,例如,可以作为用户账号的语音ID。过上述技术方案,一方面可以根据用户输入的第一语音数据,灵活地生成符合用户需要的第二语音数据;另外一方面,由于用户输入的第一语音数据不同,生成的第二语音数据的声音特征也可以各不相同,可以满足用户对语音数据的个性化需求。可以解决现有技术中仅能通过数字号进行身份确认的问题,为用户带来更好的使用体验。
附图说明
图1为本发明实施例中语音数据方法的基本流程示意图;
图2为本发明实施例中语音数据方法的具体流程示意图;
图3为本发明实施例中语音数据装置的结构示意图;
图4为本发明实施例中电子设备的结构示意图。
具体实施方式
本发明实施例提供的语音数据处理方法,可以在用户使用账号首次登陆IVR系统时,通过语音引导的方式,获取用户输入的第一语音数据。然后可以识别所述第一语音数据,确定与用户输入的语音数据所对应的语义,进而可以确定与该语义所对应的声学特征,利用确定的声学特征将所述第一语音数据合成第二语音数据,并可以将第二语音数据作为该用户在IVR系统上的语音ID。
通过本发明实施例的语音数据处理方式,可以根据用户输入的语音数据,灵活地为用户合成符合用户需要的语音ID。同时,由于用户输入的语音数据不同,合成的第二语音数据的音色或音调也各不相同,从而可以满足用户对ID的个性化需求,为用户带来了更好的使用体验。
本发明实施例所提供语音数据处理方法的基本流程如图1所示,包括以下步骤:
步骤101,识别第一语音数据,确定所述第一语音数据的语义;
步骤102,选择与所述语义相适配的声学特征;
步骤103,利用所述声学特征,将所述第一语音数据转换为第二语音数据。
上述方法可以应用在语音数据处理的装置、设备或者系统中。可选地,所述语音数据处理方法可应用在IVR系统中。
所述第一语音数据可以为用户输入的语音数据。例如,当用户使用的账号为首次登录的用户账号时,IVR系统可获取用户输入的第一语音数据。
所述第二语音数据可以为经过语音合成以后具有特定人物声音的语音数据,具体如具有孙悟空、猪八戒等人物声音的语音数据。
步骤101之前,所述方法还可包括:判断当前用户账号是否为首次登陆的用户账号;若当前用户账号为首次登录的用户账号,则获取当前用户账号的用户输入的所述第一语音数据。
所述判断当前用户账号是否为首次登陆的用户账号可包括:判断当前用户账号是否绑定有用户语音ID。如果判断不存在与当前用户账号绑定的用户语音ID,则确定当前用户账号为首次登陆的用户账号;如果判断存在与当前用户账号绑定的用户语音ID,则确定当前用户账号为非首次登陆的用户账号。
所述获取当前用户账号的用户输入的所述第一语音数据,可以通过向当前用户使用的用户终端发送获取语音数据的指令实现。例如,IVR系统判断当前用户账号为首次使用语音聊天交友功能时,IVR系统可以向用户播报一段语音提示,通过该语音提示可以引导用户进行语音数据的录制。具体如IVR系统可以向用户使用的终端发出语音提示“录入语音昵称请按7”,当接收到用户点击终端数字“7”按键的操作,IVR系统启动语音数据录制功能,采集用户输入的语音数据。IVR系统可以将特定时长采集的语音数据作为用户的语音昵称。
步骤101中,所述识别第一语音数据,确定所述第一语音数据的语义,可包括:将所述第一语音数据转换为文字数据,确定所述文字数据所表达的含义,将所述文字数据表达的含义作为所述第一语音数据的语义。
或者,可以提取所述文字数据的关键字,将所述关键字作为所述第一语音数据的语义。
所述方法还包括:根据预存的声学特征建立声学特征库,其中,所述声学特征库中的声学特征具有特征标签,所述特征标签用于选择与所述第一语音数据的语义相适配的特征标签。
所述声学特征可包括音色、音调和响度等表征声音特征的参数。通过声学特征,可以改变语音数据的音色、音调或响度等声音特征,生成具有特定声音特征的语音数据,如生成具有童音特征的语音数据。需要说明的是,本发明实施例中的声音特征为具有特定人物或动物的声音特征,例如,具有“孙悟空”声音的声音特征。
步骤102中,所述选择与所述语义相适配的声学特征,包括:将所述第一语音数据转换成文字数据;确定与所述文字数据对应的特征标签;根据确定的特征标签,获取与所述语义相适配的声学特征。
所述文字数据的格式可以为由文本到语音(Text To Speech,TTS)文字,在接收所述第一语音数据之后,可以通过识别所述第一语音数据,将所述第一语音数据转换为文字数据。该文字数据可以作为当前用户的文字昵称。
所述确定所述文字数据对应的特征标签,可包括:提取所述文字数据的关键字;将所述关键字与所述特征标签进行匹配,得到匹配成功的特征标签。具体如,所述第一语音数据为“齐天大圣孙悟空”,则所述第一语音数据的关键字可以为“孙悟空”;将“孙悟空”与预存的声学特征的特征标签进行匹配,得到匹配成功的特征标签“孙悟空”,进而可以在预先保存的声学特征库中获取与“孙悟空”对应的声音特征。
步骤103中,所述利用所述声学特征,将所述第一语音数据转换为第二语音数据,可包括:将所述第一语音数据的声学特征更改为与所述第一语音数据的语义相适配的声学特征,生成所述第二语音数据。
当所述声学特征为音色特征时,所述将所述第一语音数据转换为第二语音数据可包括:获取所述第一语音数据的声学频谱,将所述第一语音数据的声学频谱替换为与匹配成功的音色对应的声学频谱。所述声学频谱可以为声音的频率与振幅的分布曲线,相同音色的声音具有相同的声学频谱。具体地,可以通过改变第一声音数据相应的的音轨参数声学频谱获取所述第二音频数据。例如,所述第一语音数据为“齐天大圣孙悟空”,所述第一语音数据的声音特征为当前用户的声音特征;在步骤103中,可以将第一语音数据中当前用户的声学特征更改为与“齐天大圣孙悟空”相适配的声学特征,生成具有孙悟空声音特征的第二语音数据。
这里,将所述第一语音数据转换为第二语音数据,可以利用神经网络模型等与特定声学特征建立有对应关系的转换模型,将所述第一语音数据直接转换为第二语音数据。将所述第一语音数据输入到所述转换模型之后,该转换模型直接就输出基于与语义内容相适配的声学特征的形成的第二语音数据。
进一步地,所述方法还包括:建立所述第二语音数据与第一账号的对应关系,所述第一账号为与所述第一语音数据对应的用户账号;存储所述第二语音数据以及所述对应关系;当所述第一账号与第二账号建立会话时,将所述第二语音数据发送给所述第二账号的终端。
所述第二语音数据可以作为第一账号的用户的语音昵称。为了避免用户语音昵称出现重复,在建立语音昵称与用户账号的关联关系之前,可以在用户语音昵称数据库中进行扫描,若在用户语音昵称数据库中发现与新生成的用户语音昵称相同语音昵称,则可向当前用户的终端发送“此昵称已存在,请重新录制”提示语音,以提示用户重新进行语音昵称设置;若无相同语音昵称,则在接收到确认使用此语音昵称的消息后,将此语音昵称保存在用户语音昵称数据库中。
当所述第一账号与所述第二账号建立会话时,第二账号的终端可收到第一账号的用户语音昵称,例如,第二账号的用户可以听到通过孙悟空声音发出的“齐天大圣孙悟空”。这样,IVR系统可以根据用户的语音输入,灵活地为用户合成符合用户需要的语音ID;由于用户输入语音的不同,合成的语音ID的发音方式也各不相同,可以满足用户对ID的个性化需求,为用户带来更好的使用
体验。
本发明实施例所提供的语音数据处理方法的具体流程如图2所示,具体包括:
步骤201,IVR系统判断当前用户账号是否为首次登陆的用户账号,若为首次登陆的用户账号,则执行步骤202,否则,执行步骤207。
在IVR系统中,可以将当前用户使用的终端号作为当前用户的用户账号,当前用户的终端可以通过终端号接入登陆IVR系统。IVR系统确定当前用户的用户账号登陆语音聊天交友功能后,IVR系统根据当前用户的终端号,查看当前用户的用户账号是否存在与该终端号绑定的用户ID。如果判断该终端号不存在绑定的用户ID,则确定该用户账号为首次登陆语音聊天交友功能;如果判断该终端号不存在绑定的用户ID,则确定该用户账号为非首次登陆该用户语音聊天交友功能。
步骤202,IVR系统获取用户输入的第一语音数据;
IVR系统可通过向用户终端发送语音提示,引导用户进行语音昵称的录制。当通过IVR系统确定当前用户的用户账号为首次登陆语音聊天交友功能的用户账号后,IVR系统会向用户终端发送一段语音提示,以通过该语音提示引导用户进行语音昵称的录制。
例如,IVR系统可以向用户终端发送语音提示“录入语音昵称请按7”,当接收用户终端发送的点击终端按键“7”的操作指令,IVR系统启动语音昵称录制功能,同时可以指示终端开启终端的麦克风,以获取当前用户输入的第一语音数据,IVR系统可以获取特定时长的第一语音数据作为语音昵称。
步骤203,IVR系统识别所述第一语音数据,将所述第一语音数据转换为文字数据。
所述IVR系统具有语音转写功能,可以将接收的第一语音数据转换为相应的TTS文字数据,所述文字数据也可称为文字昵称。
步骤204,获取所述文字数据的关键字,将所述关键字与声学特征库中声学特征的特征标签进行匹配,获取与匹配成功的特征标签对应的声学特征。
例如,通过执行步骤203得到的一个文字昵称为,“齐天大圣孙悟空”,则该文字昵称的关键字为“孙悟空”。在所述声学特征库中获取具有“孙悟空”特征标签的声学特征,如获取与孙悟空声音对应的音调、音色或音高等声学特征。
需要说明的是,由不同特征标签的声学特征生成的语音数据不同,例如,文字昵称a所对应的特征标签为孙悟空,文字昵称b所对应的特征标签为猪八戒,则通过文字昵称a合成的语音数据的音色与孙悟空的音色相同,文字昵称b合成的语音数据的音色与猪八戒的音色相同。
步骤205,利用获取的声学特征,对所述文字数据进行语音合成,生成第二语音数据,所述第一语音数据可以为个性化的语音昵称。
利用步骤204中获取的声学特征,对步骤203中得到的文本数据进行语音合成,以得到文本昵称对应的个性化语音昵称。
例如,步骤203中确定的用户的文本昵称为“齐天大圣孙悟空”,通过执行步骤204确定的该文本昵称对应的特征标签为“孙悟空”,则合成的语音昵称可为通过孙悟空声音发出的“齐天大圣孙悟空”。
步骤206,保存所述第二语音数据,建立所述第二语音数据与用户账号的关联关系。
可以将所述第二语音数据作为当前用户的用户账号的语音昵称。进一步地,为了避免用户账号的语音昵称出现重复的情况,在建立语音昵称与用户账号的关联关系之前,IVR系统可以在语音昵称库中进行扫描,若在用户语音昵称数据库中发现与当前用户的语音昵称相同语音昵称,则向当前用户终端发送“此昵称已存在,请重新录制”语音信息,以提示当前用户重新录制第一语音信息;若不存在相同语音昵称,则在接收到确认使用此语音昵称的信息后,将此语音昵称保存在语音昵称库中。
步骤207,获取当前用户账号的第二语音数据,将所述第二语音数据发送给与当前用户建立连接的用户终端。
在当前用户终端与其他用户终端进行语音通信时,可以在语音昵称数据库中查找与当前用户的用户账户所对应的语音昵称,并将当前用户的用户账号的语音昵称发送给其他用户终端。
本发明实施例还提供了一种语音数据处理装置,所述装置的组成结构如图3所示,包括:识别模块301、处理模块302和转换模块303;其中,
所述识别模块301,用于识别第一语音数据,确定所述第一语音数据的语义;
所述处理模块302,用于选择与所述语义相适配的声学特征;
所述转换模块303,用于利用所述声学特征,将所述第一语音数据转换为第二语音数据。
进一步地,所述处理模块302,还用于根据预存的声学特征建立声学特征库,其中,所述声学特征库中的声学特征具有特征标签,所述特征标签用于选择与所述第一语音数据的语义相适配的特征标签。
进一步地,所述处理模块302,具体用于将所述第一语音数据转换成文字数据;确定与所述文字数据对应的特征标签;根据确定的特征标签,获取与所述语义相适配的声学特征。
所述处理模块302,具体用于提取所述文字数据的关键字;将所述关键字与所述特征标签进行匹配,得到匹配成功的特征标签。
所述处理模块302,还用于建立所述第二语音数据与第一账号的对应关系,所述第一账号为与所述第一语音数据对应的用户账号;
进一步地,所述装置还包括:存储模块304和发送模块305;
所述存储模块304,用于存储所述第二语音数据以及所述对应关系;
所述发送模块305,用于当所述第一账号与第二账号建立会话时,将所述第二语音数据发送给所述第二账号的终端。
具体地,所述处理模块302判断当前用户账号是否绑定有用户语音ID。如果判断不存在与当前用户账号绑定的用户语音ID,则确定当前用户账号为首次登陆的用户账号;如果判断存在与当前用户账号绑定的用户语音ID,则确定当前用户账号为非首次登陆的用户账号。如果当前用户账号为首次登陆的账号,处理模块302可以获取当前用户输入的第一语音数据。
所述识别模块301可以识别所述第一语音数据,将所述第一语音数据转换为文字数据。所述处理模块302提取所述文字数据的关键字,将所述关键字与所述特征标签进行匹配,得到匹配成功的特征标签,再通过匹配成功的特征标签可以获取与所述第一语音数据的语义相适配的声学特征参数。所述转换模块303利用获取的声学特征参数,将所述文字数据转换成具有特定人物声音特征的第二语音数据,如具有孙悟空声音的第二语音数据。
本发明实施例还提供了一种电子设备,所述装置的组成结构如图4所示,包括:处理器401和用于存储能够在处理器上运行的计算机程序的存储器402,
所述处理器与所述存储器连接,用于运行所述计算机程序时,执行如下所述方法的步骤:
识别第一语音数据,确定所述第一语音数据的语义;
选择与所述语义相适配的声学特征;
利用所述声学特征,将所述第一语音数据转换为第二语音数据。
所述处理器用于运行所述计算机程序时,还执行:
根据预存的声学特征建立声学特征库,其中,所述声学特征库中的声学特征具有特征标签,所述特征标签用于选择与所述第一语音数据的语义相适配的特征标签。
所述处理器用于运行所述计算机程序时,还执行:
将所述第一语音数据转换成文字数据;
确定与所述文字数据对应的特征标签;
根据确定的特征标签,获取与所述语义相适配的声学特征。
所述处理器用于运行所述计算机程序时,还执行:
提取所述文字数据的关键字;
将所述关键字与所述特征标签进行匹配,得到匹配成功的特征标签。
所述处理器用于运行所述计算机程序时,还执行:
建立所述第二语音数据与第一账号的对应关系,所述第一账号为与所述第一语音数据对应的用户账号;
存储所述第二语音数据以及所述对应关系;
当所述第一账号与第二账号建立会话时,将所述第二语音数据发送给所述第二账号的终端。
可以理解的是,存储器可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性随机存取存储器(ferromagnetic random access memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory,CD-ROM);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static Random Access Memory,SRAM)、同步静态随机存取存储器(Synchronous Static Random Access Memory,SSRAM)、动态随机存取存储器(DynamicRandom Access Memory,DRAM)、同步动态随机存取存储器(Synchronous Dynamic RandomAccess Memory,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSynchronous Dynamic Random Access Memory,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced Synchronous Dynamic Random Access Memory,ESDRAM)、同步连接动态随机存取存储器(SyncLink Dynamic Random Access Memory,SLDRAM)、直接内存总线随机存取存储器(Direct Rambus Random Access Memory,DRRAM)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如下所述方法的步骤:
识别第一语音数据,确定所述第一语音数据的语义;
选择与所述语义相适配的声学特征;
利用所述声学特征,将所述第一语音数据转换为第二语音数据。
该计算机程序被处理器执行时,还实现:
根据预存的声学特征建立声学特征库,其中,所述声学特征库中的声学特征具有特征标签,所述特征标签用于选择与所述第一语音数据的语义相适配的特征标签。
该计算机程序被处理器执行时,还实现:
将所述第一语音数据转换成文字数据;
确定与所述文字数据对应的特征标签;
根据确定的特征标签,获取与所述语义相适配的声学特征。
该计算机程序被处理器执行时,还实现:
提取所述文字数据的关键字;
将所述关键字与所述特征标签进行匹配,得到匹配成功的特征标签。
该计算机程序被处理器执行时,还实现:
建立所述第二语音数据与第一账号的对应关系,所述第一账号为与所述第一语音数据对应的用户账号;
存储所述第二语音数据以及所述对应关系;
当所述第一账号与第二账号建立会话时,将所述第二语音数据发送给所述第二账号的终端。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (12)

1.一种语音数据处理方法,其特征在于,所述方法包括:
识别第一语音数据,确定所述第一语音数据的语义;
选择与所述语义相适配的声学特征;
利用所述声学特征,将所述第一语音数据转换为第二语音数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据预存的声学特征建立声学特征库,其中,所述声学特征库中的声学特征具有特征标签,所述特征标签用于选择与所述第一语音数据的语义相适配的特征标签。
3.根据权利要求2所述的方法,其特征在于,所述选择与所述语义相适配的声学特征,包括:
将所述第一语音数据转换成文字数据;
确定与所述文字数据对应的特征标签;
根据确定的特征标签,获取与所述语义相适配的声学特征。
4.根据权利要求3所述的方法,其特征在于,所述确定所述文字数据对应的特征标签,包括:
提取所述文字数据的关键字;
将所述关键字与所述特征标签进行匹配,得到匹配成功的特征标签。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
建立所述第二语音数据与第一账号的对应关系,所述第一账号为与所述第一语音数据对应的用户账号;
存储所述第二语音数据以及所述对应关系;
当所述第一账号与第二账号建立会话时,将所述第二语音数据发送给所述第二账号的终端。
6.一种语音数据处理装置,其特征在于,所述装置包括:识别模块、处理模块和转换模块;其中,
所述识别模块,用于识别第一语音数据,确定所述第一语音数据的语义;
所述处理模块,用于选择与所述语义相适配的声学特征;
所述转换模块,用于利用所述声学特征,将所述第一语音数据转换为第二语音数据。
7.根据权利要求6所述的装置,其特征在于,所述处理模块,还用于根据预存的声学特征建立声学特征库,其中,所述声学特征库中的声学特征具有特征标签,所述特征标签用于选择与所述第一语音数据的语义相适配的特征标签。
8.根据权利要求7所述的装置,其特征在于,
所述处理模块,具体用于将所述第一语音数据转换成文字数据;确定与所述文字数据对应的特征标签;根据确定的特征标签,获取与所述语义相适配的声学特征。
9.根据权利要求8所述的装置,其特征在于,
所述处理模块,具体用户提取所述文字数据的关键字;将所述关键字与所述特征标签进行匹配,得到匹配成功的特征标签。
10.根据权利要求6所述的装置,其特征在于,
所述处理模块,还用于建立所述第二语音数据与第一账号的对应关系,所述第一账号为与所述第一语音数据对应的用户账号;
所述装置还包括:存储模块和发送模块;
所述存储模块,用于存储所述第二语音数据以及所述对应关系;
所述发送模块,用于当所述第一账号与第二账号建立会话时,将所述第二语音数据发送给所述第二账号的终端。
11.一种电子设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
所述处理器与所述存储器连接,用于运行所述计算机程序时,执行权利要求1至5任一项所述方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。
CN201810029103.9A 2018-01-12 2018-01-12 一种语音数据处理方法、装置、电子设备和存储介质 Pending CN108364638A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810029103.9A CN108364638A (zh) 2018-01-12 2018-01-12 一种语音数据处理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810029103.9A CN108364638A (zh) 2018-01-12 2018-01-12 一种语音数据处理方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN108364638A true CN108364638A (zh) 2018-08-03

Family

ID=63011111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810029103.9A Pending CN108364638A (zh) 2018-01-12 2018-01-12 一种语音数据处理方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN108364638A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288975A (zh) * 2019-05-17 2019-09-27 北京达佳互联信息技术有限公司 语音风格迁移方法、装置、电子设备及存储介质
CN110853621A (zh) * 2019-10-09 2020-02-28 科大讯飞股份有限公司 语音顺滑方法、装置、电子设备及计算机存储介质
CN112837700A (zh) * 2021-01-11 2021-05-25 网易(杭州)网络有限公司 一种情感化的音频生成方法和装置
CN112989103A (zh) * 2021-05-20 2021-06-18 广州朗国电子科技有限公司 消息播放方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1870666A (zh) * 2005-05-26 2006-11-29 日本电气株式会社 具有语音改变器的电话和用于电话的控制方法和控制程序
CN102568472A (zh) * 2010-12-15 2012-07-11 盛乐信息技术(上海)有限公司 说话人可选的语音合成系统及其实现方法
CN103236259A (zh) * 2013-03-22 2013-08-07 乐金电子研发中心(上海)有限公司 语音识别处理及反馈系统、语音回复方法
CN104391673A (zh) * 2014-11-20 2015-03-04 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN104681024A (zh) * 2013-11-28 2015-06-03 张正国 一种语音交互控制系统
CN106328139A (zh) * 2016-09-14 2017-01-11 努比亚技术有限公司 一种语音交互的方法和系统
CN106571136A (zh) * 2016-10-28 2017-04-19 努比亚技术有限公司 一种语音输出装置和方法
CN106571145A (zh) * 2015-10-08 2017-04-19 重庆邮电大学 一种语音模仿方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1870666A (zh) * 2005-05-26 2006-11-29 日本电气株式会社 具有语音改变器的电话和用于电话的控制方法和控制程序
CN102568472A (zh) * 2010-12-15 2012-07-11 盛乐信息技术(上海)有限公司 说话人可选的语音合成系统及其实现方法
CN103236259A (zh) * 2013-03-22 2013-08-07 乐金电子研发中心(上海)有限公司 语音识别处理及反馈系统、语音回复方法
CN104681024A (zh) * 2013-11-28 2015-06-03 张正国 一种语音交互控制系统
CN104391673A (zh) * 2014-11-20 2015-03-04 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN106571145A (zh) * 2015-10-08 2017-04-19 重庆邮电大学 一种语音模仿方法和装置
CN106328139A (zh) * 2016-09-14 2017-01-11 努比亚技术有限公司 一种语音交互的方法和系统
CN106571136A (zh) * 2016-10-28 2017-04-19 努比亚技术有限公司 一种语音输出装置和方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288975A (zh) * 2019-05-17 2019-09-27 北京达佳互联信息技术有限公司 语音风格迁移方法、装置、电子设备及存储介质
CN110853621A (zh) * 2019-10-09 2020-02-28 科大讯飞股份有限公司 语音顺滑方法、装置、电子设备及计算机存储介质
CN110853621B (zh) * 2019-10-09 2024-02-13 科大讯飞股份有限公司 语音顺滑方法、装置、电子设备及计算机存储介质
CN112837700A (zh) * 2021-01-11 2021-05-25 网易(杭州)网络有限公司 一种情感化的音频生成方法和装置
CN112989103A (zh) * 2021-05-20 2021-06-18 广州朗国电子科技有限公司 消息播放方法、装置及存储介质

Similar Documents

Publication Publication Date Title
US9214154B2 (en) Personalized text-to-speech services
CN103345467B (zh) 语音翻译系统
FI115868B (fi) Puhesynteesi
US9715873B2 (en) Method for adding realism to synthetic speech
US6775651B1 (en) Method of transcribing text from computer voice mail
CN110751943A (zh) 一种语音情绪识别方法、装置以及相关设备
CN110049270A (zh) 多人会议语音转写方法、装置、系统、设备及存储介质
CN109064315A (zh) 逾期账单智能催收方法、装置、计算机设备及存储介质
CN108364638A (zh) 一种语音数据处理方法、装置、电子设备和存储介质
CN110149805A (zh) 双向语音翻译系统、双向语音翻译方法和程序
US20040064322A1 (en) Automatic consolidation of voice enabled multi-user meeting minutes
CN104144108B (zh) 一种消息响应方法、装置及系统
CN111294471B (zh) 一种智能电话应答方法和系统
CN109147800A (zh) 应答方法和装置
US7570746B2 (en) Method and apparatus for voice interactive messaging
JP2003521750A (ja) スピーチシステム
JPWO2014069122A1 (ja) 表現分類装置、表現分類方法、不満検出装置及び不満検出方法
TW201214413A (en) Modification of speech quality in conversations over voice channels
CN107733722A (zh) 用于配置语音服务的方法和装置
CN110933225B (zh) 通话信息获取方法、装置、存储介质及电子设备
KR20150017662A (ko) 텍스트-음성 변환 방법, 장치 및 저장 매체
CN109493866A (zh) 智能音箱及其操作方法
CN109346057A (zh) 一种智能儿童玩具的语音处理系统
CN113194203A (zh) 一种用于听障人士的沟通系统、接听拨打方法及通讯系统
CN101460994A (zh) 语音区分

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180803

RJ01 Rejection of invention patent application after publication