CN111883098B - 语音处理方法及装置、计算机可读的存储介质、电子装置 - Google Patents
语音处理方法及装置、计算机可读的存储介质、电子装置 Download PDFInfo
- Publication number
- CN111883098B CN111883098B CN202010682292.7A CN202010682292A CN111883098B CN 111883098 B CN111883098 B CN 111883098B CN 202010682292 A CN202010682292 A CN 202010682292A CN 111883098 B CN111883098 B CN 111883098B
- Authority
- CN
- China
- Prior art keywords
- information
- emotion
- voice
- voice information
- emotion information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 35
- 230000008451 emotion Effects 0.000 claims abstract description 249
- 238000012790 confirmation Methods 0.000 claims description 41
- 238000000034 method Methods 0.000 claims description 37
- 238000003062 neural network model Methods 0.000 claims description 36
- 238000004590 computer program Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 7
- 230000002996 emotional effect Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L2013/021—Overlap-add techniques
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种语音处理方法及装置、计算机可读的存储介质、电子装置,其中,语音处理方法包括:获取第一终端发送的第一语音信息,并将所述第一语音信息与预设的一个或多个目标感情信息叠加以生成一个或多个第二语音信息;发送所述第一语音信息或所述第二语音信息至第二终端。通过本发明实施例,可以解决相关技术中,用户发送的语音无法表达用户期望的情感进而导致用户体验不佳的问题,以令用户发送的语音可真实表达用户期望的情感,进而改善了语音功能实现的用户体验。
Description
技术领域
本发明涉及智能家居领域,具体而言,涉及一种语音处理方法及装置、计算机可读的存储介质、电子装置。
背景技术
语音信息或语音通话的功能已成为相关技术中通讯工具的常用功能之一。目前,通用的通讯工具中的语音功能多为将发送方的待发送的语音不加渲染,直接以原声效果发送至接收方。然而,在部分场景下,发送方的用户由于心理或措辞等因素,其发送的语音并不能体现该用户希望表达的情感,进而导致接收方用户在接收语音后,易于对发送方用户实际表达或希望表达的情感产生理解上的偏差。对此,相关技术中的通讯工具提供了部分“变声”功能,但上述“变声”功能仅能在一定程度上改变发送方的用户的特征,例如,将原声效果修改为“老人”声音效果,其仍无法实现对语音所表达情感的改变。
针对上述相关技术中,用户发送的语音无法表达用户期望的情感进而导致用户体验不佳的问题,相关技术中尚未提供有效的解决方案。
发明内容
本发明实施例提供一种语音处理方法及装置、计算机可读的存储介质、电子装置,以至少解决相关技术中,用户发送的语音无法表达用户期望的情感进而导致用户体验不佳的问题。
根据本发明的一个实施例,提供了一种语音处理方法,应用于服务器,所述方法包括:
获取第一终端发送的第一语音信息,并将所述第一语音信息与预设的一个或多个目标感情信息叠加以生成一个或多个第二语音信息;
发送所述第一语音信息或所述第二语音信息至第二终端。
在一可选实施例中,所述将所述第一语音信息与预设的一个或多个目标感情信息叠加以生成一个或多个第二语音信息,包括:
确定所述第一语音信息中携带的原感情信息;
根据所述原感情信息,确定所述原感情信息对应的所述一个或多个目标感情信息;
将所述一个或多个目标感情信息与所述第一语音信息叠加,以生成所述一个或多个第二语音信息。
在一可选实施例中,所述确定所述第一语音信息中携带的原感情信息,包括:
根据所述第一语音信息与预设的神经网络模型,以确定所述第一语音信息中携带的所述原感情信息;
其中,所述神经网络模型是根据样本语音信息与所述样本语音信息中携带的样本感情信息训练得到的。
在一可选实施例中,所述根据所述第一语音信息与预设的神经网络模型,以确定所述第一语音信息中携带的所述原感情信息,包括:
根据所述第一语音信息与所述神经网络模型,确定一个或多个待确认感情信息;其中,所述一个或多个待确认感情信息为所述神经网络模型输出的感情信息;
将所述一个或多个待确认感情信息的标识发送至所述第一终端,以供所述第一终端确认;
根据所述第一终端返回的第一确认信息在所述一个或多个待确感情信息中确定所述原感情信息;其中,所述第一确认信息用于指示所述待确感情信息的标识。
在一可选实施例中,所述一个或多个目标感情信息为所述原感情信息预先关联的一个或多个感情信息。
在一可选实施例中,所述将所述第一语音信息与预设的一个或多个目标感情信息叠加以生成一个或多个第二语音信息,包括:
将所述第一语音信息的声学特征分别替换为所述一个或多个目标感情信息对应的声学特征,以生成所述一个或多个第二语音信息。
在一可选实施例中,所述发送所述第一语音信息或所述第二语音信息至第二终端,包括:
发送所述第一语音信息对应的第一标识以及所述一个或多个第二语音信息对应的第二标识至所述第一终端,以供所述第一终端进行确认;
接收所述第一终端返回的第二确认信息,并根据所述第二确认信息发送所述第一语音信息或所述第二语音信息至第二终端;其中,所述第二确认信息用于指示所述第一标识或第二标识。
根据本发明的另一个实施例,还提供了一种语音处理方法,应用于第一终端,所述方法包括:
发送第一语音信息至服务器,以供所述服务器发送所述第一语音信息或第二语音信息至第二终端;
其中,所述第二语音信息为所述服务器将所述第一语音信息与预设的一个或多个目标感情信息叠加以生成的一个或多个语音信息。
在一可选实施例中,所述一个或多个目标感情信息由所述服务器根据所述第一语音信息中携带的原感情信息以确定;
其中,所述原感情信息由所述服务器根据所述第一语音信息进行确定。
在一可选实施例中,所述原感情信息由所述服务器根据所述第一语音信息与预设的神经网络模型进行确定;
其中,所述神经网络模型是根据样本语音信息与所述样本语音信息中携带的样本感情信息训练得到的。
在一可选实施例中,所述根据所述第一语音信息与预设的神经网络模型,以确定所述第一语音信息中携带的所述原感情信息,包括:
接收所述服务器发送的一个或多个待确认感情信息的标识以进行确认;其中,所述一个或多个待确认感情信息由所述服务器根据所述第一语音信息与所述神经网络模型进行确定,所述一个或多个待确认感情信息为所述神经网络模型输出的感情信息;
返回第一确认信息至所述服务器;其中,所述第一确认信息用于指示所述待确感情信息的标识。
在一可选实施例中,所述一个或多个目标感情信息为所述原感情信息预先关联的一个或多个感情信息。
在一可选实施例中,所述第二语音信息由所述服务器将所述第一语音信息的声学特征分别替换为所述一个或多个目标感情信息对应的声学特征以生成。
在一可选实施例中,所述发送第一语音信息至服务器之后,所述方法还包括:
接收所述服务器发送的所述第一语音信息对应的第一标识以及所述一个或多个第二语音信息对应的第二标识以进行确认;
返回第二确认信息至所述服务器,以供所述服务器根据所述第二确认信息发送所述第一语音信息或所述第二语音信息至第二终端;其中,所述第二确认信息用于指示所述第一标识或第二标识。
根据本发明的另一个实施例,还提供了一种语音处理装置,设置于服务器,所述装置包括:
生成模块,用于获取第一终端发送的第一语音信息,并将所述第一语音信息与预设的一个或多个目标感情信息叠加以生成一个或多个第二语音信息;
第一发送模块,用于发送所述第一语音信息或所述第二语音信息至第二终端。
根据本发明的另一个实施例,还提供了一种语音处理装置,设置于第一终端,所述装置包括:
第二发送模块,用于发送第一语音信息至服务器,以供所述服务器发送所述第一语音信息或第二语音信息至第二终端;
其中,所述第二语音信息为所述服务器将所述第一语音信息与预设的一个或多个目标感情信息叠加以生成的一个或多个语音信息。
根据本发明的另一个实施例,还提供了一种计算机可读的存储介质,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的另一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明实施例,由于第一终端在向第二终端发送语音消息过程中,服务器可将作为原声的第一语音信息与预设的一个或多个目标感情信息叠加以生成一个或多个第二语音信息,进而发送第一语音信息或第二语音信息至第二终端。因此,本发明实施例可以解决相关技术中,用户发送的语音无法表达用户期望的情感进而导致用户体验不佳的问题,以令用户发送的语音可真实表达用户期望的情感,进而改善了语音功能实现的用户体验。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例提供的语音处理方法的场景示意图;
图2是根据本发明实施例提供的第一终端的功能示意图;
图3是根据本发明实施例提供的语音处理方法的流程图(一);
图4是根据本发明示例性实施例提供的语音处理方法的系统构架图;
图5是根据本发明示例性实施例提供的语音处理方法的流程图;
图6是根据本发明实施例提供的语音处理方法的流程图(二);
图7是根据本发明实施例提供的语音处理装置的结构框图(一);
图8是根据本发明实施例提供的语音处理方法的结构框图(二)。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
为进一步说明本发明实施例中的语音处理方法及装置、计算机可读的存储介质、电子装置,以下对于本发明实施例中的语音处理方法及装置、计算机可读的存储介质、电子装置涉及的应用场景进行进一步说明。
本发明实施例提供的语音处理方法及装置、计算机可读的存储介质、电子装置可用于终端语音功能的实现,图1是根据本发明实施例提供的语音处理方法的场景示意图,如图1所示,本发明实施例中的语音处理方法的应用场景包括第一终端100、第二终端200、服务器300,第一终端100的使用用户输入语音信息,并通过服务器300将该语音信息发送至第二终端,以供第二终端200的使用用户输出。
本发明实施例中的第一终端以及第二终端可以为移动终端、平板电脑、桌面型/膝上型/笔记本电脑、超级移动个人计算机、手持计算机、上网本、个人数字助理、可穿戴电子设备、虚拟现实设备等任何具备语音功能的电子设备中,本发明实施例对此不做限定。
以第一终端为移动终端为例,图2是根据本发明实施例提供的第一终端的功能示意图,如图2所示,移动终端可以包括一个或多个(图2中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域技术人员可以理解的是,图2所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的语音处理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一示例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一示例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯,例如,向服务器发送语音信息。
以下对于本发明实施例中的数据传输方法及装置、设备升级方法及装置进行阐述。
实施例1
本发明实施例提供了一种语音处理方法,应用于服务器,图3是根据本发明实施例提供的语音处理方法的流程图(一),如图3所示,本发明实施例中的语音处理方法包括:
S102,服务器获取第一终端发送的第一语音信息,并将第一语音信息与预设的一个或多个目标感情信息叠加以生成一个或多个第二语音信息。
本发明实施例中,使用第一终端的用户A通过通讯软件向使用第二终端的用户B进行语音消息的传输,例如,“考试通过了,太好了!”;第一终端接收到用户A输入的语音信息,即上述第一语音信息后,即可将该第一语音信息发送至服务器。服务器获取上述第一语音信息后,可将第一语音信息与预设的一个或多个目标感情信息叠加以生成一个或多个第二语音信息。
在一可选实施例中,上述服务器将第一语音信息与预设的一个或多个目标感情信息叠加以生成一个或多个第二语音信息,包括:
确定第一语音信息中携带的原感情信息;根据原感情信息,确定原感情信息对应的一个或多个目标感情信息;将一个或多个目标感情信息与第一语音信息叠加,以生成一个或多个第二语音信息。
本发明实施例中的原感情信息指示第一语音信息中所携带的原始感情信息,即用户A在输入语音信息的过程中所携带的原始感情;本发明实施例中的目标感情信息指示由服务供应商或用户提供的多个可选的感情信息。例如,用户A输入的第一语音信息“考试通过了,太好了!”的过程中,以愉悦的感情输入上述语音,则服务器可确定第一语音信息的原感情信息为愉悦;以此,服务器可进一步提供多个目标感情信息,例如,根据表示愉悦的程度不同,目标感情信息可包括:喜出望外、心花怒放等。服务器可将上述多个目标感情信息,通过声学特征替换等方式对第一语音信息中的原感情信息进行替换,以得到携带目标感情信息的第二语音信息。
上述原感情信息的确定,是通过服务器对第一语音信息的解析,以获取该第一语音信息中的原感情信息的;在一可选实施例中,上述确定第一语音信息中携带的原感情信息,包括:
根据第一语音信息与预设的神经网络模型,以确定第一语音信息中携带的原感情信息;其中,神经网络模型是根据样本语音信息与样本语音信息中携带的样本感情信息训练得到的。
服务器可预先训练一神经网络模型,以对于第一语音信息中携带的原感情信息进行识别,进而确定第一语音信息中携带的原感情信息。对于神经网络模型的训练,服务器可通过预先采集的带有标签的样本语音信息进行训练,样本语音信息的标签即指示样本语音信息中携带的样本感情信息。以此,在将第一语音信息作为神经网络模型的输入时,对应输出的感情信息即可作为原感情信息。
需要说明的是,在将第一语音信息作为神经网络模型的输入时,上述神经网络模型对应输出的感情信息可以不止一个,在一可选实施例中,根据第一语音信息与预设的神经网络模型,以确定第一语音信息中携带的原感情信息,包括:
根据第一语音信息与神经网络模型,确定一个或多个待确认感情信息;其中,一个或多个待确认感情信息为神经网络模型输出的感情信息;
将一个或多个待确认感情信息的标识发送至第一终端,以供第一终端确认;
根据第一终端返回的第一确认信息在一个或多个待确感情信息中确定原感情信息;其中,第一确认信息用于指示待确感情信息的标识。
神经网络模型在输入第一语音信息时,可以根据预设的输出规则输出多个感情信息,也可以在无法确认可输出的唯一对象时,输出多个感情信息,即上述一个或多个待确定感情信息。对此,在上述可选实施例中,可将一个或多个待确定感情信息供用户进行选择,例如,将一个或多个待确定感情信息的标识发送至第一终端,供用户通过触控操作选择其中的某一感情信息后,将该感情信息作为原感情信息。
服务器直接确定原感情信息,或由用户选择确定原感情信息后,服务器即可以此确定一个或多个目标感情信息。一个或多个目标感情信息为原感情信息预先关联的一个或多个感情信息,在一示例中,对于存在明显感情倾向的原感情信息,可在该源感情倾向的基础上将不同程度的感情信息作为该感情信息关联的目标感情信息;对于定义模糊的原感情信息,则可将不同感情倾向的感情信息作为该原感情信息的目标感情信息。
在一可选实施例中,将第一语音信息与预设的一个或多个目标感情信息叠加以生成一个或多个第二语音信息,包括:
将第一语音信息的声学特征分别替换为一个或多个目标感情信息对应的声学特征,以生成一个或多个第二语音信息。
S104,服务器发送第一语音信息或第二语音信息至第二终端。
服务器在确定一个或多个第二语音信息后,可根据用户的选择最终确定将第一语音信息或第二语音信息发送至第二终端。在一可选实施例中,服务器发送第一语音信息或第二语音信息至第二终端,包括:
发送第一语音信息对应的第一标识以及一个或多个第二语音信息对应的第二标识至第一终端,以供第一终端进行确认;
接收第一终端返回的第二确认信息,并根据第二确认信息发送第一语音信息或第二语音信息至第二终端;其中,第二确认信息用于指示第一标识或第二标识。
以此,服务器即可在第一终端中向用户呈现第一语音信息以及一个或多个第二语音信息的选项,分别对应不同的感情信息;呈现方式可类似于表情包的提供方式,本发明实施例对此不作限定。用户则可根据自身的需求择一确定,服务器进而可根据用户的选择将相应的第一语音信息或第二语音信息发送至第二终端。
通过本发明实施例,由于第一终端在向第二终端发送语音消息过程中,服务器可将作为原声的第一语音信息与预设的一个或多个目标感情信息叠加以生成一个或多个第二语音信息,进而发送第一语音信息或第二语音信息至第二终端。因此,本发明实施例可以解决相关技术中,用户发送的语音无法表达用户期望的情感进而导致用户体验不佳的问题,以令用户发送的语音可真实表达用户期望的情感,进而改善了语音功能实现的用户体验。
具体而言,本发明实施例不仅可表达用户实际期望表达的真实情感,并可在用户语音交互过程中增添聊天内容的感情维度的选择,以使得语音交互的功能得以显著扩展。
以下通过一示例性的实施例对本发明实施例中的语音处理方法进一步阐述。图4是根据本发明示例性实施例提供的语音处理方法的系统构架图,如图4所示,本示例性实施例中,由第一终端100与第二终端200进行语音通讯,并由语音功能服务器301、NLP解析服务器302与语音包仓库服务器303实现下述流程中感情信息的处理。
图5是根据本发明示例性实施例提供的语音处理方法的流程图,如图5所示,本示例性实施例中的语音处理方法的流程如下:
S1,使用第一终端的用户A发送“听说你的考试通过了,太好了!”的语音消息至使用第二终端的用户B。
例如,用户A输入语音消息过程中,以愉悦感情输入。
S2,语音功能服务器接收到上述语音消息后,将该语音消息发送至NLP解析服务器,以供NLP解析服务器对上述语音消息进行解析,以确定语音消息中携带的原感情信息所关联的多个目标感情信息。
例如,NLP解析服务器对语音信息进行解析,以确定语音信息中携带的原感情信息为愉悦,以此,NLP解析服务器则可根据预先关联的信息得到该原感情信息对应的三个感情信息,其由表示愉悦的开心的程度由低至高依次为:欣喜不已(较为开心)、喜出望外(开心)、心花怒放(十分开心)。
S3,语音通话服务器接收NLP解析服务器解析出的原感情信息,并将原语音信息以及原感情信息发送至语音包仓库服务器;语音包仓库服务器将原语音信息与对应的目标感情信息一一合成,以得到多个新的语音信息,并将新的语音信息返回至语音通话服务器。
S4,语音通话服务器将上述多个携带不同感情信息的语音信息推送至第一终端,以向用户A推荐,用户A可以试听后确认其中一种语音信息。
S5,语音通话服务器接收到用户的确认指令后,将对应的语音消息发送至第二终端,以供用户B接收。
S6,用户B接收到语音消息后,即可收听按照用户A的选择添加了对应的感情色彩的语音内容。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
本发明实施例提供了一种语音处理方法,应用于第一终端,图6是根据本发明实施例提供的语音处理方法的流程图(二),如图6所示,本发明实施例中的语音处理方法包括:
S202,第一终端发送第一语音信息至服务器,以供服务器发送第一语音信息或第二语音信息至第二终端;
其中,第二语音信息为服务器将第一语音信息与预设的一个或多个目标感情信息叠加以生成的一个或多个语音信息。
在一可选实施例中,上述一个或多个目标感情信息由服务器根据第一语音信息中携带的原感情信息以确定;
其中,原感情信息由服务器根据第一语音信息进行确定。
在一可选实施例中,上述原感情信息由服务器根据第一语音信息与预设的神经网络模型进行确定;
其中,神经网络模型是根据样本语音信息与样本语音信息中携带的样本感情信息训练得到的。
在一可选实施例中,上述根据第一语音信息与预设的神经网络模型,以确定第一语音信息中携带的原感情信息,包括:
接收服务器发送的一个或多个待确认感情信息的标识以进行确认;其中,一个或多个待确认感情信息由服务器根据第一语音信息与神经网络模型进行确定,一个或多个待确认感情信息为神经网络模型输出的感情信息;
返回第一确认信息至服务器;其中,第一确认信息用于指示待确感情信息的标识。
在一可选实施例中,上述一个或多个目标感情信息为原感情信息预先关联的一个或多个感情信息。
在一可选实施例中,上述第二语音信息由服务器将第一语音信息的声学特征分别替换为一个或多个目标感情信息对应的声学特征以生成。
在一可选实施例中,上述发送第一语音信息至服务器之后,方法还包括:
接收服务器发送的第一语音信息对应的第一标识以及一个或多个第二语音信息对应的第二标识以进行确认;
返回第二确认信息至服务器,以供服务器根据第二确认信息发送第一语音信息或第二语音信息至第二终端;其中,第二确认信息用于指示第一标识或第二标识。
需要说明的是,本发明实施例中语音处理方法的可选实施例以及技术效果均与实施例1中的语音处理方法对应,故在此不再赘述。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例3
本发明实施例提供了一种语音处理装置,设置于服务器,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图7是根据本发明实施例提供的语音处理装置的结构框图(一),如图7所示,本发明实施例中的语音处理方法包括:
生成模块S302,用于获取第一终端发送的第一语音信息,并将第一语音信息与预设的一个或多个目标感情信息叠加以生成一个或多个第二语音信息;
第一发送模块S304,用于发送第一语音信息或第二语音信息至第二终端。
需要说明的是,本发明实施例中语音处理装置的可选实施例以及技术效果均与实施例1中的语音处理方法对应,故在此不再赘述。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例4
本发明实施例提供了一种语音处理装置,设置于第一终端,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图8是根据本发明实施例提供的语音处理装置的结构框图(二),如图8所示,本发明实施例中的语音处理方法包括:
第二发送模块S402,用于发送第一语音信息至服务器,以供服务器发送第一语音信息或第二语音信息至第二终端;
其中,第二语音信息为服务器将第一语音信息与预设的一个或多个目标感情信息叠加以生成的一个或多个语音信息。
需要说明的是,本发明实施例中语音处理装置的可选实施例以及技术效果均与实施例2中的语音处理方法对应,故在此不再赘述。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例5
本发明实施例还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行上述实施例中的计算机程序。
可选地,在本实施例中,上述计算机可读的存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
实施例6
本发明实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行上述实施例中的步骤。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (16)
1.一种语音处理方法,其特征在于,应用于服务器,所述方法包括:
获取第一终端发送的第一语音信息,并将所述第一语音信息与预设的一个或多个目标感情信息叠加以生成一个或多个第二语音信息;
发送所述第一语音信息或所述第二语音信息至第二终端;
其中,所述一个或多个目标感情信息为原感情信息预先关联的一个或多个感情信息;
其中,所述一个或多个目标感情信息通过以下方式确定:
确定所述原感情信息存在明显感情倾向的情况下,在所述原感情信息的感情倾向的基础上将不同程度的感情信息作为所述原感情信息关联的目标感情信息;
确定所述原感情信息定义模糊的情况下,将不同感情倾向的感情信息作为所述原感情信息的目标感情信息。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一语音信息与预设的一个或多个目标感情信息叠加以生成一个或多个第二语音信息,包括:
确定所述第一语音信息中携带的原感情信息;
根据所述原感情信息,确定所述原感情信息对应的所述一个或多个目标感情信息;
将所述一个或多个目标感情信息与所述第一语音信息叠加,以生成所述一个或多个第二语音信息。
3.根据权利要求2所述的方法,其特征在于,所述确定所述第一语音信息中携带的原感情信息,包括:
根据所述第一语音信息与预设的神经网络模型,以确定所述第一语音信息中携带的所述原感情信息;
其中,所述神经网络模型是根据样本语音信息与所述样本语音信息中携带的样本感情信息训练得到的。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一语音信息与预设的神经网络模型,以确定所述第一语音信息中携带的所述原感情信息,包括:
根据所述第一语音信息与所述神经网络模型,确定一个或多个待确认感情信息;其中,所述一个或多个待确认感情信息为所述神经网络模型输出的感情信息;
将所述一个或多个待确认感情信息的标识发送至所述第一终端,以供所述第一终端确认;
根据所述第一终端返回的第一确认信息在所述一个或多个待确感情信息中确定所述原感情信息;其中,所述第一确认信息用于指示所述待确感情信息的标识。
5.根据权利要求1至4任一项中所述的方法,其特征在于,所述将所述第一语音信息与预设的一个或多个目标感情信息叠加以生成一个或多个第二语音信息,包括:
将所述第一语音信息的声学特征分别替换为所述一个或多个目标感情信息对应的声学特征,以生成所述一个或多个第二语音信息。
6.根据权利要求1至4任一项中所述的方法,其特征在于,所述发送所述第一语音信息或所述第二语音信息至第二终端,包括:
发送所述第一语音信息对应的第一标识以及所述一个或多个第二语音信息对应的第二标识至所述第一终端,以供所述第一终端进行确认;
接收所述第一终端返回的第二确认信息,并根据所述第二确认信息发送所述第一语音信息或所述第二语音信息至第二终端;其中,所述第二确认信息用于指示所述第一标识或第二标识。
7.一种语音处理方法,其特征在于,应用于第一终端,所述方法包括:
发送第一语音信息至服务器,以供所述服务器发送所述第一语音信息或第二语音信息至第二终端;
其中,所述第二语音信息为所述服务器将所述第一语音信息与预设的一个或多个目标感情信息叠加以生成的一个或多个语音信息;
其中,所述一个或多个目标感情信息为原感情信息预先关联的一个或多个感情信息;
其中,所述一个或多个目标感情信息通过以下方式确定:
确定所述原感情信息存在明显感情倾向的情况下,在所述原感情信息的感情倾向的基础上将不同程度的感情信息作为所述原感情信息关联的目标感情信息;
确定所述原感情信息定义模糊的情况下,将不同感情倾向的感情信息作为所述原感情信息的目标感情信息。
8.根据权利要求7所述的方法,其特征在于,所述一个或多个目标感情信息由所述服务器根据所述第一语音信息中携带的原感情信息以确定;
其中,所述原感情信息由所述服务器根据所述第一语音信息进行确定。
9.根据权利要求8所述的方法,其特征在于,所述原感情信息由所述服务器根据所述第一语音信息与预设的神经网络模型进行确定;
其中,所述神经网络模型是根据样本语音信息与所述样本语音信息中携带的样本感情信息训练得到的。
10.根据权利要求9所述的方法,其特征在于,所述根据所述第一语音信息与预设的神经网络模型,以确定所述第一语音信息中携带的所述原感情信息,包括:
接收所述服务器发送的一个或多个待确认感情信息的标识以进行确认;其中,所述一个或多个待确认感情信息由所述服务器根据所述第一语音信息与所述神经网络模型进行确定,所述一个或多个待确认感情信息为所述神经网络模型输出的感情信息;
返回第一确认信息至所述服务器;其中,所述第一确认信息用于指示所述待确认感情信息的标识。
11.根据权利要求7至10任一项中所述的方法,其特征在于,所述第二语音信息由所述服务器将所述第一语音信息的声学特征分别替换为所述一个或多个目标感情信息对应的声学特征以生成。
12.根据权利要求7至10任一项中所述的方法,其特征在于,所述发送第一语音信息至服务器之后,所述方法还包括:
接收所述服务器发送的所述第一语音信息对应的第一标识以及所述一个或多个第二语音信息对应的第二标识以进行确认;
返回第二确认信息至所述服务器,以供所述服务器根据所述第二确认信息发送所述第一语音信息或所述第二语音信息至第二终端;其中,所述第二确认信息用于指示所述第一标识或第二标识。
13.一种语音处理装置,其特征在于,设置于服务器,所述装置包括:
生成模块,用于获取第一终端发送的第一语音信息,并将所述第一语音信息与预设的一个或多个目标感情信息叠加以生成一个或多个第二语音信息;
第一发送模块,用于发送所述第一语音信息或所述第二语音信息至第二终端;
其中,所述一个或多个目标感情信息为原感情信息预先关联的一个或多个感情信息;
其中,所述一个或多个目标感情信息通过以下方式确定:
确定所述原感情信息存在明显感情倾向的情况下,在所述原感情信息的感情倾向的基础上将不同程度的感情信息作为所述原感情信息关联的目标感情信息;
确定所述原感情信息定义模糊的情况下,将不同感情倾向的感情信息作为所述原感情信息的目标感情信息。
14.一种语音处理装置,其特征在于,设置于第一终端,所述装置包括:
第二发送模块,用于发送第一语音信息至服务器,以供所述服务器发送所述第一语音信息或第二语音信息至第二终端;
其中,所述第二语音信息为所述服务器将所述第一语音信息与预设的一个或多个目标感情信息叠加以生成的一个或多个语音信息;
其中,所述一个或多个目标感情信息为原感情信息预先关联的一个或多个感情信息;
其中,所述一个或多个目标感情信息通过以下方式确定:
确定所述原感情信息存在明显感情倾向的情况下,在所述原感情信息的感情倾向的基础上将不同程度的感情信息作为所述原感情信息关联的目标感情信息;
确定所述原感情信息定义模糊的情况下,将不同感情倾向的感情信息作为所述原感情信息的目标感情信息。
15.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至6、权利要求7至12任一项中所述的方法。
16.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6、权利要求7至12任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010682292.7A CN111883098B (zh) | 2020-07-15 | 2020-07-15 | 语音处理方法及装置、计算机可读的存储介质、电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010682292.7A CN111883098B (zh) | 2020-07-15 | 2020-07-15 | 语音处理方法及装置、计算机可读的存储介质、电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111883098A CN111883098A (zh) | 2020-11-03 |
CN111883098B true CN111883098B (zh) | 2023-10-24 |
Family
ID=73155468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010682292.7A Active CN111883098B (zh) | 2020-07-15 | 2020-07-15 | 语音处理方法及装置、计算机可读的存储介质、电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111883098B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112837700A (zh) * | 2021-01-11 | 2021-05-25 | 网易(杭州)网络有限公司 | 一种情感化的音频生成方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100463706B1 (ko) * | 2004-04-27 | 2004-12-29 | 주식회사 엠포컴 | 유무선 네트워크를 통한 음성 인식 기반 감정 분석 시스템및 그 방법 |
CN105280179A (zh) * | 2015-11-02 | 2016-01-27 | 小天才科技有限公司 | 一种文字转语音的处理方法及系统 |
CN108335696A (zh) * | 2018-02-09 | 2018-07-27 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
CN108986804A (zh) * | 2018-06-29 | 2018-12-11 | 北京百度网讯科技有限公司 | 人机交互处理方法、装置、用户终端、处理服务器及系统 |
CN109215629A (zh) * | 2018-11-22 | 2019-01-15 | Oppo广东移动通信有限公司 | 语音处理方法、装置及终端 |
KR20200025532A (ko) * | 2018-08-30 | 2020-03-10 | 주민성 | 음성 데이터 기반의 감정 인식 시스템 및 그 응용 방법 |
-
2020
- 2020-07-15 CN CN202010682292.7A patent/CN111883098B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100463706B1 (ko) * | 2004-04-27 | 2004-12-29 | 주식회사 엠포컴 | 유무선 네트워크를 통한 음성 인식 기반 감정 분석 시스템및 그 방법 |
CN105280179A (zh) * | 2015-11-02 | 2016-01-27 | 小天才科技有限公司 | 一种文字转语音的处理方法及系统 |
CN108335696A (zh) * | 2018-02-09 | 2018-07-27 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
CN108986804A (zh) * | 2018-06-29 | 2018-12-11 | 北京百度网讯科技有限公司 | 人机交互处理方法、装置、用户终端、处理服务器及系统 |
KR20200025532A (ko) * | 2018-08-30 | 2020-03-10 | 주민성 | 음성 데이터 기반의 감정 인식 시스템 및 그 응용 방법 |
CN109215629A (zh) * | 2018-11-22 | 2019-01-15 | Oppo广东移动通信有限公司 | 语音处理方法、装置及终端 |
Also Published As
Publication number | Publication date |
---|---|
CN111883098A (zh) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20130130726A1 (en) | Method for sharing terminal location and terminal device | |
CN103236968B (zh) | 群发消息的会话管理方法、装置和系统 | |
CN110851035B (zh) | 一种会话消息显示方法、装置、电子设备及存储介质 | |
CN103873692B (zh) | 一种分享资源的方法、装置及系统 | |
KR102119404B1 (ko) | 복수 챗봇의 협업에 의한 대화형 정보제공 시스템 및 그 방법 | |
CN103326929B (zh) | 一种消息传输方法和装置 | |
CN105812315B (zh) | 基于用户登陆账号的多终端消息传输方法及装置 | |
CN104796434A (zh) | 一种消息推送方法及服务器 | |
CN103179531A (zh) | 一种更新联系号码的方法及装置 | |
CN105426448A (zh) | 界面显示方法、装置及系统 | |
CN107222384A (zh) | 电子设备及其智能问答方法、电子设备、服务器和系统 | |
CN104236568A (zh) | 活动召集系统及其方法 | |
KR20210065629A (ko) | 챗봇 채널연계 통합을 위한 챗봇 통합 에이전트 플랫폼 시스템 및 그 서비스 방법 | |
CN111883098B (zh) | 语音处理方法及装置、计算机可读的存储介质、电子装置 | |
CN111030922A (zh) | 即时通信中的会话显示方法和装置、存储介质及电子装置 | |
CN105100244A (zh) | 头像设置方法及装置 | |
CN106302093B (zh) | 一种通信方法、系统及服务器 | |
CN105100435A (zh) | 移动通讯应用方法和装置 | |
CN112331201A (zh) | 语音的交互方法和装置、存储介质、电子装置 | |
US11012382B2 (en) | State display information transmission system using chatbot | |
KR101589150B1 (ko) | 강조 정보를 포함하는 인스턴트 메시지를 송수신하는 서버, 단말 및 방법 | |
KR101027406B1 (ko) | 감정 인식 메시지 시스템과, 이 시스템의 모바일 통신 단말및 메시지 기억 서버 | |
CN107273398B (zh) | 人机接口系统和用于操作其的方法 | |
CN114466322B (zh) | 通信方法、系统、装置、存储介质以及处理器 | |
CN109243437A (zh) | 信息的提示方法、装置、存储介质及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |