CN115019781A - 一种对话业务执行方法、装置、存储介质及电子设备 - Google Patents
一种对话业务执行方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN115019781A CN115019781A CN202210483385.6A CN202210483385A CN115019781A CN 115019781 A CN115019781 A CN 115019781A CN 202210483385 A CN202210483385 A CN 202210483385A CN 115019781 A CN115019781 A CN 115019781A
- Authority
- CN
- China
- Prior art keywords
- user
- voice
- content
- audio
- reply
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000003860 storage Methods 0.000 title claims description 20
- 230000004927 fusion Effects 0.000 claims abstract description 71
- 238000000605 extraction Methods 0.000 claims description 58
- 230000015654 memory Effects 0.000 claims description 25
- 230000010365 information processing Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 23
- 230000006399 behavior Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 12
- 230000002194 synthesizing effect Effects 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 11
- 230000006872 improvement Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
在本说明书提供的对话业务执行方法中,会将用户的用户信息以及用户在当前回合输入的输入语音输入进预先训练的对话模型中,并根据用户的用户信息得到用户特征,根据用户在当前回合输入的输入语音得到音频特征和内容特征;随后对得到的用户特征、音频特征、内容特征进行融合,得到融合特征,根据得到的融合特征确定出当前回合向用户回复的回复语音,并采用回复语音向用户进行回复。在采用本方法确定向用户回复的回复语音时,会将用户特征、对话上下文的内容特征以及音频特征综合考虑,得到多模态的融合特征,并根据多模态的融合特征确定回复语音,通过多方面的考虑确保得到最优的回复语音。
Description
技术领域
本说明书涉及互联网技术领域,尤其涉及一种对话业务执行方法、装置、存储介质及电子设备。
背景技术
目前,在许多业务的执行过程中,为了节省人力资源,都会采用人工智能(Artificial Intelligence,AI)对话的方式来代替人工对话,在部分场景下与用户进行沟通。AI在执行对话时的方法不仅关系到该次对话所关联的业务能否成功执行,还直接关系到用户的体验,因此,如何执行对话业务非常关键。
现有技术在执行对话业务时,主要采用的方法为依靠人工经验去配置有限个状态机之间的跳转关系与AI的回复用语。依靠人工经验考虑在对话过程中,可能出现的情况以及用户可能说出的语句,将每种情况作为一种状态保存在一个状态机中,根据用户的回复决定每种状态之间的跳转关系,并进一步确定出每种状态下AI可向用户回复的所有话语。
但是,仅依靠人工经验很难考虑到所有可能出现的情况以及所有用户可能会说的话,同时,也很难保证每次状态之间的跳转和AI向用户回复的话语都是最优选择。可以看出,目前的对话业务执行方法的执行过程较为单一,整体流程不够灵活与丰富,无法确保能够通过AI对话很好的处理各种业务。
发明内容
本说明书提供一种对话业务执行方法、装置、存储介质及电子设备,以至少部分地解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种对话业务执行方法,包括:
获取用户在当前回合输入的输入语音;
将用户的用户信息输入预先训练的对话模型中,以通过所述对话模型中的用户信息处理子网得到用户特征;将所述当前回合的输入语音、指定历史回合的对话语音输入所述对话模型中的特征提取子网中,以通过所述特征提取子网提取音频特征和内容特征;
将所述用户特征、所述音频特征、所述内容特征输入所述对话模型中的融合子网中,以通过所述融合子网对所述用户特征、所述音频特征、所述内容特征进行融合,得到融合特征;
根据所述融合特征确定当前回合向用户回复的回复语音;
采用确定出的所述回复语音向用户进行回复。
可选的,将用户的用户信息输入预先训练的对话模型中,以通过所述对话模型中的用户信息处理子网得到用户特征,具体包括:
将用户的基本信息和行为信息输入预先训练的对话模型中,以通过所述对话模型中的用户信息处理子网中的提取层提取对应于所述基本信息的用户基本特征和对应于所述行为信息的用户行为特征;
通过所述用户信息处理子网中的融合层对所述用户基本特征和所述用户行为特征进行融合,得到用户特征。
可选的,将所述当前回合的输入语音、指定历史回合的对话语音输入所述对话模型中的特征提取子网中,以通过所述特征提取子网提取音频特征和内容特征,具体包括:
根据所述当前回合的输入语音确定当前回合的输入内容,根据指定历史回合的对话语音确定指定历史回合的对话内容;
将所述当前回合的输入语音、指定历史回合的对话语音输入所述对话模型中的特征提取子网中,以通过所述特征提取子网中的音频特征提取层提取音频特征;
将所述当前回合的输入内容、指定历史回合的对话内容输入所述对话模型中的特征提取子网中,以通过所述特征提取子网中的内容特征提取层提取内容特征。
可选的,根据所述融合特征确定当前回合向用户回复的回复语音,具体包括:
根据所述融合特征在预设的各标准音频中选择当前回合向用户回复的回复音频,在预设的各标准内容中选择当前回合向用户回复的回复内容;
对所述回复音频和所述回复内容进行合成,得到回复语音。
可选的,预先训练所述对话模型,具体包括:
获取历史人工对话中的语音和用户信息;
在历史人工对话的各回合中确定样本回合,从所述样本回合之前的各回合中选择指定回合作为样本历史回合;
根据所述历史人工对话中所述样本回合的语音确定标注语音;
将所述用户信息输入对话模型中,以通过所述对话模型中的用户信息处理子网得到待优化用户特征;将样本回合中用户输入的语音、样本历史回合的语音输入所述对话模型中的特征提取子网中,以通过所述特征提取子网提取待优化音频特征和待优化内容特征;
将所述待优化用户特征、所述待优化音频特征、所述待优化内容特征输入所述对话模型中的融合子网中,以通过所述融合子网对所述待优化用户特征、所述待优化音频特征、所述待优化内容特征进行融合,得到待优化融合特征;
根据所述待优化融合特征,在预设的各标准音频中选择样本回合中向用户回复的回复音频,在预设的各标准内容中选择样本回合中向用户回复的回复内容;
对所述回复音频和回合内容进行合成,得到回复语音;
以所述回复语音和所述标注语音之间的差异最小为优化,对所述对话模型进行训练。
可选的,根据所述历史人工对话中所述样本回合的语音确定标注语音,具体包括:
将所述样本回合中向用户回复的语音的音频作为指定音频,将预设的各标准音频中与所述指定音频匹配度最高的标准音频作为标注音频;
将所述样本回合中向用户回复的语音的内容作为指定内容,将预设的各标准内容中与所述指定内容匹配度最高的标准内容作为标注内容;
对所述标注音频和所述标注内容进行合成,得到标注语音。
可选的,以所述回复语音和所述标注语音之间的差异最小为优化目标,对所述对话模型进行训练,具体包括:
以所述回复音频和所述标注音频之间的差异最小,且,所述回复内容与所述标注内容之间的差异最小为优化目标,对所述对话模型进行训练。
本说明书提供的一种对话业务执行装置,所述装置包括:
获取模块,获取用户在当前回合输入的输入语音;
提取模块,将用户的用户信息输入预先训练的对话模型中,以通过所述对话模型中的用户信息处理子网得到用户特征;将所述当前回合的输入语音、指定历史回合的对话语音输入所述对话模型中的特征提取子网中,以通过所述特征提取子网提取音频特征和内容特征;
融合模块,将所述用户特征、所述音频特征、所述内容特征输入所述对话模型中的融合子网中,以通过所述融合子网对所述用户特征、所述音频特征、所述内容特征进行融合,得到融合特征;
确定模块,根据所述融合特征确定当前回合向用户回复的回复语音;
回复模块,采用确定出的所述回复语音向用户进行回复。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述对话业务执行方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述对话业务执行方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
在本说明书提供的对话业务执行方法中,会将用户的用户信息以及用户在当前回合输入的输入语音输入进预先训练的对话模型中,并根据用户的用户信息得到用户特征,根据用户在当前回合输入的输入语音得到音频特征和内容特征;随后对得到的用户特征、音频特征、内容特征进行融合,得到融合特征,根据得到的融合特征确定出当前回合向用户回复的回复语音,并采用回复语音向用户进行回复。在采用本方法确定向用户回复的回复语音时,会将用户特征、对话上下文的内容特征以及音频特征综合考虑,得到多模态的融合特征,并根据多模态的融合特征确定回复语音,通过多方面的考虑确保得到最优的回复语音。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书中一种对话业务执行方法的流程示意图;
图2为本说明书中一种对话模型的结构示意图;
图3为本说明书提供的一种对话业务执行装置的示意图;
图4为本说明书提供的对应于图1的电子设备示意图。
具体实施方式
随着科技的不断发展与普及,各行各业向用户推出的业务也越来越多。然而,推出的业务增多也就意味着与用户之间的交流也就越多,无论是向用户推广新业务,还是业务执行期间与用户的跟进与反馈,以及在用户遇到问题时负责解决的售后与客服服务,都需要频繁地与用户进行对话交流。
庞大的工作量导致仅靠人工服务很难完成与所有用户及时进行沟通,因此,可以利用AI来代替人工去完成部分简单的对话,使有限的人力得到更合理的分配。然而目前,AI在对话时表现得并不够好,现有的AI通常是按设定好的的流程或是仅根据用户所说的内容来向用户进行固定的回复,工作模式非常单一,即使能够解决客户的需求,也经常无法在对话中给用户很好的体验。
为了解决上述问题,本说明书提供了一种利用多模态特征确定向用户回复的回复内容的对话业务执行方法。
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书中一种对话业务执行方法的流程示意图,具体包括以下步骤:
S100:获取用户在当前回合输入的输入语音。
本说明书所提供的对话业务执行方法中的所有步骤均可由任意具有计算功能的电子设备来实现,例如服务器、终端等设备。
在本说明书中,将用户进行一次语音的输入与AI针对该段语音进行的一次回复作为一回合,每一回合的形式均为用户输入一段语音后,AI对当前回合用户的输入语音进行回复。用户在当前回合的输入语音即为用户在当前回合所说的话,而根据用户当前回合的输入语音进行回复是AI对话的基础,因此,首先需要获取用户当前回合输入的输入语音。
S102:将用户的用户信息输入预先训练的对话模型中,以通过所述对话模型中的用户信息处理子网得到用户特征;将所述当前回合的输入语音、指定历史回合的对话语音输入所述对话模型中的特征提取子网中,以通过所述特征提取子网提取音频特征和内容特征。
在本说明书提供的对话业务执行方法中,可采用预先训练的对话模型来确定向用户回复的回复语音。其中,对话模型的结构可如图2所示,对话模型中中可包括用户信息处理子网、特征提取子网、融合子网、回复语音确定子网。
需要说明的是,本说明书中所有涉及到用户信息的行为,如获取、使用用户信息等操作,均为合法且经过用户同意后才会实行的。
将用户的用户信息输入进对话模型中,并通过对话模型中的用户信息处理子网提取出用户特征,其中,用户信息可以是预先获取的。同样的,可将当前回合用户输入的输入语音和指定历史回合的对话语音输入进对话模型中,并通过模型中的特征提取子网提取出音频特征和内容特征。在本说明书中,指定历史回合可为本次对话中在当前回合之前的任一回合,如当前回合的上一回合等;指定历史回合的对话语音可包括在指定历史回合中用户的输入语音和AI向用户回复的回复语音。
通过特征提取子网可提取出一个语音的音频特征和内容特征,其中,音频特征是根据该语音的音色、音调等方面得到的,用于表征语音的感情色彩,内容特征则是根据该语音的文本内容得到的,用于表征该语音所要表达的具体内容。
S104:将所述用户特征、所述音频特征、所述内容特征输入所述对话模型中的融合子网中,以通过所述融合子网对所述用户特征、所述音频特征、所述内容特征进行融合,得到融合特征。
利用对话模型中的特征融合子网对步骤S102中得到的用户特征、音频特征以及内容特征进行融合,得到融合特征。其中,可采用多种方法进行融合,例如拼接、加权等。
S106:根据所述融合特征确定当前回合向用户回复的回复语音。
在此步骤中,可将步骤S104中确定出的多模态的融合特征输入对话模型中的回复语音确定子网中,以通过回复语音确定子网得到当前回合下应向用户回复的回复语音。在确定回复语音时,可直接确定出完整的回复语音对用户进行回复,也可先分别确定出回复音频和回复内容,并将回复音频和回复内容合成为回复语音后再向用户进行回复。
S108:采用确定出的所述回复语音向用户进行回复。
采用步骤S106中确定出的回复语音对用户做出当前回合的回复。
在采用本说明书提供的对话业务执行方法进行对话时,在根据当前回合用户的输入语音的内容确定回复语音的基础上,额外考虑了语音的音频以及用户信息可能对最优回复语音产生的影响,同时,本方法还会根据本次对话中的历史回合的语音对回复语音进行优化。换句话说,本方法在确定回复语音时会综合考虑多方面的因素,将用户特征、音频特征、内容特征结合为多模态特征,并通过多模态特征来确定最终的回复语音,以保证在任何情况下都能得到最优的回复语音。
在步骤S102中,预先获取的用户信息可包括用户的基本信息和用户的行为信息,其中,用户的基本信息可包括用户的年龄、性别、婚姻状况、工作状况等个人信息,而用户的行为信息包括但不限于用户做出指定行为的次数、用户使用指定软件或物品的情况、用户近期的消费情况等,在针对不同业务的对话场景下,用户的行为信息可以包含不同的内容。
在此情况下,在将用户信息输入预先训练的对话模型中时,可将用户的基本信息和行为信息输入预先训练的对话模型中,以通过所述对话模型中的用户信息处理子网中的提取层提取对应于所述基本信息的用户基本特征和对应于所述行为信息的用户行为特征;通过所述用户信息处理子网中的融合层对所述用户基本特征和所述用户行为特征进行融合,得到用户特征。在对用户基本特征和用户行为特征进行融合时,可采用的方法包括但不限于拼接、加权等方法,本说明书在此不做限制。
另一方面,在步骤S102中,提取音频特征和内容特征的方法也有多种,本说明书在此给出一种方法作为示例。在提取音频特征和内容特征时,可根据所述当前回合的输入语音确定当前回合的输入内容,根据指定历史回合的对话语音确定指定历史回合的对话内容;将所述当前回合的输入语音、指定历史回合的对话语音输入所述对话模型中的特征提取子网中,以通过所述特征提取子网中的音频特征提取层提取音频特征;将所述当前回合的输入内容、指定历史回合的对话内容输入所述对话模型中的特征提取子网中,以通过所述特征提取子网中的内容特征提取层提取内容特征。
在提取音频特征前,通常会对语音进行预处理,语音的预处理可包括分帧、加窗等操作。在完成对语音的预处理后,可提取语音的声强、梅尔频率倒谱系数(Mel-FrequencyCepstral Coefficients,MFCC)、身份矢量(Identity-Vector,I-Vector)作为语音的音频特征,也可利用各种神经网络对语音的频谱图进行提取,得到语音的音频特征。
在对语音进行预处理时,还可对语音进行文本转换,即将语音的内容用文本进行表示。由于文本的语义通常较为复杂,在不同的语境下,即使是相同的文本内容也可能是在表达不同的意思,因此在提取内容特征时需要考虑前后文的关系,结构较为简单的神经网络通常无法捕捉丰富的语义,因此可采用以长短期记忆(Long Short-Term Memory,LSTM)网络为基础的模型来提取内容特征,具体可采用TF-IDF、Word2vec、BERT等语言模型来提取内容特征。
在步骤S106中,可采用多种方法根据预设特征确定当前回合向用户回复的回复语音,例如,可采用算法使模型根据预设特征实时生成向用户回复的回复语音,也可在预设的各语音中选择最优的语音作为回复语音向用户进行回复。具体的,可根据所述融合特征在预设的各标准音频中选择当前回合向用户回复的回复音频,在预设的各标准内容中选择当前回合向用户回复的回复内容;对所述回复音频和所述回复内容进行合成,得到回复语音。
在本说明书提供的对话业务执行方法中,需对方法中使用到的对话模型进行预先训练,在本方法中,主要采用历史人工对话的数据对模型进行有监督的训练,具体的,可获取历史人工对话中的语音和用户信息;在历史人工对话的各回合中确定样本回合,从所述样本回合之前的各回合中选择指定回合作为样本历史回合;根据所述历史人工对话中所述样本回合的语音确定标注语音;将所述用户信息输入对话模型中,以通过所述对话模型中的用户信息处理子网得到待优化用户特征;将样本回合中用户输入的语音、样本历史回合的语音输入所述对话模型中的特征提取子网中,以通过所述特征提取子网提取待优化音频特征和待优化内容特征;将所述待优化用户特征、所述待优化音频特征、所述待优化内容特征输入所述对话模型中的融合子网中,以通过所述融合子网对所述待优化用户特征、所述待优化音频特征、所述待优化内容特征进行融合,得到待优化融合特征;根据所述待优化融合特征,在预设的各标准音频中选择样本回合中向用户回复的回复音频,在预设的各标准内容中选择样本回合中向用户回复的回复内容;对所述回复音频和回合内容进行合成,得到回复语音;以所述回复语音和所述标注语音之间的差异最小为优化,对所述对话模型进行训练。
在对模型进行训练时,首先需要获取历史人工对话中的语音作为训练样本,并在人工对话的各回合中确定出样本回合与样本历史回合,其中,样本历史回合应从样本回合之前的各回合中选出。此处的样本回合为本次训练中的目标回合,即在本次训练中,需要模型最终确定出针对样本回合的回复语音。
由于需要模型确定出针对样本回合的回复语音,而作为训练样本的人工对话中,每一回合人工的回复都贴近最优回复,因此可以样本回合中人工回复的语音为基础,确定出在样本回合中的最优回复语音,作为标注语音。具体的,可将所述样本回合中向用户回复的语音的音频作为指定音频,将预设的各标准音频中与所述指定音频匹配度最高的标准音频作为标注音频;将所述样本回合中向用户回复的语音的内容作为指定内容,将预设的各标准内容中与所述指定内容匹配度最高的标准内容作为标注内容;对所述标注音频和所述标注内容进行合成,得到标注语音。
随后,确定出待优化用户特征、待优化语音特征和待优化内容特征。确定待优化用户特征、待优化音频特征、待优化内容特征的方法可与步骤S102中确定用户特征、音频特征、内容特征的方法相同。同样的,对待优化用户特征、待优化音频特征、待优化内容特征进行融合得到的待优化融合特征的方法也可与步骤S104中得到融合特征的方法相同。
在收集完所有的历史人工对话的数据后,会通过启发式算法将在任意情况下所有可能的回复音频和回复内容总结出来,并输入进模型中,作为预设的标准音频和标准内容。在训练的过程中,当模型根据待优化融合特征从预设的标准音频与标准内容中选择出回复音频和回复内容,并将回复音频和回复内容合成得到回复语音后,需要判断模型当前确定出的回复语音是否为最佳回复语音,此时的最佳回复语音即为上述训练过程中确定出的标注语音。若是,则本轮训练结束,否则可以所述回复语音和所述标注语音之间的差异最小为优化,对所述对话模型进行训练。
由于每个语音都包含音频和内容两部分,因此在优化时也可将回复语音拆分为两部分,分别以回复音频和回复内容为重点进行优化后,再重新合成为回复语音。具体的,可以所述回复音频和所述标注音频之间的差异最小,且,所述回复内容与所述标注内容之间的差异最小为优化目标,对所述对话模型进行训练,具体可为对如图2所示的模型中用户信息处理子网、特征提取子网、融合子网、回复语音确定子网的模型参数进行调整。
采用本方法训练对话模型时,可使模型不仅能够学习各种情况下应回复的内容,还能使模型充分学习面对不同场景时需要的音频,使模型在对话时能够合理地选择回复地内容,同时令模型对话时的感情色彩尽可能地贴近人工对话,给用户良好的对话体验。
以上是本说明书提供的对话业务执行方法,基于同样的思路,本说明书还提供了相应的对话业务执行装置,如图3所示。
图3为本说明书提供的一种对话业务执行装置示意图,具体包括:
获取模块200,获取用户在当前回合输入的输入语音;
提取模块202,将用户的用户信息输入预先训练的对话模型中,以通过所述对话模型中的用户信息处理子网得到用户特征;将所述当前回合的输入语音、指定历史回合的对话语音输入所述对话模型中的特征提取子网中,以通过所述特征提取子网提取音频特征和内容特征;
融合模块204,将所述用户特征、所述音频特征、所述内容特征输入所述对话模型中的融合子网中,以通过所述融合子网对所述用户特征、所述音频特征、所述内容特征进行融合,得到融合特征;
确定模块206,根据所述融合特征确定当前回合向用户回复的回复语音;
回复模块208,采用确定出的所述回复语音向用户进行回复。
在一可选的实施例:
所述提取模块202,具体用于将用户的基本信息和行为信息输入预先训练的对话模型中,以通过所述对话模型中的用户信息处理子网中的提取层提取对应于所述基本信息的用户基本特征和对应于所述行为信息的用户行为特征;通过所述用户信息处理子网中的融合层对所述用户基本特征和所述用户行为特征进行融合,得到用户特征。
在一可选的实施例:
所述提取模块202,具体用于根据所述当前回合的输入语音确定当前回合的输入内容,根据指定历史回合的对话语音确定指定历史回合的对话内容;将所述当前回合的输入语音、指定历史回合的对话语音输入所述对话模型中的特征提取子网中,以通过所述特征提取子网中的音频特征提取层提取音频特征;将所述当前回合的输入内容、指定历史回合的对话内容输入所述对话模型中的特征提取子网中,以通过所述特征提取子网中的内容特征提取层提取内容特征。
在一可选的实施例:
所述融合模块204,具体用于根据所述融合特征在预设的各标准音频中选择当前回合向用户回复的回复音频,在预设的各标准内容中选择当前回合向用户回复的回复内容;对所述回复音频和所述回复内容进行合成,得到回复语音。
在一可选的实施例:
所述装置还包括训练模块210,所述训练模块210,具体用于获取历史人工对话中的语音和用户信息;在历史人工对话的各回合中确定样本回合,从所述样本回合之前的各回合中选择指定回合作为样本历史回合;根据所述历史人工对话中所述样本回合的语音确定标注语音;将所述用户信息输入对话模型中,以通过所述对话模型中的用户信息处理子网得到待优化用户特征;将样本回合中用户输入的语音、样本历史回合的语音输入所述对话模型中的特征提取子网中,以通过所述特征提取子网提取待优化音频特征和待优化内容特征;将所述待优化用户特征、所述待优化音频特征、所述待优化内容特征输入所述对话模型中的融合子网中,以通过所述融合子网对所述待优化用户特征、所述待优化音频特征、所述待优化内容特征进行融合,得到待优化融合特征;根据所述待优化融合特征,在预设的各标准音频中选择样本回合中向用户回复的回复音频,在预设的各标准内容中选择样本回合中向用户回复的回复内容;对所述回复音频和回合内容进行合成,得到回复语音;以所述回复语音和所述标注语音之间的差异最小为优化,对所述对话模型进行训练。
在一可选的实施例:
所述训练模块210,具体用于将所述样本回合中向用户回复的语音的音频作为指定音频,将预设的各标准音频中与所述指定音频匹配度最高的标准音频作为标注音频;将所述样本回合中向用户回复的语音的内容作为指定内容,将预设的各标准内容中与所述指定内容匹配度最高的标准内容作为标注内容;对所述标注音频和所述标注内容进行合成,得到标注语音。
在一可选的实施例:
所述训练模块210,具体用于以所述回复音频和所述标注音频之间的差异最小,且,所述回复内容与所述标注内容之间的差异最小为优化目标,对所述对话模型进行训练。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1提供的对话业务执行方法。
本说明书还提供了图4所示的电子设备的示意结构图。如图4所述,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的对话业务执行方法。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
需要说明的是,本申请中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种对话业务执行方法,其特征在于,包括:
获取用户在当前回合输入的输入语音;
将用户的用户信息输入预先训练的对话模型中,以通过所述对话模型中的用户信息处理子网得到用户特征;将所述当前回合的输入语音、指定历史回合的对话语音输入所述对话模型中的特征提取子网中,以通过所述特征提取子网提取音频特征和内容特征;
将所述用户特征、所述音频特征、所述内容特征输入所述对话模型中的融合子网中,以通过所述融合子网对所述用户特征、所述音频特征、所述内容特征进行融合,得到融合特征;
根据所述融合特征确定当前回合向用户回复的回复语音;
采用确定出的所述回复语音向用户进行回复。
2.如权利要求1所述的方法,其特征在于,将用户的用户信息输入预先训练的对话模型中,以通过所述对话模型中的用户信息处理子网得到用户特征,具体包括:
将用户的基本信息和行为信息输入预先训练的对话模型中,以通过所述对话模型中的用户信息处理子网中的提取层提取对应于所述基本信息的用户基本特征和对应于所述行为信息的用户行为特征;
通过所述用户信息处理子网中的融合层对所述用户基本特征和所述用户行为特征进行融合,得到用户特征。
3.如权利要求1所述的方法,其特征在于,将所述当前回合的输入语音、指定历史回合的对话语音输入所述对话模型中的特征提取子网中,以通过所述特征提取子网提取音频特征和内容特征,具体包括:
根据所述当前回合的输入语音确定当前回合的输入内容,根据指定历史回合的对话语音确定指定历史回合的对话内容;
将所述当前回合的输入语音、指定历史回合的对话语音输入所述对话模型中的特征提取子网中,以通过所述特征提取子网中的音频特征提取层提取音频特征;
将所述当前回合的输入内容、指定历史回合的对话内容输入所述对话模型中的特征提取子网中,以通过所述特征提取子网中的内容特征提取层提取内容特征。
4.如权利要求1所述的方法,其特征在于,根据所述融合特征确定当前回合向用户回复的回复语音,具体包括:
根据所述融合特征在预设的各标准音频中选择当前回合向用户回复的回复音频,在预设的各标准内容中选择当前回合向用户回复的回复内容;
对所述回复音频和所述回复内容进行合成,得到回复语音。
5.如权利要求1所述的方法,其特征在于,预先训练所述对话模型,具体包括:
获取历史人工对话中的语音和用户信息;
在历史人工对话的各回合中确定样本回合,从所述样本回合之前的各回合中选择指定回合作为样本历史回合;
根据所述历史人工对话中所述样本回合的语音确定标注语音;
将所述用户信息输入对话模型中,以通过所述对话模型中的用户信息处理子网得到待优化用户特征;将样本回合中用户输入的语音、样本历史回合的语音输入所述对话模型中的特征提取子网中,以通过所述特征提取子网提取待优化音频特征和待优化内容特征;
将所述待优化用户特征、所述待优化音频特征、所述待优化内容特征输入所述对话模型中的融合子网中,以通过所述融合子网对所述待优化用户特征、所述待优化音频特征、所述待优化内容特征进行融合,得到待优化融合特征;
根据所述待优化融合特征,在预设的各标准音频中选择样本回合中向用户回复的回复音频,在预设的各标准内容中选择样本回合中向用户回复的回复内容;
对所述回复音频和回合内容进行合成,得到回复语音;
以所述回复语音和所述标注语音之间的差异最小为优化目标,对所述对话模型进行训练。
6.如权利要求5所述的方法,其特征在于,根据所述历史人工对话中所述样本回合的语音确定标注语音,具体包括:
将所述样本回合中向用户回复的语音的音频作为指定音频,将预设的各标准音频中与所述指定音频匹配度最高的标准音频作为标注音频;
将所述样本回合中向用户回复的语音的内容作为指定内容,将预设的各标准内容中与所述指定内容匹配度最高的标准内容作为标注内容;
对所述标注音频和所述标注内容进行合成,得到标注语音。
7.如权利要求6所述的方法,其特征在于,以所述回复语音和所述标注语音之间的差异最小为优化目标,对所述对话模型进行训练,具体包括:
以所述回复音频和所述标注音频之间的差异最小,且,所述回复内容与所述标注内容之间的差异最小为优化目标,对所述对话模型进行训练。
8.一种对话业务执行装置,其特征在于,包括:
获取模块,获取用户在当前回合输入的输入语音;
提取模块,将用户的用户信息输入预先训练的对话模型中,以通过所述对话模型中的用户信息处理子网得到用户特征;将所述当前回合的输入语音、指定历史回合的对话语音输入所述对话模型中的特征提取子网中,以通过所述特征提取子网提取音频特征和内容特征;
融合模块,将所述用户特征、所述音频特征、所述内容特征输入所述对话模型中的融合子网中,以通过所述融合子网对所述用户特征、所述音频特征、所述内容特征进行融合,得到融合特征;
确定模块,根据所述融合特征确定当前回合向用户回复的回复语音;
回复模块,采用确定出的所述回复语音向用户进行回复。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~7任一项所述的方法。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210483385.6A CN115019781A (zh) | 2022-05-05 | 2022-05-05 | 一种对话业务执行方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210483385.6A CN115019781A (zh) | 2022-05-05 | 2022-05-05 | 一种对话业务执行方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115019781A true CN115019781A (zh) | 2022-09-06 |
Family
ID=83069782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210483385.6A Pending CN115019781A (zh) | 2022-05-05 | 2022-05-05 | 一种对话业务执行方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115019781A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115952271A (zh) * | 2023-03-09 | 2023-04-11 | 杭州心识宇宙科技有限公司 | 一种生成对话信息的方法、装置、存储介质及电子设备 |
-
2022
- 2022-05-05 CN CN202210483385.6A patent/CN115019781A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115952271A (zh) * | 2023-03-09 | 2023-04-11 | 杭州心识宇宙科技有限公司 | 一种生成对话信息的方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10217463B2 (en) | Hybridized client-server speech recognition | |
CN109710727B (zh) | 用于自然语言处理的系统和方法 | |
CN110998720A (zh) | 话音数据处理方法及支持该方法的电子设备 | |
KR20180070684A (ko) | 다이얼로그 시스템들에서의 파라미터 수집 및 자동 다이얼로그 생성 | |
US20120290298A1 (en) | System and method for optimizing speech recognition and natural language parameters with user feedback | |
CN111081280B (zh) | 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法 | |
CN115952272B (zh) | 一种生成对话信息的方法、装置、设备及可读存储介质 | |
CN111261151B (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
CN112632961A (zh) | 基于上下文推理的自然语言理解处理方法、装置以及设备 | |
CN115129878B (zh) | 一种对话业务执行方法、装置、存储介质及电子设备 | |
CN112735407B (zh) | 一种对话处理方法及装置 | |
US10540973B2 (en) | Electronic device for performing operation corresponding to voice input | |
CN109376363A (zh) | 一种基于耳机的实时语音翻译方法及装置 | |
US20210110821A1 (en) | Electronic apparatus and method for controlling electronic apparatus | |
CN115545002B (zh) | 一种模型训练和业务处理的方法、装置、存储介质及设备 | |
KR20190068021A (ko) | 감정 및 윤리 상태 모니터링 기반 사용자 적응형 대화 장치 및 이를 위한 방법 | |
CN115563366A (zh) | 一种模型训练和数据分析的方法、装置、存储介质及设备 | |
CN112597301A (zh) | 一种语音意图识别方法及装置 | |
KR20200017272A (ko) | 음성에 기반하여 기능을 실행하기 위한 방법 및 이를 지원하는 사용자 전자 장치 | |
CN115019781A (zh) | 一种对话业务执行方法、装置、存储介质及电子设备 | |
CN113987149A (zh) | 任务型机器人的智能会话方法、系统及存储介质 | |
CN112771607A (zh) | 电子设备及其控制方法 | |
CN115620706B (zh) | 一种模型训练方法、装置、设备及存储介质 | |
CN111508481A (zh) | 语音唤醒模型的训练方法、装置、电子设备及存储介质 | |
KR102485339B1 (ko) | 차량의 음성 명령 처리 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |