CN111966803B - 对话模拟方法、装置、存储介质及电子设备 - Google Patents
对话模拟方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN111966803B CN111966803B CN202010769042.7A CN202010769042A CN111966803B CN 111966803 B CN111966803 B CN 111966803B CN 202010769042 A CN202010769042 A CN 202010769042A CN 111966803 B CN111966803 B CN 111966803B
- Authority
- CN
- China
- Prior art keywords
- dialogue
- content
- slot
- voice data
- conversation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000004088 simulation Methods 0.000 title claims abstract description 31
- 238000012545 processing Methods 0.000 claims description 49
- 238000012937 correction Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 abstract description 29
- 238000013515 script Methods 0.000 description 23
- 230000008569 process Effects 0.000 description 13
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请实施例公开了一种对话模拟方法、装置、存储介质及电子设备,属于计算机技术领域。所述方法应用于模拟用户对话的电子设备,电子设备通过确定对话意图以及对话意图对应的对话槽位内容,生成对话槽位内容中第一槽位内容对应的第一语音数据,并将第一语音数据发送到任务对话装置,接收任务对话装置针对第一语音数据发送的第二语音数据,确定对话未结束时,基于对话槽位内容中第二槽位内容进行对话,能精准地模拟在不同的对话场景下用户的对话内容,并基于所模拟的用户对话内容与任务对话系统进行对话交互。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种对话模拟方法、装置、存储介质及电子设备。
背景技术
随着互联网和智能终端的普及,基于人机交互的任务对话系统也随之得到了发展,被广泛应用于导航、打车、购物、订电影票、订外卖等应用场景中。任务对话系统可以使用自然语言与用户交互提供各种信息,并接收以音频或文本消息类型的用户回答内容,任务对话系统中人机交互的过程通常包括:用户向对任务对话系统发送语音或文本命令,任务对话系统在接收到语音或文本命令后执行相应的操作。在相关技术中,通常基于固定模板模拟用户对话的方式对任务对话系统进行训练,使其能达到预期的对话结果,但由固定模板模拟得到的用户对话内容较为单一,不能精准地模拟用户进行对话。
发明内容
本申请实施例提供了一种对话模拟方法、装置、存储介质及电子设备,可以解决相关技术中不能模拟适应不同的对话场景用户与任务对话系统进行对话交互的问题。所述技术方案如下:
第一方面,本申请实施例提供了一种对话模拟方法,所述方法包括:
确定对话意图以及所述对话意图对应的对话槽位内容;
生成所述对话槽位内容中第一槽位内容对应的第一语音数据,并将所述第一语音数据发送到任务对话装置;
接收所述任务对话装置针对所述第一语音数据发送的第二语音数据;
确定对话未结束时,基于所述对话槽位内容中第二槽位内容进行对话。
第二方面,本申请实施例提供了一种对话模拟装置,所述装置包括:
确定模块,用于确定对话意图以及所述对话意图对应的对话槽位内容;
第一处理模块,用于生成所述对话槽位内容中第一槽位内容对应的第一语音数据,并将所述第一语音数据发送到任务对话装置;
接收模块,用于接收所述任务对话装置针对所述第一语音数据发送的第二语音数据;
第二处理模块,用于确定对话未结束时,基于所述对话槽位内容中第二槽位内容进行对话。
第三方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
第四方面,本申请实施例提供一种电子设备,包括:处理器、存储器、显示屏;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。
本申请一些实施例提供的技术方案带来的有益效果至少包括:
本申请实施例的方案在执行时,电子设备通过确定对话意图以及对话意图对应的对话槽位内容,生成对话槽位内容中第一槽位内容对应的第一语音数据,并将第一语音数据发送到任务对话装置,接收任务对话装置针对第一语音数据发送的第二语音数据,确定对话未结束时,基于对话槽位内容中第二槽位内容进行对话,能精准地模拟在不同的对话场景下用户的对话内容,并基于所模拟的用户对话内容与任务对话系统进行对话交互。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种对话模拟方法的流程示意图;
图2是本申请实施例提供的一种对话模拟方法的另一流程示意图;
图3是本申请实施例提供的一种对话模拟装置的结构示意图;
图4是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
下面将结合附图1至图2,对本申请实施例提供的对话模拟方法进行详细介绍。
请参见图1,为本申请实施例提供了一种对话模拟方法的流程示意图。本实施例以一种对话模拟方法应用于电子设备来举例说明,该对话模拟方法可以包括以下步骤:
S101,确定对话意图以及对话意图对应的对话槽位内容。
其中,对话意图是指希望通过对话的方式达到的目的,也即对话中的用户意图,如:电影票购买、车票预订等意图;对话槽位内容是指与待填充的槽位相关的信息,可以包括槽位数量、槽位内容、槽位顺序等,对话槽位内容中可以包括多个槽位内容;槽是指实体已明确定义的属性,填槽是指将用户意图转化为用户明确的指令而不全信息的过程,槽位是指通过用户对话的关键词或其他方式获取信息的填槽方式(词槽、接口槽)。
一般的,数据库中存有大量的对话脚本,每个对话脚本中均包含用户的对话意图及对话意图对应的对话槽位内容,不同的对话脚本对应的对话意图和对话槽位内容可不同,电子设备会随机地从数据库中选取任意的对话脚本作为训练数据,并解析所选取的对话脚本,得到对话脚本对应的对话意图和对话意图对应的对话槽位内容。在每轮对话交互结束时,都可通过重置对话意图,并从数据库中重新随机选取新的对话脚本,并基于新的对话脚本确定当前选取的对话意图。
S102,生成对话槽位内容中第一槽位内容对应的第一语音数据,并将第一语音数据发送到任务对话装置。
其中,第一槽位内容是指对话槽位内容中优先级最高的槽位内容,通常第一槽位内容可用于表明用户对话意图的对话内容;第一语音数据是指基于第一槽位内容生成包含用户的对话意图的语音数据。任务对话装置是指可以通过自然语言与用户进行对话交互,并能接收以音频或文本消息类型的用户回答内容的装置,用户可以向任务对话装置发提供语音命令以引起任务对话装置执行相应的操作,如:预约餐厅或购买电影票等。
一般的,电子设备会根据对话意图对应的对话槽位内容,以及对话槽位内容中各个槽位内容的优先级顺序确定第一槽位内容,并根据第一槽位内容生成对话槽位内容中的第一槽位内容对应的第一请求模板信息,以及将第一请求模板信息转换为第一语音数据。将第一请求模板信息转换为第一语音数据的过程包括:查找与第一请求模板信息具有相同语义的目标语句,对目标语句进行纠错处理和语句填充处理,得到自然语言文本数据,将自然语言文本数据转换为第一语音数据,并对第一语音数据添加背景噪声数据,使语音数据更加真实自然,将添加有背景噪声数据的第一语音数据发送到任务对话装置,也即模拟用户向任务对话装置发送语音指令。
S103,接收任务对话装置针对第一语音数据发送的第二语音数据。
其中,第二语音数据是指任务对话装置在接收到第一语音数据后,通过响应于解析后的第一语音数据生成的语音数据,也即针对第一语音数据的回答内容数据。
一般的,在任务对话装置接收到由电子设备发送的第一语音数据后,可通过解析该第一语音数据得到对应的语音指令,任务对话装置会基于该语音指令执行相应的操作,基于操作结果和第一语音数据生成用于回答第一语音数据的第二语音数据,并将该第二语音数据发送给电子设备,实现与电子设备的第一次对话交互。电子设备会对应接收到由任务对话装置发送的第二语音数据,并基于该第二语音数据进行相应的处理。同时,电子设备会对第一语音数据和第二语音数据各自相关的对话文本数据进行记录,后续会基于所记录的各次对话文本数据,对模拟用户对话交互的上下文状态进行更新。
S104,确定对话未结束时,基于对话槽位内容中第二槽位内容进行对话。
其中,第二槽位内容是指在对话槽位内容中优先级顺序仅次于第一槽位内容的槽位内容,是基于用户对话意图生成的槽位内容。
一般的,在电子设备接收到任务对话装置针对第一语音数据发送的第二语音数据后,会将第二语音数据转换为第一文本数据,并解析第一文本数据得到当前的槽位填充内容,在当前的槽位填充内容与对话槽位内容中的目标槽位内容不匹配时,确定对话未结束;在当前的槽位填充内容与对话槽位内容中的目标槽位内容匹配时,确定对话结束。在确定对话未结束时,会基于对话槽位内容中第二槽位内容,生成对话槽位内容中第二槽位内容对应的第三语音数据,并将第三语音数据发送到任务对话装置。在确定对话结束时,表明该轮对话交互结束,则重置对话意图,也即从数据库中重新随机选取新的对话脚本,基于该对话脚本可得到下一个对话意图,将下一个对话意图确定为对话意图,并执行确定对话意图以及对话意图对应的对话槽位内容的步骤。
由上述内容可知,本方案提供的对话模拟方法,电子设备通过确定对话意图以及对话意图对应的对话槽位内容,生成对话槽位内容中第一槽位内容对应的第一语音数据,并将第一语音数据发送到任务对话装置,接收任务对话装置针对第一语音数据发送的第二语音数据,确定对话未结束时,基于对话槽位内容中第二槽位内容进行对话,能精准地模拟在不同的对话场景下用户的对话内容,并基于所模拟的用户对话内容与任务对话系统进行对话交互。
请参见图2,为本申请实施例提供了一种对话模拟方法的另一流程示意图。本实施例以一种对话模拟方法应用于电子设备中来举例说明。该对话模拟方法可以包括以下步骤:
S201,重置对话意图,确定当前选取的对话意图,以及确定对话意图对应的对话槽位内容。
其中,对话意图是指希望通过对话的方式达到的目的,也即对话中的用户意图,如:电影票购买、车票预订等意图;对话槽位内容是指与待填充的槽位相关的信息,可以包括槽位数量、槽位内容、槽位顺序等,对话槽位内容中可以包括多个槽位内容;槽是指实体已明确定义的属性,填槽是指将用户意图转化为用户明确的指令而补全信息的过程,槽位是指通过用户对话的关键词或其他方式获取信息的填槽方式(词槽、接口槽)。
一般的,数据库中存有大量的对话脚本,每个对话脚本中均包含用户的对话意图及对话意图对应的对话槽位内容,不同的对话脚本对应的对话意图和对话槽位内容可不同,电子设备会随机地从数据库中选取任意的脚本作为训练对象,并解析所选取的对话脚本,得到对话脚本对应的对话意图和对话意图对应的对话槽位内容。在每轮对话交互结束时,都可通过重置对话意图,并从数据库中重新随机选取新的对话脚本,并基于新的对话脚本确定当前选取的对话意图。
S202,生成对话槽位内容中第一槽位内容对应的第一请求模板信息。
其中,第一槽位内容是指对话槽位内容中优先级最高的槽位内容,通常第一槽位内容可用于表明用户对话意图的对话内容;第一请求模板信息是指电子设备根据第一槽位内容生成的用于告知任务对话装置当前需要填充的槽位内容的请求信息,第一请求模板信息可以是关键字、关键短语形式的请求模板信息,通常第一请求模板信息是基于当前的对话意图生成的请求信息,如:对话意图为“电影票购买”,第一请求模板信息可以是“买电影票”或“购买电影票”。
S203,查找与第一请求模板信息具有相同语义的目标语句。
其中,目标语句是指基于存储在数据库中的对话日志所包含的对话语句,该对话语句与第一请求模板的语义相同。
一般的,第一请求模板信息可以是简短的关键字或关键短语,故第一请求模板信息能表达的意思较为机器化,可通过从数据库中查找与第一请求模板信息具有相同语义的语句,并将其作为目标语句来表达第一请求模板信息需要表达的语义,目标语句相较于第一请求模板信息的语句更加通顺,目标语句可以是短句子形式的与语句。
S204,对目标语句进行纠错处理和语句填充处理,得到自然语言文本数据。
其中,自然语言文本数据是指自然随文化生成的人类语言文本数据,是符合人类语言规则的文本数据。
一般的,目标语句可能会存在字词错误或语义表达欠缺的情况,需要对目标语句进行纠错处理,对目标语句中出现的错误字词进行纠正,使目标语句能正确表达语句意思;由于目标语句也可能是简短的句子,故目标语句能表达的意思可能是完整的,但呈现的句子语气或语句流畅度可能较差,进一步地需要对目标语句进行语句填充处理,使目标语句能更加流畅通顺,并能在一定程度上模拟用户可能需要表达的语气,进而得到能真实地模拟用户对话的自然语言文本数据;对目标语句进行纠错处理和语句填充处理也即是对目标语句进行美化润色的过程,通常可对目标语句进行纠错处理后再进行语句填充处理,也可只对目标语句进行纠错处理,或也可只对目标语句进行语句填充处理,具体情况需要根据目标语句现有的字词表示情况、语句流畅情况、语气表达情况而定。同时,电子设备会记录当前得到的自然语言文本数据,后续会基于所记录的各次对话文本数据,对模拟用户对话交互的上下文状态进行更新。
S205,将自然语言文本数据转换为第一语音数据。
其中,第一语音数据是指基于自然语言文本数据生成包含用户的对话意图的语音数据,通常语音数据的内容与其转换前的文本数据内容相关。自然语言文本数据和第一语音数据是对于需要表达相同含义的内容的两种不同呈现形式,可通过文本转换的方式将自然语言文本数据转换为对于的语音数据。
S206,对第一语音数据添加背景噪声数据。
其中,背景噪声数据是指与语音数据无关的干扰声音数据,通常用户在真实的环境中讲话会存在一定的背景噪声,为使语音数据的呈现更加真实,可通过在得到的语音数据中添加无关的背景噪声,以此模拟真实的用户讲话环境。
在电子设备的语音识别和语音合成过程均加入了背景噪声数据,背景噪声数据和原始输入语音数据融合方式为线性加权,由此可得到添加背景噪声数据后的语音数据New_audio,原始输入语音数据Raw_audio的权值为0.9,背景噪声数据Background_noise的权值为0.1;加权公式为:
New_audio=Raw_audio*0.9+Background_noise*0.1。
S207,将添加有背景噪声数据的第一语音数据发送到任务对话装置。
其中,任务对话装置是指可以通过自然语言与用户进行对话交互,并能接收以音频或文本消息类型的用户回答内容的装置,用户可以向任务对话装置发提供语音命令以引起任务对话装置执行相应的操作,如:预约餐厅或购买电影票等。
S208,接收任务对话装置针对第一语音数据发送的第二语音数据。
其中,第二语音数据是指任务对话装置在接收到第一语音数据后,通过响应于解析后的第一语音数据生成的语音数据,也即针对第一语音数据的回答内容数据。
一般的,在任务对话装置接收到由电子设备发送的第一语音数据后,可通过解析该第一语音数据得到对应的语音指令,任务对话装置会基于该语音指令执行相应的操作,基于操作结果和第一语音数据生成用于回答第一语音数据的第二语音数据,并将该第二语音数据发送给电子设备,实现与电子设备的第一次对话交互。电子设备会对应接收到由任务对话装置发送的第二语音数据,并基于该第二语音数据进行相应的处理。
S209,将第二语音数据转换为第一文本数据。
其中,第一文本数据是指以文本形式呈现且与第二语音数据包含的内容相同的文本数据,可通过语音识别将语音数据转换成对应的文本数据。
S210,解析第一文本数据,得到当前的槽位填充内容。
其中,槽位填充内容是指可用于填充对话槽位内容中槽位的内容。
一般的,电子设备根据对话槽位内容中的第一槽位内容生成的第一语音数据,并将该第一语音数据发送给任务对话装置,在任务对话装置接收到该第一语音数据后,任务对话装置可基于该第一语音数据生成对应的回复语音数据,也即第二语音数据,并将其发送给电子设备,在电子设备接收到该第二语音数据后可通过语音识别将该第二语音数据转换为第一文本数据,第一文本数据中包含任务对话装置针对第一语音数据的回复内容,通过解析该第一文本数据可得到能填充对应槽位的内容,也即第一槽位内容对应的填充内容。解析第一文本数据的过程也即对经过语音文本转换后的文本数据进行自然语言理解,可以此确定对话状态及当前对话槽位内容的状态,并可基于当前的槽位填充内容来判断本轮的对话交互是否结束。同时,电子设备会记录当前得到的第一文本数据,后续会基于所记录的各次对话文本数据,对模拟用户对话交互的上下文状态进行更新。
举例说明:当前的对话意图为“电影票购买”,则对应的第一槽位内容可以是“电影票购买”,基于该第一槽位内容可生成对应的第一请求模板“买电影票”,根据该第一请求模板信息可查找到与其语义相同的目标语句可以是“我要买电影票”,对该目标语句进行语句填充处理后可得到自然语言文本数据“你好!我想要购买电影票”,进而会将该自然语言文本数据转换为对应的第一语音数据,并将该第一语音数据发送给任务对话装置,任务对话装置基于该第一语音数据可确定当前缺少电影名称的槽位,故可生成与之对应的第二语音数据“请问您想看哪部电影”,电子设备在接收到该第二语音数据后,会将其转换成文本数据,基于该文本数据可确定第一槽位内容对应的槽位填充内容为请求电影名称“哪部电影”,则可基于该槽位填充内容确定本轮的对话交互还未结束。
S211,判断当前的槽位填充内容与对话槽位内容中的目标槽位内容是否匹配。
其中,目标槽位内容是指与当前槽位填充内容对应的对话槽位内容中的槽位内容,可根据电子设备当前发送的语音数据确定目标槽位内容,若当前发送的语音数据为第一语音数据,则目标槽位内容为第一槽位内容。
一般的,在当前的槽位填充内容与对话槽位内容中的目标槽位内容匹配时,表明任务对话装置能正确回答并处理电子设备发送的语音指令,则可直接结束本轮对话交互;在当前的槽位填充内容与对话槽位内容中的目标槽位内容不匹配时,表明任务对话装置未能基于电子设备发送的语音指令执行相应的处理和回答,则需要进行多次对话交互,直至使当前的槽位填充内容能与对话槽位内容中的目标槽位内容匹配才结束本轮对话。
S212,在当前的槽位填充内容与对话槽位内容中的目标槽位内容不匹配时,确定对话未结束。
举例说明:目标槽位内容为“购买电影票”,当前的槽位填充内容为“哪部电影”,此时的槽位填充内容与目标槽位内容不匹配,则电子设备需要继续基于该槽位填充内容以及对话槽位内容的其他槽位内容进行对话交互,直至当前的槽位填充内容为“已购买”,则该槽位填充内容与目标槽位内容相匹配,此时可结束本轮对话交互。
S213,生成对话槽位内容中第二槽位内容对应的第三语音数据,并将第三语音数据发送到任务对话装置。
其中,第二槽位内容是指在对话槽位内容中优先级顺序仅次于第一槽位内容的槽位内容,是基于用户对话意图生成的槽位内容。对话槽位内容中可包括多个槽位内容,对多个槽位内容处理的顺序可基于各个槽位内容的优先级顺序而定。第三语音数据是指基于第二槽位内容生成的用于回答当前槽位填充内容的告知语音数据。
一般的,当前的槽位填充内容与对话槽位内容中的目标槽位内容不匹配时,确定对话未结束,则需要继续基于该槽位填充内容以及对话槽位内容的第二槽位内容进行对话交互,并对当前的对话状态和当前对话槽位内容的状态进行更新;相同地,电子设备将根据第二槽位内容生成对话槽位内容中的第二槽位内容对应的第二请求模板信息,以及将第二请求模板信息转换为第三语音数据。将第二请求模板信息转换为第三语音数据的过程包括:查找与第二请求模板信息具有相同语义的目标语句,对目标语句进行纠错处理和语句填充处理,得到自然语言文本数据,将自然语言文本数据转换为第三语音数据,并对第三语音数据添加背景噪声数据,使语音数据更加真实自然,将添加有背景噪声数据的第三语音数据发送到任务对话装置,也即模拟用户向任务对话装置第二次发送语音指令。
举例说明:请参见表1,表1为电子设备从数据库中随机选取的对话脚本数据,该对话脚本数据中包括:对话意图“电影票购买”,第一槽位内容“电影票购买”,第三槽位内容“电影名称:少年的你”,第四槽位内容“电影院名称”,第五槽位内容“购买”。
表1
对话意图 | 电影票购买 |
第一槽位内容 | 电影票购买 |
第二槽位内容 | 电影名称:“少年的你” |
第三槽位内容 | 电影院名称 |
第四槽位内容 | 电影场次 |
第五槽位内容 | 购买 |
请参见表2,表2为电子设备根据当前选取的对话脚本数据模拟用户与任务对话装置进行对话交互的过程,交互对象为模拟用户对话的电子设备和任务对话装置,对话行为和内容是电子设备和任务对话装置各自基于当前对话内容执行的相应操作:
表2
S214,在当前的槽位填充内容与对话槽位内容中的目标槽位内容匹配时,确定对话结束。
S215,重置对话意图,得到下一个对话意图,将下一个对话意图确定为对话意图,并执行确定对话意图以及对话意图对应的对话槽位内容的步骤。
一般的,在确定本轮对话交互结束时,可重新从数据库中随机选取任意的对话脚本作为新一轮对话交互的训练数据,并解析所选取的对话脚本得到与之对应的对话意图和对话意图对应的对话槽位内容,并执行上述S202~S211步骤。
由上述内容可知,本方案提供的对话模拟方法,电子设备重置对话意图,确定当前选取的对话意图,以及确定对话意图对应的对话槽位内容,生成对话槽位内容中第一槽位内容对应的第一请求模板信息,查找与第一请求模板信息具有相同语义的目标语句,对目标语句进行纠错处理和语句填充处理,得到自然语言文本数据,将自然语言文本数据转换为第一语音数据,对第一语音数据添加背景噪声数据,将添加有背景噪声数据的第一语音数据发送到任务对话装置,接收任务对话装置针对第一语音数据发送的第二语音数据,将第二语音数据转换为第一文本数据,解析第一文本数据,得到当前的槽位填充内容,判断当前的槽位填充内容与对话槽位内容中的目标槽位内容是否匹配,在当前的槽位填充内容与对话槽位内容中的目标槽位内容不匹配时,确定对话未结束,生成对话槽位内容中第二槽位内容对应的第三语音数据,并将第三语音数据发送到任务对话装置,在当前的槽位填充内容与对话槽位内容中的目标槽位内容匹配时,确定对话结束,重置对话意图,得到下一个对话意图,将下一个对话意图确定为对话意图,并执行确定对话意图以及对话意图对应的对话槽位内容的步骤,通过此种方式能基于数据库中大量的对话脚本模拟不同的对话场景下用户的对话内容,并辅助训练任务对话装置达到精准对话交互的效果。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参见图3,其示出了本申请一个示例性实施例提供的对话模拟装置的结构示意图,以下简称装置3。装置3可以通过软件、硬件或者两者的结合实现成为电子设备的全部或一部分。装置3包括:
确定模块301,用于确定对话意图以及所述对话意图对应的对话槽位内容;
第一处理模块302,用于生成所述对话槽位内容中第一槽位内容对应的第一语音数据,并将所述第一语音数据发送到任务对话装置;
接收模块303,用于接收所述任务对话装置针对所述第一语音数据发送的第二语音数据;
第二处理模块304,用于确定对话未结束时,基于所述对话槽位内容中第二槽位内容进行对话。
可选地,所述确定模块301,包括:
第一处理单元,用于重置对话意图,确定当前选取的对话意图。
可选地,所述第一处理模块302,包括:
生成单元,用于生成所述对话槽位内容中第一槽位内容对应的第一请求模板信息;
第一转换单元,用于将所述第一请求模板信息转换为第一语音数据。
可选地,所述第一处理模块302,包括:
查找单元,用于查找与所述第一请求模板信息具有相同语义的目标语句;
第二转换单元,用于将所述目标语句转换为第一语音数据。
可选地,所述第一处理模块302,包括:
第二处理单元,用于对所述目标语句进行纠错处理和语句填充处理,得到自然语言文本数据;
第三转换单元,用于将所述自然语言文本数据转换为第一语音数据。
可选地,所述第一处理模块302,包括:
添加单元,用于对所述第一语音数据添加背景噪声数据;
发送单元,用于将添加有所述背景噪声数据的第一语音数据发送到所述任务对话装置。
可选地,所述第二处理模块304,包括:
第三处理单元,用于生成所述对话槽位内容中第二槽位内容对应的第三语音数据,并将所述第三语音数据发送到所述任务对话装置。
可选地,所述第二处理模块304,包括:
第四处理单元,用于确定对话结束时,重置所述对话意图,得到下一个对话意图;
第五处理单元,用于将所述下一个对话意图确定为所述对话意图,并执行所述确定对话意图以及所述对话意图对应的对话槽位内容的步骤。
需要说明的是,上述实施例提供的对话模拟装置在执行对话模拟方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的对话模拟装置与对话模拟方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述的方法步骤,具体执行过程可以参见图1~图2所示实施例的具体说明,在此不进行赘述。
本申请还提供了一种电子设备,包括处理器、存储器和显示屏;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。
请参见图4,为本申请实施例提供了一种电子设备的结构示意图。如图4所示,所述电子设备400可以包括:至少一个处理器401,至少一个网络接口404,用户接口403,存储器405,至少一个通信总线402。
其中,通信总线402用于实现这些组件之间的连接通信。
其中,用户接口403可以包括显示屏(Display)、摄像头(Camera),可选用户接口403还可以包括标准的有线接口、无线接口。
其中,网络接口404可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器401可以包括一个或者多个处理核心。处理器401利用各种借口和线路连接整个电子设备400内的各个部分,通过运行或执行存储在存储器405内的指令、程序、代码集或指令集,以及调用存储在存储器405内的数据,执行电子设备400的各种功能和处理数据。可选的,处理器401可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器401可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器401中,单独通过一块芯片进行实现。
其中,存储器405可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器405包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器405可用于存储指令、程序、代码、代码集或指令集。存储器405可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器405可选的还可以是至少一个位于远离前述处理器401的存储装置。如图4所示,作为一种计算机存储介质的存储器405中可以包括操作系统、网络通信模块、用户接口模块以及对话模拟应用程序。
在图4所示的电子设备400中,用户接口403主要用于为用户提供输入的接口,获取用户输入的数据;而处理器401可以用于调用存储器405中存储的对话模拟应用程序,并具体执行以下操作:
确定对话意图以及所述对话意图对应的对话槽位内容;
生成所述对话槽位内容中第一槽位内容对应的第一语音数据,并将所述第一语音数据发送到任务对话装置;
接收所述任务对话装置针对所述第一语音数据发送的第二语音数据;
确定对话未结束时,基于所述对话槽位内容中第二槽位内容进行对话。
在一个实施例中,所述处理器401在执行确定对话意图时,具体执行以下操作:
重置对话意图,确定当前选取的对话意图。
在一个实施例中,所述处理器401在执行生成所述对话槽位内容中第一槽位内容对应的第一语音数据时,还执行以下操作:
生成所述对话槽位内容中第一槽位内容对应的第一请求模板信息;
将所述第一请求模板信息转换为第一语音数据。
在一个实施例中,所述处理器401在执行将所述第一请求模板信息转换为第一语音数据时,还执行以下操作:
查找与所述第一请求模板信息具有相同语义的目标语句;
将所述目标语句转换为第一语音数据。
在一个实施例中,所述处理器401在执行将所述目标语句转换为第一语音数据时,还执行以下操作:
对所述目标语句进行纠错处理和语句填充处理,得到自然语言文本数据;
将所述自然语言文本数据转换为第一语音数据。
在一个实施例中,所述处理器401在执行将所述第一语音数据发送到任务对话装置时,还执行以下操作:
对所述第一语音数据添加背景噪声数据;
将添加有所述背景噪声数据的第一语音数据发送到所述任务对话装置。
在一个实施例中,所述处理器401在执行确定对话未结束时,还执行以下操作:
将所述第二语音数据转换为第一文本数据;
解析所述第一文本数据,得到当前的槽位填充内容;
在所述当前的槽位填充内容与所述对话槽位内容中的目标槽位内容不匹配时,确定对话未结束。
在一个实施例中,所述处理器401在执行基于所述对话槽位内容中第二槽位内容进行对话时,还执行以下操作:
生成所述对话槽位内容中第二槽位内容对应的第三语音数据,并将所述第三语音数据发送到所述任务对话装置。
在一个实施例中,所述处理器401在执行时,还执行以下操作:
确定对话结束时,重置所述对话意图,得到下一个对话意图;
将所述下一个对话意图确定为所述对话意图,并执行所述确定对话意图以及所述对话意图对应的对话槽位内容的步骤。
在本申请实施例中,电子设备通过确定对话意图以及对话意图对应的对话槽位内容,生成对话槽位内容中第一槽位内容对应的第一语音数据,并将第一语音数据发送到任务对话装置,接收任务对话装置针对第一语音数据发送的第二语音数据,确定对话未结束时,基于对话槽位内容中第二槽位内容进行对话,能精准地模拟在不同的对话场景下用户的对话内容,并基于所模拟的用户对话内容与任务对话系统进行对话交互。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上介绍仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.一种对话模拟方法,其特征在于,所述方法包括:
确定对话意图以及所述对话意图对应的对话槽位内容;
生成所述对话槽位内容中第一槽位内容对应的第一语音数据,并将所述第一语音数据发送到任务对话装置;所述第一槽位内容用于表明用户对话意图的对话内容;
接收所述任务对话装置针对所述第一语音数据发送的第二语音数据;
将所述第二语音数据转换为第一文本数据;
解析所述第一文本数据,得到当前的槽位填充内容;
在所述当前的槽位填充内容与所述对话槽位内容中的目标槽位内容不匹配时,确定对话未结束;
在确定对话未结束时,基于所述对话槽位内容中第二槽位内容进行对话;所述第二槽位内容是指在所述对话槽位内容中优先级顺序仅次于所述第一槽位内容的槽位内容,且是基于用户对话意图生成的槽位内容;
其中,所述将所述第一语音数据发送到任务对话装置,包括:
对所述第一语音数据添加背景噪声数据;
将添加有所述背景噪声数据的第一语音数据发送到所述任务对话装置;
所述生成所述对话槽位内容中第一槽位内容对应的第一语音数据,包括:
生成所述对话槽位内容中第一槽位内容对应的第一请求模板信息;
查找与所述第一请求模板信息具有相同语义的目标语句;
将所述目标语句转换为第一语音数据。
2.根据权利要求1所述的方法,其特征在于,所述确定对话意图,包括:
重置对话意图,确定当前选取的对话意图。
3.根据权利要求1所述的方法,其特征在于,所述将所述目标语句转换为第一语音数据,包括:
对所述目标语句进行纠错处理和语句填充处理,得到自然语言文本数据;
将所述自然语言文本数据转换为第一语音数据。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述基于所述对话槽位内容中第二槽位内容进行对话,包括:
生成所述对话槽位内容中第二槽位内容对应的第三语音数据,并将所述第三语音数据发送到所述任务对话装置。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
确定对话结束时,重置所述对话意图,得到下一个对话意图;
将所述下一个对话意图确定为所述对话意图,并执行所述确定对话意图以及所述对话意图对应的对话槽位内容的步骤。
6.一种对话模拟装置,其特征在于,所述装置包括:
确定模块,用于确定对话意图以及所述对话意图对应的对话槽位内容;
第一处理模块,用于生成所述对话槽位内容中第一槽位内容对应的第一语音数据,并将所述第一语音数据发送到任务对话装置;所述第一槽位内容用于表明用户对话意图的对话内容;
接收模块,用于接收所述任务对话装置针对所述第一语音数据发送的第二语音数据;
第二处理模块,用于将所述第二语音数据转换为第一文本数据;解析所述第一文本数据,得到当前的槽位填充内容;在所述当前的槽位填充内容与所述对话槽位内容中的目标槽位内容不匹配时,确定对话未结束;在确定对话未结束时,基于所述对话槽位内容中第二槽位内容进行对话;所述第二槽位内容是指在所述对话槽位内容中优先级顺序仅次于所述第一槽位内容的槽位内容,且是基于用户对话意图生成的槽位内容;
其中,所述第一处理模块具体用于:
对所述第一语音数据添加背景噪声数据;将添加有所述背景噪声数据的第一语音数据发送到所述任务对话装置;
所述生成所述对话槽位内容中第一槽位内容对应的第一语音数据,包括:
生成所述对话槽位内容中第一槽位内容对应的第一请求模板信息;
查找与所述第一请求模板信息具有相同语义的目标语句;
将所述目标语句转换为第一语音数据。
7.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~5任意一项的方法步骤。
8.一种电子设备,其特征在于,包括:处理器、存储器、显示屏;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~5任意一项的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010769042.7A CN111966803B (zh) | 2020-08-03 | 2020-08-03 | 对话模拟方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010769042.7A CN111966803B (zh) | 2020-08-03 | 2020-08-03 | 对话模拟方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111966803A CN111966803A (zh) | 2020-11-20 |
CN111966803B true CN111966803B (zh) | 2024-04-12 |
Family
ID=73363860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010769042.7A Active CN111966803B (zh) | 2020-08-03 | 2020-08-03 | 对话模拟方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111966803B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114255750B (zh) * | 2021-11-26 | 2022-09-27 | 阿里巴巴(中国)有限公司 | 数据集构建和任务式对话方法、电子设备和存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6314398B1 (en) * | 1999-03-01 | 2001-11-06 | Matsushita Electric Industrial Co., Ltd. | Apparatus and method using speech understanding for automatic channel selection in interactive television |
JP2004045900A (ja) * | 2002-07-12 | 2004-02-12 | Toyota Central Res & Dev Lab Inc | 音声対話装置及びプログラム |
JP2006236037A (ja) * | 2005-02-25 | 2006-09-07 | Nippon Telegr & Teleph Corp <Ntt> | 音声対話コンテンツ作成方法、装置、プログラム、記録媒体 |
JP2017107078A (ja) * | 2015-12-10 | 2017-06-15 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声対話方法、音声対話装置及び音声対話プログラム |
US10229680B1 (en) * | 2016-12-29 | 2019-03-12 | Amazon Technologies, Inc. | Contextual entity resolution |
CN109616108A (zh) * | 2018-11-29 | 2019-04-12 | 北京羽扇智信息科技有限公司 | 多轮对话交互处理方法、装置、电子设备及存储介质 |
CN110633357A (zh) * | 2019-09-24 | 2019-12-31 | 百度在线网络技术(北京)有限公司 | 语音交互方法、装置、设备和介质 |
CN111090728A (zh) * | 2019-12-13 | 2020-05-01 | 车智互联(北京)科技有限公司 | 一种对话状态跟踪方法、装置及计算设备 |
CN111341311A (zh) * | 2020-02-21 | 2020-06-26 | 深圳前海微众银行股份有限公司 | 一种语音对话方法及装置 |
CN111428483A (zh) * | 2020-03-31 | 2020-07-17 | 华为技术有限公司 | 语音交互方法、装置和终端设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9772994B2 (en) * | 2013-07-25 | 2017-09-26 | Intel Corporation | Self-learning statistical natural language processing for automatic production of virtual personal assistants |
EP3616081A1 (en) * | 2018-03-05 | 2020-03-04 | Google LLC. | Transitioning between prior dialog contexts with automated assistants |
-
2020
- 2020-08-03 CN CN202010769042.7A patent/CN111966803B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6314398B1 (en) * | 1999-03-01 | 2001-11-06 | Matsushita Electric Industrial Co., Ltd. | Apparatus and method using speech understanding for automatic channel selection in interactive television |
JP2004045900A (ja) * | 2002-07-12 | 2004-02-12 | Toyota Central Res & Dev Lab Inc | 音声対話装置及びプログラム |
JP2006236037A (ja) * | 2005-02-25 | 2006-09-07 | Nippon Telegr & Teleph Corp <Ntt> | 音声対話コンテンツ作成方法、装置、プログラム、記録媒体 |
JP2017107078A (ja) * | 2015-12-10 | 2017-06-15 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声対話方法、音声対話装置及び音声対話プログラム |
US10229680B1 (en) * | 2016-12-29 | 2019-03-12 | Amazon Technologies, Inc. | Contextual entity resolution |
CN109616108A (zh) * | 2018-11-29 | 2019-04-12 | 北京羽扇智信息科技有限公司 | 多轮对话交互处理方法、装置、电子设备及存储介质 |
CN110633357A (zh) * | 2019-09-24 | 2019-12-31 | 百度在线网络技术(北京)有限公司 | 语音交互方法、装置、设备和介质 |
CN111090728A (zh) * | 2019-12-13 | 2020-05-01 | 车智互联(北京)科技有限公司 | 一种对话状态跟踪方法、装置及计算设备 |
CN111341311A (zh) * | 2020-02-21 | 2020-06-26 | 深圳前海微众银行股份有限公司 | 一种语音对话方法及装置 |
CN111428483A (zh) * | 2020-03-31 | 2020-07-17 | 华为技术有限公司 | 语音交互方法、装置和终端设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111966803A (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102439740B1 (ko) | 제작자 제공 콘텐츠 기반 인터랙티브 대화 애플리케이션 테일링 | |
TWI684881B (zh) | 基於機器翻譯的自動生成重述以產生一對話式代理人的方法、系統及非暫態機器可讀取媒體 | |
US20220293089A1 (en) | Voice dialogue processing method and apparatus | |
CN109325091B (zh) | 兴趣点属性信息的更新方法、装置、设备及介质 | |
US8972265B1 (en) | Multiple voices in audio content | |
CN110197655B (zh) | 用于合成语音的方法和装置 | |
CN108877782A (zh) | 语音识别方法和装置 | |
KR102345615B1 (ko) | 사용자 구성의 맞춤형 인터렉티브 대화 애플리케이션 | |
CN109256133A (zh) | 一种语音交互方法、装置、设备及存储介质 | |
CN107808007A (zh) | 信息处理方法和装置 | |
CN111142667A (zh) | 一种基于文本标记生成语音的系统和方法 | |
TW201327214A (zh) | 電子設備及其自然語言分析方法 | |
CN114064943A (zh) | 会议管理方法、装置、存储介质及电子设备 | |
CN111966803B (zh) | 对话模拟方法、装置、存储介质及电子设备 | |
CN110781329A (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
US20230244878A1 (en) | Extracting conversational relationships based on speaker prediction and trigger word prediction | |
JP2022153600A (ja) | 音声合成方法、装置、電子機器及び記憶媒体 | |
CN113221514A (zh) | 文本处理方法、装置、电子设备和存储介质 | |
CN112837678B (zh) | 私有云识别训练方法和装置 | |
CN117032452A (zh) | 提示语句的响应方法及相关装置 | |
CN117972015A (zh) | 剧情短语生成方法、装置、电子设备及存储介质 | |
CN115410558A (zh) | 集外词处理方法、电子设备和存储介质 | |
CN114203199A (zh) | 音频数据处理方法、装置、介质及设备 | |
CN116564143A (zh) | 基于大语言模型的口语学习方法、装置 | |
CN116208712A (zh) | 一种提升用户意向的智能外呼方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |