CN111966803A - 对话模拟方法、装置、存储介质及电子设备 - Google Patents

对话模拟方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN111966803A
CN111966803A CN202010769042.7A CN202010769042A CN111966803A CN 111966803 A CN111966803 A CN 111966803A CN 202010769042 A CN202010769042 A CN 202010769042A CN 111966803 A CN111966803 A CN 111966803A
Authority
CN
China
Prior art keywords
conversation
content
voice data
slot
slot position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010769042.7A
Other languages
English (en)
Other versions
CN111966803B (zh
Inventor
李向林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Shenzhen Huantai Technology Co Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Shenzhen Huantai Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd, Shenzhen Huantai Technology Co Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202010769042.7A priority Critical patent/CN111966803B/zh
Publication of CN111966803A publication Critical patent/CN111966803A/zh
Application granted granted Critical
Publication of CN111966803B publication Critical patent/CN111966803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例公开了一种对话模拟方法、装置、存储介质及电子设备,属于计算机技术领域。所述方法应用于模拟用户对话的电子设备,电子设备通过确定对话意图以及对话意图对应的对话槽位内容,生成对话槽位内容中第一槽位内容对应的第一语音数据,并将第一语音数据发送到任务对话装置,接收任务对话装置针对第一语音数据发送的第二语音数据,确定对话未结束时,基于对话槽位内容中第二槽位内容进行对话,能精准地模拟在不同的对话场景下用户的对话内容,并基于所模拟的用户对话内容与任务对话系统进行对话交互。

Description

对话模拟方法、装置、存储介质及电子设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种对话模拟方法、装置、存储介质及电子设备。
背景技术
随着互联网和智能终端的普及,基于人机交互的任务对话系统也随之得到了发展,被广泛应用于导航、打车、购物、订电影票、订外卖等应用场景中。任务对话系统可以使用自然语言与用户交互提供各种信息,并接收以音频或文本消息类型的用户回答内容,任务对话系统中人机交互的过程通常包括:用户向对任务对话系统发送语音或文本命令,任务对话系统在接收到语音或文本命令后执行相应的操作。在相关技术中,通常基于固定模板模拟用户对话的方式对任务对话系统进行训练,使其能达到预期的对话结果,但由固定模板模拟得到的用户对话内容较为单一,不能精准地模拟用户进行对话。
发明内容
本申请实施例提供了一种对话模拟方法、装置、存储介质及电子设备,可以解决相关技术中不能模拟适应不同的对话场景用户与任务对话系统进行对话交互的问题。所述技术方案如下:
第一方面,本申请实施例提供了一种对话模拟方法,所述方法包括:
确定对话意图以及所述对话意图对应的对话槽位内容;
生成所述对话槽位内容中第一槽位内容对应的第一语音数据,并将所述第一语音数据发送到任务对话装置;
接收所述任务对话装置针对所述第一语音数据发送的第二语音数据;
确定对话未结束时,基于所述对话槽位内容中第二槽位内容进行对话。
第二方面,本申请实施例提供了一种对话模拟装置,所述装置包括:
确定模块,用于确定对话意图以及所述对话意图对应的对话槽位内容;
第一处理模块,用于生成所述对话槽位内容中第一槽位内容对应的第一语音数据,并将所述第一语音数据发送到任务对话装置;
接收模块,用于接收所述任务对话装置针对所述第一语音数据发送的第二语音数据;
第二处理模块,用于确定对话未结束时,基于所述对话槽位内容中第二槽位内容进行对话。
第三方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
第四方面,本申请实施例提供一种电子设备,包括:处理器、存储器、显示屏;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。
本申请一些实施例提供的技术方案带来的有益效果至少包括:
本申请实施例的方案在执行时,电子设备通过确定对话意图以及对话意图对应的对话槽位内容,生成对话槽位内容中第一槽位内容对应的第一语音数据,并将第一语音数据发送到任务对话装置,接收任务对话装置针对第一语音数据发送的第二语音数据,确定对话未结束时,基于对话槽位内容中第二槽位内容进行对话,能精准地模拟在不同的对话场景下用户的对话内容,并基于所模拟的用户对话内容与任务对话系统进行对话交互。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种对话模拟方法的流程示意图;
图2是本申请实施例提供的一种对话模拟方法的另一流程示意图;
图3是本申请实施例提供的一种对话模拟装置的结构示意图;
图4是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
下面将结合附图1至图2,对本申请实施例提供的对话模拟方法进行详细介绍。
请参见图1,为本申请实施例提供了一种对话模拟方法的流程示意图。本实施例以一种对话模拟方法应用于电子设备来举例说明,该对话模拟方法可以包括以下步骤:
S101,确定对话意图以及对话意图对应的对话槽位内容。
其中,对话意图是指希望通过对话的方式达到的目的,也即对话中的用户意图,如:电影票购买、车票预订等意图;对话槽位内容是指与待填充的槽位相关的信息,可以包括槽位数量、槽位内容、槽位顺序等,对话槽位内容中可以包括多个槽位内容;槽是指实体已明确定义的属性,填槽是指将用户意图转化为用户明确的指令而不全信息的过程,槽位是指通过用户对话的关键词或其他方式获取信息的填槽方式(词槽、接口槽)。
一般的,数据库中存有大量的对话脚本,每个对话脚本中均包含用户的对话意图及对话意图对应的对话槽位内容,不同的对话脚本对应的对话意图和对话槽位内容可不同,电子设备会随机地从数据库中选取任意的对话脚本作为训练数据,并解析所选取的对话脚本,得到对话脚本对应的对话意图和对话意图对应的对话槽位内容。在每轮对话交互结束时,都可通过重置对话意图,并从数据库中重新随机选取新的对话脚本,并基于新的对话脚本确定当前选取的对话意图。
S102,生成对话槽位内容中第一槽位内容对应的第一语音数据,并将第一语音数据发送到任务对话装置。
其中,第一槽位内容是指对话槽位内容中优先级最高的槽位内容,通常第一槽位内容可用于表明用户对话意图的对话内容;第一语音数据是指基于第一槽位内容生成包含用户的对话意图的语音数据。任务对话装置是指可以通过自然语言与用户进行对话交互,并能接收以音频或文本消息类型的用户回答内容的装置,用户可以向任务对话装置发提供语音命令以引起任务对话装置执行相应的操作,如:预约餐厅或购买电影票等。
一般的,电子设备会根据对话意图对应的对话槽位内容,以及对话槽位内容中各个槽位内容的优先级顺序确定第一槽位内容,并根据第一槽位内容生成对话槽位内容中的第一槽位内容对应的第一请求模板信息,以及将第一请求模板信息转换为第一语音数据。将第一请求模板信息转换为第一语音数据的过程包括:查找与第一请求模板信息具有相同语义的目标语句,对目标语句进行纠错处理和语句填充处理,得到自然语言文本数据,将自然语言文本数据转换为第一语音数据,并对第一语音数据添加背景噪声数据,使语音数据更加真实自然,将添加有背景噪声数据的第一语音数据发送到任务对话装置,也即模拟用户向任务对话装置发送语音指令。
S103,接收任务对话装置针对第一语音数据发送的第二语音数据。
其中,第二语音数据是指任务对话装置在接收到第一语音数据后,通过响应于解析后的第一语音数据生成的语音数据,也即针对第一语音数据的回答内容数据。
一般的,在任务对话装置接收到由电子设备发送的第一语音数据后,可通过解析该第一语音数据得到对应的语音指令,任务对话装置会基于该语音指令执行相应的操作,基于操作结果和第一语音数据生成用于回答第一语音数据的第二语音数据,并将该第二语音数据发送给电子设备,实现与电子设备的第一次对话交互。电子设备会对应接收到由任务对话装置发送的第二语音数据,并基于该第二语音数据进行相应的处理。同时,电子设备会对第一语音数据和第二语音数据各自相关的对话文本数据进行记录,后续会基于所记录的各次对话文本数据,对模拟用户对话交互的上下文状态进行更新。
S104,确定对话未结束时,基于对话槽位内容中第二槽位内容进行对话。
其中,第二槽位内容是指在对话槽位内容中优先级顺序仅次于第一槽位内容的槽位内容,是基于用户对话意图生成的槽位内容。
一般的,在电子设备接收到任务对话装置针对第一语音数据发送的第二语音数据后,会将第二语音数据转换为第一文本数据,并解析第一文本数据得到当前的槽位填充内容,在当前的槽位填充内容与对话槽位内容中的目标槽位内容不匹配时,确定对话未结束;在当前的槽位填充内容与对话槽位内容中的目标槽位内容匹配时,确定对话结束。在确定对话未结束时,会基于对话槽位内容中第二槽位内容,生成对话槽位内容中第二槽位内容对应的第三语音数据,并将第三语音数据发送到任务对话装置。在确定对话结束时,表明该轮对话交互结束,则重置对话意图,也即从数据库中重新随机选取新的对话脚本,基于该对话脚本可得到下一个对话意图,将下一个对话意图确定为对话意图,并执行确定对话意图以及对话意图对应的对话槽位内容的步骤。
由上述内容可知,本方案提供的对话模拟方法,电子设备通过确定对话意图以及对话意图对应的对话槽位内容,生成对话槽位内容中第一槽位内容对应的第一语音数据,并将第一语音数据发送到任务对话装置,接收任务对话装置针对第一语音数据发送的第二语音数据,确定对话未结束时,基于对话槽位内容中第二槽位内容进行对话,能精准地模拟在不同的对话场景下用户的对话内容,并基于所模拟的用户对话内容与任务对话系统进行对话交互。
请参见图2,为本申请实施例提供了一种对话模拟方法的另一流程示意图。本实施例以一种对话模拟方法应用于电子设备中来举例说明。该对话模拟方法可以包括以下步骤:
S201,重置对话意图,确定当前选取的对话意图,以及确定对话意图对应的对话槽位内容。
其中,对话意图是指希望通过对话的方式达到的目的,也即对话中的用户意图,如:电影票购买、车票预订等意图;对话槽位内容是指与待填充的槽位相关的信息,可以包括槽位数量、槽位内容、槽位顺序等,对话槽位内容中可以包括多个槽位内容;槽是指实体已明确定义的属性,填槽是指将用户意图转化为用户明确的指令而补全信息的过程,槽位是指通过用户对话的关键词或其他方式获取信息的填槽方式(词槽、接口槽)。
一般的,数据库中存有大量的对话脚本,每个对话脚本中均包含用户的对话意图及对话意图对应的对话槽位内容,不同的对话脚本对应的对话意图和对话槽位内容可不同,电子设备会随机地从数据库中选取任意的脚本作为训练对象,并解析所选取的对话脚本,得到对话脚本对应的对话意图和对话意图对应的对话槽位内容。在每轮对话交互结束时,都可通过重置对话意图,并从数据库中重新随机选取新的对话脚本,并基于新的对话脚本确定当前选取的对话意图。
S202,生成对话槽位内容中第一槽位内容对应的第一请求模板信息。
其中,第一槽位内容是指对话槽位内容中优先级最高的槽位内容,通常第一槽位内容可用于表明用户对话意图的对话内容;第一请求模板信息是指电子设备根据第一槽位内容生成的用于告知任务对话装置当前需要填充的槽位内容的请求信息,第一请求模板信息可以是关键字、关键短语形式的请求模板信息,通常第一请求模板信息是基于当前的对话意图生成的请求信息,如:对话意图为“电影票购买”,第一请求模板信息可以是“买电影票”或“购买电影票”。
S203,查找与第一请求模板信息具有相同语义的目标语句。
其中,目标语句是指基于存储在数据库中的对话日志所包含的对话语句,该对话语句与第一请求模板的语义相同。
一般的,第一请求模板信息可以是简短的关键字或关键短语,故第一请求模板信息能表达的意思较为机器化,可通过从数据库中查找与第一请求模板信息具有相同语义的语句,并将其作为目标语句来表达第一请求模板信息需要表达的语义,目标语句相较于第一请求模板信息的语句更加通顺,目标语句可以是短句子形式的与语句。
S204,对目标语句进行纠错处理和语句填充处理,得到自然语言文本数据。
其中,自然语言文本数据是指自然随文化生成的人类语言文本数据,是符合人类语言规则的文本数据。
一般的,目标语句可能会存在字词错误或语义表达欠缺的情况,需要对目标语句进行纠错处理,对目标语句中出现的错误字词进行纠正,使目标语句能正确表达语句意思;由于目标语句也可能是简短的句子,故目标语句能表达的意思可能是完整的,但呈现的句子语气或语句流畅度可能较差,进一步地需要对目标语句进行语句填充处理,使目标语句能更加流畅通顺,并能在一定程度上模拟用户可能需要表达的语气,进而得到能真实地模拟用户对话的自然语言文本数据;对目标语句进行纠错处理和语句填充处理也即是对目标语句进行美化润色的过程,通常可对目标语句进行纠错处理后再进行语句填充处理,也可只对目标语句进行纠错处理,或也可只对目标语句进行语句填充处理,具体情况需要根据目标语句现有的字词表示情况、语句流畅情况、语气表达情况而定。同时,电子设备会记录当前得到的自然语言文本数据,后续会基于所记录的各次对话文本数据,对模拟用户对话交互的上下文状态进行更新。
S205,将自然语言文本数据转换为第一语音数据。
其中,第一语音数据是指基于自然语言文本数据生成包含用户的对话意图的语音数据,通常语音数据的内容与其转换前的文本数据内容相关。自然语言文本数据和第一语音数据是对于需要表达相同含义的内容的两种不同呈现形式,可通过文本转换的方式将自然语言文本数据转换为对于的语音数据。
S206,对第一语音数据添加背景噪声数据。
其中,背景噪声数据是指与语音数据无关的干扰声音数据,通常用户在真实的环境中讲话会存在一定的背景噪声,为使语音数据的呈现更加真实,可通过在得到的语音数据中添加无关的背景噪声,以此模拟真实的用户讲话环境。
在电子设备的语音识别和语音合成过程均加入了背景噪声数据,背景噪声数据和原始输入语音数据融合方式为线性加权,由此可得到添加背景噪声数据后的语音数据New_audio,原始输入语音数据Raw_audio的权值为0.9,背景噪声数据Background_noise的权值为0.1;加权公式为:
New_audio=Raw_audio*0.9+Background_noise*0.1。
S207,将添加有背景噪声数据的第一语音数据发送到任务对话装置。
其中,任务对话装置是指可以通过自然语言与用户进行对话交互,并能接收以音频或文本消息类型的用户回答内容的装置,用户可以向任务对话装置发提供语音命令以引起任务对话装置执行相应的操作,如:预约餐厅或购买电影票等。
S208,接收任务对话装置针对第一语音数据发送的第二语音数据。
其中,第二语音数据是指任务对话装置在接收到第一语音数据后,通过响应于解析后的第一语音数据生成的语音数据,也即针对第一语音数据的回答内容数据。
一般的,在任务对话装置接收到由电子设备发送的第一语音数据后,可通过解析该第一语音数据得到对应的语音指令,任务对话装置会基于该语音指令执行相应的操作,基于操作结果和第一语音数据生成用于回答第一语音数据的第二语音数据,并将该第二语音数据发送给电子设备,实现与电子设备的第一次对话交互。电子设备会对应接收到由任务对话装置发送的第二语音数据,并基于该第二语音数据进行相应的处理。
S209,将第二语音数据转换为第一文本数据。
其中,第一文本数据是指以文本形式呈现且与第二语音数据包含的内容相同的文本数据,可通过语音识别将语音数据转换成对应的文本数据。
S210,解析第一文本数据,得到当前的槽位填充内容。
其中,槽位填充内容是指可用于填充对话槽位内容中槽位的内容。
一般的,电子设备根据对话槽位内容中的第一槽位内容生成的第一语音数据,并将该第一语音数据发送给任务对话装置,在任务对话装置接收到该第一语音数据后,任务对话装置可基于该第一语音数据生成对应的回复语音数据,也即第二语音数据,并将其发送给电子设备,在电子设备接收到该第二语音数据后可通过语音识别将该第二语音数据转换为第一文本数据,第一文本数据中包含任务对话装置针对第一语音数据的回复内容,通过解析该第一文本数据可得到能填充对应槽位的内容,也即第一槽位内容对应的填充内容。解析第一文本数据的过程也即对经过语音文本转换后的文本数据进行自然语言理解,可以此确定对话状态及当前对话槽位内容的状态,并可基于当前的槽位填充内容来判断本轮的对话交互是否结束。同时,电子设备会记录当前得到的第一文本数据,后续会基于所记录的各次对话文本数据,对模拟用户对话交互的上下文状态进行更新。
举例说明:当前的对话意图为“电影票购买”,则对应的第一槽位内容可以是“电影票购买”,基于该第一槽位内容可生成对应的第一请求模板“买电影票”,根据该第一请求模板信息可查找到与其语义相同的目标语句可以是“我要买电影票”,对该目标语句进行语句填充处理后可得到自然语言文本数据“你好!我想要购买电影票”,进而会将该自然语言文本数据转换为对应的第一语音数据,并将该第一语音数据发送给任务对话装置,任务对话装置基于该第一语音数据可确定当前缺少电影名称的槽位,故可生成与之对应的第二语音数据“请问您想看哪部电影”,电子设备在接收到该第二语音数据后,会将其转换成文本数据,基于该文本数据可确定第一槽位内容对应的槽位填充内容为请求电影名称“哪部电影”,则可基于该槽位填充内容确定本轮的对话交互还未结束。
S211,判断当前的槽位填充内容与对话槽位内容中的目标槽位内容是否匹配。
其中,目标槽位内容是指与当前槽位填充内容对应的对话槽位内容中的槽位内容,可根据电子设备当前发送的语音数据确定目标槽位内容,若当前发送的语音数据为第一语音数据,则目标槽位内容为第一槽位内容。
一般的,在当前的槽位填充内容与对话槽位内容中的目标槽位内容匹配时,表明任务对话装置能正确回答并处理电子设备发送的语音指令,则可直接结束本轮对话交互;在当前的槽位填充内容与对话槽位内容中的目标槽位内容不匹配时,表明任务对话装置未能基于电子设备发送的语音指令执行相应的处理和回答,则需要进行多次对话交互,直至使当前的槽位填充内容能与对话槽位内容中的目标槽位内容匹配才结束本轮对话。
S212,在当前的槽位填充内容与对话槽位内容中的目标槽位内容不匹配时,确定对话未结束。
举例说明:目标槽位内容为“购买电影票”,当前的槽位填充内容为“哪部电影”,此时的槽位填充内容与目标槽位内容不匹配,则电子设备需要继续基于该槽位填充内容以及对话槽位内容的其他槽位内容进行对话交互,直至当前的槽位填充内容为“已购买”,则该槽位填充内容与目标槽位内容相匹配,此时可结束本轮对话交互。
S213,生成对话槽位内容中第二槽位内容对应的第三语音数据,并将第三语音数据发送到任务对话装置。
其中,第二槽位内容是指在对话槽位内容中优先级顺序仅次于第一槽位内容的槽位内容,是基于用户对话意图生成的槽位内容。对话槽位内容中可包括多个槽位内容,对多个槽位内容处理的顺序可基于各个槽位内容的优先级顺序而定。第三语音数据是指基于第二槽位内容生成的用于回答当前槽位填充内容的告知语音数据。
一般的,当前的槽位填充内容与对话槽位内容中的目标槽位内容不匹配时,确定对话未结束,则需要继续基于该槽位填充内容以及对话槽位内容的第二槽位内容进行对话交互,并对当前的对话状态和当前对话槽位内容的状态进行更新;相同地,电子设备将根据第二槽位内容生成对话槽位内容中的第二槽位内容对应的第二请求模板信息,以及将第二请求模板信息转换为第三语音数据。将第二请求模板信息转换为第三语音数据的过程包括:查找与第二请求模板信息具有相同语义的目标语句,对目标语句进行纠错处理和语句填充处理,得到自然语言文本数据,将自然语言文本数据转换为第三语音数据,并对第三语音数据添加背景噪声数据,使语音数据更加真实自然,将添加有背景噪声数据的第三语音数据发送到任务对话装置,也即模拟用户向任务对话装置第二次发送语音指令。
举例说明:请参见表1,表1为电子设备从数据库中随机选取的对话脚本数据,该对话脚本数据中包括:对话意图“电影票购买”,第一槽位内容“电影票购买”,第三槽位内容“电影名称:少年的你”,第四槽位内容“电影院名称”,第五槽位内容“购买”。
表1
对话意图 电影票购买
第一槽位内容 电影票购买
第二槽位内容 电影名称:“少年的你”
第三槽位内容 电影院名称
第四槽位内容 电影场次
第五槽位内容 购买
请参见表2,表2为电子设备根据当前选取的对话脚本数据模拟用户与任务对话装置进行对话交互的过程,交互对象为模拟用户对话的电子设备和任务对话装置,对话行为和内容是电子设备和任务对话装置各自基于当前对话内容执行的相应操作:
表2
Figure BDA0002615825990000111
S214,在当前的槽位填充内容与对话槽位内容中的目标槽位内容匹配时,确定对话结束。
S215,重置对话意图,得到下一个对话意图,将下一个对话意图确定为对话意图,并执行确定对话意图以及对话意图对应的对话槽位内容的步骤。
一般的,在确定本轮对话交互结束时,可重新从数据库中随机选取任意的对话脚本作为新一轮对话交互的训练数据,并解析所选取的对话脚本得到与之对应的对话意图和对话意图对应的对话槽位内容,并执行上述S202~S211步骤。
由上述内容可知,本方案提供的对话模拟方法,电子设备重置对话意图,确定当前选取的对话意图,以及确定对话意图对应的对话槽位内容,生成对话槽位内容中第一槽位内容对应的第一请求模板信息,查找与第一请求模板信息具有相同语义的目标语句,对目标语句进行纠错处理和语句填充处理,得到自然语言文本数据,将自然语言文本数据转换为第一语音数据,对第一语音数据添加背景噪声数据,将添加有背景噪声数据的第一语音数据发送到任务对话装置,接收任务对话装置针对第一语音数据发送的第二语音数据,将第二语音数据转换为第一文本数据,解析第一文本数据,得到当前的槽位填充内容,判断当前的槽位填充内容与对话槽位内容中的目标槽位内容是否匹配,在当前的槽位填充内容与对话槽位内容中的目标槽位内容不匹配时,确定对话未结束,生成对话槽位内容中第二槽位内容对应的第三语音数据,并将第三语音数据发送到任务对话装置,在当前的槽位填充内容与对话槽位内容中的目标槽位内容匹配时,确定对话结束,重置对话意图,得到下一个对话意图,将下一个对话意图确定为对话意图,并执行确定对话意图以及对话意图对应的对话槽位内容的步骤,通过此种方式能基于数据库中大量的对话脚本模拟不同的对话场景下用户的对话内容,并辅助训练任务对话装置达到精准对话交互的效果。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参见图3,其示出了本申请一个示例性实施例提供的对话模拟装置的结构示意图,以下简称装置3。装置3可以通过软件、硬件或者两者的结合实现成为电子设备的全部或一部分。装置3包括:
确定模块301,用于确定对话意图以及所述对话意图对应的对话槽位内容;
第一处理模块302,用于生成所述对话槽位内容中第一槽位内容对应的第一语音数据,并将所述第一语音数据发送到任务对话装置;
接收模块303,用于接收所述任务对话装置针对所述第一语音数据发送的第二语音数据;
第二处理模块304,用于确定对话未结束时,基于所述对话槽位内容中第二槽位内容进行对话。
可选地,所述确定模块301,包括:
第一处理单元,用于重置对话意图,确定当前选取的对话意图。
可选地,所述第一处理模块302,包括:
生成单元,用于生成所述对话槽位内容中第一槽位内容对应的第一请求模板信息;
第一转换单元,用于将所述第一请求模板信息转换为第一语音数据。
可选地,所述第一处理模块302,包括:
查找单元,用于查找与所述第一请求模板信息具有相同语义的目标语句;
第二转换单元,用于将所述目标语句转换为第一语音数据。
可选地,所述第一处理模块302,包括:
第二处理单元,用于对所述目标语句进行纠错处理和语句填充处理,得到自然语言文本数据;
第三转换单元,用于将所述自然语言文本数据转换为第一语音数据。
可选地,所述第一处理模块302,包括:
添加单元,用于对所述第一语音数据添加背景噪声数据;
发送单元,用于将添加有所述背景噪声数据的第一语音数据发送到所述任务对话装置。
可选地,所述第二处理模块304,包括:
第三处理单元,用于生成所述对话槽位内容中第二槽位内容对应的第三语音数据,并将所述第三语音数据发送到所述任务对话装置。
可选地,所述第二处理模块304,包括:
第四处理单元,用于确定对话结束时,重置所述对话意图,得到下一个对话意图;
第五处理单元,用于将所述下一个对话意图确定为所述对话意图,并执行所述确定对话意图以及所述对话意图对应的对话槽位内容的步骤。
需要说明的是,上述实施例提供的对话模拟装置在执行对话模拟方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的对话模拟装置与对话模拟方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述的方法步骤,具体执行过程可以参见图1~图2所示实施例的具体说明,在此不进行赘述。
本申请还提供了一种电子设备,包括处理器、存储器和显示屏;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。
请参见图4,为本申请实施例提供了一种电子设备的结构示意图。如图4所示,所述电子设备400可以包括:至少一个处理器401,至少一个网络接口404,用户接口403,存储器405,至少一个通信总线402。
其中,通信总线402用于实现这些组件之间的连接通信。
其中,用户接口403可以包括显示屏(Display)、摄像头(Camera),可选用户接口403还可以包括标准的有线接口、无线接口。
其中,网络接口404可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器401可以包括一个或者多个处理核心。处理器401利用各种借口和线路连接整个电子设备400内的各个部分,通过运行或执行存储在存储器405内的指令、程序、代码集或指令集,以及调用存储在存储器405内的数据,执行电子设备400的各种功能和处理数据。可选的,处理器401可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器401可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器401中,单独通过一块芯片进行实现。
其中,存储器405可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器405包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器405可用于存储指令、程序、代码、代码集或指令集。存储器405可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器405可选的还可以是至少一个位于远离前述处理器401的存储装置。如图4所示,作为一种计算机存储介质的存储器405中可以包括操作系统、网络通信模块、用户接口模块以及对话模拟应用程序。
在图4所示的电子设备400中,用户接口403主要用于为用户提供输入的接口,获取用户输入的数据;而处理器401可以用于调用存储器405中存储的对话模拟应用程序,并具体执行以下操作:
确定对话意图以及所述对话意图对应的对话槽位内容;
生成所述对话槽位内容中第一槽位内容对应的第一语音数据,并将所述第一语音数据发送到任务对话装置;
接收所述任务对话装置针对所述第一语音数据发送的第二语音数据;
确定对话未结束时,基于所述对话槽位内容中第二槽位内容进行对话。
在一个实施例中,所述处理器401在执行确定对话意图时,具体执行以下操作:
重置对话意图,确定当前选取的对话意图。
在一个实施例中,所述处理器401在执行生成所述对话槽位内容中第一槽位内容对应的第一语音数据时,还执行以下操作:
生成所述对话槽位内容中第一槽位内容对应的第一请求模板信息;
将所述第一请求模板信息转换为第一语音数据。
在一个实施例中,所述处理器401在执行将所述第一请求模板信息转换为第一语音数据时,还执行以下操作:
查找与所述第一请求模板信息具有相同语义的目标语句;
将所述目标语句转换为第一语音数据。
在一个实施例中,所述处理器401在执行将所述目标语句转换为第一语音数据时,还执行以下操作:
对所述目标语句进行纠错处理和语句填充处理,得到自然语言文本数据;
将所述自然语言文本数据转换为第一语音数据。
在一个实施例中,所述处理器401在执行将所述第一语音数据发送到任务对话装置时,还执行以下操作:
对所述第一语音数据添加背景噪声数据;
将添加有所述背景噪声数据的第一语音数据发送到所述任务对话装置。
在一个实施例中,所述处理器401在执行确定对话未结束时,还执行以下操作:
将所述第二语音数据转换为第一文本数据;
解析所述第一文本数据,得到当前的槽位填充内容;
在所述当前的槽位填充内容与所述对话槽位内容中的目标槽位内容不匹配时,确定对话未结束。
在一个实施例中,所述处理器401在执行基于所述对话槽位内容中第二槽位内容进行对话时,还执行以下操作:
生成所述对话槽位内容中第二槽位内容对应的第三语音数据,并将所述第三语音数据发送到所述任务对话装置。
在一个实施例中,所述处理器401在执行时,还执行以下操作:
确定对话结束时,重置所述对话意图,得到下一个对话意图;
将所述下一个对话意图确定为所述对话意图,并执行所述确定对话意图以及所述对话意图对应的对话槽位内容的步骤。
在本申请实施例中,电子设备通过确定对话意图以及对话意图对应的对话槽位内容,生成对话槽位内容中第一槽位内容对应的第一语音数据,并将第一语音数据发送到任务对话装置,接收任务对话装置针对第一语音数据发送的第二语音数据,确定对话未结束时,基于对话槽位内容中第二槽位内容进行对话,能精准地模拟在不同的对话场景下用户的对话内容,并基于所模拟的用户对话内容与任务对话系统进行对话交互。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上介绍仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (12)

1.一种对话模拟方法,其特征在于,所述方法包括:
确定对话意图以及所述对话意图对应的对话槽位内容;
生成所述对话槽位内容中第一槽位内容对应的第一语音数据,并将所述第一语音数据发送到任务对话装置;
接收所述任务对话装置针对所述第一语音数据发送的第二语音数据;
确定对话未结束时,基于所述对话槽位内容中第二槽位内容进行对话。
2.根据权利要求1所述的方法,其特征在于,所述确定对话意图,包括:
重置对话意图,确定当前选取的对话意图。
3.根据权利要求1所述的方法,其特征在于,所述生成所述对话槽位内容中第一槽位内容对应的第一语音数据,包括:
生成所述对话槽位内容中第一槽位内容对应的第一请求模板信息;
将所述第一请求模板信息转换为第一语音数据。
4.根据权利要求3所述的方法,其特征在于,所述将所述第一请求模板信息转换为第一语音数据,包括:
查找与所述第一请求模板信息具有相同语义的目标语句;
将所述目标语句转换为第一语音数据。
5.根据权利要求4所述的方法,其特征在于,所述将所述目标语句转换为第一语音数据,包括:
对所述目标语句进行纠错处理和语句填充处理,得到自然语言文本数据;
将所述自然语言文本数据转换为第一语音数据。
6.根据权利要求1所述的方法,其特征在于,所述将所述第一语音数据发送到任务对话装置,包括:
对所述第一语音数据添加背景噪声数据;
将添加有所述背景噪声数据的第一语音数据发送到所述任务对话装置。
7.根据权利要求1所述的方法,其特征在于,所述确定对话未结束,包括:
将所述第二语音数据转换为第一文本数据;
解析所述第一文本数据,得到当前的槽位填充内容;
在所述当前的槽位填充内容与所述对话槽位内容中的目标槽位内容不匹配时,确定对话未结束。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述基于所述对话槽位内容中第二槽位内容进行对话,包括:
生成所述对话槽位内容中第二槽位内容对应的第三语音数据,并将所述第三语音数据发送到所述任务对话装置。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
确定对话结束时,重置所述对话意图,得到下一个对话意图;
将所述下一个对话意图确定为所述对话意图,并执行所述确定对话意图以及所述对话意图对应的对话槽位内容的步骤。
10.一种对话模拟装置,其特征在于,所述装置包括:
确定模块,用于确定对话意图以及所述对话意图对应的对话槽位内容;
第一处理模块,用于生成所述对话槽位内容中第一槽位内容对应的第一语音数据,并将所述第一语音数据发送到任务对话装置;
接收模块,用于接收所述任务对话装置针对所述第一语音数据发送的第二语音数据;
第二处理模块,用于确定对话未结束时,基于所述对话槽位内容中第二槽位内容进行对话。
11.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~9任意一项的方法步骤。
12.一种电子设备,其特征在于,包括:处理器、存储器、显示屏;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~9任意一项的方法步骤。
CN202010769042.7A 2020-08-03 2020-08-03 对话模拟方法、装置、存储介质及电子设备 Active CN111966803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010769042.7A CN111966803B (zh) 2020-08-03 2020-08-03 对话模拟方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010769042.7A CN111966803B (zh) 2020-08-03 2020-08-03 对话模拟方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN111966803A true CN111966803A (zh) 2020-11-20
CN111966803B CN111966803B (zh) 2024-04-12

Family

ID=73363860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010769042.7A Active CN111966803B (zh) 2020-08-03 2020-08-03 对话模拟方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN111966803B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114255750A (zh) * 2021-11-26 2022-03-29 阿里巴巴(中国)有限公司 数据集构建和任务式对话方法、电子设备和存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6314398B1 (en) * 1999-03-01 2001-11-06 Matsushita Electric Industrial Co., Ltd. Apparatus and method using speech understanding for automatic channel selection in interactive television
JP2004045900A (ja) * 2002-07-12 2004-02-12 Toyota Central Res & Dev Lab Inc 音声対話装置及びプログラム
JP2006236037A (ja) * 2005-02-25 2006-09-07 Nippon Telegr & Teleph Corp <Ntt> 音声対話コンテンツ作成方法、装置、プログラム、記録媒体
US20150032443A1 (en) * 2013-07-25 2015-01-29 Yael Karov Self-learning statistical natural language processing for automatic production of virtual personal assistants
JP2017107078A (ja) * 2015-12-10 2017-06-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話方法、音声対話装置及び音声対話プログラム
US10229680B1 (en) * 2016-12-29 2019-03-12 Amazon Technologies, Inc. Contextual entity resolution
CN109616108A (zh) * 2018-11-29 2019-04-12 北京羽扇智信息科技有限公司 多轮对话交互处理方法、装置、电子设备及存储介质
CN110633357A (zh) * 2019-09-24 2019-12-31 百度在线网络技术(北京)有限公司 语音交互方法、装置、设备和介质
CN111090728A (zh) * 2019-12-13 2020-05-01 车智互联(北京)科技有限公司 一种对话状态跟踪方法、装置及计算设备
CN111341311A (zh) * 2020-02-21 2020-06-26 深圳前海微众银行股份有限公司 一种语音对话方法及装置
US20200210649A1 (en) * 2018-03-05 2020-07-02 Google Llc Transitioning between prior dialog contexts with automated assistants
CN111428483A (zh) * 2020-03-31 2020-07-17 华为技术有限公司 语音交互方法、装置和终端设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6314398B1 (en) * 1999-03-01 2001-11-06 Matsushita Electric Industrial Co., Ltd. Apparatus and method using speech understanding for automatic channel selection in interactive television
JP2004045900A (ja) * 2002-07-12 2004-02-12 Toyota Central Res & Dev Lab Inc 音声対話装置及びプログラム
JP2006236037A (ja) * 2005-02-25 2006-09-07 Nippon Telegr & Teleph Corp <Ntt> 音声対話コンテンツ作成方法、装置、プログラム、記録媒体
US20150032443A1 (en) * 2013-07-25 2015-01-29 Yael Karov Self-learning statistical natural language processing for automatic production of virtual personal assistants
JP2017107078A (ja) * 2015-12-10 2017-06-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話方法、音声対話装置及び音声対話プログラム
US10229680B1 (en) * 2016-12-29 2019-03-12 Amazon Technologies, Inc. Contextual entity resolution
US20200210649A1 (en) * 2018-03-05 2020-07-02 Google Llc Transitioning between prior dialog contexts with automated assistants
CN109616108A (zh) * 2018-11-29 2019-04-12 北京羽扇智信息科技有限公司 多轮对话交互处理方法、装置、电子设备及存储介质
CN110633357A (zh) * 2019-09-24 2019-12-31 百度在线网络技术(北京)有限公司 语音交互方法、装置、设备和介质
CN111090728A (zh) * 2019-12-13 2020-05-01 车智互联(北京)科技有限公司 一种对话状态跟踪方法、装置及计算设备
CN111341311A (zh) * 2020-02-21 2020-06-26 深圳前海微众银行股份有限公司 一种语音对话方法及装置
CN111428483A (zh) * 2020-03-31 2020-07-17 华为技术有限公司 语音交互方法、装置和终端设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114255750A (zh) * 2021-11-26 2022-03-29 阿里巴巴(中国)有限公司 数据集构建和任务式对话方法、电子设备和存储介质

Also Published As

Publication number Publication date
CN111966803B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
US11942082B2 (en) Facilitating communications with automated assistants in multiple languages
US10489112B1 (en) Method for user training of information dialogue system
US11354521B2 (en) Facilitating communications with automated assistants in multiple languages
CN110730953B (zh) 基于创建者提供的内容定制交互式对话应用的方法、系统
US9805718B2 (en) Clarifying natural language input using targeted questions
TW201921267A (zh) 基於機器翻譯的自動生成重述以產生一對話式代理人的方法及系統
KR102429407B1 (ko) 사용자 구성의 맞춤형 인터렉티브 대화 애플리케이션
CN109616096A (zh) 多语种语音解码图的构建方法、装置、服务器和介质
CN109256133A (zh) 一种语音交互方法、装置、设备及存储介质
CN107808007A (zh) 信息处理方法和装置
JP2023515897A (ja) 音声対話の訂正方法及び装置
CN109065019B (zh) 一种面向智能机器人的故事数据处理方法及系统
CN114064943A (zh) 会议管理方法、装置、存储介质及电子设备
CN111966803B (zh) 对话模拟方法、装置、存储介质及电子设备
CN110473524B (zh) 语音识别系统的构建方法和装置
JP7372402B2 (ja) 音声合成方法、装置、電子機器及び記憶媒体
CN110781329A (zh) 图像搜索方法、装置、终端设备及存储介质
CN112002325B (zh) 多语种语音交互方法和装置
CN111797636B (zh) 离线语义解析方法及系统
CN112151024B (zh) 用于生成语音音频的经编辑的转录的方法和装置
CN115410558A (zh) 集外词处理方法、电子设备和存储介质
CN117573816A (zh) 问答数据生成方法、装置、设备与存储介质
KR20220067772A (ko) 문맥 내 턴 구성을 고려하여 응답을 선택하는 대화 시스템 및 그 방법
CN117972015A (zh) 剧情短语生成方法、装置、电子设备及存储介质
CN118331651A (zh) 用户配置的且自定义的交互式对话应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant