CN113673256A - 问询语句改写方法及装置 - Google Patents

问询语句改写方法及装置 Download PDF

Info

Publication number
CN113673256A
CN113673256A CN202110825658.6A CN202110825658A CN113673256A CN 113673256 A CN113673256 A CN 113673256A CN 202110825658 A CN202110825658 A CN 202110825658A CN 113673256 A CN113673256 A CN 113673256A
Authority
CN
China
Prior art keywords
information
historical
intention
query information
dialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110825658.6A
Other languages
English (en)
Inventor
崔少波
唐大怀
赵中州
张佶
陈海青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Alibaba Cloud Feitian Information Technology Co ltd
Original Assignee
Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Damo Institute Hangzhou Technology Co Ltd filed Critical Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority to CN202110825658.6A priority Critical patent/CN113673256A/zh
Publication of CN113673256A publication Critical patent/CN113673256A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本公开实施例公开了一种问询语句改写方法及装置,所述问询语句改写方法包括:获取与原始问询信息相关的历史对话信息;基于历史对话信息获取历史上下文信息和历史意图信息;利用历史上下文信息和历史意图信息改写原始问询信息以得到目标问询信息;基于目标问询信息生成对应于原始问询信息的应答信息。该技术方案能够确保对应于原始问询信息的应答信息能够与用户唯一的真实意图匹配,提高了智能问答系统的可靠性。

Description

问询语句改写方法及装置
技术领域
本公开涉及数据处理技术领域,具体涉及一种问询语句改写方法及装置。
背景技术
随着人工智能技术以及自然语言处理技术的发展,智能问答系统随之产生。智能问答系统能够在人机对话中基于客户输入的问询信息,采用准确、简洁的自然语言进行应答,实现与客户的交互,为客户提供个性化的服务。在部分情况下,当客户输入的问询信息并不能很好的反映出客户意图时,智能问答系统仅通过客户输入的问询信息可能无法确定相匹配的应答信息,从而导致客户体验较差。为了使智能问答系统能够提供与客户意图相匹配的应答信息,可以对客户输入的问询信息进行改写,以最终得到能够更为贴近客户意图的新问询信息。
通常情况下,在问询改写中可以将问询信息中与客户意图的相关性较低的一个或者多个词去除,得到新问询信息。但这种做法也存在一些弊端:当智能问答系统应用于客服场景时,智能问答系统往往需要与客户进行多轮对话。而在多轮对话中,随着客户输入的问询信息的上下文不同,同一种客户意图可能在多轮对话的问询信息中存在不同的表现形式,不同的客户意图也可能在多轮对话的问讯信息中存在相同的表现形式,因此即使根据上述问询改写方案对问询信息进行改写,所得到的新问询信息也可能无法体现客户的真实意图。因此上述问询改写方使智能问答系统根据改写后的新问询信息并不能得到与客户的真实意图相匹配的应答信息,降低了智能问答系统的可靠性。
发明内容
本公开提供一种问询语句改写方法及装置。
本公开的实施例提供了一种问询语句改写方法。所述问询语句改写方法适用于智能人机对话服务,包括:获取与原始问询信息相关的历史对话信息;基于历史对话信息获取历史上下文信息和历史意图信息;利用历史上下文信息和历史意图信息改写原始问询信息以得到目标问询信息;基于目标问询信息生成对应于原始问询信息的应答信息。
在本公开一种实现方式中,获取与原始问询信息相关的历史对话信息包括:对原始问询信息进行意图分析,得到原始问询信息的意图;获取具有相同意图的历史对话信息。
在本公开一种实现方式中,基于历史对话信息获取历史上下文信息和历史意图信息包括:将历史对话信息作为输入,输入至预先训练得到的对话分析模型中,得到与历史对话信息对应的历史上下文信息和历史意图信息。
在本公开一种实现方式中还包括:训练对话分析模型。
在本公开一种实现方式中,还包括:对于对话数据集合进行过滤。
在本公开一种实现方式中,对于对话数据集合进行过滤包括:统计对话数据集合的对话信息中具有预设语义特征的答复信息的数量,当具有预设语义特征的答复信息的数量超过第一预设数量阈值时,删除对话信息;和/或,统计对话数据集合的对话信息中询问信息和对应答复信息的数量,当询问信息和对应答复信息的数量低于第二预设数量阈值时,删除对话信息。
在本公开一种实现方式中,利用历史上下文信息和历史意图信息改写原始问询信息以得到目标问询信息包括:对原始问询信息进行语法分析;当确定原始问询信息中缺少上下文信息时,将历史上下文信息填充至原始问询信息中的上下文信息位置,得到目标问询信息;和/或当确定原始问询信息中缺少意图信息时,将历史意图信息填充至原始问询信息中的意图信息位置,得到目标问询信息。
在本公开一种实现方式中,该方法还包括:对目标问询信息进行语义评估;当语义评估结果达到预设要求时,使用目标问询信息替换原始问询信息。
在本公开一种实现方式中,对目标问询信息进行语义评估包括:获取评估因素,其中,评估因素可包括以下因素中的一种或多种:目标问询信息中是否存在具有预设语义特征的答复信息、目标问询信息中具有预设语义特征的答复信息的数量是否超过第一预设数量阈值、目标问询信息中与原始问询信息主题一致的对话信息的数量是否低于第二预设数量阈值、目标问询信息中是否存在语法错误;基于评估因素对于目标问询信息进行加权评分,得到语义评估结果。
在本公开一种实现方式中,对目标问询信息进行语义评估包括:提取目标问询信息的预设特征,其中,预设特征包括以下特征中的一种或多种:目标问询信息中具有预设语义特征的答复语句、目标问询信息中具有预设语义特征的答复信息的数量、目标问询信息中与原始问询信息主题一致的对话信息的数量、目标问询信息的语法成分;将目标问询信息及其预设特征作为输入,输入至预先训练得到的语义评估模型中,得到与目标问询信息对应的语义评估结果。
在本公开一种实现方式中,对目标问询信息进行语义评估还包括:训练语义评估模型。
在本公开一种实现方式中,基于目标问询信息生成对应于原始问询信息的应答信息,包括:对目标问询信息进行意图分析,得到目标问询信息的意图;从预设应答数据库中获取具有相同意图的应答信息,作为对应于原始问询信息的应答信息,其中,预设应答数据库中存储有应答信息及其对应的意图信息。
在本公开一种实现方式中,还包括:从一终端的交互界面获取原始问询信息;和输出应答信息到终端以在交互界面展示应答信息。
在本公开一种实现方式中,应答信息为文字信息或声音信息,在交互界面展示应答信息的步骤包括:在交互界面显示应答文字信息,或者,将应答信息转换为应答语音信息,并在交互界面播放应答语音信息。
本公开的实施例还提供了一种问询语句改写装置。所述问询语句改写装置包括:对话获取模块,被配置为获取与原始问询信息相关的历史对话信息;上下文意图获取模块,被配置为基于历史对话信息获取历史上下文信息和历史意图信息;问询信息改写模块,被配置为利用历史上下文信息和历史意图信息改写原始问询信息以得到目标问询信息;应答信息生成模块,被配置为基于目标问询信息生成对应于原始问询信息的应答信息。
在本公开一种实现方式中,对话获取模块中获取与原始问询信息相关的历史对话信息的部分被配置为:对原始问询信息进行意图分析,得到原始问询信息的意图;获取具有相同意图的历史对话信息。
在本公开一种实现方式中,上下文意图获取模块中基于历史对话信息获取历史上下文信息和历史意图信息的部分被配置为:将历史对话信息作为输入,输入至预先训练得到的对话分析模型中,得到与历史对话信息对应的历史上下文信息和历史意图信息。
在本公开一种实现方式中,所述装置还包括:模型训练模块,被配置为训练对话分析模型。
在本公开一种实现方式中,模型训练模块中训练对话分析模型的部分被配置为:确定初始对话分析模型;获取主题一致的对话数据集合,其中,对话数据集合中包括主题一致的一条或多条对话信息,对话信息包括询问信息和相应的答复信息;将对话数据集合中的对话信息作为输入,将对话信息的上下文信息和意图信息作为输出对于初始行为确定模型进行训练,得到对话分析模型。
在本公开一种实现方式中,所述装置还包括:对话过滤模块,被配置为对于对话数据集合进行过滤。
在本公开一种实现方式中,过滤模块中对于对话数据集合进行过滤的部分被配置为:统计对话数据集合的对话信息中具有预设语义特征的答复信息的数量,当具有预设语义特征的答复信息的数量超过第一预设数量阈值时,删除对话信息;和/或,统计对话数据集合的对话信息中询问信息和对应答复信息的数量,当询问信息和对应答复信息的数量低于第二预设数量阈值时,删除对话信息。
在本公开一种实现方式中,问询信息改写模块中利用历史上下文信息和历史意图信息改写原始问询信息以得到目标问询信息的部分被配置为:对原始问询信息进行语法分析;当确定原始问询信息中缺少上下文信息时,将历史上下文信息填充至原始问询信息中的上下文信息位置,得到目标问询信息;和/或当确定原始问询信息中缺少意图信息时,将历史意图信息填充至原始问询信息中的意图信息位置,得到目标问询信息。
在本公开一种实现方式中,所述装置还包括:语义评估模块,被配置为对目标问询信息进行语义评估;问询替换模块,被配置为当语义评估结果达到预设要求时,使用目标问询信息替换原始问询信息。
在本公开一种实现方式中,语义评估模块中对目标问询信息进行语义评估的部分被配置为:获取评估因素,其中,评估因素可包括以下因素中的一种或多种:目标问询信息中是否存在具有预设语义特征的答复信息、目标问询信息中具有预设语义特征的答复信息的数量是否超过第一预设数量阈值、目标问询信息中与原始问询信息主题一致的对话信息的数量是否低于第二预设数量阈值、目标问询信息中是否存在语法错误;基于评估因素对于目标问询信息进行加权评分,得到语义评估结果。
在本公开一种实现方式中,语义评估模块中对目标问询信息进行语义评估的部分被配置为:提取目标问询信息的预设特征,其中,预设特征包括以下特征中的一种或多种:问询信息中具有预设语义特征的答复语句、问询信息中具有预设语义特征的答复信息的数量、与问询信息主题一致的对话信息的数量、问询信息的语法成分;将目标问询信息及其预设特征作为输入,输入至预先训练得到的语义评估模型中,得到与目标问询信息对应的语义评估结果。
在本公开一种实现方式中,语义评估模块中对目标问询信息进行语义评估的部分还被配置为:训练语义评估模型。
在本公开一种实现方式中,语义评估模块中训练语义评估模型的部分被配置为:确定初始语义评估模型;获取训练对话信息,并提取训练对话信息的预设特征;将训练对话信息及其预设特征作为输入,将训练对话信息的语义评估结果作为输出对于初始语义评估模型进行训练,得到语义评估模型。
在本公开一种实现方式中,应答信息生成模块中基于目标问询信息生成对应于原始问询信息的应答信息的部分被配置为:对目标问询信息进行意图分析,得到目标问询信息的意图;从预设应答数据库中获取具有相同意图的应答信息,作为对应于原始问询信息的应答信息,其中,预设应答数据库中存储有应答信息及其对应的意图信息。
在本公开一种实现方式中,所述装置还包括:界面问询获取模块,被配置为从一终端的交互界面获取原始问询信息;和界面应答输出模块,被配置为输出应答信息到终端以在交互界面展示应答信息。
在本公开一种实现方式中,应答信息为文字信息或声音信息,界面应答输出模块中在交互界面展示应答信息的部分被配置为:在交互界面显示应答文字信息,或者,将应答信息转换为应答语音信息,并在交互界面播放应答语音信息。
本公开的实施例还提供了一种计算机可读存储介质,用于存储问询语句改写装置所用的计算机指令,其包含用于执行上述问询语句改写方法所涉及的计算机指令。
本公开的实施例还提供了一种计算机程序产品,包括计算机程序/指令,其中,该计算机程序/指令被处理器执行时实现上述问询语句改写方法的方法步骤。
本公开实施例提供的技术方案可以包括以下有益效果:上述技术方案基于与原始问询信息相关的历史对话信息获取历史上下文信息和历史意图信息,结合历史上下文信息和历史意图信息改写原始问询信息以得到目标问询信息,使改写后的目标问询信息同时具备意图信息以及上下文信息,结合目标问询信息中意图信息以及上下文信息,目标问询信息能够体现用户唯一的真实意图,确保基于目标问询信息生成的对应于原始问询信息的应答信息能够与用户唯一的真实意图匹配,提高了智能问答系统的可靠性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开一实施例的问询语句改写方法的流程图;
图2示出根据本公开一实施例的问询语句改写方法的整体流程图;
图3示出根据本公开一实施例的问询语句改写装置的结构框图;
图4示出根据本公开一实施例的电子设备的结构框图;
图5是适用于实现本公开一实施例的问询语句改写方法的计算机系统的结构示意图。
具体实施方式
下文中将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
应理解,在本公开中诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
上文提及,随着人工智能技术以及自然语言处理技术的发展,智能问答系统随之产生。智能问答系统能够在人机对话中基于用户输入的问询信息,采用准确、简洁的自然语言进行应答,实现与用户的交互,为用户提供个性化的服务。在部分情况下,当用户输入的问询信息并不能很好的反映出用户意图时,智能问答系统仅通过用户输入的问询信息可能无法确定相匹配的应答信息,从而导致用户体验较差。为了使智能问答系统能够提供与用户意图相匹配的应答信息,可以对用户输入的问询信息进行改写,以最终得到能够更为贴近用户意图的新问询信息。通常情况下,在问询信息改写中可以将问询信息中与用户意图的相关性较低的一个或者多个词去除,得到新问询信息,但这种做法也存在一些弊端。在多轮对话中,随着用户输入的问询信息的上下文不同,同一种用户意图可能在多轮对话的问询信息中存在不同的表现形式,不同的用户意图也可能在多轮对话的问讯信息中存在相同的表现形式,因此即使根据上述问询信息改写方案对问询信息进行改写,所得到的新问询信息也可能无法体现用户的真实意图。因此上述问询改写方使智能问答系统根据改写后的新问询信息并不能得到与用户的真实意图相匹配的应答信息,降低了智能问答系统的可靠性。
考虑到上述缺陷,本公开提供的技术方案是基于与原始问询信息相关的历史对话信息获取历史上下文信息和历史意图信息,结合历史上下文信息和历史意图信息改写原始问询信息以得到目标问询信息,使改写后的目标问询信息同时具备意图信息以及上下文信息,结合目标问询信息中意图信息以及上下文信息,目标问询信息能够体现用户唯一的真实意图,使基于目标问询信息生成的对应于原始问询信息的应答信息能够与用户唯一的真实意图匹配,提高了智能问答系统的可靠性。
图1示出根据本公开一实施例的问询语句改写方法的流程图,如图1所示,所述问询语句改写方法包括以下步骤S101-S104:
在步骤S101中,获取与原始问询信息相关的历史对话信息。
在步骤S102中,基于历史对话信息获取历史上下文信息和历史意图信息。
在步骤S103中,利用历史上下文信息和历史意图信息改写原始问询信息以得到目标问询信息。
在步骤S104中,基于目标问询信息生成对应于原始问询信息的应答信息。
在本公开一种实施方式中,问询语句改写方法可适用于对于问询语句进行改写的计算机、计算设备、电子设备、服务器、服务集群等问询语句改写方。
在本公开一实施方式中,原始问询信息指的是在对话的过程中用户输入的问询信息,原始问询信息可以包括一个或多个词语。
在本公开一实施方式中,与原始问询信息相关的历史对话信息,指的是该原始问询信息所属的对话信息中与原始问询信息相邻的对话语句,也可以是该原始问询信息所属的对话信息中与原始问询信息间隔的对话语句数量小于或等于对话语句数量阈值的语句。比如,当原始问询信息为:“明天能到吗?”、该原始问询信息所属对话为:“CUST:你好,在么?STAFF:你好,在的亲。CUST:你家橘子发什么快递?STAFF:亲,您好,我们发顺丰呢。CUST:明天能到吗?”时(其中,CUST指的是问询信息的提出方,STAFF指的是问询信息的答复方),与原始问询信息相关的历史对话信息可以为“亲,您好,我们发顺丰呢”,也可以为“你家橘子发什么快递?亲,您好,我们发顺丰呢”。
在本公开一实施方式中,历史意图信息指的是历史对话信息所要达到的对话目的。具体的,历史意图信息可以包括对话领域以及对话意图,其中对话领域可以限定对话意图的范围。例如当对话领域为物流时效时,对话意图可以为“什么时候能送到”、“几天能到”“送到需要几天”等;当对话领域为退换政策时,对话意图可以为“穿着不合适能退么”、“不合适可以退么”、“太大了可以退么”、“太小了可以退么”等。
在本公开一实施方式中,历史上下文信息指的是历史对话信息中能够与历史意图信息结合,以补全历史对话信息中因存在语义简化或语义替代而缺失的关键信息。比如,当原始问询信息为:“不合适能退么”,历史对话信息为:“CUST:绿色的T恤还有XL的码么?STAFF:亲,您好,XL的码的卖光了呢,这件是宽松型的,亲可以试一下L码呢。CUST:不合适可以退么”时,历史对话信息中“不合适可以退么”这一语句因语义简化而缺失了“绿色的T恤L码”这一关键信息,即历史意图信息为:“不合适可以退么”,历史上下文信息为:“绿色的T恤”、“L码”。
在本公开一实施方式中,目标问询信息指的是当原始问询信息中缺少上下文信息和历史意图信息中任一项时,将缺少的历史上下文信息或历史意图信息填充至原始问询信息中的相应的位置所得到的信息。比如,原始问询信息为:“几天能到”时,该原始问询信息缺少历史上下文信息“顺丰”,通过改写原始问询信息可以得到目标问询信息为:“发顺丰的话几天能到”;原始问询信息为:“L码的衬衫呢”,该原始问询信息缺少意图信息“有货么”,通过改写原始问询信息可以得到的目标问询信息为:“L码的衬衫有货么”。
在本公开一实施方式中,对应于原始问询信息的应答信息指的是用于对原始问询信息进行回答的信息,该应答信息可以包括原始问询信息中索取的信息。例如,原始问询信息为“几天能到”、目标问询信息为“发顺丰的话衬衣几天能到”时,应答信息可以为“亲,N天可以送到”,其中“N天”可以为通过查询相应快递单号所获取的快递时效天数。
上述问询语句改写方法可用于多种应用场景中,比如,机器对话场景、智能对话场景、人机对话场景等等。
在本公开一种实施方式中,获取与原始问询信息相关的历史对话信息,可包括以下步骤:对原始问询信息进行意图分析,得到原始问询信息的意图;获取具有相同意图的历史对话信息。
对原始问询信息进行意图分析,可以为通过结构化、半结构化、无结构化等多种数据处理方式,结合NLP(Natural Language Processing,自然语言处理)的多种技术识别原始问询信息的意图。比如,可以基于支持向量机(Support Vector Machine,SVM)、条件随机场(conditional random field,CRF)、卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)等对自然语言理解的技术对事件信息进行意图分析。
在该实施方式中,通过对原始问询信息进行意图分析,得到原始问询信息的意图,并获取与原始问询信息具有相同意图的历史对话信息,可以使基于历史对话信息所获取的历史意图信息与原始问询信息的意图相同,确保利用历史上下文信息和历史意图信息改写原始问询信息得到的目标问询信息所体现的意图与原始问询信息的意图即用户唯一的真实意图相同,使目标问询信息所体现的意图更准确。
在本公开一种实施方式中,基于历史对话信息获取历史上下文信息和历史意图信息可包括以下步骤:将历史对话信息作为输入,输入至预先训练得到的对话分析模型中,得到与历史对话信息对应的历史上下文信息和历史意图信息。
其中,对话分析模型可为基于后验概率的对话分析模型。在该实施方式中,首先获取预先训练好的对话分析模型,再利用所述对话分析模型基于历史对话信息来获取历史上下文信息和历史意图信息。具体地,可将所述历史对话信息输入至预先训练好的对话分析模型中,得到多个上下文信息和意图信息,以及与历史上下文信息和历史意图信息各自对应的概率。然后将概率最高的上下文信息和意图信息确定为历史上下文信息和历史意图信息。
在该实施方式中,历史对话信息对应的历史上下文信息和历史意图信息是通过借助预先训练得到的对话分析模型来获取。在实际应用中,对话分析模型进行了充分的学习和训练后,基于所述对话分析模型得到的历史上下文信息和历史意图信息的可靠性会大大增加,使根据其改写得到的目标问询信息能够较为准确的体现用户唯一的真实意图。
在本公开一种实施方式中,问询语句改写方法还可以包括以下步骤:训练对话分析模型。训练对话分析模型可包括以下步骤:确定初始对话分析模型;获取主题一致的对话数据集合,其中,对话数据集合中包括主题一致的一条或多条对话信息,对话信息包括询问信息和相应的答复信息;将对话数据集合中的对话信息作为输入,将对话信息的上下文信息和意图信息作为输出对于初始行为确定模型进行训练,得到对话分析模型。
在该实施方式中,在训练对话分析模型时,首先确定一个初始对话分析模型,其中,初始对话分析模型可根据实际应用的需要进行选择。然后获取主题一致的对话数据集合,将对话数据集合中的对话信息作为输入,将对话信息的上下文信息和意图信息作为输出,对初始行为确定模型进行训练,待到训练结果收敛时,即可得到所述对话分析模型。上述对话分析模型的学习和训练可采用q-learning、DQN、Policy Gradient、DDPG等学习训练方法来实现,本公开对于对话分析模型的具体学习训练实现方法不作特别限定。
在本公开一种实施方式中,获取主题一致的对话数据集合之后,所述问询语句改写方法还可以包括以下步骤:对于对话数据集合进行过滤。
在本公开一种实施方式中,对于对话数据集合进行过滤,可以包括以下步骤:统计对话数据集合的对话信息中具有预设语义特征的答复信息的数量,当具有预设语义特征的答复信息的数量超过第一预设数量阈值时,删除对话信息;和/或,统计对话数据集合的对话信息中询问信息和对应答复信息的数量,当询问信息和对应答复信息的数量低于第二预设数量阈值时,删除对话信息。
其中,具有预设语义特征的答复信息指的是包括一个预设词、多个预设词、多个预设词的组合或根据预设语法关系组合的多个预设词。比如,具有预设语义特征的答复信息可以为:“在么”、“好的呢亲”、“怎么了”等等。具有预设语义特征的答复信息并不表征客户的实际意图,并且对客户的实际意图也没有任何解释或说明的作用,若对话信息中具有预设语义特征的答复信息过多时,根据该对话信息对初始对话分析模型进行训练,则会对训练造成干扰。在该实施方式中,通过统计对话数据集合的对话信息中具有预设语义特征的答复信息的数量,当具有预设语义特征的答复信息的数量超过第一预设数量阈值时,删除该对话信息可以避免该对话信息对初始对话分析模型的训练造成干扰,以提高对初始对话分析模型进行训练的效率。
类似的,当对话数据集合的对话信息中询问信息和对应答复信息的数量较少时,该对话信息可能对应被打断的对话或未记录完全的对话,根据该对话信息并不能获取客户在未被打断的对话或记录完全的对话中表述的实际意图,若根据该对话信息对初始对话分析模型进行训练,则会对训练造成干扰。在该实施方式中,统计对话数据集合的对话信息中询问信息和对应答复信息的数量,当询问信息和对应答复信息的数量低于第二预设数量阈值时,删除该对话信息可以避免该对话信息对初始对话分析模型的训练造成干扰,以提高对初始对话分析模型进行训练的效率。
在本公开一种实施方式中,利用历史上下文信息和历史意图信息改写原始问询信息以得到目标问询信息,可以包括以下步骤:对原始问询信息进行语法分析;当确定原始问询信息中缺少上下文信息时,将历史上下文信息填充至原始问询信息中的上下文信息位置,得到目标问询信息;和/或当确定原始问询信息中缺少意图信息时,将历史意图信息填充至原始问询信息中的意图信息位置,得到目标问询信息。
考虑到原始问询信息通常仅缺少上下文信息及意图信息其中一项,为了尽量减少始问询信息中需改写的信息量,在该实施方式中,首先通过对原始问询信息进行语法分析;当确定原始问询信息中缺少上下文信息时,将历史上下文信息填充至原始问询信息中的上下文信息位置,得到目标问询信息;和/或当确定原始问询信息中缺少意图信息时,将历史意图信息填充至原始问询信息中的意图信息位置,得到目标问询信息,可以确保改写后的目标问询信息同时具备意图信息以及上下文信息,提高了改写的效率。
在本公开一种实施方式中,所述问询语句改写方法还可以包括以下步骤:对目标问询信息进行语义评估;当语义评估结果达到预设要求时,使用目标问询信息替换原始问询信息。
在本公开一种实施方式中,对目标问询信息进行语义评估,可以包括以下步骤:获取评估因素,评估因素可包括以下因素中的一种或多种:目标问询信息中是否存在具有预设语义特征的答复信息、目标问询信息中具有预设语义特征的答复信息的数量是否超过第一预设数量阈值、目标问询信息中与原始问询信息主题一致的对话信息的数量是否低于第二预设数量阈值、目标问询信息中是否存在语法错误;基于评估因素对于目标问询信息进行加权评分,得到语义评估结果。
具有预设语义特征的目标问询信息指的是目标问询信息包括不符合正常对话习惯或生活常识的词或多个词的组合等。比如,若目标问询信息包括“这个型号的手机有L码的么”、“这件衣服需要换电池么”等等,该目标问询信息具有预设语义特征。目标问询信息中存在语法错误指的是目标问询信息中存在一个或多个错别字,或目标问询信息中存在不符合正常语法关系的词或多个词的组合。比如,若目标问询信息包括“L玛”、“绿铯”等等,则该目标问询信息中存在语法错误。
若目标问询信息存在具有预设语义特征的答复信息、目标问询信息中具有预设语义特征的答复信息的数量较多或目标问询信息中存在语法错误,该目标问询信息被正确理解的难度较高。生成对应于该目标问询信息的应答信息的难度也相应提高。当目标问询信息与原始问询信息主题一致的对话信息的数量较少时,通过目标问讯信息表述的内容与通过原始问询信息表述可能并不一致,目标问讯信息无法体现用户的真实意图。对应于该目标问询信息的应答信息可能与用户唯一的真实意图匹配并不匹配。在该实施方式中,通过获取评估因素,基于评估因素对于目标问询信息进行加权评分,得到语义评估结果,以便于在语义评估结果达到预设要求时,使用目标问询信息替换原始问询信息,可以确保目标问询信息能够体现用户的真实意图,且同时还能够方便用户理解。
在本公开一种实施方式中,对目标问询信息进行语义评估可以包括以下步骤:提取目标问询信息的预设特征,预设特征包括以下特征中的一种或多种:问询信息中具有预设语义特征的答复语句、问询信息中具有预设语义特征的答复信息的数量、与问询信息主题一致的对话信息的数量、问询信息的语法成分;将目标问询信息及其预设特征作为输入,输入至预先训练得到的语义评估模型中,得到与目标问询信息对应的语义评估结果。
其中,语义评估模型可为基于后验概率的语义评估模型,在该实施方式中,获取预先训练好的语义评估模型,可利用所述语义评估模型基于目标问询信息的预设特征来获取语义评估结果。
在该实施方式中,通过借助预先训练得到的语义评估模型获取与目标问询信息对应的语义评估结果。在实际应用中,进行了充分的学习和训练后,基于所述语义评估模型得到的语义评估结果的可靠性会大大增加。
在本公开一种实施方式中,对目标问询信息进行语义评估,还可以包括以下步骤:训练语义评估模型。训练语义评估模型可以包括以下步骤:确定初始语义评估模型;获取训练对话信息,并提取训练对话信息的预设特征;将训练对话信息及其预设特征作为输入,将训练对话信息的语义评估结果作为输出对于初始语义评估模型进行训练,得到语义评估模型。
在该实施方式中,在训练所述语义评估模型时,首先确定一个初始语义评估模型,其中,初始语义评估模型可根据实际应用的需要进行选择;然后获取训练对话信息,并提取训练对话信息的预设特征;将训练对话信息及其预设特征作为输入,将训练对话信息的语义评估结果作为输出。对初始语义评估模型进行训练,待到训练结果收敛时,即可得到所述语义评估模型。上述语义评估模型的学习和训练可采用q-learning、DQN、PolicyGradient、DDPG等学习训练方法来实现,本公开对于语义评估模型的具体学习训练实现方法不作特别限定。
在本公开一种实施方式中,基于目标问询信息生成对应于原始问询信息的应答信息可以包括以下步骤:对目标问询信息进行意图分析,得到目标问询信息的意图;从预设应答数据库中获取具有相同意图的应答信息,作为对应于原始问询信息的应答信息,其中,预设应答数据库中存储有应答信息及其对应的意图信息。
预设应答数据库是预先设置的,预设应答数据库中的意图信息可以与对应一个或多个应答信息对应,多个意图信息可以对应不同的应答信息,也可以对应相同的应答信息。
在该实施方式中,首先通过对目标问询信息进行意图分析,得到目标问询信息的意图。之后从预设应答数据库中获取具有相同意图的应答信息,作为对应于原始问询信息的应答信息,可以提高所获取的原始问询信息的应答信息的准确性。
在本公开一种实施方式中,还可以包括以下步骤:从一终端的交互界面获取原始问询信息,以及输出应答信息到终端以在交互界面展示应答信息。
终端的交互界面可以为运行在终端上的应用程序(application,APP)的交互界面,用户在该交互界面可以输入相应的信息,终端在该交互界面可以针对用户输入的信息展示对应的应答信息,以实现与用户的交互。比如,该交互界面可以为购物应用程序的售后服务交互界面,或该交互界面可以为聊天软件的聊天界面等等。
在该实施方式中,通过从一终端的交互界面获取原始问询信息,并输出应答信息到终端以在交互界面展示应答信息,可以实现与用户的交互,改善了用户体验。
在本公开一种实施方式中,应答信息为文字信息或声音信息。在交互界面展示应答信息可以包括以下步骤:在交互界面显示应答文字信息,或者,将应答信息转换为应答语音信息,并在交互界面播放应答语音信息。
其中,在交互界面展示应答信息,可以为在交互界面中的指定位置展示应答信息,也可以根据原始问询信息在交互界面中的位置展示应答信息。比如,可以在交互界面中原始问询信息的下方展示应答信息。在交互界面播放应答语音信息,可以为直接在交互界面播放应答语音信息,也可以为响应于通过交互界面检测到的触发操作播放应答语音信息。
在该实施方式中,通过在交互界面显示应答文字信息,或者,将应答信息转换为应答语音信息,并在交互界面播放应答语音信息,可以丰富展示应答信息的方式,方便用户理解,改善了用户体验。
图2示出根据本公开一实施方式的问询语句改写方法的整体流程图,如图2所示,该方法包括如下步骤:
在步骤S201中,从一终端的交互界面获取原始问询信息。
在步骤S202中,对原始问询信息进行意图分析,得到原始问询信息的意图。
在步骤S203中,获取具有相同意图的历史对话信息。
在步骤S204中,训练对话分析模型。
在步骤S205中,将历史对话信息作为输入,输入至预先训练得到的对话分析模型中,得到与历史对话信息对应的历史上下文信息和历史意图信息。
在步骤S206中,对原始问询信息进行语法分析。
在步骤S207中,当确定原始问询信息中缺少上下文信息时,将历史上下文信息填充至原始问询信息中的上下文信息位置,得到目标问询信息;和/或当确定原始问询信息中缺少意图信息时,将历史意图信息填充至原始问询信息中的意图信息位置,得到目标问询信息。
在步骤S208中,对目标问询信息进行意图分析,得到目标问询信息的意图。
在步骤S209中,从预设应答数据库中获取具有相同意图的应答信息,作为对应于原始问询信息的应答信息。
在步骤S210中,输出应答信息到终端,在交互界面显示应答文字信息,或在交互界面播放由应答信息转换来的应答语音信息。
在步骤S211中,获取评估因素。
在步骤S212中,基于评估因素对于目标问询信息进行加权评分,得到语义评估结果。
在步骤S213中,提取目标问询信息的预设特征。
在步骤S214中,训练语义评估模型。
在步骤S215中,将目标问询信息及其预设特征作为输入,输入至预先训练得到的语义评估模型中,得到与目标问询信息对应的语义评估结果。
在步骤S216中,当语义评估结果达到预设要求时,使用目标问询信息替换原始问询信息。
上述问询语句改写方法可用于多种应用场景中,比如,机器对话场景、智能对话场景、人机对话场景等等。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
图3示出根据本公开一实施方式的问询语句改写装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图3所示,所述问询语句改写装置包括:对话获取模块301,被配置为获取与原始问询信息相关的历史对话信息。上下文意图获取模块302,被配置为基于历史对话信息获取历史上下文信息和历史意图信息。问询信息改写模块303,被配置为利用历史上下文信息和历史意图信息改写原始问询信息以得到目标问询信息。应答信息生成模块304,被配置为基于目标问询信息生成对应于原始问询信息的应答信息。
问询语句改写装置基于与原始问询信息相关的历史对话信息获取历史上下文信息和历史意图信息,结合历史上下文信息和历史意图信息改写原始问询信息以得到目标问询信息,使改写后的目标问询信息同时具备意图信息以及上下文信息,结合目标问询信息中意图信息以及上下文信息,目标问询信息能够体现用户唯一的真实意图,使基于目标问询信息生成的对应于原始问询信息的应答信息能够与用户唯一的真实意图匹配,提高了智能问答系统的可靠性。
在本公开一种实施方式中,问询语句改写装置可适用于对于问询语句进行改写的计算机、计算设备、电子设备、服务器、服务集群等问询语句改写方。
在本公开一实施方式中,原始问询信息指的是在对话的过程中用户输入的问询信息,原始问询信息可以包括一个或多个词语。
在本公开一实施方式中,与原始问询信息相关的历史对话信息,指的是该原始问询信息所属的对话信息中与原始问询信息相邻的对话语句,也可以是该原始问询信息所属的对话信息中与原始问询信息间隔的对话语句数量小于或等于对话语句数量阈值的语句。比如,当原始问询信息为:“明天能到吗?”、该原始问询信息所属对话为:“CUST:你好,在么?STAFF:你好,在的亲。CUST:你家橘子发什么快递?STAFF:亲,您好,我们发顺丰呢。CUST:明天能到吗?”时(其中,CUST指的是问询信息的提出方,STAFF指的是问询信息的答复方),与原始问询信息相关的历史对话信息可以为“亲,您好,我们发顺丰呢”,也可以为“你家橘子发什么快递?亲,您好,我们发顺丰呢”。
在本公开一实施方式中,历史意图信息指的是历史对话信息所要达到的对话目的。具体的,历史意图信息可以包括对话领域以及对话意图,其中对话领域可以限定对话意图的范围。例如当对话领域为物流时效时,对话意图可以为“什么时候能送到”、“几天能到”“送到需要几天”等;当对话领域为退换政策时,对话意图可以为“穿着不合适能退么”、“不合适可以退么”、“太大了可以退么”、“太小了可以退么”等。
在本公开一实施方式中,历史上下文信息指的是历史对话信息中能够与历史意图信息结合,以补全历史对话信息中因存在语义简化或语义替代而缺失的关键信息。比如,当原始问询信息为:“不合适能退么”,历史对话信息为:“CUST:绿色的T恤还有XL的码么?STAFF:亲,您好,XL的码的卖光了呢,这件是宽松型的,亲可以试一下L码呢。CUST:不合适可以退么”时,历史对话信息中“不合适可以退么”这一语句因语义简化而缺失了“绿色的T恤L码”这一关键信息,即历史意图信息为:“不合适可以退么”,历史上下文信息为:“绿色的T恤”、“L码”。
在本公开一实施方式中,目标问询信息指的是当原始问询信息中缺少上下文信息和历史意图信息中任一项时,将缺少的历史上下文信息或历史意图信息填充至原始问询信息中的相应的位置所得到的信息。比如,原始问询信息为:“几天能到”时,该原始问询信息缺少历史上下文信息“顺丰”,通过改写原始问询信息可以得到目标问询信息为:“发顺丰的话几天能到”;原始问询信息为:“L码的衬衫呢”,该原始问询信息缺少意图信息“有货么”,通过改写原始问询信息可以得到的目标问询信息为:“L码的衬衫有货么”。
在本公开一实施方式中,对应于原始问询信息的应答信息指的是用于对原始问询信息进行回答的信息,该应答信息可以包括原始问询信息中索取的信息。例如,原始问询信息为“几天能到”、目标问询信息为“发顺丰的话衬衣几天能到”时,应答信息可以为“亲,N天可以送到”,其中“N天”可以为通过查询相应快递单号所获取的快递时效天数。
上述问询语句改写装置可用于多种应用场景中,比如,机器对话场景、智能对话场景、人机对话场景等等。
在本公开一种实施方式中,对话获取模块301中获取与原始问询信息相关的历史对话信息的部分可以被配置为:对原始问询信息进行意图分析,得到原始问询信息的意图;获取具有相同意图的历史对话信息。
对原始问询信息进行意图分析,可以为通过结构化、半结构化、无结构化等多种数据处理方式,结合NLP(Natural Language Processing,自然语言处理)的多种技术识别原始问询信息的意图。比如,可以基于支持向量机(Support Vector Machine,SVM)、条件随机场(conditional random field,CRF)、卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)等对自然语言理解的技术对事件信息进行意图分析。
在该实施方式中,通过对原始问询信息进行意图分析,得到原始问询信息的意图,并获取与原始问询信息具有相同意图的历史对话信息,可以使基于历史对话信息所获取的历史意图信息与原始问询信息的意图相同,确保利用历史上下文信息和历史意图信息改写原始问询信息得到的目标问询信息所体现的意图与原始问询信息的意图即用户唯一的真实意图相同,即使目标问询信息所体现的意图更准确
在本公开一种实施方式中,上下文意图获取模块302中基于历史对话信息获取历史上下文信息和历史意图信息的部分,可以被配置为:将历史对话信息作为输入,输入至预先训练得到的对话分析模型中,得到与历史对话信息对应的历史上下文信息和历史意图信息。
其中,对话分析模型可为基于后验概率的对话分析模型。在该实施方式中,首先获取预先训练好的对话分析模型,再利用所述对话分析模型基于历史对话信息来获取历史上下文信息和历史意图信息。具体地,可将所述历史对话信息输入至预先训练好的对话分析模型中,得到多个上下文信息和意图信息,以及与历史上下文信息和历史意图信息各自对应的概率。然后将概率最高的上下文信息和意图信息确定为历史上下文信息和历史意图信息。
在该实施方式中,历史对话信息对应的历史上下文信息和历史意图信息是通过借助预先训练得到的对话分析模型来获取。在实际应用中,进行了充分的学习和训练后,基于所述对话分析模型得到的历史上下文信息和历史意图信息的可靠性会大大增加,使根据其改写得到的目标问询信息能够较为准确的体现用户唯一的真实意图。
在本公开一种实施方式中,问询语句改写装置还可以包括模型训练模块,模型训练模块被配置为训练对话分析模型。
模型训练模块中训练对话分析模型的部分,可以被配置为:确定初始对话分析模型;获取主题一致的对话数据集合,其中,对话数据集合中包括主题一致的一条或多条对话信息,对话信息包括询问信息和相应的答复信息;将对话数据集合中的对话信息作为输入,将对话信息的上下文信息和意图信息作为输出对于初始行为确定模型进行训练,得到对话分析模型。
在该实施方式中,在训练对话分析模型时,首先确定一个初始对话分析模型,其中,初始对话分析模型可根据实际应用的需要进行选择。然后获取主题一致的对话数据集合,将对话数据集合中的对话信息作为输入,将对话信息的上下文信息和意图信息作为输出,对初始行为确定模型进行训练,待到训练结果收敛时,即可得到所述对话分析模型。上述对话分析模型的学习和训练可采用q-learning、DQN、Policy Gradient、DDPG等学习训练装置来实现,本公开对于对话分析模型的具体学习训练实现装置不作特别限定。
在本公开一种实施方式中,问询语句改写装置还可以包括对话过滤模块,对话过滤模块可以被配置为对于对话数据集合进行过滤。
在本公开一种实施方式中,过滤模块中对于对话数据集合进行过滤的部分被配置为:统计对话数据集合的对话信息中具有预设语义特征的答复信息的数量,当具有预设语义特征的答复信息的数量超过第一预设数量阈值时,删除对话信息;和/或,统计对话数据集合的对话信息中询问信息和对应答复信息的数量,当询问信息和对应答复信息的数量低于第二预设数量阈值时,删除对话信息。
具有预设语义特征的答复信息指的是包括一个预设词、多个预设词、多个预设词的组合或根据预设语法关系组合的多个预设词。比如,具有预设语义特征的答复信息可以为:“在么”、“好的呢亲”、“怎么了”等等。具有预设语义特征的答复信息并不表征客户的实际意图,并且对客户的实际意图也没有任何解释或说明的作用,若对话信息中具有预设语义特征的答复信息过多时,根据该对话信息对初始对话分析模型进行训练,则会对训练造成干扰。在该实施方式中,通过统计对话数据集合的对话信息中具有预设语义特征的答复信息的数量,当具有预设语义特征的答复信息的数量超过第一预设数量阈值时,删除该对话信息可以避免该对话信息对初始对话分析模型的训练造成干扰,以提高对初始对话分析模型进行训练的效率。
类似的,当对话数据集合的对话信息中询问信息和对应答复信息的数量较少时,该对话信息可能对应被打断的对话或未记录完全的对话,根据该对话信息并不能获取客户在未被打断的对话或记录完全的对话中表述的实际意图,若根据该对话信息对初始对话分析模型进行训练,则会对训练造成干扰。在该实施方式中,统计对话数据集合的对话信息中询问信息和对应答复信息的数量,当询问信息和对应答复信息的数量低于第二预设数量阈值时,删除该对话信息可以避免该对话信息对初始对话分析模型的训练造成干扰,以提高对初始对话分析模型进行训练的效率。
在本公开一种实施方式中,问询信息改写模块303中利用历史上下文信息和历史意图信息改写原始问询信息以得到目标问询信息的部分可以被配置为:对原始问询信息进行语法分析;当确定原始问询信息中缺少上下文信息时,将历史上下文信息填充至原始问询信息中的上下文信息位置,得到目标问询信息;和/或当确定原始问询信息中缺少意图信息时,将历史意图信息填充至原始问询信息中的意图信息位置,得到目标问询信息。
考虑到原始问询信息通常仅缺少上下文信息及意图信息其中一项,为了尽量减少始问询信息中需改写的信息量,在该实施方式中,首先通过对原始问询信息进行语法分析;当确定原始问询信息中缺少上下文信息时,将历史上下文信息填充至原始问询信息中的上下文信息位置,得到目标问询信息;和/或当确定原始问询信息中缺少意图信息时,将历史意图信息填充至原始问询信息中的意图信息位置,得到目标问询信息,可以确保改写后的目标问询信息同时具备意图信息以及上下文信息,提高了改写的效率。
在本公开一种实施方式中,问询语句改写装置还可以包括语义评估模块和问询替换模块,语义评估模块被配置为对目标问询信息进行语义评估,问询替换模块被配置为当语义评估结果达到预设要求时,使用目标问询信息替换原始问询信息。
在本公开一种实施方式中,语义评估模块中对目标问询信息进行语义评估的部分可以被配置为:获取评估因素,评估因素可包括以下因素中的一种或多种:目标问询信息中是否存在具有预设语义特征的答复信息、目标问询信息中具有预设语义特征的答复信息的数量是否超过第一预设数量阈值、目标问询信息中与原始问询信息主题一致的对话信息的数量是否低于第二预设数量阈值、目标问询信息中是否存在语法错误;基于评估因素对于目标问询信息进行加权评分,得到语义评估结果。
具有预设语义特征的目标问询信息指的是目标问询信息包括不符合正常对话习惯或生活常识的词或多个词的组合等。比如,若目标问询信息包括“这个型号的手机有L码的么”、“这件衣服需要换电池么”等等,该目标问询信息具有预设语义特征。目标问询信息中存在语法错误指的是目标问询信息中存在一个或多个错别字,或目标问询信息中存在不符合正常语法关系的词或多个词的组合。比如,若目标问询信息包括“L玛”、“绿铯”等等,该目标问询信息中存在语法错误。
若目标问询信息存在具有预设语义特征的答复信息、目标问询信息中具有预设语义特征的答复信息的数量较多或目标问询信息中存在语法错误,该目标问询信息被正确理解的难度较高。生成对应于该目标问询信息的应答信息的难度也相应提高。当目标问询信息与原始问询信息主题一致的对话信息的数量较少时,通过目标问讯信息表述的内容与通过原始问询信息表述可能并不一致,目标问讯信息无法体现用户的真实意图,对应于该目标问询信息的应答信息可能与用户唯一的真实意图匹配并不匹配。在该实施方式中,通过获取评估因素,基于评估因素对于目标问询信息进行加权评分,得到语义评估结果,以便于在语义评估结果达到预设要求时,使用目标问询信息替换原始问询信息,可以确保目标问询信息能够体现用户的真实意图,且根据该目标问询信息生成对应的应答信息的难度较低。
在本公开一种实施方式中,语义评估模块中对目标问询信息进行语义评估的部分可以被配置为:提取目标问询信息的预设特征,预设特征包括以下特征中的一种或多种:问询信息中具有预设语义特征的答复语句、问询信息中具有预设语义特征的答复信息的数量、与问询信息主题一致的对话信息的数量、问询信息的语法成分;将目标问询信息及其预设特征作为输入,输入至预先训练得到的语义评估模型中,得到与目标问询信息对应的语义评估结果。
其中,语义评估模型可为基于后验概率的语义评估模型,在该实施方式中,可先获取预先训练好的语义评估模型,再利用所述语义评估模型基于目标问询信息的预设特征来获取语义评估结果。
在该实施方式中,通过借助预先训练得到的语义评估模型获取与目标问询信息对应的语义评估结果。在实际应用中,进行了充分的学习和训练后,基于所述语义评估模型得到的语义评估结果的可靠性会大大增加。
在本公开一种实施方式中,语义评估模块中对目标问询信息进行语义评估的部分还被配置为:训练语义评估模型。
语义评估模块中训练语义评估模型的部分被配置为:确定初始语义评估模型;获取训练对话信息,并提取训练对话信息的预设特征;将训练对话信息及其预设特征作为输入,将训练对话信息的语义评估结果作为输出对于初始语义评估模型进行训练,得到语义评估模型。
在该实施方式中,在训练所述语义评估模型时,首先确定一个初始语义评估模型,其中,初始语义评估模型可根据实际应用的需要进行选择;然后获取训练对话信息,并提取训练对话信息的预设特征;将训练对话信息及其预设特征作为输入,将训练对话信息的语义评估结果作为输出。对初始语义评估模型进行训练,待到训练结果收敛时,即可得到所述语义评估模型。上述语义评估模型的学习和训练可采用q-learning、DQN、PolicyGradient、DDPG等学习训练装置来实现,本公开对于语义评估模型的具体学习训练实现装置不作特别限定。
在本公开一种实施方式中,应答信息生成模块304中基于目标问询信息生成对应于原始问询信息的应答信息的部分被配置为:对目标问询信息进行意图分析,得到目标问询信息的意图;从预设应答数据库中获取具有相同意图的应答信息,作为对应于原始问询信息的应答信息,其中,预设应答数据库中存储有应答信息及其对应的意图信息。
预设应答数据库是预先设置的,预设应答数据库中的意图信息可以与对应一个或多个应答信息对应,多个意图信息可以对应不同的应答信息,也可以对应相同的应答信息。
在该实施方式中,首先通过对目标问询信息进行意图分析,得到目标问询信息的意图。之后从预设应答数据库中获取具有相同意图的应答信息,作为对应于原始问询信息的应答信息,可以提高所获取的原始问询信息的应答信息的准确性。
在本公开一种实施方式中,问询语句改写装置还可以包括:界面问询获取模块和界面应答输出模块,界面问询获取模块被配置为从一终端的交互界面获取原始问询信息,界面应答输出模块被配置为输出应答信息到终端以在交互界面展示应答信息。
终端的交互界面可以为运行在终端上的应用程序(application,APP)的交互界面,用户在该交互界面可以输入相应的信息,终端在该交互界面可以针对用户输入的信息展示对应的应答信息,以实现与用户的交互。比如,该交互界面可以为购物应用程序的售后服务交互界面,或该交互界面可以为聊天软件的聊天界面等等。
在该实施方式中,通过从一终端的交互界面获取原始问询信息,并输出应答信息到终端以在交互界面展示应答信息,可以实现与用户的交互,改善了用户体验。
在本公开一种实施方式中,应答信息为文字信息或声音信息。界面应答输出模块中在交互界面展示应答信息的部分可以被配置为:在交互界面显示应答文字信息,或者,将应答信息转换为应答语音信息,并在交互界面播放应答语音信息。
其中,在交互界面展示应答信息可以为在交互界面中的指定位置展示应答信息,也可以根据原始问询信息在交互界面中的位置展示应答信息。比如,可以在交互界面中原始问询信息的下方展示应答信息。在交互界面播放应答语音信息,可以为直接在交互界面播放应答语音信息,也可以为响应于通过交互界面检测到的触发操作播放应答语音信息。
在该实施方式中,通过在在交互界面显示应答文字信息,或者将应答信息转换为应答语音信息,并在交互界面播放应答语音信息,可以丰富展示应答信息的方式,方便用户理解,改善了用户体验。
上述问询语句改写装置可用于多种应用场景中,比如,机器对话场景、智能对话场景、人机对话场景等等。
本公开还公开了一种电子设备,图4示出根据本公开一实施例的电子设备的结构框图,如图4所示,所述电子设备400包括存储器401和处理器402;其中所述存储器401用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器402执行以实现上述方法步骤。
图5是适用于实现本公开的问询语句改写方法的计算机系统实施例的结构示意图。如图5所示,计算机系统500包括处理单元501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行上述实施方式中的各种处理。在RAM503中,还存储有系统500操作所需的各种程序和数据。处理单元501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。其中,所述处理单元501可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (14)

1.一种问询语句改写方法,适用于机器/智能/人机对话服务,包括:
获取与原始问询信息相关的历史对话信息;
基于所述历史对话信息获取历史上下文信息和历史意图信息;
利用所述历史上下文信息和历史意图信息改写所述原始问询信息以得到目标问询信息;
基于目标问询信息生成对应于原始问询信息的应答信息。
2.根据权利要求1所述的方法,所述获取与所述原始问询信息相关的历史对话信息,包括:
对所述原始问询信息进行意图分析,得到所述原始问询信息的意图;
获取具有相同意图的历史对话信息。
3.根据权利要求1所述的方法,所述基于所述历史对话信息获取历史上下文信息和历史意图信息,包括:
将所述历史对话信息作为输入,输入至预先训练得到的对话分析模型中,得到与所述历史对话信息对应的历史上下文信息和历史意图信息。
4.根据权利要求1所述的方法,所述利用所述历史上下文信息和历史意图信息改写所述原始问询信息以得到目标问询信息,包括:
对所述原始问询信息进行语法分析;
当确定所述原始问询信息中缺少上下文信息时,将所述历史上下文信息填充至所述原始问询信息中的上下文信息位置,得到目标问询信息;和/或
当确定所述原始问询信息中缺少意图信息时,将所述历史意图信息填充至所述原始问询信息中的意图信息位置,得到目标问询信息。
5.根据权利要求1所述的方法,所述方法还包括:
对所述目标问询信息进行语义评估;
当语义评估结果达到预设要求时,使用所述目标问询信息替换所述原始问询信息。
6.根据权利要求5所述的方法,所述对所述目标问询信息进行语义评估,包括:
获取评估因素,其中,所述评估因素可包括以下因素中的一种或多种:所述目标问询信息中是否存在具有预设语义特征的答复信息、所述目标问询信息中具有预设语义特征的答复信息的数量是否超过第一预设数量阈值、所述目标问询信息中与所述原始问询信息主题一致的对话信息的数量是否低于第二预设数量阈值、所述目标问询信息中是否存在语法错误;
基于所述评估因素对于所述目标问询信息进行加权评分,得到语义评估结果。
7.根据权利要求5所述的方法,所述对所述目标问询信息进行语义评估,包括:
提取所述目标问询信息的预设特征,其中,所述预设特征包括以下特征中的一种或多种:所述目标问询信息中具有预设语义特征的答复语句、所述目标问询信息中具有预设语义特征的答复信息的数量、所述目标问询信息中与所述原始问询信息主题一致的对话信息的数量、所述目标问询信息的语法成分;
将所述目标问询信息及其预设特征作为输入,输入至预先训练得到的语义评估模型中,得到与所述目标问询信息对应的语义评估结果。
8.根据权利要求1-7任一所述的方法,还包括:
从一终端的交互界面获取原始问询信息;和
输出所述应答信息到终端以在所述交互界面展示所述应答信息。
9.根据权利要求8所述的方法,所述应答信息为文字信息或声音信息;
所述在所述交互界面展示所述应答信息,包括:
在所述交互界面显示所述应答文字信息,或者,
将所述应答信息转换为应答语音信息,并在所述交互界面播放所述应答语音信息。
10.一种问询语句改写装置,包括:
对话获取模块,被配置为获取与原始问询信息相关的历史对话信息;
上下文意图获取模块,被配置为基于所述历史对话信息获取历史上下文信息和历史意图信息;
问询信息改写模块,被配置为利用所述历史上下文信息和历史意图信息改写所述原始问询信息以得到目标问询信息;
应答信息生成模块,被配置为基于目标问询信息生成对应于原始问询信息的应答信息。
11.根据权利要求10所述的装置,所述对话获取模块中获取与原始问询信息相关的历史对话信息的部分,被配置为:
对所述原始问询信息进行意图分析,得到所述原始问询信息的意图;
获取具有相同意图的历史对话信息。
12.根据权利要求10所述的装置,所述上下文意图获取模块中基于所述历史对话信息获取历史上下文信息和历史意图信息的部分,被配置为:
将所述历史对话信息作为输入,输入至预先训练得到的对话分析模型中,得到与所述历史对话信息对应的历史上下文信息和历史意图信息。
13.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-9任一项所述的方法步骤。
14.一种计算机程序产品,包括计算机程序/指令,其中,该计算机程序/指令被处理器执行时实现权利要求1-9任一项所述的方法步骤。
CN202110825658.6A 2021-07-21 2021-07-21 问询语句改写方法及装置 Pending CN113673256A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110825658.6A CN113673256A (zh) 2021-07-21 2021-07-21 问询语句改写方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110825658.6A CN113673256A (zh) 2021-07-21 2021-07-21 问询语句改写方法及装置

Publications (1)

Publication Number Publication Date
CN113673256A true CN113673256A (zh) 2021-11-19

Family

ID=78539722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110825658.6A Pending CN113673256A (zh) 2021-07-21 2021-07-21 问询语句改写方法及装置

Country Status (1)

Country Link
CN (1) CN113673256A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547274A (zh) * 2022-04-26 2022-05-27 阿里巴巴达摩院(杭州)科技有限公司 多轮问答的方法、装置及设备
CN116187346A (zh) * 2023-05-05 2023-05-30 世优(北京)科技有限公司 人机交互方法、装置、系统及介质
CN116821309A (zh) * 2023-08-28 2023-09-29 北京珊瑚礁科技有限公司 一种基于大语言模型的上下文构造方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193978A (zh) * 2017-05-26 2017-09-22 武汉泰迪智慧科技有限公司 一种基于深度学习的多轮自动聊天对话方法及系统
CN110020007A (zh) * 2017-09-15 2019-07-16 上海挖数互联网科技有限公司 机器人交互控制方法及装置、存储介质、服务器
CN111459978A (zh) * 2020-03-20 2020-07-28 平安国际智慧城市科技股份有限公司 查询方法、装置、计算机设备和存储介质
CN112100349A (zh) * 2020-09-03 2020-12-18 深圳数联天下智能科技有限公司 一种多轮对话方法、装置、电子设备及存储介质
CN112256825A (zh) * 2020-10-19 2021-01-22 平安科技(深圳)有限公司 医疗领域多轮对话智能问答方法、装置和计算机设备
CN112308573A (zh) * 2020-10-29 2021-02-02 平安普惠企业管理有限公司 智能客服方法及装置、存储介质、计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193978A (zh) * 2017-05-26 2017-09-22 武汉泰迪智慧科技有限公司 一种基于深度学习的多轮自动聊天对话方法及系统
CN110020007A (zh) * 2017-09-15 2019-07-16 上海挖数互联网科技有限公司 机器人交互控制方法及装置、存储介质、服务器
CN111459978A (zh) * 2020-03-20 2020-07-28 平安国际智慧城市科技股份有限公司 查询方法、装置、计算机设备和存储介质
CN112100349A (zh) * 2020-09-03 2020-12-18 深圳数联天下智能科技有限公司 一种多轮对话方法、装置、电子设备及存储介质
CN112256825A (zh) * 2020-10-19 2021-01-22 平安科技(深圳)有限公司 医疗领域多轮对话智能问答方法、装置和计算机设备
CN112308573A (zh) * 2020-10-29 2021-02-02 平安普惠企业管理有限公司 智能客服方法及装置、存储介质、计算机设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547274A (zh) * 2022-04-26 2022-05-27 阿里巴巴达摩院(杭州)科技有限公司 多轮问答的方法、装置及设备
CN116187346A (zh) * 2023-05-05 2023-05-30 世优(北京)科技有限公司 人机交互方法、装置、系统及介质
CN116821309A (zh) * 2023-08-28 2023-09-29 北京珊瑚礁科技有限公司 一种基于大语言模型的上下文构造方法
CN116821309B (zh) * 2023-08-28 2023-11-17 北京珊瑚礁科技有限公司 一种基于大语言模型的上下文构造方法

Similar Documents

Publication Publication Date Title
WO2018224034A1 (zh) 智能问答方法、服务器、终端及存储介质
US11599729B2 (en) Method and apparatus for intelligent automated chatting
CN107992543B (zh) 问答交互方法和装置、计算机设备及计算机可读存储介质
CN109582767B (zh) 对话系统处理方法、装置、设备及可读存储介质
CN113673256A (zh) 问询语句改写方法及装置
CN105408891B (zh) 用于多用户多语言通信的系统和方法
US10878191B2 (en) Iterative ontology discovery
WO2019217722A1 (en) Constructing imaginary discourse trees to improve answering convergent questions
Aleedy et al. Generating and analyzing chatbot responses using natural language processing
CN112507700A (zh) 事件抽取方法、装置、电子设备及存储介质
CN108710647B (zh) 一种用于聊天机器人的数据处理方法及装置
CN111666380A (zh) 一种智能呼叫方法、装置、设备和介质
CN109543165B (zh) 基于循环卷积注意力模型的文本生成方法及装置
CN115309877B (zh) 对话生成方法、对话模型训练方法及装置
CN110413753B (zh) 问答样本的扩展方法及装置
CN114547274B (zh) 多轮问答的方法、装置及设备
CN110399473B (zh) 为用户问题确定答案的方法和装置
CN112699645B (zh) 语料标注方法、装置及设备
CN114691831A (zh) 一种基于知识图谱的任务型汽车故障智能问答系统
CN113641805A (zh) 结构化问答模型的获取方法、问答方法及对应装置
CN114338586A (zh) 一种消息推送方法、装置、电子设备及存储介质
CN113672699A (zh) 基于知识图谱的nl2sql生成方法
CN116775815B (zh) 对话数据的处理方法、装置、电子设备及存储介质
CN116186771A (zh) 应用于人工智能生成内容的文本处理方法、装置及介质
CN109683727A (zh) 一种数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240206

Address after: Room 553, 5th Floor, Building 3, No. 969 Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province, 311121

Applicant after: Hangzhou Alibaba Cloud Feitian Information Technology Co.,Ltd.

Country or region after: China

Address before: 310023 Room 516, floor 5, building 3, No. 969, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Applicant before: Alibaba Dharma Institute (Hangzhou) Technology Co.,Ltd.

Country or region before: China

TA01 Transfer of patent application right