CN108984666B - 数据处理方法、数据处理装置和服务器 - Google Patents

数据处理方法、数据处理装置和服务器 Download PDF

Info

Publication number
CN108984666B
CN108984666B CN201810697029.8A CN201810697029A CN108984666B CN 108984666 B CN108984666 B CN 108984666B CN 201810697029 A CN201810697029 A CN 201810697029A CN 108984666 B CN108984666 B CN 108984666B
Authority
CN
China
Prior art keywords
word set
information
node
word
user intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810697029.8A
Other languages
English (en)
Other versions
CN108984666A (zh
Inventor
魏讲文
杨明晖
石秋慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810697029.8A priority Critical patent/CN108984666B/zh
Publication of CN108984666A publication Critical patent/CN108984666A/zh
Application granted granted Critical
Publication of CN108984666B publication Critical patent/CN108984666B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本说明书实施例提供一种数据处理方法、数据处理装置和服务器。所述方法包括:提供多个提问信息对应的多个主干词集合;所述主干词集合包括至少一个主干词;将所述多个提问信息划分为至少一个提问信息集合;在所述提问信息集合中提问信息对应的主干词集合表征相同的用户意图;根据所述至少一个提问信息集合,构建用户意图树;所述用户意图树包括至少一个叶子节点和至少一个根节点;所述根节点和所述叶子节点对应有主干词集合。

Description

数据处理方法、数据处理装置和服务器
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种数据处理方法、数据处理装置和服务器。
背景技术
随着人工智能技术的不断发展,智能对话工具得到了广泛应用。所述智能对话工具可以是一种能够与用户进行即时交互的计算机程序,其可以接收用户的提问信息,并可以展示与所述提问信息相对应的解决方案。
智能对话工具可以对应有服务器。在相关技术中,为了能够展示与用户的提问信息相对应的解决方案,所述服务器可以配置有至少一个用户意图-解决方案对(又称为知识点),每个知识点可以包括用户意图和与该用户意图相对应的解决方案。用户可以在所述智能对话工具输入提问信息。所述智能对话工具可以接收并向所述服务器发送提问信息。所述服务器可以接收提问信息;可以根据所述提问信息所体现的用户意图和所述至少一个知识点,获取对应的解决方案;可以向所述智能对话工具反馈获取的解决方案。所述智能对话工具可以接收并展示解决方案。
上述相关技术中,各个知识点是相互独立的,因而各个知识点中的用户意图也是相互独立的。这样在一些情况下所述服务器有可能无法获取到准确的解决方案,从而影响用户体验。
发明内容
本说明书实施例的目的是提供一种数据处理方法、数据处理装置和服务器,以提高用户体验。
为实现上述目的,本说明书实施例提供一种数据处理方法,包括:确定多个提问信息对应的多个初始词集合和多个补充词集合;所述初始词集合包括至少一个主干词;所述补充词集合包括至少一个补充词;根据每个提问信息对应的初始词集合和补充词集合,为该提问信息构建至少一个候选词集合;所述候选词集合包括至少一个主干词;计算每个候选词集合对应的特征值;根据特征值,从每个提问信息对应的至少一个候选词集合中选取主干词集合。
为实现上述目的,本说明书实施例提供一种数据处理装置,包括:确定单元,用于确定多个提问信息对应的多个初始词集合和多个补充词集合;所述初始词集合包括至少一个主干词;所述补充词集合包括至少一个补充词;构建单元,用于根据每个提问信息对应的初始词集合和补充词集合,为该提问信息构建至少一个候选词集合;所述候选词集合包括至少一个主干词;计算单元,用于计算每个候选词集合对应的特征值;选取单元,用于根据特征值,从每个提问信息对应的至少一个候选词集合中选取主干词集合。
为实现上述目的,本说明书实施例提供一种服务器,包括:存储器,用于存储计算机指令;处理器,用于执行所述计算机指令实现以下步骤:确定多个提问信息对应的多个初始词集合和多个补充词集合;所述初始词集合包括至少一个主干词;所述补充词集合包括至少一个补充词;根据每个提问信息对应的初始词集合和补充词集合,为该提问信息构建至少一个候选词集合;所述候选词集合包括至少一个主干词;计算每个候选词集合对应的特征值;根据特征值,从每个提问信息对应的至少一个候选词集合中选取主干词集合。
为实现上述目的,本说明书实施例提供一种数据处理方法,包括:提供多个提问信息对应的多个主干词集合;所述主干词集合包括至少一个主干词;将所述多个提问信息划分为至少一个提问信息集合;在所述提问信息集合中提问信息对应的主干词集合表征相同的用户意图;根据所述至少一个提问信息集合,构建用户意图树;所述用户意图树包括至少一个叶子节点和至少一个根节点;所述根节点和所述叶子节点对应有主干词集合。
为实现上述目的,本说明书实施例提供一种数据处理装置,包括:提供单元,用于提供多个提问信息对应的多个主干词集合;所述主干词集合包括至少一个主干词、且能够表征用户意图;划分单元,用于将所述多个提问信息划分为至少一个提问信息集合;在所述提问信息集合中提问信息对应的主干词集合表征相同的用户意图;构建单元,用于根据所述至少一个提问信息集合,构建用户意图树;所述用户意图树包括至少一个叶子节点和至少一个根节点;所述根节点和所述叶子节点对应有主干词集合。
为实现上述目的,本说明书实施例提供一种服务器,包括:存储器,用于存储计算机指令;处理器,用于执行所述计算机指令实现以下步骤:提供多个提问信息对应的多个主干词集合;所述主干词集合包括至少一个主干词、且能够表征用户意图;将所述多个提问信息划分为至少一个提问信息集合;在所述提问信息集合中提问信息对应的主干词集合表征相同的用户意图;根据所述至少一个提问信息集合,构建用户意图树;所述用户意图树包括至少一个叶子节点和至少一个根节点;所述根节点和所述叶子节点对应有主干词集合。
为实现上述目的,本说明书实施例提供一种数据处理方法,包括:提供用户意图树;所述用户意图树包括至少一个叶子节点和至少一个根节点;所述根节点对应有主干词集合;所述叶子节点对应有主干词集合和解决方案;接收来自用户的提问信息;从所述用户意图树中选取第一目标节点;所述第一目标节点对应的主干词集合能够表征所述提问信息体现的用户意图;在所述第一目标节点对应有解决方案时,反馈所述第一目标节点对应的解决方案。
为实现上述目的,本说明书实施例提供一种数据处理装置,包括:提供单元,用于提供用户意图树;所述用户意图树包括至少一个叶子节点和至少一个根节点;所述根节点对应有主干词集合;所述叶子节点对应有主干词集合和解决方案;接收单元,用于接收来自用户的提问信息;选取单元,用于从所述用户意图树中选取第一目标节点;所述第一目标节点对应的主干词集合能够表征所述提问信息体现的用户意图;反馈单元,用于在所述第一目标节点对应有解决方案时,反馈所述第一目标节点对应的解决方案。
为实现上述目的,本说明书实施例提供一种服务器,包括:存储器,用于存储计算机指令;处理器,用于执行所述计算机指令实现以下步骤:提供用户意图树;所述用户意图树包括至少一个叶子节点和至少一个根节点;所述根节点对应有主干词集合;所述叶子节点对应有主干词集合和解决方案;接收来自用户的提问信息;从所述用户意图树中选取第一目标节点;所述第一目标节点对应的主干词集合能够表征所述提问信息体现的用户意图;在所述第一目标节点对应有解决方案时,反馈所述第一目标节点对应的解决方案。
由以上本说明书实施例提供的技术方案可见,本说明书实施例中,服务器可以提供多个提问信息对应的多个主干词集合;可以将所述多个提问信息划分为至少一个提问信息集合;可以根据所述至少一个提问信息集合,构建用户意图树。这样所述服务器可以通过树结构来组织用户意图,使得用户意图树中各个主干词集合表征的用户意图之间具有逻辑上的关联关系;从而便于根据用户提问信息及其上下文共同体现的用户意图来获取解决方案,提高了获取的解决方案的准确率,进而提高了用户体验。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例一种数据处理方法的流程图;
图2为本说明书实施例一种数据处理方法的流程图;
图3为本说明书实施例一种用户意图树的结构示意图;
图4为本说明书实施例一种数据处理方法的流程图;
图5为本说明书实施例一种数据处理装置的功能结构示意图;
图6为本说明书实施例一种服务器的功能结构示意图;
图7为本说明书实施例一种数据处理装置的功能结构示意图;
图8为本说明书实施例一种数据处理装置的功能结构示意图;
图9a-图9d为本说明书实施例智能对话工具的会话界面示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
上述相关技术中,例如,用户可能在所述智能对话工具首先输入提问信息“余额宝是什么”,继而再次输入提问信息“怎么购买”。这样所述服务器可以根据提问信息“余额宝是什么”所体现的用户意图来获取解决方案;可以根据提问信息“怎么购买”所体现的用户意图来获取解决方案;而无法根据提问信息“余额宝是什么”和提问信息“怎么购买”共同体现的用户意图来获取解决方案,即,无法根据提问信息及其上下文共同体现的用户意图来获取解决方案。
请参阅图1。本说明书实施例提供一种数据处理方法。所述数据处理方法以服务器为执行主体。所述服务器可以为一个服务器,或者,还可以为包括多个服务器的服务器集群。所述数据处理方法可以包括如下步骤。
步骤S10:确定多个提问信息对应的多个初始词集合和多个补充词集合。
在本实施例中,所述提问信息可以为用户输入的以期望得到解决方案的提问语句。所述提问信息能够体现用户意图。所述提问信息例如可以为“花呗怎么开通”、或“花呗怎么关闭”等;提问信息“花呗怎么开通”体现的用户意图可以为怎样来开通花呗;提问信息“花呗怎么关闭”体现的用户意图可以为怎样来关闭花呗。所述服务器可以采用任意方式获取多个提问信息,例如可以从日志数据中提取多个提问信息;或者,还可以接收与所述服务器相对应的应用程序发来的多个提问信息。所述服务器例如可以为支付宝服务器、或京东服务器。那么,与所述服务器相对应的应用程序例如可以为支付宝应用程序、或京东应用程序。
在本实施例中,每个提问信息可以对应有初始词集合。所述初始词集合可以包括至少一个主干词。所述主干词可以包括该提问信息中的谓词和/或疑问词。当然,所述主干词还可以包括其它词语,例如主词等。所述主词可以为在提问信息中被用作主语的词语。受限于初始词集合中主干词的数量,提问信息对应的初始词集合通常无法很好地表征该提问信息所体现的用户意图,为此每个提问信息还可以对应有补充词集合。所述补充词集合可以包括至少一个补充词。所述补充词可以用于补充该提问信息所对应初始词集合中主干词的不足。所述补充词可以包括该提问信息中的实词。需要说明的是,每个提问信息所对应初始词集合中的词语和所对应补充词集合中的词语,可以部分相同,也可以完全不同。
在本实施例中,针对每个提问信息,所述服务器可以对该提问信息进行句法分析;可以从该提问信息中提取主干词,作为该提问信息所对应初始词集合中的主干词;可以从该提问信息中提取实词,作为该提问信息所对应补充词集合中的补充词。所述服务器具体可以从该提问信息中任意提取出一个或多个实词;或者,也可以从该提问信息中提取出全部实词;又或者,还可以从该提问信息中提取出除去主干词以外的实词。此外,所述服务器可以直接从该提问信息中提取主干词和实词。或者,所述服务器也可以对该提问信息进行分词处理,得到至少一个分词;可以从所述至少一个分词中选取主干词和实词。
例如,针对提问信息“花呗怎么开通”,所述服务器可以对该提问信息进行句法分析;可以从该提问信息中提取谓词“开通”和疑问词“怎么”;可以将谓词“开通”和疑问词“怎么”作为该提问信息所对应初始词集合中的主干词;可以从该提问信息中提取除去谓词“开通”和疑问词“怎么”以外的实词“花呗”;可以将实词“花呗”作为该提问信息所对应补充词集合中的补充词。
步骤S12:根据每个提问信息对应的初始词集合和补充词集合,为该提问信息构建至少一个候选词集合。
在本实施例中,针对每个提问信息,所述服务器可以将该提问信息所对应补充词集合中的每个补充词,作为主干词添加至该提问信息对应的初始词集合,得到基于该补充词构建的候选词集合。所述服务器为每个提问信息构建的候选词集合的数量,可以与该提问信息所对应补充词集合中补充词的数量相同。其中,所述候选词集合可以包括至少一个主干词。
例如,提问信息“支付宝的花呗逾期了怎么还款”对应的初始词集合可以为{“怎么”、“还款”},对应的补充词集合可以为{“支付宝”、“花呗”、“逾期”}。那么,所述服务器可以为该提问信息构建候选词集合{“怎么”、“还款”、“支付宝”}、候选词集合{“怎么”、“还款”、“花呗”}、以及候选词集合{“怎么”、“还款”、“逾期”}。
步骤S14:计算每个候选词集合对应的特征值。
在本实施例中,所述特征值可以包括以下至少一种:候选词集合出现的频次;候选词集合的信息熵(Information Entropy);候选词集合的点互信息(Pointwise MutualInformation,PMI)。当然,所述特征值还可以包括其它值,例如候选词集合出现的概率。
在本实施例中,经过前述步骤S12,所述服务器可以得到所述多个提问信息所对应的多个候选词集合。如此,所述服务器可以基于所述多个提问信息所对应的多个候选词集合,计算其中每个候选词集合对应的特征值。
在本实施例的一个实施方式中,鉴于用户意图相同的提问信息会有多种不同的表述方式,这样不同的提问信息对应的候选词集合可能全部相同、全部不同、或部分相同。为此针对每个候选词集合,所述服务器可以统计该候选词集合在所述多个提问信息所对应多个候选词集合中出现的频次;可以将所述频次作为该候选词集合对应的特征值。
例如,所述多个提问信息所对应的多个候选词集合可以包括候选词集合{“怎么”、“还款”、“支付宝”}、候选词集合{“怎么”、“还款”、“支付宝”}、候选词集合{“怎么”、“开通”、“支付宝”}、候选词集合{“怎么”、“还款”、“花呗”}、以及候选词集合{“怎么”、“开通”、“花呗”}。那么,候选词集合{“怎么”、“还款”、“支付宝”}对应的特征值可以为2;候选词集合{“怎么”、“开通”、“支付宝”}对应的特征值可以为1;候选词集合{“怎么”、“还款”、“花呗”}对应的特征值可以为1;候选词集合{“怎么”、“开通”、“花呗”}对应的特征值可以为1。
在本实施例的另一个实施方式中,针对每个候选词集合,所述服务器可以计算该候选词集合的信息熵;可以将所述信息熵作为该候选词集合对应的特征值。所述服务器具体可以使用公式
Figure BDA0001713828600000061
计算该候选词集合的信息熵。其中,n可以表示该候选词集合中主干词的数量;xi可以表示第i个主干词;P(xi)可以表示主干词xi在所述多个提问信息所对应多个候选词集合中出现的概率;log的底例如可以为2、e、或10等;H可以表示该候选词集合的信息熵,具体可以用于表征该候选词集合的不确定性。当然,本领域技术人员应当能够理解,上述信息熵计算公式仅为示例,在实际中还可以使用其它公式来计算信息熵。
例如,所述多个提问信息所对应的多个候选词集合可以包括候选词集合{“怎么”、“还款”、“支付宝”}、候选词集合{“怎么”、“还款”、“支付宝”}、候选词集合{“怎么”、“开通”、“支付宝”}、候选词集合{“怎么”、“还款”、“花呗”}、以及候选词集合{“怎么”、“开通”、“花呗”}。那么,候选词集合{“怎么”、“还款”、“支付宝”}对应的特征值可以为
Figure BDA0001713828600000062
候选词集合{“怎么”、“开通”、“支付宝”}对应的特征值可以为0.416;候选词集合{“怎么”、“还款”、“花呗”}对应的特征值可以为0.416;候选词集合{“怎么”、“开通”、“花呗”}对应的特征值可以为0.391。
在本实施例的另一个实施方式中,针对每个候选词集合,所述服务器可以计算该候选词集合的点互信息;可以将所述点互信息作为该候选词集合对应的特征值。所述服务器具体可以使用公式
Figure BDA0001713828600000071
计算该候选词集合的点互信息。其中,X可以表示用于构建该候选词集合的初始词集合;Y可以表示用于构建该候选词集合的补充词;P(X)可以表示初始词集合X中的主干词在所述多个提问信息所对应多个候选词集合中同时出现的概率;P(Y)可以表示补充词Y在所述多个提问信息所对应多个候选词集合中出现的概率;P(X,Y)可以表示初始词集合X中的主干词、和补充词Y在所述多个提问信息所对应多个候选词集合中同时出现的概率;log的底例如可以为2、e、或10等;PMI可以表示该候选词集合的点互信息,具体可以用于表征初始词集合X和补充词Y的共现度。当然,本领域技术人员应当能够理解,上述点互信息计算公式仅为示例,在实际中还可以使用其它公式来计算点互信息。
例如,所述多个提问信息所对应的多个候选词集合可以包括候选词集合{“怎么”、“还款”、“支付宝”}、候选词集合{“怎么”、“还款”、“支付宝”}、候选词集合{“怎么”、“开通”、“支付宝”}、候选词集合{“怎么”、“还款”、“花呗”}、以及候选词集合{“怎么”、“开通”、“花呗”}。其中,候选词集合{“怎么”、“还款”、“支付宝”}可以是基于初始词集合{“怎么”、“还款”}和补充词“支付宝”构建的;候选词集合{“怎么”、“开通”、“支付宝”}可以是基于初始词集合{“怎么”、“开通”}和补充词“支付宝”构建的;候选词集合{“怎么”、“还款”、“花呗”}可以是基于初始词集合{“怎么”、“还款”}和补充词“花呗”构建的;候选词集合{“怎么”、“开通”、“花呗”}可以是基于初始词集合{“怎么”、“开通”}和补充词“花呗”构建的。那么,候选词集合{“怎么”、“还款”、“支付宝”}对应的特征值可以为
Figure BDA0001713828600000072
候选词集合{“怎么”、“开通”、“支付宝”}对应的特征值可以为0.398;候选词集合{“怎么”、“还款”、“花呗”}对应的特征值可以为0.398;候选词集合{“怎么”、“开通”、“花呗”}对应的特征值可以为0.574。
步骤S16:根据特征值,从每个提问信息对应的至少一个候选词集合中选取主干词集合。
在本实施例中,所述服务器可以根据特征值,从每个提问信息对应的至少一个候选词集合中,选取一个或多个候选词集合;可以将选取的候选词集合作为该提问信息对应的主干词集合;所述主干词集合能够表征该提问信息所体现的用户意图。根据特征值种类的不同,所述服务器选取主干词集合的过程可以相同或不同。此外,根据特征值种类的不同,所述服务器从每个提问信息对应的至少一个候选词集合中选取的主干词集合可以相同,也可以不同。
在本实施例的一个实施方式中,所述特征值可以包括候选词集合出现的频次。如此,所述服务器可以从每个提问信息对应的至少一个候选词集合中,选取出现频次最大的一个或多个候选词集合;可以将选取的候选词集合作为该提问信息对应的主干词集合。或者,所述服务器可以从每个提问信息对应的至少一个候选词集合中,选取出现频次大于或等于第一预设阈值的候选词集合;可以将选取的候选词集合作为该提问信息对应的主干词集合。所述第一预设阈值的大小可以根据实际需要灵活设定。
在本实施例的一个实施方式中,所述特征值可以包括候选词集合的信息熵。如此,所述服务器可以从每个提问信息对应的至少一个候选词集合中,选取信息熵最小的一个或多个候选词集合;可以将选取的候选词集合作为该提问信息对应的主干词集合。或者,所述服务器可以从每个提问信息对应的至少一个候选词集合中,选取信息熵小于或等于第二预设阈值的候选词集合;可以将选取的候选词集合作为该提问信息对应的主干词集合。所述第二预设阈值的大小可以根据实际需要灵活设定。
在本实施例的一个实施方式中,所述特征值可以包括候选词集合的点互信息。如此,所述服务器可以从每个提问信息对应的至少一个候选词集合中,选取点互信息最大的一个或多个候选词集合;可以将选取的候选词集合作为该提问信息对应的主干词集合。或者,所述服务器可以从每个提问信息对应的至少一个候选词集合中,选取点互信息大于或等于第三预设阈值的候选词集合;可以将选取的候选词集合作为该提问信息对应的主干词集合。所述第三预设阈值的大小可以根据实际需要灵活设定。
在本实施例的一个实施方式中,为了使得主干词集合能够更好地表征提问信息所体现的用户意图,所述服务器还可以以每个提问信息对应的主干词集合作为新的初始词集合;可以重复执行步骤S12、步骤S14、步骤S16、和步骤以每个提问信息对应的主干词集合作为新的初始词集合,直至满足迭代终止条件。所述迭代终止条件可以包括以下至少一种:迭代次数达到第四预设阈值;每个提问信息在当前迭代过程中得到的主干词集合,和在上一次迭代过程中得到的主干词集合相同。所述第四预设阈值可以根据实际需要灵活设定。
在本实施方式中,在每次迭代过程中,所述服务器可以根据每个提问信息对应的新的初始词集合,为该提问信息构建至少一个新的候选词集合。具体地,所述服务器可以直接根据每个提问信息对应的补充词集合和所述新的初始词集合,为该提问信息构建至少一个新的候选词集合。或者,所述服务器还可以根据每个提问信息对应的补充词集合和所述新的初始词集合,构建子补充词集合;可以根据所述子补充集合和所述新的初始词集合,为该提问信息构建至少一个新的候选词集合。所述子补充词集合可以为所述补充词集合中除去共有词语以外的词语形成的集合。所述共有词语可以为所述补充词集合和所述新的初始词集合之间共有的词语。
例如,提问信息“支付宝的花呗逾期了怎么还款”对应的初始词集合可以为{“怎么”、“还款”},对应的补充词集合可以为{“支付宝”、“花呗”、“逾期”}。所述服务器可以为该提问信息构建候选词集合{“怎么”、“还款”、“支付宝”}、候选词集合{“怎么”、“还款”、“花呗”}、以及候选词集合{“怎么”、“还款”、“逾期”}。
所述服务器可以分别计算候选词集合{“怎么”、“还款”、“支付宝”}对应的特征值、候选词集合{“怎么”、“还款”、“花呗”}对应的特征值、以及候选词集合{“怎么”、“还款”、“逾期”}对应的特征值;可以根据特征值,选取候选词集合{“怎么”、“还款”、“逾期”}作为该提问信息对应的主干词集合。
为了使得选取的主干词集合能够更好地表征该提问信息所体现的用户意图,所述服务器可以将主干词集合{“怎么”、“还款”、“逾期”}作为新的初始词集合;可以基于所述新的初始词集合和所述补充词集合,为该提问信息构建新的候选词集合{“怎么”、“还款”、“逾期”、“花呗”}、以及新的候选词集合{“怎么”、“还款”、“逾期”、“支付宝”}。
所述服务器可以分别计算新的候选词集合{“怎么”、“还款”、“逾期”、“花呗”}对应的特征值、以及新的候选词集合{“怎么”、“还款”、“逾期”、“支付宝”}对应的特征值;可以根据特征值,选取新的候选词集合{“怎么”、“还款”、“逾期”、“花呗”}作为该提问信息对应的主干词集合。
在本实施例中,所述服务器可以确定多个提问信息对应的多个初始词集合和多个补充词集合;可以根据每个提问信息对应的初始词集合和补充词集合,为该提问信息构建至少一个候选词集合;可以计算每个候选词集合对应的特征值;可以根据特征值,从每个提问信息对应的至少一个候选词集合中选取主干词集合。这样,所述服务器可以确定出用于表征用户意图的主干词集合,使得表述方式不同但用户意图相同的提问信息能够对应相同的主干词集合。避免了在相关技术中,考虑到用户意图相同的提问信息会有多种不同的表述方式,需要为每个用户意图人工枚举大量的提问信息以获得用于表征该用户意图的词语。
请参阅图2和图3。本说明书实施例还提供另一种数据处理方法。所述数据处理方法以服务器为执行主体。所述服务器可以为一个服务器,或者,还可以为包括多个服务器的服务器集群。所述数据处理方法可以包括如下步骤。
步骤S20:提供多个提问信息对应的多个主干词集合。
在本实施例中,所述主干词集合可以包括至少一个主干词。每个提问信息可以对应一个或多个主干词集合,所述一个或多个主干词集合能够表征该提问信息所体现的用户意图。所述服务器可以采用任意方式获取多个提问信息;可以确定所述多个提问信息对应的多个主干词集合。所述服务器确定主干词集合的过程可以参见前述实施例,在此不再赘述。
步骤S22:将所述多个提问信息划分为至少一个提问信息集合。
在本实施例中,每个提问信息集合可以包括至少一个提问信息。在每个提问信息集合中提问信息对应的主干词集合可以表征相同的用户意图。例如,在每个提问信息集合中提问信息对应的主干词集合可以具有相同的主干词。
在本实施例中,所述服务器可以根据主干词集合,将所述多个提问信息划分为至少一个提问信息集合。具体地,如前所述,所述多个提问信息可以对应多个主干词集合。如此,所述服务器可以获取表征相同用户意图的主干词集合;可以将获取的主干词集合所对应的提问信息,聚合为一个提问信息集合;从而实现将所述多个提问信息划分为至少一个提问信息集合。所述服务器可以获取具有相同主干词的主干词集合;可以将获取的主干词集合所对应的提问信息,聚合为一个提问信息集合。或者,考虑到语义相同的主干词会有多种不同的表述方式,所述服务器可以对主干词集合中的主干词进行归一化处理;可以获取归一化处理后具有相同主干词的主干词集合;可以将获取的主干词集合所对应的提问信息,聚合为一个提问信息集合。例如,主干词“账户”、“帐号”、和“帐户”的语义相同,所述服务器可以将主干词“账户”、“帐号”、和“帐户”归一化处理为“账户”。
步骤S24:根据所述至少一个提问信息集合,构建用户意图树。
在本实施例中,所述用户意图树可以包括至少一个叶子节点和至少一个根节点。
每个根节点可以对应有主干词集合,该主干词集合表征的用户意图可以作为该根节点对应的用户意图。每个根节点可以具有节点名称以便于区分不同的节点。例如某一根节点对应的主干词集合可以包括主干词“花呗”,该根节点的名称可以为“A”,该根节点对应的用户意图可以为有关花呗的问题。
每个叶子节点可以对应有主干词集合,该主干词集合表征的用户意图可以作为该叶子节点对应的用户意图。每个叶子节点可以具有节点名称以便于区分不同的节点。例如某一叶子节点对应的主干词集合可以包括主干词“花呗”、“怎么”、“开通”,该叶子节点的名称可以为“A11”,该叶子节点对应的用户意图可以为怎样来开通花呗。
每个根节点可以从属有至少一个叶子节点,该根节点对应的用户意图可以为该至少一个叶子节点所对应用户意图的上位,从而所述用户意图树可以形成层级化的用户意图表达。例如,某一根节点A可以从属有叶子节点A11和A12,根节点A对应的用户意图可以为有关“花呗”的问题,叶子节点A11对应的用户意图可以为怎样来开通花呗,叶子节点A12对应的用户意图可以为花呗无法开通。
在本实施例中,所述用户意图树可以仅包括根节点和叶子节点,从而所述用户意图树可以形成具有二个层级的用户意图表达。当然,所述用户意图树还可以包括至少一个其它节点,所述其它节点可以对应有主干词集合,从而所述用户意图树可以形成具有其它数量个层级的用户意图表达。例如,所述用户意图树还可以包括至少一个一级中间节点;每个根节点可以从属有至少一个一级中间节点;每个一级中间节点可以从属有至少一个叶子节点;从而所述用户意图树可以形成具有三个层级的用户意图表达。另举一例,所述用户意图树还可以包括至少一个一级中间节点和至少一个二级中间节点;每个根节点可以从属有至少一个一级中间节点;每个一级中间节点可以从属有至少一个二级叶子节点;每个二级中间节点可以从属有至少一个叶子节点;从而所述用户意图树可以形成具有四个层级的用户意图表达。
在本实施例中,所述用户意图树中的节点可以对应有层级。根节点对应的层级可以最小,叶子节点对应的层级可以最大。例如,所述用户意图树可以包括根节点和叶子节点,所述用户意图树可以形成具有二个层级的用户意图表达。那么,所述用户意图树中的根节点对应的层级可以为第一层级,所述用户意图树中的叶子节点对应的层级可以为第二层级。另举一例,所述用户意图树可以包括根节点、一级中间节点和叶子节点,所述用户意图树可以形成具有三个层级的用户意图表达。那么,所述用户意图树中的根节点对应的层级可以为第一层级,所述用户意图树中的一级中间节点对应的层级可以为第二层级,所述用户意图树中的叶子节点对应的层级可以为第三层级。
在本实施例中,每个叶子节点可以还对应有解决方案,该解决方案可以与该叶子节点表征的用户意图相匹配。每个叶子节点对应的解决方案可以是开发人员根据业务需要进行配置的。鉴于主干词集合能够表征用户意图,每个叶子节点对应的解决方案和主干词集合可以形成一个知识点,从而所述用户意图树可以形成知识库。此外,所述用户意图树中的全部根节点均可以对应有解决方案;或者,所述用户意图树中的全部根节点可以均不对应有解决方案;又或者,所述用户意图树中的部分根节点可以对应有解决方案;具体可以根据业务需要灵活设定。在所述用户意图树还包括其它节点的条件下,所述用户意图树中的全部其它节点均可以对应有解决方案;或者,所述用户意图树中的全部其它节点可以均不对应有解决方案;又或者,所述用户意图树中的部分其它节点可以对应有解决方案;具体可以根据业务需要灵活设定。
在本实施例中,所述服务器可以根据所述至少一个提问信息集合,生成至少一个节点;可以根据所述至少一个节点,构建用户意图树。生成的至少一个节点可以包括根节点和叶子节点。当然,生成的至少一个叶子节点还可以包括其它节点,例如一级中间节点等。
具体地,每个叶子节点可以根据一个提问信息集合生成,该叶子节点对应的主干词集合可以选自该提问信息集合中各个提问信息对应的主干词集合。每个根节点可以根据一个提问信息集合生成,或者,也可以根据该根节点所从属的叶子节点生成。例如,所述服务器可以获取从属于该根节点的各个叶子节点;可以获取各个叶子节点所对应主干词集合之间的共有词语;可以将获取的共有词语形成的集合作为该根节点对应的主干词集合;从而实现生成该根节点。此外,在所述用户意图树还包括其它节点的条件下,所述其它节点可以根据一个提问信息集合生成,或者,也可以根据该其它节点所从属的叶子节点生成。
在本实施例中,所述服务器可以提供多个提问信息对应的多个主干词集合;可以将所述多个提问信息划分为至少一个提问信息集合;可以根据所述至少一个提问信息集合,构建用户意图树。所述服务器可以通过树结构来组织用户意图,使得用户意图树中各个主干词集合表征的用户意图之间具有逻辑上的关联关系;从而便于根据用户提问信息及其上下文共同体现的用户意图来获取解决方案,提高了获取的解决方案的准确率,进而提高了用户体验。
请参阅图4、图9a-图9d。本说明书实施例还提供另一种数据处理方法。所述数据处理方法以服务器为执行主体。所述服务器可以为一个服务器,或者,还可以为包括多个服务器的服务器集群。所述数据处理方法可以包括如下步骤。
步骤S30:提供用户意图树。
在本实施例中,关于所述用户意图树的介绍可以参见前述实施例,在此不再赘述。
步骤S32:接收来自用户的提问信息。
在本实施例中,用户可以在客户端输入提问信息,所述客户端可以接收所述提问信息;可以向所述服务器发送所述提问信息。所述服务器可以接收所述提问信息。所述客户端例如可以为移动智能电话、平板电子设备、便携式计算机(例如笔记本电脑等)、个人数字助理(PDA)、桌面型计算机、或带有信息阅读功能的智能穿戴设备等。
例如,所述客户端可以运行有智能对话工具。所述智能对话工具可以是一种能够与用户进行即时交互的计算机程序,其可以接收用户的提问信息,并可以展示与所述提问信息相对应的解决方案。所述智能对话工具例如可以为智能客服、微软公司的小冰、百度公司的度秘、京东公司的JIMI、助理来也、或苹果公司的Siri等。具体地,所述智能对话工具可以提供有会话界面。用户可以在所述会话界面输入提问信息。
步骤S34:从所述用户意图树中选取第一目标节点。
在本实施例中,所述第一目标节点可以为所述用户意图树中的根节点、或叶子节点。当然,所述第一目标节点还可以为所述用户意图树中的其它节点,例如一级中间节点、或二级中间节点等。所述第一目标节点可以对应有主干词集合,所述主干词集合可以包括至少一个主干词。所述第一目标节点对应的主干词集合能够表征所述提问信息所体现的用户意图。具体地,所述第一目标节点所对应主干词集合中的主干词可以被包含于所述提问信息。
在本实施例中,所述服务器可以从所述用户意图树中选取至少一个候选节点,所述候选节点所对应主干词集合中的主干词被包含于所述提问信息;可以从所述至少一个候选节点中选取层级最大的候选节点作为第一目标节点。
步骤S36:在所述第一目标节点对应有解决方案时,反馈所述第一目标节点对应的解决方案。
在本实施例中,在所述第一目标节点对应有解决方案时,所述服务器可以向所述客户端反馈所述第一目标节点对应的解决方案。所述客户端可以接收并展示所述第一目标节点对应的解决方案。具体地,如前所述,所述客户端可以运行有智能对话工具,所述智能对话工具可以提供有会话界面。如此,所述客户端可以在所述会话界面展示所述第一目标节点对应的解决方案。
在本实施例的一个实施方式中,在所述第一目标节点没有对应解决方案时,所述服务器可以向所述客户端反馈指引信息。所述指引信息的语义可以与所述提问信息的语义相关联。所述客户端可以接收所述指引信息;可以向用户展示所述指引信息。用户可以在所述客户端输入针对所述指引信息的答复信息。所述客户端可以接收所述答复信息;可以向所述服务器发送所述答复信息。所述服务器可以接收所述答复信息;可以从所述用户意图树中选取第二目标节点;在所述第二目标节点对应有解决方案时,可以向所述客户端反馈所述第二目标节点对应的解决方案。
所述第二目标节点可以为所述用户意图树中的根节点、或叶子节点。当然,所述第二目标节点还可以为所述用户意图树中的其它节点,例如一级中间节点、或二级中间节点等。所述第二目标节点可以对应有主干词集合。所述第二目标节点对应的主干词集合能够表征所述提问信息和所述答复信息共同体现的用户意图。具体地,所述第二目标节点所对应主干词集合中的主干词可以被包含于所述提问信息和/或所述答复信息。需要说明的是,在所述第二目标节点所对应主干词集合中的一部分主干词被包含于所述提问信息、且另一部分主干词被包含于所述答复信息时,所述服务器便可以认为所述第二目标节点所对应主干词集合中的主干词被包含于所述提问信息和/或所述答复信息。此外,用户在所述客户端输入答复信息的过程,可以参见在所述客户端输入提问信息的过程,在此不再赘述。所述服务器选取第二目标节点的过程,可以参见选取第一目标节点的过程,在此不再赘述。
当然,所述第二目标节点也可能没有对应解决方案。如此,所述服务器可以继续从所述用户意图树中选取第三目标节点。所述服务器选取第三目标节点的过程可以与选取第二目标节点的过程相类似,在此不再赘述。可见在本实施方式中,根据实际需要,所述服务器可以多次从所述用户意图树中选取目标节点。
在本实施例中,所述服务器可以提供用户意图树;可以接收来自用户的提问信息;可以从所述用户意图树中选取第一目标节点;可以在所述第一目标节点对应有解决方案时,反馈所述第一目标节点对应的解决方案。这样所述服务器可以使用用户意图树向用户反馈解决方案,提高了反馈的解决方案的准确性,从而提高了用户体验。
请参阅图5。本说明书实施例提供一种数据处理装置。所述数据处理装置可以包括以下单元。
确定单元40,用于确定多个提问信息对应的多个初始词集合和多个补充词集合;所述初始词集合包括至少一个主干词;所述补充词集合包括至少一个补充词;
构建单元42,用于根据每个提问信息对应的初始词集合和补充词集合,为该提问信息构建至少一个候选词集合;所述候选词集合包括至少一个主干词;
计算单元44,用于计算每个候选词集合对应的特征值;
选取单元46,用于根据特征值,从每个提问信息对应的至少一个候选词集合中选取主干词集合。
请参阅图6。本说明书实施例还提供另一种服务器。所述服务器可以包括存储器和处理器。
在本实施例中,所述存储器包括但不限于动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)和静态随机存取存储器(Static Random Access Memory,SRAM)等。所述存储器可以用于存储计算机指令。
在本实施例中,所述处理器可以按任何适当的方式实现。例如,所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以用于执行所述计算机指令实现以下步骤:确定多个提问信息对应的多个初始词集合和多个补充词集合;所述初始词集合包括至少一个主干词;所述补充词集合包括至少一个补充词;根据每个提问信息对应的初始词集合和补充词集合,为该提问信息构建至少一个候选词集合;所述候选词集合包括至少一个主干词;计算每个候选词集合对应的特征值;根据特征值,从每个提问信息对应的至少一个候选词集合中选取主干词集合。
请参阅图7。本说明书实施例还提供另一种数据处理装置。所述数据处理装置可以包括以下单元。
提供单元50,用于提供多个提问信息对应的多个主干词集合;所述主干词集合包括至少一个主干词;
划分单元52,用于将所述多个提问信息划分为至少一个提问信息集合;在所述提问信息集合中提问信息对应的主干词集合表征相同的用户意图;
构建单元54,用于根据所述至少一个提问信息集合,构建用户意图树;所述用户意图树包括至少一个叶子节点和至少一个根节点;所述根节点和所述叶子节点对应有主干词集合。
请参阅图6。本说明书实施例还提供另一种服务器。所述服务器可以包括存储器和处理器。
在本实施例中,所述存储器包括但不限于动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)和静态随机存取存储器(Static Random Access Memory,SRAM)等。所述存储器可以用于存储计算机指令。
在本实施例中,所述处理器可以按任何适当的方式实现。例如,所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以用于执行所述计算机指令实现以下步骤:提供多个提问信息对应的多个主干词集合;所述主干词集合包括至少一个主干词;将所述多个提问信息划分为至少一个提问信息集合;在所述提问信息集合中提问信息对应的主干词集合表征相同的用户意图;根据所述至少一个提问信息集合,构建用户意图树;所述用户意图树包括至少一个叶子节点和至少一个根节点;所述根节点和所述叶子节点对应有主干词集合。
请参阅图8。本说明书实施例还提供另一种数据处理装置。所述数据处理装置可以包括以下单元。
提供单元60,用于提供用户意图树;所述用户意图树包括至少一个叶子节点和至少一个根节点;所述根节点对应有主干词集合;所述叶子节点对应有主干词集合和解决方案;
接收单元62,用于接收来自用户的提问信息;
选取单元64,用于从所述用户意图树中选取第一目标节点;所述第一目标节点对应的主干词集合能够表征所述提问信息体现的用户意图;
反馈单元66,用于在所述第一目标节点对应有解决方案时,反馈所述第一目标节点对应的解决方案。
请参阅图6。本说明书实施例还提供另一种服务器。所述服务器可以包括存储器和处理器。
在本实施例中,所述存储器包括但不限于动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)和静态随机存取存储器(Static Random Access Memory,SRAM)等。所述存储器可以用于存储计算机指令。
在本实施例中,所述处理器可以按任何适当的方式实现。例如,所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以用于执行所述计算机指令实现以下步骤:提供用户意图树;所述用户意图树包括至少一个叶子节点和至少一个根节点;所述根节点对应有主干词集合;所述叶子节点对应有主干词集合和解决方案;接收来自用户的提问信息;从所述用户意图树中选取第一目标节点;所述第一目标节点对应的主干词集合能够表征所述提问信息体现的用户意图;在所述第一目标节点对应有解决方案时,反馈所述第一目标节点对应的解决方案。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其对于数据处理装置实施例和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
另外,可以理解的是,所属领域技术人员在阅读本说明书文件之后,可以无需创造性劳动想到本说明书文件中列举的部分或全部实施例之间可以组合,这些组合也在本说明书公开和保护的范围内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片2。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims (21)

1.一种数据处理方法,包括:
确定多个提问信息对应的多个初始词集合和多个补充词集合;所述初始词集合包括至少一个主干词;所述补充词集合包括至少一个补充词;所述确定多个提问信息对应的多个初始词集合和多个补充词集合,包括:针对每个提问信息,从该提问信息中提取主干词作为初始词集合中的主干词,从该提问信息中提取实词作为补充词集合中的补充词;
根据每个提问信息对应的初始词集合和补充词集合,为该提问信息构建至少一个候选词集合;所述候选词集合包括至少一个主干词;
计算每个候选词集合对应的特征值;
根据特征值,从每个提问信息对应的至少一个候选词集合中选取主干词集合。
2.如权利要求1所述的方法,所述主干词包括谓词和疑问词中的至少一种;所述补充词包括实词。
3.如权利要求1所述的方法,所述根据每个提问信息对应的初始词集合和补充词集合,为该提问信息构建至少一个候选词集合,包括:
针对每个提问信息,将该提问信息所对应补充词集合中的每个补充词,作为主干词添加至该提问信息对应的初始词集合,得到基于该补充词构建的候选词集合。
4.如权利要求1或3所述的方法,每个提问信息所对应候选词集合的数量,与该提问信息所对应补充词集合中补充词的数量相同。
5.如权利要求1所述的方法,所述特征值包括以下至少一种:
候选词集合出现的频次;
候选词集合的信息熵;
候选词集合的点互信息。
6.如权利要求5所述的方法,所述从每个提问信息对应的至少一个候选词集合中选取主干词集合,包括:
从每个提问信息对应的至少一个候选词集合中,选取出现频次最大的候选词集合,作为该提问信息对应的主干词集合;
或者,从每个提问信息对应的至少一个候选词集合中,选取出现频次大于或等于第一预设阈值的候选词集合,作为该提问信息对应的主干词集合。
7.如权利要求5所述的方法,所述从每个提问信息对应的至少一个候选词集合中选取主干词集合,包括:
从每个提问信息对应的至少一个候选词集合中,选取信息熵最小的候选词集合,作为该提问信息对应的主干词集合;
或者,从每个提问信息对应的至少一个候选词集合中,选取信息熵小于或等于第二预设阈值的候选词集合,作为该提问信息对应的主干词集合。
8.如权利要求5所述的方法,所述从每个提问信息对应的至少一个候选词集合中选取主干词集合,包括:
从每个提问信息对应的至少一个候选词集合中,选取点互信息最大的候选词集合,作为该提问信息对应的主干词集合;
或者,从每个提问信息对应的至少一个候选词集合中,选取点互信息大于或等于第三预设阈值的候选词集合,作为该提问信息对应的主干词集合。
9.如权利要求1所述的方法,所述主干词集合能够表征提问信息所体现的用户意图。
10.如权利要求1所述的方法,所述方法还包括:
以每个提问信息对应的主干词集合作为新的初始词集合,重复执行构建候选词集合的步骤、计算特征值的步骤、选取主干词集合的步骤、以及以每个提问信息对应的主干词集合作为新的初始词集合的步骤,直至满足迭代终止条件。
11.一种数据处理装置,包括:
确定单元,用于确定多个提问信息对应的多个初始词集合和多个补充词集合;所述初始词集合包括至少一个主干词;所述补充词集合包括至少一个补充词;所述确定多个提问信息对应的多个初始词集合和多个补充词集合,包括:针对每个提问信息,从该提问信息中提取主干词作为初始词集合中的主干词,从该提问信息中提取实词作为补充词集合中的补充词;
构建单元,用于根据每个提问信息对应的初始词集合和补充词集合,为该提问信息构建至少一个候选词集合;所述候选词集合包括至少一个主干词;
计算单元,用于计算每个候选词集合对应的特征值;
选取单元,用于根据特征值,从每个提问信息对应的至少一个候选词集合中选取主干词集合。
12.一种服务器,包括:
存储器,用于存储计算机指令;
处理器,用于执行所述计算机指令实现以下步骤:确定多个提问信息对应的多个初始词集合和多个补充词集合;所述初始词集合包括至少一个主干词;所述补充词集合包括至少一个补充词;所述确定多个提问信息对应的多个初始词集合和多个补充词集合,包括:针对每个提问信息,从该提问信息中提取主干词作为初始词集合中的主干词,从该提问信息中提取实词作为补充词集合中的补充词;根据每个提问信息对应的初始词集合和补充词集合,为该提问信息构建至少一个候选词集合;所述候选词集合包括至少一个主干词;计算每个候选词集合对应的特征值;根据特征值,从每个提问信息对应的至少一个候选词集合中选取主干词集合。
13.一种数据处理方法,包括:
确定多个提问信息对应的多个初始词集合和多个补充词集合;所述初始词集合包括至少一个主干词;所述补充词集合包括至少一个补充词;
根据每个提问信息对应的初始词集合和补充词集合,为该提问信息构建至少一个候选词集合;所述候选词集合包括至少一个主干词;
计算每个候选词集合对应的特征值;
根据特征值,从每个提问信息对应的至少一个候选词集合中选取主干词集合,所述主干词集合用于表示提问信息的用户意图;
将所述多个提问信息划分为至少一个提问信息集合;在所述提问信息集合中提问信息对应的主干词集合表征相同的用户意图;
根据所述至少一个提问信息集合,构建用户意图树;所述用户意图树包括至少一个叶子节点和至少一个根节点;所述根节点和所述叶子节点对应有主干词集合;所述用户意图树用于形成具有层级的用户意图表达,层级低的节点所对应的用户意图为层级高的节点所对应的用户意图的上位,节点对应的用户意图由节点对应的主干词集合所表征。
14.如权利要求13所述的方法,所述叶子节点还对应有解决方案。
15.一种数据处理装置,包括:
确定单元,用于确定多个提问信息对应的多个初始词集合和多个补充词集合;所述初始词集合包括至少一个主干词;所述补充词集合包括至少一个补充词;
构建单元,用于根据每个提问信息对应的初始词集合和补充词集合,为该提问信息构建至少一个候选词集合;所述候选词集合包括至少一个主干词;
计算单元,用于计算每个候选词集合对应的特征值;
选取单元,用于根据特征值,从每个提问信息对应的至少一个候选词集合中选取主干词集合,所述主干词集合用于表示提问信息的用户意图;
划分单元,用于将所述多个提问信息划分为至少一个提问信息集合;在所述提问信息集合中提问信息对应的主干词集合表征相同的用户意图;
构建单元,用于根据所述至少一个提问信息集合,构建用户意图树;所述用户意图树包括至少一个叶子节点和至少一个根节点;所述根节点和所述叶子节点对应有主干词集合;所述用户意图树用于形成具有层级的用户意图表达,层级低的节点所对应的用户意图为层级高的节点所对应的用户意图的上位,节点对应的用户意图由节点对应的主干词集合所表征。
16.一种服务器,包括:
存储器,用于存储计算机指令;
处理器,用于执行所述计算机指令实现以下步骤:确定多个提问信息对应的多个初始词集合和多个补充词集合;所述初始词集合包括至少一个主干词;所述补充词集合包括至少一个补充词;根据每个提问信息对应的初始词集合和补充词集合,为该提问信息构建至少一个候选词集合;所述候选词集合包括至少一个主干词;计算每个候选词集合对应的特征值;根据特征值,从每个提问信息对应的至少一个候选词集合中选取主干词集合,所述主干词集合用于表示提问信息的用户意图;将所述多个提问信息划分为至少一个提问信息集合;在所述提问信息集合中提问信息对应的主干词集合表征相同的用户意图;根据所述至少一个提问信息集合,构建用户意图树;所述用户意图树包括至少一个叶子节点和至少一个根节点;所述根节点和所述叶子节点对应有主干词集合;所述用户意图树用于形成具有层级的用户意图表达,层级低的节点所对应的用户意图为层级高的节点所对应的用户意图的上位,节点对应的用户意图由节点对应的主干词集合所表征。
17.一种数据处理方法,包括:
提供用户意图树;所述用户意图树包括至少一个叶子节点和至少一个根节点;所述根节点对应有主干词集合;所述叶子节点对应有主干词集合和解决方案;所述用户意图树用于形成具有层级的用户意图表达,层级低的节点所对应的用户意图为层级高的节点所对应的用户意图的上位;节点对应的用户意图由节点对应的主干词集合所表征;
接收来自用户的提问信息;
从所述用户意图树中选取第一目标节点;所述第一目标节点对应的主干词集合能够表征所述提问信息体现的用户意图;所述从所述用户意图树中选取第一目标节点,包括:从用户意图树中选取至少一个候选节点,所述候选节点所对应主干词集合中的主干词被包含于提问信息;从至少一个候选节点中选取层级最大的候选节点作为第一目标节点;
在所述第一目标节点对应有解决方案时,反馈所述第一目标节点对应的解决方案。
18.如权利要求17所述的方法,所述第一目标节点所对应主干词集合中的主干词被包含于所述提问信息。
19.如权利要求17所述的方法,所述方法还包括:
在所述第一目标节点没有对应解决方案时,反馈指引信息;所述指引信息的语义与所述提问信息的语义相关联;
接收来自用户的针对所述指引信息的答复信息;
从所述用户意图树中选取第二目标节点;所述第二目标节点能够表征所述提问信息和所述答复信息共同体现的用户意图;
在所述第二目标节点对应有解决方案时,反馈所述第二目标节点对应的解决方案。
20.一种数据处理装置,包括:
提供单元,用于提供用户意图树;所述用户意图树包括至少一个叶子节点和至少一个根节点;所述根节点对应有主干词集合;所述叶子节点对应有主干词集合和解决方案;所述用户意图树用于形成具有层级的用户意图表达,层级低的节点所对应的用户意图为层级高的节点所对应的用户意图的上位;其中,节点对应的用户意图由节点对应的主干词集合所表征;
接收单元,用于接收来自用户的提问信息;
选取单元,用于从所述用户意图树中选取第一目标节点;所述第一目标节点对应的主干词集合能够表征所述提问信息体现的用户意图;所述从所述用户意图树中选取第一目标节点,包括:从用户意图树中选取至少一个候选节点,所述候选节点所对应主干词集合中的主干词被包含于提问信息;从至少一个候选节点中选取层级最大的候选节点作为第一目标节点;
反馈单元,用于在所述第一目标节点对应有解决方案时,反馈所述第一目标节点对应的解决方案。
21.一种服务器,包括:
存储器,用于存储计算机指令;
处理器,用于执行所述计算机指令实现以下步骤:提供用户意图树;所述用户意图树包括至少一个叶子节点和至少一个根节点;所述根节点对应有主干词集合;所述叶子节点对应有主干词集合和解决方案;所述用户意图树用于形成具有层级的用户意图表达,层级低的节点所对应的用户意图为层级高的节点所对应的用户意图的上位;其中,节点对应的用户意图由节点对应的主干词集合所表征;接收来自用户的提问信息;从所述用户意图树中选取第一目标节点;所述第一目标节点对应的主干词集合能够表征所述提问信息体现的用户意图;所述从所述用户意图树中选取第一目标节点,包括:从用户意图树中选取至少一个候选节点,所述候选节点所对应主干词集合中的主干词被包含于提问信息;从至少一个候选节点中选取层级最大的候选节点作为第一目标节点;在所述第一目标节点对应有解决方案时,反馈所述第一目标节点对应的解决方案。
CN201810697029.8A 2018-06-29 2018-06-29 数据处理方法、数据处理装置和服务器 Active CN108984666B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810697029.8A CN108984666B (zh) 2018-06-29 2018-06-29 数据处理方法、数据处理装置和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810697029.8A CN108984666B (zh) 2018-06-29 2018-06-29 数据处理方法、数据处理装置和服务器

Publications (2)

Publication Number Publication Date
CN108984666A CN108984666A (zh) 2018-12-11
CN108984666B true CN108984666B (zh) 2022-05-13

Family

ID=64539561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810697029.8A Active CN108984666B (zh) 2018-06-29 2018-06-29 数据处理方法、数据处理装置和服务器

Country Status (1)

Country Link
CN (1) CN108984666B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929027B (zh) * 2019-09-30 2022-08-12 珠海格力电器股份有限公司 提示系统、提示方法、计算机及废物容纳装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5625554A (en) * 1992-07-20 1997-04-29 Xerox Corporation Finite-state transduction of related word forms for text indexing and retrieval
US5995921A (en) * 1996-04-23 1999-11-30 International Business Machines Corporation Natural language help interface
FR2906049A1 (fr) * 2006-09-19 2008-03-21 Alcatel Sa Procede, mis en oeuvre par ordinateur, de developpement d'une ontologie a partir d'un texte en langage naturel
CN102289431A (zh) * 2011-06-24 2011-12-21 华南理工大学 一种基于自然语言理解并提供短信回复选项的方法
CN103678270B (zh) * 2012-08-31 2016-08-24 富士通株式会社 语义单元抽取方法和语义单元抽取设备
CN103177089A (zh) * 2013-03-08 2013-06-26 北京理工大学 基于中心块的句义成分关系分层识别方法
CN104598445B (zh) * 2013-11-01 2019-05-10 腾讯科技(深圳)有限公司 自动问答系统和方法
JP2015133047A (ja) * 2014-01-15 2015-07-23 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
CN104537029B (zh) * 2014-12-19 2018-09-21 百度在线网络技术(北京)有限公司 查询处理方法及装置
CN104657463B (zh) * 2015-02-10 2018-04-27 乐娟 应用于自动问答系统的问句分类方法及装置
CN106897471A (zh) * 2015-12-21 2017-06-27 北京航空航天大学 设计意图树模板化方法
CN107688604A (zh) * 2017-07-26 2018-02-13 阿里巴巴集团控股有限公司 数据应答处理方法、装置及服务器
CN107679082A (zh) * 2017-08-31 2018-02-09 阿里巴巴集团控股有限公司 问答搜索方法、装置以及电子设备
CN107679039B (zh) * 2017-10-17 2020-12-29 北京百度网讯科技有限公司 用于确定语句意图的方法和装置

Also Published As

Publication number Publication date
CN108984666A (zh) 2018-12-11

Similar Documents

Publication Publication Date Title
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN107122346B (zh) 一种输入语句的纠错方法及装置
Chen et al. Mining user requirements to facilitate mobile app quality upgrades with big data
CN112711937A (zh) 一种模板推荐方法、装置、设备及存储介质
CN114429133A (zh) 通过神经机器阅读理解依赖于话语分析来回答复杂问题
CN110795572B (zh) 一种实体对齐方法、装置、设备及介质
US12034683B2 (en) Emoji recommendation system and method
CN110162771A (zh) 事件触发词的识别方法、装置、电子设备
CN111611390B (zh) 一种数据处理方法及装置
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN110738056A (zh) 用于生成信息的方法和装置
CN117390170A (zh) 数据标准的对标方法、装置、电子设备和可读存储介质
CN110019714A (zh) 基于历史结果的多意图查询方法、装置、设备及存储介质
CN108984666B (zh) 数据处理方法、数据处理装置和服务器
CN117932022A (zh) 一种智能问答方法、装置、电子设备及存储介质
CN108595395B (zh) 一种昵称的生成方法、装置及设备
CN109145084B (zh) 数据处理方法、数据处理装置和服务器
CN114064859A (zh) 知识抽取方法、装置、设备、介质和程序产品
CN114282002A (zh) 基于人工智能的知识生成方法、装置、设备及存储介质
CN111858899A (zh) 语句处理方法、装置、系统和介质
CN111666770A (zh) 一种语义匹配方法及装置
CN116755683B (zh) 一种数据处理方法和相关装置
CN118331996B (zh) 一种自然语言到sql语句的转换方法及相关装置
CN114925185B (zh) 交互方法、模型的训练方法、装置、设备及介质
EP3660698A1 (en) Self-learning and adaptable mechanism for tagging documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant