CN105989040A

CN105989040A - 智能问答的方法、装置及系统

Info

Publication number: CN105989040A
Application number: CN201510057282.3A
Authority: CN
Inventors: 王�义
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2015-02-03
Filing date: 2015-02-03
Publication date: 2016-10-05
Anticipated expiration: 2035-02-03
Also published as: CN105989040B

Abstract

本申请实施例提供了一种智能问答的方法、装置及系统，其中所述方法包括：接收客户端发送的提问关键词，将所述提问关键词进行分词处理，得到一个或多个第一分词；基于所述一个或多个第一分词，获取与所述提问关键词匹配的候选建议词的集合，所述候选建议词为预设数据库中包含所述一个或多个第一分词的词；计算所述一个或多个第一分词的权重；依据所述一个或多个第一分词的权重，计算所述提问关键词与各候选建议词的相似度；将所述相似度符合预设规则的候选建议词及对应的答案信息返回所述客户端。本申请实施例可以提升智能问答过程中的结果推荐准确率。

Description

智能问答的方法、装置及系统

技术领域

本申请涉及信息推荐技术领域，特别是涉及一种智能问答的方法，以及，一种智能问答的装置，以及，一种智能问答系统。

背景技术

随着互联网服务的日益发展，越来越多的互联网企业需要提供在线客户服务(简称在线客服)来解决客户的问题。很显然，通过人工客服的方式不能应对海量的用户问答请求，这就需要一种智能问答系统来通过自动回复的方式来解决用户的诉求。智能问答系统一种为了解决用户的问答需求的系统，其系统底层是一个排序系统，通过理解用户的提问来为用户推荐比较合适的问题答案。

现有的智能问答系统的基本流程为：

1.通过用户的问答Query(关键词)来检索知识库；

2.计算问答Query与知识库中知识点title的相似度；

3.将相似度值最大的结果返回给用户。

其中在计算相似度时，涉及到对问答Query进行分词得到分词Term，以及每个分词Term的权重的问题。对于分词Term的权重，现有的方法有：

方法一，不特殊设置权重，每个分词Term的权重相同；

方法二，通过规则的方法，为不同类型的分词Term设置不同的权重。

然而，目前的两种分词权重设置方式存在如下缺陷：

(1)方法一不能把不同分词Term有效区分开，使相似度计算结果区分度不够高，实际应用效果不理想；

(2)方法二中的人工设置权重的方法不方便进行系统调优，需要经过多轮迭代才能找到合适的权重设置规则，构建成本高；

(3)方法二中，给不同类型Term设置不同权重，这种权重设置需要人工的先验知识，不能随着系统的演进进行调整，维护成本高。

以上三种缺陷都有可能影响相似度的计算结果，进而影响到智能问答系统最终的推荐效果。

因此，目前需要本领域技术人员迫切解决的一个技术问题就是：提供一种智能问答机制，以提升智能问答过程中的结果推荐准确率。

发明内容

本申请实施例所要解决的技术问题是提供一种智能问答的方法，以提升智能问答过程中的结果推荐准确率。

相应的，本申请实施例还提供了一种智能问答的装置及一种智能问答系统，用以保证上述方法的实现及应用。

为了解决上述问题，本申请公开了一种智能问答的方法，所述方法包括：

接收客户端发送的提问关键词，将所述提问关键词进行分词处理，得到一个或多个第一分词；

基于所述一个或多个第一分词，获取与所述提问关键词匹配的候选建议词的集合，所述候选建议词为预设数据库中包含所述一个或多个第一分词的词；

计算所述一个或多个第一分词的权重；

依据所述一个或多个第一分词的权重，计算所述提问关键词与各候选建议词的相似度；

将所述相似度符合预设规则的候选建议词及对应的答案信息返回所述客户端。

优选地，所述依据所述一个或多个第一分词的权重，计算所述提问关键词与各候选建议词的相似度的步骤包括：

对所述候选建议词的集合中的候选建议词进行分词处理，得到对应的一个或多个第二分词；

计算所述一个或多个第二分词的权重；

将所述一个或多个第一分词的权重，组织成所述提问关键词的向量信息；

将每个候选建议词对应的一个或多个第二分词的权重，组织成对应的候选建议词的向量信息；

采用所述提问关键词的向量信息与各候选建议词的向量信息，计算所述提问关键词与各候选建议词的相似度。

优选地，所述计算所述一个或多个第一分词的权重的步骤包括：

分别提取所述第一分词的多个特征信息；

获取所述多个特征信息的权重；

汇总所述多个特征信息的权重，得到所述第一分词的权重。

优选地，所述获取所述多个特征信息的权重的步骤为：

加载预先生成的权重计算模型，所述权重计算模型包括多个特征信息及对应的权重的映射关系；

在所述权重计算模型中查询所述特征信息的权重。

优选地，所述权重计算模型按照如下方式生成：

查询日志记录，获取在先提问关键词及对应的建议词，其中，所述建议词为预设数据库中包含所述在先提问关键词的一个或多个分词的词；

依据所述在先提问关键词及对应的建议词，构建所述在先提问关键词与所述建议词的组合；

基于所述在先提问关键词与所述建议词的组合，映射出分词组合，所述分词组合为对所述在先提问关键词进行分词处理及对所述建议词进行分词处理后，得到的分词的组合；

针对所说分词组合中的每个分词，分别提取预置的多个特征信息，形成特征信息组合；

对所述特征信息组合进行模型训练，得到权重计算模型。

优选地，所述基于所述在先提问关键词与所述建议词的组合，映射出分词组合的步骤包括：

基于所述在先提问关键词与所述建议词的组合，分别对所述在先提问关键词及所述建议词进行分词处理，得到分词列表；

基于所述分词列表，获得相同分词列表及不同分词列表，并定义相同分词与不同分词列表的关系为：相同分词列表>不同分词列表；

结合所述相同分词列表与所述不同分词列表的关系，构建分词组合。

优选地，所述对所述特征信息组合进行模型训练，得到权重计算模型的步骤包括：

将所述特征信息组合转换为特定样本格式的特征信息组合；

通过排序向量空间模型算法RankSVM对所述特定样本格式的特征信息组合进行建模，获得权重计算模型。

优选地，所述特征信息至少包括如下信息：词频TF、逆文档频率IDF、TF*IDF、BM25、分词长度LEN、类目信息、词性信息。

优选地，在所述对所述特征信息组合进行模型训练，得到权重计算模型的步骤之后，还包括：

依据所述日志记录更新所述权重计算模型。

优选地，所述将所述相似度符合预设规则的候选建议词及对应的答案信息返回所述客户端的步骤包括：

将所述相似度排序在前的N个候选建议词及对应的答案信息返回所述客户端，其中N为正整数；

或者，

将所述相似度大于预设阈值的候选建议词及对应的答案信息返回所述客户端。

本申请还公开了一种智能问答的装置，所述装置包括：

第一分词模块，用于接收客户端发送的提问关键词，将所述提问关键词进行分词处理，得到一个或多个第一分词；

候选建议词获取模块，用于基于所述一个或多个第一分词，获取与所述提问关键词匹配的候选建议词的集合，所述候选建议词为预设数据库中包含所述一个或多个第一分词的词；

第一权重计算模块，用于计算所述一个或多个第一分词的权重；

相似度计算模块，用于依据所述一个或多个第一分词的权重，计算所述提问关键词与各候选建议词的相似度；

信息返回模块，用于将所述相似度符合预设规则的候选建议词及对应的答案信息返回所述客户端。

优选地，所述相似度计算模块包括：

第二分词子模块，用于对所述候选建议词的集合中的候选建议词进行分词处理，得到对应的一个或多个第二分词；

第二权重计算子模块，用于计算所述一个或多个第二分词的权重；

第一向量组织子模块，用于将所述一个或多个第一分词的权重，组织成所述提问关键词的向量信息；

第二向量组织子模块，用于将每个候选建议词对应的一个或多个第二分词的权重，组织成对应的候选建议词的向量信息；

计算子模块，用于采用所述提问关键词的向量信息与各候选建议词的向量信息，计算所述提问关键词与各候选建议词的相似度。

优选地，所述第一权重计算模块包括：

特征提取子模块，用于分别提取所述第一分词的多个特征信息；

特征权重获取子模块，用于获取所述多个特征信息的权重；

汇总子模块，用于汇总所述多个特征信息的权重，得到所述第一分词的权重。

优选地，所述特征权重获取子模块还用于：

在所述权重计算模型中查询所述特征信息的权重。

优选地，所述装置还包括：

信息提取模块，用于查询日志记录，获取在先提问关键词及对应的建议词，其中，所述建议词为预设数据库中包含所述在先提问关键词的一个或多个分词的词；

第一组合构建模块，用于依据所述在先提问关键词及对应的建议词，构建所述在先提问关键词与所述建议词的组合；

第二组合构建模块，用于基于所述在先提问关键词与所述建议词的组合，映射出分词组合，所述分词组合为对所述在先提问关键词进行分词处理及对所述建议词进行分词处理后，得到的分词的组合；

第三组合构建模块，用于针对所说分词组合中的每个分词，分别提取预置的多个特征信息，形成特征信息组合；

模型训练模块，用于对所述特征信息组合进行模型训练，得到权重计算模型。

优选地，所述第二组合构建模块包括：

分词列表获取子模块，用于基于所述在先提问关键词与所述建议词的组合，分别对所述在先提问关键词及所述建议词进行分词处理，得到分词列表；

关系定义子模块，用于基于所述分词列表，获得相同分词列表及不同分词列表，并定义相同分词与不同分词列表的关系为：相同分词列表>不同分词列表；

构建子模块，用于结合所述相同分词列表与所述不同分词列表的关系，构建分词组合。

优选地，所述模型训练模块包括：

格式转换子模块，用于将所述特征信息组合转换为特定样本格式的特征信息组合；

训练子模块，用于通过排序向量空间模型算法RankSVM对所述特定样本格式的特征信息组合进行建模，获得权重计算模型。

优选地，所述装置还包括：

更新模块，用于依据所述日志记录更新所述权重计算模型。

优选地，所述信息返回模块包括：

第一返回子模块，用于将所述相似度排序在前的N个候选建议词及对应的答案信息返回所述客户端，其中N为正整数；

或者，

第二返回子模块，用于将所述相似度大于预设阈值的候选建议词及对应的答案信息返回所述客户端。

本申请实施例还公开了一种智能问答系统，所述系统包括客户端和服务器，其中，

所述客户端包括：

信息发送模块，用于向所述服务器发送提问关键词；

信息展现模块，用于接收所述服务器返回的候选建议词及对应的答案信息，并展现所述候选建议词及对应的答案信息；

所述服务器包括：

与背景技术相比，本申请实施例包括以下优点：

在本申请实施例中，当接收到提问关键词以后，可以对该提问关键词进行分词，得到一个或多个第一分词，进而获取与提问关键词匹配的候选建议词的集合，并计算每个第一分词的权重，然后依据该一个或多个第一分词的权重，计算提问关键词与各候选建议词的相似度，展现相似度符合预设规则的候选建议词及对应的答案信息。本申请实施例针对不同的第一分词，分别计算其权重，能有效的将不同的第一分词区分开，进而提高相似度计算结果的区分度，提高了建议词推荐的准确率。

另外，本申请实施例通过查询日志记录中用户行为的记录，获取在先提问关键词与对应的建议词，基于在先提问关键词与对应的建议词构建在先提问关键词与建议词的组合，并通过分词处理得到分词组合，以及，对分词组合进行特征信息提取，得到特征信息组合，以特征信息组合作为训练样本进行模型训练，避免了人工构建采集样本并人工根据样本进行模型训练的麻烦，减少了人工参与的成本，自动化样本采集的过程及模型训练过程还提升了模型训练效率和准确率。

进一步的，本申请实施例可以通过预先建立的权重计算模型获得第一分词的权重，权重计算模型因日志记录的更新而更新，无需人工的先验知识，方便系统调优的同时，节省了人工成本及构建维护成本。

附图说明

图1是本申请的一种智能问答的方法实施例一的步骤流程图；

图2是本申请的一种权重计算模型建立方法实施例的步骤流程图；

图3是本申请的一种智能问答的方法实施例二的步骤流程图；

图4是本申请的一种智能问答的装置实施例的结构框图；

图5是本申请的一种智能问答系统实施例的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请实施例可以应用于在线智能问答的场景，例如，应用于智能问答系统(Question Answering System,QA)中。智能问答系统以一问一答形式，精确的定位用户所需要的提问知识，通过与用户进行交互，为用户提供个性化的信息服务，节约人力资源，提高信息处理的自动性，提高信息处理效率。

参照图1，示出了本申请的一种智能问答的方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤101，接收客户端发送的提问关键词，将所述提问关键词进行分词处理，得到一个或多个第一分词；

步骤102，基于所述一个或多个第一分词，获取与所述提问关键词匹配的候选建议词的集合，所述候选建议词为预设数据库中包含所述一个或多个第一分词的词；

步骤103，计算所述一个或多个第一分词的权重；

步骤104，依据所述一个或多个第一分词的权重，计算所述提问关键词与各候选建议词的相似度；

步骤105，将所述相似度符合预设规则的候选建议词及对应的答案信息返回所述客户端。

在本申请实施例中，当接收到客户端发送的提问关键词以后，可以对该提问关键词进行分词，得到一个或多个第一分词，进而基于该一个或多个第一分词获取与提问关键词匹配的候选建议词的集合，其中，候选建议词为预设数据库中包含所述一个或多个第一分词的词。计算每个第一分词的权重，然后依据该一个或多个第一分词的权重，计算提问关键词与各候选建议词的相似度，并将相似度符合预设规则的候选建议词及对应的答案信息返回客户端，以在客户端中进行展现。本申请实施例针对不同的第一分词，分别计算其权重，能有效的将不同的第一分词区分开，进而提高相似度计算结果的区分度，提高了建议词推荐的准确率。

以下先对本申请的权重计算模型建立过程进行说明。参照图2，示出了本申请的一种权重计算模型建立方法实施例的步骤流程图，具体可以包括如下步骤：

步骤201，查询日志记录，获取在先提问关键词及对应的建议词；

在具体实现中，日志记录可以是本申请的服务器中存储的访问日志记录和/或点击日志记录，该访问日志记录是记录用户在服务器中的预设时间段内的访问行为的历史数据，该点击日志记录是记录用户在服务器中预设时间段内的点击行为的历史数据。

可以通过查询日志记录来获得服务器中所有的在先提问关键词Query及对应的建议词。其中，日志记录除了包含在先提问关键词及对应的建议词以外，还可以包括提问时间、提问用户标识等信息。

所述建议词为预设数据库中包含所述在先提问关键词的一个或多个分词的词。具体来说，建议词是服务器根据在先提问关键词匹配出的与在先提问关键词对应的推荐词或关联词，可以是包含在先提问关键词的部分或全部分词的词，该建议词是预先存储在预设数据库中的，具有关联的答案信息。

例如，在先提问关键词是“余额宝提现”，则建议词可以是“余额宝提现失败”、“余额宝如何提现”、“余额宝定期提现如何设置”等等。

步骤202，依据所述在先提问关键词及对应的建议词，构建所述在先提问关键词与所述建议词的组合；

在本申请实施例中，可以依据用户对建议词的点击行为来构建在先提问关键词与对应的建议词的组合。具体来说，建议词可以具有关联的入口信息，点击该入口信息可以引导用户进入答案信息的页面，在获得建议词以后，可以将该入口信息以及建议词的组合以列表的形式展现给用户，用户对某个入口信息的点击便产生了点击行为。

在获得在先提问关键词以及对应的多个建议词以后，统计出对于一个在先提问关键词，它对应的建议词是否被点击，若被点击，则构建在先提问关键词与建议词的组合，这种组合简称Query的pair对。

例如，对于在先提问关键词Query A，它对应的建议词可以包括A、B、C三个，如果建议词A被点击，建议词B及建议词C未被点击，则得到的在先提问关键词与对应的建议词的组合(Query的pair对)可以为：在先提问关键词Query A>建议词A>建议词B&&建议词C。

步骤203，基于所述在先提问关键词与所述建议词的组合，映射出分词组合；

其中，所述分词组合为对上述的Query的pair对中的在先提问关键词进行分词处理及对各个建议词进行分词处理后，得到的分词的组合。具体而言，在本申请实施例的一种优选实施方式中，步骤203可以包括如下过程：

(1)基于在先提问关键词与建议词的组合，分别对在先提问关键词及建议词进行分词处理，得到分词列表；

例如，针对上例的pair对：在先提问关键词Query A>建议词A>建议词B&&建议词C，若Query A为“余额宝提现”，建议词A为“余额宝提现失败”，建议词B为“余额宝如何提现”，建议词C为“余额宝定期提现如何设置”，其分词处理后得到的分词列表(term列表)如下表1所示：

词组	分词情况
		Query A	余额宝、提现
建议词A	余额宝、提现、失败
		建议词B	余额宝、如何、提现
建议词C	余额宝、定期、提现、如何、设置

表1

下面介绍几种分词方法：

1、基于字符串匹配的分词方法：是指按照一定的策略将待分析的汉字串与一个预置的机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。实际使用的分词系统，都是把机械分词作为一种初分手段，还需通过利用各种其它的语言信息来进一步提高切分的准确率。

2、基于特征扫描或标志切分的分词方法：是指优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可将原字符串分为较小的串再来进机械分词，从而减少匹配的错误率；或者将分词和词类标注结合起来，利用丰富的词类信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、调整，从而提高切分的准确率。

3、基于理解的分词方法：是指通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。

4、基于统计的分词方法：是指中文信息中由于字与字相邻共现的频率或概率能够较好的反映成词的可信度，所以可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息，以及计算两个汉字X、Y的相邻共现概率。互现信息可以体现汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典。

(2)基于分词列表，获得相同分词列表及不同分词列表，并定义相同分词与不同分词列表的关系为：相同分词列表>不同分词列表；

具体来说，相同分词是指在先提问关键词与各建议词的相同词单元，不同分词是指在先提问关键词与各建议词的不同词单元。例如上述表1中，Query A与建议词A的相同分词为“余额宝”、“提现”，不同分词为“失败”；Query A与建议词B的相同分词为“余额宝”、“提现”，不同分词为“如何”；Query A与建议词C的相同分词为“余额宝”、“提现”，不同分词为“定期”、“如何”、“设置”。

本申请实施例对于相同分词列表可以定义为same_terms(QueryA,QueryB)，表示QueryA与QueryB中相同Term的集合；对于不同分词列表可以定义为diff_terms(QueryA,QueryB)，表示QueryA与QueryB中不同Term的集合。例如，针对上例，same_terms(QueryA，建议词A)＝{余额宝、提现}，diff_terms(QueryA，建议词A)＝{失败}；same_terms(QueryA，建议词B)＝{余额宝、提现}，diff_terms(QueryA，建议词B)＝{如何}；same_terms(QueryA，建议词C)＝{余额宝、提现}，diff_terms(QueryA，建议词C)＝{定期、如何、设置}。

(3)结合相同分词列表与不同分词列表的关系，构建分词组合。

结合same_terms(QueryA,QueryB)>diff_terms(QueryA,QueryB)，构建分词组合termX>termY>termZ(其中，X、Y、Z表示分词)。例如，针对上例，得到的分词组合可以包括：

A：余额宝>失败>如何

B：提现>失败>如何

C：余额宝>失败>定期

D：提现>失败>定期

E：余额宝>失败>设置

F：提现>失败>设置

上述分词组合A-F可以组成分词组合的集合，即term pair对集合。

步骤204，针对所说分词组合中的每个分词，分别提取预置的多个特征信息，形成特征信息组合；

获得分词组合后，可以基于每个分词提取出一些特定维度的历史特征信息，该特征信息可以表现为特征分值。作为一种示例，该特征信息至少可以包括如下信息：词频TF、逆文档频率IDF、TF*IDF、BM25、分词长度LEN、类目信息、词性信息。

对每个特征信息说明如下：

TF(term frequency，词频):每个分词term在建议词中出现的次数；

IDF(Inverse Document Frequency，逆向文件频率):log(有多少个建议词中出现过该分词term)；

TFIDF:TF*IDF；

BM25：常用的BM25算法得出；

LEN:分词term的长度；

类目信息：即类目熵，是衡量分词term的类目分布情况(预设数据库中有类目信息)，其中，熵的定义：S(term)＝-sum(p logp)，其中p是term属于某个类目的概率，例如，在电商行业中，类目信息可以为服装类、食品类、电子类等。

词性信息：分词term的词性(产品词、修饰词、停顿词等)，其中，可以通过通用的分词工具来获得分词term的词性；

应用于本申请实施例，可以将分词组合中的每个分词，用对应的特征信息的集合表示，得到特征信息组合。也就是说，对于分词组合termA>termB，可以表示为feature1_A,feature2_A,...,featureN_A>feature1_B,feature2_B,...,featureN_B；其中，feature1_A,feature2_A,...,featureN_A是Term词A对应的特征列表，feature1_B,feature2_B,...,featureN_B是Term词B对应的特征列表。

例如，对于上述分词组合中的“余额宝>失败”，若“余额宝”的特征信息列表为(tf＝1,idf＝0.25,TFIDF＝1.5,BM25＝3.2,LEN＝3)，“失败”的特征信息列表为(tf＝3,idf＝0.3,TFIDF＝2,BM25＝1.5,LEN＝2)，则“余额宝>失败”表示为(1,0.25,1.5,3.2,3)>(3,0.3,2,1.5,2)。

步骤205，对所述特征信息组合进行模型训练，得到权重计算模型。

对于分词组合每个分词都用对应的特征信息集合表示，得到特征信息组合以后，可以将该特征信息组合作为训练样本集合进行模型训练，得到权重计算模型。在具体实现中，可以采用排序向量空间模型算法RankSVM来进行模型训练。

RankSVM是一种pair-wise的Rank学习算法，它可以对一组term词的排序样本进行学习，获得到排序模型(Model)。因为RankSVM是基于SVM进行开发的，它支持各种不同的核函数进行分类，包括高斯核、多项式核、线性核等。其中，高斯核和多项式核可以将低维问题转化为高维问题，从而提高模型的准确率，但是这两种核的模型训练速度较慢，同时在线上预测复杂度比较高；而线性核虽然泛化能力较弱，但是它训练速度较快，因此，本申请实施例的模型训练优选地使用线性核进行。

在本申请实施例的一种优选实施例中，步骤205可以包括如下子步骤：

子步骤S10，将所述特征信息组合转换为特定样本格式的特征信息组合；

在实际中，特定样本格式可以为RankSVM所需的样本格式。RankSVM所需的样本格式的特征信息组合可以为：(1,feature1_A,feature2_A,...,featureN_A)、(0,feature1_B,feature2_B,...,featureN_B)，

其中，1,0表示该样本的序关系，1代表的样本优于0代表的样本。

子步骤S20，通过RankSVM对所述特定样本格式的特征信息组合进行建模，获得权重计算模型。

在具体实现中，通过RankSVM对特定样本格式的特征信息组合进行建模，得到的权重计算模型为一组权重列表，这组权重列表是特征信息的权重组成的列表，特征信息的权重表征每个特征信息在分类时的有效性，例如，得到的权重计算模型为{Weight(tf)＝0.02,Weight(idf)＝0.21，Weight(TFIDF)＝0.7，Weight(BM25)＝0.1,Weight(LEN)＝0.5}。

在实际中，可以设置一测试样本对权重计算模型进行准确率检验，并不断迭代，使得权重计算模型的准确率达到最优。

另外，由于日志记录是随着用户行为的变化而变化的，因此可以依据日志记录更新权重计算模型，使得权重计算模型随着智能问答系统的演进而调整，以降低对权重计算模型的维护成本。

在本申请实施例中，通过查询日志记录中用户行为的记录，获取在先提问关键词与对应的建议词，基于在先提问关键词与对应的建议词构建在先提问关键词与建议词的组合，并通过分词处理得到分词组合，以及，对分词组合进行特征信息提取，得到特征信息组合，以特征信息组合作为训练样本进行模型训练，避免了人工构建采集样本并人工根据样本进行模型训练的麻烦，减少了人工参与的成本，自动化样本采集的过程及模型训练过程还提升了模型训练效率和准确率。

参照图3，示出了本申请的一种智能问答的方法实施例二的步骤流程图，具体可以包括如下步骤：

步骤301，接收客户端发送的提问关键词，将所述提问关键词进行分词处理，得到一个或多个第一分词；

提问关键词可以是用户在客户端提供的交互页面中输入的提问信息，客户端接收到用户输入的提问关键词以后，依据提问关键词生成提问请求，并将提问请求发送至服务器。

服务器接收到提问关键词以后，对提问关键词进行分词处理，得到一个或多个第一分词。其中，此处对于提问关键词的分词处理的方式及下述对于候选建议词的分词方式，均可以参照图2实施例中的分词处理方式，在此不再赘述了。

需要说明的是，服务器对提问关键词执行分词处理以外，还可以进行其他的预处理，例如，去停止词处理、错误矫正处理等。

步骤302，基于所述一个或多个第一分词，获取与所述提问关键词匹配的候选建议词的集合；

服务器获得一个或多个第一分词以后，可以基于该一个或多个第一分词，获取与提问关键词匹配的候选建议词的集合，候选建议词可以为预设数据库中包含所述一个或多个第一分词的词。具体来说，服务器侧的预设数据库中对于每个词单元(即每个分词term)都存储有对应的候选建议词(即每个term可以召回多个候选建议词)，则提问关键词的所有第一分词对应的候选建议词组成该提问关键词对应的候选建议词的集合，也就是说，候选建议词是包含部分或全部第一分词的词。

需要说明的是，对于获取的所有候选建议词，可能存在重复的词，则本申请实施例还可以对候选建议词进行去重处理。

例如，若提问关键词为“余额宝提现”，则第一分词包括“余额宝”、“提现”，在预设数据库查询“余额宝”时获得匹配的候选建议词为“余额宝提现失败”、“余额宝如何提现”、“余额宝定期提现如何设置”、“余额宝是什么”等等，在预设数据库查询“提现”时获得匹配的候选建议词为“余额宝提现失败”、“余额宝如何提现”、“余额宝定期提现如何设置”、“怎么提现”等等，则提问关键词“余额宝提现”对应的候选建议词的集合为：“余额宝提现失败”、“余额宝如何提现”、“余额宝定期提现如何设置”、“余额宝是什么”、“怎么提现”(已经去掉重复的“余额宝提现失败”、“余额宝如何提现”、“余额宝定期提现如何设置”)。

步骤303，计算所述一个或多个第一分词的权重；

获得提问关键词的一个或多个第一分词以后，可以针对每个第一分词，计算该第一分词的权重。在本申请的一种优选实施例中，步骤303可以包括如下子步骤：

子步骤S11，分别提取所述第一分词的多个特征信息；

在实际中，得到第一分词后，可以获取第一分词的多个特征信息，该特征信息至少包括如下信息的一种或多种：词频TF、逆文档频率IDF、TF*IDF、BM25、分词长度LEN、类目信息、词性信息。其中，上述特征信息可以采用通用的方式获取，本申请实施例对其获取方式无需加以限制。

子步骤S12，获取所述多个特征信息的权重；

获取第一分词的特征信息以后，可以进一步获取该特征信息的权重。在本申请的一种优选实施例中，子步骤S12进一步可以包括如下子步骤：

子步骤S121，加载预先生成的权重计算模型；

应用于本申请实施例，权重计算模型是在线下训练得到的模型，当服务器接收到提问关键词后，加载该权重计算模型。

权重计算模型可以为一组特征信息的权重列表文件，保存了多个特征信息与对应的权重的映射关系。

子步骤S122，基于所述特征权重列表，查询所述特征信息的权重。

加载权重计算模型后，可以在该权重计算模型中查询该第一分词对应的特征信息，以获得每个特征信息的权重。

子步骤S13，汇总所述多个特征信息的权重，得到所述第一分词的权重。

在具体实现中，第一分词的权重是其所有特征信息的权重的总和。第一分词的权重可以采用如下公式计算：

score = Σ_{i = 1}^{n} (feature_i * weight_i);

其中，score是第一分词的权重，feature_i是特征信息i，weight_i是特征信息feature_i的权重。

例如，若第一分词为“余额宝”，其特征信息列表为(tf＝1,idf＝0.25,TFIDF＝1.5,BM25＝3.2,LEN＝3)，则该第一分词的权重是1+0.25+1.5+3.2+3＝8.95。

步骤304，分别对所述候选建议词进行分词处理，得到对应的一个或多个第二分词，并计算所述一个或多个第二分词的权重；

在实际中，获得多个候选建议词后，可以对多个候选建议词进行分词处理，得到各个候选建议词对应的一个或多个第二分词。

此处第二分词的权重计算方法与上述第一分词的权重计算方法相似，可以参照上述第一分词的权重计算过程，本申请实施例在此不再赘述了。

步骤305，将所述一个或多个第一分词的权重，组织成所述提问关键词的向量信息，以及，将每个候选建议词对应的一个或多个第二分词的权重，组织成对应的候选建议词的向量信息；

获得提问关键词的一个或多个第一分词的权重以后，可以根据第一分词的权重，组织提问关键词的向量信息，例如，若提问关键词是“支付宝提现”，对其分词处理后得到的第一分词分别是“支付宝”、“提现”。如果“支付宝”的权重是5.5，“提现”的权重是5.7，则得到的提问关键词的向量信息是{5.5，5.7}。

候选建议词的向量信息的组织方法可以参照上述提问关键词的向量信息的组织方法，在此不再赘述了。

步骤306，采用所述提问关键词的向量信息与各候选建议词的向量信息，计算所述提问关键词与各候选建议词的相似度；

在具体实现中，相似度(即相关性得分)的计算方法可以采用余弦定理计算两个向量间的夹角的余弦值。具体计算过程如下：

假设提问关键词a的向量为[xa，ya，za]，候选建议词的向量为[xb，yb，zb]，则相似度计算如下：

步骤307，将所述相似度符合预设规则的候选建议词及对应的答案信息返回所述客户端。

应用于本申请实施例，在计算了提问关键词与各个候选建议词的相似度以后，可以将相似度符合预设规则的候选建议词及对应的答案信息返回客户端，以在客户端中进行展现。

在一种实施方式中，符合预设规则的候选建议词可以为相似度排序在前的N个候选建议词。具体来说，在计算了提问关键词与各个候选建议词的相似度以后，可以按照相似度由大到小的顺序对候选建议词进行排序，并获取各候选建议词对应的答案信息，然后将相似度排序在前N个的候选建议词及对应的答案信息发送至客户端，以在客户端中进行展现。例如，N为1时，则获取相似度最大的候选建议词及对应的答案信息发送至客户端，作为基于提问关键词的回答信息。

在另一种实施方式中，符合预设规则的候选建议词可以为相似度大于预设阈值的候选建议词，具体来说，在计算了提问关键词与各个候选建议词的相似度以后，将相似度大于预设阈值的候选建议词及对应的答案信息发送至客户端，以通过客户端展现给用户。

在具体实现中，候选建议词对应的答案信息在客户端中可以以入口信息(URL)的形式进行展现，当用户点击该入口信息时，可以进入对应的页面。例如，在对话框中，返回多个候选建议词链接(title+详情链接)，当用户觉得某个候选建议词title比较相关时，可以触发该链接，进入对应的页面。

当然，答案信息也通过客户端直接展现在当前用户交互界面中，本申请实施例对此无需加以限制。

在本申请实施例中，可以通过预先建立的权重计算模型获得第一分词的权重，权重计算模型因日志记录的更新而更新，无需人工的先验知识，方便系统调优的同时，节省了人工成本及构建维护成本。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图4，示出了本申请一种智能问答的装置实施例的结构框图，具体可以包括如下模块：

第一分词模块401，用于接收客户端发送的提问关键词，将所述提问关键词进行分词处理，得到一个或多个第一分词；

候选建议词获取模块402，用于基于所述一个或多个第一分词，获取与所述提问关键词匹配的候选建议词的集合，所述候选建议词为预设数据库中包含所述一个或多个第一分词的词；

第一权重计算模块403，用于计算所述一个或多个第一分词的权重；

相似度计算模块404，用于依据所述一个或多个第一分词的权重，计算所述提问关键词与各候选建议词的相似度；

信息返回模块405，用于将所述相似度符合预设规则的候选建议词及对应的答案信息返回所述客户端。

在本申请实施例的一种优选实施例中，所述相似度计算模块404可以包括：

在本申请实施例的一种优选实施例中，所述第一权重计算模块403可以包括：

特征权重获取子模块，用于获取所述多个特征信息的权重；

在本申请实施例的一种优选实施例中，所述特征权重获取子模块还可以用于：

在所述权重计算模型中查询所述特征信息的权重。

在本申请实施例的一种优选实施例中，所述装置还可以包括：

在本申请实施例的一种优选实施例中，所述第二组合构建模块包括：

在本申请实施例的一种优选实施例中，所述模型训练模块包括：

在本申请实施例的一种优选实施例中，所述特征信息至少包括如下信息：词频TF、逆文档频率IDF、TF*IDF、BM25、分词长度LEN、类目信息、词性信息。

在本申请实施例的一种优选实施例中，所述装置还包括：

更新模块，用于依据所述日志记录更新所述权重计算模型。

在本申请实施例的一种优选实施例中，所述信息返回模块405可以包括：

或者，

对于图4所述的装置实施例而言，由于其与上述方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

参照图5，示出了本申请一种智能问答系统实施例的结构框图，所述系统包括客户端50和服务器60，其中，

所述客户端50可以包括如下模块：

信息发送模块501，用于向所述服务器发送提问关键词；

信息展现模块502，用于接收所述服务器返回的候选建议词及对应的答案信息，并展现所述候选建议词及对应的答案信息；

所述服务器60可以包括如下模块：

第一分词模块601，用于接收客户端发送的提问关键词，将所述提问关键词进行分词处理，得到一个或多个第一分词；

候选建议词获取模块602，用于基于所述一个或多个第一分词，获取与所述提问关键词匹配的候选建议词的集合，所述候选建议词为预设数据库中包含所述一个或多个第一分词的词；

第一权重计算模块603，用于计算所述一个或多个第一分词的权重；

相似度计算模块604，用于依据所述一个或多个第一分词的权重，计算所述提问关键词与各候选建议词的相似度；

信息返回模块605，用于将所述相似度符合预设规则的候选建议词及对应的答案信息返回所述客户端。

在本申请实施例的一种优选实施例中，所述相似度计算模块604可以包括：

在本申请实施例的一种优选实施例中，所述第一权重计算模块603可以包括：

特征权重获取子模块，用于获取所述多个特征信息的权重；

在所述权重计算模型中查询所述特征信息的权重。

在本申请实施例的一种优选实施例中，所述装置还包括：

更新模块，用于依据所述日志记录更新所述权重计算模型。

在本申请实施例的一种优选实施例中，所述信息返回模块605可以包括：

或者，

对于图5所述的系统实施例而言，由于其与上述方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中，所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非持续性的电脑可读媒体(transitory media)，如调制的数据信号和载波。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种智能问答的方法、装置及系统进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种智能问答的方法，其特征在于，所述方法包括：

计算所述一个或多个第一分词的权重；

2.根据权利要求1所述的方法，其特征在于，所述依据所述一个或多个第一分词的权重，计算所述提问关键词与各候选建议词的相似度的步骤包括：

计算所述一个或多个第二分词的权重；

3.根据权利要求1或2所述的方法，其特征在于，所述计算所述一个或多个第一分词的权重的步骤包括：

分别提取所述第一分词的多个特征信息；

获取所述多个特征信息的权重；

汇总所述多个特征信息的权重，得到所述第一分词的权重。

4.根据权利要求3所述的方法，其特征在于，所述获取所述多个特征信息的权重的步骤为：

在所述权重计算模型中查询所述特征信息的权重。

5.根据权利要求4所述的方法，其特征在于，所述权重计算模型按照如下方式生成：

对所述特征信息组合进行模型训练，得到权重计算模型。

6.根据权利要求5所述的方法，其特征在于，所述基于所述在先提问关键词与所述建议词的组合，映射出分词组合的步骤包括：

7.根据权利要求5或6所述的方法，其特征在于，所述对所述特征信息组合进行模型训练，得到权重计算模型的步骤包括：

将所述特征信息组合转换为特定样本格式的特征信息组合；

8.根据权利要求5或6所述的方法，其特征在于，所述特征信息至少包括如下信息：词频TF、逆文档频率IDF、TF*IDF、BM25、分词长度LEN、类目信息、词性信息。

9.根据权利要求4或5或6所述的方法，其特征在于，在所述对所述特征信息组合进行模型训练，得到权重计算模型的步骤之后，还包括：

依据所述日志记录更新所述权重计算模型。

10.根据权利要求1所述的方法，其特征在于，所述将所述相似度符合预设规则的候选建议词及对应的答案信息返回所述客户端的步骤包括：

或者，

11.一种智能问答的装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，所述相似度计算模块包括：

13.根据权利要求11或12所述的装置，其特征在于，所述第一权重计算模块包括：

特征权重获取子模块，用于获取所述多个特征信息的权重；

14.根据权利要求13所述的装置，其特征在于，所述特征权重获取子模块还用于：

在所述权重计算模型中查询所述特征信息的权重。

15.根据权利要求14所述的装置，其特征在于，所述装置还包括：

16.根据权利要求15所述的装置，其特征在于，所述第二组合构建模块包括：

17.根据权利要求15或16所述的装置，其特征在于，所述模型训练模块包括：

18.根据权利要求15或16所述的装置，其特征在于，所述特征信息至少包括如下信息：词频TF、逆文档频率IDF、TF*IDF、BM25、分词长度LEN、类目信息、词性信息。

19.根据权利要求14或15或16所述的装置，其特征在于，所述装置还包括：

更新模块，用于依据所述日志记录更新所述权重计算模型。

20.根据权利要求11所述的装置，其特征在于，所述信息返回模块包括：

或者，

21.一种智能问答系统，其特征在于，所述系统包括客户端和服务器，其中，

所述客户端包括：

信息发送模块，用于向所述服务器发送提问关键词；

所述服务器包括：