发明内容
本说明书一个或多个实施例描述了一种用户问句与知识点的匹配方法和装置,能够提升用户问句与知识点的匹配效果,相应地提升智能客服的服务质量。
第一方面,提供了一种用户问句与知识点的匹配方法,方法包括:
将用户问句作为预先训练的自然语言处理模型的输入,得到预先建立的业务导图中与所述用户问句匹配的语义节点所构成的匹配节点集合,所述业务导图包括按照树形结构组织的多个语义节点,其中所述树形结构的叶节点挂载有对应的知识点;
当所述匹配节点集合匹配到所述业务导图的多条链路时,将每条链路的叶节点挂载的知识点加入与所述用户问句匹配的知识点集合;
将所述用户问句与所述知识点集合中每个知识点的知识点标题作为预先训练的深度结构化语义模型的输入,得到所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度;
根据所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度,确定与所述用户问句匹配的知识点。
在一种可能的实施方式中,所述深度结构化语义模型包括特征提取模型;所述将所述用户问句与所述知识点集合中每个知识点的知识点标题作为预先训练的深度结构化语义模型的输入,得到所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度,包括:
将所述匹配节点集合中的语义节点作为预先训练的所述特征提取模型的输入,得到所述用户问句的特征表示向量;
获取所述知识点集合中每个知识点的知识点标题所在链路上的语义节点集合;
将每个所述语义节点集合中的语义节点作为所述特征提取模型的输入,得到每个所述知识点标题的特征表示向量;
根据所述用户问句的特征表示向量与每个所述知识点标题的特征表示向量,确定所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度。
进一步地,所述特征提取模型包括长短期记忆网络(long short-term memory,LSTM)模型。
进一步地,所述特征提取模型包括第一LSTM模型和第二LSTM模型;所述第一LSTM模型用于根据多个输入的顺序得到第一表示向量,所述第二LSTM模型用于根据多个输入的逆序得到第二表示向量,所述特征提取模型用于将所述第一表示向量和所述第二表示向量进行拼接得到多个输入对应的特征表示向量。
进一步地,所述将所述匹配节点集合中的语义节点作为预先训练的特征提取模型的输入,得到所述用户问句的特征表示向量,包括:
根据与所述匹配节点集合中的语义节点对应的分词在所述用户问句中的顺序,将所述匹配节点集合中的语义节点依次作为所述特征提取模型的输入,得到所述用户问句的特征表示向量。
进一步地,所述将每个所述语义节点集合中的语义节点作为所述特征提取模型的输入,得到每个所述知识点标题的特征表示向量,包括:
根据所述语义节点集合中的语义节点对应的分词在所述知识点标题中的顺序,将所述语义节点集合中的语义节点依次作为特征提取模型的输入,得到所述知识点标题的特征表示向量。
进一步地,所述根据所述用户问句的特征表示向量与每个所述知识点标题的特征表示向量,确定所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度,包括:
确定所述用户问句的特征表示向量与所述知识点标题的特征表示向量的余弦距离;
将所述余弦距离确定为所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度分值。
在一种可能的实施方式中,所述将所述用户问句与所述知识点集合中每个知识点的知识点标题作为预先训练的深度结构化语义模型的输入,得到所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度之前,所述方法还包括:
根据用户问句和反馈的知识点标题的点击曝光日志,将用户问句与用户点击的知识点标题作为一组正样本,将用户问句与用户未点击的知识点标题作为一组负样本,对所述深度结构化语义模型进行训练。
在一种可能的实施方式中,所述根据所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度,确定与所述用户问句匹配的知识点,包括:
从所述知识点集合中选取与所述用户问句的相似度最高的知识点标题;
当该知识点标题对应的相似度大于预设阈值时,将该知识点标题对应的知识点确定为与所述用户问句匹配的知识点。
第二方面,提供了一种用户问句与知识点的匹配装置,装置包括:
节点匹配单元,用于将用户问句作为预先训练的自然语言处理模型的输入,得到预先建立的业务导图中与所述用户问句匹配的语义节点所构成的匹配节点集合,所述业务导图包括按照树形结构组织的多个语义节点,其中所述树形结构的叶节点挂载有对应的知识点;
知识点匹配单元,用于当所述节点匹配单元得到的匹配节点集合匹配到所述业务导图的多条链路时,将每条链路的叶节点挂载的知识点加入与所述用户问句匹配的知识点集合;
相似度计算单元,用于将所述用户问句与所述知识点匹配单元得到的知识点集合中每个知识点的知识点标题作为预先训练的深度结构化语义模型的输入,得到所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度;
确定单元,用于根据所述相似度计算单元得到的所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度,确定与所述用户问句匹配的知识点。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,首先将用户问句作为预先训练的自然语言处理模型的输入,得到预先建立的业务导图中与所述用户问句匹配的语义节点所构成的匹配节点集合,所述业务导图包括按照树形结构组织的多个语义节点,其中所述树形结构的叶节点挂载有对应的知识点,然后当所述匹配节点集合匹配到所述业务导图的多条链路时,将每条链路的叶节点挂载的知识点加入与所述用户问句匹配的知识点集合,接着将所述用户问句与所述知识点集合中每个知识点的知识点标题作为预先训练的深度结构化语义模型的输入,得到所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度,最后根据所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度,确定与所述用户问句匹配的知识点。由上可见,本说明书实施例将基于业务导图的匹配模型与深度结构化语义模型二者相结合,将导图的匹配结果作为深度结构化语义模型的输入,通过深度结构化语义模型对导图的匹配结果进行排序选优,能够提升用户问句与知识点的匹配效果,相应地提升智能客服的服务质量。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
本说明书实施例中,将基于业务导图的匹配模型(也可称为自然语言处理模型)与深度结构化语义模型(deep structured semantic model,DSSM)二者相结合,将导图的匹配结果作为深度结构化语义模型的输入,通过深度结构化语义模型对导图的匹配结果进行排序选优,能够提升用户问句与知识点的匹配效果,相应地提升智能客服的服务质量。深度结构化语义模型是基于深度神经网络的一项建模技术,可以将具有成对关系的,不同类型的文本投射到一个共同的低维语义空间中,进而完成后续的机器学习任务,本说明书实施例中,上述不同类型的文本具体为用户问句和知识点标题。
图1为本说明书披露的一个实施例的一部分实施场景示意图。该实施场景涉及用户问句与知识点的匹配,具体地,基于预先建立的业务导图进行用户问句与知识点的匹配。参照图1,业务导图100包括按照业务维度整理为树状层级结构的多个节点(例如,节点11、节点12、节点13、节点14),这些节点也可以称为“语义节点”。每个节点对应一个关键词以及该关键词的关联表达,例如,节点11对应的关键词为“余额宝”,节点12对应的关键词为“退款”,节点13对应的关键词为“查询”,节点14对应的关键词为“how”。其中,每个关键词可以具有一个或多个关联表达,关联表达包含同义表达、蕴含表达、上下位词等,例如,关键词“how”可以具有关联表达“如何”。每个语义节点都可配置其关联表达,关键词及其关联表达的配置是根据用户问句识别到节点的匹配关键。所述业务导图的根节点代表具有特定业务类型的业务,例如,节点11为根节点,代表了一项具体的业务“余额宝”。所述业务导图的叶节点挂载与该叶节点的关键词相关联的知识点,例如,节点14为叶节点,该叶节点的关键词为“how”,该叶节点挂载了知识点15“如何查询余额宝退款”及答案,其中,每个知识点对应一个知识点标题,知识点标题也称为标准问句,例如知识点标题可以为“如何查询余额宝退款”。
业务导图是运营人员梳理出来的树状结构,以层级的形式组织知识库的各项知识点。可以看出,树的根节点是业务类型,经过层层分支,到树的叶子节点是知识库中的一个知识点,导图的结构,节点名称均可修改、调整,给了运营人员编辑调整知识库以很大的便利性。
通过将用户问句匹配到各个“语义节点”,推导出用户需要的答案。当所述匹配节点集合匹配到所述业务导图的多条链路时,将每条链路的叶节点挂载的知识点加入与所述用户问句匹配的知识点集合。例如,语义节点11“余额宝”、语义节点12“退款”,语义节点13“查询”,语义节点14“how”构成业务导图的一条链路,该条链路的叶节点“how”挂载的知识点的知识点标题为“如何查询余额宝退款”。
当知识点集合中包括多个知识点时,就需要对这多个知识点进行优选排序,从而选择出最终与用户问句匹配的知识点。
图2为本说明书披露的一个实施例的另一部分实施场景示意图。该实施场景涉及用户问句与知识点的匹配,具体地,基于图1所示实施场景中得到的知识点集合,对用户问句与所述知识点集合中每个知识点的知识点标题进行相似度计算。参照图2,将所述用户问句与所述知识点集合中每个知识点的知识点标题作为预先训练的深度结构化语义模型的输入,得到所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度,从而根据所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度,就可以确定与所述用户问句匹配的知识点。
深度结构化语义模型(DSSM)是基于深度神经网络(deep neural network,DNN)的一项建模技术,可以将具有成对关系的,不同类型的文本投射到一个共同的低维语义空间中,进而完成后续的机器学习任务。DSSM是通过用户对智能客服的推送反馈过程中,用户问句和反馈的知识点标题的海量的点击曝光日志,用DNN把问句和知识点标题表达为低纬语义向量,并通过余弦(cosine)距离来计算两个语义向量的距离,最终训练出语义相似度模型。该模型可以用来预测两个句子的语义相似度,以输出和用户问句最“接近”(cosine距离最小)的知识点标题。
分别单独使用导图和DSSM作为智能客服的输出都存在一些问题:用导图的规则匹配结果,被匹配到多条链路时,很难进行选优;而使用传统的DSSM做相似度计算时,由于训练数据少、用户问句文本信息集中等问题,导致模型效果差。这时,结合DSSM做“语义节点”匹配的多链路排序选优,就很有必要。导图的智能客服在消歧及多结果选优上能力较差。传统的DSSM模型,直接从字词的标号作为输入,而通常的字词数量为50万以上。导致模型大、训练困难、效果差。即使通过词向量对字词进行编码,效果仍然不容乐观。本说明书实施例中,利用导图的匹配结果作为DSSM的输入,通过DSSM对导图的结果进行排序选优。导图将DSSM原有的50万以上的字词ID的输入替换为500以内的语义节点ID,结合导图和DSSM各自的优点,提升智能客服的服务质量。
图3示出根据一个实施例的用户问句与知识点的匹配方法流程图,该实施例可以基于图1和图2所示的应用场景。如图3所示,该实施例中用户问句与知识点的匹配方法包括以下步骤:步骤31,将用户问句作为预先训练的自然语言处理模型的输入,得到预先建立的业务导图中与所述用户问句匹配的语义节点所构成的匹配节点集合,所述业务导图包括按照树形结构组织的多个语义节点,其中所述树形结构的叶节点挂载有对应的知识点;步骤32,当所述匹配节点集合匹配到所述业务导图的多条链路时,将每条链路的叶节点挂载的知识点加入与所述用户问句匹配的知识点集合;步骤33,将所述用户问句与所述知识点集合中每个知识点的知识点标题作为预先训练的深度结构化语义模型的输入,得到所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度;步骤34,根据所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度,确定与所述用户问句匹配的知识点。下面描述以上各个步骤的具体执行方式。
首先在步骤31,将用户问句作为预先训练的自然语言处理模型的输入,得到预先建立的业务导图中与所述用户问句匹配的语义节点所构成的匹配节点集合。
其中,业务导图是运营人员梳理出来的一种树状的知识库的组织形式。每个节点为一个关键词。业务导图中每一个节点称之为语义节点,语义节点具有关联表达,包含同义表达、蕴含表达、上下位词,每个语义节点都可配置其关联表达,是识别到节点的匹配关键。
本说明书实施例中,在将用户问句与业务导图的语义节点进行匹配时,可以采用多种方式。在一个示例中,随着用户群体的增大,问答系统用户咨询的问题也越来越多,越来越复杂。提升问答系统的准确性,成为了机器人问答业务亟待解决的问题。然而,在客户服务的过程中,用户问句的口语化、复杂化、需求差异化给机器理解用户问题带来很大的挑战,只靠用户提问的字面意思,很难精准定位用户意图和问题。业务导图是运营人员梳理出来的树状结构,以层级的形式组织知识库的各项知识点。利用导图匹配的数据为基础,做语义节点识别。当发生问句不能被直接识别时,借助互联网的信息做信息扩展,提升了业务导图对于用户问句的覆盖范围,也方便运营人员在快速修改、调整知识库导图的同时能够及时反馈至匹配系统。
接着在步骤32,当所述匹配节点集合匹配到所述业务导图的多条链路时,将每条链路的叶节点挂载的知识点加入与所述用户问句匹配的知识点集合。
可以理解的是,业务导图的每条链路包含多个语义节点,当所述匹配节点集合包含业务导图的一条链路的全部或预设数目个或预设比例的或预设层级的语义节点时,可以认为所述匹配节点集合匹配到所述业务导图的该条链路。
然后在步骤33,将所述用户问句与所述知识点集合中每个知识点的知识点标题作为预先训练的深度结构化语义模型的输入,得到所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度。
在一个示例中,所述深度结构化语义模型包括特征提取模型;具体地,将所述匹配节点集合中的语义节点作为预先训练的所述特征提取模型的输入,得到所述用户问句的特征表示向量;获取所述知识点集合中每个知识点的知识点标题所在链路上的语义节点集合;将每个所述语义节点集合中的语义节点作为所述特征提取模型的输入,得到每个所述知识点标题的特征表示向量;根据所述用户问句的特征表示向量与每个所述知识点标题的特征表示向量,确定所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度。
进一步地,所述特征提取模型包括长短期记忆网络(long short-term memory,LSTM)模型。
进一步地,所述特征提取模型包括第一LSTM模型和第二LSTM模型;所述第一LSTM模型用于根据多个输入的顺序得到第一表示向量,所述第二LSTM模型用于根据多个输入的逆序得到第二表示向量,所述特征提取模型用于将所述第一表示向量和所述第二表示向量进行拼接得到多个输入对应的特征表示向量。
进一步地,根据与所述匹配节点集合中的语义节点对应的分词在所述用户问句中的顺序,将所述匹配节点集合中的语义节点依次作为所述特征提取模型的输入,得到所述用户问句的特征表示向量。
进一步地,根据所述语义节点集合中的语义节点对应的分词在所述知识点标题中的顺序,将所述语义节点集合中的语义节点依次作为特征提取模型的输入,得到所述知识点标题的特征表示向量。
进一步地,确定所述用户问句的特征表示向量与所述知识点标题的特征表示向量的余弦距离;将所述余弦距离确定为所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度分值。
本说明书实施例中,步骤33包括两个阶段,在第一阶段,用于获取用户问句的特征表示向量,以及知识点标题的特征表示向量,其中,知识点标题的特征表示向量也可以称为答案的特征表示向量,特征表示向量可以简称为表示向量;在第二阶段,用于根据用户问句的特征表示向量和知识点标题的特征表示向量计算用户问句与知识点标题的相似度。
如图4所示为第一阶段采用的特征提取模型结构示意图,参照图4,将语义节点编号(ID)按出现顺序输入特征提取模型,先通过嵌入(embedding)层对语义节点编号进行词嵌入(embedding),对语义节点编号做空间映射,然后对词嵌入(embedding)的结果通过双向LSTM进行特征提取,再通过拼接(concat)层对双向LSTM结果做拼接,最后对拼接结果,做全局的最大值池化(Max Pooling),将最大值池化的结果作为特征提取模型的最终输出结果,也就是文本通过语义节点识别后输入模型得到的表示向量。
如图5所示为第二阶段计算相似度分值的流程示意图,参照图5,将第一阶段得到的问句表示向量,与所有的知识点标题按照同样方法得到的表示向量,分别计算向量间的余弦距离,作为相似度分值。
本说明书实施例中,在步骤33之前,可以预先对对所述深度结构化语义模型进行训练。在一个示例中,根据用户问句和反馈的知识点标题的点击曝光日志,将用户问句与用户点击的知识点标题作为一组正样本,将用户问句与用户未点击的知识点标题作为一组负样本,对所述深度结构化语义模型进行训练。
最后在步骤34,根据所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度,确定与所述用户问句匹配的知识点。
在一个示例中,从所述知识点集合中选取与所述用户问句的相似度最高的知识点标题;当该知识点标题对应的相似度大于预设阈值时,将该知识点标题对应的知识点确定为与所述用户问句匹配的知识点。
在另一个示例中,将所有知识点的相似度分值进行排序。如果最高分值大于阈值,输出知识点。如果最高分值小于阈值,则认为无法识别,通过反问做缺失信息的填充或者输出“致歉语”告知用户机器人无法理解用户的输入。
通过本说明书实施例提供的方法,将基于业务导图的匹配模型与深度结构化语义模型二者相结合,将导图的匹配结果作为深度结构化语义模型的输入,通过深度结构化语义模型对导图的匹配结果进行排序选优,能够提升用户问句与知识点的匹配效果,相应地提升智能客服的服务质量。
图6示出根据另一个实施例的用户问句与知识点的匹配方法流程图,该实施例可以基于图1和图2所示的应用场景。如图6所示,该实施例中用户问句与知识点的匹配方法包括以下步骤:
第一步:进入客服系统的用户问句会进行分词、同义词、去停用词处理,并经过一个实体识别处理,识别出例如支付宝相关业务词等等实体。并对“昨天/早上”,“50000元/3000块钱”等进行时间、金额等做归一化改写。
第二步:使用自然语言处理相关模型进行闲聊识别。
第2.a步:如果识别出“你好”,“好的,知道了”等无业务述求的闲聊语句,做对应的闲聊输出。
第2.b步:“非闲聊”则进入第三步。
第三步:使用自然语言处理相关模型识别出语义节点。例如:“如何查询余利宝退款”,那么会识别出“how”、“查询”、“余利宝”、“退款”等语义节点,并对每个语义节点的匹配进行打分。
第四步:识别出所有可能的语义节点后:
第4.1步:将语义节点进行编号
第4.2步:将语义节点编号,按出现顺序输入特征提取模型,
例如,使用长短期记忆网络(LSTM)模型作为特征提取模型。
第4.2.1步:先对语义节点编号,进行词嵌入(embedding),做空间映射。
第4.2.2步:对词嵌入(embedding)的结果做双向LSTM。
第4.2.3步:对双向LSTM结果做拼接。
第4.2.4步:对拼接结果,做全局的最大值池化。
将最大值池化的结果作为最终输出结果,也就是文本通过语义节点识别后输入模型得到的表示向量。
第4.3步:将4.2步得到的问句表示向量,与所有的知识点标题按照同样方法得到的表示向量,分别计算向量间的余弦距离,作为相似度分值。
第五步:将所有知识点的相似度分值进行排序。
第5.a步:如果最高分值大于阈值,输出知识点。
第5.b步:如果最高分值小于阈值,则认为无法识别,通过反问做缺失信息的填充或者输出“致歉语”告知用户机器人无法理解用户的输入。
本说明书实施例提供的方法已经得到实际验证,算法投放效果好。该算法使用了业务导图的语义节点识别,然后用DSSM做语义节点识别结果的排序选优,在支付宝我的客服的健康险业务线做投放试点,取得了明显的效果,top-one的正确率有明细提升。
如用户问句为“我女儿3岁,没有身份证号,可以投保吗?”,如果直接使用基于业务导图匹配知识点的方式,会分别匹配出多个知识点:
“没有身份证号码可以买保险吗”
“可以给家人买保险吗”
“几岁可以买保险”
“如何给家里小孩买保险吗”
“我没有购买保险,可以单独给家里小孩买保险吗”
最终通过DSSM的模型,优选出“如何给家里小孩买保险吗”这个结果为最优结果,输出给用户展现。
传统的DSSM,以数十万的字词ID作为输入,导致训练数据要求量极大,参数量大,训练困难,效果差;而基于业务导图的匹配模型对多结果的选优能力差。本说明书实施例提供的方法,结合DSSM和基于业务导图的匹配模型两者的优点,以业务导图中的数百个语义节点ID替代传统DSSM的数十万字词ID作为输入,使传统的DSSM能力大幅提高,在少量训练数据的情况下,也能够训练出效果非常好的应用的模型。
根据另一方面的实施例,还提供一种用户问句与知识点的匹配装置,所述装置用于执行本说明书实施例提供的用户问句与知识点的匹配方法。图7示出根据一个实施例的用户问句与知识点的匹配装置的示意性框图。如图7所示,该装置700包括:
节点匹配单元71,用于将用户问句作为预先训练的自然语言处理模型的输入,得到预先建立的业务导图中与所述用户问句匹配的语义节点所构成的匹配节点集合,所述业务导图包括按照树形结构组织的多个语义节点,其中所述树形结构的叶节点挂载有对应的知识点;
知识点匹配单元72,用于当所述节点匹配单元71得到的匹配节点集合匹配到所述业务导图的多条链路时,将每条链路的叶节点挂载的知识点加入与所述用户问句匹配的知识点集合;
相似度计算单元73,用于将所述用户问句与所述知识点匹配单元72得到的知识点集合中每个知识点的知识点标题作为预先训练的深度结构化语义模型的输入,得到所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度;
确定单元74,用于根据所述相似度计算单元73得到的所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度,确定与所述用户问句匹配的知识点。
可选地,作为一个实施例,所述深度结构化语义模型包括特征提取模型;所述相似度计算单元73,具体包括:
第一特征提取子单元,用于将所述匹配节点集合中的语义节点作为预先训练的所述特征提取模型的输入,得到所述用户问句的特征表示向量;
获取子单元,用于获取所述知识点集合中每个知识点的知识点标题所在链路上的语义节点集合;
第二特征提取子单元,用于将每个所述语义节点集合中的语义节点作为所述特征提取模型的输入,得到每个所述知识点标题的特征表示向量;
相似度确定子单元,用于根据所述第一特征提取子单元得到的用户问句的特征表示向量与所述第二特征提取子单元得到的每个所述知识点标题的特征表示向量,确定所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度。
进一步地,所述特征提取模型包括长短期记忆网络LSTM模型。
进一步地,所述特征提取模型包括第一LSTM模型和第二LSTM模型;所述第一LSTM模型用于根据多个输入的顺序得到第一表示向量,所述第二LSTM模型用于根据多个输入的逆序得到第二表示向量,所述特征提取模型用于将所述第一表示向量和所述第二表示向量进行拼接得到多个输入对应的特征表示向量。
进一步地,所述第一特征提取子单元,具体用于根据与所述匹配节点集合中的语义节点对应的分词在所述用户问句中的顺序,将所述匹配节点集合中的语义节点依次作为所述特征提取模型的输入,得到所述用户问句的特征表示向量。
进一步地,所述第二特征提取子单元,具体用于根据所述语义节点集合中的语义节点对应的分词在所述知识点标题中的顺序,将所述语义节点集合中的语义节点依次作为特征提取模型的输入,得到所述知识点标题的特征表示向量。
进一步地,所述相似度确定子单元,具体用于:
确定所述用户问句的特征表示向量与所述知识点标题的特征表示向量的余弦距离;
将所述余弦距离确定为所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度分值。
可选地,作为一个实施例,所述装置还包括:
模型训练单元,用于在所述相似度计算单元73将所述用户问句与所述知识点集合中每个知识点的知识点标题作为预先训练的深度结构化语义模型的输入,得到所述用户问句与所述知识点集合中每个知识点的知识点标题的相似度之前,根据用户问句和反馈的知识点标题的点击曝光日志,将用户问句与用户点击的知识点标题作为一组正样本,将用户问句与用户未点击的知识点标题作为一组负样本,对所述深度结构化语义模型进行训练。
可选地,作为一个实施例,所述确定单元,具体用于:
从所述知识点集合中选取与所述用户问句的相似度最高的知识点标题;
当该知识点标题对应的相似度大于预设阈值时,将该知识点标题对应的知识点确定为与所述用户问句匹配的知识点。
通过本说明书实施例提供的装置,将基于业务导图的匹配模型与深度结构化语义模型二者相结合,将导图的匹配结果作为深度结构化语义模型的输入,通过深度结构化语义模型对导图的匹配结果进行排序选优,能够提升用户问句与知识点的匹配效果,相应地提升智能客服的服务质量。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图3或图6所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图3或图6所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。