发明内容
本说明书一个或多个实施例描述了为用户问题确定答案的方法和装置,从而解决背景技术中提到的至少一个技术问题。
根据第一方面,提供了一种为用户问题确定答案的方法,所述方法包括:采集当前用户问题的相关描述信息;对所述相关描述信息进行分析,以提取所述当前用户问题的第一特征和第二特征,其中,所述第一特征基于对所述相关描述信息的语义分析确定,所述第二特征包括,所述相关描述信息分别与预设的多个标准问题的各个相似度,各个相似度分别基于根据所述多个标准问题确定的参考问题集确定;将所述第一特征和所述第二特征输入预先训练的分类器,根据所述分类器的输出结果确定与所述当前用户问题对应的标准问题,从而将相应标准问题对应的答案反馈给用户。
在一个实施例中,所述当前用户问题的描述信息包括,用户当前在客服平台的对话信息中的上文信息、场景信息中的至少一项。
在一个实施例中,所述相关描述信息分别与预设的多个标准问题的各个相似度通过以下方式确定:将所述相关描述信息分别与参考问题集中的各个参考问题进行匹配,确定相应的各个匹配度,其中参考问题集中的各个参考问题由所述多个标准问题扩展得到,每个标准问题对应至少一个参考问题;分别将各个标准问题对应的至少一个参考问题与所述相关描述信息的匹配度进行融合,以确定所述相关描述信息与各个标准问题分别对应的各个相似度。
在一个实施例中,所述多个标准问题包括第一标准问题,所述第一标准问题对应的至少一个参考问题通过以下至少一种方式扩展得到:通过同义词/近义词替换所述第一标准问题中的至少一个词汇;调换所述第一标准问题中词汇顺序;从预定时间段内的用户问题中选择与所述第一标准问题语义一致的用户问题。
在一个实施例中,所述参考问题集中包括第一参考问题,所述第一参考问题与所述相关描述信息对应的第一匹配度通过以下方式确定:相关描述信息的有效词汇和第一参考问题的有效词汇中的相同词汇数/相关描述信息的有效词汇数和第一参考问题的有效词汇数之和。
在一个实施例中,所述分别将各个标准问题对应的至少一个参考问题与所述相关描述信息的匹配度进行融合,根据各个融合结果确定所述相关描述信息与各个标准问题分别对应的各个相似度包括:将与所述第一标准问题对应的至少一个参考问题与所述相关描述信息的匹配度进行以下至少一种处理:求和、求平均值、取最大值;将处理结果作为所述第一标准问题与所述相关描述信息的第一相似度。
在一个实施例中,所述分类模型通过以下方式训练:将多个用户问题的相关描述信息作为训练样本,每个训练样本中的用户问题的相关描述信息对应有标准问题标签;对每个训练样本,对其相关描述信息进行分析,以提取相应的样本第一特征和样本第二特征;依次对各个训练样本执行以下操作:将相应的样本第一特征和样本第二特征输入选定的分类器,根据分类器的输出结果与对应的标准问题标签的对比,调整分类器参数。
在一个实施例中,所述第一特征通过第一模型提取,所述第一模型和所述分类器一起通过以下方式训练:
将多个用户问题的相关描述信息作为训练样本,每个训练样本中的用户问题的相关描述信息对应有标准问题标签;
对每个训练样本对应的相关描述信息,基于文本匹配确定其分别与各个标准问题的各个相似度,作为相应的样本第二特征;
依次对各个训练样本执行以下操作:将相应的相关描述信息输入选定的第一模型,并将所述第一模型的输出结果和相应样本第二特征一起输入选定的分类器,根据分类器的输出结果与对应的标准问题标签的对比,调整第一模型和分类器参数。
根据第二方面,提供一种为用户问题确定答案的装置,所述装置包括:采集单元,配置为采集当前用户问题的相关描述信息;
提取单元,配置为对所述相关描述信息进行分析,以提取所述当前用户问题的第一特征和第二特征,其中,所述第一特征基于对所述相关描述信息的语义分析确定,所述第二特征包括,所述相关描述信息分别与预设的多个标准问题的各个相似度,各个相似度基于根据所述多个标准问题确定的参考问题集确定;
分类单元,配置为将所述第一特征和所述第二特征输入预先训练的分类器,根据所述分类器的输出结果确定与所述当前用户问题对应的标准问题,从而将相应标准问题对应的答案反馈给用户。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的为用户问题确定答案的方法和装置,在为用户问题确定答案过程中,通过采集当前用户问题的相关描述信息,对其进行分析,提取出与相关描述信息语义相关的第一特征,和基于相关描述信息与预设的多个标准问题的语义匹配的第二特征,并将第一特征和第二特征一起输入分类模型,以确定与所述当前用户问题对应的标准问题。由于在分析用户问题语义特征的基础上,还引入了基于与标准问题的语义匹配的第二特征作为辅助,利用了更多的信息,可以提高对用户问题分类的准确度,进一步地,可以提高所提供的答案的准确度。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。为了便于说明,结合图1示出的本说明书实施例的一个具体适用场景进行说明。图1为本说明书披露的一个实施例的实施场景示意图。在该实施场景中,用户可以通过终端上的各种应用和相应的应用服务端交互,以使用应用所提供的功能。其中,这里的终端可以是诸如计算机、平板电脑、智能手机之类的硬件设备。终端上运行的应用例如是购物类应用、支付类应用、地图类应用等等,这些应用分别可以由相应服务端提供服务。值得说明的是,这里的终端和应用服务器的数量仅为示例,真实架构中可以设置任意数量,在此不作限定。
服务端还可以针对终端应用设置客服平台。客服平台可以射在服务器内,也可以设在和服务器相连接的其他设备上,在此不作限定。客服平台往往用于为用户解决应用使用过程中遇到的各种问题。例如,支付类应用支付不成功却显示扣款成功、借款应用如何还款,等等。客服平台可以获取用户提出的问题,并为用户提供答案。客服平台在针对用户问题提供答案的过程中,要先识别用户问题中包含的真实意图,才能给出更准确的符合用户需求的答案。
由于用户在提出问题时,表达方式和表达习惯各不相同,因此,在客服平台提供的服务中,如何对各种各样的表达样式下的真实问题进行识别,是给出准确答案的关键。常规的为用户问题确定答案的过程中,通常是将用户问题输入预先训练的分类模型,其中分类模型包括特征提取层和分类器,经过特征提取层提取用户问题的特征向量,再经过分类器对特征向量的处理,输出分类结果,该分类结果可以对应到具体的标准问题。根据该具体的标准问题可以确定用户问题的答案。这种分类模型通常直接把每个标准问题对应到一个字符标识,用户问题被分类到某一个字符标识上。因为把标准问题在分类模型里只体现为字符标识,所以没有考虑标准问题的语义信息,比如有两个标准问题是“某借款平台怎么还款”、“某借款平台怎么付款”,他们分别对应的字符标识为“1”、“2”,根据1和2无法理解标准问题的语义信息。
在本说明书实施例中,通过预先设定标准问题,并对标准问题进行扩展,得到参考问题。在为用户问题确定答案的过程中,一方面,对当前用户问题的相关描述信息进行语义分析,提取语义向量作为第一特征,另一方面,根据预设的多个标准问题确定参考问题集,基于参考问题集得到相关描述信息分别与各个标准问题的各个相似度(语义相似度),作为第二特征。通过将第一特征和第二特征经过分类器的分类处理,将当前用户问题归结到某个标准问题,从而将该标准问题的答案作为用户问题的答案。由于第二特征考虑了相关描述信息和各个标准问题在语义上的相似度特征,从而可以提高分类模型的准确度,即为用户问题确定更准确的标准问题。
下面具体描述相关技术方案的实现过程。
图2示出根据一个实施例的为用户问题确定答案的方法流程图。其中,图2示出的方法的执行主体可以是具有一定数据处理能力的计算设备,例如计算机、智能手机、平板电脑等等。该计算设备例如是图1中的服务端。
如图2所示,为用户问题确定答案的方法包括以下步骤:步骤201,采集当前用户问题的相关描述信息;步骤202,对相关描述信息进行分析,以提取当前用户问题的第一特征和第二特征,其中,第一特征基于对相关描述信息的语义分析确定,第二特征包括,相关描述信息分别与预设的多个标准问题的各个相似度,各个相似度分别基于根据上述多个标准问题确定的参考问题集确定;步骤203,将第一特征和第二特征输入预先训练的分类器,根据分类器的输出结果确定与当前用户问题对应的标准问题,并将相应标准问题对应的答案反馈给用户。
首先,在步骤201中,获取当前用户问题的相关描述信息。其中,当前用户问题可以是当前用户遇到的、希望从客服平台得到答案的问题。例如,“在信贷平台的借款逾期了怎么办”等。可以理解,针对相同的用户问题,不同的用户,或者同一用户在不同的环境和状态下,其表述方式都可能不同。例如,一种表述为“借款逾期了怎么办”,另一种表述为“超期咋弄”,等等。用户在当前客服对话中,针对用户问题可能通过一句话进行描述,也可能通过多句话进行描述。这些针对用户问题进行描述的相关信息可以称之为用户问题的相关描述信息。
根据一个可能的设计,相关描述信息可以包括用户当前在客服平台的对话中的上下文信息。这是由于,一些用户在进行问题描述时可能不是通过一句话描述的,例如,用户通过两条信息描述问题:“我超期了”、“怎么还款”。在一些情况下,相关描述信息可以仅包括用户在对话中的上下文信息。在另一些情况下,用户还接受了客服的询问,相关描述信息还可以包括客服方进行询问的相关信息。例如,在申请购物平台客服介入的针对商户的投诉事件中,客服平台给出的问题“和商家协商了吗”,那么针对协商和没有协商,会给出不同的答复。而只采集用户回答的“没有”,无法确定是什么没有,只有和客服平台的前一个问题“和商家协商了吗”联系起来,才能明确此处是“没有和商家协商”,这就需要同时采集用户和客服平台的上下文信息。其中,商户平台上文给出的问题,也可能是用户的前一个问题的答案。该答案可能是通过人工给出的,也可能是通过本说明书实施例的为用户问题确定答案的流程自动给出的,在此不作限定。
根据另一个可能的设计,相关描述信息还可以包括应用场景信息。例如,一个客服平台为某个应用下的多个子应用提供服务时,可能需要明确用户问题是针对哪个子应用的。例如,在某支付平台,可能包括借款子应用和贷款子应用,两个子应用的机制不同,面对相同问题的处理方法也不同,而两者可能面对相同的“还款”问题。一些用户在提出问题时,可能明确指出是在哪个子应用中出现的问题,而一些用户可能不会描述。当用户不描述具体应用场景时,可以通过用户点击客服平台入口的来源页面等确定用户问题对应的场景信息。
接着,在步骤202,对相关描述信息进行分析,以提取当前用户问题的第一特征和第二特征。其中,这里的第一特征可以基于对相关描述信息的语义分析确定。第二特征可以包括,相关描述信息分别与预设的多个标准问题的各个相似度,各个相似度分别基于根据上述多个标准问题确定的参考问题集确定。
这里,对相关描述信息进行语义分析的过程,可以理解为将描述信息转化成语义向量的过程。
在一个实施例中,可以将相关描述信息中各个词汇对应的各个词向量进行叠加、求平均值、对应元素取最大值等中的至少一项处理,作为当前用户问题的第一特征。
在另一个实施例中,可以通过第一模型从相关描述信息中提取语义特征。该第一模型例如可以是循环神经网络、编码神经网络(Encode)等。以编码神经网络为例,可以将相关描述信息中各个词汇的词向量依次在不同时刻输入编码神经网络,得到预定维数的特征向量,作为当前用户问题的第一特征。其中,第一模型可以和分类器或解码神经网络(Decode)等一起训练。第一模型和分类器一起训练的过程将在步骤203中描述。
在其他实施例中,还可以通过其他合理的方式对相关描述信息进行语义,提取出上述第一特征,在此不再赘述。
可以理解,对于一个应用而言,用户遇到的问题通常是有限的,因此,可以预先整理出有限多个标准问题。因为用户针对问题表达方式的不同,可以将每个标准问题进行扩展,得到至少一个参考问题。这些参考问题可以以集合形式存在,也可以以诸如键值(标准问题对应key,扩展的参考问题对应value)之类的其他形式存在,在此不作限定。参考问题集仅用于表示所有的参考问题的整体存在,而不对其形式进行限定。另一方面,就可以利用参考问题集来分析相关描述信息与标准问题之间的语义相似性,提取出第二特征。其中,标准问题可以理解成能够明确表达出询问意图、对应指定答案、区分于其他标准问题的一种提问信息,如“我在借款平台逾期了该怎么还款”等等。在一种实现中,标准问题之间可以相互独立,以免流程执行过程中产生过多的冗余数据。
在一个实施例中,对标准问题可以通过同义词、近义词替换等方式进行扩展,得到参考问题。其中,同义词、近义词可以通过词典中的记载确定,也可以通过词向量相似度确定,在此不作限定。假设标准问题有m个有效词汇,被替换的词数可以从1到m递增,以更全面地覆盖各种扩展方案。当一个词汇有多个同义词、近义词时,还可以对各个同义词、近义词分别给出独立的扩展方案。对各个通过同义词、近义词扩展得到的参考问题,还可以分别进行语序调换、句式变换等,得到新的参考问题。
例如,标准问题“在信贷平台的借款逾期了怎么办”中的“借款”可以替换为“借的钱”、“钱”、“?元”等,“逾期”可以替换为“超期”、“过期”、“过时”、“忘了还”等,“怎么办”可以替换为“咋办”、“咋弄”、“如何是好”等等。则扩展后的参考问题例如是:“在信贷平台借的钱逾期了怎么办”、“钱超期了怎么办”、“钱忘了还咋办”……等等,在此不再一一例举。调换词汇语序例如得到参考问题:“我忘了还钱怎么办”等等。
在另一个实施例中,对标准问题可以通过人工的语义理解进行扩展。例如,人工将预定时间段内(如半年内)的用户问题统计归类到不同的标准问题。这些问题样本就是标准问题对应的参考问题。例如,对于“在信贷平台借的钱逾期了怎么办”、“钱超期了怎么办”、“钱忘了还咋办”、“我忘了还钱怎么办”等等用户问题,人工归类到标准问题“在信贷平台的借款逾期了怎么办”的类别下,即,作为该标准问题对应的参考问题。
可以理解,每个标准问题对应的参考问题至少为一个。在智能客服领域,用户问题也未必一定和专业场景相关。例如,有的用户习惯第一个问题为“在吗?”、“在?”、“有人吗”、“你好”之类的。这些需要客服智能回应的,都可以称之为用户问题。这些不涉及业务的用户问题也可以统一对应到诸如“礼貌语”、“开场语”之类的预定标准问题。
尽管标准问题可以进行各种扩展,生成参考问题,然而,由于个人表达风格的不同,对同一问题还是无法穷举所有问法。因此,根据一个可能的设计,在提取第二特征时,可以先将相关描述信息分别与参考问题集中的各个参考问题进行匹配,确定相应的各个匹配度,再分别将各个标准问题对应的至少一个参考问题与相关描述信息的匹配度进行融合,以确定相关描述信息与各个标准问题分别对应的各个相似度。
其中,各个匹配度可以通过诸如Jaccard系数、余弦相似度之类的文本相似度方法确定。以Jaccard系数为例,将用户问题的相关描述信息和参考问题分别进行切词,并利用TF-IDF(term frequency–inverse document frequency,词频-逆文本频率)指数去停用词处理,得到有效词汇。假设相关描述信息的有效词汇数为M,第一参考问题的有效词汇数为N,M和N中的相同词汇数为L,其中L≤M、N中的最小值。则对所得到的有效词汇进行比对,得到相关描述信息和第一参考问题的第一匹配度Q可以为:L/(M+N)。其中,第一参考问题可以是参考问题集中的任意一个参考问题。
如此,可以确定出每个参考问题与相关描述信息的匹配度。接着,将各个标准问题对应的至少一个参考问题与相关描述信息的匹配度进行融合。可以理解,标准问题对应的参考问题,其实是标准问题的不同表达形式。参考问题与相关描述信息的匹配度,反映出对应的标准问题与用户问题的关联度,这里通过标准问题与相关描述信息的相似度标识。一个标准问题与相关描述信息的相似度可以通过其对应的各个参考问题与相关描述信息的匹配度来表征。
请参考图3,示出一个具体实施方式中的相关描述信息分别与预设的多个标准问题的各个相似度的确定流程。首先可以计算用户问题的相关描述信息与参考问题集中的各个参考问题的匹配度。例如,相关描述信息与参考问题1的匹配度为匹配度1,相关描述信息与参考问2的匹配度为匹配度2……相关描述信息与参考问题s的匹配度为匹配度s。如图3所示,标准问题1可以对应参考问题1、参考问题3、参考问题7,那么标准问题1与用户问题的相关描述信息的相似度可以通过对匹配度1、匹配度3、匹配度7的融合确定。同理,标准问题2与用户问题的相关描述信息的相似度可以通过对匹配度4、匹配度6、匹配度s的融合确定,标准问题t与用户问题的相关描述信息的相似度可以通过对匹配度2、匹配度5确定……
在一些实施例中,对至少一个匹配度的融合可以通过求和方式确定。如图3中,标准问题1与用户问题的相关描述信息的相似度可以是匹配度1、匹配度3与匹配度7的和。求和的融合方法可以考虑对应的各个匹配度的贡献,通常在各个标准问题对应的参考问题数量分布均匀(如相同)的情况下使用,这是因为,在标准问题对应的参考问题数量差异较大时,少量较大匹配度相加和大量较小匹配度相加的结果区分度降低,可能影响结果的准确性。
在一些实施例中,对至少一个匹配度的融合可以通过求平均值方式确定。这种方式可以对标准问题对应的各个参考问题的平均状况进行评估。但是,在匹配度通过Jaccard系数确定的情况下,如果标准问题与个别参考问题的表述差异较大时,可能拉低平均值,造成结果偏差。
在另一些实施例中,对至少一个匹配度的融合可以通过求最大值方式确定。例如图3中,标准问题1与用户问题的相关描述信息的相似度可以是匹配度1、匹配度3、匹配度7中值最大的一个。这种方法可以按照标准问题对应的参考问题的、与相关描述信息匹配度中最大的一个匹配度,来表征标准问题与用户问题的关联度。也就是说,每个标准问题对应的参考问题中,哪个和用户问题最接近,哪个就可以代表该标准问题来表征标准问题与用户问题的关联度。
在其他实施例中,还可以通过其他方法来融合每个标准问题对应的参考问题与用户问题的匹配度,在此不再赘述。在第二特征提取过程中,充分考虑标准问题的语义信息,预先建立了问题知识库,将标准问题进行了扩展,在用户问题匹配过程中充分利用参考问题,综合评估,可以避免句法句式和表达习惯的不同造成的影响,从而提取到更有效的特征。其中,第二特征也可以理解为各个相似度组成的相似度向量。
在步骤203中,将所述第一特征和所述第二特征输入预先训练的分类器,根据所述分类器的输出结果确定于用户问题对应的标准问题,并将相应标准问题对应的答案反馈给用户。其中,分类器可以将第一特征和第二特征进行综合,确定当前用户问题对应到各个标准问题的概率,并输出最大的概率对应的标准问题的字符标识,从而可以根据分类器输出的字符标识确定相应标准问题。分类器例如可以是以下中的至少一个:逻辑回归、支持向量机、Fast Text、卷积神经网络、循环神经网络,等等。
在一个实施例中,上述的分类器训练过程中,可以将多个用户问题的相关描述信息作为训练样本,每个训练样本中的用户问题的相关描述信息对应有人工标注的标准问题标签。对每个训练样本,对其相关描述信息进行分析,以提取相应的样本第一特征和样本第二特征。依次对各个训练样本执行以下操作:将相应的样本第一特征和样本第二特征输入选定的分类器,将分类器的输出结果与对应的标准问题标签进行比较,从而调整分类器的模型参数,使得分类器对应的损失函数的值趋于减小。其中,各个标准问题可以通过字符标识(如1、2、3、4……)表示,标准问题标签可以是相应标准问题的标识(如3)。分类器的输出结果也可以是一个标识(如5),该标识对应相应标准问题。
在另一个实施例中,在第一特征通过第一模型提取的情况下,第一模型的输出就是用户问题的第一特征,第一模型的输出作为分类器的部分输入。此时,第一模型还可以和分类器一起通过以下方式训练:
将多个用户问题的相关描述信息作为训练样本,每个训练样本中的用户问题的相关描述信息对应有标准问题标签;
对每个训练样本对应的相关描述信息,基于文本匹配确定其分别与各个标准问题的各个相似度,作为相应的样本第二特征;
依次对各个训练样本执行以下操作:将相应的相关描述信息输入选定的第一模型,并将第一模型的输出结果和相应样本第二特征一起输入选定的分类器,根据分类器的输出结果与对应的标准问题标签的对比,调整第一模型和分类器参数。
为了更清楚地描述前文涉及的确定用户问题对应的标准问题的一个具体构思,请参考图4所示。如图4所示,对于采集到的用户问题的相关描述信息,一方面,经过第一模型对其提取特征向量,作为当前用户问题的第一特征,另一方面,将其与参考数据及中的参考问题进行匹配,从而确定其与各个标准问题的各个相似度,作为当前用户问题的第二特征。然后,将第一特征和第二特征一起输入训练好的分类器,由分类器给出分类结果。即分类器的输出结果对应着用户问题对应的标准问题。相较于常规技术方案,增加了基于根据标准问题扩展得到的参考数据集提取的第二特征,充分考虑把标准问题的语义特点,提取的特征更有效。
本领域技术人员容易理解,在设置标准问题时,也可以设置对应的答案。例如,标准问题“开场白问题”的答案是“您好,有什么可以帮助您的”,标准问题“在信贷平台的借款逾期了怎么还款”对应的答案是“请联系:400×××××××”;等等。如此,只要确定出当前用户问题对应的标准问题,就可以获取相应的答案,并将答案反馈给提出当前用户问题的用户。
回顾以上过程,在为用户问题确定答案过程中,通过采集当前用户问题的相关描述信息,对其进行分析,提取出与相关描述信息语义相关的第一特征,和基于相关描述信息与预设的多个标准问题的语义匹配的第二特征,并将第一特征和第二特征一起输入分类器,以确定与当前用户问题对应的标准问题。由于在分析用户问题语义特征的基础上,还引入了基于与标准问题的语义匹配的第二特征作为辅助,利用了更多的信息,可以提高对用户问题分类的准确度,进一步地,可以提高所提供的答案的准确度。
根据另一方面的实施例,还提供一种为用户问题确定答案的装置。该装置例如可以设于图1示出的服务端或客服平台。图5示出根据一个实施例的为用户问题确定答案的装置的示意性框图。如图5所示,装置500包括:采集单元51,配置为采集当前用户问题的相关描述信息;提取单元52,配置为对相关描述信息进行分析,以提取当前用户问题的第一特征和第二特征,其中,第一特征基于对相关描述信息的语义分析确定,第二特征包括,相关描述信息分别与预设的多个标准问题的各个相似度,各个相似度基于根据多个标准问题确定的参考问题集确定;分类单元53,配置为将第一特征和第二特征输入预先训练的分类器,根据分类器的输出结果确定与当前用户问题对应的标准问题,并将相应标准问题对应的答案反馈给用户。
在一个实施例中,当前用户问题的描述信息包括,用户当前在客服平台的对话信息中的上文信息、场景信息中的至少一项。
根据一个实施方式,装置500还包括匹配单元和融合单元(未示出),配置为通过以下方式确定相关描述信息分别与预设的多个标准问题的各个相似度:
匹配单元将相关描述信息分别与参考问题集中的各个参考问题进行匹配,确定相应的各个匹配度,其中参考问题集中的各个参考问题由预定的多个标准问题扩展得到,每个标准问题对应至少一个参考问题;
融合单元分别将各个标准问题对应的至少一个参考问题与相关描述信息的匹配度进行融合,以确定相关描述信息与各个标准问题分别对应的各个相似度。
在进一步的实施方式中,装置500还包括扩展单元(未示出),配置为:
针对第一标准问题,通过以下至少一种方式扩展得到对应的至少一个参考问题:
通过同义词/近义词替换第一标准问题中的至少一个词汇;
调换第一标准问题中词汇顺序;
从预定时间段内的用户问题中选择与第一标准问题语义一致的用户问题。
假设参考问题集中的任一参考问题为第一参考问题,根据一个可能的设计,匹配单元还可以配置为通过以下方式确定第一参考问题与相关描述信息对应的第一匹配度:
相关描述信息的有效词汇和第一参考问题的有效词汇中的相同词汇数/相关描述信息的有效词汇数和第一参考问题的有效词汇数之和。
在一个进一步的实施例中,融合单元还可以配置为:
将与第一标准问题对应的至少一个参考问题与相关描述信息的匹配度进行以下至少一种处理:求和、求平均值、取最大值;
将处理结果作为第一标准问题与相关描述信息的第一相似度。
根据一个实施方式,装置500还包括第一训练单元(未示出),配置为通过以下方式训练所述分类器:
将多个用户问题的相关描述信息作为训练样本,每个训练样本中的用户问题的描述信息对应有标准问题标签;
对每个训练样本,将其相关描述信息进行分析,以提取相应的样本第一特征和样本第二特征;
依次对各个训练样本执行以下操作:将相应的样本第一特征和样本第二特征输入选定的分类器,根据分类器的输出结果与对应的标准问题标签的对比,调整分类器参数。
在一个实施例中,第一特征通过第一模型提取,装置500还可以包括第二训练单元(未示出),配置为通过以下方式训练第一模型和分类器:
将多个用户问题的相关描述信息作为训练样本,每个训练样本中的用户问题的相关描述信息对应有标准问题标签;
对每个训练样本对应的相关描述信息,基于文本匹配确定其分别与各个标准问题的各个相似度,作为相应的样本第二特征;
依次对各个训练样本执行以下操作:将相应的相关描述信息输入选定的第一模型,并将第一模型的输出结果和相应样本第二特征一起输入选定的分类器,根据分类器的输出结果与对应的标准问题标签的对比,调整第一模型和分类器参数。
值得说明的是,图5所示的装置500是与图2示出的方法实施例相对应的装置实施例,图2示出的方法实施例中的相应描述同样适用于装置500,在此不再赘述。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。