CN114757208A

CN114757208A - 一种问答匹配方法及装置

Info

Publication number: CN114757208A
Application number: CN202210654462.XA
Authority: CN
Inventors: 赵斌斌
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2022-07-15
Anticipated expiration: 2042-06-10
Also published as: CN114757208B

Abstract

本申请实施例提供一种问答匹配方法及装置，涉及人工智能领域，可以提高匹配得到的目标问题的正确率，从而提高给用户反馈的答案的准确性。该方法包括：获取查询文本信息；基于查询文本信息、查询文本信息的句向量，在预设的知识库中进行检索，获得召回结果候选集，召回结果候选集包括N个候选问题，N个候选问题为与查询文本信息相同或相似的标准问题；获取查询文本信息与第i个候选问题的至少两个相似度，基于查询文本信息与第i个候选问题的至少两个相似度，计算查询文本信息与第i个候选问题的融合相似度；基于N个候选问题的N个融合相似度从N个候选问题中筛选得到目标问题；输出目标问题对应的答案。

Description

一种问答匹配方法及装置

技术领域

本申请涉及人工智能（artificial intelligence，AI）领域，尤其涉及一种问答匹配方法及装置。

背景技术

随着互联网的发展，智能客服得到了快速发展。智能客服可以为企业与海量用户之间建立一种基于自然语言的快捷有效的沟通方式，目前已在各个行业广泛应用。在智能客服收到用户问题后，可以匹配该用户问题对应的标准语料，基于标准语料从知识库中查询到相应的答案并返回给用户，使得用户可以自助查询，无需等待人工客服。

目前，智能客服采用一问一答的方式，而用户常常采用多轮问答的方式进行询问，这会导致有些用户问题缺乏主语，导致智能客服无法准确匹配出该用户问题对应的标准语料；另外，客服主要能够识别用户问题的字词等表层语义特征，缺乏对用户问题的深度语义的识别能力，导致其匹配出的标准语料的准确率不高，且并不对匹配出的标准语料进行筛选。

可见，现有技术存在智能客服匹配出的与用户问题对应的标准语料准确率不高，进而导致给用户反馈的答案准确率较低的问题。

发明内容

本申请实施例提供一种问答匹配方法及装置，以提高问答结果的准确率。

为达到上述目的，本申请的实施例采用如下技术方案：

第一方面，提供了一种问答匹配方法，该方法包括：获取查询文本信息；基于查询文本信息、查询文本信息的句向量，在预设的知识库中进行检索，获得召回结果候选集，召回结果候选集包括N个候选问题，N个候选问题为与查询文本信息相同或相似的标准问题；获取查询文本信息与第i个候选问题的至少两个相似度，至少两个相似度包括查询文本信息与第i个候选问题匹配的概率以及查询文本信息与第i个候选问题不匹配的概率，i≤N；基于查询文本信息与第i个候选问题的至少两个相似度，计算查询文本信息与第i个候选问题的融合相似度；基于N个候选问题的N个融合相似度从N个候选问题中筛选得到目标问题；输出目标问题对应的答案。

其中，在计算融合相似度时，需要同时考虑候选问题与查询文本信息匹配的情况和不匹配的情况，这样既可以找到与查询文本信息相似的候选问题，又可以排除多个候选问题中明显与查询文本信息不相关（也可以理解为不匹配）的问题，提高匹配得到的目标问题的正确率，从而提高给用户反馈的答案的准确性。

在一种可能的实现方式中，至少两个相似度包括查询文本信息与第i个候选问题的第一相似度，以及如下相似度中的至少一种：查询文本信息的句向量与第i个候选问题的句向量的第二相似度、查询文本信息中预设类型的词语与第i个候选问题中预设类型的词语的第三相似度，或查询文本信息所属的主题与第i个候选问题所属的主题的第四相似度，其中，第一相似度用于指示查询文本信息与第i个候选问题不匹配的概率，第二相似度、第三相似度以及第四相似度用于指示查询文本信息与第i个候选问题匹配的概率。

在一种可能的实现方式中，获取查询文本信息与第i个候选问题的至少两个相似度包括：基于查询文本信息、查询文本信息的句向量，在预设的负样本库中进行检索，获得排斥问题集，预设的负样本库包括用户查询过的历史问题及被标注为与历史问题不匹配的标准问题，排斥问题集包括负样本库中第一问题所对应的标准问题，第一问题为与查询文本信息匹配的历史问题；若排斥问题集与召回结果候选集不存在交集，确定查询文本信息与第i个候选问题的第一相似度为0；若排斥问题集与召回结果候选集存在交集，且第i个候选问题包含于交集，计算查询文本信息与第i个候选问题所对应的历史问题的第五相似度，根据第五相似度确定第一相似度；其中，若第五相似度大于或等于预设的第一阈值，确定查询文本信息与第i个候选问题的第一相似度为第五相似度；若第五相似度小于第一阈值，确定查询文本信息与第i个候选问题的第一相似度为0；若排斥问题集与召回结果候选集存在交集，且第i个候选问题不包含于交集，确定查询文本信息与第i个候选问题的第一相似度为0。

例如，负样本库中预先存储有历史语句1和标准语句1，且该标准语句1与历史语句1的语义并不相似。在查询文本信息与历史语句1可能相似，且召回结果候选集中包括该标准语句1（第i个候选问题）的情况下，若查询文本信息与历史语句1的相似度（第五相似度）大于或等于第一阈值，表明查询文本信息与历史语句1较为相似，则标准语句1的语义与查询文本信息的语义也不相似；若查询文本信息与历史语句1的相似度小于第一阈值，表明查询文本信息的语义与历史语句1的语义相似，从而无法排除该标准语句1。

在一种可能的实现方式中，获取查询文本信息包括：获取用户输入的原始问题；若原始问题中包括目标对象，将原始问题作为查询文本信息，目标对象为第一类型的词语；若原始问题中不包括目标对象且原始问题与预设的知识库不匹配，获取历史用户问题，历史用户问题包括在获取原始问题前的预设数量轮问答过程中用户输入的问题；若历史用户问题包括目标对象，基于目标对象与原始问题生成查询文本信息；若历史用户问题不包括目标对象，将原始问题作为查询文本信息。

也就是说，在原始问题中不包括目标对象（第一类型的词语）时，电子设备可以尝试从原始问题的上文中查找目标对象，并给该原始问题补充目标对象，避免由于缺少主题而导致查询结果不准确的问题。其中，该上文指用户在输入原始问题前的预设数量轮问答过程中所输入的历史用户问题（例如，在原始问题的前三个问题），且历史用户问题的输入时间与原始问题的输入时间的时间差应小于或等于预设数值，这样可以确保电子设备查询的上文与原始问题为用户在同一段时间的不同时刻发起的问题，具备关联性的概率更高。

在一种可能的实现方式中，方法还包括：基于预设的领域词典构建后缀树，预设的领域词典包括多个词条的标准名词、每个标准名词对应的同义词，以及每个标准名词所属的类型；基于后缀树，对原始问题进行最长子串匹配得到第一词条；基于第一词条，在预设的领域词典中查询得到第一标准名词；根据第一标准名词，在预设的领域词典中查询得到第一标准名词所属的类型；若第一标准名词所属的类型为第一类型，则原始问题中包括目标对象；若第一标准名词所属的类型不为第一类型，则原始问题中不包括目标对象。

在一种可能的实现方式中，获取查询文本信息与第i个候选问题的至少两个相似度包括：计算查询文本信息与第i个候选问题的第一特征相似度；计算第一文本与第i个候选问题的第二特征相似度，第一文本为对查询文本信息进行同义词改写后的文本；将第一特征相似度与第二特征相似度的均值作为第三相似度。

在一种可能的实现方式中，查询文本信息包括M1个特征词，第i个候选问题包括M2个特征词，特征词为预设类型的词语，每个特征词对应一个特征词类型，计算查询文本信息与第i个候选问题的第一特征相似度包括：判断M1个特征词与M2个特征词是否存在第一交集，第一交集包括Z1个第一特征词组，每个第一特征词组对应一个特征词类型，Z1个第一特征词组中的第j个第一特征词组包括Pj个特征词，Pj个特征词对应的类型相同，Z1≤min（M1，M2），j≤Z1；若M1个特征词与M2个特征词不存在第一交集，确定查询文本信息与第i个候选问题的第一特征相似度为0；若M1个特征词与M2个特征词存在第一交集，根据预设的第一算式确定查询文本信息与第i个候选问题的第一特征相似度，预设的第一算式为：

其中，

为所述第一特征相似度，

为所述Pj个特征词对应的特征词类型的初始得分。

示例性的，查询文本信息为“产品50多少钱”，其包括两个特征词，分别为“产品50”和“多少钱”，其中“产品50”对应的类型为产品型号，“多少钱”对应的特征词类型为参数。第i个候选问题为“产品60什么时候发货”，其也包括两个特征词，分别为“产品60”和“发货”，其中“产品60”对应的类型为产品型号，“发货”对应的特征词类型为快递。则由于查询文本信息与第i个候选问题仅包括特征词类型为产品型号的特征词，但特征词类型同为产品型号的“产品50”和“产品60”并不相同，使得“产品50多少钱”与“产品60什么时候发货”不存在第一交集，查询文本信息“产品50多少钱”与第i个候选问题“产品60什么时候发货”的第一特征相似度为0。

在一种可能的实现方式中，第一文本包括M3个特征词，第i个候选问题包括M2个特征词，特征词为预设类型的词语，每个特征词对应一个特征词类型，计算第一文本与第i个候选问题的第二特征相似度包括：判断M3个特征词与M2个特征词是否存在第二交集，第二交集包括Z2个第二特征词组，每个第二特征词组对应一个特征词类型，Z2个第二特征词组中的第k个第二特征词组包括Q_k个特征词，Q_k个特征词对应的特征词类型相同，Z2≤min（M3，M2），k≤Z2；若M3个特征词与M2个特征词不存在第二交集，确定查询文本信息与第i个候选问题的第二特征相似度为0；若M3个特征词与M2个特征词存在第二交集，根据预设的第二算式确定查询文本信息与第i个候选问题的第二特征相似度，预设的第二算式为：

其中，

为第二特征相似度，

为第k个第二特征词组对应的特征词类型的初始得分。

在一种可能的实现方式中，基于查询文本信息、查询文本信息的句向量，在预设的知识库中进行检索，获得召回结果候选集包括：基于查询文本信息，在预设的知识库中查询得到第一召回结果集，第一召回结果集包括与查询文本信息完全匹配的标准问题；基于查询文本信息，在预设的知识库中查询得到第二召回结果集，第二召回结果集包括与查询文本信息相同或相似词语的标准问题；基于查询文本信息的句向量，在预设的知识库中查询得到第三召回结果集，第三召回结果集包括与查询文本信息语义相同或相似的标准问题；对第一召回结果集、第二召回结果集、第三召回结果集进行合并去重处理，获得召回结果候选集。

可以看出，召回模块可以基于查询文本信息，在预设的知识库中进行字词检索得到字词召回结果（包括第一召回结果、第二召回结果），以及基于查询文本信息的句向量在预设的知识库中进行语义检索得到语义召回结果（包括第三召回结果），从而得到了根据字词、语义两路召回的结果，使候选问题更加丰富且准确。

在一种可能的实现方式中，基于查询文本信息与第i个候选问题的至少两个相似度，计算查询文本信息与第i个候选问题的融合相似度包括：按照预设的权重系数对至少两个相似度进行加权求和，得到融合相似度。

在一种可能的实现方式中，第i个候选问题包括第一目标对象，查询文本信息包括第二目标对象，第一目标对象与第二目标对象均为第一类型的词语，方法还包括：比较第一目标对象与第二目标对象是否相同；若第一目标对象与第二目标对象不同，将第i个候选问题从召回结果候选集中剔除。可以理解地，第一目标对象与第二目标对象不同表明，第i个候选问题与查询文本信息所要查询的目标对象不相同，将第i个候选问题从召回结果候选集中剔除可以进一步剔除不准确的候选问题，提升匹配准确度。

在一种可能的实现方式中，目标问题的融合相似度为N个候选问题的融合相似度中的最大值，且目标问题的融合相似度大于或等于预设的第二阈值。也就是说，目标问题需要满足两个条件，一是融合相似度最大，二是融合相似度大于或等于第二阈值；若不存在目标问题，则电子设备不输出答案。

在一种可能的实现方式中，方法还包括：取输出N个候选问题中，融合相似度大于或等于预设的第三阈值的前R个候选问题作为相似问候选集，R为电子设备可输出的候选问题的最大数量；若相似问候选集包括目标问题，输出相似问候选集中除目标问题以外的其他候选问题；若相似问候选集不包括目标问题，输出相似问候选集所包括的候选问题。

第二方面，本申请提供一种计算机可读存储介质，该计算机可读存储介质包括计算机指令。当计算机指令在电子设备（如手机）上运行时，使得该电子设备执行如第一方面及其任一种可能的设计方式所述的方法；

或者，当计算机指令在服务器上运行时，使得该服务器执行如第一方面及其任一种可能的设计方式所述的方法。

第三方面，本申请提供一种问答匹配装置，包括处理器，处理器和存储器耦合，存储器存储有程序指令，当存储器存储的程序指令被处理器执行时使得所述装置实现上述第一方面及其任一种可能的设计方式所述的方法。所述装置可以为电子设备或服务器设备；或可以为电子设备或服务器设备中的一个组成部分，如芯片。

可以理解地，上述提供的第二方面所述的计算机可读存储介质，第三方面所述的问答匹配装置所能达到的有益效果，可参考如第一方面及其任一种可能的设计方式中的有益效果，此处不再赘述。

附图说明

图1为本申请实施例提供的一种智能问答的界面图；

图2为本申请实施例提供的一种电子设备的结构示意图；

图3为本申请实施例提供的一种电子设备的软件结构示意图；

图4为本申请实施例提供的一种问答匹配方法的处理过程示意图；

图5为本申请实施例提供的一种问答匹配方法的处理过程示意图；

图6为本申请实施例提供的一种对原始问题进行预处理的过程示意图；

图7为本申请实施例提供的一种后缀树的示意图；

图8为本申请实施例提供的一种对预处理后的原始问题进行语义解析的过程示意图；

图9为本申请实施例提供的一种上文实体继承过程的流程图；

图10为本申请实施例提供的一种获取召回结果候选集的过程示意图；

图11为本申请实施例提供的一种对多个候选问题进行融合排序的过程示意图；

图12为本申请实施例提供的一种确定排斥问相似度的过程示意图；

图13为本申请实施例提供的一种芯片系统的结构示意图。

具体实施方式

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

智能客服为企业和海量用户提供了有效、快捷的沟通方式，在各行各业应用广泛。智能客服可以接收用户输入的问题，并向用户反馈该问题的答案。示例性的，如图1所示，手机可以显示智能客服的界面10，用户可以在该界面10输入问题，例如为“产品50支持5G吗”。响应于接收到该问题，智能客服可以返回答案，例如“产品50支持5G”。

智能客服还可以向用户反馈与用户输入的问题相似的问题，例如“产品50支持的网络”、“产品服务活动日”等。但智能客服并不会对查找到的相似的问题加以筛选，导致给用户反馈的相似问题与用户问题的关联度不高。例如，“产品服务活动日”与用户输入的问题“产品50支持5G吗”的关联度明显不高。

另一方面，目前智能客服采用一问一答的方式，无法满足用户的问询需求。例如在图1中，用户先询问“产品50支持5G吗”，再询问“多少钱”，结合语义可知用户实际上想知道“产品50多少钱”。但由于智能客服采用一问一答的方式，其仅能对“多少钱”进行识别并匹配，无法查找到匹配结果，影响用户体验。

本申请实施例提供一种问答匹配方法，可以获取与原始问题具有相同或相似语义的多个候选问题，并基于原始问题与候选问题的相似概率以及不相似概率从多个候选问题中找到与原始问题最为相似的候选问题作为目标问题，并输出目标问题对应的答案。通过同时考虑候选问题与原始问题匹配的情况和不匹配的情况，这样既可以找到与原始问题相似的候选问题，又可以排除多个候选问题中明显与原始问题不相关（也可以理解为不匹配）的问题，提高匹配得到的目标问题的正确率，从而提高给用户反馈的答案的准确性。

其中，查询文本信息与第i个候选问题的第二相似度为查询文本信息的句向量与第i个候选问题的句向量的相似度，查询文本信息与第i个候选问题的第三相似度为查询文本信息中预设类型的词语与第i个候选问题中预设类型的词语的相似度，查询文本信息与第i个候选问题的第四相似度查询文本信息所属的主题与第i个候选问题所属的主题的相似度。

本申请实施例提供的问答匹配方法可应用于电子设备。电子设备例如可以为手机、平板电脑、台式机（桌面型电脑）、手持计算机、笔记本电脑（膝上型电脑）、超级移动个人计算机（ultra-mobile personal computer，UMPC）、上网本、个人数字助理（personaldigital assistant，PDA）、增强现实（augmented reality，AR）\虚拟现实（virtualreality，VR）设备等，本申请实施例对电子设备的具体形态不作特殊限制。或者，本申请实施例提供的问答匹配方法可以应用于服务器设备。

如图2所示，上述电子设备具体可以为手机。手机可以包括：处理器210，外部存储器接口220，内部存储器221，通用串行总线（universal serial bus，USB）接口230，充电管理模块240，电源管理模块241，电池242，天线1，天线2，移动通信模块250，无线通信模块260，音频模块270，扬声器270A，受话器270B，麦克风270C，耳机接口270D，传感器模块280，按键290，马达291，指示器292，摄像头293，显示屏294，以及用户标识模块（subscriberidentification module，SIM）卡接口295等。

其中，上述传感器模块280可以包括压力传感器，陀螺仪传感器，气压传感器，磁传感器，加速度传感器，距离传感器，接近光传感器，指纹传感器，温度传感器，触摸传感器，环境光传感器和骨传导传感器等传感器。

可以理解的是，本实施例示意的结构并不构成对手机的具体限定。在另一些实施例中，手机可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括应用处理器（application processor，AP），调制解调处理器，图形处理器（graphics processingunit，GPU），图像信号处理器（image signal processor，ISP），控制器，存储器，视频编解码器，数字信号处理器（digital signal processor，DSP），基带处理器，和/或神经网络处理器（neural-network processing unit，NPU）等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以是手机的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器210中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器210中的存储器为高速缓冲存储器。该存储器可以保存处理器210刚用过或循环使用的指令或数据。如果处理器210需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器210的等待时间，因而提高了系统的效率。

在一些实施例中，处理器210可以包括一个或多个接口。接口可以包括集成电路（inter-integrated circuit，I2C）接口，集成电路内置音频（inter-integrated circuitsound，I2S）接口，脉冲编码调制（pulse code modulation，PCM）接口，通用异步收发传输器（universal asynchronous receiver/transmitter，UART）接口，移动产业处理器接口（mobile industry processor interface，MIPI），通用输入输出（general-purposeinput/output，GPIO）接口，用户标识模块（subscriber identity module，SIM）接口，和/或通用串行总线（universal serial bus，USB）接口等。

可以理解的是，本实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对手机的结构限定。在另一些实施例中，手机也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块240用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。充电管理模块240为电池242充电的同时，还可以通过电源管理模块241为终端设备供电。

电源管理模块241用于连接电池242，充电管理模块240与处理器210。电源管理模块241接收电池242和/或充电管理模块240的输入，为处理器210，内部存储器221，外部存储器，显示屏294，摄像头293，和无线通信模块260等供电。在一些实施例中，电源管理模块241和充电管理模块240也可以设置于同一个器件中。

手机的无线通信功能可以通过天线1，天线2，移动通信模块250，无线通信模块260，调制解调处理器以及基带处理器等实现。在一些实施例中，手机的天线1和移动通信模块250耦合，天线2和无线通信模块260耦合，使得手机可以通过无线通信技术与网络以及其他设备通信。

天线1和天线2用于发射和接收电磁波信号。手机中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块250可以提供应用在手机上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块250可以包括至少一个滤波器，开关，功率放大器，低噪声放大器（lownoise amplifier，LNA）等。移动通信模块250可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。

移动通信模块250还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块250的至少部分功能模块可以被设置于处理器210中。在一些实施例中，移动通信模块250的至少部分功能模块可以与处理器210的至少部分模块被设置在同一个器件中。

无线通信模块260可以提供应用在手机上的包括WLAN（如（wireless fidelity，Wi-Fi）网络），蓝牙（bluetooth，BT），全球导航卫星系统（global navigation satellitesystem，GNSS），调频（frequency modulation，FM），近距离无线通信技术（near fieldcommunication，NFC），红外技术（infrared，IR）等无线通信的解决方案。

无线通信模块260可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块260经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器210。无线通信模块260还可以从处理器210接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

手机通过GPU，显示屏294，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏294和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器210可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏294用于显示图像，视频等。该显示屏294包括显示面板。

手机可以通过ISP，摄像头293，视频编解码器，GPU，显示屏294以及应用处理器等实现拍摄功能。ISP 用于处理摄像头293反馈的数据。摄像头293用于捕获静态图像或视频。在一些实施例中，手机可以包括1个或N个摄像头293，N为大于1的正整数。

外部存储器接口220可以用于连接外部存储卡，例如Micro SD卡，实现扩展手机的存储能力。外部存储卡通过外部存储器接口220与处理器210通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器221可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器210通过运行存储在内部存储器221的指令，从而执行手机的各种功能应用以及数据处理。例如，在本申请实施例中，处理器210可以通过执行存储在内部存储器221中的指令，内部存储器221可以包括存储程序区和存储数据区。

其中，存储程序区可存储操作系统，至少一个功能所需的应用程序（比如声音播放功能，图像播放功能等）等。存储数据区可存储手机使用过程中所创建的数据（比如音频数据，电话本等）等。此外，内部存储器221可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器（universal flashstorage，UFS）等。

手机可以通过音频模块270，扬声器270A，受话器270B，麦克风270C，耳机接口270D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

按键290包括开机键，音量键等。按键290可以是机械按键。也可以是触摸式按键。马达291可以产生振动提示。马达291可以用于来电振动提示，也可以用于触摸振动反馈。指示器292可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。SIM卡接口295用于连接SIM卡。SIM卡可以通过插入SIM卡接口295，或从SIM卡接口295拔出，实现和手机的接触和分离。手机可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口295可以支持Nano SIM卡，Micro SIM卡，SIM卡等。

本申请实施例提供的手机上可以分布有问答匹配架构。如图3所示，该问答匹配架构包括应用层、服务层和数据层。

其中，应用层包括浏览器、产品商城、智能IP等应用，这些应用可以为用户提供用户向智能客服输入问题的客户端页面。

服务层可包括预处理模块、语义解析模块、召回模块以及融合排序模块等。

其中，预处理模块用于对用户输入的原始问题进行分词处理、去停用词处理、同义词改写等预处理操作。

语义解析模块用于识别原始问题中的实体、核心词，以及在原始问题中不包括第一类型的实体（也可以称为目标对象）时，尝试从历史用户问题中查找第一类型的实体，并基于查找到的第一类型的实体和原始问题生成查询文本信息。语义解析模块还可以得到查询文本信息的句语义向量（简称为，句向量）。

召回模块用于基于查询文本信息以及查询文本信息的句向量在数据层中进行查询，得到召回结果候选集，该召回结果候选集包括N个候选问题，N个候选问题为与查询文本信息相同或相似的标准问题。

融合排序模块用于从多维度计算N个候选问题和查询文本信息的相似度，并基于N个候选问题和查询文本信息的相似度进行排序，查找到目标问题，以便查询该查询文本信息对应的答案。

数据层包括领域词典、知识库、负样本库等数据库。其中，领域词典包括在某个垂直领域（例如，数码产品、金融、医疗等领域）的专有名词、专业术语（也可以称为标准名词）及其对应的同义词。示例性的，“多少钱”可以对应专有名词“售价”，“50”可以对应专有名词“产品50”。

知识库包括在某个垂直领域下的大量标准问答对，每个标准问答对包括标准问题及其对应的答案。例如，“产品商城发什么快递”与“一般发**快递”可以为一组标准问答对，其中“产品商城发什么快递”为标准问题，“一般发**快递”为对应的答案。

负样本库包括多组标注问题对。每组标注问题对包括历史问题与第一标准问题，该第一标准问题的答案被标注为与该历史问题不匹配。电子设备可以根据历史问答记录建立历史问题与标准问题之间的匹配关系。示例性的，在用户输入原始问题1后，电子设备可以输出答案1，其中，该原始问题1与该答案1对应的标准问题1建立匹配关系。若某个历史问题不能够使用与其匹配的标准问题的答案进行回复，则该历史问题与对应的标准问题（即第一标准问题）可构成一组标注问题对。例如，若该答案1并不能回答该原始问题1，则原始问题1与标准问题1构成一组标注问题对。

在一种可选的实施方式中，可以由运营工作人员手动检验历史问题是否能够使用与其匹配的标准问题的答案进行回复，并向负样本库中添加标注问题对。在另一种可选的实施方式中，用户接收到电子设备返回的答案后，可以手动反馈该答案是否能够解答自己输入的原始问题，若电子设备接收到用户反馈该答案不能解答自己输入的原始问题的操作，电子设备可以将该原始问题与该答案所对应的标准问题作为一组标注问题对，并将其添加至负样本库。也就是说，本申请实施例提供的负样本库可以进行更新。

为了便于理解，下面结合附图对本申请实施例提供的问答匹配方法进行具体介绍。

在一些实施例中，如图4及图5所示，问答匹配方法的流程可以包括：用户在智能客服界面输入原始问题后，将原始问题输入预处理模块得到预处理后的原始问题（经预处理后的原始问题更加规范、结构化）；再将预处理后的原始问题输入语义解析模块，得到查询文本信息（查询文本信息包括原始问题的内容）以及该查询文本信息的句向量；接着将查询文本信息以及该查询文本信息的句向量输入召回模块得到多个候选问题（候选问题为与查询文本信息具有相同语义的标准问题）；再将多个候选问题输入融合排序模块，得到多个候选问题的分数以及排名；最终基于多个候选问题的分数以及排名输出与原始问题匹配的答案。

其中，如图6所示，该预处理模块可以对原始问题进行分词、同义词改写、去停用词等等处理。具体的，预处理模块可以基于领域词典，将原始问题划分为多个单独的词语，便于后文进行实体识别。例如，原始问题为“产品50的屏幕是多大”，对原始问题进行分词处理后可以得到“产品50”、“屏幕”、“多大”这三个词语。在一种可选的实施方式中，可以用“[产品50，屏幕，多大]”来表示进行分词处理后的结果。

预处理模块还可以基于领域词典对原始问题进行同义词改写，得到改写后的问题。同义词改写可以将原始问题改写为与其具有相同语义的文本（例如，第一文本），其目的在于将原始问题中较为口语化的文本改写为相对规范标准化的文本，以便更好地匹配知识库中的标准问题。例如，领域词典中预先存储了“多少钱”与“售价”为一对同义词，其中“售价”为标准名词。若原始问题为“产品50多少钱”，预处理模块可以将“多少钱”改写为“售价”，得到改写后的问题“产品50售价”。

在一种可选的实施方式中，预处理模块可以基于领域词典构建后缀树。领域词典包括多组同义词，每组同义词包括表述规范的标准名词和与其具有相同语义但表述方式并不相同的词语；后缀树包括多个分支，每个分支对应一个词语（包括标准名词以及对应的同义词）。基于该后缀树，预处理模块可以对原始问题进行最长子串匹配得到原始问题中的第一词条，该第一词条为原始问题和领域词典中均包括的字符串。预处理模块可以在领域词典中查找到该第一词条的同义词，基于第一词条的同义词对原始问题进行改写。示例性的，领域词典可包括如表1所示的词条：

表1

其中，根据该领域词典构建得到的后缀树可以如图7所示。如图7所示，该后缀树包括6个分支，6个分支分别对应产品50、50、prodoct50、产品60plus、prodoct60 plus和60plus这6个词语。若基于该后缀树，对原始问题为“50现在卖多少钱”进行最长子串匹配，可以得到匹配结果[（50，word），现在卖多少钱]。其中，用word标识“50”，以表征“50”为匹配得到的第一词条。基于表1，可以查找到“50”对应的标准名词为“产品50”。如此，可以得到改写后的问题为“产品50现在卖多少钱”。

需要说明的是，表1仅为示例，领域词典可包括比表1所示的更多的标准名词及其对应的同义词。相应地，后缀树也可包括比图7中所示的更多分支。

预处理模块还可以对原始问题进行去停用词处理。去停用词处理可以去除原始问题中的敏感词汇、已经停止使用的词汇等，避免出现问题不合规的情况。

另外，本申请实施例并不限定上述几种预处理方式的顺序，预处理模块按照一定顺序对原始问题进行分词处理、同义词改写以及去停用词处理，或者也可以同时进行，在此不做具体限制。

在得到进行预处理的原始问题后，可以将预处理后的原始问题输入语义解析模块，得到查询文本信息以及查询文本信息的句向量。下面结合图8具体说明语义解析模块对预处理后的原始问题进行语义解析的流程。

如图8所示，语义解析模块可以对预处理后的原始问题进行命名实体识别（namedentity recognition，NER）。命名实体识别又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括产品名称、产品参数、地点等专有名称和有意义的时间、日期等。语义解析模块还可以确定实体的类型，该类型可以包括时间、地点、人名、地名、产品类型、产品参数等。例如，可以对“产品50的售价是多少”进行实体识别，可以得到[产品50（产品型号），售价（产品参数），是多少]，其中，“产品50”及“售价”均为实体，“产品50”所属的类型为产品型号，“售价”所属的类型为“产品参数”。在一种可选的实施方式中，预设的领域词典还存储有各种实体及其对应的类型，语义解析模块可以在解析得到实体后，基于该预设的领域词典确定实体的类型。

语义解析模块可以将特定类型的词语（实体）作为核心词。在本申请实施例中，特定类型可以包括产品型号、产品参数等。筛选核心词的作用是便于召回模块查找与原始问题相似的标准问题，详情参见后文，在此暂不描述。

语义解析模块还具备上文实体继承的功能。上文实体继承可以理解为：当原始问题中不包括第一类型的实体时，若在上文中查询到第一类型的实体，可以给该原始问题添加查询到的第一类型的实体。具体的，图9示出了语义解析模块进行上文实体继承的流程图。如图9所示，该流程包括：

S801，判断原始问题中是否包括目标对象。

若原始问题中包括目标对象，执行S807；若原始问题中不包括目标对象，执行S802。

其中，目标对象可以理解为第一类型的实体。在本申请实施例中，第一类型可指产品型号，该目标对象也可以称为产品词。例如，原始问题为“产品60的屏幕尺寸多大”，语义解析模块可以确定该原始问题中包括目标对象，该目标对象为“产品60”。又例如，原始问题为“多少钱”，语义解析模块可以确定该原始问题中不包括目标对象。可以理解地，若原始问题中不包括目标对象，电子设备便难以区分用户的真实意图。这种情况下，电子设备可以执行S802，尝试从上文提取用户所要查询的对象。

S802，判断原始问题是否属于闲聊。

若原始问题属于闲聊，执行S807；若原始问题不属于闲聊，执行S803。

在本申请实施例中，语义解析模块可以将该原始问题输入预先训练好的闲聊分类模型，以确定该原始问题是否为闲聊。闲聊包括“您好”、“今天天气好吗”等与产品不相关的内容，不包含实际意义。

S803，判断原始问题是否与预设的知识库匹配。

若原始问题与预设的知识库匹配，执行S807；若原始问题与预设的知识库不匹配；执行S804。

其中，原始问题与预设的知识库匹配可以理解为，在预设的知识库中可以查询到与原始问题相同的标准问题。若原始问题与预设的知识库匹配，则表明不需要目标对象也可以查询到该原始问题对应的答案，无需进行实体继承。

S804，判断是否存在历史用户问题。

若不存在历史用户问题，执行S807；若存在历史用户问题，执行S805。

其中，历史用户问题包括在获取原始问题前的预设数量轮问答过程中用户输入的问题。示例性的，仍然如图1所示，电子设备显示界面10，该界面10指示：用户输入的原始问题为“多少钱”，在用户输入“多少钱”这一问题前，还询问了“产品50支持5G吗”这一问题，该“产品50支持5G吗”即为历史用户问题。

需要说明的是，该历史用户问题对应的时间与用户输入原始问题的时间的时间差小于或等于预设数值。

S805，判断历史用户问题是否包括目标对象。

若历史用户问题中不包括目标对象，执行S807；若历史用户问题中包括目标对象，执行S806。

示例性的，若存在P（P≥1）个历史用户问题，且P个历史用户问题与原始问题的时间差依次增大。语义解析模块可以优先判断第一个历史用户问题中是否包括目标对象，若第一个历史用户问题中包括目标对象，则可以执行S806；若第一个历史用户问题中不包括目标对象，则可以继续判断第二个历史用户问题中是否包括目标对象；若第二个历史用户问题中也不包括目标对象，则继续判断第三个历史用户问题中是否包括目标对象……以此类推，直至判断第P个历史用户问题中是否包括目标对象，若第P个历史用户问题也不包括目标对象，则可以执行S807。

S806，基于目标对象和原始问题生成查询文本信息。

仍然以图1为例，原始问题为“多少钱”，语义解析模块可以确定该原始问题中不包括目标对象，该原始问题也不属于闲聊，与预设的知识库不匹配，因此可以查询到历史用户问题“产品50支持5G吗”。语义解析模块可以确定历史用户问题“产品50支持5G吗”包括目标对象“产品50”，因而基于目标对象“产品50”和原始问题“多少钱”，可以生成查询文本信息“产品50多少钱”。

S807，将原始问题作为查询文本信息。

也就是说，若原始问题中不包括目标对象，也无法从前文继承实体，可以直接将原始问题作为查询文本信息。该原始问题可以为预处理后的原始问题。

通过S801~S807的方法，可以减少查询文本信息中缺乏实体的情况，能够有效提升后续匹配过程的准确度。

得到查询文本信息后，语义解析模块可以将查询文本信息输入预先训练好的语义表示模型，得到查询文本信息的句向量。该语义表示模型可以是基于BERT（BidirectionalEncoder Representation from Transformers，来自Transformer的双向编码器表示）进行训练的。具体的，电子设备可以首先获取领域无标注语料信息，其中，所述领域无标注语料信息为特定领域对应的语料信息，例如，数码产品领域、医疗领域、金融领域等，以及历史会话中人工标注的用户问题与标准问题是否匹配的正负样本，对预训练语言模型进行微调（finetune）迭代训练，得到本领域的语义表示模型，使得语义表示模型对本领域文本的理解能力更强。其中，该预训练语言模型为BERT开发团队提供的开源的中文预训练语言模型。

在一种可选的实施方式中，可以将上述预处理模块所实现的功能和语义解析模块所实现的功能可以集成在同一模块上。

在得到查询文本信息和查询文本信息的句向量后，可以将查询文本信息以及该查询文本信息的句向量输入召回模块，获得召回结果候选集，该召回结果候选集包括N个候选问题，N个候选问题为与查询文本信息的语义相似或相同的标准问题。

如图10所示，召回模块可以基于三个方式从知识库中查询候选问题，分别为：完全匹配、倒排索引召回以及语义召回。

其中，完全匹配指召回模块可以基于查询文本信息，利用远程字典服务（remotedictionary server，Redis)在预设的知识库中查询得到第一召回结果集。该第一召回结果集包括与查询文本信息完全匹配的标准问题。其中，完全匹配可以理解为候选问题与召回模块召回的候选问题从字面上的表达方式相同。

倒排索引召回指召回模块可以基于查询文本信息构造Elasticsearch（弹性搜索）检索式，该Elasticsearch检索式可以包括查询文本信息、与查询文本信息具有相同语义的句子或者查询文本信息的核心词等。并基于Elasticsearch检索式在预设的知识库中进行字词检索，得到第二召回结果集。第二召回结果集包括与查询文本信息具有相同或相似词语的标准问题。

语义召回指召回模块可以基于查询文本信息的句向量，在预设的知识库中进行语义检索，得到第三召回结果集。第三召回结果集包括与查询文本信息具有相同或相似语义的标准问题。具体的，预先训练好的语义表示模型可以为每个标准问题构建向量索引，召回模块可以基于Faiss（facebook AI Similarity Search，facebook AI相似度搜索）工具从预设的知识库中检索到与查询文本信息的语义相似度排名前N的标准问题，得到第三召回结果集。语义相似度可以指查询文本信息的句向量与标准问题的句向量的余弦距离、编辑距离、Jaccard杰卡德距离等相似度特征。

然后，召回模块可以对第一召回结果集、第二召回结果集、第三召回结果集进行合并去重处理，获得召回结果候选集。

可以看出，召回模块可以基于查询文本信息，在预设的知识库中进行字词检索得到字词召回结果（包括第一召回结果、第二召回结果），以及基于查询文本信息的句向量在预设的知识库中进行语义检索得到所述语义召回结果（包括第三召回结果），从而得到了根据字词、语义两路召回的结果，更加丰富且准确。

在得到召回结果候选集后，融合排序模块可对召回结果候选集中包括的N个候选问题进行融合排序，得到N个候选问题与查询文本信息的融合相似度。如图11所示，融合排序模块可以从以下几个维度去评价查询文本信息与N个候选问题的相似度，分别为：排斥问相似度（也可以称为第一相似度）、语义相似度（也可以称为第二相似度）、核心词特征相似度（也可以称为第三相似度）以及主题相似度（也可以称为第四相似度）。下面以第i个候选问题为例，说明确定查询文本信息与第i个候选问题的融合相似度的过程，其中，i≤N，N≥1且i为大于1的正整数。

其中，排斥问相似度用于指示查询文本信息与第i个候选问题不匹配的概率。在本申请实施例中，融合排序模块可以基于查询文本信息、查询文本信息的句向量，在预设的负样本库中进行检索，得到排斥问题集。其中，预设的负样本库中包括用户查询过的历史问题及被标注为与历史问题不匹配的标准问题，排斥问题集中包括负样本库中与查询文本信息相似的历史用户问题所对应的标准问题。具体的，融合排序模块可以先从负样本库中查询得到与查询文本信息相似的历史问题（也可以称为第一问题），然后再基于该负样本库查找到该第一问题所对应的标准问题，将其添加至排斥问题集。示例性的，负样本库所存储的标注问题对可以如表2所示：

表2

示例性的，查询文本信息为“产品商城可以贴膜吗”。融合排序模块基于该查询文本信息可以从负样本库中查找到与其具有相似语义的历史问题“产品商城可不可以贴膜呀”（第一问题）。然后基于该表2可以查找到“产品商城可不可以贴膜呀”对应的标准表问题“产品服务日活动”，并将标准问题“产品服务日活动”添加至排斥问题集。可以理解地，查询到的第一问题与查询文本信息的语义相似，但排斥问题集中的标准问题与第一问题被标注为不相似，因此该排斥问题集中所包括的标准问题也很有可能与查询文本信息不相似，可以记为查询文本信息的排斥问。

需要说明的是，融合排序模块可以计算负样本库中每个历史问题与查询文本信息的语义相似度，并将语义相似度最高的多个历史问题作为与查询文本信息相似的历史问题。

在得到排斥问题集后，可以判断排斥问题集与召回模块得到的召回结果候选集是否存在交集。若排斥问题集与召回结果候选集不存在交集，则表明召回结果候选集中的候选问题均不是查询文本信息的排斥问，在这种情况下，查询文本信息与第i个候选问题的第一相似度为0。

若排斥问题集与召回结果候选集存在交集，则表明交集中所包括候选问题为查询文本信息的排斥问。若该交集包括N个候选问题中的第i个候选问题，融合排序模块可以计算查询文本信息与第i个候选问题所对应的历史问题的第五相似度（可以为语义相似度、特征相似度等），并根据第五相似度来确定查询文本信息与第i个候选问题的第一相似度。

具体的，若第五相似度大于或等于预设的第一阈值确定原始问题与第i个候选问题的第一相似度为第二相似度；若第五相似度小于第一阈值，确定原始问题与第i个候选问题的第一相似度为0。可以理解地，若第五相似度大于或等于预设的第一阈值，则表明查询文本信息与第i个候选问题所对应的历史问题较为相似，也就是该第i个候选问题为查询文本信息的排斥问的概率较大。若第五相似小于预设的第一阈值，则表明查询文本信息与第i个候选问题所对应的历史问题并不相似，也就是该第i个候选问题为查询文本信息的排斥问的概率较小。

若该交集不包括N个候选问题中的第i个候选问题，确定原始问题与第i个候选问题的第一相似度为0。

示例性的，如图12所示，查询文本信息q为产品商城可以贴膜吗。其召回结果候选集包括标准问题Q（产品服务日活动），负样本库中包括历史问题a（产品商城可不可以贴膜呀）和对应的标准问题Q（产品服务日活动）。根据负样本向量检索，可得到排斥问题集包括标准问题Q（产品服务日活动），计算历史问题a与查询文本信息q的第五相似度（score（q，a）），若score（q，a）大于等于第一阈值，则第一相似度为score（q，a），若score（q，a）小于第一阈值，则第一相似度为0。

通过计算排斥问相似度，可以确定候选问题与查询文本信息不匹配的概率，从而降低N个候选问题中明显与查询文本信息不相关（也可以理解为不匹配）的问题作为目标问题的概率，可以提高匹配的正确率。

融合排序模块还可以计算查询文本信息与第i个候选问题的语义相似度（也称为第二相似度）。该语义相似度可以指查询文本信息的句向量与第i个候选问题的句向量的余弦距离、编辑距离、Jaccard杰卡德距离等相似度特征。

融合排序模块还可以计算查询文本信息与第i个候选问题的核心词特征相似度（也称为第三相似度）。具体的，融合排序模块可以计算查询文本信息与第i个候选问题的第一特征相似度，计算第一文本与第i个候选问题的第二特征相似度，第一文本为对查询文本信息进行同义词改写后的文本，然后将第一特征相似度与第二特征相似度的均值作为第三相似度。

下面以查询文本信息包括M1个特征词，第i个候选问题包括M2个特征词，第一文本包括M3个特征词为例，说明计算核心词特征相似度的过程。

其中，每个特征词对应一个特征词类型（也可称为类型），且M1、M2与M3可以均相同，两两相同，或者均不相同，在此不做具体限制。

融合排序模块可以判断M1个特征词与M2个特征词是否存在第一交集，第一交集包括Z1个第一特征词组，每个第一特征词组对应一个特征词类型，Z1个第一特征词组中的第j个第一特征词组包括Pj个特征词，Pj个特征词对应的类型相同，Z1≤min（M1，M2），j≤Z1。

若M1个特征词与M2个特征词不存在第一交集，融合排序模块确定查询文本信息与第i个候选问题的第一特征相似度为0。若M1个特征词与M2个特征词存在第一交集，融合排序模块根据预设的第一算式确定查询文本信息与第i个候选问题的第一特征相似度，预设的第一算式为：

其中，

为第一特征相似度，

为Pj个特征词对应的特征词类型的初始得分。

示例性的，查询文本信息包括4个特征词，分别为产品50（产品型号）、产品50pro （产品型号）、屏幕（参数）、售价（参数）。第i个候选问题3个特征词，分别为产品50（产品型号）、产品60 plus（产品型号）以及售价（参数）。因此，查询文本信息与第i个候选问题存在的第一交集包括两个特征词组1和特征词组2，该特征词组1与产品型号这一特征词类型对应，包括产品50这一特征词（即P1=1），特征词组2与参数这一特征词类型对应，包括售价这一特征词（即P2=1）。若产品型号这一特征词类型对应的初始得分为S₁，参数这一特征词类型对应的初始得分为S₂，则第一特征相似度

为S₁*P1+S₂* P2=S1+S2。

又例如，查询文本信息为“产品50多少钱”，其包括两个特征词，分别为“产品50”和 “多少钱”，其中“产品50”对应的类型为产品型号，“多少钱”对应的特征词类型为参数。第i 个候选问题为“产品60什么时候发货”，其也包括两个特征词，分别为“产品60”和“发货”，其中“产品60”对应的类型为产品型号，“发货”对应的特征词类型为快递。则由于查询文本信息与第i个候选问题仅包括特征词类型为产品型号的特征词，但特征词类型同为产品型号的“产品50”和“产品60”并不相同，使得“产品50多少钱”与“产品60什么时候发货”不存在第一交集，查询文本信息“产品50多少钱”与第i个候选问题“产品60什么时候发货”的第一特征相似度

为0。

融合排序模块还可以判断M3个特征词与M2个特征词是否存在第二交集，第二交集包括Z2个第二特征词组，每个第二特征词组对应一个特征词类型，Z2个第二特征词组中的第k个第二特征词组包括Q_k个特征词，Q_k个特征词对应的特征词类型相同，Z2≤min（M3，M2），k≤Z2；若M3个特征词与M2个特征词不存在第二交集，确定查询文本信息与第i个候选问题的第二特征相似度为0；若M3个特征词与M2个特征词存在第二交集，根据预设的第二算式确定查询文本信息与第i个候选问题的第二特征相似度，预设的第二算式为：

其中，

为第二特征相似度，

为第k个第二特征词组对应的特征词类型的初始得分。

示例性的，查询文本信息为“产品50多少钱”，第一文本为“产品50售价”，第i个候选问题为“产品50售价”。可根据前文所述的过程计算查询文本信息“产品50多少钱”与第i个候选问题“产品50售价”的第一特征相似度，记为特征相似度1；计算第一文本“产品50售价”与第i个候选问题“产品50售价”的第二特征相似度，记为特征相似度2，将特征相似度1与特征相似度2的均值作为查询文本信息“产品50多少钱”与第i个候选问题“产品50售价”的核心词特征相似度（也就是第三相似度）。

在一种可选的实施方式中，融合排序模块也可以不计算第二特征相似度，直接将第一特征相似度作为查询文本信息与第i个候选问题的核心词特征相似度（也就是第三相似度），在此不做具体限制。

融合排序模块还可以计算查询文本信息与第i个候选问题的主题相似度（也可以称为第四相似度）。具体的，融合排序模块可以确定查询文本信息所属的主题类型，以及第i个候选问题所属的主题类型，然后计算查询文本信息所属的主题类型与第i个候选问题所属的主题类型的相似度，得到查询文本信息与第i个候选问题的主题相似度。

融合排序模块可以按照预设的权重系数对至少两个相似度进行加权求和，得到融合相似度。其中，查询文本信息与第i个候选问题的融合相似度满足算式：

其中，

为查询文本信息与第i个候选问题的融合相似度，

为查询文本信息与第i个候选问题的第一相似度，

为查询文本信息与第i个候选问题的第二相似度，

为查询文本信息与第i个候选问题的第三相似度，

为查询文本信息与第i个候选问题的第四相似度，

、

、

、

为预设的权重系数。

在一种可选的实施方式中，在计算融合相似度前，可以对第一相似度、第二相似度、第三相似度以及第四相似度进行归一化处理，以消除第一相似度、第二相似度、第三相似度以及第四相似度之间的量纲影响。

需要说明的是，在计算融合相似度时，可以使用比第一相似度、第二相似度、第三相似度及第四相似度更多的参数，或者使用更少的参数，例如第一相似度和第二相似度、第一相似度和第三相似度、第一相似度和第四相似度等。总之，包括第一相似度及其他的任意一种相似度即可。

融合排序模块可以基于上述方法得到查询文本信息与N个候选问题的N个融合相似度，并基于N个融合相似度从N个候选问题中筛选得到目标问题，输出目标问题对应的答案。

具体的，融合排序模块可以按照N个融合相似度从高到低的顺序对N个候选问题进行排序得到排序结果，将与查询文本信息具有最大融合相似度，且融合相似度大于或等于预设的第二阈值的候选问题，作为目标问题。换句话说，确定最大融合度为score_max，若score_max大于或等于预设的第二阈值，则将score_max对应的候选问题作为目标问题，并在知识库中查找目标问题对应的答案并输出；若score_max小于预设的第二阈值，则可以认为N个候选问题与查询文本信息的相似度较低，采用这N个候选问题的答案来作为目标答案具有较高的不匹配风险，因此不返回目标问题，电子设备无需输出答案。

除了输出与原始问题匹配的答案外，还可以输出与原始问题相似的问题供用户进行选择。具体的，融合排序模块可以取输出N个候选问题中，融合相似度大于或等于预设的第三阈值的前R个候选问题作为相似问候选集，R为电子设备可输出的候选问题的最大数量。R可以为根据需求设置的任何数。

若相似问候选集包括目标问题，输出相似问候选集中除目标问题以外的其他候选问题；若相似问候选集不包括目标问题，输出相似问候选集所包括的候选问题。这样可以为提供与原始问题相似的问题供用户选择，避免用户手动输入。另外，通过融合相似度的大小和排名两个维度判断是否输出相似问，可以减少相似问与原始问题不相似的概率，提高匹配度，提升用户体验。

在一种可选的实施方式中，在得到排序结果后，电子设备还可以对N个候选问题进行后置过滤。以第i个候选问题为例，若第i个候选问题包括第一目标对象，查询文本信息包括第二目标对象。在这种情况下，比较第一目标对象与第二目标对象是否相同，若第一目标对象与第二目标对象不同，将第i个候选问题从排序结果中剔除。示例性的，查询文本信息为“产品50多少钱”，其包括第二目标对象“产品50”；排序结果中包括标准问题“产品50pro多少钱”，其包括第一目标对象“产品50pro”。第一目标对象与第二目标对象明显不同，则两者的语义虽然相似，但其所查询的实体并不相同，因此需要从排序结果中剔除。

上述的问答匹配方法，融合排序模块可以基于第一相似度以及以下相似度的至少一个（第二相似度、第三相似度以及第四相似度）计算查询文本信息与候选问题的融合相似度。相比于现有技术，本申请考虑到结合用户的历史使用记录，排除那些在历史使用过程中被标注为明显与查询文本信息并不匹配的标准问题，可以提高匹配结果的准确率，提高输出结果的准确度。另外，本申请还可以在原始问题中不包括目标对象时，可以从上文中继承目标对象，减少查询文本信息中缺乏实体的情况，能够有效提升后续匹配过程的准确度。

本申请各实施例提供的问答匹配方法可以运行在电子设备（例如，手机）的目标应用中。目标应用可以是具备智能客服功能的任一应用，例如，购物应用、应用商城等。需要说明的是，本申请各实施例提供的问答匹配方法可以由电子设备和/或服务器执行。也就是说，电子设备上可以集成上述语义解析模块、召回模块以及融合排序模块等，从而可以对用户输入的原始问题进行解析并反馈答案。或者，服务器上可以集成上述语义解析模块、召回模块以及融合排序模块等模块，电子设备可以将用户输入的原始问题发送给服务器，以便服务器对原始问题进行预处理、语义解析等处理，并将查询到的答案及相似问题返回给电子设备。服务器可以是目标应用对应的服务器。

本申请实施例还提供一种芯片系统，如图13所示，该芯片系统包括至少一个处理器1101和至少一个接口电路1102。处理器1101和接口电路1102可通过线路互联。例如，接口电路1102可用于从其它装置（例如，电子设备的存储器）接收信号。又例如，接口电路1102可用于向其它装置（例如处理器1101）发送信号。

例如，接口电路1102可读取电子设备中存储器中存储的指令，并将该指令发送给处理器1101。当所述指令被处理器1101执行时，可使得电子设备（如图2所示的手机）执行上述实施例中的各个步骤。

当然，该芯片系统还可以包含其他分立器件，本申请实施例对此不作具体限定。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质包括计算机指令，当所述计算机指令在电子设备（如图2所示的手机）上运行时，使得手机执行上述方法实施例中电子设备执行的各个功能或者步骤。

本申请实施例还提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行上述方法实施例中电子设备执行的各个功能或者步骤。

本申请实施例还提供了一种问答匹配装置，所述装置可以按照功能划分为不同的逻辑单元或模块，各单元或模块执行不同的功能，以使得所述装置执行上述方法实施例中电子设备执行的各个功能或者步骤。

通过以上实施方式的描述，所属领域的技术人员可以清楚地了解到，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备（可以是单片机，芯片等）或处理器（processor）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种问答匹配方法，其特征在于，所述方法包括：

获取查询文本信息；

基于所述查询文本信息、所述查询文本信息的句向量，在预设的知识库中进行检索，获得召回结果候选集，所述召回结果候选集包括N个候选问题，所述N个候选问题为与所述查询文本信息相同或相似的标准问题，N≥1；

获取所述查询文本信息与第i个候选问题的至少两个相似度，所述至少两个相似度包括所述查询文本信息与所述第i个候选问题匹配的概率以及所述查询文本信息与所述第i个候选问题不匹配的概率，i≤N；

基于所述查询文本信息与所述第i个候选问题的至少两个相似度，计算所述查询文本信息与所述第i个候选问题的融合相似度，所述融合相似度用于表征所述查询文本信息与所述第i个候选问题相似的概率；

基于所述N个候选问题的N个融合相似度从所述N个候选问题中筛选得到目标问题；

输出所述目标问题对应的答案。

2.根据权利要求1所述的方法，其特征在于，所述至少两个相似度包括所述查询文本信息与所述第i个候选问题的第一相似度，以及如下相似度中的至少一种：所述查询文本信息的句向量与所述第i个候选问题的句向量的第二相似度、所述查询文本信息中预设类型的词语与所述第i个候选问题中预设类型的词语的第三相似度，或所述查询文本信息所属的主题与所述第i个候选问题所属的主题的第四相似度，其中，所述第一相似度用于指示所述查询文本信息与所述第i个候选问题不匹配的概率，所述第二相似度、所述第三相似度以及所述第四相似度用于指示所述查询文本信息与所述第i个候选问题匹配的概率。

3.根据权利要求2所述的方法，其特征在于，所述获取所述查询文本信息与第i个候选问题的至少两个相似度包括：

基于所述查询文本信息、所述查询文本信息的句向量，在预设的负样本库中进行检索，获得排斥问题集，所述预设的负样本库包括多组标注问题对，每组所述标注问题对包括历史问题及第一标准问题，所述第一标准问题所对应的答案与所述历史问题不匹配，所述排斥问题集包括所述负样本库中第一问题所对应的第一标准问题，所述第一问题为与所述查询文本信息匹配的历史问题；

若所述排斥问题集与所述召回结果候选集不存在交集，确定所述查询文本信息与所述第i个候选问题的第一相似度为0；

若所述排斥问题集与所述召回结果候选集存在交集，且所述第i个候选问题包含于所述交集，计算所述查询文本信息与所述第i个候选问题所对应的历史问题的第五相似度，根据所述第五相似度确定所述第一相似度；

若所述第五相似度大于或等于预设的第一阈值，确定所述查询文本信息与所述第i个候选问题的第一相似度为所述第五相似度；若所述第五相似度小于所述第一阈值，确定所述查询文本信息与所述第i个候选问题的第一相似度为0；

若所述排斥问题集与所述召回结果候选集存在交集，且所述第i个候选问题不包含于所述交集，确定所述查询文本信息与所述第i个候选问题的第一相似度为0。

4.根据权利要求1-3中任意一项所述的方法，其特征在于，所述获取查询文本信息包括：

获取用户输入的原始问题；

若所述原始问题中包括目标对象，将所述原始问题作为所述查询文本信息，所述目标对象包括第一类型的词语；

若所述原始问题中不包括所述目标对象，判断所述原始问题与所述预设的知识库是否匹配；

若所述原始问题与所述预设的知识库匹配，将所述原始问题作为所述查询文本信息；

若所述原始问题与所述预设的知识库不匹配，获取历史用户问题，所述历史用户问题包括在获取所述原始问题前的预设数量轮问答过程中用户输入的问题；

若所述历史用户问题包括所述目标对象，基于所述目标对象与所述原始问题生成所述查询文本信息；

若所述历史用户问题不包括所述目标对象，将所述原始问题作为所述查询文本信息。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

基于预设的领域词典构建后缀树，所述预设的领域词典包括多个词条的标准名词、每个标准名词对应的同义词，以及每个标准名词所属的类型；

基于所述后缀树，对所述原始问题进行最长子串匹配得到第一词条；

基于所述第一词条，在所述预设的领域词典中查询得到第一标准名词；

根据所述第一标准名词，在所述预设的领域词典中查询得到所述第一标准名词所属的类型；

若所述第一标准名词所属的类型为所述第一类型，则所述原始问题中包括所述目标对象；

若所述第一标准名词所属的类型不为所述第一类型，则所述原始问题中不包括所述目标对象。

6.根据权利要求2所述的方法，其特征在于，所述获取所述查询文本信息与第i个候选问题的至少两个相似度包括：

计算所述查询文本信息与所述第i个候选问题的第一特征相似度；

计算第一文本与所述第i个候选问题的第二特征相似度，所述第一文本为对所述查询文本信息进行同义词改写后的文本；

将所述第一特征相似度与所述第二特征相似度的均值作为所述第三相似度。

7.根据权利要求6所述的方法，其特征在于，所述查询文本信息包括M1个特征词，所述第i个候选问题包括M2个特征词，所述特征词为预设类型的词语，每个所述特征词对应一个特征词类型，所述计算所述查询文本信息与所述第i个候选问题的第一特征相似度包括：

判断所述M1个特征词与所述M2个特征词是否存在第一交集，所述第一交集包括Z1个第一特征词组，每个所述第一特征词组对应一个特征词类型，所述Z1个第一特征词组中的第j个第一特征词组包括Pj个特征词，所述Pj个特征词对应的类型相同，Z1≤min（M1，M2），j≤Z1；

若所述M1个特征词与所述M2个特征词不存在所述第一交集，确定所述查询文本信息与所述第i个候选问题的第一特征相似度为0；

若所述M1个特征词与所述M2个特征词存在所述第一交集，根据预设的第一算式确定所述查询文本信息与所述第i个候选问题的第一特征相似度，所述预设的第一算式为：

其中，

为所述第一特征相似度，

为所述Pj个特征词对应的特征词类型的初始得分。

8.根据权利要求6所述的方法，其特征在于，所述第一文本包括M3个特征词，所述第i个候选问题包括M2个特征词，所述特征词为预设类型的词语，每个所述特征词对应一个特征词类型，所述计算第一文本与所述第i个候选问题的第二特征相似度包括：

判断所述M3个特征词与所述M2个特征词是否存在第二交集，所述第二交集包括Z2个第二特征词组，每个所述第二特征词组对应一个特征词类型，所述Z2个第二特征词组中的第k个第二特征词组包括Q_k个特征词，所述Q_k个特征词对应的特征词类型相同，Z2≤min（M3，M2），k≤Z2；

若所述M3个特征词与所述M2个特征词不存在所述第二交集，确定所述查询文本信息与所述第i个候选问题的第二特征相似度为0；

若所述M3个特征词与所述M2个特征词存在所述第二交集，根据预设的第二算式确定所述查询文本信息与所述第i个候选问题的第二特征相似度，所述预设的第二算式为：

其中，

为所述第二特征相似度，

为所述第k个第二特征词组对应的特征词类型的初始得分。

9.根据权利要求1-8中任意一项所述的方法，其特征在于，所述基于所述查询文本信息、所述查询文本信息的句向量，在预设的知识库中进行检索，获得召回结果候选集包括：

基于所述查询文本信息，在所述预设的知识库中查询得到第一召回结果集，所述第一召回结果集包括与所述查询文本信息完全匹配的标准问题；

基于所述查询文本信息，在所述预设的知识库中查询得到第二召回结果集，所述第二召回结果集包括与所述查询文本信息相同或相似词语的标准问题；

基于所述查询文本信息的句向量，在所述预设的知识库中查询得到第三召回结果集，所述第三召回结果集包括与所述查询文本信息语义相同或相似的标准问题；

对所述第一召回结果集、所述第二召回结果集、所述第三召回结果集进行合并去重处理，获得所述召回结果候选集。

10.根据权利要求1-8中任意一项所述的方法，其特征在于，所述基于所述查询文本信息与所述第i个候选问题的至少两个相似度，计算所述查询文本信息与所述第i个候选问题的融合相似度包括：

按照预设的权重系数对所述至少两个相似度进行加权求和，得到所述融合相似度。

11.根据权利要求1-8中任意一项所述的方法，其特征在于，所述第i个候选问题包括第一目标对象，所述查询文本信息包括第二目标对象，所述第一目标对象与所述第二目标对象均为第一类型的词语，所述方法还包括：

比较所述第一目标对象与所述第二目标对象是否相同；

若所述第一目标对象与所述第二目标对象不同，将所述第i个候选问题从所述召回结果候选集中剔除。

12.根据权利要求1-8中任意一项所述的方法，其特征在于，所述目标问题的融合相似度为所述N个候选问题的融合相似度中的最大值，且所述目标问题的融合相似度大于或等于预设的第二阈值。

13.根据权利要求1-8中任意一项所述的方法，其特征在于，所述方法还包括：

取输出所述N个候选问题中，融合相似度大于或等于预设的第三阈值的前R个候选问题作为相似问候选集，R为所述电子设备可输出的候选问题的最大数量；

若所述相似问候选集包括所述目标问题，输出所述相似问候选集中除所述目标问题以外的其他候选问题；

若所述相似问候选集不包括所述目标问题，输出所述相似问候选集所包括的候选问题。

14.一种计算机可读存储介质，其特征在于，包括计算机指令；

当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-13中任一项所述的方法。

15.一种问答匹配装置，其特征在于，包括处理器，所述处理器和存储器耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时使得所述装置实现权利要求1-13中任一项所述的方法。