CN110019701B

CN110019701B - 用于问答服务的方法、问答服务系统以及存储介质

Info

Publication number: CN110019701B
Application number: CN201710840615.9A
Authority: CN
Inventors: 李英杰
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2017-09-18
Filing date: 2017-09-18
Publication date: 2021-12-31
Anticipated expiration: 2037-09-18
Also published as: WO2019052261A1; EP3702928A1; US20210326714A1; US11651236B2; EP3702928A4; CN110019701A

Abstract

一种用于问答服务的方法、问答服务系统以及存储介质。该方法包括：从预置问题组和对应的预置答案中确定关键词，其中，预置问题组包括至少一个预置问题；获取关键词的关联词组，其中，关键词的关联词组包括关键词的至少一个关联词；以及利用关键词的关联词组，生成包括至少一个扩展问题的扩展问题组。该方法根据关键词获取与该关键词相关的关联词组，并利用关键词的关联词组生成扩展问题组，提高获取数据的效率，降低获取数据的成本，增加知识覆盖面，节省人工的工作量。

Description

用于问答服务的方法、问答服务系统以及存储介质

技术领域

本公开的实施例涉及一种用于问答服务的方法、问答服务系统以及存储介质。

背景技术

随着网络技术的发展，数据规模、数据种类等飞速增长，人们越来越需要高效、准确的信息检索方式，以查找、抽取感兴趣的数据信息内容。因此，自动问答系统(automaticQuestion Answering，QA)逐渐发展起来。自动问答系统是指用户与计算机进行交互，用户提出问题请求，计算机自动对问题请求进行分析处理并返回答案的系统。目前，自动问答系统需要预先设置大量的扩展问题才能准确地分析新的问题请求。而预置的扩展问题主要通过人工录入，其需要大量的人力和时间，获取数据的效率较低。

发明内容

本公开至少一实施例提供一种用于问答服务的方法，其包括：从预置问题组和对应的预置答案中确定关键词，其中，所述预置问题组包括至少一个预置问题；获取所述关键词的关联词组，其中，所述关键词的关联词组包括所述关键词的至少一个关联词；以及利用所述关键词的关联词组，生成包括至少一个扩展问题的扩展问题组。

本公开至少一实施例还提供一种问答服务系统，其包括：问题扩展设备和关联词获取设备。所述问题扩展设备配置为：从预置问题组和对应的预置答案中确定关键词，其中，所述预置问题组包括至少一个预置问题；所述关联词获取设备配置为：获取所述关键词的关联词组，其中，所述关键词的关联词组包括所述关键词的至少一个关联词；所述问题扩展设备还配置为利用所述关键词的关联词组，生成包括至少一个扩展问题的扩展问题组。

本公开至少一实施例还提供一种存储介质，存储有适于由处理器运行的计算机指令，所述计算机指令被处理器运行时可以执行根据上述任一所述的用于问答服务的方法。

本公开至少一实施例提供一种用于问答服务的方法、问答服务系统以及存储介质，该用于问答服务的方法根据关键词获取与该关键词相关的关联词组，并利用关键词的关联词组生成扩展问题组，提高获取数据的效率，降低获取数据的成本，增加知识覆盖面，节省人工的工作量。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1为本公开一实施例提供的一种用于问答服务的方法的示意性流程图；

图2为本公开一实施例提供的一种深度神经网络的示意图；

图3为本公开一实施例提供的另一种用于问答服务的方法的示意性流程图；

图4为本公开一实施例提供的一种用于问答服务的方法的问答过程的流程图；以及

图5为本公开一实施例提供的问答服务系统的示意性框图。

具体实施方式

为了使得本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

为了保持本公开实施例的以下说明清楚且简明，本公开省略了已知功能和已知部件的详细说明。

随着终端设备的网络连接和计算能力的增强，终端设备与用户之间的交互方式越来越智能。目前，基于自然语言处理的自动问答系统可以通过智能终端或者网页(web)服务的方式与用户之间进行交互。自动问答系统是融合计算机语言学、信息科学以及人工智能等多项技术为一体的智能自然语言处理系统，其允许用户以自然语言的形式查询信息，并为用户提供准确、简洁的答案。例如，自动问答系统可以应用于互联网行业的售后服务或者客户服务，以实现自动对用户的咨询进行实时反馈。

随着深度学习技术的发展和硬件速度的提高，用户可以基于深度学习技术自行搭建并训练自动问答系统。在训练过程中，训练的数据量成为关键因素。训练的数据量大，则自动问答系统更加准确和智能。训练的数据量可以来源于社区问答，社交网络等。除了购买之外，用户主要通过手工录入的方式获取训练的数据量，获取数据量的效率低下，且获取的数据量也有限。

本公开至少一实施例提供一种用于问答服务的方法、问答服务系统以及存储介质。该用于问答服务的方法包括：从预置问题组和对应的预置答案中确定关键词，其中，预置问题组包括至少一个预置问题；获取关键词的关联词组，其中，关键词的关联词组包括关键词的至少一个关联词；以及利用关键词的关联词组，生成包括至少一个扩展问题的扩展问题组。

本公开实施例提供的用于问答服务的方法根据关键词自动获取与该关键词相关的关联词组，并利用关键词的关联词组自动生成扩展问题组，提高获取数据的效率，降低获取数据的成本，增加知识覆盖面，节省人工的工作量。

下面结合附图对本公开的实施例进行详细说明，但是本公开并不限于这些具体的实施例。

图1为本公开一实施例提供的一种用于问答服务的方法的示意性流程图，图2为本公开一实施例提供的一种深度神经网络的示意图。

例如，如图1所示，本公开实施例提供的用于问答服务的方法包括以下操作：

操作S10：从预置问题组和对应的预置答案中确定关键词；

操作S12：获取关键词的关联词组；

操作S14：利用关键词的关联词组，生成包括至少一个扩展问题的扩展问题组。

例如，预置问题组中的预置问题及其对应的预置答案均可以从语料库中抽取。语料库中可以包括结构化数据，也可以包括非结构化数据。

例如，可以采用自然语言处理(Natural Language Processing，NLP)技术从语料库中抽取预置问题组和对应的预置答案。自然语言处理可以包括句法分析、分词、词法分析、语义分析、文本识别等语言处理技术。例如，自然语言处理可以采用深度学习神经网络等方法进行自然语言处理。利用深度学习神经网络对语料库中的数据进行处理可以提高选取的预置问题组和预置答案的关联性。例如，深度学习神经网络可以包括循环神经网络(Recurrent Neural Networks，RNN)、递归神经网络(Recursive Neural Networks，RNN)等神经网络。深度学习神经网络可以采用上述神经网络中的一种或几种的组合对自然语言进行分析处理。

例如，语料库可以包括各种类型的知识的集合，预置问题组可以为各种类型的问题组。例如，语料库可以为医学知识的集合、文学知识的集合、物理知识的集合、日常生活知识的集合、金融知识的集合等不同类型的知识的单独集合。相应地，预置问题组可以为医学类问题组、文学类问题组、物理类问题组、日常生活类问题组或金融类问题组等。又例如，语料库也可以为各种不同知识(例如，物理、文学、数学等)的混合集合。

例如，语料库可以包括来源不同的各种知识。各种知识的来源可以为教课书、网站、论文以及文学著作等。例如，当语料库为医学知识数据的集合时，医学知识的来源可以为医疗网站、医学论文、医学教课书以及病历等。

例如，从语料库中抽取出的预置问题组和预置答案可以被存储在数据库中。例如，根据预置问题组的类型，数据库可以为医学类数据库、文学类数据库、物理类数据库、日常生活类数据库、金融类数据库等。

例如，预置问题组和预置答案可以以文本的形式存储在数据库中。预置问题组的预置问题和预置答案可以具有对应的存储区间和对应的存储地址。又例如，预置问题组和预置答案也可以以其他形式存储在数据库中(例如，预置问题组及其对应的预置答案以表格、列表、图表或其他形式存储在数据库中)。预置问题组的预置问题和预置答案也可以以语音等形式存储。

例如，在操作S10中，预置问题组包括至少一个预置问题。例如，预置问题可以包括标准问题和/或预置扩展问题。例如，可以从语料库中抽取一或多个预置问题以组成预置问题组，该一或多个预置问题表达同一语义。从该一或多个预置问题中选择一个预置问题作为标准问题，其余预置问题作为预置扩展问题。预置扩展问题为标准问题的不同表达形式。例如，预置扩展问题可以为5个、10个或20个等。本公开对预置问题组中的预置扩展问题的具体数量不作限制。

需要说明的是，标准问题和预置扩展问题既可以采用语义表达式，也可以采用具体的问句表达式。本公开实施例对此不作限制。

例如，在本公开的描述中，以预置问题组为日常生活类问题组(例如，询问价格等)为例进行详细说明本公开的实施例提供的用于问答服务的方法。但本领域技术人员应该知道该预置问题组还可以为其他类型的问题组。

例如，询问一本书的价格可以有多种表述方式。询问价格的表述方式可以包括“这本书多少钱”、“这本书的价格是多少”、“这本书值多少钱”、“买这本书需要花费多少钱”等。上述多种询问价格的表述方式可以作为预置问题组中的多个预置问题。从该多个预置问题中选择一个作为标准问题，其余的预置问题则作为预置扩展问题。例如，在一个示例中，标准问题可以为“这本书多少钱”，而预置扩展问题可以为“这本书的价格是多少”、“这本书值多少钱”和“买这本书需要花费多少钱”。但不限于此。又例如，标准问题也可以为“这本书值多少钱”，其余的询问价格的表述方式则为预置扩展问题。本公开的实施例对标准问题和预置扩展问题的划分不作限制。

例如，预置答案为预置问题组中的所有预置问题的答案。例如，预置答案可以为与标准问题相对应的答案。预置答案也可以具有多种表述方式。例如，针对上述预置问题组，其对应的预置答案的表述方式可以包括“这本书的价格为100元”、“这本书价值100元”等。例如，在数据库中可以存储预置答案的所有表述方式，也可以仅存储预置答案的一或多种表述方式。

例如，操作S10可以包括以下操作：

操作S101：从预置问题组中获取包括至少一个候选关键词的问题词集，并从预置答案中获取包括所述至少一个候选关键词的答案词集；

操作S102：根据每个候选关键词在问题词集中的第一词频和在答案词集中的第二词频，从问题词集中包括的至少一个候选关键词中确定关键词。

例如，操作S101可以包括对预置问题组进行分词处理，以得到问题分词组，并对预置答案进行分词处理，以得到答案分词组；以及对答案分词组进行处理以得到答案词集，并对问题分词组进行处理以得到问题词集。

例如，在操作S101中，对问题分词组进行处理可以包括对问题分词组执行去停用词处理，从而形成问题词集。对答案分词组进行处理可以包括对答案分词组执行去停用词处理，从而形成答案词集。

例如，问题分词组可以包括至少一个问题词和至少一个停用词，答案分词组可以包括至少一个答案词和至少一个停用词。问题词集可以包括问题分词组中的所述至少一个问题词，答案词集可以包括答案分词组中的所述至少一个答案词。例如，在一个示例中，预置问题为“这本书多少钱”，则对预置问题进行分词处理后，问题分词组可以包括“这”、“本”、“书”、“多少”和“钱”。例如，“书”和“钱”为问题词，而“这”、“本”和“多少”为停用词。对问题分词组执行去停用词处理后，则问题词集包括“书”和“钱”。

例如，候选关键词为从问题词集中选取的问题词。问题词集中的所有问题词均可以为候选关键词。

例如，分词处理主要依据一定的分词规则进行分词。在操作S101中，可以采用自然语言处理技术对预置问题组和预置答案进行分词处理，以得到问题分词组和答案分词组。例如，分词处理可以采用正向最大匹配法、逆向最大匹配法、最少切分、逐词遍历法、词频统计法、双向最大匹配法或其他合适的算法。例如，分词处理可以采用结巴分词、盘古分词、HTTPCWS分词、庖丁解牛分词等开源分词工具进行分词。

例如，去停用词处理主要用于去除停用词，从而提高获取的关键词的准确性。停用词可以包括语气助词、副词、介词、连接词等。例如，停用词可以为“的”、“吗”、“么”“多少”、“哪里”、“什么”、“这”等词，这些词不含有问题的关键信息，但在问题分词组和答案分词组中出现的频率可能较高。在执行去停用词处理时，可以预先建立一个停用词列表，然后，将问题分词组和答案分词组中的每一个词条与停用词列表中的停用词进行匹配，如果停用词列表包括该词条，则将该词条删除。

需要说明的是，在进行分词处理时，仅对预置答案的一种表述方式进行分词处理，从而形成答案词集。

例如，操作S102可以包括：确定候选关键词在问题词集中的第一词频和在答案词集中的第二词频；以及在候选关键词的第一词频小于或等于第一词频阈值且候选关键词的第二词频大于或等于第二词频阈值的情况下，将候选关键词确定为关键词。

例如，第一词频表示候选关键词在问题词集中出现的次数与问题词集中所有的问题词的数量的比值。第二词频表示候选关键词在答案词集中出现的次数与答案词集中所有的答案词的数量的比值。

例如，第一词频阈值和第二词频阈值可以相同，也可以不同。第一词频阈值例如可以为20％。第二词频阈值可以为30％，但不限于此。第一词频阈值和第二词频阈值例如可以由用户预先设定或系统自动设定。

例如，关键词表示预置问题组中的关键信息。在预置问题组中，每个预置问题可以采用不同的表述方式表示关键信息，因此，关键词的第一词频较小。而预置答案主要是针对该关键信息进行回答，因此，关键词在预置答案中出现的次数较多，关键词的第二词频较大。

例如，在一个问题词集中可以包括一个关键词，也可以包括多个关键词。关键词可以为由一个语素形成的单纯词，也可以为多个语素组合形成的复合词。

例如，在操作S102中，在确定第一词频大于第一词频阈值和/或确定第二词频小于第二词频阈值的情况下，则将候选关键词确定为非关键词，并从问题词集中选取下一个问题词进行处理。

例如，在一个示例中，操作S12可以包括以下操作：

操作S120：从网络中获取关键词的至少一个候选关联词；

操作S121：根据每个候选关联词在问题词集中的词频和在答案词集中的词频，确定每个候选关联词的第三词频；以及

操作S122：根据至少一个候选关联词中每个候选关联词的第三词频，从所述至少一个候选关联词中确定关键词的关联词。

例如，操作S120可以包括从网络中获取关键词的相关信息；以及对关键词的相关信息进行分词，以得到关键词的至少一个候选关联词。

例如，在一个示例中，在操作S120中，可以利用网络爬虫从网络中获取关键词的至少一个候选关联词。

例如，网络爬虫(Web crawler)是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，它们被广泛用于互联网搜索引擎或其他类似网站，可以自动采集所有其能够访问到的页面内容，以获取或更新这些网站的内容和检索方式。网络爬虫系统主要由控制器、解析器、资源库三部分组成。控制器主要用于给多线程中的各个爬虫线程分配工作任务。解析器主要用于下载网页，并对网页的文本进行处理。例如，解析器的主要功能包括信息过滤、抽取特殊标签(例如，JS脚本标签、CSS代码内容、空格字符、HTML标签)以及分析数据等。网络爬虫的基本工作由解析器完成。资源库用于存放网页中下载数据，并提供生成索引的目标源。资源库可以采用大型的数据库(例如Oracle数据库，Sql Server数据库等)进行数据存储。

例如，在操作S120中，网络爬虫可以获取关键词的两种相关信息。关键词的第一种相关信息是近义词，其可以通过语义网、词林网等提供的应用程序编程接口(ApplicationProgramming Interface，API)直接获取，也可以在用户自己建立的近义词数据库的服务端获取；关键词的第二种相关信息可以为通过搜索引擎、社区论坛等获取的与关键词相关联的文本信息。

例如，对于不同类型的预置问题组中的关键词，网络爬虫可以在不同类型的网络来源中获取关键词的相关信息，从而提高获取的关键词的相关信息的准确性。例如，若预置问题组为天文类问题组，则网络来源可以为天文科普网站等。

例如，在操作S120中，对关键词的相关信息进行分词处理和去停用词处理，以得到关键词的至少一个候选关联词。需要说明的是，若关键词的相关信息为近义词时，则不需对近义词进行分词处理和去停用词处理，直接判定该近义词为关联词。

例如，在操作S121的一个示例中，候选关键词的第三词频可以是候选关键词在问题词集中的词频和在答案词集中的词频之和。候选关键词在问题词集中的词频可以表示候选关联词在问题词集中出现的次数与问题词集的所有问题词的数量的比值；候选关键词在答案词集中的词频可以表示候选关联词在答案词集中出现的次数与答案词集的所有答案词的数量的比值。

例如，在操作S121的另一个示例中，候选关键词的第三词频可以是该候选关联词在问题词集和答案词集的合集中的词频。例如，第三词频表示候选关联词在问题词集和答案词集的合集中出现的次数与问题词集和答案词集的合集中的所有词的数量的比值。

例如，在一个示例中，操作S122可以包括将至少一个候选关联词中对应的第三词频大于第三词频阈值的候选关联词确定为关键词的关联词。

例如，在另一个示例中，操作S122可以包括将至少一个候选关联词中对应的第三词频最高的前P个候选关联词确定为关键词的关联词。例如，P为正整数。

例如，P可以与候选关联词的数量M相关，且P与M之间的关系可以预先设定。例如，P＝INT(0.7M)，INT(x)表示不超过实数x的最大整数。

例如，在又一个示例中，操作S122可以包括将至少一个候选关联词中对应的第三词频大于第三词频阈值的前P个候选关联词确定为关键词的关联词。例如，前P个候选关键词为至少一个候选关键词中对应的第三词频最高的前P个候选关键词，其中，P为正整数。

例如，至少一个候选关联词中对应的第三词频大于第三词频阈值的候选关联词的数量可以为N。P可以与N相关，且P与N之间的关系可以预先设定。例如，P＝INT(0.5N)。

需要说明的是，上述关于P的说明仅是示例性的，本公开实施例对P的值不作具体限制。

例如，当确定候选关联词为关键词的关联词时，可以建立该关联词和该关键词的关联关系。关联词组可以包括关键词、关联词以及该关联词和该关键词的关联关系。关联关系可以表示关联词和关键词在数据库中的映射关系，从而当获取该关键词之后，可以根据该关键词获得该关键词的关联词。关联词和关键词之间的关联关系可以为多对一，即多个关联词对应一个关键词。

例如，关键词的关联词为可以为关键词的近义词、同义词等。

例如，第三词频阈值可以由用户预先设置或系统自动设定。例如，在一个示例中，第三词频阈值为35％。

需要说明的是，在操作S12中，还可以通过人工录入关联词。

例如，操作S14可以包括以下操作：利用关键词的关联词替代预置问题组中的关键词，以生成包括至少一个扩展问题的扩展问题组。

例如，扩展问题组也可以存储在数据库中。

图3为本公开一实施例提供的另一种用于问答服务的方法的示意性流程图。

例如，如图3所示，该用于问答服务的方法还包括：

操作S16：从预置问题组、预置答案和扩展问题组中提取第一训练数据和第二训练数据，并将第一训练数据和第二训练数据的相似度设定为目标相似度；

操作S18：根据第一训练数据、第二训练数据和目标相似度，训练初始问答预测模型以得到问答预测模型。

例如，操作S18可以包括：利用初始问答预测模型处理第一训练数据和第二训练数据以得到预测相似度；以及比较预测相似度和目标相似度，并根据比较结果修正初始问答预测模型的参数，以得到训练后的问答预测模型。

例如，初始问答预测模型的初始参数可以为随机数。随机数例如符合高斯分布。

需要说明的是，操作18包括利用第一训练数据和第二训练数据反复迭代训练初始问答预测模型，直到初始问答预测模型的损失函数满足预定条件时结束训练。初始问答预测模型与问答预测模型仅参数不同，其结构相同。

例如，问答预测模型可以包括深度神经网络模型。深度学习框架可以使用tensorflow、卷积神经网络框架(Convolutional Architecture for Fast FeatureEmbedding，CAFFE)等。深度神经网络模型可以采用卷积神经网络(CNN)、栈式自编码网络、稀疏编码网络、循环神经网络(RNN)、深度信念网络、长短期记忆网络(LSTM)等。在图2所示的示例中，以CNN模型为例进行详细说明。

例如，如图2所示，CNN模型包括输入层100、隐藏层110、卷积层120、子采样层130和输出层140等。

例如，在训练过程中，输入层100用于输入第一训练数据和第二训练数据。例如，输入层100中的数据A表示第一训练数据，数据B表示第二训练数据。

例如，第一训练数据和第二训练数据中的至少一种包括扩展问题组中的扩展问题，此时，目标相似度为第一相似度阈值。例如，第一训练数据和第二训练数据可均为扩展问题组中的扩展问题；或者，第一训练数据可以为扩展问题组中的扩展问题，而第二训练数据为预置答案；或者，第一训练数据可以为扩展问题组中的扩展问题，而第二训练数据为预置问题组中的预置问题。又例如，第一训练数据可以包括预置问题组中的预置问题或预置答案，并且第二训练数据可以包括预置问题组中的预置问题或预置答案，此时，目标相似度为第二相似度阈值。例如，第一训练数据和第二训练数据可以均为预置问题组中的预置问题；或者，第一训练数据可以为预置问题组中的预置问题，而第二训练数据为预置答案。

例如，第一相似度阈值小于第二相似度阈值。因此，在问答服务的过程中，预置问题组中的预置问题可以被优先采纳，从而提高输出答案的准确率。

例如，在一个示例中，第一相似度阈值可以为0.8，而第二相似度阈值可以为1。

例如，当第一训练数据和第二训练数据均为扩展问题组中的扩展问题时，第一相似度阈值为X1；当第一训练数据为扩展问题组中的扩展问题，而第二训练数据为预置答案时，第一相似度阈值为X2；当第一训练数据为扩展问题组中的扩展问题，而第二训练数据为预置问题组中的预置问题时，第一相似度阈值为X3。当第一训练数据和第二训练数据均为预置问题组中的预置问题时，第二相似度阈值额可以为Y1；当第一训练数据为预置问题组中的预置问题，而第二训练数据为预置答案时，第二相似度阈值可以为Y2。例如，X1、X2和X3可以相同，也可以不同，但均小于第二相似度阈值，也就是说，X1、X2和X3中的任意一个均小于Y1和Y2。Y1和Y2可以相同，也可以不同，但均大于第一相似度阈值，也就是说，Y1和Y2中的任意一个均大于X1、X2和X3。

例如，卷积层120用于对训练数据进行卷积(convolution)处理。卷积层120具有权重和偏置。权重表示一个卷积核，偏置是叠加到卷积层120的输出的标量。通常，每个卷积层120包括数十个或数百个卷积核。例如，每个CNN包括多个卷积层120。若CNN为深度卷积神经网络，则其包括至少五层卷积层120。

例如，问答预测模型的参数可以包括卷积层120的权重和偏置。

例如，子采样层130用于对卷积层120的输出进行子采样(sub-sampling)处理。在子采样层130中，T表示激活函数，而P表示池化，即子采样。

例如，子采样主要用于缩减数量的规模，简化计算的复杂度，在一定程度上减小过拟合的现象。实现子采样的方法有很多种，这些方法包括但不限于：最大值合并(max-pooling)、平均值合并(avg-pooling)、随机合并、欠采样(decimation，例如选择固定的像素)、解复用输出(demuxout，将输入图像拆分为多个更小的图像)等。

例如，激活函数用于给CNN引入非线性因素，以使CNN可以更好地解决较为复杂的问题。激活函数包括线性修正单元(ReLU)函数、S型函数(Sigmoid函数)或双曲正切函数(tanh函数)等。ReLU函数为非饱和非线性函数，Sigmoid函数和tanh函数为饱和非线性函数。

例如，输出层140用于确定输入的数据A和数据B的相似度。在训练过程中，数据A为第一训练数据，数据B为第二训练数据，即输出层140用于计算第一训练数据和第二训练数据的相似度。例如，可以通过余弦相似度(Cosine Similarity，也称为余弦距离)、欧氏距离、马氏距离等方法计算数据A和数据B之间的距离，距离越小表示该数据A和数据B的相似度越高。

图4为本公开一实施例提供的一种用于问答服务的方法的问答过程的流程图。

例如，如图4所示，该用于问答服务的方法的问答过程包括：

操作S20：接收问题请求；

操作S22：利用训练得到的问答预测模型处理问题请求，得到问题请求的答案；

操作S24：输出问题请求的答案。

例如，在操作S20中，服务器端可以通过网络从客户端获取问题请求，同时，服务器端也可以将问题请求的答案通过网络返回到客户端。服务器端和客户端可以通过网络协议进行请求和应答的过程。例如，客户端是终端用户，服务器端是网站。这里，网络协议不限于超文本传输协议(HTTP，HyperText Transfer Protocol)，可以是任何其他网络通信的协议，例如，文件传输协议(File Transfer Protocol，FTP)、传输控制协议/因特网互联协议(Transmission Control Protocol/Internet Protocol，TCP/IP)、内部网关协议(Interior Gateway Protocol，IGP)等。

例如，问题请求和问题请求的答案可以采用字符串，可扩展标记语言(eXtensibleMarkup Language，xml)或者JS对象标记(JavaScript Object Notation，JSON)等数据格式来进行封装数据。

例如，在操作S20中，服务器端还可以从输入装置处获取问题请求。输入装置例如可以包括键盘、遥控器、带触摸功能的触摸屏或话筒等。例如，问题请求可以为通过键盘或触摸屏等输入的文本信息；问题请求也可以为通过话筒等输入的语音信息，语音信息经过语音识别系统进行处理后可以转换为文本信息。

例如，操作S22可以包括：利用训练得到的问答预测模型分别计算问题请求和不同类型的预置问题组中的各预置问题、不同类型的扩展问题组中的各扩展问题的相似度；选择具有最高相似度的预置问题或扩展问题；获取与具有最高相似度的预置问题或扩展问题相对应的预置答案，并将其作为目标答案。问题请求的答案即为该目标答案。

例如，如图2所示，在问答过程中，训练得到的问答预测模型的输入层100中输入的A可以表示问题请求，而B表示预置问题或扩展问题。训练得到的问答预测模型的输出层140可用于确定问题请求和预置问题或扩展问题的相似度。

需要说明的是，在操作S22中，问答预测模型还可以计算问题请求和不同类型的预置答案的相似度。

例如，在操作S24中，可以通过输出装置输出问题请求的答案。输出装置可以为显示器、扬声器等。若输出装置为显示器，则问题请求的答案可以通过文字、图像、视频等方式输出；若输出装置为扬声器，则问题请求的答案可以通过语音方式输出。

例如，客户端的用户可以与服务器端通过用户界面进行交互。用户界面可以包括图形用户界面、自然用户界面等。例如，图形用户界面可接受来自用户采用诸如键盘、鼠标、遥控器等输入装置的输入，以及在诸如显示器之类的输出装置上提供输出。自然语言界面可以使用户通过语音识别、触摸和指示笔识别、屏幕上和屏幕附近的手势识别以及机器智能等方式实现与服务器端的交互。

图5为本公开一实施例提供的问答服务系统的示意性框图。

例如，如图5所示，本公开实施例提供的问答服务系统70可以包括预置问答设备700、问题扩展设备703和关联词获取设备706。应当注意，图所示的问答服务系统70的组件只是示例性的，而非限制性的，根据实际应用需要，该问答服务系统70还可以具有其他组件。

例如，预置问答设备700可以包括一个或多个存储器。存储器用于存储多种类型的预置问题组和对应的预置答案。例如，存储器可以包括易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。

例如，问题扩展设备703配置为从预置问题组和对应的预置答案中确定关键词，并将关键词传输至关联词获取设备706。关联词获取设备706配置为获取关键词的关联词组，并将关联词组传输至问题扩展设备703。问题扩展设备703还配置为利用关键词的关联词组，生成包括至少一个扩展问题的扩展问题组。

例如，预置问题组包括至少一个预置问题。至少一个预置问题可以包括一个标准问题和一个或多个预置扩展问题。例如，预置答案可以与标准问题相对应。

例如，关键词的关联词组包括关键词的至少一个关联词。

例如，问题扩展设备703和关联词获取设备706可以通过网络进行通信。例如，网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。网络可以包括局域网、互联网、电信网、基于互联网和/或电信网的物联网(Internet of Things)、和/或以上网络的任意组合等。有线网络例如可以采用双绞线、数字订户线(DSL)、同轴电缆或光纤传输等方式进行通信，无线网络例如可以采用3G/4G/5G移动通信网络、蓝牙、Zigbee或者WiFi等通信方式。又例如，问题扩展设备703和关联词获取设备706也可以通过系统总线进行通信。本公开实施例对此不作限制。

例如，问题扩展设备703和关联词获取设备706可以通过硬件、软件、固件或其任何组合实现。

例如，预置问答设备700中的存储器还可以用于存储关联词组、扩展问题组等。

例如，问答服务系统70还可以包括控制器(未示出)。控制器用于控制问答服务系统70中的各组件协同工作。控制器可以为组合逻辑控制器、微程序控制器等。

例如，在一个示例中，问题扩展设备703配置为：从预置问题组中获取包括至少一个候选关键词的问题词集，并从预置答案中获取包括所述至少一个候选关键词的答案词集；以及根据每个候选关键词在问题词集中的第一词频和在答案词集中的第二词频，从问题词集中包括的至少一个候选关键词中确定关键词。

例如，问题扩展设备703和关联词获取设备706可以通过系统总线访问预置问答设备700，以获取预置问题组、预置答案、扩展问题组等数据。

例如，问题扩展设备703还配置为确定候选关键词在问题词集中的第一词频和在答案词集中的第二词频；以及在候选关键词的第一词频小于或等于第一词频阈值且候选关键词的第二词频大于或等于第二词频阈值的情况下，将候选关键词确定为关键词。

例如，在一个示例中，关联词获取设备706还配置为：从网络中获取关键词的至少一个候选关联词；根据每个候选关联词在问题词集中的词频和在答案词集中的词频，确定每个候选关联词的第三词频；以及根据至少一个候选关联词中每个候选关联词的第三词频，从至少一个候选关联词中确定关键词的关联词。

例如，在一个示例中，关联词获取设备706还配置为利用网络爬虫从网络中获取关键词的至少一个候选关联词。

例如，第三词频可以为候选关联词在问题词集中的词频和在答案词集中的词频之和。

例如，在一个示例中，关联词获取设备706配置为将至少一个候选关联词中对应的第三词频大于第三词频阈值的候选关联词确定为关键词的关联词。

例如，在另一个示例中，关联词获取设备706配置为将至少一个候选关联词中对应的第三词频最高的前P个候选关联词确定为关键词的关联词。例如，P为正整数。

例如，在又一个示例中，关联词获取设备706配置为将至少一个候选关联词中对应的第三词频大于第三词频阈值的前P个候选关联词确定为关键词的关联词。例如，前P个候选关键词为至少一个候选关键词中对应的第三词频最高的前P个候选关键词，P为正整数。

例如，当确定候选关联词为关键词的关联词时，可以建立关联词和关键词的关联关系。关联词组可以包括关键词、关联词以及关联词和关键词的关联关系。

例如，关键词的关联词包括关键词的近义词。

需要说明的是，关于问题扩展设备703和关联词获取设备706的功能的详细说明可以参考用于问答服务的方法的实施例中的相关描述，关于预置问题组、预置答案、关联词组、扩展问题组等的详细说明也可以参考用于问答服务的方法的实施例中的相关描述。重复之处在此不再赘述。

例如，如图5所示，问答服务系统70还包括模型训练装置709。模型训练装置709包括问答预测模型。例如，关于问答预测模型的详细说明可以参考用于问答服务的方法的实施例中的相关描述。

例如，模型训练装置709可以通过网络或系统总线与预置问答设备700进行通信，从而从预置问答设备700中获取训练数据。

例如，模型训练装置709配置为从预置问题组、预置答案和扩展问题组中提取第一训练数据和第二训练数据，并将第一训练数据和第二训练数据的相似度设定为目标相似度；以及根据第一训练数据、第二训练数据和目标相似度，训练初始问答预测模型以得到问答预测模型。

例如，第一训练数据和第二训练数据中的至少一种包括扩展问题组中的扩展问题，此时，目标相似度为第一相似度阈值。又例如，第一训练数据可以包括预置问题组中的预置问题或预置答案，并且第二训练数据可以包括预置问题组中的预置问题或预置答案，此时，目标相似度为第二相似度阈值。

例如，第一相似度阈值小于第二相似度阈值。因此，在问答服务的过程中，预置问题组中的预置问题可以被优先采纳，从而提高输出答案的准确率。在一个示例中，第一相似度阈值例如可以为0.8，而第二相似度阈值可以为1。

需要说明的是，关于问答预测模型的训练过程、第一训练参数、第二训练参数、第一相似度阈值和第二相似度阈值的详细说明可以参考用于问答服务的方法的实施例中的相关描述，在此不再赘述。

例如，如图5所示，问答服务系统70还可以包括问答服务设备712。问答服务设备712被配置为接收问题请求，并将问题请求传输至模型训练装置709。模型训练装置709还配置为利用训练得到的问答预测模型处理问题请求以得到问题请求的答案，并将问题请求的答案传输至问答服务设备712。问答服务设备712还配置为输出问题请求的答案。

例如，问答服务设备712可以包括输入装置和输出装置。

例如，问答服务设备712可以通过红外线、无线电、以及微波之类的无线技术接受来自从web网站或其它远程客户端传输的问题请求。

例如，问答服务设备712和模型训练装置709可以通过系统总线或者网络等进行通信。

需要说明的是，关于问答预测模型、输入装置和输出装置的详细描述也可以参考用于问答服务的方法的实施例中的相关描述。

本公开至少一实施例还提供一种存储介质。该存储介质存储有适于由处理器运行的计算机指令。计算机指令被处理器执行时可以执行根据上文所述的用于问答服务的方法中的一个或多个步骤，从而实现各种功能。

例如，存储介质可以包括一个或多个计算机程序产品的任意组合，计算机程序产品可以为各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如预置问题组、预置答案、扩展问题组、关联词组以及应用程序使用和/或产生的各种数据等。

对于本公开，还有以下几点需要说明：

(1)本公开实施例附图只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计。

(2)在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。

以上所述仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种用于问答服务的方法，包括：

从预置问题组和对应的预置答案中确定关键词，其中，所述预置问题组包括至少一个预置问题；

获取所述关键词的关联词组，其中，所述关键词的关联词组包括所述关键词的至少一个关联词；以及

利用所述关键词的关联词组，生成包括至少一个扩展问题的扩展问题组；

其中，所述关键词表示所述预置问题组中的关键信息，

所述从预置问题组和对应的预置答案确定关键词，包括：

从所述预置问题组中获取包括至少一个候选关键词的问题词集，并从所述预置答案中获取包括所述至少一个候选关键词的答案词集；

根据每个所述候选关键词在所述问题词集中的第一词频和在所述答案词集中的第二词频，从所述问题词集中包括的所述至少一个候选关键词中确定所述关键词；

所述方法还包括：

从所述预置问题组、预置答案和扩展问题组中提取第一训练数据和第二训练数据，并将所述第一训练数据和第二训练数据的相似度设定为目标相似度；

根据所述第一训练数据、所述第二训练数据和所述目标相似度，训练问答预测模型；

其中，根据所述第一训练数据、所述第二训练数据和所述目标相似度，训练问答预测模型，包括：利用初始问答预测模型处理所述第一训练数据和所述第二训练数据以得到预测相似度；比较预测相似度和所述目标相似度以得到比较结果，并根据所述比较结果修正所述初始问答预测模型的参数，以得到训练后的所述问答预测模型；

所述第一训练数据和所述第二训练数据中的至少一种包括所述扩展问题组中的扩展问题，所述目标相似度为第一相似度阈值；或者，

所述第一训练数据包括所述预置问题组中的预置问题或所述预置答案，并且所述第二训练数据包括所述预置问题组中的预置问题或所述预置答案，所述目标相似度为第二相似度阈值；

其中，所述第一相似度阈值小于所述第二相似度阈值。

2.根据权利要求1所述的方法，所述根据每个所述候选关键词在所述问题词集中的第一词频和在所述答案词集中的第二词频，从所述问题词集中包括的至少一个候选关键词中确定所述关键词，包括：

若所述候选关键词的第一词频小于或等于第一词频阈值且所述候选关键词的第二词频大于或等于第二词频阈值，将所述候选关键词确定为所述关键词。

3.根据权利要求1所述的方法，其中，所述获取所述关键词的关联词组，包括：

利用网络爬虫获取所述关键词的至少一个候选关联词；

根据每个候选关联词在所述问题词集中的词频和在所述答案词集中的词频，确定所述每个候选关联词的第三词频；以及

根据所述至少一个候选关联词中每个候选关联词的所述第三词频，从所述至少一个候选关联词中确定所述关键词的关联词。

4.根据权利要求3所述的方法，其中，所述根据所述至少一个候选关联词中每个候选关联词的所述第三词频，从所述至少一个候选关联词中确定所述关键词的关联词，包括：

将所述至少一个候选关联词中对应的第三词频大于第三词频阈值的所述候选关联词确定为所述关键词的关联词；或者，

将所述至少一个候选关联词中对应的第三词频最高的前P个候选关联词确定为所述关键词的关联词，其中，P为正整数；或者

将所述至少一个候选关联词中对应的第三词频大于所述第三词频阈值的前P个候选关联词确定为所述关键词的关联词，其中，所述前P个候选关键词为所述至少一个候选关键词中对应的第三词频最高的前P个候选关键词，P为正整数。

5.根据权利要求1所述的方法，还包括：

接收问题请求；

利用所述训练得到的所述问答预测模型处理所述问题请求，得到所述问题请求的答案；

输出所述问题请求的答案。

6.根据权利要求1-4任一项所述的方法，其中，所述关键词的关联词包括所述关键词的近义词。

7.一种问答服务系统，包括：问题扩展设备和关联词获取设备，其中，

所述问题扩展设备配置为：

所述关联词获取设备配置为：

获取所述关键词的关联词组，其中，所述关键词的关联词组包括所述关键词的至少一个关联词；

所述问题扩展设备还配置为利用所述关键词的关联词组，生成包括至少一个扩展问题的扩展问题组，

其中，所述关键词表示所述预置问题组中的关键信息，

所述问题扩展设备还被配置为：

所述问答服务系统还包括模型训练设备，

所述模型训练设备包括问答预测模型，

所述模型训练设备被配置为：

根据所述第一训练数据、所述第二训练数据和所述目标相似度，训练问答预测模型，

其中，在执行根据所述第一训练数据、所述第二训练数据和所述目标相似度，训练问答预测模型的步骤时，所述模型训练设备被配置为：利用初始问答预测模型处理所述第一训练数据和所述第二训练数据以得到预测相似度；比较预测相似度和所述目标相似度以得到比较结果，并根据所述比较结果修正所述初始问答预测模型的参数，以得到训练后的所述问答预测模型；

其中，所述第一训练数据和所述第二训练数据中的至少一种包括所述扩展问题组中的扩展问题，所述目标相似度为第一相似度阈值；或者，

其中，所述第一相似度阈值小于所述第二相似度阈值。

8.根据权利要求7所述的问答服务系统，其中，所述问题扩展设备还被配置为在所述候选关键词的第一词频小于或等于第一词频阈值且所述候选关键词的第二词频大于或等于第二词频阈值的情况下，将所述候选关键词确定为所述关键词。

9.根据权利要求7所述的问答服务系统，其中，所述关联词获取设备被配置为：

利用网络爬虫获取所述关键词的至少一个候选关联词；

10.根据权利要求9所述的问答服务系统，其中，所述关联词获取设备被配置为：

将所述至少一个候选关联词中对应的第三词频大于第三词频阈值的候选关联词确定为所述关键词的关联词；或者，

将所述至少一个候选关联词中对应的第三词频大于第三词频阈值的前P个候选关联词确定为所述关键词的关联词，其中，所述前P个候选关键词为所述至少一个候选关键词中对应的第三词频最高的前P个候选关键词，其中，P为正整数。

11.根据权利要求7所述的问答服务系统，还包括问答服务设备，其中，

所述问答服务设备被配置为接收问题请求；

所述模型训练设备被配置为利用所述训练得到的所述问答预测模型处理所述问题请求，得到所述问题请求的答案；

所述问答服务设备还被配置为输出所述问题请求的答案。

12.根据权利要求7-10任一项所述的问答服务系统，其中，所述关键词的关联词包括所述关键词的近义词。

13.一种存储介质，存储有适于由处理器运行的计算机指令，所述计算机指令被处理器运行时可以执行根据权利要求1-6任一所述的用于问答服务的方法。