CN113886535B

CN113886535B - 基于知识图谱的问答方法、装置、存储介质及电子设备

Info

Publication number: CN113886535B
Application number: CN202111101861.5A
Authority: CN
Inventors: 陈海鹏; 林庆治
Original assignee: Qianhai Feisuan Yunchuang Data Technology Shenzhen Co ltd
Current assignee: Qianhai Feisuan Yunchuang Data Technology Shenzhen Co ltd
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2022-07-08
Anticipated expiration: 2041-09-18
Also published as: CN113886535A

Abstract

本公开涉及一种基于知识图谱的问答方法、装置、存储介质及电子设备，方法包括：从多个渠道获取源数据；针对每个所述渠道的源数据，根据该源数据，构建与该源数据对应的候选知识图谱；对所述候选知识图谱中的目标数据进行统一化处理，其中，所述目标数据包括实体名称、实体关系名称以及数值型实体的单位；将经过统一化处理的候选知识图谱进行融合，得到目标知识图谱，解决了图谱数据规范性问题，便于知识融合以及避免了在实体比较应用场景下的性能影响，且目标知识图谱是由多个候选知识图谱进行融合得到的，如此，提高了问答结果的准确性。

Description

基于知识图谱的问答方法、装置、存储介质及电子设备

技术领域

本公开涉及信息搜索技术领域，具体地，涉及一种基于知识图谱的问答方法、装置、存储介质及电子设备。

背景技术

基于知识图谱的问答是指对用户的输入语句，基于知识图谱，根据用户输入语句的内容，生成与输入语句的内容对应的结果的过程。传统的知识问答，由于知识图谱过于单一，导致输出的结果的内容准确性不高；另外，由于知识图谱中数据不规范，例如，数值单位不规范，导致在实际应用时，多样化单位会影响实体比较场景下的系统性能。

发明内容

本公开的目的是提供一种基于知识图谱的问答方法、装置、存储介质及电子设备，以提高基于知识图谱反馈的问答结果的丰富性。

为了实现上述目的，第一方面，本公开提供一种基于知识图谱的问答方法，包括：

从多个渠道获取源数据；

针对每个所述渠道的源数据，根据该源数据，构建与该源数据对应的候选知识图谱；

对所述候选知识图谱中的目标数据进行统一化处理，其中，所述目标数据包括实体名称、实体关系名称以及数值型实体的单位；

将经过统一化处理的候选知识图谱进行融合，得到目标知识图谱，其中，所述目标知识图谱用于对获取的待回复语句反馈问答结果。

可选地，所述目标数据包括数值型实体的单位，所述对所述候选知识图谱中的目标数据进行统一化处理，包括：

遍历所述候选知识图谱的实体的实体关系名称以及该实体关系名称指向的实体，统计遍历到的所述实体关系名称指向的实体为数值型实体的实体数量；

根据统计结果，将实体数量大于预设实体数量的目标实体关系名称所指向的数值型实体的单位转化为对应的预设单位。

可选地，所述候选知识图谱包括第一候选知识图谱和第二候选知识图谱，所述将经过统一化处理的候选知识图谱进行融合，得到目标知识图谱，包括：

针对所述第一候选知识图谱与所述第二候选知识图谱的目标实体对，计算所述目标实体对的相似性，其中，所述目标实体对为所述第一候选知识图谱与所述第二候选知识图谱中实体名称相同的实体的组合，所述相似性包括实体关系相似性和实体属性相似性；

根据所述目标实体对的相似性计算结果，对所述第一候选知识图谱与所述第二候选知识图谱的目标实体对进行融合。

可选地，所述相似性包括实体关系相似性，采用以下方式计算所述目标实体对的实体关系相似性：

计算所述第一候选知识图谱中各实体关系名称的初始权重，其中，所述初始权重用于表征对判断所述目标实体对是否属于同一实体的影响程度；

针对所述目标实体对的同一实体关系名称，根据所述目标实体对的同一实体关系名称指向对象的异同情况以及该实体关系名称对应的初始权重，确定该实体关系名称对应的子权重；

针对所述目标实体对，根据所述目标实体对所有同一实体关系名称对应的子权重，以及所述目标实体对所有同一实体关系名称对应的初始权重，确定所述目标实体对的实体关系相似性。

可选地，所述方法还包括：

获取所述待回复语句；

根据目标知识图谱，识别所述待回复语句中的实体信息，其中，所述实体信息包括实体和实体间关系；

根据所述实体信息，确定所述待回复语句的目标意图；

根据所述目标意图和所述实体信息，构造针对所述待回复语句的候选回复语句，得到候选回复语句集；

对所述候选回复语句集中回复语句进行排序，并根据排序结果从所述候选回复语句集中确定目标回复语句。

可选地，所述目标知识图谱中的各实体包括对应的类别标签，所述实体信息还包括实体类别标签，所述根据所述实体信息，确定所述待回复语句的目标意图，包括：

提取所述待回复语句的关键词，并根据所述关键词和与所述实体类别标签对应的预设意图对应的关键词列表，匹配所述待回复语句的候选意图；

在成功匹配到与所述待回复语句相匹配的候选意图的情况下，将所述候选意图确定为所述待回复语句的目标意图；

在未成功匹配到与所述待回复语句相匹配的候选意图的情况下，根据所述实体信息，确定所述待回复语句的目标意图。

可选地，所述对所述候选回复语句集中回复语句进行排序，包括：

针对所述候选回复语句集中每一候选回复语句，根据该候选回复语句确定综合影响指数，其中，所述综合影响指数通过实体影响指数、相关性影响指数和语句特征影响指数中的至少一者确定；

将满足预设条件的综合影响指数所对应的候选回复语句确定为目标回复语句。

第二方面，本公开提供一种基于知识图谱的问答装置，包括：

获取模块，用于从多个渠道获取源数据；

构建模块，用于针对每个所述渠道的源数据，根据该源数据，构建与该渠道对应的候选知识图谱；

处理模块，用于对所述候选知识图谱中的目标数据进行统一化处理，其中，所述目标数据包括实体名称、实体关系名称以及数值型实体的单位；

融合模块，用于将经过统一化处理的候选知识图谱进行融合，得到目标知识图谱，其中，所述目标知识图谱用于对获取的待回复语句反馈问答结果。

第三方面，本公开提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一项所述方法的步骤。

第四方面，本公开提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现上述第一方面中任一项所述方法的步骤。

通过上述技术方案，基于从多个渠道获取的源数据分别构建对应的候选知识图谱，为知识融合提供数据支持；对候选知识图谱中的数据进行统一化处理，由此解决了图谱数据规范性问题，便于知识融合以及避免了在实体比较应用场景下的性能影响；将经过统一化处理的候选知识图谱进行融合得到目标知识图谱，由于目标知识图谱是由多个候选知识图谱进行融合得到的，因此，利用目标知识图谱对获取的待回复语句反馈问答结果可以提高基于知识图谱反馈的问答结果的准确性。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据本公开一示例性实施例示出的一种基于知识图谱的问答方法的流程图。

图2是根据本公开一示例性实施例示出的一种知识图谱的示意图。

图3是根据本公开一示例性实施例示出的一种基于知识图谱的问答装置的框图。

图4是根据本公开一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

知识图谱用于描述真实世界中存在的各种实体及其关系。知识图谱中包括的一种三元组关系可以是(实体1，实体关系，实体2)，其中，实体关系可以包括属性关系和对象关系，例如，实体2可以是面积值，则实体1的实体关系对应的描述的是属性关系；实体2可以是人名，则实体1的实体关系对应描述的是对象关系。

首先对本公开中的应用场景进行说明。当用户在电子设备的显示界面上输入待回复语句之后，电子设备对待回复语句进行识别和处理，基于知识图谱获得该待回复语句对应的问答结果，最后向用户反馈该问答结果。例如，用户在搜索框中输入待回复语句“谁是周杰伦的妈妈”，对应的问答结果可以是“周杰伦的妈妈是叶惠美”。

以下结合具体步骤对本公开提供的一种基于知识图谱的问答方法的实施过程进行进一步的解释说明。

图1是根据本公开一示例性实施例示出的一种基于知识图谱的问答方法的流程图，参照图1，该方法包括：

步骤101，从多个渠道获取源数据。

示例地，源数据可以是网络数据，进而，渠道可以包括百度百科、互动百科、搜狗百科和维基百科等。

在一些实施方式中，对获取的源数据可以进行预处理，其中，该预处理包括数据解析和数据清洗。具体来讲，将获取到的网页数据进行解析得到其中的文本数据及内含的链接指向对集合。其中文本数据包括结构化数据(如属性数据集)和非结构化数据(如描述性的文本集)，链接指向对集合主要包含实体及对应的实体链接，可以为后面的知识融合提供依据。

需要说明的是，获取的源数据可以是预设类型的数据。其中，预设类型可以是电影、人物等。例如，与电影相关的源数据，由此，建立与电影相关的知识图谱，并基于该知识图谱对电影相关的待回复语句反馈问答结果，如此，有针对性的建立知识图谱，可以在实际应用中降低问答结果的计算量，提高待回复语句的反馈效率。进一步理解的是，可以利用爬虫技术预设类型的源数据进行获取。且爬虫技术可以参照相关技术，本实施在此不作赘述。

步骤102，针对每个渠道的源数据，根据该源数据，构建与该源数据对应的候选知识图谱。

以图2为例，图2示出了一种候选知识图谱的示意图。知识图谱可以看做是一张巨大的网，节点表示实体或者概念，边是实体关系的实例，例如，图2中，属性值1和属性值2是实体1的实体关系为属性关系的实例，实体2和实体3是实体1的实体关系为对象关系的实例。

本领域技术人员可以理解，知识图谱在存储过程中，可以通过图数据库的方式进行存储。因此，在查询知识图谱的过程中，针对该图数据库的查询语言，可从知识图谱中查找到对应结果。

步骤103，对候选知识图谱中的目标数据进行统一化处理，其中，目标数据包括实体名称、实体关系名称以及数值型实体的单位。

示例地，例如上海、沪、魔都的实体名称都指代上海市这一实体，仲尼、尼父、孔夫子的实体名称都指代孔子这一实体。因此，在对不同实体名称指代同一实体的实体名称进行统一化，规范知识图谱，降低知识图谱的存储成本。

在一些实施方式中，可以采用以下方式对实体名称进行统一化处理：使用词条全称及词条特征统计数据进行去重，将表征同一实体的不同名称指向同一实体。

其中，实体关系名称包括属性关系名称和对象关系名称。示例地，实体关系名称包括属性关系名称时，“出生日期”，“出生时间”，“出生年月”表征同一属性。实体关系名称是对象关系名称时，{“父亲”，“爸爸”，“爹”}表征同一对象关系。因此，可以将同义不同表述的实体关系名称进行统一化，解决了同样的关系存在多种表达方式的问题，规范了知识图谱的数据。

在一些实施方式中，可以采用以下方式对实体关系名称进行统一化处理：对候选知识图谱中的实体关系名称进行统计处理，得到全部实体关系名称及其对应的频次，按照频次进行排序，获取频次位于前10000的实体关系名称；利用word2ver(一群用来产生词向量的相关模型)算法对获取到的前10000的实体关系名称进行向量化，对得到的向量化后的特征序列使用k-means(K均值聚类算法)进行关系聚类，得到聚类后的各关系集合进行处理。例如，对[“出生日期”，“出生时间”，“出生年月”]这一关系集合而言，可以将该关系集合中的其中一个(例如“出生日期”)名称作为该关系集合的目标名称，并对候选知识图谱中属于该关系集合的实体关系名称同一更改为该目标名称，实现实体关系名称的统一化处理。

其中，word2ver算法和k-means算法可以参照相关技术，本实施例在此不做赘述。

应当说明的是，实体的实体关系名称(此处指代实体属性名称)指向的含有数值并可以进行相互比较的实体称之为数值型实体。示例地，实体A的身高(即实体属性名称)为179cm、实体B的出生日期为2010年2月4号、实体C的面积为100公顷等，其中的179cm、2010年2月4号和100公顷均可称为数值型实体。

在一些实施方式中，可以采用以下方式对候选知识图谱中的数值型实体的单位进行统一化处理：遍历候选知识图谱的实体的实体关系名称以及该实体关系名称指向的实体，统计遍历到的实体关系名称指向的实体为数值型实体的实体数量；根据统计结果，将实体数量大于预设实体数量的目标实体关系名称所指向的数值型实体的单位转化为对应的预设单位。采用该方式，解决了图谱数据的规范化问题及单位表示多样化影响比较的问题；且考虑到指向数值型实体的实体关系名称较少的话，表明对此类信息的关注度较低，因此，将实体数量大于预设实体数量的目标实体关系名称进行单位的统一，即主要的实体关系名称进行单位的统一可以降低计算量。

在一些实施例方式中，可以采用正则规则来判断遍历到的实体关系名称指向的实体是否为数值型实体，该正则规则可以是判断指向的实体是否含有数字字符的规则，并在判断实体关系名称指向的实体含有数字字符的情况下，确定该实体为数值型实体。

且应当理解的是，在实体关系名称表示属性关系名称时，实体关系名称指向的实体才有可能是数值型实体，因此，在遍历时候选知识图谱的实体的实体关系名称可以仅遍历属性关系名称，以此提高处理效率。

在一些实施例方式中，根据统计结果，读取实体数量大于预设实体数量的目标实体关系名称所指向的实体值，获得数值型实体值序列，根据该数值型实体值序列，依次使用正则规则将数值型实体值序列中各数值型实体的单位的表现形式转化为相同的形式。

示例地，身高这一目标实体关系名称指向的实体值的的实体值序列为(“180.0CM”，“194厘米”，“0.9m”，“1.66米”，“161.8cm，“175公分”，“6英尺4英寸”，“一米六三”，“五.2尺七寸”)，最后可以使用正则规则将实体值序列中各数值型实体的单位的表现形式转化为相同的形式，例如，对于身高，可以将所有身高的单位的不同表现形式以CM的形式进行统一。

步骤104，将经过统一化处理的候选知识图谱进行融合，得到目标知识图谱，其中，目标知识图谱用于对获取的待回复语句反馈问答结果。

应当可以理解的是，用于构建的候选知识图谱的不同源数据可能存在相同的实体，因此，融合时即可对相同的实体的实体关系(属性和对象)进行融合。

采用上述技术方案，基于从多个渠道获取的源数据分别构建对应的候选知识图谱，为知识融合提供数据支持；对候选知识图谱中的数据进行统一化处理，由此解决了图谱数据规范性问题，便于知识融合以及避免了在实体比较应用场景下的性能影响；将经过统一化处理的候选知识图谱进行融合得到目标知识图谱，由于目标知识图谱是由多个候选知识图谱进行融合得到的，因此，利用目标知识图谱对获取的待回复语句反馈问答结果可以提高基于知识图谱反馈的问答结果的准确性。

在可能的方式中，以候选知识图谱包括第一候选知识图谱和第二候选知识图谱为例，对图1所示的步骤104进行进一步解释说明。图1所示的步骤104可以包括：针对第一候选知识图谱与第二候选知识图谱的目标实体对，计算目标实体对的相似性；根据目标实体对的相似性计算结果，对第一候选知识图谱与第二候选知识图谱的目标实体对进行融合。

需要说明的是，目标实体对为第一候选知识图谱与第二候选知识图谱中实体名称相同的实体的组合。示例地，第一候选知识图谱存在实体名称为周杰伦的实体，第二候选知识图谱也存在实体名称为周杰伦的实体，则周杰伦-周杰伦则为一组目标实体对。

在一些实施方式中，可以通过遍历第一候选知识图谱与第二候选知识图谱中的实体名称来确定目标实体对。

在一些实施方式中，相似性包括实体关系相似性和实体属性相似性。其中，实体关系相似性可以根据实体间的对象关系进行确定，实体属性相似性可以根据实体间对应的简介文字的相似性确定。在此情况下，可以根据一定权重比例将实体关系相似性和实体属性相似性这两种相似性结果进行加权，计算得到目标实体对的相似性计算结果，如若相似性计算结果大于或等于预设的相似性阈值，则表明目标实体对均指向同一个实体并且可以进行相应的融合。如若相似性计算结果小于预设的相似性阈值，则表明目标实体对不指向同一个实体，目标实体对中的两个实体无法融合，但可以在第一候选知识图谱中添加目标实体对中属于第二候选知识图谱中的实体的三元组关系。其中，权重比例可以根据实际情况进行设定，本实施例在此不作限定。

在相似性包括实体属性相似性的情况下，可以通过计算目标实体对中实体的简介文字的相似性来表征目标实体对的实体属性相似性。其中，为便于描述，以下将目标实体对中属于第一候选知识图谱中的实体称为第一实体，目标实体对中属于第二候选知识图谱中的实体称为第二实体。

具体来讲，第一实体和第二实体简介文字分别进行分词并过滤停用词，将第一实体和第二实体分别对应的词语序列；利用通过word2ver模型，第一实体和第二实体分别对应的词语序列分别对应的词语向量序列；计算第一实体的词语向量序列中每个词语向量与第二实体的词语向量序列中每个词语向量的余弦相似度，并保存每轮的最大值，得到词语相似度序列；计算第一实体的词语向量序列中每个词语向量的tf-idf中的逆向文件频率idf值，得到idf序列；将词语相似度序列中的每个词语相似度和在idf序列中与该词语相对应的idf值进行相乘，将相乘结果的累加和与第一实体的词语向量序列的序列长度的比值确定为目标实体的实体属性相似性。

应当说明的是，idf＝log(语料库的文档总数/(包含词语的文档数+1))。其中，语料库可以是从百度百科、互动百科、搜狗百科和维基百科中不同渠道获得的文档所组成的语料库。

在相似性包括实体关系相似性的情况下，可以通过以下方式计算目标实体对的实体关系相似性：计算第一候选知识图谱中各实体关系名称的初始权重，其中，初始权重用于表征对判断目标实体对是否属于同一实体的影响程度；针对目标实体对的同一实体关系名称，根据目标实体对的同一实体关系名称指向对象的异同情况以及该实体关系名称对应的初始权重，确定该实体关系名称对应的子权重；针对目标实体对，根据目标实体对所有同一实体关系名称对应的子权重，以及目标实体对所有同一实体关系名称对应的初始权重，确定目标实体对的实体关系相似性。

仍以目标实体对中属于第一候选知识图谱中的实体称为第一实体，目标实体对中属于第二候选知识图谱中的实体称为第二实体，对上述实体关系相似性的计算过程进行解释说明。

应当可以理解的是，不同实体关系名称对应的取值种类越多的情况下，其对判断实体是否属于同一实体的影响程度是不同的，即不同实体关系名称对判断目标实体中的第一实体和第二实体是否属于同一实体的影响程度是不同的。例如，对于“国籍”和“出生日期”这两个实体关系名称而言，由于出生日期的取值相较于国籍而言，其值的情况越多，因此，更能区分出两个实体是否为同一实体，即“出生日期”对判断目标实体中的第一实体和第二实体是否属于同一实体的影响程度明显是大于“国籍”对判断目标实体中的第一实体和第二实体是否属于同一实体的影响程度，因此，“出生日期”的初始权重比“国籍”的初始权重的大。

在一些实施方式中，可以通过以下方式计算第一候选知识图谱中各关系名称的初始权重：针对每个实体关系名称，统计该实体关系名称对应的三元组总数以及该实体关系名称所有指向的实体去重后的数量，根据统计的这两个数值确定实体关系名称；例如，以实体关系名称为国籍为例，第一候选知识图谱中国籍这一实体关系名称存在的三元组包括：

李晨-国籍-中国；

小明-国籍-中国；

麦迪-国籍-美国；

则国籍对应的三元组总数是4，国籍指向的实体去重后就是中国和美国两个，因此，国籍这一实体关系名称的权重就是2/4。

又例如，第一候选知识图谱中出生日期这一实体关系名称存在的三元组包括：

李晨-出生日期-19781102；

李晨-出生日期-19910113；

小明-出生日期-19341212；

麦迪-出生日期-19451002；

则出生日期对应的三元组总数是4，出生日期指向的实体去重后仍然是4(无重复的实体)，因此，出生日期这一实体关系名称的权重就是4/4。

在一些实施方式中，可以根据目标实体对的同一实体关系名称指向对象的异同情况，在该实体关系名称对应的初始权重的基础上进行相应数值的累加。且需要说明的是，指向对象相同时对应的数值比指向对象不同时对应的数值大。示例地，指向对象相同时在初始权重的基础上乘1，指向对象不相同时在初始权重的基础上乘0。

其中，应当可以理解的是，实体关系名称的指向对象在实体关系名称为属性关系时，对应的对象是属性对象，实体关系名称的指向对象在实体关系名称为对象关系时，对应的对象是实体对象。

在一些实施方式中，可以根据目标实体对所有同一实体关系名称对应的子权重的和，以及目标实体对所有同一实体关系名称对应的初始权重的和，来确定目标实体对的实体关系相似性。

示例地，第一实体和第二实体包括的同一实体关系名称为国籍和出生日期，将国籍和出生日期分别对应的子权重进行相加，将国籍和出生日期分别对应的初始权重进行相加，两者相加的结果相比即可以作为目标实体对的实体关系相似性。

在得到目标实体对的相似性计算结果的基础上，不同相似性计算结果的融合方式不同。举例来讲：

在目标实体对的相似性的相似性小于预设阈值的情况下，将第二实体作为新的实体加入到第一实体所在的第一候选知识图谱中。具体的，将第二实体、第二实体相关的实体关系组成三元组加入到第一候选知识图谱中。

在目标实体对的相似性的相似性大于或等于预设阈值的情况下，具体的融合包括以下多种情况：

针对第一实体与第二实体的相同的实体关系名称，若该实体关系名称指向的指向对象不一致的情况下，根据该实体关系名称的特性、渠道(包括第一实体和第二实体所对应的渠道)的置信度以及源数据获取时间来确定第一实体的该实体关系名称的指向对象。例如，实体关系名称的特性是否支持对象多样性(例如，著作、主演等可指向多值)，在支持的情况下，将新增第一实体的该实体关系名称的指向对象。且新增的值为第二实体的该实体关系名称的指向对象。

又例如，在不支持对象多样性的前提下，将置信度高的渠道所对应实体作为该实体关系名称的指向对象。例如，若第二实体对应的渠道的置信度高于第一实体对应的渠道的置信度，则将第二实体的实体关系名称的指向对象替换掉第一实体中与该实体关系名称对应的实体关系名称的指向对象。

又例如，在不支持对象多样性且渠道置信度一致的情况下，将源数据获取时间与当前时刻最接近的所对应实体作为该实体关系名称的指向对象。例如，若第二实体对应源数据获取时间与当前时刻最接近，则将第二实体的实体关系名称的指向对象替换掉第一实体中与该实体关系名称对应的实体关系名称的指向对象。

针对第一实体与第二实体不相同的实体关系名称的情况下，则将这个不同的实体关系名称及其指向对象添加到第一候选知识图谱中，其中新添加的实体关系名称的指向对象需要判断是新增还是直接指向第一候选知识图谱的某个实体。且判断的规则可以是判断不相同的实体关系名称所指向的对象是否属于同一实体，若是的话，则直接可以将新添加的不同的实体关系名称指向这个相同的实体，若否的话，则新添加的不同的实体关系名称进行指向对象的新增。

针对第一实体与第二实体不相同的实体关系名称的情况下，如果第一实体与第二实体不相同的实体关系名称指向对象属于同一实体时，则根据数据源网站置信度及数据源获取时间综合计算判断该同一实体对应的实体关系名称。应当可以理解的是，网站置信度越高或和获取时间与当前时刻越接近的源数据所对应的实体关系名称，便可以以该实体关系名称作为融合关系名称。例如，第二实体对应的实体关系名称作为融合关系名称，则可以将第一候选知识图谱中的第一实体与第二实体当前相比较的实体关系名称改为融合关系名称。

在可能的方式中，所述方法还包括：获取待回复语句；根据目标知识图谱，识别待回复语句中的实体信息，其中，实体信息包括实体和实体间关系；根据实体信息，确定待回复语句的目标意图；根据目标意图和实体信息，构造针对待回复语句的候选回复语句，得到候选回复语句集；对候选回复语句集中回复语句进行排序，并根据排序结果从候选回复语句集中确定目标回复语句。

需要说明的是，意图用于表征用户当前输入的最关注信息。意图包括实体意图、关系意图、多重意图、比较意图、多轮意图等。

在一些实施方式中，实体信息可以通过以下方式获得：使用分词模型及实体识别技术获得待回复语句中的实体序列(识别到的实体所组成的序列)和实体间关系，其中，分词模型及实体识别技术可以参照相关技术，本实施在此不做赘述。

进一步地，根据实体信息来确定命中预设意图的各概率，将概率最高的预设意图作为目标意图。

示例地，根据实体信息确定待回复语句的目标意图可以是：获得待回复语句中的实体间关系在目标知识图谱中为空且实体序列不为空，则可归其为实体意图。其中，命中实体意图，可以在构造候选回复语句时构建关于实体描述的候选回复语句。

又例如，获得待回复语句中的实体间关系在目标知识图谱中不为空时，关系意图可以返回实体序列中实体在目标知识图谱中与该实体间关系对应的指定对象。

又例如，多重意图指支持多重关系和实体询问，比较意图是能比较不同实体的量化属性并返回判断结果，多轮意图则支持多轮询问。

通过上述方式，可以根据待回复语句的目标意图、实体信息和目标知识图谱构造候选回复语句，并得到该目标意图下的候选回复语句集。由于目标知识图谱支持多种意图功能，使会话更加流畅智能；且根据排序算法，来确定目标回复语句，以此来提高回复结果的准确性。

在可能的方式中，目标知识图谱中的各实体包括对应的类别标签，实体信息还包括实体类别标签，上述的根据实体信息，确定待回复语句的目标意图的步骤可以通过以下方式确定：提取待回复语句的关键词，并根据关键词和与实体类别标签对应的预设意图对应的关键词列表，匹配待回复语句的候选意图；在成功匹配到与待回复语句相匹配的候选意图的情况下，将候选意图确定为待回复语句的目标意图；在未成功匹配到与待回复语句相匹配的候选意图的情况下，根据实体信息，确定待回复语句的目标意图。

需要说明的是，类别标签是确认实体类别的标签。例如，可以分为人物、地点、电影、书籍、音乐等等各种类型。

由于采集的源数据只有部分包含标签数据，欠缺相关标签则需要补全。

在一些可能的实施方式中，确定实体标签的方式可以是：从子类标签中获得父类标签，例如人物标签可以从运动员、歌手、科学家、政治家和演员等子类表现中获得。

在一些可能的实施方式中，确定实体标签的方式可以是：利用构建的多分类模型输入标签结果。其中，构建多分类模型通过训练集可以输入机器学习模型或者深度神经网络进行训练，以得到多分类模型。

示例地，训练集包括实体、实体对应的实体关系名称序列以及对应的预设标签，例如，实体周杰伦对应的实体关系名称有出生日期、国籍、星座、血型、身高等等，而其对应的标签可以是人物。

示例地，机器学习模型可以是GBDT(Gradient Boosting Decision Tree，梯度提升决策树)。

示例地，针对人物的类别标签，预设意图可以是身高意图，进而，身高意图对应的关键词列表可以是[“身高”，“多高”，“身长”]；预设意图可以是出生地意图，进而，出生地意图对应的关键词列表可以是[“出生地”,“哪里出生”,“哪里人”,“籍贯”]。

示例地，待回复语句为“李晨的身高是多少？”，根据该待回复语句的关键词“身高”，且“李晨”的类别标签是人物，则可以将人物标签下的预设意图(例如，身高意图、出生地意图)的关键词列表与关键词“身高”进行匹配，进而将成功匹配的身高意图作为待回复语句的目标意图。此外，若无法成功匹配到人物标签下的任何意图，即可根据对实体信息的分析，确定待回复语句的目标意图。

通过上述方式，采用关键词和对应类别标签下的预设意图的关键词列表来确定待回复语句的目标意图，关键词的比较计算较为简单，无需进一步通过分析实体信息来确定目标意图，由此，降低了计算难度，提高了计算效率。

在可能的方式中，对候选回复语句集中回复语句进行排序的步骤可以包括：针对候选回复语句集中每一候选回复语句，根据该候选回复语句确定综合影响指数，其中，综合影响指数通过实体影响指数、相关性影响指数和语句特征影响指数中的至少一者确定；将满足预设条件的综合影响指数所对应的候选回复语句确定为目标回复语句。

其中，候选回复语句的实体影响指数由多个因素确定，因素包括候选回复语句中实体所属的类别标签、实体属性关系的数据量大小和对象关系所指向的对象个数确定。

在一些实施方式中，可以按照预设的权重比例综合计算多个因素所确定的实体影响指数。应当可以理解的是，候选回复语句中实体所属的类别标签与待回复语句中实体的所述类别标签相同个数越多影响越大；实体的属性关系的数据量越大影响越大；实体的对象关系的指向对象个数越多影响越大，且影响越大的候选回复语句越容易被定义为目标回复语句。

其中，相关性影响指数由候选回复语句中的实体间的相关性(是否相互独立、是否有共同指向的对象)来确定。且应当可以理解的是，如果其中一个候选回复语句对应的两个实体在目标知识图谱图谱中相关性更强，另外一个候选回复语句对应的两个实体在目标知识图谱中比较独立，则具有相关性更强的候选回复语句越容易被定义为目标回复语句。

在一些实施方式中，判断实体间是否相互独立可以通过判断目标知识图谱中是否存在实体关系决定。

其中，语句特征影响指数是由待回复语句中的字和词确定的。

在一些实施方式中，待回复语句字和词与候选回复语句中的实体的属性及指向对象的内容比较统计，如果存在相关的字或词越多的候选回复语句越容易被定义为目标回复语句。

在一些实施方式中，预设条件可以是综合影响指数最高。

采用上述方式，根据所得综合影响指数进行排序，将最大的综合影响指数对应的候选回复语句作为目标回复语句，以此提高了回复结果的准确性。

基于同一发明构思，本公开实施例还提供一种基于知识图谱的问答装置，参照图3，该问答装置300包括：

获取模块301，用于从多个渠道获取源数据；

构建模块302，用于针对每个所述渠道的源数据，根据该源数据，构建与该渠道对应的候选知识图谱；

处理模块303，用于对所述候选知识图谱中的目标数据进行统一化处理，其中，所述目标数据包括实体名称、实体关系名称以及数值型实体的单位；

融合模块304，用于将经过统一化处理的候选知识图谱进行融合，得到目标知识图谱，其中，所述目标知识图谱用于对获取的待回复语句反馈问答结果。

在可能的方式中，所述目标数据包括数值型实体的单位，所述处理模块包括：

遍历子模块，用于遍历所述候选知识图谱的实体的实体关系名称以及该实体关系名称指向的实体，统计遍历到的所述实体关系名称指向的实体为数值型实体的实体数量；

转化子模块，用于根据统计结果，将实体数量大于预设实体数量的目标实体关系名称所指向的数值型实体的单位转化为对应的预设单位。

在可能的方式中，所述候选知识图谱包括第一候选知识图谱和第二候选知识图谱，所述融合模块包括：

计算子模块，用于针对所述第一候选知识图谱与所述第二候选知识图谱的目标实体对，计算所述目标实体对的相似性，其中，所述目标实体对为所述第一候选知识图谱与所述第二候选知识图谱中实体名称相同的实体的组合，所述相似性包括实体关系相似性和实体属性相似性；

融合子模块，用于根据所述目标实体对的相似性计算结果，对所述第一候选知识图谱与所述第二候选知识图谱的目标实体对进行融合。

在可能的方式中，所述相似性包括实体关系相似性，所述计算子模块包括实体关系相似性计算单元，用于计算所述第一候选知识图谱中各实体关系名称的初始权重，其中，所述初始权重用于表征对判读所述目标实体对是否属于同一实体的影响程度；针对所述目标实体对的同一实体关系名称，根据所述目标实体对的同一实体关系名称指向对象的异同情况以及该实体关系名称对应的初始权重，确定该实体关系名称对应的子权重；针对所述目标实体对，根据所述目标实体对所有同一实体关系名称对应的子权重，以及所述目标实体对所有同一实体关系名称对应的初始权重，确定所述目标实体对的实体关系相似性

在可能的方式中，所述问答装置还包括：

语句获取模块，用于获取所述待回复语句；

识别模块，用于根据目标知识图谱，识别所述待回复语句中的实体信息，其中，所述实体信息包括实体和实体间关系；

第一确定模块，用于根据所述实体信息，确定所述待回复语句的目标意图；

构造模块，用于根据所述目标意图和所述实体信息，构造针对所述待回复语句的候选回复语句，得到候选回复语句集；

第二确定模块，用于对所述候选回复语句集中回复语句进行排序，并根据排序结果从所述候选回复语句集中确定目标回复语句。

在可能的方式中，所述目标知识图谱中的各实体包括对应的类别标签，所述实体信息还包括实体类别标签，所述第一确定模块包括：

匹配子模块，用于提取所述待回复语句的关键词，并根据所述关键词和与所述实体类别标签对应的预设意图对应的关键词列表，匹配所述待回复语句的候选意图；

第一确定子模块，用于在成功匹配到与所述待回复语句相匹配的候选意图的情况下，将所述候选意图确定为所述待回复语句的目标意图；

第二确定子模块，用于在未成功匹配到与所述待回复语句相匹配的候选意图的情况下，根据所述实体信息，确定所述待回复语句的目标意图。

在可能的方式中，所述第二确定模块包括：

指数确定子模块，用于针对所述候选回复语句集中每一候选回复语句，根据该候选回复语句确定综合影响指数，其中，所述综合影响指数通过实体影响指数、相关性影响指数和语句特征影响指数中的至少一者确定；

回复语句确定子模块，用于将满足预设条件的综合影响指数所对应的候选回复语句确定为目标回复语句。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

基于同一发明构思，本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现方法实施例中所述问答方法的步骤。

基于同一发明构思，本公开实施例还提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以方法实施例中所述问答方法的步骤。

图4是根据一示例性实施例示出的一种电子设备400的框图。如图4所示，该电子设备400可以包括：处理器401，存储器402。该电子设备400还可以包括多媒体组件403，输入/输出(I/O)接口404，以及通信组件405中的一者或多者。

其中，处理器401用于控制该电子设备400的整体操作，以完成上述的问答方法中的全部或部分步骤。存储器402用于存储各种类型的数据以支持在该电子设备400的操作，这些数据例如可以包括用于在该电子设备400上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件403可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器402或通过通信组件405发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口404为处理器401和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件405用于该电子设备400与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件405可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，电子设备400可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的问答方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的问答方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器402，上述程序指令可由电子设备400的处理器401执行以完成上述的问答方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种基于知识图谱的问答方法，其特征在于，包括：

从多个渠道获取源数据；

将经过统一化处理的候选知识图谱进行融合，得到目标知识图谱，其中，所述目标知识图谱用于对获取的待回复语句反馈问答结果；

所述候选知识图谱包括第一候选知识图谱和第二候选知识图谱，通过目标实体对的相似性计算结果对所述第一候选知识图谱与所述第二候选知识图谱进行融合；

所述相似性包括实体关系相似性，所述目标实体对的实体关系相似性是通过所述目标实体对的同一实体关系名称指向对象的异同情况以及该实体关系名称对应的初始权重所确定的，所述实体关系名称的初始权重是根据所述实体关系名称对应取值种类的数量确定的。

2.根据权利要求1所述的方法，其特征在于，所述目标数据包括数值型实体的单位，所述对所述候选知识图谱中的目标数据进行统一化处理，包括：

3.根据权利要求1所述的方法，其特征在于，所述将经过统一化处理的候选知识图谱进行融合，得到目标知识图谱，包括：

4.根据权利要求3所述的方法，其特征在于，所述相似性包括实体关系相似性，采用以下方式计算所述目标实体对的实体关系相似性：

5.根据权利要求1-4任一所述的方法，其特征在于，所述方法还包括：

获取所述待回复语句；

根据所述实体信息，确定所述待回复语句的目标意图；

6.根据权利要求5所述的方法，其特征在于，所述目标知识图谱中的各实体包括对应的类别标签，所述实体信息还包括实体类别标签，所述根据所述实体信息，确定所述待回复语句的目标意图，包括：

7.根据权利要求5所述的方法，其特征在于，所述对所述候选回复语句集中回复语句进行排序，包括：

8.一种基于知识图谱的问答装置，其特征在于，包括：

获取模块，用于从多个渠道获取源数据；

融合模块，用于将经过统一化处理的候选知识图谱进行融合，得到目标知识图谱，其中，所述目标知识图谱用于对获取的待回复语句反馈问答结果；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-7中任一项所述方法的步骤。