CN109101551A

CN109101551A - 一种问答知识库的构建方法及装置

Info

Publication number: CN109101551A
Application number: CN201810749024.5A
Authority: CN
Inventors: 胡炜梅; 刘婉
Original assignee: Guangzhou Jitian Information Technology Ltd By Share Ltd
Current assignee: Guangzhou Jitian Information Technology Ltd By Share Ltd
Priority date: 2018-07-10
Filing date: 2018-07-10
Publication date: 2018-12-28
Anticipated expiration: 2038-07-10
Also published as: CN109101551B

Abstract

本发明一种问答知识库的构建方法及装置，所述方法包括：步骤S1，分析工程目标以及使用维度，获取数据源；步骤S2，分析所获取的数据源，自动生成初始问答集，并对问答集中的问题进行分析，得到热词集和热词中的名词与动词共现对集合；步骤S3，分析是否有可以继承的知识结构，若没有，进入步骤S4，否则进入步骤S5；步骤S4，定义知识结构；步骤S5，整理标准问、相似问、槽点，并按使用维度划分标准问及其对应的相似问、槽点、答案，整理答案；步骤S6，对整理好的标准问和相似问与已有句式模板、语义网进行关联，得到初始问答知识库，本发明可高效地构建不同行业的高质量的问答知识库。

Description

一种问答知识库的构建方法及装置

技术领域

本发明涉及知识库构建技术领域，特别是涉及一种问答知识库的构建方法及装置。

背景技术

随着互联网的飞速发展，人们服务意识的提高，自动问答系统已经普及到各行各业，深入到日常商业服务的各个环节。在自动问答系统中，知识库是问答系统的重要数据来源，它在整个系统中起到了非常重要的作用，一个高质量的知识库能够大大提高问答系统的效率与准确率。

问答知识库通常是由问句和答案组成。问句通常包含一个标准问和零到多个相似问；答案也可以是一个或多个。通常标准问还对应多个槽点。标准问和相似问还与句式模板、语义网关联。

标准问：问句陈述简洁完整、意图明确，一般是动宾结构，往往省略了主语。

相似问：与标准问的答案一致，并区别于标准问，口语化或有差别意义问句陈述，一个标准问可能有多个相似问。典型例子：是标准问主题内容的扩充或者细分。

槽点：由问句的关键字、词和逻辑符号所组成的语义表达式，可以提升应答效果。

语义网：又称本体(ontology)、语义词典(semantic dictionary)，是共享概念模型的明确的形式化规范说明。

句式模板：基于语义网的表达式

目前业内对问答知识库的构建主要有以下方法：一是纯手工整理问答对，构建知识库，然而其效率低，而且一般都必须由行业中比较熟悉业务的人员来完成，对人员门槛较高，具有工作效率低、质量不高，维护难度大的缺点；二是通过分析当前已有的领域知识库、结构化数据、大量搜索日志等构建问答知识库，然而，其依赖于企业当前的数据模型积累和技术积累，如依赖于各种预置的领域知识库、已有的结构化数据或者依赖于浏览器的大量搜索日志等，不适用于大多数企业。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种问答知识库的构建方法及装置，以能够高效地构建不同行业的高质量的问答知识库。

为达上述及其它目的，本发明提出一种问答知识库的构建方法，包括如下步骤：

步骤S1，分析工程目标以及使用维度，获取数据源；

步骤S2，分析所获取的数据源，自动生成初始问答集，并对问答集中的问题进行分析，得到热词集和热词中的名词与动词共现对集合；

步骤S3，分析是否有可以继承的知识结构，若没有，进入步骤S4，否则进入步骤S5；

步骤S4，定义知识结构；

步骤S5，整理标准问、相似问、槽点，并按使用维度划分标准问及其对应的相似问、槽点、答案，整理答案；

步骤S6，对整理好的标准问和相似问与已有句式模板、语义网进行关联，得到初始问答知识库。

优选地，步骤S2进一步包括：

从所述数据源中抽取问题和对应的答案，自动生成初始问答集；

对所述初始问答集进行过滤，得到过滤后的问答集；

对过滤后的问答集里面的问题依次进行热词分析、词性标注、共现分析，得到热词集和热词中的名词与动词共现对集合。

优选地，步骤S4进一步包括：

根据词性划分步骤S2中得到的热词集，得到名词热词集；

采取自上而下的方式，把所述名词热词集中的数据进行分类，构成一个初始的知识结构。

优选地，步骤S5进一步包括：

步骤S500，根据所述知识结构获取初始标准问，得到标准问集；

步骤S501，根据标准问集获取每个标准问对应的相似问；

步骤S502，对于标准问集中的每个标准问，提取其中的关键词，确定每个问题的槽点；

步骤S503，根据步骤S1确定的使用维度划分标准问及其对应的相似问、槽点、答案；

步骤S504，根据工程目标整理不同使用维度下标准问的答案。

优选地，步骤S500进一步包括：

提取知识结构中的每个节点，搜索其在所述名词与动词共现对集合中对应的动词，把节点和对应的动词组合起来成为标准问；

把标准问挂到知识结构对应的节点下，并对知识结构中挂接空白的地方补充标准问，得到标准问集，并且把补充标准问中包含的名词和动词补充到热词集中，得到补充后的热词集。

优选地，于步骤S502进一步包括：利用关键词提取工具，对于每个标准问，分词后对其过滤，提取出问题中的关键字/词；然后对其进行确认及修改，得到槽点。

优选地，于步骤S6后，所述方法还包括：

步骤S7，于初始问答知识库中，选取不同使用维度下所有的问题及其目标知识，按不同使用维度进行批量验证。

优选地，步骤S7进一步包括：

计算所有待测试问题与初始问答知识库里所有问题的最高相似度；

若知识库中的问题q与待测试问题c的相似度最高，并且问题q就是问题c的目标知识，或者问题q对应的标准问是问题c的目标知识，那么验证通过。若不满足以上条件，则表示知识需要优化，返回步骤S4；

当所有维度都验证通过，则得到最终的问答知识库。

为达到上述目的，本发明还提供一种问答知识库的构建装置，包括：

目标确定单元，用于分析工程目标以及使用维度，获取数据源；

数据源分析单元，用于分析所获取的数据源，自动生成初始问答集，并对问答集中的问题进行分析，得到热词集和热词中的名词与动词共现对集合；

领域继承判断单元，用于分析是否有可以继承的知识结构，若没有，则启动知识结构定义单元，否则直接启动问答整理单元；

知识结构定义单元，用于定义知识结构；

问答整理单元，用于整理标准问、相似问、槽点，并按使用维度划分标准问及其对应的相似问、槽点、答案，整理答案；

关联单元，用于对整理好的标准问和相似问与已有句式模板、语义网做关联，得到初始问答知识库。

优选地，所述装置还包括验证优化单元，用于于所述初始问答知识库中，选取不同维度下所有的问题及其目标知识，按不同维度进行批量验证，并根据验证结果进行优化。

与现有技术相比，本发明一种问答知识库的构建方法及装置通过确定目标、分析数据源、领域继承、定义知识结构、整理问答、关联及分维度验证优化，实现了快速构建不同行业的高质量的问答知识库的目的，本发明不要求企业本身有很多预置的数据模型和强大技术积累，适用于大多数企业。

附图说明

图1为本发明一种问答知识库的构建方法的步骤流程图；

图2为本发明具体实施例中步骤S2的细部流程图；

图3为本发明具体实施例中步骤S5的细部流程图；

图4为本发明一种问答知识库的构建方法之较佳实施例的步骤流程图；

图5为本发明一种问答知识库的构建装置的系统架构图；

图6为本发明具体实施例中问答整理单元505的细部结构图；

图7为本发明一种问答知识库的构建装置之较佳实施例的系统架构图；

图8为本发明实施例中问答知识库构建过程的流程示意图；

图9为本发明实施例中分析数据源的过程示意图；

图10为本发明实施例中初始的银行业务知识结构示意图；

图11为本发明实施例中整理问答知识的过程示意图；

图12为本发明实施例中获取初始标准问的过程示意图；

图13为本发明实施例中获取槽点的过程示意图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种问答知识库的构建方法的步骤流程图。如图1所示，本发明一种问答知识库的构建方法，包括如下步骤：

步骤S1，分析工程目标以及使用维度，获取数据源。具体地说，分析工程目标指的是分析并确定知识整理周期、业务指标等，分析使用维度指的是分析并确定用户的类型(例如内部员工还是外部用户、普通用户还是VIP用户)、用户所用的品牌、用户所在的地区、问答知识库的应用渠道(微信、网站或APP等)，获取数据源则是指获取会话记录、获取产品表单数据、获取业务介绍表单数据等相关资料。

例如，工程目标为要构建一个某银行的问答知识库，分析用户是外部用户，用户区分普通用户与VIP用户，问答知识库应用渠道为微信和网站，获取该银行以往一段时间内的会话记录，即人工客服与用户的会话记录，并获取银行业务介绍数据等相关资料。

步骤S2，分析所获取的数据源，自动生成初始问答集，并对问答集中的问题进行分析，得到热词集和热词中的名词与动词共现对集合。

具体地，如图2所示，步骤S2进一步包括：

步骤S200，从数据源(例如会话记录)中抽取问题和对应的答案，生成初始问答集。

步骤S201，对初始问答集进行过滤，得到过滤后的问答集；这里的过滤操作主要是过滤掉敏感词、错别字、多余标点符号及具体人名等数据。

步骤S202，对过滤后的问答集里面的问题依次进行热词分析、词性标注、共现分析，得到热词集和热词中的名词与动词共现对集合。

具体地，热词分析就是利用热词分析工具，根据词频和词的权重提取文本中比较重要的词频较高的词汇。

词性标注又称为词类标注，是指判断出一个句子中每个词所扮演的语法角色。例如，表示人、事物，地点或抽象概念的名称就是名词；表示动作或状态变化的词为动词；用来描写或修饰名词性成份或表示概念的性质、状态、特征或属性的词称为形容词，等等。

共现指文献的特征项描述的信息共同出现的现象，这里的特征项包括文献的外部和内部特征，如题名、作者、关键词、机构等。而“共现分析”是对共现现象的定量研究，以揭示信息的内容关联和特征项所隐含的知识。在步骤S202中，共现分析就是利用共现分析工具，分析同时出现在一个问题中名词和动词的组合，并且这个名词和动词都包含在热词集中，从而得到一个有对应关系的共现对集合。

步骤S3，分析是否有可以继承的知识结构，若没有，进入步骤S4，否则进入步骤S5。知识结构，在本发明中主要指知识目录树，可继承的知识结构一般来自成熟工程、权威网站、专业网站、官方网站的、大众认可的资源。

步骤S4，定义知识结构。

具体地，步骤S4进一步包括：

步骤S400，根据词性划分步骤S2中得到的热词集，得到名词热词集；

步骤S401，采取自上而下的方式，参照产品表单和业务介绍表单，把名词热词集中的数据进行分类，构成一个初始的知识结构。

步骤S5，整理标准问、相似问以及槽点，并按使用维度划分标准问及其对应的相似问、槽点、答案，整理答案。

具体地，如图3所示，步骤S5进一步包括：

步骤S500，根据所述知识结构获取初始标准问，得到标准问集。具体地，步骤S500包括如下步骤：

S500a，提取知识结构中的每个节点，搜索其在所述名词与动词共现对集合中对应的动词，采用动宾语法组合方式，自动把节点和对应的动词组合起来成为标准问。

S500b，标准问挂到知识结构对应的节点下，并对知识结构中挂接空白的地方，根据产品表单和业务介绍表单，按照动宾结构人工补充标准问，得到标准问集，并且把人工补充标准问中包含的名词和动词补充到热词集中，得到补充后的热词集。

步骤S501，根据标准问集获取每一个标准问对应的相似问。具体地，对于标准问集中的每一个标准问，获取过滤后的问答集中与其适用于同一个答案的问题，作为其相似问。

步骤S502，对于标准问集中的每个标准问，提取其中的关键词，确定每个问题的槽点。具体地，于步骤502中，对于标准问集中的每个标准问，自动提取其中的关键词，人工确认后确定每个问题的槽点。具体过程如下：利用关键词提取工具，对于每个标准问，分词后先过滤掉停用词、无意义助词等，提取出问题中的关键字、词；然后对其进行确认及修改，得到槽点。

步骤S503，根据步骤S1确定的使用维度划分标准问及其对应的相似问、槽点、答案，其中答案是过滤后的问答集中，问题对应的回答。

步骤S504，根据工程目标整理不同使用维度下标准问的答案。

步骤S6，对整理好的标准问和相似问与已有句式模板、语义网做关联，得到初始问答知识库。在本发明实施例中，句式模板和语义网是事先预置的。

优选地，如图于步骤S6后，本发明之问答知识库的构建方法，还包括如下步骤：

步骤S7，于初始问答知识库中，选取不同维度下所有的问题及其目标知识，按不同维度进行批量验证。

在本发明中，验证的目的是为了评估知识库中的问答对本身是否合理，是否有矛盾的地方，是否符合工程目标。具体地，在初始问答知识库中，选取不同维度下所有的问题及其目标知识，所有问题即待测试问题，包括标准问和相似问，目标知识就是待测试问题所对应的标准问，按不同维度进行批量验证。

具体地，步骤S7进一步包括：

当所有维度都验证通过，则得到最终的问答知识库。

图5为本发明一种问答知识库的构建装置的系统架构图。如图5所示，本发明一种问答知识库的构建装置，包括：

目标确定单元501，用于分析工程目标以及使用维度，获取数据源。具体地说，分析工程目标指的是分析并确定知识整理周期、业务指标等，分析使用维度指的是分析并确定用户的类型(例如内部员工还是外部用户、普通用户还是VIP用户)、用户所用的品牌、用户所在的地区、问答知识库的应用渠道(微信、网站或APP等)，获取数据源则是指获取会话记录、获取产品表单数据、获取业务介绍表单数据等相关资料。

数据源分析单元502，用于分析所获取的数据源，自动生成初始问答集，并对问答集中的问题进行分析，得到热词集和热词中的名词与动词共现对集合。

具体地，数据源分析单元502进一步包括：

初始问答集获取单元，用于从数据源(例如会话记录)中抽取问题和对应的答案，自动生成初始问答集。

过滤单元，用于对初始问答集进行过滤，得到过滤后的问答集；这里的过滤操作主要是过滤掉敏感词、错别字、多余标点符号、具体人名等数据。

分析单元，用于对过滤后的问答集里面的问题依次进行热词分析、词性标注、共现分析，得到热词集和热词中的名词与动词共现对集合。

领域继承判断单元503，用于分析是否有可以继承的知识结构，若没有，则启动知识结构定义单元504，否则直接启动问答整理单元505。知识结构，本发明主要指知识目录树，可继承的知识结构一般来自成熟工程、权威网站、专业网站、官方网站的、大众认可的资源。

知识结构定义单元504，用于定义知识结构。

具体地，知识结构定义单元504进一步包括：

名词热词集获取单元，用于根据词性划分数据源分析单元502中得到的热词集，得到名词热词集；

知识结构构建单元，用于采取自上而下的方式，参照产品表单和业务介绍表单，把名词热词集中的数据进行分类，构成一个初始的知识结构。

问答整理单元505，用于整理标准问、相似问、槽点，并按使用维度划分标准问及其对应的相似问、槽点、答案，整理答案。

具体地，如图6所示，问答整理单元505进一步包括：

标准问集生成单元5051，用于根据所述知识结构获取初始标准问，得到标准问集。标准问集生成单元5051具体用于：

提取知识结构中的每个节点，搜索其在所述名词与动词共现对集合中对应的动词，采用动宾语法组合方式，自动把节点和对应的动词组合起来成为标准问；

把标准问挂到知识结构对应的节点下，并对知识结构中挂接空白的地方，根据产品表单和业务介绍表单，按照动宾结构人工补充标准问，得到标准问集，并且把人工补充标准问中包含的名词和动词补充到热词集中，得到补充后的热词集。

相似问生成单元5052，用于根据标准问集获取每个标准问对应的相似问。具体地，相似问生成单元5052对于标准问集中的每一个标准问，获取过滤后的问答集中与其适用于同一个答案的问题，作为其相似问。

槽点确定单元5053，用于对标准问集中的每个标准问，提取其中的关键词，确定每个问题的槽点。具体地，槽点确定单元5053，对于标准问集中的每个标准问，自动提取其中的关键词，人工确认后确定每个问题的槽点。具体过程如下：利用关键词提取工具，对于每个标准问，分词后先过滤掉停用词、无意义助词等，提取出问题中的关键字、词；然后对其进行确认及修改，得到槽点。

划分单元5054，用于根据目标确定单元501确定的使用维度划分标准问及其对应的相似问、槽点、答案，其中答案是过滤后的问答集中，问题对应的回答。

答案整理单元5055，用于根据工程目标整理不同使用维度下标准问的答案。

关联单元506，用于对整理好的标准问和相似问与已有句式模板、语义网进行关联，得到初始问答知识库。

优选地，如图7所示，本发明之问答知识库的构建装置，还包括：

验证优化单元507，于初始问答知识库中，选取不同维度下所有的问题及其目标知识，按不同维度进行批量验证，并根据验证结果进行优化。

在本发明具体实施例中，验证优化单元具体用于：

当所有维度都验证通过，则得到最终的问答知识库。

图8为本发明实施例中问答知识库构建过程的流程示意图。在本发明实施例中，以构建银行业务问答知识库为例，其具体过程如下：

步骤1：确定目标，包括分析工程目标、分析使用维度、获取数据源。

目标是要构建一个某银行的问答知识库，用户是外部用户，用户区分普通用户与VIP用户，问答知识库应用渠道为微信和网站。

获取该银行以往一段时间内的会话记录，即人工客服与用户的会话记录。

获取银行业务介绍数据等相关资料。

步骤2：分析数据源，其过程如图9所示：

A、从获得的银行业务会话记录中抽取用户的问题和人工客服回复的对应的答案，自动生成初始问答集QA0；

B、对初始问答集进行过滤，得到过滤后的问答集QA1；

过滤操作主要是过滤掉敏感词、错别字、多余标点符号、具体人名等数据。

C、对过滤后的问答集QA1里面的问题依次进行热词分析、词性标注、共现分析，得到热词集H和名词与动词共现对集合C，其中集合C中的名词和对应的动词都包含在热词集H中。

步骤3：领域继承，即分析原本是否已有成熟的银行业务知识结构。若有可以继承的银行业务知识结构，直接进行步骤5，否则进入步骤4。

步骤4：定义知识结构

(1)根据词性划分热词集H，得到名词热词集N；

(2)采取自上而下的方式，参照获得的银行业务介绍数据，把名词热词集N中的数据进行分类，构成一个初始的银行业务知识结构。如银行业务分为贷款业务、借款业务、投资业务。投资业务分为基金、债券、股票等，如图10。

步骤5：整理问答知识，包含获取初始标准问、获取相似问、获取槽点、按维度划分知识、整理答案等过程，如图11所示。具体如下：

(1)获取初始标准问，如图12所示，其过程如下：

A.对于知识结构中的每个节点，搜索其在名词与动词共现对集合C中对应的动词，采用动宾语法组合方式，自动把节点和对应的动词组合起来成为标准问。如知识结构中存在一个节点为“贷款业务”，其在集合C中对应的动词为“担保”，那么组合起来的标准问为“担保贷款业务”；

B.把标准问挂到知识结构对应的节点下，如把标准问“担保贷款业务”挂到银行业务知识结构的节点“贷款业务”下。若知识结构中有挂接空白的地方，则根据银行业务介绍数据，按照动宾结构人工补充标准问，这样就得到标准问集，并且把人工补充标准问中包含的名词和动词补充到热词集H中，得到补充后的热词集H1。

(2)获取相似问，其过程如下：根据标准问集获取每一个标准问对应的相似问。具体地，对于标准问集中的每一个标准问，获取过滤后的问答集中与其适用于同一个答案的问题，作为其相似问。

(3)获取槽点，如图13所示，其过程如下：

对于每个标准问，自动提取问题中的关键词，人工确认后确定每个问题的槽点。具体是对于每个标准问，分词后先过滤掉停用词、无意义助词等，提取出问题中的关键字、词。然后人工确认，得到槽点，如标准问“担保贷款业务”，最后得到的槽点是“担保,贷款业务”。

(4)按维度划分知识

根据步骤1确定的使用维度划分标准问及其对应的相似问、槽点、答案。其中答案是过滤后的问答集QA1中，问题对应的回答。

比如，划分适合普通用户的标准问、相似问、槽点、答案。划分适合VIP用户的标准问、相似问、槽点、答案。并且划分哪些适合微信渠道使用，哪些适合网站渠道使用。因为不同用户的业务可能不同。普通用户不会提问专属VIP用户的业务。有些业务只在微信渠道使用，有些业务只在网站渠道使用。

(5)整理答案

根据工程目标整理不同维度下标准问的答案。

步骤6：关联

利用关联工具自动对整理好的标准问和相似问与已有句式模板、语义网做关联，得到初始问答知识库。

步骤7：验证与优化

如选取微信渠道下所有的问题及其目标知识，所有问题即待测试问题，包括标准问和相似问。目标知识就是待测试问题所对应的标准问。对微信渠道进行批量验证。

具体方法是计算所有待测试问题与初始问答知识库里面所有问题的最高相似度。若知识库中的问题q与待测试问题c的相似度最高，并且问题q就是问题c的目标知识，或者问题q对应的标准问是问题c的目标知识，那么验证通过。若不满足以上条件，则知识需要优化。

所有维度分别进行验证，其中步骤4-7是迭代过程。如果验证后需要优化，则回到步骤4定义知识结构开始优化，如果不需要优化，则构建成最终的问答知识库。

综上所述，本发明一种问答知识库的构建方法及装置通过确定目标、分析数据源、领域继承、定义知识结构、整理问答、关联及分维度验证优化，实现了快速构建不同行业的高质量的问答知识库的目的，本发明不要求企业本身有很多预置的数据模型和强大技术积累，适用于大多数企业。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种问答知识库的构建方法，包括如下步骤：

步骤S1，分析工程目标以及使用维度，获取数据源；

步骤S4，定义知识结构；

2.如权利要求1所述的一种问答知识库的构建方法，其特征在于，步骤S2进一步包括：

对所述初始问答集进行过滤，得到过滤后的问答集；

3.如权利要求1所述的一种问答知识库的构建方法，其特征在于，步骤S4进一步包括：

根据词性划分步骤S2中得到的热词集，得到名词热词集；

4.如权利要求1所述的一种问答知识库的构建方法，其特征在于，步骤S5进一步包括：

步骤S501，根据标准问集获取每个标准问对应的相似问；

步骤S504，根据工程目标整理不同使用维度下标准问的答案。

5.如权利要求4所述的一种问答知识库的构建方法，其特征在于，步骤S500进一步包括：

6.如权利要求5所述的一种问答知识库的构建方法，其特征在于，于步骤S502进一步包括：利用关键词提取工具，对于每个标准问，分词后对其过滤，提取出问题中的关键字/词；然后对其进行确认及修改，得到槽点。

7.如权利要求1所述的一种问答知识库的构建方法，其特征在于:于步骤S6后，所述方法还包括：

8.如权利要求7所述的一种问答知识库的构建方法，其特征在于，步骤S7进一步包括：

当所有维度都验证通过，则得到最终的问答知识库。

9.一种问答知识库的构建装置，包括：

知识结构定义单元，用于定义知识结构；

10.如权利要求9所述的一种问答知识库的构建装置，其特征在于：所述装置还包括验证优化单元，用于于所述初始问答知识库中，选取不同维度下所有的问题及其目标知识，按不同维度进行批量验证，并根据验证结果进行优化。