CN112380358A

CN112380358A - 一种行业知识库的快速构建方法

Info

Publication number: CN112380358A
Application number: CN202011610385.5A
Authority: CN
Inventors: 魏晓倩; 张传锋; 井焜
Original assignee: Synthesis Electronic Technology Co Ltd
Current assignee: Synthesis Electronic Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-02-19

Abstract

本发明公开一种行业知识库的快速构建方法，本方法利用词库联想实现知识迭代，从而快速构建行业知识库，构建过程为：首先构建基础词库，然后将基础词库添加至行业知识库，进行行业知识采编并知识库一键训练，最后所建立的行业知识库根据用户意图中的关键信息联想到多个相似的关键信息，从而准确匹配到用户的意图。

Description

一种行业知识库的快速构建方法

技术领域

本发明涉及人工智能领域，属于行业知识采编的重要组成部分，具体是一种行业知识库的快速构建方法。

背景技术

社会经济迅猛发展，对人工智能和机器人的探索已经属于前沿研究领域。在日常生活中的各个角落，越来越能找到机器人的身影。尤其对于行业机器人来说，由于服务对象的特殊性，机器人知识库的准确性要求更高，因此需要学习更多专业知识来充实知识库。通过不断积累的行业数据进行特征提取与权重学习，同时可以抽象较为重要的话题，并由此进行对话数据的整理与学习，形成一个结构化的行业数据库。当对话系统收到问题时，首先会对问题进行分类，并且通过对话管理判断是否与上下文有联系，自动匹配对应的对话模板进行问答反馈。

这样看来，知识库的构建则显得尤为重要。而在构建知识库的过程中，会发现DeepQA以及特定场景的知识居多，甚至大量存在。而手动整理，耗时费力且体验效果不佳，并对后期维护过程造成各种困难。

在长期的探索中，尝试过很多的方法简化知识库构建过程，例如，利用知识平台进行动态数据采编，较好地解决了多样数据自动化管理的问题，平台支持关键词录入，使用者可挑选自己意图中的关键信息作为关键词进行管理，配置和维护更灵活，泛化能力更强。尽管如此，仍需要单个意图录入多个关键词，或相似度较高的多个意图录入重复关键词，重复工作多，工作量大，效率低下。

发明内容

针对现有技术的缺陷，本发明提供一种行业知识库的快速构建方法，根据用户意图中的关键信息联想到多个相似的关键信息，从而准确匹配到用户的意图。

为了解决所述技术问题，本发明采用的技术方案是：一种行业知识库的快速构建方法，包括以下步骤;

S01）、构建基础词库，首先抽取行业关键词作为基础词库的标准词，然后获取行业关键词的相似词列表，基于获取到的行业关键词和关键词的相似词列表，经过人工筛选，将一对多的词库构建成基础词库；

S02）、添加行业知识库，添加行业词库包括两方面，一是引用基础词库，将基础词库的内容全部复制到行业知识库，二是添加本客户独有的行业词库，与此同时将这些词库更新到基础词库；

S03）、行业知识采编，对客户意图进行采编录入时，提取意图中的关键信息，由原来的逐一录入关键词，改为关键词和行业词或行业词与行业词的组合，实现一个意图关键信息联想到过个关键信息；

S04）、知识库一键训练，读取行业知识库，对知识源进行加载并对数据进行解析、重构和二次及结构化，通过机器学习算法，训练生成特征库、索引库、规则库和语义库。

进一步的，构建基础词库的具体过程为：

S11）、从行业用户提供的知识数据中，使用tf-idf技术进行关键词权重排序，进行行业关键词抽取，行业数据越多，抽取到的关键词越准确；

S12）、利用抽取到的行业关键词，从网络平台上爬取相关行业知识数据，然后使用开源腾讯词向量训练词向量矩阵，根据词向量矩阵，使用高维向量索引技术来构建向量索引，遍历行业关键词，以抽取最相似的词，从而获得相似词列表；

S13）、获取到行业关键词和关键词的相似词列表后，经过人工筛选，将一对多的词库构建成基础词库，一是指行业关键词，多是指相似词。

进一步的，在现有知识平台上，建立固定账号存放基础词库，基础词库通过批量导入或者单独添加的方式导入并保存在固定账号里。

进一步的，行业知识采编时，若口语化的意图中包含关键词，则联想到关键词的多个相似词来作为口语化意图的关键信息。

本发明的有益效果：本方法利用词库联想实现知识迭代，从而快速构建行业知识库。所建立的行业知识库根据用户意图中的关键信息联想到多个相似的关键信息，从而准确匹配到用户的意图。

附图说明

图1为基础词库批量导入的示意图；

图2为基础词库单独添加的示意图；

图3为同步基础词库之前的示意图；

图4为同步基础词库之后的示意图；

图5为行业词库应用示意图1；

图6为行业词库应用示意图2；

图7为缴税的词库示意图；

图8为资料的词库示意图；

图9为测试过程及测试成功示意图。

具体实施方式

为了更加直观的介绍本发明的方法，接下来结合附图对本发明中提到的方法做进一步的说明。

实施例1

本实施例公开一种行业知识库的快速构建方法，包括以下步骤：

S01）、构建基础词库，首先抽取行业关键词作为基础词库的标准词，然后获取行业关键词的相似词列表，基于获取到的行业关键词和关键词的相似词列表，经过人工筛选，将一对多的词库构建成基础词库。

具体的，构建基础词库的具体过程为：

S11）、从行业用户提供的知识数据中，使用tf-idf技术进行关键词权重排序，进行行业关键词抽取。例如“减免优惠”中，“减免”可以作为行业关键词被抽取出来。行业数据越多，抽取到的关键词越准确。

S12）、利用抽取到的行业关键词，从网络平台上爬取相关行业知识数据，然后使用开源腾讯词向量训练词向量矩阵，根据词向量矩阵，使用高维向量索引技术来构建向量索引，遍历行业关键词，以抽取最相似的词，从而获得相似词列。例如“减免”的相似词有“免收”、“抵免”“税务优惠”等。

为了方便和易用，在现有的知识平台上，建立固定账号存放高频词库。首先需要下载批量导入的excel模板，如图1所示，然后将按照模板整理后的数据进行批量导入。如果在行业词数量不多的情况下，可以单独对其进行添加，如图2示。其中，标准词：较规范、较书面的行业词；相似词：偏口语化的行业词，需要注意，相似词支持以“，”连接的词的组合，例如，标准词：资料；相似词：材料|证明|文件|资质|东西|证件|带，啥|带，什么。只要客户意图中包含无论标准词或者相似词中的任何一个，都可匹配到该意图。

S02）、添加行业知识库，添加行业词库包括两方面，一是引用基础词库，将基础词库的内容全部复制到行业知识库，二是添加本客户独有的行业词库，与此同时将这些词库更新到基础词库，待再次需要同步基础库时，新添加的这些词也会被同步到目标库中。

平台支持一键同步，如图3、图4所示，是同步基础词库前后的对比图。

S03）、准备工作完成之后，即可将行业词库进行应用，即行业知识采编，对客户意图进行采编录入时，提取意图中的关键信息，由原来的逐一录入关键词，改为关键词和行业词或行业词与行业词的组合，实现一个意图关键信息联想到过个关键信息，极大的缩短人工录入的时间。

日常生活中，往往都是口语化的意图，出现上文提到的标准意图的情况较少，但是，只要口语化意图中包含关键词，即可联想到此关键词的多个相似词来作为口语化意图的关键信息，从而达到提高意图匹配度的效果。减少了大量重复性的工作，可以大大提高工作效率。

例如客户标准意图一：“去税务厅缴税需要携带什么资料”，可以为：“@缴税，@资料”，如图5所示。

客户标准意图二：“个人所得税起征点”，针对该意图，提取到的关键信息与行业词库结合后形成关键词，可以为：“@个人所得税，起征”, 如图6所示（不区分顺序，也可以为“起征点，@个人所得税”）。

S04）、知识库一键训练，读取行业知识库，对知识源进行加载并对数据进行解析、重构和二次及结构化，通过机器学习算法，训练生成特征库、索引库、规则库和语义库，供语义解析时使用，为语义理解提供数据支撑。同时为后续的对话管理、对话生成和服务状态管理奠定基础。

构建好的行业知识库一方面可以应用于机器人对话，另一方面可以在网页上进行对话测试，简单直观。本文只展示后者，效果与前者相同。

如图7与图8所示，分别是“缴税”和“资料”的词库。

意图样本：

一、标准样本：去税务厅缴税需要携带什么资料

口语化问法：①我想交税，需要带什么证明②我要缴税，需要带啥③我要交房产税，需要带啥去

二、标准样本：个人所得税起征点。

口语化问法：①个税多少起征②个人所得税从多少开始起征

问答效果如图9所示。

本实施例所述方法利用词库联想实现知识迭代，从而快速构建行业知识库。所建立的行业知识库根据用户意图中的关键信息联想到多个相似的关键信息，从而准确匹配到用户的意图。

以上描述的仅是本发明的基本原理和优选实施例，本领域技术人员根据本发明做出的改进和替换，属于本发明的保护范围。

Claims

1.一种行业知识库的快速构建方法，其特征在于：包括以下步骤;

S04）、知识库一键训练，读取行业知识库，对知识源进行加载并对数据进行解析、重构和二次结构化，通过机器学习算法，训练生成特征库、索引库、规则库和语义库。

2.根据权利要求1所述的行业知识库的快速构建方法，其特征在于：构建基础词库的具体过程为：

3.根据权利要求1所述的行业知识库的快速构建方法，其特征在于：在现有知识平台上，建立固定账号存放基础词库，基础词库通过批量导入或者单独添加的方式导入并保存在固定账号里。

4.根据权利要求1所述的行业知识库的快速构建方法，其特征在于：行业知识采编时，若口语化的意图中包含关键词，则联想到关键词的多个相似词来作为口语化意图的关键信息。