CN112861515B

CN112861515B - 交互式知识定义与处理方法、系统、装置和可读介质

Info

Publication number: CN112861515B
Application number: CN202110173071.1A
Authority: CN
Inventors: 薛贵荣; 朱伟彬
Original assignee: Shanghai Tianran Intelligent Technology Co ltd
Current assignee: Shanghai Tianran Intelligent Technology Co ltd
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2022-11-11
Anticipated expiration: 2041-02-08
Also published as: CN112861515A

Abstract

本发明提供了一种交互式知识定义与处理方法，包括如下步骤，步骤S1：针对不同业务问题进行定义，明确需要抽取的实体类型和关系类型，定义标签体系；步骤S2：根据定义的实体类型、关系类型和标签体系进行标注；步骤S3：对标注之后的数据进行模型训练，生成供业务问题解决用的模型；步骤S4：部署模型到生产环境，接入实际数据，进行运用。本发明通过定义出一套符合数据分布和业务场景的标签体系，实现了如何找到数据中包含的知识，标签体系如何适应不断变化的业务场景。

Description

交互式知识定义与处理方法、系统、装置和可读介质

技术领域

本发明涉及大数据技术领域，具体地，涉及一种交互式知识定义与处理方法、系统、装置和可读介质。

背景技术

自然语言处理(Natural Language Processing，简称NLP)是人工智能(AI)的一个子领域，自然语言是人类智慧的结晶，自然语言处理是人工智能中最为困难的问题之一，而对自然语言处理的研究也是充满魅力和挑战的。理论上，NLP是一种很吸引人的人机交互方式。早期的语言处理系统如SHRDLU，当它们处于一个有限的“积木世界”，运用有限的词汇表会话时，工作得相当好。这使得研究员们对此系统相当乐观，然而，当把这个系统拓展到充满了现实世界的含糊与不确定性的环境中时，他们很快丧失了信心。由于理解(understanding)自然语言，需要关于外在世界的广泛知识以及运用这些知识的能力，自然语言认知，同时也被视为一个人工智能完备(AI-complete)的问题。

经过检索，专利文献CN111581363A公开了一种知识抽取方法、装置、设备及存储介质，具体实现方案为：根据用户在第一页面中输入的信息获取字段的名称和字段的设置信息，设置信息用于进行针对字段的知识抽取；根据用户在第二页面中输入的信息创建知识抽取任务；知识抽取任务包括字段和待处理文档，知识抽取任务用于根据设置信息对待处理文档进行针对字段的知识抽取；执行知识抽取任务，获得知识抽取答案；输出知识抽取答案。该现有技术无法解决出现未存储的领域的语言之后该如何处理，现有技术中均是对自然语言处理问题的模糊性做过处理，即利用人工智能对相对应领域的数据库进行深度学习，并作出相应的模糊词的对应学习，以达到精确的分类或者抽取。传统的方法依赖人工分析定义分类和主题，然后再做有监督的学习。

因此，亟需研发一种能够对不同领域的业务问题进行定义，定义出符合数据分布和业务场景的标签体系去自适应不断变化的业务场景的系统。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种交互式知识定义与处理方法、系统、装置和可读介质，解决了实际场景中的一个挑战是业务问题的定义本身是耗时耗力的，且随着时间推移和业务发展，问题本身也是需要变化和演进的技术问题。

根据本发明提供的一种交互式知识定义与处理方法，包括如下步骤：

步骤S1：针对不同业务问题进行定义，明确需要抽取的实体类型和关系类型，定义标签体系；

步骤S2：根据定义的实体类型、关系类型和标签体系进行标注；

步骤S3：对标注之后的数据进行模型训练，生成供业务问题解决用的模型；

步骤S4：部署模型到生产环境，接入实际数据，进行运用。

优选地，步骤S1包括以下步骤：

步骤S1.1：针对不同业务问题通过语言分析和预置的结构模型进行预处理；

步骤S1.2：预处理得到的文本数据进行无监督文本分类；

步骤S1.3：对无监督文本分类之后的文本数据做透视分析，得到标签推荐；

步骤S1.4：针对推荐的标签进行审核，批量添加标签，定义标签体系。

优选地，步骤S2包括以下步骤：

步骤S2.1：利用标注工具，人工对定义的实体类型、关系类型和标签体系进行文本数据标注；

步骤S2.2：根据人工标注的文本数据，训练模型，对后续未标注的文本数据进行机器的预标注。

优选地，步骤S3包括以下步骤：

步骤S3.1：对标注之后的数据选择实体抽取、关系抽取和多标签分类算法进行模型的训练；

步骤S3.2：对训练模型进行实时监控，跟踪模型训练情况；

步骤S3.3：根据不同大小、不同资源需求和/或不同训练速度生成满足不同业务场景的模型；

步骤S3.4：利用标注数据对模型进行评价和迭代调整。

优选地，步骤S4包括以下步骤：

步骤S4.1：训练完成的模型能够一键部署，并且自动生成符合开放平台规范的文档，在跨环境部署的场景中，支持服务部署容器的构建及镜像的下载；

步骤S4.2：将产出的模型部署到生产环境，并对模型效果进行监测；

步骤S4.3：通过抽样的人工标注，验证算法在线上的表现，并把积累到的标注数据反馈给模型，做迭代训练和效果提升。

根据本发明提供的一种交互式知识定义与处理系统，包括：

业务定义子系统：针对不同业务问题进行定义，明确需要抽取的实体类型和关系类型，定义标签体系；

标注子系统：根据业务定义子系统定义的实体类型、关系类型和标签体系进行标注；

模型服务子系统：利用标注子系统标注之后的数据进行模型训练，生成供业务问题解决用的模型到生产环境，接入实际数据，进行运用。

优选地，业务定义子系统包括数据处理模块、预置模型模块、自动聚类模块和标签体系模块；

-经过数据处理模块处理和预置模型模块预处理过后的文本数据传输至自动聚类模块进行无监督文本分类；

-将无监督文本分类之后的文本数据传输至标签体系模块添加标签；

所述标注子系统包括标注模块和数据存储模块，通过标注模块对定义的实体类型、关系类型和标签体系进行文本数据标注存储至数据存储模块中。

优选地，模型服务子系统包括模型服务模块和训练部署模块；

-通过训练部署模块对标注之后的数据进行模型训练，训练完生成各种模型之后，部署到生产环境中；

-通过模型服务模块接入实际数据之后进行运用。

根据本发明提供的一种存储有计算机程序的计算机可读介质，计算机程序被处理器执行时实现上述的方法的步骤。

根据本发明提供的一种交互式知识定义与处理装置，包括上述的交互式知识定义与处理系统或者上述的存储有计算机程序的计算机可读存储介质。

与现有技术相比，本发明具有如下的有益效果：

1、本发明通过定义出一套符合数据分布和业务场景的标签体系，实现了如何找到数据中包含的知识，标签体系如何适应不断变化的业务场景。

2、本发明通过对于文档的自动分析，加速业务问题定义的过程，从数天的时间缩短到数小时的时间。

3、本发明通过对于文档的预标注，辅助标注，加速标注工作的过程，此步可节省50％以上的时间。

4、本发明通过对于线上模型效果的监测，解决了模型线上效果和训练评估效果不一致的问题

5、本发明解决了业务定义随着时间变化需要不断更新的问题，使技术能够适应不断变更的业务场景。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明中交互式知识定义与处理系统的整体示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明提供了一种交互式知识定义与处理方法，包括如下步骤：步骤S1：针对不同业务问题进行定义，明确需要抽取的实体类型和关系类型，定义标签体系；步骤S2：根据定义的实体类型、关系类型和标签体系进行标注；步骤S3：对标注之后的数据进行模型训练，生成供业务问题解决用的模型；步骤S4：部署模型到生产环境，接入实际数据，进行运用。

进一步来说，对于一篇文档，实体、关系是常见的知识。

实体可以是人、物或者事件，常见的实体有人名、地名、机构名、专有名词等，以及时间、数量、货币、比例数值等。

关系刻画两个实体之间的联系和相互作用，常见的关系有亲戚关系、同事关系、同行关系等等。

标签是对于文本的一种描述，比如说一篇世界杯决赛报道的文章可以打上的标签有“体育”、“足球”、“世界杯”等。标签代表了业务的需求，是对实体，关系的业务命名。相同类型的实体或关系拥有相同的标签。一个实体或关系在不同的标签体系下可能会被给与不同的标签。

在实际场景中的一个挑战是业务问题的定义本身是耗时耗力的，且随着时间推移和业务发展，问题本身也是需要变化和演进的。那么如何找到数据中包含的知识，定义出一套符合数据分布和业务场景的标签体系，标签体系如何适应不断变化的业务场景，是一个值得去解决的问题。

具体地，通过人机交互来定义业务问题的步骤S1包括以下步骤：

步骤S1.1：针对不同业务问题通过语言分析和预置的结构模型进行预处理。细化来说，语言分析主要是用到分词技术，也就是从语料中计算高频词，通过停用词表去除了不表达含义的停用词，如“啊”，“了”等。而预置的模型，包括人名识别、地名识别、机构名识别、时间识别输出识别结果，给文本数据一个结构化的视角。

步骤S1.2：预处理得到的文本数据进行无监督文本分类。也就是说通过词分析和预置模型输出的结果，将相似的文档，包含语义相似的和标签相似的，做基于预训练语言模型的无监督文本分类，即自动聚类。

步骤S1.3：对无监督文本分类之后的文本数据做透视分析，得到标签推荐。具体地，通过高频词寻找高频共现词，分析Bi-gram，Tri-gram扩展到Ngram，通过搜索筛选对数据做透视分析，提供标签推荐。

步骤S1.4：针对推荐的标签进行审核，批量添加标签，定义标签体系。在工具上可以展示S1.1生成的结果，通过交互，人可以创建要抽取的实体类型、关系类型和标签体系，为后续的工作做好准备。

继续进一步来说，基于预训练语言模型的无监督文本分类做展开说明如下。

(一)针对无监督文本分类做简要概述

在实际NLP业务中，往往是缺少大量的有标签数据的，所以有必要建立可行、可靠的无监督NLP算法，服务于实际业务。下文将对常见的NLP任务，文本分类，给出具体的无监督的算法方案。

(二)文本的向量表示

首先，无论是有监督还是无监督，在NLP领域中，都是需要将文本内容编码成向量形式，才能供后续的算法进行计算并产出结果。所以，面临的第一个问题，就是如何将文本信息编码成向量形式。

1、基于静态词向量的句向量表示

在预训练语言模型出现之前，静态词向量(Word2Vector)在很长一段时间很多NLP任务中占据着重要地位。由于静态词向量是事先基于大规模语料训练得到的，所以，天生便可以用于无监督学习领域。在此基础上衍生出的文本向量表示也是显而易见的，常见方法有：

(1)将一句文本中的词向量进行累加求平均

(2)根据字/词的tf-idf值，对一句文本中的词向量进行加权平均

(3)在(2)的基础上，将句向量减去其第一主成分上的投影，减少句向量信息中不同句子中共性的表达，突出各自的特有的语义表达。

在实际效果中，以上方法均能在不同程度上表现文本本身的语义信息，其得到的词向量均能用于相似度计算等任务中，实际效果是按方法顺序依次提高的。

2、基于预训练语言模型的句向量常规方法

随着动态词向量的兴起，预训练语言模型Bert几乎全面超越了静态词向量在所有NLP任务上的表现。所以自然而然会想到将Bert这样的预训练语言模型应用到无监督领域。通过Bert得到文本向量的方法主要有以下两种：

(1)将Bert[CLS]位置的hidden state向量作为文本向量，这是因为[CLS]位置的向量普遍应用于finetune的文本分类任务中，同时[CLS]位置会“公平的”融合文本中所有词的信息。

(2)将Bert最后一层或几层的hidden states取出，并做average pooling得到文本的向量表示。

这两种方法均只用了Bert的预训练参数，不涉及finetune，所以自然属于无监督方法。然而无论是哪一种方法得到的句向量，在后续无监督的任务中，例如文本相似度计算，均没有得到理想的效果。在很多情况下，并不如2节中所述的静态词向量方法。

3、基于Normalizing Flows的Bert句向量表示

从2节中可知，目前通过Bert得到的无监督句向量在做文本相似度任务时，效果很不理想。这一节将提出如何通过Bert得到可靠的句向量方法。

首先，相对于2节中提到的提取句向量的方法，然后再通过cosine计算相似度，做文本相似度分析，或者文本聚类等任务。这里有一个可以思考的地方就是，是不是Bert的句向量不能简单的通过cosine这样的计算，来进行相似度分析。通过对bert词向量在L2范数和词向量间的L2距离的分析可知，如下表：

表1词向量L2范数及其L2距离

从表1中可以看出，高频词的L2范数更小，这说明，高频词在向量空间中离原点更近，反之，低频词离原点更远。这样的分布带来的问题是，即使一个高频词和一个低频词表示的语义相近的话，但是在Bert的词向量空间中，并不能通过距离来表达出这种相似性。同时，从L2距离的数值可以看出，高频词的L2距离更小，低频词的L2距离更大。说明低频词的分布更加稀疏，这样的现象就表明，Bert的句向量在一定程度上并不是语义平滑(semantically smoothing)，所以Bert的句向量直接用于常规的语义相似度计算，没有得到理想的效果。

基于以上分析，在这里提出一种标准化流(Normalizing Flows)的变换，将Bert得到的句向量分布，变换成一个光滑的、各向同性的标注高斯分布。

基于标准化流(Normalizing Flows)的Bert定义了一个潜在的空间Z到空间U的可逆变换f，标准化的过程如下：

通过变量代换定理，概率密度函数为：

在标准化的过程中，Pz是标注高斯分布，u是Bert句向量分布，flow的训练是无监督的，并且Bert的参数也不参与训练，只有标准化流的参数被训练及优化，训练目标是极大化Bert句向量的似然函数：

其中，f为一个可逆的神经网络。

以上便建立了一个Bert-flow的计算结构，实现Bert的无监督句向量表示，现有的实验结果也表明，Bert-flow计算的相似度更接近真实的语义相似度，能够更好的用于无监督相似度计算，文本聚类等任务中。

(三)基于句向量的聚类

在获得了文本的向量表示后，相似度的计算一般是距离的计算，而聚类的实现，也大多建立在距离计算的基础上，常见的聚类方法有K-means，DBSCAN等，再结合轮廓分数，Calinski-Harabasz分数等评价指标，优化聚类模型。

(四)类别的关键词抽取

当获得聚类结果之后，若想再获得某一类的概述性文本，则可以将聚类结果中的文本进行关键词抽取工作。具体的可以使用TextRank算法，对文本进行无监督的关键词提取，来获得某一类别词粒度上的描述。

(五)总结

在(二)中，对文本向量的获得方法进行了非常详尽的说明，这是因为，文本向量的质量对于后续的相似度计算或者聚类实现，都有着至关重要的作用。可以说文本向量的好坏，直接影响了整个相似度计算或者聚类任务的效果。

进一步来说，步骤S2包括以下步骤：

步骤S2.1：利用标注工具，人工对定义的实体类型、关系类型和标签体系进行文本数据标注；标注就是为相同类型实体和关系打上相同标签的过程。

步骤S2.2：根据人工标注的文本数据，训练模型，对后续未标注的文本数据进行机器的预标注。提高人工的标注效率。有两类的模型：

第一，在线模型。在线模型训练速度快，消耗资源少，5分钟可以更新一个版本。在线模型可以直接在CPU上进行训练预测，实时更新。通过在线模型的辅助，可以最大化利用已标注内容，自动标注相似内容，减少人工工作量。

第二，离线模型。离线模型训练的速度相对较慢，需要的训练数据更多，消耗资源也更多，但效果会更好，可以根据资源情况，选择一天或半天更新一次离线模型。

接着，进行模型选择。前期在标注数据量不大，离线模型还没有的情况下，选择用在线模型，当离线模型训练完并通过评价后发现离线模型效果更好后，可以切换到离线模型。

有了机器的辅助标注，标注人员只需要做二次确认，大大提高了工作效率。

进一步来说，步骤S3包括以下步骤：

步骤S3.1：对在步骤2中积累的标注数据，选择合适的实体抽取、关系抽取和多标签分类算法，训练模型。

步骤S3.2：一键启动训练任务，训练容器实时监控，训练过程图表化展示，随时了解模型训练情况。在模型训练报错，模型训练完成时进行邮件提示。

步骤S3.3：提供多种模型，不同大小，不同资源需求，不同训练速度，满足不同的业务场景。无论是高准确度的大模型，或是高并发要求的小模型均可兼容，可方便地切换训练。

步骤S3.4：利用标注数据，对模型进行评价和迭代调整。

进一步来说，步骤4具体包括以下步骤：

步骤S4.1：训练完成的模型可以一键部署，并自动生成符合开放平台规范的文档，在跨环境部署的场景中，支持服务部署容器的构建及镜像的下载。通过部署标准的镜像，训练的模型服务可以极快地投入到生产环境中使用。

步骤S4.2：把步骤S3产出的模型部署到生产环境，并对线上模型效果进行监测。由于生产环境的数据和训练时候收集的数据会有偏差，随着时间的演进，生产环境的数据也会变化，这些都会使得实际生产环境的模型效果和训练时候的效果评估不一样。

步骤S4.3：模型的迭代更新。通过抽样的人工标注，验证算法在线上的表现，并把积累到的标注数据反馈给模型，做迭代训练和效果提升。具体是：

第一，定期把生产环境的数据做标注，反馈给模型做训练和评价。

第二，定期把生产环境的数据反馈到步骤S1中做业务问题的重新定义和调整，因为生产环境的数据变化也会使得本来的业务定义也会发生变化，比如说标签体系会随着数据的变化而变化。

如图1所示，本发明还提供了一种交互式知识定义与处理系统，通过基于预训练语言模型的无监督文本分类来做主题的自动发现。包括：

业务定义子系统：针对不同业务问题进行定义，明确需要抽取的实体类型和关系类型，定义标签体系。业务定义子系统包括数据处理模块、预置模型模块、自动聚类模块和标签体系模块；经过数据处理模块处理和预置模型模块预处理过后的文本数据传输至自动聚类模块进行无监督文本分类；将无监督文本分类之后的文本数据传输至标签体系模块添加标签。

标注子系统：根据业务定义子系统定义的实体类型、关系类型和标签体系进行标注。标注子系统包括标注模块和数据存储模块，通过标注模块对定义的实体类型、关系类型和标签体系进行文本数据标注存储至数据存储模块中。

模型服务子系统：利用标注子系统标注之后的数据进行模型训练，生成供业务问题解决用的模型到生产环境，接入实际数据，进行运用。模型服务子系统包括模型服务模块和训练部署模块；通过训练部署模块对标注之后的数据进行模型训练，训练完生成各种模型之后，部署到生产环境中；通过模型服务模块接入实际数据之后进行运用。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种交互式知识定义与处理方法，其特征在于，包括如下步骤：

步骤S4：部署模型到生产环境，接入实际数据，进行运用；

所述步骤S1包括以下步骤：

步骤S1.1：针对不同业务问题通过语言分析和预置的结构模型进行预处理；语言分析用到分词技术，从语料中计算高频词，通过停用词表去除不表达含义的停用词；预置的模型，包括人名识别、地名识别、机构名识别、时间识别输出识别结果，给文本数据一个结构化的视角；

步骤S1.2：预处理得到的文本数据进行无监督文本分类；通过词分析和预置模型输出的结果，将相似的文档，包含语义相似的和标签相似的，做基于预训练语言模型的无监督文本分类，即自动聚类；

步骤S1.3：对无监督文本分类之后的文本数据做透视分析，得到标签推荐；通过高频词寻找高频共现词，通过搜索筛选对数据做透视分析，提供标签推荐；

步骤S1.4：针对推荐的标签进行审核，批量添加标签，定义标签体系；在工具上展示步骤S1.1生成的结果，通过交互，人工创建要抽取的实体类型、关系类型和标签体系，为后续的工作做好准备；

基于预训练语言模型的无监督文本分类包括文本的向量表示，将文本内容编码成向量形式，其中，通过Bert得到句向量方法，包括：

将Bert得到的句向量分布，变换成一个光滑的、各向同性的标注高斯分布，定义一个潜在的空间Z到空间U的可逆变换

标准化过程如下：

通过变量代换定理，概率密度函数为：

在标准化的过程中，Pz是标准高斯分布，u是Bert句向量分布，flow的训练是无监督的，并且Bert的参数也不参与训练，只有标准化流的参数被训练及优化，训练目标是极大化Bert句向量的似然函数；

其中，

为一个可逆的神经网络。

2.根据权利要求1所述的交互式知识定义与处理方法，其特征在于，所述步骤S2包括以下步骤：

3.根据权利要求1所述的交互式知识定义与处理方法，其特征在于，所述步骤S3包括以下步骤：

步骤S3.2：对训练模型进行实时监控，跟踪模型训练情况；

步骤S3.4：利用标注数据对模型进行评价和迭代调整。

4.根据权利要求1所述的交互式知识定义与处理方法，其特征在于，所述步骤S4包括以下步骤：

5.一种交互式知识定义与处理系统，其特征在于，采用权利要求1至4中任一项所述的交互式知识定义与处理方法，包括：

6.根据权利要求5所述的交互式知识定义与处理系统，其特征在于，所述业务定义子系统包括数据处理模块、预置模型模块、自动聚类模块和标签体系模块；

7.根据权利要求5所述的交互式知识定义与处理系统，其特征在于，所述模型服务子系统包括模型服务模块和训练部署模块；

-通过模型服务模块接入实际数据之后进行运用。

8.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现权利要求1-4中任一项所述的方法的步骤。

9.一种交互式知识定义与处理装置，其特征在于，包括权利要求5-7中任一项所述的交互式知识定义与处理系统或者权利要求8所述的存储有计算机程序的计算机可读存储介质。