CN114238571A

CN114238571A - 模型的训练方法、知识分类方法、装置、设备、介质

Info

Publication number: CN114238571A
Application number: CN202111536048.0A
Authority: CN
Inventors: 舒畅; 陈又新
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-03-25
Also published as: WO2023108991A1

Abstract

本实施例提供模型的训练方法、知识分类方法、装置、设备、介质，属于机器学习技术领域。该方法包括：获取原始标注数据；原始标注数据包括题干数据、选项数据和答案数据；对所述题干数据进行编码处理，得到题干表征向量；根据预设的知识图谱对选项数据和答案数据进行编码处理，得到选项属性值和答案属性值；将所述选项属性值和所述答案属性值进行分词和拼接处理，得到选项答案表征向量；将所述题干表征向量和所述选项答案表征向量进行向量拼接，得到题目数据；根据所述题目数据对预设的预训练模型进行训练，得到知识分类模型，该知识分类模型用于对目标题目进行知识分类，本公开实施例得到的知识分类模型可以提高对知识分类的准确性和效率。

Description

模型的训练方法、知识分类方法、装置、设备、介质

技术领域

本公开实施例涉及机器学习技术领域，尤其涉及模型的训练方法、知识分类方法、装置、设备、介质。

背景技术

随着人工智能技术的发展，目前可以基于人工智能技术来处理多种数据的技术方案，例如，可以利用机器阅读理解技术给出问题的答案。机器阅读理解，是一种使机器理解自然语言文本，在给定问题与文档的情况下，回答出相应答案的技术。该技术能够在文本问答、知识图谱和事件图谱中的信息抽取、对话系统等诸多领域应用。

然而在一些应用场景，缺乏对知识进行分类的技术方案，例如在英语在线教育场景中，需要对考察相关英语知识点的题目进行分类，从而把相同知识点的题目进行划分，对用户进行专项训练。由于英语题目的数量过于庞大，而且每年都会研发一些新题目；若依靠人工对每道题进行划分，工作量大、效率低、容易出错。

发明内容

本公开实施例的主要目的在于提出一种知识分类模型的训练方法和装置、计算机设备和存储介质，可以提高可以提高对知识分类的准确性和效率。

为实现上述目的，本公开实施例的第一方面提出了一种知识分类模型的训练方法，所述知识分类模型的训练方法包括：

获取原始标注数据；所述原始标注数据包括题干数据、选项数据和答案数据；

对所述题干数据进行编码处理，得到题干表征向量；

根据预设的知识图谱对选项数据和答案数据进行编码处理，得到选项属性值和答案属性值；

将所述选项属性值和所述答案属性值进行分词和拼接处理，得到选项答案表征向量；

将所述题干表征向量和所述选项答案表征向量进行向量拼接，得到题目数据；

根据所述题目数据对预设的预训练模型进行训练，得到知识分类模型；其中，知识分类模型用于对目标题目进行知识分类处理，以得到知识点类型。

在一些实施例，所述对所述题干数据进行编码处理，得到题干表征向量，包括：

对所述题干数据进行预处理，将所述题干数据的英文内容转为小写，得到初步题干序列；

对所述初步题干序列进行分词处理，得到题干表征向量。

在一些实施例，在所述根据预设的知识图谱对选项数据和答案数据进行编码处理，得到选项属性值和答案属性值之前，所述知识分类模型的训练方法，还包括：构建所述知识图谱，具体包括：

获取预设知识点；

根据所述预设知识点构建第一三元组和第二三元组；

根据所述第一三元组和所述第二三元组构建所述知识图谱；其中，所述第一三元组包括第一知识实体、关系、第二知识实体，所述第二三元组包括第二知识实体、属性、属性值

在一些实施例，所述知识图谱包括第一三元组和多个第二三元组，根据预设的知识图谱对选项数据和答案数据进行编码处理，得到选项属性值和答案属性值，包括：

根据所述第一三元组和多个第二三元组对所述选项数据进行编码处理，得到所述选项属性值；其中，所述选项属性值包括多个第二三元组的属性值；

根据所述第一三元组和其中一个第二三元组对所述答案数据进行编码处理，得到所述答案属性值；其中，所述答案属性值是所述选项属性值中的多个属性值中的其中一个属性值。

在一些实施例，所述将所述选项属性值和所述答案属性值进行分词和拼接处理，得到选项答案表征向量，包括：

将所述选项属性值和所述答案属性值进行词向量化，得到词向量化的项属性值和答案属性值；

将词向量化的项属性值和答案属性值进行属性值拼接，得到选项答案表征向量；

在一些实施例，所述将所述题干表征向量和所述选项答案表征向量进行向量拼接，得到题目数据，包括：

通过分隔符将所述题干表征向量和所述选项答案表征向量进行向量拼接，得到题目数据；其中，分隔符包括第一占位符和第二占位符，通过分隔符将所述题干表征向量和所述选项答案表征向量进行向量拼接，得到题目数据，具体包括：

将题干表征向量设在第一占位符与第二占位符之间、第二占位符设在题干表征向量和选项答案表征向量之间，对题干表征向量和选项答案表征向量进行向量拼接，得到所述题目数据。

为实现上述目的，本公开的第二方面提出了一种选择题的知识分类方法，所述选择题的知识分类方法包括：

获取待分类的选择题数据；其中，所述选择题数据包括题干数据；

对所述题干数据进行编码处理，得到题干表征向量；

将所述题干表征向量输入至知识分类模型；其中，所述知识分类模型为根据上述第一方面所述的方法训练得到；

通过所述知识分类模型对所述题干数据进行特征提取，得到特征向量信息；

根据所述特征向量信息进行知识分类处理，得到知识点类型。

为实现上述目的，本公开的第三方面提出了一种知识分类模型的训练装置，所述知识分类模型的训练装置包括：

原始数据获取模块，用于获取原始标注数据；原始标注数据包括题干数据、选项数据和答案数据；

题干编码模块，用于对所述题干数据进行编码处理，得到题干表征向量；

选项答案编码模块，用于根据预设的知识图谱对选项数据和答案数据进行编码处理，得到选项属性值和答案属性值；

分词和拼接模块，用于将所述选项属性值和所述答案属性值进行分词和拼接处理，得到选项答案表征向量；

向量拼接模块，用于将所述题干表征向量和所述选项答案表征向量进行向量拼接，得到题目数据；

分类模型训练模块，用于根据所述题目数据对预设的预训练模型进行训练，得到知识分类模型；其中，知识分类模型用于对目标题目进行知识分类处理，以得到知识点类型。

为实现上述目的，本公开的第四方面提出了一种选择题的知识分类装置，所述选择题的知识分类装置包括：

选择题数据获取模块，用于获取待分类的选择题数据；其中，所述选择题数据包括题干数据、选项数据和答案数据；

数据输入模块，用于将所述选择题数据输入至知识分类模型；其中，所述知识分类模型为根据上述第一方面所述的方法训练得到；

特征提取模块，用于通过所述知识分类模型对所述选择题数据进行特征提取，得到特征向量信息；

知识分类模块，用于根据所述特征向量信息进行知识分类处理，得到知识点类型。

为实现上述目的，本公开的第五方面提出了一种计算机设备，包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

所述程序被存储在存储器中，处理器执行所述至少一个程序以实现本公开实施例

如上述第一方面所述的方法；或者

如上述第二方面所述的方法。

为实现上述目的，本公开的第六方面提出了一种存储介质，该存储介质是计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行：

如上述第一方面所述的方法；或者

如上述第二方面所述的方法。

本公开实施例提出的知识分类模型的训练方法、选择题的知识分类方法、知识分类模型的训练装置、选择题的知识分类装置、计算机设备、存储介质，通过获取原始标注数据，并对原始标注数据中的题干数据进行编码处理，得到题干表征向量，并根据预设的知识图谱对原始标注数据中的选项数据和答案数据进行编码处理，从而可以得到选项属性值和答案属性值，再将所述选项属性值和所述答案属性值进行分词和拼接处理，得到选项答案表征向量，再将题干表征向量和选项答案表征向量进行向量拼接，从而可以得到题目数据，最后根据题目数据对预设的预训练模型进行训练，得到知识分类模型，该知识分类模型可以用于对目标题目进行知识分类处理，以得到知识点类型，本公开实施例得到的知识分类模型可以提高对知识分类的准确性和效率。

附图说明

图1是本公开实施例提供的知识分类模型的训练方法的流程图。

图2是图1中的步骤102的流程图。

图3是另一实施例提供的知识分类模型的训练方法的部分流程图。

图4是图1中的步骤103的流程图。

图5是图1中的步骤104的流程图。

图6是本公开实施例提供的选择题的知识分类方法的流程图。

图7是本公开实施例提供的知识分类模型的训练装置的功能模块图。

图8是本公开实施例提供的选择题的知识分类方法装置的功能模块图。

图9是本公开实施例提供的计算机设备的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

首先，对本申请中涉及的若干名词进行解析：

人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

自然语言处理(natural language processing，NLP)：NLP用计算机来处理、理解以及运用人类语言(如中文、英文等)，NLP属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域，它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

知识图谱(Knowledge Graph)：是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的现代理论。知识图谱主要目标是用来描述真实世界中存在的各种实体和概念，以及他们之间的强关系，我们用关系去描述两个实体之间的关联。在Web视角下，知识图谱如同简单文本之间的超链接一样，通过建立数据之间的语义链接，支持语义搜索。在自然语言处理视角下，知识图谱就是从文本中抽取语义和结构化的数据。在人工智能视角下，知识图谱是利用知识库来辅助理解人类语言的工具。在数据库视角下，知识图谱是利用图的方式去存储知识的方法。知识图谱是比较通用的语义知识的形式化描述框架，用节点表示语义符号，用边表示语义之间的关系。知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图，节点表示实体或概念，边则由属性或关系构成。

实体(Entity)：指具有可区别性且独立存在的某种事物。如某一个人、某一个城市、某一种植物等、某一种商品等等。世界万物有具体事物组成，此指实体。实体是知识图谱中的最基本元素，不同的实体间存在不同的关系。

概念：某一类实体的集合。

语义类(概念)：具有同种特性的实体构成的集合，如国家、民族、书籍、电脑等。概念主要指集合、类别、对象类型、事物的种类，例如人物、地理等。

关系(Relationship)：实体与实体之间、不同的概念与概念之间、概念与实体之间存在的某种相互关系。关系形式化为一个函数，它把kk个点映射到一个布尔值。在知识图谱上，关系则是一个把kk个图节点(实体、语义类、属性值)映射到布尔值的函数。

属性(值)：实体指定属性的值，是从一个实体指向它的属性值。不同的属性类型对应于不同类型属性的边。属性值主要指对象指定属性的值。例如：“面积”、“人口”、“首都”是几种不同的属性。属性值主要指对象指定属性的值，例如960万平方公里等。

三元组：三元组({E,R})是知识图谱的一种通用表示方式；三元组的基本形式主要包括(实体1-关系-实体2)和(实体-属性-属性值)等。每个实体(概念的外延)可用一个全局唯一确定的ID来标识，每个属性-属性值对(attribute-value pair，AVP)可用来刻画实体的内在特性，而关系可用来连接两个实体，刻画它们之间的关联。例如，在一个知识图谱的例子中，中国是一个实体，北京是一个实体，中国-首都-北京是一个(实体-关系-实体)的三元组样例，北京是一个实体，人口是一种属性，2069.3万是属性值。北京-人口-2069.3万构成一个(实体-属性-属性值)的三元组样例。

token：token是建立索引的基本单位，表示每个被编入索引的字符；如果一个字段被token化，表示这个字段经过了一个可将内容转化为tokens串的分析程序；在token化的过程中，分析程序会在使用任何转换逻辑(例如去掉"a”或"the"这类停用词，执行词干搜寻，将无大小写区分的所有文字转换成小写等)的同时，抽取应被编入索引的文本内容。由于和字段相关的内容减少到只剩核心元素，因此，索引作为与某个字段相关的文字内容，其规模也被缩小了；只有被token化的字段也将被编入索引的情况下才有意义。

BERT(Bidirectional Encoder Representation from Transformers)模型：BERT模型进一步增加词向量模型泛化能力，充分描述字符级、词级、句子级甚至句间关系特征，基于Transformer构建而成。BERT中有三种embedding，即Token Embedding，SegmentEmbedding，Position Embedding；其中Token Embeddings是词向量，第一个单词是CLS标志，可以用于之后的分类任务；Segment Embeddings用来区别两种句子，因为预训练不光做LM还要做以两个句子为输入的分类任务；Position Embeddings，这里的位置词向量不是transfor中的三角函数，而是BERT经过训练学到的。但BERT直接训练一个positionembedding来保留位置信息，每个位置随机初始化一个向量，加入模型训练，最后就得到一个包含位置信息的embedding，最后这个position embedding和word embedding的结合方式上，BERT选择直接拼接。

BERT模型等大规模预训练模型在自然语言处理任务中取得了不错的成绩和得到业内认可。但是这些大规模预训练模型通常参数量巨大(例如BERT-base模型拥有1.1亿参数、BERT-large模型拥有3.4亿参数)，对精调和线上部署带来了巨大的挑战，海量的参数使得这些模型在微调和部署时速度慢，计算成本大，对实时的应用造成了极大的延迟和容量限制，因此模型压缩意义重大。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在一些应用场景，例如英语在线教育场景中，需要对考察相关英语知识点的题目进行分类，从而把相同知识点的题目进行划分，对用户进行专项训练。由于英语题目的数量过于庞大，而且每年都会研发一些新题目；若依靠人工对每道题进行划分，工作量大、效率低、容易出错。

基于此，本公开实施例提供一种知识分类模型的训练方法、选择题的知识分类方法、知识分类模型的训练装置、选择题的知识分类装置、计算机设备、存储介质，可以提高模型对知识分类的准确性和效率。

本公开实施例提供的知识分类模型的训练方法、选择题的知识分类方法、知识分类模型的训练装置、选择题的知识分类装置、计算机设备、存储介质，具体通过如下实施例进行说明，首先描述本公开实施例中的知识分类模型的训练方法。

本公开实施例提供的知识分类模型的训练方法，涉及机器学习技术领域。本公开实施例提供的知识分类模型的训练方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现知识分类模型的训练方法的应用等，但并不局限于以上形式。

图1是本公开实施例提供的知识分类模型的训练方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤101至步骤106。

步骤101、获取原始标注数据；原始标注数据包括题干数据、选项数据和答案数据；

步骤102、对题干数据进行编码处理，得到题干表征向量；

步骤103、根据预设的知识图谱对选项数据和答案数据进行编码处理，得到选项属性值和答案属性值；

步骤104、将选项属性值和答案属性值进行分词和拼接处理，得到选项答案表征向量；

步骤105、将题干表征向量和选项答案表征向量进行向量拼接，得到题目数据；

步骤106、根据题目数据对预设的预训练模型进行训练，得到知识分类模型；其中，知识分类模型用于对目标题目进行知识分类处理，以得到知识点类型。

具体地，在一应用场景的步骤101中，需获取一定数量的原始标注数据，例如100万条原始标注数据，该原始标注数据可以是经过人工标注好的题目数据，该原始标注数据中标注有题目考察的知识点类型，即原始标注数据的的标签为知识点类型，例如，考察【定语从句】的知识点类型为定语从句，考察【状语从句】的知识点类型为状语从句。本实施例，利用标注好的100万条数据进行训练模型，从而只需要100万条数据的成本，就可以对几千万甚至更多道英语题目进行自动分类了。

更进一步地，在一些应用场景，例如英语在线教育的应用场景中，该原始标注数据是对英语选择题的题干数据、选项数据和答案数据。在该英语在线教育的应用场景中，需要对考察相关英语知识点的题目数据进行分类，从而把相同知识点的题目进行划分，对用户进行专项训练。由于题目数据的数量过于庞大，而且每年都会研发一些新题目；若依靠人工对每道题进行划分，工作量大、效率低、容易出错。因此，本公开实施例，通过获取原始标注数据，并对原始标注数据中的题干数据进行编码处理，得到题干表征向量，并根据预设的知识图谱对原始标注数据中的选项数据和答案数据进行编码处理，从而可以得到选项属性值和答案属性值，再将所述选项属性值和所述答案属性值进行分词和拼接处理，得到选项答案表征向量，再将题干表征向量和选项答案表征向量进行向量拼接，从而可以得到题目数据，最后根据题目数据对预设的预训练模型进行训练，得到知识分类模型，该知识分类模型可以用于对目标题目进行知识分类处理，以得到知识点类型，本公开实施例得到的知识分类模型可以提高对知识分类的准确性和效率。

以一个英语单选题的场景为例进行说明，一道考察定语从句的单选题中，题干数据中给定了一个包含有从句内容的句子：My house,which I bought last year,has gota lovely garden。题干要求判断从句“which I bought last year”的从句类型。选项数据为：A、B、C、D四个选项，其中选项A为状语从句，选项B为主语从句，选项C为定语从句，选项D为表语从句。答案只有一个，答案数据对应为：定语从句。即该单选题的答案是选项C。

请参阅图2，在一些实施例的步骤102中对题干数据进行编码处理，得到题干表征向量，具体包括：

步骤201、对题干数据进行预处理，得到初步题干序列；

步骤202、对初步题干序列进行分词处理，得到题干表征向量。

在一具体应用场景，步骤201包括：

将题干数据的英文内容转为小写，得到初步题干序列。

示例地，例如题干数据的英文内容包括：I lOVE YOU，则将I lOVE YOU全部转为小写，得到的初步题干序列为：i love you。

更进一步地，步骤201还包括：

将题干数据的英文简写内容还原为英文全称，得到初步题干序列。

示例地，例如题干数据的英文简写内容为：i’m，则将该包含有英文简写的I’m还原为英文全称后得到的初步题干序列为：i am。

在一具体应用场景，步骤202中，对初步题干序列进行分词处理，得到题干表征向量，具体包括：

对初步题干序列进行token化，得到题干表征向量。在一些实施例，初步题干序列为：

i am playing

对i am playing进行token化后得到的题干表征向量为：

[i,am,play,ing]

请参阅图3，在一些实施例，步骤103之前，知识分类模型的训练方法还包括：构建知识图谱，具体可以包括但不限于包括步骤301至步骤303：

步骤301、获取预设知识点；

步骤302、根据预设知识点构建第一三元组和第二三元组；

步骤303、根得第一三元组和第二三元组构建知识图谱；其中，第一三元组包括第一知识实体、关系、第二知识实体，第二三元组包括第二知识实体、属性、属性值。

在一些实施例的步骤301中，可以采用网络爬虫等技术手段来爬取预设知识点等相关数据；也可以从预设的数据库中获取相关数据。在一些应用场景，预设知识点为预设的英语知识点，例如英语线教育场景中的英语考查点。

在一些实施例的步骤302中，构建英语知识图谱的原理为：根据预设知识点的每一个知识点构建第一三元组和第二三元组，其中第一三元组包括第一知识实体、关系、第二知识实体，第二三元组包括第二知识实体、属性、属性值。通过第第一个三元组，建立第一知识实体与第二知识实体之间的关联关系，具体地，通过无向边建立第一知识实体与第二知识实体之间的关联关系的连接。关于第一三元组的说明：若两个知识节点之间存在关系，则存在关系的两个知识节点之间用一条无向边连接在一起，该知识节点称为实体，该无向边表示这两个知识节点之间的关系，本公开实施例中，这两个知识节点对应第一知识实体与第二知识实体。在第二三元组，第二知识实体表征对应的英语知识点的名称，第二三元组表征了：对应的英语知识点的名称、该英语知识点具备的属性、该属性对应的属性值。

在一具体应用场景，第一三元组可以表示为：从句-包含-定语从句；或者第一三元组可以表示为：从句-包含-状语从句；其中，【从句】为对应的英语知识点，该英语知识点包括【定语从句】和【状语从句】两个知识点，内部的关系为包含。

在一具体应用场景，第二三元组可以表示为：定语从句-年级-8年级，定语从句-关系词-which；其中，该【定语从句】有一个【年级】的属性，这个【年级】的属性值是【8年级】，代表该【定语从句】是【8年级】的知识点。同时，该【定语从句】还有一个【关系词】的属值，这个【关系词】的属性值是which。

本公开实施例，通过将英语知识点构建知识图谱，能够清晰地知道英语知识点的组成结构，以及英语知识点的考察点；此外还可以通过计算两个知识点之间的边的总和，来判断两个知识点是否是相似的知识点，具体可以参照相关技术进行判断，本公开实施例不做限定。

请参阅图4，在一些实施例的步骤103中，预设的知识图谱包括第一三元组和第二三元组，根据预设的知识图谱对选项数据和答案数据进行编码处理，得到选项属性值和答案属性值，具体可以包括但不限于包括：

在一些实施例，知识图谱包括第一三元组和多个第二三元组，根据预设的知识图谱对选项数据和答案数据进行编码处理，得到选项属性值和答案属性值，包括：

步骤401、根据第一三元组和多个第二三元组对选项数据进行编码处理，得到选项属性值；其中，选项属性值包括多个第二三元组的属性值；

步骤402、根据第一三元组和其中一个第二三元组对答案数据进行编码处理，得到答案属性值；其中，答案属性值是选项属性值中的多个属性值中的其中一个属性值。

具体地，为了提高模型的准确率，本公开实施例对于选项和答案的编码阶段引入了知识图谱的知识信息。将题目的选项和答案通过知识图谱的第一三元组和第二三元组的相关信息获取知识实体。具体地，在一具体应用场景，以一个英语单选题的场景为例进行说明，一道考察定语从句的单选题中，题干数据中给定了一个包含有从句内容的句子：Myhouse,which I bought last year,has got a lovely garden。题干数据中要求判断从句“which I bought last year”的从句类型。选项数据为：A、B、C、D四个选项，其中选项A为状语从句，选项B为主语从句，选项C为定语从句，选项D为表语从句。答案只有一个，答案数据对应为：定语从句。即该单选题的答案是选项C。知识图谱的第一三元组表示为：从句-包含-定语从句，第二三元组为：定语从句-关系词-which。从句“which Ibought last year”中的“which”为关系词，对应该从句的类型为“定语从句”，即第二三元组的表达式：定语从句-关系词-which。判断该从句“which I bought last year”的类型所对应的答案为：该从句为定义从句，该答案对应于第一三元组的表达式：从句-包含-定语从句。根据第一三元组和多个第二三元组对选项数据进行编码处理，得到的选项属性值为：状语从句，主语从句，定语从句，表语从句。根据第一三元组和其中一个第二三元组对答案数据进行编码处理，得到的答案属性值为：定语从句(即选项属性值中的定语从句)；该应用场景中，考察的英语知识点是从句中的定语从句的判断。

请参阅图5，在一些实施例的步骤104中，将选项属性值和答案属性值进行分词和拼接处理，得到选项答案表征向量，具体可以包括但不限于包括：

步骤501、将选项属性值和答案属性值进行词向量化，得到词向量化的选项属性值和答案属性值；

步骤502、将词向量化的选项属性值和答案属性值进行属性值拼接，得到选项答案表征向量。

具体地，在一些实施例，将选项属性值和答案属性值所对应的分别进行知识词向量化为对应选项属性值的一个向量token和对应答案属性值的一个向量token，然后将这两个向量token进行拼接，得到选项答案表征向量。

应理解，在其他的实施例，可以先将选项属性值和答案属性值进行拼接，得到选项答案属性值，再对选项答案属性值进行词向量化为对应选项答案的一个向量token，即选项答案表征向量。

在一具体应用场景，选项属性值作为序列的句子A，答案属性值作为句子B，A、B两个句子拼接成选项答案表征向量。具体地，选项答案表征向量可以是长度为320的序列；若该选项答案表征向量的长度不够320，则需要对该选项答案表征向量进行补零操作；且因选项属性值有可能会很长，因此需要对选项属性值进行截断，每次截掉较长句子的尾部，直到整个选项答案表征向量的长度为320。

在一道考察定语从句的单选题的应用场景中，题干数据给定了一个从句内容，要求判断该从句内容的从句类型，选项为A、B、C、D四个选项，选项A为状语从句，选项B为主语从句，选项C为定语从句，选项D为表语从句；答案数据对应为：定语从句；即选项属性值包括状语从句、主语从句、定语从句、表语从句；答案属性值为定语从句。因此，将选项属性值和答案属性值进行分词和拼接处理后得到的选项答案表征向量则表示为[状语从句，主语从句，定语从句，表语从句，定语从句]。

在一些实施例的步骤105中，将题干表征向量和选项答案表征向量进行向量拼接，得到题目数据，具体可以包括但不限于包括：

通过分隔符将题干表征向量和选项答案表征向量进行向量拼接，得到题目数据。

在一些实施例，该分隔符可以是一对占位符：第一占位符[CLS]与第二占位符[SEP]，其中第一占位符[CLS]表示序列的开始，第二占位符[SEP]表示序列的结束。其中，CLS(classifer token)，也叫分类器标识符或者标识符，是一种特殊的token，该token的词嵌入通常用于进行分类任务；SEP(sentence separator)也叫语句分隔标识符或者分隔符，也是一种特殊的token，可应用于分隔两个句子。

通过分隔符将题干表征向量和选项答案表征向量进行向量拼接，得到题目数据，具体包括：

将题干表征向量设在第一占位符与第二占位符之间、第二占位符设在题干表征向量和选项答案表征向量之间，对题干表征向量和选项答案表征向量进行向量拼接，得到题目数据。具体地，题目数据的表示形式为：[<CLS>,题干表征向量,<SEP>,选项答案表征向量]

以下以具体应用场景进行说明：

例如题干表征向量为：i,am,play,ing

选项答案表征向量为：[状语从句，主语从句，定语从句，表语从句，定语从句]

则通过分隔符将题干表征向量和选项答案表征向量进行向量拼接得到的题目数据为：

[<CLS>,i,am,play,ing,<SEP>,状语从句，定语从句，定语从句，表语从句，定语从句]

在一些实施例的步骤106中，预设的预训练模型可以为BERT模型；具体地，根据步骤105得到的题目数据作为BERT模型的输入对BERT模型进行训练，得到知识分类模型，该知识分类模型的基础框架为BERT模型；该知识分类模型用于预测出目标题目的知识类型；具体地，知识分类模型包括softmax分类器；该知识分类模型根据输入的题目数据获取<CLS>对应的特征向量信息，<CLS>经过一个softmax分类器后可以预测出目标题目的知识类型。其中，目标题目是输入到知识分类模型的题目，例如可以是选择题题目，更具体地，在一个英语单选题的场景，目标题目可以是一道考察定语从句的单选题。

应理解，对于每一个token级别的词，包括：token嵌入、位置嵌入、分段嵌入；其中token嵌入是该token经过模型在语料库上预训练得到的一个关于该词在整个语料库上的向量表示；位置嵌入是当前token在该序列中的位置索引；分段嵌入是在这个序列中标注是句子A还是句子B，其中将token属于句子A的分段嵌入为0，属于句子B的分段嵌入为1。将token嵌入、位置嵌入、分段嵌入三种嵌入拼接在一起就形成了每一个token的词嵌入，将整个序列的嵌入输入到多层的双向Transformer编码器中，取最后隐藏层的第1个token(即[CLS])对应的向量作为整个句子的聚合表示，即该向量代表了整个选项序列的向量表示。在该实施例中，题目数据所表示的序列经过softmax分类器即可预测出题目的知识类型。

本公开实施例，通过获取原始标注数据，并对原始标注数据中的题干数据进行编码处理，得到题干表征向量，并根据预设的知识图谱对原始标注数据中的选项数据和答案数据进行编码处理，从而可以得到选项属性值和答案属性值，再将所述选项属性值和所述答案属性值进行分词和拼接处理，得到选项答案表征向量，再将题干表征向量和选项答案表征向量进行向量拼接，从而可以得到题目数据，最后根据题目数据对预设的预训练模型进行训练，得到知识分类模型，该知识分类模型可以用于对目标题目进行知识分类处理，以得到知识点类型，本公开实施例得到的知识分类模型可以提高对知识分类的准确性和效率。

本公开实施例，基于知识图谱和深度学习，对英语单选择题的题目进行分类，能够利用模型自动区分题目所考察的知识点。相比于常规的分类方法，本公开实施例的技术方案，可以提高知识分类的准确性和效率，通过引入选项和答案的知识图谱编码信息(三元组信息)，能够更加准确的预测题目的知识类型。在固定标注样本的成本下，可以更高效地对新题目进行分类。

请参阅图6，本公开实施例，还提供一种选择题的知识分类方法，本公开实施例提供的选择题的知识分类方法，涉及机器学习技术领域。本公开实施例提供的选择题的知识分类方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现选择题的知识分类方法的应用等，但并不局限于以上形式。

图6是本公开实施例提供的选择题的知识分类方法的一个可选的流程图，图6中的方法可以包括但不限于包括步骤601至步骤604：

步骤601、获取待分类的选择题数据；其中，选择题数据包括题干数据、选项数据和答案数据；

步骤602、将选择题数据输入至知识分类模型；其中，知识分类模型为根据上述第一方面的方法训练得到；

步骤603、通过知识分类模型对选择题数据进行特征提取，得到特征向量信息；

步骤604、根据特征向量信息进行知识分类处理，得到知识点类型。

具体地，在步骤601中，待分类的选择题数据包括题干数据、选项数据和答案数据。选择题数据不同于原始标注数据的是：原始标注数据包括知识点类型，选择题数据不包括知识点类型。

应理解，前述所述的目标题目包括待分类的选择题数据。

在一些实施例，该知识分类模型包括softmax分类器。

该选择题的知识分类方法中，通过知识分类模型对选择题数据进行特征提取，获取<CLS>对应的特征向量信息，得到的特征向量信息包括题干表征向量和选项答案表征向量；其中，该题干表征向量与上述知识分类模型的训练方法中的题干表征向量相同，即本实施例的题干表征向量设在第一占位符<CLS>与第二占位符<SEP>之间，也可以说题干表征向量包括了第一占位符<CLS>；本实施例选择题的知识分类方法与上述知识分类模型的训练方法相同的还包括：第二占位符<SEP>设在题干表征向量和选项答案表征向量之间，也可以说选项答案表征向量包括了第二占位符<SEP>。

在一些实施例的步骤604中，根据步骤603得到的<CLS>对应的特征向量信息，经过一个softmax分类器，softmax分类器可以根据<CLS>对应的特征向量信息进行字数分类处理，从而预测出题目的知识类型。

在一些应用场景，例如英语在线教育场景中，需要对考察相关英语知识点的题目进行分类，从而把相同知识点的题目进行划分，对用户进行专项训练。由于题目的数量过于庞大，而且每年都会研发一些新题目；若依靠人工对每道题进行划分，工作量大、效率低、容易出错。本公开实施例，通过构建相关的英语知识图谱，并应用深度学习的方法，对英语选择题的题目进行分类，能够利用模型自动区分题目所考察的知识点。

本公开实施例，基于知识图谱和深度学习，对英语选择题的题目进行分类，能够利用模型自动区分题目所考察的知识点。相比于常规的分类方法，本公开实施例的技术方案，可以提高知识分类的准确性和效率，通过引入选项和答案的知识图谱编码信息(三元组信息)，能够更加准确的预测题目的知识类型。在固定标注样本的成本下，可以更高效地对新题目进行分类。

请参阅图7,本公开实施例还提供一种知识分类模型的训练装置，可以实现上述知识分类模型的训练方法，该知识分类模型的训练装置包括：

本公开实施例的知识分类模型的训练类装置用于执行上述实施例中的知识分类模型的训练方法，其具体处理过程与上述实施例中的知识分类模型的训练方法相同，此处不再一一赘述。

请参阅图8，本公开实施例还提供一种选择题的知识分类装置，可以实现上述选择题的知识分类方法，该选择题的知识分类装置包括：

选择题数据获取模块，用于获取待分类的选择题数据；其中，选择题数据包括题干数据、选项数据和答案数据；

数据输入模块，用于将选择题数据输入至知识分类模型；其中，知识分类模型为根据上述第一方面的方法训练得到；

特征提取模块，用于通过知识分类模型对选择题数据进行特征提取，得到特征向量信息；

知识分类模块，用于根据特征向量信息进行知识分类处理，得到知识点类型。

本公开实施例的选择题的知识分类装置用于执行上述实施例中的选择题的知识分类方法，其具体处理过程与上述实施例中的选择题的知识分类方法相同，此处不再一一赘述。

本公开实施例还提供了一种计算机设备，包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

所述程序被存储在存储器中，处理器执行所述至少一个程序以实现本公开实施上述的知识分类模型的训练方法或者选择题的知识分类方法。该计算机设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，简称PDA)、车载电脑等任意智能终端。

请参阅图9，图9示意了另一实施例的计算机设备的硬件结构，计算机设备包括：

处理器701，可以采用通用的CPU(Central ProcessingUnit，中央处理器)、微处理器、应用专用集成电路(Appl icationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本公开实施例所提供的技术方案；

存储器702，可以采用ROM(ReadOnlyMemory，只读存储器)、静态存储设备、动态存储设备或者RAM(RandomAccessMemory，随机存取存储器)等形式实现。存储器702可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器702中，并由处理器701来调用执行本公开实施例的知识分类模型的训练方法或者选择题的知识分类方法；

输入/输出接口703，用于实现信息输入及输出；

通信接口704，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；和

总线705，在设备的各个组件(例如处理器701、存储器702、输入/输出接口703和通信接口704)之间传输信息；

其中处理器701、存储器702、输入/输出接口703和通信接口704通过总线705实现彼此之间在设备内部的通信连接。

本公开实施例还提供了一种存储介质，该存储介质是计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行上述知识分类模型的训练方法或者选择题的知识分类方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本公开实施例描述的实施例是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图1-6中示出的技术方案并不构成对本公开实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本公开实施例的优选实施例，并非因此局限本公开实施例的权利范围。本领域技术人员不脱离本公开实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本公开实施例的权利范围之内。

Claims

1.一种知识分类模型的训练方法，其特征在于，包括：

获取原始标注数据；其中，所述原始标注数据包括题干数据、选项数据和答案数据；

对所述题干数据进行编码处理，得到题干表征向量；

根据所述题目数据对预设的预训练模型进行训练，得到知识分类模型；其中，所述知识分类模型用于对目标题目进行知识分类处理，以得到知识点类型。

2.根据权利要求1所述的方法，其特征在于，所述对所述题干数据进行编码处理，得到题干表征向量，包括：

对所述初步题干序列进行分词处理，得到题干表征向量。

3.根据权利要求1所述的方法，其特征在于，在所述根据预设的知识图谱对选项数据和答案数据进行编码处理，得到选项属性值和答案属性值之前，所述方法还包括：构建所述知识图谱，具体包括：

获取预设知识点；

根据所述预设知识点构建第一三元组和第二三元组；

根据所述第一三元组和所述第二三元组构建所述知识图谱；其中，所述第一三元组包括第一知识实体、关系、第二知识实体，所述第二三元组包括第二知识实体、属性、属性值。

4.根据权利要求3所述的方法，其特征在于，所述知识图谱包括第一三元组和多个第二三元组，根据预设的知识图谱对选项数据和答案数据进行编码处理，得到选项属性值和答案属性值，包括：

根据所述第一三元组和多个所述第二三元组对所述选项数据进行编码处理，得到所述选项属性值；其中，所述选项属性值包括多个第二三元组的属性值；

5.根据权利要求1至4任一项所述的方法，其特征在于，所述将所述选项属性值和所述答案属性值进行分词和拼接处理，得到选项答案表征向量，包括：

将词向量化的项属性值和答案属性值进行属性值拼接，得到选项答案表征向量。

6.根据权利要求1至4任一项所述的方法，其特征在于，所述将所述题干表征向量和所述选项答案表征向量进行向量拼接，得到题目数据，包括：

7.一种选择题的知识分类方法，其特征在于，包括：

获取待分类的选择题数据；其中，所述选择题数据包括题干数据、选项数据和答案数据；

将所述选择题数据输入至知识分类模型；其中，所述知识分类模型为根据权利要求1至6任一项所述的方法训练得到；

通过所述知识分类模型对所述选择题数据行特征提取，得到特征向量信息；

8.一种知识分类模型的训练装置，其特征在于，包括：

分类模型训练模块，用于根据所述题目数据对预设的预训练模型进行训练，得到知识分类模型；其中，所述知识分类模型用于对目标题目进行知识分类处理，以得到知识点类型。

9.一种计算机设备，其特征在于，包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

所述程序被存储在所述存储器中，处理器执行所述至少一个程序以实现：

如权利要求1至7任一项所述的方法。

10.一种存储介质，所述存储介质为计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行：

如权利要求1至7任一项所述的方法。