CN110688461A

CN110688461A - 一种综合多源知识的在线文本类教育资源标签生成方法

Info

Publication number: CN110688461A
Application number: CN201910945282.5A
Authority: CN
Inventors: 李莎莎; 庞焜元; 唐晋韬; 王挺; 陈凤; 党芙蓉; 林登雯; 王攀成; 徐维桑; 余诗文
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-01-14
Anticipated expiration: 2039-09-30
Also published as: CN110688461B

Abstract

本发明公开了一种综合多源知识的在线文本类教育资源标签生成方法，目的是提高标签的客体准确性。技术方案是先构建含有知识表示模块、语义表示模块、候选排序模块和标签比较模块的标签生成系统；知识表示模块将语料和标准标签元转化为词列表和词向量；语义表示模块构建标签向量；候选排序模块根据原始标签文字l_e和所有标准标签元语义的相似性生成l_e的候选标签列表Candi(l_e)，并将Candi(l_e)中语义最相似的候选标签作为标准标签；标签比较模块将训练SVM分类器S判定对标签修改日志表中的标签修改日志是采纳还是拒绝，根据S结果对标准标签表中的对应表项进行修改。采用本发明能提高标签的客体准确率、标签结构性和标签规范性。

Description

一种综合多源知识的在线文本类教育资源标签生成方法

技术领域

本发明涉及一种教育资源的信息增强方法，尤其是一种综合多来源信息，对文本类教育资源添加高准确性、高结构化的标签的方法。

背景技术

随着互联网和信息技术的飞速发展，在线的共享教育资源日渐丰富。其中包括在线电子出版物、教育论坛、MOOC(大规模开放在线课程)等。以著名的在线课程网站coursera为例，有超过3300万注册用户，在线学习2700多门课程。每门课程包含数十段短视频，及其对应的字幕、阅读材料、随堂测试等文本形式的教育资源。

标注是对互联网资源进行信息增强的常见方式。对于互联网资源的检索、查询、摘要和自动理解均有重要作用。然而，教育资源来源复杂，待标注的历史数据多，使用者对标注的质量要求高。如何高效高质量地产生资源的标注是目前面临的主要问题之一。

标签式标注方法是现有MOOC平台进行资源标注的主要方式。其主要思想是针对标注对象生成标签，其中“标注对象”可以是一篇文章、一段视频，或者是文章、视频的特定位置，“标签”是一种可存储的数据结构，主要内容为一个词或短语。对应“标注对象”中的一个客观事实(称为“客体”)，如组成、性质、特征等。一个标注对象至少包含一个客体，每个客体对应一个或几个确定的标签。

评价标签标注的客观指标有三个：客体准确率、标签结构性、标签规范性。客体准确率由精确率和召回率两部分组成。精确率是指标注结果中的客体，确实为“标注对象包含的客体”数占标注结果中的所有客体数的比例。精确率越低意味着给用户提供了越多的无用信息干扰。召回率是指标注结果中的客体，确实为标注对象的客体数占标注对象所有客体数的比例。召回率越低意味着给用户提供的正确信息越不完整。标签结构性是指标签与知识库的连接程度，定义是使用标签去检索知识库，查询到的正确客体占所有标注结果的比例。标签规范性是指对于同一个客体产生的标签是通用的一致的表述，定义是存在于客体的规范术语集合中的标签占标签总数的比例。规范术语集合可以通过查阅“全国科学技术名词审定委员会”等机构审定的术语表得到。

现有的标签标注方法分为自动抽取和用户添加两种。自动抽取标签是以TextRank等关键词抽取算法(“Mihalcea R，Tarau P.TextRank：Bringing Order into Texts[J].Emnlp，2004：404-411.”译为：《TextRank：将顺序信息引入文本中》)，自动识别文本中的关键字，并将其作为标签。自动抽取标签算法最新的研究是DBS，(DBpediaSpotlight，通用百科知识图谱标注器)。DBS方法将文本标签的生成分为两步：

第一步，标签发现。遍历待标注的文本资源，找到所有与知识库或标签库中字面相同的字符串作为标签候选集。然后按照字符串被标注的先验概率和标签边界不能相互重叠的原则，手工设置阈值，挑选出标签候选集的一部分作为标签集合。

第二步，标签链接。分别计算一个标签出现的先验概率、标签出现为此字符串的概率、标签出现在此上下文中的概率、该字符串上下文不应作为标签的概率，利用概率累加公式将第一步中的字符串链接到标签库中。

DBS的缺陷主要集中在第一步中获取的标签客体准确率低。DBS自动选择标签的精确率仅为49.45％，召回率仅为55.53％。这在教育资源标注中会遗漏大量的知识点，并引入约一倍的错误标签。

用户添加是以维基百科的分类、各大视频网站的视频标签为代表，人工为标注对象添加标签的过程。其中以哔哩哔哩动画网(www.bilibili.com)的标注功能最为丰富，具体的添加标签过程如下：

第一步，视频上传者在上传视频的同时为一个视频添加标签。

第二步，视频使用者在使用视频的同时为该视频添加新的标签或更改已有标签。

第三步，当出现争议时，由管理员和视频上传者决策并锁定标签。通过用户添加的方式产生的标签客体准确性高，但没有同知识库的链接，标签结构性低，且通过这种方式生成的标签规范性低。同时消耗大量的人力资源，尤其需要管理员的维护。

所以如何解决自动抽取标签方法客体准确率低的缺陷，又解决用户添加方法标签结构性低、标签规范性低的缺陷成为一个亟待解决的技术问题。

发明内容

本发明要解决的技术问题是针对标签精准性和标签结构性、规范性的矛盾问题，提出一种综合多源知识的在线文本类教育资源标签生成方法，既提高标签的客体准确性，又提高标签结构性和标签规范性。

本发明的技术方案是把网站的原始标签集合和完全结构化、规范化的标准标签元集合映射到相同的语义空间上，实现原始标签到标准标签元的映射，得到高准确率高结构化的标准标签表。然后根据标签修改日志的情况对标准标签表中的元素进行同步修改，进一步提高标准标签表中标签的准确率。

为实现上述目的，本发明包含以下步骤：

第一步，构建标签生成系统。它由标签服务器和存储服务器构成。存储服务器与标签服务器使用局域网进行连接。

存储服务器存储以下两方面内容：1)原始标签表和标签修改日志表；2)标签服务器产生的标准标签表。存储服务器上部署了数据库软件(MySQL8.0及以上版本)以为原始标签表、标签修改日志表和标准标签表提供添加表项、修改表项、查询表项等通用数据库功能。

原始标签表存储教育网站运行过程产生的原始标签。原始标签表的一个表项是一个原始标签，原始标签包括标签id(id即序号)、原始标签文字、标注对象id、标注对象文字内容、生产者id共5个域。一个原始标签表表项的整体意义是：生产者id对应的用户对标注对象id对应的教育资源提交了原始标签文字这条标签，教育资源的内容是标注对象文字内容，这条标签的编号是标签id。标签id的数据类型是整数，标签id是原始标签表的主键，标签id是原始标签的唯一标示。原始标签文字的数据类型是字符串，代表标签的文字部分。标注对象id的数据类型是整数，代表标签对应的教育资源的标示。标注对象文字内容的数据类型是字符串，代表标签对应的教育资源的文字内容，如一段字幕，一篇文章等。生产者id的数据类型是整数，代表提交这条原始标签的用户的标示。

标签修改日志表存储教育网站运行过程产生的标签修改日志。标签修改日志表是由若干标签修改日志构成的集合，可记为

其中

为第i^X个标签修改日志。每个标签修改日志有标签id、原标签文字、新标签文字、修改者id、采纳结果5个域。一个标签修改日志的整体意义是：修改者id对应的用户提交了一条申请，申请将“标签id”对应的标签的文字内容由“原标签文字”更改为“新标签文字”，对此申请的处理结果为“采纳结果”。标签id的数据类型是整数，与原始标签表中的“标签id”相对应，代表标签的标示。原标签文字的数据类型是字符串，代表修改前的标签文字。新标签文字的数据类型是字符串，代表修改后的标签文字。修改者id的数据类型是整数，代表提交这条修改的用户。采纳结果的数据类型为整数，是从集合{-1，0，1}中取的一个值，0表示这条修改被拒绝，1表示这条修改被接受，-1表示这条修改还未被处理。n^X为正整数，表示标签修改日志表中标签修改日志的个数。

标准标签表存储原始标签对应的结构化、规范化的标准标签。标准标签表的一个表项是一个标准标签，标准标签包括标准标签文字、标注对象id、标注对象文字内容共3个域。一个标准标签表表项的整体意义是：标注对象id对应的教育资源对应标准标签文字，其内容是标注对象文字内容。标准标签文字的数据类型是字符串，代表标签的文字部分，是标准标签元中出现过的标准标签文字。标注对象id的数据类型是整数，代表标签对应的教育资源的标示。标注对象文字内容的数据类型是字符串，代表标签对应的教育资源的文字内容，如一段字幕，一篇文章等。

标签服务器是具有良好计算能力的服务器，可以运行计算密集型或者知识密集型的标签生成和处理应用。标签服务器上除安装有词向量工具包(如gensim-3.2.0或以上版本)、自动分词工具包(如jieba分词-0.39或以上版本)和机器学习工具包(如scikit-learn-0.20或以上版本)外，还存储有标准标签元集合文件、背景知识语料库以及在标签生成过程中的一些中间文件(如词向量文件、标签向量文件、候选标准标签列表和修改日志特征文件)，并安装有知识表示模块、语义表示模块、候选排序模块和标签比较模块。

标准标签元集合文件存储“标签元”。“标签元”含有标签文字和对客体的文字描述，是“＜标签文字，客体描述＞”二元组，如“全国科学技术名词审定委员会”审定的术语表(详见http：//www.cnctst.cn/sdgb/)。背景知识语料库是指符合词向量训练要求的自然文本。(词向量训练要求参见“Mikolov,T.，Sutskever，I.，Chen，K.，et.al.Distributedrepresentations of words and phrases and their compositionality[C].//NeuralInformation Processing Systems.2013：3111-3119.”即词与词组的分布表达及其组合性，2013年《神经信息处理系统大会》论文集3111-3119页)。

知识表示模块与背景知识语料库、标准标签元集合文件、词向量工具包、词向量文件相连，知识表示模块从背景知识语料库读取语料，从标准标签元集合文件读取标准标签元，调用词向量工具包对语料和标准标签元进行词向量训练，将训练后得到的词向量存到词向量文件中。

语义表示模块与词向量文件、标签向量文件、自动分词工具包、原始标签表、标签修改日志表相连，语义表示模块调用自动分词工具包对原始标签表中每一个原始标签的“原始标签文字”域和标签修改日志表中每一条标签修改日志的“原标签文字”与“新标签文字”域中的文本进行分词，从词向量文件读取每个词的词向量，将原始标签表的“原始标签文字”域和标签修改日志表中的“原标签文字”与“新标签文字”域中的文本根据每个词的词向量表示成语义向量并将语义向量存到标签向量文件中。

候选排序模块与标准标签元集合文件、原始标签表、标签向量文件、候选标准标签列表相连，候选排序模块依次读取原始标签表中的原始标签的原始标签文字，并从标准标签元集合文件依次读取标准标签元，从标签向量文件获取原始标签文字及标准标签元对应的语义向量，基于语义向量，分别计算原始标签文字与标准标签元集合文件中每个标准标签元的相似性，依据此相似性对标准标签元进行排序，选择相似性强的标准标签元生成原始标签对应的候选标准标签列表。

标签比较模块与原始标签表、标签修改日志表、自动分词工具包、机器学习工具包、修改日志特征文件、标准标签表相连，由特征提取模块、分类器组成。特征提取模块将标签修改日志表的表项转化成特征向量，将特征向量存入修改日志特征文件，供分类器训练。训练后的分类器判断标签修改日志表的表项的采纳结果，将采纳结果更新到标准标签表。

第二步，知识表示模块将背景知识语料库中的语料和标准标签元集合文件中的标准标签元转化为词列表和词向量，存储在词向量文件中。具体的步骤如下：

2.1知识表示模块从背景知识语料库接收语料，从标准标签元集合文件读取标准标签元，将标准标签元、语料输入CBOW(Continuous Bag-Of-Words Model，连续词包模型)训练函数(模型细节参见“Mikolov,T.，Sutskever，I.，Chen，K.，et.al.Distributedrepresentations of words and phrases and their compositionality[C].//NeuralInformation Processing Systems.2013∶3111-3119.”即词与词组的分布表达及其组合性，2013年《神经信息处理系统大会》论文集3111-3119页)，生成词列表和词向量。其中词列表包含语料中的所有字、词和标准标签中的标签文字。词向量是CBOW训练函数为每个字、词或标准标签中的标签文字生成的n维实数向量(50＜n＜100)。任意一个字、词或标准标签中的标签文字x的词向量用e(x)表示。

2.2知识表示模块将词列表和及其对应的词向量存储到词向量文件。

第三步，语义表示模块将原始标签表中所有原始标签的“原始标签文字”域、标签修改日志表中所有标签修改日志的“原标签文字”域和“新标签文字”域中的字符串转化成标签向量，并将标签向量存入标签向量文件。

根据文献(“PangK，TangJ，WangT.Which Embedding Level is Better forSemantic Representation？An Empirical Research on Chinese Phrases[C]//CCFInternational Conference on Natural Language Processing and ChineseComputing.Springer，2018：54-66.”译为：庞焜元，唐晋韬，王挺.哪一嵌入级别对语义表示更合适？中文短语上的一次实验研究，2018年国际自然语言处理及中文计算会议论文集第51页-66页)中实验4.1的结论，词组和短语的语义用该论文提出的NCA方法(NeighborClusterAverage，临近词聚类中心)表示得最好。

结合教育文本停用词多、停用词不影响语义和不同主题的词在语义空间分布边界鲜明的特点，本发明改进了NCA方法，在NCA方法的基础上加入停用词过滤和最小临近程度两个阈值，从而使获得的标签向量更有利于准确度量标签文字间的相似度，从而形成更准确的候选标准标签元排序。

具体方法如下：

3.1语义表示模块将原始标签表中所有表项的“原始标签文字”域、标签修改日志表中所有标签修改日志的“原标签文字”域和“新标签文字”域作为待表示标签文字，放入待表示列表L，记为

表示第i^L个待表示标签文字，n^L为待表示标签文字的个数。具体步骤是：3.1.1语义表示模块读取原始标签表，记其中的所有表项为n^Y为原始标签表中表项的个数，为第i^Y个原始标签。

3.1.2令原始标签表序号变量i^Y＝1，令待表示列表L为空；

3.1.3如果i^Y＞n^Y,转3.1.6，否则，执行3.1.4；

3.1.4语义表示模块读取

的原始标签文字域，如果原始标签文字域不在待表示列表L中，则将

的原始标签文字域添加进待表示列表L。

3.1.5令i^Y＝i^Y+1，转3.1.3.

3.1.6语义表示模块读取标签修改日志表，记标签修改日志表中的所有表项为

n^X为标签修改日志表中表项的个数，为第i^X个标签修改日志；

3.1.7令标签修改日志表序号变量i^X＝1；

3.1.8如果i^X＞n^X，说明已得到L，L中的待表示标签文字的个数n^L≤n^Y+2*n^X，转3.2，否则，执行3.1.9；

3.1.9语义表示模块读取

的原标签文字域，如果原标签文字域的字符串不在待表示列表L中，则将原标签文字域的字符串添加进待表示列表L。

3.1.10语义表示模块读取的新标签文字域，如果新标签文字域的字符串不在待表示列表L中，则将新标签文字域的字符串添加进待表示列表L。

3.1.11令i^X＝i^X+1，转3.1.8；

3.2语义表示模块使用改进后的NCA方法将3.1中获得的待表示列表L中的所有待表示标签文字转化成标签向量，并将标签向量存入标签向量文件。具体步骤为：

3.2.1令待表示列表序号变量i^L＝1；

3.2.2如果i^L＞n^L，说明待表示标签列表L中的所有待表示标签文字都已转化为标签向量，转第四步，否则，执行3.2.3；

3.2.3语义表示模块调用自动分词工具包对L中第i^L个待表示标签文字

分词，获得第i^L个词序列

3.2.4语义表示模块去除词序列

中的单字和停用词，得到筛选后的词集合

中含有

个词，

为

的第i^N个词。

3.2.5语义表示模块设置以下阈值：邻居数目nn(nn为正整数且50≤nn≤100)和最小临近程度ss(ss为小于1的正实数且0.2≤ss≤1)。定义待表示标签文字的临近词词向量集合

为

中所有词的临近词的词向量集合，初始化为空集合。

3.2.6语义表示模块从2.1生成的词向量文件中读取词列表，记做单词表V，V为

其中

为V中的第i^V个词，n^V为V中词的个数。

3.2.7语义表示模块找到

中词

的临近词集合

并从词向量文件查找中的每个词的词向量，将这些词向量加入

的临近词词向量集合

方法是：

3.2.7.1令

的序号变量i^N＝1。

3.2.7.2如果

说明

中所有词的临近词词向量都已加入临近词词向量集合

转3.2.8，否则，执行3.2.7.3。

3.2.7.3语义表示模块计算单词表V中的所有词与

的相似程度，具体的计算方法是：

3.2.7.3.1令单词表序号变量i^V＝1。

3.2.7.3.2如果i^V＞n^V，说明得到了V中的n^V个词与

的相似程度集合转3.2.7.4，否则，执行3.2.7.3.3。其中，

是一个由形如

的二元组组成的集合，其中

是V中第i^V个词，

为

和

的相似度。

3.2.7.3.3语义表示模块从词向量文件中查找

和的词向量，得到

和

3.2.7.3.4语义表示模块按公式(1)计算

和

约相似度

其中为求向量

夹角的余弦值。

3.2.7.3.5令i^V＝i^V+1，转3.2.7.3.2。

3.2.7.4语义表示模块将

中相似度大于ss的二元组按照从大到小的顺序排序，从排序结果中依次取出每个二元组

中的第一项

加入

的临近词序列临近词序列

中即为词

在单词表V中的最相近的词的序列，记为其中

为单词表V中第i^p个与

相似的词。

3.2.7.5语义表示模块将

中的所有词的词向量加入临近词词向量集合

具体步骤是：

3.2.7.5.1令

的临近词序列

的序号变量i^p＝1；

3.2.7.5.2如果i^p＞n^p，转3.2.7.6；否则，执行3.2.7.5.3；

3.2.7.5.3语义表示模块从词向量文件中查找

的词向量，将

的词向量

加入临近词词向量集合

3.2.7.5.4令i^p＝i^p+1，跳转3.2.7.5.2。

3.2.7.6令i^N＝i^N+1，然后转3.2.7.2。

3.2.8语义表示模块调用机器学习工具包(如scikit-learn)中的聚类函数(如k_means)对向量进行聚类。聚类函数接收两个参数：待聚类向量集合和聚类个数，其中待聚类向量集合是由任意个同维数向量组成的集合，聚类个数是一个正整数，表示期望输出的集合个数。聚类函数输出聚类个数个集合，这些集合是待聚类向量集合的子集，表示将待聚类向量集合中的向量分成了聚类个数个类。

语义表示模块将

作为待聚类向量集合，将中的元素个数

作为聚类个数输入聚类函数。获得

个待聚类向量集合的子集，命名为第1至第

个待聚类向量集合的子集，表示为其中

为第i^N个子集。

3.2.9语义表示模块从

中找到元素个数最多的集合，命名为最大临近集合

3.2.10语义表示模块求

中所有向量的平均值作为待表示标签

的语义表示，记为

即：

e为最大临近集合

中的任意向量，

为中向量的个数，公式(2)表示对

中的所有向量求平均。

3.2.11语义表示模块将待表示标签

和它的语义表示

写入标签向量文件，标签向量文件中每一条记录由待表示标签和其语义表示

组成。

3.2.12i^L＝i^L+1，转3.2.2。

第四步，候选排序模块通过比较原始标签表中原始标签文字l_e和所有标准标签元的语义，根据l_e和所有标准标签元语义的相似性生成l_e的候选标准标签元列表Candi(l_e)，并将Candi(l_e)中语义最相似的候选标签作为标准标签提交给存储服务器存储。具体方法如下：

4.1候选排序模块设置候选列表长度n2(n2为正整数且0＜n2＜20)，候选列表最小临近程度阈值s2(s2为小于1的正实数且0.3≤s2≤1)。

4.2候选排序模块读取原始标签表。

4.3候选排序模块读取标准标签元集合文件，获得标准标签元列表B。标准标签元列表

是第i^B个标准标签元(<标签文字，客体描述>)。

4.4令i^Y＝1；

4.5如果i^Y＞n^Y，说明已获取了所有原始标签表中所有原始标签的原始标签文字的候选标准标签元列表，转第五步，否则，执行4.6；

4.6候选排序模块生成

的原始标签文字

的候选标准标签元列表

步骤是：

4.6.1候选排序模块对标准标签元列表B按照与

的语义相似度从大到小的顺序排序，得到重排标签序列

具体步骤为：

4.6.1.1令i^B＝1；

4.6.1.2如果i^B＞n^B，转4.6.1.7，否则，执行4.6.1.3；

4.6.1.3候选排序模块从标签向量文件读取原始标签文字

的语义表示

4.6.1.4候选排序模块从词向量文件中查找标准标签元

的语义表示

4.6.1.5候选排序模块计算原始标签文字

与标准标签元的语义相似度其中

为求

两个向量夹角余弦函数。

4.6.1.6令i^B＝i^B+1，转4.6.1.2。

4.6.1.7候选排序模块将标准标签元列表B中的元素根据与

的语义相似度从大到小进行排序，将排序结果命名为重排标签序列

中第1个元素与

的语义相似度最大，第n^B个元素与

的语义相似度最小。

4.6.2候选排序模块取重排标签序列

约前n2个元素(保留顺序)，得到第一序列

4.6.3候选排序模块取第一序列

中所有相似度大于s2的元素(保留顺序)，得到候选标准标签元列表

4.7如果候选标准标签元列表

不为空，候选排序模块依次提取

中第一个标准标签元的标签文字作为标准标签文字及原始标签

的标注对象id，标注对象文字内容作为标注对象id和标注对象文字内容，形成标准标签，标准标签为三元组<标准标签文字，标注对象id，标注对象文字内容>，将标准标签提交给存储服务器。

4.8存储服务器从标签服务器收到4.7生成的标准标签后，将<标准标签文字，标注对象id，标注对象文字内容>三个域作为一个表项，写入标准标签表。

4.9令i^Y＝i^Y+1，转4.5；

第五步，标签比较模块的特征提取模块将标签修改日志表中的标签修改日志转化为特征，存入修改日志特征文件。具体步骤如下：

5.1令i^X＝1；

5.2如果i^X＞n^X，说明标签修改日志表中的所有标签修改日志已转化为特征并存入修改日志特征文件，转第六步，否则，执行5.3。

5.3特征提取模块读取标签修改日志表的第i^X个标签修改日志

5.4令的标签id、原标签文字、新标签文字、修改者id、采纳结果分别为

特征提取模块为

计算第一至第八特征具体方法为：

5.4.1特征提取模块统计原标签文字生产者撰写的原始标签的总数目，作为

第一特征

具体方法为：

5.4.1.1特征提取模块用

的“标签id”域

查询存储服务器的原始标签表，获得原始标签表表项

5.4.1.2特征提取模块在原始标签表中查询与

的“生产者id”域相同的原始标签表的表项数目，记为

的第一特征

的意义是原标签文字的生产者撰写的原始标签的总数目。

5.4.2特征提取模块统计修改者撰写的原始标签的总数目作为

第二特征

具体方法为：

特征提取模块在原始标签表中查询与

的“修改者id”域相同的原始标签表的表项数目，记为

的第二特征

的意义是修改者撰写的原始标签的总数目。

5.4.3特征提取模块统计修改者提交的标签修改记录中被采纳的个数作为

第三特征

具体方法为：

特征提取模块在标签修改日志表中查询与的“修改者id”域相同，且采纳结果域等于1的标签修改日志表的表项数目，记为

的第三特征

的意义是修改者提交的标签修改记录中被采纳的个数。

5.4.4特征提取模块统计

的原标签文字作为标准标签的频数作为

的第四特征

具体方法为：

特征提取模块在标准标签表中查询与

的“原标签文字”域相同的表项数目，记为

的第四特征

的意义是原标签文字作为标准标签的出现的次数。

5.4.5特征提取模块统计

的新标签文字作为标准标签的频数作为

的第五特征

具体方法为：

特征提取模块在标准标签表中查询与

的“新标签文字”域相同的表项数目，记为

的第五特征

的意义是新标签文字作为标准标签的出现的次数。

5.4.6特征提取模块计算

的“新标签文字”对比

的“原标签文字”的修改程度。记为第六特征

具体计算方法为：

5.4.6.1特征提取模块从标签向量文件中查找“原始标签文字”

的语义表示

5.4.6.2特征提取模块从标签向量文件中查找“新标签文字”

的语义表示

5.4.6.3特征提取模块计算第六特征其中为求两个向量

的夹角余弦函数。

5.4.7特征提取模块计算“原始标签文字”

与标注对象文字内容的语义相似性，作为第七特征

计算方法是：

5.4.7.1特征提取模块计算与

对应的标注对象文字内容的平均语义，记为

具体步骤是：

5.4.7.1.1用

的“标签id”域

查询原始标签表，获得原始标签表表项

5.4.7.1.2特征提取模块调用自动分词软件包对的标注对象文字内容进行分词，得到词序列

5.4.7.1.3令词序列

的序号变量i^C＝1，将

的语义表示

初始化为

5.4.7.1.4如果

转5.4.7.1.7，否则，执行5.4.7.1.5。

5.4.7.1.5特征提取模块从词向量文件中查找

的词向量

5.4.7.1.6令

5.4.7.1.7i^C＝i^C+1，转5.4.7.1.4；

5.4.7.1.8特征提取模块计算

5.4.7.2特征提取模块从标签向量文件中查找“原始标签文字”

的语义表示

5.4.7.3特征提取模块计算第七特征

其中

为求两个向量的夹角余弦函数。

5.4.8特征提取模块计算“新标签文字”与标注对象文字内容的语义相似性，作为第八特征

计算方法是：

5.4.8.1特征提取模块从标签向量文件中查找“新标签文字”的语义表示

5.4.8.2特征提取模块计算第八特征

其中

为求两个向量

夹角余弦函数。

5.5特征提取模块将表项

作为主键，

作为键值存入修改日志特征文件。

5.6令i^X＝i^X+1，转5.2；

第六步，标签比较模块训练SVM分类器S(Support Vector Machine，支持向量机，出自“Vapnik，V.N.and Lerner，A.Y.，1963.Recognition of patterns with help ofgeneralized portraits.Avtomat.Telemekh，24(6)，pp.774-780.”，即1963年杂志第774页-780页的《借助广义特征的模式识别》中描述的SVM)，用于判定对标签修改日志表中的标签修改日志是采纳还是拒绝，具体步骤如下：

6.1标签比较模块构建训练集Tr，训练集Tr是一个9列N_max行的矩阵(N_max为正整数，且N_max≥1000)，每一行代表一个标签修改日志，其第1至第8列代表标签修改日志的第一至第八特征。第9列为采纳结果，0代表标签修改日志被拒绝，为1代表标签修改日志被采纳。具体的方法是：

6.1.1语义表示模块读取标签修改日志表，记其中的所有表项为

其中为第i^X个标签修改日志。

6.1.2令i^X＝1，初始化Tr为空矩阵。

6.1.3如果i^X＞n^X或Tr已有N_max行，转6.2，否则，执行6.1.4；

6.1.4标签比较模块从修改日志特征文件中查找

的特征

6.1.5如果

的采纳结果域

为0或1，将

添加到Tr的最后一行。

6.1.6i^X＝i^X+1，转6.1.3；

6.2标签比较模块调用机器学习工具包的SVM函数，输入训练集Tr，获得分类器S。

分类器S的功能是输入一个样本

的第一至第八特征

输出

被采纳的概率。

第七步，标签服务器上的标签比较模块使用分类器S对于标签修改日志表中每一个表项，先判断是否采纳，再根据标签修改日志对标准标签表中的对应表项进行修改。具体方法如下：

7.1令i^X＝1。

7.2语义表示模块读取标签修改日志表的第i^X个表项

7.3如果i^X＞n^X，转第八步，否则，执行7.4；

7.4标签比较模块从修改日志特征文件中查找的特征

7.5标签比较模块将

输入分类器S，得到被采纳的概率

7.6如果

执行7.7，否则说明不采纳

转7.9。

7.7标签比较模块用

的“标签id”域查询存储服务器的原始标签表，获得原始标签表表项

7.8标签比较模块向存储服务器提交用＜

新标签文字，

标注对象id，

标注对象文字内容，

修改者id＞替换标准标签表中＜

原标签文字，标注对象id，

标注对象文字内容，

生产者id＞这一表项的请求。

7.9存储服务器从标准标签表中删除＜

原标签文字，

标注对象id，

标注对象文字内容，

生产者id＞这一表项，向标准标签表写入＜新标签文字，

标注对象id，

标注对象文字内容，

修改者id＞这一表项。

7.10 i^X＝i^X+1，转7.3。

第八步，结束。

由以上流程可知，采用本发明能将所有的标准标签都存放在存储服务器上的标准标签表里且标准标签表能随着日志的改动不断进行修改。

采用本发明可以达到以下技术效果：

1.本发明第一到第四步，采用改进后的NCA方法对待表示标签进行语义表示，并基于该表示，将原始标签列表中的原始标签文字链接到标准标签列表中与之最相似的标准标签文字，有效提高了标签链接的准确率和召回率。

2.本发明第五到第七步，利用标签修改日志，构建用于判断当前标签文字是否需要修改的分类器，并利用该分类器判断利用标准标签元规范化后的标签文字是否修改，从而使得标签的准确性得到进一步的提高。

附图说明

图1是本发明第一步构建的标签生成系统逻辑结构图；

图2是本发明的总体流程图。

图3是采用本发明与DBS方法在打标签的精确率、召回率和准确率上的对比。

具体实施方式

如图2所示，本发明包括以下步骤：

第一步，构建标签生成系统，如图1所示，标签生成系统由标签服务器和存储服务器构成，存储服务器与标签服务器使用局域网进行连接。

存储服务器存储原始标签表、标签修改日志表、标准标签表。存储服务器上部署了数据库软件(如MySQL8.0及以上版本)。

标签修改日志表存储教育网站运行过程产生的标签修改日志。标签修改日志表是由若干标签修改日志构成的集合，记为

其中

标准标签表存储原始标签对应的结构化、规范化的标准标签。标准标签表的一个表项是一个标准标签，标准标签包括标准标签文字、标注对象id、标注对象文字内容共3个域。标准标签文字的数据类型是字符串，代表标签的文字部分，是标准标签元中出现过的标准标签文字。标注对象id的数据类型是整数，代表标签对应的教育资源的标示。标注对象文字内容的数据类型是字符串，代表标签对应的教育资源的文字内容。

标签服务器是具有良好计算能力的服务器，可以运行计算密集型或者知识密集型的标签生成和处理应用。标签服务器上除安装有词向量工具包(如gensim-3.2.0或以上版本)、自动分词工具包(如jieba分词-0.39或以上版本)和机器学习工具包(如scikit-learn-0.20或以上版本)外，还存储有标准标签元集合文件、背景知识语料库以及在标签生成过程中的一些中间文件(包括词向量文件、标签向量文件、候选标准标签列表和修改日志特征文件)，并安装有知识表示模块、语义表示模块、候选排序模块和标签比较模块。

标准标签元集合文件存储“标签元”。“标签元”含有标签文字和对客体的文字描述，是“<标签文字，客体描述>”二元组，如“全国科学技术名词审定委员会”审定的术语表。背景知识语料库是指符合词向量训练要求的自然文本。

候选排序模块与标准标签元集合文件、原始标签表、标签向量文件、候选标准标签元列表相连，候选排序模块依次读取原始标签表中的原始标签的原始标签文字，并从标准标签元集合文件依次读取标准标签元，从标签向量文件获取原始标签文字及标准标签元对应的语义向量，基于语义向量，分别计算原始标签文字与标准标签元集合文件中每个标准标签元的相似性，依据此相似性对标准标签元进行排序，选择相似性强的标准标签元生成原始标签对应的候选标准标签列表。

2.1知识表示模块从背景知识语料库接收语料，从标准标签元集合文件读取标准标签元，将标准标签元、语料输入CBOW训练函数，生成词列表和词向量。其中词列表包含语料中的所有字、词和标准标签中的标签文字。词向量是CBOW训练函数为每个字、词或标准标签中的标签文字生成的n维实数向量(50＜n＜100)。任意一个字、词或标准标签中的标签文字x的词向量用e(x)表示。

第三步，语义表示模块将原始标签表中所有原始标签的“原始标签文字”域、标签修改日志表中所有标签修改日志的“原标签文字”域和“新标签文字”域中的字符串转化成标签向量，并将标签向量存入标签向量文件。具体方法如下：

表示第i^L个待表示标签文字，n^L为待表示标签文字的个数。具体步骤是：3.1.1语义表示模块读取原始标签表，记其中的所有表项为

n^Y为原始标签表中表项的个数，

为第i^Y个原始标签。

3.1.2令原始标签表序号变量i^Y＝1，令待表示列表L为空；

3.1.3如果i^Y＞n^Y，转3.1.6，否则，执行3.1.4；

3.1.4语义表示模块读取

的原始标签文字域添加进待表示列表L。

3.1.5令i^Y＝i^Y+1，转3.1.3.

n^X为标签修改日志表中表项的个数，

为第i^X个标签修改日志；

3.1.7令标签修改日志表序号变量i^X＝1；

3.1.9语义表示模块读取

3.1.10语义表示模块读取

的新标签文字域，如果新标签文字域的字符串不在待表示列表L中，则将新标签文字域的字符串添加进待表示列表L。

3.1.11令i^X＝i^X+1，转3.1.8；

3.2.1令待表示列表序号变量i^L＝1；

分词，获得第i^L个词序列

3.2.4语义表示模块去除词序列

中的单字和停用词，得到筛选后的词集合

中含有个词，

为的第i^N个词。

3.2.5语义表示模块设置以下阈值：邻居数目nn(nn为正整数且50≤nn≤100)和最小临近程度ss(ss为小于1的正实数且0.2≤ss≤1)。定义待表示标签文字

的临近词词向量集合

为中所有词的临近词的词向量集合，初始化

为空集合。

3.2.6语义表示模块从2.1生成的词向量文件中读取词列表，记做单词表V，V为其中

为V中的第i^V个词，n^V为V中词的个数。

3.2.7语义表示模块找到

中词的临近词集合

并从词向量文件查找

中的每个词的词向量，将这些词向量加入

的临近词词向量集合

方法是：

3.2.7.1令

的序号变量i^N＝1。

3.2.7.2如果说明

中所有词的临近词词向量都已加入临近词词向量集合

转3.2.8，否则，执行3.2.7.3。

3.2.7.3语义表示模块计算单词表V中的所有词与

的相似程度，具体的计算方法是：

3.2.7.3.1令单词表序号变量i^V＝1。

3.2.7.3.2如果i^V＞n^V，说明得到了V中的n^V个词与

的相似程度集合转3.2.7.4，否则，执行3.2.7.3.3。其中，

是一个由形如

的二元组组成的集合，其中是V中第i^V个词，

为和

的相似度。

3.2.7.3.3语义表示模块从词向量文件中查找

和

的词向量，得到和

3.2.7.3.4语义表示模块按公式(1)计算

和

的相似度

其中

为求向量夹角的余弦值。

3.2.7.3.5令i^V＝i^V+1，转3.2.7.3.2。

3.2.7.4语义表示模块将

中相似度

大于ss的二元组按照从大到小的顺序排序，从排序结果中依次取出每个二元组

中的第一项加入

的临近词序列

临近词序列

中即为词

在单词表V中的最相近的词的序列，记为其中

为单词表V中第ip个与

相似的词。

3.2.7.5语义表示模块将

中的所有词的词向量加入临近词词向量集合

具体步骤是：

3.2.7.5.1令的临近词序列

的序号变量i^p＝1；

3.2.7.5.2如果i^p＞n^p，转3.2.7.6；否则，执行3.2.7.5.3；

3.2.7.5.3语义表示模块从词向量文件中查找的词向量，将

的词向量

加入临近词词向量集合

3.2.7.5.4令i^p＝i^p+1，跳转3.2.7.5.2。

3.2.7.6令i^N＝i^N+1，然后转3.2.7.2。

3.2.8语义表示模块调用机器学习工具包scikit-learn中的k_means函数对向量进行聚类。k_means函数接收两个参数：待聚类向量集合和聚类个数，其中待聚类向量集合是由任意个同维数向量组成的集合，聚类个数是一个正整数，表示期望输出的集合个数。k_means函数输出聚类个数个集合，这些集合是待聚类向量集合的子集，表示将待聚类向量集合中的向量分成了聚类个数个类。

语义表示模块将

作为待聚类向量集合，将

中的元素个数

作为聚类个数输入k_means函数。获得

个待聚类向量集合的子集，命名为第1至第

个待聚类向量集合的子集，表示为其中

为第i^N个子集。

3.2.9语义表示模块从中找到元素个数最多的集合，命名为最大临近集合

3.2.10语义表示模块求

中所有向量的平均值作为待表示标签

的语义表示，记为即：

e为最大临近集合

中的任意向量，为

中向量的个数，公式(2)表示对中的所有向量求平均。

3.2.11语义表示模块将待表示标签和它的语义表示

写入标签向量文件，标签向量文件中每一条记录由待表示标签

和其语义表示

组成。

3.2.12 i^L＝i^L+1，转3.2.2。

4.2候选排序模块读取原始标签表。

是第i^B个标准标签元。

4.4令i^Y＝1；

4.6候选排序模块生成

的原始标签文字

的候选标准标签元列表

步骤是：

4.6.1候选排序模块对标准标签元列表B按照与

的语义相似度从大到小的顺序排序，得到重排标签序列

具体步骤为：

4.6.1.1令i^B＝1；

4.6.1.2如果i^B＞n^B，转4.6.1.7，否则，执行4.6.1.3；

4.6.1.3候选排序模块从标签向量文件读取原始标签文字

的语义表示

4.6.1.4候选排序模块从词向量文件中查找标准标签元

的语义表示

4.6.1.5候选排序模块计算原始标签文字

与标准标签元

的语义相似度

其中

为求

两个向量夹角余弦函数。

4.6.1.6令i^B＝i^B+1，转4.6.1.2。

4.6.1.7候选排序模块将标准标签元列表B中的元素根据与

中第1个元素与

的语义相似度最大，第n^B个元素与

的语义相似度最小。

4.6.2候选排序模块取重排标签序列

的前n2个元素(保留顺序)，得到第一序列

4.6.3候选排序模块取第一序列

候选标准标签元列表

4.7如果候选标准标签元列表

不为空，候选排序模块依次提取

4.9令i^Y＝i^Y+1，转4.5；

5.1令i^X＝1；

5.3特征提取模块读取标签修改日志表的第i^X个标签修改日志

特征提取模块为

计算第一至第八特征具体方法为：

5.4.1特征提取模块统计原标签文字生产者撰写的原始标签的总数目，作为第一特征

具体方法为：

5.4.1.1特征提取模块用的“标签id”域查询存储服务器的原始标签表，获得原始标签表表项

5.4.1.2特征提取模块在原始标签表中查询与

的“生产者id”域相同的原始标签表的表项数目，记为

的第一特征

的意义是原标签文字的生产者撰写的原始标签的总数目。

5.4.2特征提取模块统计修改者撰写的原始标签的总数目作为

第二特征

具体方法为：

特征提取模块在原始标签表中查询与

的“修改者id”域相同的原始标签表的表项数目，记为

的第二特征

的意义是修改者撰写的原始标签的总数目。

第三特征

具体方法为：

的第三特征

的意义是修改者提交的标签修改记录中被采纳的个数。

5.4.4特征提取模块统计

的原标签文字作为标准标签的频数作为

的第四特征

具体方法为：

特征提取模块在标准标签表中查询与

的“原标签文字”域相同的表项数目.记为

的第四特征

的意义是原标签文字作为标准标签的出现的次数。

5.4.5特征提取模块统计

的新标签文字作为标准标签的频数作为的第五特征

具体方法为：

特征提取模块在标准标签表中查询与

的“新标签文字”域相同的表项数目.记为

的第五特征

的意义是新标签文字作为标准标签的出现的次数。

5.4.6特征提取模块计算

的“新标签文字”对比的“原标签文字”的修改程度。记为第六特征

具体计算方法为：

5.4.6.1特征提取模块从标签向量文件中查找“原始标签文字”

的语义表示5.4.6.2特征提取模块从标签向量文件中查找“新标签文字”

的语义表示

5.4.6.3特征提取模块计算第六特征

其中

为求两个向量的夹角余弦函数。

5.4.7特征提取模块计算“原始标签文字”

与标注对象文字内容的语义相似性，作为第七特征

计算方法是：

5.4.7.1特征提取模块计算与对应的标注对象文字内容的平均语义，记为

具体步骤是：

5.4.7.1.1用

的“标签id”域

查询原始标签表，获得原始标签表表项

5.4.7.1.2特征提取模块调用自动分词软件包对

的标注对象文字内容进行分词，得到词序列

5.4.7.1.3令词序列

的序号变量i^C＝1，将

的语义表示

初始化为

5.4.7.1.4如果

转5.4.7.1.7，否则，执行5.4.7.1.5。

5.4.7.1.5特征提取模块从词向量文件中查找

的词向量

5.4.7.1.6令

5.4.7.1.7i^C＝i^C+1，转5.4.7.1.4；

5.4.7.1.8特征提取模块计算

5.4.7.2特征提取模块从标签向量文件中查找“原始标签文字”

的语义表示

5.4.7.3特征提取模块计算第七特征

其中

为求两个向量的夹角余弦函数。

计算方法是：

5.4.8.1特征提取模块从标签向量文件中查找“新标签文字”

的语义表示

5.4.8.2特征提取模块计算第八特征

其中

为求两个向量

夹角余弦函数。

5.5特征提取模块将表项

作为主键，

作为键值存入修改日志特征文件。

5.6令i^X＝i^X+1，转5.2；

第六步，标签比较模块训练SVM分类器S，用于判定对标签修改日志表中的标签修改日志是采纳还是拒绝，具体步骤如下：

其中

为第i^X个标签修改日志。

6.1.2令i^X＝1，初始化Tr为空矩阵。

6.1.3如果i^X＞n^X或Tr已有N_max行，转6.2，否则，执行6.1.4；

6.1.4标签比较模块从修改日志特征文件中查找的特征

6.1.5如果的采纳结果域

为0或1，将

添加到Tr的最后一行。

6.1.6i^X＝i^X+1，转6.1.3；

分类器S的功能是输入一个样本

的第一至第八特征

输出被采纳的概率。

7.1令i^X＝1。

7.2语义表示模块读取标签修改日志表的第i^X个表项

7.3如果i^X＞n^X，转第八步，否则，执行7.4；

7.4标签比较模块从修改日志特征文件中查找

的特征

7.5标签比较模块将

输入分类器S，得到

被采纳的概率

7.6如果

执行7.7，否则说明不采纳转7.9。

7.7标签比较模块用

7.8标签比较模块向存储服务器提交用＜新标签文字，

标注对象id，

标注对象文字内容，

修改者id＞替换标准标签表中＜

原标签文字，

标注对象id，

标注对象文字内容，

生产者id＞这一表项的请求。

7.9存储服务器从标准标签表中删除＜

原标签文字，

标注对象id，

标注对象文字内容，生产者id＞这一表项，向标准标签表写入＜

新标签文字，

标注对象id，

标注对象文字内容，

修改者id＞这一表项。

7.10 i^X＝i^X+1，转7.3。

第八步，结束。

图3是采用本发明与采用背景技术所述DBS方法对维基条目打标签得到标签精确率、召回率、准确率的比较示意。

实验条件：采用一个i7-5930k CPU和两个NVIDIA GeForce TITAN X GPU的工作站一台，操作系统为Ubuntu 16.04，词向量工具包为gensim-3.2.0，自动分词工具包为jieba分词-0.39，机器学习工具包为scikit-learn-0.20，数据库采用MySQL8.0。

数据集采用2018年1月1日的维基百科快照语料，使用CBOW模型计算汉语字向量、词向量和语料中出现的词组的向量。处理对象：实验将维基条目看作一种在线教育资源，维基条目中以超链接的形式标注出的条目中的重要概念作为对应维基条目的原始标签文字，维基百科中条目列表作为标准标签列表，分别利用本发明和DBS算法为维基条目打标签。

采用DBS得到的结果：利用DBS方法所得标签精确率为46.38％，召回率62.56％，准确率52.12％；

采用本发明得到的结果：本发明算法所得标签精确率100％，召回率100％，准确率100％。

Claims

1.一种综合多源知识的在线文本类教育资源标签生成方法，其特征在于包括以下步骤：

第一步，构建标签生成系统，标签生成系统由标签服务器和存储服务器构成，存储服务器与标签服务器使用局域网进行连接；

存储服务器存储原始标签表、标签修改日志表、标签服务器产生的标准标签表；

原始标签表存储教育网站运行过程产生的原始标签；原始标签表的一个表项是一个原始标签，原始标签包括标签id、原始标签文字、标注对象id、标注对象文字内容、生产者id共5个域，id即序号；标签id的数据类型是整数，标签id是原始标签表的主键，标签id是原始标签的唯一标示；原始标签文字的数据类型是字符串，代表标签的文字部分；标注对象id的数据类型是整数，代表标签对应的教育资源的标示；标注对象文字内容的数据类型是字符串，代表标签对应的教育资源的文字内容；生产者id的数据类型是整数，代表提交这条原始标签的用户的标示；

标签修改日志表存储教育网站运行过程产生的标签修改日志，标签修改日志表是由若干标签修改日志构成的集合，记为

其中

为第i^X个标签修改日志i^X＝1,…,n^X；每个标签修改日志有标签id、原标签文字、新标签文字、修改者id、采纳结果5个域；标签id的数据类型是整数，与原始标签表中的“标签id”相对应，代表标签的标示；原标签文字的数据类型是字符串，代表修改前的标签文字；新标签文字的数据类型是字符串，代表修改后的标签文字；修改者id的数据类型是整数，代表提交这条修改的用户；采纳结果的数据类型为整数，是从集合{-1,0,1}中取的一个值，0表示这条修改被拒绝，1表示这条修改被接受，-1表示这条修改还未被处理；n^X为正整数，表示标签修改日志表中标签修改日志的个数；

标准标签表存储原始标签对应的结构化、规范化的标准标签；标准标签表的一个表项是一个标准标签，标准标签包括标准标签文字、标注对象id、标注对象文字内容共3个域；标准标签文字的数据类型是字符串，代表标签的文字部分，是标准标签元中出现过的标准标签文字；标注对象id的数据类型是整数，代表标签对应的教育资源的标示；标注对象文字内容的数据类型是字符串，代表标签对应的教育资源的文字内容；

标签服务器是可以运行计算密集型或者知识密集型的标签生成和处理应用的服务器，标签服务器上除安装有词向量工具包、自动分词工具包和机器学习工具包外，还存储有标准标签元集合文件、背景知识语料库以及在标签生成过程中的一些中间文件，并安装有知识表示模块、语义表示模块、候选排序模块和标签比较模块，中间文件包括词向量文件、标签向量文件、候选标准标签列表和修改日志特征文件；

标准标签元集合文件存储“标签元”；“标签元”含有标签文字和对客体的文字描述，是“<标签文字，客体描述>”二元组，背景知识语料库是指符合词向量训练要求的自然文本；

知识表示模块与背景知识语料库、标准标签元集合文件、词向量工具包、词向量文件相连，知识表示模块从背景知识语料库读取语料，从标准标签元集合文件读取标准标签元，调用词向量工具包对语料和标准标签元进行词向量训练，将训练后得到的词向量存到词向量文件中；

语义表示模块与词向量文件、标签向量文件、自动分词工具包、原始标签表、标签修改日志表相连，语义表示模块调用自动分词工具包对原始标签表中每一个原始标签的“原始标签文字”域和标签修改日志表中每一条标签修改日志的“原标签文字”与“新标签文字”域中的文本进行分词，从词向量文件读取每个词的词向量，将原始标签表的“原始标签文字”域和标签修改日志表中的“原标签文字”与“新标签文字”域中的文本根据每个词的词向量表示成语义向量并将语义向量存到标签向量文件中；

候选排序模块与标准标签元集合文件、原始标签表、标签向量文件、候选标准标签列表相连，候选排序模块依次读取原始标签表中的原始标签的原始标签文字，并从标准标签元集合文件依次读取标准标签元，从标签向量文件获取原始标签文字及标准标签元对应的语义向量，基于语义向量，分别计算原始标签文字与标准标签元集合文件中每个标准标签元的相似性，依据此相似性对标准标签元进行排序，选择相似性强的标准标签元生成原始标签对应的候选标准标签列表；

标签比较模块与原始标签表、标签修改日志表、自动分词工具包、机器学习工具包、修改日志特征文件、标准标签表相连，由特征提取模块、分类器组成；特征提取模块将标签修改日志表的表项转化成特征向量，将特征向量存入修改日志特征文件，供分类器训练；训练后的分类器判断标签修改日志表的表项的采纳结果，将采纳结果更新到标准标签表；

第二步，知识表示模块将背景知识语料库中的语料和标准标签元集合文件中的标准标签元转化为词列表和词向量，存储在词向量文件中，方法是：

2.1知识表示模块从背景知识语料库接收语料，从标准标签元集合文件读取标准标签元，将标准标签元、语料输入CBOW训练函数即连续词包模型训练函数，生成词列表和词向量；其中词列表包含语料中的所有字、词和标准标签中的标签文字；词向量是CBOW训练函数为每个字、词或标准标签中的标签文字生成的n维实数向量，n为正整数；任意一个字、词或标准标签元中的标签文字x的词向量用e(x)表示；

2.2知识表示模块将词列表和及其对应的词向量存储到词向量文件；

第三步，语义表示模块将原始标签表中所有原始标签的“原始标签文字”域、标签修改日志表中所有标签修改日志的“原标签文字”域和“新标签文字”域中的字符串转化成标签向量，并将标签向量存入标签向量文件，方法是：

表示第i^L个待表示标签文字，n^L为待表示标签文字的个数；原始标签表中的所有表项为

n^Y为原始标签表中表项的个数，为第i^Y个原始标签；标签修改日志表中的所有表项为n^X为标签修改日志表中表项的个数，

为第i^X个标签修改日志；n^L≤n^Y+2*n^X；

3.2语义表示模块使用改进后的NCA方法将待表示列表L中的所有待表示标签文字转化成标签向量，并将标签向量存入标签向量文件；具体步骤为：

3.2.1令待表示列表序号变量i^L＝1；

3.2.2如果i^L>n^L,说明待表示标签列表L中的所有待表示标签文字都已转化为标签向量，转第四步，否则，执行3.2.3；

分词，获得第i^L个词序列

3.2.4语义表示模块去除词序列

中的单字和停用词，得到筛选后的词集合

中含有

个词，为

的第i^N个词；

3.2.5语义表示模块设置以下阈值：邻居数目nn和最小临近程度ss，nn为正整数，ss为小于1的正实数；定义待表示标签文字

的临近词词向量集合

为

中所有词的临近词的词向量集合，初始化

为空集合；

其中

为V中的第i^V个词，n^V为V中词的个数；

3.2.7语义表示模块找到

中

的临近词集合并从词向量文件查找

中每个词的词向量，将这些词向量加入

的临近词词向量集合方法是：

3.2.7.1令

的序号变量i^N＝1；

3.2.7.2如果

说明

中所有词的临近词词向量都已加入临近词词向量集合

转3.2.8，否则，执行3.2.7.3；

3.2.7.3语义表示模块计算单词表V中的所有词与

的相似程度,得到V中的n^V个词与的相似程度集合

是一个由形如

的二元组组成的集合，其中

是V中第i^V个词，

为

和

的相似度；

3.2.7.4语义表示模块将

中相似度

中的第一项

加入

的临近词序列

临近词序列

中即为词在单词表V中的最相近的词的序列，记为

其中

为单词表V中第i^p个与

相似的词；

3.2.7.5语义表示模块将

中的所有词的词向量加入临近词词向量集合

3.2.7.6令i^N＝i^N+1,转3.2.7.2；

3.2.8语义表示模块调用机器学习工具包中的聚类函数对向量进行聚类，聚类函数接收两个参数：待聚类向量集合和聚类个数,其中待聚类向量集合是由任意个同维数向量组成的集合，聚类个数是一个正整数，表示期望输出的集合个数；聚类函数输出聚类个数个集合，这些集合是待聚类向量集合的子集，表示将待聚类向量集合中的向量分成了聚类个数个类；

语义表示模块将

作为待聚类向量集合，将

中的元素个数

作为聚类个数输入聚类函数，获得

个待聚类向量集合的子集，命名为第1至第

个待聚类向量集合的子集，表示为其中

为第i^N个子集；

3.2.9语义表示模块从

中找到元素个数最多的集合，命名为最大临近集合

3.2.10语义表示模块求

中所有向量的平均值作为待表示标签

的语义表示，记为

即：

公式(2)；e为最大临近集合

中的任意向量，

为

中向量的个数，公式(2)表示对

中的所有向量求平均；

3.2.11语义表示模块将待表示标签

和它的语义表示

和其语义表示

组成；

3.2.12i^L＝i^L+1，转3.2.2；

第四步，候选排序模块通过比较原始标签表中原始标签文字l_e和所有标准标签元的语义，根据l_e和所有标准标签元语义的相似性生成l_e的候选标准标签列表Candi(l_e)，并将Candi(l_e)中语义最相似的候选标签作为标准标签提交给存储服务器存储，具体方法如下：

4.1候选排序模块设置候选标准标签列表长度n2，n2为正整数，候选列表最小临近程度阈值s2，s2为小于1的正实数；

4.2候选排序模块读取原始标签表；

4.3候选排序模块读取标准标签元集合文件，获得标准标签元列表B，标准标签元列表

是第i^B个标准标签元；

4.4令i^Y＝1；

4.5如果i^Y>n^Y，说明已获取了所有原始标签表中所有原始标签的原始标签文字的候选标准标签列表，转第五步，否则，执行4.6；

4.6候选排序模块生成

的原始标签文字

的候选标准标签列表

步骤是：

4.6.1候选排序模块对标准标签元列表B按照与

的语义相似度从大到小的顺序排序，得到重排标签序列

中第1个元素与

的语义相似度最大，第n^B个元素与

的语义相似度最小；

4.6.2候选排序模块取重排标签序列

的前n2个元素，得到第一序列

4.6.3候选排序模块取第一序列

中所有相似度大于s2的元素，得到候选标准标签列表

4.7如果候选标准标签列表

不为空，候选排序模块依次提取

的标注对象id，标注对象文字内容作为标注对象id和标注对象文字内容，形成标准标签，标准标签为三元组<标准标签文字，标注对象id，标注对象文字内容>，将标准标签提交给存储服务器；

4.8存储服务器从标签服务器收到4.7生成的标准标签后，将<标准标签文字，标注对象id，标注对象文字内容>三个域作为一个表项，写入标准标签表；

4.9令i^Y＝i^Y+1，转4.5；

第五步，标签比较模块的特征提取模块将标签修改日志表中的标签修改日志转化为特征，存入修改日志特征文件，具体步骤如下：

5.1令i^X＝1；

5.2如果i^X>n^X,说明标签修改日志表中的所有标签修改日志已转化为特征并存入修改日志特征文件，转第六步，否则，执行5.3；

5.3特征提取模块读取标签修改日志表的第i^X个标签修改日志

5.4令

的标签id、原标签文字、新标签文字、修改者id、采纳结果分别为

特征提取模块为

计算第一至第八特征

具体方法为：

5.4.2特征提取模块在原始标签表中查询与

的“修改者id”域相同的原始标签表的表项数目，记为的第二特征

的意义是修改者撰写的原始标签的总数目；

5.4.3特征提取模块在标签修改日志表中查询与

的“修改者id”域相同，且采纳结果域等于1的标签修改日志表的表项数目，记为

的第三特征

的意义是修改者提交的标签修改记录中被采纳的个数；

5.4.4特征提取模块在标准标签表中查询与

的“原标签文字”域相同的表项数目，记为

的第四特征

的意义是原标签文字作为标准标签的出现的次数；

5.4.5特征提取模块在标准标签表中查询与

的“新标签文字”域相同的表项数目，记为

的第五特征

的意义是新标签文字作为标准标签的出现的次数；

5.4.6特征提取模块计算的“新标签文字”对比

的“原标签文字”的修改程度，记为第六特征

5.4.7特征提取模块计算“原始标签文字”

与标注对象文字内容的语义相似性，作为第七特征

5.5特征提取模块将表项

作为主键，

作为键值存入修改日志特征文件；

5.6令i^X＝i^X+1，转5.2；

第六步，标签比较模块训练支持向量机SVM分类器S，用于判定对标签修改日志表中的标签修改日志是采纳还是拒绝，具体步骤如下：

6.1标签比较模块构建训练集Tr，训练集Tr是一个9列N_max行的矩阵，N_max为正整数，每一行代表一个标签修改日志，其第1至第8列代表标签修改日志的第一至第八特征；第9列为采纳结果，0代表标签修改日志被拒绝，为1代表标签修改日志被采纳；具体的方法是：

其中

为第i^X个标签修改日志；

6.1.2令i^X＝1，初始化Tr为空矩阵；

6.1.3如果i^X>n^X或Tr已有N_max行，转6.2，否则，执行6.1.4；

6.1.4标签比较模块从修改日志特征文件中查找

的特征

6.1.5如果

的采纳结果域

为0或1，将

添加到Tr的最后一行；

6.1.6i^X＝i^X+1，转6.1.3；

6.2标签比较模块调用机器学习工具包的SVM函数，输入训练集Tr，获得分类器S；分类器S的功能是输入一个样本

的第一至第八特征输出被采纳的概率；

第七步，标签服务器上的标签比较模块使用分类器S对于标签修改日志表中每一个表项，先判断是否采纳，再根据标签修改日志对标准标签表中的对应表项进行修改；具体方法如下：

7.1令i^X＝1；

7.2语义表示模块读取标签修改日志表的第i^X个表项

7.3如果i^X>n^X，转第八步，否则，执行7.4；

7.4标签比较模块从修改日志特征文件中查找

的特征

7.5标签比较模块将

输入分类器S，得到

被采纳的概率

7.6如果

执行7.7，否则说明不采纳

转7.9；

7.7标签比较模块用

7.8标签比较模块向存储服务器提交用<

新标签文字，标注对象id，

标注对象文字内容，

修改者id>替换标准标签表中<原标签文字，

标注对象id，

标注对象文字内容，生产者id>这一表项的请求；

7.9存储服务器从标准标签表中删除<原标签文字，

标注对象id，

标注对象文字内容，

生产者id>这一表项，向标准标签表写入<

新标签文字，

标注对象id，标注对象文字内容，

修改者id>这一表项；

7.10i^X＝i^X+1，转7.3；

第八步，结束。

2.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法，其特征在于让所述存储服务器部署了数据库软件以为原始标签表、标签修改日志表和标准标签表提供添加表项、修改表项、查询表项这样的数据库功能，所述数据库软件指MySQL8.0及以上版本。

3.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法，其特征在于所述词向量工具包指gensim-3.2.0或以上版本、自动分词工具包指jieba分词-0.39或以上版本，机器学习工具包指scikit-learn-0.20或以上版本。

4.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法，其特征在于所述n满足50<n<100；所述nn满足50≤nn≤100，所述ss满足0.2≤ss≤1；所述n2满足0<n2<20，所述s2满足0.3≤s2≤1；所述N_max≥1000。

5.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法，其特征在于3.1步所述语义表示模块将原始标签表中所有表项的“原始标签文字”域、标签修改日志表中所有标签修改日志的“原标签文字”域和“新标签文字”域作为待表示标签文字，放入待表示列表L的方法是：3.1.1语义表示模块读取原始标签表

3.1.2令原始标签表序号变量i^Y＝1，令待表示列表L为空；

3.1.3如果i^Y>n^Y,转3.1.6，否则，执行3.1.4；

3.1.4语义表示模块读取

的原始标签文字域添加进待表示列表L；

3.1.5令i^Y＝i^Y+1，转3.1.3；

3.1.6语义表示模块读取标签修改日志表

3.1.7令标签修改日志表序号变量i^X＝1；

3.1.8如果i^X>n^X，说明已得到L，结束；否则，执行3.1.9；

3.1.9语义表示模块读取

的原标签文字域，如果原标签文字域的字符串不在待表示列表L中，则将原标签文字域的字符串添加进待表示列表L；

3.1.10语义表示模块读取的新标签文字域，如果新标签文字域的字符串不在待表示列表L中，则将新标签文字域的字符串添加进待表示列表L；

3.1.11令i^X＝i^X+1，转3.1.8。

6.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法，其特征在于3.2.7.3步所述语义表示模块计算单词表V中的所有词与

的相似程度的方法是：

3.2.7.3.1令单词表序号变量i^V＝1；

3.2.7.3.2如果i^V>n^V，说明得到了V中的n^V个词与

的相似程度集合结束；否则，执行3.2.7.3.3；

是一个由形如

的二元组组成的集合，其中

是V中第i^V个词，

为和

的相似度；

3.2.7.3.3语义表示模块从词向量文件中查找

和

的词向量，得到

和

3.2.7.3.4语义表示模块按公式(1)计算

和的相似度

其中

为求向量

夹角的余弦值；

3.2.7.3.5令i^V＝i^V+1，转3.2.7.3.2。

7.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法，其特征在于3.2.7.5步所述语义表示模块将

中的所有词的词向量加入临近词词向量集合

的方法是：

3.2.7.5.1令

的临近词序列

的序号变量i^p＝1；

3.2.7.5.2如果i^p>n^p，转3.2.7.6；否则，执行3.2.7.5.3；

3.2.7.5.3语义表示模块从词向量文件中查找

的词向量，将

的词向量

加入临近词词向量集合

3.2.7.5.4令i^p＝i^p+1,跳转3.2.7.5.2。

8.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法，其特征在于3.2.8步所述聚类函数为scikit-learn中的k_means函数。

9.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法，其特征在于4.6.1步所述候选排序模块对标准标签元列表B按照与

的语义相似度从大到小的顺序排序，得到重排标签序列

的方法为：

4.6.1.1令i^B＝1；

4.6.1.2如果i^B>n^B,转4.6.1.7，否则，执行4.6.1.3；

4.6.1.3候选排序模块从标签向量文件读取原始标签文字

的语义表示

4.6.1.4候选排序模块从词向量文件中查找标准标签元

的语义表示

4.6.1.5候选排序模块计算原始标签文字与标准标签元

的语义相似度

其中为求

两个向量夹角余弦函数；

4.6.1.6令i^B＝i^B+1，转4.6.1.2；

4.6.1.7候选排序模块将标准标签元列表B中的元素根据与

中第1个元素与

的语义相似度最大，第n^B个元素与

的语义相似度最小。

10.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法，其特征在于5.4.1步所述特征提取模块统计原标签文字提供者撰写的原始标签的总数目作为

第一特征

的方法为：

5.4.1.1特征提取模块用

5.4.1.2特征提取模块在原始标签表中查询与

的“生产者id”域相同的原始标签表的表项数目，记为的第一特征

11.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法，其特征在于5.4.6步所述计算方法为：

5.4.6.1特征提取模块从标签向量文件中查找“原始标签文字”的语义表示5.4.6.2特征提取模块从标签向量文件中查找“新标签文字”的语义表示

5.4.6.3特征提取模块计算第六特征

其中

为求两个向量

的夹角余弦函数。

12.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法，其特征在于5.4.7步所述

计算方法是：

5.4.7.1特征提取模块计算与

对应的标注对象文字内容的平均语义，记为mean_vec(C_ix)),具体步骤是：

5.4.7.1.1用

的“标签id”域

查询原始标签表，获得原始标签表表项

5.4.7.1.2特征提取模块调用自动分词软件包对

的标注对象文字内容进行分词，得到词序列

5.4.7.1.3令词序列

的序号变量i^C＝1，将

的语义表示

初始化为

5.4.7.1.4如果

转5.4.7.1.7，否则，执行5.4.7.1.5；

5.4.7.1.5特征提取模块从词向量文件中查找的词向量

5.4.7.1.6令

5.4.7.1.7i^C＝i^C+1，转5.4.7.1.4；

5.4.7.1.8特征提取模块计算

5.4.7.2特征提取模块从标签向量文件中查找“原始标签文字”

的语义表示

5.4.7.3特征提取模块计算第七特征

其中

为求两个向量

的夹角余弦函数。

13.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法，其特征在于5.4.8步所述

计算方法是：

5.4.8.1特征提取模块从标签向量文件中查找“新标签文字”

的语义表示

5.4.8.2特征提取模块计算第八特征

其中

为求两个向量

夹角余弦函数。