CN110688461A - 一种综合多源知识的在线文本类教育资源标签生成方法 - Google Patents
一种综合多源知识的在线文本类教育资源标签生成方法 Download PDFInfo
- Publication number
- CN110688461A CN110688461A CN201910945282.5A CN201910945282A CN110688461A CN 110688461 A CN110688461 A CN 110688461A CN 201910945282 A CN201910945282 A CN 201910945282A CN 110688461 A CN110688461 A CN 110688461A
- Authority
- CN
- China
- Prior art keywords
- label
- original
- tag
- word
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种综合多源知识的在线文本类教育资源标签生成方法,目的是提高标签的客体准确性。技术方案是先构建含有知识表示模块、语义表示模块、候选排序模块和标签比较模块的标签生成系统;知识表示模块将语料和标准标签元转化为词列表和词向量;语义表示模块构建标签向量;候选排序模块根据原始标签文字le和所有标准标签元语义的相似性生成le的候选标签列表Candi(le),并将Candi(le)中语义最相似的候选标签作为标准标签;标签比较模块将训练SVM分类器S判定对标签修改日志表中的标签修改日志是采纳还是拒绝,根据S结果对标准标签表中的对应表项进行修改。采用本发明能提高标签的客体准确率、标签结构性和标签规范性。
Description
技术领域
本发明涉及一种教育资源的信息增强方法,尤其是一种综合多来源信息,对文本类教育资源添加高准确性、高结构化的标签的方法。
背景技术
随着互联网和信息技术的飞速发展,在线的共享教育资源日渐丰富。其中包括在线电子出版物、教育论坛、MOOC(大规模开放在线课程)等。以著名的在线课程网站coursera为例,有超过3300万注册用户,在线学习2700多门课程。每门课程包含数十段短视频,及其对应的字幕、阅读材料、随堂测试等文本形式的教育资源。
标注是对互联网资源进行信息增强的常见方式。对于互联网资源的检索、查询、摘要和自动理解均有重要作用。然而,教育资源来源复杂,待标注的历史数据多,使用者对标注的质量要求高。如何高效高质量地产生资源的标注是目前面临的主要问题之一。
标签式标注方法是现有MOOC平台进行资源标注的主要方式。其主要思想是针对标注对象生成标签,其中“标注对象”可以是一篇文章、一段视频,或者是文章、视频的特定位置,“标签”是一种可存储的数据结构,主要内容为一个词或短语。对应“标注对象”中的一个客观事实(称为“客体”),如组成、性质、特征等。一个标注对象至少包含一个客体,每个客体对应一个或几个确定的标签。
评价标签标注的客观指标有三个:客体准确率、标签结构性、标签规范性。客体准确率由精确率和召回率两部分组成。精确率是指标注结果中的客体,确实为“标注对象包含的客体”数占标注结果中的所有客体数的比例。精确率越低意味着给用户提供了越多的无用信息干扰。召回率是指标注结果中的客体,确实为标注对象的客体数占标注对象所有客体数的比例。召回率越低意味着给用户提供的正确信息越不完整。标签结构性是指标签与知识库的连接程度,定义是使用标签去检索知识库,查询到的正确客体占所有标注结果的比例。标签规范性是指对于同一个客体产生的标签是通用的一致的表述,定义是存在于客体的规范术语集合中的标签占标签总数的比例。规范术语集合可以通过查阅“全国科学技术名词审定委员会”等机构审定的术语表得到。
现有的标签标注方法分为自动抽取和用户添加两种。自动抽取标签是以TextRank等关键词抽取算法(“Mihalcea R,Tarau P.TextRank:Bringing Order into Texts[J].Emnlp,2004:404-411.”译为:《TextRank:将顺序信息引入文本中》),自动识别文本中的关键字,并将其作为标签。自动抽取标签算法最新的研究是DBS,(DBpediaSpotlight,通用百科知识图谱标注器)。DBS方法将文本标签的生成分为两步:
第一步,标签发现。遍历待标注的文本资源,找到所有与知识库或标签库中字面相同的字符串作为标签候选集。然后按照字符串被标注的先验概率和标签边界不能相互重叠的原则,手工设置阈值,挑选出标签候选集的一部分作为标签集合。
第二步,标签链接。分别计算一个标签出现的先验概率、标签出现为此字符串的概率、标签出现在此上下文中的概率、该字符串上下文不应作为标签的概率,利用概率累加公式将第一步中的字符串链接到标签库中。
DBS的缺陷主要集中在第一步中获取的标签客体准确率低。DBS自动选择标签的精确率仅为49.45%,召回率仅为55.53%。这在教育资源标注中会遗漏大量的知识点,并引入约一倍的错误标签。
用户添加是以维基百科的分类、各大视频网站的视频标签为代表,人工为标注对象添加标签的过程。其中以哔哩哔哩动画网(www.bilibili.com)的标注功能最为丰富,具体的添加标签过程如下:
第一步,视频上传者在上传视频的同时为一个视频添加标签。
第二步,视频使用者在使用视频的同时为该视频添加新的标签或更改已有标签。
第三步,当出现争议时,由管理员和视频上传者决策并锁定标签。通过用户添加的方式产生的标签客体准确性高,但没有同知识库的链接,标签结构性低,且通过这种方式生成的标签规范性低。同时消耗大量的人力资源,尤其需要管理员的维护。
所以如何解决自动抽取标签方法客体准确率低的缺陷,又解决用户添加方法标签结构性低、标签规范性低的缺陷成为一个亟待解决的技术问题。
发明内容
本发明要解决的技术问题是针对标签精准性和标签结构性、规范性的矛盾问题,提出一种综合多源知识的在线文本类教育资源标签生成方法,既提高标签的客体准确性,又提高标签结构性和标签规范性。
本发明的技术方案是把网站的原始标签集合和完全结构化、规范化的标准标签元集合映射到相同的语义空间上,实现原始标签到标准标签元的映射,得到高准确率高结构化的标准标签表。然后根据标签修改日志的情况对标准标签表中的元素进行同步修改,进一步提高标准标签表中标签的准确率。
为实现上述目的,本发明包含以下步骤:
第一步,构建标签生成系统。它由标签服务器和存储服务器构成。存储服务器与标签服务器使用局域网进行连接。
存储服务器存储以下两方面内容:1)原始标签表和标签修改日志表;2)标签服务器产生的标准标签表。存储服务器上部署了数据库软件(MySQL8.0及以上版本)以为原始标签表、标签修改日志表和标准标签表提供添加表项、修改表项、查询表项等通用数据库功能。
原始标签表存储教育网站运行过程产生的原始标签。原始标签表的一个表项是一个原始标签,原始标签包括标签id(id即序号)、原始标签文字、标注对象id、标注对象文字内容、生产者id共5个域。一个原始标签表表项的整体意义是:生产者id对应的用户对标注对象id对应的教育资源提交了原始标签文字这条标签,教育资源的内容是标注对象文字内容,这条标签的编号是标签id。标签id的数据类型是整数,标签id是原始标签表的主键,标签id是原始标签的唯一标示。原始标签文字的数据类型是字符串,代表标签的文字部分。标注对象id的数据类型是整数,代表标签对应的教育资源的标示。标注对象文字内容的数据类型是字符串,代表标签对应的教育资源的文字内容,如一段字幕,一篇文章等。生产者id的数据类型是整数,代表提交这条原始标签的用户的标示。
标签修改日志表存储教育网站运行过程产生的标签修改日志。标签修改日志表是由若干标签修改日志构成的集合,可记为其中为第iX个标签修改日志。每个标签修改日志有标签id、原标签文字、新标签文字、修改者id、采纳结果5个域。一个标签修改日志的整体意义是:修改者id对应的用户提交了一条申请,申请将“标签id”对应的标签的文字内容由“原标签文字”更改为“新标签文字”,对此申请的处理结果为“采纳结果”。标签id的数据类型是整数,与原始标签表中的“标签id”相对应,代表标签的标示。原标签文字的数据类型是字符串,代表修改前的标签文字。新标签文字的数据类型是字符串,代表修改后的标签文字。修改者id的数据类型是整数,代表提交这条修改的用户。采纳结果的数据类型为整数,是从集合{-1,0,1}中取的一个值,0表示这条修改被拒绝,1表示这条修改被接受,-1表示这条修改还未被处理。nX为正整数,表示标签修改日志表中标签修改日志的个数。
标准标签表存储原始标签对应的结构化、规范化的标准标签。标准标签表的一个表项是一个标准标签,标准标签包括标准标签文字、标注对象id、标注对象文字内容共3个域。一个标准标签表表项的整体意义是:标注对象id对应的教育资源对应标准标签文字,其内容是标注对象文字内容。标准标签文字的数据类型是字符串,代表标签的文字部分,是标准标签元中出现过的标准标签文字。标注对象id的数据类型是整数,代表标签对应的教育资源的标示。标注对象文字内容的数据类型是字符串,代表标签对应的教育资源的文字内容,如一段字幕,一篇文章等。
标签服务器是具有良好计算能力的服务器,可以运行计算密集型或者知识密集型的标签生成和处理应用。标签服务器上除安装有词向量工具包(如gensim-3.2.0或以上版本)、自动分词工具包(如jieba分词-0.39或以上版本)和机器学习工具包(如scikit-learn-0.20或以上版本)外,还存储有标准标签元集合文件、背景知识语料库以及在标签生成过程中的一些中间文件(如词向量文件、标签向量文件、候选标准标签列表和修改日志特征文件),并安装有知识表示模块、语义表示模块、候选排序模块和标签比较模块。
标准标签元集合文件存储“标签元”。“标签元”含有标签文字和对客体的文字描述,是“<标签文字,客体描述>”二元组,如“全国科学技术名词审定委员会”审定的术语表(详见http://www.cnctst.cn/sdgb/)。背景知识语料库是指符合词向量训练要求的自然文本。(词向量训练要求参见“Mikolov,T.,Sutskever,I.,Chen,K.,et.al.Distributedrepresentations of words and phrases and their compositionality[C].//NeuralInformation Processing Systems.2013:3111-3119.”即词与词组的分布表达及其组合性,2013年《神经信息处理系统大会》论文集3111-3119页)。
知识表示模块与背景知识语料库、标准标签元集合文件、词向量工具包、词向量文件相连,知识表示模块从背景知识语料库读取语料,从标准标签元集合文件读取标准标签元,调用词向量工具包对语料和标准标签元进行词向量训练,将训练后得到的词向量存到词向量文件中。
语义表示模块与词向量文件、标签向量文件、自动分词工具包、原始标签表、标签修改日志表相连,语义表示模块调用自动分词工具包对原始标签表中每一个原始标签的“原始标签文字”域和标签修改日志表中每一条标签修改日志的“原标签文字”与“新标签文字”域中的文本进行分词,从词向量文件读取每个词的词向量,将原始标签表的“原始标签文字”域和标签修改日志表中的“原标签文字”与“新标签文字”域中的文本根据每个词的词向量表示成语义向量并将语义向量存到标签向量文件中。
候选排序模块与标准标签元集合文件、原始标签表、标签向量文件、候选标准标签列表相连,候选排序模块依次读取原始标签表中的原始标签的原始标签文字,并从标准标签元集合文件依次读取标准标签元,从标签向量文件获取原始标签文字及标准标签元对应的语义向量,基于语义向量,分别计算原始标签文字与标准标签元集合文件中每个标准标签元的相似性,依据此相似性对标准标签元进行排序,选择相似性强的标准标签元生成原始标签对应的候选标准标签列表。
标签比较模块与原始标签表、标签修改日志表、自动分词工具包、机器学习工具包、修改日志特征文件、标准标签表相连,由特征提取模块、分类器组成。特征提取模块将标签修改日志表的表项转化成特征向量,将特征向量存入修改日志特征文件,供分类器训练。训练后的分类器判断标签修改日志表的表项的采纳结果,将采纳结果更新到标准标签表。
第二步,知识表示模块将背景知识语料库中的语料和标准标签元集合文件中的标准标签元转化为词列表和词向量,存储在词向量文件中。具体的步骤如下:
2.1知识表示模块从背景知识语料库接收语料,从标准标签元集合文件读取标准标签元,将标准标签元、语料输入CBOW(Continuous Bag-Of-Words Model,连续词包模型)训练函数(模型细节参见“Mikolov,T.,Sutskever,I.,Chen,K.,et.al.Distributedrepresentations of words and phrases and their compositionality[C].//NeuralInformation Processing Systems.2013∶3111-3119.”即词与词组的分布表达及其组合性,2013年《神经信息处理系统大会》论文集3111-3119页),生成词列表和词向量。其中词列表包含语料中的所有字、词和标准标签中的标签文字。词向量是CBOW训练函数为每个字、词或标准标签中的标签文字生成的n维实数向量(50<n<100)。任意一个字、词或标准标签中的标签文字x的词向量用e(x)表示。
2.2知识表示模块将词列表和及其对应的词向量存储到词向量文件。
第三步,语义表示模块将原始标签表中所有原始标签的“原始标签文字”域、标签修改日志表中所有标签修改日志的“原标签文字”域和“新标签文字”域中的字符串转化成标签向量,并将标签向量存入标签向量文件。
根据文献(“PangK,TangJ,WangT.Which Embedding Level is Better forSemantic Representation?An Empirical Research on Chinese Phrases[C]//CCFInternational Conference on Natural Language Processing and ChineseComputing.Springer,2018:54-66.”译为:庞焜元,唐晋韬,王挺.哪一嵌入级别对语义表示更合适?中文短语上的一次实验研究,2018年国际自然语言处理及中文计算会议论文集第51页-66页)中实验4.1的结论,词组和短语的语义用该论文提出的NCA方法(NeighborClusterAverage,临近词聚类中心)表示得最好。
结合教育文本停用词多、停用词不影响语义和不同主题的词在语义空间分布边界鲜明的特点,本发明改进了NCA方法,在NCA方法的基础上加入停用词过滤和最小临近程度两个阈值,从而使获得的标签向量更有利于准确度量标签文字间的相似度,从而形成更准确的候选标准标签元排序。
具体方法如下:
3.1语义表示模块将原始标签表中所有表项的“原始标签文字”域、标签修改日志表中所有标签修改日志的“原标签文字”域和“新标签文字”域作为待表示标签文字,放入待表示列表L,记为 表示第iL个待表示标签文字,nL为待表示标签文字的个数。具体步骤是:3.1.1语义表示模块读取原始标签表,记其中的所有表项为nY为原始标签表中表项的个数,为第iY个原始标签。
3.1.2令原始标签表序号变量iY=1,令待表示列表L为空;
3.1.3如果iY>nY,转3.1.6,否则,执行3.1.4;
3.1.5令iY=iY+1,转3.1.3.
3.1.7令标签修改日志表序号变量iX=1;
3.1.8如果iX>nX,说明已得到L,L中的待表示标签文字的个数nL≤nY+2*nX,转3.2,否则,执行3.1.9;
3.1.10语义表示模块读取的新标签文字域,如果新标签文字域的字符串不在待表示列表L中,则将新标签文字域的字符串添加进待表示列表L。
3.1.11令iX=iX+1,转3.1.8;
3.2语义表示模块使用改进后的NCA方法将3.1中获得的待表示列表L中的所有待表示标签文字转化成标签向量,并将标签向量存入标签向量文件。具体步骤为:
3.2.1令待表示列表序号变量iL=1;
3.2.2如果iL>nL,说明待表示标签列表L中的所有待表示标签文字都已转化为标签向量,转第四步,否则,执行3.2.3;
3.2.5语义表示模块设置以下阈值:邻居数目nn(nn为正整数且50≤nn≤100)和最小临近程度ss(ss为小于1的正实数且0.2≤ss≤1)。定义待表示标签文字的临近词词向量集合为中所有词的临近词的词向量集合,初始化为空集合。
3.2.7.3.1令单词表序号变量iV=1。
3.2.7.3.5令iV=iV+1,转3.2.7.3.2。
3.2.7.4语义表示模块将中相似度大于ss的二元组按照从大到小的顺序排序,从排序结果中依次取出每个二元组 中的第一项加入的临近词序列临近词序列中即为词在单词表V中的最相近的词的序列,记为其中为单词表V中第ip个与相似的词。
3.2.7.5.2如果ip>np,转3.2.7.6;否则,执行3.2.7.5.3;
3.2.7.5.4令ip=ip+1,跳转3.2.7.5.2。
3.2.7.6令iN=iN+1,然后转3.2.7.2。
3.2.8语义表示模块调用机器学习工具包(如scikit-learn)中的聚类函数(如k_means)对向量进行聚类。聚类函数接收两个参数:待聚类向量集合和聚类个数,其中待聚类向量集合是由任意个同维数向量组成的集合,聚类个数是一个正整数,表示期望输出的集合个数。聚类函数输出聚类个数个集合,这些集合是待聚类向量集合的子集,表示将待聚类向量集合中的向量分成了聚类个数个类。
3.2.12iL=iL+1,转3.2.2。
第四步,候选排序模块通过比较原始标签表中原始标签文字le和所有标准标签元的语义,根据le和所有标准标签元语义的相似性生成le的候选标准标签元列表Candi(le),并将Candi(le)中语义最相似的候选标签作为标准标签提交给存储服务器存储。具体方法如下:
4.1候选排序模块设置候选列表长度n2(n2为正整数且0<n2<20),候选列表最小临近程度阈值s2(s2为小于1的正实数且0.3≤s2≤1)。
4.2候选排序模块读取原始标签表。
4.4令iY=1;
4.5如果iY>nY,说明已获取了所有原始标签表中所有原始标签的原始标签文字的候选标准标签元列表,转第五步,否则,执行4.6;
4.6.1.1令iB=1;
4.6.1.2如果iB>nB,转4.6.1.7,否则,执行4.6.1.3;
4.6.1.6令iB=iB+1,转4.6.1.2。
4.7如果候选标准标签元列表不为空,候选排序模块依次提取中第一个标准标签元的标签文字作为标准标签文字及原始标签的标注对象id,标注对象文字内容作为标注对象id和标注对象文字内容,形成标准标签,标准标签为三元组<标准标签文字,标注对象id,标注对象文字内容>,将标准标签提交给存储服务器。
4.8存储服务器从标签服务器收到4.7生成的标准标签后,将<标准标签文字,标注对象id,标注对象文字内容>三个域作为一个表项,写入标准标签表。
4.9令iY=iY+1,转4.5;
第五步,标签比较模块的特征提取模块将标签修改日志表中的标签修改日志转化为特征,存入修改日志特征文件。具体步骤如下:
5.1令iX=1;
5.2如果iX>nX,说明标签修改日志表中的所有标签修改日志已转化为特征并存入修改日志特征文件,转第六步,否则,执行5.3。
5.3特征提取模块读取标签修改日志表的第iX个标签修改日志
5.4.7.1.7iC=iC+1,转5.4.7.1.4;
5.6令iX=iX+1,转5.2;
第六步,标签比较模块训练SVM分类器S(Support Vector Machine,支持向量机,出自“Vapnik,V.N.and Lerner,A.Y.,1963.Recognition of patterns with help ofgeneralized portraits.Avtomat.Telemekh,24(6),pp.774-780.”,即1963年杂志第774页-780页的《借助广义特征的模式识别》中描述的SVM),用于判定对标签修改日志表中的标签修改日志是采纳还是拒绝,具体步骤如下:
6.1标签比较模块构建训练集Tr,训练集Tr是一个9列Nmax行的矩阵(Nmax为正整数,且Nmax≥1000),每一行代表一个标签修改日志,其第1至第8列代表标签修改日志的第一至第八特征。第9列为采纳结果,0代表标签修改日志被拒绝,为1代表标签修改日志被采纳。具体的方法是:
6.1.2令iX=1,初始化Tr为空矩阵。
6.1.3如果iX>nX或Tr已有Nmax行,转6.2,否则,执行6.1.4;
6.1.6iX=iX+1,转6.1.3;
6.2标签比较模块调用机器学习工具包的SVM函数,输入训练集Tr,获得分类器S。
第七步,标签服务器上的标签比较模块使用分类器S对于标签修改日志表中每一个表项,先判断是否采纳,再根据标签修改日志对标准标签表中的对应表项进行修改。具体方法如下:
7.1令iX=1。
7.3如果iX>nX,转第八步,否则,执行7.4;
7.10 iX=iX+1,转7.3。
第八步,结束。
由以上流程可知,采用本发明能将所有的标准标签都存放在存储服务器上的标准标签表里且标准标签表能随着日志的改动不断进行修改。
采用本发明可以达到以下技术效果:
1.本发明第一到第四步,采用改进后的NCA方法对待表示标签进行语义表示,并基于该表示,将原始标签列表中的原始标签文字链接到标准标签列表中与之最相似的标准标签文字,有效提高了标签链接的准确率和召回率。
2.本发明第五到第七步,利用标签修改日志,构建用于判断当前标签文字是否需要修改的分类器,并利用该分类器判断利用标准标签元规范化后的标签文字是否修改,从而使得标签的准确性得到进一步的提高。
附图说明
图1是本发明第一步构建的标签生成系统逻辑结构图;
图2是本发明的总体流程图。
图3是采用本发明与DBS方法在打标签的精确率、召回率和准确率上的对比。
具体实施方式
如图2所示,本发明包括以下步骤:
第一步,构建标签生成系统,如图1所示,标签生成系统由标签服务器和存储服务器构成,存储服务器与标签服务器使用局域网进行连接。
存储服务器存储原始标签表、标签修改日志表、标准标签表。存储服务器上部署了数据库软件(如MySQL8.0及以上版本)。
原始标签表存储教育网站运行过程产生的原始标签。原始标签表的一个表项是一个原始标签,原始标签包括标签id(id即序号)、原始标签文字、标注对象id、标注对象文字内容、生产者id共5个域。一个原始标签表表项的整体意义是:生产者id对应的用户对标注对象id对应的教育资源提交了原始标签文字这条标签,教育资源的内容是标注对象文字内容,这条标签的编号是标签id。标签id的数据类型是整数,标签id是原始标签表的主键,标签id是原始标签的唯一标示。原始标签文字的数据类型是字符串,代表标签的文字部分。标注对象id的数据类型是整数,代表标签对应的教育资源的标示。标注对象文字内容的数据类型是字符串,代表标签对应的教育资源的文字内容,如一段字幕,一篇文章等。生产者id的数据类型是整数,代表提交这条原始标签的用户的标示。
标签修改日志表存储教育网站运行过程产生的标签修改日志。标签修改日志表是由若干标签修改日志构成的集合,记为其中为第iX个标签修改日志。每个标签修改日志有标签id、原标签文字、新标签文字、修改者id、采纳结果5个域。一个标签修改日志的整体意义是:修改者id对应的用户提交了一条申请,申请将“标签id”对应的标签的文字内容由“原标签文字”更改为“新标签文字”,对此申请的处理结果为“采纳结果”。标签id的数据类型是整数,与原始标签表中的“标签id”相对应,代表标签的标示。原标签文字的数据类型是字符串,代表修改前的标签文字。新标签文字的数据类型是字符串,代表修改后的标签文字。修改者id的数据类型是整数,代表提交这条修改的用户。采纳结果的数据类型为整数,是从集合{-1,0,1}中取的一个值,0表示这条修改被拒绝,1表示这条修改被接受,-1表示这条修改还未被处理。nX为正整数,表示标签修改日志表中标签修改日志的个数。
标准标签表存储原始标签对应的结构化、规范化的标准标签。标准标签表的一个表项是一个标准标签,标准标签包括标准标签文字、标注对象id、标注对象文字内容共3个域。标准标签文字的数据类型是字符串,代表标签的文字部分,是标准标签元中出现过的标准标签文字。标注对象id的数据类型是整数,代表标签对应的教育资源的标示。标注对象文字内容的数据类型是字符串,代表标签对应的教育资源的文字内容。
标签服务器是具有良好计算能力的服务器,可以运行计算密集型或者知识密集型的标签生成和处理应用。标签服务器上除安装有词向量工具包(如gensim-3.2.0或以上版本)、自动分词工具包(如jieba分词-0.39或以上版本)和机器学习工具包(如scikit-learn-0.20或以上版本)外,还存储有标准标签元集合文件、背景知识语料库以及在标签生成过程中的一些中间文件(包括词向量文件、标签向量文件、候选标准标签列表和修改日志特征文件),并安装有知识表示模块、语义表示模块、候选排序模块和标签比较模块。
标准标签元集合文件存储“标签元”。“标签元”含有标签文字和对客体的文字描述,是“<标签文字,客体描述>”二元组,如“全国科学技术名词审定委员会”审定的术语表。背景知识语料库是指符合词向量训练要求的自然文本。
知识表示模块与背景知识语料库、标准标签元集合文件、词向量工具包、词向量文件相连,知识表示模块从背景知识语料库读取语料,从标准标签元集合文件读取标准标签元,调用词向量工具包对语料和标准标签元进行词向量训练,将训练后得到的词向量存到词向量文件中。
语义表示模块与词向量文件、标签向量文件、自动分词工具包、原始标签表、标签修改日志表相连,语义表示模块调用自动分词工具包对原始标签表中每一个原始标签的“原始标签文字”域和标签修改日志表中每一条标签修改日志的“原标签文字”与“新标签文字”域中的文本进行分词,从词向量文件读取每个词的词向量,将原始标签表的“原始标签文字”域和标签修改日志表中的“原标签文字”与“新标签文字”域中的文本根据每个词的词向量表示成语义向量并将语义向量存到标签向量文件中。
候选排序模块与标准标签元集合文件、原始标签表、标签向量文件、候选标准标签元列表相连,候选排序模块依次读取原始标签表中的原始标签的原始标签文字,并从标准标签元集合文件依次读取标准标签元,从标签向量文件获取原始标签文字及标准标签元对应的语义向量,基于语义向量,分别计算原始标签文字与标准标签元集合文件中每个标准标签元的相似性,依据此相似性对标准标签元进行排序,选择相似性强的标准标签元生成原始标签对应的候选标准标签列表。
标签比较模块与原始标签表、标签修改日志表、自动分词工具包、机器学习工具包、修改日志特征文件、标准标签表相连,由特征提取模块、分类器组成。特征提取模块将标签修改日志表的表项转化成特征向量,将特征向量存入修改日志特征文件,供分类器训练。训练后的分类器判断标签修改日志表的表项的采纳结果,将采纳结果更新到标准标签表。
第二步,知识表示模块将背景知识语料库中的语料和标准标签元集合文件中的标准标签元转化为词列表和词向量,存储在词向量文件中。具体的步骤如下:
2.1知识表示模块从背景知识语料库接收语料,从标准标签元集合文件读取标准标签元,将标准标签元、语料输入CBOW训练函数,生成词列表和词向量。其中词列表包含语料中的所有字、词和标准标签中的标签文字。词向量是CBOW训练函数为每个字、词或标准标签中的标签文字生成的n维实数向量(50<n<100)。任意一个字、词或标准标签中的标签文字x的词向量用e(x)表示。
2.2知识表示模块将词列表和及其对应的词向量存储到词向量文件。
第三步,语义表示模块将原始标签表中所有原始标签的“原始标签文字”域、标签修改日志表中所有标签修改日志的“原标签文字”域和“新标签文字”域中的字符串转化成标签向量,并将标签向量存入标签向量文件。具体方法如下:
3.1语义表示模块将原始标签表中所有表项的“原始标签文字”域、标签修改日志表中所有标签修改日志的“原标签文字”域和“新标签文字”域作为待表示标签文字,放入待表示列表L,记为 表示第iL个待表示标签文字,nL为待表示标签文字的个数。具体步骤是:3.1.1语义表示模块读取原始标签表,记其中的所有表项为nY为原始标签表中表项的个数,为第iY个原始标签。
3.1.2令原始标签表序号变量iY=1,令待表示列表L为空;
3.1.3如果iY>nY,转3.1.6,否则,执行3.1.4;
3.1.5令iY=iY+1,转3.1.3.
3.1.7令标签修改日志表序号变量iX=1;
3.1.8如果iX>nX,说明已得到L,L中的待表示标签文字的个数nL≤nY+2*nX,转3.2,否则,执行3.1.9;
3.1.11令iX=iX+1,转3.1.8;
3.2语义表示模块使用改进后的NCA方法将3.1中获得的待表示列表L中的所有待表示标签文字转化成标签向量,并将标签向量存入标签向量文件。具体步骤为:
3.2.1令待表示列表序号变量iL=1;
3.2.2如果iL>nL,说明待表示标签列表L中的所有待表示标签文字都已转化为标签向量,转第四步,否则,执行3.2.3;
3.2.5语义表示模块设置以下阈值:邻居数目nn(nn为正整数且50≤nn≤100)和最小临近程度ss(ss为小于1的正实数且0.2≤ss≤1)。定义待表示标签文字的临近词词向量集合为中所有词的临近词的词向量集合,初始化为空集合。
3.2.7.3.1令单词表序号变量iV=1。
3.2.7.3.5令iV=iV+1,转3.2.7.3.2。
3.2.7.4语义表示模块将中相似度大于ss的二元组按照从大到小的顺序排序,从排序结果中依次取出每个二元组 中的第一项加入的临近词序列临近词序列中即为词在单词表V中的最相近的词的序列,记为其中为单词表V中第ip个与相似的词。
3.2.7.5.2如果ip>np,转3.2.7.6;否则,执行3.2.7.5.3;
3.2.7.5.4令ip=ip+1,跳转3.2.7.5.2。
3.2.7.6令iN=iN+1,然后转3.2.7.2。
3.2.8语义表示模块调用机器学习工具包scikit-learn中的k_means函数对向量进行聚类。k_means函数接收两个参数:待聚类向量集合和聚类个数,其中待聚类向量集合是由任意个同维数向量组成的集合,聚类个数是一个正整数,表示期望输出的集合个数。k_means函数输出聚类个数个集合,这些集合是待聚类向量集合的子集,表示将待聚类向量集合中的向量分成了聚类个数个类。
3.2.12 iL=iL+1,转3.2.2。
第四步,候选排序模块通过比较原始标签表中原始标签文字le和所有标准标签元的语义,根据le和所有标准标签元语义的相似性生成le的候选标准标签元列表Candi(le),并将Candi(le)中语义最相似的候选标签作为标准标签提交给存储服务器存储。具体方法如下:
4.1候选排序模块设置候选列表长度n2(n2为正整数且0<n2<20),候选列表最小临近程度阈值s2(s2为小于1的正实数且0.3≤s2≤1)。
4.2候选排序模块读取原始标签表。
4.4令iY=1;
4.5如果iY>nY,说明已获取了所有原始标签表中所有原始标签的原始标签文字的候选标准标签元列表,转第五步,否则,执行4.6;
4.6.1.1令iB=1;
4.6.1.2如果iB>nB,转4.6.1.7,否则,执行4.6.1.3;
4.6.1.6令iB=iB+1,转4.6.1.2。
4.7如果候选标准标签元列表不为空,候选排序模块依次提取中第一个标准标签元的标签文字作为标准标签文字及原始标签的标注对象id,标注对象文字内容作为标注对象id和标注对象文字内容,形成标准标签,标准标签为三元组<标准标签文字,标注对象id,标注对象文字内容>,将标准标签提交给存储服务器。
4.8存储服务器从标签服务器收到4.7生成的标准标签后,将<标准标签文字,标注对象id,标注对象文字内容>三个域作为一个表项,写入标准标签表。
4.9令iY=iY+1,转4.5;
第五步,标签比较模块的特征提取模块将标签修改日志表中的标签修改日志转化为特征,存入修改日志特征文件。具体步骤如下:
5.1令iX=1;
5.2如果iX>nX,说明标签修改日志表中的所有标签修改日志已转化为特征并存入修改日志特征文件,转第六步,否则,执行5.3。
5.4.1.1特征提取模块用的“标签id”域查询存储服务器的原始标签表,获得原始标签表表项
5.4.7.1.6令
5.4.7.1.7iC=iC+1,转5.4.7.1.4;
5.6令iX=iX+1,转5.2;
第六步,标签比较模块训练SVM分类器S,用于判定对标签修改日志表中的标签修改日志是采纳还是拒绝,具体步骤如下:
6.1标签比较模块构建训练集Tr,训练集Tr是一个9列Nmax行的矩阵(Nmax为正整数,且Nmax≥1000),每一行代表一个标签修改日志,其第1至第8列代表标签修改日志的第一至第八特征。第9列为采纳结果,0代表标签修改日志被拒绝,为1代表标签修改日志被采纳。具体的方法是:
6.1.2令iX=1,初始化Tr为空矩阵。
6.1.3如果iX>nX或Tr已有Nmax行,转6.2,否则,执行6.1.4;
6.1.6iX=iX+1,转6.1.3;
6.2标签比较模块调用机器学习工具包的SVM函数,输入训练集Tr,获得分类器S。
第七步,标签服务器上的标签比较模块使用分类器S对于标签修改日志表中每一个表项,先判断是否采纳,再根据标签修改日志对标准标签表中的对应表项进行修改。具体方法如下:
7.1令iX=1。
7.3如果iX>nX,转第八步,否则,执行7.4;
7.10 iX=iX+1,转7.3。
第八步,结束。
图3是采用本发明与采用背景技术所述DBS方法对维基条目打标签得到标签精确率、召回率、准确率的比较示意。
实验条件:采用一个i7-5930k CPU和两个NVIDIA GeForce TITAN X GPU的工作站一台,操作系统为Ubuntu 16.04,词向量工具包为gensim-3.2.0,自动分词工具包为jieba分词-0.39,机器学习工具包为scikit-learn-0.20,数据库采用MySQL8.0。
数据集采用2018年1月1日的维基百科快照语料,使用CBOW模型计算汉语字向量、词向量和语料中出现的词组的向量。处理对象:实验将维基条目看作一种在线教育资源,维基条目中以超链接的形式标注出的条目中的重要概念作为对应维基条目的原始标签文字,维基百科中条目列表作为标准标签列表,分别利用本发明和DBS算法为维基条目打标签。
采用DBS得到的结果:利用DBS方法所得标签精确率为46.38%,召回率62.56%,准确率52.12%;
采用本发明得到的结果:本发明算法所得标签精确率100%,召回率100%,准确率100%。
Claims (13)
1.一种综合多源知识的在线文本类教育资源标签生成方法,其特征在于包括以下步骤:
第一步,构建标签生成系统,标签生成系统由标签服务器和存储服务器构成,存储服务器与标签服务器使用局域网进行连接;
存储服务器存储原始标签表、标签修改日志表、标签服务器产生的标准标签表;
原始标签表存储教育网站运行过程产生的原始标签;原始标签表的一个表项是一个原始标签,原始标签包括标签id、原始标签文字、标注对象id、标注对象文字内容、生产者id共5个域,id即序号;标签id的数据类型是整数,标签id是原始标签表的主键,标签id是原始标签的唯一标示;原始标签文字的数据类型是字符串,代表标签的文字部分;标注对象id的数据类型是整数,代表标签对应的教育资源的标示;标注对象文字内容的数据类型是字符串,代表标签对应的教育资源的文字内容;生产者id的数据类型是整数,代表提交这条原始标签的用户的标示;
标签修改日志表存储教育网站运行过程产生的标签修改日志,标签修改日志表是由若干标签修改日志构成的集合,记为其中为第iX个标签修改日志iX=1,…,nX;每个标签修改日志有标签id、原标签文字、新标签文字、修改者id、采纳结果5个域;标签id的数据类型是整数,与原始标签表中的“标签id”相对应,代表标签的标示;原标签文字的数据类型是字符串,代表修改前的标签文字;新标签文字的数据类型是字符串,代表修改后的标签文字;修改者id的数据类型是整数,代表提交这条修改的用户;采纳结果的数据类型为整数,是从集合{-1,0,1}中取的一个值,0表示这条修改被拒绝,1表示这条修改被接受,-1表示这条修改还未被处理;nX为正整数,表示标签修改日志表中标签修改日志的个数;
标准标签表存储原始标签对应的结构化、规范化的标准标签;标准标签表的一个表项是一个标准标签,标准标签包括标准标签文字、标注对象id、标注对象文字内容共3个域;标准标签文字的数据类型是字符串,代表标签的文字部分,是标准标签元中出现过的标准标签文字;标注对象id的数据类型是整数,代表标签对应的教育资源的标示;标注对象文字内容的数据类型是字符串,代表标签对应的教育资源的文字内容;
标签服务器是可以运行计算密集型或者知识密集型的标签生成和处理应用的服务器,标签服务器上除安装有词向量工具包、自动分词工具包和机器学习工具包外,还存储有标准标签元集合文件、背景知识语料库以及在标签生成过程中的一些中间文件,并安装有知识表示模块、语义表示模块、候选排序模块和标签比较模块,中间文件包括词向量文件、标签向量文件、候选标准标签列表和修改日志特征文件;
标准标签元集合文件存储“标签元”;“标签元”含有标签文字和对客体的文字描述,是“<标签文字,客体描述>”二元组,背景知识语料库是指符合词向量训练要求的自然文本;
知识表示模块与背景知识语料库、标准标签元集合文件、词向量工具包、词向量文件相连,知识表示模块从背景知识语料库读取语料,从标准标签元集合文件读取标准标签元,调用词向量工具包对语料和标准标签元进行词向量训练,将训练后得到的词向量存到词向量文件中;
语义表示模块与词向量文件、标签向量文件、自动分词工具包、原始标签表、标签修改日志表相连,语义表示模块调用自动分词工具包对原始标签表中每一个原始标签的“原始标签文字”域和标签修改日志表中每一条标签修改日志的“原标签文字”与“新标签文字”域中的文本进行分词,从词向量文件读取每个词的词向量,将原始标签表的“原始标签文字”域和标签修改日志表中的“原标签文字”与“新标签文字”域中的文本根据每个词的词向量表示成语义向量并将语义向量存到标签向量文件中;
候选排序模块与标准标签元集合文件、原始标签表、标签向量文件、候选标准标签列表相连,候选排序模块依次读取原始标签表中的原始标签的原始标签文字,并从标准标签元集合文件依次读取标准标签元,从标签向量文件获取原始标签文字及标准标签元对应的语义向量,基于语义向量,分别计算原始标签文字与标准标签元集合文件中每个标准标签元的相似性,依据此相似性对标准标签元进行排序,选择相似性强的标准标签元生成原始标签对应的候选标准标签列表;
标签比较模块与原始标签表、标签修改日志表、自动分词工具包、机器学习工具包、修改日志特征文件、标准标签表相连,由特征提取模块、分类器组成;特征提取模块将标签修改日志表的表项转化成特征向量,将特征向量存入修改日志特征文件,供分类器训练;训练后的分类器判断标签修改日志表的表项的采纳结果,将采纳结果更新到标准标签表;
第二步,知识表示模块将背景知识语料库中的语料和标准标签元集合文件中的标准标签元转化为词列表和词向量,存储在词向量文件中,方法是:
2.1知识表示模块从背景知识语料库接收语料,从标准标签元集合文件读取标准标签元,将标准标签元、语料输入CBOW训练函数即连续词包模型训练函数,生成词列表和词向量;其中词列表包含语料中的所有字、词和标准标签中的标签文字;词向量是CBOW训练函数为每个字、词或标准标签中的标签文字生成的n维实数向量,n为正整数;任意一个字、词或标准标签元中的标签文字x的词向量用e(x)表示;
2.2知识表示模块将词列表和及其对应的词向量存储到词向量文件;
第三步,语义表示模块将原始标签表中所有原始标签的“原始标签文字”域、标签修改日志表中所有标签修改日志的“原标签文字”域和“新标签文字”域中的字符串转化成标签向量,并将标签向量存入标签向量文件,方法是:
3.1语义表示模块将原始标签表中所有表项的“原始标签文字”域、标签修改日志表中所有标签修改日志的“原标签文字”域和“新标签文字”域作为待表示标签文字,放入待表示列表L,记为 表示第iL个待表示标签文字,nL为待表示标签文字的个数;原始标签表中的所有表项为nY为原始标签表中表项的个数,为第iY个原始标签;标签修改日志表中的所有表项为nX为标签修改日志表中表项的个数,为第iX个标签修改日志;nL≤nY+2*nX;
3.2语义表示模块使用改进后的NCA方法将待表示列表L中的所有待表示标签文字转化成标签向量,并将标签向量存入标签向量文件;具体步骤为:
3.2.1令待表示列表序号变量iL=1;
3.2.2如果iL>nL,说明待表示标签列表L中的所有待表示标签文字都已转化为标签向量,转第四步,否则,执行3.2.3;
3.2.7.4语义表示模块将中相似度大于ss的二元组按照从大到小的顺序排序,从排序结果中依次取出每个二元组 中的第一项加入的临近词序列临近词序列中即为词在单词表V中的最相近的词的序列,记为其中为单词表V中第ip个与相似的词;
3.2.7.6令iN=iN+1,转3.2.7.2;
3.2.8语义表示模块调用机器学习工具包中的聚类函数对向量进行聚类,聚类函数接收两个参数:待聚类向量集合和聚类个数,其中待聚类向量集合是由任意个同维数向量组成的集合,聚类个数是一个正整数,表示期望输出的集合个数;聚类函数输出聚类个数个集合,这些集合是待聚类向量集合的子集,表示将待聚类向量集合中的向量分成了聚类个数个类;
3.2.12iL=iL+1,转3.2.2;
第四步,候选排序模块通过比较原始标签表中原始标签文字le和所有标准标签元的语义,根据le和所有标准标签元语义的相似性生成le的候选标准标签列表Candi(le),并将Candi(le)中语义最相似的候选标签作为标准标签提交给存储服务器存储,具体方法如下:
4.1候选排序模块设置候选标准标签列表长度n2,n2为正整数,候选列表最小临近程度阈值s2,s2为小于1的正实数;
4.2候选排序模块读取原始标签表;
4.4令iY=1;
4.5如果iY>nY,说明已获取了所有原始标签表中所有原始标签的原始标签文字的候选标准标签列表,转第五步,否则,执行4.6;
4.7如果候选标准标签列表不为空,候选排序模块依次提取中第一个标准标签元的标签文字作为标准标签文字及原始标签的标注对象id,标注对象文字内容作为标注对象id和标注对象文字内容,形成标准标签,标准标签为三元组<标准标签文字,标注对象id,标注对象文字内容>,将标准标签提交给存储服务器;
4.8存储服务器从标签服务器收到4.7生成的标准标签后,将<标准标签文字,标注对象id,标注对象文字内容>三个域作为一个表项,写入标准标签表;
4.9令iY=iY+1,转4.5;
第五步,标签比较模块的特征提取模块将标签修改日志表中的标签修改日志转化为特征,存入修改日志特征文件,具体步骤如下:
5.1令iX=1;
5.2如果iX>nX,说明标签修改日志表中的所有标签修改日志已转化为特征并存入修改日志特征文件,转第六步,否则,执行5.3;
5.6令iX=iX+1,转5.2;
第六步,标签比较模块训练支持向量机SVM分类器S,用于判定对标签修改日志表中的标签修改日志是采纳还是拒绝,具体步骤如下:
6.1标签比较模块构建训练集Tr,训练集Tr是一个9列Nmax行的矩阵,Nmax为正整数,每一行代表一个标签修改日志,其第1至第8列代表标签修改日志的第一至第八特征;第9列为采纳结果,0代表标签修改日志被拒绝,为1代表标签修改日志被采纳;具体的方法是:
6.1.2令iX=1,初始化Tr为空矩阵;
6.1.3如果iX>nX或Tr已有Nmax行,转6.2,否则,执行6.1.4;
6.1.6iX=iX+1,转6.1.3;
第七步,标签服务器上的标签比较模块使用分类器S对于标签修改日志表中每一个表项,先判断是否采纳,再根据标签修改日志对标准标签表中的对应表项进行修改;具体方法如下:
7.1令iX=1;
7.3如果iX>nX,转第八步,否则,执行7.4;
7.10iX=iX+1,转7.3;
第八步,结束。
2.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法,其特征在于让所述存储服务器部署了数据库软件以为原始标签表、标签修改日志表和标准标签表提供添加表项、修改表项、查询表项这样的数据库功能,所述数据库软件指MySQL8.0及以上版本。
3.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法,其特征在于所述词向量工具包指gensim-3.2.0或以上版本、自动分词工具包指jieba分词-0.39或以上版本,机器学习工具包指scikit-learn-0.20或以上版本。
4.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法,其特征在于所述n满足50<n<100;所述nn满足50≤nn≤100,所述ss满足0.2≤ss≤1;所述n2满足0<n2<20,所述s2满足0.3≤s2≤1;所述Nmax≥1000。
5.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法,其特征在于3.1步所述语义表示模块将原始标签表中所有表项的“原始标签文字”域、标签修改日志表中所有标签修改日志的“原标签文字”域和“新标签文字”域作为待表示标签文字,放入待表示列表L的方法是:3.1.1语义表示模块读取原始标签表
3.1.2令原始标签表序号变量iY=1,令待表示列表L为空;
3.1.3如果iY>nY,转3.1.6,否则,执行3.1.4;
3.1.5令iY=iY+1,转3.1.3;
3.1.6语义表示模块读取标签修改日志表
3.1.7令标签修改日志表序号变量iX=1;
3.1.8如果iX>nX,说明已得到L,结束;否则,执行3.1.9;
3.1.10语义表示模块读取的新标签文字域,如果新标签文字域的字符串不在待表示列表L中,则将新标签文字域的字符串添加进待表示列表L;
3.1.11令iX=iX+1,转3.1.8。
3.2.7.3.1令单词表序号变量iV=1;
3.2.7.3.5令iV=iV+1,转3.2.7.3.2。
8.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法,其特征在于3.2.8步所述聚类函数为scikit-learn中的k_means函数。
4.6.1.1令iB=1;
4.6.1.2如果iB>nB,转4.6.1.7,否则,执行4.6.1.3;
4.6.1.6令iB=iB+1,转4.6.1.2;
5.4.7.1.7iC=iC+1,转5.4.7.1.4;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910945282.5A CN110688461B (zh) | 2019-09-30 | 2019-09-30 | 一种综合多源知识的在线文本类教育资源标签生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910945282.5A CN110688461B (zh) | 2019-09-30 | 2019-09-30 | 一种综合多源知识的在线文本类教育资源标签生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110688461A true CN110688461A (zh) | 2020-01-14 |
CN110688461B CN110688461B (zh) | 2021-08-06 |
Family
ID=69111379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910945282.5A Active CN110688461B (zh) | 2019-09-30 | 2019-09-30 | 一种综合多源知识的在线文本类教育资源标签生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110688461B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836992A (zh) * | 2021-06-15 | 2021-12-24 | 腾讯科技(深圳)有限公司 | 识别标签的方法、训练标签识别模型的方法、装置及设备 |
CN117708340A (zh) * | 2024-02-06 | 2024-03-15 | 阿里健康科技(杭州)有限公司 | 标签文本的确定方法、模型训练及调整方法、设备和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598588A (zh) * | 2015-01-19 | 2015-05-06 | 河海大学 | 基于双聚类的微博用户标签自动生成算法 |
WO2018174816A1 (en) * | 2017-03-24 | 2018-09-27 | Agency For Science, Technology And Research | Method and apparatus for semantic coherence analysis of texts |
CN108874971A (zh) * | 2018-06-07 | 2018-11-23 | 北京赛思信安技术股份有限公司 | 一种应用于海量标签化实体数据存储的工具和方法 |
-
2019
- 2019-09-30 CN CN201910945282.5A patent/CN110688461B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598588A (zh) * | 2015-01-19 | 2015-05-06 | 河海大学 | 基于双聚类的微博用户标签自动生成算法 |
WO2018174816A1 (en) * | 2017-03-24 | 2018-09-27 | Agency For Science, Technology And Research | Method and apparatus for semantic coherence analysis of texts |
CN108874971A (zh) * | 2018-06-07 | 2018-11-23 | 北京赛思信安技术股份有限公司 | 一种应用于海量标签化实体数据存储的工具和方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836992A (zh) * | 2021-06-15 | 2021-12-24 | 腾讯科技(深圳)有限公司 | 识别标签的方法、训练标签识别模型的方法、装置及设备 |
CN113836992B (zh) * | 2021-06-15 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 识别标签的方法、训练标签识别模型的方法、装置及设备 |
CN117708340A (zh) * | 2024-02-06 | 2024-03-15 | 阿里健康科技(杭州)有限公司 | 标签文本的确定方法、模型训练及调整方法、设备和介质 |
CN117708340B (zh) * | 2024-02-06 | 2024-05-24 | 阿里健康科技(杭州)有限公司 | 标签文本的确定方法、模型训练及调整方法、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110688461B (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sebastiani | Text categorization | |
CN104933164B (zh) | 互联网海量数据中命名实体间关系提取方法及其系统 | |
Sebastiani | Classification of text, automatic | |
CN108509521B (zh) | 一种自动生成文本索引的图像检索方法 | |
WO2001093102A1 (en) | Method and apparatus for making predictions about entities represented in documents | |
CN110633365A (zh) | 一种基于词向量的层次多标签文本分类方法及系统 | |
CN110888991A (zh) | 一种弱标注环境下的分段式语义标注方法 | |
Asirvatham et al. | Web page classification based on document structure | |
KR20220134695A (ko) | 인공지능 학습 모델을 이용한 저자 식별 시스템 및 그 방법 | |
CN110688461B (zh) | 一种综合多源知识的在线文本类教育资源标签生成方法 | |
CN110196910A (zh) | 一种语料分类的方法及装置 | |
CN115640462A (zh) | 一种基于知识库增强的跨域新闻推荐方法 | |
CN114611491A (zh) | 基于文本挖掘技术的智慧政务舆情分析研究方法 | |
Sharaff et al. | Analysing fuzzy based approach for extractive text summarization | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
Zhou et al. | Learning transferable node representations for attribute extraction from web documents | |
CN106372123B (zh) | 一种基于标签的相关内容推荐方法和系统 | |
Vitman et al. | Evaluating the Impact of OCR Quality on Short Texts Classification Task | |
Chen et al. | Novel word features for keyword extraction | |
Nagaraj et al. | A novel semantic level text classification by combining NLP and Thesaurus concepts | |
Rani et al. | Telugu text summarization using LSTM deep learning | |
Ramachandran et al. | Document Clustering Using Keyword Extraction | |
Gah et al. | Sentiment Analysis of Twitter Feeds using Machine Learning, Effect of Feature Hash Bit Size | |
Li et al. | Similarity search algorithm over data supply chain based on key points | |
Aref | Mining publication papers via text mining Evaluation and Results |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |