CN110688461A - 一种综合多源知识的在线文本类教育资源标签生成方法 - Google Patents

一种综合多源知识的在线文本类教育资源标签生成方法 Download PDF

Info

Publication number
CN110688461A
CN110688461A CN201910945282.5A CN201910945282A CN110688461A CN 110688461 A CN110688461 A CN 110688461A CN 201910945282 A CN201910945282 A CN 201910945282A CN 110688461 A CN110688461 A CN 110688461A
Authority
CN
China
Prior art keywords
label
original
tag
word
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910945282.5A
Other languages
English (en)
Other versions
CN110688461B (zh
Inventor
李莎莎
庞焜元
唐晋韬
王挺
陈凤
党芙蓉
林登雯
王攀成
徐维桑
余诗文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201910945282.5A priority Critical patent/CN110688461B/zh
Publication of CN110688461A publication Critical patent/CN110688461A/zh
Application granted granted Critical
Publication of CN110688461B publication Critical patent/CN110688461B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种综合多源知识的在线文本类教育资源标签生成方法,目的是提高标签的客体准确性。技术方案是先构建含有知识表示模块、语义表示模块、候选排序模块和标签比较模块的标签生成系统;知识表示模块将语料和标准标签元转化为词列表和词向量;语义表示模块构建标签向量;候选排序模块根据原始标签文字le和所有标准标签元语义的相似性生成le的候选标签列表Candi(le),并将Candi(le)中语义最相似的候选标签作为标准标签;标签比较模块将训练SVM分类器S判定对标签修改日志表中的标签修改日志是采纳还是拒绝,根据S结果对标准标签表中的对应表项进行修改。采用本发明能提高标签的客体准确率、标签结构性和标签规范性。

Description

一种综合多源知识的在线文本类教育资源标签生成方法
技术领域
本发明涉及一种教育资源的信息增强方法,尤其是一种综合多来源信息,对文本类教育资源添加高准确性、高结构化的标签的方法。
背景技术
随着互联网和信息技术的飞速发展,在线的共享教育资源日渐丰富。其中包括在线电子出版物、教育论坛、MOOC(大规模开放在线课程)等。以著名的在线课程网站coursera为例,有超过3300万注册用户,在线学习2700多门课程。每门课程包含数十段短视频,及其对应的字幕、阅读材料、随堂测试等文本形式的教育资源。
标注是对互联网资源进行信息增强的常见方式。对于互联网资源的检索、查询、摘要和自动理解均有重要作用。然而,教育资源来源复杂,待标注的历史数据多,使用者对标注的质量要求高。如何高效高质量地产生资源的标注是目前面临的主要问题之一。
标签式标注方法是现有MOOC平台进行资源标注的主要方式。其主要思想是针对标注对象生成标签,其中“标注对象”可以是一篇文章、一段视频,或者是文章、视频的特定位置,“标签”是一种可存储的数据结构,主要内容为一个词或短语。对应“标注对象”中的一个客观事实(称为“客体”),如组成、性质、特征等。一个标注对象至少包含一个客体,每个客体对应一个或几个确定的标签。
评价标签标注的客观指标有三个:客体准确率、标签结构性、标签规范性。客体准确率由精确率和召回率两部分组成。精确率是指标注结果中的客体,确实为“标注对象包含的客体”数占标注结果中的所有客体数的比例。精确率越低意味着给用户提供了越多的无用信息干扰。召回率是指标注结果中的客体,确实为标注对象的客体数占标注对象所有客体数的比例。召回率越低意味着给用户提供的正确信息越不完整。标签结构性是指标签与知识库的连接程度,定义是使用标签去检索知识库,查询到的正确客体占所有标注结果的比例。标签规范性是指对于同一个客体产生的标签是通用的一致的表述,定义是存在于客体的规范术语集合中的标签占标签总数的比例。规范术语集合可以通过查阅“全国科学技术名词审定委员会”等机构审定的术语表得到。
现有的标签标注方法分为自动抽取和用户添加两种。自动抽取标签是以TextRank等关键词抽取算法(“Mihalcea R,Tarau P.TextRank:Bringing Order into Texts[J].Emnlp,2004:404-411.”译为:《TextRank:将顺序信息引入文本中》),自动识别文本中的关键字,并将其作为标签。自动抽取标签算法最新的研究是DBS,(DBpediaSpotlight,通用百科知识图谱标注器)。DBS方法将文本标签的生成分为两步:
第一步,标签发现。遍历待标注的文本资源,找到所有与知识库或标签库中字面相同的字符串作为标签候选集。然后按照字符串被标注的先验概率和标签边界不能相互重叠的原则,手工设置阈值,挑选出标签候选集的一部分作为标签集合。
第二步,标签链接。分别计算一个标签出现的先验概率、标签出现为此字符串的概率、标签出现在此上下文中的概率、该字符串上下文不应作为标签的概率,利用概率累加公式将第一步中的字符串链接到标签库中。
DBS的缺陷主要集中在第一步中获取的标签客体准确率低。DBS自动选择标签的精确率仅为49.45%,召回率仅为55.53%。这在教育资源标注中会遗漏大量的知识点,并引入约一倍的错误标签。
用户添加是以维基百科的分类、各大视频网站的视频标签为代表,人工为标注对象添加标签的过程。其中以哔哩哔哩动画网(www.bilibili.com)的标注功能最为丰富,具体的添加标签过程如下:
第一步,视频上传者在上传视频的同时为一个视频添加标签。
第二步,视频使用者在使用视频的同时为该视频添加新的标签或更改已有标签。
第三步,当出现争议时,由管理员和视频上传者决策并锁定标签。通过用户添加的方式产生的标签客体准确性高,但没有同知识库的链接,标签结构性低,且通过这种方式生成的标签规范性低。同时消耗大量的人力资源,尤其需要管理员的维护。
所以如何解决自动抽取标签方法客体准确率低的缺陷,又解决用户添加方法标签结构性低、标签规范性低的缺陷成为一个亟待解决的技术问题。
发明内容
本发明要解决的技术问题是针对标签精准性和标签结构性、规范性的矛盾问题,提出一种综合多源知识的在线文本类教育资源标签生成方法,既提高标签的客体准确性,又提高标签结构性和标签规范性。
本发明的技术方案是把网站的原始标签集合和完全结构化、规范化的标准标签元集合映射到相同的语义空间上,实现原始标签到标准标签元的映射,得到高准确率高结构化的标准标签表。然后根据标签修改日志的情况对标准标签表中的元素进行同步修改,进一步提高标准标签表中标签的准确率。
为实现上述目的,本发明包含以下步骤:
第一步,构建标签生成系统。它由标签服务器和存储服务器构成。存储服务器与标签服务器使用局域网进行连接。
存储服务器存储以下两方面内容:1)原始标签表和标签修改日志表;2)标签服务器产生的标准标签表。存储服务器上部署了数据库软件(MySQL8.0及以上版本)以为原始标签表、标签修改日志表和标准标签表提供添加表项、修改表项、查询表项等通用数据库功能。
原始标签表存储教育网站运行过程产生的原始标签。原始标签表的一个表项是一个原始标签,原始标签包括标签id(id即序号)、原始标签文字、标注对象id、标注对象文字内容、生产者id共5个域。一个原始标签表表项的整体意义是:生产者id对应的用户对标注对象id对应的教育资源提交了原始标签文字这条标签,教育资源的内容是标注对象文字内容,这条标签的编号是标签id。标签id的数据类型是整数,标签id是原始标签表的主键,标签id是原始标签的唯一标示。原始标签文字的数据类型是字符串,代表标签的文字部分。标注对象id的数据类型是整数,代表标签对应的教育资源的标示。标注对象文字内容的数据类型是字符串,代表标签对应的教育资源的文字内容,如一段字幕,一篇文章等。生产者id的数据类型是整数,代表提交这条原始标签的用户的标示。
标签修改日志表存储教育网站运行过程产生的标签修改日志。标签修改日志表是由若干标签修改日志构成的集合,可记为
Figure BDA0002223974780000031
其中
Figure BDA0002223974780000032
为第iX个标签修改日志。每个标签修改日志有标签id、原标签文字、新标签文字、修改者id、采纳结果5个域。一个标签修改日志的整体意义是:修改者id对应的用户提交了一条申请,申请将“标签id”对应的标签的文字内容由“原标签文字”更改为“新标签文字”,对此申请的处理结果为“采纳结果”。标签id的数据类型是整数,与原始标签表中的“标签id”相对应,代表标签的标示。原标签文字的数据类型是字符串,代表修改前的标签文字。新标签文字的数据类型是字符串,代表修改后的标签文字。修改者id的数据类型是整数,代表提交这条修改的用户。采纳结果的数据类型为整数,是从集合{-1,0,1}中取的一个值,0表示这条修改被拒绝,1表示这条修改被接受,-1表示这条修改还未被处理。nX为正整数,表示标签修改日志表中标签修改日志的个数。
标准标签表存储原始标签对应的结构化、规范化的标准标签。标准标签表的一个表项是一个标准标签,标准标签包括标准标签文字、标注对象id、标注对象文字内容共3个域。一个标准标签表表项的整体意义是:标注对象id对应的教育资源对应标准标签文字,其内容是标注对象文字内容。标准标签文字的数据类型是字符串,代表标签的文字部分,是标准标签元中出现过的标准标签文字。标注对象id的数据类型是整数,代表标签对应的教育资源的标示。标注对象文字内容的数据类型是字符串,代表标签对应的教育资源的文字内容,如一段字幕,一篇文章等。
标签服务器是具有良好计算能力的服务器,可以运行计算密集型或者知识密集型的标签生成和处理应用。标签服务器上除安装有词向量工具包(如gensim-3.2.0或以上版本)、自动分词工具包(如jieba分词-0.39或以上版本)和机器学习工具包(如scikit-learn-0.20或以上版本)外,还存储有标准标签元集合文件、背景知识语料库以及在标签生成过程中的一些中间文件(如词向量文件、标签向量文件、候选标准标签列表和修改日志特征文件),并安装有知识表示模块、语义表示模块、候选排序模块和标签比较模块。
标准标签元集合文件存储“标签元”。“标签元”含有标签文字和对客体的文字描述,是“<标签文字,客体描述>”二元组,如“全国科学技术名词审定委员会”审定的术语表(详见http://www.cnctst.cn/sdgb/)。背景知识语料库是指符合词向量训练要求的自然文本。(词向量训练要求参见“Mikolov,T.,Sutskever,I.,Chen,K.,et.al.Distributedrepresentations of words and phrases and their compositionality[C].//NeuralInformation Processing Systems.2013:3111-3119.”即词与词组的分布表达及其组合性,2013年《神经信息处理系统大会》论文集3111-3119页)。
知识表示模块与背景知识语料库、标准标签元集合文件、词向量工具包、词向量文件相连,知识表示模块从背景知识语料库读取语料,从标准标签元集合文件读取标准标签元,调用词向量工具包对语料和标准标签元进行词向量训练,将训练后得到的词向量存到词向量文件中。
语义表示模块与词向量文件、标签向量文件、自动分词工具包、原始标签表、标签修改日志表相连,语义表示模块调用自动分词工具包对原始标签表中每一个原始标签的“原始标签文字”域和标签修改日志表中每一条标签修改日志的“原标签文字”与“新标签文字”域中的文本进行分词,从词向量文件读取每个词的词向量,将原始标签表的“原始标签文字”域和标签修改日志表中的“原标签文字”与“新标签文字”域中的文本根据每个词的词向量表示成语义向量并将语义向量存到标签向量文件中。
候选排序模块与标准标签元集合文件、原始标签表、标签向量文件、候选标准标签列表相连,候选排序模块依次读取原始标签表中的原始标签的原始标签文字,并从标准标签元集合文件依次读取标准标签元,从标签向量文件获取原始标签文字及标准标签元对应的语义向量,基于语义向量,分别计算原始标签文字与标准标签元集合文件中每个标准标签元的相似性,依据此相似性对标准标签元进行排序,选择相似性强的标准标签元生成原始标签对应的候选标准标签列表。
标签比较模块与原始标签表、标签修改日志表、自动分词工具包、机器学习工具包、修改日志特征文件、标准标签表相连,由特征提取模块、分类器组成。特征提取模块将标签修改日志表的表项转化成特征向量,将特征向量存入修改日志特征文件,供分类器训练。训练后的分类器判断标签修改日志表的表项的采纳结果,将采纳结果更新到标准标签表。
第二步,知识表示模块将背景知识语料库中的语料和标准标签元集合文件中的标准标签元转化为词列表和词向量,存储在词向量文件中。具体的步骤如下:
2.1知识表示模块从背景知识语料库接收语料,从标准标签元集合文件读取标准标签元,将标准标签元、语料输入CBOW(Continuous Bag-Of-Words Model,连续词包模型)训练函数(模型细节参见“Mikolov,T.,Sutskever,I.,Chen,K.,et.al.Distributedrepresentations of words and phrases and their compositionality[C].//NeuralInformation Processing Systems.2013∶3111-3119.”即词与词组的分布表达及其组合性,2013年《神经信息处理系统大会》论文集3111-3119页),生成词列表和词向量。其中词列表包含语料中的所有字、词和标准标签中的标签文字。词向量是CBOW训练函数为每个字、词或标准标签中的标签文字生成的n维实数向量(50<n<100)。任意一个字、词或标准标签中的标签文字x的词向量用e(x)表示。
2.2知识表示模块将词列表和及其对应的词向量存储到词向量文件。
第三步,语义表示模块将原始标签表中所有原始标签的“原始标签文字”域、标签修改日志表中所有标签修改日志的“原标签文字”域和“新标签文字”域中的字符串转化成标签向量,并将标签向量存入标签向量文件。
根据文献(“PangK,TangJ,WangT.Which Embedding Level is Better forSemantic Representation?An Empirical Research on Chinese Phrases[C]//CCFInternational Conference on Natural Language Processing and ChineseComputing.Springer,2018:54-66.”译为:庞焜元,唐晋韬,王挺.哪一嵌入级别对语义表示更合适?中文短语上的一次实验研究,2018年国际自然语言处理及中文计算会议论文集第51页-66页)中实验4.1的结论,词组和短语的语义用该论文提出的NCA方法(NeighborClusterAverage,临近词聚类中心)表示得最好。
结合教育文本停用词多、停用词不影响语义和不同主题的词在语义空间分布边界鲜明的特点,本发明改进了NCA方法,在NCA方法的基础上加入停用词过滤和最小临近程度两个阈值,从而使获得的标签向量更有利于准确度量标签文字间的相似度,从而形成更准确的候选标准标签元排序。
具体方法如下:
3.1语义表示模块将原始标签表中所有表项的“原始标签文字”域、标签修改日志表中所有标签修改日志的“原标签文字”域和“新标签文字”域作为待表示标签文字,放入待表示列表L,记为
Figure BDA0002223974780000061
表示第iL个待表示标签文字,nL为待表示标签文字的个数。具体步骤是:3.1.1语义表示模块读取原始标签表,记其中的所有表项为nY为原始标签表中表项的个数,为第iY个原始标签。
3.1.2令原始标签表序号变量iY=1,令待表示列表L为空;
3.1.3如果iY>nY,转3.1.6,否则,执行3.1.4;
3.1.4语义表示模块读取
Figure BDA0002223974780000067
的原始标签文字域,如果原始标签文字域不在待表示列表L中,则将
Figure BDA0002223974780000068
的原始标签文字域添加进待表示列表L。
3.1.5令iY=iY+1,转3.1.3.
3.1.6语义表示模块读取标签修改日志表,记标签修改日志表中的所有表项为
Figure BDA0002223974780000065
nX为标签修改日志表中表项的个数,为第iX个标签修改日志;
3.1.7令标签修改日志表序号变量iX=1;
3.1.8如果iX>nX,说明已得到L,L中的待表示标签文字的个数nL≤nY+2*nX,转3.2,否则,执行3.1.9;
3.1.9语义表示模块读取
Figure BDA00022239747800000722
的原标签文字域,如果原标签文字域的字符串不在待表示列表L中,则将原标签文字域的字符串添加进待表示列表L。
3.1.10语义表示模块读取的新标签文字域,如果新标签文字域的字符串不在待表示列表L中,则将新标签文字域的字符串添加进待表示列表L。
3.1.11令iX=iX+1,转3.1.8;
3.2语义表示模块使用改进后的NCA方法将3.1中获得的待表示列表L中的所有待表示标签文字转化成标签向量,并将标签向量存入标签向量文件。具体步骤为:
3.2.1令待表示列表序号变量iL=1;
3.2.2如果iL>nL,说明待表示标签列表L中的所有待表示标签文字都已转化为标签向量,转第四步,否则,执行3.2.3;
3.2.3语义表示模块调用自动分词工具包对L中第iL个待表示标签文字
Figure BDA0002223974780000071
分词,获得第iL个词序列
Figure BDA0002223974780000072
3.2.4语义表示模块去除词序列
Figure BDA0002223974780000073
中的单字和停用词,得到筛选后的词集合
Figure BDA0002223974780000074
Figure BDA0002223974780000075
Figure BDA0002223974780000076
中含有
Figure BDA0002223974780000077
个词,
Figure BDA0002223974780000078
Figure BDA0002223974780000079
的第iN个词。
3.2.5语义表示模块设置以下阈值:邻居数目nn(nn为正整数且50≤nn≤100)和最小临近程度ss(ss为小于1的正实数且0.2≤ss≤1)。定义待表示标签文字的临近词词向量集合
Figure BDA00022239747800000711
Figure BDA00022239747800000712
中所有词的临近词的词向量集合,初始化为空集合。
3.2.6语义表示模块从2.1生成的词向量文件中读取词列表,记做单词表V,V为
Figure BDA00022239747800000714
其中
Figure BDA00022239747800000715
为V中的第iV个词,nV为V中词的个数。
3.2.7语义表示模块找到
Figure BDA00022239747800000716
中词
Figure BDA00022239747800000717
的临近词集合
Figure BDA00022239747800000718
并从词向量文件查找中的每个词的词向量,将这些词向量加入
Figure BDA00022239747800000720
的临近词词向量集合
Figure BDA00022239747800000721
方法是:
3.2.7.1令
Figure BDA0002223974780000081
的序号变量iN=1。
3.2.7.2如果
Figure BDA0002223974780000082
说明
Figure BDA0002223974780000083
中所有词的临近词词向量都已加入临近词词向量集合
Figure BDA0002223974780000084
转3.2.8,否则,执行3.2.7.3。
3.2.7.3语义表示模块计算单词表V中的所有词与
Figure BDA0002223974780000085
的相似程度,具体的计算方法是:
3.2.7.3.1令单词表序号变量iV=1。
3.2.7.3.2如果iV>nV,说明得到了V中的nV个词与
Figure BDA0002223974780000086
的相似程度集合转3.2.7.4,否则,执行3.2.7.3.3。其中,
Figure BDA0002223974780000088
是一个由形如
Figure BDA00022239747800000810
的二元组组成的集合,其中
Figure BDA00022239747800000811
是V中第iV个词,
Figure BDA00022239747800000812
Figure BDA00022239747800000813
Figure BDA00022239747800000814
的相似度。
3.2.7.3.3语义表示模块从词向量文件中查找
Figure BDA00022239747800000815
的词向量,得到
Figure BDA00022239747800000817
Figure BDA00022239747800000818
3.2.7.3.4语义表示模块按公式(1)计算
Figure BDA00022239747800000819
Figure BDA00022239747800000820
约相似度
Figure BDA00022239747800000821
Figure BDA00022239747800000822
Figure BDA00022239747800000823
其中为求向量
Figure BDA00022239747800000825
夹角的余弦值。
3.2.7.3.5令iV=iV+1,转3.2.7.3.2。
3.2.7.4语义表示模块将
Figure BDA00022239747800000826
中相似度大于ss的二元组按照从大到小的顺序排序,从排序结果中依次取出每个二元组
Figure BDA00022239747800000828
Figure BDA00022239747800000829
中的第一项
Figure BDA00022239747800000830
加入
Figure BDA00022239747800000831
的临近词序列临近词序列
Figure BDA00022239747800000833
中即为词
Figure BDA00022239747800000834
在单词表V中的最相近的词的序列,记为其中
Figure BDA00022239747800000836
为单词表V中第ip个与
Figure BDA00022239747800000837
相似的词。
3.2.7.5语义表示模块将
Figure BDA00022239747800000838
中的所有词的词向量加入临近词词向量集合
Figure BDA00022239747800000839
具体步骤是:
3.2.7.5.1令
Figure BDA00022239747800000840
的临近词序列
Figure BDA00022239747800000841
的序号变量ip=1;
3.2.7.5.2如果ip>np,转3.2.7.6;否则,执行3.2.7.5.3;
3.2.7.5.3语义表示模块从词向量文件中查找
Figure BDA00022239747800000842
的词向量,将
Figure BDA00022239747800000843
的词向量
Figure BDA00022239747800000844
加入临近词词向量集合
Figure BDA00022239747800000845
3.2.7.5.4令ip=ip+1,跳转3.2.7.5.2。
3.2.7.6令iN=iN+1,然后转3.2.7.2。
3.2.8语义表示模块调用机器学习工具包(如scikit-learn)中的聚类函数(如k_means)对向量进行聚类。聚类函数接收两个参数:待聚类向量集合和聚类个数,其中待聚类向量集合是由任意个同维数向量组成的集合,聚类个数是一个正整数,表示期望输出的集合个数。聚类函数输出聚类个数个集合,这些集合是待聚类向量集合的子集,表示将待聚类向量集合中的向量分成了聚类个数个类。
语义表示模块将
Figure BDA0002223974780000091
作为待聚类向量集合,将中的元素个数
Figure BDA0002223974780000093
作为聚类个数输入聚类函数。获得
Figure BDA0002223974780000094
个待聚类向量集合的子集,命名为第1至第
Figure BDA0002223974780000095
个待聚类向量集合的子集,表示为其中
Figure BDA0002223974780000097
为第iN个子集。
3.2.9语义表示模块从
Figure BDA0002223974780000098
中找到元素个数最多的集合,命名为最大临近集合
3.2.10语义表示模块求
Figure BDA00022239747800000910
中所有向量的平均值作为待表示标签
Figure BDA00022239747800000911
的语义表示,记为
Figure BDA00022239747800000912
即:
Figure BDA00022239747800000913
e为最大临近集合
Figure BDA00022239747800000914
中的任意向量,
Figure BDA00022239747800000915
中向量的个数,公式(2)表示对
Figure BDA00022239747800000917
中的所有向量求平均。
3.2.11语义表示模块将待表示标签
Figure BDA00022239747800000918
和它的语义表示
Figure BDA00022239747800000919
写入标签向量文件,标签向量文件中每一条记录由待表示标签和其语义表示
Figure BDA00022239747800000921
组成。
3.2.12iL=iL+1,转3.2.2。
第四步,候选排序模块通过比较原始标签表中原始标签文字le和所有标准标签元的语义,根据le和所有标准标签元语义的相似性生成le的候选标准标签元列表Candi(le),并将Candi(le)中语义最相似的候选标签作为标准标签提交给存储服务器存储。具体方法如下:
4.1候选排序模块设置候选列表长度n2(n2为正整数且0<n2<20),候选列表最小临近程度阈值s2(s2为小于1的正实数且0.3≤s2≤1)。
4.2候选排序模块读取原始标签表。
4.3候选排序模块读取标准标签元集合文件,获得标准标签元列表B。标准标签元列表
Figure BDA00022239747800000922
是第iB个标准标签元(<标签文字,客体描述>)。
4.4令iY=1;
4.5如果iY>nY,说明已获取了所有原始标签表中所有原始标签的原始标签文字的候选标准标签元列表,转第五步,否则,执行4.6;
4.6候选排序模块生成
Figure BDA0002223974780000101
的原始标签文字
Figure BDA0002223974780000102
的候选标准标签元列表
Figure BDA0002223974780000103
步骤是:
4.6.1候选排序模块对标准标签元列表B按照与
Figure BDA0002223974780000104
的语义相似度从大到小的顺序排序,得到重排标签序列
Figure BDA0002223974780000105
具体步骤为:
4.6.1.1令iB=1;
4.6.1.2如果iB>nB,转4.6.1.7,否则,执行4.6.1.3;
4.6.1.3候选排序模块从标签向量文件读取原始标签文字
Figure BDA0002223974780000106
的语义表示
Figure BDA0002223974780000107
4.6.1.4候选排序模块从词向量文件中查找标准标签元
Figure BDA0002223974780000108
的语义表示
4.6.1.5候选排序模块计算原始标签文字
Figure BDA00022239747800001010
与标准标签元的语义相似度其中
Figure BDA00022239747800001013
为求
Figure BDA00022239747800001014
两个向量夹角余弦函数。
4.6.1.6令iB=iB+1,转4.6.1.2。
4.6.1.7候选排序模块将标准标签元列表B中的元素根据与
Figure BDA00022239747800001015
的语义相似度从大到小进行排序,将排序结果命名为重排标签序列
Figure BDA00022239747800001016
中第1个元素与
Figure BDA00022239747800001017
的语义相似度最大,第nB个元素与
Figure BDA00022239747800001018
的语义相似度最小。
4.6.2候选排序模块取重排标签序列
Figure BDA00022239747800001019
约前n2个元素(保留顺序),得到第一序列
4.6.3候选排序模块取第一序列
Figure BDA00022239747800001021
中所有相似度大于s2的元素(保留顺序),得到候选标准标签元列表
Figure BDA00022239747800001022
4.7如果候选标准标签元列表
Figure BDA00022239747800001023
不为空,候选排序模块依次提取
Figure BDA00022239747800001024
中第一个标准标签元的标签文字作为标准标签文字及原始标签
Figure BDA00022239747800001025
的标注对象id,标注对象文字内容作为标注对象id和标注对象文字内容,形成标准标签,标准标签为三元组<标准标签文字,标注对象id,标注对象文字内容>,将标准标签提交给存储服务器。
4.8存储服务器从标签服务器收到4.7生成的标准标签后,将<标准标签文字,标注对象id,标注对象文字内容>三个域作为一个表项,写入标准标签表。
4.9令iY=iY+1,转4.5;
第五步,标签比较模块的特征提取模块将标签修改日志表中的标签修改日志转化为特征,存入修改日志特征文件。具体步骤如下:
5.1令iX=1;
5.2如果iX>nX,说明标签修改日志表中的所有标签修改日志已转化为特征并存入修改日志特征文件,转第六步,否则,执行5.3。
5.3特征提取模块读取标签修改日志表的第iX个标签修改日志
5.4令的标签id、原标签文字、新标签文字、修改者id、采纳结果分别为
Figure BDA0002223974780000113
特征提取模块为
Figure BDA0002223974780000114
计算第一至第八特征具体方法为:
5.4.1特征提取模块统计原标签文字生产者撰写的原始标签的总数目,作为
Figure BDA0002223974780000116
第一特征
Figure BDA0002223974780000117
具体方法为:
5.4.1.1特征提取模块用
Figure BDA0002223974780000118
的“标签id”域
Figure BDA0002223974780000119
查询存储服务器的原始标签表,获得原始标签表表项
Figure BDA00022239747800001110
5.4.1.2特征提取模块在原始标签表中查询与
Figure BDA00022239747800001111
的“生产者id”域相同的原始标签表的表项数目,记为
Figure BDA00022239747800001112
的第一特征
Figure BDA00022239747800001113
Figure BDA00022239747800001114
的意义是原标签文字的生产者撰写的原始标签的总数目。
5.4.2特征提取模块统计修改者撰写的原始标签的总数目作为
Figure BDA00022239747800001115
第二特征
Figure BDA00022239747800001116
具体方法为:
特征提取模块在原始标签表中查询与
Figure BDA00022239747800001117
的“修改者id”域相同的原始标签表的表项数目,记为
Figure BDA00022239747800001118
的第二特征
Figure BDA00022239747800001119
Figure BDA00022239747800001120
的意义是修改者撰写的原始标签的总数目。
5.4.3特征提取模块统计修改者提交的标签修改记录中被采纳的个数作为
Figure BDA00022239747800001121
第三特征
Figure BDA00022239747800001122
具体方法为:
特征提取模块在标签修改日志表中查询与的“修改者id”域相同,且采纳结果域等于1的标签修改日志表的表项数目,记为
Figure BDA00022239747800001124
的第三特征
Figure BDA00022239747800001125
的意义是修改者提交的标签修改记录中被采纳的个数。
5.4.4特征提取模块统计
Figure BDA00022239747800001127
的原标签文字作为标准标签的频数作为
Figure BDA00022239747800001128
的第四特征
Figure BDA00022239747800001129
具体方法为:
特征提取模块在标准标签表中查询与
Figure BDA00022239747800001130
的“原标签文字”域相同的表项数目,记为
Figure BDA00022239747800001131
的第四特征
Figure BDA00022239747800001133
的意义是原标签文字作为标准标签的出现的次数。
5.4.5特征提取模块统计
Figure BDA0002223974780000121
的新标签文字作为标准标签的频数作为
Figure BDA0002223974780000122
的第五特征
Figure BDA0002223974780000123
具体方法为:
特征提取模块在标准标签表中查询与
Figure BDA0002223974780000124
的“新标签文字”域相同的表项数目,记为
Figure BDA0002223974780000125
的第五特征
Figure BDA0002223974780000126
Figure BDA0002223974780000127
的意义是新标签文字作为标准标签的出现的次数。
5.4.6特征提取模块计算
Figure BDA0002223974780000128
的“新标签文字”对比
Figure BDA0002223974780000129
的“原标签文字”的修改程度。记为第六特征
Figure BDA00022239747800001210
Figure BDA00022239747800001211
具体计算方法为:
5.4.6.1特征提取模块从标签向量文件中查找“原始标签文字”
Figure BDA00022239747800001212
的语义表示
Figure BDA00022239747800001213
5.4.6.2特征提取模块从标签向量文件中查找“新标签文字”
Figure BDA00022239747800001214
的语义表示
Figure BDA00022239747800001215
5.4.6.3特征提取模块计算第六特征其中为求两个向量
Figure BDA00022239747800001218
的夹角余弦函数。
5.4.7特征提取模块计算“原始标签文字”
Figure BDA00022239747800001219
与标注对象文字内容的语义相似性,作为第七特征
Figure BDA00022239747800001220
计算方法是:
5.4.7.1特征提取模块计算与
Figure BDA00022239747800001221
对应的标注对象文字内容的平均语义,记为
Figure BDA00022239747800001222
具体步骤是:
5.4.7.1.1用
Figure BDA00022239747800001223
的“标签id”域
Figure BDA00022239747800001224
查询原始标签表,获得原始标签表表项
Figure BDA00022239747800001225
5.4.7.1.2特征提取模块调用自动分词软件包对的标注对象文字内容进行分词,得到词序列
Figure BDA00022239747800001227
5.4.7.1.3令词序列
Figure BDA00022239747800001228
的序号变量iC=1,将
Figure BDA00022239747800001229
的语义表示
Figure BDA00022239747800001230
初始化为
Figure BDA00022239747800001231
5.4.7.1.4如果
Figure BDA00022239747800001232
转5.4.7.1.7,否则,执行5.4.7.1.5。
5.4.7.1.5特征提取模块从词向量文件中查找
Figure BDA00022239747800001233
的词向量
Figure BDA00022239747800001234
5.4.7.1.6令
Figure BDA00022239747800001235
5.4.7.1.7iC=iC+1,转5.4.7.1.4;
5.4.7.1.8特征提取模块计算
Figure BDA00022239747800001236
5.4.7.2特征提取模块从标签向量文件中查找“原始标签文字”
Figure BDA00022239747800001237
的语义表示
5.4.7.3特征提取模块计算第七特征
Figure BDA0002223974780000131
Figure BDA0002223974780000132
其中
Figure BDA0002223974780000133
为求两个向量的夹角余弦函数。
5.4.8特征提取模块计算“新标签文字”与标注对象文字内容的语义相似性,作为第八特征
Figure BDA0002223974780000135
Figure BDA0002223974780000136
计算方法是:
5.4.8.1特征提取模块从标签向量文件中查找“新标签文字”的语义表示
Figure BDA0002223974780000138
5.4.8.2特征提取模块计算第八特征
Figure BDA0002223974780000139
其中
Figure BDA00022239747800001310
为求两个向量
Figure BDA00022239747800001311
夹角余弦函数。
5.5特征提取模块将表项
Figure BDA00022239747800001312
作为主键,
Figure BDA00022239747800001313
作为键值存入修改日志特征文件。
5.6令iX=iX+1,转5.2;
第六步,标签比较模块训练SVM分类器S(Support Vector Machine,支持向量机,出自“Vapnik,V.N.and Lerner,A.Y.,1963.Recognition of patterns with help ofgeneralized portraits.Avtomat.Telemekh,24(6),pp.774-780.”,即1963年杂志第774页-780页的《借助广义特征的模式识别》中描述的SVM),用于判定对标签修改日志表中的标签修改日志是采纳还是拒绝,具体步骤如下:
6.1标签比较模块构建训练集Tr,训练集Tr是一个9列Nmax行的矩阵(Nmax为正整数,且Nmax≥1000),每一行代表一个标签修改日志,其第1至第8列代表标签修改日志的第一至第八特征。第9列为采纳结果,0代表标签修改日志被拒绝,为1代表标签修改日志被采纳。具体的方法是:
6.1.1语义表示模块读取标签修改日志表,记其中的所有表项为
Figure BDA00022239747800001314
其中为第iX个标签修改日志。
6.1.2令iX=1,初始化Tr为空矩阵。
6.1.3如果iX>nX或Tr已有Nmax行,转6.2,否则,执行6.1.4;
6.1.4标签比较模块从修改日志特征文件中查找
Figure BDA00022239747800001316
的特征
Figure BDA00022239747800001317
6.1.5如果
Figure BDA00022239747800001318
的采纳结果域
Figure BDA00022239747800001319
为0或1,将
Figure BDA00022239747800001320
添加到Tr的最后一行。
6.1.6iX=iX+1,转6.1.3;
6.2标签比较模块调用机器学习工具包的SVM函数,输入训练集Tr,获得分类器S。
分类器S的功能是输入一个样本
Figure BDA0002223974780000141
的第一至第八特征
Figure BDA0002223974780000142
输出
Figure BDA0002223974780000143
被采纳的概率。
第七步,标签服务器上的标签比较模块使用分类器S对于标签修改日志表中每一个表项,先判断是否采纳,再根据标签修改日志对标准标签表中的对应表项进行修改。具体方法如下:
7.1令iX=1。
7.2语义表示模块读取标签修改日志表的第iX个表项
Figure BDA0002223974780000144
7.3如果iX>nX,转第八步,否则,执行7.4;
7.4标签比较模块从修改日志特征文件中查找的特征
Figure BDA0002223974780000146
7.5标签比较模块将
Figure BDA0002223974780000147
输入分类器S,得到被采纳的概率
Figure BDA0002223974780000149
7.6如果
Figure BDA00022239747800001410
执行7.7,否则说明不采纳
Figure BDA00022239747800001411
转7.9。
7.7标签比较模块用
Figure BDA00022239747800001412
的“标签id”域查询存储服务器的原始标签表,获得原始标签表表项
Figure BDA00022239747800001413
7.8标签比较模块向存储服务器提交用<
Figure BDA00022239747800001414
新标签文字,
Figure BDA00022239747800001415
标注对象id,
Figure BDA00022239747800001416
标注对象文字内容,
Figure BDA00022239747800001417
修改者id>替换标准标签表中<
Figure BDA00022239747800001430
原标签文字,标注对象id,
Figure BDA00022239747800001420
标注对象文字内容,
Figure BDA00022239747800001421
生产者id>这一表项的请求。
7.9存储服务器从标准标签表中删除<
Figure BDA00022239747800001422
原标签文字,
Figure BDA00022239747800001423
标注对象id,
Figure BDA00022239747800001424
标注对象文字内容,
Figure BDA00022239747800001425
生产者id>这一表项,向标准标签表写入<新标签文字,
Figure BDA00022239747800001427
标注对象id,
Figure BDA00022239747800001428
标注对象文字内容,
Figure BDA00022239747800001429
修改者id>这一表项。
7.10 iX=iX+1,转7.3。
第八步,结束。
由以上流程可知,采用本发明能将所有的标准标签都存放在存储服务器上的标准标签表里且标准标签表能随着日志的改动不断进行修改。
采用本发明可以达到以下技术效果:
1.本发明第一到第四步,采用改进后的NCA方法对待表示标签进行语义表示,并基于该表示,将原始标签列表中的原始标签文字链接到标准标签列表中与之最相似的标准标签文字,有效提高了标签链接的准确率和召回率。
2.本发明第五到第七步,利用标签修改日志,构建用于判断当前标签文字是否需要修改的分类器,并利用该分类器判断利用标准标签元规范化后的标签文字是否修改,从而使得标签的准确性得到进一步的提高。
附图说明
图1是本发明第一步构建的标签生成系统逻辑结构图;
图2是本发明的总体流程图。
图3是采用本发明与DBS方法在打标签的精确率、召回率和准确率上的对比。
具体实施方式
如图2所示,本发明包括以下步骤:
第一步,构建标签生成系统,如图1所示,标签生成系统由标签服务器和存储服务器构成,存储服务器与标签服务器使用局域网进行连接。
存储服务器存储原始标签表、标签修改日志表、标准标签表。存储服务器上部署了数据库软件(如MySQL8.0及以上版本)。
原始标签表存储教育网站运行过程产生的原始标签。原始标签表的一个表项是一个原始标签,原始标签包括标签id(id即序号)、原始标签文字、标注对象id、标注对象文字内容、生产者id共5个域。一个原始标签表表项的整体意义是:生产者id对应的用户对标注对象id对应的教育资源提交了原始标签文字这条标签,教育资源的内容是标注对象文字内容,这条标签的编号是标签id。标签id的数据类型是整数,标签id是原始标签表的主键,标签id是原始标签的唯一标示。原始标签文字的数据类型是字符串,代表标签的文字部分。标注对象id的数据类型是整数,代表标签对应的教育资源的标示。标注对象文字内容的数据类型是字符串,代表标签对应的教育资源的文字内容,如一段字幕,一篇文章等。生产者id的数据类型是整数,代表提交这条原始标签的用户的标示。
标签修改日志表存储教育网站运行过程产生的标签修改日志。标签修改日志表是由若干标签修改日志构成的集合,记为
Figure BDA0002223974780000151
其中
Figure BDA0002223974780000152
为第iX个标签修改日志。每个标签修改日志有标签id、原标签文字、新标签文字、修改者id、采纳结果5个域。一个标签修改日志的整体意义是:修改者id对应的用户提交了一条申请,申请将“标签id”对应的标签的文字内容由“原标签文字”更改为“新标签文字”,对此申请的处理结果为“采纳结果”。标签id的数据类型是整数,与原始标签表中的“标签id”相对应,代表标签的标示。原标签文字的数据类型是字符串,代表修改前的标签文字。新标签文字的数据类型是字符串,代表修改后的标签文字。修改者id的数据类型是整数,代表提交这条修改的用户。采纳结果的数据类型为整数,是从集合{-1,0,1}中取的一个值,0表示这条修改被拒绝,1表示这条修改被接受,-1表示这条修改还未被处理。nX为正整数,表示标签修改日志表中标签修改日志的个数。
标准标签表存储原始标签对应的结构化、规范化的标准标签。标准标签表的一个表项是一个标准标签,标准标签包括标准标签文字、标注对象id、标注对象文字内容共3个域。标准标签文字的数据类型是字符串,代表标签的文字部分,是标准标签元中出现过的标准标签文字。标注对象id的数据类型是整数,代表标签对应的教育资源的标示。标注对象文字内容的数据类型是字符串,代表标签对应的教育资源的文字内容。
标签服务器是具有良好计算能力的服务器,可以运行计算密集型或者知识密集型的标签生成和处理应用。标签服务器上除安装有词向量工具包(如gensim-3.2.0或以上版本)、自动分词工具包(如jieba分词-0.39或以上版本)和机器学习工具包(如scikit-learn-0.20或以上版本)外,还存储有标准标签元集合文件、背景知识语料库以及在标签生成过程中的一些中间文件(包括词向量文件、标签向量文件、候选标准标签列表和修改日志特征文件),并安装有知识表示模块、语义表示模块、候选排序模块和标签比较模块。
标准标签元集合文件存储“标签元”。“标签元”含有标签文字和对客体的文字描述,是“<标签文字,客体描述>”二元组,如“全国科学技术名词审定委员会”审定的术语表。背景知识语料库是指符合词向量训练要求的自然文本。
知识表示模块与背景知识语料库、标准标签元集合文件、词向量工具包、词向量文件相连,知识表示模块从背景知识语料库读取语料,从标准标签元集合文件读取标准标签元,调用词向量工具包对语料和标准标签元进行词向量训练,将训练后得到的词向量存到词向量文件中。
语义表示模块与词向量文件、标签向量文件、自动分词工具包、原始标签表、标签修改日志表相连,语义表示模块调用自动分词工具包对原始标签表中每一个原始标签的“原始标签文字”域和标签修改日志表中每一条标签修改日志的“原标签文字”与“新标签文字”域中的文本进行分词,从词向量文件读取每个词的词向量,将原始标签表的“原始标签文字”域和标签修改日志表中的“原标签文字”与“新标签文字”域中的文本根据每个词的词向量表示成语义向量并将语义向量存到标签向量文件中。
候选排序模块与标准标签元集合文件、原始标签表、标签向量文件、候选标准标签元列表相连,候选排序模块依次读取原始标签表中的原始标签的原始标签文字,并从标准标签元集合文件依次读取标准标签元,从标签向量文件获取原始标签文字及标准标签元对应的语义向量,基于语义向量,分别计算原始标签文字与标准标签元集合文件中每个标准标签元的相似性,依据此相似性对标准标签元进行排序,选择相似性强的标准标签元生成原始标签对应的候选标准标签列表。
标签比较模块与原始标签表、标签修改日志表、自动分词工具包、机器学习工具包、修改日志特征文件、标准标签表相连,由特征提取模块、分类器组成。特征提取模块将标签修改日志表的表项转化成特征向量,将特征向量存入修改日志特征文件,供分类器训练。训练后的分类器判断标签修改日志表的表项的采纳结果,将采纳结果更新到标准标签表。
第二步,知识表示模块将背景知识语料库中的语料和标准标签元集合文件中的标准标签元转化为词列表和词向量,存储在词向量文件中。具体的步骤如下:
2.1知识表示模块从背景知识语料库接收语料,从标准标签元集合文件读取标准标签元,将标准标签元、语料输入CBOW训练函数,生成词列表和词向量。其中词列表包含语料中的所有字、词和标准标签中的标签文字。词向量是CBOW训练函数为每个字、词或标准标签中的标签文字生成的n维实数向量(50<n<100)。任意一个字、词或标准标签中的标签文字x的词向量用e(x)表示。
2.2知识表示模块将词列表和及其对应的词向量存储到词向量文件。
第三步,语义表示模块将原始标签表中所有原始标签的“原始标签文字”域、标签修改日志表中所有标签修改日志的“原标签文字”域和“新标签文字”域中的字符串转化成标签向量,并将标签向量存入标签向量文件。具体方法如下:
3.1语义表示模块将原始标签表中所有表项的“原始标签文字”域、标签修改日志表中所有标签修改日志的“原标签文字”域和“新标签文字”域作为待表示标签文字,放入待表示列表L,记为
Figure BDA0002223974780000181
Figure BDA0002223974780000182
表示第iL个待表示标签文字,nL为待表示标签文字的个数。具体步骤是:3.1.1语义表示模块读取原始标签表,记其中的所有表项为
Figure BDA0002223974780000183
nY为原始标签表中表项的个数,
Figure BDA0002223974780000184
为第iY个原始标签。
3.1.2令原始标签表序号变量iY=1,令待表示列表L为空;
3.1.3如果iY>nY,转3.1.6,否则,执行3.1.4;
3.1.4语义表示模块读取
Figure BDA0002223974780000185
的原始标签文字域,如果原始标签文字域不在待表示列表L中,则将
Figure BDA0002223974780000186
的原始标签文字域添加进待表示列表L。
3.1.5令iY=iY+1,转3.1.3.
3.1.6语义表示模块读取标签修改日志表,记标签修改日志表中的所有表项为
Figure BDA0002223974780000187
nX为标签修改日志表中表项的个数,
Figure BDA0002223974780000188
为第iX个标签修改日志;
3.1.7令标签修改日志表序号变量iX=1;
3.1.8如果iX>nX,说明已得到L,L中的待表示标签文字的个数nL≤nY+2*nX,转3.2,否则,执行3.1.9;
3.1.9语义表示模块读取
Figure BDA0002223974780000189
的原标签文字域,如果原标签文字域的字符串不在待表示列表L中,则将原标签文字域的字符串添加进待表示列表L。
3.1.10语义表示模块读取
Figure BDA00022239747800001810
的新标签文字域,如果新标签文字域的字符串不在待表示列表L中,则将新标签文字域的字符串添加进待表示列表L。
3.1.11令iX=iX+1,转3.1.8;
3.2语义表示模块使用改进后的NCA方法将3.1中获得的待表示列表L中的所有待表示标签文字转化成标签向量,并将标签向量存入标签向量文件。具体步骤为:
3.2.1令待表示列表序号变量iL=1;
3.2.2如果iL>nL,说明待表示标签列表L中的所有待表示标签文字都已转化为标签向量,转第四步,否则,执行3.2.3;
3.2.3语义表示模块调用自动分词工具包对L中第iL个待表示标签文字
Figure BDA00022239747800001811
分词,获得第iL个词序列
Figure BDA00022239747800001812
3.2.4语义表示模块去除词序列
Figure BDA00022239747800001813
中的单字和停用词,得到筛选后的词集合
Figure BDA0002223974780000191
Figure BDA0002223974780000192
中含有个词,
Figure BDA0002223974780000195
的第iN个词。
3.2.5语义表示模块设置以下阈值:邻居数目nn(nn为正整数且50≤nn≤100)和最小临近程度ss(ss为小于1的正实数且0.2≤ss≤1)。定义待表示标签文字
Figure BDA0002223974780000197
的临近词词向量集合
Figure BDA0002223974780000198
中所有词的临近词的词向量集合,初始化
Figure BDA00022239747800001910
为空集合。
3.2.6语义表示模块从2.1生成的词向量文件中读取词列表,记做单词表V,V为其中
Figure BDA00022239747800001912
为V中的第iV个词,nV为V中词的个数。
3.2.7语义表示模块找到
Figure BDA00022239747800001913
中词的临近词集合
Figure BDA00022239747800001915
并从词向量文件查找
Figure BDA00022239747800001916
中的每个词的词向量,将这些词向量加入
Figure BDA00022239747800001917
的临近词词向量集合
Figure BDA00022239747800001918
方法是:
3.2.7.1令
Figure BDA00022239747800001919
的序号变量iN=1。
3.2.7.2如果说明
Figure BDA00022239747800001921
中所有词的临近词词向量都已加入临近词词向量集合
Figure BDA00022239747800001922
转3.2.8,否则,执行3.2.7.3。
3.2.7.3语义表示模块计算单词表V中的所有词与
Figure BDA00022239747800001923
的相似程度,具体的计算方法是:
3.2.7.3.1令单词表序号变量iV=1。
3.2.7.3.2如果iV>nV,说明得到了V中的nV个词与
Figure BDA00022239747800001924
的相似程度集合转3.2.7.4,否则,执行3.2.7.3.3。其中,
Figure BDA00022239747800001926
是一个由形如
Figure BDA00022239747800001927
Figure BDA00022239747800001928
的二元组组成的集合,其中是V中第iV个词,
Figure BDA00022239747800001930
Figure BDA00022239747800001932
的相似度。
3.2.7.3.3语义表示模块从词向量文件中查找
Figure BDA00022239747800001933
Figure BDA00022239747800001934
的词向量,得到
Figure BDA00022239747800001936
3.2.7.3.4语义表示模块按公式(1)计算
Figure BDA00022239747800001937
Figure BDA00022239747800001938
的相似度
Figure BDA00022239747800001939
Figure BDA00022239747800001941
其中
Figure BDA00022239747800001942
为求向量夹角的余弦值。
3.2.7.3.5令iV=iV+1,转3.2.7.3.2。
3.2.7.4语义表示模块将
Figure BDA00022239747800001944
中相似度
Figure BDA00022239747800001945
大于ss的二元组按照从大到小的顺序排序,从排序结果中依次取出每个二元组
Figure BDA00022239747800001946
Figure BDA0002223974780000201
中的第一项加入
Figure BDA0002223974780000203
的临近词序列
Figure BDA0002223974780000204
临近词序列
Figure BDA0002223974780000205
中即为词
Figure BDA0002223974780000206
在单词表V中的最相近的词的序列,记为其中
Figure BDA0002223974780000208
为单词表V中第ip个与
Figure BDA0002223974780000209
相似的词。
3.2.7.5语义表示模块将
Figure BDA00022239747800002010
中的所有词的词向量加入临近词词向量集合
Figure BDA00022239747800002011
具体步骤是:
3.2.7.5.1令的临近词序列
Figure BDA00022239747800002013
的序号变量ip=1;
3.2.7.5.2如果ip>np,转3.2.7.6;否则,执行3.2.7.5.3;
3.2.7.5.3语义表示模块从词向量文件中查找的词向量,将
Figure BDA00022239747800002015
的词向量
Figure BDA00022239747800002016
加入临近词词向量集合
Figure BDA00022239747800002036
3.2.7.5.4令ip=ip+1,跳转3.2.7.5.2。
3.2.7.6令iN=iN+1,然后转3.2.7.2。
3.2.8语义表示模块调用机器学习工具包scikit-learn中的k_means函数对向量进行聚类。k_means函数接收两个参数:待聚类向量集合和聚类个数,其中待聚类向量集合是由任意个同维数向量组成的集合,聚类个数是一个正整数,表示期望输出的集合个数。k_means函数输出聚类个数个集合,这些集合是待聚类向量集合的子集,表示将待聚类向量集合中的向量分成了聚类个数个类。
语义表示模块将
Figure BDA00022239747800002017
作为待聚类向量集合,将
Figure BDA00022239747800002018
中的元素个数
Figure BDA00022239747800002019
作为聚类个数输入k_means函数。获得
Figure BDA00022239747800002020
个待聚类向量集合的子集,命名为第1至第
Figure BDA00022239747800002021
个待聚类向量集合的子集,表示为其中
Figure BDA00022239747800002023
为第iN个子集。
3.2.9语义表示模块从中找到元素个数最多的集合,命名为最大临近集合
Figure BDA00022239747800002025
3.2.10语义表示模块求
Figure BDA00022239747800002026
中所有向量的平均值作为待表示标签
Figure BDA00022239747800002027
的语义表示,记为即:
Figure BDA00022239747800002029
e为最大临近集合
Figure BDA00022239747800002030
中的任意向量,
Figure BDA00022239747800002032
中向量的个数,公式(2)表示对中的所有向量求平均。
3.2.11语义表示模块将待表示标签和它的语义表示
Figure BDA00022239747800002035
写入标签向量文件,标签向量文件中每一条记录由待表示标签
Figure BDA0002223974780000211
和其语义表示
Figure BDA0002223974780000212
组成。
3.2.12 iL=iL+1,转3.2.2。
第四步,候选排序模块通过比较原始标签表中原始标签文字le和所有标准标签元的语义,根据le和所有标准标签元语义的相似性生成le的候选标准标签元列表Candi(le),并将Candi(le)中语义最相似的候选标签作为标准标签提交给存储服务器存储。具体方法如下:
4.1候选排序模块设置候选列表长度n2(n2为正整数且0<n2<20),候选列表最小临近程度阈值s2(s2为小于1的正实数且0.3≤s2≤1)。
4.2候选排序模块读取原始标签表。
4.3候选排序模块读取标准标签元集合文件,获得标准标签元列表B。标准标签元列表
Figure BDA0002223974780000213
Figure BDA0002223974780000214
是第iB个标准标签元。
4.4令iY=1;
4.5如果iY>nY,说明已获取了所有原始标签表中所有原始标签的原始标签文字的候选标准标签元列表,转第五步,否则,执行4.6;
4.6候选排序模块生成
Figure BDA0002223974780000215
的原始标签文字
Figure BDA0002223974780000216
的候选标准标签元列表
Figure BDA0002223974780000217
步骤是:
4.6.1候选排序模块对标准标签元列表B按照与
Figure BDA0002223974780000218
的语义相似度从大到小的顺序排序,得到重排标签序列
Figure BDA0002223974780000219
具体步骤为:
4.6.1.1令iB=1;
4.6.1.2如果iB>nB,转4.6.1.7,否则,执行4.6.1.3;
4.6.1.3候选排序模块从标签向量文件读取原始标签文字
Figure BDA00022239747800002110
的语义表示
Figure BDA00022239747800002111
4.6.1.4候选排序模块从词向量文件中查找标准标签元
Figure BDA00022239747800002112
的语义表示
Figure BDA00022239747800002113
4.6.1.5候选排序模块计算原始标签文字
Figure BDA00022239747800002114
与标准标签元
Figure BDA00022239747800002115
的语义相似度
Figure BDA00022239747800002116
其中
Figure BDA00022239747800002117
为求
Figure BDA00022239747800002118
两个向量夹角余弦函数。
4.6.1.6令iB=iB+1,转4.6.1.2。
4.6.1.7候选排序模块将标准标签元列表B中的元素根据与
Figure BDA00022239747800002119
的语义相似度从大到小进行排序,将排序结果命名为重排标签序列
Figure BDA00022239747800002120
中第1个元素与
Figure BDA00022239747800002121
的语义相似度最大,第nB个元素与
Figure BDA00022239747800002122
的语义相似度最小。
4.6.2候选排序模块取重排标签序列
Figure BDA0002223974780000221
的前n2个元素(保留顺序),得到第一序列
Figure BDA0002223974780000222
4.6.3候选排序模块取第一序列
Figure BDA0002223974780000223
中所有相似度大于s2的元素(保留顺序),得到候选标准标签元列表
Figure BDA0002223974780000224
候选标准标签元列表
4.7如果候选标准标签元列表
Figure BDA0002223974780000225
不为空,候选排序模块依次提取
Figure BDA0002223974780000226
中第一个标准标签元的标签文字作为标准标签文字及原始标签
Figure BDA0002223974780000227
的标注对象id,标注对象文字内容作为标注对象id和标注对象文字内容,形成标准标签,标准标签为三元组<标准标签文字,标注对象id,标注对象文字内容>,将标准标签提交给存储服务器。
4.8存储服务器从标签服务器收到4.7生成的标准标签后,将<标准标签文字,标注对象id,标注对象文字内容>三个域作为一个表项,写入标准标签表。
4.9令iY=iY+1,转4.5;
第五步,标签比较模块的特征提取模块将标签修改日志表中的标签修改日志转化为特征,存入修改日志特征文件。具体步骤如下:
5.1令iX=1;
5.2如果iX>nX,说明标签修改日志表中的所有标签修改日志已转化为特征并存入修改日志特征文件,转第六步,否则,执行5.3。
5.3特征提取模块读取标签修改日志表的第iX个标签修改日志
Figure BDA0002223974780000228
5.4令的标签id、原标签文字、新标签文字、修改者id、采纳结果分别为
Figure BDA00022239747800002210
特征提取模块为
Figure BDA00022239747800002211
计算第一至第八特征具体方法为:
5.4.1特征提取模块统计原标签文字生产者撰写的原始标签的总数目,作为第一特征
Figure BDA00022239747800002214
具体方法为:
5.4.1.1特征提取模块用的“标签id”域查询存储服务器的原始标签表,获得原始标签表表项
5.4.1.2特征提取模块在原始标签表中查询与
Figure BDA00022239747800002218
的“生产者id”域相同的原始标签表的表项数目,记为
Figure BDA00022239747800002219
的第一特征
Figure BDA00022239747800002221
的意义是原标签文字的生产者撰写的原始标签的总数目。
5.4.2特征提取模块统计修改者撰写的原始标签的总数目作为
Figure BDA00022239747800002222
第二特征
Figure BDA00022239747800002223
具体方法为:
特征提取模块在原始标签表中查询与
Figure BDA0002223974780000231
的“修改者id”域相同的原始标签表的表项数目,记为
Figure BDA0002223974780000232
的第二特征
Figure BDA0002223974780000233
Figure BDA0002223974780000234
的意义是修改者撰写的原始标签的总数目。
5.4.3特征提取模块统计修改者提交的标签修改记录中被采纳的个数作为
Figure BDA0002223974780000235
第三特征
Figure BDA0002223974780000236
具体方法为:
特征提取模块在标签修改日志表中查询与的“修改者id”域相同,且采纳结果域等于1的标签修改日志表的表项数目,记为
Figure BDA0002223974780000238
的第三特征
Figure BDA0002223974780000239
Figure BDA00022239747800002310
的意义是修改者提交的标签修改记录中被采纳的个数。
5.4.4特征提取模块统计
Figure BDA00022239747800002311
的原标签文字作为标准标签的频数作为
Figure BDA00022239747800002312
的第四特征
Figure BDA00022239747800002313
具体方法为:
特征提取模块在标准标签表中查询与
Figure BDA00022239747800002314
的“原标签文字”域相同的表项数目.记为
Figure BDA00022239747800002315
的第四特征
Figure BDA00022239747800002316
Figure BDA00022239747800002317
的意义是原标签文字作为标准标签的出现的次数。
5.4.5特征提取模块统计
Figure BDA00022239747800002318
的新标签文字作为标准标签的频数作为的第五特征
Figure BDA00022239747800002320
具体方法为:
特征提取模块在标准标签表中查询与
Figure BDA00022239747800002321
的“新标签文字”域相同的表项数目.记为
Figure BDA00022239747800002322
的第五特征
Figure BDA00022239747800002323
的意义是新标签文字作为标准标签的出现的次数。
5.4.6特征提取模块计算
Figure BDA00022239747800002325
的“新标签文字”对比的“原标签文字”的修改程度。记为第六特征
Figure BDA00022239747800002327
Figure BDA00022239747800002328
具体计算方法为:
5.4.6.1特征提取模块从标签向量文件中查找“原始标签文字”
Figure BDA00022239747800002329
的语义表示5.4.6.2特征提取模块从标签向量文件中查找“新标签文字”
Figure BDA00022239747800002331
的语义表示
Figure BDA00022239747800002332
5.4.6.3特征提取模块计算第六特征
Figure BDA00022239747800002333
其中
Figure BDA00022239747800002334
为求两个向量的夹角余弦函数。
5.4.7特征提取模块计算“原始标签文字”
Figure BDA00022239747800002336
与标注对象文字内容的语义相似性,作为第七特征
Figure BDA00022239747800002337
Figure BDA00022239747800002338
计算方法是:
5.4.7.1特征提取模块计算与对应的标注对象文字内容的平均语义,记为
Figure BDA00022239747800002340
具体步骤是:
5.4.7.1.1用
Figure BDA00022239747800002341
的“标签id”域
Figure BDA00022239747800002342
查询原始标签表,获得原始标签表表项
Figure BDA00022239747800002343
5.4.7.1.2特征提取模块调用自动分词软件包对
Figure BDA00022239747800002344
的标注对象文字内容进行分词,得到词序列
5.4.7.1.3令词序列
Figure BDA0002223974780000242
的序号变量iC=1,将
Figure BDA0002223974780000243
的语义表示
Figure BDA0002223974780000244
初始化为
Figure BDA0002223974780000245
5.4.7.1.4如果
Figure BDA0002223974780000246
转5.4.7.1.7,否则,执行5.4.7.1.5。
5.4.7.1.5特征提取模块从词向量文件中查找
Figure BDA0002223974780000247
的词向量
Figure BDA0002223974780000248
5.4.7.1.6令
5.4.7.1.7iC=iC+1,转5.4.7.1.4;
5.4.7.1.8特征提取模块计算
Figure BDA00022239747800002410
5.4.7.2特征提取模块从标签向量文件中查找“原始标签文字”
Figure BDA00022239747800002411
的语义表示
5.4.7.3特征提取模块计算第七特征
Figure BDA00022239747800002413
其中
Figure BDA00022239747800002414
为求两个向量的夹角余弦函数。
5.4.8特征提取模块计算“新标签文字”与标注对象文字内容的语义相似性,作为第八特征
Figure BDA00022239747800002416
计算方法是:
5.4.8.1特征提取模块从标签向量文件中查找“新标签文字”
Figure BDA00022239747800002418
的语义表示
Figure BDA00022239747800002419
5.4.8.2特征提取模块计算第八特征
Figure BDA00022239747800002420
其中
Figure BDA00022239747800002421
为求两个向量
Figure BDA00022239747800002422
夹角余弦函数。
5.5特征提取模块将表项
Figure BDA00022239747800002423
作为主键,
Figure BDA00022239747800002424
作为键值存入修改日志特征文件。
5.6令iX=iX+1,转5.2;
第六步,标签比较模块训练SVM分类器S,用于判定对标签修改日志表中的标签修改日志是采纳还是拒绝,具体步骤如下:
6.1标签比较模块构建训练集Tr,训练集Tr是一个9列Nmax行的矩阵(Nmax为正整数,且Nmax≥1000),每一行代表一个标签修改日志,其第1至第8列代表标签修改日志的第一至第八特征。第9列为采纳结果,0代表标签修改日志被拒绝,为1代表标签修改日志被采纳。具体的方法是:
6.1.1语义表示模块读取标签修改日志表,记其中的所有表项为
Figure BDA00022239747800002425
其中
Figure BDA00022239747800002426
为第iX个标签修改日志。
6.1.2令iX=1,初始化Tr为空矩阵。
6.1.3如果iX>nX或Tr已有Nmax行,转6.2,否则,执行6.1.4;
6.1.4标签比较模块从修改日志特征文件中查找的特征
Figure BDA0002223974780000252
6.1.5如果的采纳结果域
Figure BDA0002223974780000254
为0或1,将
Figure BDA0002223974780000255
Figure BDA0002223974780000256
添加到Tr的最后一行。
6.1.6iX=iX+1,转6.1.3;
6.2标签比较模块调用机器学习工具包的SVM函数,输入训练集Tr,获得分类器S。
分类器S的功能是输入一个样本
Figure BDA0002223974780000257
的第一至第八特征
Figure BDA0002223974780000258
输出被采纳的概率。
第七步,标签服务器上的标签比较模块使用分类器S对于标签修改日志表中每一个表项,先判断是否采纳,再根据标签修改日志对标准标签表中的对应表项进行修改。具体方法如下:
7.1令iX=1。
7.2语义表示模块读取标签修改日志表的第iX个表项
Figure BDA00022239747800002510
7.3如果iX>nX,转第八步,否则,执行7.4;
7.4标签比较模块从修改日志特征文件中查找
Figure BDA00022239747800002511
的特征
Figure BDA00022239747800002512
7.5标签比较模块将
Figure BDA00022239747800002513
输入分类器S,得到
Figure BDA00022239747800002514
被采纳的概率
Figure BDA00022239747800002515
7.6如果
Figure BDA00022239747800002516
执行7.7,否则说明不采纳转7.9。
7.7标签比较模块用
Figure BDA00022239747800002518
的“标签id”域查询存储服务器的原始标签表,获得原始标签表表项
Figure BDA00022239747800002519
7.8标签比较模块向存储服务器提交用<新标签文字,
Figure BDA00022239747800002521
标注对象id,
Figure BDA00022239747800002522
标注对象文字内容,
Figure BDA00022239747800002523
修改者id>替换标准标签表中<
Figure BDA00022239747800002524
原标签文字,
Figure BDA00022239747800002525
标注对象id,
Figure BDA00022239747800002526
标注对象文字内容,
Figure BDA00022239747800002527
生产者id>这一表项的请求。
7.9存储服务器从标准标签表中删除<
Figure BDA00022239747800002528
原标签文字,
Figure BDA00022239747800002529
标注对象id,
Figure BDA00022239747800002530
标注对象文字内容,生产者id>这一表项,向标准标签表写入<
Figure BDA00022239747800002532
新标签文字,
Figure BDA00022239747800002533
标注对象id,
Figure BDA00022239747800002534
标注对象文字内容,
Figure BDA00022239747800002535
修改者id>这一表项。
7.10 iX=iX+1,转7.3。
第八步,结束。
图3是采用本发明与采用背景技术所述DBS方法对维基条目打标签得到标签精确率、召回率、准确率的比较示意。
实验条件:采用一个i7-5930k CPU和两个NVIDIA GeForce TITAN X GPU的工作站一台,操作系统为Ubuntu 16.04,词向量工具包为gensim-3.2.0,自动分词工具包为jieba分词-0.39,机器学习工具包为scikit-learn-0.20,数据库采用MySQL8.0。
数据集采用2018年1月1日的维基百科快照语料,使用CBOW模型计算汉语字向量、词向量和语料中出现的词组的向量。处理对象:实验将维基条目看作一种在线教育资源,维基条目中以超链接的形式标注出的条目中的重要概念作为对应维基条目的原始标签文字,维基百科中条目列表作为标准标签列表,分别利用本发明和DBS算法为维基条目打标签。
采用DBS得到的结果:利用DBS方法所得标签精确率为46.38%,召回率62.56%,准确率52.12%;
采用本发明得到的结果:本发明算法所得标签精确率100%,召回率100%,准确率100%。

Claims (13)

1.一种综合多源知识的在线文本类教育资源标签生成方法,其特征在于包括以下步骤:
第一步,构建标签生成系统,标签生成系统由标签服务器和存储服务器构成,存储服务器与标签服务器使用局域网进行连接;
存储服务器存储原始标签表、标签修改日志表、标签服务器产生的标准标签表;
原始标签表存储教育网站运行过程产生的原始标签;原始标签表的一个表项是一个原始标签,原始标签包括标签id、原始标签文字、标注对象id、标注对象文字内容、生产者id共5个域,id即序号;标签id的数据类型是整数,标签id是原始标签表的主键,标签id是原始标签的唯一标示;原始标签文字的数据类型是字符串,代表标签的文字部分;标注对象id的数据类型是整数,代表标签对应的教育资源的标示;标注对象文字内容的数据类型是字符串,代表标签对应的教育资源的文字内容;生产者id的数据类型是整数,代表提交这条原始标签的用户的标示;
标签修改日志表存储教育网站运行过程产生的标签修改日志,标签修改日志表是由若干标签修改日志构成的集合,记为
Figure FDA0002223974770000011
其中
Figure FDA0002223974770000012
为第iX个标签修改日志iX=1,…,nX;每个标签修改日志有标签id、原标签文字、新标签文字、修改者id、采纳结果5个域;标签id的数据类型是整数,与原始标签表中的“标签id”相对应,代表标签的标示;原标签文字的数据类型是字符串,代表修改前的标签文字;新标签文字的数据类型是字符串,代表修改后的标签文字;修改者id的数据类型是整数,代表提交这条修改的用户;采纳结果的数据类型为整数,是从集合{-1,0,1}中取的一个值,0表示这条修改被拒绝,1表示这条修改被接受,-1表示这条修改还未被处理;nX为正整数,表示标签修改日志表中标签修改日志的个数;
标准标签表存储原始标签对应的结构化、规范化的标准标签;标准标签表的一个表项是一个标准标签,标准标签包括标准标签文字、标注对象id、标注对象文字内容共3个域;标准标签文字的数据类型是字符串,代表标签的文字部分,是标准标签元中出现过的标准标签文字;标注对象id的数据类型是整数,代表标签对应的教育资源的标示;标注对象文字内容的数据类型是字符串,代表标签对应的教育资源的文字内容;
标签服务器是可以运行计算密集型或者知识密集型的标签生成和处理应用的服务器,标签服务器上除安装有词向量工具包、自动分词工具包和机器学习工具包外,还存储有标准标签元集合文件、背景知识语料库以及在标签生成过程中的一些中间文件,并安装有知识表示模块、语义表示模块、候选排序模块和标签比较模块,中间文件包括词向量文件、标签向量文件、候选标准标签列表和修改日志特征文件;
标准标签元集合文件存储“标签元”;“标签元”含有标签文字和对客体的文字描述,是“<标签文字,客体描述>”二元组,背景知识语料库是指符合词向量训练要求的自然文本;
知识表示模块与背景知识语料库、标准标签元集合文件、词向量工具包、词向量文件相连,知识表示模块从背景知识语料库读取语料,从标准标签元集合文件读取标准标签元,调用词向量工具包对语料和标准标签元进行词向量训练,将训练后得到的词向量存到词向量文件中;
语义表示模块与词向量文件、标签向量文件、自动分词工具包、原始标签表、标签修改日志表相连,语义表示模块调用自动分词工具包对原始标签表中每一个原始标签的“原始标签文字”域和标签修改日志表中每一条标签修改日志的“原标签文字”与“新标签文字”域中的文本进行分词,从词向量文件读取每个词的词向量,将原始标签表的“原始标签文字”域和标签修改日志表中的“原标签文字”与“新标签文字”域中的文本根据每个词的词向量表示成语义向量并将语义向量存到标签向量文件中;
候选排序模块与标准标签元集合文件、原始标签表、标签向量文件、候选标准标签列表相连,候选排序模块依次读取原始标签表中的原始标签的原始标签文字,并从标准标签元集合文件依次读取标准标签元,从标签向量文件获取原始标签文字及标准标签元对应的语义向量,基于语义向量,分别计算原始标签文字与标准标签元集合文件中每个标准标签元的相似性,依据此相似性对标准标签元进行排序,选择相似性强的标准标签元生成原始标签对应的候选标准标签列表;
标签比较模块与原始标签表、标签修改日志表、自动分词工具包、机器学习工具包、修改日志特征文件、标准标签表相连,由特征提取模块、分类器组成;特征提取模块将标签修改日志表的表项转化成特征向量,将特征向量存入修改日志特征文件,供分类器训练;训练后的分类器判断标签修改日志表的表项的采纳结果,将采纳结果更新到标准标签表;
第二步,知识表示模块将背景知识语料库中的语料和标准标签元集合文件中的标准标签元转化为词列表和词向量,存储在词向量文件中,方法是:
2.1知识表示模块从背景知识语料库接收语料,从标准标签元集合文件读取标准标签元,将标准标签元、语料输入CBOW训练函数即连续词包模型训练函数,生成词列表和词向量;其中词列表包含语料中的所有字、词和标准标签中的标签文字;词向量是CBOW训练函数为每个字、词或标准标签中的标签文字生成的n维实数向量,n为正整数;任意一个字、词或标准标签元中的标签文字x的词向量用e(x)表示;
2.2知识表示模块将词列表和及其对应的词向量存储到词向量文件;
第三步,语义表示模块将原始标签表中所有原始标签的“原始标签文字”域、标签修改日志表中所有标签修改日志的“原标签文字”域和“新标签文字”域中的字符串转化成标签向量,并将标签向量存入标签向量文件,方法是:
3.1语义表示模块将原始标签表中所有表项的“原始标签文字”域、标签修改日志表中所有标签修改日志的“原标签文字”域和“新标签文字”域作为待表示标签文字,放入待表示列表L,记为
Figure FDA0002223974770000031
Figure FDA0002223974770000032
表示第iL个待表示标签文字,nL为待表示标签文字的个数;原始标签表中的所有表项为
Figure FDA0002223974770000033
nY为原始标签表中表项的个数,为第iY个原始标签;标签修改日志表中的所有表项为nX为标签修改日志表中表项的个数,
Figure FDA0002223974770000036
为第iX个标签修改日志;nL≤nY+2*nX
3.2语义表示模块使用改进后的NCA方法将待表示列表L中的所有待表示标签文字转化成标签向量,并将标签向量存入标签向量文件;具体步骤为:
3.2.1令待表示列表序号变量iL=1;
3.2.2如果iL>nL,说明待表示标签列表L中的所有待表示标签文字都已转化为标签向量,转第四步,否则,执行3.2.3;
3.2.3语义表示模块调用自动分词工具包对L中第iL个待表示标签文字
Figure FDA0002223974770000037
分词,获得第iL个词序列
Figure FDA0002223974770000038
3.2.4语义表示模块去除词序列
Figure FDA0002223974770000039
中的单字和停用词,得到筛选后的词集合
Figure FDA00022239747700000310
Figure FDA00022239747700000312
中含有
Figure FDA00022239747700000313
个词,
Figure FDA00022239747700000315
的第iN个词;
3.2.5语义表示模块设置以下阈值:邻居数目nn和最小临近程度ss,nn为正整数,ss为小于1的正实数;定义待表示标签文字
Figure FDA0002223974770000041
的临近词词向量集合
Figure FDA0002223974770000042
Figure FDA0002223974770000043
中所有词的临近词的词向量集合,初始化
Figure FDA0002223974770000044
为空集合;
3.2.6语义表示模块从2.1生成的词向量文件中读取词列表,记做单词表V,V为
Figure FDA0002223974770000045
其中
Figure FDA0002223974770000046
为V中的第iV个词,nV为V中词的个数;
3.2.7语义表示模块找到
Figure FDA0002223974770000047
Figure FDA0002223974770000048
的临近词集合并从词向量文件查找
Figure FDA00022239747700000410
中每个词的词向量,将这些词向量加入
Figure FDA00022239747700000411
的临近词词向量集合方法是:
3.2.7.1令
Figure FDA00022239747700000413
的序号变量iN=1;
3.2.7.2如果
Figure FDA00022239747700000414
说明
Figure FDA00022239747700000415
中所有词的临近词词向量都已加入临近词词向量集合
Figure FDA00022239747700000416
转3.2.8,否则,执行3.2.7.3;
3.2.7.3语义表示模块计算单词表V中的所有词与
Figure FDA00022239747700000417
的相似程度,得到V中的nV个词与的相似程度集合
Figure FDA00022239747700000419
Figure FDA00022239747700000420
是一个由形如
Figure FDA00022239747700000421
的二元组组成的集合,其中
Figure FDA00022239747700000423
是V中第iV个词,
Figure FDA00022239747700000424
Figure FDA00022239747700000425
Figure FDA00022239747700000426
的相似度;
3.2.7.4语义表示模块将
Figure FDA00022239747700000427
中相似度
Figure FDA00022239747700000428
大于ss的二元组按照从大到小的顺序排序,从排序结果中依次取出每个二元组
Figure FDA00022239747700000429
Figure FDA00022239747700000430
中的第一项
Figure FDA00022239747700000431
加入
Figure FDA00022239747700000432
的临近词序列
Figure FDA00022239747700000433
临近词序列
Figure FDA00022239747700000434
中即为词在单词表V中的最相近的词的序列,记为
Figure FDA00022239747700000436
其中
Figure FDA00022239747700000437
为单词表V中第ip个与
Figure FDA00022239747700000438
相似的词;
3.2.7.5语义表示模块将
Figure FDA00022239747700000439
中的所有词的词向量加入临近词词向量集合
Figure FDA00022239747700000440
3.2.7.6令iN=iN+1,转3.2.7.2;
3.2.8语义表示模块调用机器学习工具包中的聚类函数对向量进行聚类,聚类函数接收两个参数:待聚类向量集合和聚类个数,其中待聚类向量集合是由任意个同维数向量组成的集合,聚类个数是一个正整数,表示期望输出的集合个数;聚类函数输出聚类个数个集合,这些集合是待聚类向量集合的子集,表示将待聚类向量集合中的向量分成了聚类个数个类;
语义表示模块将
Figure FDA00022239747700000441
作为待聚类向量集合,将
Figure FDA00022239747700000442
中的元素个数
Figure FDA00022239747700000443
作为聚类个数输入聚类函数,获得
Figure FDA00022239747700000444
个待聚类向量集合的子集,命名为第1至第
Figure FDA0002223974770000051
个待聚类向量集合的子集,表示为其中
Figure FDA0002223974770000053
为第iN个子集;
3.2.9语义表示模块从
Figure FDA0002223974770000054
中找到元素个数最多的集合,命名为最大临近集合
Figure FDA0002223974770000055
3.2.10语义表示模块求
Figure FDA0002223974770000056
中所有向量的平均值作为待表示标签
Figure FDA0002223974770000057
的语义表示,记为
Figure FDA0002223974770000058
即:
Figure FDA0002223974770000059
公式(2);e为最大临近集合
Figure FDA00022239747700000510
中的任意向量,
Figure FDA00022239747700000511
Figure FDA00022239747700000512
中向量的个数,公式(2)表示对
Figure FDA00022239747700000513
中的所有向量求平均;
3.2.11语义表示模块将待表示标签
Figure FDA00022239747700000514
和它的语义表示
Figure FDA00022239747700000515
写入标签向量文件,标签向量文件中每一条记录由待表示标签
Figure FDA00022239747700000516
和其语义表示
Figure FDA00022239747700000517
组成;
3.2.12iL=iL+1,转3.2.2;
第四步,候选排序模块通过比较原始标签表中原始标签文字le和所有标准标签元的语义,根据le和所有标准标签元语义的相似性生成le的候选标准标签列表Candi(le),并将Candi(le)中语义最相似的候选标签作为标准标签提交给存储服务器存储,具体方法如下:
4.1候选排序模块设置候选标准标签列表长度n2,n2为正整数,候选列表最小临近程度阈值s2,s2为小于1的正实数;
4.2候选排序模块读取原始标签表;
4.3候选排序模块读取标准标签元集合文件,获得标准标签元列表B,标准标签元列表
Figure FDA00022239747700000518
是第iB个标准标签元;
4.4令iY=1;
4.5如果iY>nY,说明已获取了所有原始标签表中所有原始标签的原始标签文字的候选标准标签列表,转第五步,否则,执行4.6;
4.6候选排序模块生成
Figure FDA00022239747700000520
的原始标签文字
Figure FDA00022239747700000521
的候选标准标签列表
Figure FDA00022239747700000522
步骤是:
4.6.1候选排序模块对标准标签元列表B按照与
Figure FDA00022239747700000523
的语义相似度从大到小的顺序排序,得到重排标签序列
Figure FDA00022239747700000524
中第1个元素与
Figure FDA00022239747700000525
的语义相似度最大,第nB个元素与
Figure FDA0002223974770000061
的语义相似度最小;
4.6.2候选排序模块取重排标签序列
Figure FDA0002223974770000062
的前n2个元素,得到第一序列
Figure FDA0002223974770000063
4.6.3候选排序模块取第一序列
Figure FDA0002223974770000064
中所有相似度大于s2的元素,得到候选标准标签列表
Figure FDA0002223974770000065
4.7如果候选标准标签列表
Figure FDA0002223974770000066
不为空,候选排序模块依次提取
Figure FDA0002223974770000067
中第一个标准标签元的标签文字作为标准标签文字及原始标签
Figure FDA0002223974770000068
的标注对象id,标注对象文字内容作为标注对象id和标注对象文字内容,形成标准标签,标准标签为三元组<标准标签文字,标注对象id,标注对象文字内容>,将标准标签提交给存储服务器;
4.8存储服务器从标签服务器收到4.7生成的标准标签后,将<标准标签文字,标注对象id,标注对象文字内容>三个域作为一个表项,写入标准标签表;
4.9令iY=iY+1,转4.5;
第五步,标签比较模块的特征提取模块将标签修改日志表中的标签修改日志转化为特征,存入修改日志特征文件,具体步骤如下:
5.1令iX=1;
5.2如果iX>nX,说明标签修改日志表中的所有标签修改日志已转化为特征并存入修改日志特征文件,转第六步,否则,执行5.3;
5.3特征提取模块读取标签修改日志表的第iX个标签修改日志
Figure FDA0002223974770000069
5.4令
Figure FDA00022239747700000610
的标签id、原标签文字、新标签文字、修改者id、采纳结果分别为
Figure FDA00022239747700000611
特征提取模块为
Figure FDA00022239747700000612
计算第一至第八特征
Figure FDA00022239747700000613
具体方法为:
5.4.1特征提取模块统计原标签文字生产者撰写的原始标签的总数目,作为第一特征
Figure FDA00022239747700000615
5.4.2特征提取模块在原始标签表中查询与
Figure FDA00022239747700000616
的“修改者id”域相同的原始标签表的表项数目,记为的第二特征
Figure FDA00022239747700000618
的意义是修改者撰写的原始标签的总数目;
5.4.3特征提取模块在标签修改日志表中查询与
Figure FDA00022239747700000619
的“修改者id”域相同,且采纳结果域等于1的标签修改日志表的表项数目,记为
Figure FDA00022239747700000620
的第三特征
Figure FDA00022239747700000621
Figure FDA00022239747700000622
的意义是修改者提交的标签修改记录中被采纳的个数;
5.4.4特征提取模块在标准标签表中查询与
Figure FDA00022239747700000623
的“原标签文字”域相同的表项数目,记为
Figure FDA0002223974770000071
的第四特征
Figure FDA0002223974770000072
的意义是原标签文字作为标准标签的出现的次数;
5.4.5特征提取模块在标准标签表中查询与
Figure FDA0002223974770000074
的“新标签文字”域相同的表项数目,记为
Figure FDA0002223974770000075
的第五特征
Figure FDA0002223974770000076
的意义是新标签文字作为标准标签的出现的次数;
5.4.6特征提取模块计算的“新标签文字”对比
Figure FDA0002223974770000078
的“原标签文字”的修改程度,记为第六特征
Figure FDA0002223974770000079
5.4.7特征提取模块计算“原始标签文字”
Figure FDA00022239747700000710
与标注对象文字内容的语义相似性,作为第七特征
Figure FDA00022239747700000711
5.4.8特征提取模块计算“新标签文字”与标注对象文字内容的语义相似性,作为第八特征
Figure FDA00022239747700000712
5.5特征提取模块将表项
Figure FDA00022239747700000713
作为主键,
Figure FDA00022239747700000714
作为键值存入修改日志特征文件;
5.6令iX=iX+1,转5.2;
第六步,标签比较模块训练支持向量机SVM分类器S,用于判定对标签修改日志表中的标签修改日志是采纳还是拒绝,具体步骤如下:
6.1标签比较模块构建训练集Tr,训练集Tr是一个9列Nmax行的矩阵,Nmax为正整数,每一行代表一个标签修改日志,其第1至第8列代表标签修改日志的第一至第八特征;第9列为采纳结果,0代表标签修改日志被拒绝,为1代表标签修改日志被采纳;具体的方法是:
6.1.1语义表示模块读取标签修改日志表,记其中的所有表项为
Figure FDA00022239747700000715
其中
Figure FDA00022239747700000716
为第iX个标签修改日志;
6.1.2令iX=1,初始化Tr为空矩阵;
6.1.3如果iX>nX或Tr已有Nmax行,转6.2,否则,执行6.1.4;
6.1.4标签比较模块从修改日志特征文件中查找
Figure FDA00022239747700000717
的特征
Figure FDA00022239747700000718
6.1.5如果
Figure FDA00022239747700000719
的采纳结果域
Figure FDA00022239747700000720
为0或1,将
Figure FDA00022239747700000721
Figure FDA00022239747700000722
添加到Tr的最后一行;
6.1.6iX=iX+1,转6.1.3;
6.2标签比较模块调用机器学习工具包的SVM函数,输入训练集Tr,获得分类器S;分类器S的功能是输入一个样本
Figure FDA00022239747700000723
的第一至第八特征输出被采纳的概率;
第七步,标签服务器上的标签比较模块使用分类器S对于标签修改日志表中每一个表项,先判断是否采纳,再根据标签修改日志对标准标签表中的对应表项进行修改;具体方法如下:
7.1令iX=1;
7.2语义表示模块读取标签修改日志表的第iX个表项
Figure FDA0002223974770000081
7.3如果iX>nX,转第八步,否则,执行7.4;
7.4标签比较模块从修改日志特征文件中查找
Figure FDA0002223974770000082
的特征
7.5标签比较模块将
Figure FDA0002223974770000084
输入分类器S,得到
Figure FDA0002223974770000085
被采纳的概率
Figure FDA0002223974770000086
7.6如果
Figure FDA0002223974770000087
执行7.7,否则说明不采纳
Figure FDA0002223974770000088
转7.9;
7.7标签比较模块用
Figure FDA0002223974770000089
的“标签id”域查询存储服务器的原始标签表,获得原始标签表表项
7.8标签比较模块向存储服务器提交用<
Figure FDA00022239747700000811
新标签文字,标注对象id,
Figure FDA00022239747700000813
标注对象文字内容,
Figure FDA00022239747700000814
修改者id>替换标准标签表中<原标签文字,
Figure FDA00022239747700000816
标注对象id,
Figure FDA00022239747700000817
标注对象文字内容,生产者id>这一表项的请求;
7.9存储服务器从标准标签表中删除<原标签文字,
Figure FDA00022239747700000820
标注对象id,
Figure FDA00022239747700000821
标注对象文字内容,
Figure FDA00022239747700000822
生产者id>这一表项,向标准标签表写入<
Figure FDA00022239747700000823
新标签文字,
Figure FDA00022239747700000824
标注对象id,标注对象文字内容,
Figure FDA00022239747700000826
修改者id>这一表项;
7.10iX=iX+1,转7.3;
第八步,结束。
2.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法,其特征在于让所述存储服务器部署了数据库软件以为原始标签表、标签修改日志表和标准标签表提供添加表项、修改表项、查询表项这样的数据库功能,所述数据库软件指MySQL8.0及以上版本。
3.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法,其特征在于所述词向量工具包指gensim-3.2.0或以上版本、自动分词工具包指jieba分词-0.39或以上版本,机器学习工具包指scikit-learn-0.20或以上版本。
4.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法,其特征在于所述n满足50<n<100;所述nn满足50≤nn≤100,所述ss满足0.2≤ss≤1;所述n2满足0<n2<20,所述s2满足0.3≤s2≤1;所述Nmax≥1000。
5.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法,其特征在于3.1步所述语义表示模块将原始标签表中所有表项的“原始标签文字”域、标签修改日志表中所有标签修改日志的“原标签文字”域和“新标签文字”域作为待表示标签文字,放入待表示列表L的方法是:3.1.1语义表示模块读取原始标签表
Figure FDA0002223974770000091
3.1.2令原始标签表序号变量iY=1,令待表示列表L为空;
3.1.3如果iY>nY,转3.1.6,否则,执行3.1.4;
3.1.4语义表示模块读取
Figure FDA0002223974770000092
的原始标签文字域,如果原始标签文字域不在待表示列表L中,则将
Figure FDA0002223974770000093
的原始标签文字域添加进待表示列表L;
3.1.5令iY=iY+1,转3.1.3;
3.1.6语义表示模块读取标签修改日志表
3.1.7令标签修改日志表序号变量iX=1;
3.1.8如果iX>nX,说明已得到L,结束;否则,执行3.1.9;
3.1.9语义表示模块读取
Figure FDA0002223974770000095
的原标签文字域,如果原标签文字域的字符串不在待表示列表L中,则将原标签文字域的字符串添加进待表示列表L;
3.1.10语义表示模块读取的新标签文字域,如果新标签文字域的字符串不在待表示列表L中,则将新标签文字域的字符串添加进待表示列表L;
3.1.11令iX=iX+1,转3.1.8。
6.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法,其特征在于3.2.7.3步所述语义表示模块计算单词表V中的所有词与
Figure FDA0002223974770000097
的相似程度的方法是:
3.2.7.3.1令单词表序号变量iV=1;
3.2.7.3.2如果iV>nV,说明得到了V中的nV个词与
Figure FDA0002223974770000098
的相似程度集合结束;否则,执行3.2.7.3.3;
Figure FDA00022239747700000910
是一个由形如
Figure FDA00022239747700000911
Figure FDA00022239747700000912
的二元组组成的集合,其中
Figure FDA00022239747700000913
是V中第iV个词,
Figure FDA00022239747700000914
Figure FDA00022239747700000916
的相似度;
3.2.7.3.3语义表示模块从词向量文件中查找
Figure FDA00022239747700000917
Figure FDA00022239747700000918
的词向量,得到
Figure FDA0002223974770000101
Figure FDA0002223974770000102
3.2.7.3.4语义表示模块按公式(1)计算
Figure FDA0002223974770000103
的相似度
Figure FDA0002223974770000106
Figure FDA0002223974770000107
其中
Figure FDA0002223974770000108
为求向量
Figure FDA0002223974770000109
夹角的余弦值;
3.2.7.3.5令iV=iV+1,转3.2.7.3.2。
7.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法,其特征在于3.2.7.5步所述语义表示模块将
Figure FDA00022239747700001010
中的所有词的词向量加入临近词词向量集合
Figure FDA00022239747700001011
的方法是:
3.2.7.5.1令
Figure FDA00022239747700001012
的临近词序列
Figure FDA00022239747700001013
的序号变量ip=1;
3.2.7.5.2如果ip>np,转3.2.7.6;否则,执行3.2.7.5.3;
3.2.7.5.3语义表示模块从词向量文件中查找
Figure FDA00022239747700001014
的词向量,将
Figure FDA00022239747700001015
的词向量
Figure FDA00022239747700001016
加入临近词词向量集合
Figure FDA00022239747700001017
3.2.7.5.4令ip=ip+1,跳转3.2.7.5.2。
8.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法,其特征在于3.2.8步所述聚类函数为scikit-learn中的k_means函数。
9.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法,其特征在于4.6.1步所述候选排序模块对标准标签元列表B按照与
Figure FDA00022239747700001018
的语义相似度从大到小的顺序排序,得到重排标签序列
Figure FDA00022239747700001019
的方法为:
4.6.1.1令iB=1;
4.6.1.2如果iB>nB,转4.6.1.7,否则,执行4.6.1.3;
4.6.1.3候选排序模块从标签向量文件读取原始标签文字
Figure FDA00022239747700001020
的语义表示
Figure FDA00022239747700001021
4.6.1.4候选排序模块从词向量文件中查找标准标签元
Figure FDA00022239747700001022
的语义表示
Figure FDA00022239747700001023
4.6.1.5候选排序模块计算原始标签文字与标准标签元
Figure FDA00022239747700001025
的语义相似度
Figure FDA00022239747700001026
Figure FDA00022239747700001027
其中为求
Figure FDA00022239747700001029
两个向量夹角余弦函数;
4.6.1.6令iB=iB+1,转4.6.1.2;
4.6.1.7候选排序模块将标准标签元列表B中的元素根据与
Figure FDA00022239747700001030
的语义相似度从大到小进行排序,将排序结果命名为重排标签序列
Figure FDA0002223974770000111
中第1个元素与
Figure FDA0002223974770000112
的语义相似度最大,第nB个元素与
Figure FDA0002223974770000113
的语义相似度最小。
10.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法,其特征在于5.4.1步所述特征提取模块统计原标签文字提供者撰写的原始标签的总数目作为
Figure FDA0002223974770000114
第一特征
Figure FDA0002223974770000115
的方法为:
5.4.1.1特征提取模块用
Figure FDA0002223974770000116
的“标签id”域查询存储服务器的原始标签表,获得原始标签表表项
Figure FDA0002223974770000118
5.4.1.2特征提取模块在原始标签表中查询与
Figure FDA0002223974770000119
的“生产者id”域相同的原始标签表的表项数目,记为的第一特征
Figure FDA00022239747700001111
11.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法,其特征在于5.4.6步所述计算方法为:
5.4.6.1特征提取模块从标签向量文件中查找“原始标签文字”的语义表示5.4.6.2特征提取模块从标签向量文件中查找“新标签文字”的语义表示
Figure FDA00022239747700001116
5.4.6.3特征提取模块计算第六特征
Figure FDA00022239747700001117
其中
Figure FDA00022239747700001118
为求两个向量
Figure FDA00022239747700001119
的夹角余弦函数。
12.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法,其特征在于5.4.7步所述
Figure FDA00022239747700001120
计算方法是:
5.4.7.1特征提取模块计算与
Figure FDA00022239747700001121
对应的标注对象文字内容的平均语义,记为mean_vec(Cix)),具体步骤是:
5.4.7.1.1用
Figure FDA00022239747700001122
的“标签id”域
Figure FDA00022239747700001123
查询原始标签表,获得原始标签表表项
Figure FDA00022239747700001124
5.4.7.1.2特征提取模块调用自动分词软件包对
Figure FDA00022239747700001125
的标注对象文字内容进行分词,得到词序列
Figure FDA00022239747700001126
5.4.7.1.3令词序列
Figure FDA00022239747700001127
的序号变量iC=1,将
Figure FDA00022239747700001128
的语义表示
Figure FDA00022239747700001129
初始化为
Figure FDA00022239747700001130
5.4.7.1.4如果
Figure FDA00022239747700001131
转5.4.7.1.7,否则,执行5.4.7.1.5;
5.4.7.1.5特征提取模块从词向量文件中查找的词向量
Figure FDA00022239747700001133
5.4.7.1.6令
Figure FDA00022239747700001134
5.4.7.1.7iC=iC+1,转5.4.7.1.4;
5.4.7.1.8特征提取模块计算
Figure FDA0002223974770000121
5.4.7.2特征提取模块从标签向量文件中查找“原始标签文字”
Figure FDA0002223974770000122
的语义表示
Figure FDA0002223974770000123
5.4.7.3特征提取模块计算第七特征
Figure FDA0002223974770000124
其中
Figure FDA0002223974770000125
为求两个向量
Figure FDA0002223974770000126
的夹角余弦函数。
13.如权利要求1所述的一种综合多源知识的在线文本类教育资源标签生成方法,其特征在于5.4.8步所述
Figure FDA0002223974770000127
计算方法是:
5.4.8.1特征提取模块从标签向量文件中查找“新标签文字”
Figure FDA0002223974770000128
的语义表示
Figure FDA0002223974770000129
5.4.8.2特征提取模块计算第八特征
Figure FDA00022239747700001210
其中
Figure FDA00022239747700001211
为求两个向量
Figure FDA00022239747700001212
夹角余弦函数。
CN201910945282.5A 2019-09-30 2019-09-30 一种综合多源知识的在线文本类教育资源标签生成方法 Active CN110688461B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910945282.5A CN110688461B (zh) 2019-09-30 2019-09-30 一种综合多源知识的在线文本类教育资源标签生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910945282.5A CN110688461B (zh) 2019-09-30 2019-09-30 一种综合多源知识的在线文本类教育资源标签生成方法

Publications (2)

Publication Number Publication Date
CN110688461A true CN110688461A (zh) 2020-01-14
CN110688461B CN110688461B (zh) 2021-08-06

Family

ID=69111379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910945282.5A Active CN110688461B (zh) 2019-09-30 2019-09-30 一种综合多源知识的在线文本类教育资源标签生成方法

Country Status (1)

Country Link
CN (1) CN110688461B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836992A (zh) * 2021-06-15 2021-12-24 腾讯科技(深圳)有限公司 识别标签的方法、训练标签识别模型的方法、装置及设备
CN117708340A (zh) * 2024-02-06 2024-03-15 阿里健康科技(杭州)有限公司 标签文本的确定方法、模型训练及调整方法、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598588A (zh) * 2015-01-19 2015-05-06 河海大学 基于双聚类的微博用户标签自动生成算法
WO2018174816A1 (en) * 2017-03-24 2018-09-27 Agency For Science, Technology And Research Method and apparatus for semantic coherence analysis of texts
CN108874971A (zh) * 2018-06-07 2018-11-23 北京赛思信安技术股份有限公司 一种应用于海量标签化实体数据存储的工具和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598588A (zh) * 2015-01-19 2015-05-06 河海大学 基于双聚类的微博用户标签自动生成算法
WO2018174816A1 (en) * 2017-03-24 2018-09-27 Agency For Science, Technology And Research Method and apparatus for semantic coherence analysis of texts
CN108874971A (zh) * 2018-06-07 2018-11-23 北京赛思信安技术股份有限公司 一种应用于海量标签化实体数据存储的工具和方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836992A (zh) * 2021-06-15 2021-12-24 腾讯科技(深圳)有限公司 识别标签的方法、训练标签识别模型的方法、装置及设备
CN113836992B (zh) * 2021-06-15 2023-07-25 腾讯科技(深圳)有限公司 识别标签的方法、训练标签识别模型的方法、装置及设备
CN117708340A (zh) * 2024-02-06 2024-03-15 阿里健康科技(杭州)有限公司 标签文本的确定方法、模型训练及调整方法、设备和介质
CN117708340B (zh) * 2024-02-06 2024-05-24 阿里健康科技(杭州)有限公司 标签文本的确定方法、模型训练及调整方法、设备和介质

Also Published As

Publication number Publication date
CN110688461B (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
Sebastiani Text categorization
CN104933164B (zh) 互联网海量数据中命名实体间关系提取方法及其系统
Sebastiani Classification of text, automatic
CN108509521B (zh) 一种自动生成文本索引的图像检索方法
WO2001093102A1 (en) Method and apparatus for making predictions about entities represented in documents
CN110633365A (zh) 一种基于词向量的层次多标签文本分类方法及系统
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
Asirvatham et al. Web page classification based on document structure
KR20220134695A (ko) 인공지능 학습 모델을 이용한 저자 식별 시스템 및 그 방법
CN110688461B (zh) 一种综合多源知识的在线文本类教育资源标签生成方法
CN110196910A (zh) 一种语料分类的方法及装置
CN115640462A (zh) 一种基于知识库增强的跨域新闻推荐方法
CN114611491A (zh) 基于文本挖掘技术的智慧政务舆情分析研究方法
Sharaff et al. Analysing fuzzy based approach for extractive text summarization
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
Zhou et al. Learning transferable node representations for attribute extraction from web documents
CN106372123B (zh) 一种基于标签的相关内容推荐方法和系统
Vitman et al. Evaluating the Impact of OCR Quality on Short Texts Classification Task
Chen et al. Novel word features for keyword extraction
Nagaraj et al. A novel semantic level text classification by combining NLP and Thesaurus concepts
Rani et al. Telugu text summarization using LSTM deep learning
Ramachandran et al. Document Clustering Using Keyword Extraction
Gah et al. Sentiment Analysis of Twitter Feeds using Machine Learning, Effect of Feature Hash Bit Size
Li et al. Similarity search algorithm over data supply chain based on key points
Aref Mining publication papers via text mining Evaluation and Results

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant