CN108090048A - 一种基于多元数据分析的高校评价系统 - Google Patents
一种基于多元数据分析的高校评价系统 Download PDFInfo
- Publication number
- CN108090048A CN108090048A CN201810029406.0A CN201810029406A CN108090048A CN 108090048 A CN108090048 A CN 108090048A CN 201810029406 A CN201810029406 A CN 201810029406A CN 108090048 A CN108090048 A CN 108090048A
- Authority
- CN
- China
- Prior art keywords
- topic
- universities
- colleges
- data
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 23
- 238000000491 multivariate analysis Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 54
- 230000002996 emotional effect Effects 0.000 claims abstract description 23
- 238000013523 data management Methods 0.000 claims abstract description 5
- 238000013079 data visualisation Methods 0.000 claims abstract description 5
- 230000008451 emotion Effects 0.000 claims description 9
- 230000008909 emotion recognition Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 8
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000005065 mining Methods 0.000 abstract description 3
- 230000011218 segmentation Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 241000938605 Crocodylia Species 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Educational Administration (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Educational Technology (AREA)
- Marketing (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Game Theory and Decision Science (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于多元数据分析的高校评价系统,包括:训练模型构建模块,数据获取模块,话题主题分类模块,评论情感分类模块,标签生成模块,数据管理模块,数据可视化模块,如此,充分考虑高校话题信息特点,构建了一个高效的、稳定的热点高校话题发现展示系统,为学生、家长和教师等用户群体提供便捷的服务,从话题分类、关键词抽取的思想,采用中文分词技术,关键词提取技术,并利用空间向量模型将文本信息以向量化形式表示,通过最大化差异结合TF‑IDF算法将各高校的关键词提出出来作为标签,利用类别贡献度模型生成话题特征模型进行分类,并通对话题下的评论信息进行情感分类,通过算法改进提高了文本挖掘准确性和效率,易于推广。
Description
技术领域
本发明涉及自然语言处理和计算机技术领域,尤其涉及一种基于多元数据分析的高校评价系统。
背景技术
随着信息技术的飞速发展,人们获取信息的方式逐渐从传统媒体发展到互联网再到社交媒体。社交媒体上传播的信息已成为人们浏览互联网的重要内容。具体到高校的相关信息,学生和家长大多通过网络对高校进行了解和选择。然而,互联网上高校的信息,来源繁多,内容笼统,多数是高校排名,录取分数高低的间接评价。
相比官方公告和第三方的间接评价,人们更愿意从有过高校生活学习经验的人(大学生,研究生等)中得到对高校客观真实的直接评价,尤其是当两所高校排名相近的时候,周边的环境、学习氛围、伙食好坏等软硬件设施的评价是人们更感兴趣的,而这些在间接评价中是无法获取的。大学及其以上高学历者,多属于我国社会中间阶层,这一部分人具有明显特征,往往热衷于一些小众的社交媒体,如知乎,豆瓣,贴吧,果壳,人人等。对高校评价的数据信息由他们发出,呈现出典型的多源特性。如何实施的采集高校相关话题数据,如何针对特点问题对高校的数据进行挖掘,直观、有代表性的将高校的相关信息呈现给用户是本发明的主要目的。
发明内容
基于背景技术存在的技术问题,本发明提出了一种基于多元数据分析的高校评价系统;
本发明提出的一种基于多元数据分析的高校评价系统,包括:
训练模型构建模块,用于通过人工标注的高校话题主题类别和评论情感倾向类别对预设话题数据和预设话题评论数据进行训练,得到训练模型;
数据获取模块,用于通过网络爬虫获取高校话题数据和该高校话题评论数据;
话题主题分类模块,用于通过训练模型对高校话题数据进行话题主题识别,得到高校话题数据的话题主题类别;
评论情感分类模块,用于通过训练模型对高校话题评论数据进行评论情感识别,得到高校话题评论的情感类别;
标签生成模块,用于通过训练模型对高校话题数据进行标签识别,得到高校话题标签;
数据管理模块,用于对高校话题数据、高校话题评论数据、高校话题数据的话题主题类别、高校话题评论的情感类别、高校话题标签进行管理;
数据可视化模块,用于向用户展示高校话题数据的话题主题类别、高校话题评论的情感类别、高校话题标签。
优选地,所述训练模型构建模块,具体用于:
在通过人工标注的高校话题主题类别和评论情感倾向类别对预设话题数据进行训练之前,对预设话题数据和预设话题评论数据进行分词、去停用词和去噪,得到待处理话题数据和待处理话题评论数据;
人工标注高校话题主题类别、人工标注高校话题对应评论情感倾向类别,作为训练集。
优选地,所述训练模型构建模块,具体用于:所述训练模型包括话题主题训练模型、评论情感训练模型和标签训练模型。
优选地,所述话题主题训练模型,具体包括:
计算预设话题数据中的词在不同高校话题主题类别下的文档频率;
以高校话题主题类别作为特征向量的各维特征,该词在各高校话题主题类别下的文档频率值作为各维特征的权重值,构造词类别贡献度特征向量;
将预设话题数据的特征词和对应的词类别贡献度特征向量进行累加归一化,得到话题类别贡献度特征向量,所述话题类别贡献度特征向量为话题主题训练模型;
优选地,所述构造词类别贡献度特征向量,包括:
其中,m为高校话题主题类别,为词tj的类别贡献度特征向量,为词tj在m下的权重,其中为m中包含tj的文本数,nm为该高校话题主题类别下的文本总数;
优选地,所述预设话题数据的特征词,包括:
计算预设话题数据中各词的TF-IDF值;
计算预设话题数据中各词的最大化差异值;
将最大化差异值和TF-IDF值相乘计算各词的权值,将各词的权值降序排序,选择降序排序后前N个词作为预设话题数据的特征词,公式为:
wj其中,wj词的权值,MDj为词tj的最大化差异值,其中a、b为m个高校话题主题类别中的任意2个类别,Zasj为高校话题主题类别b中词j出现s次的文本数据和该高校话题主题类别中包含词j的比例,tfj为文档频率,idfj为逆文档频率。
优选地,所述话题主题分类模块,具体用于:
通过话题主题训练模型识别高校话题数据的最大维特征,得到高校话题数据的话题主题类别。
优选地,所述评论情感训练模型,具体包括:
基于最大化差异值计算预设话题评论数据中各词权重,选择最优子集作为预设话题评论数据的特征词wj,
其中,MDj为词tj的最大化差异值,其中a、b为M个评论情感倾向类别中的任意2个类别,Zasj为评论情感倾向类别b中词j出现s次的文档和该评论情感倾向类别中包含词j的文档总数的比例,tfj为文档频率,idfj为逆文档频率;
以所述特征词作为特征,构造预设话题评论数据的特征向量,其中每个特征词对应一个维度,各词的TF-IDF值为对应权重;
利用朴素贝叶斯算法对预设话题评论数据进行情感分类。
优选地,所述评论情感分类模块,具体用于:
通过评论情感训练模型对高校话题评论数据进行评论情感识别,得到高校话题评论的情感类别。
优选地,所述标签训练模型,具体包括:
计算预设话题数据中各词的TF-IDF值;
计算预设话题数据中各词的最大化差异值;
将最大化差异值和TF-IDF值相乘,将得出权值降序排序,选择降序排序后前N个词作为话题标签。
优选地,所述标签训练模型,具体用于:将最大化差异值和TF-IDF值相乘,
其中,MDj为词tj的最大化差异值,其中a、b为m个高校话题主题类别中的任意2个类别,Zasj为高校话题主题类别b中词j出现s次的文档和该高校话题主题类别中包含词j的文档总数的比例,tfj为文档频率,idfj为逆文档频率。
优选地,所述标签生成模块,具体用于:通过标签训练模型对高校话题数据进行标签识别,得到高校话题标签。
本发明充分考虑高校话题信息特点,构建了一个高效的、稳定的热点高校话题发现展示系统,为学生、家长和教师等用户群体提供便捷的服务,从话题分类、关键词抽取的思想,采用中文分词技术,关键词提取技术,并利用空间向量模型将文本信息以向量化形式表示,通过最大化差异结合TF-IDF算法将各高校的关键词提出出来作为标签,利用类别贡献度模型生成话题特征模型进行分类,并通对话题下的评论信息进行情感分类,通过算法改进提高了文本挖掘准确性和效率,易于推广。
附图说明
图1为本发明提出的一种基于多元数据分析的高校评价系统的模块示意图;
图2为本发明中话题主题训练模型处理流程示意图;
图3为本发明中评论情感训练模型处理流程示意图;
图4为本发明中标签训练模型处理流程示意图。
具体实施方式
参照图1,本发明提出的一种基于多元数据分析的高校评价系统,包括:
训练模型构建模块,用于对预设话题数据和预设话题评论数据进行分词、去停用词和去噪,得到待处理话题数据和待处理话题评论数据;人工标注高校话题主题类别、人工标注高校话题对应评论情感倾向类别,作为训练集,通过人工标注的高校话题主题类别和评论情感倾向类别对预设话题数据和预设话题评论数据进行训练,得到训练模型,所述训练模型包括话题主题训练模型、评论情感训练模型和标签训练模型。
所述话题主题训练模型,具体包括:
计算预设话题数据中的词在不同高校话题主题类别下的文档频率;
以高校话题主题类别作为特征向量的各维特征,该词在各高校话题主题类别下的文档频率值作为各维特征的权重值,构造词类别贡献度特征向量,所述构造词类别贡献度特征向量,包括:
其中,m为高校话题主题类别,为词tj的类别贡献度特征向量,为词tj在m下的权重,其中为m中包含tj的文本数,nm为该高校话题主题类别下的文本总数。
将预设话题数据的特征词和对应的词类别贡献度特征向量进行累加归一化,得到话题类别贡献度特征向量,所述话题类别贡献度特征向量为话题主题训练模型,所述预设话题数据的特征词,包括:
计算预设话题数据中各词的TF-IDF值;
计算预设话题数据中各词的最大化差异值;
将最大化差异值和TF-IDF值相乘计算各词的权值,将各词的权值降序排序,选择降序排序后前N个词作为预设话题数据的特征词,公式为:
wj其中,wj词的权值,MDj为词tj的最大化差异值,其中a、b为m个高校话题主题类别中的任意2个类别,Zasj为高校话题主题类别b中词j出现s次的文本数据和该高校话题主题类别中包含词j的比例,tfj为文档频率,idfj为逆文档频率。
评论情感训练模型,具体包括:
基于最大化差异值计算预设话题评论数据中各词权重,选择最优子集作为预设话题评论数据的特征词wj,
其中,MDj为词tj的最大化差异值,其中a、b为M个评论情感倾向类别中的任意2个类别,Zasj为评论情感倾向类别b中词j出现s次的文档和该评论情感倾向类别中包含词j的文档总数的比例,tfj为文档频率,idfj为逆文档频率;
以所述特征词作为特征,构造预设话题评论数据的特征向量,其中每个特征词对应一个维度,各词的TF-IDF值为对应权重;
利用朴素贝叶斯算法对预设话题评论数据进行情感分类。
标签训练模型,具体包括:
计算预设话题数据中各词的TF-IDF值;
计算预设话题数据中各词的最大化差异值;
将最大化差异值和TF-IDF值相乘,
其中,MDj为词tj的最大化差异值,其中a、b为m个高校话题主题类别中的任意2个类别,Zasj为高校话题主题类别b中词j出现s次的文档和该高校话题主题类别中包含词j的文档总数的比例,tfj为文档频率,idfj为逆文档频率;
将得出权值降序排序,选择降序排序后前N个词作为话题标签。
数据获取模块,用于通过网络爬虫获取高校话题数据和该高校话题评论数据。
在具体方案中,进行高校话题信息数据的爬取,主要由Python提供的Scrapy爬虫框架实现,网络爬虫是一个自动提取网页的程序,根据一定的网页分析算法选择与高校相关的话题链接,并将网页信息保存。
话题主题分类模块,用于通过训练模型对高校话题数据进行话题主题识别,得到高校话题数据的话题主题类别,具体用于:
通过话题主题训练模型识别高校话题数据的最大维特征,得到高校话题数据的话题主题类别。
在具体方案中,第一步计算话题中的词在不同主题下的文档频率;第二步以主题作为特征向量的各维特征,该词在各主题下的DF值作为各维特征的权重值,构造词类别贡献度特征向量;第三步将待预测预话题中的特征词对应的词类别贡献度特征向量进行累加归一化,得出的结果为话题的类别贡献度特征向量。第四步根据词特征向量的特点,该话题的特征向量的各个维也分别对应语料库中的各类别,在进行分类时,只需要根据特征向量的最大维特征所对应的类别即可判断话题的主题类别。
评论情感分类模块,用于通过训练模型对高校话题评论数据进行评论情感识别,得到高校话题评论的情感类别,具体包括:
通过评论情感训练模型对高校话题评论数据进行评论情感识别,得到高校话题评论的情感类别。
在具体方案中,人工标注的高校话题对应评论情感倾向类别分为正面/负面/中立三个类别。
第一步,基于最大化差异值的方法计算权重,选择最优子集作为特征词;
第二步,以选择的特征词作为特征,构造评论信息的特征向量,其中每个特征词对应一个维度,评论中各词的TF-IDF值为对应权重;
第三步,利用朴素贝叶斯算法进行分类,得到高校话题评论的情感类别。
标签生成模块,用于通过训练模型对高校话题数据进行标签识别,得到高校话题标签,具体用于:通过标签训练模型对高校话题数据进行标签识别,得到高校话题标签。
在具体方案中,通过TF-IDF算法计算出特征词在高校评论中的权重;通过计算各词项的最大化差异值表示类别代表性;通过将最大化差异值和TF-IDF值相乘,将得出权值降序排序,选择TOP-N个词作为文本特征词,即高校的标签。
数据管理模块,用于对高校话题数据、高校话题评论数据、高校话题数据的话题主题类别、高校话题评论的情感类别、高校话题标签进行管理。
在具体方案中,数据管理模块为系统管理员提供接口,实现对高校相关的数据信息进行人工管理。
数据可视化模块,用于向用户展示高校话题数据的话题主题类别、高校话题评论的情感类别、高校话题标签。
在具体方案中,数据可视化模块为用户提供数据展示功能,将高校相关数据信息以页面的形式展示给用户。
本实施方式充分考虑高校话题信息特点,构建了一个高效的、稳定的热点高校话题发现展示系统,为学生、家长和教师等用户群体提供便捷的服务,从话题分类、关键词抽取的思想,采用中文分词技术,关键词提取技术,并利用空间向量模型将文本信息以向量化形式表示,通过最大化差异结合TF-IDF算法将各高校的关键词提出出来作为标签,利用类别贡献度模型生成话题特征模型进行分类,并通对话题下的评论信息进行情感分类,通过算法改进提高了文本挖掘准确性和效率,易于推广。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于多元数据分析的高校评价系统,其特征在于,包括:
训练模型构建模块,用于通过人工标注的高校话题主题类别和评论情感倾向类别对预设话题数据和预设话题评论数据进行训练,得到训练模型;
数据获取模块,用于通过网络爬虫获取高校话题数据和该高校话题评论数据;
话题主题分类模块,用于通过训练模型对高校话题数据进行话题主题识别,得到高校话题数据的话题主题类别;
评论情感分类模块,用于通过训练模型对高校话题评论数据进行评论情感识别,得到高校话题评论的情感类别;
标签生成模块,用于通过训练模型对高校话题数据进行标签识别,得到高校话题标签;
数据管理模块,用于对高校话题数据、高校话题评论数据、高校话题数据的话题主题类别、高校话题评论的情感类别、高校话题标签进行管理;
数据可视化模块,用于向用户展示高校话题数据的话题主题类别、高校话题评论的情感类别、高校话题标签。
2.根据权利要求1所述的基于多元数据分析的高校评价系统,其特征在于,所述训练模型构建模块,具体用于:
在通过人工标注的高校话题主题类别和评论情感倾向类别对预设话题数据进行训练之前,对预设话题数据和预设话题评论数据进行分词、去停用词和去噪,得到待处理话题数据和待处理话题评论数据;
人工标注高校话题主题类别、人工标注高校话题对应评论情感倾向类别,作为训练集。
3.根据权利要求1所述的基于多元数据分析的高校评价系统,其特征在于,所述训练模型构建模块,具体用于:所述训练模型包括话题主题训练模型、评论情感训练模型和标签训练模型。
4.根据权利要求3所述的基于多元数据分析的高校评价系统,其特征在于,所述话题主题训练模型,具体包括:
计算预设话题数据中的词在不同高校话题主题类别下的文档频率;
以高校话题主题类别作为特征向量的各维特征,该词在各高校话题主题类别下的文档频率值作为各维特征的权重值,构造词类别贡献度特征向量;
将预设话题数据的特征词和对应的词类别贡献度特征向量进行累加归一化,得到话题类别贡献度特征向量,所述话题类别贡献度特征向量为话题主题训练模型;
优选地,所述构造词类别贡献度特征向量,包括:
其中,m为高校话题主题类别,为词tj的类别贡献度特征向量,为词tj在m下的权重,其中为m中包含tj的文本数,nm为该高校话题主题类别下的文本总数;
优选地,所述预设话题数据的特征词,包括:
计算预设话题数据中各词的TF-IDF值;
计算预设话题数据中各词的最大化差异值;
将最大化差异值和TF-IDF值相乘计算各词的权值,将各词的权值降序排序,选择降序排序后前N个词作为预设话题数据的特征词,公式为:
wj其中,wj词的权值,MDj为词tj的最大化差异值,其中a、b为m个高校话题主题类别中的任意2个类别,Zasj为高校话题主题类别b中词j出现s次的文本数据和该高校话题主题类别中包含词j的比例,tfj为文档频率,idfj为逆文档频率。
5.根据权利要求4所述的基于多元数据分析的高校评价系统,其特征在于,所述话题主题分类模块,具体用于:
通过话题主题训练模型识别高校话题数据的最大维特征,得到高校话题数据的话题主题类别。
6.根据权利要求3所述的基于多元数据分析的高校评价系统,其特征在于,所述评论情感训练模型,具体包括:
基于最大化差异值计算预设话题评论数据中各词权重,选择最优子集作为预设话题评论数据的特征词wj,
其中,MDj为词tj的最大化差异值,其中a、b为M个评论情感倾向类别中的任意2个类别,Zasj为评论情感倾向类别b中词j出现s次的文档和该评论情感倾向类别中包含词j的文档总数的比例,tfj为文档频率,idfj为逆文档频率;
以所述特征词作为特征,构造预设话题评论数据的特征向量,其中每个特征词对应一个维度,各词的TF-IDF值为对应权重;
利用朴素贝叶斯算法对预设话题评论数据进行情感分类。
7.根据权利要求6所述的基于多元数据分析的高校评价系统,其特征在于,所述评论情感分类模块,具体包括:
通过评论情感训练模型对高校话题评论数据进行评论情感识别,得到高校话题评论的情感类别。
8.根据权利要求3所述的基于多元数据分析的高校评价系统,其特征在于,所述标签训练模型,具体包括:
计算预设话题数据中各词的TF-IDF值;
计算预设话题数据中各词的最大化差异值;
将最大化差异值和TF-IDF值相乘,将得出权值降序排序,选择降序排序后前N个词作为话题标签。
9.根据权利要求8所述的基于多元数据分析的高校评价系统,其特征在于,所述标签训练模型,具体用于:将最大化差异值和TF-IDF值相乘,
其中,MDj为词tj的最大化差异值,其中a、b为m个高校话题主题类别中的任意2个类别,Zasj为高校话题主题类别b中词j出现s次的文档和该高校话题主题类别中包含词j的文档总数的比例,tfj为文档频率,idfj为逆文档频率。
10.根据权利要求8所述的基于多元数据分析的高校评价系统,其特征在于,所述标签生成模块,具体用于:通过标签训练模型对高校话题数据进行标签识别,得到高校话题标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810029406.0A CN108090048B (zh) | 2018-01-12 | 2018-01-12 | 一种基于多元数据分析的高校评价系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810029406.0A CN108090048B (zh) | 2018-01-12 | 2018-01-12 | 一种基于多元数据分析的高校评价系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108090048A true CN108090048A (zh) | 2018-05-29 |
CN108090048B CN108090048B (zh) | 2021-05-25 |
Family
ID=62183100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810029406.0A Active CN108090048B (zh) | 2018-01-12 | 2018-01-12 | 一种基于多元数据分析的高校评价系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108090048B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110032636A (zh) * | 2019-04-30 | 2019-07-19 | 合肥工业大学 | 基于强化学习的情感对话异步生成模型生成文本的方法 |
CN110046634A (zh) * | 2018-12-04 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 聚类结果的解释方法和装置 |
CN110147552A (zh) * | 2019-05-22 | 2019-08-20 | 南京邮电大学 | 基于自然语言处理的教育资源质量评价挖掘方法及系统 |
CN110781307A (zh) * | 2019-11-06 | 2020-02-11 | 北京沃东天骏信息技术有限公司 | 目标物品关键词和标题生成方法、搜索方法以及相关设备 |
CN111460261A (zh) * | 2020-04-13 | 2020-07-28 | 同济大学 | 一种多平台网络录播课程整合平台及方法 |
CN111832851A (zh) * | 2019-04-15 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 一种检测方法及装置 |
CN113592225A (zh) * | 2021-06-24 | 2021-11-02 | 浙江清朗科技有限公司 | 一种基层员工思维动态采集方法 |
CN115062586A (zh) * | 2022-08-08 | 2022-09-16 | 山东展望信息科技股份有限公司 | 一种基于大数据和人工智能的热点话题处理方法 |
CN115329903A (zh) * | 2022-10-12 | 2022-11-11 | 江苏航运职业技术学院 | 应用于数字孪生城市的空间数据集成方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425755A (zh) * | 2013-07-31 | 2013-12-04 | 王永恒 | 一种基于微博分析电视节目收视情况的方法 |
US20130346424A1 (en) * | 2012-06-21 | 2013-12-26 | Microsoft Corporation | Computing tf-idf values for terms in documents in a large document corpus |
CN103605658A (zh) * | 2013-10-14 | 2014-02-26 | 北京航空航天大学 | 一种基于文本情感分析的搜索引擎系统 |
CN103744981A (zh) * | 2014-01-14 | 2014-04-23 | 南京汇吉递特网络科技有限公司 | 一种基于网站内容用于网站自动分类分析的系统 |
CN103793503A (zh) * | 2014-01-24 | 2014-05-14 | 北京理工大学 | 一种基于web文本的观点挖掘与分类的方法 |
CN105404699A (zh) * | 2015-12-29 | 2016-03-16 | 广州神马移动信息科技有限公司 | 一种搜索财经文章的方法、装置及服务器 |
CN105630970A (zh) * | 2015-12-24 | 2016-06-01 | 哈尔滨工业大学 | 社会媒体数据处理系统及方法 |
CN105824922A (zh) * | 2016-03-16 | 2016-08-03 | 重庆邮电大学 | 一种融合深层特征和浅层特征的情感分类方法 |
-
2018
- 2018-01-12 CN CN201810029406.0A patent/CN108090048B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130346424A1 (en) * | 2012-06-21 | 2013-12-26 | Microsoft Corporation | Computing tf-idf values for terms in documents in a large document corpus |
CN103425755A (zh) * | 2013-07-31 | 2013-12-04 | 王永恒 | 一种基于微博分析电视节目收视情况的方法 |
CN103605658A (zh) * | 2013-10-14 | 2014-02-26 | 北京航空航天大学 | 一种基于文本情感分析的搜索引擎系统 |
CN103744981A (zh) * | 2014-01-14 | 2014-04-23 | 南京汇吉递特网络科技有限公司 | 一种基于网站内容用于网站自动分类分析的系统 |
CN103793503A (zh) * | 2014-01-24 | 2014-05-14 | 北京理工大学 | 一种基于web文本的观点挖掘与分类的方法 |
CN105630970A (zh) * | 2015-12-24 | 2016-06-01 | 哈尔滨工业大学 | 社会媒体数据处理系统及方法 |
CN105404699A (zh) * | 2015-12-29 | 2016-03-16 | 广州神马移动信息科技有限公司 | 一种搜索财经文章的方法、装置及服务器 |
CN105824922A (zh) * | 2016-03-16 | 2016-08-03 | 重庆邮电大学 | 一种融合深层特征和浅层特征的情感分类方法 |
Non-Patent Citations (1)
Title |
---|
张燕平 等: "一种局部和全局用户影响力相结合的社交推荐算法", 《南京大学学报(自然科学)》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046634A (zh) * | 2018-12-04 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 聚类结果的解释方法和装置 |
CN111832851B (zh) * | 2019-04-15 | 2024-03-29 | 北京嘀嘀无限科技发展有限公司 | 一种检测方法及装置 |
CN111832851A (zh) * | 2019-04-15 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 一种检测方法及装置 |
CN110032636A (zh) * | 2019-04-30 | 2019-07-19 | 合肥工业大学 | 基于强化学习的情感对话异步生成模型生成文本的方法 |
CN110147552B (zh) * | 2019-05-22 | 2022-12-06 | 南京邮电大学 | 基于自然语言处理的教育资源质量评价挖掘方法及系统 |
CN110147552A (zh) * | 2019-05-22 | 2019-08-20 | 南京邮电大学 | 基于自然语言处理的教育资源质量评价挖掘方法及系统 |
CN110781307A (zh) * | 2019-11-06 | 2020-02-11 | 北京沃东天骏信息技术有限公司 | 目标物品关键词和标题生成方法、搜索方法以及相关设备 |
CN111460261A (zh) * | 2020-04-13 | 2020-07-28 | 同济大学 | 一种多平台网络录播课程整合平台及方法 |
CN113592225A (zh) * | 2021-06-24 | 2021-11-02 | 浙江清朗科技有限公司 | 一种基层员工思维动态采集方法 |
CN113592225B (zh) * | 2021-06-24 | 2023-12-01 | 浙江清朗科技有限公司 | 一种基层员工思维动态采集方法 |
CN115062586A (zh) * | 2022-08-08 | 2022-09-16 | 山东展望信息科技股份有限公司 | 一种基于大数据和人工智能的热点话题处理方法 |
CN115329903A (zh) * | 2022-10-12 | 2022-11-11 | 江苏航运职业技术学院 | 应用于数字孪生城市的空间数据集成方法及系统 |
CN115329903B (zh) * | 2022-10-12 | 2023-05-30 | 福建美舫时代科技有限公司 | 应用于数字孪生城市的空间数据集成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108090048B (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108090048A (zh) | 一种基于多元数据分析的高校评价系统 | |
CN103744981B (zh) | 一种基于网站内容用于网站自动分类分析的系统 | |
CN106528656B (zh) | 一种基于学员历史和实时学习状态参量实现课程推荐的方法和系统 | |
US9852132B2 (en) | Building a topical learning model in a content management system | |
Butnaru et al. | Moroco: The moldavian and romanian dialectal corpus | |
CN108363790A (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN108563638B (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN108446271A (zh) | 基于汉字部件特征的卷积神经网络的文本情感分析方法 | |
Valakunde et al. | Multi-aspect and multi-class based document sentiment analysis of educational data catering accreditation process | |
Pong-Inwong et al. | Improved sentiment analysis for teaching evaluation using feature selection and voting ensemble learning integration | |
KR101734728B1 (ko) | 소셜 네트워크 서비스를 이용하여 온라인 협동 학습을 제공하는 방법 및 서버 | |
CN107153640A (zh) | 一种面向初等数学领域的分词方法 | |
CN108090099A (zh) | 一种文本处理方法及装置 | |
CN110489523A (zh) | 一种基于网购评价的细粒度情感分析方法 | |
CN108090098A (zh) | 一种文本处理方法及装置 | |
CN116860978B (zh) | 基于知识图谱和大模型的小学语文个性化学习系统 | |
Shariaty et al. | Fine-grained opinion mining using conditional random fields | |
CN110209767A (zh) | 一种用户画像构建方法 | |
Kasthuri et al. | An opinion mining and sentiment analysis techniques: A survey | |
US20170193620A1 (en) | Associate a learner and learning content | |
Littell | Systematic reviews in the social sciences: a review | |
Li | Machine Learning-Based Evaluation of Information Literacy Enhancement among College Teachers. | |
CN113268573A (zh) | 一种学术人才信息的抽取方法 | |
Sy et al. | Transforming Education Policy: Evaluating UAQTE Program Implementation Through LDA, BoW and TF-IDF Techniques | |
Seki et al. | A Method for Determining Web News Suitable as Teaching Materials of Regional Study in Elementary Schools |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |