CN106407482B - 一种基于多特征融合的网络学术报告分类方法 - Google Patents

一种基于多特征融合的网络学术报告分类方法 Download PDF

Info

Publication number
CN106407482B
CN106407482B CN201611089615.1A CN201611089615A CN106407482B CN 106407482 B CN106407482 B CN 106407482B CN 201611089615 A CN201611089615 A CN 201611089615A CN 106407482 B CN106407482 B CN 106407482B
Authority
CN
China
Prior art keywords
probability
report
classification
subject
matching result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611089615.1A
Other languages
English (en)
Other versions
CN106407482A (zh
Inventor
薛峰
夏帅
王健伟
许剑东
王东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201611089615.1A priority Critical patent/CN106407482B/zh
Publication of CN106407482A publication Critical patent/CN106407482A/zh
Application granted granted Critical
Publication of CN106407482B publication Critical patent/CN106407482B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多特征融合的网络学术报告分类方法;其特征包括:1、收集并建立学术报告数据库,根据数据库中学术报告的主办单位信息把学术报告粗分到与主办单位同性质的某些学科中;2、建立全国各领域研究人员数据库,与学术报告中的报告人信息匹配,确定分类;3、提取出学术报告数据标题中的关键词;4、对提取出的关键词进行同义词特征扩展;5、同义词扩展后对得到的特征进行文本分类;6、综合所述分类结果得到学术报告的最终分类结果。本发明通过多因素的方法对学术报告进行分类,从而保证分类的速度以及精度。

Description

一种基于多特征融合的网络学术报告分类方法
技术领域
本发明属于基于机器学习的文本分类技术领域,主要涉及一种基于多特征融合的学术报告预告分类方法。
背景技术
学术报告有助于开拓视野和知识面并获得前沿研究信息,学术报告的内容通常是报告者的最新研究成果,有助于科技工作者了解学科的最新研究进展情况,还可以藉此途径获得跨学科的知识,通过当面聆听这一形式,还可能获取到专家的知识思维,有助于科技工作者开启自己固有的直觉能力,也可以借助环境气氛来开启自己这种天赋固有的直觉能力。
另外,随着科技工作者的不断增多,他们对最新科技的渴望也是逐渐增加的,但是又没有太多的时间去挑选需要关注的学术报告,这就需要我们事先进行学术报告的分类,然后对这些科技工作者进行推荐和推送,能极大的减少占用做科研的时间。然而网上学术报告信息量巨大,如果通过人工分类的方法,费时费力,无法进行及时的推荐和推送。进行简单的机器学习的方法进行推荐和推送又浪费了学术报告能提供的众多信息,分类准确度也得不到很好的保障。
目前,进行短文本分类的方法主要分为三大类:
1.人工分类
2.利用机器学习的方法进行分类
3.融合机器学习的方法以及数据包含的其他信息进行融合分类。
利用人工进行分类的方法很简单,但是只适合在数据量极其小的情况下,人工分类需要投入大量的人力和精力,而且需要专业的人士参与,否则准确率不会很高,该方法实用性差。利用机器学习的方法进行分类适合那些文本中不包含对分类有帮助的信息的情况下,目前使用机器学习进行文本分类的方法很多,但是始终达不到较高的准确率。融合机器学习的各种方法并且在其基础上加入文本中包含的其他有用特征进行融合分类,但是仍然无法满足实际分类精度要求。
发明内容
本发明是为了避免现有技术存在的不足之处,提出一种基于多特征融合的网络学术报告分类方法,以期充分利用学术报告中包含的各种特征,并且结合多种机器学习的算法,以实现学术报告分类的最大准确率,从而保证实际应用的分类准确率。
本发明为解决技术问题采用如下技术方案:
本发明一种基于多特征融合的网络学术报告分类方法的特点是按如下步骤进行:
步骤1、收集并建立学术报告数据库;
步骤1.1、利用爬虫工具收集网络学术报告的信息并作为相应条目,所述网络学术报告的信息包括:报告标题、报告时间、报告地点、报告人、报告人简介、报告简介和报告举办单位;
步骤1.2、添加学术报告所属的学科分类信息的条目,从而建立学术报告数据库;
步骤2、获得第一匹配结果集合;
步骤2.1、收集并建立学院名称集合及其包含的各个学科名称集合;
步骤2.2、将所述报告举办单位与所述学院名称集合中的各个学院进行匹配,从而获得第一匹配结果集合;所述第一匹配结果集合为所述报告举办单位所对应的学院所包含的所有学科;
步骤3、获得第二匹配结果集合;
步骤3.1、收集并建立研究人员集合及其对应的研究领域集合;
步骤3.2、将所述报告人与所述研究人员集合中的各个研究人员姓名进行匹配,从而获得第二匹配结果集合;所述第二匹配结果集合为所述报告人所属的研究领域;
步骤4、利用中文关键词提取算法对所述报告标题进行提取,获得所述报告标题的关键词;
步骤5、使用同义词扩展算法对所提取的关键词进行同义词扩展,得到所述关键词的近义词特征集合;
步骤6、使用SVM分类器对所述关键词及其近义词特征集合进行文本分类,得到第一分类结果;所述第一分类结果为所述关键词及其近义词所对应的第一学科集合;所述第一学科集合中包含各个学科名称及其相应的概率;
步骤7、使用朴素贝叶斯分类器NB对所述关键词及其近义词特征集合进行文本分类,得到第二分类结果;所述第二分类结果为所述关键词及其近义词所对应的第二学科集合;所述第二学科集合中包含各个学科名称及其相应的概率;
步骤8、得到初步分类结果集合;
步骤8.1、从所述第一分类结果和第二分类结果分别选出概率最高的前2个学科所对应的概率,分别记为第一SVM概率和第二SVM概率、第一NB概率和第二NB概率;
步骤8.2、设置一个置信度值C;
步骤8.3、判断第一SVM概率和第二SVM概率之差≥置信度值C是否成立,若成立,则表将所述第一SVM概率所对应的学科作为第一初步分类结果;否则,则将所述第一SVM概率和第二SVM概率所对应的学科作为第一初步分类结果;
步骤8.4、判断第一NB概率和第二NB概率之差≥置信度值C是否成立,若成立,则表将所述第一NB概率所对应的学科作为第二初步分类结果;否则,则将所述第一NB概率和第二NB概率所对应的学科作为第二初步分类结果;
步骤8.5、将所述第一初步分类结果和第二初步分类结果取并集,得到初步分类结果集合;
步骤9、得到最终分类结果
步骤9.1、为所述第一匹配结果集合、第二匹配结果集合和初步分类结果集合设定相应的权重,记为X、Y、Z;
步骤9.2、将所述第一匹配结果集合、第二匹配结果集合和初步分类结果集合取并集,得到综合分类结果集合;
步骤9.3、统计所述综合分类结果集合中的每个学科分别在所述第一匹配结果集合、第二匹配结果集合和初步分类结果集合中相应权重的总和;
步骤9.4、以权重的总和最高的学科作为所述网络学术报告的最终分类结果并用于预告和推荐。
与现有技术相比,本发明的有益效果在于:
1.本发明充分使用了数据自身包含的信息,将学术报告中报告人和报告单位的匹配结果于用机器学习方法得到的结果进行融合,提高了分类的准确率,保证了实际应用的需求。
2.本发明首先建立研究单位数据库和研究人员数据库,将学术报告中的举办单位以及报告人信息与数据库中的信息进行匹配,得到一系列学术报告人对应的学科以及一系列报告单位对应的学科,解决了数据利用不充分的问题,提高了学术报告数据利用效率。
3.本发明结合了多种传统的机器学习方法,并加入置信度策略,使用支持向量机的分类方法得到分类结果,判断第一概率与第二概率的差值大于置信度是否成立,成立则取第一概率对应的学科,否则取第一概率和第二概率对应的学科,得到支持向量机分类结果;再同样的使用使用朴素贝叶斯的方法进行分类,得到朴素贝叶斯分类结果,将两种分类方法的结果取并集,得到机器学习方法的分类结果,本方法结合了多种机器学习方法的优点,提高了融合分类结果的准确率。
附图说明
图1为本发明的整体流程图;
图2为本发明多特征融合分类流程图。
具体实施方式
在本实施例中,一种基于多特征融合的网络学术报告分类方法,是通过多因素的方法对学术报告进行分类,其整体流程图如图1所示,并按如下过程进行:
步骤1、收集并建立学术报告数据库;
步骤1.1、利用爬虫工具收集网络学术报告的信息并作为相应条目,网络学术报告的信息包括:报告标题、报告时间、报告地点、报告人、报告人简介、报告简介和报告举办单位;
步骤1.2、添加学术报告所属的学科分类信息的条目,从而建立学术报告数据库;
步骤2、获得第一匹配结果集合;
步骤2.1、收集并建立学院名称集合及其包含的各个学科名称集合;
步骤2.2、将报告举办单位与学院名称集合中的各个学院进行匹配,从而获得第一匹配结果集合;第一匹配结果集合为报告举办单位所对应的学院所包含的所有学科;
步骤3、获得第二匹配结果集合;
步骤3.1、收集并建立研究人员集合及其对应的研究领域集合;
步骤3.2、将报告人与研究人员集合中的各个研究人员姓名进行匹配,从而获得第二匹配结果集合;第二匹配结果集合为报告人所属的研究领域;
步骤4、利用中文关键词提取算法对报告标题进行提取,获得报告标题的关键词;
步骤4.1、收集关键词提取的训练集,训练集保存在同一个文件夹中,其中每个文件都是以文本文件的形式存储,总的文件数为D。
步骤4.2、对训练集中所有的文本文件进行分词处理,并且使用一个字典记录每个词出现的次数。
步骤4.3、遍历字典中的每个词,计算每个词在所有文本文件中出现的词频的总和,这样得到每个词的词频TF;同时也计算每个词在文本文件中出现的次数,在每个文本文件中不管是只出现一次或出现多次,都只是把出现的次数加1,这样得到某个词在文件中出现的次数i,这样可以得到每个词的逆向文件频率IDF的值;
步骤4.4、计算的每个词的TFIDF值即为的TF*IDF,根据得到的TFIDF值的大小进行排序,取出前N1个词作为这一文档的关键词;
步骤4.5、对取出的学术报告的报告标题进行分词处理;
步骤4.6、依次匹配每个词在训练集中的所对应的TFIDF值,取出前N2个词作为当前学术报告标题的关键词。
步骤5、使用同义词扩展算法对所提取的关键词进行同义词扩展,得到所述关键词的近义词特征集合;
步骤6、使用SVM分类器对关键词及其近义词特征集合进行文本分类,得到第一分类结果;第一分类结果为关键词及其近义词所对应的第一学科集合;第一学科集合中包含各个学科名称及其相应的概率;
步骤6.1、首先使用网上提供的论文的数据模型进行训练,首先要进行的是分词,需要对分词的词库进行扩充,添加专业词,分词的结果保存到文件model.seg中。
步骤6.2、加载model.seg文件,进行特征选择,选出比较能代表当前学科的n个词语,存入文件model.temp中,这些词语作为代表当前学科的特征词。
步骤6.3、根据model.temp文件中的内容,计算其中每个词语的权重值,存入model.model文件中。
步骤6.4、从数据库中取出所有未被分类的学术报告的标题,将其存入文件中,存入的名称为每个学术报告存储在数据库中的id,将这些文件统一放在默认的分类名称的文件夹中。
步骤6.5、使用步骤6.1中添加了专业词汇的分词工具对这些学术报告的标题进行分词,存入test.seg文件夹中。
步骤6.6、使用步骤4中的方法进行同义词扩展,得到当前词汇的一系列描述,将这些描述加入到特征中作为当前特征的扩展。
步骤6.7、计算得到的这些词语的权重值,存入文件test.model文件中。
步骤6.8、加载model.model文件,使用SVM工具对当前的test.model文件进行测试,得到的测试结果即为当前test文件的分类结果,将结果存入test.result文件中,存入文件每行为一个记录,每个记录的格式为当前文件的路径+制表符+所属分类id。
步骤6.9、按行读取test.result文件,分割出文件路径和所属分类id,从文件路径中得到当前的学术报告在数据库中的id。
步骤7、使用朴素贝叶斯分类器NB对关键词及其近义词特征集合进行文本分类,得到第二分类结果;第二分类结果为关键词及其近义词所对应的第二学科集合;第二学科集合中包含各个学科名称及其相应的概率;
步骤8、得到初步分类结果集合;
步骤8.1、从第一分类结果和第二分类结果分别选出概率最高的前2个学科所对应的概率,分别记为第一SVM概率和第二SVM概率、第一NB概率和第二NB概率;
步骤8.2、设置一个置信度值C;
步骤8.3、判断第一SVM概率和第二SVM概率之差≥置信度值C是否成立,若成立,则表将第一SVM概率所对应的学科作为第一初步分类结果;否则,则将所述第一SVM概率和第二SVM概率所对应的学科作为第一初步分类结果;
步骤8.4、判断第一NB概率和第二NB概率之差≥置信度值C是否成立,若成立,则表将第一NB概率所对应的学科作为第二初步分类结果;否则,则将第一NB概率和第二NB概率所对应的学科作为第二初步分类结果;
步骤8.5、将第一初步分类结果和第二初步分类结果取并集,得到初步分类结果集合;
步骤9、得到最终分类结果,如图2所示;
步骤9.1、为第一匹配结果集合、第二匹配结果集合和初步分类结果集合设定相应的权重,记为X、Y、Z;
步骤9.2、将第一匹配结果集合、第二匹配结果集合和初步分类结果集合取并集,得到综合分类结果集合;
步骤9.3、统计综合分类结果集合中的每个学科分别在第一匹配结果集合、第二匹配结果集合和初步分类结果集合中相应权重的总和;
步骤9.4、以权重的总和最高的学科作为网络学术报告的最终分类结果并用于预告和推荐。

Claims (1)

1.一种基于多特征融合的网络学术报告分类方法,其特征是按如下步骤进行:
步骤1、收集并建立学术报告数据库;
步骤1.1、利用爬虫工具收集网络学术报告的信息并作为相应条目,所述网络学术报告的信息包括:报告标题、报告时间、报告地点、报告人、报告人简介、报告简介和报告举办单位;
步骤1.2、添加学术报告所属的学科分类信息的条目,从而建立学术报告数据库;
步骤2、获得第一匹配结果集合;
步骤2.1、收集并建立学院名称集合及其包含的各个学科名称集合;
步骤2.2、将所述报告举办单位与所述学院名称集合中的各个学院进行匹配,从而获得第一匹配结果集合;所述第一匹配结果集合为所述报告举办单位所对应的学院所包含的所有学科;
步骤3、获得第二匹配结果集合;
步骤3.1、收集并建立研究人员集合及其对应的研究领域集合;
步骤3.2、将所述报告人与所述研究人员集合中的各个研究人员姓名进行匹配,从而获得第二匹配结果集合;所述第二匹配结果集合为所述报告人所属的研究领域;
步骤4、利用中文关键词提取算法对所述报告标题进行提取,获得所述报告标题的关键词;
步骤5、使用同义词扩展算法对所提取的关键词进行同义词扩展,得到所述关键词的近义词特征集合;
步骤6、使用SVM分类器对所述关键词及其近义词特征集合进行文本分类,得到第一分类结果;所述第一分类结果为所述关键词及其近义词所对应的第一学科集合;所述第一学科集合中包含各个学科名称及其相应的概率;
步骤7、使用朴素贝叶斯分类器NB对所述关键词及其近义词特征集合进行文本分类,得到第二分类结果;所述第二分类结果为所述关键词及其近义词所对应的第二学科集合;所述第二学科集合中包含各个学科名称及其相应的概率;
步骤8、得到初步分类结果集合;
步骤8.1、从所述第一分类结果和第二分类结果分别选出概率最高的前2个学科所对应的概率,分别记为第一SVM概率和第二SVM概率、第一NB概率和第二NB概率;
步骤8.2、设置一个置信度值C;
步骤8.3、判断第一SVM概率和第二SVM概率之差≥置信度值C是否成立,若成立,则表将所述第一SVM概率所对应的学科作为第一初步分类结果;否则,则将所述第一SVM概率和第二SVM概率所对应的学科作为第一初步分类结果;
步骤8.4、判断第一NB概率和第二NB概率之差≥置信度值C是否成立,若成立,则表将所述第一NB概率所对应的学科作为第二初步分类结果;否则,则将所述第一NB概率和第二NB概率所对应的学科作为第二初步分类结果;
步骤8.5、将所述第一初步分类结果和第二初步分类结果取并集,得到初步分类结果集合;
步骤9、得到最终分类结果
步骤9.1、为所述第一匹配结果集合、第二匹配结果集合和初步分类结果集合设定相应的权重,记为X、Y、Z;
步骤9.2、将所述第一匹配结果集合、第二匹配结果集合和初步分类结果集合取并集,得到综合分类结果集合;
步骤9.3、统计所述综合分类结果集合中的每个学科分别在所述第一匹配结果集合、第二匹配结果集合和初步分类结果集合中相应权重的总和;
步骤9.4、以权重的总和最高的学科作为所述网络学术报告的最终分类结果并用于预告和推荐。
CN201611089615.1A 2016-12-01 2016-12-01 一种基于多特征融合的网络学术报告分类方法 Active CN106407482B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611089615.1A CN106407482B (zh) 2016-12-01 2016-12-01 一种基于多特征融合的网络学术报告分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611089615.1A CN106407482B (zh) 2016-12-01 2016-12-01 一种基于多特征融合的网络学术报告分类方法

Publications (2)

Publication Number Publication Date
CN106407482A CN106407482A (zh) 2017-02-15
CN106407482B true CN106407482B (zh) 2019-06-18

Family

ID=58083925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611089615.1A Active CN106407482B (zh) 2016-12-01 2016-12-01 一种基于多特征融合的网络学术报告分类方法

Country Status (1)

Country Link
CN (1) CN106407482B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122403B (zh) * 2017-03-22 2020-08-07 安徽大学 一种网页学术报告信息抽取方法和系统
CN109165294B (zh) * 2018-08-21 2021-09-24 安徽讯飞智能科技有限公司 一种基于贝叶斯分类的短文本分类方法
CN109271521B (zh) * 2018-11-16 2021-03-30 北京九狐时代智能科技有限公司 一种文本分类方法及装置
CN111090719B (zh) * 2019-10-11 2024-05-03 平安科技(上海)有限公司 文本分类方法、装置、计算机设备及存储介质
CN110889443A (zh) * 2019-11-21 2020-03-17 成都数联铭品科技有限公司 无监督文本分类系统及方法
CN111401040B (zh) * 2020-03-17 2021-06-18 上海爱数信息技术股份有限公司 一种适用于word文本的关键词提取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515736B1 (en) * 2010-09-30 2013-08-20 Nuance Communications, Inc. Training call routing applications by reusing semantically-labeled data collected for prior applications
CN105550216A (zh) * 2015-12-03 2016-05-04 百度在线网络技术(北京)有限公司 学术研究信息的搜索方法、挖掘方法及装置
CN106095934A (zh) * 2016-06-12 2016-11-09 广东工业大学 一种计算多署名学术论文作者分值的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515736B1 (en) * 2010-09-30 2013-08-20 Nuance Communications, Inc. Training call routing applications by reusing semantically-labeled data collected for prior applications
CN105550216A (zh) * 2015-12-03 2016-05-04 百度在线网络技术(北京)有限公司 学术研究信息的搜索方法、挖掘方法及装置
CN106095934A (zh) * 2016-06-12 2016-11-09 广东工业大学 一种计算多署名学术论文作者分值的方法

Also Published As

Publication number Publication date
CN106407482A (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN106407482B (zh) 一种基于多特征融合的网络学术报告分类方法
CN104750844B (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN103324628B (zh) 一种针对发布文本的行业分类方法和系统
CN103823890B (zh) 一种针对特定群体的微博热点话题检测方法及装置
CN107562918A (zh) 一种数学题知识点发现与批量标签获取方法
CN107766371A (zh) 一种文本信息分类方法及其装置
CN107273490A (zh) 一种基于知识图谱的组合错题推荐方法
CN107451278A (zh) 基于多隐层极限学习机的中文文本分类方法
CN107239529A (zh) 一种基于深度学习的舆情热点类别划分方法
CN106779087A (zh) 一种通用机器学习数据分析平台
CN107220295A (zh) 一种人民矛盾调解案例搜索和调解策略推荐方法
Pong-Inwong et al. Improved sentiment analysis for teaching evaluation using feature selection and voting ensemble learning integration
CN103577462B (zh) 一种文档分类方法及装置
CN109670039A (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN106294593A (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
CN106951498A (zh) 文本聚类方法
CN106886576B (zh) 一种基于预分类的短文本关键词提取方法及系统
CN103886030B (zh) 基于代价敏感决策树的信息物理融合系统数据分类方法
CN111008215B (zh) 一种结合标签构建与社区关系规避的专家推荐方法
CN110008309A (zh) 一种短语挖掘方法及装置
CN115880120A (zh) 一种在线政务服务系统及服务方法
CN108520038B (zh) 一种基于排序学习算法的生物医学文献检索方法
CN102708164A (zh) 电影期望值的计算方法及系统
CN107015965A (zh) 一种中文文本情感分析装置及方法
CN108875034A (zh) 一种基于层次化长短期记忆网络的中文文本分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant