CN108733733B - 基于机器学习的生物医学文本分类方法、系统和存储介质 - Google Patents

基于机器学习的生物医学文本分类方法、系统和存储介质 Download PDF

Info

Publication number
CN108733733B
CN108733733B CN201710277973.3A CN201710277973A CN108733733B CN 108733733 B CN108733733 B CN 108733733B CN 201710277973 A CN201710277973 A CN 201710277973A CN 108733733 B CN108733733 B CN 108733733B
Authority
CN
China
Prior art keywords
feature
word set
words
texts
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710277973.3A
Other languages
English (en)
Other versions
CN108733733A (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vishuo Biomedical Pte Ltd
Original Assignee
Vishuo Biomedical Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vishuo Biomedical Pte Ltd filed Critical Vishuo Biomedical Pte Ltd
Publication of CN108733733A publication Critical patent/CN108733733A/zh
Application granted granted Critical
Publication of CN108733733B publication Critical patent/CN108733733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了文本分类方法,包括:输入一个或多个文本;对所述一个或多个文本进行特征提取,得到第一特征词集合;至少将特征提取步骤得到的所述第一特征词集合输入到机器学习算法进行训练,输出第二特征词集合;对所述第二特征词集合的特征词进行选取,得到第三特征词集合;将所述第三特征词集合输入到所述机器学习算法,对所述机器学习算法再次进行训练,得到分类算法;利用所述分类算法对所述一个或多个文本和/或另外输入的一个或多个其他文本进行分类。还公开了文本分类系统和计算机可读存储介质,该介质上存储有计算机程序,该程序被处理器执行时实现上述文本分类方法。本发明改善了文本特征的选取,从而有利于提高文本分类的准确性。

Description

基于机器学习的生物医学文本分类方法、系统和存储介质
本发明要求中国专利申请号201710266834.0,申请日为2017年4月21日,名称为“文本分类方法、系统和计算机可读存储介质”的优先权,该申请通过全文引入的方式合并于此。
技术领域
本发明大体上涉及文本分类方法、文本分类系统和计算机可读存储介质。更具体地,涉及对医学文献文本进行分类的方法、系统和存储有文本分类方法的计算机可读存储介质。
背景技术
随着测序技术(sequencing technologies)的迅速发展,已经很容易产生并且大量地产生各种组学数据(omics data),这有利于促进精准医学的发展。通常,知识数据库是从文献中得到的新发现的集合,是解释数据和将信息转化为临床上有意义的行为的关键组成部分。目前,知识数据库的构建在很大程度上取决于人工处理(curation),以确保信息的准确性。然而,世界各地医学方面的文献更新的速度越来越频繁,这增加了文本检索的难度,尤其是对临床上有意义的信息的检索。然而,目前本技术领域中使用的医学文献分类算法,由于数据的异质性、训练方法为纯计算机算法,不包括领域专家的人为校准与优化等原因,精度较低。关于文本分类的算法还不完善,尤其是在文本的特征提取方面不够精确,这使得对文本作出的标记不完整或者不确切,不能准确体现文本的分类信息,从而给后续的检索工作以及数据库构建等带来很多干扰。因此如何能够在算法中减少数据的异质性,并引入领域专家的审查与矫正,以提高分类算法的精度,是需要迫切解决的问题。
发明内容
本发明提出了一种文本分类方法和相应的文本分类系统,其改善了文本特征的选取,从而有利于提高文本分类的准确性。
一方面,本发明提出了一种文本分类方法,包括以下步骤:
输入步骤,在该输入步骤中,输入一个或多个文本;
特征提取步骤,在该特征提取步骤中,对所述一个或多个文本进行特征提取,得到第一特征词集合;
训练步骤,在该训练步骤中,至少将特征提取步骤得到的所述第一特征词集合输入到机器学习算法进行训练,输出第二特征词集合;
特征选取步骤,在该特征选取步骤中,对所述第二特征词集合的特征词进行选取,得到第三特征词集合;
分类算法生成步骤,在该分类算法生成步骤中,将所述第三特征词集合输入到所述机器学习算法,对所述机器学习算法再次进行训练,得到分类算法;
分类步骤,在该分类步骤中,利用所述分类算法对所述一个或多个文本和/或另外输入的一个或多个其他文本进行分类。
优选地,所述方法还包括:特征补充步骤,在该特征补充步骤中借助白名单中的特征词对所述第一特征词集合和/或第二特征词集合进行补充,以得到补充后的所述第一特征词集合和/或第二特征词集合。
优选地,所补充的特征词包括存在于所述文本和所述白名单二者中、但是未包括在所述第一特征词集合和/或第二特征词集合中的特征词。
优选地,所述特征补充步骤包括在所述特征提取步骤、所述训练步骤或者所述特征选取步骤中的任意一个或多个步骤中。
优选地,所述特征补充步骤作为单独的步骤在所述特征提取步骤和/或所述训练步骤之后执行。
优选地,所述特征选取步骤中的所述选取包括:移除所述第二特征词集合中的不合理的特征词。
优选地,其中,所述特征选取步骤中的所述选取包括:由领域专家或专家系统执行所述移除,以移除包括特殊词、罕见词、以及无实际意义的词的所述不合理的特征词。
优选地,所述一个或多个文本是经过标记的文本,所述另外输入的一个或多个其他文本是未经标记的文本。
优选地,其中,所述机器学习算法包括:朴素贝叶斯、支持向量机算法、特征词频率算法以及最大熵算法。
优选地,其中,所述特征提取步骤包括:对所述文本进行消除低质量字、递归收集停用词列表和/或收集双字特征词。
优选地,其中,所述分类步骤中所述利用所述分类算法对另外输入的一个或多个其他文本进行分类包括:输入另一个或多个其他文本;将所述另一个或多个其他文本进行特征提取;将提取的结果输入所述分类算法,得到经过标记的文本。
优选地,所述利用所述分类算法对一个或多个文本进行分类包括:输入所述一个或多个文本;将所述一个或多个文本进行特征提取;将提取的结果输入所述分类算法,得到经过标记的文本。
优选地,其中,所述方法还包括:将所述经过标记的文本作为一个或多个文本,重复执行上述步骤。
另一方面,本发明还限定了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法。
优选地,该程序在被处理器执行时实现如下步骤:
输入步骤,在该输入步骤中,输入一个或多个文本;
特征提取步骤,在该特征提取步骤中,对所述一个或多个文本进行特征提取,得到第一特征词集合;
训练步骤,在该训练步骤中,至少将特征提取步骤得到的所述第一特征词集合输入到机器学习算法进行训练,输出第二特征词集合;
特征选取步骤,在该特征选取步骤中,对所述第二特征词集合的特征词进行选取,得到第三特征词集合;
分类算法生成步骤,在该分类算法生成步骤中,将所述第三特征词集合输入到所述机器学习算法,对所述机器学习算法再次进行训练,得到分类算法;
分类步骤,在该分类步骤中,利用得到的所述分类算法对所述一个或多个文本和/或另外输入的一个或多个其他文本进行分类。
再一方面,本发明还提出了一种文本分类系统,包括:
输入模块,被配置用于接收输入的一个或多个文本;
特征提取模块,被配置用于对所述已经标记的文本进行特征提取,得到第一特征词集合;
训练模块,被配置用于至少将特征提取步骤得到的所述第一特征词集合输入到机器学习算法进行训练,输出第二特征词集合;
特征选取模块,被配置用于对所述第二特征词集合的特征词进行选取,得到第三特征词集合;
分类算法生成模块,被配置用于将所述第三特征词集合输入到所述机器学习算法,对所述机器学习算法再次进行训练,得到分类算法;
分类模块,被配置用于利用得到的所述分类算法对所述一个或多个文本和/或另外输入的一个或多个其他文本进行分类。
优选地,在所述系统中,所述系统还包括:特征补充模块,所述特征补充模块被配置用于借助白名单中的特征词对所述第一特征词集合和/或第二特征词集合进行补充,以得到补充后的所述第一特征词集合和/或第二特征词集合。
优选地,所述特征补充模块包括在所述特征提取模块、所述训练模块或者所述特征选取模块中的任意一个或多个模块中。
优选地,所述特征补充模块作为单独的模块在所述特征提取模块和/或所述训练模块之后。
优选地,所述特征提取模块包括:预处理模块,所述预处理模块被配置用于对所述文本进行消除低质量字、递归收集停用词列表和/或收集双字特征词。
优选地,其中,所述特征选取模块取包括:移除模块,所述移除模块被配置用于移除所述第二特征词集合中的不合理的特征词。
优选地,其中,所述移除模块被配置为由领域专家执行所述移除,以移除包括特殊词、罕见词、以及无实际意义的词的所述不合理的特征词。
优选地,所述一个或多个文本是经过标记的文本,所述另外输入的一个或多个其他文本是未经标记的文本。
优选地,所述利用得到的所述分类算法对另外输入的一个或多个其他文本进行分类包括:输入另一个或多个其他文本;将所述另一个或多个其他文本进行特征提取;将提取的结果输入所述分类算法,得到经过标记的文本。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图想到其他相关的改进。在附图中:
图1示出了根据本发明的一个实施方案的文本分类方法的流程图;
图2示出了根据本发明的一个实施方案的文本分类系统的框图;
图3示出了根据本发明的另一个实施方案的文本分类系统的框图;
图4示出了利用分类算法对文本进行分类的框图;
图5示出了对本发明的分类算法进行验证的一个示例的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的顺序或数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
本发明公开的文本分类方法,可用于在例如个性化临床医学数据库(iCMDB,individual Clinical Medicine Database)的手动分类的文献数据库(训练数据集)中执行文本挖掘,以确定待应用于对任何未来文献进行分类的一组特征词。应当理解的是,输入的文献可以是不同领域中经过过滤和组织的各种类型的知识性文献。
根据本发明的一个方面,提出了一种文本分类方法,如图1所示,具体包括:输入步骤101、特征提取步骤102、训练步骤103、特征选取步骤104、分类算法生成步骤105以及分类步骤106。
在输入步骤101中,输入一个或多个已经标记或未被标记的文本。优选的,该一个或多个文本是已经标记的文本。例如,该文本是来自已经事先标记过的文本集合中的数据。该文本集合可以作为训练数据集合使用。
获得训练数据集合的方式包括但不限于以下几种方法:
第一种方法为人工标注:挑选有代表性的文本,由多个专家人工进行标注后作为训练集。这种方法工作量很大,适合样本较少的情况,优点是比较准确。通常需要多个专家进行标注,以减少个别人工标注带来的偏差。优选地,本实施方案采用的训练数集通过此人工标注方法获得。
第二种方法为规则标注:通过设定过滤条件(也称为规则),给部分数据贴上标签,获得训练集。如果想要保证机器学习的效果,在制定规则时,需要结合文本所属领域的特点,合理制定规则,并且选择均衡的样本,这样可以保证后续机器学习的效果。
第三种方法为聚类标注:即在特征工程之后,通过聚类的方法,获得不同类别的标注。首先设置聚类算法本身,例如,选择聚类数目、初始聚类中心。然后将挑选出的文本进行聚类,借助国际疾病类型分类标准将聚类后的文本进行编码,以此作为分类的训练数据。其中聚类算法包括K-means、K-medoids、CLARANS、BIRCH方法等。该方法的准确性很大程度上取决于聚类算法的精确度。
在输入的一个或多个文本不带标记的情况下,也可以执行上述方法对文本进行筛选和标记,以获得训练数据集合。
在特征提取步骤102中,对该一个或多个文本进行特征提取,得到第一特征词集合。优选地,特征提取步骤102包括文本预处理步骤和文本特征选择步骤。具体如下:
(1)文本预处理步骤:包括对文本进行消除低质量字、递归收集停用词列表和/或收集双字特征词。例如,去除文本中的标点、空格、符号等;填充空缺值;对文本进行分词处理,形成词语集合。优选地,还可以对该词语集合进行精简,精简的方法包括去除无意义词,比如各种语言中的冠词、定冠词、时态用词、数词、量词等。优选地,还可以通过计算机和人工检查相结合对不一致的数据进行处理。
(2)文本特征选择步骤:在预处理完成后,将文本转换成计算机可以识别处理的信息,该步骤包括但不限于以下步骤:
i首先建立空间向量模型,提取文本特征向量,包括:将文本内容转化为向量空间中的向量运算,以空间上的相似度表示语义上的相似度,向量模型可以用特征词语以及权重表示;
ii对特征词语进行降维处理,例如利用互信息法计算特征词语出现的频率,用设定的阈值判断是否保留该特征词语,最终得到第一特征词集合。
在训练步骤103中,至少将得到的第一特征词集合输入到机器学习算法进行训练,输出第二特征词集合。机器学习算法包括但不限于:朴素贝叶斯、支持向量机(SVM)算法、特征词频率算法以及最大熵算法。以采用SVM算法为例,首先对SVM算法模型进行配置,输入到机器学习算法中的信息包括但不限于一个或多个文本、该一个或多个文本的标记、以及第一特征词集合。为了便于在后续步骤中对特征词集合中的内容进行进一步地处理,将机器学习算法的输出设置为包括表征该文本的第二特征词集合。应当理解的是,机器学习算法还可以根据需要输出其它的计算结果。该第二特征词集合是机器学习算法在第一特征词集合的基础上优化得到的。
在特征选取步骤104中,对第二特征词集合的特征词进行选取,得到第三特征词集合。
在分类算法生成步骤105中,将第三特征词集合输入到机器学习算法,对机器学习算法再次进行训练,得到分类算法。优选地,训练的次数为三次以上。训练次数的增加,可以提高模型的准确性。优选地,训练步骤103和该步骤中提及的机器学习算法为相同的机器学习算法。
在分类步骤106中,利用得到的分类算法对所述一个或多个文本和/或另外的输入的一个或多个其他文本进行分类。优选地,该另外的输入的一个或多个其他文本是未经标记的文本。
优选地,由于对分类算法进行训练的文本是经过标记的,可以将原始的标记信息与分类算法分类后得到的标记信息进行对比,从而可以对该算法进行验证、完善。
在一个优选实施方案中,文本分类方法还可以包括:特征补充步骤,在该特征补充步骤中,借助白名单中的特征词对第一特征词集合和/或第二特征词集合进行补充,从而得到补充后的第一特征词集合和/或第二特征词集合。
白名单中包含备选特征词的集合,该备选特征词是能够表征该类别文本的所有特征词。白名单可以由专家确定,也可以通过计算机对大量数据进行分析后确定。
该特征补充步骤包括在特征提取步骤、训练步骤或者特征选取步骤中的任意一个或多个步骤中。
或者,特征补充步骤作为单独的步骤在特征提取步骤和/或训练步骤之后执行。
借助白名单中的特征词对第一特征词集合进行补充的方式有多种,其中一种方式是:将存在于文本和白名单二者中、但是未包括在第一特征词集合中的特征词补充到第一特征词集合中。
或者,借助白名单进行补充的另一种方式是:将存在于文本和白名单二者中、但是不一定包括在第一特征词集合中的特征词补充到第一特征词集合中。具体地,如果存在于文本和白名单二者中的特征词包括在第一特征词集合中,则直接进行替换或者不进行补充操作;如果判断该特征词未包括在第一特征词集合中,则将其补充到第一特征词集合中。
当对第一特征词集合进行补充时,该特征补充步骤可以是特征提取步骤102的一个子步骤,也可以是训练步骤103的一个子步骤,也可以是在特征提取步骤102和训练步骤103之间的单独的步骤。
借助白名单中的特征词对第二特征词集合进行补充的方式与上述方式相同或者相似。当对第二特征词集合进行补充时,该特征补充步骤可以是训练步骤103的一个子步骤,也可以是特征选取步骤104的一个子步骤,也可以是在训练步骤103和特征选取步骤104之间的单独的步骤。当作为特征选取步骤104的一个子步骤时,在对第二特征词集合进行补充后,对补充后的第二特征词集合的特征词进行选取,得到第三特征词集合。
在另一个优选实施方案中,可以借助白名单中的特征词对第一特征词集合进行补充,在得到第二特征词集合后,再借助白名单中的特征词对第二特征词集合进行补充。
通过在文本分类方法中增加特征补充步骤,能够提高特征选取的准确性,从而在后续机器学习时能够得到更加准确的结果。
在一个优选实施方案中,该文本分类方法的特征选取步骤104具体包括:对第二特征词集合的特征词进行选取,以得到第三特征词集合,其中选取的方式包括移除第二特征词集合中的不合理的特征词。由该不合理的特征词组成的列表被称为“黑名单”。例如,不合理的特征词或“黑名单”可以包括特殊词、罕见词、以及无实际意义的词。优选地,该移除可以由领域专家执行;也可以通过算法或计算机程序执行,例如专家系统。专家系统可以是一种模拟人类专家的计算机程序系统,具体而言,专家系统可以是一个智能计算机程序系统,其内部含有大量的某个或多个领域专家的知识与经验,能够利用人类专家的知识来对特征词进行选取。
设置特征选取步骤104是由于分类算法模型,例如SVM算法模型中的参数设置,以及文本本身的特点等原因,得到的第二特征词集合中的特征词中可能存在不合理的特征词。因此需要从这些特征词中移除不合理的特征词,留下最能表征该文本的特征词,从而得到第三特征词集合。
优选地,在文本分类方法中可以将特征选取步骤104与特征补充步骤组合。这样既在特征补充步骤中对特征词进行了补充,又在特征选取步骤中按照某一规则对特征词进行了删除。这样一增一减的操作,使最后得到的特征词更适合用于表征文本,有利于得到更加准确的分类算法。
在另一个优选实施方案中,本发明还提出了一种文本分类方法,具体如图4所示,通过上述实施方案得到的分类算法,对未经标记的文本进行分类,包括如下步骤:
301:输入另外的一个或多个未经过标记的文本;
302:将所述另外的一个或多个未经过标记的文本进行特征提取;
303:将提取的特征结果输入所述分类算法对文本进行分类,得到经过标记的文本。
优选地,对文本进行分类包括对文本贴标签,和/或用特征词表征该文本等。
优选地,该方法还包括:将经过标记的文本作为已经标记的文本再次输入,重复执行上述实施方案的文本分类方法中的步骤101至106。这样操作的优势在于可以将经过标记的文本作为训练数据集合的数据,对机器学习算法进行训练,从而增加样本数据;还可以对分类算法进行验证以进一步完善该算法。
根据本发明的另一个各方面,本发明还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上面各个优选实施方式中文本分类方法的各个步骤。
此处,计算机可读存储介质应作广泛理解,应当理解为一切计算机可读的且具有存储能力的介质。其包括但不限于以下介质:例如,磁盘、磁带、光盘、硬盘(诸如,固态硬盘、普通硬盘)、U盘、SD卡、内存、服务器、手机等。
根据本发明的另一个方面,本发明还公开了一种文本分类系统,如图2所示,具体包括:
输入模块201,用于输入一个或多个文本;
特征提取模块202,用于对所述一个或多个文本进行特征提取,得到第一特征词集合;
训练模块203,用于至少将特征提取模块202得到的第一特征词集合输入到机器学习算法进行训练,输出第二特征词集合;
特征选取模块204,用于第二特征词集合的特征词进行选取,得到第三特征词集合;
分类算法生成模块205,用于第三特征词集合输入到机器学习算法,对机器学习算法再次进行训练,得到分类算法。
分类模块206,用于利用所述分类算法对所述一个或多个文本和/或另外输入的一个或多个其他文本进行分类。
在一个优选实施方案中,该文本分类系统还包括:特征补充模块,所述特征补充模块被配置用于借助白名单中的特征词对第一特征词集合和/或第二特征词集合进行补充,以得到补充后的第一特征词集合和/或第二特征词集合。
特征补充模块包括在所述特征提取模块202、所述训练模块203或者所述特征选取模块204中的任意一个或多个模块中。或者,特征补充模块作为单独的模块在特征提取模块202和/或训练模块203之后。
在一个优选实施方案中,特征补充模块包括在所述特征提取模块中。如图3所示,本发明的文本分类系统中的特征提取模块202,用于对已经标记的文本进行特征提取,得到第一特征词集合。该特征提取模块202还包括特征补充模块2021,用于借助白名单将第一特征词集合进行补充,从而得到补充后的第一特征词集合。优选地,该特征词集合中包含若干术语,例如,术语1,术语2、术语3……。
在另一个优选实施方案中,本发明的文本分类系统的特征选取模块204,用于第二特征词集合的特征词进行选取,得到第三特征词集合。如图3所示,该特征选取模块204还包括:移除模块2041,用于移除第二特征词集合中的不合理的特征词。优选地,该移除由领域专家或专家系统执行,不合理的特征词包括特殊词、罕见词、以及无实际意义的词。
在另一个优选实施方案中,特征提取模块202还包括:预处理模块,用于对文本进行消除低质量字、递归收集停用词列表和/或收集双字特征词。
参考图5,示出了对本发明的分类算法进行验证的一个示例的流程图。具体地,该流程图是在具有两级分类(风险预测和药物反应)的肿瘤学示例中对分类算法进行验证的流程图。本示例中将生物医学文献分为两类:针对肿瘤相关文献的风险预测和药物反应。为科学数据处理者提供分类信息,以促进知识数据库的建立。
首先执行数据收集步骤401,然后对收集的数据进行数据处理步骤402。为了减少数据集的异质性(所谓的“异质性”可能是由来自不同资源的信息引入的),数据处理部分只保留来自PubMed的文献(约占所有数据的98%)。然后应用数据处理以去除不相关和无意义的字符和标准化数据。此过程包括但不限于以下方面:(1)去除数字;(2)除去空格;(3)去除大写,将大写内容转换为小写;(4)删除停止词,诸如“english”和标点符号;(5)去掉(stem)词,例如常见词和频繁使用的词,诸如“is”、“a”;(6)将词压缩到其词根格式。数据处理完成后,该数据集被随机分为两组:分别是训练数据集(包含数据集总数据量的90%)和验证数据集(包含数据集总数据量的10%)。
在框403处,对于训练数据集的文本进行特征提取,获得表征该文本的特征,然后将该特征输入机器学习算法进行训练。在训练数据集的文本数目达到一定数目的情况下,利用机器学习算法能够获得分别表征“药物反应”和“风险预测”的特征词集合,这些特征词集合可以被用作分类算法的关键特征。
但是由于数据集包含某些类型的疾病,因此与该疾病相关的特定性术语可能被错误地识别。因此在框404处,采用通过领域专家对特征词集合中的关键特征进行审查方式移除该特定性术语。由专家精炼关键特征后,得到最终的特征词集合。
在框405处,对该分类算法进行验证,使用最终的特征词集合和训练数据集中随机挑选的10%的文本对分类算法性能进行评估和验证。应当理解的是,此处10%的比例是可以根据需要进行调整的。在必要的情况下,可以根据评估和验证的结果修改分类算法模型。优选地,采用SVM算法。在本发明中,与其他算法相比,该SVM算法具有97%准确度的最佳性能。
本发明采用领域专家或专家系统进行特征选取的优选实施方案至少具有以下优点:将机器学习算法与领域专家审查结合,使得采用训练集得出的算法更为精确。另外,整个算法可以对文献服务检索系统(Pubmed)的文献进行分类,所获得的文献格式良好,减小了数据集的异质性,并且应用数据处理去除不相关和无意义的字符以对数据进行整理,使得训练的精度提升。并且,本方法不是纯文本挖掘机器学习工具,其还提供了一个领域专家专业意见的交互式接口,可以由领域专家或专家系统提供白名单和黑名单,从而可以获得更为优化的文本分类算法和结果。
在本发明的文本分类方法的基础上,可以进一步对大量的文件进行数据提取,进而构建知识数据库。以生物医学文本为例,训练数据集中的数据可以是例如来源于PubMed中存储的生物医学论文,这些论文的数据的获得可以通过国家生物技术信息中心(NCBI)提供的程序接口API自动实现。采用文本分类方法可以对生物医学文本进行标记,并且提取对应的特定信息。然后根据不同类型的生物医学数据的性质,将提取的生物医学属性和特性组织成良好构建的知识数据库。
以上描述仅例示了本发明的不同实施例,并不用于限制本发明,对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种文本分类方法,其特征在于,包括以下步骤:
输入步骤,在该输入步骤中,输入一个或多个文本;
特征提取步骤,在该特征提取步骤中,对所述一个或多个文本进行特征提取,得到第一特征词集合;
训练步骤,在该训练步骤中,至少将特征提取步骤得到的所述第一特征词集合输入到机器学习算法进行训练,输出第二特征词集合;
特征选取步骤,在该特征选取步骤中,对所述第二特征词集合的特征词进行选取,得到第三特征词集合;
分类算法生成步骤,在该分类算法生成步骤中,将所述第三特征词集合输入到所述机器学习算法,对所述机器学习算法再次进行训练,得到分类算法;
分类步骤,在该分类步骤中,利用得到的所述分类算法对所述一个或多个文本和/或另外输入的一个或多个其他文本进行分类,
其中,所述方法还包括:特征补充步骤,在该特征补充步骤中借助白名单中的特征词对所述第一特征词集合和/或第二特征词集合进行补充,以得到补充后的所述第一特征词集合和/或第二特征词集合。
2.根据权利要求1所述的方法,其中,所补充的特征词包括存在于所述文本和所述白名单二者中、但是未包括在所述第一特征词集合和/或第二特征词集合中的特征词。
3.根据权利要求1所述的方法,其中,所述特征选取步骤中的所述选取包括:移除所述第二特征词集合中的不合理的特征词。
4.根据权利要求3所述的方法,其中,所述特征选取步骤中的所述选取包括:由领域专家或专家系统执行所述移除,以移除包括特殊词、罕见词、以及无实际意义的词的所述不合理的特征词。
5.根据权利要求1至4中的任一项所述的方法,其中,所述一个或多个文本是经过标记的文本,所述另外输入的一个或多个其他文本是未经标记的文本。
6.根据权利要求1至4中的任一项所述的方法,其中,所述机器学习算法包括:朴素贝叶斯、支持向量机算法、特征词频率算法以及最大熵算法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序在被处理器执行时实现权利要求1-6中任一项所述的方法。
8.一种文本分类系统,其特征在于,包括:
输入模块,被配置用于接收输入的一个或多个文本;
特征提取模块,被配置用于对所述一个或多个文本进行特征提取,得到第一特征词集合;
训练模块,被配置用于至少将特征提取模块得到的所述第一特征词集合输入到机器学习算法进行训练,输出第二特征词集合;
特征选取模块,被配置用于对所述第二特征词集合的特征词进行选取,得到第三特征词集合;
分类算法生成模块,被配置用于将所述第三特征词集合输入到所述机器学习算法,对所述机器学习算法再次进行训练,得到分类算法;
分类模块,被配置用于利用所述分类算法对所述一个或多个文本和/或另外输入的一个或多个其他文本进行分类,
其中,所述系统还包括:特征补充模块,所述特征补充模块被配置用于借助白名单中的特征词对所述第一特征词集合和/或第二特征词集合进行补充,以得到补充后的所述第一特征词集合和/或第二特征词集合。
CN201710277973.3A 2017-04-21 2017-04-25 基于机器学习的生物医学文本分类方法、系统和存储介质 Active CN108733733B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2017102668340 2017-04-21
CN201710266834 2017-04-21

Publications (2)

Publication Number Publication Date
CN108733733A CN108733733A (zh) 2018-11-02
CN108733733B true CN108733733B (zh) 2022-03-08

Family

ID=63934836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710277973.3A Active CN108733733B (zh) 2017-04-21 2017-04-25 基于机器学习的生物医学文本分类方法、系统和存储介质

Country Status (1)

Country Link
CN (1) CN108733733B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985246B (zh) * 2020-08-27 2023-08-15 武汉东湖大数据交易中心股份有限公司 一种基于主要症状与伴随症状词的疾病认知系统
CN112269880B (zh) * 2020-11-04 2024-02-09 吾征智能技术(北京)有限公司 一种基于线性函数的口甜文本分类匹配系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246686A (zh) * 2012-02-14 2013-08-14 阿里巴巴集团控股有限公司 文本分类方法和装置及文本分类的特征处理方法和装置
CN106095996A (zh) * 2016-06-22 2016-11-09 量子云未来(北京)信息科技有限公司 用于文本分类的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246686A (zh) * 2012-02-14 2013-08-14 阿里巴巴集团控股有限公司 文本分类方法和装置及文本分类的特征处理方法和装置
CN106095996A (zh) * 2016-06-22 2016-11-09 量子云未来(北京)信息科技有限公司 用于文本分类的方法

Also Published As

Publication number Publication date
CN108733733A (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
CN109685056B (zh) 获取文档信息的方法及装置
US10353925B2 (en) Document classification device, document classification method, and computer readable medium
CN106095753B (zh) 一种基于信息熵和术语可信度的金融领域术语识别方法
KR20200127020A (ko) 의미 텍스트 데이터를 태그와 매칭시키는 방법, 장치 및 명령을 저장하는 컴퓨터 판독 가능한 기억 매체
CN111694946A (zh) 文本关键词可视化显示方法、装置及计算机设备
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN113961685A (zh) 信息抽取方法及装置
CN110866116A (zh) 政策文档的处理方法、装置、存储介质及电子设备
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
CN111177375A (zh) 一种电子文档分类方法及装置
CN111475651B (zh) 文本分类方法、计算设备及计算机存储介质
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN108733733B (zh) 基于机器学习的生物医学文本分类方法、系统和存储介质
CN114491079A (zh) 知识图谱构建和查询方法、装置、设备和介质
JP2010061176A (ja) テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム
AU2015204339B2 (en) Information processing apparatus and information processing program
CN110888983B (zh) 一种正负面情感分析方法、终端设备及存储介质
JP2016218512A (ja) 情報処理装置及び情報処理プログラム
CN108475265B (zh) 获取未登录词的方法与装置
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN116010545A (zh) 一种数据处理方法、装置及设备
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
Xu et al. Estimating similarity of rich internet pages using visual information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant