CN109284391A - 一种文献自动分类方法 - Google Patents
一种文献自动分类方法 Download PDFInfo
- Publication number
- CN109284391A CN109284391A CN201811493641.XA CN201811493641A CN109284391A CN 109284391 A CN109284391 A CN 109284391A CN 201811493641 A CN201811493641 A CN 201811493641A CN 109284391 A CN109284391 A CN 109284391A
- Authority
- CN
- China
- Prior art keywords
- document
- keyword
- sorted
- weight
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种文献自动分类方法,所述方法包括:构建词典数据库;获取待分类文献的关键词;根据所述待分类文献的关键词在所述词典数据库中进行查找,得到待分类文献关键词的分类号信息;根据所述待分类文献的关键词的分类号信息确定待分类文献的分类号,实现文献的自动分类。本发明中的该方法,能够实现对文献的快速自动分类。
Description
技术领域
本发明涉及文献分类领域,特别是涉及一种文献自动分类方法。
背景技术
随着期刊电子化的发展,针对数字文献的分类标引工作长期以来都是由编目人员手工去完成,既费时又费力。且由于信息的模糊性以及数字文献种类、数量的剧增,仅靠提高编目人员的业务素质来保证文献分类标引的准确性是不现实的。而通过计算机直接对文献信息进行过滤、分类,把用户真正需要的部分提交给用户,就能把用户从烦琐的文献处理工作中解放出来,更加快捷地区分不同类型文献,使大量的无序的文献系统化,极大地提高信息的利用率。通过文献自动分类系统,能够很好地帮助用户整理、获取信息,在提高信息检索速度和准确率方面意义重大,且具有很重要的研究价值。
目前,中图法框架下的文献自动分类方法主要分为两种,一种是基于知识库的分类方法,一种是基于机器学习的分类方法。
其中,基于知识库的分类方法,王爽以已有的标引经验数据为基础,从构建知识库,自动分词,特征项选取,特征项权重计算,分类算法几个方面进行论述,最后设计并实现了一个基于知识库的文档自动分类系统。张玉芳以数据库中标引经验数据为基础,结合《中图法》的类目层次结构,构建了一个多层次知识库,并基于该知识库实现了自顶向下的多层次文档自动分类。何琳等人,在知识库方法的基础之上,通过引进机器学习的方法测定关键词和类目概念之间的关联度,构建关键词、分类号、归属度三元组矩阵的方法进行分类匹配。这项研究也标示着单靠知识库的方法已经不能完全解决《中图法》分类体系下的自动分类问题。基于机器学习的分类方法,中国知网的孙雄勇等,利用CNKI海量的己经经过人工标注的期刊语料,对近20万的短语词汇进行训练,为每一个短语赋予相应的一个或多个中图分类号,并训练获得每一个短语的相应权重。然后在此基础上,计算新文献的中图分类号,并引入了置信度概念,实现了分离出高准确率结果集。赵纪元等人研究了基于中图法的学术文献自动分类方法,该方法结合了CHI特征选择、后验概率训练以及TF-IDF概率加权等方法,实现了对50余万篇学术期刊的自动分类。同时研究了以二元词汇作为特征进一步修正上述结果,在保证正确率基本不变的情况下,使分类的输出比例大大提升。在《中图法》分类体系下应用机器学习方法进行自动分类的研究,较早的有文献,但试验材料中使用的文本分别是新闻稿、网页和期刊论文。直到2010年以后才有文献针对图书进行自动分类研究。王昊等人尝试将BP神经网络和支持向量机等机器学习算法引入到书目分类中,建立了面向中图法的基于机器学习的书目层次分类系统模型,提出了采用特征加权方式描述书目和浅层次分类体系构建的设计思路,并通过大规模实验验证了该模型的可行性和合理性,基本上解决了没有主题标注情况下书目的自动分类问题。但是机器学习方法存在词-文本矩阵维度较高、不易计算等缺陷。
发明内容
本发明的目的是提供一种文献自动分类方法,实现对文献的自动快速分类。
为实现上述目的,本发明提供了如下方案:
一种文献自动分类方法,所述方法包括:
构建词典数据库;
获取待分类文献的关键词;
根据所述待分类文献的关键词在所述词典数据库中进行查找,得到待分类文献关键词的分类号信息;
根据所述待分类文献的关键词的分类号信息确定待分类文献的分类号,实现文献的自动分类。
可选的,所述构建词典数据库具体包括:
获取文献,提取文献中的关键词以及分类号;
对所述文献中的关键词进行数据清洗;
将所述文献中的关键词以及分类号一一对应;
对所述数据清洗后的文献中的关键词进行位置标记;
对所述分类后的文献中的关键词进行关键词位置权重赋值,得到文献中的关键词位置权重;
根据所述文献中的关键词、所述文献中的关键词对应的分类号以及所述文献中的关键词的位置权重构建词典数据库。
可选的,所述数据清洗具体包括:
剔除与文献类别无关的所述文献中的关键词;
根据所述文献类别相关性对剔除后的所述文献中的关键词进行排序,并采用符号分隔相邻两所述关键词;
剔除经排序后的前5个以外的所述文献中的关键词;
将前5个所述文献中的关键词中的繁体字转换为简体字。
可选的,采用数字序号方式对所述数据清洗后的文献中的关键词进行位置标记。
可选的,将所述所述数据清洗后的文献中的关键词位置标记为①、②、③、④、⑤。
可选的,所述对所述分类后的文献中的关键词进行关键词位置权重赋值,得到文献中的关键词位置权重具体包括:
对处于位置①至⑤的关键词,分别赋予不同的位置权重,得到多组位置权重值;
任取其中5组位置权重值;
采用样本量实验法对多组权重值的分类准确率进行检验,得到检验结果;
根据所述检验结果,选取准确率最高的一组关键词位置权重。
可选的,所述根据所述待分类文献的关键词的分类号信息确定待分类文献的分类号,实现文献的自动分类具体采用以下公式:
对于关键词w,在m篇文献中出现,所对应的分类号有n种,分别为C1,C2,…Cn,关键词w对应分类号C1的权重计算公式为:
其中weight(w,C1)表示待分类文献中关键词w对于分类号C1的权重,posweight(w)表示关键词w的位置权重,m表示待分类文献的数量,k表示文献,j表示关键词;
分类号C1的权重为:
weight(C1)表示待分类文献对于分类号C1的权重,weight(wi,C1)表示待分类文献中第i个关键词wi对于分类号Ci的权重,posweight(wi)表示关键词wi的位置权重;
分别计算其余分类号的权重,选取权重最大的作为待分类文献的分类号。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明中的文献自动分类方法,首先获取文献关键词,并对所述关键词进行数据清洗,数据清洗后的关键词能够剔除与关键词无关的词句,大大加快了了后续对关键词的分类速度和准确度;然后再对所述清洗后的关键词进行分类;对所述分类后的关键词进行位置标记;对所述分类后的关键词进行位置权重赋值以及分类号权重赋值,最终得到词典数据库,将待分类的文献以及关键词在词典数据库中进行查找,进而实现了文献的自动分类。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例文献自动分类方法流程图;
图2为本发明实施例关键词位置权重比较结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种文献自动分类方法,实现对文献的自动快速分类。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例文献自动分类方法流程图,如图1所示,所述方法包括:
步骤101:构建词典数据库;
步骤102:获取待分类文献的关键词;
步骤103:根据所述待分类文献的关键词在所述词典数据库中进行查找,得到待分类文献关键词的分类号信息;
步骤104:根据所述待分类文献的关键词的分类号信息确定待分类文献的分类号,实现文献的自动分类。
具体的步骤101中,所述构建词典数据库具体包括:
获取文献,提取文献中的关键词以及分类号;
对所述文献中的关键词进行数据清洗;
将所述文献中的关键词以及分类号一一对应;
对所述数据清洗后的文献中的关键词进行位置标记;
对所述分类后的文献中的关键词进行关键词位置权重赋值,得到文献中的关键词位置权重;
根据所述文献中的关键词、所述文献中的关键词对应的分类号以及所述文献中的关键词的位置权重构建词典数据库。
其中,所述数据清洗具体包括:
剔除与文献类别无关的所述文献中的关键词;
根据所述文献类别相关性对剔除后的所述文献中的关键词进行排序,并采用符号分隔相邻两所述关键词;
剔除经排序后的前5个以外的所述文献中的关键词;
将前5个所述文献中的关键词中的繁体字转换为简体字。
具体的,剔除与文献类别无关的所述关键词,例如,文献中“围手术期%抗菌药物%调查分析”其中,“研究”“分析”“报告”等词语,无法判断出到底属于哪一类的关键词。
按照与所述文献类别相关性对剔除后的所述关键词进行排序,并采用符号分隔相邻两所述关键词;例如,最能够体现某一类文献的词,按照疾病名称>疾病人群>药物名称>疾病监测方法>疾病治疗目的进行排序,如果没有包含在内的该类别中的词语,则按照自身的医学知识进行排序。
再例如,“学龄前儿童%龋齿%护理”,在R78(口腔科学)下,龋齿为能体现该类别的词,应将其提前,剩下的词按疾病名称>疾病人群>药物名称>疾病监测方法>疾病治疗目的进行排序。
再例如,“机械通气%呼吸衰竭%人机对抗”这组关键词在R5内科学大类下,呼吸衰竭应该放在最前面。
具体的,剔除经排序后的前5个以外的所述关键词可解释为,一般情况下,为了节省计算量,一篇文献的关键词不超过5个,在进行排序后,只保留前5个关键词。
可选的,采用数字序号方式对所述数据清洗后的文献中的关键词进行位置标记,具体是将所述所述数据清洗后的文献中的关键词位置标记为①、②、③、④、⑤。
可选的,所述对所述分类后的文献中的关键词进行关键词位置权重赋值,得到文献中的关键词位置权重具体包括:
对处于位置①至⑤的关键词,分别赋予不同的位置权重,得到多组位置权重值;
任取其中5组位置权重值;
采用样本量实验法对多组权重值的分类准确率进行检验,得到检验结果;
根据所述检验结果,选取准确率最高的一组关键词位置权重。
例如,如图2所示,图2为本发明实施例关键词位置权重比较结果图,对于位置①到⑤,分别赋予不同的位置权重值,经多组比较,选取最具代表性的5组位置权重取值,(1)5,4,3,2,1;(2)5、4、1.5、1、0.5;(3)5、3、1.5、1、0.5;(4)5、4.5、1.5、1、0.5;(5)5、5、1.5、1、0.5。通过采取样本试验的方法,可确定,第(2)组的准确率最高,为71.52%,即对于位置①到⑤,位置权重取值为5、4、1.5、1、0.5。
具体的步骤104中,根据所述待分类文献的关键词的分类号信息确定待分类文献的分类号,实现文献的自动分类,具体采用以下公式:
对于关键词w,在m篇文献中出现,所对应的分类号有n种,分别为C1,C2,…Cn,关键词w对应分类号C1的权重计算公式为:
其中weight(w,C1)表示待分类文献中关键词w对于分类号C1的权重,posweight(w)表示关键词w的位置权重,m表示待分类文献的数量,k表示文献,j表示关键词;
分类号C1的权重为:
weight(C1)表示待分类文献对于分类号C1的权重,weight(wi,C1)表示待分类文献中第i个关键词wi对于分类号Ci的权重,posweight(wi)表示关键词wi的位置权重;
分别计算其余分类号的权重,选取权重最大的作为待分类文献的分类号。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (7)
1.一种文献自动分类方法,其特征在于,所述方法包括:
构建词典数据库;
获取待分类文献的关键词;
根据所述待分类文献的关键词在所述词典数据库中进行查找,得到待分类文献关键词的分类号信息;
根据所述待分类文献的关键词的分类号信息确定待分类文献的分类号,实现文献的自动分类。
2.根据权利要求1所述的文献自动分类方法,其特征在于,所述构建词典数据库具体包括:
获取文献,提取文献中的关键词以及分类号;
对所述文献中的关键词进行数据清洗;
将所述文献中的关键词以及分类号一一对应;
对所述数据清洗后的文献中的关键词进行位置标记;
对所述分类后的文献中的关键词进行关键词位置权重赋值,得到文献中的关键词位置权重;
根据所述文献中的关键词、所述文献中的关键词对应的分类号以及所述文献中的关键词的位置权重构建词典数据库。
3.根据权利要求2所述的文献自动分类方法,其特征在于,所述数据清洗具体包括:
剔除与文献类别无关的所述文献中的关键词;
根据所述文献类别相关性对剔除后的所述文献中的关键词进行排序,并采用符号分隔相邻两所述关键词;
剔除经排序后的前5个以外的所述文献中的关键词;
将前5个所述文献中的关键词中的繁体字转换为简体字。
4.根据权利要求2所述的文献自动分类方法,其特征在于,采用数字序号方式对所述数据清洗后的文献中的关键词进行位置标记。
5.根据权利要求4所述的文献自动分类方法,其特征在于,将所述所述数据清洗后的文献中的关键词位置标记为①、②、③、④、⑤。
6.根据权利要求5所述的文献自动分类方法,其特征在于,所述对所述分类后的文献中的关键词进行关键词位置权重赋值,得到文献中的关键词位置权重具体包括:
对处于位置①至⑤的关键词,分别赋予不同的位置权重,得到多组位置权重值;
任取其中5组位置权重值;
采用样本量实验法对多组权重值的分类准确率进行检验,得到检验结果;
根据所述检验结果,选取准确率最高的一组关键词位置权重。
7.根据权利要求5所述的文献自动分类方法,其特征在于,所述根据所述待分类文献的关键词的分类号信息确定待分类文献的分类号,实现文献的自动分类具体采用以下公式:
对于关键词w,在m篇文献中出现,所对应的分类号有n种,分别为C1,C2,…Cn,关键词w对应分类号C1的权重计算公式为:
其中weight(w,C1)表示待分类文献中关键词w对于分类号C1的权重,posweight(w)表示关键词w的位置权重,m表示待分类文献的数量,k表示文献,j表示关键词;
分类号C1的权重为:
weight(C1)表示待分类文献对于分类号C1的权重,weight(wi,C1)表示待分类文献中第i个关键词wi对于分类号Ci的权重,posweight(wi)表示关键词wi的位置权重;
分别计算其余分类号的权重,选取权重最大的作为待分类文献的分类号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811493641.XA CN109284391A (zh) | 2018-12-07 | 2018-12-07 | 一种文献自动分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811493641.XA CN109284391A (zh) | 2018-12-07 | 2018-12-07 | 一种文献自动分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109284391A true CN109284391A (zh) | 2019-01-29 |
Family
ID=65173466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811493641.XA Pending CN109284391A (zh) | 2018-12-07 | 2018-12-07 | 一种文献自动分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109284391A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069324A (zh) * | 2020-08-27 | 2020-12-11 | 北京灵汐科技有限公司 | 一种分类标签添加方法、装置、设备及存储介质 |
CN112380345A (zh) * | 2020-11-20 | 2021-02-19 | 山东省计算中心(国家超级计算济南中心) | 一种基于gnn的covid-19科学文献细粒度分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101819601A (zh) * | 2010-05-11 | 2010-09-01 | 同方知网(北京)技术有限公司 | 学术文献自动分类的方法 |
CN107679153A (zh) * | 2017-09-27 | 2018-02-09 | 国家电网公司信息通信分公司 | 一种专利分类方法及装置 |
-
2018
- 2018-12-07 CN CN201811493641.XA patent/CN109284391A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101819601A (zh) * | 2010-05-11 | 2010-09-01 | 同方知网(北京)技术有限公司 | 学术文献自动分类的方法 |
CN107679153A (zh) * | 2017-09-27 | 2018-02-09 | 国家电网公司信息通信分公司 | 一种专利分类方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069324A (zh) * | 2020-08-27 | 2020-12-11 | 北京灵汐科技有限公司 | 一种分类标签添加方法、装置、设备及存储介质 |
CN112380345A (zh) * | 2020-11-20 | 2021-02-19 | 山东省计算中心(国家超级计算济南中心) | 一种基于gnn的covid-19科学文献细粒度分类方法 |
CN112380345B (zh) * | 2020-11-20 | 2022-03-29 | 山东省计算中心(国家超级计算济南中心) | 一种基于gnn的covid-19科学文献细粒度分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104794169B (zh) | 一种基于序列标注模型的学科术语抽取方法及系统 | |
CN109933664A (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
CN106547739A (zh) | 一种文本语义相似度分析方法 | |
CN106294677A (zh) | 一种面向英文文献中中国作者的姓名消歧方法 | |
CN106055539B (zh) | 姓名消歧的方法和装置 | |
CN106202543A (zh) | 基于机器学习的本体匹配方法和系统 | |
CN109635105A (zh) | 一种中文文本多意图识别方法及系统 | |
CN109670014A (zh) | 一种基于规则匹配和机器学习的论文作者名消歧方法 | |
CN110008465A (zh) | 句子语义距离的度量方法 | |
CN113761218A (zh) | 一种实体链接的方法、装置、设备及存储介质 | |
CN109960727A (zh) | 针对非结构化文本的个人隐私信息自动检测方法及系统 | |
CN109255012A (zh) | 一种机器阅读理解的实现方法以及装置 | |
Yao et al. | Chinese text clustering algorithm based k-means | |
CN112686025A (zh) | 一种基于自由文本的中文选择题干扰项生成方法 | |
CN109284391A (zh) | 一种文献自动分类方法 | |
Kang et al. | A short texts matching method using shallow features and deep features | |
CN108345694A (zh) | 一种基于主题数据库的文献检索方法及系统 | |
CN115860283B (zh) | 基于知识工作者画像的贡献度预测方法及装置 | |
Resta et al. | Transformer models for question answering at bioasq 2019 | |
CN110532538A (zh) | 财产纠纷裁判文书关键实体抽取算法 | |
Wang et al. | A study of cantonese covid-19 fake news detection on social media | |
Fattoh et al. | Semantic question generation using artificial immunity | |
Xia et al. | Semantic similarity metric learning for sketch-based 3D shape retrieval | |
Li et al. | Attention-based LSTM-CNNs for uncertainty identification on Chinese social media texts | |
Mary et al. | Jen-Ton: A framework to enhance the accuracy of aspect level sentiment analysis in big data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190129 |