CN109271523A - 一种基于信息检索的政府公文主题分类方法 - Google Patents

一种基于信息检索的政府公文主题分类方法 Download PDF

Info

Publication number
CN109271523A
CN109271523A CN201811406868.6A CN201811406868A CN109271523A CN 109271523 A CN109271523 A CN 109271523A CN 201811406868 A CN201811406868 A CN 201811406868A CN 109271523 A CN109271523 A CN 109271523A
Authority
CN
China
Prior art keywords
classification
official document
text
information retrieval
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811406868.6A
Other languages
English (en)
Inventor
宋亚军
方鑫
李泽源
陈达纲
何杰
李泽松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Division Big Data Research Institute Co Ltd
Original Assignee
Division Big Data Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Division Big Data Research Institute Co Ltd filed Critical Division Big Data Research Institute Co Ltd
Priority to CN201811406868.6A priority Critical patent/CN109271523A/zh
Publication of CN109271523A publication Critical patent/CN109271523A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于信息检索的政府公文主题分类方法,包括以下步骤:建立倒排索引‑人工构造分类主题词集‑检索‑获取检索结果‑存为json文件‑文本预处理‑训练分类模型‑获取分类结果。本发明对所有待分类文档建立倒排索引,然后进行检索,能够大大提高分类的速度;自动构造大规模标注数据训练数据的训练分类模型,可以训练有监督机器学习算法或深度学习算法,进一步提高分类的准确率。

Description

一种基于信息检索的政府公文主题分类方法
技术领域
本发明涉及一种基于信息检索的政府公文主题分类方法,属于公文主题分类技术领域。
背景技术
当前公文主题分类方法精确率低且分类粒度粗,但将公文进行准确的主题分类是政务领域许多NLP应用的基础任务,包括自动公文归档,政策分析,智能搜索和个性化推荐,且在某些特定领域,比如房地产和教育等领域,地方政策经常会进行修订,使得公民难以从海量的公文准确地找到需要的政策文件;对于公务员,发布新的公文或修改现有的公文,他们需要参考上级部门下发的文件或其他部门的发布的相同主题的公文,此外,在分析政府政策或向公众解释政策时,公务员也需要搜索相关主题的公文。然而由于政府公文主题众多,涉及国家治理、社会生活的方方面面,根据国务院办公厅政府信息公开目录的分类标准,公文主题类别超过四十个,且每篇公文可能包含多个主题,并且没有大规模的标注数据,因此无论对于数据标注还是分类模型的训练都非常具有挑战。
发明内容
为解决上述技术问题,本发明提供了一种基于信息检索的政府公文主题分类方法,该基于信息检索的政府公文主题分类方法基于信息检索模型,仅需人工构建主题词集合,能够自动构建大规模带标注的公文分类训练数据集,并自动构造大规模标注数据训练的训练分类模型,在保证精确率的情况下,大幅提高了公文分类的召回率,并且能够实现更细粒度的分类。
本发明通过以下技术方案得以实现。
本发明提供的一种基于信息检索的政府公文主题分类方法,包括以下步骤:
①建立倒排索引:基于信息检索模型,并使用Lucene开源全文检索库,对待分类公文建立倒排索引;
②人工构造分类主题词集:采用主题分类方法,对公文主题进行分类,再分别对每个主题类别构建一个主题词集合;
③检索:以对应类别的主题词集作为查询字符串,对步骤①中的倒排索引进行检索;
④获取检索结果:获取步骤③中的检索结果;
⑤存为json文件:将检索结果的前30%打上对应类别标签,作为训练集和开发集,存入json文件,获取带标注的公文分类训练数据集;
⑥训练分类模型:将带标注的公文分类训练数据集进行基于传统机器学习模型和基于深度学习模型的文本分类模型训练,构建训练分类模型;
⑦获取分类结果:进行分类预测,获取分类结果。
所述步骤①分为以下步骤:
(1.1)使用开源的结巴分词软件,分别对公文标题和公文正文文本进行中文分词和去停用词处理;
(1.2)使用Lucene开源全文检索库对公文原标题、发文单位、公文原正文、分词后的公文正文、分词后的公文标题,分别建立倒排索引。
所述步骤⑥中,传统机器学习模型获取带标注的公文分类训练数据集中,每个词的TF-IDF作为特征,深度学习模型学习带标注的公文分类训练数据集中,每篇文本的特征。
所述步骤⑦中,分类模型训练完成后,对于一篇给定的公文,使用训练好的分类模型,获取文本属于各个类别的概率,并选择概率最大的类别作为最终的分类结果。
本发明的有益效果在于:对所有待分类文档建立倒排索引,然后进行检索,能够大大提高分类的速度;自动构造大规模标注数据训练数据的训练分类模型,可以训练有监督机器学习算法或深度学习算法,进一步提高分类的准确率。
具体实施方式
下面进一步描述本发明的技术方案,但要求保护的范围并不局限于所述。
一种基于信息检索的政府公文主题分类方法,包括以下步骤:
①建立倒排索引:基于信息检索模型,并使用Lucene开源全文检索库,对待分类公文建立倒排索引;具体分为以下步骤:
(1.1)使用开源的结巴分词软件,分别对公文标题和公文正文文本进行中文分词和去停用词处理;
(1.2)使用Lucene开源全文检索库对公文原标题、发文单位、公文原正文、分词后的公文正文、分词后的公文标题,分别建立倒排索引;
②人工构造分类主题词集:采用主题分类方法,对公文主题进行分类,再分别对每个主题类别构建一个主题词集合;
具体的,领域专家(政策研究专家)分别对每个主题类别构建一个主题词集合,比如对于教育主题,确定的主题词包括教育部、高校、中小学、幼儿园、教师等,对于公安主题,确定的主题词包括公安、公安部、刑侦、缉毒等;
③检索:以对应类别的主题词集作为查询字符串,对步骤①中的倒排索引进行检索;
具体的,确定主题类别的主题词集后,以该主题类别的词集作为全文检索模块的查询字符串(字符串中词之间以空格分开),对步骤①中建立的倒排索引进行检索;
④获取检索结果:获取步骤③中的检索结果;
⑤存为json文件:将检索结果的前30%打上对应类别标签,作为训练集和开发集,存入json文件,获取带标注的公文分类训练数据集;
具体的,将检索结果中排序靠前的公文(本文中使用检索结果的前30%)存入json文件,作为后续机器学习模型和深度学习模型的训练数据,之所以将检索结果的前30%作为训练数据,是因为检索结果排序越靠前的公文越与主题相关,构建的数据集质量越好,后续分类结果也越可靠;
⑥训练分类模型:将获取带标注的公文分类训练数据集进行基于传统机器学习模型和基于深度学习模型的文本分类模型训练,获取其特征,构建训练分类模型;
具体的,传统机器学习模型获取带标注的公文分类训练数据集中,每个词的TF-IDF作为特征,深度学习模型学习带标注的公文分类训练数据集中,每篇文本的特征。
⑦获取分类结果:进行分类预测,获取分类结果。
具体的,分类模型训练完成后,对于一篇给定的公文,使用训练好的分类模型,获取文本属于各个类别的概率,并选择概率最大的类别作为最终的分类结果。
实施例
如上所述,将本方法与基于发文部门的分类算法进行了对比,并采用标准的精确率(Precision)、召回率(Recall)和F值(F1-score)作为评价标准,其计算公式分别如下:
其中,TP(True positive)为人工标注为正例且被分类器识别为正例的数目,FP(False positive)为人工标注为负例但被分类器识别为正例的数目;
其中,FN(False negtive)为人工标注为正例且分类器识别为负例的数目;
本方法以xgboost作为基于传统机器学习的文本分类算法的代表进行实验对比,以textcnn算法作为基于深度学习的文本分类算法的代表进行实验对比,几种对比方法分别命名如下:
(1)Department-based:直接基于发文部门进行公文分类的方法;
(2)IR-based:基于信息检索模型的检索结果进行公文类别的方法;
(3)Xgboost:基于信息检索模型的结果,自动构造带标注的公文分类训练数据集,然后训练分类模型、预测公文类别的方法;
(4)Textcnn:基于信息检索模型的结果,自动构造带标注的公文分类训练数据集,然后训练分类模型、预测公文类别的方法;
上述方法的分类结果如表2所示。
表2:本文提出方法与相关方法对比
从表中可以看出,本方法在带标注的公文分类训练数据集训练的Xgboost和Textcnn方法中,精确率和召回率都有一定程度的提高,达到了使用基于信息检索方法自动构造的标注数据集的有效性的目的,在保证精确率的情况下,大幅提高了公文分类的召回率,并且能够实现更细粒度的分类。

Claims (4)

1.一种基于信息检索的政府公文主题分类方法,其特征在于:包括以下步骤:
①建立倒排索引:基于信息检索模型,使用Lucene开源全文检索库,对待分类公文建立倒排索引;
②人工构造分类主题词集:采用主题分类方法,对公文主题进行分类,再分别对每个主题类别构建一个主题词集合;
③检索:以对应类别的主题词集作为查询字符串,对步骤①中的倒排索引进行检索;
④获取检索结果:获取步骤③中的检索结果;
⑤存为json文件:将检索结果的前30%打上对应类别标签,作为训练集和开发集,存入json文件,获取带标注的公文分类训练数据集;
⑥训练分类模型:将带标注的公文分类训练数据集进行基于传统机器学习模型和基于深度学习模型的文本分类模型训练,构建训练分类模型;
⑦获取分类结果:进行分类预测,获取分类结果。
2.如权利要求1所述的基于信息检索的政府公文主题分类方法,其特征在于:所述步骤①分为以下步骤:
(1.1)使用开源的结巴分词软件,分别对公文标题和公文正文文本进行中文分词和去停用词处理;
(1.2)使用Lucene开源全文检索库对公文原标题、发文单位、公文原正文、分词后的公文正文、分词后的公文标题,分别建立倒排索引。
3.如权利要求1所述的基于信息检索的政府公文主题分类方法,其特征在于:所述步骤⑥中,传统机器学习模型获取带标注的公文分类训练数据集中,每个词的TF-IDF作为特征,深度学习模型学习带标注的公文分类训练数据集中,每篇文本的特征。
4.如权利要求1所述的基于信息检索的政府公文主题分类方法,其特征在于:所述步骤⑦中,分类模型训练完成后,对于一篇给定的公文,使用训练好的分类模型,获取文本属于各个类别的概率,并选择概率最大的类别作为最终的分类结果。
CN201811406868.6A 2018-11-23 2018-11-23 一种基于信息检索的政府公文主题分类方法 Pending CN109271523A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811406868.6A CN109271523A (zh) 2018-11-23 2018-11-23 一种基于信息检索的政府公文主题分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811406868.6A CN109271523A (zh) 2018-11-23 2018-11-23 一种基于信息检索的政府公文主题分类方法

Publications (1)

Publication Number Publication Date
CN109271523A true CN109271523A (zh) 2019-01-25

Family

ID=65191409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811406868.6A Pending CN109271523A (zh) 2018-11-23 2018-11-23 一种基于信息检索的政府公文主题分类方法

Country Status (1)

Country Link
CN (1) CN109271523A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147448A (zh) * 2019-04-29 2019-08-20 上海欣方智能系统有限公司 短信诈骗分类方法及系统
CN110909122A (zh) * 2019-10-10 2020-03-24 重庆金融资产交易所有限责任公司 一种信息处理方法及相关设备
CN111079031A (zh) * 2019-12-27 2020-04-28 北京工业大学 一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法
CN111400242A (zh) * 2020-02-20 2020-07-10 西安交通大学 一种自动公文分拣派发方法和系统
CN112800246A (zh) * 2021-04-09 2021-05-14 北京智源人工智能研究院 一种政策谱系构建方法、装置和电子设备
CN112995243A (zh) * 2019-12-02 2021-06-18 重庆市科学技术研究院 一种基于大数据的政策信息推送方法和系统
CN113360657A (zh) * 2021-06-30 2021-09-07 安徽商信政通信息技术股份有限公司 一种公文智能分发办理方法、装置及计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261629A (zh) * 2008-04-21 2008-09-10 上海大学 基于自动分类技术的特定信息搜索方法
CN105808524A (zh) * 2016-03-11 2016-07-27 江苏畅远信息科技有限公司 一种基于专利文献摘要的专利自动分类方法
WO2017113232A1 (zh) * 2015-12-30 2017-07-06 中国科学院深圳先进技术研究院 一种基于深度学习的产品分类方法及装置
CN107992633A (zh) * 2018-01-09 2018-05-04 国网福建省电力有限公司 基于关键词特征的电子文档自动分类方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261629A (zh) * 2008-04-21 2008-09-10 上海大学 基于自动分类技术的特定信息搜索方法
WO2017113232A1 (zh) * 2015-12-30 2017-07-06 中国科学院深圳先进技术研究院 一种基于深度学习的产品分类方法及装置
CN105808524A (zh) * 2016-03-11 2016-07-27 江苏畅远信息科技有限公司 一种基于专利文献摘要的专利自动分类方法
CN107992633A (zh) * 2018-01-09 2018-05-04 国网福建省电力有限公司 基于关键词特征的电子文档自动分类方法及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147448A (zh) * 2019-04-29 2019-08-20 上海欣方智能系统有限公司 短信诈骗分类方法及系统
CN110909122A (zh) * 2019-10-10 2020-03-24 重庆金融资产交易所有限责任公司 一种信息处理方法及相关设备
CN110909122B (zh) * 2019-10-10 2023-10-03 湖北华中电力科技开发有限责任公司 一种信息处理方法及相关设备
CN112995243A (zh) * 2019-12-02 2021-06-18 重庆市科学技术研究院 一种基于大数据的政策信息推送方法和系统
CN111079031A (zh) * 2019-12-27 2020-04-28 北京工业大学 一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法
CN111079031B (zh) * 2019-12-27 2023-09-12 北京工业大学 一种基于深度学习和XGBoost算法的博文关于灾难信息重要性加权分类方法
CN111400242A (zh) * 2020-02-20 2020-07-10 西安交通大学 一种自动公文分拣派发方法和系统
CN112800246A (zh) * 2021-04-09 2021-05-14 北京智源人工智能研究院 一种政策谱系构建方法、装置和电子设备
CN113360657A (zh) * 2021-06-30 2021-09-07 安徽商信政通信息技术股份有限公司 一种公文智能分发办理方法、装置及计算机设备
CN113360657B (zh) * 2021-06-30 2023-10-24 安徽商信政通信息技术股份有限公司 一种公文智能分发办理方法、装置及计算机设备

Similar Documents

Publication Publication Date Title
CN109271523A (zh) 一种基于信息检索的政府公文主题分类方法
Wang et al. That’s so annoying!!!: A lexical and frame-semantic embedding based data augmentation approach to automatic categorization of annoying behaviors using# petpeeve tweets
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的系统
CN108563638B (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN106897459A (zh) 一种基于半监督学习的文本敏感信息识别方法
CN109885675B (zh) 基于改进lda的文本子话题发现方法
Mac Kim et al. Data61-csiro systems at the clpsych 2016 shared task
CN105653547B (zh) 一种提取文本关键词的方法和装置
CN109492105A (zh) 一种基于多特征集成学习的文本情感分类方法
CN110909542B (zh) 智能语义串并分析方法及系统
Liu et al. Research on archives text classification based on Naive Bayes
CN108090098A (zh) 一种文本处理方法及装置
Gurav et al. Survey on automated system for fake news detection using NLP & machine learning approach
CN114742071A (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
CN111191455A (zh) 一种交通事故损害赔偿中法律条文预测方法
CN109933663A (zh) 基于embedding方法的意图识别算法
CN115687917A (zh) 样本处理方法以及装置、识别模型训练方法及装置
Brummerloh et al. Boromir at Touché 2022: Combining Natural Language Processing and Machine Learning Techniques for Image Retrieval for Arguments.
CN110427973B (zh) 一种面向歧义标注样本的分类方法
Siddiqui et al. An ensemble approach for the identification and classification of crime tweets in the English language
Roy Chowdhury et al. D-sieve: a novel data processing engine for efficient handling of crises-related social messages
CN113537802A (zh) 一种基于开源情报的地缘政治风险推演方法
Eltaher et al. User profiling of Flickr: Integrating multiple types of features for gender classification
CN107423408B (zh) 一种微博文本跨领域情感分析方法及系统
Sharma et al. A survey on sentiment analysis of twitter using machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190125

RJ01 Rejection of invention patent application after publication