CN108776657A - 政协提案关注点自动提取方法 - Google Patents
政协提案关注点自动提取方法 Download PDFInfo
- Publication number
- CN108776657A CN108776657A CN201810606872.0A CN201810606872A CN108776657A CN 108776657 A CN108776657 A CN 108776657A CN 201810606872 A CN201810606872 A CN 201810606872A CN 108776657 A CN108776657 A CN 108776657A
- Authority
- CN
- China
- Prior art keywords
- motion
- focus
- cppcc
- dictionary
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种政协提案关注点自动提取方法,具体包括以下步骤:建立提案词库以及样本集;接受提案,根据提案词库对提案文档的内容进行分词;根据样本集计算每个分词的权重;按照权重对分词进行排序;根据算法智能计算该提案归属哪类关注点;返回分类结果,并更新词库。本发明能够对政协提案进行准确分类,并快速提取提案内容的关注点,节约了人工分类的时间,降低了提案分类的成本,大大提高了工作效率。
Description
技术领域
本发明涉及数据自动提取技术领域,特别是一种针对政协提案关注点的自动提取方法。
背景技术
随着信息技术的发展,数字化的信息正以惊人的速度增长,人们每天要面对大量的数字化信息来进行阅读,为了节省时间和提高工作效率,原始的数字信息的各种简洁表示(例如,摘要、关键词等形式)应运而生。人们可以通过这些简洁表示来快速了解原始信息的大致内容,而不需要通读全文。通常,形成这些简洁表示的基本元素是从原始信息提取的关键词。目前现有技术中关键词的提取大多是基于新闻资讯类文章,而对于政协委员们提交的提案等文章则无法准确地快速地实现关注点的提取。
发明内容
本发明需要解决的技术问题是提供一种用于对政协提案的关注点进行自动提取的方法。
为解决上述技术问题,本发明所采取的技术方案如下。
政协提案关注点自动提取方法,具体包括以下步骤:
A.建立提案词库以及样本集;
B.接受提案,根据提案词库对提案文档的内容进行分词;
C.根据样本集计算每个分词的权重;
D.按照权重对分词进行排序;
E.根据算法智能计算该提案归属哪类关注点;
F.返回分类结果,并更新词库。
上述政协提案关注点自动提取方法,步骤C中所述的权重计算方法为:根据TF-IDF算法计算每个分词的权重,再根据特定语义词库,提高某些关键词的权重阀值,来提高权重计算的精度。
上述政协提案关注点自动提取方法,步骤E中所述的算法为:通过余弦距离算法,计算该提案与样本集提案的距离,离哪类样本提案距离最近,则归属于哪类关注点。
由于采用了以上技术方案,本发明所取得技术进步如下。
本发明能够对政协提案进行准确分类,并快速提取提案内容的关注点,节约了人工分类的时间,降低了提案分类的成本,大大提高了工作效率。
附图说明
图1为本发明的流程图。
具体实施方式
下面将结合具体实施例对本发明进行进一步详细说明。
一种政协提案关注点自动提取方法,基于政协领域多年积累的词库与样本集来获得提案关注点自动提取的基础,该自动提取方法具体包括以下步骤。
A.建立提案词库以及样本集。
B.接受提案,根据提案词库对提案文档的内容进行分词。
C.根据样本集计算每个分词的权重。所述权重计算方法为:根据TF-IDF算法计算每个分词的权重,再根据特定语义词库,提高某些关键词的权重阀值,来提高权重计算的精度。
TF-IDF算法用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在词库中出现的频率成反比下降。
D.按照权重对分词进行排序。
E.根据算法智能计算该提案归属哪类关注点。该算法是针对政协领域改进的分类算法,具体是通过余弦距离算法,计算该提案与样本集提案的距离,离哪类样本提案距离最近,则归属于哪类关注点。
F.返回分类结果,并更新词库。
Claims (3)
1.政协提案关注点自动提取方法,其特征在于,具体包括以下步骤:
A.建立提案词库以及样本集;
B.接受提案,根据提案词库对提案文档的内容进行分词;
C.根据样本集计算每个分词的权重;
D.按照权重对分词进行排序;
E.根据算法智能计算该提案归属哪类关注点;
F.返回分类结果,并更新词库。
2.根据权利要求1所述的政协提案关注点自动提取方法,其特征在于,步骤C中所述的权重计算方法为:根据TF-IDF算法计算每个分词的权重,再根据特定语义词库,提高某些关键词的权重阀值,来提高权重计算的精度。
3.根据权利要求1所述的政协提案关注点自动提取方法,其特征在于,步骤E中所述的算法为:通过余弦距离算法,计算该提案与样本集提案的距离,离哪类样本提案距离最近,则归属于哪类关注点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810606872.0A CN108776657A (zh) | 2018-06-13 | 2018-06-13 | 政协提案关注点自动提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810606872.0A CN108776657A (zh) | 2018-06-13 | 2018-06-13 | 政协提案关注点自动提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108776657A true CN108776657A (zh) | 2018-11-09 |
Family
ID=64025065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810606872.0A Withdrawn CN108776657A (zh) | 2018-06-13 | 2018-06-13 | 政协提案关注点自动提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108776657A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767389A (zh) * | 2020-05-22 | 2020-10-13 | 湖南正宇软件技术开发有限公司 | 一种根据提案内容推荐办案单位的方法和装置 |
CN113326355A (zh) * | 2021-07-29 | 2021-08-31 | 湖南正宇软件技术开发有限公司 | 提案评分的方法、装置、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218368A (zh) * | 2012-01-20 | 2013-07-24 | 深圳市腾讯计算机系统有限公司 | 一种挖掘热词的方法与装置 |
CN106156372A (zh) * | 2016-08-31 | 2016-11-23 | 北京北信源软件股份有限公司 | 一种互联网网站的分类方法及装置 |
CN106557508A (zh) * | 2015-09-28 | 2017-04-05 | 北京神州泰岳软件股份有限公司 | 一种文本关键词提取方法和装置 |
CN107305549A (zh) * | 2016-04-18 | 2017-10-31 | 北京搜狗科技发展有限公司 | 语言数据处理方法、装置以及用于语言数据处理的装置 |
-
2018
- 2018-06-13 CN CN201810606872.0A patent/CN108776657A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218368A (zh) * | 2012-01-20 | 2013-07-24 | 深圳市腾讯计算机系统有限公司 | 一种挖掘热词的方法与装置 |
CN106557508A (zh) * | 2015-09-28 | 2017-04-05 | 北京神州泰岳软件股份有限公司 | 一种文本关键词提取方法和装置 |
CN107305549A (zh) * | 2016-04-18 | 2017-10-31 | 北京搜狗科技发展有限公司 | 语言数据处理方法、装置以及用于语言数据处理的装置 |
CN106156372A (zh) * | 2016-08-31 | 2016-11-23 | 北京北信源软件股份有限公司 | 一种互联网网站的分类方法及装置 |
Non-Patent Citations (1)
Title |
---|
黄建澍: "面向人大代表议案处理的文本挖掘系统的设计与实现", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767389A (zh) * | 2020-05-22 | 2020-10-13 | 湖南正宇软件技术开发有限公司 | 一种根据提案内容推荐办案单位的方法和装置 |
CN113326355A (zh) * | 2021-07-29 | 2021-08-31 | 湖南正宇软件技术开发有限公司 | 提案评分的方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106528642B (zh) | 一种基于tf-idf特征提取的短文本分类方法 | |
CN108829658B (zh) | 新词发现的方法及装置 | |
CN109101477B (zh) | 一种企业领域分类及企业关键词筛选方法 | |
CN104199972B (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
CN104268197B (zh) | 一种行业评论数据细粒度情感分析方法 | |
CN106339495A (zh) | 一种基于层次增量聚类的话题检测方法及系统 | |
CN109165294A (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN106708966A (zh) | 基于相似度计算的垃圾评论检测方法 | |
CN103324745B (zh) | 基于贝叶斯模型的文本垃圾识别方法和系统 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN104573046A (zh) | 一种基于词向量的评论分析方法及系统 | |
CN101127042A (zh) | 一种基于语言模型的情感分类方法 | |
CN101079025B (zh) | 一种文档相关度计算系统和方法 | |
CN108388554B (zh) | 基于协同过滤注意力机制的文本情感识别系统 | |
CN103034726B (zh) | 文本过滤系统及方法 | |
CN103336766A (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN104866572A (zh) | 一种网络短文本聚类方法 | |
CN109960799A (zh) | 一种面向短文本的优化分类方法 | |
CN103646080A (zh) | 基于倒序索引的微博去重方法和系统 | |
CN105718585B (zh) | 文档与标签词语义关联方法及其装置 | |
CN108199951A (zh) | 一种基于多算法融合模型的垃圾邮件过滤方法 | |
CN104239512A (zh) | 一种文本推荐方法 | |
CN105512333A (zh) | 基于情感倾向的产品评论主题搜索方法 | |
CN104778283B (zh) | 一种基于微博的用户职业分类方法及系统 | |
CN106844786A (zh) | 一种基于文本相似度的舆情地域热点发现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20181109 |