CN114004218A - 一种针对政府工作报告的nlp识别方法 - Google Patents
一种针对政府工作报告的nlp识别方法 Download PDFInfo
- Publication number
- CN114004218A CN114004218A CN202110150275.3A CN202110150275A CN114004218A CN 114004218 A CN114004218 A CN 114004218A CN 202110150275 A CN202110150275 A CN 202110150275A CN 114004218 A CN114004218 A CN 114004218A
- Authority
- CN
- China
- Prior art keywords
- words
- government
- report
- industry
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000011218 segmentation Effects 0.000 claims abstract description 24
- 230000000694 effects Effects 0.000 claims abstract description 11
- 230000008451 emotion Effects 0.000 claims abstract description 11
- 238000010606 normalization Methods 0.000 claims abstract description 9
- 238000009826 distribution Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000004458 analytical method Methods 0.000 claims description 18
- 230000002996 emotional effect Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000001105 regulatory effect Effects 0.000 claims description 4
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 claims description 3
- 241000590419 Polygonia interrogationis Species 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 229910021389 graphene Inorganic materials 0.000 claims description 3
- 239000001963 growth medium Substances 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 230000001149 cognitive effect Effects 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims description 2
- 230000014509 gene expression Effects 0.000 claims description 2
- 238000011161 development Methods 0.000 abstract description 3
- 230000018109 developmental process Effects 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种针对政府工作报告的NLP识别方法,涉及数据处理技术领域。通过对政府工作报告这一特殊文本通过分词+提取关键词+tf‑idf+字典赋权+分位数归一化等方法训练出来的模型,可以准确的提炼出政府工作报告中所表达出来的信息。通过识别当地政府关注和重视的产业,做出不同产业的支持度占比饼图,来更加客观认识不同区域的产业分布情况和不同年份的产业发展情况。通过对政府工作报告的程度词和情感词的识别比较,来区分政府医疗、住房、教育、养老等八大领域的执政能力和最终成效,构建政府绩效的雷达图,来从绩效角度考评政府债务融资的投资效率,从而对政府未来偿债能力有更直接的判断依据。
Description
技术领域
本发明涉及数据处理技术领域,具体为一种基于tf-idf(term frequency–inverse document frequency)思想的、并构建金融分析产业字典和政府执政类别字典的产业支持度和政府执政能力判别方法别方法。
背景技术
总所周知,政府的工作报告决定了,当地未来一段时间的基本发展策略,对于投资者而言,这是至关重要的获取投资信息的一种手段。现阶段人们对于政府工作报告的解读主要还是依赖于人的主观判断,没有办法运用客观定量的方法来识别解读,因此对于不同的报告以及不同的人来解读同一篇政府工作报告,所得到的信息差别也是较大的,导致投资者无法获得高效有用的信息。
发明内容
针对现有技术的不足,本发明提供了一种针对政府工作报告的NLP识别方法。
2.为实现以上目的,本发明通过以下技术方案予以实现:一种针对政府工作报告的NLP识别方法,包括以下步骤:
S1:获取数据,读取历史政府工作报告文本,并且读取公司自行构建的金融分析产业字典中的产业及产业相关词;
S2:获取句子对应标签,首先剔除包含相关消极关键词的句子,随后运用Textrank提取每个句子的关键词,然后将字典中的行业词与每个句子的关键词进行完全匹配,如果匹配成功,则返回相关行业,否则则进行相关词的模糊匹配,将未匹配到的句子标记为“未知”;
S3:读取每篇报告每个句子的相关产业标签,并重新创建一个DataFrame进行保存,然后通过所有类别出现的总次数/各个类别出现的次数,在开根号,计算每个类别的idf值,如果在训练集中没有出现该类别,则将该类别出现的次数标记为1,将所得到的行业idf值进行保存,用于对新的政府工作报告的预测;
S4:读取待预测的政府工作报告,将文章按照顿号、句号、感叹号、问号进行切分句子,加入顿号作为切分句子的原因是因为在报告中,使用顿号时,代表着分割同类的并列的事;然后对于输入报告的每句话,运用Textrank提取前十个关键词,与行业类别词语以及金融分析产业字典进行匹配,进行行业标注;
S5:读取相关行业编号字典,将待预测报告中出现行业的次数小于3次的剔除出去,然后读取预训练的行业idf值,并且根据实际情况以及专业人员的先验概率的基础之上,对个人电子、集成电路、工业机器人以及石墨烯等行业的权重进行一定程度的降低,设定idf值上限,并且调低关于文化传媒以及人工智能的idf值,然后将待预测报告中的tf值与预训练得到的idf值进行相乘,得到这篇文章所包含行业的tf-idf值,进而得到该篇报告对于各个行业的产业支持度情况;
S5:收集政府工作报告,对所有的报告进行遍历,并对报告中的每句话运用Hanlp技术进行分词,剔除相关停用词;
S6:选择高频词进行人为打分,根据高频词出现的次数进行不同程度的打分,得到专业词典;
S7:将政府报告重新送入模型,得到经济运行、就业、住房、教育、医疗、养老、基建和城市管理八个方面的相关得分分布,包括相关类别的均值、中值、众数、方差以及标准差,然后根据相关得分,设置上下限,大于上限的归为上限,小于下限的归为下限,并且对数据进行归一化处理,在乘以基础分10分,得到八个方面,最低分为0分、最高分为10分的相关得分。最后计算八个方面的总得分;
S8:读取待预测政府工作报告,然后根据解读报告属性,选择是否对政府工作报告按照特殊关键词进行切分,然后将报告进行分句,并将所得分句中较长的句子进行二次切分,确保一个句子单元中只包含基础性单元信息,然后对Hanlp字典添加自定义组合词词典;
S9:运用Hanlp技术,对文档进行分词,并去除停用词,读取相关情感词词典、程度词词典和否定词列表,然后遍历每一个句子中的词语,读取情感词位置,然后按照情感词作为分割位置,分别计算每个情感词之间的词语得分,这样做的好处是可以隔绝情感词、程度词以及否定词的相互影响效果,使得否定词只能对两个情感动词之间有作用,而不会作用到整个句子的得分。最后将整个句子的分数通过对所有小分句的得分加总得到,进而通过对所有句子得分加总得到整篇文章对于八个类别的相关得分情况,然后对得分进行归一化、标准化,进而得到整篇文章对于政府执政的八个方面的具体得分情况。
S10:创建金融分析产业字典和政府执政能力类别字典。
优选的,所述S1中,对所有的文章进行分句,对每一个句子运用jieba分词技术进行分词,并且根据不断优化调整的停用词字典,去除停用词生成文章列表,列表中的元素为句子所切割出来的词。
优选的,所述S2中,用相关index来表示相关行业编号,并且将所有文章的所有非停用词词语创建词典,并给“空格”以及“未知”预留位置,用词语的index表示相关词语的编号,将所有词典以及对每篇文章的每个句子标签进行保存,为后面的模型预测保存数据。
优选的,所述在字典创建过程中,可以选择其他词性词语,并且根据不同人的认知情况,在情感程度分数评判也可以有所差异,并且在归一化步骤上,也可以选择多种形式进行处理,如最大最小值归一化、标准归一化等。
优选的,所述在数据预处理部分,可以选择正则表达式、zhon或者结束符号切分等其他方式进行分句,并且可以选择其他的标点符号作为分句标准。并且可以选择jieba、ansj等进行分词。
本发明提供了一种针对政府工作报告的NLP识别方法。具备以下有益效果:通过对政府工作报告这一特殊文本通过分词+提取关键词+tf-idf+字典赋权+分位数归一化等方法训练出来的模型,可以准确的提炼出政府工作报告中所表达出来的信息。通过识别当地政府关注和重视的产业,做出不同产业的支持度占比饼图,来更加客观认识不同区域的产业分布情况和不同年份的产业发展情况。通过对政府工作报告的程度词和情感词的识别比较,来区分政府医疗、住房、教育、养老等八大领域的执政能力和最终成效,构建政府绩效的雷达图,来从绩效角度考评政府债务融资的投资效率,从而对政府未来偿债能力有更直接的判断依据,改变和完善目前地方政府债务风险只看债务规模和债务率的静态城投债考察指标。
附图说明
图1为本发明流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
请参阅图1,本发明提供一种技术方案:一种针对政府工作报告的NLP识别方法,通过读取一万余篇我国各区县以上政府发布的历年政府工作报告,每篇政府工作报告字数在一万字以上,训练构建金融分析产业字典和政府执政类别字典,取在政府工作报告重点产业分析中经常出现的40个小类,为每一小类添加行业专用名词字典,构建金融分析产业字典,将政府工作报告文本划分为医疗、住房、教育、养老、基建、城市管理等八个方面,对每个描述方面添加专用名词字典,构建政府执政能力字典。在初步字典形成后,通过报告识别效果测试,不断补充优化字典。
对报告进行预处理,处理成为句子列表,并将每句话用Hanlp进行分词,去除停用词后,将按顺序将每句话中的词语送入相关计算函数中,读取金融分析产业字典,产业支持度模型中读取相关产业的idf值,并且根据待预测文章计算相关产业的tf值,进而计算tf-idf值,所得到的数值则为该报告体现出的、相关政府部门在当年对不同产业的相关支持度。而政府执政能力模型,是根据政府执政类别字典中的、政府工作报告大样本中所提及的情感词、程度词以及根据强烈程度自行设计的情感程度得分,通过情感词对句子进行截断,来计算每个句子的相关得分,并且将每个句子进行执政方面标注,最后将整体分数相加,得到相关政府部门在当年对不同执政方面的相关执政能力得分。
具体步骤如下:1.产业支持度模型
-train
-数据准备
读取历史政府工作报告文本,并且读取公司自行构建的金融分析产业字典中的产业及产业相关词。对所有的文章进行分句,对每一个句子运用jieba分词技术进行分词,并且根据不断优化调整的停用词字典,去除停用词,生成文章列表,列表中的元素为句子所切割出来的词。去除停用词的目的是将中文容易产生歧义的多义词剔除。
-获取句子对应标签
遍历每篇报告的每个句子,首先剔除包含相关消极关键词的句子,随后运用Textrank提取每个句子的关键词,然后将字典中的行业词与每个句子的关键词进行完全匹配,如果匹配成功,则返回相关行业,否则则进行相关词的模糊匹配,将未匹配到的句子标记为“未知”。这样使得每篇报告的每个句子都进行了相关行业的标注,并且对所出现的行业创建词典,用相关index来表示相关行业编号,并且将所有文章的所有非停用词词语创建词典,并给“空格”以及“未知”预留位置,用词语的index表示相关词语的编号,将所有词典以及对每篇文章的每个句子标签进行保存,为后面的模型预测保存数据。
-idf
-计算idf
读取每篇报告每个句子的相关产业标签,并重新创建一个DataFrame进行保存,然后通过所有类别出现的总次数/各个类别出现的次数,在开根号,计算每个类别的idf值,如果在训练集中没有出现该类别,则将该类别出现的次数标记为1,这样使得所有的类别都有自己专属的idf值,而训练集中没有出现的行业类别,因为其所提及的稀少性,而给予了很高的权重。并且出现的类别,出现次数较少的行业如工业机器人、智能终端等,则给予了较高的权重,而现代服务业、宏观经济、农业这些相对来说提及较多的,相对的权重则会很低。将所得到的行业idf值进行保存,用于对新的政府工作报告的预测。对idf值的优化是关键步骤之一,对于部分国家支持的新兴产业的权重进行调整,赋予较高但又不能太高的权重,这将对下面预测结果的合理性起到决定作用。
-predict
-待预测政府工作报告预处理
读取待预测的政府工作报告,将文章按照顿号、句号、感叹号、问号进行切分句子,加入顿号作为切分句子的原因是因为在报告中,使用顿号时,代表着分割同类的并列的事;然后对于输入报告的每句话,运用Textrank提取前十个关键词,与行业类别词语以及金融分析产业字典进行匹配,进行行业标注;读取相关行业编号字典,将待预测报告中出现行业的次数小于3次的剔除出去,这样可以保留文章中较为重要的、提及较多的行业,剔除那些相对来说比重较轻的行业,然后读取预训练的行业idf值,并且根据实际情况以及专业人员的先验概率的基础之上,对个人电子、集成电路、工业机器人以及石墨烯等行业的权重进行一定程度的降低,设定idf值上限,并且调低关于文化传媒以及人工智能的idf值,使其行业tf-idf值相较其他行业较为合理。然后将待预测报告中的tf值与预训练得到的idf值进行相乘,得到这篇文章所包含行业的tf-idf值,进而得到该篇报告对于各个行业的产业支持度情况。
2.政府执政能力模型
-train
在1万多篇报告中选择7000多篇2016年至2018年省、地级市、区县政府工作报告,对所有的报告进行遍历,并对报告中的每句话运用Hanlp技术进行分词,剔除相关停用词,选用Hanlp的技术是因为相较于其他中文分词工具,如jieba分词等,可以自定义分词、词性方便,并且分词效果相较来说更加的准确。
选择其中程度词、情感动词以及组合词部分,合计情感词14760个、程度词1723个、补词8640个,选择其中情感词词频大于等于50的、程度词词频大于等于30的相关中高频词,人为进行打分,共分为11个档次,对于情感程度强烈的正负面词赋予更高的分数,此外还包括分为五档的程度词进行程度调节,最终我们得到了一个6879个词的字典,包含筛选后的情感动词3540个、程度词179个和组合词3160个。这样我们可以得到较为专业、准确的情感程度分类字典,其中加入了专业人员的人为判断,不会因不同人的主观意识差异而使得判断不统一。
重新将7000多篇政府工作报告重新送入模型,得到经济运行、就业、住房、教育、医疗、养老、基建和城市管理八个方面的相关得分分布,包括相关类别的均值、中值、众数、方差以及标准差,然后根据相关得分,设置上下限,大于上限的归为上限,小于下限的归为下限,并且对数据进行归一化处理,在乘以基础分10分,得到八个方面,最低分为0分、最高分为10分的相关得分。最后计算八个方面的总得分。
-predict
读取待预测政府工作报告,然后根据解读报告属性,选择是否对政府工作报告按照特殊关键词进行切分,然后将报告进行分句,并将所得分句中较长的句子进行二次切分,确保一个句子单元中只包含基础性单元信息,然后对Hanlp字典添加3160个自定义组合词词典,这样对Hanlp原始分词字典又进行扩充,使得模型对金融领域相关用语或语法更加熟悉,使得相关的分词效果更好。
运用Hanlp技术,对文档进行分词,并去除停用词,读取相关情感词词典、程度词词典和否定词列表,然后遍历每一个句子中的词语,读取情感词位置,然后按照情感词作为分割位置,分别计算每个情感词之间的词语得分,这样做的好处是可以隔绝情感词、程度词以及否定词的相互影响效果,使得否定词只能对两个情感动词之间有作用,而不会作用到整个句子的得分。最后将整个句子的分数通过对所有小分句的得分加总得到,进而通过对所有句子得分加总得到整篇文章对于八个类别的相关得分情况,然后对得分进行归一化、标准化,进而得到整篇文章对于政府执政的八个方面的具体得分情况。
创建金融分析产业字典和政府执政能力类别字典
在构建金融分析产业字典时,依据了公司自行设计的80个析鲸行业小类,取其中在政府工作报告涉及当地重点产业分析中经常出现的40个小类,为每一小类添加行业专用名词字典,用于判定句子的行业归属。政府执政类别字典的原理相似,将政府工作报告文本划分为医疗、住房、教育、养老、基建、城市管理等八个方面,对每个描述方面添加专用名词字典,来判定句子的执政方面归属。
通过对7000多篇报告的句子运用Hanlp分词技术进行分词,然后选取其中词性为名词的词语,按照词频进行排列,选取其中代表行业的专业名词以及代表相关政府执政能力八个方面的专有名词,并对其中的相关名词进行筛选,剔除其中具有混淆含义的词语,并根据实际情况,将部分具有混淆含义的词语添加进入停用词列表,防止对文本标注工作产生影响。并根据专业人士的先验认知,添加相关类别词语,从而生成相关金融分析产业字典和政府执政能力类别字典。这样做的好处是可以根据实际报告来获得准确的行业类别词或者执政类别词,并且相对来说效率较高,并且优化调整时,剔除混淆含义词,并补充出现频率较低但很关键的新词,使得后期对句子分类标注更加准确,并且对于行业标注以及执政类别标注也更加全面,能够更加有效的利用报告内的信息,提高信息转化率,减少情报文本浪费率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种针对政府工作报告的NLP识别方法,其特征在于,包括以下步骤:
S1:获取数据,读取历史政府工作报告文本,并且读取公司自行构建的金融分析产业字典中的产业及产业相关词;
S2:获取句子对应标签,首先剔除包含相关消极关键词的句子,随后运用Textrank提取每个句子的关键词,然后将字典中的行业词与每个句子的关键词进行完全匹配,如果匹配成功,则返回相关行业,否则则进行相关词的模糊匹配,将未匹配到的句子标记为“未知”;
S3:读取每篇报告每个句子的相关产业标签,并重新创建一个DataFrame进行保存,然后通过所有类别出现的总次数/各个类别出现的次数,在开根号,计算每个类别的idf值,如果在训练集中没有出现该类别,则将该类别出现的次数标记为1,将所得到的行业idf值进行保存,用于对新的政府工作报告的预测;
S4:读取待预测的政府工作报告,将文章按照顿号、句号、感叹号、问号进行切分句子,加入顿号作为切分句子的原因是因为在报告中,使用顿号时,代表着分割同类的并列的事;然后对于输入报告的每句话,运用Textrank提取前十个关键词,与行业类别词语以及金融分析产业字典进行匹配,进行行业标注;
S5:读取相关行业编号字典,将待预测报告中出现行业的次数小于3次的剔除出去,然后读取预训练的行业idf值,并且根据实际情况以及专业人员的先验概率的基础之上,对个人电子、集成电路、工业机器人以及石墨烯等行业的权重进行一定程度的降低,设定idf值上限,并且调低关于文化传媒以及人工智能的idf值,然后将待预测报告中的tf值与预训练得到的idf值进行相乘,得到这篇文章所包含行业的tf-idf值,进而得到该篇报告对于各个行业的产业支持度情况;
S5:收集政府工作报告,对所有的报告进行遍历,并对报告中的每句话运用Hanlp技术进行分词,剔除相关停用词;
S6:选择高频词进行人为打分,根据高频词出现的次数进行不同程度的打分,得到专业词典;
S7:将政府报告重新送入模型,得到经济运行、就业、住房、教育、医疗、养老、基建和城市管理八个方面的相关得分分布,包括相关类别的均值、中值、众数、方差以及标准差,然后根据相关得分,设置上下限,大于上限的归为上限,小于下限的归为下限,并且对数据进行归一化处理,在乘以基础分10分,得到八个方面,最低分为0分、最高分为10分的相关得分。最后计算八个方面的总得分;
S8:读取待预测政府工作报告,然后根据解读报告属性,选择是否对政府工作报告按照特殊关键词进行切分,然后将报告进行分句,并将所得分句中较长的句子进行二次切分,确保一个句子单元中只包含基础性单元信息,然后对Hanlp字典添加自定义组合词词典;
S9:运用Hanlp技术,对文档进行分词,并去除停用词,读取相关情感词词典、程度词词典和否定词列表,然后遍历每一个句子中的词语,读取情感词位置,然后按照情感词作为分割位置,分别计算每个情感词之间的词语得分,这样做的好处是可以隔绝情感词、程度词以及否定词的相互影响效果,使得否定词只能对两个情感动词之间有作用,而不会作用到整个句子的得分。最后将整个句子的分数通过对所有小分句的得分加总得到,进而通过对所有句子得分加总得到整篇文章对于八个类别的相关得分情况,然后对得分进行归一化、标准化,进而得到整篇文章对于政府执政的八个方面的具体得分情况。
S10:创建金融分析产业字典和政府执政能力类别字典。
2.根据权利要求1所述的一种针对政府工作报告的NLP识别方法,其特征在于:所述S1中,对所有的文章进行分句,对每一个句子运用jieba分词技术进行分词,并且根据不断优化调整的停用词字典,去除停用词生成文章列表,列表中的元素为句子所切割出来的词。
3.根据权利要求1所述的一种针对政府工作报告的NLP识别方法,其特征在于:所述S2中,用相关index来表示相关行业编号,并且将所有文章的所有非停用词词语创建词典,并给“空格”以及“未知”预留位置,用词语的index表示相关词语的编号,将所有词典以及对每篇文章的每个句子标签进行保存,为后面的模型预测保存数据。
4.根据权利要求1所述的一种针对政府工作报告的NLP识别方法,其特征在于:在字典创建过程中,可以选择其他词性词语,并且根据不同人的认知情况,在情感程度分数评判也可以有所差异,并且在归一化步骤上,也可以选择多种形式进行处理,如最大最小值归一化、标准归一化等。
5.根据权利要求1所述的一种针对政府工作报告的NLP识别方法,其特征在于:在数据预处理部分,可以选择正则表达式、zhon或者结束符号切分等其他方式进行分句,并且可以选择其他的标点符号作为分句标准。并且可以选择jieba、ansj等进行分词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110150275.3A CN114004218A (zh) | 2021-02-03 | 2021-02-03 | 一种针对政府工作报告的nlp识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110150275.3A CN114004218A (zh) | 2021-02-03 | 2021-02-03 | 一种针对政府工作报告的nlp识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114004218A true CN114004218A (zh) | 2022-02-01 |
Family
ID=79920840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110150275.3A Pending CN114004218A (zh) | 2021-02-03 | 2021-02-03 | 一种针对政府工作报告的nlp识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114004218A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116797084A (zh) * | 2023-06-16 | 2023-09-22 | 广东铭太信息科技有限公司 | 一种数字监督考核系统及方法 |
CN116842180A (zh) * | 2023-08-30 | 2023-10-03 | 中电科大数据研究院有限公司 | 公文所属产业识别方法及装置 |
-
2021
- 2021-02-03 CN CN202110150275.3A patent/CN114004218A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116797084A (zh) * | 2023-06-16 | 2023-09-22 | 广东铭太信息科技有限公司 | 一种数字监督考核系统及方法 |
CN116842180A (zh) * | 2023-08-30 | 2023-10-03 | 中电科大数据研究院有限公司 | 公文所属产业识别方法及装置 |
CN116842180B (zh) * | 2023-08-30 | 2023-12-19 | 中电科大数据研究院有限公司 | 公文所属产业识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147436B (zh) | 一种基于教育知识图谱与文本的混合自动问答方法 | |
CN112184525B (zh) | 通过自然语义分析实现智能匹配推荐的系统及方法 | |
CN110276054B (zh) | 一种保险文本结构化实现方法 | |
CN110968699A (zh) | 一种基于事理推荐的逻辑图谱构建及预警方法和装置 | |
CN111950932A (zh) | 基于多源信息融合的中小微企业综合质量画像方法 | |
CN109492105B (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
CN114004218A (zh) | 一种针对政府工作报告的nlp识别方法 | |
CN116361472B (zh) | 社交网络评论热点事件舆情大数据分析方法 | |
CN115357719A (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN115544348A (zh) | 一种基于互联网大数据的海量信息智能搜索系统 | |
CN115687634A (zh) | 一种结合先验知识的金融实体关系抽取系统及方法 | |
CN113934814B (zh) | 古诗文主观题自动评分方法 | |
CN115238040A (zh) | 一种钢铁材料学知识图谱构建方法及系统 | |
CN114579709A (zh) | 一种基于知识图谱的智能问答意图识别方法 | |
CN110610007A (zh) | 基于nlp的维保车况智能识别方法及装置 | |
CN110232124A (zh) | 一种情感分析系统 | |
Jui et al. | A machine learning-based segmentation approach for measuring similarity between sign languages | |
CN111598691A (zh) | 信用债发债主体违约风险评估方法、系统及装置 | |
CN111160756A (zh) | 基于二次人工智能算法的景区评估方法及模型 | |
CN116186422A (zh) | 基于社交媒体和人工智能的疾病相关舆情分析系统 | |
CN115238093A (zh) | 一种模型训练的方法、装置、电子设备及存储介质 | |
CN114117078A (zh) | 一种基于d-s证据理论的电力异构知识融合的方法 | |
CN113590744B (zh) | 一种面向可解释的情感溯源方法 | |
CN115730065A (zh) | 关键信息抽取方法、装置、电子设备和可读存储介质 | |
Banerjee et al. | Automatic Standardization of Data Based on Machine Learning and Natural Language Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |