CN114004218A

CN114004218A - 一种针对政府工作报告的nlp识别方法

Info

Publication number: CN114004218A
Application number: CN202110150275.3A
Authority: CN
Inventors: 陈毓敏; 余哲; 叶健; 张宇阳; 李绪生; 李杨
Original assignee: Shanghai Xijing Information Technology Co ltd
Current assignee: Shanghai Xijing Information Technology Co ltd
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2022-02-01

Abstract

本发明公开了一种针对政府工作报告的NLP识别方法，涉及数据处理技术领域。通过对政府工作报告这一特殊文本通过分词+提取关键词+tf‑idf+字典赋权+分位数归一化等方法训练出来的模型，可以准确的提炼出政府工作报告中所表达出来的信息。通过识别当地政府关注和重视的产业，做出不同产业的支持度占比饼图，来更加客观认识不同区域的产业分布情况和不同年份的产业发展情况。通过对政府工作报告的程度词和情感词的识别比较，来区分政府医疗、住房、教育、养老等八大领域的执政能力和最终成效，构建政府绩效的雷达图，来从绩效角度考评政府债务融资的投资效率，从而对政府未来偿债能力有更直接的判断依据。

Description

一种针对政府工作报告的NLP识别方法

技术领域

本发明涉及数据处理技术领域，具体为一种基于tf-idf(term frequency–inverse document frequency)思想的、并构建金融分析产业字典和政府执政类别字典的产业支持度和政府执政能力判别方法别方法。

背景技术

总所周知，政府的工作报告决定了，当地未来一段时间的基本发展策略，对于投资者而言，这是至关重要的获取投资信息的一种手段。现阶段人们对于政府工作报告的解读主要还是依赖于人的主观判断，没有办法运用客观定量的方法来识别解读，因此对于不同的报告以及不同的人来解读同一篇政府工作报告，所得到的信息差别也是较大的，导致投资者无法获得高效有用的信息。

发明内容

针对现有技术的不足，本发明提供了一种针对政府工作报告的NLP识别方法。

2.为实现以上目的，本发明通过以下技术方案予以实现：一种针对政府工作报告的NLP识别方法，包括以下步骤：

S1：获取数据，读取历史政府工作报告文本，并且读取公司自行构建的金融分析产业字典中的产业及产业相关词；

S2：获取句子对应标签，首先剔除包含相关消极关键词的句子，随后运用Textrank提取每个句子的关键词，然后将字典中的行业词与每个句子的关键词进行完全匹配，如果匹配成功，则返回相关行业，否则则进行相关词的模糊匹配，将未匹配到的句子标记为“未知”；

S3：读取每篇报告每个句子的相关产业标签，并重新创建一个DataFrame进行保存，然后通过所有类别出现的总次数/各个类别出现的次数，在开根号，计算每个类别的idf值，如果在训练集中没有出现该类别，则将该类别出现的次数标记为1，将所得到的行业idf值进行保存，用于对新的政府工作报告的预测；

S4：读取待预测的政府工作报告，将文章按照顿号、句号、感叹号、问号进行切分句子，加入顿号作为切分句子的原因是因为在报告中，使用顿号时，代表着分割同类的并列的事；然后对于输入报告的每句话，运用Textrank提取前十个关键词，与行业类别词语以及金融分析产业字典进行匹配，进行行业标注；

S5：读取相关行业编号字典，将待预测报告中出现行业的次数小于3次的剔除出去，然后读取预训练的行业idf值，并且根据实际情况以及专业人员的先验概率的基础之上，对个人电子、集成电路、工业机器人以及石墨烯等行业的权重进行一定程度的降低，设定idf值上限，并且调低关于文化传媒以及人工智能的idf值，然后将待预测报告中的tf值与预训练得到的idf值进行相乘，得到这篇文章所包含行业的tf-idf值，进而得到该篇报告对于各个行业的产业支持度情况；

S5：收集政府工作报告，对所有的报告进行遍历，并对报告中的每句话运用Hanlp技术进行分词，剔除相关停用词；

S6：选择高频词进行人为打分，根据高频词出现的次数进行不同程度的打分，得到专业词典；

S7：将政府报告重新送入模型，得到经济运行、就业、住房、教育、医疗、养老、基建和城市管理八个方面的相关得分分布，包括相关类别的均值、中值、众数、方差以及标准差，然后根据相关得分，设置上下限，大于上限的归为上限，小于下限的归为下限，并且对数据进行归一化处理，在乘以基础分10分，得到八个方面，最低分为0分、最高分为10分的相关得分。最后计算八个方面的总得分；

S8：读取待预测政府工作报告，然后根据解读报告属性，选择是否对政府工作报告按照特殊关键词进行切分，然后将报告进行分句，并将所得分句中较长的句子进行二次切分，确保一个句子单元中只包含基础性单元信息，然后对Hanlp字典添加自定义组合词词典；

S9：运用Hanlp技术，对文档进行分词，并去除停用词，读取相关情感词词典、程度词词典和否定词列表，然后遍历每一个句子中的词语，读取情感词位置，然后按照情感词作为分割位置，分别计算每个情感词之间的词语得分，这样做的好处是可以隔绝情感词、程度词以及否定词的相互影响效果，使得否定词只能对两个情感动词之间有作用，而不会作用到整个句子的得分。最后将整个句子的分数通过对所有小分句的得分加总得到，进而通过对所有句子得分加总得到整篇文章对于八个类别的相关得分情况，然后对得分进行归一化、标准化，进而得到整篇文章对于政府执政的八个方面的具体得分情况。

S10：创建金融分析产业字典和政府执政能力类别字典。

优选的，所述S1中，对所有的文章进行分句，对每一个句子运用jieba分词技术进行分词，并且根据不断优化调整的停用词字典，去除停用词生成文章列表，列表中的元素为句子所切割出来的词。

优选的，所述S2中，用相关index来表示相关行业编号，并且将所有文章的所有非停用词词语创建词典，并给“空格”以及“未知”预留位置，用词语的index表示相关词语的编号，将所有词典以及对每篇文章的每个句子标签进行保存，为后面的模型预测保存数据。

优选的，所述在字典创建过程中，可以选择其他词性词语，并且根据不同人的认知情况，在情感程度分数评判也可以有所差异，并且在归一化步骤上，也可以选择多种形式进行处理，如最大最小值归一化、标准归一化等。

优选的，所述在数据预处理部分，可以选择正则表达式、zhon或者结束符号切分等其他方式进行分句，并且可以选择其他的标点符号作为分句标准。并且可以选择jieba、ansj等进行分词。

本发明提供了一种针对政府工作报告的NLP识别方法。具备以下有益效果：通过对政府工作报告这一特殊文本通过分词+提取关键词+tf-idf+字典赋权+分位数归一化等方法训练出来的模型，可以准确的提炼出政府工作报告中所表达出来的信息。通过识别当地政府关注和重视的产业，做出不同产业的支持度占比饼图，来更加客观认识不同区域的产业分布情况和不同年份的产业发展情况。通过对政府工作报告的程度词和情感词的识别比较，来区分政府医疗、住房、教育、养老等八大领域的执政能力和最终成效，构建政府绩效的雷达图，来从绩效角度考评政府债务融资的投资效率，从而对政府未来偿债能力有更直接的判断依据，改变和完善目前地方政府债务风险只看债务规模和债务率的静态城投债考察指标。

附图说明

图1为本发明流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1，本发明提供一种技术方案：一种针对政府工作报告的NLP识别方法，通过读取一万余篇我国各区县以上政府发布的历年政府工作报告，每篇政府工作报告字数在一万字以上，训练构建金融分析产业字典和政府执政类别字典，取在政府工作报告重点产业分析中经常出现的40个小类，为每一小类添加行业专用名词字典，构建金融分析产业字典，将政府工作报告文本划分为医疗、住房、教育、养老、基建、城市管理等八个方面，对每个描述方面添加专用名词字典，构建政府执政能力字典。在初步字典形成后，通过报告识别效果测试，不断补充优化字典。

对报告进行预处理，处理成为句子列表，并将每句话用Hanlp进行分词，去除停用词后，将按顺序将每句话中的词语送入相关计算函数中，读取金融分析产业字典，产业支持度模型中读取相关产业的idf值，并且根据待预测文章计算相关产业的tf值，进而计算tf-idf值，所得到的数值则为该报告体现出的、相关政府部门在当年对不同产业的相关支持度。而政府执政能力模型，是根据政府执政类别字典中的、政府工作报告大样本中所提及的情感词、程度词以及根据强烈程度自行设计的情感程度得分，通过情感词对句子进行截断，来计算每个句子的相关得分，并且将每个句子进行执政方面标注，最后将整体分数相加，得到相关政府部门在当年对不同执政方面的相关执政能力得分。

具体步骤如下：1.产业支持度模型

-train

-数据准备

读取历史政府工作报告文本，并且读取公司自行构建的金融分析产业字典中的产业及产业相关词。对所有的文章进行分句，对每一个句子运用jieba分词技术进行分词，并且根据不断优化调整的停用词字典，去除停用词，生成文章列表，列表中的元素为句子所切割出来的词。去除停用词的目的是将中文容易产生歧义的多义词剔除。

-获取句子对应标签

遍历每篇报告的每个句子，首先剔除包含相关消极关键词的句子，随后运用Textrank提取每个句子的关键词，然后将字典中的行业词与每个句子的关键词进行完全匹配，如果匹配成功，则返回相关行业，否则则进行相关词的模糊匹配，将未匹配到的句子标记为“未知”。这样使得每篇报告的每个句子都进行了相关行业的标注，并且对所出现的行业创建词典，用相关index来表示相关行业编号，并且将所有文章的所有非停用词词语创建词典，并给“空格”以及“未知”预留位置，用词语的index表示相关词语的编号，将所有词典以及对每篇文章的每个句子标签进行保存，为后面的模型预测保存数据。

-idf

-计算idf

读取每篇报告每个句子的相关产业标签，并重新创建一个DataFrame进行保存，然后通过所有类别出现的总次数/各个类别出现的次数，在开根号，计算每个类别的idf值，如果在训练集中没有出现该类别，则将该类别出现的次数标记为1，这样使得所有的类别都有自己专属的idf值，而训练集中没有出现的行业类别，因为其所提及的稀少性，而给予了很高的权重。并且出现的类别，出现次数较少的行业如工业机器人、智能终端等，则给予了较高的权重，而现代服务业、宏观经济、农业这些相对来说提及较多的，相对的权重则会很低。将所得到的行业idf值进行保存，用于对新的政府工作报告的预测。对idf值的优化是关键步骤之一，对于部分国家支持的新兴产业的权重进行调整，赋予较高但又不能太高的权重，这将对下面预测结果的合理性起到决定作用。

-predict

-待预测政府工作报告预处理

读取待预测的政府工作报告，将文章按照顿号、句号、感叹号、问号进行切分句子，加入顿号作为切分句子的原因是因为在报告中，使用顿号时，代表着分割同类的并列的事；然后对于输入报告的每句话，运用Textrank提取前十个关键词，与行业类别词语以及金融分析产业字典进行匹配，进行行业标注；读取相关行业编号字典，将待预测报告中出现行业的次数小于3次的剔除出去，这样可以保留文章中较为重要的、提及较多的行业，剔除那些相对来说比重较轻的行业，然后读取预训练的行业idf值，并且根据实际情况以及专业人员的先验概率的基础之上，对个人电子、集成电路、工业机器人以及石墨烯等行业的权重进行一定程度的降低，设定idf值上限，并且调低关于文化传媒以及人工智能的idf值，使其行业tf-idf值相较其他行业较为合理。然后将待预测报告中的tf值与预训练得到的idf值进行相乘，得到这篇文章所包含行业的tf-idf值，进而得到该篇报告对于各个行业的产业支持度情况。

2.政府执政能力模型

-train

在1万多篇报告中选择7000多篇2016年至2018年省、地级市、区县政府工作报告，对所有的报告进行遍历，并对报告中的每句话运用Hanlp技术进行分词，剔除相关停用词，选用Hanlp的技术是因为相较于其他中文分词工具，如jieba分词等，可以自定义分词、词性方便，并且分词效果相较来说更加的准确。

选择其中程度词、情感动词以及组合词部分，合计情感词14760个、程度词1723个、补词8640个，选择其中情感词词频大于等于50的、程度词词频大于等于30的相关中高频词，人为进行打分，共分为11个档次，对于情感程度强烈的正负面词赋予更高的分数，此外还包括分为五档的程度词进行程度调节，最终我们得到了一个6879个词的字典，包含筛选后的情感动词3540个、程度词179个和组合词3160个。这样我们可以得到较为专业、准确的情感程度分类字典，其中加入了专业人员的人为判断，不会因不同人的主观意识差异而使得判断不统一。

重新将7000多篇政府工作报告重新送入模型，得到经济运行、就业、住房、教育、医疗、养老、基建和城市管理八个方面的相关得分分布，包括相关类别的均值、中值、众数、方差以及标准差，然后根据相关得分，设置上下限，大于上限的归为上限，小于下限的归为下限，并且对数据进行归一化处理，在乘以基础分10分，得到八个方面，最低分为0分、最高分为10分的相关得分。最后计算八个方面的总得分。

-predict

读取待预测政府工作报告，然后根据解读报告属性，选择是否对政府工作报告按照特殊关键词进行切分，然后将报告进行分句，并将所得分句中较长的句子进行二次切分，确保一个句子单元中只包含基础性单元信息，然后对Hanlp字典添加3160个自定义组合词词典，这样对Hanlp原始分词字典又进行扩充，使得模型对金融领域相关用语或语法更加熟悉，使得相关的分词效果更好。

运用Hanlp技术，对文档进行分词，并去除停用词，读取相关情感词词典、程度词词典和否定词列表，然后遍历每一个句子中的词语，读取情感词位置，然后按照情感词作为分割位置，分别计算每个情感词之间的词语得分，这样做的好处是可以隔绝情感词、程度词以及否定词的相互影响效果，使得否定词只能对两个情感动词之间有作用，而不会作用到整个句子的得分。最后将整个句子的分数通过对所有小分句的得分加总得到，进而通过对所有句子得分加总得到整篇文章对于八个类别的相关得分情况，然后对得分进行归一化、标准化，进而得到整篇文章对于政府执政的八个方面的具体得分情况。

创建金融分析产业字典和政府执政能力类别字典

在构建金融分析产业字典时，依据了公司自行设计的80个析鲸行业小类，取其中在政府工作报告涉及当地重点产业分析中经常出现的40个小类，为每一小类添加行业专用名词字典，用于判定句子的行业归属。政府执政类别字典的原理相似，将政府工作报告文本划分为医疗、住房、教育、养老、基建、城市管理等八个方面，对每个描述方面添加专用名词字典，来判定句子的执政方面归属。

通过对7000多篇报告的句子运用Hanlp分词技术进行分词，然后选取其中词性为名词的词语，按照词频进行排列，选取其中代表行业的专业名词以及代表相关政府执政能力八个方面的专有名词，并对其中的相关名词进行筛选，剔除其中具有混淆含义的词语，并根据实际情况，将部分具有混淆含义的词语添加进入停用词列表，防止对文本标注工作产生影响。并根据专业人士的先验认知，添加相关类别词语，从而生成相关金融分析产业字典和政府执政能力类别字典。这样做的好处是可以根据实际报告来获得准确的行业类别词或者执政类别词，并且相对来说效率较高，并且优化调整时，剔除混淆含义词，并补充出现频率较低但很关键的新词，使得后期对句子分类标注更加准确，并且对于行业标注以及执政类别标注也更加全面，能够更加有效的利用报告内的信息，提高信息转化率，减少情报文本浪费率。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种针对政府工作报告的NLP识别方法，其特征在于，包括以下步骤：

S10：创建金融分析产业字典和政府执政能力类别字典。

2.根据权利要求1所述的一种针对政府工作报告的NLP识别方法，其特征在于：所述S1中，对所有的文章进行分句，对每一个句子运用jieba分词技术进行分词，并且根据不断优化调整的停用词字典，去除停用词生成文章列表，列表中的元素为句子所切割出来的词。

3.根据权利要求1所述的一种针对政府工作报告的NLP识别方法，其特征在于：所述S2中，用相关index来表示相关行业编号，并且将所有文章的所有非停用词词语创建词典，并给“空格”以及“未知”预留位置，用词语的index表示相关词语的编号，将所有词典以及对每篇文章的每个句子标签进行保存，为后面的模型预测保存数据。

4.根据权利要求1所述的一种针对政府工作报告的NLP识别方法，其特征在于：在字典创建过程中，可以选择其他词性词语，并且根据不同人的认知情况，在情感程度分数评判也可以有所差异，并且在归一化步骤上，也可以选择多种形式进行处理，如最大最小值归一化、标准归一化等。

5.根据权利要求1所述的一种针对政府工作报告的NLP识别方法，其特征在于：在数据预处理部分，可以选择正则表达式、zhon或者结束符号切分等其他方式进行分句，并且可以选择其他的标点符号作为分句标准。并且可以选择jieba、ansj等进行分词。