CN114386422A

CN114386422A - 基于企业污染舆情抽取的智能辅助决策方法及装置

Info

Publication number: CN114386422A
Application number: CN202210043218.XA
Authority: CN
Inventors: 顾李云; 朱全银; 李翔; 张柯文; 王文川; 胥心心
Original assignee: Huai'an Innovation And Entrepreneurship Technology Service Center; Huaiyin Institute of Technology
Current assignee: Huai'an Innovation And Entrepreneurship Technology Service Center; Huaiyin Institute of Technology
Priority date: 2022-01-14
Filing date: 2022-01-14
Publication date: 2022-04-22
Anticipated expiration: 2042-01-14
Also published as: CN114386422B

Abstract

本发明公开了一种基于企业污染舆情抽取的智能辅助决策方法及装置，首先，面向易污染型企业集散地，针对多媒体实时采集舆情信息，提出基于污染关键词的分布式爬虫；接着，对采集的舆情信息使用BERT‑BiLSTM‑CRF模型抽取主题词信息，获取存在污染信息的关键词；然后，通过抽取生态环境检测标准文本数据集分析对应污染情况所采取的措施；最后，根据企业污染情况提出预警并推送决策建议。本发明将自然语言处理和数据挖掘方法应用于企业污染舆情分析，通过基于污染关键词的分布式爬虫提高对多源异构网页解析的效率，使用信息抽取方法对舆情信息进行识别，并对污染信息做出决策，提高决策者对污染的判定和治理效率。

Description

基于企业污染舆情抽取的智能辅助决策方法及装置

技术领域

本发明涉及自然语言处理和数据挖掘技术领域，具体涉及一种基于企业污染舆情抽取的智能辅助决策方法及装置。

背景技术

特定企业污染的网页信息挖掘往往面临更困难的局面，需要对企业污染关键字主题信息进行标注用以信息描述，满足数据协同交互的需求，从而增强异构资源之间的互操作性，通过对比生态环境检测标准文本对企业污染现象辅助决策处理。将自然语言处理和数据挖掘等方法应用于辅助决策具有很好的研究价值。

汉语言处理包HanlP(Han Language Processing)是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用。HanlP提供自然语言处理全功能API，及预料库管理，预料标注工具，在线模型训练，GPU资源调用等网络服务。支持多人异地异时协同标注,提供自然语言处理全生命周期服务。本发明将HanlP命名实体识别技术应用与网页信息识别以定位非结构化网页关键节点。

命名实体识别是自然语言处理中的一项很基础的任务，是指从文本中识别出特定命名指向的词，比如人名、地名和组织机构名等。目前最常用，最成功的建模方法是将这一问题建模成序列标注问题。即对于输入序列，给出对应标签序列。本文利用训练好的BERT-BiLSTM-CRF训练模型来抽取企业污染舆情信息并进行标注，以获取污染主题关键性息。

现有的企业污染舆情抽取辅助决策任务还存在以下问题：1、多源数据的结构性差异在数据的爬取、存储以及处理过程中带来了极大的挑战；2、数据标准的多样化以及信息内容重复等问题导致面对多源异构数据分析困难；3、根据现有企业污染解决方案和国家政策分析对企业污染情况进行决策极大的依赖于人工经验，利用大数据分析抽取相关信息可以应用于辅助决策任务。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于企业污染舆情抽取的智能辅助决策方法及装置，Hanlp命名实体识别模型识别网页中含污染信息关键节点，以解决多源异构网页文本无法批量识别的问题，将爬取的文本通过数据清洗及知识抽取技术抽取企业污染关键信息，并抽取采集生态环境检测标准文本数据集进行相似性分析，智能辅助相关单位对企业污染情况进行决策。

技术方案：本发明提供了一种基于企业污染舆情抽取的智能辅助决策方法，包括如下步骤：

步骤1：构建Scrapy分布式爬虫，使用Hanlp命名实体识别技术识别易污染型企业名称相关的网络文本，并定位网页含有污染相关词汇，解析该网页文本，获取网页舆情信息D1；

步骤2：对获取的网页舆情信息D1进行去重、格式内容处理、逻辑错误处理，得到清洗后的网页舆情信息D2；

步骤3：使用BERT-BiLSTM-CRF模型对网页舆情信息D2进行结构化信息抽取，获取污染型关键实体K1，得到标注后的企业污染舆情主题文本T1；

步骤4：从国家生态环境部生态环境标准中采集生态环境检测标准文本数据集D3，分别为采集水环境保护标准、大气环境保护标准、环境噪声与震动标准和固体废物与化学品环境污染控制标准，使用BERT-BiLSTM-CRF模型抽取标准污染词实体K2，通过余弦距离计算K1和K2文本相似度，得到企业污染主题词相似性矩阵E；

步骤5：接入智能辅助决策模型M，开放智能辅助决策接口API，根据用户输入的企业污染舆情信息，提取污染主题词信息K，并通过相似性矩阵E查找相似性污染信息，基于相似性污染情况提出污染预警以及推送决策建议。

进一步地，所述步骤1中具体操作为：

步骤11：构建Scrapy分布式爬虫；

步骤12：输入待爬取舆情集散地多媒体网页列表页URL列表L＝{l₁，l₂，...，l_r}，其中，l₁指URL列表中第1个网页，l₂指URL列表中第2个网页，l_r指URL列表中第r个网页，r指URL列表中网页总数；

步骤13：循环遍历列表L，判断L是否为空，如果为空转至步骤18，否则转至步骤14；

步骤14：解析多媒体数据列表页l_r，使用Hanlp命名实体识别方法识别易污染型企业名称相关的网络文本，并标记为N；

步骤15：抽取标记为N的文本对应XPATH标签，并解析该标签下herf属性的超链接值X；

步骤16：解析X详情页，爬取企业污染舆情网络文本d；

步骤17：返回步骤13；

步骤18：退出循环，得到网页舆情信息D1＝{d₁，d₂，...，d_i}。

进一步地，所述步骤2中得到清洗后的网页舆情信息D2的具体步骤为：

步骤21：将所述网页舆情信息D1通过相同的关键信息进行匹配合并去重；

步骤22：对于相同舆情信息不一致字段，根据时间顺序设置权威级别，优先选用最新的数据；

步骤23：以半自动校验半人工方式来找出内容与该字段应有内容不符的问题，去除不需要的字符；

步骤24：通过K-means聚类可视化检测离群点，对非需求数据进行删除，得到清洗后的网页舆情信息D2。

进一步地，所述步骤3中获取污染型关键实体K1的具体操作为：

步骤301：将清洗后的网页舆情信息D2输入BERT-BiLSTM-CRF序列标注模型中；

步骤302：定义循环变量i1，赋初始值为1，遍历网页舆情信息D2；

步骤303：如果i1≤N，则跳转到步骤304，否则跳转到步骤310；

步骤304：基于字符级别对文本d_i1进行文本切割，其中d_i1表示网页舆情信息D2中第i1条文本；

步骤305：将字符化文本d_i1通过BERT语言模型W映射编码，得到字符w(i1)组成的文本映射到文本矩阵s(i1)＝{s(1),s(2),…,s(i)}；

步骤306：将文本矩阵s(i)输入训练好的BiLSTM-CRF序列标注模型中，通过BiLSTM层获取文本矩阵的特征并输出每个字符的标签分数Y；

步骤307：将BiLSTM层预测的所有分数输入CRF层，在CRF层中选择预测得分最高的标签序列作为最佳答案输出；

步骤308：根据输出的标签对企业污染舆情文本进行标注，标记污染型关键实体K1，得到标记后的企业污染舆情主题文本t_i1；

步骤309：i1＝i1+1，转至步骤303；

步骤310：得到标注后的企业污染舆情主题文本T1＝{t₁，t₂，...，t_N}。

进一步地，所述步骤4中获取企业污染主题词相似性矩阵E具体包括以下步骤：

步骤401：按步骤1所述方法采集生态环境检测标准文本数据集D3，分别为采集水环境保护标准、大气环境保护标准、环境噪声与震动标准和固体废物与化学品环境污染控制标准；

步骤402：按步骤2所述方法对数据集D3进行清洗；

步骤403：按步骤3所述方法标记数据集D3，获取标准污染词实体K2，并得到标注后的生态环境检测标准文本数据集主题文本T2＝{t₁，t₂，...，t_N2}；

步骤404：定义循环变量i2，赋初始值为1，遍历企业污染舆情主题文本T1；

步骤405：如果i2≤N则跳转到步骤406，否则跳转到步骤413；

步骤406：获取标注为K1的污染词关键性实体，通过BERT语言模型W映射编码，得到字符向量W(K1)；

步骤407：定义循环变量i3，赋初始值为1，遍历生态环境检测标准文本数据集主题文本T2；

步骤408：如果i3≤N2则跳转到步骤409，否则跳转到步骤412；

步骤409：获取标注为K2的标准污染词实体，通过BERT语言模型W映射编码，得到字符向量W(K2)；

步骤410：计算字符向量W(K1)和W(K2)的余弦距离；

步骤411：i3＝i3+1，转至步骤407；

步骤412：i2＝i2+1，转至步骤405；

步骤413：得到企业污染主题词相似性矩阵E。

进一步地，所述步骤5具体包括以下步骤：

步骤501：创建线程池ThreadPool；

步骤502：判断线程池ThreadPool所有任务是否执行完毕；

步骤503：创建工作线程ChildThread；

步骤504：面向企业污染舆情集散地自动采集企业污染舆情信息；

步骤505：按照步骤2方法对企业污染舆情信息进行预处理；

步骤506：提取污染主题词信息K，并通过相似性矩阵E查找相似性污染信息；

步骤507：基于相似性污染情况提出污染预警以及推送决策建议；

步骤508：返还WEB应用程序，企业污染辅助决策任务结束处理；

步骤509：结束ChildThread工作线程；

步骤510：关闭ThreadPool线程池；

步骤511：WEB应用系统通过ECharts对辅助决策信息进行可视化返回用户。

本发明还公开一种基于企业污染舆情抽取的智能辅助决策装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现上述基于企业污染舆情抽取的智能辅助决策方法。

有益效果：

1、本发明方法基于多媒体舆情信息，使用Hanlp命名实体识别技术识别异构网页中的关键信息，自动定位网页中含有污染相关的词汇，解析网页文本，解决多模态异构网页文本无法批量识别的问题，提高了多源异构数据的爬取效率。

2、本发明使用BERT-BiLSTM-CRF命名实体识别工具对企业污染关键词进行标注用以信息描述，首先通过BERT模型预训练生成基于上下文的信息词向量，能够很好的抽取上下文的语义信息，进一步提高实体识别的准确率，使用BiLSTM模型能够解决训练过程中梯度爆炸或梯度消失问题，并且从上下文前后两个方向同时捕捉序列信息，可以更好的抽取长距离文本实体的特征，最后通过CRF模块解码预测最佳序列抽取出实体，满足数据协同交互的需求，从而增强异构资源之间的互操作性。

3、本发明采集生态环境检测标准文本数据集，包括水环境保护标准、大气环境保护标准、环境噪声与震动标准和固体废物与化学品环境污染控制标准，通过抽取出生态环境标准的实体关键词特征与抽取出的企业污染舆情信息主题关键词特征进行相似度分析，为处理企业污染情况提出预警或提供解决建议用以辅助决策。

附图说明

图1为本发明基于企业污染舆情抽取的智能辅助决策方法的流程图；

图2为本发明网页舆情信息数据集和生态环境检测标准文本数据集爬取的流程图；

图3为本发明网页舆情信息数据集和生态环境检测标准文本数据集清洗的流程图；

图4为本发明污染型关键实体主题词抽取和标准污染词实体抽取的具体流程图；

图5为本发明污染型关键实体与生态环境检测标准污染词实体进行相似度计算的流程图；

图6为本发明智能辅助系统调用流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明提供一种基于企业污染舆情抽取的智能辅助决策方法及装置，首先，面向易污染型企业集散地，针对多媒体实时采集舆情信息，提出基于污染关键词的分布式爬虫；接着，对采集的舆情信息使用BERT-BiLSTM-CRF模型抽取主题词信息，获取存在污染信息的关键词；然后，通过生态环境检测标准文本数据集分析对应污染情况所采取的措施；最后，根据企业污染情况提出预警并推送决策建议。具体包括以下步骤：

步骤1：构建Scrapy分布式爬虫，使用Hanlp命名实体识别技术识别易污染型企业名称相关的网络文本，并定位网页含有污染相关词汇，并解析该网页文本，获取网页舆情信息D1，参见附图2，具体方法为：

步骤11：构建Scrapy分布式爬虫；

步骤12：输入待爬取舆情集散地多媒体网页列表页URL列表L＝{l₁，l₂，...，l_r}；

步骤16：解析X详情页，爬取企业污染舆情网络文本d；

步骤17：返回步骤13；

步骤2：对获取的网页舆情信息D1进行去重、格式内容处理、逻辑错误处理，得到清洗后的网页舆情信息D2。如图3所示，具体方法为：

将步骤1中的网页舆情信息D1通过相同的关键信息进行匹配合并去重；对于相同舆情信息不一致字段，根据时间顺序设置权威级别，优先选用最新的数据；以半自动校验半人工方式来找出内容与该字段应有内容不符的问题，去除不需要的字符；通过K-means聚类可视化检测离群点，对非需求数据进行删除，得到清洗后的网页舆情信息D2。

步骤3：使用BERT-BiLSTM-CRF模型对网页舆情信息D2进行结构化信息抽取，获取污染型关键实体K1。如图4所示，具体方法为：

步骤303：如果i1≤N则跳转到步骤304，否则跳转到步骤310；

步骤304：基于字符级对文本d_i1进行文本切割；

步骤308：根据输出的标签对企业污染舆情文本进行标注，标记污染词关键性实体K1，得到标记后的企业污染舆情主题文本t_i1；

步骤309：i1＝i1+1，转至步骤303；

步骤4：采集生态环境检测标准文本数据集D3，使用BERT-BiLSTM-CRF模型抽取标准污染词实体K2，通过余弦距离计算K1和K2文本相似度，得到企业污染主题词相似性矩阵E，生成智能辅助决策模型M。参见附图5，具体方法为：

步骤401：按步骤1所述方法采集官方网站污染案例以及政策解读信息数据集D3；

步骤402：按步骤2所述方法对数据集D3进行清洗；

步骤403：按步骤3所述方法标记D3数据集标记污染词关键性实体K2，并得到标注后的生态环境检测标准文本数据集主题文本T2＝{t₁，t₂，...，t_N2}；

步骤404：定义循环变量i2，赋初始值为1，遍历步骤2获得的企业污染舆情主题文本T1；

步骤405：如果i2≤N则跳转到步骤4.6，否则跳转到步骤4.13；

步骤408：如果i3≤N2则跳转到步骤4.9，否则跳转到步骤4.12；

步骤410：计算字符向量W(K1)和W(K2)的余弦距离；

步骤411：i3＝i3+1，转至步骤407；

步骤412：i2＝i2+1，转至步骤405；

步骤413：得到企业污染主题词相似性矩阵E。

步骤5：根据用户输入的企业污染舆情信息，提取污染主题词信息K，并通过相似性矩阵E查找相似性污染信息，基于相似性污染情况提出污染预警以及推送决策建议。具体方法为：

步骤501：创建线程池ThreadPool；

步骤502：判断线程池ThreadPool所有任务是否执行完毕；

步骤503：创建工作线程ChildThread；

步骤505：按照步骤2方法对企业污染舆情信息进行预处理；

步骤509：结束ChildThread工作线程；

步骤510：关闭Thread Pool线程池；

本发明还公开一种基于企业污染舆情抽取的智能辅助决策装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，计算机程序被加载至处理器时实现上述的基于企业污染舆情抽取的智能辅助决策方法。

本发明提出的基于命名实体识别嵌入爬虫系统并使用数据抽取技术挖掘多媒体企业污染舆情信息，其中命名实体识别应用与网页信息识别以定位非结构化网页关键节点，然后，利用训练好的BERT-BiLSTM-CRF训练模型来抽取企业污染信息并进行标注，以获取企业污染主题信息，从而满足数据协同交互的需求，从而增强异构资源之间的互操作性。针对现有处理企业污染决策依赖人工干预效率低的问题，本发明提供的基于企业污染舆情抽取的智能辅助决策方法，Hanlp命名实体识别模型识别易污染型企业名称相关的网络文本，通过实时爬取多媒体企业舆情信息，抽取污染主题关键词，并与生态环境检测标准文本数据集进行相似性分析提出企业污染解决建议。本发明可与计算机系统结合，从而更好地多媒体挖掘企业污染舆情信息，满足相关工作者对于企业污染辅助决策的需求。

本发明提出的一种基于企业污染舆情抽取的智能辅助决策方法，该方法表明可以分析企业污染舆论状态，凭借生态环境检测标准文本数据集提出建议，提高处理企业污染决策的效率，同时对数据进行处理以便研究们进行数据分析。本发明普遍适用于各个领域基于舆情抽取的智能辅助决策任务。

上述实施方式只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于企业污染舆情抽取的智能辅助决策方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于企业污染舆情抽取的智能辅助决策方法，其特征在于，所述步骤1中具体操作为：

步骤11：构建Scrapy分布式爬虫；

步骤16：解析X详情页，爬取企业污染舆情网络文本d；

步骤17：返回步骤13；

3.根据权利要求1所述的基于企业污染舆情抽取的智能辅助决策方法，其特征在于，所述步骤2中得到清洗后的网页舆情信息D2的具体步骤为：

4.根据权利要求1所述的基于企业污染舆情抽取的智能辅助决策方法，其特征在于，所述步骤3中获取污染型关键实体K1的具体操作为：

步骤303：如果i1≤N，则跳转到步骤304，否则跳转到步骤310；

步骤304：基于字符级别对文本d_i1进行文本切割，其中，d_i1表示网页舆情信息D2中第i1条文本；

步骤309：i1＝i1+1，转至步骤303；

5.根据权利要求1至4任一所述的基于企业污染舆情抽取的智能辅助决策方法，其特征在于，所述步骤4中获取企业污染主题词相似性矩阵E具体包括以下步骤：

步骤402：按步骤2所述方法对数据集D3进行清洗；

步骤405：如果i2≤N则跳转到步骤406，否则跳转到步骤413；

步骤408：如果i3≤N2则跳转到步骤409，否则跳转到步骤412；

步骤410：计算字符向量W(K1)和W(K2)的余弦距离；

步骤411：i3＝i3+1，转至步骤407；

步骤412：i2＝i2+1，转至步骤405；

步骤413：得到企业污染主题词相似性矩阵E。

6.根据权利要求5所述的基于企业污染舆情抽取的智能辅助决策方法，其特征在于，所述步骤5具体包括以下步骤：

步骤501：创建线程池Thread Pool；

步骤502：判断线程池Thread Pool所有任务是否执行完毕；

步骤503：创建工作线程Child Thread；

步骤505：按照步骤2方法对企业污染舆情信息进行预处理；

步骤509：结束Child Thread工作线程；

步骤510：关闭Thread Pool线程池；

7.一种基于企业污染舆情抽取的智能辅助决策装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-6任一项所述的基于企业污染舆情抽取的智能辅助决策方法。