CN114386422A - 基于企业污染舆情抽取的智能辅助决策方法及装置 - Google Patents

基于企业污染舆情抽取的智能辅助决策方法及装置 Download PDF

Info

Publication number
CN114386422A
CN114386422A CN202210043218.XA CN202210043218A CN114386422A CN 114386422 A CN114386422 A CN 114386422A CN 202210043218 A CN202210043218 A CN 202210043218A CN 114386422 A CN114386422 A CN 114386422A
Authority
CN
China
Prior art keywords
pollution
public opinion
enterprise
information
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210043218.XA
Other languages
English (en)
Other versions
CN114386422B (zh
Inventor
顾李云
朱全银
李翔
张柯文
王文川
胥心心
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huai'an Innovation And Entrepreneurship Technology Service Center
Huaiyin Institute of Technology
Original Assignee
Huai'an Innovation And Entrepreneurship Technology Service Center
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huai'an Innovation And Entrepreneurship Technology Service Center, Huaiyin Institute of Technology filed Critical Huai'an Innovation And Entrepreneurship Technology Service Center
Priority to CN202210043218.XA priority Critical patent/CN114386422B/zh
Publication of CN114386422A publication Critical patent/CN114386422A/zh
Application granted granted Critical
Publication of CN114386422B publication Critical patent/CN114386422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于企业污染舆情抽取的智能辅助决策方法及装置,首先,面向易污染型企业集散地,针对多媒体实时采集舆情信息,提出基于污染关键词的分布式爬虫;接着,对采集的舆情信息使用BERT‑BiLSTM‑CRF模型抽取主题词信息,获取存在污染信息的关键词;然后,通过抽取生态环境检测标准文本数据集分析对应污染情况所采取的措施;最后,根据企业污染情况提出预警并推送决策建议。本发明将自然语言处理和数据挖掘方法应用于企业污染舆情分析,通过基于污染关键词的分布式爬虫提高对多源异构网页解析的效率,使用信息抽取方法对舆情信息进行识别,并对污染信息做出决策,提高决策者对污染的判定和治理效率。

Description

基于企业污染舆情抽取的智能辅助决策方法及装置
技术领域
本发明涉及自然语言处理和数据挖掘技术领域,具体涉及一种基于企业污染舆情抽取的智能辅助决策方法及装置。
背景技术
特定企业污染的网页信息挖掘往往面临更困难的局面,需要对企业污染关键字主题信息进行标注用以信息描述,满足数据协同交互的需求,从而增强异构资源之间的互操作性,通过对比生态环境检测标准文本对企业污染现象辅助决策处理。将自然语言处理和数据挖掘等方法应用于辅助决策具有很好的研究价值。
汉语言处理包HanlP(Han Language Processing)是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanlP提供自然语言处理全功能API,及预料库管理,预料标注工具,在线模型训练,GPU资源调用等网络服务。支持多人异地异时协同标注,提供自然语言处理全生命周期服务。本发明将HanlP命名实体识别技术应用与网页信息识别以定位非结构化网页关键节点。
命名实体识别是自然语言处理中的一项很基础的任务,是指从文本中识别出特定命名指向的词,比如人名、地名和组织机构名等。目前最常用,最成功的建模方法是将这一问题建模成序列标注问题。即对于输入序列,给出对应标签序列。本文利用训练好的BERT-BiLSTM-CRF训练模型来抽取企业污染舆情信息并进行标注,以获取污染主题关键性息。
现有的企业污染舆情抽取辅助决策任务还存在以下问题:1、多源数据的结构性差异在数据的爬取、存储以及处理过程中带来了极大的挑战;2、数据标准的多样化以及信息内容重复等问题导致面对多源异构数据分析困难;3、根据现有企业污染解决方案和国家政策分析对企业污染情况进行决策极大的依赖于人工经验,利用大数据分析抽取相关信息可以应用于辅助决策任务。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于企业污染舆情抽取的智能辅助决策方法及装置,Hanlp命名实体识别模型识别网页中含污染信息关键节点,以解决多源异构网页文本无法批量识别的问题,将爬取的文本通过数据清洗及知识抽取技术抽取企业污染关键信息,并抽取采集生态环境检测标准文本数据集进行相似性分析,智能辅助相关单位对企业污染情况进行决策。
技术方案:本发明提供了一种基于企业污染舆情抽取的智能辅助决策方法,包括如下步骤:
步骤1:构建Scrapy分布式爬虫,使用Hanlp命名实体识别技术识别易污染型企业名称相关的网络文本,并定位网页含有污染相关词汇,解析该网页文本,获取网页舆情信息D1;
步骤2:对获取的网页舆情信息D1进行去重、格式内容处理、逻辑错误处理,得到清洗后的网页舆情信息D2;
步骤3:使用BERT-BiLSTM-CRF模型对网页舆情信息D2进行结构化信息抽取,获取污染型关键实体K1,得到标注后的企业污染舆情主题文本T1;
步骤4:从国家生态环境部生态环境标准中采集生态环境检测标准文本数据集D3,分别为采集水环境保护标准、大气环境保护标准、环境噪声与震动标准和固体废物与化学品环境污染控制标准,使用BERT-BiLSTM-CRF模型抽取标准污染词实体K2,通过余弦距离计算K1和K2文本相似度,得到企业污染主题词相似性矩阵E;
步骤5:接入智能辅助决策模型M,开放智能辅助决策接口API,根据用户输入的企业污染舆情信息,提取污染主题词信息K,并通过相似性矩阵E查找相似性污染信息,基于相似性污染情况提出污染预警以及推送决策建议。
进一步地,所述步骤1中具体操作为:
步骤11:构建Scrapy分布式爬虫;
步骤12:输入待爬取舆情集散地多媒体网页列表页URL列表L={l1,l2,...,lr},其中,l1指URL列表中第1个网页,l2指URL列表中第2个网页,lr指URL列表中第r个网页,r指URL列表中网页总数;
步骤13:循环遍历列表L,判断L是否为空,如果为空转至步骤18,否则转至步骤14;
步骤14:解析多媒体数据列表页lr,使用Hanlp命名实体识别方法识别易污染型企业名称相关的网络文本,并标记为N;
步骤15:抽取标记为N的文本对应XPATH标签,并解析该标签下herf属性的超链接值X;
步骤16:解析X详情页,爬取企业污染舆情网络文本d;
步骤17:返回步骤13;
步骤18:退出循环,得到网页舆情信息D1={d1,d2,...,di}。
进一步地,所述步骤2中得到清洗后的网页舆情信息D2的具体步骤为:
步骤21:将所述网页舆情信息D1通过相同的关键信息进行匹配合并去重;
步骤22:对于相同舆情信息不一致字段,根据时间顺序设置权威级别,优先选用最新的数据;
步骤23:以半自动校验半人工方式来找出内容与该字段应有内容不符的问题,去除不需要的字符;
步骤24:通过K-means聚类可视化检测离群点,对非需求数据进行删除,得到清洗后的网页舆情信息D2。
进一步地,所述步骤3中获取污染型关键实体K1的具体操作为:
步骤301:将清洗后的网页舆情信息D2输入BERT-BiLSTM-CRF序列标注模型中;
步骤302:定义循环变量i1,赋初始值为1,遍历网页舆情信息D2;
步骤303:如果i1≤N,则跳转到步骤304,否则跳转到步骤310;
步骤304:基于字符级别对文本di1进行文本切割,其中di1表示网页舆情信息D2中第i1条文本;
步骤305:将字符化文本di1通过BERT语言模型W映射编码,得到字符w(i1)组成的文本映射到文本矩阵s(i1)={s(1),s(2),…,s(i)};
步骤306:将文本矩阵s(i)输入训练好的BiLSTM-CRF序列标注模型中,通过BiLSTM层获取文本矩阵的特征并输出每个字符的标签分数Y;
步骤307:将BiLSTM层预测的所有分数输入CRF层,在CRF层中选择预测得分最高的标签序列作为最佳答案输出;
步骤308:根据输出的标签对企业污染舆情文本进行标注,标记污染型关键实体K1,得到标记后的企业污染舆情主题文本ti1
步骤309:i1=i1+1,转至步骤303;
步骤310:得到标注后的企业污染舆情主题文本T1={t1,t2,...,tN}。
进一步地,所述步骤4中获取企业污染主题词相似性矩阵E具体包括以下步骤:
步骤401:按步骤1所述方法采集生态环境检测标准文本数据集D3,分别为采集水环境保护标准、大气环境保护标准、环境噪声与震动标准和固体废物与化学品环境污染控制标准;
步骤402:按步骤2所述方法对数据集D3进行清洗;
步骤403:按步骤3所述方法标记数据集D3,获取标准污染词实体K2,并得到标注后的生态环境检测标准文本数据集主题文本T2={t1,t2,...,tN2};
步骤404:定义循环变量i2,赋初始值为1,遍历企业污染舆情主题文本T1;
步骤405:如果i2≤N则跳转到步骤406,否则跳转到步骤413;
步骤406:获取标注为K1的污染词关键性实体,通过BERT语言模型W映射编码,得到字符向量W(K1);
步骤407:定义循环变量i3,赋初始值为1,遍历生态环境检测标准文本数据集主题文本T2;
步骤408:如果i3≤N2则跳转到步骤409,否则跳转到步骤412;
步骤409:获取标注为K2的标准污染词实体,通过BERT语言模型W映射编码,得到字符向量W(K2);
步骤410:计算字符向量W(K1)和W(K2)的余弦距离;
步骤411:i3=i3+1,转至步骤407;
步骤412:i2=i2+1,转至步骤405;
步骤413:得到企业污染主题词相似性矩阵E。
进一步地,所述步骤5具体包括以下步骤:
步骤501:创建线程池ThreadPool;
步骤502:判断线程池ThreadPool所有任务是否执行完毕;
步骤503:创建工作线程ChildThread;
步骤504:面向企业污染舆情集散地自动采集企业污染舆情信息;
步骤505:按照步骤2方法对企业污染舆情信息进行预处理;
步骤506:提取污染主题词信息K,并通过相似性矩阵E查找相似性污染信息;
步骤507:基于相似性污染情况提出污染预警以及推送决策建议;
步骤508:返还WEB应用程序,企业污染辅助决策任务结束处理;
步骤509:结束ChildThread工作线程;
步骤510:关闭ThreadPool线程池;
步骤511:WEB应用系统通过ECharts对辅助决策信息进行可视化返回用户。
本发明还公开一种基于企业污染舆情抽取的智能辅助决策装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现上述基于企业污染舆情抽取的智能辅助决策方法。
有益效果:
1、本发明方法基于多媒体舆情信息,使用Hanlp命名实体识别技术识别异构网页中的关键信息,自动定位网页中含有污染相关的词汇,解析网页文本,解决多模态异构网页文本无法批量识别的问题,提高了多源异构数据的爬取效率。
2、本发明使用BERT-BiLSTM-CRF命名实体识别工具对企业污染关键词进行标注用以信息描述,首先通过BERT模型预训练生成基于上下文的信息词向量,能够很好的抽取上下文的语义信息,进一步提高实体识别的准确率,使用BiLSTM模型能够解决训练过程中梯度爆炸或梯度消失问题,并且从上下文前后两个方向同时捕捉序列信息,可以更好的抽取长距离文本实体的特征,最后通过CRF模块解码预测最佳序列抽取出实体,满足数据协同交互的需求,从而增强异构资源之间的互操作性。
3、本发明采集生态环境检测标准文本数据集,包括水环境保护标准、大气环境保护标准、环境噪声与震动标准和固体废物与化学品环境污染控制标准,通过抽取出生态环境标准的实体关键词特征与抽取出的企业污染舆情信息主题关键词特征进行相似度分析,为处理企业污染情况提出预警或提供解决建议用以辅助决策。
附图说明
图1为本发明基于企业污染舆情抽取的智能辅助决策方法的流程图;
图2为本发明网页舆情信息数据集和生态环境检测标准文本数据集爬取的流程图;
图3为本发明网页舆情信息数据集和生态环境检测标准文本数据集清洗的流程图;
图4为本发明污染型关键实体主题词抽取和标准污染词实体抽取的具体流程图;
图5为本发明污染型关键实体与生态环境检测标准污染词实体进行相似度计算的流程图;
图6为本发明智能辅助系统调用流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明提供一种基于企业污染舆情抽取的智能辅助决策方法及装置,首先,面向易污染型企业集散地,针对多媒体实时采集舆情信息,提出基于污染关键词的分布式爬虫;接着,对采集的舆情信息使用BERT-BiLSTM-CRF模型抽取主题词信息,获取存在污染信息的关键词;然后,通过生态环境检测标准文本数据集分析对应污染情况所采取的措施;最后,根据企业污染情况提出预警并推送决策建议。具体包括以下步骤:
步骤1:构建Scrapy分布式爬虫,使用Hanlp命名实体识别技术识别易污染型企业名称相关的网络文本,并定位网页含有污染相关词汇,并解析该网页文本,获取网页舆情信息D1,参见附图2,具体方法为:
步骤11:构建Scrapy分布式爬虫;
步骤12:输入待爬取舆情集散地多媒体网页列表页URL列表L={l1,l2,...,lr};
步骤13:循环遍历列表L,判断L是否为空,如果为空转至步骤18,否则转至步骤14;
步骤14:解析多媒体数据列表页lr,使用Hanlp命名实体识别方法识别易污染型企业名称相关的网络文本,并标记为N;
步骤15:抽取标记为N的文本对应XPATH标签,并解析该标签下herf属性的超链接值X;
步骤16:解析X详情页,爬取企业污染舆情网络文本d;
步骤17:返回步骤13;
步骤18:退出循环,得到网页舆情信息D1={d1,d2,...,di}。
步骤2:对获取的网页舆情信息D1进行去重、格式内容处理、逻辑错误处理,得到清洗后的网页舆情信息D2。如图3所示,具体方法为:
将步骤1中的网页舆情信息D1通过相同的关键信息进行匹配合并去重;对于相同舆情信息不一致字段,根据时间顺序设置权威级别,优先选用最新的数据;以半自动校验半人工方式来找出内容与该字段应有内容不符的问题,去除不需要的字符;通过K-means聚类可视化检测离群点,对非需求数据进行删除,得到清洗后的网页舆情信息D2。
步骤3:使用BERT-BiLSTM-CRF模型对网页舆情信息D2进行结构化信息抽取,获取污染型关键实体K1。如图4所示,具体方法为:
步骤301:将清洗后的网页舆情信息D2输入BERT-BiLSTM-CRF序列标注模型中;
步骤302:定义循环变量i1,赋初始值为1,遍历网页舆情信息D2;
步骤303:如果i1≤N则跳转到步骤304,否则跳转到步骤310;
步骤304:基于字符级对文本di1进行文本切割;
步骤305:将字符化文本di1通过BERT语言模型W映射编码,得到字符w(i1)组成的文本映射到文本矩阵s(i1)={s(1),s(2),…,s(i)};
步骤306:将文本矩阵s(i)输入训练好的BiLSTM-CRF序列标注模型中,通过BiLSTM层获取文本矩阵的特征并输出每个字符的标签分数Y;
步骤307:将BiLSTM层预测的所有分数输入CRF层,在CRF层中选择预测得分最高的标签序列作为最佳答案输出;
步骤308:根据输出的标签对企业污染舆情文本进行标注,标记污染词关键性实体K1,得到标记后的企业污染舆情主题文本ti1
步骤309:i1=i1+1,转至步骤303;
步骤310:得到标注后的企业污染舆情主题文本T1={t1,t2,...,tN}。
步骤4:采集生态环境检测标准文本数据集D3,使用BERT-BiLSTM-CRF模型抽取标准污染词实体K2,通过余弦距离计算K1和K2文本相似度,得到企业污染主题词相似性矩阵E,生成智能辅助决策模型M。参见附图5,具体方法为:
步骤401:按步骤1所述方法采集官方网站污染案例以及政策解读信息数据集D3;
步骤402:按步骤2所述方法对数据集D3进行清洗;
步骤403:按步骤3所述方法标记D3数据集标记污染词关键性实体K2,并得到标注后的生态环境检测标准文本数据集主题文本T2={t1,t2,...,tN2};
步骤404:定义循环变量i2,赋初始值为1,遍历步骤2获得的企业污染舆情主题文本T1;
步骤405:如果i2≤N则跳转到步骤4.6,否则跳转到步骤4.13;
步骤406:获取标注为K1的污染词关键性实体,通过BERT语言模型W映射编码,得到字符向量W(K1);
步骤407:定义循环变量i3,赋初始值为1,遍历生态环境检测标准文本数据集主题文本T2;
步骤408:如果i3≤N2则跳转到步骤4.9,否则跳转到步骤4.12;
步骤409:获取标注为K2的标准污染词实体,通过BERT语言模型W映射编码,得到字符向量W(K2);
步骤410:计算字符向量W(K1)和W(K2)的余弦距离;
步骤411:i3=i3+1,转至步骤407;
步骤412:i2=i2+1,转至步骤405;
步骤413:得到企业污染主题词相似性矩阵E。
步骤5:根据用户输入的企业污染舆情信息,提取污染主题词信息K,并通过相似性矩阵E查找相似性污染信息,基于相似性污染情况提出污染预警以及推送决策建议。具体方法为:
步骤501:创建线程池ThreadPool;
步骤502:判断线程池ThreadPool所有任务是否执行完毕;
步骤503:创建工作线程ChildThread;
步骤504:面向企业污染舆情集散地自动采集企业污染舆情信息;
步骤505:按照步骤2方法对企业污染舆情信息进行预处理;
步骤506:提取污染主题词信息K,并通过相似性矩阵E查找相似性污染信息;
步骤507:基于相似性污染情况提出污染预警以及推送决策建议;
步骤508:返还WEB应用程序,企业污染辅助决策任务结束处理;
步骤509:结束ChildThread工作线程;
步骤510:关闭Thread Pool线程池;
步骤511:WEB应用系统通过ECharts对辅助决策信息进行可视化返回用户。
本发明还公开一种基于企业污染舆情抽取的智能辅助决策装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被加载至处理器时实现上述的基于企业污染舆情抽取的智能辅助决策方法。
本发明提出的基于命名实体识别嵌入爬虫系统并使用数据抽取技术挖掘多媒体企业污染舆情信息,其中命名实体识别应用与网页信息识别以定位非结构化网页关键节点,然后,利用训练好的BERT-BiLSTM-CRF训练模型来抽取企业污染信息并进行标注,以获取企业污染主题信息,从而满足数据协同交互的需求,从而增强异构资源之间的互操作性。针对现有处理企业污染决策依赖人工干预效率低的问题,本发明提供的基于企业污染舆情抽取的智能辅助决策方法,Hanlp命名实体识别模型识别易污染型企业名称相关的网络文本,通过实时爬取多媒体企业舆情信息,抽取污染主题关键词,并与生态环境检测标准文本数据集进行相似性分析提出企业污染解决建议。本发明可与计算机系统结合,从而更好地多媒体挖掘企业污染舆情信息,满足相关工作者对于企业污染辅助决策的需求。
本发明提出的一种基于企业污染舆情抽取的智能辅助决策方法,该方法表明可以分析企业污染舆论状态,凭借生态环境检测标准文本数据集提出建议,提高处理企业污染决策的效率,同时对数据进行处理以便研究们进行数据分析。本发明普遍适用于各个领域基于舆情抽取的智能辅助决策任务。
上述实施方式只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种基于企业污染舆情抽取的智能辅助决策方法,其特征在于,包括如下步骤:
步骤1:构建Scrapy分布式爬虫,使用Hanlp命名实体识别技术识别易污染型企业名称相关的网络文本,并定位网页含有污染相关词汇,解析该网页文本,获取网页舆情信息D1;
步骤2:对获取的网页舆情信息D1进行去重、格式内容处理、逻辑错误处理,得到清洗后的网页舆情信息D2;
步骤3:使用BERT-BiLSTM-CRF模型对网页舆情信息D2进行结构化信息抽取,获取污染型关键实体K1,得到标注后的企业污染舆情主题文本T1;
步骤4:从国家生态环境部生态环境标准中采集生态环境检测标准文本数据集D3,分别为采集水环境保护标准、大气环境保护标准、环境噪声与震动标准和固体废物与化学品环境污染控制标准,使用BERT-BiLSTM-CRF模型抽取标准污染词实体K2,通过余弦距离计算K1和K2文本相似度,得到企业污染主题词相似性矩阵E;
步骤5:接入智能辅助决策模型M,开放智能辅助决策接口API,根据用户输入的企业污染舆情信息,提取污染主题词信息K,并通过相似性矩阵E查找相似性污染信息,基于相似性污染情况提出污染预警以及推送决策建议。
2.根据权利要求1所述的基于企业污染舆情抽取的智能辅助决策方法,其特征在于,所述步骤1中具体操作为:
步骤11:构建Scrapy分布式爬虫;
步骤12:输入待爬取舆情集散地多媒体网页列表页URL列表L={l1,l2,...,lr},其中,l1指URL列表中第1个网页,l2指URL列表中第2个网页,lr指URL列表中第r个网页,r指URL列表中网页总数;
步骤13:循环遍历列表L,判断L是否为空,如果为空转至步骤18,否则转至步骤14;
步骤14:解析多媒体数据列表页lr,使用Hanlp命名实体识别方法识别易污染型企业名称相关的网络文本,并标记为N;
步骤15:抽取标记为N的文本对应XPATH标签,并解析该标签下herf属性的超链接值X;
步骤16:解析X详情页,爬取企业污染舆情网络文本d;
步骤17:返回步骤13;
步骤18:退出循环,得到网页舆情信息D1={d1,d2,...,di}。
3.根据权利要求1所述的基于企业污染舆情抽取的智能辅助决策方法,其特征在于,所述步骤2中得到清洗后的网页舆情信息D2的具体步骤为:
步骤21:将所述网页舆情信息D1通过相同的关键信息进行匹配合并去重;
步骤22:对于相同舆情信息不一致字段,根据时间顺序设置权威级别,优先选用最新的数据;
步骤23:以半自动校验半人工方式来找出内容与该字段应有内容不符的问题,去除不需要的字符;
步骤24:通过K-means聚类可视化检测离群点,对非需求数据进行删除,得到清洗后的网页舆情信息D2。
4.根据权利要求1所述的基于企业污染舆情抽取的智能辅助决策方法,其特征在于,所述步骤3中获取污染型关键实体K1的具体操作为:
步骤301:将清洗后的网页舆情信息D2输入BERT-BiLSTM-CRF序列标注模型中;
步骤302:定义循环变量i1,赋初始值为1,遍历网页舆情信息D2;
步骤303:如果i1≤N,则跳转到步骤304,否则跳转到步骤310;
步骤304:基于字符级别对文本di1进行文本切割,其中,di1表示网页舆情信息D2中第i1条文本;
步骤305:将字符化文本di1通过BERT语言模型W映射编码,得到字符w(i1)组成的文本映射到文本矩阵s(i1)={s(1),s(2),…,s(i)};
步骤306:将文本矩阵s(i)输入训练好的BiLSTM-CRF序列标注模型中,通过BiLSTM层获取文本矩阵的特征并输出每个字符的标签分数Y;
步骤307:将BiLSTM层预测的所有分数输入CRF层,在CRF层中选择预测得分最高的标签序列作为最佳答案输出;
步骤308:根据输出的标签对企业污染舆情文本进行标注,标记污染型关键实体K1,得到标记后的企业污染舆情主题文本ti1
步骤309:i1=i1+1,转至步骤303;
步骤310:得到标注后的企业污染舆情主题文本T1={t1,t2,...,tN}。
5.根据权利要求1至4任一所述的基于企业污染舆情抽取的智能辅助决策方法,其特征在于,所述步骤4中获取企业污染主题词相似性矩阵E具体包括以下步骤:
步骤401:按步骤1所述方法采集生态环境检测标准文本数据集D3,分别为采集水环境保护标准、大气环境保护标准、环境噪声与震动标准和固体废物与化学品环境污染控制标准;
步骤402:按步骤2所述方法对数据集D3进行清洗;
步骤403:按步骤3所述方法标记数据集D3,获取标准污染词实体K2,并得到标注后的生态环境检测标准文本数据集主题文本T2={t1,t2,...,tN2};
步骤404:定义循环变量i2,赋初始值为1,遍历企业污染舆情主题文本T1;
步骤405:如果i2≤N则跳转到步骤406,否则跳转到步骤413;
步骤406:获取标注为K1的污染词关键性实体,通过BERT语言模型W映射编码,得到字符向量W(K1);
步骤407:定义循环变量i3,赋初始值为1,遍历生态环境检测标准文本数据集主题文本T2;
步骤408:如果i3≤N2则跳转到步骤409,否则跳转到步骤412;
步骤409:获取标注为K2的标准污染词实体,通过BERT语言模型W映射编码,得到字符向量W(K2);
步骤410:计算字符向量W(K1)和W(K2)的余弦距离;
步骤411:i3=i3+1,转至步骤407;
步骤412:i2=i2+1,转至步骤405;
步骤413:得到企业污染主题词相似性矩阵E。
6.根据权利要求5所述的基于企业污染舆情抽取的智能辅助决策方法,其特征在于,所述步骤5具体包括以下步骤:
步骤501:创建线程池Thread Pool;
步骤502:判断线程池Thread Pool所有任务是否执行完毕;
步骤503:创建工作线程Child Thread;
步骤504:面向企业污染舆情集散地自动采集企业污染舆情信息;
步骤505:按照步骤2方法对企业污染舆情信息进行预处理;
步骤506:提取污染主题词信息K,并通过相似性矩阵E查找相似性污染信息;
步骤507:基于相似性污染情况提出污染预警以及推送决策建议;
步骤508:返还WEB应用程序,企业污染辅助决策任务结束处理;
步骤509:结束Child Thread工作线程;
步骤510:关闭Thread Pool线程池;
步骤511:WEB应用系统通过ECharts对辅助决策信息进行可视化返回用户。
7.一种基于企业污染舆情抽取的智能辅助决策装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-6任一项所述的基于企业污染舆情抽取的智能辅助决策方法。
CN202210043218.XA 2022-01-14 2022-01-14 基于企业污染舆情抽取的智能辅助决策方法及装置 Active CN114386422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210043218.XA CN114386422B (zh) 2022-01-14 2022-01-14 基于企业污染舆情抽取的智能辅助决策方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210043218.XA CN114386422B (zh) 2022-01-14 2022-01-14 基于企业污染舆情抽取的智能辅助决策方法及装置

Publications (2)

Publication Number Publication Date
CN114386422A true CN114386422A (zh) 2022-04-22
CN114386422B CN114386422B (zh) 2023-09-15

Family

ID=81202377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210043218.XA Active CN114386422B (zh) 2022-01-14 2022-01-14 基于企业污染舆情抽取的智能辅助决策方法及装置

Country Status (1)

Country Link
CN (1) CN114386422B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115392231A (zh) * 2022-08-10 2022-11-25 山东大学 一种基于人工智能的水环境舆情识别方法
CN115858738A (zh) * 2023-02-27 2023-03-28 浙江浙商金控有限公司 一种企业舆情信息相似性识别方法
CN117743556A (zh) * 2024-02-07 2024-03-22 创意信息技术股份有限公司 一种基于知识库的多轮问答意图识别方法及装置

Citations (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110161054A1 (en) * 2004-12-29 2011-06-30 Woolf Tod M Systems And Methods For Computer Aided Inventing
CN103019673A (zh) * 2012-11-14 2013-04-03 北京仟手莲科技有限公司 基于互联网和工作流的智能决策与实体推荐联合系统
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
US9128995B1 (en) * 2014-10-09 2015-09-08 Splunk, Inc. Defining a graphical visualization along a time-based graph lane using key performance indicators derived from machine data
CN104933093A (zh) * 2015-05-19 2015-09-23 武汉泰迪智慧科技有限公司 基于大数据的地区舆情监控及决策辅助系统和方法
CN106067029A (zh) * 2016-05-24 2016-11-02 哈尔滨工程大学 面向数据空间的实体分类方法
US20170235848A1 (en) * 2012-08-29 2017-08-17 Dennis Van Dusen System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction
CN107229735A (zh) * 2017-06-13 2017-10-03 成都布林特信息技术有限公司 基于自然语言处理的舆情信息分析预警方法
CN108319630A (zh) * 2017-07-05 2018-07-24 腾讯科技(深圳)有限公司 信息处理方法、装置、存储介质和计算机设备
CN109460922A (zh) * 2018-11-13 2019-03-12 电子科技大学 一种具有电力行业特征的网络舆情分析与辅助决策系统
CN109471895A (zh) * 2018-10-29 2019-03-15 清华大学 电子病历表型抽取、表型名称规范化方法及系统
CN110633363A (zh) * 2019-09-18 2019-12-31 桂林电子科技大学 一种基于nlp和模糊多准则决策的文本实体推荐方法
CN110782881A (zh) * 2019-10-25 2020-02-11 四川长虹电器股份有限公司 一种语音识别及实体识别后的影视实体纠错方法
CN110990525A (zh) * 2019-11-15 2020-04-10 华融融通(北京)科技有限公司 一种基于自然语言处理的舆情信息抽取及知识库生成方法
CN111613341A (zh) * 2020-05-22 2020-09-01 云知声智能科技股份有限公司 基于语义成分的实体链接方法及装置
CN111641619A (zh) * 2020-05-21 2020-09-08 杭州安恒信息技术股份有限公司 一种基于大数据构建黑客画像的方法、装置和计算机设备
CN111695033A (zh) * 2020-04-29 2020-09-22 平安科技(深圳)有限公司 企业舆情分析方法、装置、电子设备及介质
CN111966787A (zh) * 2020-08-18 2020-11-20 上海海洋大学 一种基于知识图谱的智能渔业问答机器人的构建方法
CN112085241A (zh) * 2019-06-12 2020-12-15 江苏汇环环保科技有限公司 一种基于机器学习的环境大数据分析和决策平台
CN112101028A (zh) * 2020-08-17 2020-12-18 淮阴工学院 一种多特征双向门控领域专家实体抽取方法及系统
CN112329471A (zh) * 2021-01-06 2021-02-05 科大讯飞(苏州)科技有限公司 基于配图的命名实体识别方法、装置以及设备
CN112395410A (zh) * 2021-01-13 2021-02-23 北京智源人工智能研究院 一种基于实体抽取的产业舆情推荐方法、装置及电子设备
CN112395539A (zh) * 2020-11-26 2021-02-23 格美安(北京)信息技术有限公司 一种基于自然语言处理的舆情风险监测方法及系统
CN112667820A (zh) * 2020-12-08 2021-04-16 吉林省吉科软信息技术有限公司 全流程可追溯生态链监管知识图谱的深度学习构建方法
CN113051914A (zh) * 2021-04-09 2021-06-29 淮阴工学院 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN113157866A (zh) * 2021-04-27 2021-07-23 平安科技(深圳)有限公司 一种数据分析方法、装置、计算机设备及存储介质
CN113239697A (zh) * 2021-06-01 2021-08-10 平安科技(深圳)有限公司 实体识别模型训练方法、装置、计算机设备及存储介质
CN113468244A (zh) * 2021-07-13 2021-10-01 天津大学 大气环境污染源管理系统、方法、电子设备及存储介质
CN113590837A (zh) * 2021-07-29 2021-11-02 华中农业大学 一种基于深度学习的食品及健康知识图谱构建方法
CN113761200A (zh) * 2021-08-19 2021-12-07 淮阴工学院 一种基于文本分析算法的高校舆情数据分析系统构建方法
CN113779996A (zh) * 2021-08-31 2021-12-10 中国中医科学院中医药信息研究所 基于BiLSTM模型的标准实体文本确定方法、装置及存储介质
CN113918725A (zh) * 2021-08-31 2022-01-11 南京中禹智慧水利研究院有限公司 一种水务领域知识图谱的构建方法
CN113918794A (zh) * 2021-12-13 2022-01-11 宝略科技(浙江)有限公司 企业网络舆情效益分析方法、系统、电子设备及存储介质

Patent Citations (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110161054A1 (en) * 2004-12-29 2011-06-30 Woolf Tod M Systems And Methods For Computer Aided Inventing
US20170235848A1 (en) * 2012-08-29 2017-08-17 Dennis Van Dusen System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction
CN103019673A (zh) * 2012-11-14 2013-04-03 北京仟手莲科技有限公司 基于互联网和工作流的智能决策与实体推荐联合系统
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
US9128995B1 (en) * 2014-10-09 2015-09-08 Splunk, Inc. Defining a graphical visualization along a time-based graph lane using key performance indicators derived from machine data
CN104933093A (zh) * 2015-05-19 2015-09-23 武汉泰迪智慧科技有限公司 基于大数据的地区舆情监控及决策辅助系统和方法
CN106067029A (zh) * 2016-05-24 2016-11-02 哈尔滨工程大学 面向数据空间的实体分类方法
CN107229735A (zh) * 2017-06-13 2017-10-03 成都布林特信息技术有限公司 基于自然语言处理的舆情信息分析预警方法
CN108319630A (zh) * 2017-07-05 2018-07-24 腾讯科技(深圳)有限公司 信息处理方法、装置、存储介质和计算机设备
CN109471895A (zh) * 2018-10-29 2019-03-15 清华大学 电子病历表型抽取、表型名称规范化方法及系统
CN109460922A (zh) * 2018-11-13 2019-03-12 电子科技大学 一种具有电力行业特征的网络舆情分析与辅助决策系统
CN112085241A (zh) * 2019-06-12 2020-12-15 江苏汇环环保科技有限公司 一种基于机器学习的环境大数据分析和决策平台
CN110633363A (zh) * 2019-09-18 2019-12-31 桂林电子科技大学 一种基于nlp和模糊多准则决策的文本实体推荐方法
CN110782881A (zh) * 2019-10-25 2020-02-11 四川长虹电器股份有限公司 一种语音识别及实体识别后的影视实体纠错方法
CN110990525A (zh) * 2019-11-15 2020-04-10 华融融通(北京)科技有限公司 一种基于自然语言处理的舆情信息抽取及知识库生成方法
CN111695033A (zh) * 2020-04-29 2020-09-22 平安科技(深圳)有限公司 企业舆情分析方法、装置、电子设备及介质
CN111641619A (zh) * 2020-05-21 2020-09-08 杭州安恒信息技术股份有限公司 一种基于大数据构建黑客画像的方法、装置和计算机设备
CN111613341A (zh) * 2020-05-22 2020-09-01 云知声智能科技股份有限公司 基于语义成分的实体链接方法及装置
CN112101028A (zh) * 2020-08-17 2020-12-18 淮阴工学院 一种多特征双向门控领域专家实体抽取方法及系统
CN111966787A (zh) * 2020-08-18 2020-11-20 上海海洋大学 一种基于知识图谱的智能渔业问答机器人的构建方法
CN112395539A (zh) * 2020-11-26 2021-02-23 格美安(北京)信息技术有限公司 一种基于自然语言处理的舆情风险监测方法及系统
CN112667820A (zh) * 2020-12-08 2021-04-16 吉林省吉科软信息技术有限公司 全流程可追溯生态链监管知识图谱的深度学习构建方法
CN112329471A (zh) * 2021-01-06 2021-02-05 科大讯飞(苏州)科技有限公司 基于配图的命名实体识别方法、装置以及设备
CN112395410A (zh) * 2021-01-13 2021-02-23 北京智源人工智能研究院 一种基于实体抽取的产业舆情推荐方法、装置及电子设备
CN113051914A (zh) * 2021-04-09 2021-06-29 淮阴工学院 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN113157866A (zh) * 2021-04-27 2021-07-23 平安科技(深圳)有限公司 一种数据分析方法、装置、计算机设备及存储介质
CN113239697A (zh) * 2021-06-01 2021-08-10 平安科技(深圳)有限公司 实体识别模型训练方法、装置、计算机设备及存储介质
CN113468244A (zh) * 2021-07-13 2021-10-01 天津大学 大气环境污染源管理系统、方法、电子设备及存储介质
CN113590837A (zh) * 2021-07-29 2021-11-02 华中农业大学 一种基于深度学习的食品及健康知识图谱构建方法
CN113761200A (zh) * 2021-08-19 2021-12-07 淮阴工学院 一种基于文本分析算法的高校舆情数据分析系统构建方法
CN113779996A (zh) * 2021-08-31 2021-12-10 中国中医科学院中医药信息研究所 基于BiLSTM模型的标准实体文本确定方法、装置及存储介质
CN113918725A (zh) * 2021-08-31 2022-01-11 南京中禹智慧水利研究院有限公司 一种水务领域知识图谱的构建方法
CN113918794A (zh) * 2021-12-13 2022-01-11 宝略科技(浙江)有限公司 企业网络舆情效益分析方法、系统、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张淑霞;龚炳江;: "面向煤矿领域的文本关系抽取关键技术研究", 电脑知识与技术, no. 22, pages 193 - 195 *
王廷银;林明贵;陈达;吴允平;: "基于北斗RDSS的核辐射监测应急通讯方法", 计算机系统应用, no. 12, pages 252 - 256 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115392231A (zh) * 2022-08-10 2022-11-25 山东大学 一种基于人工智能的水环境舆情识别方法
CN115858738A (zh) * 2023-02-27 2023-03-28 浙江浙商金控有限公司 一种企业舆情信息相似性识别方法
CN115858738B (zh) * 2023-02-27 2023-06-02 浙江浙商金控有限公司 一种企业舆情信息相似性识别方法
CN117743556A (zh) * 2024-02-07 2024-03-22 创意信息技术股份有限公司 一种基于知识库的多轮问答意图识别方法及装置
CN117743556B (zh) * 2024-02-07 2024-04-16 创意信息技术股份有限公司 一种基于知识库的多轮问答意图识别方法及装置

Also Published As

Publication number Publication date
CN114386422B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
CN110489395B (zh) 自动获取多源异构数据知识的方法
CN111723215B (zh) 基于文本挖掘的生物技术信息知识图谱构建装置与方法
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN114386422B (zh) 基于企业污染舆情抽取的智能辅助决策方法及装置
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
CN112101028B (zh) 一种多特征双向门控领域专家实体抽取方法及系统
CN111783394B (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
US20150081277A1 (en) System and Method for Automatically Classifying Text using Discourse Analysis
CN110609983B (zh) 一种政策文件结构化分解方法
Kmail et al. An automatic online recruitment system based on exploiting multiple semantic resources and concept-relatedness measures
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN106708929B (zh) 视频节目的搜索方法和装置
CN111061882A (zh) 一种知识图谱构建方法
CN112989831A (zh) 一种应用在网络安全领域的实体抽取方法
CN114090861A (zh) 一种基于知识图谱的教育领域搜索引擎构建方法
CN116450834A (zh) 一种基于多模态语义特征的档案知识图谱构建方法
CN113934909A (zh) 基于预训练语言结合深度学习模型的金融事件抽取方法
CN112000929A (zh) 一种跨平台数据分析方法、系统、设备及可读存储介质
CN106570196B (zh) 视频节目的搜索方法和装置
CN112101014B (zh) 一种混合特征融合的中文化工文献分词方法
CN112732969A (zh) 图像语义分析方法、装置、存储介质及电子设备
CN116484852A (zh) 一种基于关系图注意力网络的中文专利实体关系联合抽取方法
Li et al. Feature-specific named entity recognition in software development social content
CN115392251A (zh) 一种互联网金融业务的实体实时识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant