CN111813964A - 基于生态环境的数据处理方法及相关设备 - Google Patents

基于生态环境的数据处理方法及相关设备 Download PDF

Info

Publication number
CN111813964A
CN111813964A CN202010957870.3A CN202010957870A CN111813964A CN 111813964 A CN111813964 A CN 111813964A CN 202010957870 A CN202010957870 A CN 202010957870A CN 111813964 A CN111813964 A CN 111813964A
Authority
CN
China
Prior art keywords
pollution
data
target
early warning
clue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010957870.3A
Other languages
English (en)
Other versions
CN111813964B (zh
Inventor
杜佳辉
周琅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202010957870.3A priority Critical patent/CN111813964B/zh
Publication of CN111813964A publication Critical patent/CN111813964A/zh
Application granted granted Critical
Publication of CN111813964B publication Critical patent/CN111813964B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Abstract

本发明涉及大数据技术领域,提供一种基于生态环境的数据处理方法,包括:获取分类后的环境污染线索数据,环境污染线索数据携带有污染类型;从环境污染线索数据中提取出不同维度的多个目标特征;从污染类型对应的多个预设污染要素中,查询与每个目标特征匹配的目标污染要素;计算每个维度的目标特征与目标污染要素的相似度;计算污染类型下的所有相似度的总分值;若总分值大于预设阈值,根据被匹配的目标污染要素的数量以及目标污染要素对应的污染程度等级,确定污染类型的第一预警数据;输出第一预警数据。本发明还涉及区块链技术,可以从区块链中获取分类后的环境污染线索数据。本发明还应用于智慧环保场景中,从而推动智慧城市的发展。

Description

基于生态环境的数据处理方法及相关设备
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于生态环境的数据处理方法及相关设备。
背景技术
随着大数据和互联网的迅速发展,涉及生态环境保护领域的互联网舆情线索大量聚集并迅速传播,成为官方发现环境污染线索的重要来源之一。涉及环境污染线索,经过分类模型可以得到比较好的污染分类结果,比如:水污染、大气污染、固体污染等,然而,这些分类模型对用户来说是一个黑箱,污染分类结果无法给出比较强的解释,这使得污染分类结果的可信度较低。
发明内容
鉴于以上内容,有必要提供一种基于生态环境的数据处理方法及相关设备,能够提高污染分类结果的可信度。
本发明的第一方面提供一种基于生态环境的数据处理方法,所述基于生态环境的数据处理方法包括:
获取分类后的环境污染线索数据,所述环境污染线索数据携带有污染类型;
从所述环境污染线索数据中提取出不同维度的多个目标特征;
从所述污染类型对应的多个预设污染要素中,查询与每个所述目标特征匹配的目标污染要素;
计算每个维度的所述目标特征与所述目标污染要素的相似度;
计算所述污染类型下的所有所述相似度的总分值;
若所述总分值大于预设阈值,根据被匹配的所述目标污染要素的数量以及所述目标污染要素对应的污染程度等级,确定所述污染类型的第一预警数据;
输出所述第一预警数据。
在一种可能的实现方式中,所述从所述环境污染线索数据中提取出不同维度的多个目标特征包括:
判断所述环境污染线索数据是否属于用户举报的结构化数据;
若所述环境污染线索数据属于用户举报的结构化数据,获取所述用户的个人征信记录;
若所述个人征信记录表明所述用户属于可信用户,确定所述环境污染线索数据属于有效数据;
按照所述结构化数据的预设字段,从所述环境污染线索数据中提取与所述预设字段匹配的目标字段;
将提取的所有所述目标字段进行组合,构成不同维度的多个目标特征。
在一种可能的实现方式中,所述从所述环境污染线索数据中提取出不同维度的多个目标特征包括:
判断所述环境污染线索数据是否属于互联网的非结构化数据;
若所述环境污染线索数据属于互联网的非结构化数据,采用基于词典的字符串匹配分词算法,对所述环境污染线索数据进行匹配,获得多个分词;
对每个所述分词进行命名实体识别,获得每个所述分词的词性;
根据每个所述分词的词性,从所述多个分词中确定不同维度的多个目标特征。
在一种可能的实现方式中,所述计算每个维度的所述目标特征与所述目标污染要素的相似度包括:
在每个维度上,采用词频-逆文本频率指数TF-IDF算法计算每个所述目标特征的第一词频向量,以及采用所述TF-IDF算法计算所述目标污染要素的第二词频向量;
计算所述第一词频向量与所述第二词频向量的余弦值;
将所述余弦值确定为所述目标特征与所述目标污染要素的相似度。
在一种可能的实现方式中,所述基于生态环境的数据处理方法还包括:
若所述总分值大于预设阈值的污染类型有多个,将被匹配的所述目标污染要素的数量超过预设数量的污染类型确定为目标污染类型;
确定所述目标污染类型的第二预警数据;
输出所述第二预警数据。
在一种可能的实现方式中,所述基于生态环境的数据处理方法还包括:
确定所述环境污染线索数据对应的污染事件;
若所述环境污染线索数据的提供者属于个体用户且所述污染事件已被公众平台发布,获取所述公众平台发布的针对所述污染事件的官方预警数据;
根据所述第一预警数据,对所述官方预警数据的数据可靠性进行校验。
在一种可能的实现方式中,所述根据所述第一预警数据,对所述官方预警数据的数据可靠性进行校验包括:
按照预警要素,将所述第一预警数据与所述官方预警数据进行一一比对,获得每个预警要素对应的差异比对值;
判断所述差异比对值是否在合理范围内;
若所述差异比对值在合理范围内,确定所述官方预警数据可靠;或
若所述差异比对值不在合理范围内,确定所述官方预警数据不可靠。
本发明的第二方面提供一种数据处理装置,所述数据处理装置包括:
获取模块,用于获取分类后的环境污染线索数据,所述环境污染线索数据携带有污染类型;
提取模块,用于从所述环境污染线索数据中提取出不同维度的多个目标特征;
查询模块,用于从所述污染类型对应的多个预设污染要素中,查询与每个所述目标特征匹配的目标污染要素;
计算模块,用于计算每个维度的所述目标特征与所述目标污染要素的相似度;
所述计算模块,还用于计算所述污染类型下的所有所述相似度的总分值;
确定模块,用于若所述总分值大于预设阈值,根据被匹配的所述目标污染要素的数量以及所述目标污染要素对应的污染程度等级,确定所述污染类型的第一预警数据;
输出模块,用于输出所述第一预警数据。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的基于生态环境的数据处理方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于生态环境的数据处理方法。
本发明中,可以对进行污染分类后的环境污染线索数据进行分析处理,输出预警数据,不仅可以了解到该环境污染线索数据的污染程度,同时,还可以对该环境污染线索数据的污染类型的划分给出很好的分析,可解释性强,使得分析结论更加精准,更加可信。
附图说明
图1是本发明公开的一种基于生态环境的数据处理方法的较佳实施例的流程图。
图2是本发明公开的一种多个污染类型的分值示意图。
图3是本发明公开的一种多个污染类型的输出示意图。
图4是本发明公开的一种数据处理装置的较佳实施例的功能模块图。
图5是本发明实现基于生态环境的数据处理方法的较佳实施例的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
其中,所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、嵌入式设备等。所述电子设备还可包括网络设备和/或用户设备。其中,所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云。所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理PDA等。
请参见图1,图1是本发明公开的一种基于生态环境的数据处理方法的较佳实施例的流程图。其中,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
S11、获取分类后的环境污染线索数据,所述环境污染线索数据携带有污染类型。
其中,所述环境污染线索数据可以来自于用户举报,也可以来自于互联网。其中,所述环境污染线索数据预先已被进行污染分类,该环境污染线索数据的污染类型可以是一个,也可以是多个,污染类型比如水污染类、大气污染类、固体废物污染类以及噪音污染类。
可选的,可以从区块链上获取分类后的环境污染线索数据,以确保数据的私密性和安全性。
S12、从所述环境污染线索数据中提取出不同维度的多个目标特征。
其中,不同维度可以包括但不限于主体(人名、机构名)、时间、地点、污染行为以及污染程度值等。目标特征即不同维度的线索数据。
具体的,所述从所述环境污染线索数据中提取出不同维度的多个目标特征包括:
判断所述环境污染线索数据是否属于用户举报的结构化数据;
若所述环境污染线索数据属于用户举报的结构化数据,获取所述用户的个人征信记录;
若所述个人征信记录表明所述用户属于可信用户,确定所述环境污染线索数据属于有效数据;
按照所述结构化数据的预设字段,从所述环境污染线索数据中提取与所述预设字段匹配的目标字段;
将提取的所有所述目标字段进行组合,构成不同维度的多个目标特征。
在该可选的实施方式中,可以通过官方渠道获取用户的个人征信记录,该个人征信记录可以衡量用户是否属于可信用户,如果用户没有比较严重的个人失信记录,可以确定该用户属于可信用户,进而该用户举报的环境污染线索数据就属于有效数据,从而可以通过用户个人的征信情况来筛选出有效的环境污染线索数据,避免浪费系统的计算资源。用户举报的结构化数据通常是比较有规律的数据,通常是按照事件的时间、地点、人物、污染行为等进行描述的。因此,在确定属于用户举报的结构化数据后,即可直接提取目标字段并构建多个目标特征,从而可以提高提取目标特征的效率。
具体的,所述从所述环境污染线索数据中提取出不同维度的多个目标特征包括:
判断所述环境污染线索数据是否属于互联网的非结构化数据;
若所述环境污染线索数据属于互联网的非结构化数据,采用基于词典的字符串匹配分词算法,对所述环境污染线索数据进行匹配,获得多个分词;
对每个所述分词进行命名实体识别,获得每个所述分词的词性;
根据每个所述分词的词性,从所述多个分词中确定不同维度的多个目标特征。
在该可选的实施方式中,可以从互联网中获取数据,通常互联网中的数据都是大段大段的文本,信息比较杂乱,属于非结构化数据,需要对这些数据进行提取,获得多个分词,进而在根据分词的词性(比如名词、动词、形容词)来提取不同维度的目标特征。通过这种方式,可以从互联网中获取更多内容的数据,弥补数据不足的缺陷,基于词典的字符串匹配分词算法,能够提高分词的准确性,有利于后续对分词的词性分析,使得提取的目标特征更准确。
S13、从所述污染类型对应的多个预设污染要素中,查询与每个所述目标特征匹配的目标污染要素。
其中,每个污染类型都会预先设置多个预设污染要素,比如固体废物污染类的预设污染要素包括:异味难闻、垃圾堆放点、非法倾倒生活垃圾、垃圾渗滤液溢出等等。
如果目标特征中的某些词存在于某个或某些预设污染要素中,即可确定二者匹配,并将匹配的预设污染要素确定为目标污染要素。
S14、计算每个维度的所述目标特征与所述目标污染要素的相似度。
具体的,所述计算每个维度的所述目标特征与所述目标污染要素的相似度包括:
在每个维度上,采用词频-逆文本频率指数TF-IDF算法计算每个所述目标特征的第一词频向量,以及采用所述TF-IDF算法计算所述目标污染要素的第二词频向量;
计算所述第一词频向量与所述第二词频向量的余弦值;
将所述余弦值确定为所述目标特征与所述目标污染要素的相似度。
其中,TF-IDF(term frequency–inverse document frequency,词频-逆文本频率指数)是一种用于信息检索与数据挖掘的常用加权技术。通过TF-IDF算法计算词频向量,便于将文本数据转换成向量数据,有利于后续计算两个向量之间的余弦值。其中,余弦值的计算公式为:
Figure 200314DEST_PATH_IMAGE001
A和B分别代表两个向量,
Figure 117454DEST_PATH_IMAGE002
为两个向量的夹角。夹角的余弦值的取值范围为(0,1),余弦值越接近1,表明目标特征与目标污染要素越相似。
S15、计算所述污染类型下的所有所述相似度的总分值。
其中,一个污染类型下有多个预设污染要素,因此,每个维度的目标特征都会进行匹配,并与目标污染要素进行相似度计算,可以得到多个相似度。计算的总分值可以反映该污染类型下的污染匹配程度,总分值越高,表明属于该污染类型的可能性就越大。具体可以参考图2中的多个污染类型的分值示意图。
S16、若所述总分值大于预设阈值,根据被匹配的所述目标污染要素的数量以及所述目标污染要素对应的污染程度等级,确定所述污染类型的第一预警数据。
其中,可以预先设置一个预设阈值,若所述总分值大于预设阈值,表明该环境污染线索数据属于该污染类型的可能性很大,数据比较真实可靠。
其中,所述第一预警数据包括第一预警等级和第一预警要素。第一预警等级可以分为:严重、一般、轻微三个等级。第一预警要素即目标污染要素。
其中,每个目标污染要素对应的污染程度等级分为:严重、一般、轻微。
具体的,可以根据预设规则,被匹配的所述目标污染要素的数量以及所述目标污染要素对应的污染程度等级,确定第一预警等级。比如:匹配至少一条“严重”等级的目标污染要素,或者,匹配至少三条“一般”等级的目标污染要素,可以确定第一预警等级为“严重”等级,又比如:匹配至少一条“一般”等级的目标污染要素,或者,匹配至少三条“轻微”等级的目标污染要素,可以确定第一预警等级为“一般”等级;又比如:匹配至少一条“轻微”等级的目标污染要素,可以确定第一预警等级为“轻微”等级。
S17、输出所述第一预警数据。
其中,输出的第一预警数据中不仅包括第一预警等级,还包括第一预警要素,该第一预警等级可以很直观地反映出该环境污染线索数据的污染等级,第一预警要素中可以反映该污染的具体内容,比如污染区域、污染程度、污染物质。
通过该第一预警数据,不仅可以了解到该环境污染线索数据的污染程度,同时,还可以对该环境污染线索数据的污染类型的划分给出很好的分析,可解释性强,使得分析结论更加精准,更加可信。
作为一种可选的实施方式,所述基于生态环境的数据处理方法还包括:
若所述总分值大于预设阈值的污染类型有多个,将被匹配的所述目标污染要素的数量超过预设数量的污染类型确定为目标污染类型;
确定所述目标污染类型的第二预警数据;
输出所述第二预警数据。
在该可选的实施方式中,一个环境污染线索数据可能属于多个污染类型,为了避免无效数据过多,可以根据被匹配的所述目标污染要素的数量来筛选目标污染类型,即匹配的越多,表明属于某个目标污染类型的可能性越大,推送出来的可信度就越高。其中,多个污染类型的输出可以如图3所示,图3是本发明公开的一种多个污染类型的输出示意图。需要说明的是,图3中所示的只是一种示意图,本发明还可以有其他的输出表现形式。
作为一种可选的实施方式,所述基于生态环境的数据处理方法还包括:
确定所述环境污染线索数据对应的污染事件;
若所述环境污染线索数据的提供者属于个体用户且所述污染事件已被公众平台发布,获取所述公众平台发布的针对所述污染事件的官方预警数据;
根据所述第一预警数据,对所述官方预警数据的数据可靠性进行校验。
在该可选的实施方式中,个体用户和相关部门均可以在互联网上发布污染相关信息,然而,针对同一污染事件,个体用户和官方发布的数据可能存在差异。本案中,针对污染比较严重的污染事件,可以通过个体用户的第一预警数据,对官方发布的官方预警数据进行校验,从而实现对官方发布数据的可靠性进行监督。
具体的,所述根据所述第一预警数据,对所述官方预警数据的数据可靠性进行校验包括:
按照预警要素,将所述第一预警数据与所述官方预警数据进行一一比对,获得每个预警要素对应的差异比对值;
判断所述差异比对值是否在合理范围内;
若所述差异比对值在合理范围内,确定所述官方预警数据可靠;或
若所述差异比对值不在合理范围内,确定所述官方预警数据不可靠。
在该可选的实施方式中,个体用户采集的数据和官方采集的数据在时间、地点上会存在差异,这些采集的差异可能会导致预警染数据比对的差异。本案中,可以预先设置一个合理范围,如果差异比对值处于合理范围内,表明官方发布的数据就是可靠的,反之,如果差异比对值处于合理范围外,表明官方发布的数据是不可靠的,从而可以根据差异比对值的大小,提高对官方发布数据的可靠性评判的准确性。
在图1所描述的方法流程中,可以对进行污染分类后的环境污染线索数据进行分析处理,输出预警数据,不仅可以了解到该环境污染线索数据的污染程度,同时,还可以对该环境污染线索数据的污染类型的划分给出很好的分析,可解释性强,使得分析结论更加精准,更加可信。
以上所述,仅是本发明的具体实施方式,但本发明的保护范围并不局限于此,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。
请参见图4,图4是本发明公开的一种数据处理装置的较佳实施例的功能模块图。
在一些实施例中,所述数据处理装置运行于电子设备中。所述数据处理装置可以包括多个由程序代码段所组成的功能模块。所述数据处理装置中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行图1所描述的基于生态环境的数据处理方法中的部分或全部步骤。
本实施例中,所述数据处理装置根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块401、提取模块402、查询模块403、计算模块404、确定模块405及输出模块406。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在一些实施例中,关于各模块的功能将在本实施例中详述。
获取模块401,用于获取分类后的环境污染线索数据,所述环境污染线索数据携带有污染类型。
其中,所述环境污染线索数据可以来自于用户举报,也可以来自于互联网。其中,所述环境污染线索数据预先已被进行污染分类,该环境污染线索数据的污染类型可以是一个,也可以是多个,污染类型比如水污染类、大气污染类、固体废物污染类以及噪音污染类。
提取模块402,用于从所述环境污染线索数据中提取出不同维度的多个目标特征。
其中,不同维度可以包括但不限于主体(人名、机构名)、时间、地点、污染行为以及污染程度值等。目标特征即不同维度的线索数据。
具体的,所述从所述环境污染线索数据中提取出不同维度的多个目标特征包括:
判断所述环境污染线索数据是否属于用户举报的结构化数据;
若所述环境污染线索数据属于用户举报的结构化数据,获取所述用户的个人征信记录;
若所述个人征信记录表明所述用户属于可信用户,确定所述环境污染线索数据属于有效数据;
按照所述结构化数据的预设字段,从所述环境污染线索数据中提取与所述预设字段匹配的目标字段;
将提取的所有所述目标字段进行组合,构成不同维度的多个目标特征。
在该可选的实施方式中,可以通过官方渠道获取用户的个人征信记录,该个人征信记录可以衡量用户是否属于可信用户,如果用户没有比较严重的个人失信记录,可以确定该用户属于可信用户,进而该用户举报的环境污染线索数据就属于有效数据,从而可以通过用户个人的征信情况来筛选出有效的环境污染线索数据,避免浪费系统的计算资源。用户举报的结构化数据通常是比较有规律的数据,通常是按照事件的时间、地点、人物、污染行为等进行描述的。因此,在确定属于用户举报的结构化数据后,即可直接提取目标字段并构建多个目标特征,从而可以提高提取目标特征的效率。
具体的,所述从所述环境污染线索数据中提取出不同维度的多个目标特征包括:
判断所述环境污染线索数据是否属于互联网的非结构化数据;
若所述环境污染线索数据属于互联网的非结构化数据,采用基于词典的字符串匹配分词算法,对所述环境污染线索数据进行匹配,获得多个分词;
对每个所述分词进行命名实体识别,获得每个所述分词的词性;
根据每个所述分词的词性,从所述多个分词中确定不同维度的多个目标特征。
在该可选的实施方式中,可以从互联网中获取数据,通常互联网中的数据都是大段大段的文本,信息比较杂乱,属于非结构化数据,需要对这些数据进行提取,获得多个分词,进而在根据分词的词性(比如名词、动词、形容词)来提取不同维度的目标特征。通过这种方式,可以从互联网中获取更多内容的数据,弥补数据不足的缺陷,基于词典的字符串匹配分词算法,能够提高分词的准确性,有利于后续对分词的词性分析,使得提取的目标特征更准确。
查询模块403,用于从所述污染类型对应的多个预设污染要素中,查询与每个所述目标特征匹配的目标污染要素。
其中,每个污染类型都会预先设置多个预设污染要素,比如固体废物污染类的预设污染要素包括:异味难闻、垃圾堆放点、非法倾倒生活垃圾、垃圾渗滤液溢出等等。
如果目标特征中的某些词存在于某个或某些预设污染要素中,即可确定二者匹配,并将匹配的预设污染要素确定为目标污染要素。
计算模块404,用于计算每个维度的所述目标特征与所述目标污染要素的相似度。
具体的,所述计算每个维度的所述目标特征与所述目标污染要素的相似度包括:
在每个维度上,采用词频-逆文本频率指数TF-IDF算法计算每个所述目标特征的第一词频向量,以及采用所述TF-IDF算法计算所述目标污染要素的第二词频向量;
计算所述第一词频向量与所述第二词频向量的余弦值;
将所述余弦值确定为所述目标特征与所述目标污染要素的相似度。
其中,TF-IDF(term frequency–inverse document frequency,词频-逆文本频率指数)是一种用于信息检索与数据挖掘的常用加权技术。通过TF-IDF算法计算词频向量,便于将文本数据转换成向量数据,有利于后续计算两个向量之间的余弦值。其中,余弦值的计算公式为:
Figure 772558DEST_PATH_IMAGE001
,A和B分别代表两个向量,
Figure 167767DEST_PATH_IMAGE002
为两个向量的夹角。夹角的余弦值的取值范围为(0,1),余弦值越接近1,表明目标特征与目标污染要素越相似。
所述计算模块404,还用于计算所述污染类型下的所有所述相似度的总分值。
其中,一个污染类型下有多个预设污染要素,因此,每个维度的目标特征都会进行匹配,并与目标污染要素进行相似度计算,可以得到多个相似度。计算的总分值可以反映该污染类型下的污染匹配程度,总分值越高,表明属于该污染类型的可能性就越大。具体可以参考图2中的多个污染类型的分值示意图。
确定模块405,用于若所述总分值大于预设阈值,根据被匹配的所述目标污染要素的数量以及所述目标污染要素对应的污染程度等级,确定所述污染类型的第一预警数据。
其中,可以预先设置一个预设阈值,若所述总分值大于预设阈值,表明该环境污染线索数据属于该污染类型的可能性很大,数据比较真实可靠。
其中,所述第一预警数据包括第一预警等级和第一预警要素。第一预警等级可以分为:严重、一般、轻微三个等级。第一预警要素即目标污染要素。
其中,每个目标污染要素对应的污染程度等级分为:严重、一般、轻微。
具体的,可以根据预设规则,被匹配的所述目标污染要素的数量以及所述目标污染要素对应的污染程度等级,确定第一预警等级。比如:匹配至少一条“严重”等级的目标污染要素,或者,匹配至少三条“一般”等级的目标污染要素,可以确定第一预警等级为“严重”等级,又比如:匹配至少一条“一般”等级的目标污染要素,或者,匹配至少三条“轻微”等级的目标污染要素,可以确定第一预警等级为“一般”等级;又比如:匹配至少一条“轻微”等级的目标污染要素,可以确定第一预警等级为“轻微”等级。
输出模块406,用于输出所述第一预警数据。
其中,输出的第一预警数据中不仅包括第一预警等级,还包括第一预警要素,该第一预警等级可以很直观地反映出该环境污染线索数据的污染等级,第一预警要素中可以反映该污染的具体内容,比如污染区域、污染程度、污染物质。
通过该第一预警数据,不仅可以了解到该环境污染线索数据的污染程度,同时,还可以对该环境污染线索数据的污染类型的划分给出很好的分析,可解释性强,使得分析结论更加精准,更加可信。
可选的,所述确定模块405,还用于若所述总分值大于预设阈值的污染类型有多个,将被匹配的所述目标污染要素的数量超过预设数量的污染类型确定为目标污染类型;
所述确定模块405,还用于确定所述目标污染类型的第二预警数据;
所述输出模块406,还用于输出所述第二预警数据。
在该可选的实施方式中,一个环境污染线索数据可能属于多个污染类型,为了避免无效数据过多,可以根据被匹配的所述目标污染要素的数量来筛选目标污染类型,即匹配的越多,表明属于某个目标污染类型的可能性越大,推送出来的可信度就越高。其中,多个污染类型的输出可以如图3所示,图3是本发明公开的一种多个污染类型的输出示意图,需要说明的是,图3中所示的只是一种示意图,本发明还可以有其他的输出表现形式。
可选的,所述确定模块405,还用于确定所述环境污染线索数据对应的污染事件;
所述获取模块401,还用于若所述环境污染线索数据的提供者属于个体用户且所述污染事件已被公众平台发布,获取所述公众平台发布的针对所述污染事件的官方预警数据;
所述数据处理装置还包括:
校验模块,用于根据所述第一预警数据,对所述官方预警数据的数据可靠性进行校验。
在该可选的实施方式中,个体用户和相关部门均可以在互联网上发布污染相关信息,然而,针对同一污染事件,个体用户和官方发布的数据可能存在差异。本案中,针对污染比较严重的污染事件,可以通过个体用户的第一预警数据,对官方发布的官方预警数据进行校验,从而实现对官方发布数据的可靠性进行监督。
具体的,所述根据所述第一预警数据,对所述官方预警数据的数据可靠性进行校验包括:
按照预警要素,将所述第一预警数据与所述官方预警数据进行一一比对,获得每个预警要素对应的差异比对值;
判断所述差异比对值是否在合理范围内;
若所述差异比对值在合理范围内,确定所述官方预警数据可靠;或
若所述差异比对值不在合理范围内,确定所述官方预警数据不可靠。
在该可选的实施方式中,个体用户采集的数据和官方采集的数据在时间、地点上会存在差异,这些采集的差异可能会导致预警染数据比对的差异。本案中,可以预先设置一个合理范围,如果差异比对值处于合理范围内,表明官方发布的数据就是可靠的,反之,如果差异比对值处于合理范围外,表明官方发布的数据是不可靠的,从而可以根据差异比对值的大小,提高对官方发布数据的可靠性评判的准确性。
在图4所描述的数据处理装置中,可以对进行污染分类后的环境污染线索数据进行分析处理,输出预警数据,不仅可以了解到该环境污染线索数据的污染程度,同时,还可以对该环境污染线索数据的污染类型的划分给出很好的分析,可解释性强,使得分析结论更加精准,更加可信。
如图5所示,图5是本发明实现基于生态环境的数据处理方法的较佳实施例的电子设备的结构示意图。所述电子设备5包括存储器51、至少一个处理器52、存储在所述存储器51中并可在所述至少一个处理器52上运行的计算机程序53及至少一条通讯总线54。
本领域技术人员可以理解,图5所示的示意图仅仅是所述电子设备5的示例,并不构成对所述电子设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备5还可以包括输入输出设备、网络接入设备等。
所述至少一个处理器52可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器52可以是微处理器或者该处理器52也可以是任何常规的处理器等,所述处理器52是所述电子设备5的控制中心,利用各种接口和线路连接整个电子设备5的各个部分。
所述存储器51可用于存储所述计算机程序53和/或模块/单元,所述处理器52通过运行或执行存储在所述存储器51内的计算机程序和/或模块/单元,以及调用存储在存储器51内的数据,实现所述电子设备5的各种功能。所述存储器51可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备5的使用所创建的数据(比如音频数据)等。此外,存储器51可以包括非易失性和易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。
结合图1,所述电子设备5中的所述存储器51存储多个指令以实现一种基于生态环境的数据处理方法,所述处理器52可执行所述多个指令从而实现:
获取分类后的环境污染线索数据,所述环境污染线索数据携带有污染类型;
从所述环境污染线索数据中提取出不同维度的多个目标特征;
从所述污染类型对应的多个预设污染要素中,查询与每个所述目标特征匹配的目标污染要素;
计算每个维度的所述目标特征与所述目标污染要素的相似度;
计算所述污染类型下的所有所述相似度的总分值;
若所述总分值大于预设阈值,根据被匹配的所述目标污染要素的数量以及所述目标污染要素对应的污染程度等级,确定所述污染类型的第一预警数据;
输出所述第一预警数据。
具体地,所述处理器52对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在图5所描述的电子设备5中,可以对进行污染分类后的环境污染线索数据进行分析处理,输出预警数据,不仅可以了解到该环境污染线索数据的污染程度,同时,还可以对该环境污染线索数据的污染类型的划分给出很好的分析,可解释性强,使得分析结论更加精准,更加可信。
所述电子设备5集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器等。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。系统权利要求中陈述的多个单元或装置也可以通过软件或者硬件来实现。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于生态环境的数据处理方法,其特征在于,所述基于生态环境的数据处理方法包括:
获取分类后的环境污染线索数据,所述环境污染线索数据携带有污染类型;
从所述环境污染线索数据中提取出不同维度的多个目标特征;
从所述污染类型对应的多个预设污染要素中,查询与每个所述目标特征匹配的目标污染要素;
计算每个维度的所述目标特征与所述目标污染要素的相似度;
计算所述污染类型下的所有所述相似度的总分值;
若所述总分值大于预设阈值,根据被匹配的所述目标污染要素的数量以及所述目标污染要素对应的污染程度等级,确定所述污染类型的第一预警数据;
输出所述第一预警数据。
2.根据权利要求1所述的基于生态环境的数据处理方法,其特征在于,所述从所述环境污染线索数据中提取出不同维度的多个目标特征包括:
判断所述环境污染线索数据是否属于用户举报的结构化数据;
若所述环境污染线索数据属于用户举报的结构化数据,获取所述用户的个人征信记录;
若所述个人征信记录表明所述用户属于可信用户,确定所述环境污染线索数据属于有效数据;
按照所述结构化数据的预设字段,从所述环境污染线索数据中提取与所述预设字段匹配的目标字段;
将提取的所有所述目标字段进行组合,构成不同维度的多个目标特征。
3.根据权利要求1所述的基于生态环境的数据处理方法,其特征在于,所述从所述环境污染线索数据中提取出不同维度的多个目标特征包括:
判断所述环境污染线索数据是否属于互联网的非结构化数据;
若所述环境污染线索数据属于互联网的非结构化数据,采用基于词典的字符串匹配分词算法,对所述环境污染线索数据进行匹配,获得多个分词;
对每个所述分词进行命名实体识别,获得每个所述分词的词性;
根据每个所述分词的词性,从所述多个分词中确定不同维度的多个目标特征。
4.根据权利要求1所述的基于生态环境的数据处理方法,其特征在于,所述计算每个维度的所述目标特征与所述目标污染要素的相似度包括:
在每个维度上,采用词频-逆文本频率指数TF-IDF算法计算每个所述目标特征的第一词频向量,以及采用所述TF-IDF算法计算所述目标污染要素的第二词频向量;
计算所述第一词频向量与所述第二词频向量的余弦值;
将所述余弦值确定为所述目标特征与所述目标污染要素的相似度。
5.根据权利要求1所述的基于生态环境的数据处理方法,其特征在于,所述基于生态环境的数据处理方法还包括:
若所述总分值大于预设阈值的污染类型有多个,将被匹配的所述目标污染要素的数量超过预设数量的污染类型确定为目标污染类型;
确定所述目标污染类型的第二预警数据;
输出所述第二预警数据。
6.根据权利要求1所述的基于生态环境的数据处理方法,其特征在于,所述基于生态环境的数据处理方法还包括:
确定所述环境污染线索数据对应的污染事件;
若所述环境污染线索数据的提供者属于个体用户且所述污染事件已被公众平台发布,获取所述公众平台发布的针对所述污染事件的官方预警数据;
根据所述第一预警数据,对所述官方预警数据的数据可靠性进行校验。
7.根据权利要求6所述的基于生态环境的数据处理方法,其特征在于,所述根据所述第一预警数据,对所述官方预警数据的数据可靠性进行校验包括:
按照预警要素,将所述第一预警数据与所述官方预警数据进行一一比对,获得每个预警要素对应的差异比对值;
判断所述差异比对值是否在合理范围内;
若所述差异比对值在合理范围内,确定所述官方预警数据可靠;或
若所述差异比对值不在合理范围内,确定所述官方预警数据不可靠。
8.一种数据处理装置,其特征在于,所述数据处理装置包括:
获取模块,用于获取分类后的环境污染线索数据,所述环境污染线索数据携带有污染类型;
提取模块,用于从所述环境污染线索数据中提取出不同维度的多个目标特征;
查询模块,用于从所述污染类型对应的多个预设污染要素中,查询与每个所述目标特征匹配的目标污染要素;
计算模块,用于计算每个维度的所述目标特征与所述目标污染要素的相似度;
所述计算模块,还用于计算所述污染类型下的所有所述相似度的总分值;
确定模块,用于若所述总分值大于预设阈值,根据被匹配的所述目标污染要素的数量以及所述目标污染要素对应的污染程度等级,确定所述污染类型的第一预警数据;
输出模块,用于输出所述第一预警数据。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1至7中任意一项所述的基于生态环境的数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至7任意一项所述的基于生态环境的数据处理方法。
CN202010957870.3A 2020-09-14 2020-09-14 基于生态环境的数据处理方法及相关设备 Active CN111813964B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010957870.3A CN111813964B (zh) 2020-09-14 2020-09-14 基于生态环境的数据处理方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010957870.3A CN111813964B (zh) 2020-09-14 2020-09-14 基于生态环境的数据处理方法及相关设备

Publications (2)

Publication Number Publication Date
CN111813964A true CN111813964A (zh) 2020-10-23
CN111813964B CN111813964B (zh) 2020-12-11

Family

ID=72859245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010957870.3A Active CN111813964B (zh) 2020-09-14 2020-09-14 基于生态环境的数据处理方法及相关设备

Country Status (1)

Country Link
CN (1) CN111813964B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117434227A (zh) * 2023-12-20 2024-01-23 河北金隅鼎鑫水泥有限公司 一种水泥制造厂的废气成分监控方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0968477A1 (en) * 1997-03-24 2000-01-05 Queen's University At Kingston Coincidence detection method, products and apparatus
WO2014032614A1 (en) * 2012-09-03 2014-03-06 Tencent Technology (Shenzhen) Company Limited Method and apparatus for pushing network information
EP2790153A2 (en) * 2013-02-28 2014-10-15 Kabushiki Kaisha Toshiba Environment evaluation apparatus, method and program
KR20160125256A (ko) * 2015-04-21 2016-10-31 네이처링 주식회사 생태 및 환경정보 제공 시스템 및 그 방법
CN106845371A (zh) * 2016-12-31 2017-06-13 中国科学技术大学 一种城市路网机动车尾气排放遥感监控系统
CN107256257A (zh) * 2017-06-12 2017-10-17 上海携程商务有限公司 基于业务数据的异常用户生成内容识别方法及系统
CN108038091A (zh) * 2017-10-30 2018-05-15 上海思贤信息技术股份有限公司 一种基于图的裁判文书案件相似计算与检索方法及系统
CN110196886A (zh) * 2019-04-19 2019-09-03 安徽大学 农业面源污染多源异构大数据关联方法及采用该方法的大数据监管平台
WO2019168703A1 (en) * 2018-02-28 2019-09-06 Microsoft Technology Licensing, Llc Automatic malicious session detection
CN110674331A (zh) * 2018-06-15 2020-01-10 华为技术有限公司 信息处理方法、相关设备及计算机存储介质
CN110851675A (zh) * 2019-10-10 2020-02-28 厦门市美亚柏科信息股份有限公司 一种数据提取方法、装置及介质
CN111459908A (zh) * 2020-03-08 2020-07-28 中国科学院城市环境研究所 一种基于数据湖的多源异构生态环境大数据处理方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0968477A1 (en) * 1997-03-24 2000-01-05 Queen's University At Kingston Coincidence detection method, products and apparatus
WO2014032614A1 (en) * 2012-09-03 2014-03-06 Tencent Technology (Shenzhen) Company Limited Method and apparatus for pushing network information
EP2790153A2 (en) * 2013-02-28 2014-10-15 Kabushiki Kaisha Toshiba Environment evaluation apparatus, method and program
KR20160125256A (ko) * 2015-04-21 2016-10-31 네이처링 주식회사 생태 및 환경정보 제공 시스템 및 그 방법
CN106845371A (zh) * 2016-12-31 2017-06-13 中国科学技术大学 一种城市路网机动车尾气排放遥感监控系统
CN107256257A (zh) * 2017-06-12 2017-10-17 上海携程商务有限公司 基于业务数据的异常用户生成内容识别方法及系统
CN108038091A (zh) * 2017-10-30 2018-05-15 上海思贤信息技术股份有限公司 一种基于图的裁判文书案件相似计算与检索方法及系统
WO2019168703A1 (en) * 2018-02-28 2019-09-06 Microsoft Technology Licensing, Llc Automatic malicious session detection
CN110674331A (zh) * 2018-06-15 2020-01-10 华为技术有限公司 信息处理方法、相关设备及计算机存储介质
CN110196886A (zh) * 2019-04-19 2019-09-03 安徽大学 农业面源污染多源异构大数据关联方法及采用该方法的大数据监管平台
CN110851675A (zh) * 2019-10-10 2020-02-28 厦门市美亚柏科信息股份有限公司 一种数据提取方法、装置及介质
CN111459908A (zh) * 2020-03-08 2020-07-28 中国科学院城市环境研究所 一种基于数据湖的多源异构生态环境大数据处理方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117434227A (zh) * 2023-12-20 2024-01-23 河北金隅鼎鑫水泥有限公司 一种水泥制造厂的废气成分监控方法及系统
CN117434227B (zh) * 2023-12-20 2024-04-30 河北金隅鼎鑫水泥有限公司 一种水泥制造厂的废气成分监控方法及系统

Also Published As

Publication number Publication date
CN111813964B (zh) 2020-12-11

Similar Documents

Publication Publication Date Title
CN107437038B (zh) 一种网页篡改的检测方法及装置
US8180773B2 (en) Detecting duplicate documents using classification
US9251248B2 (en) Using context to extract entities from a document collection
CN112686036B (zh) 风险文本识别方法、装置、计算机设备及存储介质
CN111737499A (zh) 基于自然语言处理的数据搜索方法及相关设备
CN108829656B (zh) 网络信息的数据处理方法及数据处理装置
Wisse et al. Scripting dna: Identifying the javascript programmer
CN112257413B (zh) 地址参数处理方法及相关设备
CN111552800A (zh) 摘要生成方法、装置、电子设备及介质
CN111813964B (zh) 基于生态环境的数据处理方法及相关设备
CN105808602B (zh) 一种垃圾信息的检测方法及装置
Du et al. ExpSeeker: Extract public exploit code information from social media
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN112016317A (zh) 基于人工智能的敏感词识别方法、装置及计算机设备
CN108804917B (zh) 一种文件检测方法、装置、电子设备及存储介质
CN115470489A (zh) 检测模型训练方法、检测方法、设备以及计算机可读介质
CN111563276B (zh) 一种网页篡改检测方法、检测系统及相关设备
CN114880540A (zh) 一种基于智慧金融文本评论的智能提醒方法
CN114417860A (zh) 一种信息检测方法、装置及设备
CN112559679A (zh) 政法新媒体传播力的检测方法、装置、设备及存储介质
CN110851826B (zh) 一种篡改页面的检测方法、装置、设备及可读存储介质
CN113158686A (zh) 网络文化经营合规检测方法、装置、可读介质及电子设备
CN112269852A (zh) 生成舆情专题方法、系统及存储介质
CN117708350B (zh) 企业政策的信息关联方法、装置及电子设备
CN113032775A (zh) 情报处理方法和情报处理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant