CN111159172B - 一种数据处理方法、装置及电子设备 - Google Patents

一种数据处理方法、装置及电子设备 Download PDF

Info

Publication number
CN111159172B
CN111159172B CN201911420947.7A CN201911420947A CN111159172B CN 111159172 B CN111159172 B CN 111159172B CN 201911420947 A CN201911420947 A CN 201911420947A CN 111159172 B CN111159172 B CN 111159172B
Authority
CN
China
Prior art keywords
point
data
point set
points
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911420947.7A
Other languages
English (en)
Other versions
CN111159172A (zh
Inventor
华思洋
王璐璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Froming Huasheng Information Technology Co.,Ltd.
Original Assignee
Beijing Waming Huaqing Environmental Protection Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Waming Huaqing Environmental Protection Technology Co ltd filed Critical Beijing Waming Huaqing Environmental Protection Technology Co ltd
Priority to CN201911420947.7A priority Critical patent/CN111159172B/zh
Publication of CN111159172A publication Critical patent/CN111159172A/zh
Application granted granted Critical
Publication of CN111159172B publication Critical patent/CN111159172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种数据处理方法、装置及电子设备,所述方法包括:获取第一区域的第一点集,所述第一点集中包括多个数据点;判断所述第一点集中每个数据点的参数是否异常;若是,则将所述数据点作为目标点集中的数据点;若否,则将所述数据点作为第二点集中的数据点;按照预设抽稀算法对所述第二点集进行抽稀,得到第三点集;将所述第三点集中的数据点作为所述目标点集中的数据点。本发明实施例提供的一种数据处理方法、装置及电子设备,可以避免对数据点进行抽稀处理后重要数据丢失的问题。

Description

一种数据处理方法、装置及电子设备
技术领域
本发明涉及数据处理领域,具体涉及一种数据处理方法、装置及电子设备。
背景技术
采样法是现有技术中一种常用的数据分析方法,然而当采样数据较密时,不仅不利于计算与渲染,反而可能影响对分布特征的识别。因此,当采样数据较密时,通常需要对数据进行抽稀处理后,再对数据进行分析。
现有技术中,在对数据点进行抽稀处理时,通常仅考虑各个点在空间上的相对位置,而不考虑被抽稀的点是否为关键点,从而导致抽稀后,重要数据点丢失的问题。
发明内容
本发明实施例的目的在于提供一种数据处理方法、装置及电子设备,可以避免对数据点进行抽稀处理后重要数据丢失的问题。
为实现上述目的,本发明实施例提供了一种数据处理方法,包括:
获取第一区域的第一点集,所述第一点集中包括多个数据点;
判断所述第一点集中每个数据点的参数是否异常;
若是,则将所述数据点作为目标点集中的数据点;
若否,则将所述数据点作为第二点集中的数据点;
按照预设抽稀算法对所述第二点集进行抽稀,得到第三点集;
将所述第三点集中的数据点作为所述目标点集中的数据点。
可选地,所述数据点的参数为环境参数。
可选地,所述第二点集包括至少一个子点集,每个所述子点集中的数据点均位于同一线段周围的预设范围内,所述按照预设抽稀算法对所述第二点集进行抽稀,包括:
若所述子点集中相距最远的两个数据点之间的距离大于第一预设值,则在所述子点集选取第一数据点、第二数据点和至少一个第三数据点作为第四点集中的数据点;
若所述子点集中相距最远的两个数据点之间的距离不大于所述第一预设值,则在所述子点集选取所述第一数据点和所述第二数据点作为第四点集中的数据点;
其中,所述第一数据点和所述第二数据点为所述子点集中相距最远的两个数据点,所述第三数据点为位于所述第一数据点和所述第二数据点之间的数据点。
可选地,所述在所述子点集选取第一数据点、第二数据点和至少一个第三数据点作为第四点集中的数据点,包括:
以所述第一预设值为分割长度,对连接所述第一数据点和第二数据点形成的线段进行分割,得到N个分割点,其中,所述N为大于等于1的整数;
从每个所述分割点的预设范围内的数据点中选取一个数据点作为所述第三数据点,得到N个所述第三数据点;
将所述第一数据点、第二数据点和N个所述第三数据点作为第四点集中的数据点;
其中,所述第三数据点为所述分割点的预设范围内的数据点中,距离所述分割点最近的数据点。
可选地,所述方法还包括:
对所述第四点集中的数据点进行筛选,得到所述第三点集,所述第三点集中任意相邻两个数据点之间的距离均大于第二预设值;
其中,所述对所述第四点集中的数据点进行筛选,得到第三点集,包括:
若所述第四点集中相邻两个数据点之间的距离小于等于所述第二预设值,则将所述相邻两个数据点中的其中一个数据点从所述第四点集中删除,直到所述第四点集中任意相邻两个数据点之间的距离均大于第二预设值时,将所述第四点集作为所述第三点集输出。
可选地,所述方法还包括:
对所述第二点集进行分割,得到至少一个所述子点集,其中,每个所述子点集中的数据点均位于同一线段周围的预设范围内。
可选地,所述第二点集为包括多个序列点的序列点集,所述对所述第二点集进行分割,得到至少一个子点集,包括:
连接所述第二点集中的第四数据点和第五数据点,形成第一线段,其中,所述第四数据点和所述第五数据点分别为所述第二点集中的序列首点和序列尾点;
若所述第二点集中的第六数据点与所述第一线段之间的距离大于等于第三预设值,则以所述第六数据点作为分割点,将所述第二点集分割为两个序列点子集;
若第二点集中的第六数据点与所述第一线段之间的距离小于所述第三预设值,则将所述第二点集作为所述子点集;
其中,所述第六数据点为所述第二点集中距离所述第一线段最远的数据点。
可选地,所述方法还包括:
判断所述序列点子集中的点是否均位于同一线段周围的预设范围内;
若是,则将所述序列点子集作为所述子点集;
若否,则对所述序列点子集进行分割,得到至少一个所述子点集。
为实现上述相同目的,本发明实施例还提供了一种数据处理装置,包括:
获取模块,用于获取第一区域的第一点集,所述第一点集中包括多个数据点;
判断模块,用于判断所述第一点集中每个数据点的参数是否异常;
若是,则将所述数据点作为目标点集中的数据点;
若否,则将所述数据点作为第二点集中的数据点;
抽稀模块,用于按照预设抽稀算法对所述第二点集进行抽稀,得到第三点集;
将所述第三点集中的数据点作为所述目标点集中的数据点。
为实现上述相同目的,本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-8中任一所述的方法步骤。
本发明实施例提供了一种数据处理方法、装置及电子设备,通过在抽稀之前先判断数据点的参数是否异常,并将参数异常的数据点直接抽稀至抽稀结果中,然后对剩下的点安装预设抽稀算法进行抽稀,如此,在抽稀处理过程中,既可保障参数异常的数据点不丢失,还可以实现对第一点集的抽稀处理。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据处理方法的流程图;
图2是本发明实施例中按照预设抽稀算法对所述第二点集进行抽稀过程的流程图;
图3是本发明另一实施例中按照预设抽稀算法对所述第二点集进行抽稀过程的流程图;
图4是本发明实施例中第二点集中的数据点的分布图;
图5是本发明实施例中第一预设值为200m时的抽稀结果示意图;
图6是本发明实施例中第一预设值为800m时的抽稀结果示意图;
图7是本发明实施例中第二预设值为50m时的抽稀结果示意图;
图8是本发明实施例中第二预设值为200m时的抽稀结果示意图;
图9是本发明实施例中第三预设值为50m时的抽稀结果示意图;
图10是本发明实施例中第三预设值为150m时的抽稀结果示意图;
图11位本发明实施例中提供的一种数据处理装置的结构示意图;
图12是本发明实施例中提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,图1是本发明实施例提供的一种数据处理方法,该方法包括以下步骤:
步骤101、获取第一区域的第一点集,所述第一点集中包括多个数据点;
其中,所述第一区域可以是地理位置上的一定区域,即所有进行研究的范围,例如,需要研究A地的天气分布情况或研究A地的空气情况,则第一区域是A地,此时,由于A地由无数个点组成,无法将A地的所有点逐一进行分析,也没有必要对A地的所有点进行分析,因此,可以以采样法在A地的若干个位置采集多个数据点,研究该多个数据点,既可基本确定A地整体的情况。
步骤102、判断所述第一点集中每个数据点的参数是否异常;
步骤103、若是,则将所述数据点作为目标点集中的数据点;
步骤104、若否,则将所述数据点作为第二点集中的数据点;
其中,所述数据点的参数可以是指数据点内所存储的数据,例如,当研究的是天气分布情况时,可以是判断数据点中所存储的温度、湿度等信息是否在预设范围内,以确定该数据点的参数是否异常;又例如,当研究对象时空气质量时,则可以通过判断空气中某一物质的含量是否在预设范围内,以确定该数据点的参数是否异常。
步骤105、按照预设抽稀算法对所述第二点集进行抽稀,得到第三点集;
步骤106、将所述第三点集中的数据点作为所述目标点集中的数据点。
具体地,本发明实施例中,通过在抽稀之前先判断数据点的参数是否异常,并将参数异常的数据点直接抽稀至抽稀结果中,然后对剩下的点安装预设抽稀算法进行抽稀,如此,在抽稀处理过程中,既可保障参数异常的数据点不丢失,还可以实现对第一点集的抽稀处理。
可选地,所述数据点的参数为环境参数。
其中,所述环境参数可以为空气中以下参数中的至少一项:pm2.5浓度,pm10浓度,O3浓度,SO2浓度,No2浓度,co浓度。
上述判断所述第一点集中每个数据点的参数是否异常,包括:
判断所述第一点集中每个数据点的参数是否超过预设值。
其中,所述预设值可以为大于90%的任意一个数,例如,95%。此外,上述判断所述第一点集中每个数据点的参数是否异常,包括:分别判断数据点中pm2.5浓度,pm10浓度,O3浓度,SO2浓度,No2浓度,co浓度六项参数是否超过预设值。只有当数据点的该六项参数均未超过对应的预设值,则确定该数据点的参数正常,反之,则确定该数据点异常。
其中,在分析控制污染情况时,第一点集中的数据点可以是原始数据点,且第一点集中的数据点内的参数可以通过大气检测仪进行采集,例如,通过“WM-C400便携式大气检测仪”采集数据点所在位置的pm2.5浓度,pm10浓度,O3浓度,SO2浓度,No2浓度,co浓度,此外,上述数据点中还可以包括地理位置信息。
本发明实施例中,通过在抽稀之前先判断数据点的参数是否异常,并将参数异常的数据点直接抽稀至抽稀结果中,然后对剩下的点安装预设抽稀算法进行抽稀,如此,在抽稀处理过程中,既可保障参数异常的数据点不丢失,还可以实现对第一点集的抽稀处理。具体地,研究人员可以根据目标点集中的数据点制作空气质量分布图,并将参数异常的数据点高亮显示,并在参数异常的数据点处显示该异常参数,以对环境中污染物研究为例,还可以对参数异常的数据点按照污染物的超标程度进一步进行分级,并按照超标程度越高,则数据点所在位置显示的颜色越深的方式进行显示,如此,可以方便人们快速、准确的了解研究范围内的空气污染情况。
此外,经过分析,采用现有技术中的方法对数据点进行抽稀时,主要是通过将数据点集中的点划分为若干个线段,然后抽取每个线段的两个端点,并舍去两个端点之间的数据点,从而实现对数据点集的抽稀处理,然而,采用此种方式,由于所划分得到的若干线段的长短不一,而较长的线段通常包括的数据点较多,较短的线段通常包括的数据点较少,若统一对所有线段均抽取两个端点,将导致所抽稀结果无法体现较长的线段中的数据点的分布特征,进而导致抽稀结果不准确。
基于此,本发明实施例还进一步对上述步骤105、按照预设抽稀算法对所述第二点集进行抽稀,得到第三点集,进行了改进,具体如下:
请参见图2,所述第二点集包括至少一个子点集,每个所述子点集中的数据点均位于同一线段周围的预设范围内,所述按照预设抽稀算法对所述第二点集进行抽稀,包括以下步骤:
步骤201、若所述子点集中相距最远的两个数据点之间的距离大于第一预设值,则在所述子点集选取第一数据点、第二数据点和至少一个第三数据点作为第四点集中的数据点;
步骤202、若所述子点集中相距最远的两个数据点之间的距离不大于所述第一预设值,则在所述子点集选取所述第一数据点和所述第二数据点作为第四点集中的数据点;
其中,所述第一数据点和所述第二数据点为所述子点集中相距最远的两个数据点,所述第三数据点为位于所述第一数据点和所述第二数据点之间的数据点。
具体地,可以对第二点集进行处理,以将第二点集划分为若干个子点集。其中,所述子点集可以是包括单个离散点的点集,也可以是包括若干个位于同一线段上的数据点的点集,还可以是包括若干个位于同一线段周围的预设范围内的数据点的点集等。此外,所述位于同一线段周围的预设范围内中的所述预设范围可以是指距离该线段的距离小于10cm的范围内、10m的范围内、100m的范围内或1000m的范围内等,具体可以根据第二点集中的数据点的分布情况而定,对此,不作限制。
上述第一预设值的取值可以根据第二点集中的子点集所形成的线段的长度而定。由于第二点集中的子点集所形成的线段可能长短不一,因此,所述第一预设值的取值可以为第二点集中的所有子点集所形成的线段的长度的平均长度,例如,第二点集包括3个子点集,3个子点集所形成的线段的长度分别为5m、15m和40m,此时,第一预设值的大小可以为20m。所述第一预设值的取值也可以是将所有子点集所形成的线段按照长度大小进行排列,取排在中间位置的线段的长度作为第一预设值的长度,例如,第二点集包括5个子点集,5个子点集所形成的线段的长度分别为5m、15m、40m、70m、120m,此时,第一预设值的大小可以为40m。此外,所述第一预设值的取值也可以根据第二点集中的数据点分布情况而定,对此,不作限制。
此外,上述数据点可以是位于某一坐标系内的数据点,且该数据点中可以包括其所处的位置信息,如位置坐标。由于每个子点集中的数据点均位于同一线段周围的预设范围内,因此,每个子点集均可等效为一个线段处理。在对每个子点集中的数据点进行抽稀之前,可以先计算每个子点集中相距最远的两个数据点之间的距离,以确定该子点集所形成的线段的长度大小,当计算出所有子点集所形成的线段的长度大小后,可以根据所计算的结果,确定第一预设值的取值,并分别将每个子点集中的数据点所形成的线段的长度大小与所述第一预设值进行比较,以确定该子点集所形成的线段是否为第二点集中相对较长的线段。
然后,根据比较结果对子点集进行分别进行抽稀,具体地,若所述子点集中相距最远的两个数据点之间的距离大于第一预设值,则说明该子点集所形成的线段为第二点集中相对较长的线段,因此,在对该子点集进行抽稀时,除选取该子点集所形成的线段两端点(即第一数据点和第二数据点)外,还可以选取至少一个位于两端点之间的数据点(即至少一个第三数据点),以使抽稀结果更能够体现每个子点集中的数据点的分布特征,进而提高了抽稀结果的准确性。其中,当判断出所述子点集所形成的线段的长度越长时,则可以对应在该子点集中选取更多的第三数据点,以使抽稀结果能够更好的体现该子点集中的数据点的分布特征,进而提高了抽稀结果的准确性。
可选地,所述在所述子点集选取第一数据点、第二数据点和至少一个第三数据点作为第四点集中的数据点,包括:
以所述第一预设值为分割长度,对连接所述第一数据点和第二数据点形成的线段进行分割,得到N个分割点,其中,所述N为大于等于1的整数;
从每个所述分割点的预设范围内的数据点中选取一个数据点作为所述第三数据点,得到N个所述第三数据点;
将所述第一数据点、第二数据点和N个所述第三数据点作为第四点集中的数据点。
具体地,可以连接所述第一数据点和第二数据点形成一条线段,然后以所述第一预设值为分割长度对所述线段进行分割,可以从该线段的中间位置向两侧进行分割,也可以从该线段的一端向另一端进行分割,还可以在线段上任取一点,从该点开始向线段的两端进行分割,优选地,从所述第一数据点开始,以所述第一预设值为分割长度,对连接所述第一数据点和第二数据点形成的线段进行分割。此外,从每个所述分割点的预设范围内中的预设范围可以是指:以该分割点为圆心,以所述第一预设值的小大为半径形成的圆的范围内,可以优选选取距离该分割点较近的数据点。优选地,所述第三数据点为所述分割点的预设范围内的数据点中,距离所述分割点最近的数据点。
作为一种可选的实施方式,所述方法还包括:对所述第四点集中的数据点进行筛选,得到第三点集,其中,所述第三点集中任意相邻两个数据点之间的距离均大于第二预设值。
其中,由于第二点集中包括至少一个子点集,且每个字点集均位于同一选段周围的预设范围内,但可能存在两个子点集分别位于两条相交的线段的周围的情形,如此,在对该两个子点集进行抽稀时,将导致在两条线段的附件抽稀出重合的数据点或者距离相近的数据点,从而导致第四点集中存在相同的两个数据点或距离很近的数据点,进而导致抽稀结果中存在明显的数据点交叠的情况,不利于可视化的展示。
基于此,本发明实施例进一步对第四点集中的数据点进行筛选,以筛选出重叠的数据点或者距离很近的数据点,从而得到第三点集,从而提高了抽稀结果的抽稀质量。
可选地,所述对所述第四点集中的数据点进行筛选,得到第三点集,包括:
若所述第四点集中相邻两个数据点之间的距离小于等于所述第二预设值,则将所述相邻两个数据点中的其中一个数据点从所述第四点集中删除,直到所述第四点集中任意相邻两个数据点之间的距离均大于第二预设值时,将所述第四点集作为所述第三点集输出。
具体地,可以通过计算第四点集中任意相邻两个数据点的距离,具体地,可以对第四点集中的点进行编号,按照编号顺序进行计算,例如:首先计算编号为1的数据点与第四点集中其他数据点的距离,并确定该数据点与其他数据点中最小的距离,将该最小距离与第二预设值进行比较,若该最小距离大于第二预设值,则将该数据点保留在第四点集中,若该最小距离小于等于所述第二预设值,则将该数据点从第四点集中删除;若删除后,得到不包括编号为1的第四点集,然后继续按照上述步骤计算编号为2的数据点与新生成的第四点集中的其他数据点的距离,进而进一步判断是否将该编号为2的数据点从第四点集中删除,直到所述第四点集中任意相邻两个数据点之间的距离均大于第二预设值时,将所述第四点集作为所述第三点集输出。如此,可以保证筛选后得到的第三点集中不存在重合的数据点或者距离过近的数据点。
作为一种可选的实施方式,所述方法还包括:
对所述第二点集进行分割,得到至少一个所述子点集,其中,每个所述子点集中的数据点均位于同一线段周围的预设范围内。
具体地,通过将第二点集进行分割处理,从而得到至少一个所述子点集,进而方便以每个子点集为单位分别进行抽稀,从而保证了抽稀过程的有序性。
可选地,所述第二点集为包括多个序列点的序列点集,所述对所述第二点集进行分割,得到至少一个子点集,包括:
连接所述第二点集中的第四数据点和第五数据点,形成第一线段,其中,所述第四数据点和所述第五数据点分别为所述第二点集中的序列首点和序列尾点;
若所述第二点集中的第六数据点与所述第一线段之间的距离大于等于第三预设值,则以所述第六数据点作为分割点,将所述第二点集分割为两个序列点子集;
若第二点集中的第六数据点与所述第一线段之间的距离小于所述第三预设值,则将所述第二点集作为所述子点集;
其中,所述第六数据点为所述第二点集中距离所述第一线段最远的数据点。
其中,所述方法还包括:
判断所述序列点子集中的点是否均位于同一线段周围的预设范围内;
若是,则将所述序列点子集作为所述子点集;
若否,则对所述序列点子集进行分割,得到至少一个所述子点集。
具体地,以下以一具体实施例对第二点集的分割处理过程进行进一步说明,例如:第二点集为包括8个序列点的序列点集:{1号点,2号点,3号点,4号点,5号点,6号点,7号点,8号点},其中,可以看出1号点和8号点分别为序列首点和序列尾点,在坐标系中分别确定第二点集中8个序列点的位置,然后连接1号点和8号点形成第一线段,若所述2号点至7号点中,6号点距离所述第一线段的距离最远,且6号点与所述第一线段之间的距离大于所述第三预设值,此时,以所述6号点作为分割点将所述第二点集分割为以下两个序列点子集:{1号点,2号点,3号点,4号点,5号点,6号点}和{6号点,7号点,8号点},若序列点子集{6号点,7号点,8号点}中的三个序列点均位于同一线段周围的预设范围内,则将序列点子集{6号点,7号点,8号点}作为上述子点集;若序列点子集{1号点,2号点,3号点,4号点,5号点,6号点}并非所有点均位于同一线段周围的预设范围内,则进一步对序列点子集{1号点,2号点,3号点,4号点,5号点,6号点}进行分割,具体分割过程如下:连接所述1号点和6号点形成第二线段,若所述5号点距离所述第二线段的距离最远,且5号点与所述第二线段之间的距离大于所述第三预设值,此时,以所述5号点作为分割点将该序列点子集分割为以下两个序列点次子集:{1号点,2号点,3号点,4号点,5号点}和{5号点,6号点},若序列点次子集{1号点,2号点,3号点,4号点,5号点}和{5号点,6号点}中的序列点均分别位于同一线段周围的预设范围内,则将序列点次子集{1号点,2号点,3号点,4号点,5号点}和{5号点,6号点}分别作为上述子点集。
作为一种可选的实施方式,请参见图3,所述第二点集包括至少一个子点集,每个所述子点集中的数据点均位于同一线段周围的预设范围内,所述按照预设抽稀算法对所述第二点集进行抽稀,包括以下步骤:
步骤301、连接所述第二点集中的第四数据点和第五数据点,形成第一线段,其中,所述第四数据点和所述第五数据点分别为所述第二点集中的序列首点和序列尾点;
步骤302、判断第六数据点与所述第一线段之间的距离是否大于等于第三预设值,其中,所述第六数据点为所述第二点集中距离所述第一线段最远的数据点;
步骤303、若是,则以所述第六数据点作为分割点,将所述第二点集分割为两个序列点子集;
步骤304、若否,将所述第二点集作为所述子点集
步骤305、判断所述序列点子集中的点是否均位于同一线段周围的预设范围内;
步骤306、若是,则将所述序列点子集作为所述子点集;
步骤307、若否,对所述序列点子集进行分割,得到至少一个所述子点集;
步骤308、输出至少一个子点集;
步骤309、判断所述子点集中距离最大相距最远的两个数据点之间的距离是否大于第一预设值;
步骤310、若是,在所述子点集选取第一数据点、第二数据点和至少一个第三数据点作为第四点集中的数据点,其中,所述第一数据点和所述第二数据点为所述子点集中相距最远的两个数据点,所述第三数据点为位于所述第一数据点和所述第二数据点之间的数据点;
步骤311、若否,在所述子点集选取所述第一数据点和所述第二数据点作为第四点集中的数据点;
步骤312、若所述第四点集中相邻两个数据点之间的距离小于等于所述第二预设值,则将所述相邻两个数据点中的其中一个数据点从所述第四点集中删除,直到所述第四点集中任意相邻两个数据点之间的距离均大于第二预设值时,将所述第四点集作为所述第三点集输出。
需要说明的是,本实施例为与上述实施方式相对应的实施方式,其具体地实施方式可以参加上述实施例的相关说明,为了避免重复说明,本实施例不再赘述,且还可以达到相同有益效果。
以下以一具体实施例对采用本发明所提供的数据处理方法进行进一步说明书,请参见图4,为所采集到的数据点集合的数据点分布图,也即第一集合中的数据点的分布图,其中,图示数据为真实的经纬度数据,各参数单位均为米(m)。
请参见图5-6,为本发明实施例分别以第一预设值为200m和800m对图4所示的第二点集进行抽稀的抽稀结果图,其中,两种情况下第二预设值与第三预设值的取值相同,具体地,第二预设值取值为50m,第三预设值的取值为50m。经过对比分析,第一预设值的取值可以控制抽稀结果中数据点的密度,其中,第一预设值的取值越大,则抽稀结果中数据点的密度越小。在具体抽稀时,可以根据实际需要,按照该实验结论对第一预设值进行选取。
请参见图7-8,为本发明实施例分别以第二预设值为50m和200m对图4所示的第二点集进行抽稀的抽稀结果图,其中,两种情况下第一预设值与第三预设值的取值相同,具体地,第一预设值取值为200m,第三预设值的取值为50m。经过对比分析,第二预设值可以控制抽稀结果中的数据点的稠密程度,第二预设值越小,则对于数据波动越敏感,会保留更多的数据细节,第二预设值越大,则对于数据波动越不敏感,会忽略更多的数据细节。在具体抽稀时,可以根据实际需要,按照该实验结论对第二预设值进行选取。
请参见图9-10,为本发明实施例分别以第三预设值为50m和150m对图4所示的第二点集进行抽稀的抽稀结果图,其中,两种情况下第一预设值与第二预设值的取值相同,具体地,第一预设值取值为200m,第二预设值的取值为50m。经过对比分析,第三预设值可以控制相邻两个数据点之间的最小距离。在具体抽稀时,可以根据实际需要,按照该实验结论对第三预设值进行选取。
此外,请参见图11,为本发明实施例还提供了一种数据处理装置1000,包括:
获取模块1101,用于获取第一区域的第一点集,所述第一点集中包括多个数据点;
判断模块1102,用于判断所述第一点集中每个数据点的参数是否异常;
若是,则将所述数据点作为目标点集中的数据点;
若否,则将所述数据点作为第二点集中的数据点;
抽稀模块1103,用于按照预设抽稀算法对所述第二点集进行抽稀,得到第三点集;
将所述第三点集中的数据点作为所述目标点集中的数据点。
本发明实施例中,通过在抽稀之前先判断数据点的参数是否异常,并将参数异常的数据点直接抽稀至抽稀结果中,然后对剩下的点安装预设抽稀算法进行抽稀,如此,在抽稀处理过程中,既可保障参数异常的数据点不丢失,还可以实现对第一点集的抽稀处理。
本发明实施例还提供了一种电子设备,如图12所示,包括处理器1201、通信接口1202、存储器1203和通信总线1204,其中,处理器1201,通信接口1202,存储器1203通过通信总线1204完成相互间的通信,
存储器1203,用于存放计算机程序;
处理器1201,用于执行存储器1203上所存放的程序时,实现如下步骤:
获取第一区域的第一点集,所述第一点集中包括多个数据点;
判断所述第一点集中每个数据点的参数是否异常;
若是,则将所述数据点作为目标点集中的数据点;
若否,则将所述数据点作为第二点集中的数据点;
按照预设抽稀算法对所述第二点集进行抽稀,得到第三点集;
将所述第三点集中的数据点作为所述目标点集中的数据点。
可选地,所述数据点的参数为环境参数。
可选地,所述第二点集包括至少一个子点集,每个所述子点集中的数据点均位于同一线段周围的预设范围内,所述按照预设抽稀算法对所述第二点集进行抽稀,包括:
若所述子点集中相距最远的两个数据点之间的距离大于第一预设值,则在所述子点集选取第一数据点、第二数据点和至少一个第三数据点作为第四点集中的数据点;
若所述子点集中相距最远的两个数据点之间的距离不大于所述第一预设值,则在所述子点集选取所述第一数据点和所述第二数据点作为第四点集中的数据点;
其中,所述第一数据点和所述第二数据点为所述子点集中相距最远的两个数据点,所述第三数据点为位于所述第一数据点和所述第二数据点之间的数据点。
可选地,所述在所述子点集选取第一数据点、第二数据点和至少一个第三数据点作为第四点集中的数据点,包括:
以所述第一预设值为分割长度,对连接所述第一数据点和第二数据点形成的线段进行分割,得到N个分割点,其中,所述N为大于等于1的整数;
从每个所述分割点的预设范围内的数据点中选取一个数据点作为所述第三数据点,得到N个所述第三数据点;
将所述第一数据点、第二数据点和N个所述第三数据点作为第四点集中的数据点;
其中,所述第三数据点为所述分割点的预设范围内的数据点中,距离所述分割点最近的数据点。
可选地,所述方法还包括:
对所述第四点集中的数据点进行筛选,得到所述第三点集,所述第三点集中任意相邻两个数据点之间的距离均大于第二预设值;
其中,所述对所述第四点集中的数据点进行筛选,得到第三点集,包括:
若所述第四点集中相邻两个数据点之间的距离小于等于所述第二预设值,则将所述相邻两个数据点中的其中一个数据点从所述第四点集中删除,直到所述第四点集中任意相邻两个数据点之间的距离均大于第二预设值时,将所述第四点集作为所述第三点集输出。
可选地,所述方法还包括:
对所述第二点集进行分割,得到至少一个所述子点集,其中,每个所述子点集中的数据点均位于同一线段周围的预设范围内。
可选地,所述第二点集为包括多个序列点的序列点集,所述对所述第二点集进行分割,得到至少一个子点集,包括:
连接所述第二点集中的第四数据点和第五数据点,形成第一线段,其中,所述第四数据点和所述第五数据点分别为所述第二点集中的序列首点和序列尾点;
若所述第二点集中的第六数据点与所述第一线段之间的距离大于等于第三预设值,则以所述第六数据点作为分割点,将所述第二点集分割为两个序列点子集;
若第二点集中的第六数据点与所述第一线段之间的距离小于所述第三预设值,则将所述第二点集作为所述子点集;
其中,所述第六数据点为所述第二点集中距离所述第一线段最远的数据点。
可选地,所述方法还包括:
判断所述序列点子集中的点是否均位于同一线段周围的预设范围内;
若是,则将所述序列点子集作为所述子点集;
若否,则对所述序列点子集进行分割,得到至少一个所述子点集。
所述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于所述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
所述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行所述实施例中任一所述的数据处理方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行所述实施例中任一所述的数据处理方法。
在所述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (9)

1.一种数据处理方法,其特征在于,包括:
获取第一区域的第一点集,所述第一点集中包括多个数据点,所述第一区域为地理位置区域,所述数据点的参数为温度、湿度、气体含量中任一项;
判断所述第一点集中每个数据点的参数是否异常;
若是,则将所述数据点作为目标点集中的数据点;
若否,则将所述数据点作为第二点集中的数据点;
按照预设抽稀算法对所述第二点集进行抽稀,得到第三点集;
将所述第三点集中的数据点作为所述目标点集中的数据点;
所述第二点集包括至少一个子点集,每个所述子点集中的数据点均位于同一线段周围的预设范围内,所述按照预设抽稀算法对所述第二点集进行抽稀,包括:
若所述子点集中相距最远的两个数据点之间的距离大于第一预设值,则在所述子点集选取第一数据点、第二数据点和至少一个第三数据点作为第四点集中的数据点;
若所述子点集中相距最远的两个数据点之间的距离不大于所述第一预设值,则在所述子点集选取所述第一数据点和所述第二数据点作为第四点集中的数据点;
其中,所述第一数据点和所述第二数据点为所述子点集中相距最远的两个数据点,所述第三数据点为位于所述第一数据点和所述第二数据点之间的数据点。
2.根据权利要求1所述的方法,其特征在于,所述数据点的参数为环境参数。
3.根据权利要求1或2所述的方法,其特征在于,所述在所述子点集选取第一数据点、第二数据点和至少一个第三数据点作为第四点集中的数据点,包括:
以所述第一预设值为分割长度,对连接所述第一数据点和第二数据点形成的线段进行分割,得到N个分割点,其中,所述N为大于等于1的整数;
从每个所述分割点的预设范围内的数据点中选取一个数据点作为所述第三数据点,得到N个所述第三数据点;
将所述第一数据点、第二数据点和N个所述第三数据点作为第四点集中的数据点;
其中,所述第三数据点为所述分割点的预设范围内的数据点中,距离所述分割点最近的数据点。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述第四点集中的数据点进行筛选,得到所述第三点集,所述第三点集中任意相邻两个数据点之间的距离均大于第二预设值;
其中,所述对所述第四点集中的数据点进行筛选,得到第三点集,包括:
若所述第四点集中相邻两个数据点之间的距离小于等于所述第二预设值,则将所述相邻两个数据点中的其中一个数据点从所述第四点集中删除,直到所述第四点集中任意相邻两个数据点之间的距离均大于第二预设值时,将所述第四点集作为所述第三点集输出。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述第二点集进行分割,得到至少一个所述子点集,其中,每个所述子点集中的数据点均位于同一线段周围的预设范围内。
6.根据权利要求5所述的方法,其特征在于,所述第二点集为包括多个序列点的序列点集,所述对所述第二点集进行分割,得到至少一个子点集,包括:
连接所述第二点集中的第四数据点和第五数据点,形成第一线段,其中,所述第四数据点和所述第五数据点分别为所述第二点集中的序列首点和序列尾点;
若所述第二点集中的第六数据点与所述第一线段之间的距离大于等于第三预设值,则以所述第六数据点作为分割点,将所述第二点集分割为两个序列点子集;
若第二点集中的第六数据点与所述第一线段之间的距离小于所述第三预设值,则将所述第二点集作为所述子点集;
其中,所述第六数据点为所述第二点集中距离所述第一线段最远的数据点。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
判断所述序列点子集中的点是否均位于同一线段周围的预设范围内;
若是,则将所述序列点子集作为所述子点集;
若否,则对所述序列点子集进行分割,得到至少一个所述子点集。
8.一种数据处理装置,其特征在于,包括:
获取模块,用于获取第一区域的第一点集,所述第一点集中包括多个数据点,所述第一区域为地理位置区域,所述数据点的参数为温度、湿度、气体含量中任一项;
判断模块,用于判断所述第一点集中每个数据点的参数是否异常;
若是,则将所述数据点作为目标点集中的数据点;
若否,则将所述数据点作为第二点集中的数据点;
抽稀模块,用于按照预设抽稀算法对所述第二点集进行抽稀,得到第三点集;
将所述第三点集中的数据点作为所述目标点集中的数据点;
所述第二点集包括至少一个子点集,每个所述子点集中的数据点均位于同一线段周围的预设范围内,所述抽稀模块还用于执行以下操作:
若所述子点集中相距最远的两个数据点之间的距离大于第一预设值,则在所述子点集选取第一数据点、第二数据点和至少一个第三数据点作为第四点集中的数据点;
若所述子点集中相距最远的两个数据点之间的距离不大于所述第一预设值,则在所述子点集选取所述第一数据点和所述第二数据点作为第四点集中的数据点;
其中,所述第一数据点和所述第二数据点为所述子点集中相距最远的两个数据点,所述第三数据点为位于所述第一数据点和所述第二数据点之间的数据点。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7中任一所述的方法步骤。
CN201911420947.7A 2019-12-31 2019-12-31 一种数据处理方法、装置及电子设备 Active CN111159172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911420947.7A CN111159172B (zh) 2019-12-31 2019-12-31 一种数据处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911420947.7A CN111159172B (zh) 2019-12-31 2019-12-31 一种数据处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111159172A CN111159172A (zh) 2020-05-15
CN111159172B true CN111159172B (zh) 2023-10-03

Family

ID=70560537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911420947.7A Active CN111159172B (zh) 2019-12-31 2019-12-31 一种数据处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111159172B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115630181B (zh) * 2022-11-04 2024-03-15 中科星图数字地球合肥有限公司 一种数据抽稀方法、装置及相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016116045A1 (zh) * 2015-01-21 2016-07-28 高德软件有限公司 电子地图的数字地面模型数据生成方法和装置
CN105825011A (zh) * 2016-03-16 2016-08-03 浙江华东测绘地理信息有限公司 一种多波束测深离散点云数据的并行抽稀方法
CN108667684A (zh) * 2018-03-30 2018-10-16 桂林电子科技大学 一种基于局部向量点积密度的数据流异常检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016116045A1 (zh) * 2015-01-21 2016-07-28 高德软件有限公司 电子地图的数字地面模型数据生成方法和装置
CN105825011A (zh) * 2016-03-16 2016-08-03 浙江华东测绘地理信息有限公司 一种多波束测深离散点云数据的并行抽稀方法
CN108667684A (zh) * 2018-03-30 2018-10-16 桂林电子科技大学 一种基于局部向量点积密度的数据流异常检测方法

Also Published As

Publication number Publication date
CN111159172A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN110426493B (zh) 空气质量监测数据校准方法、装置、设备和存储介质
CN111918298B (zh) 基于聚类的站点规划方法、装置、电子设备和存储介质
CN114422267A (zh) 流量检测方法、装置、设备及介质
CN111159172B (zh) 一种数据处理方法、装置及电子设备
CN112232341A (zh) 文本检测方法、电子设备及计算机可读介质
CN113971653A (zh) 面向遥感图像的目标检测方法、装置、设备及存储介质
CN111738316B (zh) 零样本学习的图像分类方法、装置及电子设备
CN115718169A (zh) 大气污染高值区域的定位方法、装置、设备及存储介质
CN112214677A (zh) 一种兴趣点推荐方法、装置、电子设备及存储介质
CN113313117B (zh) 一种识别文本内容的方法及装置
CN114444168A (zh) 建筑图纸中墙柱的识别方法、装置、电子设备和存储介质
CN111136655B (zh) 一种获取巡检点的方法及装置
CN116228501B (zh) 排污超标区域行业确定方法、装置、存储介质及电子设备
US8755606B2 (en) Systems and methods for efficient feature extraction accuracy using imperfect extractors
CN111967449A (zh) 文本检测方法、电子设备及计算机可读介质
CN110956800B (zh) 一种路段交通数据预处理方法、装置及电子设备
CN115861816A (zh) 一种立体低涡识别方法、装置、存储介质及终端
CN111144612B (zh) 一种加油站位置点预测方法、装置、存储介质及终端
CN113808134A (zh) 油罐布局信息生成方法、装置、电子设备、介质
CN115564864A (zh) 围栏生成方法、装置、设备及存储介质
CN113324998B (zh) 一种用于钛合金棒材的生产质检监管系统
CN112581407A (zh) 一种距离像的噪声抑制方法、装置、电子设备及存储介质
CN115204132B (zh) 图表描述信息生成方法、装置、设备、介质和程序产品
CN113572768B (zh) 一种僵尸网络家族传播源数量变化异常的分析方法
CN112683221B (zh) 一种建筑检测方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231102

Address after: 630, 6th Floor, Building 3, Yard 2, Qingheying East Road, Chaoyang District, Beijing, 100012

Patentee after: Beijing Froming Huasheng Information Technology Co.,Ltd.

Address before: 100011 405-012, block a, 4th floor, 138 andingmenwai street, Dongcheng District, Beijing

Patentee before: BEIJING WAMING HUAQING ENVIRONMENTAL PROTECTION TECHNOLOGY Co.,Ltd.