CN110866689B - 一种空间扫描统计量中选择最大扫描窗口的方法 - Google Patents
一种空间扫描统计量中选择最大扫描窗口的方法 Download PDFInfo
- Publication number
- CN110866689B CN110866689B CN201911098231.XA CN201911098231A CN110866689B CN 110866689 B CN110866689 B CN 110866689B CN 201911098231 A CN201911098231 A CN 201911098231A CN 110866689 B CN110866689 B CN 110866689B
- Authority
- CN
- China
- Prior art keywords
- aggregation
- maximum
- scanning
- aggregate
- likelihood ratio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000002776 aggregation Effects 0.000 claims abstract description 117
- 238000004220 aggregation Methods 0.000 claims abstract description 117
- 238000011156 evaluation Methods 0.000 claims abstract description 31
- 238000011160 research Methods 0.000 claims abstract description 13
- 238000000342 Monte Carlo simulation Methods 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000011835 investigation Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000034994 death Effects 0.000 description 2
- 231100000517 death Toxicity 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 201000007741 female breast cancer Diseases 0.000 description 2
- 201000002276 female breast carcinoma Diseases 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Remote Sensing (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种空间扫描统计量中选择最大扫描窗口的方法,包括以下步骤:一:给定最大扫描窗口对研究区域扫描,得到一系列扫描窗口;二:将得到的扫描窗口作为备择假设,将研究区域中不存在聚集性区域的扫描窗口作为零假设,基于泊松分布构建每个扫描窗口的对数似然比,选择对数似然比大于蒙特卡罗模拟临界值的扫描窗口作为检测到的聚集性区域;三:提取不具有空间重叠性的聚集性区域,计算该给定参数下的评价指标;四:更换不同的最大扫描窗口,计算各给定参数条件下的评价指标;五:比较各评价指标,对应评价指标值最大的给定参数条件即为最大扫描窗口。本发明无需在分析前知道确切的扫描聚集情况,基于实际数据即可计算出最大扫描窗口。
Description
技术领域
本发明属于时空事件聚类分析技术领域,尤其涉及一种空间扫描统计量中选择最大扫描窗口的方法。
背景技术
随着地理信息系统、全球定位系统和遥感技术的发展,出现了大量具有地理位置的健康相关数据集。准确地识别地区之间的空间变异性,如疾病发病率的差异,在寻找疾病的潜在病因、分配有限的卫生资源、制定合理的公共卫生政策和探索健康相关问题的特征等方面发挥着重要作用。Kulldorff的空间扫描统计量是识别这种差异的最常用方法之一,其能检测与其他区域显著不同的区域,即聚集区域。
Kulldorff的空间扫描统计量已被广泛用于聚集性区域的探测,SaTScan软件也可以很方便的实现这一技术,然而选择不同的扫描参数将导致不同的探测结果,尤其是最大扫描窗口对结果的影响极为重要。目前对最大扫描窗口进行选择主要存在的方法有:1)默认50%窗口;2)根据先验知识;3)不需要任何先验知识的MCS-P统计量。对于前两种方法,目前仅需通过SaTScan软件即可实现。但前两种方法存在其本身的缺点:默认50%窗口将有较高的误报率。而先验知识缺乏,导致方法二难以实现。所以方法三更需要被采用,以更准确的探测到聚集性区域。然而方法三目前没有一个成熟的技术能一步完成,通常的做法为:将备选的一系列最大扫描窗口参数逐一用SaTScan软件进行结果探测,然后将每一个结果手动导出到第三方软件,再逐一计算MCS-P(聚集比例统计量),最后通过比较各自的MCS-P(聚集比例统计量)值,以选择出最大扫描窗口。但这种实现方法较为繁琐,容易出错。且当聚集性区域间存在异质性时,难以选择到一个较好的最大扫描窗口。
大多数研究中,空间扫描统计量(spatial Scan statistic)均基于默认最大扫描窗口,但一些其它最大扫描窗口也被选择,基于如下原因如:干预资源有限、特殊地形、扫描位置不连续。在实际数据集中,不同最大扫描窗口的检测结果也有显著性差异。不同的最大扫描窗口将导致同一数据中检测到的聚集性区域大小、位置和数目不同。因此,如何选择最大扫描窗口是准确识别聚集性区域的关键。
发明内容
本发明的目的在于克服现有技术中存在的上述问题,提供一种空间扫描统计量中选择最大扫描窗口的方法,本发明无需在分析前知道研究区域确切的扫描聚集情况,单纯基于实际数据即可计算出最大扫描窗口,具有更加广阔的现实适用性。
为实现上述目的,本发明采用的技术方案如下:
一种空间扫描统计量中选择最大扫描窗口的方法,其特征在于,包括以下步骤:
步骤一:给定最大扫描窗口,对研究区域进行扫描,得到一系列扫描窗口;
步骤二:将得到的扫描窗口作为备择假设,将研究区域中不存在聚集性区域的扫描窗口作为零假设,然后基于泊松分布构建每个扫描窗口的对数似然比,最后选择对数似然比大于蒙特卡罗模拟临界值的扫描窗口作为检测到的聚集性区域;
步骤三:在步骤二检测到的聚集性区域中提取不具有空间重叠性的聚集性区域,并基于这些不具有空间重叠性的聚集性区域计算该给定参数下的评价指标;
步骤四:更换不同的给定参数条件,并依照步骤一至步骤三计算各给定参数条件下的评价指标;
步骤五:将各给定参数下的评价指标进行比较,对应评价指标值最大的给定参数条件即为最大扫描窗口。
所述步骤二中,设定作为备择假设的扫描窗口为z,则扫描窗口z的对数似然比的计算方法为:
式(1)、(2)中C和N分别表示研究区域所感兴趣事件的总发生数和总人口;nz表示扫描窗口z的总人口;μz表示扫描窗口z感兴趣事件的期望发生数,等于Cz表示扫描窗口z感兴趣事件的实际发生数;LLR(z)表示扫描窗口z 的对数似然比。
所述步骤三中的评价指标为最大聚集比例统计量,其计算方法为:将提取到的不具有空间重叠性的聚集性区域作为一个联合聚集区域,并计算该联合聚集区域的对数似然比,然后将联合聚集区域中所有RR大于1的聚集性区域作为一个近似最大聚集集合,并计算该近似最大聚集集合的对数似然比,然后将联合聚集区域的对数似然比作为分子,将近似最大聚集集合的对数似然比作为分母,以此计算出该给定参数条件下的最大聚集比例统计量,具体计算过程如下:
Zi0=UjZij (3)
ZMCS=∪{x|x∈G,px<qx}or ZMCS=∪{x|x∈G,px>qx} (5)
式(3)~(6)中;ij表示在第i个给定参数条件下第j个检测出的聚集性区域;Zi0表示联合聚集区域,表示联合聚集区域中感兴趣事件的实际发生数,/>表示联合聚集区域中感兴趣事件的期望发生数,LLR(Zi0)表示联合聚集区域的对数似然比;x表示研究区域G内的空间单元;px和qx分别表示感兴趣事件在该空间单元发生和该空间单元以外的区域的事件发生概率;ZMDS表示包括在近似最大聚集集合内的聚集性区域,LLR(ZMCS)表示近似最大聚集集合的对数似然比; MCS-P表示最大聚集比例统计量。
所述步骤三中的评价指标为最大异质聚集比例统计量,其计算方法为:根据空间相邻情况将提取到的不具有空间重叠性的聚集性区域分为多个潜在聚集区域,将这些潜在聚集区域作为一个潜在联合聚集区域,并计算出潜在联合聚集区域的对数似然比;然后将潜在联合聚集区域中所有RR大于1的聚集性区域作为一个最大聚集异质性集合,再根据空间单元的相邻情况将最大聚集异质性集合划分为多个亚集,同一个亚集内空间单元的RR相同,划分后计算该最大聚集异质性集合的对数似然比,并将潜在联合聚集区域的对数似然比作为分子,将最大聚集异质性集合的对数似然比作为分母,以此计算出该给定参数条件下的最大异质聚集比例统计量,具体计算过程如下:
Si(k)={zim1,zim2,…,zimk} (7)
MCHS={zsubset1,zsubset2,…,zsubsetw} (9)
式(7)~(11)中zimj表示在第i个给定参数条件下检测出的第j个合并后的潜在聚集区域,Si(k)为第i个给定参数条件下包括k个潜在聚集区域的潜在联合聚集区域;LLR(Si(k))表示潜在联合聚集区域的对数似然比;MCHS表示最大聚集异质性集合,zsubsetj表示MCHS中根据空间相邻关系合并后的第j个亚集;w 表示最大聚集异质性集合中亚集的个数,LLR(MCHS)表示最大聚集异质性集合的对数似然比;MCHS-P表示最大异质聚集比例统计量。
所述的RR大于1的聚集性区域是指聚集性区域中所有空间单元的相对危险度均大于1。
采用本发明的优点在于:
1、本发明彻底改变了传统评价指标过度依赖于研究区域真实扫描聚集信息的缺陷,能够准确识别各扫描窗口的聚类能力,它可以作为一个总体指标,且仅依赖于应用的扫描数据,而不依赖于任何真实的聚类信息或先验数据,无需在分析前知道研究区域确切的扫描聚集情况,单纯基于实际数据即可计算出最大扫描窗口,具有更加广阔的现实适用性。
2、本发明中的评价指标包括聚集比例统计量MCS-P和最大异质聚集比例统计量MCHS-P,其中,聚集比例统计量MCS-P彻底改变了传统评价指标过度依赖于研究区域真实空间聚集信息的缺陷,首次采用联合LLR和渐进最大LLR之比来评价空间扫描统计参数效果。而最大异质聚集比例统计量MCHS-P则在MCHS-P 的基础上,进一步考虑了空间聚集区域间的异质性,首次采用异质性联合LLR和异质渐进最大LLR之比来评价空间扫描统计参数效果,极大的提高了评价指标的现实适用性。
3、本发明基于MCS-P他MCHS-P原理编写出了R软件包ParSatScan,通过免费开源的R软件调用SaTScan软件,能自动逐一运行备选参数,并选择出最优参数。在整个过程中的核心软件仍是SaTScan,保证了运行的速度和准确性,但是不需要人工来回多次在SaTScan软件和第三方软件进行切换,在已安装SaTscan 的前提下,仅需打开R软件,加载ParSatScan包,设置函数中的相关参数即可达到应用MCS-P为空间扫描统计量选择最优窗口这一目的。也就是说,本发明将现有技术中复杂的指标计算过程简化为可直接调用的R函数,将背景技术中需要手动完成的方法三改进为能够一次性完成,提高了评价指标对于相关研究者的可及性。
具体实施方式
实施例1
本实施例公开了一种空间扫描统计量中选择最大扫描窗口的方法,包括以下步骤:
步骤一:给定最大扫窗口,对研究区域进行扫描,得到一系列扫描窗口。
步骤二:将得到的扫描窗口作为备择假设,将研究区域中不存在聚集性区域的扫描窗口作为零假设,然后基于泊松分布构建每个扫描窗口的对数似然比,最后选择对数似然比大于蒙特卡罗模拟临界值的扫描窗口作为检测到的聚集性区域。
本步骤中,设定作为备择假设的扫描窗口为z,则扫描窗口z的对数似然比的计算方法为:
式(1)、(2)中C和N分别表示研究区域所感兴趣事件的总发生数和总人口;nz表示扫描窗口z的总人口;μz表示扫描窗口z感兴趣事件的期望发生数,等于Cz表示扫描窗口z感兴趣事件的实际发生数;LLR(z)表示扫描窗口z 的对数似然比。
步骤三:在步骤二检测到的聚集性区域中提取不具有空间重叠性的聚集性区域,并基于这些不具有空间重叠性的聚集性区域计算该给定参数下的评价指标。
本步骤中,所述的评价指标为最大聚集比例统计量,其计算方法为:将提取到的不具有空间重叠性的聚集性区域作为一个联合聚集区域,并计算该联合聚集区域的对数似然比,然后将联合聚集区域中所有RR大于1的聚集性区域作为一个近似最大聚集集合,并计算该近似最大聚集集合的对数似然比,然后将联合聚集区域的对数似然比作为分子,将近似最大聚集集合的对数似然比作为分母,以此计算出该给定参数条件下的最大聚集比例统计量,具体计算过程如下:
Zi0=∪jZij (3)
ZMCS=∪{x|x∈G,px<qx}or ZMCS=∪{x|x∈G,px>qx} (5)
式(3)~(6)中Zij表示在第i个给定参数条件下第j个检测出的聚集性区域;Zi0表示联合聚集区域,表示联合聚集区域中感兴趣事件的实际发生数,/>表示联合聚集区域中感兴趣事件的期望发生数,LLR(Zi0)表示联合聚集区域的对数似然比;x表示研究区域G内的空间单元;px和qx分别表示感兴趣事件在该空间单元发生和该空间单元以外的区域的事件发生概率;ZMCS表示包括在近似最大聚集集合内的聚集性区域,LLR(ZMCS)表示近似最大聚集集合的对数似然比; MCS-P表示最大聚集比例统计量。
本步骤中,所述的RR大于1的聚集性区域是指聚集性区域中所有空间单元的相对危险度均大于1。
步骤四:更换不同的最大扫描窗口,并依照步骤一至步骤三计算各给定参数条件下的评价指标。
步骤五:将各给定参数下的评价指标进行比较,对应评价指标值最大的给定参数条件即为最大扫描窗口。
实施例2
本实施例为在实施例1的基础上结合具体实际数据作进一步描述,具体如下:
探测美国东北245个县中,女性乳腺癌高死亡的聚集区域,数据包括 2011-2015年44182例死亡,即C=44182,女性年平均人口32587167。拟备选最大扫描窗口参数分别为(此处最大扫描窗口定义为最大人口比例)50%,49.9%,…,0.2%,0.1%,共500个。检验水准设置为0.05。
在上述条件下,选择最大扫描窗口的方法包括以下步骤:
1、首先选定最大扫描窗口为5%时作为给定扫描参数,应用SaTScan软件进行探测,共探测到不具有空间重叠性的聚集性区域8个,将其合并后得到一个联合聚集区域,该联合聚集区域的观测总发病人数期望总发病人数为/>故MCS-P的分子为:
该联合聚集区域中RR>1的聚集性区域共有125个,其观测总发病人数期望总发病人数/>故MCS-P的分母为:
所以最大扫描窗口为5%时对应的MCS-P为:
2、依次采用其它最大扫描窗口进行扫描,并用相同的方法计算其MCS-P值,对该500个最大扫描窗口对应的MCS-P值如下表:
最大扫描窗口 | MCS-P |
0.1%-3% | 0.023-0653 |
3.1% | 0.680 |
3.2% | 0.692 |
3.3% | 0.692 |
3.4% | 0.719 |
3.5% | 0.689 |
3.6% | 0.689 |
3.7%-50% | 0.488-0.704 |
3、将得到地MCS-P值进行比较,最大的MCS-P值对应的扫描窗口即为最大最优扫描窗口,此处MCS-P值为0.719所对应的3.4%即为最大最优扫描窗口。
4、以最优最大扫描窗口3.4%的探测结果为最终结果,共探测到10个聚集性区域,如下表所示:
实施例3
本实施例公开了一种空间扫描统计量中选择最大扫描窗口的方法,包括以下步骤:
步骤一:给定最大扫描窗口,对研究区域进行扫描,得到一系列扫描窗口。
步骤二:将得到的扫描窗口作为备择假设,将研究区域中不存在聚集性区域的扫描窗口作为零假设,然后基于泊松分布构建每个扫描窗口的对数似然比,最后选择对数似然比大于蒙特卡罗模拟临界值的扫描窗口作为检测到的聚集性区域。
本步骤中,设定作为备择假设的扫描窗口为z,则扫描窗口z的对数似然比的计算方法为:
式(1)、(2)中C和N分别表示研究区域所感兴趣事件的总发生数和总人口;nz表示扫描窗口z的总人口;μz表示扫描窗口z感兴趣事件的期望发生数,等于Cz表示扫描窗口z感兴趣事件的实际发生数;LLR(z)表示扫描窗口z 的对数似然比。
步骤三:在步骤二检测到的聚集性区域中提取不具有空间重叠性的聚集性区域,并基于这些不具有空间重叠性的聚集性区域计算该给定参数下的评价指标。
本步骤中,所述的评价指标为最大异质聚集比例统计量,其计算方法为:根据空间相邻情况将提取到的不具有空间重叠性的聚集性区域分为多个潜在聚集区域,将这些潜在聚集区域作为一个潜在联合聚集区域,并计算出潜在联合聚集区域的对数似然比;然后将潜在联合聚集区域中所有RR大于1的聚集性区域作为一个最大聚集异质性集合,再根据空间单元的相邻情况将最大聚集异质性集合划分为多个亚集,同一个亚集内空间单元的RR相同,划分后计算该最大聚集异质性集合的对数似然比,并将潜在联合聚集区域的对数似然比作为分子,将最大聚集异质性集合的对数似然比作为分母,以此计算出该给定参数条件下的最大异质聚集比例统计量,具体计算过程如下:
Si(k)={zim1,zim2,…,zimk} (7)
MCHS={zsubset1,zsubset2,…,zsubsetw}(9)
式(7)~(11)中zimj表示在第i个给定参数条件下检测出的第j个合并后的潜在聚集区域,Si(k)为第i个给定参数条件下包括k个潜在聚集区域的潜在联合聚集区域;LLR(Si(k))表示潜在联合聚集区域的对数似然比;MCHS表示最大聚集异质性集合,zsabsetj表示MCHS中根据空间相邻关系合并后的第j个亚集;w 表示最大聚集异质性集合中亚集的个数,LLR(MCHS)表示最大聚集异质性集合的对数似然比;MCHS-P表示最大异质聚集比例统计量。
本步骤中,所述的RR大于1的聚集性区域是指聚集性区域中所有空间单元的相对危险度均大于1。
步骤四:更换不同的最大扫描窗口,并依照步骤一至步骤三计算各给定参数条件下的评价指标。
步骤五:将各给定参数下的评价指标进行比较,对应评价指标值最大的给定参数条件即为最大扫描窗口。
实施例4
本实施例为在实施例3的基础上结合具体实际数据作进一步描述,具体如下:
探测美国东北245个县中,女性乳腺癌高死亡的聚集区域,数据包括 2011-2015年44182例死亡,即C=44182,女性年平均人口32587167。拟备选最大扫描窗口参数分别为(此处最大扫描窗口定义为最大人口比例)50%,49.9%,…, 0.2%,0.1%,共500个。检验水准设置为0.05。
在上述条件下,选择最大扫描窗口的方法包括以下步骤:
1、首先选定最大扫描窗口为5%时作为给定扫描参数,应用SaTScan软件进行探测,共探测到不具有空间重叠性的聚集性区域8个,将其根据空间相邻关系合并后得到7个互不相邻的聚集性区域,如下表:
故MCHS-P的分子为:
2、将RR>1的聚集性区域根据空间相邻关系进行合并后,共得到17个近似聚集性区域,如下表:
故MCHS-P的分母为:
所以最大扫描窗口为5%时对应下的MCHS-P等于:
3、依次采用其它最大扫描窗口进行扫描,并采用同样的方法计算MCHS-P,到如下,对该500个最大扫描窗口对应的MCHS-P值如下表:
最大扫描窗口 | MCHS-P |
0.1%-5.3% | 0.021-0.674 |
5.4% | 0.685 |
5.5%-5.9% | 0.690 |
6%-6.1% | 0.633 |
6.2-50% | 0.494-0.680 |
4、将得到地MCHS-P值进行比较,最大的MCHS-P值对应的扫描窗口即为最大最优扫描窗口,此处MCHS-P值为0.690所对应的5.5%-5.9%即为最大最优扫描窗口。选择5.5%-5.9%作为最佳扫描窗口参数,其探测结果如下表:
/>
本发明在聚集性区域具有相似RR时,MCHS-P与MCS-P将选择到相同的最大扫描窗口,当多个聚集性区域间存在异质性时,及RR相差较大时,MCHS-P 将选择一个更好的最大扫描窗口。
Claims (3)
1.一种空间扫描统计量中选择最大扫描窗口的方法,其特征在于,包括以下步骤:
步骤一:给定最大扫描窗口,对研究区域进行扫描,得到一系列扫描窗口;
步骤二:将得到的扫描窗口作为备择假设,将研究区域中不存在聚集性区域的扫描窗口作为零假设,然后基于泊松分布构建每个扫描窗口的对数似然比,最后选择对数似然比大于蒙特卡罗模拟临界值的扫描窗口作为检测到的聚集性区域;
步骤三:在步骤二检测到的聚集性区域中提取不具有空间重叠性的聚集性区域,并基于这些不具有空间重叠性的聚集性区域计算给定参数下的评价指标;
步骤四:更换不同的给定参数条件,并依照步骤一至步骤三计算各给定参数条件下的评价指标;
步骤五:将各给定参数下的评价指标进行比较,对应评价指标值最大的给定参数条件即为最大扫描窗口;
所述步骤二中,设定作为备择假设的扫描窗口为z,则扫描窗口z的对数似然比的计算方法为:
式(1)、(2)中C和N分别表示研究区域所感兴趣事件的总发生数和总人口;nz表示扫描窗口z的总人口;μz表示扫描窗口z感兴趣事件的期望发生数,等于Cz表示扫描窗口z感兴趣事件的实际发生数;LLR(z)表示扫描窗口z的对数似然比;
所述步骤三中的评价指标为最大异质聚集比例统计量,其计算方法为:根据空间相邻情况将提取到的不具有空间重叠性的聚集性区域分为多个潜在聚集区域,将这些潜在聚集区域作为一个潜在联合聚集区域,并计算出潜在联合聚集区域的对数似然比;然后将潜在联合聚集区域中所有RR大于1的聚集性区域作为一个最大聚集异质性集合,再根据空间单元的相邻情况将最大聚集异质性集合划分为多个亚集,同一个亚集内空间单元的RR相同,划分后计算该最大聚集异质性集合的对数似然比,并将潜在联合聚集区域的对数似然比作为分子,将最大聚集异质性集合的对数似然比作为分母,以此计算出该给定参数条件下的最大异质聚集比例统计量,具体计算过程如下:
Si(k)={zim1,zim2,…,zimk} (7)
MCHS={zsubset1,zsubset#,…,zsubsetw} (9)
式(7)~(11)中zimj表示在第i个给定参数条件下检测出的第j个合并后的潜在聚集区域,Si(k)为第i个给定参数条件下包括k个潜在聚集区域的潜在联合聚集区域;LLR(So(k))表示潜在联合聚集区域的对数似然比;MCHS表示最大聚集异质性集合,zsubsetj表示MCHS中根据空间相邻关系合并后的第j个亚集;w表示最大聚集异质性集合中亚集的个数,LLR(MCHS)表示最大聚集异质性集合的对数似然比;MCHS-P表示最大异质聚集比例统计量。
2.根据权利要求1所述的一种空间扫描统计量中选择最大扫描窗口的方法,其特征在于:所述步骤三中的评价指标为最大聚集比例统计量,其计算方法为:将提取到的不具有空间重叠性的聚集性区域作为一个联合聚集区域,并计算该联合聚集区域的对数似然比,然后将联合聚集区域中所有RR大于1的聚集性区域作为一个近似最大聚集集合,并计算该近似最大聚集集合的对数似然比,然后将联合聚集区域的对数似然比作为分子,将近似最大聚集集合的对数似然比作为分母,以此计算出该给定参数条件下的最大聚集比例统计量,具体计算过程如下:
Zo0=∪jZoj (3)
ZMCS=∪{x|x∈G,px<qx}or ZMCS=∪{x|x∈G,px>qx} (5)
式(3)~(6)中Zij表示在第i个给定参数条件下第j个检测出的聚集性区域;Zi0表示联合聚集区域,表示联合聚集区域中感兴趣事件的实际发生数,/>表示联合聚集区域中感兴趣事件的期望发生数,LLR(Zo0)表示联合聚集区域的对数似然比;x表示研究区域G内的空间单元;pr和qr分别表示感兴趣事件在该空间单元发生和该空间单元以外的区域的事件发生概率;ZMCS表示包括在近似最大聚集集合内的聚集性区域,LLR(ZMCS)表示近似最大聚集集合的对数似然比;MCS-P表示最大聚集比例统计量。
3.根据权利要求1或2所述的一种空间扫描统计量中选择最大扫描窗口的方法,其特征在于:所述的RR大于1的聚集性区域是指聚集性区域中所有空间单元的相对危险度均大于1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911098231.XA CN110866689B (zh) | 2019-11-12 | 2019-11-12 | 一种空间扫描统计量中选择最大扫描窗口的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911098231.XA CN110866689B (zh) | 2019-11-12 | 2019-11-12 | 一种空间扫描统计量中选择最大扫描窗口的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110866689A CN110866689A (zh) | 2020-03-06 |
CN110866689B true CN110866689B (zh) | 2024-03-08 |
Family
ID=69654337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911098231.XA Active CN110866689B (zh) | 2019-11-12 | 2019-11-12 | 一种空间扫描统计量中选择最大扫描窗口的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110866689B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112749619A (zh) * | 2020-11-20 | 2021-05-04 | 北京林业大学 | 一种松材线虫病时空聚集性的探测方法 |
CN113298302B (zh) * | 2021-05-18 | 2022-06-28 | 昆明理工大学 | 一种针对疾病预测的不规则形状时空扫描方法 |
CN117807811B (zh) * | 2024-02-28 | 2024-07-05 | 济南轨道交通集团有限公司 | 一种桩土界面极限侧阻力的确定方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126918A (zh) * | 2016-06-23 | 2016-11-16 | 中国石油大学(华东) | 一种基于相互作用力的地理空间异常聚集区扫描统计方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10341053B2 (en) * | 2016-10-14 | 2019-07-02 | Marvell World Trade Ltd. | Systems and methods for a log-likelihood ratio based dynamic pre-processing selection scheme in a low-density parity-check decoder |
-
2019
- 2019-11-12 CN CN201911098231.XA patent/CN110866689B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126918A (zh) * | 2016-06-23 | 2016-11-16 | 中国石油大学(华东) | 一种基于相互作用力的地理空间异常聚集区扫描统计方法 |
Non-Patent Citations (1)
Title |
---|
Selection of the Maximum Spatial Cluster Size of the Spatial Scan Statistic by Using the Maximum Clustering Set-Proportion Statistic;Yue Ma 等;《PLOS ONE》;第11卷(第1期);1-18 * |
Also Published As
Publication number | Publication date |
---|---|
CN110866689A (zh) | 2020-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866689B (zh) | 一种空间扫描统计量中选择最大扫描窗口的方法 | |
CN107256237A (zh) | 基于动态网格优化的lof聚类数据异常点检测方法和检测系统 | |
CN105373894A (zh) | 基于稽查数据的电力营销业务诊断模型的建立方法及系统 | |
CN108520267B (zh) | 一种基于时空特征的水文遥测数据异常检测方法 | |
CN111444774B (zh) | 一种基于无人机航测技术的森林资源监测方法 | |
WO2020108219A1 (zh) | 基于交通安全风险的群体划分与差异性分析方法及系统 | |
CN111709668A (zh) | 基于数据挖掘技术的电网设备参数风险识别方法及装置 | |
US11868346B2 (en) | Automated linear clustering recommendation for database zone maps | |
Haining | Designing a health needs GIS with spatial analysis capability | |
Garreton et al. | Identifying an optimal analysis level in multiscalar regionalization: A study case of social distress in Greater Santiago | |
CN107944487B (zh) | 一种基于混合协同过滤算法的作物育种品种推荐方法 | |
CN112884013A (zh) | 基于数据挖掘技术的能耗分区方法 | |
CN110796159A (zh) | 基于k-means算法的电力数据分类方法及系统 | |
CN116564409A (zh) | 基于机器学习的转移性乳腺癌转录组测序数据识别方法 | |
CN117078048A (zh) | 基于数字孪生的智慧城市资源管理方法及系统 | |
CN116226103A (zh) | 一种基于FPGrowth算法进行政务数据质量检测的方法 | |
CN109933680A (zh) | 图像数据筛选方法、装置、计算机设备及其存储介质 | |
CN106815320B (zh) | 基于拓展三维直方图的调研大数据可视化建模方法及系统 | |
CN106651630B (zh) | 关键用电行业识别方法和系统 | |
CN104794234A (zh) | 用于同业对标的数据处理方法和装置 | |
CN105824853A (zh) | 聚类设备和方法 | |
CN109935277B (zh) | 一种异构网络中基于元路径的异常模体查询方法 | |
Li et al. | A novel approach to remote sensing image retrieval with multi-feature VP-tree indexing and online feature selection | |
CN113393169B (zh) | 基于大数据技术的金融行业交易系统性能指标分析方法 | |
CN114358548A (zh) | 一种确定评价指标的方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |