CN110111902B - 急性传染病的发病周期预测方法、装置及存储介质 - Google Patents
急性传染病的发病周期预测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110111902B CN110111902B CN201910269142.0A CN201910269142A CN110111902B CN 110111902 B CN110111902 B CN 110111902B CN 201910269142 A CN201910269142 A CN 201910269142A CN 110111902 B CN110111902 B CN 110111902B
- Authority
- CN
- China
- Prior art keywords
- latitude
- infectious disease
- acute infectious
- characteristic
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种急性传染病的发病周期预测方法,包括:获取急性传染病的历史资料,提取所述急性传染病的特征,形成高纬度全特征库;从高纬度全特征库中抽取能表征急性传染病的特征数据,形成低纬度显著特征库;对低纬度显著特征库进行训练学习,得到预测模型的参数,以构建急性传染病自动化预测模型;基于预设数据中心的历史数据,验证所述急性传染病自动化预测模型的准确性;及利用所述急性传染病自动化预测模型进行急性传染病的预测。本发明还提出一种急性传染病的发病周期预测装置以及一种计算机可读存储介质。本发明能够准确地预测登革热病毒等急性传染病。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种急性传染病的发病周期预测方法、装置及计算机可读存储介质。
背景技术
登革热是登革病毒经蚊媒传播引起的急性虫媒传染病,我国广东、香港、澳门等地是登革热流行区。目前现有预测系统主要基于大众化的流感、水痘等疾病,对登革热的预测专业性不够,对高维度的特征构造、登革热发病周期捕捉不准确、整体预测爆发预测捕捉不稳定、准确率存在瓶颈等问题。
发明内容
本发明提供一种急性传染病的发病周期预测方法、装置及计算机可读存储介质,其主要目的在于提供一种登革热病毒等急性传染病进行专业、准确的预测方案。
为实现上述目的,本发明提供的一种急性传染病的发病周期预测方法,包括:
获取预设种类的急性传染病的历史资料,根据所述急性传染病的固定周期,使用高纬度特征提取方法提取所述急性传染病的特征,形成高纬度全特征库;
使用重要性排序和支持向量机回归机降维方法,从所述高纬度全特征库中抽取表征所述急性传染病的特征数据,形成低纬度显著特征库;
使用预设模型对所述低纬度显著特征库进行训练学习,得到预测模型的参数,根据得到的参数构建急性传染病自动化预测模型;
基于预设数据中心的历史数据验证所述急性传染病自动化预测模型的准确性;及
利用所述急性传染病自动化预测模型进行急性传染病的预测。
可选地,所述使用高纬度特征提取方法,提取所述急性传染病的特征,形成高纬度全特征库,包括:
对所述急性传染病历史资料进行预处理,去除重复、无效和空值数据,得到可用的历史数据集,形成文本数据;
利用自然语言处理方法对所述文本数据进行切词,并根据切词得到的词的词性去掉无用词,并利用TF-IDF算法生成急性传染病特征词;
建立列表矩阵,用于接收所述急性传染病特征词;
计算所述列表矩阵中的任意两个急性传染病特征词之间的余弦距离,将两个急性传染病特征词之间的余弦距离作为该两个急性传染病特征词的相似值;
根据计算得到的相似值及相似值阈值筛选出高相似度的特征词,构成高纬度特征词库;及
给高纬度特征词库中的每个词贴文档标签,通过文档相似计算公式计算出文档标签之间的相似值,从而得到高纬度全特征库。
可选地,所述使用重要性排序和支持向量机回归机降维方法从高纬度全特征库中抽取表征急性传染病的特征数据,形成低纬度显著特征库,包括:
导入所述高纬度全特征库,从所述高纬度全特征库中提取出包含的高纬度特征词;
构建二维表的特征词矩阵,其中列为编号,行为包含的词,将高纬度特征词存储于该特征词矩阵中;
将所述特征词矩阵从二维表转换为只包含词的一维表形式,只生成一列多行的高纬度特征词矩阵;
根据上述计算得到的两个特征词之间的相似值对高纬度特征词进行由大到小的重要性排序;
导入支持向量机回归机模型,计算高纬度特征词中每个词与核心点的距离;及
根据所述距离值及预设阈值筛选高于该预设阈值的词,得到低纬度特征词表。
可选地,所述预设模型为SARIMA模型与boosting框架的LightGBM组合模型。
可选地,所述使用预设模型对低纬度显著特征库进行训练学习,得到预测模型的参数,根据得到的参数构建急性传染病自动化预测模型,包括:
(a)将所述低纬度特征词表导入boosting框架LightGBM模型;
(b)在所述boosting框架LightGBM模型中进一步导入所述SARIMA模型中的函数,包括:ADF检验函数、季节性分解函数、白噪声检验函数及自相关和偏自相关的绘图函数,其中所述季节性分解函数将所述低纬度特征词表分解为趋势、季节性和残差三部分;
(c)用所述ADF检验函数中的单位根检验算法,检验低纬度特征词表序列是否平稳;用季节性分解函数,分析分解后的趋势、季节性确认序列是否平稳;以及自相关性和偏自相关性,通过截尾或拖尾的lag值,来检验低纬度特征词表序列是否平稳;
(d)在稳定性检验通过后,根据低纬度特征词表的统计特征,包括平均值、中值、方差,设置SARIMA模型的初始参数;
(e)使用SARIMA模型的预测算法绘制拟合曲线和预测曲线;
(f)对拟合曲线和预测曲线的陡峭性进行分析,再回到上述步骤(d)调整参数,直到得到满足预设条件的拟合曲线和预测曲线。
此外,为实现上述目的,本发明还提供一种急性传染病的发病周期预测装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的急性传染病的发病周期预测程序,所述急性传染病的发病周期预测程序被所述处理器执行时实现如下步骤:
获取预设种类的急性传染病的历史资料,根据所述急性传染病的固定周期,使用高纬度特征提取方法提取所述急性传染病的特征,形成高纬度全特征库;
使用重要性排序和支持向量机回归机降维方法,从所述高纬度全特征库中抽取表征所述急性传染病的特征数据,形成低纬度显著特征库;
使用预设模型对所述低纬度显著特征库进行训练学习,得到预测模型的参数,根据得到的参数构建急性传染病自动化预测模型;
基于预设数据中心的历史数据验证所述急性传染病自动化预测模型的准确性;及
利用所述急性传染病自动化预测模型进行急性传染病的预测。
可选地,所述使用高纬度特征提取方法提取所述急性传染病的特征,形成高纬度全特征库包括:
对所述急性传染病历史资料进行预处理,去除重复、无效和空值数据,得到可用的历史数据集,形成文本数据;
利用自然语言处理方法对所述文本数据进行切词,并根据切词得到的词的词性去掉无用词,并利用TF-IDF算法生成急性传染病特征词;
建立列表矩阵,用于接收所述急性传染病特征词;
计算所述列表矩阵中的任意两个急性传染病特征词之间的余弦距离,将两个急性传染病特征词之间的余弦距离作为该两个急性传染病特征词的相似值;
根据计算得到的相似值及相似值阈值筛选出高相似度的特征词,构成高纬度特征词库;及
给高纬度特征词库中的每个词贴文档标签,通过文档相似计算公式计算出文档标签之间的相似值,从而得到高纬度全特征库。
可选地,所述使用重要性排序和支持向量机回归机降维方法从高纬度全特征库中抽取表征急性传染病的特征数据,形成低纬度显著特征库,包括:
导入所述高纬度全特征库,从所述高纬度全特征库中提取出包含的高纬度特征词;
构建二维表的特征词矩阵,其中列为编号,行为包含的词,将高纬度特征词存储于该特征词矩阵中;
将所述特征词矩阵从二维表转换为只包含词的一维表形式,只生成一列多行的高纬度特征词矩阵;
根据上述计算得到的两个特征词之间的相似值对高纬度特征词进行由大到小的重要性排序;
导入支持向量机回归机模型,计算高纬度特征词中每个词与核心点的距离;及
根据所述距离值及预设阈值筛选高于该预设阈值的词,得到低纬度特征词表。
可选地,所述使用预设模型对低纬度显著特征库进行训练学习,得到预测模型的参数,根据得到的参数构建急性传染病自动化预测模型,包括:
(a)将所述低纬度特征词表导入boosting框架LightGBM模型;
(b)在所述boosting框架LightGBM模型中进一步导入SARIMA模型中的函数,包括:ADF检验函数、季节性分解函数、白噪声检验函数及自相关和偏自相关的绘图函数,其中所述季节性分解函数将所述低纬度特征词表分解为趋势、季节性和残差三部分;
(c)用所述ADF检验函数中的单位根检验算法,检验低纬度特征词表序列是否平稳;用季节性分解函数,分析分解后的趋势、季节性确认序列是否平稳;以及自相关性和偏自相关性,通过截尾或拖尾的lag值,来检验低纬度特征词表序列是否平稳;
(d)在稳定性检验通过后,根据低纬度特征词表的统计特征,包括平均值、中值、方差,设置SARIMA模型的初始参数;
(e)使用SARIMA模型的预测算法绘制拟合曲线和预测曲线;
(f)对拟合曲线和预测曲线的陡峭性进行分析,再回到上述步骤(d)调整参数,直到得到满足预设条件的拟合曲线和预测曲线。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有急性传染病的发病周期预测程序,所述急性传染病的发病周期预测程序可被一个或者多个处理器执行,以实现如上所述的急性传染病的发病周期预测方法的步骤。
本发明提出的急性传染病的发病周期预测方法、装置及计算机可读存储介质首先使用信息检索方法搜集登革热病等急性传染病的历史资料,学习掌握发病原理、特征、周期等相关知识,在相关知识储备的前提下,根据所述急性传染病病毒的固定周期,使用高纬度特征提取方法,提取所述急性传染病的特征,形成高纬度全特征库,在有一定知识储备的基础上对所述急性传染病进行特征提取,保证了高纬度全特征库的特征代表性及初始数据集的有效性。
高纬度特征代表了所述急性传染病的全部信息,但在建模中数据信息的全息性会对模型参数的调整带来维度灾难问题,导致模型预测效果不佳,为了保证模型的高效性和切实可用性,必须解决维度灾难,即从全息特征库中筛选出显著表征所述急性传染病发病周期的特征数据,既体现了所述急性传染病发病周期的核心信息,更为后期模型的高效运行、效果保障提供了良好的数据基础。
因此,本发明基于高纬度全特征库,使用重要性排序和SVR降维方法,从高纬度全特征库中抽取能表征所述急性传染病的特征数据,形成低纬度显著特征库。在低纬度显著特征库的基础上,本发明使用预设模型,对低纬度显著特征进行训练学习,最终得到预测模型的参数,以构建急性传染病自动化预测模型,此自动化预测系统运行效率快,同时支持并行化学习、低内存使用、可处理大规模、高维度的数据。
附图说明
图1为本发明一实施例提供的急性传染病的发病周期预测方法的流程示意图;
图2为本发明一实施例提供的急性传染病的发病周期预测装置的内部结构示意图;
图3为本发明一实施例提供的急性传染病的发病周期预测装置中急性传染病的发病周期预测程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,所述“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
进一步地,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提供一种急性传染病的发病周期预测方法。参照图1所示,为本发明一实施例提供的急性传染病的发病周期预测方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,急性传染病的发病周期预测方法包括:
S1、获取预设种类的急性传染病的历史资料,根据所述急性传染病的固定周期,使用高纬度特征提取方法提取所述急性传染病的特征,形成高纬度全特征库。
本发明较佳实施例中,所述预设种类的急性传染病为登革热病。
本发明较佳实施例使用信息检索方法在互联网上搜集所述急性传染病,如登革热病的公开历史资料,使用TF-IDF算法从所述登革热病历史资料中提取登革热病的特征,形成所述高纬度全特征库。
所述TF-IDF实际上是:TF词频(Term Frequency)及IDF逆向文件频率(InverseDocument Frequency),其主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,而在其他类的文档中较少出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。
本发明所述使用高纬度特征提取方法,提取所述急性传染病的特征,形成高纬度全特征库的具体实现流程如下:
(1)对急性传染病历史资料进行预处理,去除重复、无效和空值数据,得到可用的历史数据集,形成文本数据;
(2)用NLP(Natural Language Processing,自然语言处理)方法对文本数据进行切词,得到每个词,根据词的词性,去掉连词等对于本发明无用的词,并利用TF-IDF算法生成急性传染病特征词;
(3)建立列表矩阵,用于接收急性传染病特征词;
(4)对列表矩阵中的特征词进行两两词的余弦距离计算,将此距离作为两词间的相似值;
(5)根据词间的相似值,设定相似值阈值,通过阈值筛选出高相似度的特征词,构成高纬度特征词库;
(6)给高纬度特征词库中的每个词贴文档标签,通过两文档相似计算公式,计算出两文档之间的相似值,从而得到高纬度全特征库。
通过上述方法实现高纬度全特征库的构建。
S2、使用重要性排序和支持向量机回归机(support vector regression,SVR)降维方法,从高纬度全特征库中抽取表征急性传染病的特征数据,形成低纬度显著特征库。
高纬度全特征库若直接输入模型,会造成维度灾难,导致模型失效,为了保证模型的效用性,在高纬度全特征库的基础上,本发明使用SVR进行特征选择,构建低纬度显著特征库。
SVR是支持向量在函数回归领域的应用,其样本点只有一类,所寻求的最优超平面不是使两类样本点分得“最开”,而是使所有样本点离超平面的“总偏差”最小,这时样本点都在两条边界线之间,求最优回归超平面同样等价于求最大间隔。
本发明所述使用重要性排序和支持向量机回归机(support vector regression,SVR)降维方法,从高纬度全特征库中抽取能表征急性传染病的特征数据,形成低纬度显著特征库的具体实现流程如下:
(1)导入所述高纬度全特征库,从所述高纬度全特征库中提取出包含的高纬度特征词;
(2)构建二维表的特征词矩阵,其中列为编号,行为包含的词,将高纬度特征词存储于该特征词矩阵中;
(3)将所述特征词矩阵从二维表转换为只包含词的一维表形式,只生成一列多行的高纬度特征词矩阵;
(4)根据上述计算得到的两个急性传染病特征词之间的相似值对高纬度特征词进行由大到小的重要性排序;
(5)导入SVR模型,计算高纬度特征词中每个词与核心点的距离;
(6)根据所述距离值及预设阈值筛选高于该预设阈值的词,得到低纬度特征词表。
通过此方法可以快速实现高纬度特征向低纬度显著特征的选择,进一步根据人工已掌握的相关知识,随机检验低纬度特征词是否能足够表征所述急性传染病发病周期的特征,以确保为后续自动化发病周期预测模型提供可靠实用的数据基础。
S3、使用预设模型对所述低纬度显著特征库进行训练学习,得到预测模型的参数,根据得到的参数构建急性传染病自动化预测模型。
本发明较佳实施例中,所述预设模型为SARIMA模型与boosting框架的LightGBM组合模型。
SARIMA模型(Seasonal Autoregressive Integrated Moving Average季节性差分自回归滑动平均模型)是时间序列预测分析方法之一。为了保证SARIMA模型的高效运行,本发明使用更稳定的boosting框架LightGBM(Light Gradient Boosting Machine)模型。所述LightGBM模型是一个基于决策树算法的快速、分布式、高性能gradient boosting(GBDT、GBRT、GBM或MART)的框架,可被用于排行、分类以及其他许多机器学习任务中。其中,实现SARIMA模型的具体流程如下:
(a)将所述低纬度特征词表导入boosting框架LightGBM模型;
(b)在所述boosting框架LightGBM模型中进一步导入所述SARIMA模型中的函数,包括:ADF检验函数、季节性分解函数、白噪声检验函数及自相关和偏自相关的绘图函数等,其中所述季节性分解函数将所述低纬度特征词表分解为趋势、季节性和残差三部分;
(c)用所述ADF检验函数中的单位根检验算法,检验低纬度特征词表序列是否平稳;用季节性分解函数,分析分解后的趋势、季节性确认序列是否平稳;以及自相关性和偏自相关性,通过截尾或拖尾的lag值,来检验低纬度特征词表序列是否平稳;
(d)在稳定性检验通过后,根据低纬度特征词表的统计特征,包括平均值、中值、方差,设置SARIMA模型的初始参数;
(e)使用SARIMA模型的预测算法绘制拟合曲线和预测曲线;
(f)对拟合曲线和预测曲线的陡峭性进行分析,再回到上述步骤(d)调整参数,直到得到满足预设条件的拟合曲线和预测曲线。
在人工知识和低纬度显著特征库的基础上,本发明将低纬度显著特征库数据输入到SARIMA模型—LightGBM模型,作为模型的训练集,通过上万次的数据反复迭代计算,训练模型中的各参数,通过不断调整参数,得到最佳的效果,最终输出实用性更高效率更优质量更优的预测模型。
S4、基于预设数据中心的历史数据验证所述急性传染病自动化预测模型的准确性。
本发明较佳实施例中,所述预设数据中心为中国疾病预防控制中心。
为了进一步验证预测模型的高效性和效用性,本发明将中国疾病预防控制中心中急性传染病的历史数据作为试验数据输入已经训练建立好的模型,通过模型的计算输出,得到历史急性传染病发病的时间点,与实际发生的急性传染病时间进行比对,从而最终判定模型的预测准确度。
S5、利用所述急性传染病自动化预测模型进行急性传染病的预测。
本发明还提供一种急性传染病的发病周期预测装置。参照图2所示,为本发明一实施例提供的急性传染病的发病周期预测装置的内部结构示意图。
在本实施例中,急性传染病的发病周期预测装置1可以是PC(Personal Computer,个人电脑),也可以是智能手机、平板电脑、便携计算机等终端设备。该急性传染病的发病周期预测装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是急性传染病的发病周期预测装置1的内部存储单元,例如该急性传染病的发病周期预测装置1的硬盘。存储器11在另一些实施例中也可以是急性传染病的发病周期预测装置1的外部存储设备,例如急性传染病的发病周期预测装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括急性传染病的发病周期预测装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于急性传染病的发病周期预测装置1的应用软件及各类数据,例如急性传染病的发病周期预测程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行急性传染病的发病周期预测程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在急性传染病的发病周期预测装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及急性传染病的发病周期预测程序01的急性传染病的发病周期预测装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对急性传染病的发病周期预测装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有急性传染病的发病周期预测程序01;处理器12执行存储器11中存储的急性传染病的发病周期预测程序01时实现如下步骤:
步骤一、获取预设种类的急性传染病的历史资料,根据所述急性传染病的固定周期,使用高纬度特征提取方法提取所述急性传染病的特征,形成高纬度全特征库。
本发明较佳实施例中,所述预设种类的急性传染病为登革热病。
本发明较佳实施例使用信息检索方法在互联网上搜集所述急性传染病,如登革热病的公开历史资料,使用TF-IDF算法从所述登革热病历史资料中提取登革热病的特征,形成所述高纬度全特征库。
所述TF-IDF实际上是:TF词频(Term Frequency)及IDF逆向文件频率(InverseDocument Frequency),其主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,而在其他类的文档中较少出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。
本发明所述使用高纬度特征提取方法,提取所述急性传染病的特征,形成高纬度全特征库的具体实现流程如下:
(1)对急性传染病历史资料进行预处理,去除重复、无效和空值数据,得到可用的历史数据集,形成文本数据;
(2)用NLP(Natural Language Processing,自然语言处理)方法对文本数据进行切词,得到每个词,根据词的词性,去掉连词等对于本发明无用的词,并利用TF-IDF算法生成急性传染病特征词;
(3)建立列表矩阵,用于接收急性传染病特征词;
(4)对列表矩阵中的特征词进行两两词的余弦距离计算,将此距离作为两词间的相似值;
(5)根据词间的相似值,设定相似值阈值,通过阈值筛选出高相似度的特征词,构成高纬度特征词库;
(6)给高纬度特征词库中的每个词贴文档标签,通过两文档相似计算公式,计算出两文档之间的相似值,从而得到高纬度全特征库。
通过上述方法实现高纬度全特征库的构建。
步骤二、使用重要性排序和支持向量机回归机(support vector regression,SVR)降维方法,从高纬度全特征库中抽取表征急性传染病的特征数据,形成低纬度显著特征库。
高纬度全特征库若直接输入模型,会造成维度灾难,导致模型失效,为了保证模型的效用性,在高纬度全特征库的基础上,本发明使用SVR进行特征选择,构建低纬度显著特征库。
SVR是支持向量在函数回归领域的应用,其样本点只有一类,所寻求的最优超平面不是使两类样本点分得“最开”,而是使所有样本点离超平面的“总偏差”最小,这时样本点都在两条边界线之间,求最优回归超平面同样等价于求最大间隔。
本发明所述使用重要性排序和支持向量机回归机(support vector regression,SVR)降维方法,从高纬度全特征库中抽取能表征急性传染病的特征数据,形成低纬度显著特征库的具体实现流程如下:
(1)导入所述高纬度全特征库,从所述高纬度全特征库中提取出包含的高纬度特征词;
(2)构建二维表的特征词矩阵,其中列为编号,行为包含的词,将高纬度特征词存储于该特征词矩阵中;
(3)将所述特征词矩阵从二维表转换为只包含词的一维表形式,只生成一列多行的高纬度特征词矩阵;
(4)根据上述计算得到的两个急性传染病特征词之间的相似值对高纬度特征词进行由大到小的重要性排序;
(5)导入SVR模型,计算高纬度特征词中每个词与核心点的距离;
(6)根据所述距离值及预设阈值筛选高于该预设阈值的词,得到低纬度特征词表。
通过此方法可以快速实现高纬度特征向低纬度显著特征的选择,进一步根据人工已掌握的相关知识,随机检验低纬度特征词是否能足够表征所述急性传染病发病周期的特征,以确保为后续自动化发病周期预测模型提供可靠实用的数据基础。
步骤三、使用预设模型对所述低纬度显著特征库进行训练学习,得到预测模型的参数,根据得到的参数构建急性传染病自动化预测模型。
本发明较佳实施例中,所述预设模型为SARIMA模型与boosting框架的LightGBM组合模型。
SARIMA模型(Seasonal Autoregressive Integrated Moving Average季节性差分自回归滑动平均模型)是时间序列预测分析方法之一。为了保证SARIMA模型的高效运行,本发明使用更稳定的boosting框架LightGBM(Light Gradient Boosting Machine)模型。所述LightGBM模型是一个基于决策树算法的快速、分布式、高性能gradient boosting(GBDT、GBRT、GBM或MART)的框架,可被用于排行、分类以及其他许多机器学习任务中。其中,实现SARIMA模型的具体流程如下:
(a)将所述低纬度特征词表导入boosting框架LightGBM模型;
(b)在所述boosting框架LightGBM模型中进一步导入所述SARIMA模型中的函数,包括:ADF检验函数、季节性分解函数、白噪声检验函数及自相关和偏自相关的绘图函数等,其中所述季节性分解函数将所述低纬度特征词表分解为趋势、季节性和残差三部分;
(c)用所述ADF检验函数中的单位根检验算法,检验低纬度特征词表序列是否平稳;用季节性分解函数,分析分解后的趋势、季节性确认序列是否平稳;以及自相关性和偏自相关性,通过截尾或拖尾的lag值,来检验低纬度特征词表序列是否平稳;
(d)在稳定性检验通过后,根据低纬度特征词表的统计特征,包括平均值、中值、方差,设置SARIMA模型的初始参数;
(e)使用SARIMA模型的预测算法绘制拟合曲线和预测曲线;
(f)对拟合曲线和预测曲线的陡峭性进行分析,再回到上述步骤(d)调整参数,直到得到满足预设条件的拟合曲线和预测曲线。
在人工知识和低纬度显著特征库的基础上,本发明将低纬度显著特征库数据输入到SARIMA模型—LightGBM模型,作为模型的训练集,通过上万次的数据反复迭代计算,训练模型中的各参数,通过不断调整参数,得到最佳的效果,最终输出实用性更高效率更优质量更优的预测模型。
步骤四、基于预设数据中心的历史数据验证所述急性传染病自动化预测模型的准确性。
本发明较佳实施例中,所述预设数据中心为中国疾病预防控制中心。
为了进一步验证预测模型的高效性和效用性,本发明将中国疾病预防控制中心中急性传染病的历史数据作为试验数据输入已经训练建立好的模型,通过模型的计算输出,得到历史急性传染病发病的时间点,与实际发生的急性传染病时间进行比对,从而最终判定模型的预测准确度。
步骤五、利用所述急性传染病自动化预测模型进行急性传染病的预测。
可选地,在其他实施例中,急性传染病的发病周期预测程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述急性传染病的发病周期预测程序在急性传染病的发病周期预测装置中的执行过程。
例如,参照图3所示,为本发明急性传染病的发病周期预测装置一实施例中的急性传染病的发病周期预测程序的程序模块示意图,该实施例中,急性传染病的发病周期预测程序可以被分割为高纬度特征库建立模块10、低纬度特征库筛选模块20、模型训练模块30、模型验证模块40和预测模块50,示例性地:
所述高纬度特征库建立模块10用于:获取预设种类的急性传染病的历史资料,根据所述急性传染病的固定周期,使用高纬度特征提取方法提取所述急性传染病的特征,形成高纬度全特征库。
可选地,所述使用高纬度特征提取方法提取所述急性传染病的特征,形成高纬度全特征库,包括:
对所述急性传染病历史资料进行预处理,去除重复、无效和空值数据,得到可用的历史数据集,形成文本数据;
利用自然语言处理方法对所述文本数据进行切词,并根据切词得到的词的词性去掉无用词,并利用TF-IDF算法生成急性传染病特征词;
建立列表矩阵,用于接收所述急性传染病特征词;
计算所述列表矩阵中的任意两个特征词之间的余弦距离,将两个特征词之间的余弦距离作为该两个特征词的相似值;
根据计算得到的相似值及相似值阈值筛选出高相似度的特征词,构成高纬度特征词库;及
给高纬度特征词库中的每个词贴文档标签,通过文档相似计算公式计算出文档标签之间的相似值,从而得到高纬度全特征库。
所述低纬度特征库筛选模块20用于:使用重要性排序和支持向量机回归机降维方法,从所述高纬度全特征库中抽取表征所述急性传染病的特征数据,形成低纬度显著特征库。
可选地,所述使用重要性排序和支持向量机回归机降维方法从高纬度全特征库中抽取表征急性传染病的特征数据,形成低纬度显著特征库,包括:
导入所述高纬度全特征库,从所述高纬度全特征库中提取出包含的高纬度特征词;
构建二维表的特征词矩阵,其中列为编号,行为包含的词,将高纬度特征词存储于该特征词矩阵中;
将所述特征词矩阵从二维表转换为只包含词的一维表形式,只生成一列多行的高纬度特征词矩阵;
根据上述计算得到的两个特征词之间的相似值对高纬度特征词进行由大到小的重要性排序;
导入支持向量机回归机模型,计算高纬度特征词中每个词与核心点的距离;及
根据所述距离值及预设阈值筛选高于该预设阈值的词,得到低纬度特征词表。
所述模型训练模块30用于:使用预设模型对所述低纬度显著特征库进行训练学习,得到预测模型的参数,根据得到的参数构建急性传染病自动化预测模型。
可选地,所述预设模型为SARIMA模型与boosting框架的LightGBM组合模型。
可选地,所述使用预设模型对低纬度显著特征库进行训练学习,得到预测模型的参数,根据得到的参数构建急性传染病自动化预测模型,包括:
(a)将所述低纬度特征词表导入boosting框架LightGBM模型;
(b)在所述boosting框架LightGBM模型中进一步导入所述SARIMA模型中的函数,包括:ADF检验函数、季节性分解函数、白噪声检验函数及自相关和偏自相关的绘图函数等,其中所述季节性分解函数将所述低纬度特征词表分解为趋势、季节性和残差三部分;
(c)用所述ADF检验函数中的单位根检验算法,检验低纬度特征词表序列是否平稳;用季节性分解函数,分析分解后的趋势、季节性确认序列是否平稳;以及自相关性和偏自相关性,通过截尾或拖尾的lag值,来检验低纬度特征词表序列是否平稳;
(d)在稳定性检验通过后,根据低纬度特征词表的统计特征,包括平均值、中值、方差,设置SARIMA模型的初始参数;
(e)使用SARIMA模型的预测算法绘制拟合曲线和预测曲线;
(f)对拟合曲线和预测曲线的陡峭性进行分析,再回到上述步骤(d)调整参数,直到得到满足预设条件的拟合曲线和预测曲线。
所述模型验证模块40用于:基于预设数据中心的历史数据验证所述急性传染病自动化预测模型的准确性。
所述预测模块50用于:利用所述急性传染病自动化预测模型进行急性传染病的预测。
上述高纬度特征库建立模块10、低纬度特征库筛选模块20、模型训练模块30、模型验证模块40和预测模块50等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有急性传染病的发病周期预测程序,所述急性传染病的发病周期预测程序可被一个或多个处理器执行,以实现如下操作:
获取预设种类的急性传染病的历史资料,根据所述急性传染病的固定周期,使用高纬度特征提取方法提取所述急性传染病的特征,形成高纬度全特征库;
使用重要性排序和支持向量机回归机降维方法,从所述高纬度全特征库中抽取表征所述急性传染病的特征数据,形成低纬度显著特征库;
使用预设模型对所述低纬度显著特征库进行训练学习,得到预测模型的参数,根据得到的参数构建急性传染病自动化预测模型;
基于预设数据中心的历史数据验证所述急性传染病自动化预测模型的准确性;及
利用所述急性传染病自动化预测模型进行急性传染病的预测。
本发明计算机可读存储介质具体实施方式与上述急性传染病的发病周期预测装置和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种急性传染病的发病周期预测方法,其特征在于,所述方法包括:
获取预设种类的急性传染病的历史资料,根据所述急性传染病的固定周期,使用高纬度特征提取方法提取所述急性传染病的特征,形成高纬度全特征库;
使用重要性排序和支持向量机回归机降维方法,从所述高纬度全特征库中抽取表征所述急性传染病的特征数据,形成低纬度显著特征库;
使用预设模型对所述低纬度显著特征库进行训练学习,得到预测模型的参数,根据得到的参数构建急性传染病自动化预测模型,其中,所述预设模型为SARIMA模型与boosting框架的LightGBM组合模型,所述使用预设模型对低纬度显著特征库进行训练学习,得到预测模型的参数,根据得到的参数构建急性传染病自动化预测模型,包括:
(a)将所述低纬度特征词表导入boosting框架LightGBM模型;
(b)在所述boosting框架LightGBM模型中进一步导入所述SARIMA模型中的函数,包括:ADF检验函数、季节性分解函数、白噪声检验函数及自相关和偏自相关的绘图函数,其中所述季节性分解函数将所述低纬度特征词表分解为趋势、季节性和残差三部分;
(c)用所述ADF检验函数中的单位根检验算法,检验低纬度特征词表序列是否平稳;用季节性分解函数,分析分解后的趋势、季节性确认序列是否平稳;以及自相关性和偏自相关性,通过截尾或拖尾的lag值,来检验低纬度特征词表序列是否平稳;
(d)在稳定性检验通过后,根据低纬度特征词表的统计特征,包括平均值、中值、方差,设置SARIMA模型的初始参数;
(e)使用SARIMA模型的预测算法绘制拟合曲线和预测曲线;及
(f)对拟合曲线和预测曲线的陡峭性进行分析,再回到上述步骤(d)调整参数,直到得到满足预设条件的拟合曲线和预测曲线;
基于预设数据中心的历史数据验证所述急性传染病自动化预测模型的准确性;及
利用所述急性传染病自动化预测模型进行急性传染病的预测。
2.如权利要求1所述的急性传染病的发病周期预测方法,其特征在于,所述使用高纬度特征提取方法提取所述急性传染病的特征,形成高纬度全特征库,包括:
对所述急性传染病历史资料进行预处理,去除重复、无效和空值数据,得到可用的历史数据集,形成文本数据;
利用自然语言处理方法对所述文本数据进行切词,并根据切词得到的词的词性去掉无用词,并利用TF-IDF算法生成急性传染病特征词;
建立列表矩阵,用于接收所述急性传染病特征词;
计算所述列表矩阵中的任意两个急性传染病特征词之间的余弦距离,将两个急性传染病特征词之间的余弦距离作为该两个急性传染病特征词的相似值;
根据计算得到的相似值及相似值阈值筛选出高相似度的特征词,构成高纬度特征词库;及
给高纬度特征词库中的每个词贴文档标签,通过文档相似计算公式计算出文档标签之间的相似值,从而得到高纬度全特征库。
3.如权利要求2所述的急性传染病的发病周期预测方法,其特征在于,所述使用重要性排序和支持向量机回归机降维方法从高纬度全特征库中抽取表征急性传染病的特征数据,形成低纬度显著特征库,包括:
导入所述高纬度全特征库,从所述高纬度全特征库中提取出包含的高纬度特征词;
构建二维表的特征词矩阵,其中列为编号,行为包含的词,将高纬度特征词存储于该特征词矩阵中;
将所述特征词矩阵从二维表转换为只包含词的一维表形式,只生成一列多行的高纬度特征词矩阵;
根据上述计算得到的两个特征词之间的相似值对高纬度特征词进行由大到小的重要性排序;
导入支持向量机回归机模型,计算高纬度特征词中每个词与核心点的距离;及
根据所述距离值及预设阈值筛选高于该预设阈值的词,得到低纬度特征词表。
4.一种急性传染病的发病周期预测装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的急性传染病的发病周期预测程序,所述急性传染病的发病周期预测程序被所述处理器执行时实现如下步骤:
获取预设种类的急性传染病的历史资料,根据所述急性传染病的固定周期,使用高纬度特征提取方法提取所述急性传染病的特征,形成高纬度全特征库;
使用重要性排序和支持向量机回归机降维方法,从所述高纬度全特征库中抽取表征所述急性传染病的特征数据,形成低纬度显著特征库;
使用预设模型对所述低纬度显著特征库进行训练学习,得到预测模型的参数,根据得到的参数构建急性传染病自动化预测模型,其中,所述预设模型为SARIMA模型与boosting框架的LightGBM组合模型,所述使用预设模型对低纬度显著特征库进行训练学习,得到预测模型的参数,根据得到的参数构建急性传染病自动化预测模型,包括:
(a)将所述低纬度特征词表导入boosting框架LightGBM模型;
(b)在所述boosting框架LightGBM模型中进一步导入所述SARIMA模型中的函数,包括:ADF检验函数、季节性分解函数、白噪声检验函数及自相关和偏自相关的绘图函数,其中所述季节性分解函数将所述低纬度特征词表分解为趋势、季节性和残差三部分;
(c)用所述ADF检验函数中的单位根检验算法,检验低纬度特征词表序列是否平稳;用季节性分解函数,分析分解后的趋势、季节性确认序列是否平稳;以及自相关性和偏自相关性,通过截尾或拖尾的lag值,来检验低纬度特征词表序列是否平稳;
(d)在稳定性检验通过后,根据低纬度特征词表的统计特征,包括平均值、中值、方差,设置SARIMA模型的初始参数;
(e)使用SARIMA模型的预测算法绘制拟合曲线和预测曲线;及
(f)对拟合曲线和预测曲线的陡峭性进行分析,再回到上述步骤(d)调整参数,直到得到满足预设条件的拟合曲线和预测曲线;
基于预设数据中心的历史数据验证所述急性传染病自动化预测模型的准确性;及
利用所述急性传染病自动化预测模型进行急性传染病的预测。
5.如权利要求4所述的急性传染病的发病周期预测装置,其特征在于,所述使用高纬度特征提取方法提取所述急性传染病的特征,形成高纬度全特征库包括:
对所述急性传染病历史资料进行预处理,去除重复、无效和空值数据,得到可用的历史数据集,形成文本数据;
利用自然语言处理方法对所述文本数据进行切词,并根据切词得到的词的词性去掉无用词,并利用TF-IDF算法生成急性传染病特征词;
建立列表矩阵,用于接收所述急性传染病特征词;
计算所述列表矩阵中的任意两个急性传染病特征词之间的余弦距离,将两个急性传染病特征词之间的余弦距离作为该两个急性传染病特征词的相似值;
根据计算得到的相似值及相似值阈值筛选出高相似度的特征词,构成高纬度特征词库;及
给高纬度特征词库中的每个词贴文档标签,通过文档相似计算公式计算出文档标签之间的相似值,从而得到高纬度全特征库。
6.如权利要求5所述的急性传染病的发病周期预测装置,其特征在于,所述使用重要性排序和支持向量机回归机降维方法从高纬度全特征库中抽取表征急性传染病的特征数据,形成低纬度显著特征库,包括:
导入所述高纬度全特征库,从所述高纬度全特征库中提取出包含的高纬度特征词;
构建二维表的特征词矩阵,其中列为编号,行为包含的词,将高纬度特征词存储于该特征词矩阵中;
将所述特征词矩阵从二维表转换为只包含词的一维表形式,只生成一列多行的高纬度特征词矩阵;
根据上述计算得到的两个特征词之间的相似值对高纬度特征词进行由大到小的重要性排序;
导入支持向量机回归机模型,计算高纬度特征词中每个词与核心点的距离;及
根据所述距离值及预设阈值筛选高于该预设阈值的词,得到低纬度特征词表。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有急性传染病的发病周期预测程序,所述急性传染病的发病周期预测程序可被一个或者多个处理器执行,以实现如权利要求1至3中任一项所述的急性传染病的发病周期预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910269142.0A CN110111902B (zh) | 2019-04-04 | 2019-04-04 | 急性传染病的发病周期预测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910269142.0A CN110111902B (zh) | 2019-04-04 | 2019-04-04 | 急性传染病的发病周期预测方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110111902A CN110111902A (zh) | 2019-08-09 |
CN110111902B true CN110111902B (zh) | 2022-05-27 |
Family
ID=67484971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910269142.0A Active CN110111902B (zh) | 2019-04-04 | 2019-04-04 | 急性传染病的发病周期预测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110111902B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111724873B (zh) * | 2020-06-18 | 2024-01-09 | 北京嘉和海森健康科技有限公司 | 一种数据处理方法及装置 |
CN111816321B (zh) * | 2020-07-09 | 2022-06-14 | 武汉东湖大数据交易中心股份有限公司 | 基于法定诊断标准智能识别传染病的系统、设备及存储介质 |
CN112185566B (zh) * | 2020-10-14 | 2021-08-13 | 上海玺翎智能科技有限公司 | 一种基于机器学习预测预警感染性疾病就医人数突增的方法 |
CN112652403B (zh) * | 2020-12-25 | 2023-07-14 | 中国科学技术大学 | 疫情预测方法及装置 |
CN113516845A (zh) * | 2021-04-27 | 2021-10-19 | 中南大学 | 基于sarima-nar组合模型的道路月度交通量预测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107688872A (zh) * | 2017-08-20 | 2018-02-13 | 平安科技(深圳)有限公司 | 预测模型建立装置、方法及计算机可读存储介质 |
CN108172301A (zh) * | 2018-01-31 | 2018-06-15 | 中国科学院软件研究所 | 一种基于梯度提升树的蚊媒传染病疫情预测方法及系统 |
CN108538397A (zh) * | 2017-12-23 | 2018-09-14 | 天津国科嘉业医疗科技发展有限公司 | 一种基于粒子滤波模型的流感趋势预测系统及方法 |
CN108766585A (zh) * | 2018-05-31 | 2018-11-06 | 平安科技(深圳)有限公司 | 流感预测模型的生成方法、装置及计算机可读存储介质 |
CN108831561A (zh) * | 2018-05-31 | 2018-11-16 | 平安科技(深圳)有限公司 | 流感预测模型的生成方法、装置及计算机可读存储介质 |
CN109492655A (zh) * | 2017-09-11 | 2019-03-19 | 中国移动通信有限公司研究院 | 一种特征提取方法、装置及终端 |
-
2019
- 2019-04-04 CN CN201910269142.0A patent/CN110111902B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107688872A (zh) * | 2017-08-20 | 2018-02-13 | 平安科技(深圳)有限公司 | 预测模型建立装置、方法及计算机可读存储介质 |
CN109492655A (zh) * | 2017-09-11 | 2019-03-19 | 中国移动通信有限公司研究院 | 一种特征提取方法、装置及终端 |
CN108538397A (zh) * | 2017-12-23 | 2018-09-14 | 天津国科嘉业医疗科技发展有限公司 | 一种基于粒子滤波模型的流感趋势预测系统及方法 |
CN108172301A (zh) * | 2018-01-31 | 2018-06-15 | 中国科学院软件研究所 | 一种基于梯度提升树的蚊媒传染病疫情预测方法及系统 |
CN108766585A (zh) * | 2018-05-31 | 2018-11-06 | 平安科技(深圳)有限公司 | 流感预测模型的生成方法、装置及计算机可读存储介质 |
CN108831561A (zh) * | 2018-05-31 | 2018-11-16 | 平安科技(深圳)有限公司 | 流感预测模型的生成方法、装置及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
SARIMA模型在流行性腮腺炎发病预测中的应用;李润滋等;《山东大学学报(医学版)》;20160930;第54卷(第09期);第87-91、101页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110111902A (zh) | 2019-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110111902B (zh) | 急性传染病的发病周期预测方法、装置及存储介质 | |
CN108629043B (zh) | 网页目标信息的提取方法、装置及存储介质 | |
CN110263248B (zh) | 一种信息推送方法、装置、存储介质和服务器 | |
CN109145216A (zh) | 网络舆情监控方法、装置及存储介质 | |
JP2019504371A (ja) | 自動質問応答システムにおける質問クラスタリング処理方法及び装置 | |
CN109598307B (zh) | 数据筛选方法、装置、服务器及存储介质 | |
CN113626607B (zh) | 异常工单识别方法、装置、电子设备及可读存储介质 | |
CN113360654B (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN106156794B (zh) | 基于文字风格识别的文字识别方法及装置 | |
CN114398557A (zh) | 基于双画像的信息推荐方法、装置、电子设备及存储介质 | |
CN115238670A (zh) | 信息文本抽取方法、装置、设备及存储介质 | |
CN115374189A (zh) | 基于区块链的食品安全溯源方法、装置及设备 | |
CN114416939A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN108959289B (zh) | 网站类别获取方法和装置 | |
US20230394236A1 (en) | Extracting content from freeform text samples into custom fields in a software application | |
CN111460293B (zh) | 信息推送方法、装置及计算机可读存储介质 | |
CN110442858B (zh) | 一种问句实体识别方法、装置、计算机设备及存储介质 | |
CN112990147A (zh) | 一种涉政图像的识别方法、装置、电子设备及存储介质 | |
CN113888760A (zh) | 基于软件应用的违规信息监控方法、装置、设备及介质 | |
CN113704623A (zh) | 一种数据推荐方法、装置、设备及存储介质 | |
CN113419951A (zh) | 人工智能模型优化方法、装置、电子设备及存储介质 | |
CN116628128B (zh) | 一种供应链数据标准化方法、装置、设备及其存储介质 | |
CN111680513B (zh) | 特征信息的识别方法、装置及计算机可读存储介质 | |
JP6714276B2 (ja) | 情報抽出装置、情報抽出方法及びプログラム | |
CN116703619A (zh) | 基于关系网络的保单识别方法以及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |