CN116738972B - 基于人工智能的药学服务推广分析方法 - Google Patents
基于人工智能的药学服务推广分析方法 Download PDFInfo
- Publication number
- CN116738972B CN116738972B CN202310980994.7A CN202310980994A CN116738972B CN 116738972 B CN116738972 B CN 116738972B CN 202310980994 A CN202310980994 A CN 202310980994A CN 116738972 B CN116738972 B CN 116738972B
- Authority
- CN
- China
- Prior art keywords
- medical information
- pathology
- information sources
- cluster
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 28
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 25
- 230000007170 pathology Effects 0.000 claims abstract description 108
- 239000003814 drug Substances 0.000 claims abstract description 62
- 201000010099 disease Diseases 0.000 claims abstract description 47
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 47
- 238000004364 calculation method Methods 0.000 claims abstract description 27
- 229940079593 drug Drugs 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000012795 verification Methods 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 36
- 238000003062 neural network model Methods 0.000 claims description 33
- 238000005259 measurement Methods 0.000 claims description 29
- 238000000034 method Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 23
- 238000004422 calculation algorithm Methods 0.000 description 10
- 208000024891 symptom Diseases 0.000 description 8
- 238000003860 storage Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 206010011224 Cough Diseases 0.000 description 5
- 206010037660 Pyrexia Diseases 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 206010019233 Headaches Diseases 0.000 description 4
- 231100000869 headache Toxicity 0.000 description 4
- 206010012735 Diarrhoea Diseases 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001575 pathological effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 206010068319 Oropharyngeal pain Diseases 0.000 description 1
- 201000007100 Pharyngitis Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 208000027906 leg weakness Diseases 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003387 muscular Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000008961 swelling Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了基于人工智能的药学服务推广分析方法,涉及数据处理技术领域,包括:获取网络医疗平台上的医疗信息源,对医疗信息源进行处理得到病状关键词,根据医疗信息源的病状关键词集合分别计算非共性病状概率和熵极限程度,两者相乘得到判别因子,进而得到聚类距离度量,基于聚类距离度量进行聚类计算得到目标聚簇,然后通过评价目标聚簇内日发病量变化,预测该流行性疾病是否可能出现集中爆发,进而优化各药品销售点对应各类有效药品的储备量。这样,提高了药品生产企业对各药品销售点的药事管理效率,最大化提高了药品销售效率,保证了各基层销售点能够满足客户用药需求,使药品的销售链运转更为健康。
Description
技术领域
本发明涉及数据处理技术领域,特别是涉及基于人工智能的药学服务推广分析方法。
背景技术
为了优化人工管理的不足,相关技术利用人工智能对社交媒体、热点话题、药品销售记录等信息来源进行数据挖掘,可以为药学服务推广提供有针对性的信息和策略。人工智能利用自然语言技术对大量信息来源进行挖掘,然后根据互联网时代信息传播速度的优势,迅速掌握部分疾病的发病规律。并及时向各药品销售点进行药品推广,更新其药品储备。但是流行病与普通疾病具有较高的相似性,传统聚类算法不具备判别流行病的能力,因此其聚类结果对于流行性疾病的预测与药品推广作用较小。
发明内容
鉴于上述问题,本申请提供了基于人工智能的药学服务推广分析方法,通过构建聚类距离度量模型,使聚类结果以流行疾病为中心,提高了流行病状后续聚类分析、预测的准确性,提高了药品生产企业对各药品销售点的药事管理效率,最大化提高药品销售效率,保证各基层销售点能够满足客户用药需求,使药品的销售链运转更为健康。
第一方面,本申请实施例提供了基于人工智能的药学服务推广分析方法,包括:
获取网络医疗平台上的医疗信息源;
对每一个医疗信息源进行预处理,得到每一个医疗信息源对应的病状关键词集合;
对任意两个医疗信息源对应的病状关键词集合分别进行非共性病状概率和熵极限程度计算,得到任意两个医疗信息源对应的病状关键词集合的非共性病状概率和熵极限程度;
基于非共性病状概率和熵极限程度进行判别因子计算,并基于判别因子,得到任意两个医疗信息源之间的聚类距离度量;
基于任意两个医疗信息源之间的聚类距离度量,对每一个医疗信息源对应的病状关键词集合作为聚簇中心进行聚类计算,得到目标聚簇,其中目标聚簇为当更新至某一个信息源为聚簇中心时,其对应聚类结果为聚簇体量最大时的聚簇;
对目标聚簇内发病人数的平均日变化量进行计算,并基于发病人数的平均日变化量得到流行病发病预测结果;
基于预测结果与目标聚簇内的所有病状关键词,得到治疗流行病的有效药向药品销售点进行储备推荐。
在一种可能的实现方式中,对每一个医疗信息源进行预处理,得到每一个医疗信息源对应的病状关键词集合,包括:
对每一个医疗信息源进行数据清洗和关键词提取处理,得到每一个医疗信息源对应的第一病状关键词集合;
对第一病状关键词集合利用预先训练好的神经网络模型进行筛选,得到每一个医疗信息源对应的第二病状关键词集合;
对第二病状关键词集合进行同义词识别,得到每一个医疗信息源对应的第三病状关键词集合。
在一种可能的实现方式中,药学服务推广分析方法还包括:预先训练神经网络模型,其中,预先训练神经网络模型包括:
获取训练样本,训练样本为标注有不同病状关键词标签和无病状关键词标签的单词库,其中训练样本包括训练集和验证集,训练集和验证集的比例为7:3;
将训练集输入初始神经网络模型中,得到第一预测结果,根据第一预测结果与训练集标签计算得到训练集的交叉熵损失函数值;
根据交叉熵损失函数值,对初始神经网络模型的待训练参数进行调整,得到训练后的神经网络模型;
将验证集输入到预先训练的神经网络模型中,得出第二预测结果,根据第二预测结果和验证集标签计算当前验证集的交叉熵损失函数值,并将当前验证集的交叉熵损失函数值与设置的最优验证集交叉熵损失函数值进行比较:
若当前验证集的交叉熵损失函数值小于设置的最优验证集交叉熵损失函数值,则将最优验证集交叉熵损失函数值更新为当前验证集的交叉熵损失函数值,并保存当前训练后的神经网络模型为预先训练好的神经网络模型;否则继续进行迭代训练。
在一种可能的实现方式中,对任意两个医疗信息源对应的病状关键词集合分别进行非共性病状概率和熵极限程度计算,得到任意两个医疗信息源对应的病状关键词集合的非共性病状概率和熵极限程度,基于非共性病状概率和熵极限程度进行判别因子计算,其中判别因子的计算公式为:
其中,a、b分别代表任意两个医疗信息源,代表两个医疗信息源的最大相同关键词的词组,/>代表/>词组在所有医疗信息源中出现的次数,G代表总医疗信息源数量,/>代表a、b中最大相同关键词组在所有医疗信息源中出现的概率,代表非共性病状概率,/>代表a、b医疗信息源中的病状关键词总数量,i代表其中任意一个病状关键词,/>代表第i个病状关键词在所有医疗信息源关键词总数量中出现的次数,/>代表a、b医疗信息源中病状关键词在所有医疗信息源关键词总数量中出现的次数之和,/>为第i个病状关键词出现的次数除以a、b医疗信息源中所有病状关键词出现的次数之和,/>代表以2为底的对数函数,代表第i个病状关键词的出现次数在a、b医疗信息源中所有关键词出现次数的信息熵,/>表示信息熵值的最大值,表示熵极限程度。
在一种可能的实现方式中,基于判别因子,得到任意两个医疗信息源之间的聚类距离度量,其中聚类距离度量的计算公式为:
其中,a、b分别代表任意两个信息源,代表判别因子,/>代表两个信息源的最大相同关键词的词组,/>代表a、b信息源中病状关键词最多的一个信息源所含的病状关键词数量。
在一种可能的实现方式中,基于任意两个医疗信息源之间的聚类距离度量,对每一个医疗信息源对应的病状关键词集合作为聚簇中心进行聚类计算,包括:
将聚类距离度量与第一预设阈值进行比较,当任意两个医疗信息源之间的聚类距离度量小于第一预设阈值时,将两个医疗信息源归为一类;
将归为一类的医疗信息源作为新的簇内点与其他医疗信息源进行聚类距离度量计算,基于第一预设阈值进行判定,重复聚类操作直至无符合第一预设阈值要求的医疗信息源。
在一种可能的实现方式中,进一步包括:
每次归类一个医疗信息源时,计算簇内各医疗信息源相互之间的距离方差,将距离方差与第二预设阈值进行比较,根据比较结果判断新归类的医疗信息源是否剔除,其中第二预设阈值小于第一预设阈值。
在一种可能的实现方式中,簇内各医疗信息源相互之间的距离方差的计算公式为:
其中,K代表聚类过程中簇内信息源数量,代表簇内医疗信息源两两组合计算聚类距离度量的组合数量,v代表其中任意一组,/>代表簇内第v组聚类距离度量值,/>为簇内聚类距离度量均值。
在一种可能的实现方式中,对目标聚簇内发病人数的平均日变化量进行计算,并基于发病人数的平均日变化量得到流行病发病预测结果,包括:
将目标聚簇发病人数的平均日变化量与第三预设阈值进行比较,根据比较结果进行流行病发病趋势预测。
在一种可能的实现方式中,进一步包括:目标聚簇发病人数的平均日变化量的计算公式为:
其中,t代表连续一段时间内任意一天,N为连续一段时间的总天数,N≥7,代表簇内第t天的医疗信息源数量,/>代表相邻两天的医疗信息源数量差异。
第二方面,本申请实施例提供了一种电子设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现如第一方面各个可能实现的实施例。
第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行如第一方面各个可能实现的实施例。
本申请的有益效果在于:针对人工智能根据互联网数据分析更新药品销售点药品储备的过程中,存在传统分析模型不具有判别流行病和普通疾病的能力,因此获取近期医疗平台的病状关键词,然后根据医疗信息源内关键词词组概率获取非共性病状概率,根据医疗信息源内病状关键词的信息熵除以熵极限获取其关键词分布的熵极限程度,两者相乘得到判别因子,进而得到聚类距离度量模型,设置距离阈值进行聚类,得到流行性疾病医疗信息源聚簇,然后通过评价簇内日发病量变化,预测该流行性疾病是否可能出现集中爆发,进而优化各药品销售点对应各类有效药品的储备量。本申请构建的距离度量模型相比于传统聚类算法,具有判别流行病状的作用,使聚类结果以流行疾病为中心,提高后续聚类分析、预测的准确性,提高药品生产企业对各药品销售点的药事管理效率,最大化提高药品销售效率,保证各基层销售点能够满足客户用药需求,使药品的销售链运转更为健康。
附图说明
图1是本申请实施例提供的基于人工智能的药学服务推广分析方法的步骤流程图;
图2是本申请实施例提供的一种电子设备的结构框图;
图3是本申请实施例提供的一种计算机可读存储介质的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其它实施例,都属于本申请保护的范围。
本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
需要注意,本申请中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
下面结合附图,对本申请的实施例进行描述。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
参见图1所示,本申请实施例公开了基于人工智能的药学服务推广分析方法,包括:
步骤S11,获取网络医疗平台上的医疗信息源;
步骤S12,对每一个医疗信息源进行预处理,得到每一个医疗信息源对应的病状关键词集合;
步骤S13,对任意两个医疗信息源对应的病状关键词集合分别进行非共性病状概率和熵极限程度计算,得到任意两个医疗信息源对应的病状关键词集合的非共性病状概率和熵极限程度;
步骤S14,基于非共性病状概率和熵极限程度进行判别因子计算,并基于判别因子,得到任意两个医疗信息源之间的聚类距离度量;
步骤S15,基于任意两个医疗信息源之间的聚类距离度量,对每一个医疗信息源对应的病状关键词集合作为聚簇中心进行聚类计算,得到目标聚簇,其中目标聚簇为当更新至某一个信息源为聚簇中心时,其对应聚类结果为聚簇体量最大时的聚簇;
步骤S16,对目标聚簇内发病人数的平均日变化量进行计算,并基于发病人数的平均日变化量得到流行病发病预测结果;
步骤S17,基于预测结果与目标聚簇内的所有病状关键词,得到治疗流行病的有效药向药品销售点进行储备推荐。
其中,医疗信息源是从各医疗咨询、社交网站上获取的实时大数据。具体是利用网络爬虫等工具在医疗相关互联网上自动搜集、抓取医疗信息源,确定抓取范围为连续一定时间段内的网络信息,例如一个月内,抓取目标为任意用户发布在医疗相关互联网上的病状信息,包括页面链接、咨询、评论、讨论、文章等等,在此不做具体限定。
在上述实施例步骤中,利用网络爬虫获取近期网络医疗平台上的医疗信息源,对医疗信息源进行处理得到病状关键词,然后对任意两个医疗信息源对应的病状关键词集合分别计算非共性病状概率和熵极限程度,两者相乘得到判别因子,进而得到任意两个医疗信息源之间的聚类距离度量,基于任意两个医疗信息源之间的聚类距离度量,对每一个医疗信息源对应的病状关键词集合作为聚簇中心进行聚类计算,得到目标聚簇,然后通过评价目标聚簇内日发病量变化,预测该流行性疾病是否可能出现集中爆发,进而基于预测结果与目标聚簇内的所有病状关键词优化各药品销售点对应各类有效药品的储备量。本发明构建的聚类距离度量模型相比于传统聚类算法,具有判别流行病状的作用,使聚类结果以流行疾病为中心,提高后续聚类分析、预测的准确性,提高药品生产企业对各药品销售点的药事管理效率,最大化提高药品销售效率,保证各基层销售点能够满足客户用药需求,使药品的销售链运转更为健康。
在本申请一个可选的实施例中,对每一个医疗信息源进行预处理,得到每一个医疗信息源对应的病状关键词集合,包括:
对每一个医疗信息源进行数据清洗和关键词提取处理,得到每一个医疗信息源对应的第一病状关键词集合;
对第一病状关键词集合利用预先训练好的神经网络模型进行筛选,得到每一个医疗信息源对应的第二病状关键词集合;
对第二病状关键词集合进行同义词识别,得到每一个医疗信息源对应的第三病状关键词集合。
需要说明的是,对搜集好的医疗信息源数据进行数据清洗,包括残缺语句、错词、标点符号的去除,然后利用关键词提取算法提取关键词,其中关键词提取算法可以采用Rake算法、基于统计特征的关键词提取算法(TF-IDF)、基于词图模型的关键词提取算法(TextRank)、基于主题模型的关键词提取算法(LDA)等,在此不对其进行具体限定。
同时,为了剔除不需要不准确的病状关键词,采用预先训练好的神经网络模型进行进一步的筛选,其中神经网络模型是CNN神经网络模型,例如可以是LeNet-5、AlexNeT、VGG-16、GoogLeNet神经网络模型等,在此不对其进行具体限定。
进一步需要说明的是,在医疗信息源中所提取的病状关键词存在同义词,利用语料库进行验证即可,该方法通过对大规模语料库中的文本进行分析,比较不同词语在上下文中的使用情况,计算它们之间的相似度,从而确定它们是否为同义词,同义词识别为公知技术,在此不再赘述。
在本申请一个可选的实施例中,药学服务推广分析方法还包括:预先训练神经网络模型,其中,预先训练神经网络模型包括:
获取训练样本,训练样本为标注有不同病状关键词标签和无病状关键词标签的单词库,其中训练样本包括训练集和验证集,训练集和验证集的比例为7:3;
将训练集输入初始神经网络模型中,得到第一预测结果,根据第一预测结果与训练集标签计算得到训练集的交叉熵损失函数值;
根据交叉熵损失函数值,对初始神经网络模型的待训练参数进行调整,得到训练后的神经网络模型;
将验证集输入到预先训练的神经网络模型中,得出第二预测结果,根据第二预测结果和验证集标签计算当前验证集的交叉熵损失函数值,并将当前验证集的交叉熵损失函数值与设置的最优验证集交叉熵损失函数值进行比较:
若当前验证集的交叉熵损失函数值小于设置的最优验证集交叉熵损失函数值,则将最优验证集交叉熵损失函数值更新为当前验证集的交叉熵损失函数值,并保存当前训练后的神经网络模型为预先训练好的神经网络模型;否则继续进行迭代训练。
需要说明的是,训练CNN神经网络模型时,需要获取训练样本,训练样本越多神经网络效果越好,但耗费时间更长,在本申请实施例中,准备若干单词库,暂定为5000个,对单词库中不同病状关键词和无病状关键词进行标签标引,例如对头痛、喉咙疼、腹泻、腿脚无力、关节酸软、咳嗽、发热、肿胀等常见病状关键词进行不同标签标引,对阳光、大地等无病状关键词进行标签标引,构建形成训练样本。然后按照7:3分为训练集和验证集,将训练集输入神经网络中进行训练,利用梯度下降法迭代训练,然后采用验证集对训练后的CNN神经网络模型进行验证,直至满足当前验证集的交叉熵损失函数值小于设置的最优验证集交叉熵损失函数值,将训练完成的神经网络可以对网络爬虫所搜集的病状关键词进行筛选,得到病状关键词集合。
在所有关于病状的关键词中,分为普通病状和流行性病状,前者可视为在任意时间段随机出现,而后者则会在某个时间段内集中出现,具有突发性,因此若不能敏感捕捉病状信息,就会出现药品生产供应不足,基层药品销售点储备不足的问题。对于网络时代热点信息的挖掘,可以帮助药品销售点第一时间做好药品储备工作,为发病高峰期提供充足的药品保障,优化药事管理系统。
对于关键词集合,仅利用词频无法获取流行症状的实际情况,而每种疾病对应的各个病状关键词之间必然具有并行特征,因此将关键词按照网络爬虫所得的数据信息源头进行标记,单个医疗信息源中所描述的病状关键词最大可能出于同一个疾病中。
那么对于病状的最小聚类单位即为各个信息源,一个信息源中包含发热、咳嗽、腹泻等病状关键词,那么由于其信息源相同,因此默认其属于同一疾病的病状,在信息源聚类过程中,各个病状关键词即为其聚类特征。
但是多数流行病之间具有较高的相似性,例如发热、咳嗽、无力等等,在聚类信息源时总会出现病状特征模糊,因此期望的聚类结果并不是仅根据关键词相似即进行聚类,而是提取所有医疗信息源中的流行疾病病状特征,进行聚类,使聚类结果以流行性病状关键词为主,才能获取实时流行性疾病的传播程度,否则仅以普通病状关键词聚类,那么聚类结果也仅是普通疾病的发病程度,药品销售点对于普通疾病的药品储备量是比较稳定的,无较大需求,因此需要构建以流行性病状关键词为主的聚类距离度量模型。
在本申请一个可选的实施例中,对任意两个医疗信息源对应的病状关键词集合分别进行非共性病状概率和熵极限程度计算,得到任意两个医疗信息源对应的病状关键词集合的非共性病状概率和熵极限程度,基于非共性病状概率和熵极限程度进行判别因子计算,其中判别因子的计算公式为:
上式中a、b分别代表任意两个医疗信息源,代表两个医疗信息源的最大相同关键词的词组,举例:发烧、咳嗽、头痛,与发烧、腹泻、头痛,两个医疗信息源中,/>为2,即发烧、头痛;/>代表/>词组在所有医疗信息源中出现的次数,G代表总医疗信息源数量,/>代表a、b中最大相同关键词组在所有医疗信息源中出现的概率。该值越大,代表该词组越可能为共性病状,反之/>代表非共性病状概率,其值越大代表该词组越可能为流行病状。/>代表a、b两个医疗信息源中的病状关键词总数量,/>代表其中任意一个病状关键词,/>代表第/>个病状关键词在所有医疗信息源关键词总数量中出现的次数,/>代表a、b两个医疗信息源中病状关键词在所有医疗信息源关键词总数量中出现的次数之和,/>为第/>个病状关键词出现的次数除以a、b两个医疗信息源中所有病状关键词出现的次数之和,/>代表以2为底的对数函数,代表第/>个病状关键词的出现次数在a、b两个医疗信息源中所有关键词出现次数的信息熵,该熵值的最大值为/>,当取熵极限时,代表a、b中所有关键词出现的次数基本相同,即相互之间的关键词组合无其他搭配方式,反之为共性病状,其关键词搭配方式很多。利用a、b两个医疗信息源之间的信息熵除以熵极限得到熵极限程度,/>该值在0-1之间,该值越大,代表其病状关键词分布越接近熵极限,/>为熵极限程度乘以非共性病状概率,得到的判别因子/>,那么该值具有辨别共性病状和流行病状的作用。
在本申请一个可选的实施例中,基于判别因子,得到任意两个医疗信息源之间的聚类距离度量,其中聚类距离度量的计算公式为:
其中,a、b分别代表任意两个医疗信息源,代表判别因子,/>代表两个医疗信息源的最大相同关键词的词组,/>代表a、b两个医疗信息源中病状关键词最多的一个医疗信息源所含的病状关键词数量,/>代表a、b中最大相同病状关键词组数除以a、b中最多的关键词数量,越接近1则代表a、b越相似,乘以判别因子得到/>,该值在0-1之间,该值越大代表a、b既相似且其病状关键词为流行性疾病的病状特征。需要对医疗信息源进行聚类那么需要将其转化为距离度量,即/>。
在本申请一个可选的实施例中,基于任意两个医疗信息源之间的聚类距离度量,对每一个医疗信息源对应的病状关键词集合作为聚簇中心进行聚类计算,包括:
将聚类距离度量与第一预设阈值进行比较,当任意两个医疗信息源之间的聚类距离度量小于第一预设阈值时,将两个医疗信息源归为一类;
将归为一类的医疗信息源作为新的簇内点与其他医疗信息源进行聚类距离度量计算,基于第一预设阈值进行判定,重复聚类操作直至无符合第一预设阈值要求的医疗信息源。
需要说明的是,得到两个医疗信息源之间的聚类距离度量后,对所有医疗信息源进行聚类,随机设置一个医疗信息源为聚簇中心进行聚簇,然后每一个医疗信息源都作为聚簇中心得到其各自的聚类结果。由于聚类距离度量模型对非流行病关键词的限制,最终聚类结果并非将所有医疗信息源均被归类,仅有流行病相关信息源会聚类成簇,因此当更新至某一个信息源为聚簇中心时,其对应聚类结果若为聚簇体量最大时,该聚簇即为目标聚簇。聚类距离度量只有当两个医疗信息源为同一流行病时,才会具有较小的距离,当两个医疗信息源关键词差异较大,或为普通疾病时,距离度量均会较大。因此设置经验阈值为0.3,当任意两个医疗信息源之间的聚类距离度量小于0.3时,将其归为一类。被归类的医疗信息源作为新的簇内点向其他医疗信息源计算聚类距离度量,根据距离阈值判定是否将其归类,重复上述操作直至无符合距离阈值要求的医疗信息源。
在本申请一个可选的实施例中,进一步包括:每次归类一个医疗信息源时,计算簇内各医疗信息源相互之间的距离方差,将距离方差与第二预设阈值进行比较,根据比较结果判断新归类的医疗信息源是否剔除,其中第二预设阈值小于第一预设阈值。
在本申请一个可选的实施例中,进一步包括:簇内各医疗信息源相互之间的距离方差的计算公式为:
其中,K代表聚类过程中簇内信息源数量,代表簇内医疗信息源两两组合计算聚类距离度量的组合数量,v代表其中任意一组,/>代表簇内第v组聚类距离度量值,/>为簇内聚类距离度量均值。
在上述实施例步骤中,在聚类过程中,新的簇内点加入会导致距离误差叠加,因此需要设置监督项,每次归类新的簇内点时,计算簇内各信息源相互之间的距离方差,该距离方差代表新聚簇点加入聚簇后,所带来误差变化,其作为监督项,所发挥的作用为避免聚类结果失真,因此设置一个较低的阈值为0.25,聚类过程中若方差小于0.25时,代表簇内误差在容许范围,反之若大于0.25,则认为新加入的簇内点超出误差范围,将其剔除;其中需要说明的是,每归类一个医疗信息源,就进行一次监督判定。
在本申请一个可选的实施例中,对目标聚簇内发病人数的平均日变化量进行计算,并基于发病人数的平均日变化量得到流行病发病预测结果,包括:
将目标聚簇发病人数的平均日变化量与第三预设阈值进行比较,根据比较结果进行流行病发病趋势预测。
进一步的,目标聚簇发病人数的平均日变化量的计算公式为:
其中,t代表连续一段时间内任意一天,N为连续一段时间的总天数,N≥7,代表簇内第t天的医疗信息源数量,/>代表相邻两天的医疗信息源数量差异。
其中,通过聚类距离度量进行聚类计算得到最终体量最大的一个聚簇后,即目标聚簇后,该聚簇中的所有医疗信息源,均认为是近期发生的一类流行性疾病,通过目标聚簇发病人数的平均日变化量对其发病趋势进行预测;当流行病集中发病时,进行咨询的患者会逐渐增加,因此若目标聚簇内的日发病量逐渐增加时,认为该流行病具有集中爆发的趋势,若目标聚簇内发病人数的平均日变化量为正数且较大时,符合流行病集中爆发的趋势。当目标聚簇内发病人数的平均日变化量E大于等于50时,认为该流行病较大可能出现集中爆发趋势,进而根据目标聚簇内的所有病状关键词,获取对应有效药,例如针对咳嗽的药品、针对肌肉酸痛的药品等等,向各药品销售点增加此类病状的有效药储备,即可最大化提高药品销售效率,保证各基层销售点能够满足客户用药需求,使药品的销售链运转更为健康。
参见图2所示,本申请实施例公开了一种电子设备20,包括处理器21和存储器22;其中,存储器22,用于保存计算机程序;处理器21,用于通过执行计算机程序来实现前述方法实施例提供的基于人工智能的药学服务推广分析方法。
关于上述基于人工智能的药学服务推广分析方法的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
并且,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,存储方式可以是短暂存储或者永久存储。
另外,电子设备20还包括电源23、通信接口24、输入输出接口25和通信总线26;其中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
进一步的,本申请实施例还公开了一种计算机可读存储介质,如图3所示,用于保存计算机程序31,其中,计算机程序被处理器执行时实现前述方法实施例提供的基于人工智能的药学服务推广分析方法。
关于上述基于人工智能的药学服务推广分析方法的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本申请实施例还提供了一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行本申请方法实施例所示的基于人工智能的药学服务推广分析方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的基于人工智能的药学服务推广分析方法、设备及介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
Claims (8)
1.基于人工智能的药学服务推广分析方法,其特征在于,包括:
获取网络医疗平台上的医疗信息源;
对每一个所述医疗信息源进行预处理,得到每一个医疗信息源对应的病状关键词集合;
对任意两个所述医疗信息源对应的所述病状关键词集合分别进行非共性病状概率和熵极限程度计算,得到任意两个所述医疗信息源对应的所述病状关键词集合的非共性病状概率和熵极限程度;
基于所述非共性病状概率和所述熵极限程度进行判别因子计算,并基于所述判别因子,得到任意两个所述医疗信息源之间的聚类距离度量;
基于任意两个所述医疗信息源之间的所述聚类距离度量,对每一个所述医疗信息源对应的病状关键词集合作为聚簇中心进行聚类计算,得到目标聚簇,其中目标聚簇为当更新至某一个信息源为聚簇中心时,其对应聚类结果为聚簇体量最大时的聚簇;
对所述目标聚簇内发病人数的平均日变化量进行计算,并基于所述发病人数的平均日变化量得到流行病发病预测结果;
基于所述预测结果与所述目标聚簇内的所有病状关键词,得到治疗流行病的有效药向药品销售点进行储备推荐;
基于所述非共性病状概率和所述熵极限程度进行判别因子计算,并基于所述判别因子,得到任意两个所述医疗信息源之间的聚类距离度量的步骤,包括:
所述判别因子的计算公式为:
其中,a、b分别代表任意两个医疗信息源,代表两个医疗信息源的最大相同关键词的词组,/>代表 />词组在所有医疗信息源中出现的次数,G代表总医疗信息源数量,/>代表a、b中最大相同关键词组在所有医疗信息源中出现的概率,/>代表非共性病状概率,/>代表a、b医疗信息源中的病状关键词总数量,i代表其中任意一个病状关键词,/>代表第i个病状关键词在所有医疗信息源关键词总数量中出现的次数,代表a、b医疗信息源中病状关键词在所有医疗信息源关键词总数量中出现的次数之和,/>为第i个病状关键词出现的次数除以a、b医疗信息源中所有病状关键词出现的次数之和,/>代表以2为底的对数函数,/>代表第i个病状关键词的出现次数在a、b医疗信息源中所有关键词出现次数的信息熵,/>表示信息熵值的最大值,/>表示熵极限程度;
聚类距离度量的计算公式为:
其中,a、b分别代表任意两个信息源,代表判别因子,/>代表两个信息源的最大相同关键词的词组,/>代表a、b信息源中病状关键词最多的一个信息源所含的病状关键词数量。
2.根据权利要求1所述的基于人工智能的药学服务推广分析方法,其特征在于,对每一个所述医疗信息源进行预处理,得到每一个医疗信息源对应的病状关键词集合,包括:
对每一个所述医疗信息源进行数据清洗和关键词提取处理,得到每一个医疗信息源对应的第一病状关键词集合;
对所述第一病状关键词集合利用预先训练好的神经网络模型进行筛选,得到每一个所述医疗信息源对应的第二病状关键词集合;
对所述第二病状关键词集合进行同义词识别,得到每一个所述医疗信息源对应的第三病状关键词集合。
3.根据权利要求2所述的基于人工智能的药学服务推广分析方法,其特征在于,所述药学服务推广分析方法还包括:预先训练所述神经网络模型,其中,预先训练所述神经网络模型包括:
获取训练样本,所述训练样本为标注有不同病状关键词标签和无病状关键词标签的单词库,其中训练样本包括训练集和验证集,训练集和验证集的比例为7:3;
将所述训练集输入初始神经网络模型中,得到第一预测结果,根据第一预测结果与训练集标签计算得到训练集的交叉熵损失函数值;
根据所述交叉熵损失函数值,对所述初始神经网络模型的待训练参数进行调整,得到训练后的神经网络模型;
将所述验证集输入到所述预先训练的神经网络模型中,得出第二预测结果,根据所述第二预测结果和验证集标签计算当前验证集的交叉熵损失函数值,并将当前验证集的交叉熵损失函数值与设置的最优验证集交叉熵损失函数值进行比较:
若当前验证集的交叉熵损失函数值小于设置的最优验证集交叉熵损失函数值,则将最优验证集交叉熵损失函数值更新为当前验证集的交叉熵损失函数值,并保存当前训练后的神经网络模型为预先训练好的神经网络模型;否则继续进行迭代训练。
4.根据权利要求1所述的基于人工智能的药学服务推广分析方法,其特征在于,基于任意两个所述医疗信息源之间的所述聚类距离度量,对每一个所述医疗信息源对应的病状关键词集合作为聚簇中心进行聚类计算,包括:
将聚类距离度量与第一预设阈值进行比较,当任意两个所述医疗信息源之间的所述聚类距离度量小于所述第一预设阈值时,将两个所述医疗信息源归为一类;
将归为一类的所述医疗信息源作为新的簇内点与其他医疗信息源进行聚类距离度量计算,基于所述第一预设阈值进行判定,重复聚类操作直至无符合所述第一预设阈值要求的医疗信息源。
5.根据权利要求4所述的基于人工智能的药学服务推广分析方法,其特征在于,进一步包括:
每次归类一个医疗信息源时,计算簇内各医疗信息源相互之间的距离方差,将所述距离方差与第二预设阈值进行比较,根据比较结果判断新归类的医疗信息源是否剔除,其中所述第二预设阈值小于所述第一预设阈值。
6.根据权利要求5所述的基于人工智能的药学服务推广分析方法,其特征在于,所述簇内各医疗信息源相互之间的距离方差的计算公式为:
其中,K代表聚类过程中簇内信息源数量,代表簇内医疗信息源两两组合计算聚类距离度量的组合数量,v代表其中任意一组,/>代表簇内第v组聚类距离度量值,/>为簇内聚类距离度量均值。
7.根据权利要求1所述的基于人工智能的药学服务推广分析方法,其特征在于,对所述目标聚簇内发病人数的平均日变化量进行计算,并基于所述发病人数的平均日变化量得到流行病发病预测结果,包括:
将所述目标聚簇发病人数的平均日变化量与第三预设阈值进行比较,根据比较结果进行流行病发病趋势预测。
8.根据权利要求7所述的基于人工智能的药学服务推广分析方法,其特征在于,进一步包括:所述目标聚簇发病人数的平均日变化量的计算公式为:
其中,t代表连续一段时间内任意一天,N为连续一段时间的总天数,N≥7,代表簇内第t天的医疗信息源数量,/>代表相邻两天的医疗信息源数量差异。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310980994.7A CN116738972B (zh) | 2023-08-04 | 2023-08-04 | 基于人工智能的药学服务推广分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310980994.7A CN116738972B (zh) | 2023-08-04 | 2023-08-04 | 基于人工智能的药学服务推广分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116738972A CN116738972A (zh) | 2023-09-12 |
CN116738972B true CN116738972B (zh) | 2023-10-24 |
Family
ID=87913669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310980994.7A Active CN116738972B (zh) | 2023-08-04 | 2023-08-04 | 基于人工智能的药学服务推广分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116738972B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055908A (zh) * | 2016-06-13 | 2016-10-26 | 武汉理工大学 | 基于云计算的个人医疗信息推荐方法及系统 |
CN112185568A (zh) * | 2019-07-02 | 2021-01-05 | 中移(苏州)软件技术有限公司 | 信息处理方法、装置、计算机设备及存储介质 |
CN112820416A (zh) * | 2021-02-26 | 2021-05-18 | 重庆市公共卫生医疗救治中心 | 一种重大传染病队列数据分型方法、分型模型及电子设备 |
CN112927792A (zh) * | 2021-01-24 | 2021-06-08 | 武汉东湖大数据交易中心股份有限公司 | 一种常见疾病智能诊断方法、系统及存储介质 |
CN113555105A (zh) * | 2020-04-24 | 2021-10-26 | 阿里健康信息技术有限公司 | 一种推荐医疗产品的方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10388406B2 (en) * | 2013-07-02 | 2019-08-20 | TapCloud LLC | System, method and apparatus for processing patient information and feedback |
-
2023
- 2023-08-04 CN CN202310980994.7A patent/CN116738972B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055908A (zh) * | 2016-06-13 | 2016-10-26 | 武汉理工大学 | 基于云计算的个人医疗信息推荐方法及系统 |
CN112185568A (zh) * | 2019-07-02 | 2021-01-05 | 中移(苏州)软件技术有限公司 | 信息处理方法、装置、计算机设备及存储介质 |
CN113555105A (zh) * | 2020-04-24 | 2021-10-26 | 阿里健康信息技术有限公司 | 一种推荐医疗产品的方法及装置 |
CN112927792A (zh) * | 2021-01-24 | 2021-06-08 | 武汉东湖大数据交易中心股份有限公司 | 一种常见疾病智能诊断方法、系统及存储介质 |
CN112820416A (zh) * | 2021-02-26 | 2021-05-18 | 重庆市公共卫生医疗救治中心 | 一种重大传染病队列数据分型方法、分型模型及电子设备 |
Non-Patent Citations (2)
Title |
---|
An Analyzing Algorithm Based On Learning And Searching In Chinese Medical Big Data;LUO Jie 等;《2020 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)》;第1573-1579页 * |
基于层次分类的病性分析;朱丽;《中国优秀硕士学位论文全文数据库电子期刊(医药卫生科技辑)》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116738972A (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Batra et al. | Integrating StockTwits with sentiment analysis for better prediction of stock price movement | |
Chen et al. | Entity embedding-based anomaly detection for heterogeneous categorical events | |
CN111292848B (zh) | 一种基于贝叶斯估计的医疗知识图谱辅助推理方法 | |
CN113707297A (zh) | 医疗数据的处理方法、装置、设备及存储介质 | |
CN111339249B (zh) | 一种联合多角度特征的深度智能文本匹配方法和装置 | |
CN113962293B (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 | |
WO2022160454A1 (zh) | 医疗文献的检索方法、装置、电子设备及存储介质 | |
US11275936B2 (en) | Systems and methods for classification of scholastic works | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN113449204B (zh) | 基于局部聚合图注意力网络的社会事件分类方法、装置 | |
CN116956896A (zh) | 基于人工智能的文本分析方法、系统、电子设备及介质 | |
Khan et al. | Sentiment Analysis using Support Vector Machine and Random Forest | |
Padmaja et al. | Twitter sentiment analysis using adaptive neuro-fuzzy inference system with genetic algorithm | |
CN113674846A (zh) | 基于lstm网络的医院智慧服务舆情监控平台 | |
Li et al. | Facilitating pattern discovery for relation extraction with semantic-signature-based clustering | |
Mohemad et al. | Performance analysis in text clustering using k-means and k-medoids algorithms for Malay crime documents | |
CN116738972B (zh) | 基于人工智能的药学服务推广分析方法 | |
Motwakel et al. | Sine Cosine Optimization with Deep Learning-Based Applied Linguistics for Sentiment Analysis on COVID-19 Tweets. | |
CN111767404A (zh) | 一种事件挖掘方法和装置 | |
Thangarasu et al. | Detection of Cyberbullying Tweets in Twitter Media Using Random Forest Classification | |
CN114138743A (zh) | 基于机器学习的etl任务自动配置方法及装置 | |
Wen et al. | Blockchain-based reviewer selection | |
Narasamma et al. | DETECTING MALICIOUS ACTIVITIES ON TWITTER DATA FOR SENTIMENT ANALYSIS USING A NOVEL OPTIMIZED MACHINE LEARNING APPROACH | |
US20220019604A1 (en) | System and method for name entity disambiguation with latent topic and deep graph analysis | |
Sugianto et al. | A Covid-19 Sentiment Analysis on Twitter Using K-Nearest Neighbours |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |