CN111948363B - 一种中药提取过程数据分析方法 - Google Patents
一种中药提取过程数据分析方法 Download PDFInfo
- Publication number
- CN111948363B CN111948363B CN202010803940.XA CN202010803940A CN111948363B CN 111948363 B CN111948363 B CN 111948363B CN 202010803940 A CN202010803940 A CN 202010803940A CN 111948363 B CN111948363 B CN 111948363B
- Authority
- CN
- China
- Prior art keywords
- data
- extraction process
- chinese medicine
- traditional chinese
- basis functions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/15—Medicinal preparations ; Physical properties thereof, e.g. dissolubility
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Food Science & Technology (AREA)
- Analytical Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medicinal Chemistry (AREA)
- Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明通过采集提取过程的提取液温度和蒸汽压力等重要过程变量,采用FDA对过程变量数据进行表征后进行分析,进而提取出提取过程的信息和知识,提供了一种自动有效的中药提取过程数据分析方法。
Description
技术领域
本发明涉及中药提取过程,尤其涉及一种中药提取过程数据分析方法。
背景技术
中药生产过程一般包括提取、浓缩、精制和制剂等工序,其中提取是非常重要的工序。若提取过程出现异常,可能导致提取液的成分含量或提取液量发生较大波动,从而影响药品的质量一致性和安全性。目前中药制药企业正在向数字化、智能化方向转型,MES、SCADA和LIMS等工业系统在中药制药领域得到了大力推广,这就使得企业有了获取大量生产过程数据的能力。在提取过程中,提取液温度和蒸汽压力等过程变量具有重要意义,对这些过程变量数据进行有效的分析挖掘可以帮助企业进一步了解提取过程,发现提取过程中的问题,从而提高产品质量控制水平。然而中药制药企业往往缺乏对提取过程的关注,而且也缺乏系统的方法来分析挖掘提取过程数据。
中药提取一般可分为升温、保温和出液三个阶段,然而在生产中通常只对保温阶段的时间或液相温度等有所要求,对升温和出液两个阶段没有或缺少操作规定。因此各个批次的提取时长是不相同的,这就导致许多数据分析方法难以直接运用。针对时长不同的问题,常见的解决方法为数据对齐法,包括动态时间规整(dynamic time warping)、相关优化规整(correlation optimized warping)和基于指示变量的方法等。然而这些方法是通过插值等实现过程数据长度相同的,可能导致变换后的数据与原数据有较大的差异,影响最终的结果判断。
因此,本领域的技术人员致力于开发一种中药提取过程数据分析方法。
发明内容
针对目前缺少中药提取过程数据分析方法和提取批次时长不等的问题,本发明的目的在于提供一种基于FDA的中药提取过程数据挖掘方法。该发明通过采集提取过程的提取液温度和蒸汽压力等重要过程变量,采用FDA对过程变量数据进行表征后进行分析,进而提取出提取过程的信息和知识,提供了一种自动有效的中药提取过程数据挖掘方法。
本发明的目的是通过以下技术方案实现的:
本发明提供了一种中药提取过程数据分析方法,包括步骤:
S10:从中药生产过程数据中采集中药提取过程数据;
S20:对采集的中药提取过程数据进行预处理,包括子步骤:
S21:对中药提取过程数据进行变量筛选;
S22:从中药提取过程数据中剔除有缺失值的数据;
S30:从中药提取过程数据筛选出提取罐处于工作状态时的数据;
S40:用函数型数据分析方法采用多个基函数对中药提取过程数据进行拟合,包括子步骤:
S41:选择基函数的种类;
S42:选择基函数的数目;
S50:提取基函数的系数,以基函数的系数进行多变量建模分析,识别中药提取过程中的正常/异常状态。以基函数的系数作为二次变量进行多变量分析建模,以多变量建模获得的曲线来识别中药提取过程是否出现变化,若建模获得的曲线与标准曲线或现有曲线相比有变化,则表示提取过程出现异常。如此,任意时长的中药提取过程数据都可以处理为具有相同数量、相同种类的基函数,从而能够不受提取过程时长的影响,进行任意批次中药提取过程的状态监控。
进一步地,步骤S10中,中药生产过程数据是通过MES或SCADA系统采集的。
进一步地,步骤S21中,通过变量筛选筛选出的过程变量包括:提取液温度、循环水量、瞬时加水量、保温时间和出液阀状态,其中提取液温度、循环水量、瞬时加水量、保温时间为数值型变量,出液阀状态为开关型变量。
进一步地,其中,步骤S40中,用函数型数据分析方法采用多个基函数对中药提取过程数据进行拟合,则有:
yk=x(tk)+∈k
其中yk为第k个时间点的提取液实际温度,x(tk)为拟合函数在第k个时间点对应的函数值,∈k为该点对应的拟合误差;
拟合过程中采用基函数法得到拟合曲线,即采用N个已知的基函数的线性组合得到x(t):
其中φi(t)为基函数,ci为基函数系数。
进一步地,步骤S41中,选择的基函数的种类为B-样条曲线基函数。步骤S42中,选择的基函数的数目可以根据实际需要确定,比如根据现有的经验数据等。
进一步地,步骤S50中,提取基函数的系数,构成基函数系数矩阵。
进一步地,步骤S50中,对基函数系数矩阵进行主成分分析。
进一步地,步骤S50中,首先对系数矩阵进行均值中心化和方差均一化处理,然后选取主成分数以解释原数据80%变异。
进一步地,步骤S50中,通过聚类分析对中药提取过程中的正常/异常状态进行识别。
本发明具有如下有益效果:
1.本发明将采集的提取过程变量数据通过FDA进行拟合,可以解决各批次提取过程时长不等的问题,同时也相当于对原始数据进行了降维处理;
2.本发明通过无监督的数据分析方法,可以在不要求对提取过程有先验知识的情况下分析各批次之间的关联与差异,为企业提供了提取过程的评价方法。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例中的中药提取过程数据分析方法的流程图;
图2是本发明的一个较佳实施例中的某批次提取液温度趋势图;
图3是本发明的一个较佳实施例中的不同数目基函数拟合的提取液温度值和实际值对比;
图4是本发明的一个较佳实施例中的主成分分析得分图。
图5是图4中的置信限外的数据簇C1和C2中提取液温度的原始数据图。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
本实施例采集了某企业提取车间中某中药注射液2019年全年的提取过程数据,并基于这些数据分析该品种的提取过程模式,并识别提取过程中的异常等。
1)提取数据采集:采集提取过程相关的过程变量共13个,其中开关型变量8个,数值型变量5个,具体如表1所示。根据提取生产计划,从企业实时数据库中采集提取工序当天24h所有的数据,采集时间间隔为10s,即每天可获取12320个数据点。本实施例中一共采集了108批数据,因此最后获得112320×108=12130560个数据点。
表1提取过程变量
2)数据预处理
2-1)变量筛选:如表1所示,在提取过程中,存在开关型和数值型过程变量,其中开关型过程变量主要用于步骤3)中的工作阶段识别,而数值型过程变量则是分析的重点。对于开关型过程变量,并不是所有变量都能在在步骤3)中发挥作用,也有一些变量与其他变量所代表的含义重合,因此首先剔除这些变量。冲洗状态、试漏状态、清洗阀状态和冲管阀状态这4个变量与工作阶段识别无关;循环阀状态可由循环流量反映,加水阀状态可由瞬时加水量反映,因此循环阀和加水阀状态是冗余的变量。综上,在后续分析中剔除上述的6个变量。
在提取过程中,提取液温度是最重要的过程变量,直接影响了提取液中成分的含量;蒸汽压力虽然也是一个重要的过程变量,但其作用于提取液温度,即蒸汽压力的变化可从提取液温度变化中得以反映。因此在本实施例中,以提取液温度作为进行FDA处理的对象。需要注意的是,并不是所有数值型过程变量都适合采用FDA方法进行拟合,一些不具有函数型特征的过程变量并不适合采用FDA方法进行处理。在本实施例中,蒸汽压力由于受到自控系统的控制,其数据形状呈脉冲状,缺少函数型特征,这也是不将其进行FDA处理的原因之一。
2-2)缺失值处理:由于网络通讯中断和服务器设备维护等原因,部分批次的提取过程数据中含有大量的缺失值,这些批次的数据无法用于后续的分析中,因此需要剔除这些批次。在2019年的这108批数据中,有4批数据含有大量的缺失值,因此剔除后只剩下104批数据可用于后续分析。
3)工作阶段识别:根据煎煮状态、加水阀状态、保温时间和瞬时加水量,可以从全天24h的数据中识别出提取罐处于工作状态的数据。具体的识别条件如表2所示,其中升温阶段、保温阶段和出液阶段是连续的,且将这一整段连续的数据作为提取的工作阶段。加水阶段中不涉及加热过程,故在后续分析时舍弃该阶段。
表2工作阶段识别条件
4)基函数确定
4-1)基函数种类选择:采用FDA方法对提取液温度曲线进行拟合,方程如下所示:
yk=x(tk)+∈k (1)
其中yk为第k个时间点的提取液实际温度,x(tk)为拟合函数在第k个时间点对应的函数值,∈k为该点对应的拟合误差;
拟合过程中采用基函数法得到拟合曲线,即采用N个已知的基函数的线性组合得到x(t),如式2所示:
其中φi(t)为基函数,ci为基函数系数。
常用的基函数包括傅里叶基函数和B-样条基函数。对于具有周期性的过程变量,傅里叶基函数具有较好的拟合效果;对于非周期性的过程变量,B-样条基函数具有较好的拟合效果。
提取液温度的形状如图2所示,可以发现其不具有周期特性,因此采用B-样条基函数进行拟合较为合适。
4-2)基函数数目选择:基函数数目对拟合效果具有很大影响,在本实施例中,采用不同数目的基函数,通过图形对比的方法来确定基函数数目。以提取过程时长最长的批次作为基函数数目选择的参考。在图3中,选择35、40、45个基函数进行拟合的效果均不如50个基函数的拟合效果;但若进一步选择55或60个基函数进行拟合会引入过多的不必要的波动。因此50个基函数是较好的选择。
5)数据分析
经FDA处理后,各个批次的提取液温度数据可由50个基函数的线性组合表示。由于基函数是确定的,基函数系数即可反映提取液温度的形状。即原始数据中1000多个数据点可用50个基函数系数进行表达,既解决了各批次时长不等的问题,也实现了数据的降维,减小数据运算压力。
通过FDA处理后,原始的大量数据缩减为104×50的基函数系数矩阵,在本实施例中,采用PCA方法对基函数系数矩阵进行处理。在PCA处理中,首先对系数矩阵进行均值中心化和方差均一化处理,然后选取可以解释原数据80%变异的主成分数。本实施例中主成分数为4,可解释原数据81.1%的变异。前两个主成分的得分图如图4所示,其中椭圆为95%置信限,有2簇数据(C1和C2)落在置信限外,而在置信限内的数据也可大致分为4簇(C3~C6)。
图5展示了C1和C2中提取液温度的原始数据,可以发现C1中的提取液温度在保温时逐渐下降至80℃;而在C2中,升温时间特别长,即温度上升至沸腾温度所需时间特别长。C1中的提取温度出现下降的原因是,温度传感器安装在循环管道中,而在C1的批次中,保温阶段循环流量为0,即循环阀并未开启;在C2的批次中,由于在升温阶段中有部分时间蒸汽流量为0,即蒸汽阀门关闭,导致升温速度过慢。
在95%置信限内,C4、C5和C6这三个簇的批次是属于同一种操作模式的,即循环泵在升温阶段是间歇开启的(模式1);C3中的批次循环泵在升温阶段是始终开启的(模式2)。因此,若循环阀间歇开启,会导致提取过程出现更多的波动,使得在模式1下,数据更加分散;若循环阀始终开启,则可减少波动,即数据相对集中。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (5)
1.一种中药提取过程数据分析方法,其特征在于,包括步骤:
S10:从中药生产过程数据中采集所述的中药提取过程数据,所述中药提取过程数据为中药提取时长不等的批次数据;
S20:对采集的所述的中药提取过程数据进行预处理,包括子步骤:
S21:对所述的中药提取过程数据进行变量筛选;
S22:从所述的中药提取过程数据中剔除有缺失值的数据;
S30:从所述的中药提取过程数据筛选出提取罐处于工作状态时的数据;
S40:用函数型数据分析方法采用相同数目的基函数对各个批次的所述的中药提取过程数据进行拟合,包括子步骤:
S41:选择所述基函数的种类;
S42:选择所述基函数的数目;
S50:提取所述的基函数的系数,构成基函数系数矩阵,各个批次的提取液温度数据由多个基函数的线性组合表示,通过对所述系数进行多变量建模分析,对基函数系数矩阵进行均值中心化和方差均一化处理,选取主成分数以解释原数据80%变异,通过聚类分析识别中药提取过程中的正常/异常状态。
2.如权利要求1所述的中药提取过程数据分析方法,其中,步骤S10中,所述的中药生产过程数据是通过MES或SCADA系统采集的。
3.如权利要求2所述的中药提取过程数据分析方法,其中,步骤S21中,通过所述的变量筛选筛选出的过程变量包括:提取液温度、循环水量、瞬时加水量、保温时间和出液阀状态,其中所述的提取液温度、循环水量、瞬时加水量、保温时间为数值型变量,所述的出液阀状态为开关型变量。
5.如权利要求4所述的中药提取过程数据分析方法,其中,步骤S41中,选择的所述的基函数的种类为B-样条曲线基函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010803940.XA CN111948363B (zh) | 2020-08-11 | 2020-08-11 | 一种中药提取过程数据分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010803940.XA CN111948363B (zh) | 2020-08-11 | 2020-08-11 | 一种中药提取过程数据分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111948363A CN111948363A (zh) | 2020-11-17 |
CN111948363B true CN111948363B (zh) | 2021-11-02 |
Family
ID=73332822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010803940.XA Active CN111948363B (zh) | 2020-08-11 | 2020-08-11 | 一种中药提取过程数据分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111948363B (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101614659A (zh) * | 2009-07-24 | 2009-12-30 | 上海现代中医药技术发展有限公司 | 对中药提取过程进行在线检测控制的装置与方法 |
CN104615810A (zh) * | 2015-01-20 | 2015-05-13 | 北京航空航天大学 | 一种基于函数型数据分析的仿真模型验证方法 |
CN105319175B (zh) * | 2015-11-03 | 2017-10-31 | 浙江大学 | 中药提取过程动态响应模型的在线识别与终点判定方法 |
CN105717067B (zh) * | 2016-05-03 | 2019-01-04 | 哈尔滨珍宝制药有限公司 | 三七定量提取的自动控制系统及方法 |
CN108593863A (zh) * | 2018-05-08 | 2018-09-28 | 南通市第二人民医院 | 一种中药提取过程中的在线检测方法与装置 |
-
2020
- 2020-08-11 CN CN202010803940.XA patent/CN111948363B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111948363A (zh) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108227653B (zh) | 一种基于随机化核主元分析的大规模非线性过程监控方法 | |
KR100503771B1 (ko) | 프로세스가공공정의이상추출방법및장치 | |
CN114757380B (zh) | 一种火电厂故障预警系统、方法、电子设备及存储介质 | |
CN111861272A (zh) | 一种基于多源数据的复杂机电系统异常状态检测方法 | |
CN105117550A (zh) | 一种面向产品多维相关性退化失效的建模方法 | |
CN111948363B (zh) | 一种中药提取过程数据分析方法 | |
CN114020598B (zh) | 一种时间序列数据的异常检测方法、装置及设备 | |
CN117608259B (zh) | 一种储存芯片生产设备的控制方法及系统 | |
CN110878709B (zh) | 汽轮机阀门的卡涩识别机制建立方法及卡涩识别方法 | |
CN109978059A (zh) | 一种原油蒸馏过程初馏塔冲塔故障预警方法 | |
Lucke et al. | Variable selection for fault detection and identification based on mutual information of alarm series | |
CN116611000B (zh) | 基于机器学习的大闸蟹养殖环境智能监测系统 | |
CN116522993A (zh) | 一种基于对抗自编码网络的化工过程故障检测方法 | |
CN117034197A (zh) | 基于多维Isolate-Detect多变点检测的企业用电典型模式分析方法 | |
CN105843891A (zh) | 一种增量式的在线特征提取分析方法及系统 | |
CN107272625B (zh) | 一种基于贝叶斯理论的工业过程故障诊断方法 | |
CN110751217A (zh) | 基于主元分析的设备能耗占比预警分析方法 | |
CN112560924B (zh) | 基于动态内部慢特征分析的丙烯精馏塔状态监控方法 | |
CN112380224B (zh) | 一种面向海量异构多维数据采集的质量大数据系统 | |
CN111199419B (zh) | 股票异常交易的识别方法及系统 | |
CN112090097A (zh) | 一种中药浓缩器的性能分析方法及其应用 | |
CN114637782A (zh) | 一种针对结构化数值型数据生成文本的方法及装置 | |
CN114493234A (zh) | 一种供水管网关键压力控制点的识别方法 | |
CN107729294A (zh) | 空气质量检测数据中离群值的获取方法及装置 | |
CN111179077B (zh) | 股票异常交易的识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |