CN112348360A - 一种基于大数据技术的中药生产工艺参数分析系统 - Google Patents
一种基于大数据技术的中药生产工艺参数分析系统 Download PDFInfo
- Publication number
- CN112348360A CN112348360A CN202011230463.9A CN202011230463A CN112348360A CN 112348360 A CN112348360 A CN 112348360A CN 202011230463 A CN202011230463 A CN 202011230463A CN 112348360 A CN112348360 A CN 112348360A
- Authority
- CN
- China
- Prior art keywords
- data
- representing
- neighborhood
- production process
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 126
- 239000003814 drug Substances 0.000 title claims abstract description 31
- 238000005516 engineering process Methods 0.000 title claims abstract description 14
- 238000004458 analytical method Methods 0.000 title claims abstract description 11
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000013480 data collection Methods 0.000 claims abstract description 8
- 238000012216 screening Methods 0.000 claims description 57
- 238000001514 detection method Methods 0.000 claims description 40
- 238000003062 neural network model Methods 0.000 claims description 9
- 150000001875 compounds Chemical class 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 239000002245 particle Substances 0.000 claims description 4
- 101100001678 Emericella variicolor andM gene Proteins 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims 1
- 230000037430 deletion Effects 0.000 claims 1
- 238000005457 optimization Methods 0.000 abstract description 5
- 238000007418 data mining Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 229940126680 traditional chinese medicines Drugs 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011031 large-scale manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Manufacturing & Machinery (AREA)
- Primary Health Care (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
Abstract
一种基于大数据技术的中药生产工艺参数分析系统,包括参数确定模块、数据收集模块、数据预处理模块和生产质量指标预测模块,所述参数确定模块用于确定中药生产的生产工艺参数和质量指标参数,所述数据收集模块用于收集所述生产工艺参数数据以及所述生产工艺参数对应的质量指标参数数据,所述数据预处理模块用于对收集到的生产工艺参数进行预处理,所述质量指标预测模块建立根据生产工艺参数数据对中药生产的质量指标进行预测的模型。本发明的有益效果:基于大数据技术和数据挖掘方法对中药生产的历史数据进行分析,利用BP神经网络建立生产质量指标预测模型进行中药生产质量的预测,实现了生产工艺参数的优化和质量指标的提高。
Description
技术领域
本发明创造涉及大数据领域,具体涉及一种基于大数据技术的中药生产工艺参数分析系统。
背景技术
在中药的智能生产中,为了提高中药生产的质量指标就需要对中药生产过程中的生产工艺参数不断的优化,以此保证生产工艺的稳定性和产品质量的可靠性。目前对于生产工艺的优化还处于初始阶段,常用方法是在实验环境下通过设计对比实验,得到最优的生产工艺参数方案呢,然后移植到生产环境中,为了完成对比实验,往往需要巨大的人力物力投入。随着中药智能制造的发展,目前可以获取大规模生产数据,而且这些实际生产数据与实验室的实验数据相比拥有更多的实际意义,里面包含了大量生产过程中遇到的极端情况。利用生产数据经由数据挖掘建立质量指标预测模型优化工艺,代替通过实际对比实验优化工艺的方法,是未来的一个趋势,也是一个待解决的问题。
发明内容
针对上述问题,本发明旨在提供一种基于大数据技术的中药生产工艺参数分析系统。
本发明创造的目的通过以下技术方案实现:
一种基于大数据技术的中药生产工艺参数分析系统,包括参数确定模块、数据收集模块、数据预处理模块和质量指标预测模块,所述参数确定模块包括质量指标确定单元和生产工艺参数确定单元,所述质量指标确定单元用于确定中药生产规定的质量指标参数,所述生产工艺参数确定单元用于确定影响所述质量指标参数的生产工艺参数,所述数据收集模块用于收集所述生产工艺参数数据以及所述生产工艺参数数据对应的质量指标参数数据,所述数据预处理模块用于对收集到的生产工艺参数数据进行预处理,去除生产工艺参数数据中的噪声数据,所述质量指标预测模块利用预处理后的生产工艺参数数据和其所对应的质量指标参数数据对BP神经网络进行训练,从而建立根据生产工艺参数数据对中药生产的质量指标参数数据进行预测的BP神经网络模型。
优选地,所述数据预处理模块用于对收集到的生产工艺参数数据进行聚类,并根据聚类结果去除所述生产工艺参数数据中的噪声数据,具体为:
将收集的生产工艺参数数据组成的数据集表示为X,设R(X)表示数据集X中数据对应的局部邻域半径,采用迭代的方式确定R(X)的值,具体为:
设R(X,r)表示数据集X中的数据在第r次迭代时对应的邻域半径,且R(X,r)=R(X,0)+r,其中,r表示当前的迭代次数,且r的初始取值为0,r的增长步长设置为1,R(X,0)表示数据集X中的数据的初始邻域半径,设xi表示数据集X中的第i个数据,且xi为D维数据,D为生产工艺参数确定单元确定的生产工艺参数的种类数,dmin(xi)表示数据xi和数据集X中的数据之间的最小欧式距离值,即则其中,max表示取最大值,mid表示取中值,xj表示数据集X中的第j个数据,|xj-xi|表示数据xi和数据xj之间的欧式距离,定义表示数据集X在第r次迭代时的统计系数,且的表达式为:
其中,设Ω(xi,r)表示数据xi在第r次迭代时的邻域,且Ω(xi,r)为以数据xi为中心、以R(X,r 为半径的球形区域,定义δ(xi,r)表示数据xi在邻域Ω(xi,r)中的邻域统一系数,且 其中,表示邻域Ω(xi,r)中的第e个数据,M(xi,r)表示邻域Ω(xi,r)中的数据量,表示数据xi和数据对应的判断函数,且其中,d(X)为给定的距离检测阈值,且ρ(xi,r)表示邻域统一系数δ(xi,r)对应的邻域统计系数,M(X)表示数据集X中的数据量;
当数据集X在第r次迭代时的统计系数满足时,令r=r+1,继续按照上述方法计算数据集X在新的迭代次数时的统计系数;当数据集X在第r次迭代时的统计系数满足且时,选取第(r-1)次迭代时的邻域半径R(X,r-1)的值作为局部邻域半径R(X)的值。
优选地,设Ω(xi)表示数据xi的局部邻域,且Ω(xi)为以数据xi为中心、以R(X)为半径的球形区域,设置第一数据子集N1(X)和第二数据子集N2(X),设δ(xi)表示数据xi在局部邻域Ω(xi)中的邻域统一系数,且其中,xi,a表示局部邻域Ω(xi)中的第a个数据,κ(xi,xi,a)表示数据xi和数据xi,a对应的判断函数,且M(xi)表示局部邻域Ω(xi)中的数据量,当数据xi满足δ(xi)=1时,则将数据xi加入到第一数据子集N1(X)中,当数据xi满足δ(xi)<1时,则将数据xi加入到第二数据子集N2(X)中;
在第一数据子集N1(X)中选取局部邻域内具有最多数据量的数据为第一个聚类参量数据,设xl表示第一数据子集N1(X)中的第l个数据,且即xl为在第一数据子集N1(X)中选取的第一个聚类参量数据,将所述聚类参量数据xl所在的类记为c1,并将聚类参量数据xl在第一数据子集N1(X)和数据集X中都删除,其中,xb表示第一数据子集N1(X)中的第b个数据,设Ω(xb)表示数据xb的局部邻域,且Ω(xb)为以数据xb为中心、以R(X)为半径的球形区域,M(xb)表示局部邻域Ω(xb)中的数据量;根据选取的聚类参量数据xl在数据集X中采用迭代的方式筛选出属于类c1的数据,具体为:
设Ω′(xl,t)表示聚类参量数据xl在第t次筛选时对应的筛选邻域,且Ω′(xl,t)为以聚类参量数据xl为中心、以R′(xl,t)为半径的球形区域,其中,R′(xl,t)表示聚类参量数据xl在第t次筛选时的筛选邻域半径,且R′(xl,t)=R(X)+t,t表示当前的筛选次数,t的初始取值为0,且t的增长步长设置为d(xl),其中,d(xl)表示聚类参量数据xl在筛选时对应的增长步长,且 Ω(xl)表示聚类参量数据xl的局部邻域,且Ω(xl)为以聚类参量数据xl为中心、以R(X)为半径的球形区域,xl,p表示局部邻域Ω(xl)中的第p个数据,M(xl)表示局部邻域Ω(xl)中的数据量;设N′(xl,t)表示数据集X中剩余的且处于筛选邻域Ω′(xl,t)内的数据组成的数据集合,对集合N′(xl,t)中的数据进行筛选,设表示集合N′(xl,t)中的第m个数据,当数据满足时,则将数据加入到类c1中,并将数据从数据集X和其所处的数据子集中都删除;当数据满足时,定义表示聚类参量数据xl和数据之间的类检测系数,当时,则的表达式为:
其中,表示局部邻域Ω(xl)的密度检测系数,α(xl)表示局部邻域Ω(xl)的邻域检测系数,xl,q表示局部邻域Ω(xl)中的第q个数据,表示数据的局部邻域,且为以数据为中心、以R(X)为半径的球形区域,表示局部邻域中的数据量,表示局部邻域的密度检测系数,表示局部邻域的邻域检测系数,表示局部邻域中的第n个数据,表示聚类参量数据xl和数据之间的数据检测系数,表示局部邻域的第二邻域检测系数,表示数据和数据对应的判断函数,且 表示局部邻域中的第s个数据,表示数据和数据对应的判断函数,且 表示聚类参量数据xl和数据之间的第二数据检测系数;
给定类检测阈值C(θ),C(θ)的值可以取0.2,当时,则将数据加入到类c1中,并将数据在数据集X和其所在的数据子集中都删除,当时,则不将数据加入到类c1中,并将数据在数据集X和其所在的数据子集中保留;当对集合N′(xl,t)中的数据筛选完成后,并且在集合N′(xl,t)中筛选出了属于类c1的数据时,则聚类参量数据xl进行下一次的筛选,即令t+d(xl),设Ω′(xl,t+d(x))表示聚类参量数据xl在下一次筛选时的筛选邻域,N′(xl,t+d(xl))表示数据集X中剩余的且属于筛选邻域Ω′(xl,t+d(xl))的数据组成的集合,按照上述方法对集合N′(xl,t+d(xl))中的数据进行筛选,从而筛选出属于类c1的数据,当在集合N′(xl,t+d(xl))中没有筛选出属于类c1的数据时,则停止迭代筛选,此时的类c1即为聚类所得的第一个类;
继续在第一数据子集N1(X)剩余的数据中选取局部邻域内具有最多数据量的数据为第二个聚类参量数据,将所述第二个聚类参量数据所在的类记为c2,并将选取的第二个聚类参量数据在第一数据子集N1(X)和数据集X中都删除;按照上述方法根据选取的第二个聚类参量数据在数据集X剩余的数据中采用迭代的方式筛选出属于类c2的数据;
按照上述方法选取聚类参量数据,并按照上述方法根据选取的聚类参量数据在数据集X剩余的数据中采用迭代的方式筛选出属于当前类的数据,直到第一数据子集N1(X)中剩余的数据为零时停止聚类参量数据的选取,此时,如果第二数据子集N2(X)中还存在剩余数据时,则判定此时第二数据子集N2(X)中剩余的数据为噪声数据,将这些噪声数据在收集的生产工艺参数数据中删除。
优选地,所述质量指标预测模块根据预处理后的生产工艺参数数据和其对应的质量指标参数数据对BP神经网络进行训练,获取根据生产工艺参数数据对中药生产的质量指标参数数据进行预测的BP神经网络模型。
优选地,采用粒子群算法对质量指标预测模块采用的BP神经网络的初始权值和阈值进行优化。
本发明创造的有益效果:
基于大数据技术和数据挖掘方法对中药生产的历史数据进行分析,利用BP神经网络建立根据生产工艺参数数据对中药生产的质量指标参数数据进行预测的模型,实现了生产工艺参数的优化和质量指标的提高;设置数据预处理模块用于对收集的生产工艺参数数据进行聚类处理,并根据聚类结果去除生产工艺参数数据中的噪声数据,从而在利用所述生产工艺参数数据训练BP神经网络时,能够减少噪声数据的影响,从而有效的提高训练所得的BP神经网络模型在预测质量指标参数数据时的准确性;提出了利用改进的粒子群算法优化BP神经网络的初始权值和阈值,有效的提高了BP神经网络的预测精度。
附图说明
利用附图对发明创造作进一步说明,但附图中的实施例不构成对本发明创造的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是本发明结构示意图。
具体实施方式
结合以下实施例对本发明作进一步描述。
参见图1,本实施例的一种基于大数据技术的中药生产工艺参数分析系统,包括参数确定模块、数据收集模块、数据预处理模块和质量指标预测模块,所述参数确定模块包括质量指标确定单元和生产工艺参数确定单元,所述质量指标确定单元用于确定中药生产规定的质量指标参数,所述生产工艺参数确定单元用于确定影响所述质量指标参数的生产工艺参数,所述数据收集模块用于收集所述生产工艺参数数据以及所述生产工艺参数数据对应的质量指标参数数据,所述数据预处理模块用于对收集到的生产工艺参数数据进行预处理,去除生产工艺参数数据中的噪声数据,所述质量指标预测模块利用预处理后的生产工艺参数数据和其所对应的质量指标参数数据对BP神经网络进行训练,从而建立根据生产工艺参数数据对中药生产的质量指标参数数据进行预测的BP神经网络模型。
优选地,所述参数确定模块采用专家经验的方法确定中药生产的生产工艺参数。
本优选实施例基于大数据技术和数据挖掘方法对中药生产的历史数据进行分析,利用BP神经网络建立根据生产工艺参数数据对中药生产的质量指标参数数据进行预测的模型,实现了生产工艺参数的优化和质量指标的提高;设置数据预处理模块用于对收集的生产工艺参数数据进行聚类处理,并根据聚类结果去除生产工艺参数数据中的噪声数据,从而在利用所述生产工艺参数数据训练BP神经网络时,能够减少噪声数据的影响,从而有效的提高训练所得的BP神经网络模型在预测质量指标参数数据时的准确性;提出了利用改进的粒子群算法优化BP神经网络的初始权值和阈值,有效的提高了BP神经网络的预测精度。
优选地,所述数据预处理模块用于对收集到的生产工艺参数数据进行聚类,并根据聚类结果去除所述生产工艺参数数据中的噪声数据,具体为:
将收集的生产工艺参数数据组成的数据集表示为X,设R(X)表示数据集X中数据对应的局部邻域半径,采用迭代的方式确定R(X)的值,具体为:
设R(X,r)表示数据集X中的数据在第r次迭代时对应的邻域半径,且R(X,r)=R(X,0)+r,其中,r表示当前的迭代次数,且r的初始值为0,r的增长步长设置为1,R(X,0)表示数据集X中的数据的初始邻域半径,设xi表示数据集X中的第i个数据,且xi为D维数据,D为生产工艺参数确定单元确定的生产工艺参数的种类数,dmin(xi)表示数据xi和数据集X中的数据之间的最小欧式距离值,即则其中,max表示取最大值,mid表示取中值,xj表示数据集X中的第j个数据,|xj-xi|表示数据xi和数据xj之间的欧式距离,定义表示数据集X在第r次迭代时的统计系数,且的表达式为:
其中,设Ω(xi,r)表示数据xi在第r次迭代时的邻域,且Ω(xi,r)为以数据xi为中心、以R(X,r)为半径的球形区域,定义δ(xi,r)表示数据xi在邻域Ω(xi,r)中的邻域统一系数,且 其中,表示邻域Ω(xi,r)中的第e个数据,M(xi,r)表示邻域Ω(xi,r)中的数据量,表示数据xi和数据对应的判断函数,且其中,d(X)为给定的距离检测阈值,且ρ(xi,r)表示邻域统一系数δ(xi,r)对应的邻域统计系数,M(X)表示数据集X中的数据量;
当数据集X在第r次迭代时的统计系数满足时,令r=r+1,继续按照上述方法计算数据集X在新的迭代次数时的统计系数;当数据集X在第r次迭代时的统计系数满足且时,选取第(r-1)次迭代时的邻域半径R(X,r-1)的值作为局部邻域半径R(X)的值。
本优选实施例在对收集的生产工艺参数数据进行去噪处理时,首先对所述生产工艺参数数据进行聚类处理,通过将生产工艺参数数据中的正常数据聚合到各自类的过程中,识别出生产工艺参数数据中的噪声数据;在对所述生产工艺参数数据进行聚类时,本优选实施例提出一种新的聚类算法,提出的聚类算法在聚类的初始阶段,采用迭代的方式确定收集的生产工艺参数数据集中数据的局部邻域半径,通过定义的邻域统一系数来衡量数据和当前邻域中数据的相似度,通过定义的数据集在当前迭代时的统计系数来衡量在当前邻域半径的条件下,数据集中各数据和其当前邻域中数据的相似度,最后使得根据数据集在当前迭代时的统计系数确定的局部邻域半径保证了数据集中各数据和其局部邻域中的数据都较为相似,为接下来的聚类奠定了基础。
优选地,设Ω(xi)表示数据xi的局部邻域,且Ω(xi)为以数据xi为中心、以R(X)为半径的球形区域,设置第一数据子集N1(X)和第二数据子集N2(X),设δ(xi)表示数据xi在局部邻域Ω(xi)中的邻域统一系数,且其中,xi,a表示局部邻域Ω(xi)中的第a个数据,κ(xi,xi,a)表示数据xi和数据xi,a对应的判断函数,且M(xi)表示局部邻域Ω(xi)中的数据量,当数据xi满足δ(xi)=1时,则将数据xi加入到第一数据子集N1(X)中,当数据xi满足δ(xi)<1时,则将数据xi加入到第二数据子集N2(X)中;
在第一数据子集N1(X)中选取局部邻域内具有最多数据量的数据为第一个聚类参量数据,设xl表示第一数据子集N1(X)中的第l个数据,且即xl为在第一数据子集N1(X)中选取的第一个聚类参量数据,将所述聚类参量数据xl所在的类记为c1,并将聚类参量数据xl在第一数据子集N1(X)和数据集X中都删除,其中,xb表示第一数据子集N1(X)中的第b个数据,设Ω(xb)表示数据xb的局部邻域,且Ω(xb)为以数据xb为中心、以R(X)为半径的球形区域,M(xb)表示局部邻域Ω(xb)中的数据量;根据选取的聚类参量数据xl在数据集X中采用迭代的方式筛选出属于类c1的数据,具体为:
设Ω′(xl,t)表示聚类参量数据xl在第t次筛选时对应的筛选邻域,且Ω′(xl,t)为以聚类参量数据xl为中心、以R′(xl,t)为半径的球形区域,其中,R′(xl,t)表示聚类参量数据xl在第t次筛选时的筛选邻域半径,且R′(xl,t)=R(X)+t,t表示当前的筛选次数,t的初始取值为0,且t的增长步长设置为d(xl),其中,d(xl)表示聚类参量数据xl在筛选时对应的增长步长,且 Ω(xl)表示聚类参量数据xl的局部邻域,且Ω(xl)为以聚类参量数据xl为中心、以R(X)为半径的球形区域,xl,p表示局部邻域Ω(xl)中的第p个数据,M(xl)表示局部邻域Ω(xl)中的数据量;设N′(xl,t)表示数据集X中剩余的且处于筛选邻域Ω′(xl,t)内的数据组成的数据集合,对集合N′(xl,t)中的数据进行筛选,设表示集合N′(xl,t)中的第m个数据,当数据满足时,则将数据加入到类c1中,并将数据从数据集X和其所处的数据子集中都删除;当数据满足时,定义表示聚类参量数据xl和数据之间的类检测系数,当时,则的表达式为:
其中,表示局部邻域Ω(xl)的密度检测系数,α(xl)表示局部邻域Ω(xl)的邻域检测系数,xl,q表示局部邻域Ω(xl)中的第q个数据,M(xl)表示局部邻域Ω(xl)中的数据量,表示数据的局部邻域,且为以数据为中心、以R(X)为半径的球形区域,表示局部邻域中的数据量,表示局部邻域的密度检测系数,表示局部邻域的邻域检测系数,表示局部邻域中的第n个数据,表示聚类参量数据xl和数据之间的数据检测系数,表示局部邻域的第二邻域检测系数,表示数据和数据对应的判断函数,且 表示局部邻域中的第s个数据,表示数据和数据对应的判断函数,且 表示聚类参量数据xl和数据之间的第二数据检测系数;
给定类检测阈值C(θ),C(θ)的值可以取0.2,当时,则将数据加入到类c1中,并将数据在数据集X和其所在的数据子集中都删除,当时,则不将数据加入到类c1中,并将数据在数据集X和其所在的数据子集中保留;当对集合N′(xl,t)中的数据筛选完成后,并且在集合N′(xl,t)中筛选出了属于类c1的数据时,则聚类参量数据xl进行下一次的筛选,即令t+d(xl),设Ω′(xl,t+d(x))表示聚类参量数据xl在下一次筛选时的筛选邻域,N′(xl,t+d(xl))表示数据集X中剩余的且属于筛选邻域Ω′(xl,t+d(xl))的数据组成的集合,按照上述方法对集合N′(xl,t+d(xl))中的数据进行筛选,从而筛选出属于类c1的数据,当在集合N′(xl,t+d(xl))中没有筛选出属于类c1的数据时,则停止迭代筛选,此时的类c1即为聚类所得的第一个类;
继续在第一数据子集N1(X)剩余的数据中选取局部邻域内具有最多数据量的数据为第二个聚类参量数据,将所述第二个聚类参量数据所在的类记为c2,并将选取的第二个聚类参量数据在第一数据子集N1(X)和数据集X中都删除;按照上述方法根据选取的第二个聚类参量数据在数据集X剩余的数据中采用迭代的方式筛选出属于类c2的数据;
按照上述方法选取聚类参量数据,并按照上述方法根据选取的聚类参量数据在数据集X剩余的数据中采用迭代的方式筛选出属于当前类的数据,直到第一数据子集N1(X)中剩余的数据为零时停止聚类参量数据的选取,此时,如果第二数据子集N2(X)中还存在剩余数据时,则判定此时第二数据子集N2(X)中剩余的数据为噪声数据,将这些噪声数据在收集的生产工艺参数数据中删除。
本优选实施例提出的新的聚类算法在对所述生产工艺参数数据进行聚类时,根据数据在局部邻域中的邻域统一系数将数据集中的数据分为第一数据子集合第二数据子集,第一数据子集中的数据和其局部邻域中的数据都较为相似,而第二数据子集中的数据和其局部邻域内的数据存在一定的区别,即第二数据子集中的数据可能为类的边界数据或者为噪声数据,根据上述特性,根据局部密度越高的数据越大概率为聚类中心的特性在第一数据子集中选取局部邻域内具有最多数据量的数据为第一个聚类参量数据,根据选取的聚类参量数据采用迭代的方式筛选出数据集中和所述聚类参量数据处于同一类的数据,在对数据进行筛选时,定义类检测系数用于衡量聚类参量数据和待筛选数据是否处于同一类,当待筛选数据处于第一数据子集时,表明该待筛选数据和其局部邻域中邻域数据具有较高的相似性,即所述待筛选数据和其局部邻域中的数据较大概率处于同一类,此时,可以通过对局部邻域进行检测来确定所述聚类参量数据和待筛选数据是否处于同一类,类检测系数中的密度检测系数能够有效的反应聚类参量数据和待筛选数据所处类中数据密度的相似性,类检测系数中的邻域检测系数能够有效的反应聚类参量数据和待筛选数据所处类中数据分布尺寸的相似性,类检测系数中的数据检测系数能够有效的反应聚类参量数据和待筛选数据所处类的数据之间的相似性,即类检测系数越小,聚类参量数据和待筛选数据所处的类越大概率为同一个;当待筛选数据处于第二数据子集时,表明该待筛选数据可能为类的边界数据也可能为噪声数据,此时,类检测系数利用邻域检测系数和数据检测系数来衡量这两个数据所处类的数据分布尺寸的相似性和数据之间的相似性时,仅在待筛选数据的局部邻域中选取和待筛选数据较为相似的数据参与计算,从而能够有效的筛选出类的边界数据,避免将噪声数据作为边界数据归入类中的情况,从而提高了噪声检测的准确度;在筛选的过程中,采用迭代的方式逐步扩大筛选范围,当前筛选邻域中筛选出属于当前类的数据时继续扩大筛选邻域的范围,而当前筛选邻域中没有筛选出属于当前类的数据时,即停止对数据集中其他的数据的筛选,从而能够有效的在数据集中筛选出当前类的数据的同时,减少筛选的数据量,从而提高聚类的速度;按照上述聚类完成后,所述第二数据子集中剩余的数据即表明其无论在数据分布尺寸还是数据值方面都和数据集中的其他数据具有较小相似性,从而能够判定所述第二数据子集中剩余的数据为噪声数据,将判定为噪声数据的数据在所述收集的生产工艺参数数据中删除,从而能够有效的避免噪声数据对接下来BP神经网络模型训练的影响;即综上所述,相较于传统的聚类算法,本优选实施例提出的新的聚类算法在聚类过程中能够有效的避免将噪声数据作为正常数据加入到类中的情况,并且能够适应于不同数据密度和不同分布尺寸的类的聚合,具有较好的聚类准确度,从而使得根据聚类结果检测数据集中存在的噪声具有较好的噪声检测精度。
优选地,所述质量指标预测模块根据预处理后的生产工艺参数数据和其对应的质量指标参数数据对BP神经网络进行训练,获取根据生产工艺参数数据对中药生产的质量指标参数数据进行预测的BP神经网络模型。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
Claims (5)
1.一种基于大数据技术的中药生产工艺参数分析系统,其特征是,包括参数确定模块、数据收集模块、数据预处理模块和质量指标预测模块,所述参数确定模块包括质量指标确定单元和生产工艺参数确定单元,所述质量指标确定单元用于确定中药生产规定的质量指标参数,所述生产工艺参数确定单元用于确定影响所述质量指标参数的生产工艺参数,所述数据收集模块用于收集所述生产工艺参数数据以及所述生产工艺参数数据对应的质量指标参数数据,所述数据预处理模块用于对收集到的生产工艺参数数据进行预处理,去除生产工艺参数数据中的噪声数据,所述质量指标预测模块利用预处理后的生产工艺参数数据和其所对应的质量指标参数数据对BP神经网络进行训练,从而建立根据生产工艺参数数据对中药生产的质量指标参数数据进行预测的BP神经网络模型。
2.根据权利要求1所述的一种基于大数据技术的中药生产工艺参数分析系统,其特征是,所述数据预处理模块用于对收集到的生产工艺参数数据进行聚类,并根据聚类结果去除所述生产工艺参数数据中的噪声数据,具体为:
将收集的生产工艺参数数据组成的数据集表示为X,设R(X)表示数据集X中数据对应的局部邻域半径,采用迭代的方式确定R(X)的值,具体为:
设R(X,r)表示数据集X中的数据在第r次迭代时对应的邻域半径,且R(X,r)=R(X,0)+r,其中,r表示当前的迭代次数,且r的初始取值为0,r的增长步长设置为1,R(X,0)表示数据集X中数据的初始邻域半径,设xi表示数据集X中的第i个数据,且xi为D维数据,D为生产工艺参数确定单元确定的生产工艺参数的种类数,dmin(xi)表示数据xi和数据集X中的数据之间的最小欧式距离值,即则其中,max表示取最大值,mid表示取中值,xj表示数据集X中的第j个数据,|xj-xi|表示数据xi和数据xj之间的欧式距离,定义表示数据集X在第r次迭代时的统计系数,且的表达式为:
其中,设Ω(xi,r)表示数据xi在第r次迭代时的邻域,且Ω(xi,r)为以数据xi为中心、以R(X,r)为半径的球形区域,定义δ(xi,r)表示数据xi在邻域Ω(xi,r)中的邻域统一系数,且δ(xi,r)=其中,表示邻域Ω(xi,r)中的第e个数据,M(xi,r)表示邻域Ω(xi,r)中的数据量,表示数据xi和数据对应的判断函数,且其中,d(X)为给定的距离检测阈值,且ρ(xi,r)表示邻域统一系数δ(xi,r)对应的邻域统计系数,M(X)表示数据集X中的数据量;
3.根据权利要求2所述的一种基于大数据技术的中药生产工艺参数分析系统,其特征是,设Ω(xi)表示数据xi的局部邻域,且Ω(xi)为以数据xi为中心、以R(X)为半径的球形区域,设置第一数据子集N1(X)和第二数据子集N2(X),设δ(xi)表示数据xi在局部邻域Ω(xi)中的邻域统一系数,且其中,xi,a表示局部邻域Ω(xi)中的第a个数据,κ(xi,xi,a)表示数据xi和数据xi,a对应的判断函数,且M(xi)表示局部邻域Ω(xi)中的数据量,当数据xi满足δ(xi)=1时,则将数据xi加入到第一数据子集N1(X)中,当数据xi满足δ(xi)<1时,则将数据xi加入到第二数据子集N2(X)中;
在第一数据子集N1(X)中选取局部邻域内具有最多数据量的数据为第一个聚类参量数据,设xl表示第一数据子集N1(X)中的第l个数据,且即xl为在第一数据子集N1(X)中选取的第一个聚类参量数据,将所述聚类参量数据xl所在的类记为c1,并将聚类参量数据xl在第一数据子集N1(X)和数据集X中都删除,其中,xb表示第一数据子集N1(X)中的第b个数据,设Ω(xb)表示数据xb的局部邻域,且Ω(xb)为以数据xb为中心、以R(X)为半径的球形区域,M(xb)表示局部邻域Ω(xb)中的数据量;根据选取的聚类参量数据xl在数据集X中采用迭代的方式筛选出属于类c1的数据,具体为:
设Ω′(xl,t)表示聚类参量数据xl在第t次筛选时对应的筛选邻域,且Ω′(xl,t)为以聚类参量数据xl为中心、以R′(xl,t)为半径的球形区域,其中,R′(xl,t)表示聚类参量数据xl在第t次筛选时的筛选邻域半径,且R′(xl,t)=R(X)+t,t表示当前的筛选次数,t的初始取值为0,且t的增长步长设置为d(xl),其中,d(xl)表示聚类参量数据xl在筛选时对应的增长步长,且 Ω(xl)表示聚类参量数据xl的局部邻域,且Ω(xl)为以聚类参量数据xl为中心、以R(X)为半径的球形区域,xl,p表示局部邻域Ω(xl)中的第p个数据,M(xl)表示局部邻域Ω(xl)中的数据量;设N′(xl,t)表示数据集X中剩余的且处于筛选邻域Ω′(xl,t)内的数据组成的数据集合,对集合N′(xl,t)中的数据进行筛选,设表示集合N′(xl,t)中的第m个数据,当数据满足时,则将数据加入到类c1中,并将数据从数据集X和其所处的数据子集中都删除;当数据满足时,定义表示聚类参量数据xl和数据之间的类检测系数,当时,则的表达式为:
其中,表示局部邻域Ω(xl)的密度检测系数,α(xl)表示局部邻域Ω(xl)的邻域检测系数,xl,q表示局部邻域Ω(xl)中的第q个数据,表示数据的局部邻域,且为以数据为中心、以R(X)为半径的球形区域,表示局部邻域中的数据量,表示局部邻域的密度检测系数,表示局部邻域的邻域检测系数,表示局部邻域中的第n个数据,表示聚类参量数据xl和数据之间的数据检测系数,表示局部邻域的第二邻域检测系数,表示数据和数据对应的判断函数,且 表示局部邻域中的第s个数据,表示数据和数据对应的判断函数,且 表示聚类参量数据xl和数据之间的第二数据检测系数;
给定类检测阈值C(θ),C(θ)的值可以取0.2,当时,则将数据加入到类c1中,并将数据在数据集X和其所在的数据子集中都删除,当时,则不将数据加入到类c1中,并将数据在数据集X和其所在的数据子集中保留;当对集合N′(xl,t)中的数据筛选完成后,并且在集合N′(xl,t)中筛选出了属于类c1的数据时,则聚类参量数据xl进行下一次迭代的筛选,即令t+d(xl),设Ω′(xl,t+d(x))表示聚类参量数据xl在下一次筛选时的筛选邻域,N′(xl,t+d(xl))表示数据集X中剩余的且属于筛选邻域Ω′(xl,t+d(xl))的数据组成的集合,按照上述方法对集合N′(xl,t+d(xl))中的数据进行筛选,从而筛选出属于类c1的数据,当在集合N′(xl,t+d(xl))中没有筛选出属于类c1的数据时,则停止迭代筛选,此时的类c1即为聚类所得的第一个类;
继续在第一数据子集N1(X)剩余的数据中选取局部邻域内具有最多数据量的数据为第二个聚类参量数据,将所述第二个聚类参量数据所在的类记为c2,并将选取的第二个聚类参量数据在第一数据子集N1(X)和数据集X中都删除;按照上述方法根据选取的第二个聚类参量数据在数据集X剩余的数据中采用迭代的方式筛选出属于类c2的数据;
按照上述方法选取聚类参量数据,并按照上述方法根据选取的聚类参量数据在数据集X剩余的数据中采用迭代的方式筛选出属于当前类的数据,直到第一数据子集N1(X)中剩余的数据为零时停止聚类参量数据的选取,此时,如果第二数据子集N2(X)中还存在剩余数据时,则判定此时第二数据子集N2(X)中剩余的数据为噪声数据,将这些噪声数据在所述收集的生产工艺参数数据中删除。
4.根据权利要求3所述的一种基于大数据技术的中药生产工艺参数分析系统,其特征是,所述质量指标预测模块根据预处理后的生产工艺参数数据和其对应的质量指标参数数据对BP神经网络进行训练,获取根据生产工艺参数数据对中药生产的质量指标参数数据进行预测的BP神经网络模型。
5.根据权利要求4所述的一种基于大数据技术的中药生产工艺参数分析系统,其特征是,采用粒子群算法对质量指标预测模块采用的BP神经网络的初始权值和阈值进行优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011230463.9A CN112348360B (zh) | 2020-11-06 | 2020-11-06 | 一种基于大数据技术的中药生产工艺参数分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011230463.9A CN112348360B (zh) | 2020-11-06 | 2020-11-06 | 一种基于大数据技术的中药生产工艺参数分析系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112348360A true CN112348360A (zh) | 2021-02-09 |
CN112348360B CN112348360B (zh) | 2021-05-04 |
Family
ID=74429773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011230463.9A Active CN112348360B (zh) | 2020-11-06 | 2020-11-06 | 一种基于大数据技术的中药生产工艺参数分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112348360B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115759861A (zh) * | 2022-11-30 | 2023-03-07 | 杭州凯棉科技有限公司 | 制药生产工艺评分方法、装置、电子设备及存储介质 |
CN116187507A (zh) * | 2022-12-07 | 2023-05-30 | 华润三九(枣庄)药业有限公司 | 一种基于人工智能的中药生产调优系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8352494B1 (en) * | 2009-12-07 | 2013-01-08 | Google Inc. | Distributed image search |
CN108038500A (zh) * | 2017-12-07 | 2018-05-15 | 东软集团股份有限公司 | 聚类方法、装置、计算机设备、存储介质和程序产品 |
CN109271427A (zh) * | 2018-10-17 | 2019-01-25 | 辽宁大学 | 一种基于近邻密度和流形距离的聚类方法 |
CN109783898A (zh) * | 2018-12-27 | 2019-05-21 | 广东工业大学 | 一种注塑成型生产工艺参数的智能优化方法 |
CN110414853A (zh) * | 2019-08-01 | 2019-11-05 | 广东电网有限责任公司 | 母线热倒突变系数确定方法、系统、装置及可读存储介质 |
CN111709961A (zh) * | 2020-05-14 | 2020-09-25 | 南京航空航天大学 | 一种被动式太赫兹图像目标的实时分割分类方法 |
-
2020
- 2020-11-06 CN CN202011230463.9A patent/CN112348360B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8352494B1 (en) * | 2009-12-07 | 2013-01-08 | Google Inc. | Distributed image search |
CN108038500A (zh) * | 2017-12-07 | 2018-05-15 | 东软集团股份有限公司 | 聚类方法、装置、计算机设备、存储介质和程序产品 |
CN109271427A (zh) * | 2018-10-17 | 2019-01-25 | 辽宁大学 | 一种基于近邻密度和流形距离的聚类方法 |
CN109783898A (zh) * | 2018-12-27 | 2019-05-21 | 广东工业大学 | 一种注塑成型生产工艺参数的智能优化方法 |
CN110414853A (zh) * | 2019-08-01 | 2019-11-05 | 广东电网有限责任公司 | 母线热倒突变系数确定方法、系统、装置及可读存储介质 |
CN111709961A (zh) * | 2020-05-14 | 2020-09-25 | 南京航空航天大学 | 一种被动式太赫兹图像目标的实时分割分类方法 |
Non-Patent Citations (2)
Title |
---|
徐正国 等: "基于局部密度下降搜索的自适应聚类方法", 《计算机研究与发展》 * |
王光 等: "改进的自适应参数DBSCAN聚类算法", 《计算机工程与应用》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115759861A (zh) * | 2022-11-30 | 2023-03-07 | 杭州凯棉科技有限公司 | 制药生产工艺评分方法、装置、电子设备及存储介质 |
CN115759861B (zh) * | 2022-11-30 | 2023-07-14 | 杭州凯棉科技有限公司 | 制药生产工艺评分方法、装置、电子设备及存储介质 |
CN116187507A (zh) * | 2022-12-07 | 2023-05-30 | 华润三九(枣庄)药业有限公司 | 一种基于人工智能的中药生产调优系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112348360B (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112418117B (zh) | 一种基于无人机图像的小目标检测方法 | |
CN112348360B (zh) | 一种基于大数据技术的中药生产工艺参数分析系统 | |
CN111612261B (zh) | 基于区块链的金融大数据分析系统 | |
CN110134719B (zh) | 一种结构化数据敏感属性的识别与分类分级方法 | |
CN105046323B (zh) | 一种正则化rbf网络多标签分类方法 | |
CN113364751A (zh) | 网络攻击预测方法、计算机可读存储介质及电子设备 | |
CN112819821A (zh) | 一种细胞核图像检测方法 | |
CN109189747A (zh) | 基于Spark大数据平台的电瓶车用户行为习惯分析方法 | |
CN116525075A (zh) | 基于少样本学习的甲状腺结节计算机辅助诊断方法及系统 | |
CN108596118B (zh) | 一种基于人工蜂群算法的遥感影像分类方法及系统 | |
CN112668633B (zh) | 一种基于细粒度领域自适应的图迁移学习方法 | |
CN109685133A (zh) | 基于构建的预测模型低成本、高区分度的数据分类方法 | |
CN117371511A (zh) | 图像分类模型的训练方法、装置、设备及存储介质 | |
CN117195027A (zh) | 基于成员选择的簇加权聚类集成方法 | |
CN111221915B (zh) | 基于CWK-means的在线学习资源质量分析方法 | |
CN108550053B (zh) | 基于平台技术的用户消费数据采集分析系统及方法 | |
CN113948206B (zh) | 一种基于多层级框架的疾病分期模型融合方法 | |
KR101913952B1 (ko) | V-CNN 접근을 통한 iPSC 집락 자동 인식 방법 | |
CN116662832A (zh) | 一种基于聚类和主动学习的训练样本选择方法 | |
CN112801163B (zh) | 基于动态图结构的小鼠模型海马生物标记物的多目标特征选择方法 | |
CN115808690A (zh) | 一种气象预报的智能修订方法及系统 | |
CN108304546B (zh) | 一种基于内容相似度和Softmax分类器的医学图像检索方法 | |
CN112633622B (zh) | 一种智能电网运营指标筛选方法 | |
CN117789207B (zh) | 基于图神经网络的细胞组织病理图像智能分析方法及系统 | |
CN117314908B (zh) | 一种烤烟病毒溯源方法、介质及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |