CN111104955A - 为一作业环境检测影响因子的装置及方法 - Google Patents
为一作业环境检测影响因子的装置及方法 Download PDFInfo
- Publication number
- CN111104955A CN111104955A CN201811322685.6A CN201811322685A CN111104955A CN 111104955 A CN111104955 A CN 111104955A CN 201811322685 A CN201811322685 A CN 201811322685A CN 111104955 A CN111104955 A CN 111104955A
- Authority
- CN
- China
- Prior art keywords
- data
- factor
- factors
- accuracy
- detection result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000001514 detection method Methods 0.000 claims abstract description 172
- 238000003909 pattern recognition Methods 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000012360 testing method Methods 0.000 claims description 31
- 230000000052 comparative effect Effects 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012417 linear regression Methods 0.000 description 4
- 238000000546 chi-square test Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24558—Binary matching operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Testing Or Calibration Of Command Recording Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种为一作业环境检测影响因子的装置及方法。该装置分析多笔第一历史记录的多个第一因子各自所对应的第一数据的一相异程度而产生各该第一因子的一检测结果,各该检测结果为一连续型数据或一离散型数据。该装置根据该等第一历史记录及该等检测结果训练出一数据型态识别模型。该装置利用多笔第二历史记录的一训练集合建立一基础预测模型,藉由将该训练集合中对应至一特定因子的该等第二数据重新排列以产生一对比集合,利用该对比集合建立一对比预测模型,藉由比较该基础预测模型及该对比预测模型的准确度判断该特定因子的一重要程度。
Description
技术领域
本发明是关于一种为一作业环境检测影响因子的装置及方法。具体而言,本发明是关于一种为一作业环境检测影响因子的数据型态及重要程度的装置及方法。
背景技术
为改善一作业环境(例如:生产线、智慧型建筑)的各种效能(例如:产值、耗能),管理人员需要知道该作业环境中关键的影响因子(例如:温度、湿度、机台编号等)。在分析一作业环境的哪些因子为关键的影响因子前,管理人员必须知道各因子对应的数据型态,亦即,必须知道各因子对应至连续型数据(亦即,数值大小具有意义的数据,例如:生产速率、产值、时间、温度等)或离散型数据(亦即,数值大小不具意义的数据,例如:机台编号、性别等)。
目前业界的作法是由对各种数据有深入了解的专业人员事先定义数据库的栏位格式,再判断所接获的因子的数据是否符合某一事先定义的栏位格式,借此确认因子的数据型态。然而,随着科技的快速发展,影响一作业环境的因子越来越多,且各因子所对应的数据格式繁杂不一,若仍采用事先定义格式再予以比对的作法,不仅耗时且准确率低,将无法应用于实际的作业环境。此外,因子间也会交互影响,在影响一作业环境的因子越来越多的情况下,要正确地且有效率地判断出关键的影响因子也变得十分困难。
有鉴于此,如何有效率地判断一作业环境的巨量数据的数据型态(亦即,判断数据为连续型数据或离散型数据),再据以准确地判断出该作业环境的因子的重要程度,借此找出哪些因子为关键的影响因子,乃业界亟需努力的目标。
发明内容
为解决前述为一作业环境检测因子的各种问题,本发明提供一种为一作业环境检测影响因子的装置及方法。
本发明所提供的一种为一作业环境检测影响因子的装置包括一存储器及一处理器,其中该存储器电性连接至该处理器。该存储器存储多笔第一历史记录及该作业环境的多笔第二历史记录,其中各该第一历史记录包括多个第一数据一对一地对应至多个第一因子,且各该第二历史记录包括多个第二数据一对一地对应至多个第二因子。该处理器藉由分析各该第一因子所对应的该等第一数据的一相异程度而产生各该第一因子的一检测结果,其中各该检测结果为一连续型数据及一离散型数据其中之一。该处理器根据该等第一历史记录及该等检测结果训练出一数据型态训练模型。
此外,该处理器利用该数据型态训练模型分析各该第二因子所对应的该等第二数据以判断出各该第二因子的一数据型态,且利用该等第二历史记录的一第一子集及该等数据型态建立一基础预测模型。该处理器藉由将该第一子集中对应至一特定因子的该等第二数据重新排列以产生一对比集合,以及利用该对比集合及该等数据型态建立一对比预测模型。该处理器以该等第二历史记录的一第二子集测试该基础预测模型以获得一基础准确度,以该第二子集测试该对比预测模型以获得另一准确度,以及藉由比较该基础准确度及该另一准确度判断该特定因子的一重要程度。
本发明所提供的为一作业环境检测影响因子的方法适用于一电子装置。该电子装置存储多笔第一历史记录及该作业环境的多笔第二历史记录,其中各该第一历史记录包括多个第一数据一对一地对应至多个第一因子,且各该第二历史记录包括多个第二数据一对一地对应至多个第二因子。该方法包括下列步骤:(a)藉由分析各该第一因子所对应的该等第一数据的一相异程度而产生各该第一因子的一检测结果,各该第一检测结果为一连续型数据及一离散型数据其中之一,(b)根据该等第一历史记录及该等检测结果训练出一数据型态训练模型,(c)利用该数据型态训练模型分析各该第二因子所对应的该等第二数据以判断出各该第二因子的一数据型态,(d)利用该等第二历史记录的一第一子集及该等数据型态建立一基础预测模型,(e)藉由将该第一子集中对应至一特定因子的该等第二数据重新排列以产生一对比集合,(f)利用该对比集合及该等数据型态建立一对比预测模型,(g)以该等第二历史记录的一第二子集测试该基础预测模型以获得一基础准确度,(h)以该第二子集测试该对比预测模型以获得另一准确度,以及(i)藉由比较该基础准确度及该另一准确度判断该特定因子的一重要程度。
本发明先利用多笔第一历史记录建立一数据型态识别模型,再利用该数据型态识别模型及一作业环境的多笔第二历史记录判断该作业环境的影响因子。概要而言,本发明利用该数据型态识别模型判断该等第二历史记录的各该第二因子的数据型态,再利用该等第二历史记录的一第一子集建立一基础预测模型,且藉由将该第一子集中对应至一或多个特定因子的该等第二数据分别重新排列以产生一或多个对比集合,再建立一或多个对比预测模型。之后,本发明利用该等第二历史记录的一第二子集测试该基础预测模型及该一或多个对比预测模型,再依据测试结果判断该一或多个特定因子个别的重要程度,进而判断出哪一或哪些特定因子较为重要。
本发明所提供的检测技术能自动地、有效率地且准确地判断数据型态为连续型或离散型,避免需人为事先定义数据栏位格式所导致的成本浪费及判断误差。此外,本发明可依据一作业环境的多笔历史数据建立多个预测模型,测试该等预测模型的准确度,计算出特定因子的重要程度,进而找出该作业环境的关键的影响因子。本发明所提供的检测技术能避免因作业环境的因子数量过多所导致的高成本及低准确度。
以下结合附图阐述本发明的详细技术及实施方式,以使本领域技术人员能理解所请求保护的发明的特征。
附图说明
图1A示出了本发明的第一实施方式的检测装置1的架构示意图;
图1B示出了本发明的第一历史记录的一具体范例的示意图;
图1C示出了一具体范例中的各该第一因子的四种检测结果;
图1D示出了本发明的第二历史记录的一具体范例的示意图;
图1E示出了本发明的一第一对比集合的一具体范例的示意图;
图1F示出了本发明的一第二对比集合的一具体范例的示意图;
图2A示出了本发明的第二实施方式的流程图;以及
图2B示出了本发明的某些实施方式的流程图。
附图标记
10a、10b、……、10d:第一历史记录
12a、12b、……、12d:第二历史记录
1:检测装置
11:存储器
13:处理器
D1:第一检测结果
D2:第二检测结果
D3:第三检测结果
D4:第四检测结果
102:第一子集
104:第二子集
106:第一对比集合
108:第二对比集合
S201~S217:步骤
S219~S231:步骤
具体实施方式
以下将透过实施方式来解释本发明所提供的一种为一作业环境检测影响因子的装置及方法。然而,该等实施方式并非用以限制本发明需在如该等实施方式所述的任何环境、应用或方式方能实施。因此,关于实施方式的说明仅为阐释本发明的目的,而非用以限制本发明的范围。应理解,在以下实施方式及附图中,与本发明非直接相关的元件已省略而未绘示,且各元件的尺寸以及元件间的尺寸比例仅为例示而已,而非用以限制本发明的范围。
本发明的第一实施方式为一种为一作业环境检测影响因子的装置(下称「检测装置1」),其架构示意图描绘于图1。检测装置1包括一存储器11及一处理器13,且二者彼此电性连接。存储器11可为一记忆体、一通用串列汇流排(Universal Serial Bus;USB)碟、一硬碟、一光碟(Compact Disk;CD)、一随身碟或本领域技术人员所知且具有相同功能的任何其他存储媒体或电路。处理器13可为各种处理单元、中央处理单元(Central ProcessingUnit;CPU)、数字信号处理器(Digital Signal Processor;DSP)、微处理器或本领域技术人员所知悉的其他计算装置。
于本实施方式中,检测装置1的存储器11存储多笔第一历史记录10a、10b、……、10d,且第一历史记录10a、10b、……、10d各自包括多个第一数据一对一地对应至多个第一因子。为便于理解,请参图1B所示的一具体范例。该具体范例将用于后续的说明,且应理解其非用以限制本发明的范围。于该具体范例中,第一历史记录10a、10b、……、10d各自包括五个第一数据一对一地对应至五个第一因子(亦即,机台编号、温度、湿度、压力及良率)。需要说明的是,第一历史记录10a、10b、……、10d可为任何作业环境先前作业时所产生的记录。本发明未限制取得第一历史记录10a、10b、……、10d的方式,且如何取得第一历史记录10a、10b、……、10d亦非本发明的重点,故不赘言。
此外,存储器11还存储多笔第二历史记录12a、12b、……、12d,且第二历史记录12a、12b、……、12d各自包括多个第二数据一对一地对应至多个第二因子。需要说明的是,第二历史记录12a、12b、……、12d来自一欲检测因子重要性的作业环境(例如:一生产线、一智慧型建筑)。本发明未限制该等第二数据及该等第二因子的数量及种类。此外,第二历史记录12a、12b、……、12d与第一历史记录10a、10b、……、10d可来自不同的作业环境。
检测装置1所执行的运作可区分为二个阶段,其中第一阶段的运作在于利用第一历史记录10a、10b、……、10d建立一数据型态识别模型,而第二阶段的运作则在于根据第二历史记录12a、12b、……、12d检测该作业环境的因子的重要程度,进而找出哪些因子为关键的影响因子。
现说明检测装置1如何利用第一历史记录10a、10b、……、10d建立一数据型态识别模型。概要而言,本发明的检测装置1可采用四种检测技术分别检测各该第一因子的数据型态,再利用第一历史记录10a、10b、……、10d及四种检测技术的检测结果训练出一数据型态识别模型。兹先详述检测装置1所采用的四种检测技术。请一并参阅图1C,其记录各该第一因子实际数据型态以及四种检测技术的检测结果。
第一种检测技术是检测各该第一因子所对应的该等第一数据的相异值分布占比。具体而言,处理器13藉由分析各该第一因子所对应的该等第一数据的第一相异程度而产生各该第一因子的一第一检测结果D1。需要说明的是,各该第一检测结果D1为对应的该第一因子的数据型态(亦即,为连续型数据或离散型数据)。需要说明的是,连续型数据是指数值大小具有意义的数据(例如:时间、温度、尺寸等),而离散型数据是指数值大小不具意义的数据(例如:机台编号及人员性别等)。
以第一因子「机台编号」为例,处理器13分析其所对应的该等第一数据(亦即,2、100、……、4)的相异程度,借此产生第一因子「机台编号」的第一检测结果D1(亦即,离散型数据,以数字1表示)。再以第一因子「温度」为例,处理器13分析其所对应的该等第一数据(亦即,25、30、……、30)的相异程度,借此产生第一因子「温度」的第一检测结果D1(亦即,连续型数据,以数字0表示)。另外,再以第一因子「良率」为例,处理器13分析其所对应的该等第一数据(亦即,60、62、……、80)的相异程度,借此产生第一因子「良率」的第一检测结果D1(亦即,连续型数据,以数字0表示)。
关于第一种检测技术,于某些实施方式中,处理器13是藉由对各该第一因子执行以下运作来产生对应的第一检测结果D1:藉由比较第一因子所对应的该等第一数据的一众数个数及一第一门槛值以产生一第一比较结果,藉由比较第一因子所对应的该等第一数据的一相异个数以产生一第二比对结果,以及根据第一比较结果及第二比对结果决定第一检测结果D1。举例而言,处理器13可依据以下公式(1)及公式(2)分别获得各该第一因子的第一比较结果及第二比较结果,但应理解以下公式并非用以限制本发明的范围:
Len(Mode(X))≥T1 (1)
上述公式(1)及公式(2)中,参数X代表一第一因子所对应的该等第一数据,参数N代表一第一因子所对应的该等第一数据的个数,Mode(X)代表一第一因子所对应的该等第一数据的众数,Len(Mode(X))代表前述众数的个数,参数T1代表第一门槛值(例如:可为但不以此为限),Distinct(X)代表一第一因子所对应的该等第一数据的相异数,Len(Distinct(X))代表前述相异数的个数,且参数T2代表第二门槛值(例如:可为0.2,但不以此为限)。
处理器13判断一第一因子所对应的该等第一数据的众数个数是否高于第一门槛值,亦即,是否能使公式(1)成立,此为第一比较结果。另外,处理器13判断一第一因子所对应的该等第一数据的相异数是否低于第二门槛值,亦即,是否能使公式(2)成立,此为第二比较结果。若一第一因子的第一比较结果为公式(1)不成立且第二比较结果为公式(2)不成立,则处理器13判断该第一因子的第一检测结果D1为连续型数据。若一第一因子的第一比较结果及第二比较结果是公式(1)及公式(2)至少其中之一成立,则处理器13判断该第一因子的第一检测结果D1为离散型数据。
第二种检测技术是检测各该第一因子所对应的该等第一数据是否符合常态分布。具体而言,处理器13藉由将各该第一因子所对应的该等第一数据与一常态分布模型进行比对(亦即,判断各该第一因子所对应的该等第一数据是否符合常态分布)以产生各该第一因子的一第二检测结果D2。各该第二检测结果D2为对应的该第一因子的数据型态(亦即,为连续型数据或离散型数据)。若一第一因子所对应的该等第一数据符合一常态分布模型(亦即,符合常态分布),则处理器13判断该第一因子的第二检测结果D2为连续型数据(于图1C中是以数字0表示)。若一第一因子所对应的该等第一数据不符合一常态分布模型(亦即,不符合常态分布),则处理器13判断该第一因子的第二检测结果D2为离散型数据(于图1C中是以数字1表示)。
第三种检测技术是检测各该第一因子所对应的该等第一数据的数值间断性。具体而言,处理器13藉由一标签编码器(LabelEncoder)分析各该第一因子所对应的该等第一数据的一间断性,借此产生各该第一因子的一第三检测结果D3。各该第三检测结果D3为对应的该第一因子的数据型态(亦即,为连续型数据或离散型数据)。若处理器13藉由标签编码器判断一第一因子所对应的该等第一数据具有间断数值,则该第一因子的第三检测结果D3为连续型数据(于图1C中是以数字0表示)。若处理器13藉由标签编码器判断一第一因子所对应的该等第一数据为连续不间断的数值,则该第一因子的第三检测结果D3为离散型数据(于图1C中是以数字1表示)。需要说明的是,本领域技术人员应熟知标签编码器的运作方式,故不赘言。
第四种检测技术是检测各该第一因子所对应的该等第一数据所形成的群组的差异性。具体而言,处理器13藉由对各该第一因子执行以下运作来产生各该第一因子的一第四检测结果D4:将各该第一因子所对应的该等第一数据分群为多个数据群组(例如:采用密度式的聚类演算法(Density-Based Spatial Clustering of Applications with Noise;DBSCAN),但不以此为限),计算各该群组的一集中量数(例如:一中位数),计算该等集中量数间的一第二相异程度(例如:采用多样本中位数差异检测(Kruskal-Wallis test),但不以此为限),以及根据该等第二相异程度决定出第四检测结果D4。各该第四检测结果D4为对应的该第一因子的数据型态(亦即,为连续型数据或离散型数据)。若一第一因子所对应的第二相异程度为该等集中量数的相异不显著,则处理器13判断该第一因子的第四检测结果D4为连续型数据(于图1C中是以数字0表示)。若一第一因子所对应的第二相异程度为该等集中量数的相异显著,则处理器13判断该第一因子的第四检测结果D4为离散型数据(于图1C中是以数字1表示)。需要说明的是,本领域技术人员应熟知密度式的聚类演算法以及多样本中位数差异检测的运作方式,故不赘言。
于本实施方式中,检测装置1的处理器13采用第一种检测技术。于其他实施方式中,检测装置1的处理器13则可采用第一种检测技术搭配第二至第四种检测技术的任意组合,例如:第一及第二种检测技术、第一及第三种检测技术、第一及第四种检测技术、第一至第四种检测技术,兹不一一列举。
接着,处理器13根据第一历史记录10a、10b、……、10d及前述检测结果训练出一数据型态识别模型(未绘示)。于本实施方式中,处理器13采用第一种检测技术,因此处理器13根据第一历史记录10a、10b、……、10d及该等第一检测结果D1训练出数据型态识别模型。于其他实施方式中,处理器13可采用第一种检测技术搭配第二至第四种检测技术的任意组合,因此处理器13根据第一历史记录10a、10b、……、10d、该等第一检测结果D1及所搭配的其他检测技术的该等检测结果训练出数据型态识别模型。举例而言,若处理器13采用第一及第二种检测技术,则处理器13根据第一历史记录10a、10b、……、10d、该等第一检测结果D1及该等第二检测结果D2训练出数据型态识别模型。再举例而言,若处理器13采用第一至第四种检测技术,则处理器13根据第一历史记录10a、10b、……、10d、该等第一检测结果D1、该等第二检测结果D2、该等第三检测结果D3及该等第四检测结果D4训练出数据型态识别模型。依据前述说明,本领域技术人员应能理解当处理器13采用该等检测技术的其他组合时,处理器13将采用哪些检测结果及第一历史记录10a、10b、……、10d来训练出数据型态识别模型,兹不赘言。
处理器13所训练出的该数据型态识别模型为一能识别所输入的多笔数据为连续型数据或离散型数据的二元分类模型,例如:一罗吉斯回归模型(Logistic regression),但不以此为限。本领域技术人员应熟知如何利用根据第一历史记录10a、10b、……、10d及前述该等检测结果训练出数据型态识别模型,兹不赘言。
现说明检测装置1于第二阶段的运作,亦即,检测装置1如何利用该数据型态识别模型以及作业环境的第二历史记录12a、12b、……、12d检测该作业环境的因子的重要程度,进而找出哪些因子为关键的影响因子。
如前所述,第二历史记录12a、12b、……、12d各自包括多个第二数据一对一地对应至多个第二因子。为便于理解,请参图1D所示的一具体范例。该具体范例将用于后续的说明,且应理解其非用以限制本发明的范围。于该具体范例中,第二历史记录12a、12b、……、12d各自包括四个第二数据一对一地对应至四个第二因子X1、X2、X3、Y。处理器13是利用数据型态识别模型分析各该第二因子X1、X2、X3、Y所对应的该等第二数据以判断出各该第二因子X1、X2、X3、Y的数据型态,其中该数据型态为连续型数据或离散型数据。
于某些实施方式中,处理器13所训练出的数据型态识别模型还具有一第三门槛值(亦即,判断数据型态的正确率最高的值)。于该等实施方式中,处理器13藉由对各该第二因子X1、X2、X3、Y执行以下运作以判断各该第二因子X1、X2、X3、Y所对应的该数据型态:利用该数据型态识别模型及该第二因子所对应的该等第二数据计算出一数据型态识别值,再藉由比对该数据型态识别值与该第三门槛值以判断出数据型态。举例而言,若某一第二因子的数据型态识别值大于第三门槛值,则判断该第二因子对应至离散型数据,而若某一第二因子的数据型态识别值不大于该第三门槛值,则判断该第二因子为连续型数据。
于某些实施方式中,处理器13还可根据各该第二因子X1、X2、X3、Y的数据型态识别值与该第三门槛值计算出各该第二因子X1、X2、X3、Y的一数据型态准确度。举例而言,处理器13可计算各该第二因子X1、X2、X3、Y的数据型态识别值与该第三门槛值的差值,再根据差值计算出数据型态准确度,其中差值越小的第二因子的数据型态准确度越高。需要说明的是,一第二因子的数据型态准确度代表处理器13正确地判断出该第二因子的数据型态的信心程度。为提升该等第二因子X1、X2、X3、Y的数据型态的准确度,检测装置1的使用人员可针对数据型态准确度较低(例如:第于另一门槛值)的第二因子的数据型态另行检验。
另外,处理器13将第二历史记录12a、12b、……、12d分为第一子集102及第二子集104。举例而言,处理器13可依据一预设比例(例如:4:1)将第二历史记录12a、12b、……、12d分为第一子集102及第二子集104。处理器13以第一子集102作为一训练集合,且以第二子集104作为一测试集合。
处理器13利用第一子集102所包括的该等第二历史记录及该等第二因子X1、X2、X3、Y的数据型态建立一基础预测模型(未绘示),例如:用于预测第二因子Y的值的基础预测模型。举例而言,该基础预测模型可为一随机森林(random forest)、一支援向量机(Support Vector Machine;SVM)、一神经网路(neural network)、一线性回归(linearregression)模型、一广义线性模型(generalized linear model),但不以此为限。本领域技术人员应熟知建立前述模型的细节,故不赘言。
兹假设欲知第二因子X1、X2、X3、Y中的一第一特定因子(例如:第二因子X2)的一第一重要程度。处理器13便将第一子集102中对应至该第一特定因子(例如:第二因子X2)的该等第二数据重新排列(例如:任意地改变其顺序)以产生一第一对比集合106,如图1E所示。处理器13再利用第一对比集合106及该等第二因子X1、X2、X3、Y的数据型态建立一第一对比预测模型(未绘示)。类似的,该第一对比预测模型可为一随机森林、一支援向量机、一神经网路、一线性回归模型、一广义线性模型,但不以此为限。需要说明的是,第一对比预测模型与基础预测模型需为相同类型的预测模型。
在建立该基础预测模型后,处理器13利用第二子集104所包括的该等第二历史记录测试该基础预测模型以获得一基础准确度。同理,在建立该第一对比预测模型后,处理器13利用第二子集104所包括的该等第二历史记录测试该第一对比预测模型以获得一第一准确度。举例而言,若欲预测的第二因子的数据型态为连续型数据,则处理器13可利用皮尔逊相关系数(Pearson correlation coefficient)检定计算出前述基础准确度及第一准确度。若欲预测的第二因子的数据型态为离散型数据,则处理器13可利用卡方检定(Chi-squared test)计算出前述基础准确度及第一准确度。需要说明的是,前述皮尔逊相关系数检定及卡方检定仅为举例而已,并非用以限制本发明的范围。
接着,处理器13藉由比对基础准确度及第一准确度以判断出该第一特定因子(例如:第二因子X2)的该第一重要程度。举例而言,处理器13可根据基础准确度及第一准确度的差值决定该第一重要程度。基础准确度及第一准确度的差值越大,该第一特定因子的重要程度越大(亦即,该第一特定因子对于作业环境的影响程度越大)。
于某些实施方式中,处理器13可测试该等第二因子X1、X2、X3、Y中的多个特定因子的重要程度,再找出哪些因子为该作业环境的关键地影响因子。
具体而言,处理器13可再藉由将第一子集102中对应至一第二特定因子(例如:第二因子X3)的该等第二数据重新排列(例如:任意地改变其顺序)以产生一第二对比集合108,如图1F所示。处理器13再利用第二对比集合108及该等第二因子X1、X2、X3、Y的数据型态建立一第二对比预测模型(未绘示)。类似的,该第二对比预测模型可为一随机森林、一支援向量机、一神经网路、一线性回归模型、一广义线性模型,但不以此为限。需要说明的是,基础预测模型、第一对比预测模型及第二对比预测模型需为相同类型的预测模型。
在建立基础预测模型该第二对比预测模型后,处理器13利用第二子集104所包括的该等第二历史记录测试第二对比预测模型以获得一第二准确度。处理器13再藉由比对该基础准确度及该第二准确度以判断出该第二特定因子(例如:第二因子X3)的第二重要程度。举例而言,处理器13可根据基础准确度及第二准确度的差值决定该第二重要程度。基础准确度及第二准确度的差值越大,该第二特定因子的重要程度越大(亦即,该第二特定因子对于作业环境的影响程度越大)。
于某些实施方式中,处理器13还可再判断第一特定因子(例如:第二因子X2)及第二特定因子(例如:第二因子X3)的重要程度何者为高。举例而言,处理器13计算基础准确度与第一准确度间的一第一绝对差值,计算基础准确度与第二准确度间的一第二绝对差值,比较第一绝对差值及第二绝对差值何者较大,再判断出绝对差值较大者所对应的该特定因子的重要程度较高。换言之,若第一绝对差值大于第二绝对差值,处理器13会认定第一特定因子较第二特定因子重要(亦即,该第一特定因子对于作业环境的影响程度大于该第二特定因子对于作业环境的影响程度)。
依据前述说明,本领域技术人员应能理解处理器13如何重复前述运作直到判断完其他特定因子的重要程度,以及如何判断该等特定因子间何者较为重要,故不赘述。
于某些实施方式中,检测装置1还可包括一显示器(未绘示),且该显示器电性连接至处理器13。于该等实施方式中,该显示器可依据各该第二因子X1、X2、X3、Y的数据型态所对应的一呈现方式(例如:散点图(Scatter diagram)、盒须图(Boxplot)、柱状图(Barcharts))显示各该第二因子X1、X2、X3、Y所对应的该等第二数据。举例而言,若该等第二因子X1、X2、X3、Y皆为连续型数据,该显示器可采用散点图来显示各该第二因子X1、X2、X3、Y所对应的该等第二数据。若该等第二因子X1、X2、X3、Y包括连续型数据及离散型数据,该显示器可以盒须图来呈现各该第二因子X1、X2、X3、Y所对应的该等第二数据。若该等第二因子X1、X2、X3、Y皆为离散型数据,该显示器可以柱状图来显示各该第二因子X1、X2、X3、Y所对应的该等第二数据。
综上所述,检测装置1提供多种不同方式来训练出一数据型态识别模型,数据型态识别模型是用于自动化地判断出一因子所对应的数据型态为连续型数据或离散型数据。透过该数据型态识别模型,不需要由专业人员事先定义格式才能比对及分析。因此,检测装置1所提供的数据型态识别模型能应用于复杂的作业环境(例如:因子数量极多),且能有效率地且准确地辨识出一因子所对应的数据型态。
此外,检测装置1会根据一作业环境的多笔历史记录检测该作业环境的因子的重要程度,进而找出哪些因子为关键的影响因子。简言之,检测装置1将该等历史记录区分为训练集合与测试集合,将该训练集合的一或多个特定因子所对应的数据分别重新排列以产生一或多个对比集合,再利用训练集合及对比集合产生多个预测模型。检测装置1利用测试集合来测试这些预测模型,再依据测试结果判断出该一或多个特定因子的重要程度,进而判断出哪一或哪些特定因子较为重要。因此,即使是一复杂的作业环境(例如:因子数量极多)且因子间交互影响,检测装置1仍能有效率地分析因子的重要程度,且找出关键的影响因子。
本发明的第二实施方式为一种为一作业环境检测影响因子的方法(下称「检测方法」),其流程图描绘于图2A。该检测方法适用于一电子装置,例如:第一实施方式所述的检测装置1。
于本实施方式中,该电子装置存储多笔第一历史记录(例如:图1A及图1B所示的第一历史记录10a、10b、……、10d),且各该第一历史记录包括多个第一数据一对一地对应至多个第一因子。此外,该电子装置还存储该作业环境的多笔第二历史记录(例如:图1A及图1D所示的第二历史记录12a、12b、……、12d),且各该第二历史记录包括多个第二数据一对一地对应至多个第二因子。
于步骤S201,由该电子装置藉由分析各该第一因子所对应的该等第一数据的一第一相异程度而产生各该第一因子的一第一检测结果(例如:图1C所示的第一检测结果D1),其中该第一检测结果为一连续型数据及一离散型数据其中之一。接着,执行步骤S203,由该电子装置根据该等第一历史记录及该等第一检测结果训练出一数据型态识别模型。
于某些实施方式中,步骤S201是藉由对各该第一因子执行以下步骤以产生对应的该第一检测结果:藉由比较该第一因子所对应的该等第一数据的一众数个数及一第一门槛值以产生一第一比较结果,藉由比较该第一因子所对应的该等第一数据的一相异个数及一第二门槛值产生一第二比较结果,以及根据该第一比较结果及该第二比较结果决定该第一检测结果。
于某些实施方式中,该检测方法于执行步骤S203前还会由该电子装置执行以下步骤:藉由将各该第一因子所对应的该等第一数据与一常态分布模型比对而产生各该第一因子的一第二检测结果(例如:图1C所示的第二检测结果D2),其中各该第二检测结果为该连续型数据及该离散型数据其中之一。需要说明的是,于该等实施方式中,步骤S203是根据该等第一历史记录、该等第一检测结果及该等第二检测结果训练出该数据型态识别模型。
于某些实施方式中,该检测方法于执行步骤S203前还会由该电子装置执行以下步骤:藉由一标签编码器(LabelEncoder)分析各该第一因子所对应的该等第一数据的一间断性而产生各该第一因子的一第三检测结果(例如:图1C所示的第三检测结果D3),其中各该第三检测结果为该连续型数据及该离散型数据其中之一。需要说明的是,于该等实施方式中,步骤S203是根据该等第一历史记录、该等第一检测结果及该等第三检测结果训练出该数据型态识别模型。
于某些实施方式中,该检测方法于执行步骤S203前还会由该电子装置藉由对各该第一因子执行以下步骤来产生各该第一因子的一第四检测结果(例如:图1C所示的第四检测结果D4):将该第一因子所对应的该等第一数据分群为多个数据群组,计算各该群组的一集中量数,计算该等集中量数间的一第二相异程度,以及根据该第二相异程度决定该第四检测结果。各该第四检测结果为该连续型数据及该离散型数据其中之一。需要说明的是,于该等实施方式中,步骤S203是根据该等第一历史记录、该等第一检测结果及该等第四检测结果训练出该数据型态识别模型。
于某些实施方式中,该检测方法可同时采用前述第一至第四种检测技术以获得该等第一检测结果、该等第二检测结果、该等第三检测结果及该等第四检测结果。于该等实施方式中,步骤S203是由该电子装置根据该等第一历史记录、该等第一检测结果、该等第二检测结果、该等第三检测结果及该等第四检测结果训练出该数据型态识别模型。需要说明的是,于某些实施方式中,该检测方法可采用前述第一种检测技术及第二至第四种检测技术的任意组合。于该等实施方式中,步骤S203是由该电子装置根据该等第一历史记录以及所采用的该等检测技术所对应的该等检测结果来训练出该数据型态识别模型。
之后,由该电子装置执行步骤S205,利用该数据型态识别模型分析各该第二因子所对应的该等第二数据以判断出各该第二因子的一数据型态。于某些实施方式中,该数据型态识别模型还具有一第三门槛值(亦即,判断数据型态的正确率最高的值)。于该等实施方式中,步骤S205是由该电子装置对各该第二因子执行下列步骤以判断各该第二因子所对应的该数据型态:利用该数据型态识别模型及该第二因子所对应的该等第二数据计算出该数据型态识别值,再藉由比对该数据型态识别值与该第三门槛值以判断出该数据型态。举例而言,若该数据型态识别值大于该第三门槛值,则判断该第二因子为离散型数据,而若该数据型态识别值不大于该第三门槛值,则判断该第二因子为连续型数据。于该等实施方式中,该检测方法还可包括一步骤,由该电子装置根据各该第二因子的该数据型态识别值与该第三门槛值计算各该第二因子的一数据型态准确度。各该第二因子的该数据型态准确度可代表该检测方法判断出正确的数据型态的信心程度。
于步骤S207,由该电子装置利用该等第二历史记录的一第一子集(例如:图1D的第一子集102)及该等第二因子的该等数据型态建立一基础预测模型。于步骤S209,由该电子装置以该等第二历史记录的一第二子集(例如:图1所示的第二子集104)测试该基础预测模型以获得一基础准确度。另外,于步骤S211,由该电子装置将该第一子集中对应至一第一特定因子(该第一特定因子为该等第二因子其中之一,例如:图1D所示的第二因子X2)的该等第二数据重新排列以产生一第一对比集合(例如:图1E所示的第一对比集合106)。于步骤S213,由该电子装置利用该第一对比集合及该等第二因子的该等数据型态建立一第一对比预测模型。于步骤S215,由该电子装置以该第二子集测试该第一对比预测模型以获得一第一准确度。之后,于步骤S217,由该电子装置藉由比较该基础准确度及该第一准确度以判断出该第一特定因子的一第一重要程度。
需要说明的是,前述步骤S207及步骤S209为基础预测模型的建立与测试,而步骤S211、步骤S213及步骤S215为第一对比预测模型的建立与测试。于某些实施方式中,检测方法可先执行步骤S211至步骤S215,再执行步骤S207至步骤S209。于某些实施方式中,检测方法则可平行地执行基础预测模型的相关步骤(亦即,步骤S207至步骤S209)以及第一对比预测模型的相关步骤(亦即,步骤S211至步骤S215)。依据前述说明,本领域技术人员应可理解该等步骤尚能以其他的顺序加以执行,兹不赘言。
于某些实施方式中,该检测方法可执行如图2B所示的流程。于该等实施方式中,该检测方法先执行步骤S201至步骤S209,再执行步骤S211至步骤S217。之后,于步骤S219,由该电子装置计算该基础准确度及该第一准确度间的一第一绝对差值。
另外,于步骤S209后,该检测方法还会执行步骤S221至步骤S229。具体而言,于步骤S221,由该电子装置藉由将该第一子集中对应至一第二特定因子(例如:图1D所示的第二因子X3)的该等第二数据重新排列以产生一第二对比集合(例如:图1F所示的第二对比集合108)。接着,于步骤S223,由该电子装置利用该第二对比集合及该等第二因子的该等数据型态建立一第二对比预测模型。于步骤S225,由该电子装置以该第二子集测试该第二对比预测模型以获得一第二准确度。于步骤S227,由该电子装置藉由比较该基础准确度及该第二准确度以判断出该第二特定因子的一第二重要程度。之后,于步骤S229,由该电子装置计算该基础准确度及该第二准确度间的一第二绝对差值。需要说明的是,于某些实施方式中,该检测方法可于执行完步骤S219的后再执行步骤S221至步骤S229。
于步骤S231,由该电子装置基于该第一绝对差值及该第二绝对差值的大小,判断该第一重要程度及该第二重要程度何者较高。具体而言,若步骤S231判断该第一绝对差值大于该第二绝对差值,则该电子装置基于此判断结果确认该第一重要程度高于该第二重要程度(亦即,该第一特定因子对该作业环境的影响大于该第二特定因子对该作业环境的影响)。相反的,若步骤S231判断该第二绝对差值大于该第一绝对差值,则该电子装置基于此判断结果确认该第二重要程度高于该第一重要程度(亦即,该第二特定因子对该作业环境的影响大于该第一特定因子对该作业环境的影响)。
需要说明的是,本发明未限制检测方法所挑选的特定因子的数量。因此,检测方法还可从该等第二因子中挑选其他的特定因子产生其他的对比预测模型,计算其他对比预测模型的准确度,判断其他特定因子的重要程度,再综合地判断该等重要程度的高低(亦即,综合地判断该等特定因子对该作业环境的影响的高低)。举例而言,检测方法可将各该第二因子视为一特定因子,并一一地进行前述步骤,兹不赘言。
于某些实施方式中,该检测方法还会由该电子装置依据各该第二因子的该数据型态所对应的一呈现方式显示各该第二因子所对应的该等数据。举例而言,若该等第二因子皆为连续型数据,可以散点图呈现;若该等第二因子包括连续型数据及离散型数据,可以盒须图呈现;若该等第二因子皆为离散型数据,可以柱状图呈现。
除了上述步骤,第二实施方式能执行第一实施方式所描述的检测装置1的所有运作及步骤,具有同样的功能,且达到同样的技术效果。本领域技术人员可直接了解第二实施方式如何基于上述第一实施方式以执行此等运作及步骤,具有同样的功能,并达到同样的技术效果,故不赘述。
需要说明的是,于本发明专利说明书及申请专利范围中,某些用语(包括:历史记录、数据、因子、特定因子、门槛值、检测结果、子集、对比集合、准确度、重要程度及绝对差值)前被冠以「第一」、「第二」或「第三」,该等「第一」、「第二」及「第三」仅用来区分不同用语。
综上所述,本发明所提供的检测技术(至少包括装置及方法)可为一作业环境检测其影响因子。本发明先藉由一或多个检测技术分析多笔第一历史记录的各个第一因子是连续型数据或离散型数据,再据以训练出一数据型态识别模型。透过该数据型态识别模型,本发明不需要由专业人员事先定义栏位格式便能有效率地且准确地辨识出一因子所对应的数据型态,且能应用于复杂的作业环境(例如:因子数量极多)。
本发明所提供的检测技术还可透过该数据型态识别模型,检测一作业环境的多笔第二历史记录的各个第二因子的数据型态(亦即,为连续型数据或离散型数据),再利用该等第二因子的数据型态及该等第二历史记录的一训练集合建立出基础预测模型。此外,本发明所提供的检测技术还藉由将该训练集合中对应至一或多个特定因子的第二数据分别重新排列以产生一或多个对比预测模型。藉由计算及比较基础预测模型及该一或多个对比预测模型的准确度,本发明可检测出该一或多个特定因子的重要程度,进而判断出哪一或哪些特定因子较为重要。因此,即使是一复杂的作业环境且因子间交互影响,本发明仍能有效率地分析因子的重要程度,且找出关键的影响因子。
上述实施方式仅用来例举本发明的部分实施态样,以及阐释本发明的技术特征,而非用来限制本发明的保护范畴及范围。任何本领域技术人员可轻易完成的改变或均等性的安排均属于本发明所主张的范围,而本发明的权利保护范围以申请专利范围为准。
Claims (20)
1.一种为一作业环境检测影响因子的装置,其特征在于,包括:
一存储器,存储多笔第一历史记录及该作业环境的多笔第二历史记录,其中各该第一历史记录包括多个第一数据一对一地对应至多个第一因子,各该第二历史记录包括多个第二数据一对一地对应至多个第二因子;
一处理器,电性连接至该存储器,藉由分析各该第一因子所对应的该等第一数据的一第一相异程度而产生各该第一因子的一第一检测结果,各该第一检测结果为一连续型数据及一离散型数据其中之一,
其中,该处理器还根据该等第一历史记录及该等第一检测结果训练出一数据型态识别模型,利用该数据型态识别模型分析各该第二因子所对应的该等第二数据以判断出各该第二因子的一数据型态,利用该等第二历史记录的一第一子集及该等数据型态建立一基础预测模型,藉由将该第一子集中对应至一第一特定因子的该等第二数据重新排列以产生一第一对比集合,利用该第一对比集合及该等数据型态建立一第一对比预测模型,以该等第二历史记录的一第二子集测试该基础预测模型以获得一基础准确度,以该第二子集测试该第一对比预测模型以获得一第一准确度,以及藉由比较该基础准确度及该第一准确度判断该第一特定因子的一第一重要程度。
2.如权利要求1所述的装置,其特征在于,该处理器是藉由对各该第一因子执行以下运作来产生对应的该第一检测结果:
藉由比较该第一因子所对应的该等第一数据的一众数个数及一第一门槛值产生一第一比较结果,
藉由比较该第一因子所对应的该等第一数据的一相异个数及一第二门槛值产生一第二比较结果,以及
根据该第一比较结果及该第二比较结果决定该第一检测结果。
3.如权利要求1所述的装置,其特征在于,该处理器还藉由将各该第一因子所对应的该等第一数据与一常态分布模型比对而产生各该第一因子的一第二检测结果,各该第二检测结果为该连续型数据及该离散型数据其中之一,
其中,该处理器是根据该等第一历史记录、该等第一检测结果及该等第二检测结果训练出该数据型态识别模型。
4.如权利要求1所述的装置,其特征在于,该处理器还藉由一标签编码器分析各该第一因子所对应的该等第一数据的一间断性而产生各该第一因子的一第三检测结果,各该第三检测结果为该连续型数据及该离散型数据其中之一,
其中,该处理器是根据该等第一历史记录、该等第一检测结果及该等第三检测结果训练出该数据型态识别模型。
5.如权利要求1所述的装置,其特征在于,该处理器还藉由对各该第一因子执行以下运作来产生各该第一因子的一第四检测结果:
将该第一因子所对应的该等第一数据分群为多个数据群组,
计算各该群组的一集中量数,
计算该等集中量数间的一第二相异程度,以及
根据该等第二相异程度决定该第四检测结果,其中该第四检测结果为该连续型数据及该离散型数据其中之一,
其中,该处理器是根据该等第一历史记录、该等第一检测结果及该等第四检测结果训练出该数据型态识别模型。
6.如权利要求1所述的装置,其特征在于,该数据型态识别模型具有一门槛值,且该处理器是藉由对各该第二因子执行以下运作以判断对应的该数据型态:
利用该数据型态识别模型及该第二因子所对应的该等第二数据计算出一数据型态识别值,以及
藉由比对该数据型态识别值及该门槛值以判断出该数据型态。
7.如权利要求6所述的装置,其特征在于,该处理器还根据各该第二因子的该数据型态识别值与该门槛值计算各该第二因子的一数据型态准确度。
8.如权利要求1所述的装置,其特征在于,该处理器还藉由将该第一子集中对应至一第二特定因子的该等第二数据重新排列以产生一第二对比集合,利用该第二对比集合及该等数据型态建立一第二对比预测模型,以该第二子集测试该第二对比预测模型以获得一第二准确度,以及藉由比较该基础准确度及该第二准确度判断该第二特定因子的一第二重要程度。
9.如权利要求8所述的装置,其特征在于,该处理器还计算该基础准确度及该第一准确度间的一第一绝对差值,计算该基础准确度及该第二准确度间的一第二绝对差值,判断该第一绝对差值大于该第二绝对差值,且基于该第一绝对差值大于该第二绝对差值的判断结果确认该第一重要程度高于该第二重要程度。
10.如权利要求1所述的装置,其特征在于,还包括:
一显示器,电性连接至该处理器,且依据各该第二因子的该数据型态所对应的一呈现方式显示各该第二因子所对应的该等第二数据。
11.一种为一作业环境检测影响因子的方法,由一电子装置执行,该电子装置存储多笔第一历史记录及该作业环境的多笔第二历史记录,各该第一历史记录包括多个第一数据一对一地对应至多个第一因子,各该第二历史记录包括多个第二数据一对一地对应至多个第二因子,其特征在于,该方法包括下列步骤:
(a)藉由分析各该第一因子所对应的该等第一数据的一第一相异程度而产生各该第一因子的一第一检测结果,各该第一检测结果为一连续型数据及一离散型数据其中之一;
(b)根据该等第一历史记录及该等第一检测结果训练出一数据型态识别模型;
(c)利用该数据型态识别模型分析各该第二因子所对应的该等第二数据以判断出各该第二因子的一数据型态;
(d)利用该等第二历史记录的一第一子集及该等数据型态建立一基础预测模型;
(e)藉由将该第一子集中对应至一第一特定因子的该等第二数据重新排列以产生一第一对比集合;
(f)利用该第一对比集合及该等数据型态建立一第一对比预测模型;
(g)以该等第二历史记录的一第二子集测试该基础预测模型以获得一基础准确度;
(h)以该第二子集测试该第一对比预测模型以获得一第一准确度;以及
(i)藉由比较该基础准确度及该第一准确度判断该第一特定因子的一第一重要程度。
12.如权利要求11所述的方法,其特征在于,该步骤(a)是藉由对各该第一因子执行下列步骤来产生对应的该第一检测结果:
藉由比较该第一因子所对应的该等第一数据的一众数个数及一第一门槛值产生一第一比较结果;
藉由比较该第一因子所对应的该等第一数据的一相异个数及一第二门槛值产生一第二比较结果;以及
根据该第一比较结果及该第二比较结果决定该第一检测结果。
13.如权利要求11所述的方法,其特征在于,还包括下列步骤:
藉由将各该第一因子所对应的该等第一数据与一常态分布模型比对而产生各该第一因子的一第二检测结果,各该第二检测结果为该连续型数据及该离散型数据其中之一,
其中,该步骤(b)是根据该等第一历史记录、该等第一检测结果及该等第二检测结果训练出该数据型态识别模型。
14.如权利要求11所述的方法,其特征在于,还包括下列步骤:
藉由一标签编码器分析各该第一因子所对应的该等第一数据的一间断性而产生各该第一因子的一第三检测结果,各该第三检测结果为该连续型数据及该离散型数据其中之一,
其中,该步骤(b)是根据该等第一历史记录、该等第一检测结果及该等第三检测结果训练出该数据型态识别模型。
15.如权利要求11所述的方法,其特征在于,还包括下列步骤:
藉由对各该第一因子执行以下步骤来产生各该第一因子的一第四检测结果:
将该第一因子所对应的该等第一数据分群为多个数据群组;
计算各该群组的一集中量数;
计算该等集中量数间的一第二相异程度;以及
根据该等第二相异程度决定该第四检测结果,其中该第四检测结果为该连续型数据及该离散型数据其中之一,
其中,该步骤(b)是根据该等第一历史记录、该等第一检测结果及该等第四检测结果训练出该数据型态识别模型。
16.如权利要求11所述的方法,其特征在于,该步骤(c)藉由对各该第二因子执行下列步骤以判断对应的该数据型态:
利用该数据型态识别模型及该第二因子所对应的该等第二数据计算出一数据型态识别值;以及
藉由比对该数据型态识别值及该数据型态识别模型的一门槛值以判断出该数据型态。
17.如权利要求16所述的方法,其特征在于,还包括下列步骤:
根据各该第二因子的该数据型态识别值与该门槛值计算各该第二因子的一数据型态准确度。
18.如权利要求11所述的方法,其特征在于,还包括下列步骤:
藉由将该第一子集中对应至一第二特定因子的该等第二数据重新排列以产生一第二对比集合;
利用该第二对比集合及该等数据型态建立一第二对比预测模型;
以该第二子集测试该第二对比预测模型以获得一第二准确度;以及
藉由比较该基础准确度及该第二准确度判断该第二特定因子的一第二重要程度。
19.如权利要求18所述的方法,其特征在于,还包括下列步骤:
计算该基础准确度及该第一准确度间的一第一绝对差值;
计算该基础准确度及该第二准确度间的一第二绝对差值;
判断该第一绝对差值大于该第二绝对差值;以及
基于该第一绝对差值大于该第二绝对差值的判断结果确认该第一重要程度高于该第二重要程度。
20.如权利要求11所述的方法,其特征在于,还包括下列步骤:
依据各该第二因子的该数据型态所对应的一呈现方式显示各该第二因子所对应的该等第二数据。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW107138000 | 2018-10-26 | ||
TW107138000A TWI694344B (zh) | 2018-10-26 | 2018-10-26 | 為一作業環境檢測影響因子之裝置及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111104955A true CN111104955A (zh) | 2020-05-05 |
Family
ID=70326289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811322685.6A Pending CN111104955A (zh) | 2018-10-26 | 2018-11-08 | 为一作业环境检测影响因子的装置及方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20200134480A1 (zh) |
CN (1) | CN111104955A (zh) |
TW (1) | TWI694344B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117171675B (zh) * | 2023-11-02 | 2024-01-12 | 北京建工环境修复股份有限公司 | 基于多源数据的水环境微生物检测方法、系统及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102792327A (zh) * | 2010-02-04 | 2012-11-21 | 宝洁公司 | 用于进行消费者调查的方法 |
WO2017120616A1 (en) * | 2016-01-07 | 2017-07-13 | Stouse Mark | Correlation processes in complex business environments |
CN108073824A (zh) * | 2016-11-17 | 2018-05-25 | 财团法人资讯工业策进会 | 去识别化数据产生装置及方法 |
CN108073629A (zh) * | 2016-11-16 | 2018-05-25 | 北京京东尚科信息技术有限公司 | 通过网站访问数据识别购买模式的方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140279695A1 (en) * | 2013-03-15 | 2014-09-18 | National Cheng Kung University | System and method for rating and selecting models |
US10599999B2 (en) * | 2014-06-02 | 2020-03-24 | Yottamine Analytics, Inc. | Digital event profile filters based on cost sensitive support vector machine for fraud detection, risk rating or electronic transaction classification |
EP3279737A1 (en) * | 2016-08-05 | 2018-02-07 | ASML Netherlands B.V. | Diagnostic system for an industrial process |
-
2018
- 2018-10-26 TW TW107138000A patent/TWI694344B/zh active
- 2018-11-08 CN CN201811322685.6A patent/CN111104955A/zh active Pending
- 2018-11-29 US US16/205,218 patent/US20200134480A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102792327A (zh) * | 2010-02-04 | 2012-11-21 | 宝洁公司 | 用于进行消费者调查的方法 |
WO2017120616A1 (en) * | 2016-01-07 | 2017-07-13 | Stouse Mark | Correlation processes in complex business environments |
CN108073629A (zh) * | 2016-11-16 | 2018-05-25 | 北京京东尚科信息技术有限公司 | 通过网站访问数据识别购买模式的方法及装置 |
CN108073824A (zh) * | 2016-11-17 | 2018-05-25 | 财团法人资讯工业策进会 | 去识别化数据产生装置及方法 |
Non-Patent Citations (2)
Title |
---|
AARON FISHER 等: "Model Class Reliance: Variable Importance Measures for any Machine Learning Model Class, from the \"Rashomon\" Perspective" * |
ISABEL VALERA 等: "Automatic discovery of the statistical types of variables in a dataset" * |
Also Published As
Publication number | Publication date |
---|---|
TWI694344B (zh) | 2020-05-21 |
US20200134480A1 (en) | 2020-04-30 |
TW202016776A (zh) | 2020-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8886574B2 (en) | Generalized pattern recognition for fault diagnosis in machine condition monitoring | |
CN113852603B (zh) | 网络流量的异常检测方法、装置、电子设备和可读介质 | |
CN113688042A (zh) | 测试场景的确定方法、装置、电子设备及可读存储介质 | |
EP3333757B1 (en) | Predictive anomaly detection | |
Stoyanov et al. | Predictive analytics methodology for smart qualification testing of electronic components | |
CN113705726A (zh) | 流量的分类方法、装置、电子设备及计算机可读介质 | |
Wen et al. | A new method for identifying the ball screw degradation level based on the multiple classifier system | |
CN111832880A (zh) | 对正在进行的生产批运行的质量指示符的计算机实现的确定 | |
US20220327394A1 (en) | Learning support apparatus, learning support methods, and computer-readable recording medium | |
CN1749988A (zh) | 用于管理及预测自动分类器性能的方法和装置 | |
CN111104955A (zh) | 为一作业环境检测影响因子的装置及方法 | |
CN112070180B (zh) | 基于信息物理双侧数据的电网设备状态判断方法及装置 | |
Zhang et al. | Methods for labeling error detection in microarrays based on the effect of data perturbation on the regression model | |
CN1750020A (zh) | 用于管理及预测自动分类器性能的方法和装置 | |
WO2017096219A1 (en) | Methods and systems for determination of the number of contributors to a dna mixture | |
Sullivan | Estimating the locations of multiple change points in the mean | |
Giurcăneanu et al. | Cluster structure inference based on clustering stability with applications to microarray data analysis | |
CN116245630A (zh) | 一种反欺诈检测方法、装置、电子设备及介质 | |
CN112433952B (zh) | 深度神经网络模型公平性测试方法、系统、设备及介质 | |
US10546243B1 (en) | Predicting particle size distribution and particle morphology | |
US11177018B2 (en) | Stable genes in comparative transcriptomics | |
Chakraborty et al. | A multiple k-means cluster ensemble framework for clustering citation trajectories | |
US20140214339A1 (en) | Identification of outliers among chemical assays | |
Elmahalwy et al. | New hybrid ensemble method for anomaly detection in data science | |
CN115907275B (zh) | 一种基于产品特性的设备推荐信息的生成方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200505 |