CN111190887A - 一种基于社会认知决策的数据分析方法和装置 - Google Patents

一种基于社会认知决策的数据分析方法和装置 Download PDF

Info

Publication number
CN111190887A
CN111190887A CN201911413900.8A CN201911413900A CN111190887A CN 111190887 A CN111190887 A CN 111190887A CN 201911413900 A CN201911413900 A CN 201911413900A CN 111190887 A CN111190887 A CN 111190887A
Authority
CN
China
Prior art keywords
data
time
decision
value
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911413900.8A
Other languages
English (en)
Other versions
CN111190887B (zh
Inventor
翟振刚
高冰涛
章栎
王良鹏
姚滕俊
陈媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 36 Research Institute
Original Assignee
CETC 36 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 36 Research Institute filed Critical CETC 36 Research Institute
Priority to CN201911413900.8A priority Critical patent/CN111190887B/zh
Publication of CN111190887A publication Critical patent/CN111190887A/zh
Application granted granted Critical
Publication of CN111190887B publication Critical patent/CN111190887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/152Water filtration

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种基于社会认知决策的数据分析方法和装置。方法包括:根据具体问题的核心决策需求,建立决策模型,该决策模型包括特征向量参数和数据价值时间权重参数;围绕核心决策需求采集相关数据,并对采集的数据进行清洗和整理,获取到多个特征向量;对多个特征向量进行相应处理,得到由处理后的多个特征向量构成的特征向量空间;按照鲜活数据比历史数据更有价值的认知决策原理,建立数据价值分析模型,计算特征向量空间对应的数据价值时间权重矩阵;将上述得到的特征向量空间和数据价值时间权重矩阵,代入决策模型,得到对应决策时间的决策模型,进而解决具体问题。本发明通过突出鲜活数据的价值,提高了数据分析结果的合理性。

Description

一种基于社会认知决策的数据分析方法和装置
技术领域
本发明涉及大数据分析领域,具体涉及一种基于社会认知决策的数据分析方法和装置。
背景技术
随着大数据分析技术的发展,大数据应用领域渗透到了社会生活的各个方面。然而,目前的大数据分析方法仅仅利用数据进行单一分析,对社会认知决策属性、价值时间属性等方面考虑不足。现有的分析方法仅仅从数学领域进行分析,没能把对数据分析与社会认知决策之间的关联性、价值的有效性、以及数据价值随着时间的递减性等因素作为重要的因子纳入分析模型中,使得分析效果远远低于预期。
发明内容
鉴于上述问题,本发明提出了一种基于社会认知决策的数据分析方法和装置,以便克服现有大数据分析方法中对数据的价值时间关系考虑不足。
依据本发明的一个方面,提供了一种基于社会认知决策的数据分析方法,所述方法包括:
根据具体问题的核心决策需求,建立决策模型,所述决策模型包括两个参数:特征向量参数和数据价值时间权重参数,其中所述数据价值时间权重用于表示数据对决策影响的大小;
围绕所述核心决策需求采集相关数据,并对采集的数据进行清洗和整理,获取到多个特征向量;
依据决策时间与数据生产时间的差值,对所述多个特征向量进行相应处理,得到由处理后的多个特征向量构成的特征向量空间;
按照鲜活数据比历史数据更有价值的认知决策原理,建立数据价值分析模型,并利用所述数据价值分析模型计算所述特征向量空间对应的数据价值时间权重矩阵;
将所述特征向量空间和所述特征向量空间对应的数据价值时间权重矩阵,代入所述决策模型,得到对应所述决策时间的决策模型,进而根据得到的决策模型解决所述具体问题。
依据本发明的又一方面,提供了一种基于社会认知决策的数据分析装置,所述装置包括:
决策模型建立模块,用于根据具体问题的核心决策需求,建立决策模型,所述决策模型包括两个参数:特征向量参数和数据价值时间权重参数,其中所述数据价值时间权重的大小表示数据对决策影响的大小;
数据采集和整理模块,用于围绕所述核心决策需求采集相关数据,并对采集的数据进行清洗和整理,获取到多个特征向量;
特征向量空间获取模块,用于依据决策时间与数据生产时间的差值,对所述多个特征向量进行相应处理,得到由处理后的多个特征向量构成的特征向量空间;
时间权重矩阵计算模块,用于按照鲜活数据比历史数据更有价值的认知决策原理,建立数据价值分析模型,并利用所述数据价值分析模型计算所述特征向量空间对应的数据价值时间权重矩阵;
问题解决模块,用于将所述特征向量空间和所述特征向量空间对应的数据价值时间权重矩阵,代入所述决策模型,求解得到对应所述决策时间的决策模型,进而根据得到的决策模型解决所述具体问题。
由上述可知,本发明实施例的数据分析方法和装置,首先根据具体问题的核心决策需求,建立包括有数据价值时间权重参数的决策模型,所述数据价值时间权重用于表示数据对决策影响的大小;然后围绕该核心决策需求采集相关数据,并对采集的数据进行清洗和整理,获取到多个特征向量;接着依据决策时间与数据生产时间的差值,对多个特征向量进行相应处理,得到由处理后的多个特征向量构成的特征向量空间,并利用数据价值分析模型计算该特征向量空间对应的数据价值时间权重矩阵,其中数据价值分析模型是按照鲜活数据比历史数据更有价值的认知决策原理建立;最后将得到的特征向量空间和特征向量空间对应的数据价值时间权重矩阵,代入上述的决策模型,得到对应决策时间的决策模型,进而根据得到的决策模型解决具体问题。
本发明的技术方案,通过突出鲜活数据的价值,解决了数据分析方法中数据价值随时间变化的问题,降低了数据分析的时间和空间复杂度,使得数据分析过程更符合人类社会认知决策分析特征,得到的决策模型更加具有说服力,提高了数据分析结果的合理性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种基于社会认知决策的数据分析方法的流程示意图;
图2示出了根据本发明一个实施例的一种基于社会认知决策的数据分析装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的一种基于社会认知决策的数据分析方法的流程示意图。如图1所示,该实施例的数据分析方法包括:
步骤110,根据具体问题的核心决策需求,建立决策模型,该决策模型包括两个参数:特征向量参数和数据价值时间权重参数,其中数据价值时间权重用于表示数据对决策影响的大小。
步骤120,围绕核心决策需求采集相关数据,并对采集的数据进行清洗和整理,获取到多个特征向量。
步骤130,依据决策时间与数据生产时间的差值,对多个特征向量进行相应处理,得到由处理后的多个特征向量构成的特征向量空间。
步骤140,按照鲜活数据比历史数据更有价值的认知决策原理,建立数据价值分析模型,并利用数据价值分析模型计算特征向量空间对应的数据价值时间权重矩阵。
步骤150,将上述特征向量空间和上述特征向量空间对应的数据价值时间权重矩阵,代入决策模型,得到对应决策时间的决策模型,进而根据得到的决策模型解决具体问题。
由上述可知,本发明上述实施例的数据分析方法,通过突出鲜活数据的价值,解决了数据分析方法中数据价值随时间变化的问题,降低了数据分析的时间和空间复杂度,使得数据分析过程更符合人类社会认知决策分析特征,得到的决策模型更加具有说服力,提高了数据分析结果的合理性。
下面对上述各步骤做具体说明:
在本发明一个实施例中,上述步骤110包括:
根据实际情况,从需要解决的问题中,选择一个非常具体的,具有数据资源的最小痛点,也即当前最需要解决的一个具体问题。
分析该具体问题需要解决的核心决策需求,将核心决策需求转换为决策模型,决策模型如公式(1)所示。
F(DV,W)………………(1)
其中,F(DV,W)函数表示决策模型,DV,W是两个参数。DV表示特征向量,DV∈Ω,Ω表示由特征向量构成的特征向量空间;W表示利用社会认知决策原理,根据特征向量时间空间T的值计算出来的数据价值时间权重。数据价值时间权重用于表示数据对决策影响的大小,例如历史数据的决策价值没有当前数据的决策价值大。
需要说明的是,每个特征向量即为实际获得的数据。特征向量空间是由特征向量构成的空间。通过分析决策模型,根据实际能够得到数据情况,确定出决策模型需要的特征向量空间。特征向量空间用字母Ω来表示,如公式(2)所示:
Ω=(DV0,DV1,…,DVm)…………….(2)
其中DVm表示第m特征向量,m∈N,N为获得的特征向量的总数。
同时,根据特征向量的数据生产时间,确定与特征向量空间对应的特征向量时间空间。特征向量时间空间用字母T来表示,如公式(3)所示:
T=(t0,t1,…,tm)………………(3)
其中tm表示第m特征向量所对应的数据生产时间,m∈N,N为获得的特征向量的总数。
在本发明一个实施例中,上述步骤120中的“围绕所述核心决策需求采集相关数据”,包括:
围绕着核心决策需求,采集与步骤110确定出的决策模型需要的特征向量空间的参数相关的结构化数据、半结构化数据、非结构化数据、静态数据、动态数据、历史数据和实时数据;其中:
数据源格式包括:txt、csv、xls、文本数据、图像数据、语音数据等;
结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据,其一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。例如,EXCEL、数据库的数据等。
非结构化数据是指没有固定结构、需要通过识别分析后才能使用的数据。例如各种文档、图片、视频、音频等都属于非结构化数据。
半结构化数据是指介于结构化的数据和非结构化数据两者之间的数据,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。例,XML、HTML数据。
静态数据是指与此问题相关的注册信息、属性数据等相对不变的数据;
动态数据是指与此问题相关的根据时间在改变数据。例如,行为轨迹、浏览痕迹等。
历史数据是指在历史时间内形成积累的与此问题相关的数据。例如,历史交易数据。
实时数据是指此刻此时与此问题相关的活数据。例如,正在浏览网站、正在关注的视频等数据。
在本发明一个实施例中,上述步骤120中的“对采集的数据进行清洗和整理”,包括:
读取数据:将规范的结构化数据写入相应的特征向量空间的参数中,同时将非结构化数据通过人工或自动化技术进行结构化处理,并同样写入相应的特征向量的参数中;
清除重复数据:读取上述生成的数据,通过设计函数或使用内置的函数清除重复数据;
清除空缺数据:根据事前设定的规则,对空缺的数据进行填充;
清除噪声数据:通过判断条件或滤波的方法,减少或清除噪声数据,并避免有效信息丢失。
在本发明一个实施例中,上述步骤130:“依据决策时间与数据生产时间的差值,对多个特征向量进行相应处理,得到由处理后的多个特征向量构成的特征向量空间”,包括:
对数据生产时间位于决策时间tp与第一时间点tm之间的第一时间段内的各个特征向量,作为重要数据不进行处理,其中(m<p),(tm<tp);
对数据生产时间位于所述第一时间点tm与第二时间点tn之间的第二时间段内的各个特征向量,计算各个维度值的平均值,使用所述平均值更新数据生产时间为tm的特征向量的各维度数据,其中(tn<tm),(n<m);
对数据生产时间位于所述第一时间点tm以前的各个特征向量,将其各个维度数值置为零或者无穷小;
由处理后的所述第一时间段内的各个特征向量、处理后的数据生产时间为tm的特征向量、处理后的所述第一时间点tm以前的各个特征向量共同构成特征向量空间。
对上述各时间段的数据处理说明如下:
根据实际的决策时间tp,对最近一段时间内(tm,tp)鲜活数据,作为重要数据进行保留不进行处理。
对时间段的历史数据,通过公式(4)计算各个维度值的平均值,更新时间tm的各维度数据,建立“养数据”的机制。
Figure BDA0002350683790000081
其中
Figure BDA0002350683790000082
表示时间指标维度值为tm时,第i指标维度的数据值。
Figure BDA0002350683790000083
表示在选择的(tn,tm)时间段内,(n,m)范围内所有指标对应的第i指标维度数据值求和。
对时间tm以前的历史数据,将其各个维度数值置为非常小的值(可以设置为零或者无穷小),形成“弃数据”的机制。
本实施例通过利用社会认知决策机理,构建“养数据”和“弃数据”的机制,并提出对应的具体实现方法,使得数据分析更符合人类社会认知决策分析特征。
在本发明一个实施例中,上述步骤140中,按照鲜活数据比历史数据更有价值的认知决策原理,按照公式(5)建立的数据价值分析模型为:
Figure BDA0002350683790000084
其中,tp为决策时间,tx为数据生产时间,tx<tp,W(i,tx)表示数据生产时间tx第i个特征向量相对于决策时间tp的价值大小,价值大表示其对决策影响就大,否则就小。
可以理解的是,上述公式(5)建立的数据价值分析模型是以决策时间tp与数据生产时间tx的差值为依据。实际中,仅对决策时间tp之前的最近一段时间内(tm,tp)鲜活数据采用公式(5)计算数据价值时间权重。
在本发明一个实施例中,上述步骤140中的“依据决策时间与数据生产时间的差值,计算所述特征向量空间对应的数据价值时间权重矩阵”,包括:
对数据生产时间位于决策时间tp与第一时间点tm之间的第一时间段内的各个特征向量,将其的数据生产时间代入所述数据价值分析模型,计算各个特征向量的数据价值时间权重,其中(m<p),(tm<tp);
对数据生产时间位于所述第一时间点tm与第二时间点tn之间的第二时间段内的各个特征向量,按照上述方式计算各个特征向量的数据价值时间权重,对计算得到的数据价值时间权重求和后取平均值,作为数据生产时间为tm的特征向量的数据价值时间权重,其中(tn<tm),(n<m);
对数据生产时间位于所述第一时间点tm以前的各个特征向量,将其数据价值时间权重赋值为λ,其中λ=0.001或者非常小的值;
由所述第一时间段内的各个特征向量的数据价值时间权重、数据生产时间为tm的特征向量的数据价值时间权重、所述第一时间点tm以前的各个特征向量的数据价值时间权重共同组成所述特征向量空间对应的数据价值时间权重矩阵。
对上述各时间段的数据价值时间权重的获取说明如下:
根据实际的决策时间tp,对最近一段时间内(tm,tp)鲜活数据,按照上述公式(5)进行计算数据价值的时间权重。
对时间段(tn,tm)的历史数据,通过公式(6)计算权重求和后取平均值,作为tm数据的数据价值时间权重。
Figure BDA0002350683790000091
其中,
Figure BDA0002350683790000092
表示时间为tm时,第i个特征向量相对于tp决策时间的价值大小。
Figure BDA0002350683790000093
表示在选择的(tn,tm)时间段内,所有特征向量的数据价值时间权重求和。
对时间tm以前的历史数据,按照公式(7)将各特征向量的数据价值时间权重赋值为λ,其中λ=0.001或者非常小的值。
Figure BDA0002350683790000094
其中,
Figure BDA0002350683790000101
表示时间为tx时,第i个特征向量相对于tp决策时间的价值大小。
容易理解的是,该步骤140与上述步骤130,在数据处理的时间段划分上是一致的。上述各时间段的计算结果共同组成了特征向量空间对应的数据价值时间权重矩阵。
该数据价值时间矩阵随着决策时间tp变化,每次都不相同,当决策时间tp改变时,需要对数据价值时间权重矩阵进行重新计算。
本实施例通过分析数据价值随着时间的推移进行衰减的关系,提出了数据价值时间权重的计算方法,突出了鲜活数据的价值,使得数据分析结果更加合理,由此计算得到的数据价值时间权重矩阵,使得决策模型结论更加具有说服力。
下面给出一个具体问题的分析处理过程,以阐明本发明上述实施例的各步骤。
步骤1:根据具体问题的核心决策需求,建立决策模型。
本实例中,明确要让一个污水处理池水质达标的具体问题,通过分析确定需要解决主要原因就是根据PH值偏大,要精准加入酸性药剂,控制好PH值。对生化池中PH值偏大的最小痛点,分析原因,得到需要解决的核心决策需求,并根据该具体问题的核心决策需求,建立决策模型。
在分析过程中,需要根据历史的PH值对应的加酸量等数据,训练该决策模型,根据模型计算出此时PH值对应的加酸多少的决策需求,将核心决策需求转换为决策模型。
在本实例中采用历史数据拟合出1阶函数作为决策模型,根据该决策模型算出此时PH值对应的要加入的酸性药剂量。
步骤2:围绕核心决策需求采集相关数据,确定决策模型的特征向量空间。
本步骤2中,分析核心决策需求,根据实际能得到数据情况,确定决策模型所需要输入的特征向量空间。
对上述公式(2)表示的特征向量空间:Ω=(DV0,DV1,…,DVm),其中DVm表示第m特征向量,m∈N。在本实例中,选择N=12,即该实例共获取到12个数据,对应的DVm=(Xm,Ym)其中(Xm,Ym)表示PH值为Xm值时,加入酸性药剂量为Ym。具体数据如下:
Ω=((9.8,2.5),(9.9,2.7),(10,2.8),(10.4,3),(10.8,3.3),(11,3.5),(11.2,3.7),(11.5,4),(11.8,4.6),(12,5),(12.5,5.5),(13,6))
同时,根据特征向量的数据生产时间,确定与特征向量空间对应的特征向量时间空间,用字母T来表示。本实例中,T=(2,4,6,7,9,10,12,13,14,15,16,18)。
步骤3:依据决策时间与数据生产时间的差值,对采集的数据进行处理。
根据实际的决策时间tp,在此实例中t12=20,对最近一段时间内(tm,tp)的鲜活数据,作为重要数据予以保留不做处理,其中(m<p),(tm<tp)。在此实例中为(t7,t11)。
对时间段(tn,tm)其中(tn<tm),(n<m)历史数据,通过上述公式(4)计算各个维度值的平均值,更新时间tm的各维度数据,建立“养数据”的机制;在此实例中选(t4,t7),经计算DV7=(11.125,3.625)。
对时间tm以前的历史数据,将其各个维度数值置为非常小的值(可以设置为零或者无穷小),形成“弃数据”的机制。在此实例中,取值为零。
为此,本实例经修改完善后的特征向量空间如下:
Ω=((0,0),(0,0),(0,0),(0,0),(0,0),(0,0),(0,0),(11.125,3.625),(11.8,4.6),(12,5),(12.5,5.5),(13,6))
步骤4:建立数据价值分析模型,计算特征向量空间对应的数据价值时间权重矩阵。权重的大小表示数据对决策影响的大小。具体过程如下:
根据决策时间tp,以决策时间tp与数据生产时间tx的差值为依据,对x∈(m,p)范围之内的鲜活数据,按照鲜活数据比历史数据更有价值的认知决策原理,按照上述公式(5)计算数据价值时间权重。在此例中,t12=20,x∈(7,12)。
数据生产时间距离决策时间tp越远,其数据价值时间权重越小。在此实例中,若对获取到的12个数据若均采用上述公式(5)进行计算,则得到的数据价值时间权重矩阵如下可见:
W=(1.0571,1.0645,1.074,1.08,1.0952,1.1052,1.1331,1.1536,1.1814,1.2214,1.284,1.6487)
对(tn,tm)的时间段内的数据,按照公式(5)计算权重,然后采用公式(6)求和取平均值,作为tm的数据价值时间权重。在此例中,在此例中选(t4,t7),经计算对应特征值的W7=1.2174。
对时间tm以前的历史数据,按照公式(7)将数据价值时间权重赋值为λ,其中λ=0.001或者非常小的值。
在此实例中,权重经上述处理后,得到特征向量空间对应的数据价值时间权重矩阵:
W=(0.001,0.001,0.001,0.001,0.001,0.001,0.001,1.2174,1.1814,1.2214,1.284,1.6487)
步骤5:确定对应决策时间的决策模型,进而解决具体问题。
将上述步骤3修改完善后的特征向量空间和上述步骤4所计算得到的数据价值时间权重矩阵带入公式(1)中进行计算,根据结果进行决策,最终解决问题。
在此实例中,通过计算在t12时刻,决策模型1阶函数为y=0.6335x-3.5072,PH值为11.2时,所对应的加入酸性药剂量Y12=3.588,对应的DV12=(11.2,3.588)。
至此,采用本发明提供的数据分析方法解决了让一个污水处理池水质达标的具体问题。
图2示出了根据本发明一个实施例的一种基于社会认知决策的数据分析装置的结构示意图,如图2所示,本实施例的数据分析装置200包括:
决策模型建立模块210,用于根据具体问题的核心决策需求,建立决策模型,所述决策模型包括两个参数:特征向量参数和数据价值时间权重参数,其中所述数据价值时间权重的大小表示数据对决策影响的大小;
数据采集和整理模块220,用于围绕所述核心决策需求采集相关数据,并对采集的数据进行清洗和整理,获取到多个特征向量;
特征向量空间获取模块230,用于依据决策时间与数据生产时间的差值,对所述多个特征向量进行相应处理,得到由处理后的多个特征向量构成的特征向量空间;
时间权重矩阵计算模块240,用于按照鲜活数据比历史数据更有价值的认知决策原理,建立数据价值分析模型,并利用所述数据价值分析模型计算所述特征向量空间对应的数据价值时间权重矩阵;
问题解决模块250,用于将所述特征向量空间和所述特征向量空间对应的数据价值时间权重矩阵,代入所述决策模型,求解得到对应所述决策时间的决策模型,进而根据得到的决策模型解决所述具体问题。
本发明的一个实施例,特征向量空间获取模块230具体用于,
对数据生产时间位于决策时间tp与第一时间点tm之间的第一时间段内的各个特征向量,作为重要数据不进行处理,其中(m<p),(tm<tp);
对数据生产时间位于所述第一时间点tm与第二时间点tn之间的第二时间段内的各个特征向量,计算各个维度值的平均值,使用所述平均值更新数据生产时间为tm的特征向量的各维度数据,其中(tn<tm),(n<m);
对数据生产时间位于所述第一时间点tm以前的各个特征向量,将其各个维度数值置为零或者无穷小;
由处理后的所述第一时间段内的各个特征向量、处理后的数据生产时间为tm的特征向量、处理后的所述第一时间点tm以前的各个特征向量共同构成特征向量空间。
本发明的一个实施例,时间权重矩阵计算模块240具体用于,
按照鲜活数据比历史数据更有价值的认知决策原理,建立数据价值分析模型:
Figure BDA0002350683790000141
其中,tp为决策时间,tx为数据生产时间,tx<tp
Figure BDA0002350683790000142
表示数据生产时间tx第i个特征向量相对于决策时间tp的价值大小,价值大表示其对决策影响就大,否则就小;
对数据生产时间位于决策时间tp与第一时间点tm之间的第一时间段内的各个特征向量,将其的数据生产时间代入所述数据价值分析模型,计算各个特征向量的数据价值时间权重,其中(m<p),(tm<tp);
对数据生产时间位于所述第一时间点tm与第二时间点tn之间的第二时间段内的各个特征向量,按照上述方式计算各个特征向量的数据价值时间权重,对计算得到的数据价值时间权重求和后取平均值,作为数据生产时间为tm的特征向量的数据价值时间权重,其中(tn<tm),(n<m);
对数据生产时间位于所述第一时间点tm以前的各个特征向量,将其数据价值时间权重赋值为λ,其中λ为一个非常小的值;
由所述第一时间段内的各个特征向量的数据价值时间权重、数据生产时间为tm的特征向量的数据价值时间权重、所述第一时间点tm以前的各个特征向量的数据价值时间权重共同组成所述特征向量空间对应的数据价值时间权重矩阵。
以上所描述的装置实施例仅仅是示意性的,具体实施方式可以参照前述方法实施例的具体实施方式进行,在此不再赘述。
需要说明的是,装置实施例中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
综上所述,本发明给出的基于社会认知决策的数据分析方法和装置,通过突出鲜活数据的价值,解决了数据分析方法中数据价值随时间变化的问题,降低了数据分析的时间和空间复杂度,使得数据分析过程更符合人类社会认知决策分析特征,得到的决策模型更加具有说服力,提高了数据分析结果的合理性。
以上所述,仅为本发明的具体实施方式,在本发明的上述教导下,本领域技术人员可以在上述实施例的基础上进行其他的改进或变形。本领域技术人员应该明白,上述的具体描述只是更好的解释本发明的目的,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于社会认知决策的数据分析方法,其特征在于,所述方法包括:
根据具体问题的核心决策需求,建立决策模型,所述决策模型包括两个参数:特征向量参数和数据价值时间权重参数,其中所述数据价值时间权重用于表示数据对决策影响的大小;
围绕所述核心决策需求采集相关数据,并对采集的数据进行清洗和整理,获取到多个特征向量;
依据决策时间与数据生产时间的差值,对所述多个特征向量进行相应处理,得到由处理后的多个特征向量构成的特征向量空间;
按照鲜活数据比历史数据更有价值的认知决策原理,建立数据价值分析模型,并利用所述数据价值分析模型计算所述特征向量空间对应的数据价值时间权重矩阵;
将所述特征向量空间和所述特征向量空间对应的数据价值时间权重矩阵,代入所述决策模型,得到对应所述决策时间的决策模型,进而根据得到的决策模型解决所述具体问题。
2.如权利要求1所述的方法,其特征在于,所述围绕所述核心决策需求采集相关数据包括:
围绕所述核心决策需求,采集与特征向量空间的参数相关的结构化数据、半结构化数据、非结构化数据、静态数据、动态数据、历史数据和实时数据;其中:
结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据,其一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的;
非结构化数据是指没有固定结构、需要通过识别分析后才能使用的数据;
半结构化数据是指介于结构化的数据和非结构化数据两者之间的数据,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层;
静态数据是指与此问题相关的注册信息、属性数据等相对不变的数据;
动态数据是指与此问题相关的根据时间在改变数据;
历史数据是指在历史时间内形成积累的与此问题相关的数据;
实时数据是指此刻此时与此问题相关的活数据。
3.如权利要求2所述的方法,其特征在于,所述对采集的数据进行清洗和整理包括:
读取数据:将规范的结构化数据写入相应的特征向量空间的参数中,同时将非结构化数据通过人工或自动化技术进行结构化处理,并同样写入相应的特征向量的参数中;
清除重复数据:读取上述生成的数据,通过设计函数或使用内置的函数清除重复数据;
清除空缺数据:根据事前设定的规则,对空缺的数据进行填充;
清除噪声数据:通过判断条件或滤波的方法,减少或清除噪声数据,并避免有效信息丢失。
4.如权利要求1所述的方法,其特征在于,所述依据决策时间与数据生产时间的差值,对所述多个特征向量进行相应处理,得到由处理后的多个特征向量构成的特征向量空间包括:
对数据生产时间位于决策时间tp与第一时间点tm之间的第一时间段内的各个特征向量,作为重要数据不进行处理,其中(m<p),(tm<tp);
对数据生产时间位于所述第一时间点tm与第二时间点tn之间的第二时间段内的各个特征向量,计算各个维度值的平均值,使用所述平均值更新数据生产时间为tm的特征向量的各维度数据,其中(tn<tm),(n<m);
对数据生产时间位于所述第一时间点tm以前的各个特征向量,将其各个维度数值置为零或者无穷小;
由处理后的所述第一时间段内的各个特征向量、处理后的数据生产时间为tm的特征向量、处理后的所述第一时间点tm以前的各个特征向量共同构成特征向量空间。
5.如权利要求1所述的方法,其特征在于,按照鲜活数据比历史数据更有价值的认知决策原理,建立的数据价值分析模型为:
Figure FDA0002350683780000031
其中,tp为决策时间,tx为数据生产时间,tx<tp
Figure FDA0002350683780000032
表示数据生产时间tx第i个特征向量相对于决策时间tp的价值大小,价值大表示其对决策影响就大,否则就小。
6.如权利要求5所述的方法,其特征在于,所述依据决策时间与数据生产时间的差值,计算所述特征向量空间对应的数据价值时间权重矩阵,包括:
对数据生产时间位于决策时间tp与第一时间点tm之间的第一时间段内的各个特征向量,将其的数据生产时间代入所述数据价值分析模型,计算各个特征向量的数据价值时间权重,其中(m<p),(tm<tp);
对数据生产时间位于所述第一时间点tm与第二时间点tn之间的第二时间段内的各个特征向量,按照上述方式计算各个特征向量的数据价值时间权重,对计算得到的数据价值时间权重求和后取平均值,作为数据生产时间为tm的特征向量的数据价值时间权重,其中(tn<tm),(n<m);
对数据生产时间位于所述第一时间点tm以前的各个特征向量,将其数据价值时间权重赋值为λ,λ为一个非常小的值;
由所述第一时间段内的各个特征向量的数据价值时间权重、数据生产时间为tm的特征向量的数据价值时间权重、所述第一时间点tm以前的各个特征向量的数据价值时间权重共同组成所述特征向量空间对应的数据价值时间权重矩阵。
7.如权利要求1所述的方法,其特征在于,当所述决策时间tp改变时,重新计算所述数据价值时间权重矩阵。
8.一种基于社会认知决策的数据分析装置,其特征在于,所述装置包括:
决策模型建立模块,用于根据具体问题的核心决策需求,建立决策模型,所述决策模型包括两个参数:特征向量参数和数据价值时间权重参数,其中所述数据价值时间权重的大小表示数据对决策影响的大小;
数据采集和整理模块,用于围绕所述核心决策需求采集相关数据,并对采集的数据进行清洗和整理,获取到多个特征向量;
特征向量空间获取模块,用于依据决策时间与数据生产时间的差值,对所述多个特征向量进行相应处理,得到由处理后的多个特征向量构成的特征向量空间;
时间权重矩阵计算模块,用于按照鲜活数据比历史数据更有价值的认知决策原理,建立数据价值分析模型,并利用所述数据价值分析模型计算所述特征向量空间对应的数据价值时间权重矩阵;
问题解决模块,用于将所述特征向量空间和所述特征向量空间对应的数据价值时间权重矩阵,代入所述决策模型,求解得到对应所述决策时间的决策模型,进而根据得到的决策模型解决所述具体问题。
9.如权利要求8所述的装置,其特征在于,所述特征向量空间获取模块具体用于,
对数据生产时间位于决策时间tp与第一时间点tm之间的第一时间段内的各个特征向量,作为重要数据不进行处理,其中(m<p),(tm<tp);
对数据生产时间位于所述第一时间点tm与第二时间点tn之间的第二时间段内的各个特征向量,计算各个维度值的平均值,使用所述平均值更新数据生产时间为tm的特征向量的各维度数据,其中(tn<tm),(n<m);
对数据生产时间位于所述第一时间点tm以前的各个特征向量,将其各个维度数值置为零或者无穷小;
由处理后的所述第一时间段内的各个特征向量、处理后的数据生产时间为tm的特征向量、处理后的所述第一时间点tm以前的各个特征向量共同构成特征向量空间。
10.如权利要求8所述的装置,其特征在于,所述时间权重矩阵计算模块具体用于,
按照鲜活数据比历史数据更有价值的认知决策原理,建立数据价值分析模型:
Figure FDA0002350683780000051
其中,tp为决策时间,tx为数据生产时间,tx<tp
Figure FDA0002350683780000052
表示数据生产时间tx第i个特征向量相对于决策时间tp的价值大小,价值大表示其对决策影响就大,否则就小;
对数据生产时间位于决策时间tp与第一时间点tm之间的第一时间段内的各个特征向量,将其的数据生产时间代入所述数据价值分析模型,计算各个特征向量的数据价值时间权重,其中(m<p),(tm<tp);
对数据生产时间位于所述第一时间点tm与第二时间点tn之间的第二时间段内的各个特征向量,按照上述方式计算各个特征向量的数据价值时间权重,对计算得到的数据价值时间权重求和后取平均值,作为数据生产时间为tm的特征向量的数据价值时间权重,其中(tn<tm),(n<m);
对数据生产时间位于所述第一时间点tm以前的各个特征向量,将其数据价值时间权重赋值为λ,其中λ为一个非常小的值;
由所述第一时间段内的各个特征向量的数据价值时间权重、数据生产时间为tm的特征向量的数据价值时间权重、所述第一时间点tm以前的各个特征向量的数据价值时间权重共同组成所述特征向量空间对应的数据价值时间权重矩阵。
CN201911413900.8A 2019-12-31 2019-12-31 一种基于社会认知决策的污水ph值数据分析方法和装置 Active CN111190887B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911413900.8A CN111190887B (zh) 2019-12-31 2019-12-31 一种基于社会认知决策的污水ph值数据分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911413900.8A CN111190887B (zh) 2019-12-31 2019-12-31 一种基于社会认知决策的污水ph值数据分析方法和装置

Publications (2)

Publication Number Publication Date
CN111190887A true CN111190887A (zh) 2020-05-22
CN111190887B CN111190887B (zh) 2023-11-03

Family

ID=70710566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911413900.8A Active CN111190887B (zh) 2019-12-31 2019-12-31 一种基于社会认知决策的污水ph值数据分析方法和装置

Country Status (1)

Country Link
CN (1) CN111190887B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766215A (zh) * 2015-04-13 2015-07-08 南京大学 一种综合性、多维度的货主选择量化方法
US20180114121A1 (en) * 2016-10-20 2018-04-26 Loven Systems, LLC Opportunity driven system and method based on cognitive decision-making process
WO2018109752A1 (en) * 2016-12-16 2018-06-21 Factor Financial Analytics Pty Ltd A method and system for generating a decision-making algorithm for an entity to achieve an objective
CN110288210A (zh) * 2019-06-11 2019-09-27 中国公路工程咨询集团有限公司 项目级道路基础设施综合养护决策方法及系统
CN110334926A (zh) * 2019-06-24 2019-10-15 广州艾帝西信息科技有限公司 一种智能场景大数据分析系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766215A (zh) * 2015-04-13 2015-07-08 南京大学 一种综合性、多维度的货主选择量化方法
US20180114121A1 (en) * 2016-10-20 2018-04-26 Loven Systems, LLC Opportunity driven system and method based on cognitive decision-making process
WO2018109752A1 (en) * 2016-12-16 2018-06-21 Factor Financial Analytics Pty Ltd A method and system for generating a decision-making algorithm for an entity to achieve an objective
CN110288210A (zh) * 2019-06-11 2019-09-27 中国公路工程咨询集团有限公司 项目级道路基础设施综合养护决策方法及系统
CN110334926A (zh) * 2019-06-24 2019-10-15 广州艾帝西信息科技有限公司 一种智能场景大数据分析系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谭旭;毛太田;张少丁;邹凯;: "基于粒计算的多属性群决策分析", 四川大学学报(工程科学版), no. 04 *

Also Published As

Publication number Publication date
CN111190887B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
DE102012218966B4 (de) Verfahren und System zum Kennzeichnen von durch Dinge im Internet der Dinge erzeugten Originaldaten
DE112017005651T5 (de) Vorrichtung zur Klassifizierung von Daten
DE102019004300A1 (de) Verwendung eines dynamischen speichernetzwerks zum verfolgen digitaler dialogzustände und erzeugen von antworten
CN111177559B (zh) 文旅服务推荐方法、装置、电子设备及存储介质
CN110443805A (zh) 一种基于像素密切度的语义分割方法
CN103262118A (zh) 属性值估计装置、属性值估计方法、程序和记录介质
CN102542024B (zh) 一种视频资源语义标签的标定方法
CN109903127A (zh) 一种群组推荐方法、装置、存储介质及服务器
CN114943917B (zh) 一种视觉识别污水厂好氧池曝气量的算法
CN109299740A (zh) 一种逻辑回归模型的构建方法及系统
DE102014113817A1 (de) Vorrichtung und Verfahren zur Erkennung eines Objekts in Einem Bild
CN111260658B (zh) 一种用于图像分割的深度强化学习方法
CN111538821A (zh) 智能客服中解决知识库冷启动的方法和装置
CN112308129A (zh) 一种基于深度学习的植物线虫数据自动标注和分类识别方法
CN112182257A (zh) 一种基于神经网络的人工智能数据清洗方法
CN110222772B (zh) 一种基于块级别主动学习的医疗图像标注推荐方法
CN115713755A (zh) 一种高效精准的草地贪夜蛾的图像识别方法
CN113553975A (zh) 基于样本对关系蒸馏的行人重识别方法、系统、设备及介质
CN111190887A (zh) 一种基于社会认知决策的数据分析方法和装置
Zhang et al. Deep activation pooling for blind image quality assessment
CN115563259A (zh) 一种多模态问答数据采集方法及装置
CN116089708A (zh) 农业知识推荐方法及装置
CN115114467B (zh) 图片神经网络模型的训练方法以及装置
CN116127194A (zh) 一种企业推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant