CN114818843A - 数据分析的方法、装置和计算设备 - Google Patents
数据分析的方法、装置和计算设备 Download PDFInfo
- Publication number
- CN114818843A CN114818843A CN202110113613.6A CN202110113613A CN114818843A CN 114818843 A CN114818843 A CN 114818843A CN 202110113613 A CN202110113613 A CN 202110113613A CN 114818843 A CN114818843 A CN 114818843A
- Authority
- CN
- China
- Prior art keywords
- network
- analyzed
- objects
- data
- retrieved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 134
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000004422 calculation algorithm Methods 0.000 claims description 87
- 238000004891 communication Methods 0.000 claims description 17
- 230000006399 behavior Effects 0.000 claims description 15
- 238000010276 construction Methods 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims 2
- 230000008569 process Effects 0.000 abstract description 18
- 238000010801 machine learning Methods 0.000 abstract description 9
- 230000006870 function Effects 0.000 description 25
- 238000012545 processing Methods 0.000 description 24
- 230000002776 aggregation Effects 0.000 description 17
- 238000004220 aggregation Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 15
- 230000003993 interaction Effects 0.000 description 15
- 238000004590 computer program Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 238000012216 screening Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据分析的方法、装置和计算设备,涉及机器学习领域。该方法包括:在计算设备获取到待检索数据后,根据待分析数据集中待分析对象之间的关系构建第一网络。其中,待分析数据集包括待检索数据。进而,计算设备在第一网络中确定与待检索数据匹配的第一数据集。上述第一网络用于表征待分析对象之间的特征关系,因此第一数据集包括多个第一数据,多个第一数据中每个第一数据与待检索数据具有特征关系。由于计算设备以网络形式呈现了待分析数据集中待分析对象之间的关联关系,基于网络的结构更容易分析出待分析对象间潜在的特征,避免了数据分析的过程依赖于专家经验,无需人工干预,提高了数据分析的准确性。
Description
技术领域
本申请涉及机器学习领域,尤其涉及一种数据分析的方法、装置和计算设备。
背景技术
机器学习(machine learning,ML)是一种利用算法分析大量数据,挖掘大量数据间的规律,并利用上述规律进行预测(比如:分类、聚类、回归、决策等)的方法。机器学习的处理过程一般由数据工程、特征工程和模型工程三部分组成。其中,数据工程可以对输入数据进行数据收集和数据筛选等操作,得到预处理后数据。特征工程对预处理后数据进行数据分析和特征组合等操作,得到特征。模型工程利用特征训练模型或输出预测结果。数据工程和特征工程的处理过程需要人工干预,需要结合专家经验选择多种候选图算法,再基于多个候选图算法进行图特征计算,上述过程依赖于专家经验,容易引入人为错误导致数据分析准确性无法保证。因此,如何提供一种自动化的数据分析方法成为亟待解决的问题。
发明内容
本申请提供了数据分析的方法、装置和计算设备,由此提供一种自动化的数据分析方法。
第一方面,本申请提供了一种数据分析的方法,该方法可以由计算设备执行,具体包括如下步骤:在计算设备获取到待检索数据后,根据待分析数据集中待分析对象之间的关系构建第一网络。由于待分析数据集包括了待检索数据,进而计算设备在第一网络中确定与待检索数据匹配的第一数据集。上述第一网络用于表征待分析对象之间的特征关系,因此计算设备根据待检索数据获取到的第一数据集包括多个第一数据,该多个第一数据包括的每个第一数据与待检索数据具有特征关系。
如此,由于计算设备以网络形式呈现了待分析数据集中待分析对象之间的关联关系,基于网络的拓扑结构更容易分析出待分析对象间潜在的特征,避免了数据分析的过程依赖于专家经验,无需人工干预,提高了数据分析的准确性。进而,以便于计算设备处理模型工程的过程中利用对象间潜在的特征进行预测时能够有效地提高预测精度。
在一种可能的实现方式中,上述待检索数据例如可以是语音或文字形式的数据。
在另一种可能的实现方式中,第一网络可以为图特征网络。图特征网络用于标识采用图形式标识待分析对象之间的关系的网络结构。
在另一种可能的实现方式中,根据待分析数据集中待分析对象之间的关系构建第一网络,包括:计算设备根据待分析对象之间的关联关系和待分析对象的基础特征先构建第二网络,再根据第二网络表征的待分析对象之间的关联关系更新第二网络,获得第一网络。从而,使得计算设备可以基于第一网络获取与待检索数据匹配的第一数据集。
上述待分析对象之间的关联关系用于表征待分析对象所执行行为的关系。例如,待分析对象之间的关联关系可以是通话关系、商品交易关系或金融交易关系。待分析对象的基础特征用于表征待分析对象的属性。例如,待分析对象的基础特征包括性别、职业、交易记录和历史记录等。可理解的,第二网络可以是一种表达待分析数据集中数据的基础网络。第二网络用于表征待分析对象之间的关联关系。
此外,第二网络可以为图特征网络。第二网络包含的节点指示了待分析对象。节点携带了待分析对象的基础特征。连接节点的边表征了待分析对象之间的关联关系。
在一个示例中,根据第二网络表征待分析对象之间的关联关系更新第二网络,获得第一网络,包括:计算设备利用至少一个图算法,依据第二网络包含的边表征的待分析对象之间的关联关系确定第二网络中每个节点的增强特征,更新第二网络,获得第一网络。
在另一个示例中,根据第二网络表征待分析对象之间的关联关系更新第二网络,获得第一网络,包括:计算设备根据第二网络包含的边表征的待分析对象之间的关联关系和节点携带的待分析对象的基础特征确定每个节点的增强特征,更新第二网络,获得第一网络。
在另一种可能的实现方式中,根据待分析数据集中待分析对象之间的关系构建第一网络,包括:计算设备根据待分析对象之间的关联关系和待分析对象的基础特征构建第一网络。如此,计算设备根据待分析对象之间的关联关系和待分析对象的基础特征确定待分析对象的增强特征,构建第一网络,使得计算设备可以基于第一网络获取与待检索数据匹配的第一数据集,避免了数据分析的过程依赖于专家经验,提高了数据分析的准确性。进而,以便于计算设备处理模型工程的过程中利用对象间潜在的特征进行预测时能够有效地提高预测精度。
在另一种可能的实现方式中,在第一网络中确定与待检索数据匹配的第一数据集,包括:计算设备根据待检索数据指示的待分析对象确定第一网络中第一节点,并将第一节点携带的增强特征确定为第一数据集。从而,以便于计算设备处理模型工程过程中利用第一数据集包含的对象间潜在的特征进行预测时有效地提高预测精度。
在另一种可能的实现方式中,方法还包括:计算设备还可以显示第一网络、第二网络、图算法和第一数据集。从而,使用户可以直观地看到自动化的数据分析的效果。
第二方面,提供了一种数据分析装置,所述装置包括用于执行第一方面或第一方面任一种可能设计中的数据分析的方法的各个模块。
第三方面,提供一种计算设备,该计算设备包括至少一个处理器和存储器,存储器用于存储一组计算机指令;当处理器执行所述一组计算机指令时,执行第一方面或第一方面任一种可能实现方式中的数据分析的方法的操作步骤。
第四方面,提供一种计算机可读存储介质,包括:计算机软件指令;当计算机软件指令在计算设备中运行时,使得计算设备执行如第一方面或第一方面任意一种可能的实现方式中所述方法的操作步骤。
第五方面,提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算设备执行如第一方面或第一方面任意一种可能的实现方式中所述方法的操作步骤。
本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。
附图说明
图1为本申请提供的一种系统的结构示意图;
图2为本申请提供的一种数据分析的操作界面示意图;
图3为本申请提供的一种图的结构示意图;
图4为本申请提供的一种数据分析的方法的流程图;
图5为本申请提供的一种第二网络的结构示意图;
图6为本申请提供的另一种数据分析的方法的流程图;
图7为本申请提供的显示图算法的界面示意图;
图8为本申请提供的另一种数据分析的方法的流程图;
图9为本申请提供的一种第一网络的结构示意图;
图10为本申请提供的一种数据分析装置的结构示意图;
图11为本申请提供的一种构建模块的组成示意图;
图12为本申请提供的一种计算设备的组成示意图。
具体实施方式
下面将结合附图对本申请实施例的实施方式进行详细描述。
本申请提供一种数据分析方法,该方法由数据分析装置执行。数据分析装置在获取到待检索数据后,获取包含待检索数据的待分析数据集,根据待分析数据集中待分析对象之间的关系构建第一网络,第一网络用于表征待分析对象之间的特征关系。进而,在第一网络中确定与待检索数据匹配的第一数据集。第一数据集包括多个第一数据,多个第一数据中每个第一数据与待检索数据具有相似特征。由于计算设备以网络形式呈现了待分析数据集中待分析对象之间的关联关系,基于网络的拓扑结构更容易分析出待分析对象间潜在的特征,避免了数据分析的过程依赖于专家经验,无需人工干预,提高了数据分析的准确性。进而,以便于为机器学习中后续的模型预测提供了丰富的数据,计算设备利用对象间潜在的特征进行预测(如:分类、聚类或回归等)时有效地提高了预测精度。
本申请提供的数据分析方法可以广泛地应用于待分析对象间存在关联关系的场景。待分析数据集包括待分析对象之间的关联关系和待分析对象的基础特征。待分析对象之间的关联关系用于表征待分析对象所执行行为的关系。待分析对象的基础特征用于表征待分析对象的属性。
例如,在样本场景中,待分析对象是人员。待分析对象的基础特征可以是指人员的基础特征。人员的基础特征包括姓名、身份证号、性别、职业、年龄和行为记录等。人员之间的关联关系包括通话行为关系和转账行为关系等。在基于待分析数据集构建的第一网络中,确定与待检索数据匹配的包含与特征人相关的特征的第一数据集,以便于基于第一数据集预测特征人。
又如,在电商场景中,待分析对象是消费者。消费者的基础特征包括用户名、性别、职业和年龄等。消费者之间的关联关系可以是指消费行为关系。在基于待分析数据集构建的第一网络中,确定与待检索数据匹配的包括对某种产品具有购买倾向的人员的第一数据集,以便于推荐产品与投放广告。
又如,在金融场景中,待分析对象是金融交易者。金融交易者的基础特征包括用户名、性别、职业、年龄和资本等。金融交易者之间的关联关系可以是指金融交易行为关系和通话行为关系等。在基于待分析数据集构建的第一网络中,确定与待检索数据匹配的包括与金融交易人相关的特征的第一数据集,以便于基于第一数据集预测金融交易异常人。
数据分析装置的功能可以由软件系统实现,还可以由软件系统和硬件设备结合实现。
在一种可能的实现方式中,云服务提供商将数据分析装置提供的功能抽象成为一项云服务,将该云服务部署在云数据中心。用户可以通过云服务平台咨询和购买这项云服务。用户购买这项云服务后,可以通过终端设备向云数据中心上传待分析数据集,云数据中心运行数据分析装置,根据待分析数据集生成第一网络,在第一网络中确定与待检索数据匹配的第一数据集。
在另一种可能的实现方式中,数据分析装置还可以为一个设备,该设备的计算能力和存储容量满足数据分析过程的要求。由该设备根据待分析数据集生成第一网络,在第一网络中确定与待检索数据匹配的第一数据集。例如,设备部署有交互装置(比如:浏览器或客户端等)。用户可以通过交互装置上传待分析数据集,设备运行具体数据分析功能的软件包,根据待分析数据集生成第一网络,在第一网络中确定与待检索数据匹配的第一数据集。设备还可以显示第一网络和第一数据集的结果。其中,该设备可以为一台独立的计算设备,例如,一个智能终端或边缘计算节点等形式的计算设备。
在另一种可能的实现方式中,数据分析装置可以由软件提供商封装为软件包。由用户购买该软件包,用户将软件包部署在自有服务器,或者,用户将软件包部署在云服务器中。例如,租户通过云服务平台购买云服务提供商提供的计算资源云服务,将数据分析装置部署在租户租用的云数据中心的计算资源中(例如虚拟机),在购买的计算资源中运行数据分析装置,使得数据分析装置执行根据待分析数据集生成第一网络,在第一网络中确定与待检索数据匹配的第一数据集的功能。可选的,数据分析装置还可以对用户上传的待分析数据集和网络的输出结果进行加密,在不妨碍实施效果的前提下避免直接接触用户的数据,保证信息安全。
值得说明的是,为了便于描述,以下实施例中以数据分析装置为一种云服务为例进行说明。
图1为本申请提供的一种系统100的结构示意图,如图1所示,系统100可以是利用基础资源向用户提供云服务的实体。系统100包括云数据中心110。所述云数据中心110包括设备资源池(包括计算资源111、存储资源112和网络资源113)和云服务平台120。云数据中心110包括的计算资源111可以是计算设备(例如服务器)。数据分析装置114可以部署在云数据中心110中的服务器或运行在服务器中的虚拟机,实现根据待分析数据集生成第一网络,在第一网络中确定与待检索数据匹配的第一数据集的功能。该数据分析装置 114可以采用分布式部署方式,分别部署在多个服务器中、或者分布式地部署在多个虚拟机上、或者分布式地部署在虚拟机和服务器上。
终端设备200上可以部署交互装置210。交互装置210可以是浏览器或者能够实现与云服务平台120进行消息交互的应用。用户可以通过交互装置210访问云服务平台120,向云数据中心110上传待分析数据集。本实施例对数据的来源不予限定。对于不同类型的数据,可以从不同的系统获取待分析数据集。例如,用户可以通过交互装置210访问样本系统310,从样本系统310获取与人员的基础特征和人员间行为关系的数据。又如,用户可以通过交互装置210访问电商系统320,从电商系统320获取消费者的基础特征和消费者的消费行为关系的数据。又如,用户可以通过交互装置210访问金融系统330,从金融系统330获取人员的基础特征和人员的资金交易行为关系的数据。云数据中心110接收到终端设备200上传的待分析数据集后,调用数据分析装置114,根据待分析数据集生成第一网络,在第一网络中确定与待检索数据匹配的第一数据集的功能。进而,终端设备200接收云数据中心110 反馈的第一数据集的结果。
图2为本申请实施例提供的一种数据分析的操作界面示意图。如图2中的(a)所示,用户通过终端设备200上的浏览器访问云服务平台120。云服务平台120的界面显示有数据工程、特征工程和模型工程等选项。用户点击“特征工程”选项220。如图2中的(b)所示,云服务平台120响应用户的点击操作,显示特征工程界面。云服务平台120的特征工程界面显示“上传数据”按钮230。用户点击“上传数据”按钮230向云数据中心110上传待分析数据集。本实施例对待分析数据集的存储位置不予限定,待分析数据集可以存储到本地存储设备或云数据中心110。如图2中的(c)所示,从文件中选择待分析数据集,终端设备200 向云数据中心110上传待分析数据集。数据上传结束后,如图2中的(d)所示,云服务平台 120的界面可以显示“开始”按钮240。用户点击“开始”按钮240。云服务平台120响应用户的点击操作,数据分析装置114根据待分析数据集中待分析对象之间的关系构建第一网络,在第一网络中确定与待检索数据匹配的第一数据集。云数据中心110向终端设备200 反馈第一网络和第一数据集。
本实施例所述的第一网络可以为图特征网络。所述图特征网络用于标识采用图形式标识待分析对象之间的关系的网络结构。图特征网络也可替换描述为图网络或图。
图是由节点集合和节点间的关系集合组成的一种数据结构。节点间的关系集合也可以称为边的集合。可理解的,一个图包括多个节点和连接节点的边。图可以定义为G=(V,E)。其中,G表示图。V表示节点集合。E表示节点间的关系集合。图一般分为无向图和有向图。所谓无向图为节点间由不具有方向性的边构成的图。所谓有向图为节点间由具有方向性的边构成的图。
无向图中可以用圆括号表示连接节点x和节点y的边,边(x,y)与边(y,x)表示相同的结果。如图3中的(a)所示,为本实施例提供的一种无向图的示意图。无向图G1=(V1,E1),其中, V1={a,b,c,d},E1={(a,b),(a,c),(a,d),(b,d),(c,d)}。
有向图可以用尖括号表示连接节点x和节点y的边,边<x,y>与边<y,x>表示不同的结果。 <x,y>表示从节点x指向节点y的边,节点x为起点,节点y为终点。<y,x>表示从节点y指向节点x的边,节点y为起点,节点x为终点。有向边也可以称为弧。<x,y>表示从节点x 指向节点y的弧,节点x为弧头,节点y为弧尾。<y,x>表示从节点x指向节点y的弧,节点y为弧头,节点x为弧尾。
如图3中的(b)所示,为本实施例提供的一种有向图的示意图。有向图G2=(V2,E2),其中,V2={1,2,3},E2={<1,2>,<1,3>,<2,3>,<3,1>}。
节点表示具有关联关系的对象。在不同应用场景中,节点可以标识人员、商品和账号等数据的基础特征。此外,在一种可能的情形下,图包含的所有节点表示一种对象。例如,图表示人员之间的通话行为的关系网,图包含的所有节点表示的对象为人员。在另一种可能的情形下,图中一部分节点表示一种对象,另一部分节点表示另一种对象。例如,图表示人员购买商品行为的关系网,图包含表示对象为人员的节点和表示对象为商品的节点。
若图中的边携带相关的数据,定义边具有权属性。
如图2中的(e)所示,终端设备200显示云数据中心110反馈的第一网络和第一数据集。用户点击第一网络中的节点可以显示节点携带的基础特征和进行数据分析后的增强特征。第一数据集包括待检索数据所指示的节点的增强特征。例如,第一数据集包括通话人员中有历史记录的人员数目、与有历史记录的人员通话频率、异性通话人员数占比、与跨地域通话占比70%以上的人员通话次数等。
接下来,结合图4至图9,对本实施例提供的数据分析方法进行详细说明。在这里,以图1中交互装置210和数据分析装置114为例对数据分析的过程进行说明。如图4所示,该方法包括以下步骤:
步骤401、交互装置210获取待检索数据。
待检索数据可以包括对象的基础特征。例如,待检索数据可以是身份证号、用户名、姓名、性别或职业等。待检索数据可以包括对象的基础特征中的一个或多个,不予限定。
在样本场景中,待检索数据例如可以是身份证号。待检索数据还可以包括通话记录和历史记录等。
在电商场景中,待检索数据可以包括用户名、商品名和交易记录。
在金融场景中,待检索数据可以包括用户名和资金交易记录。
在一种情形中,交互装置210可以接收用户的语音,待检索数据例如是语音形式的数据。在另一种情形中,交互装置210可以接收用户输入的信息,待检索数据例如是文本形式的数据。本实施例对待检索数据的形式不予限定。
步骤402、交互装置210向数据分析装置114上传待检索数据。
交互装置210可以通过有线或无线的方式向数据分析装置114上传待检索数据。
步骤403、数据分析装置114根据待分析数据集中待分析对象之间的关系构建第一网络。
数据分析装置114可以根据待检索数据获取待分析数据集,或者接收交互装置210上传的待分析数据集。待分析数据集包括待分析对象的基础特征和待分析对象之间的关联关系。待分析对象的基础特征可以包括性别、职业、交易记录和历史记录。待分析对象之间的关联关系可以包括通话行为关系、商品交易行为关系或金融交易行为关系。
具体地,数据分析装置114可以根据待分析数据集中待分析对象之间的关联关系和待分析对象的基础特征构建第二网络。第二网络用于表征待分析对象之间的关联关系。第二网络可以为图特征网络。
可理解的,图是由节点集合和节点间的关系集合组成的一种数据结构。待分析数据集包括的待分析对象可以生成第二网络的节点,即第二网络包含的节点指示待分析对象。第二网络包括两个以上的节点,第二网络包含的节点个数与节点集合包含的待分析对象的个数相同。待分析对象可以是一个实体,例如待分析对象为人员,第二网络的一个节点代表一个人员,第二网络的不同的节点代表不同的人员。待分析数据集包括的待分析对象的基础特征用于生成第二网络的节点的基础特征。节点携带了待分析对象的基础特征。
第二网络中节点之间通过边连接。待分析数据集包括的待分析对象的关联关系数据用于生成第二网络的节点之间的边,连接节点的边表征待分析对象之间的关联关系。第二网络可以是有向图也可以是无向图。
示例地,假设待分析数据集包括的待分析对象是样本系统中的人员。待分析数据集包括人员数据、人员的基础特征数据和人员通话记录数据。人员的基础特征包括姓名、身份证号、性别、住址、年龄、收入、职业、民族和历史记录等。人员通话记录包括主叫者、被叫者、通话时长和通话日期等。本文中所述的待分析数据集包含的数据可以是以表格形式呈现。如表1和表2所示。表1呈现了人员和人员的基础特征。表2呈现了人员的通话记录关系。
表1
表2
示例的,如图5所示,为本申请实施例提供的一种第二网络的结构示意图。该第二网络可以是数据分析装置114根据人员数据、人员的基础特征数据和人员通话记录数据生成的。如图5中的(a)所示,第一图网络包括7个节点。一个节点表示一个人员。例如,节点1表示人员1。节点2表示人员2。该第二网络包含的边具有方向性,即该第二网络是一个有向图。边连接的两个节点表示具有通话记录的两个人员。箭头所指的节点表示被叫者。箭头指出的节点表示主叫者。例如,人员2作为主叫者,人员2分别与人员1、人员3、人员 5、人员4和人员7进行过通话。人员5作为主叫者,人员5分别向人员1和人员3发起过呼叫。人员5作为被叫者,人员5分别收到过人员2、人员4和人员6的呼叫。
另外,第二网络中的节点还携带了人员的基础特征。如图5中的(b)所示,节点2携带的人员2的基础特征。
进而,数据分析装置114根据第二网络表征的待分析对象之间的关联关系更新第二网络,获得第一网络。第一网络用于表征待分析对象之间的特征关系。第一网络可以为图特征网络。
在一种可能的实施例中,数据分析装置114利用至少一个图算法,依据第二网络包含的边表征的待分析对象之间的关联关系确定第二网络中每个节点的增强特征,更新第二网络,获得第一网络。可理解的,待分析对象的增强特征就是更新第二网络得到的信息。第一网络包含的节点携带了待分析对象的增强特征。如图6所示,图6所述的方法流程是对图4中步骤403所包括的具体操作过程的阐述,如图所示。
步骤4031、数据分析装置114根据图算法的复杂度从图算法池中选择至少一个图算法。
图算法池包括至少两个图算法。例如,图算法池包括入度、出度、度、极大团、closeness、 betweenness、pageRank和node2vec等算法。
入度指有向图中节点作为图中边的终点的次数之和。例如,如图5中的(a)所示,节点5 和节点2均指向节点3,节点3的入度为2。
出度指有向图中节点作为图中边的起点的次数之和。例如,如图5中的(a)所示,节点2 分别指向节点1、节点3、节点4、节点5和节点7,节点2的出度为5。
度指有向图中节点作为图中边的终点的次数和节点作为图中边的起点的次数之和。例如,如图5中的(a)所示,节点5分别指向节点1和节点3。节点5的出度为2。节点2、节点4、节点6均指向节点5,节点5的入度为3。因此,节点5的度为5。
团是图中两两相连的节点的集合。如果一个团不被其他任一团所包含,即它不是其他任一团的真子集,则称该团为图的极大团(maximal clique)。
接近中心性(closeness centrality)表示图网络中某一节点与其他节点之间的接近程度。
中介中心性/中间中心性(between centrality)表示图网络中以经过某个节点的最短路径数目来刻画该节点重要性的指标。
pageRank表示根据图网络的拓扑结构得到的重要度得分。
node2vec表示将图网络的拓扑结构向量化表示算法。
数据分析装置114可以依据图算法的复杂度对图算法分组。假设N代表图中的节点数, M代图中的表边数。低复杂度组的图算法的复杂度低于或等于O(M)。高复杂度组的图算法的复杂度高于或等于O(M*N)。介于O(M)和O(M*N)之间的复杂度的图算法为中复杂度组的图算法。例如,高复杂度的图算法组包括接近中心性、中介中心性和node2vec。低复杂度的图算法组包括入度、出度、度和pageRank。中复杂度的图算法组包括极大团。
数据分析装置114选择的至少一个图算法可以是高复杂度组、中复杂度组和低复杂度组中任意组包含的图算法。
在一种可能的实现方式中,数据分析装置114可以根据预测支持度从图算法池中选择至少一个图算法。预测支持度表征了计算设备利用图算法对图进行特征增强处理的计算容忍程度。数据分析装置114可以根据预测支持度从图算法池中选择至少一个适于计算设备运行的图算法。预测支持度越大表示计算设备能够支持运行时间越长的图算法,预测支持度越小表示计算设备能够支持运行时间越小的图算法。例如,数据分析装置114可以根据预设时长、计算资源、第二网络的节点数和第二网络的边数确定预测支持度。预设时长可以是用户预先设置的利用图算法对图进行特征增强处理的时长。计算资源表示计算设备所配置的用于进行计算处理的资源。预测支持度满足如下公式(1)。
R预测支持度=ftime(预设时长)*fcpu(计算资源)/fgraph(节点数,边数)公式(1)
其中,ftime为获取可用时长的函数,fcpu为获取总计算资源的函数,fgraph为计算量估计函数。
一个具体示例:
其中,Time代表预设时长,ftime=Time*0.3代表计算设备利用图算法对图进行特征增强处理的可用时长。Ncores代表可用的处理器的核数,1013表示每核的计算能力, fcpu=Ncores*1013表示总计算资源。N为第二网络中的节点数,M为第二网络中的边数。 2表示可以取低复杂度组、中复杂度组和高复杂度组包含的图算法。1表示可以取低复杂度组和中复杂度组包含的图算法。0表示可以取低复杂度组包含的图算法。
数据分析装置114将预测支持度和图算法的组号进行比较,从图算法池中选取组号小于或等于预测支持度的图算法。
例如,R预测支持度满足第一条件,确定R预测支持度等于2,表示数据分析装置114选择的至少一个图算法可以是低复杂度组、中复杂度组和高复杂度组包含的图算法。
又如,R预测支持度不满足第一条件,且R预测支持度满足第二条件,确定R预测支持度等于1时,表示数据分析装置114选择的至少一个图算法可以是低复杂度组和中复杂度组包含的图算法。
又如,R预测支持度不满足第一条件,R预测支持度不满足第二条件,且R预测支持度满足第三条件,确定R预测支持度等于0时,表示数据分析装置114选择的至少一个图算法可以是低复杂度组包含的图算法。
步骤4032、数据分析装置114根据至少一个图算法依据第二网络包含的边表征的待分析对象之间的关联关系确定第二网络中每个节点的增强特征,更新第二网络,获得第一网络。
数据分析装置114对第二网络运行图算法,对第二网络中每个节点进行特征增强处理,更新第二网络,得到第一网络。如果数据分析装置114选择了两个图算法,数据分析装置 114先利用第一图算法对第二网络中每个节点进行特征增强处理,更新第二网络,得到第三网络。数据分析装置114再利用第二图算法对第三网络中每个节点进行特征增强处理,更新第三网络,得到第一网络。
示例的,对于上述图5所示的第二网络而言,对第二网络的节点进行特征增强处理后,增强特征可以是通话人员中有历史记录的人员数目、与有历史记录的人员通话频率、异性通话人员数占比、与跨地域通话占比70%以上的人员通话次数等。从而,以便于后续的特征人判别机器学习模型通过增强特征来更准确地判断一个人员是否是电话通话异常人,提高机器学习模型的指标(如准确度)更高。
需要说明的是,上述步骤4032可以是可选步骤,数据分析装置114无需从图算法池中选择图算法,即可以根据图算法池中的每个图算法对第二网络中的节点进行特征增强处理,得到第一网络。
此外,数据分析装置114还可以更新图算法池。更新包括删除图算法池中的图算法、增加图算法池中的图算法、优化图算法池中的图算法。
可选地,如图7所示,云服务平台120的特征工程界面还可以显示图算法池中所有的预设图算法的选项。预设的图算法是预先配置到云数据中心110的存储资源112中,以便于用户根据自己的意愿选择图算法。例如,云数据中心110调用数据分析装置114,从多个预设图算法中选择至少一个图算法时,使用的多个预设图算法可以是用户选择的图算法。如果用户没有选择显示的预设图算法,云数据中心110可以依据上述步骤4031或步骤4032 中阐述的方法从预先配置的图算法池中选择至少一个图算法。
在另一种可能的实施例中,数据分析装置114根据第二网络包含的边表征的待分析对象之间的关联关系和节点携带的待分析对象的基础特征确定每个节点的增强特征,更新第二网络,获得第一网络。
具体地,数据分析装置114可以对第二网络中的节点进行邻居特征聚合,获取节点的增强特征更新第二网络,得到第一网络。如图8所示,图8所述的方法流程是对图4中步骤403所包括的具体操作过程的阐述,如图所示。
步骤4033、数据分析装置114根据节点的边确定与节点具有关联关系的邻居节点。
如果第二网络是无向图,与节点具有关联关系的邻居节点包括与该节点连接的所有节点。例如,如图3中的(a)所示,与节点a具有关联关系的邻居节点包括节点b、节点c和节点d。
如果第二网络是有向图,与节点具有关联关系的邻居节点包括与该节点所连接的边指向的节点。例如,如图5中的(a)所示,与节点2具有关联关系的邻居节点包括节点1、节点 3、节点4、节点5和节点7。
步骤4034、数据分析装置114从第二网络包含的基础特征中选择至少一个待聚合特征。
对于第二网络中任一个基础特征,数据分析装置114对该基础特征的所有取值进行排序,将基础特征的取值划分为(n+1)个组和n个分割点。例如,基础特征为年龄,年龄的取值包括11,22、25、31、37和48。可以依据10年为单位,划分年龄的取值,得到4个组。第一组包括年龄11。第二组包括年龄22和25。第三组包括年龄31和37。第四组包括年龄 48。本实施例对划分基础特征的取值的具体方式不予限定。
数据分析装置114利用信息熵或其它自定义公式计算每个分割点的两遍分组的分数。根据分割点的两遍分组的分数确定分割点的信息增益(information gain)。信息增益表示衡量一个特征区分数据样本的能力。信息增益越大,则这个特征的选择性越好。在本实施例中,信息增益表示利用基础特征的分割点的分数衡量该分割点作为最优分割点的能力。信息增益满足公式(2)。
G=SL+SR-SN公式(2)
其中,G表示信息增益;SL表示分割点左边分数;SR表示分割点右边分数;SN表示不分割分数,不分割分数为可选项。如果将基础特征的取值中两个组合并为一组,信息增益包含不分割分数。例如,将年龄的取值11、22和25划分为一组。
数据分析装置114将n个分割点中最大信息增益的分割点确定为一个基础特征的最优分割点。
数据分析装置114对第二网络包括的所有基础特征,依据基础特征的最优分割点的信息增益从大到小进行排序,选择前K个信息增益的基础特征作为待聚合特征。K为大于或等于1的整数。可理解的,K=1时,数据分析装置114选取了一个待聚合特征;K大于或者等于2时,数据分析装置114选取了两个以上的待聚合特征。
可选地,数据分析装置114还可以对第二网络包含的基础特征进行重要特征提取,得到重要特征,以及对重要特征进行组合,得到组合特征;依据上述选择待聚合特征的方法从组合特征和重要特征中选择待聚合特征。
数据分析装置114可以计算基础特征的重要度,依据重要度从第二网络包含的基础特征中选取重要特征。计算基础特征的重要度的方法包括但不限于相关系数计算、信息熵计算、距离相关系数、基于树模型重要度得分和基于线性模型的权重得分等。
对重要特征进行特征组合的方法包括不限于基于重要度的特征组合,基于树模型的特征组合、基于进化算法的特征组合和基于强化学习的特征组合等。
步骤4035、数据分析装置114根据至少一个待聚合特征对节点的邻居节点进行邻居特征聚合得到聚合特征。
对于第二网络中的每个节点,数据分析装置114将至少一个待聚合特征发送到与节点具有关联关系的邻居节点。对于邻居节点,统计邻居节点接收到来自多个节点的至少一个待聚合特征,得到聚合特征。计算聚合特征的方法包括并不限于均值、最大值、分割点以上(或以下)个数和方差等。关于与节点具有关联关系的邻居节点的解释可以参考步骤4033 的阐述。
如果第二网络是无向图,与节点具有关联关系的邻居节点包括与该节点连接的所有节点。例如,如图3中的(a)所示,与节点a具有关联关系的邻居节点包括节点b、节点c和节点d。节点a计算来自节点b、节点c和节点d的至少一个待聚合特征的统计信息。
如果第二网络是有向图,与节点具有关联关系的邻居节点包括与该节点所连接的边指向的节点。例如,如图5中的(a)所示,与节点2具有关联关系的邻居节点包括节点1、节点 3、节点4、节点5和节点7。节点2计算来自节点1、节点3、节点4、节点5和节点7的至少一个待聚合特征的统计信息。
在一些实施例中,数据分析装置114可以循环执行上述步骤4034至步骤4035。对新生成的聚合特征,执行上述步骤4034至步骤4035,直到满足预设条件,执行步骤4036,即将聚合特征确定为节点的增强特征。从而,第二网络中每个节点新增了增强特征或特征关系。
预设条件包括以下至少一种:进行邻居特征聚合后不产生新的聚合特征,达到最大循环次数,聚合特征的个数与基础特征的个数的比例小于阈值,达到预设循环时长。
需要说明的是,数据分析装置114可以对未进行邻居特征聚合处理的特征执行上述步骤4034至步骤4035,已进行邻居特征聚合处理的特征无需在执行上述步骤4034至步骤4035。例如,在第一次执行上述步骤4034至步骤4035时,基础特征包括节点携带的所有基础特征;在第二次以上执行上述步骤4034至步骤4035时,基础特征包括新生成的聚合特征。若数据分析装置114未循环执行上述步骤4034至步骤4035,可以聚合一阶待聚合特征;若数据分析装置114循环执行上述步骤4034至步骤4035,可以聚合多阶待聚合特征。
可选的,数据分析装置114还可以对聚合特征进行特征筛选,将特征筛选后的聚合特征确定为数据分析装置114进行邻居特征聚合的输入特征。
在另一些实施例中,数据分析装置114可以根据上述步骤4031和步骤4032对第二网络的节点进行特征增强处理,将图算法的增强特征作为邻居特征聚合的输入特征。数据分析装置114进行邻居特征聚合的输入特征包含节点的基础特征和图算法的增强特征。
如此,由于数据分析装置114以网络形式呈现了待分析数据集中待分析对象之间的关联关系,基于网络的拓扑结构更容易分析出待分析对象间潜在的特征,避免了数据分析的过程依赖于专家经验,无需人工干预,提高了数据分析的准确性。进而,以便于数据分析装置114处理模型工程的过程中利用对象间潜在的特征进行预测时能够有效地提高预测精度。
步骤404、数据分析装置114在第一网络中确定与待检索数据匹配的第一数据集。
第一数据集包括多个第一数据,多个第一数据中每个第一数据与待检索数据具有相似特征。例如,在电商场景中,第二网络的节点携带的基础特征是消费者购买的商品的特征,对第二网络的节点进行特征增强处理后,增强特征可以是与消费者具有关联关系的人员购买的商品的特征。增强特征可以还是商品购买人群的特征。数据分析装置114根据待检索数据(比如:消费者的用户名)在第一网络中确定与待检索数据匹配的第一数据集,第一数据集包含与消费者具有关联关系的人员购买的商品的特征。从而,以便于后续的模型通过增强特征来更准确地判断消费者潜在购买的商品,来提高机器学习模型的指标(如准确度) 更高,以便于向消费者推送信息。
在金融场景中,第二网络的节点携带的基础特征是性别和职业,关联关系包含资金交易记录和通话记录。增强特征可以包括通话人员中有资金交易记录的人员数目、与有资金交易记录的人员通话频率、与账号相关的资金转账行为的特征等。数据分析装置114根据待检索数据(比如:人员的姓名)在第一网络中确定与待检索数据匹配的第一数据集,第一数据集包含通话人员中有资金交易记录的人员数目、与有资金交易记录的人员通话频率、异性通话人员数占比、与跨地域通话占比70%以上的人员通话次数等。从而,以便于后续的特征人判别模型通过增强特征来更准确地判断一个人员是否是金融交易异常人,提高模型的指标(如准确度)更高。
可选的,数据分析装置114还可以向交互装置210发送第一网络、第二网络、图算法和第一数据集(步骤405)。交互装置210接收数据分析装置114发送的第一网络、第二网络、图算法和第一数据集(步骤406)。交互装置210呈现第一网络、第二网络、图算法和第一数据集(步骤407)。从而,使用户可以直观地看到第二网络和进行特征增强后的第一网络,以及自动化的数据分析的效果。
示例的,如图9中的(a)所示,终端设备200显示第二网络,用户可以点击第二网络中的节点,显示节点的基础特征。如图9中的(b)所示,终端设备200显示第一网络,用户可以点击第一网络中的节点,显示节点的基础特征和增强特征。
在另一种可能的实现方式中,计算设备可以根据待分析对象之间的关联关系和待分析对象的基础特征确定待分析对象的增强特征,依据待分析对象之间的关联关系、待分析对象的基础特征和待分析对象的增强特征构建第一网络,在第一网络中确定与待检索数据匹配的第一数据集。如此,使得计算设备可以基于第一网络获取与待检索数据匹配的第一数据集,避免了数据分析的过程依赖于专家经验,提高了数据分析的准确性。进而,以便于计算设备处理模型工程的过程中利用对象间潜在的特征进行预测时能够有效地提高预测精度。
可以理解的是,为了实现上述实施例中的功能,计算设备包括了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本申请中所公开的实施例描述的各示例的单元及方法步骤,本申请能够以硬件或硬件和计算机软件相结合的形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用场景和设计约束条件。
上文中结合图1至图9,详细描述了根据本实施例所提供的数据分析的方法,下面将结合图10至图12,描述根据本实施例所提供的数据分析装置和计算设备。
图10为本实施例提供的可能的数据分析装置的结构示意图。这些数据分析装置可以用于实现上述方法实施例中数据分析装置的功能,因此也能实现上述方法实施例所具备的有益效果。在本实施例中,该数据分析装置可以是如图1所示的数据分析装置114,还可以是应用于服务器的模块(如芯片)。
如图10所示,数据分析装置1000包括通信模块1010、构建模块1020、匹配模块1030和存储模块1040。数据分析装置1000用于实现上述图4、图6或图8中所示的方法实施例中数据分析装置114的功能。
当数据分析装置1000用于实现图4所示的方法实施例中数据分析装置114的功能时:通信模块1010用于实现步骤405,以及接收待检索数据的功能;构建模块1020用于实现步骤403的功能;匹配模块1030用于实现步骤404的功能。
当数据分析装置1000用于实现图6所示的方法实施例中数据分析装置114的功能时:通信模块1010用于实现步骤405,以及接收待检索数据的功能;构建模块1020用于实现步骤4031和步骤4032的功能;匹配模块1030用于实现步骤404的功能。
当数据分析装置1000用于实现图8所示的方法实施例中数据分析装置114的功能时:通信模块1010用于实现步骤405,以及接收待检索数据的功能;构建模块1020用于实现步骤4033和步骤4036的功能;匹配模块1030用于实现步骤404的功能。
存储模块1040用于存储预先配置的图算法、增强特征、组合特征、重要特征、第一网络和第二网络。例如,每次更新第二网络得到增强特征、组合特征和重要特征均可以存储。存储模块1040还可以存储增强特征、组合特征和重要特征等特征的来源,以便于查看更新的过程中网络的变化。
应理解的是,本申请实施例的数据分析装置1000可以通过中央处理器(centralprocessing unit,CPU)实现,也可以通过专用集成电路(application-specificintegrated circuit,ASIC)实现,或可编程逻辑器件(programmable logic device,PLD)实现,上述PLD可以是复杂程序逻辑器件(complex programmable logical device,CPLD),现场可编程门阵列 (field-programmable gate array,FPGA),通用阵列逻辑(genericarray logic,GAL)或其任意组合。也可以通过软件实现图4、图6或图8所示的数据分析方法时,数据分析装置1000 及其各个模块也可以为软件模块。
若构建模块1020用于根据邻居特征聚合的方法获取节点的增强特征更新第二网络,得到第一网络,构建模块1020还可以包括图11所示的子模块。如图11所示,构建模块1020 包括重要特征提取子模块1021、组合特征提取子模块1022、邻居特征提取子模块1023和特征筛选子模块1024。重要特征提取子模块1021用于从节点携带的特征中提取重要特征。节点携带的特征可以包括基础特征、图算法增强特征和特征筛选后的聚合特征等。组合特征提取子模块1022用于对重要特征进行组合获取组合特征。邻居特征提取子模块1023用于根据至少一个待聚合特征对节点的邻居节点进行邻居特征聚合得到聚合特征。特征筛选子模块1024用于对聚合特征进行筛选,得到特征筛选后的聚合特征。有关邻居特征聚合的过程可以参考上述实施例的阐述。
有关上述通信模块1010、构建模块1020、匹配模块1030和存储模块1040更详细的描述可以直接参考图4、图6或图8所示的方法实施例中相关描述直接得到,这里不加赘述。
图12为本实施例提供的一种计算设备1200的结构示意图。如图所示,计算设备1200 包括处理器1210、总线1220、存储器1230通信接口1240。
应理解,在本实施例中,处理器1210可以是中央处理器(central processingunit,CPU),该处理器1210还可以是其他通用处理器、数字信号处理器(digital signalprocessing,DSP)、专用集成电路(application-specific integrated circuit,ASIC)、现场可编程门阵列 (field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。
处理器还可以是图形处理器(graphics processing unit,GPU)、神经网络处理器(neural network processing unit,NPU)、微处理器、特定应用集成电路(application-specific integrated circuit,ASIC)、或一个或多个用于控制本申请方案程序执行的集成电路。
通信接口1240用于实现计算设备1200与外部设备或器件的通信。在本实施例中,通信接口1240用于接收待检索数据和待分析数据集。
总线1220可以包括一通路,用于在上述组件(如处理器1210和存储器1230)之间传送信息。总线1220除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线1220。
作为一个示例,计算设备1200可以包括多个处理器。处理器可以是一个多核(multi-CPU) 处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的计算单元。处理器1210可以调用存储器1230存储的多个图算法分别对依据待分析数据集构建的网络进行更新,获得网络中节点的增强特征,以便于在第一网络中确定与待检索数据匹配的第一数据集。
值得说明的是,图12中仅以计算设备1200包括1个处理器1210和1个存储器1230为例,此处,处理器1210和存储器1230分别用于指示一类器件或设备,具体实施例中,可以根据业务需求确定每种类型的器件或设备的数量。
存储器1230可以对应上述方法实施例中用于存储图算法等信息的存储介质,例如,磁盘,如机械硬盘或固态硬盘。
上述计算设备1200可以是一个通用设备或者是一个专用设备。例如,计算设备1200 可以是基于X86、ARM的服务器,也可以为其他的专用服务器,如策略控制和计费(policy control and charging,PCC)服务器等。本申请实施例不限定计算设备1200的类型。
应理解,根据本实施例的计算设备1200可对应于本实施例中的数据分析装置1000,并可以对应于执行根据图4、图6或图8中任一方法中的相应主体,并且数据分析装置1000 中的各个模块的上述和其它操作和/或功能分别为了实现图4、图6或图8中的各个方法的相应流程,为了简洁,在此不再赘述。
本实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(random access memory,RAM)、闪存、只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于网络设备或终端设备中。当然,处理器和存储介质也可以作为分立组件存在于网络设备或终端设备中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时,全部或部分地执行本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、网络设备、用户设备或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,例如,软盘、硬盘、磁带;也可以是光介质,例如,数字视频光盘(digital video disc,DVD);还可以是半导体介质,例如,固态硬盘(solid state drive,SSD)。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (21)
1.一种数据分析的方法,其特征在于,所述方法由计算设备执行,所述方法包括:
获取待检索数据;
根据待分析数据集中待分析对象之间的关系构建第一网络,所述第一网络用于表征所述待分析对象之间的特征关系,所述待分析数据集包括所述待检索数据;
在所述第一网络中确定与所述待检索数据匹配的第一数据集,所述第一数据集包括多个第一数据,所述多个第一数据中每个第一数据与所述待检索数据具有相似特征。
2.根据权利要求1所述的方法,其特征在于,所述待检索数据包括语音或文字形式的数据。
3.根据权利要求1或2所述的方法,其特征在于,所述第一网络为图特征网络,所述图特征网络用于标识采用图形式标识所述待分析对象之间的关系的网络结构。
4.根据权利要求1至3中任一所述的方法,其特征在于,所述根据待分析数据集中待分析对象之间的关系构建第一网络,包括:
根据所述待分析对象之间的关联关系和所述待分析对象的基础特征构建第二网络,所述第二网络用于表征所述待分析对象之间的关联关系,所述待分析对象之间的关联关系用于表征所述待分析对象所执行行为的关系,所述待分析对象的基础特征用于表征所述待分析对象的属性;
根据所述第二网络表征的所述待分析对象之间的关联关系更新所述第二网络,获得所述第一网络。
5.根据权利要求4所述的方法,其特征在于,所述第二网络为图特征网络,所述第二网络包含的节点指示所述待分析对象,所述节点携带了所述待分析对象的基础特征,连接节点的边表征所述待分析对象之间的关联关系。
6.根据权利要求4或5所述的方法,其特征在于,根据所述第二网络表征所述待分析对象之间的关联关系更新所述第二网络,获得所述第一网络,包括:
利用至少一个图算法,依据所述第二网络包含的边表征的所述待分析对象之间的关联关系确定所述第二网络中每个节点的增强特征,更新所述第二网络,获得所述第一网络。
7.根据权利要求4或5所述的方法,其特征在于,根据所述第二网络表征所述待分析对象之间的关联关系更新所述第二网络,获得所述第一网络,包括:
根据所述第二网络包含的边表征的所述待分析对象之间的关联关系和节点携带的所述待分析对象的基础特征确定每个节点的增强特征,更新所述第二网络,获得所述第一网络。
8.根据权利要求1至3中任一所述的方法,其特征在于,所述根据待分析数据集中待分析对象之间的关系构建第一网络,包括:
根据所述待分析对象之间的关联关系和所述待分析对象的基础特征构建所述第一网络,所述待分析对象之间的关联关系用于表征所述待分析对象所执行行为的关系,所述待分析对象的基础特征用于表征所述待分析对象的属性。
9.根据权利要求1至8中任一所述的方法,其特征在于,在所述第一网络中确定与所述待检索数据匹配的第一数据集,包括:
根据所述待检索数据指示的待分析对象确定所述第一网络中第一节点;
将所述第一节点携带的增强特征确定为所述第一数据集。
10.根据权利要求1至9中任一所述的方法,其特征在于,所述方法还包括:
显示所述第一网络、第二网络、图算法和所述第一数据集。
11.一种数据分析装置,其特征在于,所述装置包括:
通信模块,用于获取待检索数据;
构建模块,用于根据待分析数据集中待分析对象之间的关系构建第一网络,所述第一网络用于表征所述待分析对象之间的特征关系,所述待分析数据集包括所述待检索数据;
匹配模块,用于在所述第一网络中确定与所述待检索数据匹配的第一数据集,所述第一数据集包括多个第一数据,所述多个第一数据中每个第一数据与所述待检索数据具有相似特征。
12.根据权利要求11所述的装置,其特征在于,所述待检索数据包括语音或文字形式的数据。
13.根据权利要求11或12所述的装置,其特征在于,所述第一网络为图特征网络,所述图特征网络用于标识采用图形式标识所述待分析对象之间的关系的网络结构。
14.根据权利要求11至13中任一所述的装置,其特征在于,所述构建模块根据待分析数据集中待分析对象之间的关系构建第一网络时,具体用于:
根据所述待分析对象之间的关联关系和所述待分析对象的基础特征构建第二网络,所述第二网络用于表征所述待分析对象之间的关联关系,所述待分析对象之间的关联关系用于表征所述待分析对象所执行行为的关系,所述待分析对象的基础特征用于表征所述待分析对象的属性;
根据所述第二网络表征的所述待分析对象之间的关联关系更新所述第二网络,获得所述第一网络。
15.根据权利要求14所述的装置,其特征在于,所述第二网络为图特征网络,所述第二网络包含的节点指示所述待分析对象,所述节点携带了所述待分析对象的基础特征,连接节点的边表征所述待分析对象之间的关联关系。
16.根据权利要求14或15所述的装置,其特征在于,所述构建模块根据所述第二网络表征所述待分析对象之间的关联关系更新所述第二网络,获得所述第一网络时,具体用于:
利用至少一个图算法,依据所述第二网络包含的边表征的所述待分析对象之间的关联关系确定所述第二网络中每个节点的增强特征,更新所述第二网络,获得所述第一网络。
17.根据权利要求14或15所述的装置,其特征在于,所述构建模块根据所述第二网络表征所述待分析对象之间的关联关系更新所述第二网络,获得所述第一网络时,具体用于:
根据所述第二网络包含的边表征的所述待分析对象之间的关联关系和节点携带的所述待分析对象的基础特征确定每个节点的增强特征,更新所述第二网络,获得所述第一网络。
18.根据权利要求11至13中任一所述的装置,其特征在于,所述构建模块根据待分析数据集中待分析对象之间的关系构建第一网络时,具体用于:
根据所述待分析对象之间的关联关系和所述待分析对象的基础特征构建所述第一网络,所述待分析对象之间的关联关系用于表征所述待分析对象所执行行为的关系,所述待分析对象的基础特征用于表征所述待分析对象的属性。
19.根据权利要求11至18中任一所述的装置,其特征在于,所述匹配模块在所述第一网络中确定与所述待检索数据匹配的第一数据集时,具体用于:
根据所述待检索数据指示的待分析对象确定所述第一网络中第一节点;
将所述第一节点携带的增强特征确定为所述第一数据集。
20.根据权利要求11至19中任一所述的装置,其特征在于,所述装置还包括显示模块:
所述显示模块,用于显示所述第一网络、第二网络、图算法和所述第一数据集。
21.一种计算设备,其特征在于,包括存储器和处理器,所述存储器用于存储一组计算机指令;当所述处理器执行所述一组计算机指令时,执行上述权利要求1至10中任一所述的方法的操作步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110113613.6A CN114818843A (zh) | 2021-01-27 | 2021-01-27 | 数据分析的方法、装置和计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110113613.6A CN114818843A (zh) | 2021-01-27 | 2021-01-27 | 数据分析的方法、装置和计算设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114818843A true CN114818843A (zh) | 2022-07-29 |
Family
ID=82524447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110113613.6A Pending CN114818843A (zh) | 2021-01-27 | 2021-01-27 | 数据分析的方法、装置和计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114818843A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116739470A (zh) * | 2022-09-27 | 2023-09-12 | 荣耀终端有限公司 | 网络分析方法和装置 |
-
2021
- 2021-01-27 CN CN202110113613.6A patent/CN114818843A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116739470A (zh) * | 2022-09-27 | 2023-09-12 | 荣耀终端有限公司 | 网络分析方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241415B (zh) | 项目推荐方法、装置、计算机设备及存储介质 | |
US20190012683A1 (en) | Method for predicting purchase probability based on behavior sequence of user and apparatus for the same | |
US11775412B2 (en) | Machine learning models applied to interaction data for facilitating modifications to online environments | |
CN109299356B (zh) | 基于大数据的活动推荐方法、装置、电子设备及存储介质 | |
WO2011087902A1 (en) | Attribute aggregation for standard product unit | |
US20210192549A1 (en) | Generating analytics tools using a personalized market share | |
CN112598472A (zh) | 产品推荐方法、装置、系统、介质和程序产品 | |
CN114818843A (zh) | 数据分析的方法、装置和计算设备 | |
CN113569162A (zh) | 数据处理方法、装置、设备及存储介质 | |
WO2024051146A1 (en) | Methods, systems, and computer-readable media for recommending downstream operator | |
CN115293291B (zh) | 排序模型的训练方法、排序方法、装置、电子设备及介质 | |
CN110796520A (zh) | 商品推荐的方法、装置、计算设备以及介质 | |
CN116186541A (zh) | 一种推荐模型的训练方法及装置 | |
US20150248685A1 (en) | Automated identification of sales opportunities based on stored market data | |
CN113327134B (zh) | 商品信息推荐方法及装置、电子设备和介质 | |
CN110827104A (zh) | 向用户推荐商品的方法和装置 | |
CN115271866A (zh) | 一种产品推荐方法、装置、电子设备及可读存储介质 | |
CN110782287A (zh) | 实体相似度计算方法及装置、物品推荐系统、介质、设备 | |
CN113837843A (zh) | 产品推荐方法、装置、介质及电子设备 | |
CN113961797A (zh) | 资源推荐方法、装置、电子设备和可读存储介质 | |
CN113761002A (zh) | 信息推送方法、装置、设备和计算机可读存储介质 | |
CN113763080A (zh) | 推荐物品的确定方法、装置、电子设备和存储介质 | |
CN113297467A (zh) | 推荐方法、装置及计算机存储介质 | |
CN111784091A (zh) | 用于处理信息的方法和装置 | |
CN117217852B (zh) | 一种基于行为识别购买意愿度预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |