CN111209400B - 一种数据分析的方法及装置 - Google Patents

一种数据分析的方法及装置 Download PDF

Info

Publication number
CN111209400B
CN111209400B CN202010006079.4A CN202010006079A CN111209400B CN 111209400 B CN111209400 B CN 111209400B CN 202010006079 A CN202010006079 A CN 202010006079A CN 111209400 B CN111209400 B CN 111209400B
Authority
CN
China
Prior art keywords
event
data
data set
analyzed
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010006079.4A
Other languages
English (en)
Other versions
CN111209400A (zh
Inventor
尤旸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202010006079.4A priority Critical patent/CN111209400B/zh
Publication of CN111209400A publication Critical patent/CN111209400A/zh
Application granted granted Critical
Publication of CN111209400B publication Critical patent/CN111209400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据分析的方法及装置,其中,该数据分析的方法通过按照预先设置的事件分类策略,对待分析数据集中的待分析数据进行事件分类,得到事件数据集,进而,按照预先设置的业务类型分类策略,对该事件数据集中的待分析数据进行业务类型分类,得到业务类型数据集,依据该业务类型数据集映射的决策库以及影响结果库,提取该业务类型数据集中待分析数据包含的决策行为和影响结果,依据预设的语义分析策略,获取提取的决策行为对应的影响结果,针对每一事件,分别以该事件、该事件对应的业务类型、提取的决策行为、提取的影响结果为节点,构建该事件的知识图谱。可以提高数据的分析效率。

Description

一种数据分析的方法及装置
技术领域
本发明涉及计算机科学技术领域,具体而言,涉及一种数据分析的方法及装置。
背景技术
随着信息技术不断发展,企业在经营管理时,如何更加全面有效地利用企业内部数据以及行业内实时更新的数据进行数据分析,进而制定合理的经营决策已成为当前各业界所迫切解决的问题。
现有技术中,企业内部的数据常常由各部门分散存储,在制定决策时,分别由各部门进行部门内数据的查询与分析,然后汇总各部门的数据分析结果递交给决策者,由决策者依据各部门的数据分析结果,制定相应决策。但该数据分析的方法,由于需要分别在各部门内进行数据的查询与分析,决策者需要对各部门的数据分析结果进行综合分析以制定决策,极大地延长了制定决策所需的时间,导致数据分析效率较低。
发明内容
有鉴于此,本发明的目的在于提供一种数据分析的方法及装置,以提高数据的分析效率。
第一方面,本发明实施例提供了一种数据分析的方法,所述方法包括:
按照预先设置的事件分类策略,对待分析数据集中的待分析数据进行事件分类,得到事件数据集;
针对每一事件数据集,按照预先设置的业务类型分类策略,对该事件数据集中的待分析数据进行业务类型分类,得到业务类型数据集;
针对每一业务类型数据集,依据该业务类型数据集映射的决策库以及影响结果库,提取该业务类型数据集中待分析数据包含的决策行为和影响结果;
依据预设的语义分析策略,获取提取的决策行为对应的影响结果;
针对每一事件,分别以该事件、该事件对应的业务类型、提取的决策行为、提取的影响结果为节点,构建该事件的知识图谱。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述按照预先设置的事件分类策略,对待分析数据集中的待分析数据进行事件分类,得到事件数据集,包括:
针对所述待分析数据集中的每一待分析数据,提取该待分析数据中的关键词,依据预设的语义模型库,对提取的关键词进行组合,得到符合所述语义模型库的关键词组合;
将得到的所述关键词组合,分别与预设的事件库中包含的每一事件进行匹配,依据匹配结果对所述待分析数据进行事件分类;
合并同一事件对应的所述待分析数据,得到事件数据集。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述按照预先设置的业务类型分类策略,对该事件数据集中的待分析数据进行业务类型分类,包括:
获取上传所述事件数据集中待分析数据的用户的标签,依据所述用户的标签匹配预设的业务类型库,对该待分析数据进行业务类型分类;或,提取所述事件数据集中待分析数据中的关键词,与预设的业务类型库中的每一业务类型包含的业务关键词进行匹配,依据匹配结果对该待分析数据进行业务类型分类。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述依据该业务类型数据集映射的决策库以及影响结果库,提取该业务类型数据集中待分析数据包含的决策行为和影响结果,包括:
提取所述业务类型数据集中各待分析数据包含的关键词;
从提取的所述关键词中,获取与所述决策库中的决策行为关键词相匹配的关键词,得到该业务类型数据集对应的决策行为;
从提取的所述关键词中,获取与所述影响结果库中的影响结果关键词相匹配的关键词,得到该业务类型数据集对应的影响结果。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述依据预设的语义分析策略,获取提取的决策行为对应的影响结果,包括:
按照时间戳对所述业务类型数据集中各待分析数据进行排序;
分别标记所述决策行为与所述影响结果在所述待分析数据中的位置;
针对每一所述决策行为,基于标记的位置,选取与该决策行为的位置满足预设策略的影响结果;
依据预设的语义分析策略,从选取的影响结果中,确定所述决策行为对应的影响结果。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述分别以该事件、该事件对应的业务类型、提取的决策行为、提取的影响结果为节点,构建该事件的知识图谱,包括:
以所述事件为第一级节点,以所述事件对应的各业务类型为第二级节点,将第一级节点与各第二级节点连接;
针对每一第二级节点,基于该第二级节点对应的业务类型数据集中包含的决策行为构建第三级决策行为节点,以及,基于该第二级节点对应的业务类型数据集中包含的影响结果构建第三级影响结果节点;
基于获取的决策行为对应的影响结果,连接决策行为对应的第三级决策行为节点与影响结果对应的第三级影响结果节点,得到所述事件的知识图谱。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述方法还包括:
为所述知识图谱中的每一节点以及该节点对应的所述待分析数据添加权限标签;
在接收用户的查询请求后,获取所述用户的权限标签;
从所述知识图谱中,获取与所述查询请求相匹配的目标知识图谱;
从所述目标知识图谱中,获取权限标签小于或等于所述用户的权限标签的节点以及该节点对应的所述待分析数据并展示。
第二方面,本发明实施例还提供了一种数据分析的装置,所述装置包括:
事件分类模块,用于按照预先设置的事件分类策略,对待分析数据集中的待分析数据进行事件分类,得到事件数据集;
业务类型分类模块,用于针对每一事件数据集,按照预先设置的业务类型分类策略,对该事件数据集中的待分析数据进行业务类型分类,得到业务类型数据集;
数据提取模块,用于针对每一业务类型数据集,依据该业务类型数据集映射的决策库以及影响结果库,提取该业务类型数据集中待分析数据包含的决策行为和影响结果;
获取模块,用于依据预设的语义分析策略,获取提取的决策行为对应的影响结果;
图谱构建模块,用于针对每一事件,分别以该事件、该事件对应的业务类型、提取的决策行为、提取的影响结果为节点,构建该事件的知识图谱。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据分析的方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述数据分析的方法的步骤。
本发明实施例提供的数据分析的方法及装置,通过按照预先设置的事件分类策略,对待分析数据集中的待分析数据进行事件分类,得到事件数据集;针对每一事件数据集,按照预先设置的业务类型分类策略,对该事件数据集中的待分析数据进行业务类型分类,得到业务类型数据集;针对每一业务类型数据集,依据该业务类型数据集映射的决策库以及影响结果库,提取该业务类型数据集中待分析数据包含的决策行为和影响结果;依据预设的语义分析策略,获取提取的决策行为对应的影响结果;针对每一事件,分别以该事件、该事件对应的业务类型、提取的决策行为、提取的影响结果为节点,构建该事件的知识图谱。
这样,可以收集所有部门的数据,按照预先设置的事件分类策略,对待分析数据集中的待分析数据进行事件分类,从而将关联的待分析数据分类在一起,有效地提高了待分析数据的利用率,进一步的,由于针对每一事件,分别以该事件、该事件对应的业务类型、提取的决策行为、提取的影响结果为节点,构建该事件的知识图谱,对分散的数据分析结果进行了关联以及整合,节省了制定决策所需的时间,有效地提高了数据的分析效率。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的数据分析的方法流程示意图;
图2示出了本发明实施例所提供的另一种数据分析的方法流程示意图;
图3示出了本发明实施例所提供的数据分析的装置结构示意图;
图4为本申请实施例提供的一种计算机设备400的结构示意图。
主要元件符号说明:301-事件分类模块;302-业务类型分类模块;303-数据提取模块;304-获取模块;305-图谱构建模块;400-计算机设备;401-存储器;402-处理器。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种数据分析的方法和装置,下面通过实施例进行描述。
实施例一
图1示出了本发明实施例所提供的数据分析的方法流程示意图,该方法包括步骤S101-S105;具体的:
S101,按照预先设置的事件分类策略,对待分析数据集中的待分析数据进行事件分类,得到事件数据集。
本申请实施例中,为提高待分析数据的利用率,作为一可选实施例,所述按照预先设置的事件分类策略,对待分析数据集中的待分析数据进行事件分类,得到事件数据集,包括:
针对所述待分析数据集中的每一待分析数据,提取该待分析数据中的关键词,依据预设的语义模型库,对提取的关键词进行组合,得到符合所述语义模型库的关键词组合;
将得到的所述关键词组合,分别与预设的事件库中包含的每一事件进行匹配,依据匹配结果对所述待分析数据进行事件分类;
合并同一事件对应的所述待分析数据,得到事件数据集。
示例性的说明,例如,数据A中提取的关键词为“维修”,数据B中提取的关键词为“变速箱”,数据C中提取的关键词为“发动机”,依据预设的语义模型库,对提取的关键词进行组合,得到符合所述语义模型库的关键词组合为:“变速箱维修”和“发动机维修”,将关键词组合“变速箱维修”、“发动机维修”分别与预设的事件库中包含的每一事件进行匹配,若匹配度最高的事件为“变速箱漏油维修事件”以及“发动机故障维修事件”,则合并数据A与数据B作为变速箱漏油维修事件对应的事件数据集,合并数据A与数据C作为发动机故障维修事件对应的事件数据集。
本申请实施例中,作为一可选实施例,所述预设的语义模型库可以为在一个行业或者企业内,以主谓结构为核心的符合语义的该行业技术领域常见的词组结构。
示例性的说明,例如,提取出的关键词包括:“维修”、“变速箱”、“发动机”、“车辆”、“召回”,将提取出的关键词进行两两组合得到关键词组,其中可以构成主谓结构的关键词组为“变速箱维修”、“发动机维修”、“车辆维修”、“变速箱召回”、“发动机召回”、“车辆召回”,以汽车制造行业为例,当汽车出现问题需要进行召回时,“召回”的符合语义的常见主语为“车辆”或者“汽车”,因此,依据预设的语义模型库,得到符合所述语义模型库的关键词组合为:“变速箱维修”、“发动机维修”、“车辆维修”、“车辆召回”。
S102,针对每一事件数据集,按照预先设置的业务类型分类策略,对该事件数据集中的待分析数据进行业务类型分类,得到业务类型数据集。
本申请实施例中,作为一可选实施例,可以通过获取上传所述事件数据集中待分析数据的用户的标签,依据所述用户的标签匹配预设的业务类型库,对该待分析数据进行业务类型分类。
示例性的说明,例如,针对事件数据集A中的待分析数据a,获取到上传数据a的用户的标签为“会计”,依据所述用户的标签匹配预设的业务类型库,获取匹配度最高的业务类型,例如,匹配度最高的业务类型为财务部,则数据a所属的业务类型为财务部,合并事件数据集A中所属业务类型均为财务部的待分析数据,得到事件数据集A对应的财务部数据集。
本申请实施例中,作为另一可选实施例,还可以通过提取所述事件数据集中待分析数据中的关键词,与预设的业务类型库中的每一业务类型包含的业务关键词进行匹配,依据匹配结果对该待分析数据进行业务类型分类。
示例性的说明,例如,从待分析数据a中提取到的关键词为“预算”、“成本”、“金额”,将提取的所述关键词分别与预设的业务类型库中的每一业务类型包含的业务关键词进行匹配,例如,匹配度最高的业务类型为财务部,则数据a所属的业务类型为财务部,合并事件数据集A中所属业务类型均为财务部的待分析数据,得到事件数据集A对应的财务部数据集。
这样,作为一可选实施例,所述按照预先设置的业务类型分类策略,对该事件数据集中的待分析数据进行业务类型分类,包括:
获取上传所述事件数据集中待分析数据的用户的标签,依据所述用户的标签匹配预设的业务类型库,对该待分析数据进行业务类型分类;或,
提取所述事件数据集中待分析数据中的关键词,与预设的业务类型库中的每一业务类型包含的业务关键词进行匹配,依据匹配结果对该待分析数据进行业务类型分类。
S103,针对每一业务类型数据集,依据该业务类型数据集映射的决策库以及影响结果库,提取该业务类型数据集中待分析数据包含的决策行为和影响结果。
本申请实施例中,作为一可选实施例,所述依据该业务类型数据集映射的决策库以及影响结果库,提取该业务类型数据集中待分析数据包含的决策行为和影响结果,包括:
提取所述业务类型数据集中各待分析数据包含的关键词;
从提取的所述关键词中,获取与所述决策库中的决策行为关键词相匹配的关键词,得到该业务类型数据集对应的决策行为;
从提取的所述关键词中,获取与所述影响结果库中的影响结果关键词相匹配的关键词,得到该业务类型数据集对应的影响结果。
示例性的说明,例如,针对事件数据集A中的财务部数据集a,提取数据集a中包含的关键词为:预算、赔偿、计算损失、补偿、回访、销量降低、亏损较高、成本、口碑下滑、销量增长、金额,从提取的所述关键词中,获取与所述决策库中的决策行为关键词相匹配的关键词为:赔偿、计算损失、补偿、回访,则以获取的所述关键词作为数据集a对应的决策行为;从提取的所述关键词中,获取与所述影响结果库中的影响结果关键词相匹配的关键词为:销量降低、亏损较高、口碑下滑、销量增长,则以获取的所述关键词作为数据集a对应的影响结果。
本申请实施例中,作为一可选实施例,可以认为若提取的所述关键词与所述决策库中的决策行为关键词存在重叠部分,则表示该关键词与所述决策库中的决策行为关键词相匹配,提取所述关键词作为所述业务类型数据集对应的决策行为。
示例性的说明,例如,财务部数据集映射的决策库中的决策行为关键词为:赔偿、计算损失、成本预判、拒绝补偿,针对事件数据集A中的财务部数据集a,提取数据集a中包含的关键词为:赔偿、计算损失、补偿、回访,由于只有关键词“回访”与所述决策行为关键词不存在重叠部分,因此提取“赔偿”、“计算损失”以及“补偿”作为财务部数据集a中待分析数据包含的决策行为。
S104,依据预设的语义分析策略,获取提取的决策行为对应的影响结果。
本申请实施例中,作为一可选实施例,所述依据预设的语义分析策略,获取提取的决策行为对应的影响结果,包括:
按照时间戳对所述业务类型数据集中各待分析数据进行排序;
分别标记所述决策行为与所述影响结果在所述待分析数据中的位置;
针对每一所述决策行为,基于标记的位置,选取与该决策行为的位置满足预设策略的影响结果;
依据预设的语义分析策略,从选取的影响结果中,确定所述决策行为对应的影响结果。
本申请实施例中,作为一可选实施例,若所述决策行为与所述影响结果出自同一待分析数据,可以使用与所述待分析数据的数据起点之间所包含的字符个数来分别标记所述决策行为、所述影响结果在所述待分析数据中的位置,则所述预设策略可以为:标记所述决策行为位置的字符数小于标记所述影响结果位置的字符数,并且所述决策行为与所述影响结果之间包含的字符数量小于15。
示例性的说明,例如,待分析数据m中包含的决策行为有:A、B,包含的影响结果有:C,其中,A的位置为20、B的位置为37和50、C的位置为25;标记位置的字符数:A<C、B>C,A与C之间包含的字符数量为5,B与C之间包含的字符数量分别为12、25,依据所述预设策略,只有决策行为A和影响结果C的组合能够满足所述预设策略,因此选取C作为决策行为A的满足预设策略的影响结果。
本申请实施例中,作为一可选实施例,基于标记的所述位置,若所述决策行为与所述影响结果不出自同一待分析数据,则所述预设策略可以为:所述决策行为对应的时间戳早于所述影响结果,并且所述决策行为与所述影响结果之间的时间戳之差小于90日。
示例性的说明,例如,数据A的时间戳为2018年9月15日、数据B的时间戳为2018年6月11日、数据C的时间戳为2018年7月11日、数据D的时间戳为2018年11月15日,数据A中包含决策行为1、决策行为2,数据B中包含决策行为1、决策行为3,数据C中包含影响结果a、影响结果b,数据D中包含影响结果a、影响结果c,依据所述预设策略,数据A的时间戳晚于数据C的时间戳,数据A的时间戳早于数据D且数据A与数据D之间的时间戳之差为61日,因此数据A中包含的决策行为1、决策行为2只能与数据D中包含的影响结果a、影响结果c进行两两组合;数据B的时间戳早于数据C与数据D,数据B与数据C之间的时间戳之差为30日,数据B与数据D之间的时间戳之差为157日,因此数据B中包含的决策行为1、决策行为3只能与数据C中包含的影响结果a、影响结果b进行两两组合;对于能够两两组合的所述决策行为与所述影响结果,还需要进一步依据预设的语义分析策略,确定所述决策行为对应的影响结果。
本申请实施例中,作为一可选实施例,所述预设的语义分析策略可以为:所述决策行为与所述影响结果应符合因果语义关系,不应出现明显的语义矛盾。
示例性的说明,例如,以上述举例情况为例,若决策行为1为“进行赔偿”、决策行为2为“计算亏损”、决策行为3为“客户回访”、影响结果a为“客户撤诉”、影响结果b“销量降低”、影响结果c“金额较高”,已知为符合所述预设策略,决策行为1可以与所述影响结果任意组合,决策行为2只能与影响结果a或影响结果c两两组合,决策行为3只能与影响结果a或影响结果b两两组合,依据所述预设的语义分析策略,显然决策行为1“进行赔偿”与影响结果b“销量降低”、决策行为2“计算亏损”与影响结果a“客户撤诉”、决策行为3“客户回访”与影响结果b“销量降低”不符合因果语义关系,因此可以确定“客户回访”对应的影响结果为“客户撤诉”,“计算亏损”对应的影响结果为“金额较高”;对于剩余的组合,作为一可选实施例,针对每一所述决策行为,可以依据组合中所述决策行为与所述影响结果的因果语义关系匹配程度,优选与该所述决策行为对应的所述影响结果,例如,依据所述因果语义关系对决策行为“进行赔偿”进行匹配,若“客户撤诉”的匹配程度高于“金额较高”,则优选“客户撤诉”作为“进行赔偿”对应的影响结果。
S105,针对每一事件,分别以该事件、该事件对应的业务类型、提取的决策行为、提取的影响结果为节点,构建该事件的知识图谱。
本申请实施例中,作为一可选实施例,所述分别以该事件、该事件对应的业务类型、提取的决策行为、提取的影响结果为节点,构建该事件的知识图谱,包括:
以所述事件为第一级节点,以所述事件对应的各业务类型为第二级节点,将第一级节点与各第二级节点连接;
针对每一第二级节点,基于该第二级节点对应的业务类型数据集中包含的决策行为构建第三级决策行为节点,以及,基于该第二级节点对应的业务类型数据集中包含的影响结果构建第三级影响结果节点;
基于获取的决策行为对应的影响结果,连接决策行为对应的第三级决策行为节点与影响结果对应的第三级影响结果节点,得到所述事件的知识图谱。
本申请实施例中,作为一可选实施例,在构建所述事件的知识图谱时,若一个决策行为对应多个可能的影响结果,则可以依据所述决策行为与所述影响结果之间因果语义关系的匹配程度来表示同一决策行为对应的不同影响结果的权重关系。
示例性的说明,例如,决策行为“进行赔偿”对应的影响结果为“客户撤诉”以及“金额较高”,依据所述因果语义关系对决策行为“进行赔偿”进行匹配,“客户撤诉”的匹配程度高于“金额较高”,则在构建知识图谱时,可以将连接“进行赔偿”节点与“客户撤诉”节点之间的边加粗,边的粗细宽度表示该边所连接的两个节点之间的权重关系。
本申请实施例中,作为一可选实施例,为了提高知识图谱展示的安全性,所述方法还包括:
为所述知识图谱中的每一节点以及该节点对应的所述待分析数据添加权限标签;
在接收用户的查询请求后,获取所述用户的权限标签;
从所述知识图谱中,获取与所述查询请求相匹配的目标知识图谱;
从所述目标知识图谱中,获取权限标签小于或等于所述用户的权限标签的节点以及该节点对应的所述待分析数据并展示。
示例性的说明,例如,接收到查询请求后,事件A所在的知识图谱匹配程度最高,若当前用户的权限标签低于事件A中决策行为1所在节点的权限标签,高于决策行为2所在节点的权限标签,则只向该用户展示事件A所在的知识图谱中的决策行为2所在部分。
实施例二
图2示出了本发明实施例所提供的另一种数据分析的方法流程示意图,该方法包括步骤S201-S205;具体的:
步骤S201-S202与步骤S101-S102相同,步骤S203与步骤S103中的提取所述决策行为的方法相同,在此不再赘述。
S204,依据预设的舆情分析系统,获取提取的所述决策行为对应的影响结果。
本申请实施例中,作为一可选实施例,可以获取提取的所述决策行为对应的时间戳,在预设的时间周期内,依据预设的舆情分析系统,在网络中爬取做出所述决策行为之后的舆论影响结果,作为该决策行为对应的所述影响结果。
示例性的说明,例如,针对“发动机漏油事件”,获取决策行为“车辆召回”对应的时间戳为2018年8月11日,若预设的时间周期为90日,则依据预设的舆情分析系统,自2018年8月12日起,截止至2018年11月10日,在网络中爬取每日的舆论讨论热度绘制成折线图,得到90日内舆论讨论热度的变化趋势,若所述舆论讨论热度呈下降趋势,则获取“车辆召回”对应的影响结果为“舆论平息”;若所述舆论讨论热度呈上升趋势,则获取“车辆召回”对应的影响结果为“舆论持续发酵”。
步骤S205与步骤S105相同,在此不再赘述。
本申请实施例中,作为一可选实施例,还可以使用机器学习的方法,针对每一事件或每一决策行为,通过大量标注数据进行机器学习,并结合业务专家的经验知识,对构建的所述知识图谱进行图谱的更新、扩展以及修正,提高数据分析的准确度。
实施例三
图3示出了本发明实施例所提供的数据分析的装置结构示意图,所述装置包括:
事件分类模块301,用于按照预先设置的事件分类策略,对待分析数据集中的待分析数据进行事件分类,得到事件数据集;
业务类型分类模块302,用于针对每一事件数据集,按照预先设置的业务类型分类策略,对该事件数据集中的待分析数据进行业务类型分类,得到业务类型数据集;
本申请实施例中,作为一可选实施例,所述按照预先设置的业务类型分类策略,对该事件数据集中的待分析数据进行业务类型分类,包括:
获取上传所述事件数据集中待分析数据的用户的标签,依据所述用户的标签匹配预设的业务类型库,对该待分析数据进行业务类型分类;或,提取所述事件数据集中待分析数据中的关键词,与预设的业务类型库中的每一业务类型包含的业务关键词进行匹配,依据匹配结果对该待分析数据进行业务类型分类。
数据提取模块303,用于针对每一业务类型数据集,依据该业务类型数据集映射的决策库以及影响结果库,提取该业务类型数据集中待分析数据包含的决策行为和影响结果;
获取模块304,用于依据预设的语义分析策略,获取提取的决策行为对应的影响结果;
本申请实施例中,作为一可选实施例,所述依据预设的语义分析策略,获取提取的决策行为对应的影响结果,包括:
按照时间戳对所述业务类型数据集中各待分析数据进行排序;
分别标记所述决策行为与所述影响结果在所述待分析数据中的位置;
针对每一所述决策行为,基于标记的位置,选取与该决策行为的位置满足预设策略的影响结果;
依据预设的语义分析策略,从选取的影响结果中,确定所述决策行为对应的影响结果。
图谱构建模块305,用于针对每一事件,分别以该事件、该事件对应的业务类型、提取的决策行为、提取的影响结果为节点,构建该事件的知识图谱。
本申请实施例中,作为一可选实施例,事件分类模块301,包括:
关键词组合单元,用于针对所述待分析数据集中的每一待分析数据,提取该待分析数据中的关键词,依据预设的语义模型库,对提取的关键词进行组合,得到符合所述语义模型库的关键词组合;
事件分类单元,用于将得到的所述关键词组合,分别与预设的事件库中包含的每一事件进行匹配,依据匹配结果对所述待分析数据进行事件分类;
数据合并单元,用于合并同一事件对应的所述待分析数据,得到事件数据集。
本申请实施例中,作为一可选实施例,数据提取模块303,包括:
提取单元,用于提取所述业务类型数据集中各待分析数据包含的关键词;
决策行为获取单元,用于从提取的所述关键词中,获取与所述决策库中的决策行为关键词相匹配的关键词,得到该业务类型数据集对应的决策行为;
影响结果获取单元,用于从提取的所述关键词中,获取与所述影响结果库中的影响结果关键词相匹配的关键词,得到该业务类型数据集对应的影响结果。
作为一可选实施例,所述装置还包括:
查询单元(图中未示出),用于在接收用户的查询请求后,获取所述用户的权限标签;
图谱获取单元(图中未示出),用于从所述知识图谱中,获取与所述查询请求相匹配的目标知识图谱;
图谱展示单元(图中未示出),用于从所述目标知识图谱中,获取权限标签小于或等于所述用户的权限标签的节点以及该节点对应的所述待分析数据并展示。
实施例四
参见图4所示,本申请一实施例提供了一种计算机设备400,用于执行本申请提供的数据分析的方法,该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序,其中,上述处理器402执行上述计算机程序时实现上述数据分析的方法的步骤。
具体地,上述存储器401和处理器402能够为通用的存储器和处理器,这里不做具体限定,当处理器402运行存储器401存储的计算机程序时,能够执行上述数据分析的方法。
对应于本申请提供的数据分析的方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述数据分析的方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述数据分析的方法。
在本申请所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (9)

1.一种数据分析的方法,其特征在于,所述方法包括:
按照预先设置的事件分类策略,对待分析数据集中的待分析数据进行事件分类,得到事件数据集;
针对每一事件数据集,按照预先设置的业务类型分类策略,对该事件数据集中的待分析数据进行业务类型分类,得到业务类型数据集;
针对每一业务类型数据集,依据该业务类型数据集映射的决策库以及影响结果库,提取该业务类型数据集中待分析数据包含的决策行为和影响结果;
依据预设的语义分析策略,获取提取的决策行为对应的影响结果;
针对每一事件,分别以该事件、该事件对应的业务类型、提取的决策行为、提取的影响结果为节点,构建该事件的知识图谱;
其中,所述分别以该事件、该事件对应的业务类型、提取的决策行为、提取的影响结果为节点,构建该事件的知识图谱,包括:
以所述事件为第一级节点,以所述事件对应的各业务类型为第二级节点,将第一级节点与各第二级节点连接;
针对每一第二级节点,基于该第二级节点对应的业务类型数据集中包含的决策行为构建第三级决策行为节点,以及,基于该第二级节点对应的业务类型数据集中包含的影响结果构建第三级影响结果节点;
基于获取的决策行为对应的影响结果,连接决策行为对应的第三级决策行为节点与影响结果对应的第三级影响结果节点,得到所述事件的知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述按照预先设置的事件分类策略,对待分析数据集中的待分析数据进行事件分类,得到事件数据集,包括:
针对所述待分析数据集中的每一待分析数据,提取该待分析数据中的关键词,依据预设的语义模型库,对提取的关键词进行组合,得到符合所述语义模型库的关键词组合;
将得到的所述关键词组合,分别与预设的事件库中包含的每一事件进行匹配,依据匹配结果对所述待分析数据进行事件分类;
合并同一事件对应的所述待分析数据,得到事件数据集。
3.根据权利要求1所述的方法,其特征在于,所述按照预先设置的业务类型分类策略,对该事件数据集中的待分析数据进行业务类型分类,包括:
获取上传所述事件数据集中待分析数据的用户的标签,依据所述用户的标签匹配预设的业务类型库,对该待分析数据进行业务类型分类;或,
提取所述事件数据集中待分析数据中的关键词,与预设的业务类型库中的每一业务类型包含的业务关键词进行匹配,依据匹配结果对该待分析数据进行业务类型分类。
4.根据权利要求1所述的方法,其特征在于,所述依据该业务类型数据集映射的决策库以及影响结果库,提取该业务类型数据集中待分析数据包含的决策行为和影响结果,包括:
提取所述业务类型数据集中各待分析数据包含的关键词;
从提取的所述关键词中,获取与所述决策库中的决策行为关键词相匹配的关键词,得到该业务类型数据集对应的决策行为;
从提取的所述关键词中,获取与所述影响结果库中的影响结果关键词相匹配的关键词,得到该业务类型数据集对应的影响结果。
5.根据权利要求1所述的方法,其特征在于,所述依据预设的语义分析策略,获取提取的决策行为对应的影响结果,包括:
按照时间戳对所述业务类型数据集中各待分析数据进行排序;
分别标记所述决策行为与所述影响结果在所述待分析数据中的位置;
针对每一所述决策行为,基于标记的位置,选取与该决策行为的位置满足预设策略的影响结果;
依据预设的语义分析策略,从选取的影响结果中,确定所述决策行为对应的影响结果。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
为所述知识图谱中的每一节点以及该节点对应的所述待分析数据添加权限标签;
在接收用户的查询请求后,获取所述用户的权限标签;
从所述知识图谱中,获取与所述查询请求相匹配的目标知识图谱;
从所述目标知识图谱中,获取权限标签小于或等于所述用户的权限标签的节点以及该节点对应的所述待分析数据并展示。
7.一种数据分析的装置,其特征在于,包括:
事件分类模块,用于按照预先设置的事件分类策略,对待分析数据集中的待分析数据进行事件分类,得到事件数据集;
业务类型分类模块,用于针对每一事件数据集,按照预先设置的业务类型分类策略,对该事件数据集中的待分析数据进行业务类型分类,得到业务类型数据集;
数据提取模块,用于针对每一业务类型数据集,依据该业务类型数据集映射的决策库以及影响结果库,提取该业务类型数据集中待分析数据包含的决策行为和影响结果;
获取模块,用于依据预设的语义分析策略,获取提取的决策行为对应的影响结果;
图谱构建模块,用于针对每一事件,分别以该事件、该事件对应的业务类型、提取的决策行为、提取的影响结果为节点,构建该事件的知识图谱;
其中,在所述分别以该事件、该事件对应的业务类型、提取的决策行为、提取的影响结果为节点,构建该事件的知识图谱时,所述图谱构建模块,用于:
以所述事件为第一级节点,以所述事件对应的各业务类型为第二级节点,将第一级节点与各第二级节点连接;
针对每一第二级节点,基于该第二级节点对应的业务类型数据集中包含的决策行为构建第三级决策行为节点,以及,基于该第二级节点对应的业务类型数据集中包含的影响结果构建第三级影响结果节点;
基于获取的决策行为对应的影响结果,连接决策行为对应的第三级决策行为节点与影响结果对应的第三级影响结果节点,得到所述事件的知识图谱。
8.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至6任一所述的数据分析的方法的步骤。
9.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至6任一所述的数据分析的方法的步骤。
CN202010006079.4A 2020-01-03 2020-01-03 一种数据分析的方法及装置 Active CN111209400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010006079.4A CN111209400B (zh) 2020-01-03 2020-01-03 一种数据分析的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010006079.4A CN111209400B (zh) 2020-01-03 2020-01-03 一种数据分析的方法及装置

Publications (2)

Publication Number Publication Date
CN111209400A CN111209400A (zh) 2020-05-29
CN111209400B true CN111209400B (zh) 2023-06-16

Family

ID=70786642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010006079.4A Active CN111209400B (zh) 2020-01-03 2020-01-03 一种数据分析的方法及装置

Country Status (1)

Country Link
CN (1) CN111209400B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461775B (zh) * 2020-03-30 2023-03-24 支付宝(杭州)信息技术有限公司 事件对业务量的影响的确定方法及装置
CN111782710B (zh) * 2020-06-30 2023-07-25 北京百度网讯科技有限公司 数据存储方法、装置、计算设备和介质
CN112306687B (zh) * 2020-10-30 2024-06-21 深圳平安智汇企业信息管理有限公司 基于知识图谱的资源分配方法、装置、计算机设备和介质
CN112348251B (zh) * 2020-11-05 2024-02-09 傲林科技有限公司 一种决策辅助方法、装置、电子设备及存储介质
CN113076454B (zh) * 2021-04-25 2022-10-14 上海德衡数据科技有限公司 基于人工智能的元数分析方法及服务器
CN117196354B (zh) * 2023-11-08 2024-01-30 国网浙江省电力有限公司 一种多模态感知与领域图谱模型的智能决策方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107402925A (zh) * 2016-05-19 2017-11-28 阿里巴巴集团控股有限公司 信息推送方法及装置
CN107908633A (zh) * 2017-07-26 2018-04-13 北京师范大学珠海分校 一种基于知识图谱的财经事件推理方法
CN110232447A (zh) * 2019-04-28 2019-09-13 杭州实在智能科技有限公司 法律案件深度推理方法
CN110489520A (zh) * 2019-07-08 2019-11-22 平安科技(深圳)有限公司 基于知识图谱的事件处理方法、装置、设备和存储介质
CN110619568A (zh) * 2019-09-17 2019-12-27 王文斌 风险评估报告的生成方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090164387A1 (en) * 2007-04-17 2009-06-25 Semandex Networks Inc. Systems and methods for providing semantically enhanced financial information

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107402925A (zh) * 2016-05-19 2017-11-28 阿里巴巴集团控股有限公司 信息推送方法及装置
CN107908633A (zh) * 2017-07-26 2018-04-13 北京师范大学珠海分校 一种基于知识图谱的财经事件推理方法
CN110232447A (zh) * 2019-04-28 2019-09-13 杭州实在智能科技有限公司 法律案件深度推理方法
CN110489520A (zh) * 2019-07-08 2019-11-22 平安科技(深圳)有限公司 基于知识图谱的事件处理方法、装置、设备和存储介质
CN110619568A (zh) * 2019-09-17 2019-12-27 王文斌 风险评估报告的生成方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王莉."基于知识图谱的地铁工程事故知识建模与分析".《土木工程与管理学报》.2019,第36卷(第5期),第109-114,122页. *

Also Published As

Publication number Publication date
CN111209400A (zh) 2020-05-29

Similar Documents

Publication Publication Date Title
CN111209400B (zh) 一种数据分析的方法及装置
CN104781837B (zh) 用于通过使用基于事件的情绪分析来形成预测的系统和方法
CN111062750A (zh) 用户画像标签建模和分析方法、装置、设备及存储介质
CN105893406A (zh) 群体用户画像方法及系统
CN110310163A (zh) 一种精准制定营销策略的方法、设备及可读介质
CN112632405B (zh) 一种推荐方法、装置、设备及存储介质
CN111177129A (zh) 标签体系的构建方法、装置、设备及存储介质
CN113032403B (zh) 数据洞察方法、装置、电子设备及存储介质
CN115907568A (zh) 一种基于冒烟指数的非法金融活动监测方法及系统
CN115687787A (zh) 产业政策目标群画像构建方法、系统及存储介质
CN115204881A (zh) 一种数据处理方法、装置、设备及存储介质
CN112631889A (zh) 针对应用系统的画像方法、装置、设备及可读存储介质
CN113535966A (zh) 知识图谱的创建方法、信息获取的方法、装置和设备
CN110990692A (zh) 基于画像分析的数据处理方法及装置
CN113705201B (zh) 基于文本的事件概率预测评估算法、电子设备及存储介质
Sassi et al. Supporting ontology adaptation and versioning based on a graph of relevance
CN115099680A (zh) 风险管理方法、装置、设备及存储介质
CN114708073A (zh) 一种围标串标智能检测方法、装置、电子设备及存储介质
KR102432126B1 (ko) 데이터 이활용에 관한 데이터 준비 방법 및 데이터 이활용 시스템
CN111382343B (zh) 一种标签体系生成方法及装置
CN110309312B (zh) 一种关联事件获取方法及装置
CN115525377B (zh) 一种定性标签数据可视化方法、装置、电子设备及介质
CN112446673A (zh) 一种商标变更判断方法、系统、设备及可读存储介质
CN115392206B (zh) 基于wps/excel快速查询数据方法、装置、设备及存储介质
Mathew et al. A water utility industry conceptual asset management data warehouse model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant