CN105930461A - 实现关联信息节点可视化追踪的数据处理方法 - Google Patents

实现关联信息节点可视化追踪的数据处理方法 Download PDF

Info

Publication number
CN105930461A
CN105930461A CN201610255483.9A CN201610255483A CN105930461A CN 105930461 A CN105930461 A CN 105930461A CN 201610255483 A CN201610255483 A CN 201610255483A CN 105930461 A CN105930461 A CN 105930461A
Authority
CN
China
Prior art keywords
information
node
illustrative plates
data
visualization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610255483.9A
Other languages
English (en)
Inventor
何宏靖
范东来
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN201610255483.9A priority Critical patent/CN105930461A/zh
Publication of CN105930461A publication Critical patent/CN105930461A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及互联网信息处理技术领域,特别涉及实现关联信息节点可视化追踪的数据处理方法。本发明方法通过设置字段等方式,从海量的信息中分析出目标主体以及与目标主体直接相关的关联信息形成,根据直接关联关系抽象出一度关联关系,形成对应的数据记录;根据不同数据记录中的相同的信息单元逐级扩展关联信息;并在关联关系数据的基础上,使用可视化工具,将关联关系可视化、图谱化,图谱路径清晰可实现关联节点的逐一追踪,为相关的数据分析提供参考,极大的节省了用户用于相关数据分析的人力和时间成本。在目标背景分析、市场调研、市场风险防控、产品推广、广告传播等应用领域具有极高的使用价值。

Description

实现关联信息节点可视化追踪的数据处理方法
技术领域
本发明涉及互联网信息处理技术领域,特别涉及实现关联信息节点可视化追踪的数据处理方法。
背景技术
今世界早就进入了信息时代,随着信息的爆发式增长和积累,大数据时代已近来临,作为大数据最重要的特点:数据量大和价值密度低却是困扰如此海量数据信息挖掘利用的难题。实际上在纷繁复杂的信息海洋中,某些信息之间的联系往往比与其他信息之间的联系要紧密得多,而这些具有某种紧密联系的信息往往反映的是现实生活中的人与人之间或者团体之间的特定关系,这些特定关系会使其在相关的社会或者经济活动中相互影响或者牵制。
针对特定的信息目标,如何分析该目标与其他目标之间的关联关系在很多领域具有更加实际的意义,因为具有关联关系的目标在进行各种活动时往往比单独的简单个体具有更大的影响面,而且具有关联关系的目标在对外建立各种活动时,受到内部的关联关系的相互牵制或者支持,会比简单目标的活动轨迹更加复杂。
在这样的背景下,通过数据挖掘在海量的数据信息中分析出与目标信息相关联的信息,并通过数据可视化工具将信息之间的关联关系直观的展示出来,将极大的节省用户用于数据整理和数据分析所耗费的人力、物力;在目标背景分析、市场调研、市场风险防控、产品推广、广告传播等应用领域具有极高的使用价值。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供实现关联信息节点可视化追踪的数据处理方法,本发明方法通过设置字段等方式,从海量的信息中分析出目标主体以及与目标主体直接相关的关联信息形成,根据直接关联关系成一度关联关系,形成对应的数据记录;根据不同数据记录中的相同的信息单元逐级扩展关联信息;并在关联关系数据的基础上,使用可视化工具,将关联关系可视化、图谱化,为相关的数据分析提供参考,极大的节省了用户用于相关数据分析的人力和时间成本。
为实现上述目的,本发明实现关联信息节点可视化追踪的数据处理方法,包括以下步骤:
(1)从原始数据中的每条基础数据中,根据设置的字段提取出对应的信息,形成相应的数据记录;
(2)在一条数据记录中包含第一信息和第二信息,其中第二信息为第一信息的一度关联信息;在第二数据记录中包括第二信息和第三信息,其中第三信息是第二信息的一度关联信息;
(3)将所述第三信息抽象成第一信息的二度关联信息;
依次类推,抽象出以第一信息为起点的N度关联信息,其中N≥1;
(4)根据所述步骤(3)形成的关联关系,利用可视化工具将第一信息抽象成0级节点,将第二信息作为第一信息的1级子节点扩展到第一信息节点的外围,将第三信息作为第二信息的1级子节点扩展到第二信息节点的外围;
依次类推,扩展出以第一信息节点为中心的各级节点依次扩展在对应上一级节点外围的关联图谱;各级母节点与子节点之间用边来连接。
进一步的,关联关系的建立遵循广度优先原则。
进一步的,关联图谱绘制的节点扩展遵循广度优先原则。
作为一种优选,其可视化过程为:将目标信息置于可视化图的中心;将相同级数的节点分散在一个圆周上,并围绕在上一级节点围成的圆的外面。
进一步的,所述关联图谱中,使用不同的颜色和,或不同形状来区分各级节点。
进一步的,所述关联图谱中,使用不同颜色和,或不同形状来区分不同类型的节点。
作为一种优选,所述步骤(4)中所采用的可视化工具为:yEd、D3或者jcharts。
进一步的,所关联图谱通过Web端口提供给用户查询使用。
与现有技术相比,本发明的有益效果:本实现关联信息节点可视化追踪的数据处理方法,通过设置字段等方式,从海量的信息中分析出目标主体以及与目标主体直接相关的关联信息形成,根据直接关联关系成一度关联关系,形成对应的数据记录;根据不同数据记录中的相同的信息单元逐级扩展关联信息;整理出目标信息的关联关系数据;并在关联关系数据的基础上,使用可视化工具,将关联关系可视化、图谱化,达到关联路径清晰、关联节点可延路径逐一追踪的作用,为相关的数据分析提供参考,极大的节省了用户用于相关数据分析的人力和时间成本。
并且本发明在关联信息图谱化的基础上,通过颜色和图形将属于不同关联级数或者类型的节点区分开来,丰富了关联图谱显示的数据信息内容和层次。使得用户只通过关联图谱可以清楚的分别出每个节点的级别和类型,进一步节省了数据整理分析的人力物力成本。在数据信息挖取,目标信息背景分析,关联问题追踪和分析等领域具有广阔的应用前景。
附图说明:
图1是实现关联信息节点可视化追踪的数据处理方法的实现步骤示意图。
图2为本发明方法关联信息计算原理示意图。
图3为实施例根据字段提取的数据记录示意图。
图4为一度关联关系示意图。
图5为以a为0级节点可视化3度关联图谱示意图。
图6为以f为0级节点的可视化3度关联图谱示意图。
图7为以k为0级节点的可视化3度关联图谱示意图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明提供实现关联信息节点可视化追踪的数据处理方法,包括如图1所示的以下步骤:
(1)从原始数据中的每条基础数据中,根据设置的字段提取出对应的信息,形成相应的数据记录;字段的设置根据数据分析的目的而定,比如将目标信息设定为企业名称,而其他信息设置为企业相关的董事、高管和投资人;在相关网页中或者企业信息后,就可以通过设置上述字段将各个企业的中的基本信息提取出来。再根据各个公司相关信息中的共同信息就可以建立每个企业的关联背景信息。
(2)在一条数据记录中包含第一信息和第二信息,其中第二信息为第一信息的一度关联信息;在第二数据记录中包括第二信息和第三信息,其中第三信息是第二信息的一度关联信息;其中所述第一信息、第二信息以及第三信息是指信息的内容,不代表信息的顺序。
(3)将所述第三信息抽象成第一信息的二度关联信息;依次类推,抽象出以第一信息为起点的N度关联信息,其中N≥1。通过本发明方法所述步骤(3)可以目标信息为起点(起点的选择根据分析需要来设置),逐级查找出与目标信息相关联的其他信息和关联度数,关联信息的计算原理如图2所示。
(4)根据所述步骤(3)形成的关联关系,利用可视化工具将第一信息抽象成0级节点,将第二信息作为第一信息的1级子节点扩展到第一信息节点的外围,将第三信息作为第二信息的1级子节点扩展到第二信息节点的外围;依次类推,扩展出以第一信息节点为中心的各级节点依次扩展在对应上一级节点外围的关联图谱;各级母节点与子节点之间用边来连接。在分析出关联信息的基础上,将关联信息之间的关联关系通过可视化、图谱化的方式直观的展示出来,方便用户的信息查找和问题分析。并且用户可以根据关联图谱中的关联路径可以方便的实现关联关系的节点追踪。
进一步的,关联关系的建立和关联图谱的绘制遵循广度优先原则。广度优先原则扩展节点的顺序是将某一层上的所有节点都搜索到之后才向下一层搜索;这样扩展节点的好处在于,所形成的图谱以目标信息为中心逐级扩展节点,用户根据分析深度的需要选择展示的关联图谱节点最高级数,在选择的级数以内,更够显示全部节点而不会出现遗漏,方便用户根据需要获得所需的全量数据。
进一步的,在进行关联图谱绘制时,将已计算过的0级节点打上墓碑标记(即在下一级关联信息搜索时,不再计算该节点;这样的做法可以有效的避免闭合路径重复路径的出现,保证关联图谱精炼简洁),搜索出各1级节点的关联信息,并将其抽象为对应1级节点的子节点,并将其定义为2级节点,并将各1级节点打上墓碑标记。
作为一种优选,其可视化过程为:将目标信息置于可视化图的中心;将相同级数的节点分散在一个圆周上,并围绕在上一级节点围成的圆的外面。将相同级数的节点分散在一个圆周上,并围绕在上一级节点围成的圆的外面。这样图谱显示方式,节点层次感很强,方便用户直观了解目标信息的关联信息分布情况。
进一步的,所述关联图谱中,使用不同的颜色和,或不同形状来区分各级节点。将不同级别的节点用对应颜色或者形状来表示,便于用户进行相应的区分,使得节点的关联图谱中显示的信息更加丰富,分析更加直观简洁。
进一步的,所述关联图谱中,使用不同颜色和,或不同形状来区分不同类型的节点。根据用户的相关字段设置,提取出来的关联信息对应的节点类型可能不同,例如企业为目标信息分析其背景时,对应的投资者或者股东可能是企业也有可能是自然人,将这些不同类型的节点使用不同颜色和或者形状来表示,便于用户进行相应的区分的,进而便于根据步同的节点类型来进行相关问题的归类和追踪。
作为一种优选,所述步骤(4)中所采用的可视化工具为:yEd、D3、GoogleChart API或者jcharts。
进一步的,所关联图谱通过Web端口提供给用户查询使用。为了方便问题的分析,节省相关从业人员的重复性劳动,通过本发明方法实习的可视化关联图谱可以网页查询的方式提供给用户,这样用户在进行目标信息分析时,不再需在庞大的基础数据中要逐个查找资料,逐个的去构建关联关系,再逐个的去分析目标信息的庞大关联网络,而是通过网页直接查询经过本发明方法实现的目标信息的关联图谱,缩短数据分析时间提高决策制定的效率。
实施例1
在原始数据中经过字段(设置的字段包括:第一字段、第二字段、第三字段)提取,提取出来3条数据记录,如图3所示:其中第一数据记录包含的根据第一字段提取的内容a,第二字段提取的内容b,第三字段所对应的信息内容为c、d、e;第二条数据记录中包含根据第一字段提取的内容f,第二字段提取的内容g、h第三字段对应的信息内容c、d、i、j;第三条数据记录中包含的根据第一字段提取内容k,第二字段提取的内容a、d,第三字段对应的信息内容l、m、n、o。以第一字段对应的信息为目标信息,则分别构建出的以a、f、k为目标信息的一度关联关系为如图4所示,(a-b)(a-c)(a-d)(a-e),(f-g)(f-h)(f-c)(f-d)(f-i)(f-j),(k-a)(k-d)(k-l)(k-m)(k-n)(k-o),根据本发明关联关系的计算方式可以得到以a、f、k为目标信息的二度关联关系为(a-c-f)(a-d-f),(f-c-a)(f-d-a),(k-a-b)(k-a-c)(k-a-d)(k-a-e),(k-d-a)(k-d-f),三度关联关系为(a-c-f-g)(a-c-f-h)(a-c-f-d)(a-c-f-i)(a-c-f-j)、(a-d-f-g)(a-d-f-h)(a-d-f-c)(a-d-f-i)(a-d-f-j),(f-c-a-b)(f-c-a-d)(f-c-a-e)(f-d-a-b)(f-d-a-c)(f-d-a-e);(k-a-c-f)(k-a-d-f)(k-d-f-g)(k-d-f-h)(k-d-f-c)(k-d-f-i)(k-d-f-j)......将上述关联关系中的信息抽象成节点,并采用可视化工具,绘制出以a、f、k为0级节点的三级以内的关联图谱,分别如图5、图6、图7所示。
使用例如yEd、jcharts、D3、Google Chart API等可视化工具以目标信息对应的0节点为中心,逐级扩展子节点,将下一级节点扩展到上一节点的外围;最终形成以目标信息为中心的关联图谱。实际上针对每个目标信息的个度关联信息可能都是多个的,而且随着关联度数的增加,扩展出来的关联信息数量更多;多度关联信息图谱均可以按照上述过程逐级扩展出来。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化时显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (8)

1.实现关联信息节点可视化追踪的数据处理方法,其特征在于,包括以下实现步骤:
(1)从原始数据中的每条基础数据中,根据设置的字段提取出对应的信息,形成相应的数据记录;
(2)在一条数据记录中包含第一信息和第二信息,其中第二信息为第一信息的一度关联信息;在第二数据记录中包括第二信息和第三信息,其中第三信息是第二信息的一度关联信息;
(3)将所述第三信息抽象成第一信息的二度关联信息;
依次类推,抽象出以第一信息为起点的N度关联信息,其中N≥1;
(4)根据所述步骤(3)形成的关联关系,利用可视化工具将第一信息抽象成0级节点,将第二信息作为第一信息的1级子节点扩展到第一信息节点的外围,将第三信息作为第二信息的1级子节点扩展到第二信息节点的外围;
依次类推,扩展出以第一信息节点为中心的各级节点依次扩展在对应上一级节点外围的关联图谱;各级母节点与子节点之间用边来连接。
2.如权利要求1所述的方法,其特征在于,所述步骤(3)中,关联关系的建立遵循广度优先原则。
3.如权利要求1所述的方法,其特征在于,所述步骤(4)中,关联图谱绘制的节点扩展遵循广度优先原则。
4.如权利要求1至3之一所述的方法,其特征在于,其可视化过程为:将目标信息置于可视化图的中心;将相同级数的节点分散在一个圆周上,并围绕在上一级节点围成的圆的外面。
5.如权利要求4所述的方法,其特征在于,所述关联图谱中,使用不同的颜色和,或不同形状来区分各级节点。
6.如权利要求5所述的方法,其特征在于,所述关联图谱中,使用不同颜色和,或不同形状来区分不同类型的节点。
7.如权利要求6所述的方法,其特征在于,所述步骤(4)中所采用的可视化工具为:yEd、D3或者jcharts。
8.如权利要求7所述的方法,其特征在于,所关联图谱通过Web端口提供给用户查询使用。
CN201610255483.9A 2016-04-21 2016-04-21 实现关联信息节点可视化追踪的数据处理方法 Pending CN105930461A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610255483.9A CN105930461A (zh) 2016-04-21 2016-04-21 实现关联信息节点可视化追踪的数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610255483.9A CN105930461A (zh) 2016-04-21 2016-04-21 实现关联信息节点可视化追踪的数据处理方法

Publications (1)

Publication Number Publication Date
CN105930461A true CN105930461A (zh) 2016-09-07

Family

ID=56839757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610255483.9A Pending CN105930461A (zh) 2016-04-21 2016-04-21 实现关联信息节点可视化追踪的数据处理方法

Country Status (1)

Country Link
CN (1) CN105930461A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291802A (zh) * 2017-05-12 2017-10-24 北京金堤科技有限公司 关系图谱展示方法及装置
CN107656982A (zh) * 2017-09-08 2018-02-02 华智水稻生物技术有限公司 一种系谱追溯可视化方法及装置
CN107870911A (zh) * 2016-09-23 2018-04-03 腾讯科技(深圳)有限公司 一种数据可视化展示方法和设备
CN108268550A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 路径图谱的绘制方法及装置
CN109002544A (zh) * 2018-07-25 2018-12-14 北京金堤科技有限公司 一种数据处理方法、装置和计算机可读介质
CN112613763A (zh) * 2020-12-25 2021-04-06 北京知因智慧科技有限公司 数据传导方法及装置
CN112612937A (zh) * 2020-12-07 2021-04-06 深圳价值在线信息科技股份有限公司 一种关联信息获取方法及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729412A (zh) * 2013-12-11 2014-04-16 《中国激光》杂志社有限公司 适用于大规模文献集群移动数字出版的系统和方法
CN103886046A (zh) * 2014-03-11 2014-06-25 中国信息安全测评中心 一种面向Web数据交换的自动语义抽取的方法
CN104462227A (zh) * 2014-11-13 2015-03-25 中国测绘科学研究院 一种图形化知识谱系自动构建方法
CN105488130A (zh) * 2015-11-25 2016-04-13 成都数联铭品科技有限公司 一种关联数据可视化展示方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729412A (zh) * 2013-12-11 2014-04-16 《中国激光》杂志社有限公司 适用于大规模文献集群移动数字出版的系统和方法
CN103886046A (zh) * 2014-03-11 2014-06-25 中国信息安全测评中心 一种面向Web数据交换的自动语义抽取的方法
CN104462227A (zh) * 2014-11-13 2015-03-25 中国测绘科学研究院 一种图形化知识谱系自动构建方法
CN105488130A (zh) * 2015-11-25 2016-04-13 成都数联铭品科技有限公司 一种关联数据可视化展示方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107870911A (zh) * 2016-09-23 2018-04-03 腾讯科技(深圳)有限公司 一种数据可视化展示方法和设备
CN108268550A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 路径图谱的绘制方法及装置
CN107291802A (zh) * 2017-05-12 2017-10-24 北京金堤科技有限公司 关系图谱展示方法及装置
CN107656982A (zh) * 2017-09-08 2018-02-02 华智水稻生物技术有限公司 一种系谱追溯可视化方法及装置
CN109002544A (zh) * 2018-07-25 2018-12-14 北京金堤科技有限公司 一种数据处理方法、装置和计算机可读介质
CN109002544B (zh) * 2018-07-25 2020-11-06 北京金堤科技有限公司 一种数据处理方法、装置和计算机可读介质
CN112612937A (zh) * 2020-12-07 2021-04-06 深圳价值在线信息科技股份有限公司 一种关联信息获取方法及设备
CN112613763A (zh) * 2020-12-25 2021-04-06 北京知因智慧科技有限公司 数据传导方法及装置
CN112613763B (zh) * 2020-12-25 2024-04-16 北京知因智慧科技有限公司 数据传导方法及装置

Similar Documents

Publication Publication Date Title
CN105930461A (zh) 实现关联信息节点可视化追踪的数据处理方法
Netek et al. Implementation of heat maps in geographical information system–exploratory study on traffic accident data
CN105488130A (zh) 一种关联数据可视化展示方法
Bornmann et al. Mapping excellence in the geography of science: An approach based on Scopus data
Zheng et al. Understanding the tourist mobility using GPS: How similar are the tourists?
CN105426499A (zh) 一种数据可视化实现方法
CN105893604A (zh) 一种海量关联信息处理及可视化实现方法
Marwick What attributes are important for the measurement of assemblage reduction intensity? Results from an experimental stone artefact assemblage with relevance to the Hoabinhian of mainland Southeast Asia
CN107358264A (zh) 一种基于机器学习算法进行图像分析的方法
Cui et al. Detecting community structure via the maximal sub-graphs and belonging degrees in complex networks
Li et al. Cluster analysis of the relationship between carbon dioxide emissions and economic growth
Veeramuthu et al. Analysis of student result using clustering techniques
Yao et al. Sensing urban land-use patterns by integrating Google Tensorflow and scene-classification models
CN105956018A (zh) 基于云计算平台的海量关联数据分析及可视化实现方法
Jia et al. Learning large-scale plantation mapping from imperfect annotators
Froemelt et al. A two-stage clustering approach to investigate lifestyle carbon footprints in two Australian cities
Zaffar et al. Role of FCBF feature selection in educational data mining
Huang et al. Development of global soil erosion research at the watershed scale: a bibliometric analysis of the past decade
Yu et al. Computational intelligent data analysis for sustainable development
Kandemir Assessment of coal deposit using multivariate statistical analysis techniques
Batist Obsidian Circulation Networks in Southwest Asia and Anatolia (12,000-5700 BP): A Comparative Approach
Szalkowski et al. Defining and measuring the effects of digital technologies on social sustainability: A systematic literature review
van Helden et al. The arch-i-scan project: Artificial intelligence and 3d simulation for developing new approaches to roman foodways
Petelin et al. Frequent subgraph mining in oceanographic multi-level directed graphs
Zhu et al. Marine Environment Monitoring Based on Virtual Reality and Fuzzy C‐Means Clustering Algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160907