CN111538895A - 一种基于图网络的数据处理系统 - Google Patents

一种基于图网络的数据处理系统 Download PDF

Info

Publication number
CN111538895A
CN111538895A CN202010646899.XA CN202010646899A CN111538895A CN 111538895 A CN111538895 A CN 111538895A CN 202010646899 A CN202010646899 A CN 202010646899A CN 111538895 A CN111538895 A CN 111538895A
Authority
CN
China
Prior art keywords
graph network
information
attribute
processing system
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010646899.XA
Other languages
English (en)
Inventor
张学锋
刘世林
康青杨
韩远
吴桐
曾途
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN202010646899.XA priority Critical patent/CN111538895A/zh
Publication of CN111538895A publication Critical patent/CN111538895A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Abstract

本发明实施例公开了一种基于图网络的数据处理系统,所述基于图网络的数据处理系统包括:数据收集装置,利用爬虫技术从公开网页中爬取各个个体的基本信息,所述基本信息包括非结构化信息,并存储于数据库;图网络构建装置,从所述数据库中抽取信息,并以一个个体为一个节点构建图网络,连接具有关联关系的节点,所述非结构化信息作为节点的若干个属性,并将每个属性编码为属性向量,得到若干个属性向量。通过本发明系统构建的图网络,在基于图网络的应用时,可以引入更多的属性信息,因此可以提高计算结果的准确度。

Description

一种基于图网络的数据处理系统
技术领域
本发明属于大数据技术领域,具体的,本发明涉及一种基于图网络的数据处理系统。
背景技术
企业在经营过程中不可能是独立存在的,必然会与其他企业或个人或组织产生关联关系,建立企业之间的相互关系,在后续应用分析时不仅可以基于企业本身的数据,还可基于具有关联关系的企业的数据,进而可以提高分析结果的准确性。目前建立企业间的相互关系的方法是建立企业的关系网络图(或称为企业的知识图谱,或图网络),也就是图中的每一个节点为一个企业,将具有关联关系的节点连接构成边,更完善的处理是在每条边上展示出具体关系,以及将企业在经营活动中产生的全部或部分数据展示在节点上。然而,通过这种方式构建的图网络存在一定的技术缺陷,例如,各个节点所具有的数据都是以信息的形式展示在节点上,应用图网络进行相应计算时,这些数据很难参与运算,尤其是非结构化数据(例如企业介绍、产品图片、财务报表等),继而使得计算结果的准确度有限。
发明内容
本发明的目的是解决如何使非结构化数据可以参与图计算,进而提高计算结果的准确性的技术问题,为此,提供了一种基于图网络的数据处理系统。
为了达到上述目的,本申请的实施例所采用的技术方案如下:
一种基于图网络的数据处理系统,所述基于图网络的数据处理系统包括:
数据收集装置,利用爬虫技术从公开网页中爬取各个个体的基本信息,所述基本信息包括非结构化信息,并存储于数据库;
图网络构建装置,从所述数据库中抽取信息,并以一个个体为一个节点构建图网络,连接具有关联关系的节点,所述非结构化信息作为节点的若干个属性,并将每个属性编码为属性向量,得到若干个属性向量。
上述方案中,数据收集装置利用爬虫技术可以从公开网页中获取各个个体的基本信息,然后图网络构建装置以个体为节点,以个体的基本信息作为节点的属性,构建由各个企业节点组成的图网络,用图网络来表征(表达)企业及企业间的关系。针对于非结构化信息,通过将其编码为向量,以向量的形式表征,基于图网络的应用时,向量可以参与计算,进而实现了将非结构化信息参与图计算的目的,因此可以提高计算结果的准确性。
所述基本信息中还包括结构化信息,所述结构化信息作为节点的若干个属性,所述图网络构建装置还用于将所述结构化信息编码为属性向量。
结构化信息例如是注册资本、性别、行业等属性,针对于结构化的信息,传统方法可能是直接展示,或者是以表格的形式展示,这些结构信息在图计算时可能会被引入,也可能不会被引入。上述方案中,通过将结构化信息也编码为向量的形式表征,因此在图计算时可以保障这些信息都可以被引入而参与计算。另外,通过编码成向量的形式参与计算,相比于直接以原数据(如性别)参与计算,可以简化后期的计算量,进而提高处理效率。也就是说,本方案可以解决如何提高图网络计算时的处理效率的技术问题。
即是说,用户终端要应用时,可以直接基于该图网络进行相应的图计算,由于计算时直接是基于表征向量进行,因此可以极大简化应用终端的运算过程,不仅可以提高处理效率,而且可以降低应用终端的硬件性能,继而降低硬件成本,对于大数据应用,这是非常具有积极意义的。
所述图网络构建装置将若干个属性中指定的属性编码为属性向量。
基于应用的不同,并非是需要利用所有的属性,因此根据具体应用,选择性地对指定的部分属性进行编码,可以避免非必要属性对编码结果的干扰,还可以提高编码效率,即解决了如何进一步提高编码效率和编码结果准确性的问题。例如,对于期企业网址的属性,在一般的图网络应用中,都不会使用到这个属性,因此,可以不将该属性编码为向量,如此就可以简化编码时的运算量,提高编码效率。
所述图网络构建装置通过预先训练好的属性编码器对属性进行编码,编码为表征向量。
通过预先训练好的属性编码器对相应的属性进行编码,然后在图网络模型训练过程中再根据应用目的调整属性编码结果,相比于每次根据应用目的而针对性地建模并得到属性的表征向量的方式,此种方式更具有普遍适用性,也可以加快编码效率。
所述基本信息包括个体标识和经营活动信息,所述数据收集装置将所述个体标识和经营活动信息建立关联关系后再存储。
数据收集装置从一个或多个网页中爬取到信息后,可以直接存储,但是这样会不利于快速查找。本方案中,通过将个体标识和经营活动信息建立关联关系后再存储,可以以个体标识为ID建立目录,更有利于快速查找所需的数据,即解决如何快速查找数据的问题。
还包括若干个应用终端,所述应用终端从图网络构建装置中获取构建的图网络,以便于基于所述图网络执行指定任务的计算。
与现有技术相比,本公开的实施例具有以下有益效果:
(1)通过通过将非结构化信息以向量的形式表征,基于图网络计算时可以引入这些属性特征,进而提高计算结果的准确性。
(2)相比于基于原始数据的计算,通过将节点数据转换为向量的形式表达,基于向量的计算,极大地降低了基于图网络的运算量,进而提高了处理效率。
(3)由于可以极大地降低运算量,进而可以降低对用户终端的硬件性能要求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的实施例中基于图网络的数据处理系统的结构图。
图2为采用BERT模型对企业介绍属性进行编码的示意图。
图3为采用imageNet预训练好的VGG16网络对图片属性进行编码的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
请参阅图1,本实施例中提供的基于图网络的数据处理系统包括数据收集装置10、图网络构建装置20和若干个应用终端30,数据收集装置10、图网络构建装置20和应用终端30之间相互可以进行数据交互。例如,数据收集装置收集数据后可以供图网络构建装置使用,以构建图网络,应用终端则可以从图网络构建装置中直接获取其构建的图网络,进而进行相应的计算应用。
容易理解的,应用终端是基于应用而言的,如果仅基于前期的数据处理,所述基于图网络的数据处理系统也可以仅包括数据收集装置和图网络构建装置。
数据收集装置、图网络构建装置和应用终端都可以是服务器、平板电脑、笔记本电脑或者台式电脑等设备,甚至是具有较强处理能力的掌上电脑、智能手机等设备。
更具体地,数据收集装置利用爬虫技术从公开网页中爬取各个个体的基本信息,并存储于数据库。
数据收集装置爬取到数据后,可以直接存入数据库,但是这样可能不利于后期图网络构建装置的数据调取,因此更优选的处理是,将数据与个体建立关联关系后再存储。例如,当基本信息包括个体标识和经营活动信息时,将个体标识和经营活动信息建立关联关系后,再存入数据库。
由于企业在经营活动中会与企业、个人、组织等建立关系,因此图网络中可能包含企业、个人和组织,因此,个体可能是企业,也可能是个人,也可能是组织。
以企业为例,此处的经营活动信息可以包括例如企业性质、所属行业、所在省份、企业的注册资本、经营范围、财务报表,或者其他信息(贷款、税务、社保、水电),以及新闻舆情等,以个人为例,经营活动信息可以包括姓名、年龄、性别、个人简介等。基于不同应用需要不同的信息,但是在数据收集时可以多收集一些存储,以便需要时可用。
此处将个体标识和经营活动信息建立关联关系,其目的是将具体信息与相应企业对应起来,避免数据存储错误,同时可以基于个体标识制作目录,以便于更加快速地从数据库中抽取出对应的信息。另外,对于同一个企业,更多的情况是从不同的网页中获取不同的信息,以个体标识为对象,将从各个网页中获取的数据整合起来,建立关联关系后再存储。
容易理解的,此处的个体标识是企业ID的表示,例如可以是企业名称,也可以采用例如组织机构代码等信息作为企业ID。
更具体地,图网络构建装置则是从所述数据库中抽取信息,并以一个企业为一个节点构建图网络。一个企业通常会与很多个体关联,因此图网络中包括若干个节点,连接具有关联关系的节点。个体的基本信息作为节点的属性,并将节点编码为表征向量。一般地,如上所述,个体的基本信息包含多种信息,一种信息即为一个属性,因此一个节点具有多种属性(例如所属行业、注册资本、财务报表等分别是一个属性)。一般地,个体的基本信息既包括结构化信息,也包括非结构化信息,非结构化信息例如是企业简介、个人大头贴、财务报表等,即文本、图片、表格等;结构化信息例如是企业注册资本、个人年龄、性别、企业行业等,即数值型信息和分类型信息。
在一个简化的方案中,图网络构建装置可以仅是将非结构化信息编码属性向量,即,将每一个属于非结构化信息的属性编码为向量进行表征。
在更优化的方案中,图网络构建装置将非结构化信息和结构化信息都编码属性向量,即,将每一个属于非结构化信息的属性编码为向量进行表征,每一个属于结构化信息的属性也编码为向量进行表征。
更具体地,图网络构建装置在构建图网络时,针对于每个节点,将若干个属性中的每一个属性编码为向量,由此可以得到若干个属性向量,也可称为节点属性向量。
各个节点可以按照各自的方式将属性编码成向量。将属性编码为向量,可以有多种方式。例如,一种实施方式是对图网络中所有节点的属性进行建模,将其编码为定长向量,即建模方式构建的是指定结构的属性转换模型,得到的向量即为想要的表征向量。
作为另一种实施方式,也可以是直接使用训练好的属性编码器,对节点的各个属性进行编码。属性编码器可以通过无监督(如:BERT或者基于海量语料的其他无监督训练方法)训练方法、或其他专门数据集(如:分词数据集、基于ImageNet的图像分类神经网络)的有监督方式进行训练。用户训练好属性编码器后其他用户如有需要可以直接使用,即实现属性编码器的共享共用,继而其他用户在对节点的属性进行编码时就可以避免再次训练,继而提高编码效率,同时也节省计算消耗。
需要理解的是,对于不同的属性,所采用的属性编码器可能不同。例如,对于企业介绍这个属性,采用预训练好的BERT模型编码。用[CLS]对应的向量来代表整个文本的编码向量,[SEP]表示句子分隔符。那么多个句子可以输入给BERT模型,如图2所示。Tokenembedding直接是词向量(预训练模型中已经自带词到词向量的转换)。Segment embedding可以视作句子的id经过one-hot编码。Position embedding 位置id经过不同周期的正余弦的转化,得到的位置向量。经过BERT的多层transformer结构后,提取[CLS]对应的向量作为整个企业介绍属性的表征向量。
又例如,对于节点中的图片属性,如个人的大头贴。把图片通过经过imageNet预训练好的VGG16网络,提取其最后一个隐层的编码向量,作为图片的表征向量。如图3所示,在imageNet中,需要进行千分类,这里,只使用4096维向量作为图片的表征向量。
而对比一些简单的信息,例如数值化的信息(例如年龄、注册资本等),可以是归一化编码;又例如对于分类型信息(例如性别、行业等),可以采用one-hot编码等方式。
又例如,对于节点中的表格属性,例如财务报表,可以将表格进行拆解,然后根据拆解出来的字段进行编码。例如拆解出来是数值化的信息,则通过归一化编码。
也容易理解的,上述编码仅是可实施方式的举例,对于各种属性的编码具体采用何种方式,本方案中不做限定。
此处需要注意的是,为了简化运算以提高计算效率,在将属性编码为属性向量时,可以限定各个属性向量的长度一致。
在构建图网络时,针对于每个节点中的所有属性,一种处理方式是将所有属于结构化信息和/或非结构化信息的属性都编码为向量进行表征,但是这样有一个缺陷是,编码时图网络构建装置的运算量可能较大,因为通常一个节点所具有的属性较多。
因此,作为另一种实施方式,在编码前,先对需要编码的属性进行指定,编码时只对需要编码的属性(或称为准备利用的属性)进行编码。也容易理解的,属性是否被利用是基于具体应用目的而言的,可能某些属性在本次应用中不准备利用,但是在下一次应用中可能准备利用。此处,可以是基于常规或潜在的图网络应用考虑,将常用或潜在有价值的属性以向量的形式表征。
图网络构建装置构建得到图网络后,应用终端即可以从图网络构建装置中获取该图网络,以便于基于所述图网络执行指定任务的计算。例如,例如基于该图网络对企业的纳税能力进行预测,计算时可以将纳税报表、营业额等属性编码得到的向量都参与计算,进而提高计算结果的准确性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (6)

1.一种基于图网络的数据处理系统,其特征在于,所述基于图网络的数据处理系统包括:
数据收集装置,利用爬虫技术从公开网页中爬取各个个体的基本信息,所述基本信息包括非结构化信息,并存储于数据库;
图网络构建装置,从所述数据库中抽取信息,并以一个个体为一个节点构建图网络,连接具有关联关系的节点,所述非结构化信息作为节点的若干个属性,并将每个属性编码为属性向量,得到若干个属性向量。
2.根据权利要求1所述的基于图网络的数据处理系统,其特征在于,所述基本信息中还包括结构化信息,所述结构化信息作为节点的若干个属性,所述图网络构建装置还用于将所述结构化信息编码为属性向量。
3.根据权利要求1或2所述的基于图网络的数据处理系统,其特征在于,所述图网络构建装置将若干个属性中指定的属性编码为属性向量。
4.根据权利要求1或2所述的基于图网络的数据处理系统,其特征在于,所述图网络构建装置通过预先训练好的属性编码器对属性进行编码,编码为属性向量。
5.根据权利要求1所述的基于图网络的数据处理系统,其特征在于,所述基本信息包括个体标识和经营活动信息,所述数据收集装置将所述个体标识和经营活动信息建立关联关系后再存储。
6.根据权利要求1所述的基于图网络的数据处理系统,其特征在于,还包括若干个应用终端,所述应用终端从图网络构建装置中获取构建的图网络,以便于基于所述图网络执行指定任务的计算。
CN202010646899.XA 2020-07-07 2020-07-07 一种基于图网络的数据处理系统 Pending CN111538895A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010646899.XA CN111538895A (zh) 2020-07-07 2020-07-07 一种基于图网络的数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010646899.XA CN111538895A (zh) 2020-07-07 2020-07-07 一种基于图网络的数据处理系统

Publications (1)

Publication Number Publication Date
CN111538895A true CN111538895A (zh) 2020-08-14

Family

ID=71978356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010646899.XA Pending CN111538895A (zh) 2020-07-07 2020-07-07 一种基于图网络的数据处理系统

Country Status (1)

Country Link
CN (1) CN111538895A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860534A (zh) * 2021-03-17 2021-05-28 上海壁仞智能科技有限公司 硬件架构性能评估和性能优化方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN109597856A (zh) * 2018-12-05 2019-04-09 北京知道创宇信息技术有限公司 一种数据处理方法、装置、电子设备及存储介质
CN110032648A (zh) * 2019-03-19 2019-07-19 微医云(杭州)控股有限公司 一种基于医学领域实体的病历结构化解析方法
CN110390023A (zh) * 2019-07-02 2019-10-29 安徽继远软件有限公司 一种基于改进bert模型的知识图谱构建方法
CN110765117A (zh) * 2019-09-30 2020-02-07 中国建设银行股份有限公司 欺诈识别方法、装置、电子设备及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN109597856A (zh) * 2018-12-05 2019-04-09 北京知道创宇信息技术有限公司 一种数据处理方法、装置、电子设备及存储介质
CN110032648A (zh) * 2019-03-19 2019-07-19 微医云(杭州)控股有限公司 一种基于医学领域实体的病历结构化解析方法
CN110390023A (zh) * 2019-07-02 2019-10-29 安徽继远软件有限公司 一种基于改进bert模型的知识图谱构建方法
CN110765117A (zh) * 2019-09-30 2020-02-07 中国建设银行股份有限公司 欺诈识别方法、装置、电子设备及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860534A (zh) * 2021-03-17 2021-05-28 上海壁仞智能科技有限公司 硬件架构性能评估和性能优化方法及装置
CN112860534B (zh) * 2021-03-17 2022-10-25 上海壁仞智能科技有限公司 硬件架构性能评估和性能优化方法及装置

Similar Documents

Publication Publication Date Title
US8972408B1 (en) Methods, systems, and articles of manufacture for addressing popular topics in a social sphere
US11501080B2 (en) Sentence phrase generation
WO2021169842A1 (zh) 数据更新方法、装置、电子设备及计算机可读存储介质
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
Chen et al. Bert-log: Anomaly detection for system logs based on pre-trained language model
Kejriwal et al. On detecting urgency in short crisis messages using minimal supervision and transfer learning
CN110457585B (zh) 负面文本的推送方法、装置、系统及计算机设备
CN112231569A (zh) 新闻推荐方法、装置、计算机设备及存储介质
US20220383867A1 (en) Automated generation of fine-grained call reasons from customer service call transcripts
CN113836131A (zh) 一种大数据清洗方法、装置、计算机设备及存储介质
Amara et al. Cross-network representation learning for anchor users on multiplex heterogeneous social network
US20190244175A1 (en) System for Inspecting Messages Using an Interaction Engine
Zahera et al. I-AID: identifying actionable information from disaster-related tweets
CN116821372A (zh) 基于知识图谱的数据处理方法、装置、电子设备及介质
Puertas et al. Detection of sociolinguistic features in digital social networks for the detection of communities
Skarpathiotaki et al. Cross-industry process standardization for text analytics
Fan et al. Order-guided deep neural network for emotion-cause pair prediction
Si et al. Federated non-negative matrix factorization for short texts topic modeling with mutual information
CN111538895A (zh) 一种基于图网络的数据处理系统
CN112598039A (zh) 获取nlp分类领域阳性样本方法及相关设备
CN111507108B (zh) 别名生成方法、装置、电子设备及计算机可读存储介质
CN111563191A (zh) 基于图网络的数据处理系统
CN113807920A (zh) 基于人工智能的产品推荐方法、装置、设备及存储介质
CN115204393A (zh) 一种基于知识图谱的智慧城市知识本体库构建方法和装置
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200814

RJ01 Rejection of invention patent application after publication