CN114064935A - 信息图谱构建方法、装置、设备、存储介质和程序产品 - Google Patents
信息图谱构建方法、装置、设备、存储介质和程序产品 Download PDFInfo
- Publication number
- CN114064935A CN114064935A CN202111453196.6A CN202111453196A CN114064935A CN 114064935 A CN114064935 A CN 114064935A CN 202111453196 A CN202111453196 A CN 202111453196A CN 114064935 A CN114064935 A CN 114064935A
- Authority
- CN
- China
- Prior art keywords
- data
- text
- information
- label
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种信息图谱构建方法、装置、计算机设备、存储介质和程序产品,该方法包括:获取多个数据文本中的文本标签和实体标签;各所述数据文本包括原始流水数据和/或已构建信息图谱中的图谱数据;根据各所述数据文本对应的文本标签,获取关系信息;根据所述关系信息和各所述数据文本对应的实体标签,构建多个图三元组;对各所述图三元组进行连接组合处理,得到所述多个数据文本的信息图谱;所述信息图谱用于对所述多个数据文本进行数据分析。采用本方法能够提高分析结果的准确率以及与外部数据之间的扩展性。
Description
技术领域
本申请涉及大数据技术领域,特别是涉及一种信息图谱构建方法、装置、计算机设备、存储介质和程序产品。
背景技术
随着大数据时代的来临,以及国家对相关监管力度的加强,如何从海量数据中获取有效信息,越来越受到大家的广泛研究。
作为最能反应经济活动事实的银行流水数据在大数据分析中显得尤为重要,如果能自动地从个人或者企业的海量银行流水数据中获得交易意图和洞察风险,将会为监管和融资机构提供强有力的支持。在相关技术中,通常会按照关键字对流水数据进行分类,以及对手方名称等维度的基础上进行数据透视分析,从而得到获得交易意图和洞察风险。
然而,上述分析方式单一,导致分析结果错误率较高,且与外部数据之间的扩展性较弱。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高分析结果准确率以及提高与外部数据之间扩展性的信息图谱构建方法、装置、计算机设备、存储介质和程序产品。
第一方面,本申请提供了一种信息图谱方法,该方法包括:
获取多个数据文本中的文本标签和实体标签;各数据文本包括原始流水数据和/或已构建信息图谱中的图谱数据;
根据各数据文本对应的文本标签,获取关系信息;
根据关系信息和各数据文本对应的实体标签,构建多个图三元组;
对各图三元组进行连接组合处理,得到多个数据文本的信息图谱;信息图谱用于对多个数据文本进行数据分析。
在一个实施例中,上述获取多个数据文本中的文本标签和实体标签,包括:
对于原始流水数据,通过对原始流水数据进行标签标记操作,获取原始流水数据的文本标签和实体标签;
对于已构建信息图谱中的图谱数据,获取图谱数据中的文本标签和实体标签。
在一个实施例中,上述对原始流水数据进行标签标记操作,获取原始流水数据的文本标签和实体标签,包括:
通过全模式分词对原始流水数据进行分词操作,得到多个分词数据文本;
对各分词数据文本标记文本标签或者实体标签,得到原始流水数据的文本标签和实体标签;其中,标记文本标签的数据属于预设的标签词语库表中的数据。
在一个实施例中,根据各数据文本对应的文本标签,获取关系信息,包括:
根据各数据文本对应的文本标签,在预设的关系标签映射表在提取各文本标签的关系信息。
在一个实施例中,上述根据关系信息和各数据文本对应的实体标签,构建多个图三元组,包括:
根据各数据文本对应的实体标签,在关系信息中识别对应实体,得到多个图三元组。
在一个实施例中,上述对各图三元组进行连接组合处理,得到多个数据文本的信息图谱,包括:
对各图三元组中相同实体进行组合处理,并按照实体和方向进行连接得到多个数据文本的信息图谱。
第二方面,本申请还提供了一种信息图谱构建装置。所述装置包括:
数据获取模块,用于获取多个数据文本中的文本标签和实体标签;各数据文本包括原始流水数据和/或已构建信息图谱中的图谱数据;
关系信息获取模块,用于根据各数据文本对应的文本标签,获取关系信息;
图三元组构建模块,用于根据关系信息和各数据文本对应的实体标签,构建多个图三元组;
信息图谱组合模块,用于对各图三元组进行连接组合处理,得到多个数据文本的信息图谱;信息图谱用于对多个数据文本进行数据分析。
第三方面,本申请还提供了一种计算机设备,该计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任意一个实施例中的方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一个实施例中的方法的步骤。
第五方面,本申请还提供了一种计算机程序产品,该计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任意一个实施例中的方法的步骤。
上述信息图谱构建方法、装置、计算机设备、存储介质和程序产品,通过获取多个数据文本的文本标签和实体标签,并根据各数据文本对应的文本标签获取关系信息,然后根据关系信息和各数据文本对应的实体标签构建多个图三元组,最后将多个图三元组进行连接组合处理,得到多个数据文本的信息图谱,这样可以将传统的表格性分析扩展到信息图谱模型,在此基础上可以更方便、更容易的进行数据分析;其次,还可以将其他信息源的类似结构的图谱数据进行拼接,这样能够提高与外部数据之间的扩展性。
附图说明
图1为一个实施例中信息图谱构建方法的应用环境图;
图2为一个实施例中信息图谱构建方法的流程示意图;
图3为一个实施例中信息图谱构建装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的信息图谱构建方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种信息图谱构建方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取多个数据文本中的文本标签和实体标签;各数据文本包括原始流水数据和/或已构建信息图谱中的图谱数据。
具体地,数据文本是指记录数据的文本,数据文本包括原始流水数据和/或已构建信息图谱中的图谱数据,其中,原始数据是指未经处理的数据文本,其可以是由银行流水数据的本方户名、对方户名、用户备注、银行备注等文本信息以空格填充方式连接成一行的文本;已构建信息图谱是根据处理规则将数据文本进行处理获得的信息图谱,例如按照实体-关系-实体的方式将多个实体进行连接构成的,已构建信息图谱中的图谱数据是指谱图中的图三元组等能够从已构建信息图谱中获取的任意数据。
其中,实体标签、文本标签是指对数据本文中某一分词数据文本标注的标签,是根据预设规则对分词数据文本进行标记的标签,其中分词数据文本是指数据文本中所有可以组合的词,例如可以将基于事实的分词数据文本打上实体标签,其他分词数据文本可以根据预设的标签词语库表标注为文本标签,在一个数据文本中可以有多个文本标签及实体标签。
具体地,服务器获取多个数据文本中的文本标签和实体标签,其中各数据文本中包括原始流水数据/或已构建信息图谱中的图谱数据,其中,原始流水数据的文本的文本标签和实体标签是通过预设规则获取的,而已构建信息图谱中的图谱数据是从已构建的信息图谱中获取的。
步骤204,根据各数据文本对应的文本标签,获取关系信息。
其中关系信息是指实体与实体之间的关系,例如A雇佣B,那么雇佣为实体A与实体B之间的关系信息。
具体地,服务器可以根据获取的多个数据文本中的文本标签来获取关系信息,其中可选地可以根据预设的标签词语库表中的数据将文本标签映射为关系信息。
步骤206,根据关系信息和各数据文本对应的实体标签,构建多个图三元组。
具体地,图三元组是指用于构建信息图谱的数据组,其中包括两个实体和实体间的关系信息。
具体地,服务器根据各数据文本中的文本标签获取关系信息、根据实体标签获取实体,然后根据实体间的关系信息构建多个图三元组,其中可选地,可以根据根据各数据文本对应的实体标签,在关系信息中识别对应实体,得到多个图三元组。
步骤208,对各图三元组进行连接组合处理,得到多个数据文本的信息图谱;信息图谱用于对多个数据文本进行数据分析。
其中,信息图谱是指根据将多个数据文本进行处理拼接,得到一张关于多个数据的文本的图。该信息图谱可用于对多个数据文本进行数据分析,例如可以在该信息谱图的基础上运行各类算法或图神经网络进行训练。
具体地,服务器在获得多个图三元组之后,对多个图三元组进行连接组成处理,得到多个数据文本的信息图谱,其中可选地,可以将所有的图三元组按照实体和方向进行连接得到一个信息图谱的结构。其中可选地,可以将已构建信息图谱中的图谱数据与根据原始流水数据构建的信息图谱进行拼接,得到一个新的更大信息图谱,这样可以使基于信息图谱进行的数据分析更加准确,在其他实施例中,可以将已构建信息图谱中的图谱数据与根据原始流水数据构建的信息图谱按照相同实体连接到一起的模式组成到一起。
上述信息图谱构建方法中,通过获取多个数据文本的文本标签和实体标签,并根据各数据文本对应的文本标签获取关系信息,然后根据关系信息和各数据文本对应的实体标签构建多个图三元组,最后将多个图三元组进行连接组合处理,得到多个数据文本的信息图谱,这样可以将传统的表格性分析扩展到信息图谱模型,在此基础上可以更方便、更容易的进行数据分析;其次,还可以将其他信息源的类似结构的图谱数据进行拼接,这样能够提高与外部数据之间的扩展性。
在一个实施例中,获取多个数据文本中的文本标签和实体标签,包括:对于原始流水数据,通过对原始流水数据进行标签标记操作,获取原始流水数据的文本标签和实体标签;对于已构建信息图谱中的图谱数据,获取图谱数据中的文本标签和实体标签。
具体地,服务器获取原始流水数据与已构建信息图谱中的图谱数据中的文本标签和实体标签的方式是不同的。其中,若数据文本是原始流水数据,则服务器在获取原始流水数据后会对原始流水数据进行标签标记操作。可选地,可以先对原始流水数据进行分词操作,得到原始流水数据中的各个分词数据文本,然后再对原始流水数据中的各个分词数据文本进行标签标记操作。而若数据文本是已构建的信息图谱中的数据,因已构建的信息图谱中的数据是已经标注了标签的数据,所以可直接在信息图谱中获取图谱数据中的文本标签和实体标签。
在上述实施例中,服务器通过对原始流水数据和已构建信息图谱不同的处理方式,能够得到原始流水数据与已构建信息图谱的文本标签和实体标签,以便于进行下一步的信息图谱处理。
在一个实施例中,对原始流水数据进行标签标记操作,获取原始流水数据的文本标签和实体标签,包括:通过全模式分词对原始流水数据进行分词操作,得到多个分词数据文本;对各分词数据文本标记文本标签或者实体标签,得到原始流水数据的文本标签和实体标签;其中,标记文本标签的数据属于预设的标签词语库表中的数据。
其中,全模式分词是一种分词模式,全模式分词可以将原始流水数据中所有可以组合的词分出来,分词数据文本是指采用全模式分词对原始流水数据进行操作后得到的词,例如,我来到北京清华大学采用全模式分词后可得到我/来到/北京/清华/清华大学/华大/大学这样多个分词数据文本。
具体地,首先通过全模式分词对原始流水数据进行分词操作,得到多个分词数据文本,然后对各分词数据文本进行标记,可到原始流水数据的文本标签和实体标签。可选地,实体标签可分为基于事实的时间标签、基于事实的金额标签以及基于事实的地理标签等。在其他实施例中,可以根据银行流水数据中的交易发生的时间打上基于事实的时间标签,例如2.0-8为凌晨、8-12为上午、12-14为中午、15-18为下午、18-0为晚上,在另外一个实施例中,可以根据银行流水数据中的交易金额打上基于事实的金额标签,例如5万元、100元以下、200万元以上、整万等,在其中一个实施例中,可以利用中华人民共和国的行政规划标准省市名把分词结果中的地理位置的词语打上基于事实的地理标签如安徽、北京、长春、海口。
具体地,标记文本标签的数据属于预设的标签词语库表中的数据是指只有存在与预设的标签词语表中的分词数据文本才能被标注为文本标签,其中可选地,预设的标签词语表可根据具体地使用场景进行设置。
在上述实施例中,通过全模式分词将原始流水数据进行分词操作后,将得到的分词数据文本标记为文本标签或者实体标签,采用全模式分词可以获得更多的信息,避免遗漏,也使得分词数据文本获得的标签更加准确。
在一个实施例中,根据各数据文本对应的文本标签,获取关系信息,包括:根据各数据文本对应的文本标签,在预设的关系标签映射表在提取各文本标签的关系信息。
具体地,服务器通过数据文本中的文本标签,得到数据文本中带有文本标签的分词数据文本,然后通过预设的关系标签映射表提取带有文本标签的分词数据文本对应的关系信息,在其中一个实施中,标记为本文标签的分词数据文本为“奖金”、“工作”和“补贴”,就可以将“奖金”、“工作”和“补贴”映射为“雇佣”这样的关系信息,其中可选地,预设的关系标签映射表是可以根据实际的应用场景进行设置的
在上述实施例中,通过预设的关系标签映射表提取各文本标签的关系信息,可以得到实体间的关系,以便于构建信息图谱。
在一个实施例中,根据关系信息和各数据文本对应的实体标签,构建多个图三元组,包括:根据各数据文本对应的实体标签,在关系信息中识别对应实体,得到多个图三元组。
具体地,服务器利用预设的关系映射表遍历除实体外的所有文本标签,再识别实体间的关系,得到图三元组,在一个实施例中,预设的关系标签映射表中有“工资”、“奖金”、“补贴”—>“雇佣”这样的映射关系,则银行流水信息的数据文本中如果有“工资”、“奖金”、“补贴”这3个词的任何一个,且本方户名为企业实体标签,对方户名为个人实体标签,就可以建立一个图三元组:xxx公司—雇佣---xxx。
其中需要说明的一点是,一个文本数据可以按照上述规则,即实体-关系信息-实体这样的规则,生成多个图三元组,同一个实体也可以支持多个关系,关系有方向性,且两个实体之前相同方向上的关系只能有一个图三元组。
在上述实施例中,通过关系信息识别对应实体可得到多个图三元组,这些图三元组可用于构建信息图谱。
在一个实施例中,对各图三元组进行连接组合处理,得到多个数据文本的信息图谱,包括:对各图三元组中相同实体进行组合处理,并按照实体和方向进行连接得到多个数据文本的信息图谱。
具体地,服务器将各个图三元组中相同的实体进行组成处理,即将各个图三元组中相同的实体合并为一个,并按照实体和方向进行连接得到多个数据文本的信息图谱,在其他实施例中,一个图三元组为bbb公司--借款--aaa,另一个三元组为aaa--股东--bbb公司,则可以将这两个图三元组进行组合处理为bbb公司--借款--aaa--股东--bbb公司,形成一个信息图谱。在其中一个实施例中,可以将获取的已构建信息图谱中的图谱数据按照实体和方向与根据原始流水数据构建的图谱数据进行连接,得到新的信息图谱,其中需要说明的一点是,已构建信息图谱可以是其他信息源的类似结构的图谱数据
在本实施例中,通过并按照实体和方向进行连接可将多个图三元组进行拼接,得到由多个数据文本构建的信息图谱。
在一个实施例中,使用银行流水数据构建相应的信息图谱。首先将每条银行流水数据的本方户名、对方户名、用户备注、银行备注文本信息以空格填充方式连接成一行文本,再利用分词软件如jieba分词进行全模式分词,其中不使用一般分词的好处是可以获得更多的信息,避免遗漏;然后根据预设规则对流水数据中的分词数据进行标注,例如交易时间按照发生的时间打上基于事实的时间标签0-8为凌晨、8-12为上午、12-2为中午、3-6下为午、6-0为晚上;交易金额按照金额数字打上基于事实的金额标签5万元、100元以下、200万元以上、整万等;利用中华人民共和国的行政规划标准省市名把分词结果中的地理位置的词语打上基于事实的地理标签,如安徽、北京、长春、海口;其他所有剩下的词语通过标签词语库表的处理,只有存在于标签词语库表中的词语才会作为基于事实的文本标签;第三,将标签中的企业名、个人名和地理名都标记为实体信息,并记录;第四,利用关系标签映射表,遍历除实体外的所有文本标签,再识别实体见的关系并记录每一个图三元组。如关系标签映射表中有“工资”、“奖金”、“补贴”—>“雇佣”,则银行流水信息的条目数据中如果有“工资”、“奖金”、“补贴”这3个词的任何一个,且本方户名为企业实体标签,对方户名为个人实体标签,就可以建立一个图三元组,如xxx公司—雇佣---xxx;第五,将所有图三元组按照实体和方向进行连接,如bbb公司—借款—aaa---股东---bbb公司,形成一个信息图谱的结构,并可将其存入图数据库中,或者以可视化力导向图的方式展示。其中,该信息图谱的结构可以和其他信息源的类似结构的图谱数据,以上一步的方式进一步进行连接。补充任何需要添加的信息,从而为后续分析提供更全面的数据,提高数据分析的准确性,后续可以在此数据结构的基础上运行各类图算法或图神经网络训练,进行自动分析和知识推理的工作。
在上述实施例中,通过关系的引入和建立将原本二维的表格抽象成为一张完整的连接在一起的图结构,将传统的表格性分析模式拓展到了更先进的信息图谱模式。通过信息图谱的构建,可以容易的将有关图的各类算法(标签发现算法、路径查找算法等)和技术工具引入到自动分析的流程中去,提高银行流水分析的工作效率和准确性;其次,可以连接到其他数据源的图谱中,比如企业的股权关系图谱,极大的丰富了数据分析时可以使用的数据维度,为提供更准确更深度的分析报告提供了基础支持。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的信息图谱构建方法的信息图谱构建装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个信息图谱构建装置实施例中的具体限定可以参见上文中对于信息图谱构建方法的限定,在此不再赘述。
在一个实施例中,如图3所示,提供了一种信息图谱构建装置,包括:数据获取模块100、关系信息获取模块200、图三元组构建模块300和信息图谱组合模块400,其中:
数据获取模块100,用于获取多个数据文本中的文本标签和实体标签;各模块数据文本包括原始流水数据和/或已构建信息图谱中的图谱数据。
关系信息获取模块200,用于根据各模块数据文本对应的文本标签,获取关系信息。
图三元组构建模块300,用于根据模块关系信息和各模块数据文本对应的实体标签,构建多个图三元组。
信息图谱组合模块400,用于对各模块图三元组进行连接组合处理,得到模块多个数据文本的信息图谱;模块信息图谱用于对模块多个数据文本进行数据分析。
在一个实施例中,上述数据获取模块100包括:
标记子模块,用于对于原始流水数据,通过对模块原始流水数据进行标签标记操作,获取模块原始流水数据的文本标签和实体标签。
标签获取子模块,用于对于已构建信息图谱中的图谱数据,获取模块图谱数据中的文本标签和实体标签。
在一个实施例中,上述标记子模块包括:
分词单元,用于通过全模式分词对模块原始流水数据进行分词操作,得到多个分词数据文本。
标签标记单元,用于对各模块分词数据文本标记模块文本标签或者模块实体标签,得到模块原始流水数据的文本标签和实体标签;其中,标记文本标签的数据属于预设的标签词语库表中的数据。
在一个实施例中,上述关系信息获取模块200包括:
映射单元,用于根据各模块数据文本对应的文本标签,在预设的关系标签映射表在提取各模块文本标签的关系信息。
在一个实施例中,图三元组构建模块300包括:
连接子模块,用于对各模块图三元组中相同实体进行组合处理,并按照实体和方向进行连接得到模块多个数据文本的信息图谱。
上述信息图谱构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据文本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种信息图谱构建方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取多个数据文本中的文本标签和实体标签;各模块数据文本包括原始流水数据和/或已构建信息图谱中的图谱数据;
根据各模块数据文本对应的文本标签,获取关系信息;
根据模块关系信息和各模块数据文本对应的实体标签,构建多个图三元组;
对各模块图三元组进行连接组合处理,得到模块多个数据文本的信息图谱;模块信息图谱用于对模块多个数据文本进行数据分析。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对于原始流水数据,通过对模块原始流水数据进行标签标记操作,获取模块原始流水数据的文本标签和实体标签;
对于已构建信息图谱中的图谱数据,获取模块图谱数据中的文本标签和实体标签。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
通过全模式分词对模块原始流水数据进行分词操作,得到多个分词数据文本;
对各模块分词数据文本标记模块文本标签或者模块实体标签,得到模块原始流水数据的文本标签和实体标签;其中,标记文本标签的数据属于预设的标签词语库表中的数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据各模块数据文本对应的文本标签,在预设的关系标签映射表在提取各模块文本标签的关系信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据各模块数据文本对应的实体标签,在模块关系信息中识别对应实体,得到模块多个图三元组。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取多个数据文本中的文本标签和实体标签;各模块数据文本包括原始流水数据和/或已构建信息图谱中的图谱数据;
根据各模块数据文本对应的文本标签,获取关系信息;
根据模块关系信息和各模块数据文本对应的实体标签,构建多个图三元组;
对各模块图三元组进行连接组合处理,得到模块多个数据文本的信息图谱;模块信息图谱用于对模块多个数据文本进行数据分析。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对于原始流水数据,通过对模块原始流水数据进行标签标记操作,获取模块原始流水数据的文本标签和实体标签;
对于已构建信息图谱中的图谱数据,获取模块图谱数据中的文本标签和实体标签。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
通过全模式分词对模块原始流水数据进行分词操作,得到多个分词数据文本;
对各模块分词数据文本标记模块文本标签或者模块实体标签,得到模块原始流水数据的文本标签和实体标签;其中,标记文本标签的数据属于预设的标签词语库表中的数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据各模块数据文本对应的文本标签,在预设的关系标签映射表在提取各模块文本标签的关系信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据各模块数据文本对应的实体标签,在模块关系信息中识别对应实体,得到模块多个图三元组。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对各模块图三元组中相同实体进行组合处理,并按照实体和方向进行连接得到模块多个数据文本的信息图谱。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取多个数据文本中的文本标签和实体标签;各模块数据文本包括原始流水数据和/或已构建信息图谱中的图谱数据;
根据各模块数据文本对应的文本标签,获取关系信息;
根据模块关系信息和各模块数据文本对应的实体标签,构建多个图三元组;
对各模块图三元组进行连接组合处理,得到模块多个数据文本的信息图谱;模块信息图谱用于对模块多个数据文本进行数据分析。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对于原始流水数据,通过对模块原始流水数据进行标签标记操作,获取模块原始流水数据的文本标签和实体标签;
对于已构建信息图谱中的图谱数据,获取模块图谱数据中的文本标签和实体标签。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
通过全模式分词对模块原始流水数据进行分词操作,得到多个分词数据文本;
对各模块分词数据文本标记模块文本标签或者模块实体标签,得到模块原始流水数据的文本标签和实体标签;其中,标记文本标签的数据属于预设的标签词语库表中的数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据各模块数据文本对应的文本标签,在预设的关系标签映射表在提取各模块文本标签的关系信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据各模块数据文本对应的实体标签,在模块关系信息中识别对应实体,得到模块多个图三元组。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对各模块图三元组中相同实体进行组合处理,并按照实体和方向进行连接得到模块多个数据文本的信息图谱。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种信息图谱构建方法,其特征在于,所述方法包括:
获取多个数据文本中的文本标签和实体标签;各所述数据文本包括原始流水数据和/或已构建信息图谱中的图谱数据;
根据各所述数据文本对应的文本标签,获取关系信息;
根据所述关系信息和各所述数据文本对应的实体标签,构建多个图三元组;
对各所述图三元组进行连接组合处理,得到所述多个数据文本的信息图谱;所述信息图谱用于对所述多个数据文本进行数据分析。
2.根据权利要求1所述的方法,其特征在于,所述获取多个数据文本中的文本标签和实体标签,包括:
对于原始流水数据,通过对所述原始流水数据进行标签标记操作,获取所述原始流水数据的文本标签和实体标签;
对于已构建信息图谱中的图谱数据,获取所述图谱数据中的文本标签和实体标签。
3.根据权利要求2所述的方法,其特征在于,所述对所述原始流水数据进行标签标记操作,获取所述原始流水数据的文本标签和实体标签,包括:
通过全模式分词对所述原始流水数据进行分词操作,得到多个分词数据文本;
对各所述分词数据文本标记所述文本标签或者所述实体标签,得到所述原始流水数据的文本标签和实体标签;其中,标记文本标签的数据属于预设的标签词语库表中的数据。
4.根据权利要求1-3任意一项所述的方法,其特征在于,根据各所述数据文本对应的文本标签,获取关系信息,包括:
根据各所述数据文本对应的文本标签,在预设的关系标签映射表在提取各所述文本标签的关系信息。
5.根据权利要求1-3任意一项所述的方法,其特征在于,所述根据所述关系信息和各所述数据文本对应的实体标签,构建多个图三元组,包括:
根据各所述数据文本对应的实体标签,在所述关系信息中识别对应实体,得到所述多个图三元组。
6.根据权利要求1-3任意一项所述的方法,其特征在于,对各所述图三元组进行连接组合处理,得到所述多个数据文本的信息图谱,包括:
对各所述图三元组中相同实体进行组合处理,并按照实体和方向进行连接得到所述多个数据文本的信息图谱。
7.一种信息图谱构建装置,其特征在于,所述装置包括:
数据获取模块,用于获取多个数据文本中的文本标签和实体标签;各所述数据文本包括原始流水数据和/或已构建信息图谱中的图谱数据;
关系信息获取模块,用于根据各所述数据文本对应的文本标签,获取关系信息;
图三元组构建模块,用于根据所述关系信息和各所述数据文本对应的实体标签,构建多个图三元组;
信息图谱组合模块,用于对各所述图三元组进行连接组合处理,得到所述多个数据文本的信息图谱;所述信息图谱用于对所述多个数据文本进行数据分析。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111453196.6A CN114064935A (zh) | 2021-12-01 | 2021-12-01 | 信息图谱构建方法、装置、设备、存储介质和程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111453196.6A CN114064935A (zh) | 2021-12-01 | 2021-12-01 | 信息图谱构建方法、装置、设备、存储介质和程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114064935A true CN114064935A (zh) | 2022-02-18 |
Family
ID=80228168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111453196.6A Pending CN114064935A (zh) | 2021-12-01 | 2021-12-01 | 信息图谱构建方法、装置、设备、存储介质和程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114064935A (zh) |
-
2021
- 2021-12-01 CN CN202111453196.6A patent/CN114064935A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu | Big data and predictive business analytics. | |
CN109636584B (zh) | 违约概率展示方法、装置、计算机设备和存储介质 | |
US8429182B2 (en) | Populating a task directed community in a complex heterogeneous environment based on non-linear attributes of a paradigmatic cohort member | |
US9886674B2 (en) | Describing a paradigmatic member of a task directed community in a complex heterogeneous environment based on non-linear attributes | |
CN114741402A (zh) | 业务特征池的处理方法、装置、计算机设备和存储介质 | |
US10853432B2 (en) | Methods and systems for generating search results and recommendations based on multi-sourced two-way correspondence and relative entity prominence | |
US20150170068A1 (en) | Determining analysis recommendations based on data analysis context | |
CN114064935A (zh) | 信息图谱构建方法、装置、设备、存储介质和程序产品 | |
WO2019236338A1 (en) | Computerized relevance scoring engine for identifying potential investors for a new business entity | |
US20190251206A1 (en) | Methods and Systems for Generating Search Results and Recommendations Based on Multi-Sourced Two-Way Correspondence and Relative Entity Prominence | |
CN115686939B (zh) | 数据备份方法、装置、计算机设备和存储介质 | |
US11886485B1 (en) | Computer-implemented visual query matching methods, and systems for implementing thereof | |
CN113961636A (zh) | 对象关系查询方法、装置、计算机设备、存储介质 | |
CN118606531A (zh) | 画像构建方法、装置、计算机设备、存储介质和程序产品 | |
CN117093759A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN117954025A (zh) | 问卷文本生成方法、装置、计算机设备、存储介质 | |
CN116450706A (zh) | 业务处理方法、装置、计算机设备和存储介质 | |
Ranga et al. | Big Data: A New Way to Look At World | |
CN117216164A (zh) | 金融数据同步处理方法、装置、设备、介质和程序产品 | |
CN114741437A (zh) | 产品状态显示方法、装置、设备、存储介质和程序产品 | |
CN114417153A (zh) | 一种对象推荐方法、装置、电子设备及存储介质 | |
CN118035423A (zh) | 信息查询方法、装置、计算机设备和存储介质 | |
CN117539976A (zh) | 电力知识库更新方法、装置、设备、存储介质和程序产品 | |
CN116340493A (zh) | 业务功能的生成方法、装置、计算机设备和存储介质 | |
CN117130708A (zh) | 应用程序语言切换方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |