CN112765418B - 基于图结构的别名合并及存储方法、系统、终端、介质 - Google Patents
基于图结构的别名合并及存储方法、系统、终端、介质 Download PDFInfo
- Publication number
- CN112765418B CN112765418B CN202110375237.8A CN202110375237A CN112765418B CN 112765418 B CN112765418 B CN 112765418B CN 202110375237 A CN202110375237 A CN 202110375237A CN 112765418 B CN112765418 B CN 112765418B
- Authority
- CN
- China
- Prior art keywords
- relation
- merging
- constructing
- relationship
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于数据处理技术领域,公开了一种基于图结构的别名合并及存储方法、系统、终端、介质,创建基础名称节点;挖掘关系,并构建辅助节点;构建边关系,生成图;重复创建基础名称节点、挖掘关系、构建辅助节点、构建边关系、生成图,对关系类型进行扩充;根据业务场景,自主选择关系类型,计算最大联通子图,同一子图即作为一组同名集合。本发明可同时存储多种关系类型,可根据场景自定义选择不同级别关系类型。本发明能够存储多跳关系,本发明关系构建过程回溯。本发明通过关系挖掘,可以不断进行图扩充;根据业务需求,可自由选择不同强度的关系;本发明能够存储多跳关系,通过路径查询,轻松进行关系回溯。
Description
技术领域
本发明属于数据处理技术领域,尤其涉及一种基于图结构的别名合并及存储方法、系统、终端、介质。
背景技术
目前,信息化时代的飞速发展,各类文本信息蜂拥而至,各种渠道均会以其各自的习惯的方式进行文本信息的发布,尽管信息很多,但当对某一企业的信息进行收集整理时,取仍会无法尽数收集,因信息的发布并没有严格的规章制度,并不强制要求与企业工商名称一致,因此书写变更加多样性,不同信息源、不同书写机构、不同书写人均会导致名称不一致,同时存在不同语种的译文情况,因此需要对其进行整理、合并。
以专利信息为例,申请企业名称并不一定同工商信息一致,因此即使是同一企业的专利信息,不同的代理机构,书写也会不同,如:北京***公司、***北京公司、***(北京)公司等,同时,涉及到专利海外布局情况,也会出现英文名称、韩文名称、日文名称等,受限转写时,采用不同的翻译软件,对外文的翻译也会存在出入。
当前常见技术手段如:误拼纠错、基于编辑距离合并、基于同一译文合并、构建多对一名称表等。
以上每种技术手段均有其严重的局限性。误拼纠错、基于编辑距离合并、基于同一译文合并等,均是基于字符级别的相似度进行计算,其置信度并不高,在舆情领域勉强能够接受,但,在一些严肃的场景下,一字之差完全可能就是完全不同的公司,并不适用。构建多对一关系在简单关系下能够满足,但对于多跳关系,在存储上便会遇到信息遗漏的问题,无法清晰回溯关系构建过程。
通过上述分析,现有技术存在的问题及缺陷为:不同合并方法的置信度不一致,无法适用于多个场景,同时在存储上会出现信息遗漏,无法清晰回溯关系构建过程。
解决以上问题及缺陷的难度为:需要考虑多种应用场景不同置信度级别的需求;需要考虑支持灵活的修改(如:方便删除错误关系,增加新关系);合并过程需要高可解释性
解决以上问题及缺陷的意义为:通过单一系统,同时存储不同置信度的合并关系,满足多种应用场景的使用。减小数据维护成本,仅需维护一份数据即可。
发明内容
针对现有技术存在的问题,本发明提供了一种基于图结构的别名合并及存储方法、系统、终端、介质。
本发明是这样实现的,一种基于图结构的别名合并及存储方法,所述基于图结构的别名合并及存储方法包括:
步骤一,创建基础名称节点;
步骤二,挖掘所述创建基础名称节点之间的关系,构建辅助节点;根据构建的所述辅助节点构建边关系,并生成图;
步骤三,重复生成图步骤,对所述边关系类型进行扩充;
步骤四,根据业务场景,自主选择所述边关系类型,计算最大联通子图,对同一子图作为一组同名集合。
进一步,所述步骤一之前还需进行:收集数据集合,对收集的数据进行清洗,并去除特殊字符以及标点符号。
进一步,所述创建基础名称节点包括:选取清洗后的数据中的关键词或标志词作为基础节点。
进一步,所述创建基础节点后还需进行:基于确定的基础节点,确定节点类型。
进一步,所述构建边关系包括:构建基础名称节点类型与辅助节点类型的边关系。
进一步,步骤四中,所述计算最大联通子图包括:基于可用关系构建最大联通子图。
进一步,所述同一子图即作为一组同名集合包括:同一子图内的节点类型相同的即为一组别名集合。
本发明的另一目的在于提供一种实施所述基于图结构的别名合并及存储方法的基于图结构的别名合并及存储系统,所述基于图结构的别名合并及存储系统包括:
基础节点构建模块,用于创建基础名称节点;
关系挖掘模块,用于挖掘关系,并构建辅助节点;
边关系构建模块,用于构建边关系,生成图;
扩充模块,用于基于构建基础节点、关系挖掘、边关系构建进行关系类型扩充;
别名合并模块,用于根据业务场景,自主选择关系类型,计算最大联通子图,同一子图即作为一组同名集合;
存储模块,用于进行相应数据、集合的存储。
本发明的另一目的提供一种一种信息数据处理终端,所述信息数据处理终端包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述基于图结构的别名合并及存储方法。
本发明的另一目的提供一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机执行所述基于图结构的别名合并及存储方法。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明可同时存储多种关系类型,可根据场景自定义选择不同级别关系类型;本发明能够存储多跳关系,本发明关系构建过程回溯。
本发明通过关系挖掘,可以不断进行图扩充;根据业务需求,可自由选择不同强度的关系;本发明能够存储多跳关系,通过路径查询,轻松进行关系回溯。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于图结构的别名合并及存储方法流程图。
图2是本发明实施例提供的基于图结构的别名合并及存储系统结构示意图;
图中:1、基础节点构建模块;2、关系挖掘模块;3、边关系构建模块;4、扩充模块;5、别名合并模块;6、存储模块。
图3是本发明实施例提供的节点关系图。
图4是本发明实施例提供的根据需求进行关系选择的示意图。
图5是本发明实施例提供的最大联通子图示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种基于图结构的别名合并及存储方法,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的基于图结构的别名合并及存储方法包括以下步骤:
S101,创建基础名称节点;
S102,挖掘关系,并构建辅助节点;构建边关系,生成图;
S103,重复步骤S102,对关系类型进行扩充;
S104,根据业务场景,自主选择关系类型,计算最大联通子图,同一子图即作为一组同名集合。
本发明实施例提供的步骤S101之前还需进行:收集数据集合,对收集的数据进行清洗,并去除特殊字符以及标点符号。
本发明实施例提供的创建基础名称节点包括:选取清洗后的数据中的关键词或标志词作为基础节点。
本发明实施例提供的创建基础节点后还需进行:基于确定的基础节点,确定节点类型。
本发明实施例提供的构建边关系包括:构建基础名称节点类型与辅助节点类型的边关系。
步骤S104中,本发明实施例提供的计算最大联通子图包括:基于可用关系构建最大联通子图。
本发明实施例提供的同一子图即作为一组同名集合包括:同一子图内的节点类型相同的即为一组别名集合。
如图2所示,本发明实施例提供的基于图结构的别名合并及存储系统包括:
基础节点构建模块1,用于创建基础名称节点;
关系挖掘模块2,用于挖掘关系,并构建辅助节点;
边关系构建模块3,用于构建边关系,生成图;
扩充模块4,用于基于构建基础节点、关系挖掘、边关系构建进行关系类型扩充;
别名合并模块5,用于根据业务场景,自主选择关系类型,计算最大联通子图,同一子图即作为一组同名集合;
存储模块6,用于进行相应数据、集合的存储。
下面结合具体实施例对本发明的技术效果作进一步描述。
本发明以基于专利申请人的别名构建为例进行说明。
1. 收集专利申请人集合,轻度清洗数据,去除特殊字符及标点符号。
2. 以清洗后专利申请人作为基础节点,节点类型为an。
3. 挖掘关系类型一:工商名称关系。
3.1创建工商ID节点,节点类型为eid。
3.2基于当前工商名称与an节点进行关联,构建an到eid的边关系。
3.3基于历史工商名称与an节点进行关联,构建an到eid的边关系。
4. 挖掘关系类型二:同族专利。
5.1收集同族专利数大于一,申请人数量为一,未曾转移过的同族数据。
5.2构建同族id节点,节点类型为family_id。
5.3创建an到family_id的边关系。
5. 重复上述步骤,不断发掘新的关系类型,构建边关系。
6. 根据业务场景,选择可用关系类型,如:要求高命中率,只信任工商及同族关系,不信任译文关系。
7. 仅使用可用关系,构建最大联通子图。
8. 同一子图内的所有an节点即为一组企业别名集合,应用过程中,可选工商名称,或使用率最高的名称作为对外展示名称。
图3是本发明实施例提供的节点关系图。
图4是本发明实施例提供的根据需求进行关系选择的示意图。
如图5所示,节点30和节点104,关系即为多跳关系,在进行关系回溯时,仅需通过图路径查找算法,寻找一条关系路径,即可缕清关系类型,如:30-99-55-89-91-84-3-48-104,具体解释为:30和55、99有工商别名关系,55和91具有同族关系,同族id为89,91和3、84具有工商别名关系,3和104又有同族关系,同族id为48,该关系显得有些复杂,真实情况其实仅为同一公司在不同国家进行专利布局,使用了不同语种的名称。
同时,在使用过程中,通过将每个申请人节点对应的专利数量,作为属性值进行存储,最终进行最大联通子图切分时,基于节点属性选择子图同一的对外名称,可减少数据的反复收集过程。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种基于图结构的别名合并及存储方法,其特征在于,所述基于图结构的别名合并及存储方法包括:
创建基础名称节点;
挖掘基础名称节点之间的关系,构建辅助节点;根据构建的辅助节点构建边关系,并生成图;
重复生成图,对边关系类型进行扩充;
根据业务场景,自主选择边关系类型,计算最大联通子图,对同一最大联通子图作为一组同名集合;
所述创建基础名称节点前还需进行:收集数据集合,对收集的数据进行清洗,并去除特殊字符以及标点符号;
所述创建基础名称节点包括:选取清洗后的数据中的关键词或标志词作为基础名称节点;
所述创建基础名称节点后还需进行:基于确定的基础名称节点,确定基础名称节点类型和辅助节点类型;
所述构建边关系包括:构建基础名称节点类型与辅助节点类型的边关系。
2.如权利要求1所述基于图结构的别名合并及存储方法,其特征在于,所述计算最大联通子图包括:基于可用边关系构建最大联通子图。
3.一种实施权利要求1~2任意一项所述基于图结构的别名合并及存储方法的基于图结构的别名合并及存储系统,其特征在于,所述基于图结构的别名合并及存储系统包括:
基础名称节点构建模块,用于创建基础名称节点;
关系挖掘模块,用于挖掘关系,并构建辅助节点;
边关系构建模块,用于构建边关系,生成图;
扩充模块,用于基于构建基础名称节点、关系挖掘、边关系构建进行关系类型扩充;
别名合并模块,用于根据业务场景,自主选择关系类型,计算最大联通子图,同一最大联通子图即作为一组同名集合;
存储模块,用于进行相应数据、集合的存储。
4.一种信息数据处理终端,其特征在于,所述信息数据处理终端包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~2任意一项所述基于图结构的别名合并及存储方法。
5.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1~2任意一项所述基于图结构的别名合并及存储方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110375237.8A CN112765418B (zh) | 2021-04-08 | 2021-04-08 | 基于图结构的别名合并及存储方法、系统、终端、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110375237.8A CN112765418B (zh) | 2021-04-08 | 2021-04-08 | 基于图结构的别名合并及存储方法、系统、终端、介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112765418A CN112765418A (zh) | 2021-05-07 |
CN112765418B true CN112765418B (zh) | 2022-04-01 |
Family
ID=75691252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110375237.8A Active CN112765418B (zh) | 2021-04-08 | 2021-04-08 | 基于图结构的别名合并及存储方法、系统、终端、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112765418B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726305A (zh) * | 2018-12-30 | 2019-05-07 | 中国电子科技集团公司信息科学研究院 | 一种基于图结构的复杂关系数据存储及检索方法 |
CN111666346A (zh) * | 2019-03-06 | 2020-09-15 | 京东数字科技控股有限公司 | 信息归并方法、交易查询方法、装置、计算机及存储介质 |
CN112131872A (zh) * | 2020-09-18 | 2020-12-25 | 三螺旋大数据科技(昆山)有限公司 | 一种文献作者重名消歧方法和构建系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014143878A1 (en) * | 2013-03-15 | 2014-09-18 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and methods for recommending relationships within a graph database |
-
2021
- 2021-04-08 CN CN202110375237.8A patent/CN112765418B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726305A (zh) * | 2018-12-30 | 2019-05-07 | 中国电子科技集团公司信息科学研究院 | 一种基于图结构的复杂关系数据存储及检索方法 |
CN111666346A (zh) * | 2019-03-06 | 2020-09-15 | 京东数字科技控股有限公司 | 信息归并方法、交易查询方法、装置、计算机及存储介质 |
CN112131872A (zh) * | 2020-09-18 | 2020-12-25 | 三螺旋大数据科技(昆山)有限公司 | 一种文献作者重名消歧方法和构建系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112765418A (zh) | 2021-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | A survey of CRF algorithm based knowledge extraction of elementary mathematics in Chinese | |
Watson et al. | An efficient garbage collection scheme for parallel computer architectures | |
JP5226401B2 (ja) | 文書データの検索を支援する装置及び方法 | |
JP4464975B2 (ja) | コンピュータネットワーク上の電子文書の重要度を、当該電子文書に関係付けられた他の電子文書の当該電子文書に対する批評に基づいて、計算するためのコンピュータ装置、コンピュータプログラム及び方法 | |
CN110399448B (zh) | 中文地名地址搜索匹配方法、终端、计算机可读存储介质 | |
CN111708805A (zh) | 数据查询方法、装置、电子设备及存储介质 | |
CN111382341A (zh) | 一种基于大数据的科技信息资源检索查询系统及方法 | |
CN114329096A (zh) | 一种原生图数据库处理方法及系统 | |
CN111428093A (zh) | 基于实体对齐的可视化图谱融合方法及系统 | |
CN114595302A (zh) | 空间要素的多层级空间关系构建方法、装置、介质及设备 | |
CN112765418B (zh) | 基于图结构的别名合并及存储方法、系统、终端、介质 | |
CN111625596B (zh) | 新能源实时消纳调度的多源数据同步共享方法及系统 | |
CN111858613B (zh) | 一种业务数据的检索方法 | |
CN111782820B (zh) | 知识图谱创建方法及装置、可读存储介质及电子设备 | |
CN110928995B (zh) | 一种交互信息处理方法、装置、设备及存储介质 | |
CN109697234B (zh) | 实体的多属性信息查询方法、装置、服务器和介质 | |
Zhang et al. | A graph-based approach for representing addresses in geocoding | |
CN111897837A (zh) | 数据查询方法、装置、设备和介质 | |
CN115525629A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN115238103A (zh) | 一种非结构化数据地图的构建方法及装置 | |
KR101927689B1 (ko) | Cim 계통도 처리 방법 | |
CN113806556A (zh) | 基于电网数据的知识图谱的构建方法、装置、设备及介质 | |
CN114222317A (zh) | 数据处理方法及装置、电子设备和存储介质 | |
CN113779200A (zh) | 目标行业词库的生成方法、处理器及装置 | |
CN113609433A (zh) | 一种算式布局确定方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |