CN114519101B - 数据聚类方法和系统、数据存储方法和系统以及存储介质 - Google Patents

数据聚类方法和系统、数据存储方法和系统以及存储介质 Download PDF

Info

Publication number
CN114519101B
CN114519101B CN202011292917.5A CN202011292917A CN114519101B CN 114519101 B CN114519101 B CN 114519101B CN 202011292917 A CN202011292917 A CN 202011292917A CN 114519101 B CN114519101 B CN 114519101B
Authority
CN
China
Prior art keywords
cluster
atoms
data
historical
atom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011292917.5A
Other languages
English (en)
Other versions
CN114519101A (zh
Inventor
莫元武
K·斯洛芬
蔡纯钢
冯杰
王景龙
熊辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
eBaoTech Corp
Original Assignee
eBaoTech Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by eBaoTech Corp filed Critical eBaoTech Corp
Priority to CN202011292917.5A priority Critical patent/CN114519101B/zh
Priority to JP2023514827A priority patent/JP7423859B2/ja
Priority to US18/043,655 priority patent/US20230273946A1/en
Priority to EP21893749.8A priority patent/EP4191436A4/en
Priority to PCT/CN2021/128330 priority patent/WO2022105601A1/zh
Publication of CN114519101A publication Critical patent/CN114519101A/zh
Application granted granted Critical
Publication of CN114519101B publication Critical patent/CN114519101B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请涉及数据聚类方法和系统、数据存储方法和系统以及存储介质,所述数据聚类方法包括如下步骤:解析历史聚类数据并据其各部分的性质将其分解成聚类原子,所述聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者;根据所述聚类原子的性质形成聚类原子池,所述聚类原子池中包括所述聚类原子的非结构化关系;从所述聚类原子池查找所述聚类原子以构成备选聚类原子,所述查找基于目标聚类数据的目标聚类属性、所述聚类原子关联的聚类属性和所述聚类原子的性质;以及引用所述备选聚类原子形成所述目标聚类数据。本申请的数据聚类方法可以提高聚类数据的效率。

Description

数据聚类方法和系统、数据存储方法和系统以及存储介质
技术领域
本申请涉及数据加工领域,具体而言,涉及数据聚类方法和系统、数据存储方法和系统以及存储介质。
背景技术
基于诸如语料数据的文本在很多时候都可以采纳历史文本中的内容,若每次制作新的文本时都重新编写并组织语料则效率十分低下。此外,现成的语料数据一般都经过较长时间的检验,其稳定性、准确性较高,若重新编写文本恐难避免语义上的疏漏。
通常历史文本中的语料数据是按照规则排列或者组织的,且这些语料数据之间也存在语义属性上的关联,将这些语料数据作为材料并按照新的文本的要求来制作新的文本是可以考虑的方向。
发明内容
本申请的实施例提供了一种数据聚类方法和系统、数据存储方法和系统以及存储介质,数据存储方法和系统用于将历史聚类数据打散成聚类原子并存储,数据聚类方法和系统可以进一步根据聚类原子制作符合要求的新聚类数据,从而提高聚类数据的效率、降低聚类数据时的错误概率。
根据本申请的一方面,提供一种数据聚类方法,包括:解析历史聚类数据并据其各部分的性质将其分解成聚类原子,所述聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者;根据所述聚类原子的性质形成聚类原子池,所述聚类原子池中包括所述聚类原子的非结构化关系;从所述聚类原子池查找所述聚类原子以构成备选聚类原子,所述查找基于目标聚类数据的目标聚类属性、所述聚类原子关联的聚类属性和所述聚类原子的性质;以及引用所述备选聚类原子形成所述目标聚类数据。
在本申请的一些实施例中,可选地,所述历史聚类数据为历史语料聚类数据,所述聚类原子为语料聚类原子。
在本申请的一些实施例中,可选地,所述查找还基于语料匹配。
在本申请的一些实施例中,可选地,所述聚类原子以图数据库形式组织并存储在聚类原子池中。
在本申请的一些实施例中,可选地,所述查找基于图搜索方法。
在本申请的一些实施例中,可选地,所述聚类原子存在层级关系,其中:将上级聚类原子作为所述备选聚类原子的同时也将其下级聚类原子作为所述备选聚类原子;以及通过作为所述备选聚类原子的下级聚类原子能够上溯其上级聚类原子,并将所述上级聚类原子作为所述备选聚类原子。
在本申请的一些实施例中,可选地,所述聚类属性包括:对象、种类、地区、性别、年龄、期间。
在本申请的一些实施例中,可选地,若所引用的备选聚类原子之间不兼容,则产生提示信息。
根据本申请的一方面,提供一种数据存储方法,包括:解析历史聚类数据并据其各部分的性质将其分解成聚类原子,所述聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者;以及根据所述聚类原子的性质形成聚类原子池,所述聚类原子池中包括所述聚类原子的非结构化关系。
在本申请的一些实施例中,可选地,所述历史聚类数据为历史语料聚类数据,所述聚类原子为语料聚类原子。
在本申请的一些实施例中,可选地,所述聚类原子以图数据库形式组织并存储在聚类原子池中。
在本申请的一些实施例中,可选地,所述聚类属性包括:对象、种类、地区、性别、年龄、期间。
根据本申请的另一方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令由处理器执行时,使得所述处理器执行如上文所述的任意一种方法。
根据本申请的另一方面,提供一种数据聚类系统,包括:解析单元,其配置成解析历史聚类数据并据其各部分的性质将其分解成聚类原子,所述聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者;池化单元,其配置成根据所述聚类原子的性质形成聚类原子池,所述聚类原子池中包括所述聚类原子的非结构化关系;查找单元,其配置成从所述池化单元中查找所述聚类原子以构成备选聚类原子,所述查找基于目标聚类数据的目标聚类属性、所述聚类原子关联的聚类属性和所述聚类原子的性质;以及组装单元,其配置成引用所述备选聚类原子形成所述目标聚类数据。
根据本申请的另一方面,提供一种数据存储系统,包括:解析单元,其配置成根解析历史聚类数据并据其各部分的性质将其分解成聚类原子,所述聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者;以及存储单元,其配置成根据所述聚类原子的性质形成聚类原子池,所述聚类原子池中包括所述聚类原子的非结构化关系。
附图说明
从结合附图的以下详细说明中,将会使本申请的上述和其他目的及优点更加完整清楚,其中,相同或相似的要素采用相同的标号表示。
图1示出了根据本申请的一个实施例的数据聚类原理的示意图。
图2示出了根据本申请的一个实施例的数据聚类方法。
图3示出了根据本申请的一个实施例的数据存储方法。
图4示出了根据本申请的一个实施例的数据聚类系统。
图5示出了根据本申请的一个实施例的数据存储系统。
具体实施方式
出于简洁和说明性目的,本文主要参考其示范实施例来描述本申请的原理。但是,本领域技术人员将容易地认识到相同的原理可等效地应用于所有类型的数据聚类方法和系统、数据存储方法和系统以及存储介质,并且可以在其中实施这些相同或相似的原理,任何此类变化不背离本申请的真实精神和范围。
根据本申请的一方面,提供一种数据聚类方法。如图2所示,数据聚类方法20包括了如下步骤。在步骤S201中解析历史聚类数据并据其各部分的性质将其分解成聚类原子,其中,聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者。在步骤S202中根据聚类原子的性质形成聚类原子池,聚类原子池中包括聚类原子的非结构化关系。在步骤S203中从聚类原子池查找聚类原子以构成备选聚类原子,查找基于目标聚类数据的目标聚类属性、聚类原子关联的聚类属性和聚类原子的性质。在步骤S204中引用备选聚类原子形成目标聚类数据。
本申请中的历史聚类数据、目标聚类数据属于同一种应用的数据,例如二者都是广告宣传文本、法律文本、协议文本等具有可以重新组织的聚类原子的应用数据,也可以是程序代码等具有可以重新组织的聚类原子的应用数据,还可以是用于构建诸如保险理财合同的原始产品(可以根据产品形成最终的合同)。
本申请中的历史聚类数据、目标聚类数据都包括聚类原子,在上下文中,聚类原子可以是历史聚类数据、目标聚类数据中不可再分的最小构成单位,再分将无聚类上的意义;也可以是若干个最小构成单位的集合。聚类原子各有其性质,这些各具性质的聚类原子构成了历史聚类数据。例如,协议文本可以包括条款、标的、责任等,“条款”部分、“标的”部分、“责任”部分可以作为聚类原子,并且这些聚类原子的性质可以是条款、标的、责任。再如,对于程序代码而言,聚类原子可以是实现特定功能的函数,这些函数的功能即构成了函数的性质。
本申请的数据聚类方法20在步骤S201中解析历史聚类数据并据其各部分的性质将其分解成聚类原子。如图1所示,对于不同类型的历史聚类数据可以采用不同的解析方案。例如,若历史聚类数据中的各个部分都包括了特定的“段落标记”(例如,“条款部分”、“标的部分”、“责任部分”等),则可以通过对“段落标记”的索引实现对历史聚类数据的分解,并且分解后的各个“段落”的性质可以为对应的“段落标记”。在其他示例中,历史聚类数据可以是不包括预定的“段落标记”的文本,此时可以通过语义识别来分析“段落”的性质,并且,“段落”的性质可以是从若干个预先设定的“性质”(例如,“条款部分”、“标的部分”、“责任部分”等)中挑选的一个。这些分解后的“段落”将构成聚类原子。
如图1所示,历史聚类数据101包括了三个“段落”(聚类原子)1011、1012和1013,且分别具有对应的“性质”;历史聚类数据102包括了四个“段落”(聚类原子)1021、1022、1023和1024,且分别具有对应的“性质”;历史聚类数据103包括了五个“段落”(聚类原子)1031、1032、1033、1034和1035,且分别具有对应的“性质”。由此可见,历史聚类数据在结构上可能包括不同种类和数量的“段落”,因而并不适合以结构化形式(例如,表格)来索引这些历史聚类数据。
对历史聚类数据分解而成的聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者。聚类原子经由所属的历史聚类数据拆分而得,因而至少部分继承了或者关联了其所属历史聚类数据的属性,为聚类原子赋予属性可以便于对这些聚类原子进行关联以及重新组织。
如图1所示,历史聚类数据101包括属性A、B和C,历史聚类数据102包括属性A、D和E,历史聚类数据103包括属性A、D、F和G。根据历史聚类数据101划分的聚类原子1011、1012关联到属性A、B和C,聚类原子1013关联到属性A和B;根据历史聚类数据102划分的聚类原子1021、1022和1023关联到属性A和D,聚类原子1024关联到属性A、D和E;根据历史聚类数据103划分的聚类原子1031关联到属性A,聚类原子1032关联到属性A和D,聚类原子1033关联到属性A和F,聚类原子1034关联到属性A和G,聚类原子1035关联到属性A、D和G。
在本申请的一些实施例中,对于一般语义文本而言,聚类属性可以包括语言种类、文学风格等。对于一般合同而言,聚类属性可以包括:对象(标的)、种类、地区、性别、年龄、(生效)期间等。对于用于构建诸如保险理财合同的原始产品而言,聚类属性可以还包括险种、销售时间等。对于程序代码而言,聚类属性可以为其解决的问题或者实现的功能,例如,爬虫功能、邮箱调用API等。这些聚类属性反映了历史聚类数据解决历史技术问题时的角色,分解后的聚类原子可以继承或者关联到这些聚类属性,并且进一步用于解决后续的技术问题。聚类原子继承或者关联到的聚类属性可以作为一种挑选聚类原子的依据,从而避免了盲目挑选的低效。
本申请的数据聚类方法20在步骤S202中根据聚类原子的性质形成聚类原子池,聚类原子池中包括聚类原子的非结构化关系。本申请的示例中将聚类原子池化,以形成高效的组织形式,进而方便在关联的聚类原子之间调用。如图1所示,图中示出了一个可能的聚类原子池104,出于清晰示出本发明原理的目的,图中的原子池104仅示出了聚类原子间一些可能的结构上的关系。由于历史聚类数据的多源性,一般是以非结构化的形式来组织这些聚类原子的。在本申请的一些实施例中,可以以图数据库形式对历史聚类数据的聚类原子进行组织并存储。
参见图1,其中聚类原子1011、1012和1013来自于历史聚类数据101,并且根据其于历史聚类数据101的“段落”关系,聚类原子(节点)1011、1012和1013以图示方式存储在原子池104中,其中节点之间的各个箭头表示其间的关系,节点包括名称(例如,1011)和属性(例如,A、B、C)。需要说明的是,图中的关系是原子池104中的片段。以图数据库形式来存储分解而成的聚类原子能够适应不同的数据来源(例如,101、102和103),且图数据库相对于传统的关系型数据库更易于处理数据之间的关系。
本申请的数据聚类方法20在步骤S203中从聚类原子池查找聚类原子以构成备选聚类原子。查找基于目标聚类数据的目标聚类属性、聚类原子关联的聚类属性和聚类原子的性质。在本申请的一些实施例中,查找基于图搜索方法。例如,欲构建如图1所示的目标聚类数据105,且目标聚类数据105具有目标聚类属性A,构成目标聚类数据105的五个“段落”分为四个层级,且分别具有对应的“性质”甲、乙、丙、丁、戊。此时,可以从原子池104中查找关联的聚类属性为A,且“性质”分别为甲、乙、丙、丁、戊的聚类原子,并将符合要求的聚类原子列出作为备选。需要说明的是,由于节点“性质”之间存在图1中所示的关联,因而对四个层级的“段落”的查找可能是在一次或者数次(小于4次)查找过程中实现的,这也是由于图搜索的特性决定的。
本申请的数据聚类方法20在步骤S204中引用备选聚类原子形成目标聚类数据。通过步骤S203查找可能得到多种备选选项,此时可以进一步根据需要从这些备选聚类原子中挑选合适的选项构建目标聚类数据105。如图1所示,目标聚类数据105包括了五个“段落”、四个层级,且五个“段落”分别具有上文记载的“性质”甲(1011)、乙(1022)、丙(1023)、丁(1024)、戊(1035)。
在本申请的一些实施例中,历史聚类数据为历史语料聚类数据,聚类原子为语料聚类原子。例如,历史聚类数据可以为协议文本等具有可以重新组织的聚类原子的应用数据,聚类原子为协议文本的各个章节(又称为“段落”),这些章节可以用于组装成为其他协议文本。章节在协议文本和组装的协议文本中具有相同的“性质”(例如,“条款部分”、“标的部分”、“责任部分”等)。
在本申请的一些实施例中,查找还基于语料匹配。上文记载了查找基于目标聚类数据的目标聚类属性、聚类原子关联的聚类属性和聚类原子的性质,在其他示例中,也可以根据语料匹配来进一步限制查找结果,使得备选聚类原子在语义上更加符合查找要求。语料匹配可以包括关键词匹配、近义词匹配等。
在本申请的一些实施例中,聚类原子存在层级关系,其中:将上级聚类原子作为备选聚类原子的同时也将其下级聚类原子作为备选聚类原子,通过作为备选聚类原子的下级聚类原子能够上溯其上级聚类原子,并将上级聚类原子作为备选聚类原子。进一步参见图1,其中,例如通过上文的任意一种查找步骤可以将聚类原子1022作为备选聚类原子,此时也可以将聚类原子1022的下级聚类原子1023和1024作为备选聚类原子。另外,还可以将聚类原子1022的上级聚类原子1021作为备选聚类原子。以此方式,可以进一步实现对备选聚类原子的扩充,便于从其中规模引用最符合要求的备选聚类原子以构成目标聚类数据。
在本申请的一些实施例中,若所引用的备选聚类原子之间不兼容,则产生提示信息。在一些示例中,两个或者多个备选聚类原子不应当被同时引用,若出现引用冲突的情况则可以产生提示信息。例如,若聚类原子1012和聚类原子1022性质相同,且都符合查找条件,那么聚类原子1012和聚类原子1022将同时入选备选聚类原子。由于目标聚类数据105仅需要一个符合特定性质的段落,因而不可以同时引用聚类原子1012、1022。在一些示例中,若用户同时发起对聚类原子1012、1022的引用,系统可以向用户返回提示信息,以此来提醒引用中的冲突。以上仅示出了“不兼容”的一种具体情形,本发明的保护范围不以此为限。
根据本申请的一方面,提供一种数据存储方法。如图3所示,数据聚类方法30包括了如下步骤。在步骤S301中解析历史聚类数据并据其各部分的性质将其分解成聚类原子,聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者。在步骤S302中根据聚类原子的性质形成聚类原子池,聚类原子池中包括聚类原子的非结构化关系。
在步骤S301中解析历史聚类数据并据其各部分的性质将其分解成聚类原子。如图1所示,对于不同类型的历史聚类数据可以采用不同的解析方案。例如,若历史聚类数据中的各个部分都包括了特定的“段落标记”(例如,“条款部分”、“标的部分”、“责任部分”等),则可以通过对“段落标记”的索引实现对历史聚类数据的分解,并且分解后的各个“段落”的性质可以为对应的“段落标记”。在其他示例中,历史聚类数据可以是不包括预定的“段落标记”的文本,此时可以通过语义识别来分析“段落”的性质,并且,“段落”的性质可以是从若干个预先设定的“性质”(例如,“条款部分”、“标的部分”、“责任部分”等)中挑选的一个。这些分解后的“段落”将构成聚类原子。如图1所示,历史聚类数据101包括了三个“段落”(聚类原子)1011、1012和1013,且分别具有对应的“性质”。
对历史聚类数据分解而成的聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者。聚类原子经由所属的历史聚类数据拆分而得,因而至少部分继承了或者关联了其所属历史聚类数据的属性,为聚类原子赋予属性可以便于对这些聚类原子进行关联以及重新组织。
如图1所示,历史聚类数据101包括属性A、B和C,根据历史聚类数据101划分的聚类原子1011、1012关联到属性A、B和C,聚类原子1013关联到属性A和B。
在本申请的一些实施例中,对于一般语义文本而言,聚类属性可以包括语言种类、文学风格等。对于一般合同而言,聚类属性可以包括:对象(标的)、种类、地区、性别、年龄、(生效)期间等。对于用于构建诸如保险理财合同的原始产品而言,聚类属性可以还包括险种、销售时间等。对于程序代码而言,聚类属性可以为其解决的问题或者实现的功能,例如,爬虫功能、邮箱调用API等。这些聚类属性反映了历史聚类数据解决历史技术问题时的角色,分解后的聚类原子可以继承或者关联到这些聚类属性,并且进一步用于解决后续的技术问题。聚类原子继承或者关联到的聚类属性可以作为一种挑选聚类原子的依据,从而避免了盲目挑选的低效。
在步骤S302中根据聚类原子的性质形成聚类原子池,聚类原子池中包括聚类原子的非结构化关系。本申请的示例中将聚类原子池化,以形成高效的组织形式,进而方便在关联的聚类原子之间调用。如图1所示,图中示出了一个可能的聚类原子池104,出于清晰示出本发明原理的目的,图中的原子池104仅示出了聚类原子间一些可能的结构上的关系。由于历史聚类数据的多源性,一般是以非结构化的形式来组织这些聚类原子的。在本申请的一些实施例中,可以以图数据库形式对历史聚类数据的聚类原子进行组织并存储。
参见图1,其中聚类原子1011、1012和1013来自于历史聚类数据101,并且根据其于历史聚类数据101的“段落”关系,聚类原子(节点)1011、1012和1013以图示方式存储在原子池104中,其中节点之间的各个箭头表示其间的关系,节点包括名称(例如,1011)和属性(例如,A、B、C)。需要说明的是,图中的关系是原子池104中的片段。以图数据库形式来存储分解而成的聚类原子能够适应不同的数据来源(例如,101、102和103),且图数据库相对于传统的关系型数据库更易于处理数据之间的关系。
在本申请的一些实施例中,历史聚类数据为历史语料聚类数据,聚类原子为语料聚类原子。例如,历史聚类数据可以为协议文本等具有可以重新组织的聚类原子的应用数据,聚类原子为协议文本的各个章节(又称为“段落”),这些章节可以用于组装成为其他协议文本。章节在协议文本和组装的协议文本中具有相同的“性质”(例如,“条款部分”、“标的部分”、“责任部分”等)。
根据本申请的另一方面,提供一种数据聚类系统。如图4所示,数据聚类系统40包括解析单元401、池化单元402、查找单元403和组装单元404。其中,解析单元401被配置成解析历史聚类数据并据其各部分的性质将其分解成聚类原子,所述聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者。如图1所示,对于不同类型的历史聚类数据可以采用不同的解析方案。例如,若历史聚类数据中的各个部分都包括了特定的“段落标记”(例如,“条款部分”、“标的部分”、“责任部分”等),则可以通过对“段落标记”的索引实现对历史聚类数据的分解,并且分解后的各个“段落”的性质可以为对应的“段落标记”。在其他示例中,历史聚类数据可以是不包括预定的“段落标记”的文本,此时可以通过语义识别来分析“段落”的性质,并且,“段落”的性质可以是从若干个预先设定的“性质”(例如,“条款部分”、“标的部分”、“责任部分”等)中挑选的一个。这些分解后的“段落”将构成聚类原子。如图1所示,历史聚类数据101包括了三个“段落”(聚类原子)1011、1012和1013,且分别具有对应的“性质”。
解析单元401可将根据对历史聚类数据分解而成的聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者。聚类原子经由所属的历史聚类数据拆分而得,因而至少部分继承了或者关联了其所属历史聚类数据的属性,为聚类原子赋予属性可以便于对这些聚类原子进行关联以及重新组织。
如图1所示,历史聚类数据101包括属性A、B和C,历史聚类数据102包括属性A、D和E,历史聚类数据103包括属性A、D、F和G。解析单元401可将根据历史聚类数据101划分的聚类原子1011、1012关联到属性A、B和C,聚类原子1013关联到属性A和B;根据历史聚类数据102划分的聚类原子1021、1022和1023关联到属性A和D,聚类原子1024关联到属性A、D和E;根据历史聚类数据103划分的聚类原子1031关联到属性A,聚类原子1032关联到属性A和D,聚类原子1033关联到属性A和F,聚类原子1034关联到属性A和G,聚类原子1035关联到属性A、D和G。
在本申请的一些实施例中,对于一般语义文本而言,聚类属性可以包括语言种类、文学风格等。对于一般合同而言,聚类属性可以包括:对象(标的)、种类、地区、性别、年龄、(生效)期间等。对于用于构建诸如保险理财合同的原始产品而言,聚类属性可以还包括险种、销售时间等。对于程序代码而言,聚类属性可以为其解决的问题或者实现的功能,例如,爬虫功能、邮箱调用API等。这些聚类属性反映了历史聚类数据解决历史技术问题时的角色,分解后的聚类原子可以继承或者关联到这些聚类属性,并且进一步用于解决后续的技术问题。聚类原子继承或者关联到的聚类属性可以作为一种挑选聚类原子的依据,从而避免了盲目挑选的低效。
池化单元402被配置成根据所述聚类原子的性质形成聚类原子池,所述聚类原子池中包括所述聚类原子的非结构化关系。本申请的示例中将聚类原子池化,以形成高效的组织形式,进而方便在关联的聚类原子之间调用。如图1所示,图中示出了一个可能的聚类原子池104,出于清晰示出本发明原理的目的,图中的原子池104仅示出了聚类原子间一些可能的结构上的关系。由于历史聚类数据的多源性,一般是以非结构化的形式来组织这些聚类原子的。在本申请的一些实施例中,可以以图数据库形式对历史聚类数据的聚类原子进行组织并存储。
参见图1,其中聚类原子1011、1012和1013来自于历史聚类数据101,并且根据其于历史聚类数据101的“段落”关系,聚类原子(节点)1011、1012和1013以图示方式存储在原子池104中,其中节点之间的各个箭头表示其间的关系,节点包括名称(例如,1011)和属性(例如,A、B、C)。需要说明的是,图中的关系是原子池104中的片段。以图数据库形式来存储分解而成的聚类原子能够适应不同的数据来源(例如,101、102和103),且图数据库相对于传统的关系型数据库更易于处理数据之间的关系。
查找单元403被配置成从所述池化单元中查找所述聚类原子以构成备选聚类原子,所述查找基于目标聚类数据的目标聚类属性、所述聚类原子关联的聚类属性和所述聚类原子的性质。例如,欲构建如图1所示的目标聚类数据105,且目标聚类数据105具有目标聚类属性A,构成目标聚类数据105的五个“段落”分为四个层级,且分别具有对应的“性质”甲、乙、丙、丁、戊。此时,可以从原子池104中查找关联的聚类属性为A,且“性质”分别为甲、乙、丙、丁、戊的聚类原子,并将符合要求的聚类原子列出作为备选。需要说明的是,由于节点“性质”之间存在图1中所示的关联,因而对四个层级的“段落”的查找可能是在一次或者数次(小于4次)查找过程中实现的,这也是由于图搜索的特性决定的。
组装单元404被配置成引用所述备选聚类原子形成所述目标聚类数据。通过查找单元403查找可能得到多种备选选项,此时可以进一步根据需要从这些备选聚类原子中挑选合适的选项构建目标聚类数据105。如图1所示,目标聚类数据105包括了五个“段落”、四个层级,且五个“段落”分别具有上文记载的“性质”甲、乙、丙、丁、戊。
在本申请的一些实施例中,历史聚类数据为历史语料聚类数据,聚类原子为语料聚类原子。例如,历史聚类数据可以为协议文本等具有可以重新组织的聚类原子的应用数据,聚类原子为协议文本的各个章节(又称为“段落”),这些章节可以用于组装成为其他协议文本。章节在协议文本和组装的协议文本中具有相同的“性质”(例如,“条款部分”、“标的部分”、“责任部分”等)。
在本申请的一些实施例中,查找还基于语料匹配。上文记载了查找基于目标聚类数据的目标聚类属性、聚类原子关联的聚类属性和聚类原子的性质,在其他示例中,也可以根据语料匹配来进一步限制查找结果,使得备选聚类原子在语义上更加符合查找要求。语料匹配可以包括关键词匹配、近义词匹配等。
在本申请的一些实施例中,聚类原子存在层级关系,其中:将上级聚类原子作为备选聚类原子的同时也将其下级聚类原子作为备选聚类原子;以及通过作为备选聚类原子的下级聚类原子能够上溯其上级聚类原子,并将上级聚类原子作为备选聚类原子。进一步参见图1,其中,例如通过上文的任意一种查找步骤可以将聚类原子1022作为备选聚类原子,此时也可以将聚类原子1022的下级聚类原子1023和1024作为备选聚类原子。另外,还可以将聚类原子1022的上级聚类原子1021作为备选聚类原子。以此方式,可以进一步实现对备选聚类原子的扩充,便于从其中规模引用最符合要求的备选聚类原子以构成目标聚类数据。
在本申请的一些实施例中,若所引用的备选聚类原子之间不兼容,则产生提示信息。在一些示例中,两个或者多个备选聚类原子不应当被同时引用,若出现引用冲突的情况则可以产生提示信息。例如,若聚类原子1012和聚类原子1022性质相同,且都符合查找条件,那么聚类原子1012和聚类原子1022将同时入选备选聚类原子。由于目标聚类数据105仅需要一个符合特定性质的段落,因而不可以同时引用聚类原子1012、1022。在一些示例中,若用户同时发起对聚类原子1012、1022的引用,系统可以向用户返回提示信息,以此来提醒引用中的冲突。以上仅示出了“不兼容”的一种具体情形,本发明的保护范围不以此为限。
根据本申请的另一方面,提供一种数据存储系统。如图5所示,数据存储系统50包括解析单元501和存储单元502。其中,解析单元501被配置成根解析历史聚类数据并据其各部分的性质将其分解成聚类原子,所述聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者。如图1所示,对于不同类型的历史聚类数据可以采用不同的解析方案。例如,若历史聚类数据中的各个部分都包括了特定的“段落标记”(例如,“条款部分”、“标的部分”、“责任部分”等),则可以通过对“段落标记”的索引实现对历史聚类数据的分解,并且分解后的各个“段落”的性质可以为对应的“段落标记”。在其他示例中,历史聚类数据可以是不包括预定的“段落标记”的文本,此时可以通过语义识别来分析“段落”的性质,并且,“段落”的性质可以是从若干个预先设定的“性质”(例如,“条款部分”、“标的部分”、“责任部分”等)中挑选的一个。这些分解后的“段落”将构成聚类原子。如图1所示,历史聚类数据101包括了三个“段落”(聚类原子)1011、1012和1013,且分别具有对应的“性质”。
对历史聚类数据分解而成的聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者。聚类原子经由所属的历史聚类数据拆分而得,因而至少部分继承了或者关联了其所属历史聚类数据的属性,为聚类原子赋予属性可以便于对这些聚类原子进行关联以及重新组织。
如图1所示,历史聚类数据101包括属性A、B和C,历史聚类数据102包括属性A、D和E,历史聚类数据103包括属性A、D、F和G。根据历史聚类数据101划分的聚类原子1011、1012关联到属性A、B和C,聚类原子1013关联到属性A和B;根据历史聚类数据102划分的聚类原子1021、1022和1023关联到属性A和D,聚类原子1024关联到属性A、D和E;根据历史聚类数据103划分的聚类原子1031关联到属性A,聚类原子1032关联到属性A和D,聚类原子1033关联到属性A和F,聚类原子1034关联到属性A和G,聚类原子1035关联到属性A、D和G。
在本申请的一些实施例中,对于一般语义文本而言,聚类属性可以包括语言种类、文学风格等。对于一般合同而言,聚类属性可以包括:对象(标的)、种类、地区、性别、年龄、(生效)期间等。对于用于构建诸如保险理财合同的原始产品而言,聚类属性可以还包括险种、销售时间等。对于程序代码而言,聚类属性可以为其解决的问题或者实现的功能,例如,爬虫功能、邮箱调用API等。这些聚类属性反映了历史聚类数据解决历史技术问题时的角色,分解后的聚类原子可以继承或者关联到这些聚类属性,并且进一步用于解决后续的技术问题。聚类原子继承或者关联到的聚类属性可以作为一种挑选聚类原子的依据,从而避免了盲目挑选的低效。
存储单元502被配置成根据所述聚类原子的性质形成聚类原子池,所述聚类原子池中包括所述聚类原子的非结构化关系。本申请的示例中将聚类原子池化,以形成高效的组织形式,进而方便在关联的聚类原子之间调用。如图1所示,图中示出了一个可能的聚类原子池104,出于清晰示出本发明原理的目的,图中的原子池104仅示出了聚类原子间一些可能的结构上的关系。由于历史聚类数据的多源性,一般是以非结构化的形式来组织这些聚类原子的。在本申请的一些实施例中,可以以图数据库形式对历史聚类数据的聚类原子进行组织并存储。
参见图1,其中聚类原子1011、1012和1013来自于历史聚类数据101,并且根据其于历史聚类数据101的“段落”关系,聚类原子(节点)1011、1012和1013以图示方式存储在原子池104中,其中节点之间的各个箭头表示其间的关系,节点包括名称(例如,1011)和属性(例如,A、B、C)。需要说明的是,图中的关系是原子池104中的片段。以图数据库形式来存储分解而成的聚类原子能够适应不同的数据来源(例如,101、102和103),且图数据库相对于传统的关系型数据库更易于处理数据之间的关系。
在本申请的一些实施例中,历史聚类数据为历史语料聚类数据,聚类原子为语料聚类原子。例如,历史聚类数据可以为协议文本等具有可以重新组织的聚类原子的应用数据,聚类原子为协议文本的各个章节(又称为“段落”),这些章节可以用于组装成为其他协议文本。章节在协议文本和组装的协议文本中具有相同的“性质”(例如,“条款部分”、“标的部分”、“责任部分”等)。
根据本申请的另一方面,提供一种计算机可读存储介质,其中存储有指令,当所述指令由处理器执行时,使得所述处理器执行如上文所述的任意一种方法。本申请中所称的计算机可读介质包括各种类型的计算机存储介质,可以是通用或专用计算机能够存取的任何可用介质。举例而言,计算机可读介质可以包括RAM、ROM、EPROM、E2PROM、寄存器、硬盘、可移动盘、CD-ROM或其他光盘存储器、磁盘存储器或其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码单元并能够由通用或特定用途计算机、或者通用或特定用途处理器进行存取的任何其他临时性或者非临时性介质。如本文所使用的盘通常磁性地复制数据,而碟则用激光来光学地复制数据。上述的组合也应当包括在计算机可读介质的保护范围之内。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读写信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此。本领域的技术人员可以根据本申请所披露的技术范围想到其他可行的变化或替换,此等变化或替换皆涵盖于本申请的保护范围之中。在不冲突的情况下,本申请的实施方式及实施方式中的特征还可以相互组合。本申请的保护范围以权利要求的记载为准。

Claims (13)

1.一种数据聚类方法,包括:
解析历史聚类数据并据其各部分的性质将其分解成聚类原子,所述聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者,其中,所述聚类原子以图数据库形式组织并存储在聚类原子池中,所述历史聚类数据是具有可重新组织的聚类原子的应用数据,所述应用数据包括广告宣传文本、法律文本、协议文本、程序代码和用于构建保险理财合同的原始产品中的至少一者;
根据所述聚类原子的性质形成聚类原子池,所述聚类原子池中包括所述聚类原子的非结构化关系;
从所述聚类原子池查找所述聚类原子以构成备选聚类原子,所述查找基于目标聚类数据的目标聚类属性、所述聚类原子关联的聚类属性和所述聚类原子的性质;以及
引用所述备选聚类原子形成所述目标聚类数据。
2.根据权利要求1所述的方法,所述历史聚类数据为历史语料聚类数据,所述聚类原子为语料聚类原子。
3.根据权利要求2所述的方法,所述查找还基于语料匹配。
4.根据权利要求1所述的方法,所述查找基于图搜索方法。
5.根据权利要求1所述的方法,所述聚类原子存在层级关系,其中:
将上级聚类原子作为所述备选聚类原子的同时也将其下级聚类原子作为所述备选聚类原子;以及
通过作为所述备选聚类原子的下级聚类原子能够上溯其上级聚类原子,并将所述上级聚类原子作为所述备选聚类原子。
6.根据权利要求1所述的方法,所述聚类属性包括:对象、种类、地区、性别、年龄、期间。
7.根据权利要求1所述的方法,若所引用的备选聚类原子之间不兼容,则产生提示信息。
8.一种数据存储方法,包括:
解析历史聚类数据并据其各部分的性质将其分解成聚类原子,所述聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者,其中,所述历史聚类数据是具有可重新组织的聚类原子的应用数据,所述应用数据包括广告宣传文本、法律文本、协议文本、程序代码和用于构建保险理财合同的原始产品中的至少一者;以及
根据所述聚类原子的性质形成聚类原子池,所述聚类原子池中包括所述聚类原子的非结构化关系,其中,所述聚类原子以图数据库形式组织并存储在所述聚类原子池中,以使得所述聚类原子池中的聚类原子被查找以构成备选聚类原子,所述查找基于目标聚类数据的目标聚类属性、所述聚类原子关联的聚类属性和所述聚类原子的性质,并引用所述备选聚类原子形成目标聚类数据。
9.根据权利要求8所述的方法,所述历史聚类数据为历史语料聚类数据,所述聚类原子为语料聚类原子。
10.根据权利要求8所述的方法,所述聚类属性包括:对象、种类、地区、性别、年龄、期间。
11.一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令由处理器执行时,使得所述处理器执行如权利要求1-10中任一项所述的方法。
12.一种数据聚类系统,包括:
解析单元,其配置成解析历史聚类数据并据其各部分的性质将其分解成聚类原子,所述聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者,其中,所述聚类原子以图数据库形式组织并存储在聚类原子池中,所述历史聚类数据是具有可重新组织的聚类原子的应用数据,所述应用数据包括广告宣传文本、法律文本、协议文本、程序代码和用于构建保险理财合同的原始产品中的至少一者;
池化单元,其配置成根据所述聚类原子的性质形成聚类原子池,所述聚类原子池中包括所述聚类原子的非结构化关系;
查找单元,其配置成从所述池化单元中查找所述聚类原子以构成备选聚类原子,所述查找基于目标聚类数据的目标聚类属性、所述聚类原子关联的聚类属性和所述聚类原子的性质;以及
组装单元,其配置成引用所述备选聚类原子形成所述目标聚类数据。
13.一种数据存储系统,包括:
解析单元,其配置成根解析历史聚类数据并据其各部分的性质将其分解成聚类原子,所述聚类原子关联到其所属的历史聚类数据的聚类属性中的至少一者,其中,所述历史聚类数据是具有可重新组织的聚类原子的应用数据,所述应用数据包括广告宣传文本、法律文本、协议文本、程序代码和用于构建保险理财合同的原始产品中的至少一者;以及
存储单元,其配置成根据所述聚类原子的性质形成聚类原子池,所述聚类原子池中包括所述聚类原子的非结构化关系,其中,所述聚类原子以图数据库形式组织并存储在所述聚类原子池中,以使得所述聚类原子池中的聚类原子被查找以构成备选聚类原子,所述查找基于目标聚类数据的目标聚类属性、所述聚类原子关联的聚类属性和所述聚类原子的性质,并引用所述备选聚类原子形成目标聚类数据。
CN202011292917.5A 2020-11-18 2020-11-18 数据聚类方法和系统、数据存储方法和系统以及存储介质 Active CN114519101B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202011292917.5A CN114519101B (zh) 2020-11-18 2020-11-18 数据聚类方法和系统、数据存储方法和系统以及存储介质
JP2023514827A JP7423859B2 (ja) 2020-11-18 2021-11-03 データクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体
US18/043,655 US20230273946A1 (en) 2020-11-18 2021-11-03 Data clustering method and system, data storage method and system and storage medium
EP21893749.8A EP4191436A4 (en) 2020-11-18 2021-11-03 DATA GROUPING METHOD AND SYSTEM, DATA STORAGE METHOD AND SYSTEM AND STORAGE MEDIUM
PCT/CN2021/128330 WO2022105601A1 (zh) 2020-11-18 2021-11-03 数据聚类方法和系统、数据存储方法和系统以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011292917.5A CN114519101B (zh) 2020-11-18 2020-11-18 数据聚类方法和系统、数据存储方法和系统以及存储介质

Publications (2)

Publication Number Publication Date
CN114519101A CN114519101A (zh) 2022-05-20
CN114519101B true CN114519101B (zh) 2023-06-06

Family

ID=81594648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011292917.5A Active CN114519101B (zh) 2020-11-18 2020-11-18 数据聚类方法和系统、数据存储方法和系统以及存储介质

Country Status (5)

Country Link
US (1) US20230273946A1 (zh)
EP (1) EP4191436A4 (zh)
JP (1) JP7423859B2 (zh)
CN (1) CN114519101B (zh)
WO (1) WO2022105601A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151934B (zh) * 2023-10-30 2024-01-30 国网冀北电力有限公司 一种配电网不停电作业项目多维聚类分析方法及装置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1692357A (zh) * 2002-11-01 2005-11-02 三菱电机株式会社 用于在视频的未知内容中发现模式的计算机化方法
CN1987866A (zh) * 2005-12-21 2007-06-27 国际商业机器公司 用于组织数据的方法和系统
CN102663089A (zh) * 2012-04-09 2012-09-12 中国科学院软件研究所 一种基于球极映射的非结构化数据可视化方法
CN103425740A (zh) * 2013-07-11 2013-12-04 南京邮电大学 一种面向物联网的基于语义聚类的物资信息检索方法
CN104699767A (zh) * 2015-02-15 2015-06-10 首都经济贸易大学 一种面向中文语言的大规模本体映射方法
CN105354542A (zh) * 2015-10-27 2016-02-24 杭州电子科技大学 一种拥挤场景下视频异常事件检测方法
CN107077364A (zh) * 2014-09-02 2017-08-18 起元科技有限公司 基于特定数据端口连接的识别使用图组件的自动聚类的基于图的程序规范的编译
CN110163458A (zh) * 2018-02-23 2019-08-23 徐峰 基于人工智能技术的数据资产管理与监测方法
WO2019171111A1 (en) * 2018-03-04 2019-09-12 Pratik Sharma Application level object provenance service in cloud
CN110659123A (zh) * 2019-11-29 2020-01-07 中国人民解放军国防科技大学 一种基于消息的分布式任务分发调度方法及装置
CN110895706A (zh) * 2019-11-07 2020-03-20 苏宁云计算有限公司 一种目标聚类数的获取方法、装置及计算机系统
CN111222540A (zh) * 2019-11-22 2020-06-02 江苏省环境监测中心 基于聚类的无监督学习的异常判断二噁英检测方法
CN111813905A (zh) * 2020-06-17 2020-10-23 平安科技(深圳)有限公司 语料生成方法、装置、计算机设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4272076B2 (ja) 2004-01-19 2009-06-03 日本電信電話株式会社 情報処理装置および情報処理プログラム
US7979404B2 (en) * 2004-09-17 2011-07-12 Quest Software, Inc. Extracting data changes and storing data history to allow for instantaneous access to and reconstruction of any point-in-time data
CN101178720B (zh) * 2007-10-23 2010-12-15 浙江大学 一种面向互联网微内容的分布式聚类方法
CN105468605B (zh) 2014-08-25 2019-04-12 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
US10311499B1 (en) * 2015-03-23 2019-06-04 Amazon Technologies, Inc. Clustering interactions for user missions
US10515125B1 (en) * 2016-07-26 2019-12-24 The Thought & Expression Company LLC Structured text segment indexing techniques
CN106469212B (zh) 2016-09-05 2019-10-15 北京百度网讯科技有限公司 基于人工智能的人机交互方法和装置
CN106886613B (zh) * 2017-05-03 2020-06-26 成都云数未来信息科学有限公司 一种并行化的文本聚类方法
CN110955658B (zh) * 2019-11-19 2022-11-18 杭州趣链科技有限公司 一种基于Java智能合约的数据组织和存储方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1692357A (zh) * 2002-11-01 2005-11-02 三菱电机株式会社 用于在视频的未知内容中发现模式的计算机化方法
CN1987866A (zh) * 2005-12-21 2007-06-27 国际商业机器公司 用于组织数据的方法和系统
CN102663089A (zh) * 2012-04-09 2012-09-12 中国科学院软件研究所 一种基于球极映射的非结构化数据可视化方法
CN103425740A (zh) * 2013-07-11 2013-12-04 南京邮电大学 一种面向物联网的基于语义聚类的物资信息检索方法
CN107077364A (zh) * 2014-09-02 2017-08-18 起元科技有限公司 基于特定数据端口连接的识别使用图组件的自动聚类的基于图的程序规范的编译
CN104699767A (zh) * 2015-02-15 2015-06-10 首都经济贸易大学 一种面向中文语言的大规模本体映射方法
CN105354542A (zh) * 2015-10-27 2016-02-24 杭州电子科技大学 一种拥挤场景下视频异常事件检测方法
CN110163458A (zh) * 2018-02-23 2019-08-23 徐峰 基于人工智能技术的数据资产管理与监测方法
WO2019171111A1 (en) * 2018-03-04 2019-09-12 Pratik Sharma Application level object provenance service in cloud
CN110895706A (zh) * 2019-11-07 2020-03-20 苏宁云计算有限公司 一种目标聚类数的获取方法、装置及计算机系统
CN111222540A (zh) * 2019-11-22 2020-06-02 江苏省环境监测中心 基于聚类的无监督学习的异常判断二噁英检测方法
CN110659123A (zh) * 2019-11-29 2020-01-07 中国人民解放军国防科技大学 一种基于消息的分布式任务分发调度方法及装置
CN111813905A (zh) * 2020-06-17 2020-10-23 平安科技(深圳)有限公司 语料生成方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
彭焱等.局部优先的动态网络重叠社团及其演变模式检测 .《计算机工程》.2016,第页. *

Also Published As

Publication number Publication date
US20230273946A1 (en) 2023-08-31
JP7423859B2 (ja) 2024-01-29
EP4191436A1 (en) 2023-06-07
JP2023536005A (ja) 2023-08-22
WO2022105601A1 (zh) 2022-05-27
EP4191436A4 (en) 2023-11-29
CN114519101A (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
US8700658B2 (en) Relational meta model and associated domain context-based knowledge inference engine for knowledge discovery and organization
CA2819066C (en) System and method for creating and maintaining a database of disambiguated entity mentions and relations from a corpus of electronic documents
US8082270B2 (en) Fuzzy search using progressive relaxation of search terms
US7680783B2 (en) Configurable search strategy
JP5376163B2 (ja) 文書管理・検索システムおよび文書の管理・検索方法
US10289717B2 (en) Semantic search apparatus and method using mobile terminal
US20100153369A1 (en) Determining Query Return Referents for Concept Types in Conceptual Graphs
US20180107654A1 (en) Method and apparatus for managing synonymous items based on similarity analysis
US20090144295A1 (en) Apparatus and method for associating unstructured text with structured data
CN102768674B (zh) 一种基于路径结构的xml数据存储方法
US20150006528A1 (en) Hierarchical data structure of documents
US20100153368A1 (en) Determining Query Referents for Concept Types in Conceptual Graphs
CN112115227A (zh) 数据的查询方法、装置、电子设备及存储介质
JP4237813B2 (ja) 構造化文書管理システム
CN114519101B (zh) 数据聚类方法和系统、数据存储方法和系统以及存储介质
Delpeuch A survey of OpenRefine reconciliation services
CN113468321B (zh) 一种基于大数据的事件聚合分析方法和系统
US20210141773A1 (en) Configurable Hyper-Referenced Associative Object Schema
JP2006106907A (ja) 構造化文書管理システム、索引構築方法及びプログラム
Bargui et al. Multidimensional concept extraction and validation from OLAP requirements in NL
JP4160627B2 (ja) 構造化文書管理システム及びプログラム
JP2006018584A (ja) 構造化文書管理システム、値索引生成方法及びプログラム
Berlanga et al. Efficient retrieval of structured documents from object-relational databases
Bucchi Exploiting the semantic web for the automatic extraction of Los Angeles city data
Bast Efficient and Effective Search on Wikidata Using the QLever Engine

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant