CN110688549B - 一种基于知识体系图谱构建的人工智能分类方法与系统 - Google Patents

一种基于知识体系图谱构建的人工智能分类方法与系统 Download PDF

Info

Publication number
CN110688549B
CN110688549B CN201910590840.0A CN201910590840A CN110688549B CN 110688549 B CN110688549 B CN 110688549B CN 201910590840 A CN201910590840 A CN 201910590840A CN 110688549 B CN110688549 B CN 110688549B
Authority
CN
China
Prior art keywords
knowledge
entities
entity
data
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910590840.0A
Other languages
English (en)
Other versions
CN110688549A (zh
Inventor
徐超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LIGHT CONTROLS TESILIAN (SHANGHAI) INFORMATION TECHNOLOGY Co.,Ltd.
Original Assignee
Light Controls Tesilian Shanghai Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Light Controls Tesilian Shanghai Information Technology Co ltd filed Critical Light Controls Tesilian Shanghai Information Technology Co ltd
Priority to CN201910590840.0A priority Critical patent/CN110688549B/zh
Publication of CN110688549A publication Critical patent/CN110688549A/zh
Application granted granted Critical
Publication of CN110688549B publication Critical patent/CN110688549B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种基于知识体系图谱构建的人工智能分类方法和系统。针对大规模的数据资源,通过有效开展组织关联,形成知识体系图谱化的数据结构。具体来说,通过对原始数据进行知识提取,从半结构化、非结构化和不标准结构化的原始数据中提取出实体、关系、属性等知识要素,进而对这些知识要素用有效的数据结构进行知识表示,便于进一步处理使用。进一步来说,本发明可以通过知识融合,消除实体、关系、属性之间的歧义,形成高质量的知识体系图谱型数据结构。进而,本发明基于知识体系图谱化数据,开展针对特征属性的规律性挖掘和对象分类。

Description

一种基于知识体系图谱构建的人工智能分类方法与系统
技术领域
本申请涉及用于智能大数据技术领域,尤其涉及一种基于知识体系图谱构建的人工智能分类方法与系统。
背景技术
大数据技术是推动人类社会进入智能化时代的重要力量。目前,数据采集手段日益丰富,从线上走向线下,不论是提供各种互联网服务、移动支付、媒体资讯的平台,还是具备人员身份识别、空间定位能力的智能设备,都在发挥自身功能的同时,不断的收集数据,从而聚合形成了海量的大数据资源。
众所周知,大数据资源要发挥其作用,则必须从原始数据当中发掘其特征属性所具有的分布规律性,进而可以根据这些分布规律性实现对象分类。
例如,对于某种智能设备产品来说,单纯收集100000个用户的用户使用信息是没有价值的,只有从这些用户使用信息形成的原始数据中,发掘出这些用户在性别、年龄、使用行为、使用历史等特征属性上表现的规律性,才能够为该智能设备在更新换代、功能优化等方面提供定量依据。例如,可以根据用户在性别、年龄、使用行为、使用历史等特征属性的共性和特性实现用户分类,属于同一类别的用户特征属性具有共性,不同类别的用户特征属性彼此具有差异性;然后,可以针对其中某一类别用户,实现产品个性化的功能升级。
然而,随着大数据资源总量的持续加速扩张,如何能够从大数据当中更为准确和快速发掘其特征属性蕴含的规律性,作为对象分类的基本依据,成为了当前大数据技术研究的热点和难点,并由此衍生出了很多的技术创新。例如,为了实现更为高效率的大数据处理和分析,提出了Hadoop、Samza、Storm、Spark等各种软硬件架构;为了更为精确的提取数据的规律性,提出了聚类、归回分析等数据挖掘算法。
其中,经过长期的研究和实践发现,除了上述架构和算法层面的改进以外,如何对大数据进行有效的组织和关联,形成优质科学的数据结构,是提高规律性挖掘效率和分类准确度的一个关键手段。然而,目前在大数据数据结构本身的研究中,还主要停留在数据清洗、数据格式规范化以及异常数据排除等层面,对如何形成有利于规律性挖掘和对象分类的数据基本结构,在现有技术中尚属于短板。
发明内容
有鉴于此,本申请的目的在于提出一种基于知识体系图谱构建的人工智能分类方法与系统。
本发明针对大规模的数据资源,通过有效开展组织关联,形成知识体系图谱化的数据结构。具体来说,通过对原始数据进行知识提取,从半结构化、非结构化和不标准结构化的原始数据中提取出实体、关系、属性等知识要素,进而对这些知识要素用有效的数据结构进行知识表示,便于进一步处理使用。进一步来说,本发明可以通过知识融合,消除实体、关系、属性之间的歧义,形成高质量的知识体系图谱型数据结构。进而,本发明基于知识体系图谱化数据,开展针对特征属性的规律性挖掘和对象分类。
基于上述目的,在本申请的第一个方面,提出了一种基于知识体系图谱构建的人工智能分类方法,其特征在于,包括以下步骤:
步骤S1,面向半结构化、非结构化或者不标准结构化的原始数据,转化为多维矢量取值形式的规整数据;
步骤S2,对规整数据映射到预定的多个维度进行聚类;
步骤S3,针对每个聚类类别提取实体、关系、属性组成的知识要素三元数组;并且对知识要素三元数组进行知识融合处理,消除实体、关系、属性之间的歧义;
步骤S4,基于所述知识要素三元数组,组织生成多类型关系图形式的知识体系图谱数据结构;
步骤S5,针对知识体系图谱数据结构,基于所述知识要素的关系及属性进行实体的对象分类。
优选的是,步骤S1中,按照后续拟抽取的实体类型来设置对应的维度,并且将原始数据反映的每个实体类型对应的特征表达为维度取值。
优选的是,步骤S2中,针对多维矢量取值形式的规整数据,将每个多维矢量看作样本点,假设共有m个规整数据,即m为样本点的总量,给定q个聚类中心点,分别计算每个样本点到q个中心点之间的距离,其中q小于或等于m;q与预计聚类后形成的聚类类别数量一致;将每个样本点标记为与其距离最近的中心点相对应的类别;更新每个类别中的中心点,更新后的中心点与本类别中每个样本点的多维矢量距离最小;重复上述标记样本点对应类别和更新中心点的过程,直到所有样本点其隶属的中心点不再变化,则对规整数据生成多个聚类类别。
优选的是,步骤S3具体包括:
S31知识要素抽取,针对每个聚类包含的规整数据,抽取构成知识体系图谱的实体、关系以及属性的知识要素;
S32三元数组表示,针对步骤S31确定的实体、关系及其属性,将其表达为符合知识体系图谱的三元数组;
S33知识融合,通过步骤S31、S32建立的符合知识体系图谱的三元数组,通过知识融合进行异构数据整合与消歧。
优选的是,步骤S31进一步包括:代表性实体抽取,实体关系映射,以及确定实体和关系的属性;其中,代表性实体抽取针对每个聚类的规整数据,按照实体类型,对每个类型的实体在其相关维度上的维度取值分布进行直方图统计,并基于直方图统计获得代表性实体;实体关系映射采用通过评价代表性实体的重合度,确定代表性实体之间的关系;基于代表性实体的维度取值的直方图统计,及其代表性实体之间关系的重合度,定义所述实体和关系的属性。
优选的是,步骤S33的所述知识融合包括:将待对齐的实体本身的属性以及与它有关联的实体的属性分别设置不同的权重,并通过加权求和计算总体的相似度,如果相似度大于阈值则将待对齐的实体归并为同一个实体,并相应归并与实体相关的三元数组。
本发明提供了一种基于知识体系图谱构建的人工智能分类系统,包括数据规整模块、多维度聚类模块、知识要素提取模块、知识体系图谱组织模块、对象分类模块;其中,
所述数据规整模块用于面向半结构化、非结构化或者不标准结构化的原始数据,转化为多维矢量取值形式的规整数据;
多维度聚类模块,用于对规整数据映射到预定的多个维度进行聚类;
知识要素提取模块,用于针对每个聚类类别提取实体、关系、属性组成的知识要素三元数组;并且对知识要素三元数组进行知识融合处理,消除实体、关系、属性之间的歧义;
知识体系图谱组织模块,用于基于所述知识要素三元数组,组织生成多类型关系图形式的知识体系图谱数据结构;
对象分类模块,针对知识体系图谱数据结构,基于所述知识要素的关系及属性进行实体的对象分类。
优选的是,所述数据规整模块按照后续拟抽取的实体类型来设置对应的维度,并且将原始数据反映的每个实体类型对应的特征表达为维度取值。
优选的是,所述多维度聚类模块针对多维矢量取值形式的规整数据,将每个多维矢量看作样本点,假设共有m个规整数据,即m为样本点的总量,给定q个聚类中心点,分别计算每个样本点到q个中心点之间的距离,其中q小于或等于m;q与预计聚类后形成的聚类类别数量一致;将每个样本点标记为与其距离最近的中心点相对应的类别;更新每个类别中的中心点,更新后的中心点与本类别中每个样本点的多维矢量距离最小;重复上述标记样本点对应类别和更新中心点的过程,直到所有样本点其隶属的中心点不再变化,则对规整数据生成多个聚类类别。
优选的是,知识要素提取模块具体执行:知识要素抽取,针对每个聚类包含的规整数据,抽取构成知识体系图谱的实体、关系以及属性的知识要素;三元数组表示,针对实体、关系及其属性,将其表达为符合知识体系图谱的三元数组;知识融合,建立的符合知识体系图谱的三元数组,通过知识融合进行异构数据整合与消歧。
优选的是,知识要素提取模块执行的知识要素抽取进一步包括:代表性实体抽取,实体关系映射,以及确定实体和关系的属性;其中,代表性实体抽取针对每个聚类的规整数据,按照实体类型,对每个类型的实体在其相关维度上的维度取值分布进行直方图统计,并基于直方图统计获得代表性实体;实体关系映射采用通过评价代表性实体的重合度,确定代表性实体之间的关系;基于代表性实体的维度取值的直方图统计,及其代表性实体之间关系的重合度,定义所述实体和关系的属性。
优选的是,知识要素提取模块执行的所述知识融合包括:将待对齐的实体本身的属性以及与它有关联的实体的属性分别设置不同的权重,并通过加权求和计算总体的相似度,如果相似度大于阈值则将待对齐的实体归并为同一个实体,并相应归并与实体相关的三元数组。
可见,本发明针对大规模的数据资源,通过有效开展组织关联,形成知识体系图谱化的数据结构,基于知识体系图谱化数据,开展针对特征属性的规律性挖掘和对象分类。本发明的知识体系图谱数据结构有效适应了原始大数据松散、有效信息稀疏的特点,在利用知识体系图谱数据结构对原始数据实施结构化组织的过程中,以人工智能聚类为关键,归并融合原始数据形成实体、关系、属性这些知识要素,降低了知识要素的重复,明晰了知识要素的关系和属性,从而在面向大数据的对象分类和规律发掘过程中发挥知识体系图谱自身的优势。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是知识体系图谱关系图结构的示意图;
图2是本申请实施例的基于知识体系图谱构建的人工智能分类方法流程图;
图3是本申请实施例的知识要素三元数组提取过程流程图;
图4是本申请实施例的基于知识体系图谱构建的人工智能分类系统结构图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
本申请的目的在于提出一种基于知识体系图谱构建的人工智能分类方法与系统。
本发明针对大规模的数据资源,通过有效开展组织关联,形成知识体系图谱化的数据结构。具体来说,通过对原始数据进行知识提取,从半结构化、非结构化和不标准结构化的原始数据中提取出实体、关系、属性等知识要素,进而对这些知识要素用有效的数据结构进行知识表示,便于进一步处理使用。进一步来说,本发明可以通过知识融合,消除实体、关系、属性之间的歧义,形成高质量的知识体系图谱型数据结构。进而,本发明基于知识体系图谱化数据,利用人工智能开展针对特征属性的规律性挖掘和对象分类。
知识体系图谱是2012年由谷歌提出的概念,可以将知识体系图谱理解为由不同类型的节点和边以及这些节点和边具有的属性共同构成的关系图(Graph)型数据结构。如图1所示,其中的圆点表示节点,黑色和白色的圆点分别代表不同类型的节点;线条表示边,实线和虚线的线条代表不同类型的边。在知识体系图谱中,关系图型数据结构的节点称之为“实体”(Entity),实体代表现实世界的主体事物,例如产品、用户、功能等主体都可以作为知识体系图谱中的实体,显然它们是不同类型的实体。关系图型数据结构的边被称之为“关系”(Relation),关系代表实体之间的任何联系,例如,产品具有某种功能,用户购买了该产品,用户使用了该产品的某种功能,这些联系都可以用关系来表示,这些关系也分别归属于不同类型。实体和关系都可以通过“属性”来表示自身的特性;例如用户作为实体,可以具有性别、年龄等属性以及对应的属性值;用户使用了产品的某种功能,这一“使用”关系可以具有用户的使用次数、使用频率、平均使用时长等属性以及对应的属性值。可见,实体、关系以及属性是知识体系图谱中的基本概念。从具体的数据结构表现形式来看,通常用三元数组表示知识体系图谱中的实体、关系及属性,例如<实体A-关系-实体B>,<实体-属性-属性值>,<关系-属性-属性值>等三元数组。
知识体系图谱技术自提出以来,主要应用于知识型数据库的构建以及在此基础上的知识搜索引擎服务。例如,谷歌公司自己的Knowledge Vault数据库、维基媒体的Wikidata数据库、百度公司的百度百科都属于超大规模的知识图谱数据库。
但是,目前还没有基于知识体系图谱概念实现对大数据的组织关联、进而面向知识体系图谱数据结构开展规律性挖掘和对象分类的应用。原因在于,知识体系图谱是对实体、关系、属性这些知识要素实现结构化的组织,而这些知识要素是边界清晰、关系明确的抽象概念,本身就是高度概括提炼后形成的有效信息。而大数据技术是面向海量、松散、有效信息稀疏的原始数据实现结构化组织,如果直接套用知识体系图谱数据结构对原始数据实施结构化组织,则一是会造成实体、关系、属性这些知识要素的大量重复,二是会出现大量矛盾、歧义或者多义的关系,总之会形成一套异常庞杂、混乱的知识体系图谱,三是现有的知识体系图谱数据结构主要是基于关系提供对实体及其属性等知识的检索和查询,而大数据技术则希望是面向全体结构化数据开展反映内在规律的统计和分类,缺乏面向知识体系图谱型的数据结构展开统计分类的有效方法。以上原因造成在大数据技术中,直接采用知识体系图谱数据结构对原始数据实施结构化组织,无法发挥知识体系图谱自身的优势。
面向以上问题,本发明提供一种基于知识体系图谱构建的人工智能分类方法与系统。
本发明提供的基于知识体系图谱构建的人工智能分类方法如图2所示。在步骤S1中,面向半结构化、非结构化或者不标准结构化的原始数据,转化为多维矢量取值形式的规整数据。
本发明从各类大数据源头取得各种格式的原始数据,这些数据可以是半结构化、非结构化或者不标准结构化的原始数据。例如,原始数据可以是自然语言格式的文本信息,属于非结构化数据;也可以是标记语言格式的文本信息或者表单形态的业务流数据,属于半结构化数据;亦或是键值对形式的不标准结构化数据。
举例来说,本发明通过某种智能设备收集对本设备的用户使用信息,形成100000个用户的用户使用信息组成的原始数据;原始数据包含用户的性别、年龄、产品型号、产品的各项功能、用户对每种功能的使用次数、使用频率以及平均使用时长等。
对于以上原始数据,本发明首先按照便于后续多维度聚类的标准进行规整化,转化为多维矢量取值形式的规整数据。具体来说,本发明按照后续拟抽取的实体类型来设置对应的维度,并且将原始数据反映的每个实体类型对应的特征表达为维度取值。例如,在上文的例子中,对于由100000个用户的用户使用信息组成的原始数据,针对用户、产品、功能分别设置维度,例如维度包括用户性别,用户年龄,产品型号,每种功能的使用次数、使用频率以及平均使用时长等。
步骤S2,对规整数据映射到预定的多个维度进行聚类。针对多维矢量取值形式的规整数据,将每个多维矢量看作样本点,假设共有m个规整数据,即m为样本点的总量,给定q个聚类中心点,分别计算每个样本点到q个中心点之间的距离,其中q小于或等于m;q与预计聚类后形成的聚类类别数量一致。将每个样本点标记为与其距离最近的中心点相对应的类别;更新每个类别中的中心点,更新后的中心点与本类别中每个样本点的多维矢量距离最小;重复上述标记样本点对应类别和更新中心点的过程,直到所有样本点其隶属的中心点不再变化,则对规整数据生成多个聚类类别。
步骤S3,针对每个聚类类别提取实体、关系、属性组成的知识要素三元数组;并且对知识要素三元数组进行知识融合处理,消除实体、关系、属性之间的歧义。
如图3所示,本步骤S3可细分为S31知识要素抽取、S32三元数组表示以及S33知识融合三个子步骤。
针对每个聚类包含的规整数据,S31知识要素抽取更具体包括:代表性实体抽取,实体关系映射,以及确定实体和关系的属性。其中,针对每个聚类的规整数据,按照实体类型,对每个类型的实体在其相关维度上的维度取值分布进行直方图统计,并基于直方图统计获得代表性实体。例如,对于步骤S2形成的每个聚类的规整数据,具有用户、产品、功能三个实体类型;对于功能相关的使用次数、使用频率以及平均使用时长等维度的取值,进行直方图统计,并且按照统计结果,抽取代表性实体;例如,产品的第一项功能的使用次数占各种功能总使用次数的60%以上,则将第一项功能作为本聚类的代表性功能实体。如果直方图统计表明产品的第一项功能和第二项功能使用次数之和占各种功能总使用次数的60%以上,则将第一项功能和第二项功能均作为本聚类的代表性功能实体。同理,可以获得本聚类的代表性用户实体、代表性产品实体等。针对本聚类的代表性实体,实体关系映射采用通过评价代表性实体的重合度,确定代表性实体之间的关系。例如,针对本聚类的规整数据,通过属于代表性用户的规整数据和属于代表性功能的规整数据的重合度,定义代表性用户和代表性功能之间的关系。进而,基于代表性实体的维度取值的直方图统计,及其代表性实体之间关系的重合度,定义所述实体和关系的属性。
S32三元数组表示,即针对步骤S31确定的实体、关系及其属性,将其表达为符合知识体系图谱的<实体A-关系-实体B>,<实体-属性-属性值>,<关系-属性-属性值>的三元数组。
S33知识融合,通过步骤S31、S32建立了符合知识体系图谱的三元数组,但是仍然有可能存在重复、歧义、层次结构缺失等问题,所以必须要进行知识融合。知识融合是高层次的知识组织,是在同一框架规范下进行异构数据整合、消歧,形成高质量的知识体系图谱。知识融合具体表现为实体对齐,主要是用于消除异构数据中实体冲突、指向不明等不一致性问题。实体对齐的主要流程包括:将待对齐的实体本身的属性以及与它有关联的实体的属性分别设置不同的权重,并通过加权求和计算总体的相似度,如果相似度大于阈值则将待对齐的实体归并为同一个实体,并相应归并与实体相关的三元数组。
步骤S4,基于所述知识要素三元数组,组织生成多类型关系图形式的知识体系图谱数据结构。
经过步骤S3,本方法针对每个聚类提取了实体、关系、属性组成的知识要素三元数组,进而,可以将每个聚类的三元数组彼此关联,形成多类型关系图形式的知识体系图谱数据结构。
步骤S5,针对知识体系图谱数据结构,基于所述知识要素的关系及属性进行实体的对象分类。
在步骤S4形成的知识体系图谱数据结构基础上,针对任一类型的实体对象,例如对于上文例子中的功能实体,可以根据每种功能与用户、产品的关系,以及这些类型的实体及其相互关系的属性,实现对功能的智能分类,例如对一个型号的产品的全部功能按照不同实体的代表性功能进行分类。
如图4所示,本发明提供了一种基于知识体系图谱构建的人工智能分类系统,包括数据规整模块、多维度聚类模块、知识要素提取模块、知识体系图谱组织模块、对象分类模块。
所述数据规整模块用于面向半结构化、非结构化或者不标准结构化的原始数据,转化为多维矢量取值形式的规整数据。对于各类大数据源头取得的半结构化、非结构化或者不标准结构化的各种原始数据,所述数据规整模块按照便于后续多维度聚类的标准进行规整化,转化为多维矢量取值形式的规整数据。具体来说,本发明按照后续拟抽取的实体类型来设置对应的维度,并且将原始数据反映的每个实体类型对应的特征表达为维度取值。例如,在上文的例子中,对于由100000个用户的用户使用信息组成的原始数据,针对用户、产品、功能分别设置维度,例如维度包括用户性别,用户年龄,产品型号,每种功能的使用次数、使用频率以及平均使用时长等。
多维度聚类模块,用于对规整数据映射到预定的多个维度进行聚类。针对多维矢量取值形式的规整数据,多维度聚类模块将每个多维矢量看作样本点,假设共有m个规整数据,即m为样本点的总量,给定q个聚类中心点,分别计算每个样本点到q个中心点之间的距离,其中q小于或等于m;q与预计聚类后形成的聚类类别数量一致。将每个样本点标记为与其距离最近的中心点相对应的类别;更新每个类别中的中心点,更新后的中心点与本类别中每个样本点的多维矢量距离最小;重复上述标记样本点对应类别和更新中心点的过程,直到所有样本点其隶属的中心点不再变化,则多维度聚类模块完成对规整数据生成多个聚类类别。
知识要素提取模块,用于针对每个聚类类别提取实体、关系、属性组成的知识要素三元数组;并且对知识要素三元数组进行知识融合处理,消除实体、关系、属性之间的歧义。所述知识要素提取模块相继执行知识要素抽取、三元数组表示以及知识融合。针对每个聚类包含的规整数据,知识要素抽取更具体包括:代表性实体抽取,实体关系映射,以及确定实体和关系的属性。其中,针对每个聚类的规整数据,按照实体类型,对每个类型的实体在其相关维度上的维度取值分布进行直方图统计,并基于直方图统计获得代表性实体。例如,对于步骤S2形成的每个聚类的规整数据,具有用户、产品、功能三个实体类型;对于功能相关的使用次数、使用频率以及平均使用时长等维度的取值,进行直方图统计,并且按照统计结果,抽取代表性实体;例如,产品的第一项功能的使用次数占各种功能总使用次数的60%以上,则将第一项功能作为本聚类的代表性功能实体。如果直方图统计表明产品的第一项功能和第二项功能使用次数之和占各种功能总使用次数的60%以上,则将第一项功能和第二项功能均作为本聚类的代表性功能实体。同理,可以获得本聚类的代表性用户实体、代表性产品实体等。针对本聚类的代表性实体,实体关系映射采用通过评价代表性实体的重合度,确定代表性实体之间的关系。例如,针对本聚类的规整数据,通过属于代表性用户的规整数据和属于代表性功能的规整数据的重合度,定义代表性用户和代表性功能之间的关系。进而,基于代表性实体的维度取值的直方图统计,及其代表性实体之间关系的重合度,定义所述实体和关系的属性。三元数组表示,即针对确定的实体、关系及其属性,将其表达为符合知识体系图谱的<实体A-关系-实体B>,<实体-属性-属性值>,<关系-属性-属性值>的三元数组。知识融合,对于建立的符合知识体系图谱的三元数组,仍然有可能存在重复、歧义、层次结构缺失等问题,所以必须要进行知识融合。知识融合是高层次的知识组织,是在同一框架规范下进行异构数据整合、消歧,形成高质量的知识体系图谱。知识融合具体表现为实体对齐,主要是用于消除异构数据中实体冲突、指向不明等不一致性问题。实体对齐的主要流程包括:将待对齐的实体本身的属性以及与它有关联的实体的属性分别设置不同的权重,并通过加权求和计算总体的相似度,如果相似度大于阈值则将待对齐的实体归并为同一个实体,并相应归并与实体相关的三元数组。
知识体系图谱组织模块,用于基于所述知识要素三元数组,组织生成多类型关系图形式的知识体系图谱数据结构。针对每个聚类提取了实体、关系、属性组成的知识要素三元数组,可以将每个聚类的三元数组彼此关联,形成多类型关系图形式的知识体系图谱数据结构。
对象分类模块,针对知识体系图谱数据结构,基于所述知识要素的关系及属性进行实体的对象分类。在形成的知识体系图谱数据结构基础上,针对任一类型的实体对象,例如对于上文例子中的功能实体,可以根据每种功能与用户、产品的关系,以及这些类型的实体及其相互关系的属性,实现对功能的智能分类,例如对一个型号的产品的全部功能按照不同实体的代表性功能进行分类。
可见,本发明针对大规模的数据资源,通过有效开展组织关联,形成知识体系图谱化的数据结构,基于知识体系图谱化数据,开展针对特征属性的规律性挖掘和对象分类。本发明的知识体系图谱数据结构有效适应了原始大数据松散、有效信息稀疏的特点,在利用知识体系图谱数据结构对原始数据实施结构化组织的过程中,以人工智能聚类为关键,归并融合原始数据形成实体、关系、属性这些知识要素,降低了知识要素的重复,明晰了知识要素的关系和属性,从而在面向大数据的对象分类和规律发掘过程中发挥知识体系图谱自身的优势。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (4)

1.一种基于知识体系图谱构建的人工智能分类方法,其特征在于,包括以下步骤:
步骤S1,面向半结构化、非结构化或者不标准结构化的原始数据,转化为多维矢量取值形式的规整数据;
步骤S2,对规整数据映射到预定的多个维度进行聚类;
步骤S3,针对每个聚类类别提取实体、关系、属性组成的知识要素三元数组;并且对知识要素三元数组进行知识融合处理,消除实体、关系、属性之间的歧义;
步骤S4,基于所述知识要素三元数组,组织生成多类型关系图形式的知识体系图谱数据结构;
步骤S5,针对知识体系图谱数据结构,基于所述知识要素的关系及属性进行实体的对象分类;
步骤S1中,按照后续拟抽取的实体类型来设置对应的维度,并且将原始数据反映的每个实体类型对应的特征表达为维度取值;
步骤S3具体包括:
S31知识要素抽取,针对每个聚类包含的规整数据,抽取构成知识体系图谱的实体、关系以及属性的知识要素;
S32三元数组表示,针对步骤S31确定的实体、关系及其属性,将其表达为符合知识体系图谱的三元数组;
S33知识融合,通过步骤S31、S32建立的符合知识体系图谱的三元数组,通过知识融合进行异构数据整合与消歧;
步骤S31进一步包括:代表性实体抽取,实体关系映射,以及确定实体和关系的属性;其中,代表性实体抽取针对每个聚类的规整数据,按照实体类型,对每个类型的实体在其相关维度上的维度取值分布进行直方图统计,并基于直方图统计获得代表性实体;实体关系映射采用通过评价代表性实体的重合度,确定代表性实体之间的关系;基于代表性实体的维度取值的直方图统计,及其代表性实体之间关系的重合度,定义所述实体和关系的属性;
步骤S32进一步包括:针对步骤S31确定的实体、关系及其属性,将其表达为符合知识体系图谱的实体A-关系-实体B,实体-属性-属性值,关系-属性-属性值的三元数组;
步骤S33进一步包括:所述知识融合具体表现为实体对齐,用于消除异构数据中实体冲突、指向不明等不一致性问题;所述实体对齐的主要流程包括:将待对齐的实体本身的属性以及与所述待对齐的实体有关联的实体的属性分别设置不同的权重,并通过加权求和计算总体的相似度,如果相似度大于阈值则将待对齐的实体归并为同一个实体,并相应归并与实体相关的三元数组。
2.根据权利要求1所述的基于知识体系图谱构建的人工智能分类方法,其特征在于,步骤S2中,针对多维矢量取值形式的规整数据,将每个多维矢量看作样本点,假设共有m个规整数据,即m为样本点的总量,给定q个聚类中心点,分别计算每个样本点到q个中心点之间的距离,其中q小于或等于m;q与预计聚类后形成的聚类类别数量一致;将每个样本点标记为与其距离最近的中心点相对应的类别;更新每个类别中的中心点,更新后的中心点与本类别中每个样本点的多维矢量距离最小;重复上述标记样本点对应类别和更新中心点的过程,直到所有样本点其隶属的中心点不再变化,则对规整数据生成多个聚类类别。
3.一种基于知识体系图谱构建的人工智能分类系统,包括数据规整模块、多维度聚类模块、知识要素提取模块、知识体系图谱组织模块、对象分类模块;其中,
所述数据规整模块用于面向半结构化、非结构化或者不标准结构化的原始数据,转化为多维矢量取值形式的规整数据;
多维度聚类模块,用于对规整数据映射到预定的多个维度进行聚类;
知识要素提取模块,用于针对每个聚类类别提取实体、关系、属性组成的知识要素三元数组;并且对知识要素三元数组进行知识融合处理,消除实体、关系、属性之间的歧义;
知识体系图谱组织模块,用于基于所述知识要素三元数组,组织生成多类型关系图形式的知识体系图谱数据结构;
对象分类模块,针对知识体系图谱数据结构,基于所述知识要素的关系及属性进行实体的对象分类;
所述数据规整模块按照后续拟抽取的实体类型来设置对应的维度,并且将原始数据反映的每个实体类型对应的特征表达为维度取值;
所述知识要素提取模块具体执行:知识要素抽取,针对每个聚类包含的规整数据,抽取构成知识体系图谱的实体、关系以及属性的知识要素;三元数组表示,针对实体、关系及其属性,将其表达为符合知识体系图谱的三元数组;知识融合,建立的符合知识体系图谱的三元数组,通过知识融合进行异构数据整合与消歧;
所述知识要素提取模块执行的知识要素抽取进一步包括:代表性实体抽取,实体关系映射,以及确定实体和关系的属性;其中,代表性实体抽取针对每个聚类的规整数据,按照实体类型,对每个类型的实体在其相关维度上的维度取值分布进行直方图统计,并基于直方图统计获得代表性实体;实体关系映射采用通过评价代表性实体的重合度,确定代表性实体之间的关系;基于代表性实体的维度取值的直方图统计,及其代表性实体之间关系的重合度,定义所述实体和关系的属性;
所述知识要素提取模块执行的三元数组表示进一步包括:针对步骤S31确定的实体、关系及其属性,将其表达为符合知识体系图谱的实体A-关系-实体B,实体-属性-属性值,关系-属性-属性值的三元数组;
所述知识要素提取模块执行的知识融合处理进一步包括:所述知识融合具体表现为实体对齐,用于消除异构数据中实体冲突、指向不明等不一致性问题;所述实体对齐的主要流程包括:将待对齐的实体本身的属性以及与所述待对齐的实体有关联的实体的属性分别设置不同的权重,并通过加权求和计算总体的相似度,如果相似度大于阈值则将待对齐的实体归并为同一个实体,并相应归并与实体相关的三元数组。
4.根据权利要求3所述的基于知识体系图谱构建的人工智能分类系统,其特征在于,所述多维度聚类模块针对多维矢量取值形式的规整数据,将每个多维矢量看作样本点,假设共有m个规整数据,即m为样本点的总量,给定q个聚类中心点,分别计算每个样本点到q个中心点之间的距离,其中q小于或等于m;q与预计聚类后形成的聚类类别数量一致;将每个样本点标记为与其距离最近的中心点相对应的类别;更新每个类别中的中心点,更新后的中心点与本类别中每个样本点的多维矢量距离最小;重复上述标记样本点对应类别和更新中心点的过程,直到所有样本点其隶属的中心点不再变化,则对规整数据生成多个聚类类别。
CN201910590840.0A 2019-07-02 2019-07-02 一种基于知识体系图谱构建的人工智能分类方法与系统 Active CN110688549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910590840.0A CN110688549B (zh) 2019-07-02 2019-07-02 一种基于知识体系图谱构建的人工智能分类方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910590840.0A CN110688549B (zh) 2019-07-02 2019-07-02 一种基于知识体系图谱构建的人工智能分类方法与系统

Publications (2)

Publication Number Publication Date
CN110688549A CN110688549A (zh) 2020-01-14
CN110688549B true CN110688549B (zh) 2021-01-01

Family

ID=69108104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910590840.0A Active CN110688549B (zh) 2019-07-02 2019-07-02 一种基于知识体系图谱构建的人工智能分类方法与系统

Country Status (1)

Country Link
CN (1) CN110688549B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400428B (zh) * 2020-02-17 2023-08-25 河南新世纪拓普电子技术有限公司 一种知识图谱体系搭建方法
CN111737489A (zh) * 2020-06-17 2020-10-02 广联达科技股份有限公司 一种建筑信息的检索方法、装置、设备及可读存储介质
CN113821647B (zh) * 2021-11-22 2022-02-22 山东捷瑞数字科技股份有限公司 一种工程机械行业知识图谱构建方法及系统
CN114091463B (zh) * 2022-01-20 2022-04-12 北京零点远景网络科技有限公司 地区工单乱点分析方法、装置、电子设备及可读存储介质
CN114898751B (zh) * 2022-06-15 2024-04-23 中国电信股份有限公司 自动化配置方法及系统、存储介质和电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180232443A1 (en) * 2017-02-16 2018-08-16 Globality, Inc. Intelligent matching system with ontology-aided relation extraction
CN106933983B (zh) * 2017-02-20 2020-08-14 广东省中医院 一种中医药知识图谱的构建方法
CN107491555B (zh) * 2017-09-01 2020-11-20 北京纽伦智能科技有限公司 知识图谱构建方法和系统
CN108228874A (zh) * 2018-01-18 2018-06-29 北京邮电大学 基于人工智能技术的通用知识图谱可视化装置及方法

Also Published As

Publication number Publication date
CN110688549A (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
CN110688549B (zh) 一种基于知识体系图谱构建的人工智能分类方法与系统
CN107577688B (zh) 基于媒体信息采集的原创文章影响力分析系统
Liu et al. Hydra: Large-scale social identity linkage via heterogeneous behavior modeling
Volkova et al. Inferring user political preferences from streaming communications
CN102364498B (zh) 一种基于多标签的图像识别方法
Perdana et al. Combining likes-retweet analysis and naive bayes classifier within twitter for sentiment analysis
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN112559747B (zh) 事件分类处理方法、装置、电子设备和存储介质
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
Li et al. Automatic fast double KNN classification algorithm based on ACC and hierarchical clustering for big data
CN103778206A (zh) 一种网络服务资源的提供方法
CN111326236A (zh) 一种医疗图像自动处理系统
CN113379457A (zh) 面向金融领域的智能营销方法
Rehs A supervised machine learning approach to author disambiguation in the Web of Science
CN112508726A (zh) 一种基于信息传播特点的虚假舆论识别系统及其处理方法
Zhu et al. Age estimation algorithm of facial images based on multi-label sorting
CN113486983A (zh) 一种用于反欺诈处理的大数据办公信息分析方法及系统
CN115309906A (zh) 一种基于知识图谱技术的数据智能分类技术
CN115794803A (zh) 一种基于大数据ai技术的工程审计问题监测方法与系统
CN113159326B (zh) 基于人工智能的智能业务决策方法
CN113486191B (zh) 一种涉密电子文件定解密方法
Zhong et al. Analysis and improvement of evaluation indexes for clustering results
KR20220074571A (ko) 마케팅 지식 그래프의 채널 기반 정보 수집을 위한 딥러닝 sns 콘텐츠 임베딩 방법 및 그 장치
Yang et al. Semi-supervised multimodal clustering algorithm integrating label signals for social event detection
CN112989060B (zh) 一种基于gcn的重大事件趋势预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200922

Address after: 200232 floor 18, building 2, No. 277, Longlan Road, Xuhui District, Shanghai

Applicant after: LIGHT CONTROLS TESILIAN (SHANGHAI) INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 100027 West Tower 11 floor, Kai Hao building, 8 Xinyuan South Road, Chaoyang District, Beijing.

Applicant before: Terminus(Beijing) Technology Co.,Ltd.

Applicant before: LIGHT CONTROLS TESILIAN (SHANGHAI) INFORMATION TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant