CN110088749A - 自动本体生成 - Google Patents

自动本体生成 Download PDF

Info

Publication number
CN110088749A
CN110088749A CN201780079370.0A CN201780079370A CN110088749A CN 110088749 A CN110088749 A CN 110088749A CN 201780079370 A CN201780079370 A CN 201780079370A CN 110088749 A CN110088749 A CN 110088749A
Authority
CN
China
Prior art keywords
data
entity type
ontology
entity
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780079370.0A
Other languages
English (en)
Other versions
CN110088749B (zh
Inventor
M·奥伯霍菲尔
S·舒玛彻
O·沃尔夫
M·考贝特
J·利姆伯恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN110088749A publication Critical patent/CN110088749A/zh
Application granted granted Critical
Publication of CN110088749B publication Critical patent/CN110088749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

为来自多个数据源的数据集合自动生成本体。已知概念的语义网络用作用于知识的目标域的本体模板,其中已知概念被定义为基本实体类型。从数据源读取数据逻辑分组和相关联的技术元数据。应用数据发现技术来检测数据逻辑分组中的数据特性的语义和/或语法分类。对于每个数据逻辑分组,生成具有用于数据特性的属性的实体类型,并且将生成的实体类型添加到语义网络,其中生成的实体类型具有从应用的数据发现技术导出的属性分类。生成的实体类型的语义含义被生成并与语义网络内的其他实体类型相关联,并且语义网络被输出作为该数据集合的结果本体。

Description

自动本体生成
技术领域
本发明一般涉及自动本体生成,更具体地,涉及使用语义网络自动生成本体。
背景技术
本体是特定域存在的实体的类型、属性(property)和相互关系的正式的命名和定义。
重要的业务信息(例如客户信息)通常重复存储在企业内的多个存储库中。对于不同类型的项目,需要找到、协调存储在许多冗余的存储库副本中的数据并将其移动到单个目标系统中。此类项目的示例可能包括数据仓库、面向系统应用产品(SAP)应用的应用整合或主数据管理(MDM)。
主数据管理通过查找最重要的数据子集(称为主数据)并将其整合到单个存储库或连接的存储库组中来解决客户数据重复问题。大型企业拥有数百个数据源系统,需要将数据输入公共目标系统、如主数据管理系统。分析遗留系统中数据的形状和含义并将它们映射到公共本体的过程需要非常大量的手动操作,这可能容易出错。因此,需要针对感兴趣的域(例如,主数据,事务数据等)自动地为这些项目构建公共本体。
为MDM存储库构建本体通常从采访业务利益相关者开始,以确定源系统中存在的实体的一般概念和类型。一旦确定了高层级的概念,构建详细本体的典型方法如下。
·手动检查源系统元数据,查找业务概念及其属性之间的共性,并手动构建特定源系统集的所需本体。
·从包含最常使用的实体类型和特性(attribute)的默认本体开始,并通过添加新实体类型和属性为特定实现自定义它,并重命名默认本体以表示业务术语。
·从特定行业(例如,银行模型,保险模型)的所有实体类型和特性的详细本体开始并自定义它。
所有这些方法都需要将最终本体映射回源系统的后续步骤,以便新的本体可用于从源提取数据以将其移动到公共目标;例如,从具有主数据的许多源移动到集中式MDM存储库。
手动检查数百个源系统、了解系统中数据的含义、并手动将它们映射到目标本体是非常耗时的。因此,大多数企业无法负担在企业规模上引入MDM系统,或者只能为小的系统子集实施MDM系统。
因此,本领域需要解决上述问题。
发明内容
根据本发明的一个方面,提供了一种用于为来自多个数据源的数据集合自动生成本体的计算机实现的方法,包括:提供已知概念的语义网络作为用于知识的目标域的本体模板,其中已知概念定义为基本实体类型;从数据源读取数据逻辑分组和相关联的技术元数据;应用数据发现技术来检测数据逻辑分组中的数据特性的语义和/或语法分类;对于数据逻辑分组中的每一个,生成具有用于数据特性的属性的实体类型,并将生成的实体类型添加到语义网络,其中生成的实体类型具有从应用的数据发现技术导出的属性分类;;检测生成的实体类型的语义含义,并将它们与语义网络中的其他实体类型相关联;以及,输出语义网络作为该数据集合的结果本体。
提供已知概念的语义网络作为本体模板可以包括提供具有基于特性的属性以及属性的已知分类集合的基本实体类型,并且其中通过应用数据发现技术检测的分类可以是基本实体类型的已知分类。
生成具有用于数据特性的属性的实体类型可以将来自相关联的技术元数据的名称用于所生成的实体类型和属性。
该方法可以包括通过链接到数据源的技术元数据,将生成的具有存储的谱系(lineage)的实体类型提供给其源自的数据源。该方法可以包括使用所存储的谱系来优化跨数据源的数据逻辑分组的存储。
检测语义和/或语法分类可以包括基于对分类的约束的遵从性来提供正确分类的概率。检测所生成的实体类型的语义含义并将它们与其他实体类型相关联可以包括:使用实体的公共属性和/或分类来关联实体类型。将生成的实体类型与其他实体类型相关联可以包括关联类型和/或确定子类型和父类型。
生成具有属性的实体类型可以为数据源中的数据集的子集生成实体类型,其中基于由外键引用的数量确定的数据的流行度来选择子集。
该方法可以包括优化语义网络以输出结果本体,包括创建跨实体类型的公共和唯一属性与分类的映射和/或为实体类型提供附加分类。
该方法可以包括在本体生成的阶段期间实现用户查看和输入,包括以下一个或多个阶段:读取数据逻辑分组,检测数据特性的分类,生成实体类型,关联实体类型,以及输出结果本体。
该方法可以作为云环境中的服务提供。
根据本发明的另一方面,提供了一种用于为来自多个数据源的数据集合自动生成本体的系统,包括:处理器和存储器,存储器被配置为向处理器提供计算机程序指令以执行组件的功能;种子组件,用于提供已知概念的语义网络作为用于知识的目标域的本体模板,其中已知概念被定义为基本实体类型;源读取组件,用于从数据源读取数据逻辑分组和相关联的技术元数据;数据分类组件,用于应用数据发现技术来检测数据逻辑分组中的数据特性的语义和/或语法分类;实体类型组件,对应数据逻辑分组中的每一个,生成具有用于数据特性的属性的实体类型,并将生成的实体类型添加到语义网络,其中生成的实体类型具有从应用的数据发现技术导出的属性分类;实体关联组件,检测生成的实体类型的语义含义,并将它们与语义网络内的其他实体类型相关联;以及,本体输出组件,用于输出语义网络作为该组数据的结果本体。
种子组件可以包括提供具有基于特性的属性以及所述属性的已知分类集合的基本实体类型,并且其中由数据发现组件检测的分类是基本实体类型的已知分类。
用于生成具有用于数据特性的属性的实体类型的实体类型组件可以包括命名组件,该命名组件将来自相关联的技术元数据的名称用于所生成的实体类型和属性。
该系统可以包括实体元数据链接组件,用于通过链接到数据源的技术元数据,将生成的具有存储的谱系的实体类型提供给其所源自的数据源。
数据分类组件可以包括概率组件,用于基于对分类的约束的遵从性来提供正确分类的概率。
实体类型组件可以为数据源中的数据集的子集生成实体类型,其中基于由外键引用的数量确定的数据的流行度来选择子集。
实体关联组件可以使用实体的公共属性和/或分类来关联实体类型,并且其中该关联与类型有关和/或确定子类型和父类型。
该系统可以包括用于优化语义网络以输出结果本体的优化组件,包括创建跨实体类型的公共和唯一属性与分类的的映射和/或为实体类型提供附加分类。
该系统可以包括用户接口,用于在本体生成的阶段期间实现用户查看和输入,包括以下一个或多个阶段:读取数据逻辑分组,检测数据特性的分类,生成实体类型,关联实体类型,以及输出结果本体。
根据本发明的另一方面,提供了一种为来自多个数据源的数据集合生成的本体形式的数据结构,包括:用于知识的目标域的已知概念的语义网络,其中已知概念被定义为基本实体类型,具有基于特性的属性和属性的已知分类集合;多个生成的实体类型,每个实体类型用于来自多个数据源的数据逻辑分组,每个生成的实体类型具有用于数据逻辑分组的数据特性的属性以及从数据发现技术导出以检测语义和/或语法分类的属性的分类;以及,其中,通过检测生成的实体类型的语义含义来关联基本实体类型和生成的实体类型,并在所述本体中进行优化。
数据结构可以包括使用生成的实体类型所基于的数据逻辑分组的技术元数据从生成的实体类型到始发数据源的链接。
可以使用公共属性和/或实体分类关联实体类型来关联基本实体类型和生成的实体类型。
根据本发明的再一个方面,提供了用于为来自多个数据源的数据集合自动生成本体的计算机程序产品,该计算机程序产品包括计算机可读存储介质,其中包含有程序指令,所述程序指令可由处理器执行,使得该处理器:提供已知概念的语义网络作为用于知识的目标域的本体模板,其中已知概念定义为基本实体类型;从数据源读取数据逻辑分组和相关联的技术元数据;应用数据发现技术来检测数据逻辑分组中的数据特性的语义和/或语法分类;对于数据逻辑分组中的每一个,生成具有用于数据特性的属性的实体类型,并将生成的实体类型添加到语义网络,其中生成的实体类型具有从应用的数据发现技术导出的属性分类;检测生成的实体类型的语义含义,并将它们与语义网络中的其他实体类型相关联;以及,输出语义网络作为该数据集合的结果本体。
提供已知概念的语义网络作为本体模板可以包括提供具有基于特性的属性以及属性的已知分类集合的基本实体类型,并且其中通过应用数据发现技术检测的分类可以是基本实体类型的已知分类。
所描述的本发明的各方面提供了以下优点:消除容易出错且耗时的工作以理解源系统中的数据并将它们映射到目标本体。
从另一方面来看,本发明提供了一种用于为来自多个数据源的数据集合自动生成本体的计算机程序产品,所述计算机程序产品包括:计算机可读存储介质,其可由处理电路读取并存储用于由处理电路执行的指令,用于执行用于执行本发明的步骤的方法。
从另一方面来看,本发明提供了一种存储在计算机可读介质上并可加载到数字计算机的内部存储器中的计算机程序,包括当所述程序在计算机上运行时用于执行发明的所述步骤的软件代码部分。
附图说明
被视为本发明的实施例的主题在说明书的结论部分中特别指出并清楚地要求保护。当结合附图阅读时,通过参考以下详细描述,可以就组织和操作方法以及其方面、特征和优点最好地理解本发明的实施例。
现在将参考以下附图仅通过示例的方式描述本发明的优选实施例,其中:
图1是根据本发明的方法的示例实施例的流程图;
图2A和2B是根据本发明的系统的示例实施例的示意图;
图3是根据本发明的系统的示例实施例的框图;
图4是说明根据本发明的工作实例的示意图;
图5是说明使用图4的工作示例生成本体的示意图;
图6是可以实现本发明的计算机系统或云服务器的实施例的框图;
图7是可以实现本发明的云计算环境的示意图;和
图8是可以实现本发明的云计算环境的抽象模型层的图。
应当理解,为了说明的简单和清楚,图中所示的元件不一定按比例绘制。例如,为了清楚起见,一些元件的尺寸可能相对于其他元件被夸大。此外,在认为适当的情况下,可以在附图中重复附图标记以指示对应或类似的特征。
具体实施方式
所描述的方法和系统跨各种结构化数据源自动构建数据本体,该数据源可以在一个或多个数据管理系统(例如,数据库中的表)中提供。该方法包括使用分类和数据指纹识别算法利用语义和业务元数据来丰富结构化数据源的技术元数据。该方法在已知域概念和结构化数据源中的数据之间应用自动语义等效检测,并生成保留源的业务语义的数据的详细本体。
用于为跨各种结构化数据源的一组数据生成本体的方法包括:提供概念的语义网络作为知识的目标域的本体模板。可以读取数据源以识别该组数据以及与数据相关联的元数据。数据发现技术可用于检测源数据中的数据特性的语义和语法分类。
对于数据源中的每个逻辑分组数据,例如,数据逻辑分组可以是表;该方法可以生成要添加到语义网络的具有属性和分类的实体类型。该方法还包括检测新生成的实体类型的语义含义并将它们与语义网络内的其他实体类型相关联。
所描述的方法和系统提供了从一些基本概念开始为特定域构建本体的自动方法。虽然本体是通过所提出的算法来爬行、发现、分析和理解许多源系统而建立的,但是与源管理的本体概念有关的数据模型也与本体相链接。
因此,不仅可以创建本体,而且因为现在可以利用业务和技术元数据,还可以揭示跨多个源的数据的关系。例如,通过将业务和技术谱系应用于元数据,还可以通过查看如何消除冗余来优化存储成本。对于为存储协调数据的公共目标移动的数据,可以利用生成的映射生成变换ETL(提取,变换,加载)逻辑。
参考图1,流程图100示出了所描述的方法的示例实施例。
如图1所示,可以在101处从多个结构化数据源访问数据集合。例如,多个数据源可以是企业或遗留系统的多个存储库。可以从多个数据源的源表扫描该数据集合。
可以在102处提供语义网络,其具有用于知识的目标域的概念,用作本体模板作为所生成的本体的基础。这使得该方法具有针对知识的目标域的概念的基本语义网络。概念被定义为本体模板中的基本实体类型。
概念的基本实体类型可以具有基于其特性名称的属性和已知分类集合。属性可以具有在本体模板中提供的到分类的关联。
可以在103处利用相关联的技术元数据(诸如数据库模式、表数据类型、列名称和键)来标识数据源内的数据特性的逻辑分组。数据特性的逻辑分组形成表示真实事物的数据实体(例如,人员,要求,账户,地址)。数据特性可以是表格或逗号分隔值(CSV)文件中的列。不知道有多少实体类型可以存储在同一个表中(例如,在遗留系统中,账户和拥有该账户的人员通常存储在同一个表中)。因此,必须确定源表中特性的含义,以确定哪种类型的实体可以存储在其中。
可以在104处读取数据逻辑分组,例如通过扫描表,以识别数据及其相关的技术元数据。技术元数据可以用作实体类型和属性类型名称。
该方法可以在105处应用数据发现技术以进行数据分类,以检测多个数据源中的数据特性的语义和语法分类。
在110处,对于每个数据逻辑分组,可以执行以下方法。对于每个数据逻辑分组,例如,扫描的数据源,该方法可以在111处自动生成具有基于逻辑分组的特性的属性的实体类型。这可以将已发现的逻辑分组的元数据重用为实体类型和属性类型名称。可以基于步骤105中的数据发现在112处将分类添加到属性。可以在113处将生成的实体类型与其属性及其分类一起添加到本体模板以生成本体。
该方法可以在114处通过检测新生成的实体类型的可能语义含义将生成的实体类型与其他实体类型相关联,并且可以通过应用下面更详细描述的各种技术将其与本体内的其他实体类型相关联。该关联可以使用公共属性和/或分类。关联可以涉及类型或可以确定子类型。
一旦处理了所有数据源,就可以通过应用各种技术在115处自动分析和优化结果本体。可选地,可以手动优化结果本体以查看生成的本体并用业务分类手动标记实体类型。该方法可以使用附加的手动分类来进一步自动优化本体。
技术元数据、例如与本体模板中的生成的实体类型相关的数据模型可以在116处链接到从其读取数据逻辑分组的数据源。
因此,由于现在可以利用业务和技术元数据,不仅创建了本体,而且跨许多数据源的数据的关系也被带入。例如,通过将业务和技术谱系应用于元数据,还可以通过查看如何消除冗余来优化存储成本。对于为存储协调数据的公共目标的移动数据,可以利用生成的映射来生成变换ETL(提取,变换,加载)逻辑。
下面参考图2A以图1的流程图100中定义的步骤的进一步细节以示意图的形式示出了所描述的系统200的示例实施例。
在图2A中,示出了本体生成组件230,其使用本体模板240作为生成的本体的基础。
播种(Seeding)
在图1中,可以在102处提供具有用于知识的目标域的概念的语义网络,其用作本体模板240作为生成的本体的基础。所描述的方法和系统用用于知识的目标域的概念的基本语义网络播种。
例如,当生成本体用于主数据管理(MDM)系统时,本体模板可以以一组基本实体类型250或通常存在于MDM本体中的概念开始。例如,这些基本实体类型250可以包括“人员”、“组织”、“账户”、“位置”和“家庭”,典型的实体关系可以是“人员”-“生活在”-“位置”。
基本实体类型250可以包括其名称被提供为基本实体类型250的属性251-253的特性。可以在属性251-253和已知分类261-263之间存储关联。已知的分类可以作为一组分类260存储在本体模板240中并且链接到基本实体类型250的属性251-253。
本体模板240可以包括,例如,“人员(Person)”的基本实体类型250,其包含形成属性251-253的特性“姓名(Name)”、“地址(Address)”、“出生日期(DoB)”。在表示特性名称的属性251-253和诸如“名字(First Name)”、“姓氏(Last Name)”、“全名(Full Name)”、“问候(Greeting)”的已知分类261-263之间提供关联。
数据分类
在图1中,方法100可以在104处读取数据逻辑分组及其相关联的技术元数据,并且可以在105处应用数据发现技术以检测数据逻辑分组中的数据特性的语义和语法分类。
在图2A中,示出了数据逻辑分组210,其中数据211具有特性209和技术元数据221。
数据发现技术可以具有库以检查已知概念的格式。例如:特定字符串列中的值中的“@”和“.”表示数据很可能是电子邮件;如果它是整数模式,例如333-22-4444,则表明其是社会安全号(SSN)。这些技术是数据分析工具中的“数据指纹识别”算法的一部分。结果,包括这种数据的数据逻辑分组中的列的技术元数据可以用建议某种概念“联系方式”/“电子邮件”或“标识符”/“社会安全号”的业务元数据或分类来丰富。
可以基于例如列中有多少值符合由这种概念对其类型的实例所施加的约束来提供建议的业务元数据或分类的概率。
概率可用于验证数据分类正确的假设。例如,SSN应该是相对唯一的,如果列格式看起来像SSN但是在列中找到了太多相同的值,那么下列之一是正确的:a)分配的分类是正确的但是列中的数据质量不好;或b)本列中数据的含义未被理解。
数据发现过程可以将分类“人员”分配给名为“子女(Child)”的表,并将分类“姓(surname)”分配给字段名“LN”。基于已播种的概念的已知语义网络来检测分类260。
实体类型生成
对于例如以扫描的源表或数据集的形式的每个数据逻辑分组210,该方法在111处自动生成生成的实体类型270,其具有用于数据逻辑分组210的特性的属性271-274。可以重用已发现的逻辑分组的技术元数据作为实体类型和属性类型名称。
可以在112处按照数据发现过程在先前处理中所分配的,将分类261-263添加到属性271-274。
可以在113处将生成的实体类型270以及其属性271-273和参考本体模板240的分类集合260的分类261-263添加到本体模板240。
维护导致生成此实体类型的源数据集与生成的实体类型之间的映射以存储谱系。例如,在扫描“客户(Customer)”表之后,生成新的实体类型“客户”并将其添加到本体模板。系统跟踪导致生成提供存储谱系的实体类型的数据源。
检查每个遗留系统中的每个以及所有的表可能在计算上是昂贵的。在备选实施例中,可以仅检查源表的子集并将其添加到本体中。可以基于数据的“流行度”来选择子集,该数据的流行度可以是由最多外键引用确定、最经常于数据库的缓冲器拉取中找到、最经常由ETL系统读取,等等。
语义等价
该方法可以通过检测新生成的实体类型的可能语义含义并将其与其他实体类型相关联作为相关类型或子类型,在114处将生成的实体类型与本体模板中的其他实体类型相关联。这可以通过应用如下所述的各种技术来实现。这可以使用所生成的实体类型的属性和/或分类。
因此,当找到具有分类“姓氏”的源系统特性时,可以建议该表包含“人员”业务概念。
一种技术可以针对新生成的实体类型相对于其他已经理解的实体类型执行实体解析或数据匹配。例如,将新的“客户”实体类型的数据与先前确定为包含“人员”基本概念的数据的“潜在客户(Prospect)”实体类型的数据相匹配。系统检查“客户”和“潜在客户”来源之间的匹配率,并确定“客户”实体是否是“人员”基本实体的子类型。当方法在两个实体之间看到公共分类时,或者当实体具有显著数量的公共属性值时(例如,如下面的图表分析中所解释的),使用此技术。
另一种技术可以使用图表分析来构建跨所有类型的特征社区,寻找在不同实体记录中发生的相同特性值。可以找到密集的属性社区,并且使用共同的属性集合(例如,“位置”)形成新的实体类型。或者,这些可以与具有相同属性集合的现有实体类型相关联(例如,“子女”和“人员”实体类型中的数据将共享许多相似的值,这意味着这些类型中的数据具有相同的含义)。
另一种技术可以使用来自数据发现过程的表级分类,或者可以将单词消歧过程应用于新导出的实体类型名称和属性名称,以找到所生成的实体类型之间可能的语义相似性。例如,实体类型“子女”和实体类型“个人”都可以是基本实体类型“人员”的子类型。
另一种技术可以包括分析由实体解析过程检测到的“可能相关”的导出关系,以找出数据之间的共性的原因。经常导致“可能相关”关系的实体属性集合可以被拉出到单独的实体类型和关系中。例如,当实体类型“顾客(Client)”和实体类型“客户(Customer)”由于相同的“地址”和“姓氏”而具有导出关系时,该方法可以自动生成具有属性“地址”和“姓氏”的新实体类型“地址及姓氏(AddressAndLastName)”,并将其添加到本体模板。该方法可以用关系类型“具有相同”将“顾客”和“客户”实体类型与“地址及姓氏”实体类型相关联,从而进一步增强所生成的本体中的概念的语义网络。
另一种技术可以包括利用谱系来理解提取、转换和加载(ETL)如何在企业内复制数据以构建ETL基础设施的谱系图以进一步分析。企业信息集成平台为ETL程序在系统之间移动数据时发生的所有事情创建技术元数据。在该元数据上,这些平台的元数据工具提供数据谱系功能,以查看数据如何在系统之间流动以及如何在其中进行转换等。例如,假设在系统A中所提出的算法检测到存储在特定表中的数据中的某个概念(例如,人员)。通过利用技术元数据上的数据谱系功能,可以检测到在系统A中的存储人员信息的表是否从另一个系统B(以及系统B中的哪些表)接收人员数据。因此,如果算法能够将表中的任何特定系统内容链接到本体,则算法可以以类似的方式将从其他系统馈送该表的源链接到本体中的相同概念。对于从系统A中的表读取的系统,可以应用相同的逻辑,其中数据谱系图不显示可能对概念产生影响的转换。
另一种技术可以使用基于信息检索的算法,例如研究院的HELIX。IBM是国际商业机器公司(International Business Machines Corporation)的商标,在全球许多司法管辖区注册。这是一种基于信息检索的算法,将实体类型数据与已知语义的“基础事实”数据集进行比较。
可使用一种或多种上述技术的组合。
自动本体优化
该方法可以通过应用各种技术在114处分析和优化生成本体。
一个示例技术可以创建跨所检测的实体类型的公共和唯一属性与分类的映射。可以将经常出现的公共属性添加到最初在本体模板中播种的基本实体概念,从而在具有新属性的更高级别的本体上丰富实体类型。从MDM的角度来看,这些更高级别的本体代表了大多数重要的主数据。
另一示例技术使用语义指纹识别来查找表列中的值,分析器软件可以确定相同数据集中或跨数据集的列之间的相关性(例如,通过检测表之间的外键关系),因此可以确定列与其他数据相关,因此提供额外的域分类,或将几个实体类型分组在一起。
手动本体优化
可选地,可以通过所生成的本体的利益相关者审查来执行手动本体优化,用于用业务分类手动标记实体类型。该方法可以使用另外的分类来进一步自动地优化本体。
参考图2B,示意图以附加细节示出了图2A的示例实施例。
可设置一组结构化数据源201-203。例如,这些可以在企业内,并且可以是来自遗留系统的多个储存库。数据源201-203可以具有数据211-213,其带有相关联的技术元数据221-223,例如数据库模式、表数据类型、列名和键。从这些数据源201-203或从单个数据源201,读取图2A中所示的数据逻辑分组210。例如,逻辑数据分组可以是与客户信息有关的表。
提供了用于使用本体模板240以产生用于所述数据源201-203的本体的本体生成组件230的进一步的细节。本体模板240包括初始基本实体类型250(为了说明而示出一个基本实体类型),其具有带有分类261的属性251,可以链接到分类集合260。
本体生成组件230包括(同样仅示出一个以供说明)生成的实体类型270,其具有属性271和分类261,可以链接到在模板中定义的用于基本实体类型250的生成的实体类型的分类集合260。生成的实体类型270可以与包括基本实体类型250的其他实体类型相关联280,以从本体模板240生成数据源201-203的本体。
此外,可以提供谱系映射295,其将生成的实体类型270通过链接290经由其技术元数据223映射到其所源自的数据源203,提供可用于探索跨不同数据源201-203的数据之间的关系的存储谱系。
本体生成组件230可以包括用于播种带有基本实体类型250的本体模板240的种子组件231。本体生成组件230可以包括用于使用数据发现技术对来自数据源201-203的数据211-213进行分类的数据分类组件232。本体生成组件230可以包括:实体类型组件233,用于生成用于来自数据源201-203的数据逻辑分组的实体类型270;以及实体关联组件234,用于将新生成的实体类型270与本体模板240的基本实体类型250以及其他所生成的实体类型270相关联280。本体生成组件230可以包括用于优化结果本体的优化组件235。本体生成组件230还可以包括实体元数据链接组件236,用于将生成的实体类型270的链接290经由其技术元数据223提供给其所源自的数据源201,并存储在谱系映射295中。
参考图3,框图示出了本体生成组件230的更详细的示例实施例。
本体生成组件230可以包括至少一个处理器301、硬件模块、或用于执行所描述的组件的功能的电路,其可以是在所述至少一个处理器上执行的软件单元电路。可以提供运行并行处理线程的多个处理器,使得能够并行处理组件的一些或所有功能。存储器302可以被配置为向至少一个处理器301提供计算机指令303以执行组件的功能。本体生成组件230还可以包括用户界面304,用于提供关于本体的开发的反馈和用于接收用户输入。
本体生成组件230的种子组件231可以包括用于提供本体模板的模板组件305、用于播种具有本体模板中的属性的基本实体类型的实体类型组件306、以及用于提供本体模板中的分类的分类组件307。
在一个实施例中,由该系统创建的本体可以在存储器中构建和然后串行化为例如脚本对象通知(JSON)字符串,用于在基于云的分布式数据库作为服务(DBaaS)中的更永久的存储。与种子语义网络相关联的分类存储在种子语义网络中,在这种情况下存储为JSON。Java和所有基于Java的商标和徽标是Oracle和/或其附属公司的商标或注册商标。
本体生成组件230的数据分类组件232可以包括用于读取数据源的数据和元数据的源读取组件311和用于使用数据发现技术来检测数据源中的数据特性的语义和语法分类的数据发现组件312。数据分类组件232还可以包括用于识别所读取的数据的分类的分类确定组件313和用于确定该分类正确的概率的概率组件314。数据分类组件232可以包括查看组件315,用于通过用户界面304向用户呈现分类以供查看。
本体生成组件230的实体类型组件233可以包括分组选择组件321,用于从数据源中选择数据逻辑分组,以及实体类型生成组件322,用于生成用于逻辑分组的实体类型。实体类型生成组件322可以包括属性组件323,用于为生成的实体类型生成属性。实体类型组件233可以包括命名组件324,用于使用所发现的数据源的元数据来命名所生成的实体类型。实体类型组件233可以包括实体添加组件325,用于将生成的实体类型添加到本体模板。实体类型组件233可以包括查看组件326,用于使得能够经由用户界面304查看所生成的实体类型、属性和分类。
本体生成组件230的实体关联组件234可以包括含义确定组件331,用于确定新生成的实体类型的可能语义含义并将它们匹配到包括基本实体类型的其他实体类型,以及关联组件332,用于将生成的实体类型与包括基本实体类型的其他实体类型相关联。实体关联组件234可以包括查看组件333,用于使得能够经由用户界面304查看实体类型关联。
本体生成组件230的优化组件235可包括自动优化组件341和手动优化组件342,用于由自动分析以及经由用户接口304的可选的手动输入来优化结果本体。
实体元数据链接组件236可以通过链接所使用的技术元数据,以链接或引用的形式提供在生成的实体类型和其所源自的数据源之间的谱系映射。谱系映射可以存储在生成的本体中,或者可以存储在外部并且可以由生成的本体和数据源访问。
本体生成组件230可以包括输出组件350,用于输出结果本体,以供相对于所述数据源使用。
图4和5示出了使用两个数据集400、410作为数据逻辑分组的工作例子,其是从数据存储库取出的表。
第一数据集S1 400具有名称“客户.csv”。它是逗号分隔值(CSV)文件,其列名为“客户_ID(CUSTOMER_ID)”、“姓_氏(LAST_NAME)”、“名_字(FIRST_NAME)”、“出生_日期(DATE_OF_BIRTH)”等等。第二数据集S2 410具有名称“潜在客户.cvs”并且具有列“名(Given_Name)”、“姓(Surname)”、“出生年月日(Birthdate)”等等。
CSV文件允许数据被保存为表结构的格式。CSV看起来像普通的电子表格,但有一个.csv扩展。传统上,它们采用包含以逗号分隔的信息的文本文件的形式,因此得名。
可以在本体生成组件的处理期间提供查看界面420,并且示出系统将分类“名字”421分配给数据集S1 400“客户.cvs”的“名_字”列数据以及数据集S2 410“潜在客户.cvs”的“名”列数据,因为它们具有相同的语义含义。
在这个例子中,如果两个数据集S1 400“客户.csv”和S2 410“潜在客户.csv”进行了处理,两个生成的实体类型520、540将被创建并添加到本体模板240。这在图5示出。
扫描“客户.csv”表400之后,生成新生成的实体类型520“客户.CSV”,并添加到本体模板240。所生成的被称为“客户.CSV”的实体类型520具有属性“客户_ID”521,“姓_氏”522、“名_字”523、“出生_日期”524及更多(包含容纳源文件的所有特性的属性)。
扫描“潜在客户.csv”表410之后,生成新生成的实体类型540“潜在客户.CSV”,并添加到本体模板240。所生成的被称为“潜在客户.CSV”的实体类型540具有属性“名”541、“姓”542、“出生年月日”543及更多(包括容纳源文件的所有特性的属性)。
本体模板240包括基本实体类型500“人员”,其包括属性“姓名”501和“DOB”502,分别参考分类“名字”511、“姓氏”512和“出生日期”513。
生成的实体类型520、540可以包括由数据发现过程确定的其属性的分类。在该示例中,被称为“客户.CSV”的生成的实体类型520具有被归类为“姓氏”512的属性“姓_氏”522、被归类为“名字”511的属性“名_字”523、以及被归类为“出生日期”513的属性“出生_日期”524。属性“客户_ID”521没有分类。不排除未分类的数据,因为它可能有用。例如,属性可以是“客户值指标”,其未被分类但可能非常有用。
在这个例子中,被称为“潜在客户.CSV”的生成的实体类型540具有被归类为“姓氏”512的属性“姓”542、被归类为“名字”511的属性“名”541、以及和被归类为“出生日期”513的属性“出生年月日”543。
生成的实体类型520、540都可以被呈现给用户以用于反馈并且有机会查看所分配的分类。
所描述的方法和系统自动创建提供给最终用户关于在各种数据源中有什么并且在各种来源中的实体如何彼此相关的完整画面的理解或本体。这种理解是任何后续实体匹配的前置条件过程。
所描述的方法和系统消除了大量容易出错、极其耗时的工作,使得实体匹配可以被应用。
现有的关于实体匹配的技术不能应用到这一点上。例如,在客户信息应该从6000多个源系统整合但由于无法找到系统创建者从而几乎没有文档的情况下,没有人知道这些系统中的内容以及它们如何与实体解析算法所需要的“特征”或匹配属性相关。
所描述的方法和系统提供以下益处:
·自动创建本体可节省数百到数千个项目时间;
·通过使用语义业务元数据丰富其描述,提高对数据的理解;
·创建“可浏览”目录,使业务用户能够找到他们正在寻找的内容;
·通过技术与业务元数据的链接,可以检测信息治理(例如,检测未经过治理的源系统中的敏感数据);
·避免手动错误;
·识别数据冗余以优化存储成本;和
与手动ETL作业开发和测试相比,能够生成数据协调运动基础架构的主要部分,从而节省大量成本。
现在参考图6,示意性示出了一个计算机系统或服务器形式的系统600的实例。
计算机系统或服务器612可以是可与众多其它通用或专用计算系统环境或配置一起操作。可适用于计算机系统/服务器612的众所周知的计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户端、胖客户端、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、大型计算机系统、以及包括任何上述系统或设备的分布式云计算环境等。
计算机系统/服务器612可以在由计算机系统执行的计算机系统可执行指令、诸如程序模块的一般上下文中描述。通常,程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机系统/服务器612可以在分布式云计算环境中实践,其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中,程序模块可以位于包括存储器存储设备的本地和远程计算机系统存储介质中。
在图6中,以通用计算设备的形式示出了计算机系统/服务器612。计算机系统/服务器612的组件可以包括但不限于一个或多个处理器或处理单元616、系统存储器628、以及将包括系统存储器628的各种系统组件耦合到处理器616的总线618。
总线618表示一个或多个的任何若干类型的总线结构,包括存储器总线或存储器控制器、外围总线、加速图形端口、以及使用任何各种总线体系结构的处理器或局部总线。作为示例而非限制,这样的架构包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)本地总线和外围组件互连(PCI)总线。
计算机系统/服务器612典型地包括多种计算机系统可读介质。这种介质可以是计算机系统/服务器612可访问的任何可用介质,其包括易失性和非易失性介质、可移动和不可移动介质。
系统存储器628可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)630和/或高速缓冲存储器632。计算机系统/服务器612还可以包括其他可移动/不可移动、易失性/非易失性计算机系统存储介质。仅作为示例,可以提供存储系统634,用于从不可移动的非易失性磁介质(未示出并且通常称为“硬盘驱动器”)读取和写入。尽管未示出,可以提供用于读取和写入可移动的非易失性磁盘(例如,“软盘”)的磁盘驱动器以及用于读取或写入可移动的非易失性光盘、诸如CD-ROM、DVD-ROM或其他光学介质的光盘驱动器。在这种情况下,每个都可以通过一个或多个数据介质接口连接到总线618。如下面将进一步描绘和描述的,存储器628可以包括至少一个程序产品,该程序产品具有一组(例如,至少一个)程序模块,这些程序模块被配置为执行本发明的实施例的功能。
具有一组(至少一个)程序模块642的程序/实用工具640,可以存储在例如存储器628中,这样的程序模块642包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块642通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器612也可以与一个或多个外部设备614(例如键盘、指向设备、显示器624等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器612交互的设备通信,和/或与使得该计算机系统/服务器612能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口622进行。并且,计算机系统/服务器612还可以通过网络适配器620与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器620通过总线618与计算机系统/服务器612的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器612使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在任何可能的技术细节结合层面,本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
云计算
应当理解,尽管本公开包括关于云计算的详细描述,但其中记载的技术方案的实现却不限于云计算环境,而是能够结合现在已知或以后开发的任何其它类型的计算环境而实现。
云计算是一种服务交付模式,用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源,例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。
特征包括:
按需自助式服务:云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。广泛的网络接入:计算能力可以通过标准机制在网络上获取,这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。资源池:提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者,其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下,消费者不能控制或甚至并不知晓所提供的资源的确切位置,但可以在较高抽象程度上指定位置(例如国家、州或数据中心),因此具有位置无关性。迅速弹性:能够迅速、有弹性地(有时是自动地)部署计算能力,以实现快速扩展,并且能迅速释放来快速缩小。在消费者看来,用于部署的可用计算能力往往显得是无限的,并能在任意时候都能获取任意数量的计算能力。可测量的服务:云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力,自动地控制和优化资源效用。可以监测、控制和报告资源使用情况,为服务提供者和消费者双方提供透明度。
服务模型如下:
软件即服务(SaaS):向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外,消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。平台即服务(PaaS):向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用,这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构,但对其部署的应用具有控制权,对应用托管环境配置可能也具有控制权。基础架构即服务(IaaS):向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构,但是对操作系统、存储和其部署的应用具有控制权,对选择的网络组件(例如主机防火墙)可能具有有限的控制权。
部署模型如下:
私有云:云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。共同体云:云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。公共云:云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。混合云:云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成,这些云依然是独特的实体,但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。
云计算环境是面向服务的,特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。
现在参考图7,其中显示了示例性的云计算环境750。如图所示,云计算环境750包括云计算消费者使用的本地计算设备可以与其相通信的一个或者多个云计算节点710,本地计算设备例如可以是个人数字助理(PDA)或移动电话754A、台式电脑754B、笔记本电脑754C和/或汽车计算机系统754N。云计算节点710之间可以相互通信。可以在包括但不限于如上所述的私有云、共同体云、公共云或混合云或者它们的组合的一个或者多个网络中将云计算节点710进行物理或虚拟分组(图中未显示)。这样,云的消费者无需在本地计算设备上维护资源就能请求云计算环境750提供的基础架构即服务(IaaS)、平台即服务(PaaS)和/或软件即服务(SaaS)。应当理解,图7显示的各类计算设备754A-N仅仅是示意性的,云计算节点710以及云计算环境750可以与任意类型网络上和/或网络可寻址连接的任意类型的计算设备(例如使用网络浏览器)通信。
现在参考图8,其中显示了云计算环境750(图7)提供的一组功能抽象层。首先应当理解,图8所示的组件、层以及功能都仅仅是示意性的,本发明的实施例不限于此。如图8所示,提供下列层和对应功能:
硬件和软件层860包括硬件和软件组件。硬件组件的例子包括:主机861;基于RISC(精简指令集计算机)体系结构的服务器862;服务器863;刀片服务器864;存储设备865和网络和网络组件866。在一些实施例中,软件组件的例子包括:网络应用服务器软件867和数据库软件868。
虚拟层870提供一个抽象层,该层可以提供下列虚拟实体的例子:虚拟服务器871、虚拟存储872、虚拟网络(包括虚拟私有网络)873、虚拟应用和操作系统874,以及虚拟客户端875。
在一个示例中,管理层880可以提供下述功能:资源供应功能881:提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取;计量和定价功能882:在云计算环境内对资源的使用进行成本跟踪,并为此提供帐单和发票。在一个例子中,该资源可以包括应用软件许可。安全功能:为云的消费者和任务提供身份认证,为数据和其它资源提供保护。用户门户功能883:为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能884:提供云计算资源的分配和管理,以满足必需的服务水平。服务水平协议(SLA)计划和履行功能885:为根据SLA预测的对云计算资源未来需求提供预先安排和供应。
工作负载层890提供云计算环境可能实现的功能的示例。在该层中,可提供的工作负载或功能的示例包括:地图绘制与导航891;软件开发及生命周期管理892;虚拟教室的教学提供893;数据分析处理894;交易处理895;以及本体生成896。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例可对上述内容进行改进和修改,而不偏离本发明的范围。

Claims (24)

1.一种用于为来自多个数据源的数据集合自动生成本体的计算机实现的方法,包括:
提供概念的语义网络作为用于知识的目标域的本体模板,其中所述概念被定义为基本实体类型;
从所述数据源读取数据逻辑分组和相关联的技术元数据;
应用数据发现技术来检测所述数据逻辑分组中的数据特性的语义和/或语法分类;
对于所述数据逻辑分组中的每一个,生成具有用于所述数据特性的属性的实体类型,并将生成的实体类型添加到所述语义网络,其中所述生成的实体类型具有从应用的所述数据发现技术导出的属性分类;
检测所述生成的实体类型的语义含义,并将所述生成的实体类型与所述语义网络中的其他实体类型相关联;以及
输出所述语义网络作为所述数据集合的结果本体。
2.如权利要求1所述的方法,其中提供概念的语义网络作为本体模板包括提供具有基于特性的属性以及所述属性的分类集合的基本实体类型,并且其中通过应用数据发现技术检测的所述分类是所述基本实体类型的分类。
3.如前述权利要求中任一项所述的方法,其中生成具有用于所述数据特性的属性的实体类型将来自所述相关联的技术元数据的名称用于所述生成的实体类型和属性。
4.如前述权利要求中任一项所述的方法,包括通过链接到数据源的技术元数据,将具有存储的谱系的生成的实体类型提供给所述生成的实体类型源自的数据源。
5.如权利要求4所述的方法,包括使用所述存储的谱系来优化跨数据源的所述数据逻辑分组的存储。
6.如前述权利要求中任一项所述的方法,其中检测语义和/或语法分类包括基于对分类的约束的遵从性来提供正确分类的概率。
7.如前述权利要求中任一项所述的方法,其中生成具有属性的实体类型为所述数据源中的所述数据集合的子集生成实体类型,其中基于由外键引用的数量确定的数据的流行度来选择所述子集。
8.如权利要求1所述的方法,其中,检测所述生成的实体类型的语义含义并将所述生成的实体类型与其他实体类型相关联包括:
使用实体的公共属性和/或分类来关联实体类型。
9.如前述权利要求中任一项所述的方法,其中将所述生成的实体类型与其他实体类型相关联包括关联类型和/或确定子类型和父类型。
10.如前述权利要求中任一项所述的方法,包括优化所述语义网络以输出结果本体,包括创建跨实体类型的公共和唯一属性与分类的映射和/或提供实体类型的附加分类。
11.如前述权利要求中任一项所述的方法,包括在所述本体的生成阶段期间实现用户查看和输入,包括以下的一个或多个阶段:
读取数据逻辑分组,检测数据特性的分类,生成实体类型,关联实体类型,以及输出所述结果本体。
12.如权利要求v所述的方法,其中所述方法作为在云环境中的服务提供。
13.一种用于为来自多个数据源的数据集合自动生成本体的系统,包括:
处理器和被配置为向处理器提供计算机程序指令以执行组件的功能的存储器,所述组件包括:
种子组件,用于提供概念的语义网络,作为用于知识的目标域的本体模板,其中所述概念被定义为基本实体类型;
源读取组件,用于从所述数据源读取数据逻辑分组和相关联的技术元数据;
数据分类组件,用于应用数据发现技术来检测所述数据逻辑分组中的数据特性的语义和/或语法分类;
实体类型组件,对于所述逻辑数据分组中的每一个,生成具有用于所述数据特性的属性的实体类型,并将生成的实体类型添加到所述语义网络,其中所述生成的实体类型具有从应用的所述数据发现技术导出的属性分类;
实体关联组件,用于检测所述生成的实体类型的语义含义,并将所述生成的实体类型与所述语义网络中的其他实体类型相关联;以及
本体输出组件,用于输出所述语义网络作为所述数据集合的结果本体。
14.如权利要求13所述的系统,其中种子组件提供具有基于特性的属性以及所述属性的分类集合的基本实体类型,并且其中由数据发现组件检测的所述分类是所述基本实体类型的分类。
15.如权利要求13或14所述的系统,其中用于生成具有用于所述数据特性的属性的实体类型的实体类型组件包括命名组件,所述命名组件将来自所述相关联的技术元数据的名称用于所述生成的实体类型和属性。
16.根据权利要求13至15中任一项所述的系统,包括实体元数据链接组件,通过链接到数据源的技术元数据,将具有存储的谱系的生成的实体类型提供给所述生成的实体类型源自的数据源。
17.如权利要求13至16中任一项所述的系统,其中,所述数据分类组件包括概率组件,用于基于对分类的约束的遵从性来提供正确分类的概率。
18.如权利要求13至17中任一项所述的系统,其中所述实体类型组件为所述数据源中的所述数据集合的子集生成实体类型,其中基于由外键引用的数量确定的数据的流行度来选择所述子集。
19.如权利要求13至18中任一项所述的系统,其中所述实体关联组件使用实体的公共属性和/或分类来关联实体类型,并且其中所述关联包括关联类型和/或确定子类型和父类型。
20.如权利要求13至19中任一项所述的系统,包括用于优化语义网络以输出结果本体的优化组件,包括创建跨实体类型的公共和唯一属性与分类的映射和/或提供实体类型的附加分类。
21.如权利要求13至20中任一项所述的系统,包括用户界面,用于在在所述本体的生成阶段期间实现用户查看和输入,包括以下一个或多个阶段:读取数据逻辑分组,检测数据特性的分类,生成实体类型,关联实体类型,以及输出所述结果本体。
22.一种用于为来自多个数据源的数据集合自动生成本体的计算机程序产品,所述计算机程序产品包括:
计算机可读存储介质,其可由处理电路读取并存储用于由所述处理电路执行的指令,用于执行权利要求1至12中任一项所述的方法。
23.一种存储在计算机可读介质上并可加载到数字计算机的内部存储器中的计算机程序,包括软件代码部分,当所述程序在计算机上运行时,用于执行权利要求1到12中任一项的方法。
24.一种用于为来自多个数据源的数据集合生成的本体形式的数据结构,包括:用于知识的目标域的已知概念的语义网络,其中已知概念被定义为基本实体类型,其具有基于特性的属性和所述属性的已知分类集合;
多个生成的实体类型,每个实体类型用于来自多个数据源的数据逻辑分组,每个生成的实体类型具有用于数据逻辑分组的数据特性的属性以及从数据发现技术导出以检测语义和/或语法分类的属性的分类;
以及,其中,通过检测所述生成的实体类型的语义含义来关联所述基本实体类型和生成的实体类型,并在所述本体中进行优化。
CN201780079370.0A 2016-12-21 2017-12-07 自动本体生成的方法、系统和介质 Active CN110088749B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/386,812 US10540383B2 (en) 2016-12-21 2016-12-21 Automatic ontology generation
US15/386,812 2016-12-21
PCT/EP2017/081861 WO2018114366A1 (en) 2016-12-21 2017-12-07 Automatic ontology generation

Publications (2)

Publication Number Publication Date
CN110088749A true CN110088749A (zh) 2019-08-02
CN110088749B CN110088749B (zh) 2023-05-26

Family

ID=60629701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780079370.0A Active CN110088749B (zh) 2016-12-21 2017-12-07 自动本体生成的方法、系统和介质

Country Status (4)

Country Link
US (1) US10540383B2 (zh)
CN (1) CN110088749B (zh)
BR (1) BR112019012915B1 (zh)
WO (1) WO2018114366A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523860A (zh) * 2020-04-23 2020-08-11 北京思特奇信息技术股份有限公司 一种采用组件化管理农业产品生产过程的方法和系统

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11275794B1 (en) * 2017-02-14 2022-03-15 Casepoint LLC CaseAssist story designer
US11158012B1 (en) 2017-02-14 2021-10-26 Casepoint LLC Customizing a data discovery user interface based on artificial intelligence
US10740557B1 (en) 2017-02-14 2020-08-11 Casepoint LLC Technology platform for data discovery
US10572576B1 (en) 2017-04-06 2020-02-25 Palantir Technologies Inc. Systems and methods for facilitating data object extraction from unstructured documents
US11568142B2 (en) * 2018-06-04 2023-01-31 Infosys Limited Extraction of tokens and relationship between tokens from documents to form an entity relationship map
US10909160B2 (en) * 2019-05-29 2021-02-02 TADA Cognitive Solutions, LLC Digital duplicate
WO2020243420A1 (en) 2019-05-29 2020-12-03 TADA Cognitive Solutions, LLC Digital duplicate
US11461293B2 (en) * 2019-08-19 2022-10-04 TADA Cognitive Solutions, LLC Processes and systems for onboarding data for a digital duplicate
US11093690B1 (en) 2019-07-22 2021-08-17 Palantir Technologies Inc. Synchronization and tagging of image and text data
CN110580304A (zh) * 2019-07-26 2019-12-17 平安科技(深圳)有限公司 数据融合方法、装置、计算机设备及计算机存储介质
US11455588B2 (en) 2020-09-04 2022-09-27 TADA Cognitive Solutions, LLC Data validation and master network techniques
US11561522B2 (en) 2020-11-11 2023-01-24 Mapped Inc. Data mapping based on device profiles
WO2023105264A1 (en) 2021-12-07 2023-06-15 Telefonaktiebolaget Lm Ericsson (Publ) Generating an ontology for representing a system
US11922125B2 (en) 2022-05-06 2024-03-05 Mapped Inc. Ensemble learning for extracting semantics of data in building systems
WO2023215903A1 (en) * 2022-05-06 2023-11-09 Mapped Inc. Automatic link prediction for devices in commercial and industrial environments
US11829340B1 (en) * 2023-06-22 2023-11-28 Citibank, N.A. Systems and methods for generating data transfers using programming language-agnostic data modeling platforms
CN117009550B (zh) * 2023-08-09 2024-04-19 中国船舶集团有限公司第七〇九研究所 一种海上多源冲突条件下多模态时空本体构建方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040230676A1 (en) * 2002-11-20 2004-11-18 Radar Networks, Inc. Methods and systems for managing offers and requests in a network
CN102279894A (zh) * 2011-09-19 2011-12-14 嘉兴亿言堂信息科技有限公司 基于语义的查找、集成和提供评论信息的方法及搜索系统
US20120109966A1 (en) * 2010-11-01 2012-05-03 Jisheng Liang Category-based content recommendation
US20130325770A1 (en) * 2012-06-05 2013-12-05 Sap Ag Probabilistic language model in contextual network
CN104933095A (zh) * 2015-05-22 2015-09-23 中国电子科技集团公司第十研究所 异构信息通用性关联分析系统及其分析方法
US20160224645A1 (en) * 2015-02-03 2016-08-04 Siemens Aktiengesellschaft System and method for ontology-based data integration

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7987088B2 (en) 2006-07-24 2011-07-26 Lockheed Martin Corporation System and method for automating the generation of an ontology from unstructured documents
KR101335540B1 (ko) 2011-06-27 2013-12-03 한국과학기술정보연구원 온톨로지 기반의 문서 분류 방법 및 장치
US8620964B2 (en) 2011-11-21 2013-12-31 Motorola Mobility Llc Ontology construction
US20140279677A1 (en) 2013-03-15 2014-09-18 International Business Machines Corporation Ontology-driven construction of semantic business intelligence models
US10042911B2 (en) 2013-07-30 2018-08-07 International Business Machines Corporations Discovery of related entities in a master data management system
DE102013110571A1 (de) 2013-09-24 2015-03-26 Iqser Ip Ag Automatische Datenharmonisierung
US20160335544A1 (en) 2015-05-12 2016-11-17 Claudia Bretschneider Method and Apparatus for Generating a Knowledge Data Model

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040230676A1 (en) * 2002-11-20 2004-11-18 Radar Networks, Inc. Methods and systems for managing offers and requests in a network
US20120109966A1 (en) * 2010-11-01 2012-05-03 Jisheng Liang Category-based content recommendation
CN102279894A (zh) * 2011-09-19 2011-12-14 嘉兴亿言堂信息科技有限公司 基于语义的查找、集成和提供评论信息的方法及搜索系统
US20130325770A1 (en) * 2012-06-05 2013-12-05 Sap Ag Probabilistic language model in contextual network
US20160224645A1 (en) * 2015-02-03 2016-08-04 Siemens Aktiengesellschaft System and method for ontology-based data integration
CN104933095A (zh) * 2015-05-22 2015-09-23 中国电子科技集团公司第十研究所 异构信息通用性关联分析系统及其分析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523860A (zh) * 2020-04-23 2020-08-11 北京思特奇信息技术股份有限公司 一种采用组件化管理农业产品生产过程的方法和系统

Also Published As

Publication number Publication date
BR112019012915B1 (pt) 2022-09-20
CN110088749B (zh) 2023-05-26
BR112019012915A2 (pt) 2020-03-24
US20180173795A1 (en) 2018-06-21
BR112019012915A8 (pt) 2022-08-23
US10540383B2 (en) 2020-01-21
WO2018114366A1 (en) 2018-06-28

Similar Documents

Publication Publication Date Title
CN110088749A (zh) 自动本体生成
Zhang et al. Unibench: A benchmark for multi-model database management systems
CN106663038B (zh) 用于机器学习的特征处理配方
CN104866426B (zh) 软件测试综合控制方法及系统
US20170109657A1 (en) Machine Learning-Based Model for Identifying Executions of a Business Process
CN106575246A (zh) 机器学习服务
CN104050223B (zh) 用于文本挖掘和搜索的数据透视面
CN108701254A (zh) 用于动态族系跟踪、重建和生命周期管理的系统和方法
US20170109676A1 (en) Generation of Candidate Sequences Using Links Between Nonconsecutively Performed Steps of a Business Process
US20170109668A1 (en) Model for Linking Between Nonconsecutively Performed Steps in a Business Process
US20170109667A1 (en) Automaton-Based Identification of Executions of a Business Process
CN105359141A (zh) 支持基于流的etl和基于实体关系的etl的组合
US20170109636A1 (en) Crowd-Based Model for Identifying Executions of a Business Process
US20190287032A1 (en) Contextual Intelligence for Unified Data Governance
US10885087B2 (en) Cognitive automation tool
CN108153729A (zh) 一种面向金融领域的知识抽取方法
CN108431793A (zh) 使用词汇表生成流分析应用
Zanoni et al. Pattern detection for conceptual schema recovery in data‐intensive systems
US20170109638A1 (en) Ensemble-Based Identification of Executions of a Business Process
GB2507095A (en) Generating synthetic data from a decision tree model of a dataset
CN115547466A (zh) 基于大数据的医疗机构登记评审系统及其方法
US20170109640A1 (en) Generation of Candidate Sequences Using Crowd-Based Seeds of Commonly-Performed Steps of a Business Process
CN117389541B (zh) 基于对话检索生成模板的配置系统及设备
Lee et al. Hands-On Big Data Modeling: Effective database design techniques for data architects and business intelligence professionals
US20170109670A1 (en) Crowd-Based Patterns for Identifying Executions of Business Processes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant