CN109804371B - 用于语义知识迁移的方法和装置 - Google Patents

用于语义知识迁移的方法和装置 Download PDF

Info

Publication number
CN109804371B
CN109804371B CN201680089964.5A CN201680089964A CN109804371B CN 109804371 B CN109804371 B CN 109804371B CN 201680089964 A CN201680089964 A CN 201680089964A CN 109804371 B CN109804371 B CN 109804371B
Authority
CN
China
Prior art keywords
domain
concept
concepts
similarity measure
knowledge base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680089964.5A
Other languages
English (en)
Other versions
CN109804371A (zh
Inventor
萨拉瓦南·莫汉
阿林达姆·班纳吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN109804371A publication Critical patent/CN109804371A/zh
Application granted granted Critical
Publication of CN109804371B publication Critical patent/CN109804371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

公开了一种用于在网络的域之间迁移语义知识的方法(100),所述网络包括第一域和第二域。所述方法包括为第一域建立语义知识库(110),所述语义知识库包括第一域的概念、第一域概念的属性、第一域概念之间的关系和管理第一域概念的约束(110a)。所述方法包括为第二域建立语义信息库(120),所述语义信息库包括第二域的概念(120a)。所述方法还包括:针对第二域的概念(130),确定第二域概念和第一域的概念之间的相似性度量(140),并且基于确定的相似性度量,识别与第二域概念等同的第一域概念(150)。所述方法还包括:针对第二域的概念,将来自第一域的语义知识库的、应用于所识别的第一域概念的属性、关系和约束映射到第二域概念(160),并利用第二域概念和被映射的属性、关系和约束来填充第二域的语义知识库(170)。还公开了一种装置(300、400)和计算机程序,被配置为执行用于在网络的域之间迁移语义知识的方法。

Description

用于语义知识迁移的方法和装置
技术领域
本公开涉及在网络的域之间迁移语义知识的方法和装置。本公开还涉及一种计算机程序,被配置为当在计算机上运行时,执行用于在网络的域之间迁移语义知识的方法。
背景技术
“物联网”是指能够进行通信网络连接的设备,使得可以远程管理这些设备,并且可以在各个设备之间以及设备和应用服务器之间交换设备收集或需要的数据。因此,物联网为“联网社会”提供了信息基础架构。如图1中所示,诸如能源、公用事业、运输和安全等的垂直行业处于联网社会中设想的基于物理和计算机的系统的持续集成的前沿,并由物联网实现。
机器对机器(M2M)通信是指与人类用户无关的所连接的设备之间的通信,因此为物联网中的设备之间的通信提供了基础。图2示出了M2M的高级功能架构,如欧洲电信标准协会(ETSI)技术规范中所提出的:“Machine to Machine communications(M2M);Functional architecture(机器对机器通信(M2M);功能架构)”。图2的M2M架构是基于资源的,并且可用于在各种不同行业的设备之间交换数据和事件。参考图2,对于在行业发展中集成物联网的所有行业,示例M2M架构的网络域的元素将是高度相似的。然而,设备和网关域、以及M2M应用和服务能力将因不同行业而不同。
随着通信网络技术持续集成到已建立的垂直行业中,通过与客户、合作伙伴和数据的共享关系,垂直行业之间的界限变得模糊。物联网推动的新商业模式需要跨行业合作关系,并且产生新的混合行业,例如数字医学、精准农业和智能制造。行业之间的这种集成与协作的重大障碍在于,与不同行业相关的系统之间缺乏互操作性。例如,当寻求集成来自不同行业的软件应用时,通常的情况是相关的应用使用不同的术语描述相同的域或域内的特定服务。即使当应用使用相同的术语时,它们对特定的术语通常具有不同的语义关联,阻碍了应用之间的信息交换。为了解决该问题,有必要以明确的方式(例如,通过以谓词(predicate)逻辑的形式表示术语的语义并将表示聚合为针对应用或行业的语义知识库)为每个应用术语集显式地指定语义。生成这种语义知识库是耗时且昂贵的过程,需要人类专家的大量投入和时间。一旦经聚合,可以将语义知识库对齐以实现不同应用之间的互操作性。
因此,不同行业和应用中的语义异构性成为行业服务的持续集成中的重大挑战。当来自不同行业域的多个异构设备作用于共同的问题时,设备之间的有效通信对信息交换和决策做出来说至关重要。实现这种通信需要针对每个设备集开发和交换语义知识库,以便来自不同域的设备可以解释信息并协同作用。因此,针对每个设备集单独开发语义知识库并利用来自必须与这些设备协作的其他设备集的适合的知识来训练每个设备集对于持续利用物联网提供的机会来说是持续的挑战。
发明内容
本公开的目的是提供至少避免或减少上述挑战中的一个或多个的方法和装置。
根据本公开的第一方面,提供了一种用于在网络的域之间迁移语义知识的方法,所述网络包括第一域和第二域。所述方法包括为第一域建立语义知识库,所述语义知识库包括:第一域的概念、第一域概念的属性、第一域概念之间的关系和管理第一域概念的约束。所述方法还包括为第二域建立语义信息库,所述语义信息库包括:第二域的概念。所述方法还包括:针对第二域的概念,确定第二域概念和第一域的概念之间的相似性度量,并基于确定的相似性度量,识别与第二域概念等同的第一域概念。所述方法还包括:针对第二域的概念,将来自第一域的语义知识库的、应用于所识别的第一域概念的属性、关系和约束映射到第二域概念,并利用第二域概念和被映射的属性、关系和约束来填充第二域的语义知识库。
因此,本公开的各方面使第二网络域的语义知识库的开发能够基于第二网络域和第一网络域之间匹配的概念,并且根据匹配的概念使用从第一域迁移到第二域的属性、关系和约束形式的域知识。
根据本公开的示例,语义知识库的属性和关系可以被表示为谓词,以及语义知识库的约束可以被表示为谓词子句(clause)。
根据本公开的示例,为第一域建立语义知识库可以包括聚合与第一域相关联的文档集,从所聚合的文档集中识别关键词,以及根据所识别的关键词定义概念。
根据本公开的示例,为第一域建立语义知识库还可以包括从文档集的文档中提取所定义的概念的属性和所定义的概念之间的关系。
根据本公开的示例,为第一域建立语义知识库还可以包括根据第一域的操作建立管理所定义的概念的约束。
根据本公开的示例,为第一域建立语义知识库可以包括从存储器中检索所述语义知识库。例如,第一域的语义知识库可以通过自动特征提取和分类与人类专家对概念谓词和约束的定义的组合而被聚合。在这种示例中,第一域的所聚合的语义知识库可以从存储它的存储器或存储设施中检索。
根据本公开的示例,为第二域建立语义信息库可以包括聚合与第二域相关联的文档集,从所聚合的文档集中识别关键词,以及根据所识别的关键词定义概念。
根据本公开的示例,确定第二域概念和第一域的概念之间的相似性度量包括:针对至少多个第一域概念中的每一个,计算第一域概念和第二域概念之间的组合相似性度量,所述组合相似性度量包括以下至少一项的组合:关系相似性度量、基于属性的相似性度量、结构相似性度量和/或基于实例的相似性度量。
根据本公开的示例,所述关系相似性度量可以包括使用词汇数据库计算的语义相似性度量。例如,词汇数据库可以是Wordnet。
根据本公开的示例,基于属性的相似性度量可以包括第一域概念和第二域概念的属性之间的相似性度量。
根据本公开的示例,基于结构的相似性度量可以包括第一域概念和其他第一域概念的层次关系与第二域概念和其他第二域概念的层次关系之间的相似性度量。
根据本公开的示例,基于实例的相似性度量可以包括对第一域中的第一概念和第二域中的第二概念的数据实例出现的度量。
根据本公开的示例,基于确定的相似性度量识别与第二域概念等同的第一域概念可以包括:将具有最高组合相似性度量值的第一域概念识别为等同概念。
根据本公开的示例,基于确定的相似性度量识别与第二域概念等同的第一域概念可以包括:如果最高组合相似性度量值大于相似性阈值,则将具有最高组合相似性度量值的第一域概念识别为等同概念。
根据本公开的示例,可以由人工神经网络(ANN)执行确定第二域概念和第一域的概念之间的相似性度量以及基于确定的相似性度量识别与第二域概念等同的第一域概念的步骤。
根据本公开的示例,确定第二域概念和第一域的概念之间的相似性度量可以包括:将第一域概念、属性和关系写入ANN的输入节点,并将第二域概念写入ANN的输入节点,在ANN的中间节点中计算第一域概念和第二域概念之间的相似性度量,并在ANN的每个输出节点处,输出特定第一域概念和第二域概念之间的相似性度量。根据本公开的一些示例,所述方法还可以包括:将第二域概念的任何可用的属性和关系与第二域概念一起写入ANN的输入节点。
根据本公开的示例,基于确定的相似性度量识别与第二域概念等同的第一域概念可以包括:识别具有最高相似性度量值的输出节点,以及将与所识别的输出节点相关联的第一域概念识别为等同的第一域概念。
根据本公开的示例,第二域的语义信息库还可以包括第二域概念的至少一些属性和/或第二域概念之间的至少一些关系。
根据本公开的示例,确定第二域概念和第一域的概念之间的相似性度量可以包括:基于第二域语义信息库中的属性和/或关系确定相似性度量。除了第二域概念和第一域概念、属性和关系之外,还可以将这些属性和/或关系写入ANN的输入节点。
根据本公开的示例,所述方法还可以包括:针对另一第二域概念重复确定、识别、映射和填充步骤,并输入填充到第二域语义知识库的被映射的属性、关系和约束以确定所述另一第二域概念和第一域的概念之间的相似性度量。
根据本公开的示例,所述方法还可以包括:使用专家知识完善第二域的语义知识库。
根据本公开的示例,第一域和第二域之间的关系度量可以大于域关系阈值。
根据本公开的示例,第一域和第二域可以包括网络的单个操作域,并且第一域的语义知识库可以包括与在网络的操作域内操作的第一应用相关联的语义知识库,并且第二域的语义信息库可以包括与在网络的操作域内操作的第二应用相关联的语义信息库。
根据本公开的示例,第一和第二应用可以与网络的操作域内操作的第一设备集和第二设备集相关联。
根据本公开的另一方面,提供了一种包括指令的计算机程序,所述指令当在至少一个处理器上执行时使所述至少一个处理器执行根据前述权利要求中任一项所述的方法。
根据本公开的另一方面,提供了一种载体,所述载体包含根据本公开的前一方面的计算机程序,其中所述载体包括电信号、光信号、无线电信号或计算机可读存储介质之一。
根据本公开的另一方面,提供了一种计算机程序产品,包括其上存储有根据本公开的前一方面的计算机程序的计算机可读介质。
根据本公开的另一方面,提供了一种用于在网络的域之间迁移语义知识的装置,所述网络包括第一域和第二域。所述装置包括处理器和存储器,所述存储器包含可由所述处理器执行的指令,使得所述装置操作用于为第一域建立语义知识库,所述语义知识库包括第一域的概念、第一域概念的属性、第一域概念之间的关系和管理第一域概念的约束。所述装置还可操作用于为第二域建立语义信息库,所述语义信息库包括第二域的概念,以及针对第二域的概念,确定第二域概念和第一域的概念之间的相似性度量,并基于确定的相似性度量,识别与第二域概念等同的第一域概念。所述装置还可操作用于针对第二域的概念,将来自第一域的语义知识库的、应用于所识别的第一域概念的属性、关系和约束映射到第二域概念,并利用第二域概念和被映射的属性、关系和约束来填充第二域的语义知识库。
根据本公开的示例,所述装置还可操作用于执行根据本公开的前述各方面和示例中的任一个的方法。
根据本公开的另一方面,提供了一种用于在网络的域之间迁移语义知识的装置,所述网络包括第一域和第二域。所述装置适于为第一域建立语义知识库,所述语义知识库包括第一域的概念、第一域概念的属性、第一域概念之间的关系和管理第一域概念的约束。所述装置还适于为第二域建立语义信息库,所述语义信息库包括第二域的概念,以及针对第二域的概念,确定第二域概念和第一域的概念之间的相似性度量,并基于确定的相似性度量,识别与第二域概念等同的第一域概念。所述装置还适于针对第二域的概念,将来自第一域的语义知识库的、应用于所识别的第一域概念的属性、关系和约束映射到第二域概念,并利用第二域概念和被映射的属性、关系和约束来填充第二域的语义知识库。
根据本公开的另一方面,提供了一种用于在网络的域之间迁移语义知识的装置,所述网络包括第一域和第二域。所述装置包括知识模块,被配置为:为第一域建立语义知识库,所述语义知识库包括第一域的概念、第一域概念的属性、第一域概念之间的关系和管理第一域概念的约束。所述装置还包括信息模块,被配置为:为第二域建立语义信息库,所述语义信息库包括第二域的概念。所述装置还包括迁移模块,被配置为:针对第二域的概念,确定第二域概念和第一域的概念之间的相似性度量,基于确定的相似性度量,识别与第二域概念等同的第一域概念,将来自第一域的语义知识库的、应用于所识别的第一域概念的属性、关系和约束映射到第二域概念,以及利用第二域概念和被映射的属性、关系和约束来填充第二域的语义知识库。
附图说明
为了更好地理解本公开,以及更清楚地示出可以如何有效地实现本公开,现在将通过示例的方式参考附图,在附图中:
图1是联网社会的表示;
图2是机器对机器通信的高级功能架构;
图3是示出了用于在网络的域之间迁移语义知识的方法中的过程步骤的流程图;
图4是示出了用于在网络的域之间迁移语义知识的方法的另一示例中的过程步骤的流程图;
图5是示出了用于为域建立语义知识库的示例方法中的过程子步骤的流程图;
图6是示出了用于为域建立语义信息库的示例方法中的过程子步骤的流程图;
图7是示出了可作为图3和图4的方法的一部分进行的过程子步骤的流程图;
图8是人工神经网络的表示;
图9是示出了在电信域中进行的搜索和检索方法中的过程步骤的流程图;
图10是示出了用于为电信域建立语义知识库的方法中的过程步骤的流程图;
图11示出了电信域的概念空间;
图12示出了另一电信域的概念空间;
图13是示出了装置中的功能单元的框图;
图14是示出了装置的另一示例中的功能单元的框图;以及
图15是示出了可以在图3和图4的方法的实现中进行的步骤的流程图。
具体实施方式
因此,本公开的各方面提供了一种方法,根据该方法,可以将语义知识跨网络域从第一(或源)域迁移到第二(或目标)域。将迁移的知识聚合(assemble)为第二(或目标)域的语义知识库,然后,可以由人类专家对其进行完善和扩展。因此,本公开的各方面避免人类专家需要从头开发语义知识库。
通过经由迁移学习实现理解与不同网络域和/或在网络域中操作的应用或设备集相关联的不同语义,本公开的示例可以自动地实现行业和社会的垂直域或服务之间的互操作性。本公开还提供了一种新的迁移学习算法和神经网络方法。
根据本公开的示例,第一(或源)域和第二(或目标)域可以共享一关系,该关系在跨域的共同实体和/或域的功能中的相似性中可以是显明的。此外,共同实体的语义可以由标准谓词逻辑指定,并且所有被考虑的子域可以遵循标准并以明确的方式使用相同的实体进行通信。变换映射可用于在不同域的实体之间建立连接,并且可以基于域知识和定义的语义在域之间识别语义异构性。然后,可以在没有人工协助的情况下执行自动推理以解决冲突,从而将知识从源域迁移到目标域。
本公开的各方面所实现的语义知识迁移可应用于广泛的用例,包括但不限于物联网。如上所述,在异构设备集和应用之间提供互操作性是促进自动化、跟踪、信息表示、存储和知识交换的重要构建部分,其将实现跨域合作关系和新混合域的开发。设备的语义建模可用于表示域知识,并且该知识可被重用、扩展和相互链接,以便通过根据本公开的各方面的知识迁移开发跨域应用。在物联网环境中,可以利用在不同域(智能家居、医疗保健、运输系统、农业等)中使用的传感器、致动器、RFID标签等,以语义图的形式表示域特定知识。可以使用本公开的示例将该知识迁移到新的域,以便为该新的域开发骨干知识库。然后,域专家可以通过针对概念和属性精细调节语义注释来增强知识库。
除了将域知识迁移到新的或相关的域,根据本公开的示例的知识迁移还可用在不同的异构应用或设备集被部署在相同的操作域内的情况。例如,操作域可以与诸如能源、水、医疗保健、运输、电信等的垂直行业相对应,或者与工业操作空间的任何其他划分或子划分相对应。当在单个操作域中使用异构设备时,从能源操作域中的一个部分(例如,智能电网)获取的域特定知识可以迁移到操作域中的另一部分(例如,智能燃气)。这可以使知识迁移到的设备能够更快地操作;对于快速增长的物联网域(其中需要来自多个供应商的设备和来自第三方的软件之间的互连)是一关键优势。
可以应用本公开的各方面所实现的语义知识迁移的另一用例是电信,其中由不同供应商提供和维护的一系列不同产品可以执行等同的功能。电信客户服务是域互操作性可以提供显著优势的一个领域。客户服务响应(CSR)包含客户关于特定产品产生的故障或错误的投诉,以及解决投诉的客户支持团队提供的解决方案。当客户服务请求到达时,客户支持团队分析该请求,识别问题或错误并且在特定时间段内提出解决方案。解决方案的正确性取决于处理投诉的人员的经验和专业知识。无法始终保证可获得具有域知识的合适专家,这意味着关于某些产品客户可能经历拖延。解决方案的正确性还取决于先前关于相同产品的投诉的数量和范围,并且可获得对类似问题的先前解决方案可以显著减少对新问题提出解决方案所需的时间。
如果来自先前投诉的知识不仅可用于单个产品,还可用于不同但相关的产品,则可以解决上述挑战。例如,计费控制节点(CCN)和在线计费控制(OCC)是两种计费产品,各自表示具有其自身术语和语义的特定域。然而,每个产品满足非常相似的需求,因此,在域空间内的实体之间和它们之间的关系方面都存在相当大的相似性。促进CCN和OCC域之间的互操作性将大大增加可用于辅助解决新投诉的先前投诉的基础,以及使域专家能够跨域操作。
图3是示出了根据本公开的一方面的用于在网络的域之间迁移语义知识的方法100中的过程步骤的流程图。网络至少包括第一(或源)域和第二(或目标)域。参考图3,方法100包括为第一域建立语义知识库的第一步骤110。如110a处所示,语义知识库包括第一域的概念、第一域概念的属性、第一域概念之间的关系(可以是层次关系)以及管理第一域概念的约束。在一些示例中,如下面进一步详细讨论的,概念的属性和概念之间的关系可以表示为谓词,并且管理概念的约束可以表示为谓词子句。在步骤120中,方法100包括为第二域建立语义信息库,所述语义信息库包括如120a处所示的第二域的概念。所述语义信息库还可以包括第二域概念的一些基本属性和关系,例如可以从与第一域概念相关联的基本元数据中提取。然后,方法100包括在步骤130中选择第二域的概念,并且在步骤140中确定第二域概念和第一域的概念之间的相似性度量。然后,方法100包括:在步骤150中,基于确定的相似性度量,识别与第二域概念等同的第一域概念,并在步骤160中,将来自第一域的语义知识库的、应用于所识别的第一域概念的属性、关系和约束映射到第二域概念。然后,方法100包括:在步骤170中,利用第二域概念与被映射的属性、关系和约束来填充第二域的语义知识库。
在本公开的一些示例中,第一域和第二域可以是相关的,并且第一域和第二域之间的关系度量可以大于域关系阈值。
在其他示例中,第一域和第二域可以包括网络的单个操作域。第一域的语义知识库可以包括与在网络的操作域内操作的第一应用或设备集相关联的语义知识库,第二域的语义信息库可以包括与在网络的操作域中操作的第二应用或设备集相关联的语义信息库。因此,知识迁移可以发生于在相同域中操作但使用不同的语义来描述域的应用或设备集之间。
图4至图7是示出了根据本公开的一方面的用于在网络的域之间迁移语义知识的另一方法200中的过程步骤的流程图。方法200的步骤展示了一种示例方式,其中可以实施和补充方法100的步骤以实现上述讨论的和附加的功能。
参考图4,在第一步骤210中,方法200包括为第一(或源)域建立语义知识库。域D可以包括四个分量:概念空间Ψ、谓词集P、约束C和变量V。因此,D=<Ψ,P,C,V>。域的变量是实例,用作域的概念的量词。谓词表示域概念属性和概念之间的关系二者。域概念的属性可以包括特定概念的产品特定属性、域特定属性或技术属性。概念之间的关系可以是分层的并且指示不同的概念如何链接或相互关联,例如包括父子关系或兄弟(sibling)关系。如210a处所示,语义知识库包括第一域的概念、第一域概念的属性、第一域概念之间的关系和管理第一域概念的约束。如210b处所示,概念的属性和概念之间的关系可以表示为谓词,管理概念的约束可以表示为谓词子句。下面给出针对电信用例的概念、谓词和谓词子句的示例:
概念:ccn、问题、模块、服务
谓词:TypeOf(module,problem)((模块,问题)的类型)、TypeOf(service,problem)((服务,问题)的类型)
约束:
Figure BDA0002021587360000111
图5示出了可执行以便在步骤210中为第一域建立语义知识库的附加子步骤。参考图5,在步骤212所示的一个示例中,第一域的语义知识库可能已经存在。因此,从存储语义知识库的适合的存储器中检索概念、属性和关系(表示为谓词)以及约束(表示为谓词子句)可能已足够。在另一示例中,在步骤214至218所示,可以开发涉及人类专家干预程度更多和更少的语义知识库。在第一子步骤214中,聚合文档集,这些文档与第一域相关联。在子步骤215处,从所聚合的文档集中识别关键词,然后在子步骤216中根据所聚合的关键词定义概念。在子步骤217中,所定义的概念的属性和所定义的概念之间的关系从文档集中提取,并且可以以谓词形式表示。最后,在子步骤218中,根据第一域的操作建立管理所定义的概念的约束。
再次参考图4,已为第一域建立了语义知识库,然后,方法200包括:在步骤220处,为第二域建立语义信息库,所述语义信息库包括第二域的概念。如220a处所示,第二域的语义信息库也可以包括第二域概念的一些属性和第二域概念之间的关系,它们可以表示为220b处所示的谓词。例如,可以根据第二域概念的基本元数据开发第二域概念之间的单阶关系和基本第二域概念属性。
图6示出了可执行以便在步骤220中为第二域建立语义信息库的附加子步骤。参考图6,在一个示例中,为第二域建立语义信息库可以包括在子步骤222处聚合与第二域相关联的文档集。然后,在子步骤224中从所聚合的文档集中识别关键词,并且在子步骤226中根据所识别的关键词定义概念。在子步骤228中,可以从文档中提取所识别的概念的属性和所识别的概念之间的关系,并且以谓词形式表示。如上所示,可以根据针对第二域概念提取的基本元数据开发第二域概念的基本属性和单阶关系。
再次参考图4,一旦建立了第一域语义知识库和第二域语义信息库,那么方法200包括在步骤230中选择第二域的概念,在步骤240中确定第二域概念和第一域的概念之间的相似性度量,以及在步骤250中基于所确定的相似性度量,识别与第二域概念等同的第一域概念。如步骤242处所示,确定第二域概念和第一域的概念之间的相似性度量可以包括:计算第二域概念和第一域的概念之间的组合相似性度量,该组合相似性度量包括关系相似性度量、基于属性的相似性度量、结构相似性度量和/或基于实例的相似性度量中的至少一个的组合。如步骤244中所示,可以将已从第一域映射到第二域并填充到第二域语义知识库中的属性、关系和约束输入到相似性度量的计算中。以这种方式,随着方法的继续,由于描述第二域概念的谓词变得可用,因此可以不断提高第一域和第二域的概念之间的映射准确性。如步骤252中所示,识别与第二域概念等同的第一域概念可以包括:如果最高组合相似性度量值大于相似性阈值,则将具有最高组合相似性度量值的第一域概念识别为等同概念。
然后,方法200包括:在步骤260中,将来自第一域的语义知识库的、应用于第一域概念的属性、关系和约束映射到第二域概念。在步骤270中,利用第二域概念和被映射的属性、关系和约束来填充第二域的语义知识库。然后,方法可以返回步骤230,并选择另一第二域概念用于计算相似性度量和知识迁移,直到已经考虑了所有的第二域概念。最后,在步骤280中,可以使用人类域专家的干预来完善第二域的经填充的语义知识库。
根据本公开的示例,可以使用如下定义的概念匹配算法执行步骤240至270。
概念匹配算法:
输入:来自第一域的概念集Ψ={C1,C2,...Cm∈R|m|}、来自第一域的谓词集P={P1,P2,...Pn∈R|n|}、来自第二域的每个所识别的概念和任何相应的谓词。
输出:所选择的第二域概念和第一域概念集的匹配得分
Figure BDA0002021587360000131
要与来自Ψ的某概念匹配的概念c的概率可以表示为:
arg maxk P(c|Ψ),若maxk P(c|Ψ)>θ
其中,Ψ=要匹配的输入概念集,
θ=拒绝阈值
两个知识库(w1,w2)中的概念-谓词共现可以表示为:
Figure BDA0002021587360000132
其中:
P=谓词,
C=概念,
β=概念谓词共现函数,
x和y在两个知识库W1和W2上迭代。
在上述概念匹配算法中,基于边缘的相似性计算可用于计算关系相似性度量,其可以表示两个概念之间的语义相似性,作为使用词汇数据库(例如,WordNet)的概念的两个词之间的语义相似性。基于边缘的相似性计算对链接词的路径的距离和词在数据库中的位置进行度量。
Wu和Palmer(Wu,Z.,Palmer,M.:Verb semantics and lexical selection.In:32nd.Annual Meeting of the Association for Computational Linguistics,pp.133-138.New Mexico State University,Las Cruces,New Mexico(1994))提出了通过使用两个概念之间的路径计算它们在层次中的接近度,以度量两个概念的概念相似性:
Figure BDA0002021587360000141
如果C3是C1和C2中最不常见的超概念,N1是从C1到C3的路径上的节点数量,N2是从C2到C3的路径上的节点数量,N3是从C3到根的路径上的节点数量。
基于属性的相似性度量可用于比较两个概念的属性以找到它们的相似性指数。如果该指数超过预定义的阈值,则可以将其视为密切的关系,因此有资格迁移知识。如果两个概念在可用的子句约束的情况下具有相同类型的论元(arguments),则两个概念是兼容的。根据Resnik(Philip Resnik:Using information content to evaluate semanticsimilarity in a taxonomy.In In Proceedings of the 14th International JointConference on Artificial Intelligence,pages 448-453,1995.),可以通过以下方式度量两个概念C1和C2之间的相似性:
sim(Cl,C2)=maxc∈s(C1,C2)(-log(p(c)),
其中,(-log(p(c))表示被量化为负对数似然的概念c的信息内容。
结构相似性度量可用于比较概念之间的层次关系,同时忽略实际的数据内容。结构相似性度量可以基于所比较的概念之间的共享信息、概念出现在其中的知识库的层次结构、超类概念的布置和知识库内的子类概念等。
基于实例的相似性度量可用于比较概念的所注释的数据实例,同时忽略任何结构相似性。来自不同知识库的两个概念的共现实例的百分比越高,知识库之间的相似性越大。
在本公开的一些示例中,至少确定相似性度量和识别等同概念的步骤可以由人工神经网络(ANN)(如图7的步骤290和图8所示)执行。参考图7和图8,在第一子步骤243中,将第一域概念、属性和关系(表示为谓词)写入ANN的输入节点。来自第二域的每个概念也与任何可用的谓词一起,一个接一个地被写入ANN的输入节点。如上所述,可以已经根据从第二域概念的源文档中提取的基本元数据开发了一些第二域概念之间的单阶关系和一些第二域概念的基本属性。每个第二域概念的这种关系和属性可以与相关的第二域概念一起被写入ANN的输入节点。在子步骤245中,ANN的隐藏中间节点计算第一域概念和第二域概念之间的相似性度量。在子步骤247中,将特定第一域概念和所考虑的第二域概念之间的相似性度量写入每个输出节点。在子步骤253中,识别具有最高相似性度量值的输出节点,并且在子步骤255中,将与所识别的输出节点相关联的第一域概念识别为与所考虑的第二域概念等同的第一域概念。可以根据所识别的节点的相似性度量大于相似性阈值做出该识别。
一旦已识别出等同的第一域概念,就可以将谓词和约束形式的域知识从第一域语义知识库映射并迁移到第二域语义知识库中与它们匹配的对应物。谓词可以包括所匹配的第一域概念的属性和关系,例如包括与各种其他第一域概念的多个关系。可以在第二域中验证被迁移的约束的逻辑对齐。随着属性和关系被迁移到第二域的语义知识库,当进行概念匹配时,这些属性和关系变得可用于包括在ANN的输入节点处。当对余下的第二域概念重复该过程时,以自动方式根据被迁移的属性、关系和约束建立第二域的骨干语义知识库,从而避免从头开始开发语义知识库所需的人力投入和时间。一旦已使用ANN填充了第二域的语义知识库,人工干预可以在精细调节和完善第二域的语义知识库的过程中提供附加的输入。
参考电信计费解决方案的示例,从全功能CCN节点,可以通过将域知识从CCN迁移到OCC建立相关产品OCC的骨干语义知识库。完全连接的前馈神经网络具有输入:来自域CCN的概念集Ψ、来自域CCN的谓词集P、以及来自OCC域的每个概念和相应谓词。第k个神经元给出如下输出yk:
Figure BDA0002021587360000161
其中:
Φ=输出函数,
x=输入值,
w=分配的权重。
因此,第k个神经元的输出是该神经元的输入的加权和。
第(k-1)个隐藏单元产生y(k-1)和残差:
ε(k-1)=y(k-1)-yk
要优化的目标函数是:
Figure BDA0002021587360000162
其中,
Figure BDA0002021587360000163
是两个向量的乘积的平方函数,偏移(bias)单元为x0和实际输入为x1至xm
可以将激活函数选择为log sigmoid函数:
hθ(t)∈R|ψ|,ψ=概念集,
以获得0和1范围内的输出。
Figure BDA0002021587360000164
这里,θ=控制函数从一个层映射到下一层的权重的矩阵。跨域WordNet包含跨域概念之间的关系。将等同概念紧密地布置在图形结构中。
最初,OCC的约束子句集保持空集。然后,获取来自OCC域的每个概念以与源域CCN的所有现有概念进行比较。基于关系相似性(例如,WordNet中的)、基于属性的相似性、结构相似性和基于实例的相似性,单独计算OCC概念和所有CCN概念之间的相似性度量。如果CCN中具有最高相似性指数的概念变得大于预定相似性阈值,则认为它是所考虑的OCC概念的合适匹配。然后,谓词和谓词子句形式的域知识从CCN概念迁移为OCC概念。这个过程一直持续,直到来自OCC的所有概念都与某CCN概念映射。
下面参考来自CNN和OCC域的示例概念简要说明概念匹配和知识迁移过程,如图11和图12所示。
“CCN”和“OCC”是两个域的根概念。这两个概念的WordNet相似性和谓词(例如,IsRootConcept(C1))被正确地匹配,并且知识可以被迁移。如果随后考虑来自OCC的“框架”和来自CCN的“配置”,则它们的WordNet、属性、以及基于谓词的相似性(例如,IsASubClassOf(C1,C2),其中,C1可以是“框架”和“配置”,C2可以是“OCC”和“CCN”)将被正确地匹配。因此,可以逐个将谓词和谓词子句形式的知识从“配置”迁移到“框架”。例如,OCC的约束子句可以被更新为“framework(框架)”
Figure BDA0002021587360000171
“OCC”。然后,当概念匹配下一OCC概念时,可以考虑该约束。概念“计数器”存在于两个域中,并且当检查属性和结构相似性时,可以确定两个域中的概念“计数器”是密切匹配的,在CCN中,“计数器”是“配置”的子概念,在OCC中,“计数器”是“框架”的子类别,“配置”和“框架”本身是密切匹配的概念。因此,谓词和约束谓词子句形式的域知识可以在两个域的“计数器”概念之间迁移。
上述讨论的概念的谓词和约束谓词子句总结在下表中:
Figure BDA0002021587360000181
如上所述,来自两个域的概念和谓词,只要它们可用,就可以用作ANN的输入。匹配最相似的概念且迁移约束和谓词允许利用来自源域的被迁移的知识更新系统的输入。最终,开发了目标域的语义知识库。例如,目标域可以与新设备集相对应,针对该新设备集,没有足够可用的标记数据。然后,不同设备集的知识库可用作源域以进行知识迁移。通常,将获得小的标记数据集和大量的未标记数据。可以利用标记数据训练神经网络,并且利用来自匹配概念的谓词和约束的连续更新将保证匹配准确性的逐渐提高。
下面参考上述电信用例说明上述方法和过程的示例实现。
与电信域的计费和账务系统相关的产品和服务的异构性质意味着针对这些产品收集的日志数据非常复杂。然而,不同产品执行的功能之间的相似性意味着涉及不同产品的问题可能具有非常相似的特征。因此,可以使用上述方法的示例在计费和账务产品之间迁移域知识。
文本挖掘技术可用于自动对客户针对特定产品报告的问题进行分类,从而能够为该产品构建语义知识库。然后,可以使用本公开的方法迁移该产品的域知识,以便为类似的产品开发知识库。利用已由专家生成或根据本公开的各方面迁移的已建立的知识库,可以对输入的问题进行分类并搜索解决方案。问题的分类涉及提取特定客户服务响应(CSR)的独特特征,并通过这些特征的组合确定CSR的分类器标签。分类可以有效地搜索和检索问题及其相关联的解决方案。通过将知识库从目标迁移到源域,可以在目标域中进行对问题解决方案的分类和搜索,而无需大量的专家输入来生成知识库。可以基于被迁移的知识库执行分类,随后可以由专家基于输入的CSR对被迁移的知识库进行完善和扩展。
根据本实现示例,可以利用先前的域知识开发用于响应客户报告问题的系统,使客户服务团队能够在现有的已解决的问题库内高效地搜索解决方案。此外,可以跟踪发生问题的特定客户组织,并且可以列出与该客户相关的类似问题的任何历史记录,使客户服务团队能够确定存在故障的组件或设备。
图9示出了基于输入的CSR搜索和检索相关问题。参考图9,接收输入的CSR 610,在步骤620中识别输入的CSR的特征。在步骤630中,基于检索到的特征,使用条件随机场概率模型预测CSR的分类器标签。在步骤640中,自动对CSR进行分类,并在步骤650中,搜索知识库以寻找类似的问题。在步骤660中,呈现知识库的相关问题和相关联的解决方案。
搜索和检索过程的算法如下所示:
过程1:准备词袋(Bag of Words)
Figure BDA0002021587360000191
/>
Figure BDA0002021587360000201
过程2:分类:
Figure BDA0002021587360000202
过程3:基于关键词匹配检索类似的情况
Figure BDA0002021587360000203
/>
Figure BDA0002021587360000211
图10更详细地示出了在早期相关问题可能可用或可能不可用的情况下,如何运行问题检索。参考图10,接收输入CSR 700,并在步骤710中,特征提取模型允许特征识别且在一些示例中允许输入CSR的分类。在步骤720中,该过程针对特定输入CSR搜索早期相关问题。如果早期相关问题可用(步骤730的左分支),则在步骤740中列出相关的早期问题及其解决方案。在步骤750中跟踪特定输入CSR的问题的位置,并且在步骤760中显示列表中的在跟踪位置处发生的类似问题。返回步骤730,如果早期相关问题不可用(步骤730的右分支),则在步骤770中向专家发送特定输入CSR以寻求解决方案。在步骤780处提供专家解决方案,并在步骤790处更新知识库以包括新的问题和解决方案,从而避免在将来出现相同问题时还需要专家输入。通过利用新的专家解决方案更新知识库,可以定期更新域知识,从而有助于开发有用的源语义知识库或者完善已根据本公开的各方面被迁移的目标语义知识库。
参考上面讨论的示例计费产品CCN和OCC,利用产品CCN的全功能语义知识库,可以通过根据本公开的各方面将域知识从CNN迁移到OCC来建立相关产品OCC的初始语义知识库。通过收集概念、准备描述概念的属性和概念之间的关系的功能谓词并准备谓词子句形式的约束来开发CCN语义知识库。然后,从OCC语料库中提取域特定OCC概念以准备OCC语义信息库,并且规范基本的相应谓词,允许概念匹配和知识迁移。
现在呈现根据本公开的各方面的知识迁移的测试实现的结果。
测试数据集包括900个邮件列表形式的CNN客户服务响应(CSR)。预留700个CSR用于训练,预留200个CSR用于测试。针对OCC域聚合文档的语料库,以便能够检查知识迁移。使用训练数据集,构建并训练了自动分类输入文件的模型。使用测试数据集,测试经训练的模型的正确性和准确性。然后,将域知识迁移到OCC域。
在测试实现的第一阶段,CNN CSR经历了文本预处理、特征提取和分类,并构建了知识库。文本预处理涉及词语切分、停止词移除和确定术语频率,以便在测试实现的下一阶段中生成要用作关键词特征的词袋。然后,提取特征并将特征用于唯一地识别每个文档且将每个文档分类为适合的类别。最后,根据所提取的关键词和分类后的文档手动开发了CNN域的语义知识库。CNN知识表示如图11所示。
然后,从OCC CSR中提取关键短语。由于OCC和CCN产品之间的相似性,可以在以上参考图4至图7描述的过程中将域知识从CCN迁移到OCC以生成OCC语义知识库。在目标OCC域中验证被迁移的谓词子句,以保证它们满足域属性。通过从源CCN域迁移知识,在目标OCC域中自动开发了目标最终大小的大约40%-60%的语义知识库。然后,使用人工干预对语义知识库进行精细调节。OCC语义表示如图12所示,并且在下表中给出CCN和OCC之间的概念匹配的一些示例:
Figure BDA0002021587360000221
Figure BDA0002021587360000231
一旦开发了OCC的语义知识库,就使用被迁移的知识库对OCCCSR进行分类,结果如下表所示。“精确率”是与查找查询相关的检索到的CSR的比例。“召回率”是与查询相关的成功检索到的CSR的比例。F-measure或平衡后的F-score=(2*P*R)/(P+R)是精确率和召回率的调和平均值。
分类器标签 精确率 召回率 F-MEASURE
拥塞 1.00 1.00 1.00
链路 1.00 1.00 1.00
0.97 0.97 0.97
以上讨论的示例实现示出了根据本公开的方法在电信域中的应用。当考虑应用于物联网用例时,核心域知识可以包括物理实体、单元、数据类型、属性、谓词、公式等。可以使用本公开的技术重用、相互链接和扩展该域知识以构建跨域应用,因为任何特定域(例如,医疗保健)的域知识可在其他域(例如,旅游、运输等)中重用。在第一示例应用中,如果在相同的域中采用了两个异构设备集,则至少可以将一个设备集获取的知识库部分地迁移到另一设备集。在第二示例应用中,如果发展新域或子域,则不需要从头开发其知识库。可以迁移来自相似域的语义知识,使得能够自动生成新域或子域的知识库的至少一部分。然后,与生成整个新语义知识库相比,域专家可需要大大减少的时间和精力来精细调节新的知识库。在第三示例中,合并多个域知识库以开发新域可能是适合的。例如,医疗保健服务可能需要利用已经由一系列设备(包括智能医疗设备)收集的数据,根据包括解剖结构、一般患者数据、疾病数据等多个域的知识库开发知识库。在这种情况下,要合并的域共享某些相似性和/或基本上彼此对齐或相关。如果源域的语义知识库可用,则它们的域知识可以迁移到目的域,并且可以使用本公开的技术自动地至少部分地开发目的域的知识库。
本公开的方法可以在装置中进行。图13示出了示例装置300,其例如可以在从计算机程序接收到适合的指令时实现方法100、200。参考图13,装置300包括处理器301和存储器302。存储器302包含可由处理器301执行的指令,使得装置300可操作用于执行方法100和/或200的一些或所有步骤。
图14示出了备选示例装置400,其例如可以在从计算机程序接收到适合的指令时实现方法100、200。应当理解,图14中所示的单元可以以硬件和/或软件的任何适合的组合来实现。例如,这些单元可以包括一个或多个处理器和一个或多个存储器,一个或多个存储器包含可由一个或多个处理器执行的指令。可以以任何程度集成这些单元。
参考图14,装置400包括知识模块410,被配置为:针对第一域建立语义知识库,所述语义知识库包括第一域的概念、第一域概念的属性、第一域概念之间的关系和管理第一域概念的约束。所述装置还包括信息模块420,被配置为:针对第二域建立语义信息库,所述语义信息库包含第二域的概念。所述装置还包括迁移模块430,被配置为:针对第二域的概念,确定第二域概念和第一域的概念之间的相似性度量,基于确定的相似性度量,识别与第二域概念等同的第一域概念,将来自第一域的语义知识库的、应用于所识别的第一域概念的属性、关系和约束映射到第二域概念,以及利用第二域概念和被映射的属性、关系和约束来填充第二域的语义知识库。
知识模块410可以被配置为:通过聚合与第一域相关联的文档集、从所聚合的文档集中识别关键词并根据所识别的关键词定义概念,来为第一域建立语义知识库。
知识模块410还可以被配置为:通过从文档集的文档中提取所定义的概念的属性和所定义的概念之间的关系,来为第一域建立语义知识库。
知识模块410还可以被配置为:通过根据第一域的操作建立管理所定义的概念的约束,来为第一域建立语义知识库。
知识模块410还可以被配置为:通过从存储器中检索语义知识库,来为第一域建立语义知识库。
信息模块420可以被配置为:通过聚合与第二域相关联的文档集、从所聚合的文档集中识别关键词并根据所识别的关键词定义概念,来为第二域建立语义信息库。
迁移模块430可以被配置为:通过针对至少多个第一域概念中的每一个计算第一域概念和第二域概念之间的组合相似性度量,来确定第二域概念和第一域的概念之间的相似性度量,所述组合相似性度量包括以下至少一项的组合:关系相似性度量、基于属性的相似性度量、结构相似性度量和/或基于实例的相似性度量。
迁移模块430可以被配置为:通过以下操作,基于确定的相似性度量识别与第二域概念等同的第一域概念:将具有最高组合相似性度量值的第一域概念识别为等同概念。
迁移模块430可以被配置为:通过以下操作,基于确定的相似性度量识别与第二域概念等同的第一域概念:如果最高组合相似性度量值大于相似性阈值,则将具有最高组合相似性度量值的第一域概念识别为等同概念。
迁移模块430可以被配置为:通过将以下步骤引入人工神经网络(ANN),执行以下步骤:确定第二域概念和第一域的概念之间的相似性度量,以及基于确定的相似性度量,识别与第二域概念等同的第一域概念。
迁移模块430可以被配置为:通过以下操作来确定第二域概念和第一域的概念之间的相似性度量:将第一域概念、属性和关系写入ANN的输入节点且将第二域概念写入ANN的输入节点,使ANN在ANN的中间节点中计算第一域概念和第二域概念之间的相似性度量,并使ANN在ANN的每个输出节点处输出特定第一域概念和第二域概念之间的相似性度量。
迁移模块430可以被配置为:通过以下操作,基于确定的相似性度量识别与第二域概念等同的第一域概念:识别具有最高相似性度量值的输出节点,并将与所识别的输出节点相关联的第一域概念识别为等同第一域概念。
装置400可以被配置为:针对另一第二域概念重复确定、识别、映射和填充步骤,并输入填充到第二域语义知识库的被映射的属性、关系和约束以确定所述另一第二域概念和所述第一域的概念之间的相似性度量。
因此,本公开的各方面提供了能够在网络的域之间迁移语义知识的方法和装置。域概念、它们的谓词形式的属性和关系、以及源域的约束是已知的。本公开的各方面利用在源域中获取的知识来增强相关目标域中的学习的准确性和速度。将谓词和约束从源映射到目标域,然后,根据约束在目标域中将谓词对齐,从而目标域的知识库被开发。因此,与从头开始学习目标域知识库的过程相比,根据本公开的方法和装置减少了学习目标域的模型所需的时间和训练数据。
图15呈现了本公开的方法的示例的概述,其中,输入包括源域知识库502和目的域的源文档的语料库504。在506处,从源域知识库中提取概念和谓词。在508处从目的域提取语料库、特征,在510处识别关键词并在512处开发谓词。然后,在514处计算相似性指数或组合相似性度量,所述组合相似性度量基于关系相似性、基于属性的相似性、结构相似性和基于实例的相似性的组合。在516处,识别最密切匹配的概念对,并在518处,以谓词和约束形式将域知识从源迁移到目标域。最后,在520处,由域专家完善目的知识库。
虽然用于跨域链接和映射知识的系统已知,但是本公开的示例能够为域信息可用但不存在语义知识的域创建全新的知识库。与从头开始手动创建新的知识库相比,利用从相关现有域获取到的知识实现新的知识库的创建在时间、开销和人力方面要求大大减小的投入。
本公开的示例可以特别适用于电信域,其中多个类似产品通常可以从不同的供应商获得,还适用于物联网域。在物联网中,如上所述,设备集和应用之间的互操作性是实现跨域应用和服务的关键构建部分。通过实现目标域的语义知识库的快速自动化开发,本公开的各方面可以促进这种互操作性。
本公开的方法可以以硬件实现,或者作为在一个或多个处理器上运行的软件模块实现。这些方法还可以根据计算机程序的指令来执行,并且本公开还提供了一种计算机可读介质,其上存储有用于执行本文描述的任何方法的程序。体现本公开的计算机程序可以存储在计算机可读介质上,或可以是例如信号(例如,从互联网网站提供的可下载数据信号)的形式,或者可以是任何其他形式。
应当注意的是,上述示例说明而非限制本公开,并且本领域技术人员在不脱离所附权利要求的范围的情况下将能够设计很多备选实施例。词语“包括”不排除存在除了权利要求中所列出的元素或步骤之外的元素或步骤,“一”或“一个”不排除多个,并且单个处理器或其他单元可以执行权利要求中记载的多个单元的功能。权利要求中的任何附图标记将不被理解为对其范围的限制。

Claims (28)

1.一种用于在网络的域之间迁移语义知识的方法,所述网络包括第一域和第二域,所述方法包括:
为所述第一域建立语义知识库,所述语义知识库包括:
所述第一域的概念;
第一域概念的属性;
所述第一域概念之间的关系;以及
管理所述第一域概念的约束;
为所述第二域建立语义信息库,所述语义信息库包括:
所述第二域的概念;
以及,针对所述第二域的概念:
确定第二域概念和所述第一域的概念之间的相似性度量;
基于确定的相似性度量,识别与所述第二域概念等同的第一域概念;
将来自所述第一域的语义知识库的、应用于所识别的第一域概念的属性、关系和约束映射到所述第二域概念;以及
利用所述第二域概念和被映射的属性、关系和约束来填充所述第二域的语义知识库。
2.根据权利要求1所述的方法,其中所述语义知识库的属性和关系被表示为谓词,以及其中所述语义知识库的约束被表示为谓词子句。
3.根据权利要求1或2所述的方法,其中为所述第一域建立语义知识库包括:
聚合与所述第一域相关联的文档集;
从所聚合的文档集中识别关键词;以及
根据所识别的关键词定义概念。
4.根据权利要求3所述的方法,其中为所述第一域建立语义知识库还包括:
从所述文档集的文档中提取所定义的概念的属性和所定义的概念之间的关系。
5.根据权利要求3所述的方法,其中为所述第一域建立语义知识库还包括:
根据所述第一域的操作建立管理所定义的概念的约束。
6.根据权利要求1或2所述的方法,其中为所述第一域建立语义知识库包括从存储器中检索所述语义知识库。
7.根据权利要求1或2所述的方法,其中为所述第二域建立语义信息库包括:
聚合与所述第二域相关联的文档集;
从所聚合的文档集中识别关键词;以及
根据所识别的关键词定义概念。
8.根据权利要求1或2所述的方法,其中确定所述第二域概念和所述第一域的概念之间的相似性度量包括:针对至少多个第一域概念中的每一个,
计算所述第一域概念和所述第二域概念之间的组合相似性度量,所述组合相似性度量包括以下至少一项的组合:
关系相似性度量,
基于属性的相似性度量,
结构相似性度量,和/或
基于实例的相似性度量。
9.根据权利要求8所述的方法,其中所述关系相似性度量包括使用词汇数据库计算的语义相似性度量。
10.根据权利要求8所述的方法,其中所述基于属性的相似性度量包括所述第一域概念和所述第二域概念的属性之间的相似性度量。
11.根据权利要求8所述的方法,其中所述结构相似性度量包括所述第一域概念和其他第一域概念的层次关系与所述第二域概念和其他第二域概念的层次关系之间的相似性度量。
12.根据权利要求8所述的方法,其中所述基于实例的相似性度量包括对所述第一域中的第一概念和所述第二域中的第二概念的数据实例出现的度量。
13.根据权利要求8所述的方法,其中基于确定的相似性度量识别与所述第二域概念等同的第一域概念包括:将具有最高组合相似性度量值的第一域概念识别为等同概念。
14.根据权利要求13所述的方法,其中基于确定的相似性度量识别与所述第二域概念等同的第一域概念包括:如果最高组合相似性度量值大于相似性阈值,则将具有最高组合相似性度量值的第一域概念识别为所述等同概念。
15.根据权利要求1或2所述的方法,其中由人工神经网络ANN执行确定所述第二域概念和所述第一域的概念之间的相似性度量以及基于确定的相似性度量识别与所述第二域概念等同的第一域概念的步骤。
16.根据权利要求15所述的方法,其中确定所述第二域概念和所述第一域的概念之间的相似性度量包括:
将第一域概念、属性和关系写入所述ANN的输入节点,并将所述第二域概念写入所述ANN的输入节点;
在所述ANN的中间节点中计算所述第一域概念和所述第二域概念之间的相似性度量;以及
在所述ANN的每个输出节点处,输出特定第一域概念和第二域概念之间的相似性度量。
17.根据权利要求16所述的方法,其中基于确定的相似性度量识别与所述第二域概念等同的第一域概念包括:
识别具有最高相似性度量值的输出节点;以及
将与所识别的输出节点相关联的第一域概念识别为等同的第一域概念。
18.根据权利要求1或2所述的方法,其中所述第二域的语义信息库还包括第二域概念的至少一些属性和/或第二域概念之间的至少一些关系。
19.根据权利要求18所述的方法,其中确定所述第二域概念和所述第一域的概念之间的相似性度量包括:基于第二域语义信息库中的属性和/或关系确定所述相似性度量。
20.根据权利要求1或2所述的方法,还包括:
针对另一第二域概念重复确定、识别、映射和填充步骤,并输入填充到第二域语义知识库的被映射的属性、关系和约束以确定所述另一第二域概念和所述第一域的概念之间的相似性度量。
21.根据权利要求1或2所述的方法,还包括:
使用专家知识完善所述第二域的语义知识库。
22.根据权利要求1或2所述的方法,其中所述第一域和所述第二域之间的关系度量大于域关系阈值。
23.根据权利要求1或2所述的方法,其中所述第一域和所述第二域包括所述网络的单个操作域,并且其中所述第一域的语义知识库包括与在所述网络的操作域内操作的第一应用相关联的语义知识库,并且其中所述第二域的语义信息库包括与在所述网络的操作域内操作的第二应用相关联的语义信息库。
24.根据权利要求23所述的方法,其中所述第一应用和第二应用与在所述网络的操作域内操作的第一设备集和第二设备集相关联。
25.一种存储有计算机程序计算机可读存储介质,所述计算机程序当在至少一个处理器上执行时使所述至少一个处理器执行根据权利要求1至24中任一项所述的方法。
26.一种用于在网络的域之间迁移语义知识的装置,所述网络包括第一域和第二域,所述装置包括处理器和存储器,所述存储器包含所述处理器可执行的指令,使得所述装置操作用于:
为所述第一域建立语义知识库,所述语义知识库包括:
所述第一域的概念;
第一域概念的属性;
所述第一域概念之间的关系;以及
管理所述第一域概念的约束;
为所述第二域建立语义信息库,所述语义信息库包括:
所述第二域的概念;
以及,针对所述第二域的概念:
确定第二域概念和所述第一域的概念之间的相似性度量;
基于确定的相似性度量,识别与所述第二域概念等同的第一域概念;
将来自所述第一域的语义知识库的、应用于所识别的第一域概念的属性、关系和约束映射到所述第二域概念;以及
利用所述第二域概念和被映射的属性、关系和约束来填充所述第二域的语义知识库。
27.根据权利要求26所述的装置,其中所述装置还操作用于执行根据权利要求2至24中任一项所述的方法。
28.一种用于在网络的域之间迁移语义知识的装置,所述网络包括第一域和第二域,所述装置包括:
知识模块,被配置为:为所述第一域建立语义知识库,所述语义知识库包括:
所述第一域的概念;
第一域概念的属性;
所述第一域概念之间的关系;以及
管理所述第一域概念的约束;
信息模块,被配置为:为所述第二域建立语义信息库,所述语义信息库包括:
所述第二域的概念;
以及迁移模块,被配置为:针对所述第二域的概念,
确定第二域概念和所述第一域的概念之间的相似性度量;
基于确定的相似性度量,识别与所述第二域概念等同的第一域概念;
将来自所述第一域的语义知识库的、应用于所识别的第一域概念的属性、关系和约束映射到所述第二域概念;以及
利用所述第二域概念和被映射的属性、关系和约束来填充所述第二域的语义知识库。
CN201680089964.5A 2016-08-10 2016-08-10 用于语义知识迁移的方法和装置 Active CN109804371B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IN2016/050268 WO2018029696A1 (en) 2016-08-10 2016-08-10 Methods and apparatus for semantic knowledge transfer

Publications (2)

Publication Number Publication Date
CN109804371A CN109804371A (zh) 2019-05-24
CN109804371B true CN109804371B (zh) 2023-05-23

Family

ID=61161971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680089964.5A Active CN109804371B (zh) 2016-08-10 2016-08-10 用于语义知识迁移的方法和装置

Country Status (4)

Country Link
US (1) US20190171947A1 (zh)
EP (1) EP3497580A4 (zh)
CN (1) CN109804371B (zh)
WO (1) WO2018029696A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11295210B2 (en) 2017-06-05 2022-04-05 D5Ai Llc Asynchronous agents with learning coaches and structurally modifying deep neural networks without performance degradation
US11132622B2 (en) * 2017-12-27 2021-09-28 International Business Machines Corporation Autonomous system for hypotheses generation
CN110309271A (zh) 2018-03-06 2019-10-08 微软技术许可有限责任公司 智能知识学习及问答技术
CN110083834B (zh) * 2019-04-24 2023-05-09 北京百度网讯科技有限公司 语义匹配模型训练方法、装置、电子设备及存储介质
US20240095587A1 (en) * 2020-12-08 2024-03-21 Telefonaktiebolaget Lm Ericsson (Publ) Methods and apparatuses for providing transfer learning of a machine learning model
US11636085B2 (en) * 2021-09-01 2023-04-25 International Business Machines Corporation Detection and utilization of similarities among tables in different data systems
CN114820225B (zh) * 2022-06-28 2022-09-13 成都秦川物联网科技股份有限公司 基于关键词识别和处理制造问题的工业物联网及控制方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630314A (zh) * 2008-07-16 2010-01-20 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法
CN103678418A (zh) * 2012-09-25 2014-03-26 富士通株式会社 信息处理方法和信息处理设备
WO2014084712A1 (en) * 2012-11-29 2014-06-05 Mimos Berhad A system and method for automated generation of contextual revised knowledge base

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5276774A (en) * 1990-05-31 1994-01-04 Kabushiki Kaisha Toshiba Device and method for analogical reasoning
US9104779B2 (en) * 2005-03-30 2015-08-11 Primal Fusion Inc. Systems and methods for analyzing and synthesizing complex knowledge representations
WO2015009682A1 (en) * 2013-07-15 2015-01-22 De, Piali Systems and methods for semantic reasoning
US9443192B1 (en) * 2015-08-30 2016-09-13 Jasmin Cosic Universal artificial intelligence engine for autonomous computing devices and software applications

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630314A (zh) * 2008-07-16 2010-01-20 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法
CN103678418A (zh) * 2012-09-25 2014-03-26 富士通株式会社 信息处理方法和信息处理设备
WO2014084712A1 (en) * 2012-11-29 2014-06-05 Mimos Berhad A system and method for automated generation of contextual revised knowledge base

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
An approach for measuring semantic similarity between words using multiple information sources;Yuhua Li等;《IEEE Transactions on Knowledge and Data Engineering》;20030831;第15卷(第4期);第871-882页 *
Evaluating Knowledge Transfer and Zero-Shot Learning in a Large-Scale Setting;Marcus Rohrbach等;《IEEE》;20110822;第1641-1648页 *
Learning of Knowledge-Intensive Similarity Measures in Case-Based Reasoning;Armin Stahl等;《IEEE》;20031010;第1-237页 *

Also Published As

Publication number Publication date
US20190171947A1 (en) 2019-06-06
CN109804371A (zh) 2019-05-24
WO2018029696A1 (en) 2018-02-15
EP3497580A4 (en) 2020-04-01
EP3497580A1 (en) 2019-06-19

Similar Documents

Publication Publication Date Title
CN109804371B (zh) 用于语义知识迁移的方法和装置
US10963794B2 (en) Concept analysis operations utilizing accelerators
US9606934B2 (en) Matrix ordering for cache efficiency in performing large sparse matrix operations
US10614086B2 (en) Orchestrated hydration of a knowledge graph
Jabbar et al. A methodology of real-time data fusion for localized big data analytics
US20220100963A1 (en) Event extraction from documents with co-reference
US20190286978A1 (en) Using natural language processing and deep learning for mapping any schema data to a hierarchical standard data model (xdm)
US20220100772A1 (en) Context-sensitive linking of entities to private databases
US20230351330A1 (en) Autonomous suggestion of issue request content in an issue tracking system
US20220300831A1 (en) Context-aware entity linking for knowledge graphs
US20220237446A1 (en) Hybrid graph neural network
US20230030086A1 (en) System and method for generating ontologies and retrieving information using the same
Wu et al. A novel community answer matching approach based on phrase fusion heterogeneous information network
US11537918B2 (en) Systems and methods for document similarity matching
CN112925857A (zh) 基于谓语类型预测关联的数字信息驱动的系统和方法
Ramar et al. Technical review on ontology mapping techniques
Abedini et al. Correction Tower: A general embedding method of the error recognition for the knowledge graph correction
Kalo et al. Knowlybert-hybrid query answering over language models and knowledge graphs
CN114840685A (zh) 一种应急预案知识图谱构建方法
EP4222635A1 (en) Lifecycle management for customized natural language processing
US20220100967A1 (en) Lifecycle management for customized natural language processing
Xu et al. A novel entity joint annotation relation extraction model
Yin et al. A deep natural language processing‐based method for ontology learning of project‐specific properties from building information models
Dutta et al. Automated Data Harmonization (ADH) using Artificial Intelligence (AI)
Abedini et al. Epci: an embedding method for post-correction of inconsistency in the RDF knowledge bases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant