CN104205092B - 通过变换复杂三元组建立本体的方法和系统 - Google Patents

通过变换复杂三元组建立本体的方法和系统 Download PDF

Info

Publication number
CN104205092B
CN104205092B CN201380016700.3A CN201380016700A CN104205092B CN 104205092 B CN104205092 B CN 104205092B CN 201380016700 A CN201380016700 A CN 201380016700A CN 104205092 B CN104205092 B CN 104205092B
Authority
CN
China
Prior art keywords
tlv triple
term
complicated
simplification
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380016700.3A
Other languages
English (en)
Other versions
CN104205092A (zh
Inventor
F·罗格
T·罗亚恩
M·潘特兰德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qindarui Co.
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN104205092A publication Critical patent/CN104205092A/zh
Application granted granted Critical
Publication of CN104205092B publication Critical patent/CN104205092B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • G06N5/047Pattern matching networks; Rete networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • G09B7/02Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

提供一种用于建立本体的方案。基于语法,在语法上变换提取的复杂三元组以识别核心术语。在语义上将语法变换后的复杂三元组变换为简化的三元组,所述简化的三元组参照将核心形容词、副词和动词概念化的新术语并且将核心术语分派给参考本体中的相应定义和键,由此保留复杂三元组的语义。基于参考本体的元模式,通过添加从简化的三元组中的每个术语具有的与参考本体的对应关系得出的关系并且通过添加术语的参考本体定义的语义表示,来执行简化的三元组的充实变换以创建简化和充实的三元组。简化和充实的三元组被存储为本体,该本体代表提供提取出了复杂三元组的自由形式文本的应用中的知识。

Description

通过变换复杂三元组建立本体的方法和系统
技术领域
本发明涉及一种用于知识管理的数据处理方法和系统,更具体地讲,涉及一种用于产生本体(ontology)的技术。
背景技术
本体是由一组概念和概念之间的关系实现的知识的表示,其中知识被包括在基于软件的应用内。当每个应用具有它自己的本体时,应用之间的语义互操作性不是直接的,因为在一个本体的上下文中表示的任何请求在在另一本体的上下文中被处理之前必须被转换。为了在已知系统中提供前述互操作性,映射本体的结构(即,概念和概念之间的关系),并且使用本体映射来转换请求和请求的应答。本体之间的不匹配可能基于使用在其基元的语法、构造或语义方面不同的语言的本体。为了避免本体之间的语言级的不匹配,每个本体可使用相同语言,诸如资源描述框架(RDF)。RDF基于具有主谓宾表达(称为三元组或三联组)的形式的语句。当使用不同方法和技术创建本体时,会出现其它不匹配。在这种情况下,相同概念能够在不同本体中具有不同名称,相同名称能够在不同本体中被用于不同概念,不同概念化方案能够导致不同的表示(例如,类相对于性质、以及类相对于子类)。
发明内容
在第一实施例中,本发明提供一种建立本体的方法。该方法包括下述步骤:
计算机接收从由软件应用提供的自由形式文本提取的多个复杂三元组,每个复杂三元组包括复合主语、复合谓语和复合宾语;
计算机通过基于语法识别所述多个复杂三元组中的核心术语和非核心术语、识别所述多个复杂三元组中的包括名词、动词、形容词和副词的语法元素并且使所述多个复杂三元组标准化,来执行所述多个复杂三元组的语法变换,其中执行语法变换的步骤的结果是其术语与所述语法匹配的多个语法变换后的复杂三元组;
计算机通过将多个简化的三元组中所包括的每个核心术语分派给正好一个术语定义并且分派给参考本体的正好一个识别键来把所述多个语法变换后的复杂三元组分别语义变换为所述多个简化的三元组中所包括的一个或多个简化的三元组,其中每个简化的三元组包括主语术语、谓语术语和宾语术语,并且其中所述一个或多个简化的三元组中的每一个保留各个语法变换后的复杂三元组的语义;
基于参考本体的元模式(meta-schema),计算机通过添加从所述多个简化的三元组中的每个术语具有的与参考本体的对应关系获得的关系并且通过添加所述多个简化的三元组中的术语的定义的语义表示来执行所述多个简化的三元组的充实变换并且将其变换为多个简化和充实的(enriched)三元组,其中所述定义被包括在参考本体中;以及
计算机存储所述多个简化和充实的三元组作为代表提供自由形式文本的软件应用内所包括的知识的新的本体。
在第二实施例中,本发明提供一种用于建立本体的计算机系统。所述计算机系统包括:
中央处理单元(CPU);
存储器,耦接到CPU;
计算机可读的有形存储装置,耦接到CPU,该存储装置包含由CPU经由存储器执行以实现建立本体的方法的指令,所述方法包括下述步骤:
计算机系统接收从由软件应用提供的自由形式文本提取的多个复杂三元组,每个复杂三元组包括复合主语、复合谓语和复合宾语;
计算机系统通过基于语法识别所述多个复杂三元组中的核心术语 和非核心术语、识别所述多个复杂三元组中的包括名词、动词、形容词和副词的语法元素并且使所述多个复杂三元组标准化来执行所述多个复杂三元组的语法变换,其中执行语法变换的步骤的结果是其术语与所述语法匹配的多个语法变换后的复杂三元组;
计算机系统通过将多个简化的三元组中所包括的每个核心术语分派给正好一个术语定义并且分派给参考本体的正好一个识别键来执行所述多个语法变换后的复杂三元组的语义变换并且将其分别变换为所述多个简化的三元组中所包括的一个或多个简化的三元组,其中每个简化的三元组包括主语术语、谓语术语和宾语术语,并且其中所述一个或多个简化的三元组中的每一个保留各个语法变换后的复杂三元组的语义;
基于参考本体的元模式,计算机系统通过添加从所述多个简化的三元组中的每个术语具有的与参考本体的对应关系获得的关系并且通过添加所述多个简化的三元组中的术语的定义的语义表示来执行所述多个简化的三元组的充实变换并且将其变换为多个简化和充实的三元组,其中所述定义被包括在参考本体中;以及
计算机系统存储所述多个简化和充实的三元组作为代表提供自由形式文本的软件应用内所包括的知识的新本体。
在第三实施例中,本发明提供一种计算机程序产品,包括:
计算机可读的有形存储装置;和
计算机可读程序代码,存储在计算机可读的有形存储装置中,该计算机可读程序代码包含由计算机系统的中央处理单元(CPU)执行以实现建立本体的方法的指令,所述方法包括下述步骤:计算机系统接收从由软件应用提供的自由形式文本提取的多个复杂三元组,每个复杂三元组包括复合主语、复合谓语和复合宾语;
计算机系统通过基于语法识别所述多个复杂三元组中的核心术语和非核心术语、识别所述多个复杂三元组中的包括名词、动词、形容词和副词的语法元素并且使所述多个复杂三元组标准化,来执行所述多个复杂三元组的语法变换,其中执行语法变换的步骤的结果是其术 语与语法匹配的多个语法变换后的复杂三元组;
计算机系统通过将多个简化的三元组中所包括的每个核心术语分派给正好一个术语定义并且分派给参考本体的正好一个识别键来执行所述多个语法变换后的复杂三元组的语义变换并且将其分别变换为所述多个简化的三元组中所包括的一个或多个简化的三元组,其中每个简化的三元组包括主语术语、谓语术语和宾语术语,并且其中所述一个或多个简化的三元组中的每一个保留各个语法变换后的复杂三元组的语义;
基于参考本体的元模式,计算机系统通过添加从所述多个简化的三元组中的每个术语具有的与参考本体的对应关系获得的关系并且通过添加所述多个简化的三元组中的术语的定义的语义表示来执行所述多个简化的三元组的充实变换并且将其变换为多个简化和充实的三元组,其中所述定义被包括在参考本体中;以及
计算机系统存储所述多个简化和充实的三元组作为代表提供自由形式文本的软件应用内所包括的知识的新本体。
在第四实施例中,本发明提供一种用于支持计算基础设施的处理。所述处理包括:为在包括处理器的计算机系统中创建、集成、容纳、维护和部署计算机可读代码中的至少一种提供至少一种支持服务,其中处理器执行代码中所包含的指令,使计算机系统执行建立本体的方法,其中所述方法包括下述步骤:计算机系统接收从由软件应用提供的自由形式文本提取的多个复杂三元组,每个复杂三元组包括复合主语、复合谓语和复合宾语;
计算机系统通过基于语法识别所述多个复杂三元组中的核心术语和非核心术语、识别所述多个复杂三元组中的包括名词、动词、形容词和副词的语法元素并且使所述多个复杂三元组标准化,来执行所述多个复杂三元组的语法变换,其中执行语法变换的步骤的结果是其术语与所述语法匹配的多个语法变换后的复杂三元组;
计算机系统通过将多个简化的三元组中所包括的每个核心术语分派给正好一个术语定义并且分派给参考本体的正好一个识别键来执行 所述多个语法变换后的复杂三元组的语义变换并且将其分别变换为所述多个简化的三元组中所包括的一个或多个简化的三元组,其中每个简化的三元组包括主语术语、谓语术语和宾语术语,并且其中所述一个或多个简化的三元组中的每一个保留各个语法变换后的复杂三元组的语义;
基于参考本体的元模式,计算机系统通过添加从所述多个简化的三元组中的每个术语具有的与参考本体的对应关系获得的关系并且通过添加所述多个简化的三元组中的术语的定义的语义表示来执行所述多个简化的三元组的充实变换并且将其变换为多个简化和充实的三元组,其中所述定义被包括在参考本体中;以及
计算机系统存储所述多个简化和充实的三元组作为代表提供自由形式文本的软件应用内所包括的知识的新本体。
本发明的实施例产生在概念上正确并且适应于跨本体对应关系的自动发现的结构良好并且丰富的本体模式,由此提供基于软件的应用之间的自动语义互操作性和语义集成。随着时间过去,通过经由重用来自参考本体的定义的语义模式和在参考模式中不存在的新概念的语义模式而提供的自动充实,这里提供的本体建立系统可变得更加高效。本发明的实施例是可适配的,并且能够随着时间过去通过允许知识工程师分析创造的术语的列表和使用预定义的结构和关系的方式以便改进语法、本体元模式和变换规则而演进。本体元模式的适配是不会使利用元模式的以前版本建立的本体无效的改进。另外,本发明的实施例接受任何级别的复杂度的复杂三元组,其中可由特定适配器从任何数据源产生复杂三元组。另外,本发明的实施例避免了当不同方法和技术被用于创建本体时在当前出现的不匹配,并且由此即使当本体涉及不同专业领域时也能够实现本体的自动合并。
附图说明
图1是根据本发明的实施例的用于通过变换复杂三元组来建立本体的系统的方框图。
图2是根据本发明的实施例的通过变换复杂三元组来建立本体的处理的流程图,其中在图1的系统中实现该处理。
图3是根据本发明的实施例的图2的处理中的变换复杂三元组的处理的流程图。
图4A-4F描述根据本发明的实施例的图3的处理中所包括的复杂三元组的语法变换的处理的流程图。
图5是根据本发明的实施例的图3的处理中所包括的语法变换后的复杂三元组的语义变换的处理的流程图。
图6是根据本发明的实施例的图3的处理中所包括的简化的三元组的充实变换的处理的流程图。
图7是根据本发明的实施例的合并通过图2的处理建立的本体的处理的流程图。
图8是根据本发明的实施例的计算机系统的方框图,该计算机系统被包括在图1的系统中并且实现图2的处理。
具体实施方式
概述
本发明的实施例接收从任何给定的基于软件的应用的论域提取的复杂三元组,其中复杂三元组具有<复合主语,复合谓语,复合宾语>的形式,并且其中复杂三元组中的复合主语、谓语和宾语中的每一个能够处于任何级别的复杂度。在一个实施例中,论域是一组自由形式文本(即,非结构化文本)。复杂三元组不形成本体,因为复杂三元组太复杂而无法提供概念和关系的清楚识别。这里公开的实施例通过将复杂三元组简化并且变换为简单三元组(例如,RDF三元组)来使用复杂三元组建立本体,所述简单三元组在语义上等同于初始复杂三元组并且比初始复杂三元组丰富。由本发明的实施例建立的本体结构良好,在概念上正确,并且即使当本体涉及不同专业领域时也适于跨本体对应关系的自动发现。
本发明的实施例建立与单个参考本体(即,上本体)强匹配的本 体,其中在本体的建立阶段期间执行每个本体的匹配。可通过将一组变换规则应用于提取的复杂三元组来完成每个建立的本体与参考本体的匹配。本发明的实施例确保:当且仅当从第一本体获得的第一概念和从第二本体获得的第二概念在参考本体中具有相同参考识别键时,第一概念和第二概念才是相同的,因为以相同方法建立本体并且本体参考相同的参考本体。在这里提供的实施例中,当且仅当概念具有相同键时,两个概念在本体之间映射。因此,两个本体可在它们相同的概念上合并,由此方便语义搜索和推断,并且还方便综合任务,诸如数据变换、查询应答、web服务构成等。
用于通过变换复杂三元组来建立本体的系统
图1是根据本发明的实施例的用于通过变换复杂三元组来建立本体的系统的方框图。本体建立系统100包括N个计算机系统102-1…102-N,其中N是大于一的整数。计算机系统102-1…102-N经由协作网络103彼此通信和/或与其它计算机系统通信。协作网络103是计算机网络,诸如互联网或内联网。
计算机系统102-1运行基于软件的应用104-1,并且包括基于软件和硬件的本体建立器106。计算机系统102-1包括本体数据存储库108-1,由本体建立器106建立的本体被存储在本体数据存储库108-1中。本体建立器106包括基于软件的复杂三元组变换工具110以及一个或多个数据存储库,所述一个或多个数据存储库存储语法112(即,一组语法规则)、参考本体114和本体元模式116,本体元模式116包括参考本体114的元模式。
在一个实施例中,参考本体114必须至少包括下面的用于参考本体中的每个术语的信息:
·术语的同义词的列表
·用于识别术语的唯一键
·术语的简短定义(例如,一句话定义)
·表示参考本体的版本的版本id
·派生术语(即,从该术语派生的其它术语)的列表
·术语的语法类别(例如,名词、动词、副词、或形容词)
在一个实施例中,对于其语法类别是“形容词”的术语,参考本体114至少包括下面的信息:
·术语是否是同源词(pertainym)(即,能够被定义为另一词语“的”或“关于”另一词语的形容词)。
·从其派生出该术语的属性
在一个实施例中,对于其语法类别是“副词”的术语,参考本体114至少包括与该术语关联的可能的同源词的分级体系。
在一个实施例中,对于其语法类别是“名词”的术语,参考本体114至少包括下面的信息:
·术语是否是属性
·术语是否与一个形容词群相关
·可能的多个形容词群中的每个中的类似形容词的列表
·术语的可能的上位词的分级体系。如果每个X是Y或一种Y,则Y是名词X的上位词(例如,犬科动物是狗的上位词)
·术语的可能的下位词的分级体系。如果每个Y是X或一种X,则Y是名词X的下位词(例如,狗是犬科动物的下位词)。
在一个实施例中,对于其语法类别是“动词”的术语,参考本体114至少包括下面的信息:
·与该动词相关的组的全部列表
·与该动词相关的伴随物的全部列表。如果要做X就必须做Y,则X必须伴随动词Y(例如,打鼾必须伴随睡觉)
·与该动词相关的上位词的全部列表。如果活动X是Y或一种Y,则动词Y是动词X的上位词(例如,感知是听的上位词)
·与该动词相关的方式词(troponym)的全部列表。如果活动Y是以某种方式做X,则动词Y是动词X的方式词(例如,口齿不清地说是讲话的方式词)。
类似于计算机系统102-1,计算机系统102-N运行基于软件的应用104-N,并且包括本体建立器106。计算机系统102-N还包括用于 存储由本体建立器106建立的本体的本体数据存储库108-N,本体建立器106被包括在计算机系统102-N中。虽然未示出,但计算机系统102-N中所包括的本体建立器106包括复杂三元组变换工具110和一个或多个数据存储库,所述一个或多个数据存储库用于存储分别具有与语法112、参考本体114和本体元模式116的功能类似的功能的语法、参考本体和本体元模式。
在一个实施例中,一个或多个其它计算机系统(未示出)经协作网络103与计算机系统102-1和计算机系统102-N通信,并且所述一个或多个其它计算机系统中的每一个包括与计算机系统102-1和计算机系统102-N中所包括的部件类似的部件。在一个实施例中,协作网络103的每个节点是计算机系统,该计算机系统包括实现以下相对于图2、图3、图4A-4F、图5和图6描述的相同的本体建立方法的相同的本体建立器106。
在替代实施例中,应用104-1和/或本体数据存储库108-1被包括在位于计算机系统102-1外部的计算机系统中。
每个应用104-1…104-N可以是任何种类的基于软件的应用。例如,应用104-1可以是包括自由形式文本的最终用户博客、消息发送系统、交互式游戏或任何种类的商业应用。
使用计算机系统102-1…102-N中的本体建立器106,本发明的实施例以这种方式产生本体:允许跨越本体的概念(即,主语(subject)和宾语(object))和关系(即,谓语(predicate))之间的对应关系的自动识别。本发明的实施例能够提供(且确实提供)关系之间的对应关系,因为谓语被概念化(即,名词化),以下更详细地对此进行讨论。在识别概念和关系之间的对应关系之后,本体可被自动地合并,能够实现应用104-1…104-N之间的自动语义互操作性或计算机系统102-1…102-N的最终用户(未示出)之间的语义协作。在一个实施例中,应用104-1…104-N独立于彼此而被开发。本体建立器106处理来自每个应用(例如,应用104-1)的输出以创建本体(例如,存储在本体数据存储库108-1中的本体)。因为由计算机系统102-1…102- N中的本体建立器106创建的每个本体使用相同方法,所以这些本体能够彼此通信,由此能够实现应用104-1…104-N之间的语义协作。
在以下相对于图2、图3、图4A-4F、图5和图6提供的讨论中描述计算机系统102-1的部件的功能。
用于通过变换复杂三元组来建立本体的处理
图2是根据本发明的实施例的通过变换复杂三元组来建立本体的处理的流程图,其中在图1的系统中实现该处理。虽然图2的处理中的步骤被讨论为由计算机系统102-1(参见图1)的部件执行,但对于本领域技术人员而言应该清楚的是,图2的步骤可由图1中的系统100中所包括的任何其它计算机系统(例如,图1中的计算机系统102-N)中的类似部件执行。通过变换复杂三元组来建立本体的处理开始于步骤200。在步骤202中,本体建立器106(参见图1)接收由应用104-1(参见图1)提供的自由形式文本。
在步骤204中,本体建立器106(参见图1)从在步骤202中接收的自由形式文本提取复杂三元组。在一个实施例中,本体建立器106(参见图1)中所包括的基于软件的自然语言处理(NLP)提取工具在步骤202中接收自由形式文本,并且在步骤204中从自由形式文本创建或提取复杂三元组。在替代实施例中,位于本体建立器106(参见图1)外部的基于软件的提取工具在步骤202中接收由应用104-1(参见图1)提供的自由形式文本,在步骤204中从自由形式文本提取复杂三元组,并且在步骤204和206之间将提取的复杂三元组发送给本体建立器106(参见图1)。提取工具的例子是由位于New York,Armonk的国际商用机器公司提供的Language
在步骤206中,使用存储在本体元模式116(参见图1)中的一组变换规则,复杂三元组变换工具110(参见图1)将在步骤204中提取的复杂三元组变换为简化的标准三元组,随后利用在语义上相关的信息充实简化的标准三元组。在步骤206中执行的变换包括由复杂三元组变换工具110(参见图1)执行的一系列的三种不同过程:(1)语法变换;(2)语义变换;和(3)充实变换。
步骤206中的语法变换包括:根据由计算机系统102-1(参见图1)在图2的处理之前定义和接收的语法112(参见图1)分析在步骤204中提取的复杂三元组。语法变换包括:变换复杂三元组以与语法112(参见图1)匹配,识别复杂三元组中需要语义变换的术语,并且使复杂三元组标准化以便为语义变换做准备。
以下相对于图3和图4A-4F进一步讨论语法变换。
在语法变换之后执行步骤206中的语义变换,并且语义变换包括:在保留复杂三元组的语义的同时,简化通过语法变换而获得的复杂三元组。也就是说,通过在步骤206中在语义上变换复杂三元组而获得的一个或多个简化的三元组在语义上等同于变换的复杂三元组。
语义变换包括:使简化的三元组的不同核心术语与参考本体114(参见图1)匹配。简化的三元组中的每个核心术语被分派一个且仅一个术语定义以及参考本体114(参见图1)中所包括的一个且仅一个识别键。以下相对于图3的讨论来讨论和定义核心术语。如果复杂三元组变换工具110(参见图1)确定简化的三元组中所需的术语不在参考本体114(参见图1)中,则复杂三元组变换工具110(参见图1)创造需要的术语。
通过步骤206获得的每个三元组是简化的三元组,因为它仅包含单个的术语并且实现二元关系。在一个实施例中,通过步骤206中的语义变换而获得的简化的三元组具有形式(subject_term,predicate_term,object_term)(即,简化的三元组具有用于三元组的RDF格式)。
以下相对于图3和图5进一步讨论语义变换。
通过添加来自简化的三元组中的每个术语具有的与参考本体114(参见图1)的对应关系的关系,并且通过添加由每个术语在参考本体114(参见图1)中具有的定义给出的语义表示,步骤206中的充实变换充实了通过步骤206中所包括的语义变换而获得的简化的三元组。为了执行步骤206中的充实变换,复杂三元组变换工具110(参见图1)需要参考本体114(参见图1)的结构的知识。前述参考本体 114(参见图1)的结构的知识是参考本体的元模式。本体建立器106(参见图1)将参考本体114(参见图1)的元模式存储为本体元模式116(参见图1)的一部分。
以下相对于图3和图6进一步讨论充实变换。
在步骤208中,本体建立器106(参见图1)将简化和充实的标准三元组作为新建立的本体存储在本体数据存储库108-1(参见图1)中。图2的处理结束于步骤210。
在一个实施例中,在步骤208中,本体建立器106(参见图1)将简化和充实的标准三元组存储在本体数据存储库108-1(参见图1)中所包括的本体数据库中。在一个实施例中,在步骤208中,本体建立器106(参见图1)将新建立的本体与在步骤204中提取的复杂三元组一起存储在在本体元模式116(参见图1)中指定的一组数据库表中。前述一组数据库表实现一组标准关系,包括:(1)复杂三元组中或简化和充实的三元组中的术语能够具有的与参考本体114(参见图1)的不同种类的关系;(2)在步骤204中提取的复杂三元组和从步骤206获得的简化和充实的三元组之间的关系;和(3)由步骤206中所包括的语义变换产生的不同标准关系。
在一个实施例中,在图1中的不同计算机系统处重复图2的处理以建立多个本体,其中图2的处理的每次执行建立所述多个本体中的一个对应本体。本发明的实施例可自动地执行所述多个可能跨领域的本体的语义集成,因为所述多个本体全都通过图2的处理来建立。
变换复杂三元组
图3是根据本发明的实施例的图2的处理中的变换复杂三元组的处理的流程图。在一个实施例中,图3的处理被包括在步骤206(参见图2)中。将复杂三元组变换为简化和充实的标准三元组的处理开始于步骤300。在步骤302中,复杂三元组变换工具110(参见图1)接收已在步骤302之前从自由形式文本提取的复杂三元组。
在步骤304中,复杂三元组变换工具110(参见图1)执行在步骤302中接收的复杂三元组的语法变换以使复杂三元组的术语与在步骤 302之前定义的语法112(参见图1)匹配。语法变换包括识别复杂三元组中所包括的核心术语和非核心术语,并且还包括识别要分析的复杂三元组中的术语的类型(即,语法类别),至少包括名词、动词、形容词和副词。在另一实施例中,步骤304包括识别介词。另外,步骤304中的语法变换包括:使复杂三元组标准化以将所获得的复杂三元组准备用于步骤306中的语义变换和步骤308中的充实变换。
如这里所使用的,核心术语被定义为作为由复杂三元组表示的语义的基础的至少一部分的复杂三元组中的术语(即,核心术语是这样的术语,即在没有该术语的情况下,由三元组表示的语义将会丢失)。核心术语并不总是概念(即,主语或宾语)或关系(即,谓语);核心术语可以是副词或形容词,因为副词和形容词带有重要的语义。
步骤304的结果包括语法变换后的复杂三元组。在一个实施例中,通过图4A-4F中描述的处理来实现步骤304。
在步骤306中,复杂三元组变换工具110(参见图1)执行从步骤304获得的复杂三元组的语义变换。步骤306中的语义变换包括:通过使用存储在本体元模式116(参见图1)中的变换规则使每个识别的核心术语与参考本体114(参见图1)中的各自定义匹配。步骤306中的语义变换包括:使未在参考本体114(参见图1)中找到的核心术语与各创造的术语匹配,所述各创造的术语与它们的对应定义一起被存储在本体元模式116(参见图1)中。另外,步骤306中的语义变换可通过复杂三元组变换工具110(参见图1)创造一个或多个新术语,所述一个或多个新术语随后被存储在本体元模式116(参见图1)中。
步骤306的结果是一组简化的三元组(即,语义变换后的三元组),所述一组简化的三元组保留在步骤302中接收的复杂三元组的语义并且保留从步骤304获得的语法变换后的三元组的语义。从步骤304获得的每个复杂三元组可在步骤306中在语义上变换为一个或多个简化的三元组。从步骤306获得的所述一组简化的三元组被包括在通过图2的处理建立的本体中。
在一个实施例中,通过图5中描述的处理来实现步骤306。
在步骤308中,复杂三元组变换工具110(参见图1)执行从步骤306获得的简化的三元组的充实变换。步骤308中的充实变换包括:通过将简化的三元组的核心术语与从参考本体114(参见图1)获得的核心术语的定义的对应关系添加到本体,充实正在建立的本体。步骤308中的充实变换还包括:分析从参考本体114(参见图1)获得的定义以创建充实正在建立的本体的另外的小的模式。复杂三元组变换工具110(参见图1)通过检索并且应用存储在本体元模式116(参见图1)中的规则来执行步骤308。步骤308中的充实变换基于获得的定义创建一组新的复杂三元组。
在一个实施例中,通过图6中描述的处理来实现步骤308。
在步骤310中,复杂三元组变换工具110(参见图1)接收在步骤308中创建的所述一组新的复杂三元组。在步骤312中,复杂三元组变换工具110(参见图1)重复步骤304和306以执行在310中接收的所述一组新的复杂三元组中的每个复杂三元组的语法和语义变换,由此针对获得的定义创建新的简化的三元组(即,创建代表各定义的语义模式)。
在步骤314中,复杂三元组变换工具110(参见图1)确定是否已达到分析深度。如果已达到分析深度,则执行步骤314的“是”分支并且执行步骤316;否则,执行步骤314的“否”分支并且图3的处理循环回至步骤308,执行从步骤312的最近执行获得的简化的三元组的充实变换。分析深度可由复杂三元组变换工具110(参见图1)在步骤314的第一次执行之前接收。
在步骤316中,复杂三元组变换工具110(参见图1)输出通过步骤304的语法变换、步骤306的语义变换和步骤308的充实变换而获得的简化和充实的标准三元组。图3的处理结束于步骤318。
作为一个例子,复杂三元组变换工具110(参见图1)接收初始化为开始于步骤308的循环的期望迭代次数的分析深度参数。复杂三元组变换工具110(参见图1)在步骤312的第一次执行之前接收初始化的分析深度参数。在这个例子中,复杂三元组变换工具110(参见图1) 在步骤312之后并且在步骤314之前使分析深度参数减小一。如果复杂三元组变换工具110(参见图1)在步骤314中确定减小的分析深度参数小于一,则分析深度参数指示已达到分析深度,并且执行步骤314的“是”分支并且执行步骤316。否则,复杂三元组变换工具110(参见图1)在步骤314中确定减小的分析深度参数大于或等于一,这指示尚未达到分析深度(即,必须执行开始于步骤308的循环中的步骤的至少一次迭代或更多次迭代),并且执行步骤314的“否”分支以使得该处理循环回至步骤308。
对于本领域技术人员而言将会清楚的是,上述参数的初始化和递减仅是例子,并且可在图3的处理中采用另一初始化和参数更新的类型。作为另一例子,参数可被初始化为零值,可通过将参数增加一而被更新,并且步骤314可确定参数是否大于或等于阈值,所述阈值等于开始于步骤308的循环的期望迭代次数。
虽然在图3中未示出,但该处理可包括提示用户观看和验证步骤304、步骤306和/或步骤308的结果并且从用户接收结果的验证或结果的修改的步骤(未示出)。随着时间过去,当通过图2和图3的处理建立了更多本体时,利用更好的语法112(参见图1)、本体元模式116(参见图1)中的更好的变换规则和一组更好的创造的术语,更好地调整本体建立系统100(参见图1),由此允许该系统仅向用户提示变换步骤的结果的验证或者完全避免提示用户的需要。
语法变换
图4A-4F描述根据本发明的实施例的图3的处理中所包括的复杂三元组的语法变换的处理的流程图。在一个实施例中,图4A-4F的处理被包括在步骤304(参见图3)中。图4A-4F的处理开始于图4A中的步骤400。在步骤402之前,复杂三元组变换工具110(参见图1)接收在步骤204(参见图2)中提取的所述多个复杂三元组中的一个复杂三元组。以下,在图4A-4F的讨论中,在步骤402之前接收的复杂三元组被简称为“复杂三元组”。在步骤402中,基于语法112(参见图1)和参考本体114(参见图1),复杂三元组变换工具110(参见图 1)识别复杂三元组中的复合主语。
在步骤404中,复杂三元组变换工具110(参见图1)确定在步骤402中识别的复合主语是否是单个术语。如果复杂三元组变换工具110(参见图1)在步骤404中确定识别的复合主语是单个术语,则执行步骤404的“是”分支并且执行步骤406。在步骤406中,复杂三元组变换工具110(参见图1)将作为单个术语的识别的复合主语指定为核心术语并且指定为名词(即,将识别的复合主语指定为核心名词)。
返回到步骤404,如果复杂三元组变换工具110(参见图1)确定识别的复合主语不是单个术语,则执行步骤404的“否”分支并且执行询问步骤408。
如果复杂三元组变换工具110(参见图1)在步骤408中确定在步骤402中识别的复合主语仅包括一个能够与参考本体114(参见图1)中的名词匹配的术语,则执行步骤408的“是”分支并且执行步骤410。在步骤410中,复杂三元组变换工具110(参见图1)将能够与名词匹配的识别的复合主语中的前述一个术语指定为核心术语并且指定为名词。
返回到步骤408,如果复杂三元组变换工具110(参见图1)确定在步骤402中识别的复合主语并不仅包括一个能够与参考本体114(参见图1)中的名词匹配的术语,则执行步骤408的“否”分支并且执行图4B中的步骤412。步骤412(参见图4B)也跟在步骤410之后。
在步骤412的每次执行中,复杂三元组变换工具110(参见图1)处理识别的复合主语中的各术语。以下,针对图4B中的步骤,正在由步骤412处理的术语被称为“当前术语”。在步骤412中,如果复杂三元组变换工具110(参见图1)确定在步骤402(参见4A)中识别的复合主语中的当前术语能够仅与参考本体114(参见图1)中的形容词匹配,则执行步骤412的“是”分支并且执行步骤414。
在步骤414中,复杂三元组变换工具110(参见图1)将能够仅与参考本体114(参见图1)中的形容词匹配的当前术语指定为形容词。如果复杂三元组变换工具110(参见图1)在步骤416中确定在步骤414 中指定的形容词直接联系到一名词,则执行步骤416的“是”分支并且执行步骤418。在一个实施例中,直接联系到名词的形容词被定义为在没有任何介词的情况下联系到名词的形容词。在步骤418中,复杂三元组变换工具110(参见图1)将前述形容词指定为核心术语。
返回到步骤416,如果复杂三元组变换工具110(参见图1)确定在步骤414中指定的形容词不直接联系到名词,则执行步骤416的“否”分支并且执行步骤420。在步骤420中,复杂三元组变换工具110(参见图1)提示计算机系统102-1(参见图1)的用户并且从用户接收指示前述形容词是核心术语还是非核心术语的输入。
返回到步骤412,如果复杂三元组变换工具110(参见图1)确定前述复合主语中的当前术语不能仅与参考本体114(参见图1)中的形容词匹配,则执行步骤412的“否”分支并且执行步骤424。
询问步骤424跟在步骤412的“否”分支以及步骤418和420中的每一个之后。如果复杂三元组变换工具110(参见图1)在步骤424中确定在步骤402(参见图4A)中识别的复合主语包括还未由步骤412处理的另一术语,则执行步骤424的“是”分支并且该处理循环回至步骤412,在步骤412,由步骤424确定为被包括在复合主语中的该另一术语相对于步骤412变为新的“当前术语”。否则,如果复杂三元组变换工具110(参见图1)在步骤424中确定在步骤402(参见4A)中识别的复合主语不包括要由步骤412处理的其它术语,则执行步骤424的“否”分支并且执行图4C中的步骤426。
在跟在步骤424(参见图4B)的“否”分支之后并且也跟在步骤406(参见图4A)之后的步骤426中,复杂三元组变换工具110(参见图1)基于语法112(参见图1)和参考本体114(参见图1)识别复杂三元组中的复合谓语。
如果复杂三元组变换工具110(参见图1)在步骤428中确定在步骤426中识别的谓语是单个术语,则执行步骤428的“是”分支并且执行步骤430。在步骤430中,复杂三元组变换工具110(参见图1)将该单个术语指定为核心术语并且指定为动词。
返回到步骤428,如果复杂三元组变换工具110(参见图1)确定在步骤426中识别的谓语不是单个术语,则执行步骤428的“否”分支并且执行询问步骤432。在步骤432的每次执行中,复杂三元组变换工具110(参见图1)处理识别的复合谓语中的各术语。以下,针对步骤432和图4C中的随后的步骤,正在由步骤432处理的术语被称为“当前术语”。
如果复杂三元组变换工具110(参见图1)在步骤432中确定当前术语能够仅与参考本体114(参见图1)中的副词匹配,则执行步骤432的“是”分支并且执行步骤434。在步骤434中,复杂三元组变换工具110(参见图1)将当前术语指定为副词。
如果复杂三元组变换工具110(参见图1)在步骤436中确定在步骤434中指定的副词直接联系到在步骤426中识别的复合谓语中的动词,则执行步骤436的“是”分支并且执行步骤438。在一个实施例中,直接联系到动词的副词被定义为在没有任何介词的情况下联系到动词的副词。在步骤438中,复杂三元组变换工具110(参见图1)将前述副词指定为核心术语。
返回到步骤436,如果复杂三元组变换工具110(参见图1)确定在步骤434中指定的副词不直接联系到识别的复合谓语中的动词,则执行步骤436的“否”分支并且执行步骤440。在步骤440中,复杂三元组变换工具110(参见图1)提示用户并且从用户接收指示前述副词是核心术语还是非核心术语的输入。
返回到步骤432,如果复杂三元组变换工具110(参见图1)确定当前术语不能仅与参考本体114(参见图1)中的副词匹配,则执行步骤432的“否”分支并且执行步骤444。
询问步骤444跟在步骤432的“否”分支以及步骤438和440中的每一个之后。如果复杂三元组变换工具110(参见图1)在步骤444中确定在步骤426中识别的谓语包括还未由步骤432处理的另一术语,则执行步骤444的“是”分支并且该处理循环回至步骤432,被确定为还未由步骤432处理的该另一术语相对于步骤432变为“当前术语”。
否则,如果复杂三元组变换工具110(参见图1)在步骤444中确定在步骤426中识别的复合谓语不包括要由步骤432处理的其它术语,则执行步骤444的“否”分支并且执行图4D中的步骤446。
在跟在步骤444(参见图4C)的“否”分支之后并且也跟在步骤430(参见图4C)之后的图4D中的步骤446中,复杂三元组变换工具110(参见图1)基于语法112(参见图1)和参考本体114(参见图1)识别复杂三元组中的复合宾语。
在步骤448中,复杂三元组变换工具110(参见图1)确定在步骤446中识别的复合宾语是否是单个术语。如果复杂三元组变换工具110(参见图1)在步骤448中确定识别的复合宾语是单个术语,则执行步骤448的“是”分支并且执行步骤450。在步骤450中,复杂三元组变换工具110(参见图1)将作为单个术语的识别的复合宾语指定为核心术语并且指定为名词(即,将识别的复合宾语指定为核心名词)。
返回到步骤448,如果复杂三元组变换工具110(参见图1)确定识别的复合宾语不是单个术语,则执行步骤448的“否”分支并且执行询问步骤452。
如果复杂三元组变换工具110(参见图1)在步骤452中确定在步骤446中识别的复合宾语仅包括一个能够与参考本体114(参见图1)中的名词匹配的术语,则执行步骤452的“是”分支并且执行步骤454。在步骤454中,复杂三元组变换工具110(参见图1)将能够与名词匹配的识别的复合宾语中的前述一个术语指定为核心术语并且指定为名词。
返回到步骤452,如果复杂三元组变换工具110(参见图1)确定在步骤446中识别的复合宾语并不仅包括一个能够与参考本体114(参见图1)中的名词匹配的术语,则执行步骤452的“否”分支并且执行图4E中的步骤456。
在步骤456的每次执行中,复杂三元组变换工具110(参见图1)处理识别的复合宾语中的各术语。以下,针对图4E中的步骤,正在由步骤456处理的术语被称为“当前术语”。在步骤456中,如果复杂 三元组变换工具110(参见图1)确定在步骤446(参见4D)中识别的复合宾语中的当前术语能够仅与参考本体114(参见图1)中的形容词匹配,则执行步骤456的“是”分支并且执行步骤458。
在步骤458中,复杂三元组变换工具110(参见图1)将能够仅与参考本体114(参见图1)中的形容词匹配的当前术语指定为形容词。如果复杂三元组变换工具110(参见图1)在步骤460中确定在步骤458中指定的形容词直接联系到名词,则执行步骤460的“是”分支并且执行步骤462。在步骤462中,复杂三元组变换工具110(参见图1)将在步骤458中指定的前述形容词指定为核心术语。
返回到步骤460,如果复杂三元组变换工具110(参见图1)确定在步骤458中指定的形容词不直接联系到名词,则执行步骤460的“否”分支并且执行步骤464。在步骤464中,复杂三元组变换工具110(参见图1)提示用户并且从用户接收指示在步骤458中指定的前述形容词是核心术语还是非核心术语的输入。
返回到步骤456,如果复杂三元组变换工具110(参见图1)确定前述复合宾语中的当前术语不能仅与参考本体114(参见图1)中的形容词匹配,则执行步骤456的“否”分支并且执行步骤468。
询问步骤468跟在步骤456的“否”分支以及步骤462和464中的每一个之后。如果复杂三元组变换工具110(参见图1)在步骤468中确定在步骤446(参见图4D)中识别的复合宾语包括还未由步骤456处理的另一术语,则执行步骤468的“是”分支并且该处理循环回至步骤456,在步骤456,由步骤468确定为被包括在复合宾语中的该另一术语相对于步骤456变为新的“当前术语”。否则,如果复杂三元组变换工具110(参见图1)在步骤468中确定在步骤446(参见4D)中识别的复合宾语不包括要由步骤456处理的其它术语,则执行步骤468的“否”分支并且执行图4F中的步骤470。
在步骤470中,复杂三元组变换工具110(参见图1)向用户呈现由本体建立器106(参见图1)在图4A-4E的前面的步骤中确定的复杂三元组中包括的术语的类别(即,至少名词、动词、形容词和副词的 类别)和作用(即,核心术语或非核心术语)。
在步骤472中,复杂三元组变换工具110(参见图1)从用户接收对复杂三元组中所包括的每个术语的类别和作用的接受或拒绝。
在步骤474中,复杂三元组变换工具110(参见图1)提示用户并且从用户接收本体建立器106(参见图1)不能在图4A-4E的步骤中为其确定类别或者在步骤472中接收到对其的拒绝的复杂三元组中所包括的每个术语的类别。
在步骤476中,复杂三元组变换工具110(参见图1)提示用户并且从用户接收本体建立器106(参见图1)不能在图4A-4E的步骤中为其确定作用或者在步骤472中接收到对其的拒绝的复杂三元组中所包括的每个术语的作用。每个非核心术语必须与核心术语关联。在一个实施例中,如果复杂三元组的前述变换不能产生非核心术语和核心术语之间的关联,则最终用户可使非核心术语与核心术语关联。非核心术语和核心术语之间的关联将会被转换为将非核心术语联系到核心术语的“has_characteristics”(具有特性)关系,如以下相对于步骤510(参见图5)所讨论的。
在步骤478中,复杂三元组变换工具110(参见图1)使复杂三元组标准化以方便图3中的步骤306和308中的变换。在步骤478中使复杂三元组标准化的规则的例子包括:
·利用下面的变换使包括连词的复杂三元组标准化:
(subject_1 AND subject_2,predicate,object)
变为
(subject_1,predicate,object)
(subject_2,predicate,object)
·通过将被动形式变换为主动形式使包括被动形式的复杂三元组标准化:
(subject_term,is_predicated,object_term)
变为
(object_term,predicate,subject_term)
例如,复杂三元组变换工具110(参见图1)将被动形式的动词变换为主动形式的动词,同时保留动词的语义。
图4A-4F的处理结束于步骤480。
虽然在图4A-4F中未示出,但其它变换步骤可被添加到语法变换处理以在复杂三元组中施加非空值。例如,如果复杂三元组不包括宾语(例如,复杂谓语是不及物动词),则复杂三元组变换工具110(参见图1)创建和并且添加宾语。如果复杂三元组不包括主语,则复杂三元组变换工具110(参见图1)创建并且添加主语。如果在没有宾语的情况下复杂三元组包括描述主语的属性,则复杂三元组变换工具110(参见图1)变换该属性和动词。以下提供另外的变换步骤的特定例子:
例子1:<fish,swim,—>变为:
<fish,swim,fish-swim>
<fish-swim,is_a,swim>
例子2:<It,froze,—>变为:
<it,perform,freeze>
例子3:<car,is,performant>变为:
<car,has,performance>
在图4A-4F的处理中指定的语法变换规则和上述另外的规则不构成穷举列表。不管语法变换规则的特定列表如何,在步骤304中(参见图3)执行的语法变换必须确保:复杂三元组符合语法112(参见图1),并且识别出复杂三元组中的每个术语的类别和作用。语义变换(即,图3中的步骤306)应用与以上相对于图4A-4F描述的变换规则不同的变换规则,并且由语义变换应用的变换规则可取决于要变换的术语的类别和作用。
在一个实施例中,在图4A-4F的处理中使用的语法112(参见图1)是良定义的语法,该语法指定:(1)包括名词和零个或更多形容词的复合主语;(2)包括动词和零个或更多副词的复合谓语;(3)包括名词和零个或更多形容词的复合宾语;(4)包括核心术语和零个或更多非 核心术语的名词;(4)包括核心术语和零个或更多非核心术语的动词;(5)包括核心术语和零个或更多非核心术语的副词;以及(6)包括核心术语和零个或更多非核心术语的形容词。在这个段落中描述的实施例中,语法112(参见图1)允许图4A-4F的处理识别核心名词、动词、形容词和副词。本领域技术人员将认识到,本发明能够使用另一语法,或者可随着时间过去基于由本体建立器106(参见图1)建立的本体的分析修改语法,但使用的语法必须允许至少识别名词、动词、形容词和副词。如果其它词语类别被认为相对于语义而言重要(例如,介词),则语法也必须表示该其它词语类别。在一个实施例中,语法112(参见图1)随着时间过去而演进,使本体建立器106(参见图1)随着时间过去而更加有效。例如,语法112(参见图1)的第一版本仅可识别名词、动词、形容词和副词,而随后的版本还可识别介词。
语义变换
图5是根据本发明的实施例的图3的处理中所包括的语法变换后的复杂三元组的语义变换的处理的流程图。在一个实施例中,图5的处理被包括在步骤306(参见图3)中。语义变换的处理开始于步骤500。在步骤502中,复杂三元组变换工具110(参见图1)对通过在步骤304(参见图3)中执行的语法变换而获得的复杂三元组(即,语法变换后的复杂三元组)中的每个核心术语消除歧义。在一个实施例中,步骤502包括:执行词语意思消除歧义,这包括识别在句子中使用词语的哪个意思(即,含义)。在步骤502中对核心术语消除歧义包括:使核心术语与参考本体114(参见图1)匹配,并且将由核心术语表示的概念的识别键分派给核心术语,其中识别键与参考本体114(参见图1)中的概念关联。为了在步骤502中对核心术语消除歧义,复杂三元组变换工具110(参见图1)可使用基于软件的消除歧义工具(例如,SenseRelate算法)定位在词汇数据库中找到的核心术语的定义和识别键,并且向用户提出这些定义和键以用于验证。SenseRelate算法通过使用语义相似性和相关性的量度来执行词语意思消除歧义。SenseRelate算法在Duluth的明尼苏达大学开发, 并且由位于California的Mountain View的分销。SourceForge是由位于Virginia,Fairfax的Geeknet公司拥有的注册商标。词汇数据库由普林斯顿大学创建和维护。WordNet是由位于New Jersey,Princeton的普林斯顿大学的董事会拥有的注册商标。
在步骤504中,复杂三元组变换工具110(参见图1)将每个形容词变换为概念(即,概念化的形容词;也称为名词化的形容词)。在步骤504中变换的每个形容词在语法变换后的复杂三元组中是核心术语,并且在语法变换后的复杂三元组中联系到核心名词。步骤504还包括:复杂三元组变换工具110(参见图1)确定和/或创建前述核心名词和概念化的形容词之间的标准关系。
在步骤506中,复杂三元组变换工具110(参见图1)将每个动词变换为概念(即,概念化的动词;也称为名词化的动词)。在步骤506中变换的每个动词在语法变换后的复杂三元组中是核心术语,并且在语法变换后的复杂三元组中联系到宾语。步骤506还包括:复杂三元组变换工具110(参见图1)确定和/或创建概念化的动词和前述宾语之间的标准关系。
在步骤508中,复杂三元组变换工具110(参见图1)将每个副词变换为概念(即,概念化的副词;也称为名词化的副词)。在步骤508中变换的每个副词在语法变换后的复杂三元组中是核心术语,并且在语法变换后的复杂三元组中联系到核心动词。步骤508还包括:复杂三元组变换工具110(参见图1)确定和/或创建概念化的副词和概念化的动词之间的标准关系,其中步骤506将前述核心动词变换为该概念化的动词。
在步骤510中,通过使非核心术语变为字符串并且使用标准关系“has_characteristics”将该字符串联系到正在通过图2的处理建立的本体中的概念,复杂三元组变换工具110(参见图1)变换语法变换后的复杂三元组中的每个非核心术语。非核心术语不与参考本体114(参见图1)匹配,并且它们在步骤510中的变换不需要任何用户交 互。
图5的处理结束于步骤512。重复图5的处理以执行每个其它语法变换后的复杂三元组的语义变换。
一个或多个步骤(未示出)可被添加到图5的处理以将语法中112(参见图1)中的其它类型的术语变换为概念。
在一个实施例中,至少标准关系“has_value”、“has_attribute”、“is_attribute”、“has_property”和“is_a”必须被用在步骤504、506和508中的一个或多个步骤中,如以下提供的例子中所示。根据在图5的处理中概念化的术语的类型,可能需要另外的标准关系。
复杂三元组变换工具110(参见图1)从参考本体114(参见图1)或从一组创造的术语为通过图5的处理产生的每个新概念分派唯一识别键。每个新概念在从图3中的步骤306获得的简单三元组之一中起到主语、谓语或宾语的作用。
图5的处理需要参考本体114的结构的知识,因为步骤504、506和508中的变换需要在参考本体中搜索在语义上联系到正在变换的形容词、动词和副词的概念。复杂三元组变换工具110(参见图1)可通过从本体元模式116(参见图1)检索参考本体的元模式来检索参考本体114(参见图1)的结构的知识。
虽然在图5中未示出,但一个或多个另外的步骤可包括:复杂三元组变换工具110(参见图1)提示用户验证由步骤504、506和508形成的概念,并且从用户接收概念的验证。替代地,复杂三元组变换工具110(参见图1)可提示用户选择形容词、动词和副词所变换为的概念,其中用户从参考本体114(参见图1)中的潜在概念中选择。
核心形容词的语义变换的例子
图5的语义变换将每个核心形容词变换为属性,其中属性通过标准关系“has_attribute”而关联到模式的已有名词。通过“has_value”关系,核心形容词本身(即,核心形容词的语义变换之前的形容词)变为属性的值。
用于对核心形容词(adjective)进行语义变换的一般方式包括:
(term1,predicate,adjective+term2)
必须变为:
(term1,predicate,term2)
(term2,has_attribute,adjective_related noun)
adjective_related noun.has_value=值
“adjective_related noun”是与和term2关联的形容词相关的名词。以上提供的用于对核心形容词进行语义变换的一般方式为了说明目的而被简化;在标题为“语义变换和与参考本体匹配”的章节中描述的算法中给出确切的方式。
作为对核心形容词进行语义变换的一个例子,考虑词汇数据库是参考本体114(参见图1),并且考虑下面的三元组:
(body,is_streamlined_with,low drag)
语法变换将谓语变换为主动形式:
(low drag,streamline,body)
语法变换在词汇数据库中识别出“drag”不是形容词并且因此确定“low”是形容词(或者本体建立器106(参见图1)可直接地询问最终用户什么必须被视为形容词或名词)。在词汇数据库中搜索术语之后,最终用户为形容词“low”选择下面的定义:
less than normal in degree or intensity or amount;"low prices";"thereservoir is low".
语义变换算法检查形容词是否与词汇数据库中的“属性”相关。在形容词“low”的情况下,该检查揭示“low”与属性“degree”相关:
a position on a scale of intensity or amount or quality;“a moderategrade of intelligence”;“a high level of care is required”;“it is all a matterof degree”
如果该形容词在词汇数据库中没有属性,则在 词汇数据库中的“派生相关形式(derivationally related form)”组中搜索其它名词。在形容词“low”的情况下,在“派生相 关形式”组中找到“lowness”:
a low or small degree of any quality(amount or force or temperatureetc.);“he took advantage of the lowness of interest rates”.
如果在词汇数据库中不存在“low”的真实属性,则“Lowness”能够被用作“low”的属性。
词汇数据库中不存在用于表示属性的名词的情况下,将会由语义变换算法通过将后缀‘_ness’添加到形容词来创造名词。新创造的词语将不会在词汇数据库中被映射,但它能够被用在其它模式中,因为创造它的原因和方式很好控制。
返回到例子,初始三元组变为:
(drag,streamline,body)
(drag,has_attribute,degree)
degree.has_value=’low’
术语“drag”、“body”和“degree”在词汇数据库中由键唯一地标识。
在对核心形容词进行语义变换的第二个例子中,考虑三元组:
(aerodynamic design,streamlined,body)
词汇数据库中发现“design”不是形容词之后,语义变换算法将“aerodynamic”视为形容词:
aerodynamic:designed or arranged to offer the least resistant tofluid flow
语义变换算法进行搜索以确定形容词“aerodynamic”是否联系到 词汇数据库中的属性。在发现“aerodynamic”不联系到属性之后,并且在发现在“aerodynamic”的WN集合(即,关联的 术语的集合)中不存在表示名词的类似术语之后,语义变换算法创建新术语“aerodynamic_ness”,该新术语被用于正在建立的本体并且被存储在本体元模式116(参见图1)中以便未来由随后建立的其它本体重用。新创建的术语中的字符“_”很重要,因为它允许语义变换算法看到该术语被创建并且从新创建的术语追溯以 找到初始术语。
词汇数据库中搜索“design”的定义之后,语义变换算法选择下面的定义:
the act of working out the form of something(as by making a sketch oroutline or plan);"he contributed to the design of a new instrument".
语义变换算法将初始三元组变换为:
(design,streamlined,body)
(design,has_attribute,aerodynamic_ness)
aerodynamic_ness.has_value=’high’
“aerodynamic_ness”的值(即,‘high’)可由最终用户应语义变换算法的请求而给出。替代地,如果语义变换算法必须提供值,则该值可被设置为‘yes’,创建的属性的可能的默认值被限制为‘yes’和‘no’。任何其它值也是可以的,但必须由最终用户提供。
新术语“aerodynamic_ness”可被定义为“the attribute of being aerodynamic(作为aerodynamic的属性)”。新术语的定义能够因此被存储为:
(aerodynamic_ness,is_attribute,aerodynamic)
(design,has_attribute,aerodynamic_ness)
当随着时间过去随后使用该新术语时,能够充实上述定义。
核心动词的语义变换的例子
图5的语义变换通过以下面的方式利用名词替换每个核心动词来变换每个谓语:
(term1,predicate,term2)
必须变为:
(term1,predicate,verb_related noun)
(verb_related noun,has_property,term2)
以上提供的用于在语义上变换核心动词的一般方式为了说明目的而被简化;在标题为“语义变换和与参考本体匹配”的章节中描述的算 法中给出确切的方式。
作为例子,考虑下面的三元组:
(car,move,road)
语义变换算法变换三元组,以使其变为:
(car,move,movement)
(movement,has_property,road)
核心副词的语义变换的例子
图5的语义变换处理通过根据下面的方式利用名词替换核心动词和核心副词来变换核心副词(adverb):
(term1,predicate+adverb,term2)
必须变为:
(term1,predicate,verb_related noun)
(verb_related noun,has_property,term2)
(verb_related noun,has_attribute,adverb_related noun)
adverb_related noun.value=由最终用户给出的值
以上提供的用于在语义上变换核心副词的一般方式为了说明目的而被简化;在标题为“语义变换和与参考本体匹配”的章节中描述的算法中给出确切的方式。
作为例子,考虑下面的三元组中的谓语和副词:
(car,consumes_with_efficiency,fuel)
语义变换算法搜索词汇数据库并且发现“consume”是动词而不是副词。在词汇数据库中的“consume”的可能的定义之中,最终用户选择以下提供的一个定义:
use up(resources or materials);“this car consumes a lot of gas”;“Weexhausted our savings”;“They run through 20 bottles each week”.
语义变换算法随后使动词“consume”与词汇数据库中的名词(即,在以上提供的方式中提及的“verb_related noun”)关联。语义变换算法搜索在词汇方面从动词派生的名词(即,位于“派生相关 形式”组中以及动词“consume”的“See Also(也参见)”术语中的名词)。由本体建立器106(参见图1)要求最终用户选择最相关的术语。在这个例子中,最终用户选择具有下面的定义的“depletion”:
the act of decreasing something markedly
语义变换算法随后将“efficiency”视为副词,因为第一个词语“consumes”是动词。替代地,本体建立器106(参见图1)可询问最终用户复合谓语中的什么术语必须被视为动词和副词。
语义变换算法在词汇数据库中搜索关联的名词以找到在以上提供的方式中提及的“adverb_related noun”。
词汇数据库中作为副词搜索“efficiency”将会不成功。语义变换算法因此在词汇数据库中的名词之中搜索定义。在这个例子中,语义变换算法为“efficiency”选择下面的定义:
skillfulness in avoiding wasted time and effort;“she did the workwith great efficiency”.
应该注意的是,如果谓语是“consumes_efficiently”,则语义变换算法将是相同的(即,在词汇数据库中搜索与“efficiently”关联的词语)并且将会找到如以上所指示的“efficiency”的相同的定义,但该算法将经过形容词“efficient”。在词汇数据库中,派生出副词的所有形容词被包括在副词的WN集合中,如以下的例子中所指示:
efficiently,with efficiency;in an efficient manner;“he functionsefficiently”
“efficiently”在它的同源词集合中具有形容词“efficient”:
efficient,being effective without wasting time or effort or expense;“an efficient production manager”;“efficient engines save gas”
“efficient”具有名词“efficiency”作为其“派生相关形式”之一:
efficiency,skillfulness in avoiding wasted time and effort;“she didthe work with great efficiency”.
在语义变换算法识别“adverb_related noun”之后,本体建立器 106(参见图1)要求最终用户为adverb_related noun分配值。
应该注意的是,最终用户可能对由语义变换算法提出的任何名词定义不满意。在这种情况下,语义变换算法在与名词相关的下位词、上位词或姐妹术语的完全列表中提出定义。在这个例子中,最终用户对名词“depletion”不满意,并且替代地选择它的下位词“consumption”,“consumption”具有下面的定义:
the act of consuming something
如果最终用户未看见任何相关的定义,则语义变换算法创造用于表示由最终用户请求的概念的术语。
在图5的处理中的语义变换之后,初始三元组变为:
(car,consumes,consumption)
(consumption,has_property,fuel)
(consumption,has_attribute,efficiency)
efficiency.has_value=由最终用户给出的值,
术语“consumption”、“consume”、“efficiency”中的每一个在 词汇数据库中具有唯一识别键。
核心介词的语义变换的例子
对于这个例子,假设语法112(参见图1)区分介词与其它术语以使得能够变换介词。当与动词相关时,语义变换算法研究参考本体114(参见图1)中的副词。
作为一个例子,考虑下面的三元组:
(fish,move through,water)
当被视为副词时,语义变换算法对术语“through”给出下面的定义:
(adv)through(over the whole distance)
词汇数据库中的所有其它介词一样,以上提供的“through”的定义不与词汇数据库中的任何其它名词相关。本体建立器106(参见图1)提取术语“distance”以表示概念化的副词,如以下提供的例子中所示:
(fish,move through,water)
变换为:
(fish,move,motion)
(motion,has_property,water)
(motion,has_property,distance)
distance.has_value=’unknown’
非核心术语的语义变换的例子
复杂三元组包含在图4A-4F的处理中的语法变换期间识别的非核心术语。形容词、动词或副词可具有非核心术语。名词可具有一个或多个从句,其中每个从句是非核心术语。
非核心术语是名词的特性。语义变换算法将与形容词关联的非核心术语注释为属性与之相关的名词的特性。作为与属性关联的特性的例子,考虑下面的例子:
(ecologically aerodynamic design,streamline,body)
将变为
(design,streamline,body)
(design,has_attribute,aerodynamic_ness)
aerodynamic_ness.has_value=’high’
aerodynamic_ness.has_characteristic=’ecologically’
作为变换与名词关联的从句的例子,考虑下面的例子:
(car with 4 wheels,has_a,consumption)
变为
(car,has_a,consumption)
car.has_characteristic=’with 4 wheels’
作为与副词相关的非核心术语的例子,考虑下面的例子:
(car,consume with good efficiency,fuel)
语义变换算法将非核心术语“good”注释为“efficiency”的特性,这被表示为:
efficiency.has_characteristic=’good’
作为与动词相关的非核心术语的例子,考虑:
(car,consumes_with_efficiency every week-end,fuel)
变为
(car,consumes,consumption)
(consumption,has_property,fuel)
(consumption,has_attribute,efficiency)
efficiency.has_value=由最终用户给出的值
consumption.has_characteristic=’every week-end’
如以上所示,语义变换算法将非核心术语变换为名词的原始特性,并且不分派词汇数据库中的任何定义。
语义变换算法将特性存储在本体元模式116(参见图1)中以由知识工程师进一步分析来识别能够在语法112(参见图1)的更新版本中描述的复现的结构。
例如,语法112(参见图1)的另一版本可通过考虑形容词来处理由多个术语构成的复合副词。在以上提供的例子中,语义变换算法可将“good”视为代表副词的名词的形容词(即,“efficiency”的形容词)。语义变换算法随后将形容词“good”视为属性“quality”的值,如以下提供的例子中所示:
(efficiency,has_attribute,quality)
quality.has_value=’good’
参考本体中的语义对应关系的例子
在这个例子中,考虑参考本体114(参见图1)是词汇数据库。对于在变换处理(例如,在图2、图3、图4A-4F、图5和图6中描述的处理)中选择的词汇数据库中的每个定义和以上提供的变换例子,必须由本体建立器106(参见图1)顺序地执行下面的步骤:
步骤1:如果从词汇数据库选择的术语具有许多同义词,则将词汇数据库中的同义词集(synset)中的第一个术语分派给在三元组中提供的概念。
例如,术语“automobile”具有下面的同义词的有序列表:car、auto、automobile、machine、motorcar:
car,auto,automobile,machine,motorcar(具有四个轮子的机动车辆;通常由内燃机推进)
在这种情况下,必须使用术语“car”以替代“automobile”。
步骤2:在词汇数据库术语被分派给概念(或关系)之后,将该术语存储在语义模式(即,正在建立的本体)中作为代表该概念(或关系)的标准术语。此外,检索和存储所有术语的关联的 词汇数据库术语(即,同义词、姐妹术语等…)作为与概念的对应关系。这些检索到的术语与概念相关,并且可被用作与其它本体方案的匹配术语。与概念的对应关系必须与该对应关系与术语具有的关系的类型(例如,同义词、下位词等)一起存储。
步骤3:在词汇数据库中,找到下面的对应关系以便存储:
·对于动词:相关的组、方式词以及伴随物和上位词的分级体系
·对于名词:同义词(即,来自词汇数据库中的同义词集的术语)、整体词(holonym)和部分词(meronym)的相关分级体系以及它们的类型(即,部分、实质或成员)、下位词的分级体系和上位词的分级体系
·如果从形容词建立名词,则该名词还被分派该名词是否是属性的指示、代表从其建立该名词的形容词的原始术语和所有可能的卫星形容词
·如果从副词建立名词,则该名词还被分派代表从其建立该名词的副词或形容词的原始术语和所有可能的卫星形容词
·如果创建术语,则利用与用于创建该创建的术语的根术语关联的词汇数据库术语对该创建的术语进行注释
·对于概念:派生相关形式、姐妹术语、上位词、下位词、整体词、部分词
例如,与词汇数据库定义201689899关联的谓语 “streamlined”将对应于“contour”(作为直接上位词)、“outline”、“draw”、“interpret”、“re-create”、“make”(作为不同级别的上位词)和“streamliner”(作为派生相关形式)。“streamlined”的前述对应关系被表示为:
(streamline,has_hypernym_1,contour)
(streamline,has_hypernym_2,outline)
(streamline,has_derivation,streamliner)
步骤4:如果创建术语(例如“aerodynamic_ness”),则创建的术语必须与从其创建该创建的术语的根术语相关(例如,经“标准关系”is_attribute),并且与和该根术语关联的词汇数据库中的术语相关。在以上提供的创建“aerodynamic_ness”的例子中,根术语是形容词“aerodynamic”。创建的术语aerodynamic_ness的前述关系被表示为:
(aerodynamic_ness,is_attribute,aerodynamic)
(aerodynamic,is_similar,smooth)
(aerodynamic,has_similar=rough)
参考本体定义的语义分析的例子
除了术语的定义之外,参考本体114(参见图1)还能够被用于它在每个定义中提供的语义。在词汇数据库的情况下,定义较短并且仅包括一些能够联系到词汇数据库中的其它定义的概念。
有益地,在执行语义匹配之后(即,在识别定义之后),提取用在本体模式中的每个词汇数据库定义的语义模式。这些语义模式引入可能被用于确定本体之间的关联的新的相关概念和关系。术语定义的语义模式的创建能够由已有的文本分析器完成,但必须考虑在定义中给出的术语和它们与其它相关术语(即,通过同义词、上位词等相关的术语)的相似性。
例如,具有定义“the phenomenon of resistance to motion through a fluid”并且具有“resistance”作为一个上位词的术语“drag”可被模式化为:
(drag,is_a,phenomenon)
(phenomenon,resist,fluid)
(motion,has_property,fluid)
以上提供的用于参考本体定义的语义分析的例子为了说明目的而被简化;确切的变换必须符合在标题为“语义变换和与参考本体匹配”的章节中描述的算法,这将提供下面的结果:
(drag,is_a,drag-phenomenon)
(drag-phenomenon,is_a,phenomenon)
(drag-phenomenon,resist,fluid+motion)
(fluid+motion,is_a,motion)
(fluid+motion,has_property,fluid+motion-fluid)
(fluid+motion-fluid,is_a,fluid)
fluid+motion-fluid.value=unknown(未知)
fluid.value=unknown
词汇数据库定义的语义分析涉及概念以及关系。对于由定义语义在模式中引入的每个新概念或关系,必须由本体建立器106(参见图1)执行匹配步骤(即,语法和语义变换)。
更一般地,每个词汇数据库定义的语义模式的创建通常有助于这里描述的本发明的系统并且有助于语义网络(Semantic Web)。本体建立器106(参见图1)可自动地产生前述语义模式,这些语义模式可在变为术语的正式语义模式之前被验证。
在针对特定本体将词汇数据库中的定义模式化之后,本体建立器106(参见图1)将定义的模式存储在本体元模式116(参见图1)中以便未来可能在其它本体中重用。
语义变换和与参考本体匹配
在语义变换(参见图3中的步骤306并且参见图5)中,本体建立器106(参见图1)根据标准方式变换每个三元组,并且使每个三元组 与词汇数据库匹配,如这个章节中所述。
直接匹配代表名词或动词的核心术语:代表名词或动词的核心术语直接(即,在没有变换的情况下)与词汇数据库匹配。在一个实施例中,由本体建立器106(参见图1)提示最终用户从由本体建立器106(参见图1)提出的一组定义之中选择正确的词汇数据库定义。最终用户和本体建立器106(参见图1)之间的交互水平可取决于参数“automation level(自动化水平)”的值。
当最终用户对任何提出的名词或动词定义不满意时,语义变换算法在与名词相关的下位词、上位词或姐妹术语的完全列表中提出定义,或者在与动词相关的伴随物、方式词、上位词和组的完全列表中提出定义。
虽然不太可能,但在不能在词汇数据库中找到相关定义的情况下,本体建立器106(参见图1)保存术语并且将其视为“创造的术语”,该创造的术语具有它自己的键。
变换谓语的核心术语:根据下面的方式变换谓语的核心术语:
<subject_term,predicate_term,object_term>
变为下面的组:
<subject_term,predicate_term,subject_term-nounified_predicate>
<subject_term-nounified_predicate,is_a,nounified_predicate>
<subject_term-nounified_predicate,has_property,object_term>
以上提供的用于变换谓语的核心术语的方式的一个例子是下面的例子:
<car,move,road>
变为:
<car,move,car-movement>
<car-movement,is_a,movement>
<car-movement,has_property,road>
变换副词的核心术语:根据下面的方式变换副词的核心术语:
<subject_term,predicate_term adverb_term,object_term>
变为下面的组:
<subject_term,predicate_term,subject_term+object_term-nounified_predicate>
<subject_term+object_term-nounified_predicate,is_a,nounified_predicate>
<subject_term+object_term-nounified_predicate,has_property,object_term>
如果副词联系到具有属性的形容词,则根据下面的方式变换副词:
<subject_term+object_term-nounified_predicate-nounified_adverb,is_a,nounified_adverb>
<subject_term+object_term-nounified_predicate,has_attribute,subject_term+object_term-nounified_predicate-nounified_adverb>
subject_term+object_term-nounified_predicate-nounified_adverb.has_value=linked adjective(联系的形容词)
如果副词实际上是名词,则必须表示由名词表示的概念,并且以上针对联系到具有属性的形容词的副词提供的方式的分派必须在副词的变换中变为三元组,如下面的方式所示:
<subject_term+object_term-nounified_predicate-nounified_adverb,has_value,linked adjective>
如果副词未联系到属性,则副词的变换遵循以下提供的方式:
<subject_term+object_term-nounified_predicate-nounified_adverb,is_a,nounified_adverb>
<subject_term+object_term-nounified_predicate,has_property,subject_term+object_term-nounified_predicate-nounified_adverb>
subject_term+object_term-nounified_predicate-nounified_adverb.value=默认值或由最终用户提供的值
由本体建立器106(参见图1)分派给“nounified_adverb”的默认值是:
·“yes”,如果在初始三元组中代表副词(即,具有副词的作用)的术语真的是副词(即,被映射到词汇数据库中的副词)的话
·“unknown”,如果在初始三元组中代表副词(即,具有副词的作用)的术语是名词(即,被映射到词汇数据库中的名词而非副词)的话
以下提供的例子示出副词未联系到具有属性的形容词的情况:
(fish,swim efficiently,water)
变为
(fish,swim,fish+water-swimming),
(fish+water-swimming,is_a,swimming),
(fish+water-swimming,has_property,water),
(fish+water-swimming,has_attribute,fish+water-swimming-efficiency),
fish+water-swimming-efficiency.has_value=‘yes’
以下提供的例子示出副词联系到具有属性的形容词的情况:
(fish,swim heavily,mud)
变为
(fish,swim,fish+swim+mud),
(fish+swim+mud,is_a,swim),
(fish+swim+mud,has_attribute,mud),
(fish+swim+mud,has_attribute,weight),
fish+swim+mud.weight.has_value=‘heavy’
根据下面的方式变换形容词的核心术语:
<adjective_term subject_term,predicate_term,object_term>
变为下面的组:
<adjective_term+subject_term,predicate_term,object_term>
<adjective_term+subject_term,is_a,subject_term>
如果形容词具有属性,则名词化的形容词是属性,并且形容词的变换遵循以下提供的方式:
<adjective_term+subject_term,has_attribute,adjective_term+subject_term-nounified_adjective>
<adjective_term+subject_term-nounified_adjective,is_a,nounified_adjective>
adjective_term+subject_term-nounified_adjective.has_value=adjective
如果形容词实际上是名词,则必须表示由名词表示的概念,并且以上针对具有属性的形容词提供的方式的分派必须在形容词的变换中变为三元组,如下面的方式所示:
<adjective_term+subject_term-nounified_adjective,has_value,adjective>
如果形容词没有属性,则变换遵循以下提供的方式:
<adjective_term+subject_term,has_property,adjective_term+subject_term-nounified_adjective>
<adjective_term+subject_term-nounified_adjective,is_a,nounified_adjective>
adjective_term+subject_term-nounified_adjective.has_value=默认值或由最终用户提供的值
由本体建立器106(参见图1)分派给“nounified_adjective”的默认值是:
·“yes”,如果在初始三元组中代表形容词(即,具有形容词的作用)的术语真的是形容词(即,被映射到词汇数据库中的形容词)的话
·“unknown”,如果在初始三元组中代表形容词(即,具有形容词的作用)的术语是名词(即,被映射到词汇数据库中的名词而非形容词)的话
以下提供的例子示出形容词具有属性的情况:
<red car,has,high performance>
变为:
<red+car,is_a,car>
<red+car,has_attribute,red+car-hue>
red+car-hue.has_value=red
<red+car-hue,is_a,hue>
<red+car,has,high performance>
并且最后的三元组变为:
<red+car,has,high+performance>
<high+performance,is_a,performance>
<high+performance,has_attribute,high+performance-degree>
high+performance-degree.value=high
<high+performance-degree,is_a,degree>
在一个实施例中,非核心术语被注释为它们与之相关的核心术语的“特性”。以下提供非核心术语的三种变换方式:
1.<subject_term,predicate_term,object_term non_core_terms>
变为下面的组:
<subject_term,predicate_term,subject_term-object_term>
<subject_term-object_term,is_a,object_term>
subject_term-object_term.characteristic=non_core_terms
2.<subject_term non_core_terms,predicate_term,object_term>
变为下面的组:
<object_term-subject_term,predicate_term,object_term>
<object_term-subject_term,is_a,subject_term>
object_term-subject_term.characteristic=non_core_terms
3.<subject_term,predicate_term non_core_terms,object_term>
变为下面的组:
<subject_term,predicate_term,subject_term+object_term-nounified_predicate>
<subject_term+object_term-nounified_predicate,is_a,nounified_predicate>
<subject_term+object_term-nounified_predicate,has_attribute,object_term>
subject_term+object_term-nounified_predicate.characteristic=non_core_terms
以下提供的三个例子示出根据以上提供的变换方式的非核心术语的变换:
1.<car,run,road with asphalt>
变换为:
<car,run,car-road>
<car-road,is_a,road>
car-road.has_characteristic=‘with asphalt’
2.<car with 4 wheels,run,road>
变换为:
<road-car,run,road>
<road-car,is_a,car>
road-car.has_characteristic=‘with 4 wheels’
3.<car,run every week-end,road>
变换为:
<car,run,car+road-running>
<car+road-running,is_a,running>
<car+road-running,has_attribute,road>
car+road-running.has_characteristic=‘every week-end’
在一个实施例中,本体建立器106(参见图1)执行下面的步骤以使谓语名词化(即,概念化):
1.本体建立器106(参见图1)向最终用户提供在词汇方面与“predicate_term”匹配的词汇数据库中的动词的列表,并且提示最终用户从词汇数据库选择提供给最终用户的列表上的动词之一的定义。
2.本体建立器106(参见图1)向最终用户提供与在步骤1中选择其 定义的动词关联的“派生相关形式”组中的词汇数据库中的名词的列表,并且提示最终用户选择提供给最终用户的名词的列表中的名词之一。
3.本体建立器106(参见图1)使用选择的名词作为nounified_predicate。
4.如果最终用户未在名词的列表中找到与最终用户期望的含义匹配的任何名词,则本体建立器106(参见图1)确定被包括在 词汇数据库中并且与在步骤2中提供的名词关联的上位词和下位词。本体建立器106(参见图1)随后将上位词和下位词的列表提供给最终用户。
5.如果最终用户基于在步骤4中提供的上位词和下位词的列表仍然不能选择名词,则本体建立器106(参见图1)创造名词以代表nounified_predicate,并且将创造的名词以及包括创造的名词的三元组存储在本体元模式中116(参见图1)中以便未来在建立其它本体模式时参考。
6.如果在步骤5中创造nounified_predicate,则从谓语和后缀“_ness”创建nounified_predicate。
在一个实施例中,本体建立器106(参见图1)执行下面的步骤以使副词名词化:
1.本体建立器106(参见图1)向最终用户提供在词汇方面与“adverb_term”匹配的词汇数据库中的副词的列表,并且提示最终用户从词汇数据库选择提供给最终用户的副词的列表中的副词之一的定义。
如果本体建立器106(参见图1)在词汇数据库中未找到任何匹配的副词,则本体建立器搜索并且找到在词汇方面与“adverb_term”匹配的一组名词,并且提示最终用户从该组找到的名词选择一个名词。例如,如果最终用户已决定“with efficiency”代表三元组<fish,swim with efficiency,water>中的副词,则可能出现未找到匹配的副词的情况。
如果最终用户在由本体建立器106(参见图1)找到的一组名词中选择名词,则在建议上层合并本体(Suggested Upper Merged Ontology,SUMO)中检查选择的名词以查看选择的名词是否与SUMO属性相关。SUMO是由位于California的San Francisco的Articulate维护的上层本体。如果选择的名词不与SUMO属性相关,则该名词被视为名词化的副词。如果选择的名词与SUMO属性相关,并且如果该属性被最终用户接受,则该SUMO属性被视为名词化的副词,并且SUMO属性必须与和词汇数据库定义关联的识别键匹配。如果副词不能在用于使副词名词化的步骤中的步骤1中被名词化,则必须应用随后的步骤(即,以下提供的步骤2至10)。
2.本体建立器106(参见图1)向最终用户提供与选择的副词关联的“同源词”组中的词汇数据库中的形容词的列表,并且提示最终用户从提供给最终用户的形容词的列表选择一个形容词。
3.本体建立器106(参见图1)向最终用户提供与选择的形容词相关或者与和选择的形容词具有“类似于”关系的一组术语中的每个形容词相关的来自词汇数据库的属性的列表。本体建立器106(参见图1)还提示最终用户从提供给最终用户的属性的列表选择属性。
4.如果在词汇数据库中未找到属性,则本体建立器106(参见图1)搜索词汇数据库以确定选择的形容词或“类似于”形容词(即,通过“类似于”关系与选择的形容词相关的形容词)是否与SUMO属性类型相关。本体建立器106(参见图1)向最终用户提供可能的SUMO属性并且提示最终用户选择提供的SUMO属性之一。如果最终用户选择了SUMO属性,则它必须与词汇数据库中的定义的识别键匹配。
5.如果最终用户选择了属性,则本体建立器106(参见图1)将选择的属性指定为nounified_adverb。
6.如果最终用户未选择属性,则本体建立器106(参见图1)向最终用户提供本体建立器在词汇数据库的“派生相关形式”组中 找到的词汇数据库中的名词的列表,其中“派生相关形式”组与选择的形容词关联或与选择的形容词的“类似于”形容词关联。本体建立器106(参见图1)随后提示最终用户选择提供给最终用户的列表中的名词之一。
7.如果最终用户未找到与最终用户期望的含义匹配的任何名词,则本体建立器106(参见图1)向最终用户提供本体建立器在 词汇数据库中找到的上位词和下位词的列表,其中上位词和下位词与在步骤6中找到的每个名词关联。
8.如果最终用户已选择名词,则本体建立器106(参见图1)指定选择的名词代表nounified_adverb。
9.如果最终用户未能选择名词,则本体建立器106(参见图1)创造名词以代表nounified_adverb,并且将创造的名词以及包括创造的名词的三元组存储在本体元模式116(参见图1)中以便未来在建立其它本体模式时参考。
10.如果本体建立器106(参见图1)创造nounified_adverb,则本体建立器从副词和后缀“_ness”创建nounified_adverb。
在一个实施例中,本体建立器106(参见图1)执行下面的步骤以使形容词名词化:
1.本体建立器106(参见图1)向最终用户提供在词汇方面与“adjective_term”(即,正在被名词化的形容词)匹配的词汇数据库中的形容词的列表,并且提示最终用户选择提供给最终用户的列表中的形容词之一的定义。
在本体建立器106(参见图1)在词汇数据库中未找到与“adjective_term”匹配的形容词的情况下,本体建立器106(参见图1)在词汇数据库中搜索并且找到在词汇方面与“adjective_term”匹配的一组名词并且提示最终用户从被发现与“adjective_term”匹配的名词选择一个名词。如果最终用户在由本体建立器106(参见图1)找到的一组名词中选择名词,则本体建立器106(参见图1)在SUMO中检查选择的名词以确定选择的名词是否与 SUMO属性相关。如果选择的名词不与SUMO属性相关,则本体建立器106(参见图1)将选择的名词指定为名词化的形容词。如果选择的名词与SUMO属性相关,并且如果该属性被最终用户接受,则本体建立器106(参见图1)将SUMO属性指定为名词化的形容词,并且SUMO属性必须与词汇数据库中的定义的识别键匹配。
如果形容词未在用于使形容词名词化的步骤集中的步骤1中被名词化,则本体建立器106(参见图1)必须执行随后的步骤(即,以下提供的步骤2至8)。
2.本体建立器106(参见图1)向最终用户提供与选择的形容词相关或者与和选择的形容词具有“类似于”关系的形容词相关的来自 词汇数据库的属性的列表。本体建立器106(参见图1)还提示最终用户从提供给最终用户的属性的列表选择属性。
3.如果最终用户已选择属性,则本体建立器106(参见图1)将选择的属性指定为nounified_adjective。
4.如果最终用户未选择属性,则本体建立器106(参见图1)向最终用户提供本体建立器在词汇数据库的“派生相关形式”组中找到的词汇数据库中的名词的列表,其中“派生相关形式”组与选择的形容词关联或与选择的形容词的“类似于”形容词关联。本体建立器106(参见图1)随后提示最终用户选择提供给最终用户的名词的列表中的名词之一,并且被要求从提供给最终用户的名词的列表选择一个名词。
5.如果最终用户已选择名词,则本体建立器106(参见图1)将选择的名词指定为nounified_adjective。
6.如果最终用户未找到与最终用户期望的含义匹配的任何名词,则本体建立器106(参见图1)向最终用户提供本体建立器在 词汇数据库中找到的上位词和下位词的列表,其中上位词和下位词与在步骤4中找到的每个名词关联。
7.如果最终用户仍然不能选择名词,则本体建立器106(参见图1)创造名词以代表nounified_adjective,并且将创造的名词以及包括创 造的名词的三元组存储在本体元模式116(参见图1)中以便未来在建立其它本体模式时参考。
8.如果本体建立器106(参见图1)创造nounified_adjective,则本体建立器从形容词和后缀“_ness”创建nounified_adjective。
如果语法112(参见图1)使得它辨别待处理的介词,则这些介词不能在词汇数据库中匹配,因为词汇数据库没有针对介词的定义。因此,本体建立器106(参见图1)在介词与主语或宾语关联时将介词视为形容词,并且在介词与谓语关联时将介词视为副词。
在词汇方面等同于介词的前述副词和形容词(即,小的副词和小的形容词)通常不联系到词汇数据库中的其它术语。另一方面,这些小的副词和形容词在词汇数据库中的定义非常短。在小的副词或小的形容词的情况下,本体建立器106(参见图1)从词汇数据库中的定义提取和选择主要名词以代表小的副词或小的形容词。用于代表小的副词或小的形容词的主要名词的选择可使用与最终用户的交互。
例如,考虑介词“through”,其中“through”在三元组<fish,swim_through,water>中被视为副词并且在三元组<fish,swim,through water>中被视为形容词。
当“through”被视为副词时,下面的定义适用:
(adv)through(over the whole distance)"this bus goes through toNewYork"
作为副词的“through”的上述定义不与词汇数据库中的任何其它术语相关。本体建立器106(参见图1)提取术语“distance”以代表名词化的副词:
<fish,move_through,water>
变换为:
<fish,move,fish+water-motion>
<fish+water-motion,is_a,motion>
<fish+water-motion,has_property,water>
<fish+water-motion,has_property,fish+water-motion-distance>
fish+water-motion-distance.value=unknown
<fish+water-motion-distance,is_a,distance>
应该注意的是,在以上解释中,为了清楚和性能原因,本体建立器106(参见图1)在使副词名词化并且变换副词之前使所有形容词名词化并且变换所述形容词。
在副词的名词化期间,本体建立器106(参见图1)使与副词关联的动词名词化。在所需的所有动词的名词化完成之后,本体建立器106(参见图1)需要检查(1)与名词化的动词相同的谓语(即,“predicate1”)和(2)与名词化的动词的主语相同的主语(即,“subject1”)是否被用在一个或多个其它三元组中。如果该检查确定在一个或多个其它三元组中使用了predicate1和subject1,则本体建立器106(参见图1)去除predicate1在它的主语和宾语之间代表的关系并且由名词化的动词和predicate1的宾语之间的“has_property”关系替换去除的关系。例如,考虑三元组(fish,swims,swimming),其中“swimming”是名词化的动词,并且另外考虑三元组(fish,swims,length),三元组(fish,swims,length)是包括谓语“swim”和主语“fish”的另一三元组。后一个三元组必须被去除并且变换为:(swimming,has_property,length)。
要注意,以下提供的例子引入代表语义约束所需的术语。
例如,考虑下面的三元组:
<car,move,car-movement>
<car-movement,is_a,movement>
<car-movement,has_property,road>
以上提供的例子中的三元组示出:仅当movement(移动)是car(车)的移动时,“road(路)”才是movement的性质。这些关系能够被简化以便呈现并且由最终用户处理。上述三元组可被简化 为:
<car,move,movement>
<-movement,has_property,road>
充实变换
图6是根据本发明的实施例的图3的处理中所包括的简化的三元组的充实变换的处理的流程图。在一个实施例中,图6的处理被包括在步骤308(参见图3)中。图6的处理开始于步骤600。在步骤602中,复杂三元组变换工具110(参见图1)充实从图5的处理中或步骤306(参见图3)中的语义变换获得的简化的三元组(以下,简称为“简化的三元组”)中的每个核心术语。由复杂三元组变换工具110(参见图1)在步骤602中执行的充实包括:将描述核心术语的分类关系的简单三元组添加到在参考本体114(参见图1)中找到的新概念,由此指定核心术语和参考本体114(参见图1)中的所有核心术语的语义对应关系之间的关系。仅当还未在正在通过图2的处理建立的本体中表示前述分类关系时,添加描述前述分类关系的简单三元组。因为充实变换是迭代处理(参见图3中的循环)的一部分,所以一个或多个关系可能已经存在于正在建立的本体中,并且因此不需要由在步骤602的当前执行中添加的简化的三元组描述。
步骤602需要复杂三元组变换工具110(参见图1)访问本体元模式116以确定对于核心术语而言可存在什么关系,但不需要最终用户交互。
在步骤604中,通过从参考本体114(参见图1)获得核心术语的定义,分析获得的定义并且基于获得的定义创建一组新的复杂三元组,复杂三元组变换工具110(参见图1)充实简化的三元组中的每个核心术语。前述分析获得的定义的步骤可由位于本体建立器106(参见图1)外部或内置在本体建立器106中的文本分析器执行。
在步骤606中,复杂三元组变换工具110(参见图1)将新的简化的三元组和在步骤604中创建的所述一组新的复杂三元组存储在本体元模式116中。通过存储新的简化的三元组,存储代表获得的定义的 语义模式,以使得在图2的本体建立处理的未来执行中可以重用这些语义模式中的一个或多个。
在步骤608中,复杂三元组变换工具110(参见图1)更新分析深度参数(例如,将分析深度参数减小一)。
图6的处理结束于步骤610。
合并本体
图7是根据本发明的实施例的合并通过图2的处理建立的本体的处理的流程图。图7的处理开始于步骤700。在步骤702中,在第一计算机系统中运行的本体建立器106(参见图1)通过图2的处理的第一次执行来建立第一本体。在第二计算机系统中运行的本体建立器106(参见图1)通过图2的处理的第二次执行来建立第二本体。在一个实施例中,第一和第二计算机系统是不同的(例如,图1中的计算机系统102-1和102-N)并且经由网络103(参见图1)协作。在另一实施例中,第一和第二计算机系统是同一计算机系统(例如,图1中的计算机系统102-1)。
在步骤704中,在第一计算机系统中运行的本体建立器106(参见图1)通过识别参考本体114(参见图1)中的识别键之间的对应关系来识别第一本体中的第一概念和第二本体中的第二概念之间的对应关系,其中识别键与第一和第二概念关联。例如,本体建立器106(参见图1)确定:这两个识别键(1)是相同的,(2)指定第一概念是第二概念的子类,或者(3)指定第二概念是第一概念的子类。
在步骤706中,如果本体建立器106(参见图1)确定识别了第一和第二本体中的概念之间的所有对应关系,则执行步骤706的“是”分支并且执行步骤708。如果本体建立器106(参见图1)在步骤706中确定未识别第一和第二本体中的概念之间的所有对应关系,则执行步骤706的“否”分支并且该处理循环回至步骤704,在步骤704中,处理更新的第一和/或第二概念。
在步骤708中,本体建立器106(参见图1)将通过在步骤704中识别的对应关系联系的来自第二本体的所有概念导入到存储在本体数 据存储库108-1(参见图1)中的第一本体中。
在步骤710中,本体建立器106(参见图1)将在步骤708中导入的概念之间的所有可能的关系导入到存储在本体数据存储库108-1(参见图1)中的第一本体中。
在步骤712中,本体建立器106(参见图1)将第二本体的其余部分导入到存储在本体数据存储库108-1(参见图1)中的第一本体中,这完成在步骤702中建立的第一本体和第二本体的合并。
图7的处理结束于步骤714。
适应性
本发明的实施例提供一种本体建立系统,通过在该系统被反复使用时随着时间过去而变得更加高效,该本体建立系统是可适配的。如以上相对于图6所讨论的,系统可由来自参考本体114(参见图1)的定义的语义模式以及由在参考本体114(参见图1)中不存在并且由创造的术语代表的新概念的语义模式自动地充实。前述语义模式变为可在随后的利用图2的处理的本体建立期间重用。
通过由人类知识工程师进行的适配,本体建立系统可随着时间过去而演进。该系统允许知识工程师分析创造的术语的列表和使用标准关系的方式,以便改进本体元模式116(参见图1)、变换规则和语法112(参见图1),由此允许更复杂的结构的分析。
由本体元模式116(参见图1)描述的特性和属性可由知识工程师分析以使语法112(参见图1)和本体元模式116(参见图1)更完整,由此随着时间过去而使该系统更加有效。
通常,特性的分析导致新的标准基础结构的识别,所述新的标准基础结构能够与用于概念化的新的变换规则一起被包括在语法112(参见图1)的新版本中。
通常,属性的分析导致可能的新的标准关系的识别。例如,下面的三元组:(swim,has_attribute,water)、(fly,has_attribute,air)…中的属性的分析可导致新的标准关系“has_element”的创建并且导致使用新的标准关系所需的变换规则。
在“has_attribute”关系中作为宾语出现的创造的术语可被分析以发现新的属性类型,诸如“color(颜色)”、“size(大小)”、“quality(质量)”、“location(位置)”、“shape(形状)”等。
新的标准关系以及具有新属性的可能的值的列表的新属性可被存储在本体元模式116(参见图1)中。利用由知识工程师完成的分析,可能的属性值可随着时间过去而演进。
在一个实施例中,本体建立系统要求通过图2的处理建立的每个语义模式必须参照当建立该语义模式时使用的本体元模式的版本,由此允许版本管理。基于前述要求的对元模式的版本的参照,本发明的实施例可自动地升级已有本体以使已有本体与新的元模式版本兼容。因为版本管理,本体元模式116(参见图1)的适配是不会使利用元模式的以前版本建立的本体无效的改进。
计算机系统
图8是根据本发明的实施例的计算机系统的方框图,该计算机系统被包括在图1的系统中并且实现图2的处理。计算机系统102-1通常包括中央处理单元(CPU)802、存储器804、输入/输出(I/O)接口806和总线808。另外,计算机系统102-1耦接到I/O装置810和计算机数据存储单元812。CPU 802执行计算机系统102-1的计算和控制功能,包括执行用于执行通过变换复杂三元组来建立本体的方法的程序代码814中所包括的指令,其中指令经由存储器804由CPU 802执行。CPU 802可包括单个处理单元,或者分布在位于一个或多个位置(例如,位于客户机和服务器上)的一个或多个处理单元上。在一个实施例中,程序代码814包括被包括在本体建立器中106(参见图1)和复杂三元组变换工具110(参见图1)中的程序代码。
存储器804可包括以下描述的任何已知的计算机可读存储介质。在一个实施例中,存储器804的高速缓存元件提供至少某程序代码(例如,程序代码814)的临时存储以便减少在执行程序代码的指令的时必须从大容量存储器检索代码的次数。此外,类似于CPU 802,存储器804可位于单个物理位置(包括一个或多个类型的数据存储器), 或者分布在各种形式的多个物理系统上。另外,存储器804能够包括分布在例如局域网(LAN)或广域网(WAN)上的数据。
I/O接口806包括用于与外部源交换信息的任何系统。I/O装置810包括任何已知类型的外部装置,包括显示装置(例如,监视器)、键盘、鼠标、打印机、扬声器、手持式装置、传真机等。总线808提供计算机系统102-1中的各个部件之间的通信链路,并且可包括任何类型的传输链路,包括电、光学、无线传输链路等。
I/O接口806还允许计算机系统102-1将信息(例如,数据或程序指令(诸如,程序代码814))存储在计算机数据存储单元812或另一计算机数据存储单元(未示出)上,以及从其检索信息。计算机数据存储单元812可包括以下描述的任何已知的计算机可读存储介质。例如,计算机数据存储单元812可以是非易失性数据存储装置,诸如磁盘驱动器(即,硬盘驱动器)或光盘驱动器(例如,接收CD-ROM盘的CD-ROM驱动器)。
存储器804和/或存储单元812可存储计算机程序代码814,计算机程序代码814包括由CPU 802经存储器804执行以通过变换复杂三元组来建立本体的指令。虽然图8将存储器804描述为包括程序代码814,但本发明设想这样的实施例:存储器804并不同时包括所有的代码814,而是替代地在一时刻仅包括代码814的一部分。
另外,存储器804可包括图8中未示出的其它系统,诸如在CPU 802上运行并且提供对计算机系统102-1内的各种部件和/或连接到计算机系统102-1的各种部件的控制的操作系统(例如,Linux)。
耦接到计算机系统102-1的存储单元812和/或一个或多个其它计算机数据存储单元(未示出)可存储语法112(参见图1)、参考本体114(参见图1)、本体元模式116(参见图1)和本体108-1…108-N(参见图1)。
术领域技术人员将会理解,本发明可被实现为系统、方法或计算机程序产品。因此,本发明的实施例的一方面可采用通常全部可在这 里称为“模块”的完全硬件方面、完全软件方面(包括固件、常驻软件、微码等)或组合软件和硬件方面的方面的形式。另外,本发明的实施例可采用实现于包含或存储计算机可读程序代码(例如,程序代码814)的一个或多个计算机可读介质(例如,存储器804和/或计算机数据存储单元812)的计算机程序产品的形式。
可使用一个或多个计算机可读介质(例如,存储器804和计算机数据存储单元812)的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。在一个实施例中,计算机可读存储介质是计算机可读存储装置或计算机可读存储设备。计算机可读存储介质可以是例如但不限于电子、磁、光学、电磁、红外或半导体系统、设备、装置或者前述各项的任何合适的组合。计算机可读存储介质的更具体的例子的非穷举列表包括:具有一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式压缩盘只读存储器(CD-ROM)、光学存储装置、磁存储装置或前述各项的任何合适的组合。在本文的上下文中,计算机可读存储介质可以是能够包含或存储由用于执行指令的系统、设备或装置使用或结合该系统、设备或装置使用的程序(例如,程序814)的有形介质。
计算机可读信号介质可包括例如基带中或作为载波的一部分的包含计算机可读程序代码的传播数据信号。这种传播的信号可采用多种形式中的任何形式,包括但不限于电磁信号、光学信号或者它们的任何合适的组合。计算机可读信号介质可以是这样的任何计算机可读介质:该计算机可读介质不是计算机可读存储介质,并且能够传送、传播或传输由用于执行指令的系统、设备或装置使用或结合该系统、设备或装置使用的程序。
可使用任何合适的介质(包括但不限于无线、有线、光纤缆、RF等或前述各项的任何合适的组合)传输计算机可读介质上包含的程序代码(例如,程序代码814)。
可按照一种或多种编程语言的任何组合编写用于执行本发明的各 方面的操作的计算机程序代码(例如,程序代码814),所述编程语言包括:面向对象的编程语言,诸如、Smalltalk、C++等;和常规的过程编程语言,诸如“C”编程语言或类似编程语言。程序代码的指令可完全在用户的计算机上执行、部分在用户的计算机上执行、作为独立软件包执行、部分在用户的计算机上并且部分在远程计算机上执行或者完全在远程计算机或服务器上执行,其中前述用户的计算机、远程计算机和服务器可以是例如计算机系统102-1或具有与图8中所包括的计算机系统102-1的部件类似的部件的另一计算机系统(未示出)。在后一情形中,远程计算机可通过包括LAN或WAN的任何类型的网络(未示出)连接到用户的计算机,或者可(例如,使用互联网服务提供商(ISP)通过互联网)连接到外部计算机。
这里参照根据本发明的实施例的方法、设备(系统)和计算机程序产品的流程图(例如,图2、图3、图4A-4F、图5、图6和图7)和/或方框图(例如,图1和图8)描述了本发明的各方面。将会理解,流程图和/或方框图中的每个方框以及流程图和/或方框图中的方框的组合能够由计算机程序指令(例如,程序代码814)实现。这些计算机程序指令可被提供给通用计算机、专用计算机或者其它可编程数据处理设备的一个或多个硬件处理器(例如,CPU802),以产生一机器,从而指令(经由计算机或者其它可编程数据处理设备的处理器执行)产生用于实现流程图和/或方框图的一个或多个方框中规定的功能/动作的装置。
这些计算机程序指令也可被存储在计算机可读介质(例如,存储器804或计算机数据存储单元812)中,能够指示计算机(例如,计算机系统102-1)、其它可编程数据处理设备或其它装置按照特定的方式发挥作用,从而存储在计算机可读介质中的指令(例如,程序814)产生一种制造产品,所述制造产品包括实现流程图和/或方框图的一个或多个方框中规定的功能/动作的指令。
计算机程序指令也可被加载到计算机(例如,计算机系统102-1)、其它可编程数据处理设备或其它装置上,以使得在所述计算机、 其它可编程设备或其它装置上执行一系列的操作步骤以产生计算机实现的过程,从而在所述计算机、其它可编程设备或其它装置上执行的指令(例如,程序814)提供用于实现流程图和/或方框图的一个或多个方框中规定的功能/动作的过程。
本发明的实施例的任何部件能够由针对通过变换复杂三元组来建立本体而提供部署或集成计算基础设施的服务提供商部署、管理、服务等。因此,本发明的实施例公开一种用于支持计算机基础设施的处理,其中该处理包括第一计算机系统为在包括一个或多个处理器(例如,CPU 802)的第二计算机系统(例如,计算机系统102-1)中集成、容纳、维护和部署计算机可读代码(例如,程序代码814)中的至少一种提供至少一种支持服务,其中处理器执行代码中所包含的指令,使第二计算机系统通过变换复杂三元组来建立本体。
在另一实施例中,本发明提供一种在订购、广告和/或付费基础上执行本发明的处理步骤的方法。也就是说,服务提供商(诸如,解决方案集成商)能够对通过变换复杂三元组来建立本体的处理进行创建、维护、支持等。在这种情况下,服务提供商能够为一个或多个顾客对执行本发明的处理步骤的计算机基础设施进行创建、维护、支持等。作为回报,服务提供商能够根据订阅和/或付费合同从顾客接收付费,和/或服务提供商能够通过将广告内容销售给一个或多个第三方来接收付费。
图2、图3、图4A-4F、图5、图6和图7中的流程图以及图1和图8中的方框图示出根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。在这个方面,流程图或方框图中的每个方框可代表包括用于实现规定的逻辑功能的一个或多个可执行指令的代码(例如,程序代码814)的模块、段或一部分。还应该注意,在一些替代实现方式中,方框中标注的功能可不按附图中标注的次序执行。例如,事实上,根据涉及的功能,连续示出的两个方框可基本上同时执行,或者这些方框有时可按照相反的次序执行。还应该注意,方框图和/或流程图中的每个方框以及方框图和/ 或流程图中的方框的组合能够由执行规定的功能或动作的基于专用硬件的系统或专用硬件和计算机指令的组合实现。
尽管已在这里为了说明的目的描述了本发明的实施例,但对于本领域技术人员而言,许多修改和变化将会变得清楚。因此,所附权利要求旨在包括落在本发明的真正精神和范围内的所有这种修改和变化。

Claims (12)

1.一种建立本体的方法,该方法包括下述步骤:
计算机接收从由软件应用提供的自由形式文本提取的多个复杂三元组,每个复杂三元组包括复合主语、复合谓语和复合宾语;
计算机通过基于语法识别所述多个复杂三元组中的核心术语和非核心术语,识别所述多个复杂三元组中的包括名词、动词、形容词和副词的语法元素并且使所述多个复杂三元组标准化,来执行所述多个复杂三元组的语法变换,其中执行语法变换的步骤的结果是其术语与所述语法匹配的多个语法变换后的复杂三元组;
计算机通过将多个简化的三元组中所包括的每个核心术语分派给正好一个术语定义并且分派给参考本体的正好一个识别键来执行所述多个语法变换后的复杂三元组的语义变换并且将其分别变换为所述多个简化的三元组中所包括的一个或多个简化的三元组,其中每个简化的三元组包括主语术语、谓语术语和宾语术语,并且其中所述一个或多个简化的三元组中的每一个保留各个语法变换后的复杂三元组的语义;
基于参考本体的元模式,计算机通过添加从所述多个简化的三元组中的每个术语具有的与参考本体的对应关系得出的关系并且通过添加所述多个简化的三元组中的术语的定义的语义表示来执行所述多个简化的三元组的充实变换并且将其变换为多个简化和充实的三元组,其中所述定义被包括在参考本体中,并且其中所述执行所述多个简化的三元组的充实变换并且将其变换为多个简化和充实的三元组包括产生代表所述多个简化的三元组中的核心术语的定义的语义的一组新的复杂三元组的步骤;
计算机接收期望分析深度并且初始化分析深度参数;
基于所述语法,计算机在语法上将所述一组新的复杂三元组变换为一组新的语法变换后的复杂三元组;
计算机在语义上将所述一组新的语法变换后的复杂三元组变换为一组新的简化的三元组;
在在语法上变换和在语义上变换的步骤之后,计算机更新分析深度参数;
在更新的分析深度参数未指示期望分析深度时,计算机:
对所述一组新的简化的三元组执行充实变换以产生另一组新的复杂三元组;以及
对于另一组新的简化的三元组,重复在语法上变换、在语义上变换和更新分析深度参数的步骤;以及
计算机存储所述多个简化和充实的三元组作为代表提供自由形式文本的软件应用内所包括的知识的新本体。
2.如权利要求1所述的方法,其中执行所述多个复杂三元组的语法变换的步骤包括:
确定所述多个复杂三元组中所包括的复杂三元组的术语是核心术语并且是形容词;以及
确定该形容词联系到所述复杂三元组中所包括的核心名词,
其中执行所述多个语法变换后的复杂三元组的语义变换并且将其分别变换为所述多个简化的三元组中所包括的一个或多个简化的三元组的步骤包括:
将作为核心术语并且作为形容词的术语变换为由多个简单三元组中所包括的一组简单三元组指定的概念化的形容词;以及
产生核心名词和概念化的形容词之间的标准关系,
其中所述一组简单三元组中的每个简单三元组包括单个主语术语、单个谓语术语和单个宾语术语,并且其中所述一组简单三元组代表形容词的语义。
3.如权利要求1所述的方法,其中执行所述多个复杂三元组的语法变换的步骤包括:
确定所述多个复杂三元组中所包括的复杂三元组的第一术语是核心术语并且是动词;以及
确定所述复杂三元组的第二术语是宾语,
其中执行所述多个语法变换后的复杂三元组的语义变换并且将其分别变换为所述多个简化的三元组中所包括的一个或多个简化的三元组的步骤包括:
将作为核心术语并且作为动词的第一术语变换为由多个简单三元组中所包括的第一组简单三元组指定的概念化的动词;以及
产生概念化的动词和宾语之间的第一标准关系,以及
其中第一组简单三元组中的每个简单三元组包括单个主语术语、单个谓语术语和单个宾语术语。
4.如权利要求3所述的方法,其中执行所述多个复杂三元组的语法变换的步骤包括:
确定所述多个复杂三元组中所包括的复杂三元组的第二术语是核心术语并且是副词;以及
确定该副词联系到所述复杂三元组中所包括的动词,
其中执行所述多个语法变换后的复杂三元组的语义变换并且将其分别变换为所述多个简化的三元组中所包括的一个或多个简化的三元组的步骤包括:
将作为核心术语并且作为副词的第二术语变换为由所述多个简单三元组中所包括的第二组简单三元组指定的概念化的副词;以及
产生概念化的动词和概念化的副词之间的第二标准关系,以及
其中第二组简单三元组中的每个简单三元组分别包括单个主语术语、单个谓语术语和单个宾语术语,并且其中第二组简单三元组代表副词的语义。
5.如权利要求1所述的方法,还包括:
计算机接收从由另一软件应用提供的另一自由形式文本提取的第二多个复杂三元组;
计算机执行所述第二多个复杂三元组的语法变换,其中执行语法变换的步骤的结果是其术语与所述语法匹配的第二多个语法变换后的复杂三元组;
计算机执行所述第二多个语法变换后的复杂三元组的语义变换并且将其分别变换为第二多个简化的三元组中所包括的一个或多个简化的三元组;
基于参考本体的元模式,计算机通过添加从所述第二多个简化的三元组中的每个术语具有的与参考本体的对应关系得出的第二关系并且通过添加所述第二多个简化的三元组中的术语的定义的第二语义表示来执行所述第二多个简化的三元组的充实变换并且将其变换为第二多个简化和充实的三元组,其中所述第二多个简化的三元组中的术语的定义被包括在参考本体中;
计算机存储所述第二多个简化和充实的三元组作为代表提供所述另一自由形式文本的第二软件应用内所包括的知识的第二新本体;
计算机在语法上和在语义上将所述多个简化和充实的三元组变换为第一组新的简单三元组;
计算机在语法上和在语义上将所述第二多个简化和充实的三元组变换为第二组新的简单三元组;以及
通过计算机确定第一组新的三元组和第二组新的三元组之间的语义对应关系,计算机确定新本体和第二新本体之间的跨本体对应关系。
6.如权利要求1所述的方法,其中计算机执行所述多个语法变换后的复杂三元组的语义变换并且将其分别变换为所述多个简化的三元组中所包括的一个或多个简化的三元组的步骤包括:
确定在所述一个或多个简化的三元组中的一个简化的三元组中需要名词;
确定参考本体和参考本体的元模式不包括所确定的名词的定义;
产生所确定的名词;
产生所述名词的定义作为所述名词和正在建立的新本体中的术语之间的关系;
将所述名词和所述名词的定义存储在参考本体的元模式中;以及
部分地基于存储的所述名词和存储的所述名词的定义,建立第二新本体。
7.一种建立本体的计算机系统,包括:
中央处理单元(CPU);
存储器,耦接到CPU;
计算机可读的有形存储装置,耦接到CPU,该存储装置包含由CPU经由存储器执行以实现建立本体的方法的指令,该方法包括下述步骤:
计算机系统接收从由软件应用提供的自由形式文本提取的多个复杂三元组,每个复杂三元组包括复合主语、复合谓语和复合宾语;
计算机系统通过基于语法识别所述多个复杂三元组中的核心术语和非核心术语,识别所述多个复杂三元组中的包括名词、动词、形容词和副词的语法元素并且使所述多个复杂三元组标准化,来执行所述多个复杂三元组的语法变换,其中执行语法变换的步骤的结果是其术语与所述语法匹配的多个语法变换后的复杂三元组;
计算机系统通过将多个简化的三元组中所包括的每个核心术语分派给正好一个术语定义并且分派给参考本体的正好一个识别键来执行所述多个语法变换后的复杂三元组的语义变换并且将其分别变换为所述多个简化的三元组中所包括的一个或多个简化的三元组,其中每个简化的三元组包括主语术语、谓语术语和宾语术语,并且其中所述一个或多个简化的三元组中的每一个保留各个语法变换后的复杂三元组的语义;
基于参考本体的元模式,计算机系统通过添加从所述多个简化的三元组中的每个术语具有的与参考本体的对应关系得出的关系并且通过添加所述多个简化的三元组中的术语的定义的语义表示来执行所述多个简化的三元组的充实变换并且将其变换为多个简化和充实的三元组,其中所述定义被包括在参考本体中,并且其中所述执行所述多个简化的三元组的充实变换并且将其变换为多个简化和充实的三元组包括产生代表所述多个简化的三元组中的核心术语的定义的语义的一组新的复杂三元组的步骤;
计算机系统接收期望分析深度并且初始化分析深度参数;
基于所述语法,计算机系统在语法上将所述一组新的复杂三元组变换为一组新的语法变换后的复杂三元组;
计算机系统在语义上将所述一组新的语法变换后的复杂三元组变换为一组新的简化的三元组;
在在语法上变换和在语义上变换的步骤之后,计算机系统更新分析深度参数;
在更新的分析深度参数未指示期望分析深度时,计算机系统:
对所述一组新的简化的三元组执行充实变换以产生另一组新的复杂三元组;以及
对于另一组新的简化的三元组,重复在语法上变换、在语义上变换和更新分析深度参数的步骤;以及
计算机系统存储所述多个简化和充实的三元组作为代表提供自由形式文本的软件应用内所包括的知识的新本体。
8.如权利要求7所述的计算机系统,其中执行所述多个复杂三元组的语法变换的步骤包括:
确定所述多个复杂三元组中所包括的复杂三元组的术语是核心术语并且是形容词;以及
确定该形容词联系到复杂三元组中所包括的核心名词,
其中执行所述多个语法变换后的复杂三元组的语义变换并且将其分别变换为所述多个简化的三元组中所包括的一个或多个简化的三元组的步骤包括:
将作为核心术语并且作为形容词的术语变换为由多个简单三元组中所包括的一组简单三元组指定的概念化的形容词;以及
产生核心名词和概念化的形容词之间的标准关系,
其中所述一组简单三元组中的每个简单三元组包括单个主语术语、单个谓语术语和单个宾语术语,并且其中所述一组简单三元组代表形容词的语义。
9.如权利要求7所述的计算机系统,其中执行所述多个复杂三元组的语法变换的步骤包括:
确定所述多个复杂三元组中所包括的复杂三元组的第一术语是核心术语并且是动词;以及
确定复杂三元组的第二术语是宾语,
其中执行所述多个语法变换后的复杂三元组的语义变换并且将其分别变换为所述多个简化的三元组中所包括的一个或多个简化的三元组的步骤包括:
将作为核心术语并且作为动词的第一术语变换为由多个简单三元组中所包括的第一组简单三元组指定的概念化的动词;以及
产生概念化的动词和宾语之间的第一标准关系,以及
其中第一组简单三元组中的每个简单三元组包括单个主语术语、单个谓语术语和单个宾语术语。
10.如权利要求9所述的计算机系统,其中执行所述多个复杂三元组的语法变换的步骤包括:
确定所述多个复杂三元组中所包括的复杂三元组的第二术语是核心术语并且是副词;以及
确定该副词联系到复杂三元组中所包括的动词,
其中执行所述多个语法变换后的复杂三元组的语义变换并且将其分别变换为所述多个简化的三元组中所包括的一个或多个简化的三元组的步骤包括:
将作为核心术语并且作为副词的第二术语变换为由所述多个简单三元组中所包括的第二组简单三元组指定的概念化的副词;以及
产生概念化的动词和概念化的副词之间的第二标准关系,以及
其中第二组简单三元组中的每个简单三元组分别包括单个主语术语、单个谓语术语和单个宾语术语,并且其中第二组简单三元组代表副词的语义。
11.如权利要求7所述的计算机系统,其中所述方法还包括下述步骤:
计算机系统接收从由另一软件应用提供的另一自由形式文本提取的第二多个复杂三元组;
计算机系统执行所述第二多个复杂三元组的语法变换,其中执行语法变换的步骤的结果是其术语与所述语法匹配的第二多个语法变换后的复杂三元组;
计算机系统执行所述第二多个语法变换后的复杂三元组的语义变换并且将其分别变换为第二多个简化的三元组中所包括的一个或多个简化的三元组;
基于参考本体的元模式,计算机系统通过添加从所述第二多个简化的三元组中的每个术语具有的与参考本体的对应关系得出的第二关系并且通过添加所述第二多个简化的三元组中的术语的定义的第二语义表示,来执行所述第二多个简化的三元组的充实变换并且将其变换为第二多个简化和充实的三元组,其中所述第二多个简化的三元组中的术语的定义被包括在参考本体中;
计算机系统存储所述第二多个简化和充实的三元组作为代表提供所述另一自由形式文本的第二软件应用内所包括的知识的第二新本体;
计算机系统在语法上和在语义上将所述多个简化和充实的三元组变换为第一组新的简单三元组;
计算机系统在语法上和在语义上将所述第二多个简化和充实的三元组变换为第二组新的简单三元组;以及
通过计算机系统确定第一组新的三元组和第二组新的三元组之间的语义对应关系,计算机系统确定新本体和第二新本体之间的跨本体对应关系。
12.如权利要求7所述的计算机系统,其中计算机系统执行所述多个语法变换后的复杂三元组的语义变换并且将其分别变换为所述多个简化的三元组中所包括的一个或多个简化的三元组的步骤包括:
确定在所述一个或多个简化的三元组中的一个简化三元组中需要名词;
确定参考本体和参考本体的元模式不包括所需的名词的定义;
产生所需的名词;
产生所述名词的定义作为该名词和正在建立的新本体中的术语之间的关系;
将所述名词和名词的定义存储在参考本体的元模式中;以及
部分地基于存储的名词和存储的名词的定义,建立第二新本体。
CN201380016700.3A 2012-03-28 2013-03-07 通过变换复杂三元组建立本体的方法和系统 Active CN104205092B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/432,120 2012-03-28
US13/432,120 US8747115B2 (en) 2012-03-28 2012-03-28 Building an ontology by transforming complex triples
PCT/IB2013/051823 WO2013144744A1 (en) 2012-03-28 2013-03-07 Building an ontology by transforming complex triples

Publications (2)

Publication Number Publication Date
CN104205092A CN104205092A (zh) 2014-12-10
CN104205092B true CN104205092B (zh) 2017-03-01

Family

ID=49235523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380016700.3A Active CN104205092B (zh) 2012-03-28 2013-03-07 通过变换复杂三元组建立本体的方法和系统

Country Status (3)

Country Link
US (3) US8747115B2 (zh)
CN (1) CN104205092B (zh)
WO (1) WO2013144744A1 (zh)

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8793208B2 (en) 2009-12-17 2014-07-29 International Business Machines Corporation Identifying common data objects representing solutions to a problem in different disciplines
US8747115B2 (en) 2012-03-28 2014-06-10 International Business Machines Corporation Building an ontology by transforming complex triples
US8539001B1 (en) 2012-08-20 2013-09-17 International Business Machines Corporation Determining the value of an association between ontologies
AU2013370424A1 (en) 2012-12-28 2015-07-23 Xsb, Inc. Systems and methods for creating, editing, storing and retrieving knowledge contained in specification documents
US10339452B2 (en) 2013-02-06 2019-07-02 Verint Systems Ltd. Automated ontology development
US9342556B2 (en) * 2013-04-01 2016-05-17 International Business Machines Corporation RDF graphs made of RDF query language queries
US20150066506A1 (en) 2013-08-30 2015-03-05 Verint Systems Ltd. System and Method of Text Zoning
US20150095013A1 (en) * 2013-09-27 2015-04-02 Sonja Zillner Extending Concept Labels of an Ontology
US9977830B2 (en) 2014-01-31 2018-05-22 Verint Systems Ltd. Call summary
US10255346B2 (en) * 2014-01-31 2019-04-09 Verint Systems Ltd. Tagging relations with N-best
WO2015131345A1 (en) 2014-03-05 2015-09-11 Empire Technology Development Llc Semantic data generation
US20160259765A1 (en) * 2014-05-04 2016-09-08 Daqi Li Document interaction evaluator based on an ontology
US9842102B2 (en) * 2014-11-10 2017-12-12 Oracle International Corporation Automatic ontology generation for natural-language processing applications
US11080295B2 (en) * 2014-11-11 2021-08-03 Adobe Inc. Collecting, organizing, and searching knowledge about a dataset
US10095689B2 (en) 2014-12-29 2018-10-09 International Business Machines Corporation Automated ontology building
CN104573028B (zh) * 2015-01-14 2019-01-25 百度在线网络技术(北京)有限公司 实现智能问答的方法和系统
US11030406B2 (en) 2015-01-27 2021-06-08 Verint Systems Ltd. Ontology expansion using entity-association rules and abstract relations
US10262061B2 (en) 2015-05-19 2019-04-16 Oracle International Corporation Hierarchical data classification using frequency analysis
US20160358488A1 (en) * 2015-06-03 2016-12-08 International Business Machines Corporation Dynamic learning supplementation with intelligent delivery of appropriate content
US10402435B2 (en) * 2015-06-30 2019-09-03 Microsoft Technology Licensing, Llc Utilizing semantic hierarchies to process free-form text
US11243919B2 (en) 2015-10-16 2022-02-08 International Business Machines Corporation Preparing high-quality data repositories sets utilizing heuristic data analysis
US10067972B2 (en) 2015-11-17 2018-09-04 International Business Machines Corporation Semantic database driven form validation
US10878191B2 (en) * 2016-05-10 2020-12-29 Nuance Communications, Inc. Iterative ontology discovery
US20170357625A1 (en) * 2016-06-14 2017-12-14 Northrop Grumman Systems Corporation Event extraction from documents
CA3033724A1 (en) * 2016-08-23 2018-03-01 Illumina, Inc. Semantic distance systems and methods for determining related ontological data
CN106354712A (zh) * 2016-08-25 2017-01-25 上海交通大学 基于参数概念表达动词语义的方法及系统
US10679008B2 (en) 2016-12-16 2020-06-09 Microsoft Technology Licensing, Llc Knowledge base for analysis of text
TW201828104A (zh) * 2017-01-26 2018-08-01 雲拓科技有限公司 申請專利範圍之解析紀錄方法
US11379504B2 (en) * 2017-02-17 2022-07-05 International Business Machines Corporation Indexing and mining content of multiple data sources
US11334606B2 (en) * 2017-02-17 2022-05-17 International Business Machines Corporation Managing content creation of data sources
WO2018163241A1 (ja) * 2017-03-06 2018-09-13 三菱電機株式会社 オントロジー構築支援装置
US11475488B2 (en) 2017-09-11 2022-10-18 Accenture Global Solutions Limited Dynamic scripts for tele-agents
KR101982611B1 (ko) * 2017-09-19 2019-08-28 숭실대학교 산학협력단 사용자 정의 규칙을 이용한 온톨로지 추론 장치, 시스템 및 방법
US11853930B2 (en) 2017-12-15 2023-12-26 Accenture Global Solutions Limited Dynamic lead generation
US20190213486A1 (en) * 2018-01-06 2019-07-11 Tiffany Quynh-Nhi Do Virtual Adaptive Learning of Financial Articles Utilizing Artificial Intelligence
CN110738493B (zh) * 2018-07-19 2023-04-18 上海交通大学 基于区块链的本体维护系统
WO2020056154A1 (en) * 2018-09-14 2020-03-19 Jpmorgan Chase Bank, N.A. Systems and methods for generating and using knowledge graphs
US11468882B2 (en) 2018-10-09 2022-10-11 Accenture Global Solutions Limited Semantic call notes
US10923114B2 (en) * 2018-10-10 2021-02-16 N3, Llc Semantic jargon
EP3870203A4 (en) 2018-10-22 2022-07-20 William D. Carlson THERAPEUTIC COMBINATIONS OF TDFRP AND COMPLEMENTARY AGENTS AND METHODS OF USE
US11132695B2 (en) 2018-11-07 2021-09-28 N3, Llc Semantic CRM mobile communications sessions
US10972608B2 (en) 2018-11-08 2021-04-06 N3, Llc Asynchronous multi-dimensional platform for customer and tele-agent communications
US10742813B2 (en) 2018-11-08 2020-08-11 N3, Llc Semantic artificial intelligence agent
US10482384B1 (en) 2018-11-16 2019-11-19 Babylon Partners Limited System for extracting semantic triples for building a knowledge base
US11769012B2 (en) 2019-03-27 2023-09-26 Verint Americas Inc. Automated system and method to prioritize language model and ontology expansion and pruning
US11443264B2 (en) 2020-01-29 2022-09-13 Accenture Global Solutions Limited Agnostic augmentation of a customer relationship management application
US11475222B2 (en) * 2020-02-21 2022-10-18 International Business Machines Corporation Automatically extending a domain taxonomy to the level of granularity present in glossaries in documents
US20230140938A1 (en) * 2020-04-10 2023-05-11 Nippon Telegraph And Telephone Corporation Sentence data analysis information generation device using ontology, sentence data analysis information generation method, and sentence data analysis information generation program
US11392960B2 (en) 2020-04-24 2022-07-19 Accenture Global Solutions Limited Agnostic customer relationship management with agent hub and browser overlay
US11481785B2 (en) 2020-04-24 2022-10-25 Accenture Global Solutions Limited Agnostic customer relationship management with browser overlay and campaign management portal
US11934441B2 (en) 2020-04-29 2024-03-19 International Business Machines Corporation Generative ontology learning and natural language processing with predictive language models
US11514336B2 (en) 2020-05-06 2022-11-29 Morgan Stanley Services Group Inc. Automated knowledge base
US11531708B2 (en) 2020-06-09 2022-12-20 International Business Machines Corporation System and method for question answering with derived glossary clusters
US11520986B2 (en) * 2020-07-24 2022-12-06 International Business Machines Corporation Neural-based ontology generation and refinement
US11507903B2 (en) 2020-10-01 2022-11-22 Accenture Global Solutions Limited Dynamic formation of inside sales team or expert support team
CN112559772B (zh) * 2020-12-29 2022-09-09 厦门市美亚柏科信息股份有限公司 一种知识图谱动态维护方法、终端设备及存储介质
US11797586B2 (en) 2021-01-19 2023-10-24 Accenture Global Solutions Limited Product presentation for customer relationship management
US11816677B2 (en) 2021-05-03 2023-11-14 Accenture Global Solutions Limited Call preparation engine for customer relationship management
US20230162121A1 (en) * 2021-11-05 2023-05-25 Accenture Global Solutions Limited Unified, cross-channel, multidimensional insight generation

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216851A (zh) * 2008-01-11 2008-07-09 孟小峰 一种本体数据(Ontology)管理系统和方法

Family Cites Families (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6061675A (en) * 1995-05-31 2000-05-09 Oracle Corporation Methods and apparatus for classifying terminology utilizing a knowledge catalog
JPH11126209A (ja) 1997-10-23 1999-05-11 Toshiba Corp 情報処理装置及び方法並びに情報処理プログラムを記録した記録媒体
US6167370A (en) 1998-09-09 2000-12-26 Invention Machine Corporation Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures
US6711585B1 (en) 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
AU6919400A (en) 1999-08-20 2001-03-19 Black Pearl, Inc. Ontology-driven information system
US6741986B2 (en) * 2000-12-08 2004-05-25 Ingenuity Systems, Inc. Method and system for performing information extraction and quality control for a knowledgebase
US7533107B2 (en) 2000-09-08 2009-05-12 The Regents Of The University Of California Data source integration system and method
US7027974B1 (en) 2000-10-27 2006-04-11 Science Applications International Corporation Ontology-based parser for natural language processing
US7228302B2 (en) * 2003-08-14 2007-06-05 Agilent Technologies, Inc. System, tools and methods for viewing textual documents, extracting knowledge therefrom and converting the knowledge into other forms of representation of the knowledge
US20030018616A1 (en) 2001-06-05 2003-01-23 Wilbanks John Thompson Systems, methods and computer program products for integrating databases to create an ontology network
US20080016036A1 (en) 2005-10-11 2008-01-17 Nosa Omoigui Information nervous system
BR0210589A (pt) 2001-06-22 2005-04-26 Nosa Omoigui Sistema e método para a recuperação, o gerenciamento, a entrega e a apresentação do conhecimento
US20070016563A1 (en) 2005-05-16 2007-01-18 Nosa Omoigui Information nervous system
WO2003032188A1 (en) 2001-10-05 2003-04-17 Vitria Technology, Inc. System and method for vocabulary-based data transformation
US6826568B2 (en) 2001-12-20 2004-11-30 Microsoft Corporation Methods and system for model matching
US20040010491A1 (en) 2002-06-28 2004-01-15 Markus Riedinger User interface framework
US7136807B2 (en) * 2002-08-26 2006-11-14 International Business Machines Corporation Inferencing using disambiguated natural language rules
CA2499513A1 (en) * 2002-09-20 2004-04-01 Board Of Regents, University Of Texas System Computer program products, systems and methods for information discovery and relational analysis
US8127224B2 (en) 2003-06-11 2012-02-28 Wtvii, Inc. System for creating and editing mark up language forms and documents
WO2005038668A2 (en) 2003-10-17 2005-04-28 Rightscom Limited Computer implemented methods and systems for representing multiple schemas and transferring data between different data schemas within a contextual ontology
US20050160107A1 (en) 2003-12-29 2005-07-21 Ping Liang Advanced search, file system, and intelligent assistant agent
US7433876B2 (en) 2004-02-23 2008-10-07 Radar Networks, Inc. Semantic web portal and platform
US7519596B2 (en) 2004-03-30 2009-04-14 Microsoft Corporation Globally trusted credentials leveraged for server access control
US7249135B2 (en) 2004-05-14 2007-07-24 Microsoft Corporation Method and system for schema matching of web databases
US20060053172A1 (en) 2004-09-03 2006-03-09 Biowisdom Limited System and method for creating, editing, and using multi-relational ontologies
US7505989B2 (en) 2004-09-03 2009-03-17 Biowisdom Limited System and method for creating customized ontologies
US7493333B2 (en) 2004-09-03 2009-02-17 Biowisdom Limited System and method for parsing and/or exporting data from one or more multi-relational ontologies
US20060053099A1 (en) 2004-09-03 2006-03-09 Biowisdom Limited System and method for capturing knowledge for integration into one or more multi-relational ontologies
US20060053175A1 (en) 2004-09-03 2006-03-09 Biowisdom Limited System and method for creating, editing, and utilizing one or more rules for multi-relational ontology creation and maintenance
US7496593B2 (en) 2004-09-03 2009-02-24 Biowisdom Limited Creating a multi-relational ontology having a predetermined structure
US20060053174A1 (en) 2004-09-03 2006-03-09 Bio Wisdom Limited System and method for data extraction and management in multi-relational ontology creation
US20060074832A1 (en) 2004-09-03 2006-04-06 Biowisdom Limited System and method for utilizing an upper ontology in the creation of one or more multi-relational ontologies
US20060053171A1 (en) 2004-09-03 2006-03-09 Biowisdom Limited System and method for curating one or more multi-relational ontologies
US20060074980A1 (en) 2004-09-29 2006-04-06 Sarkar Pte. Ltd. System for semantically disambiguating text information
EP1708099A1 (en) 2005-03-29 2006-10-04 BRITISH TELECOMMUNICATIONS public limited company Schema matching
EP1866818A1 (en) * 2005-03-31 2007-12-19 Koninklijke Philips Electronics N.V. System and method for collecting evidence pertaining to relationships between biomolecules and diseases
US7912701B1 (en) * 2005-05-04 2011-03-22 IgniteIP Capital IA Special Management LLC Method and apparatus for semiotic correlation
US20070106499A1 (en) * 2005-08-09 2007-05-10 Kathleen Dahlgren Natural language search system
WO2007084791A2 (en) 2006-01-20 2007-07-26 Glenbrook Associates, Inc. System and method for managing context-rich database
US7647298B2 (en) 2006-03-23 2010-01-12 Microsoft Corporation Generation of query and update views for object relational mapping
US20080021912A1 (en) 2006-07-24 2008-01-24 The Mitre Corporation Tools and methods for semi-automatic schema matching
US7558791B2 (en) 2006-07-31 2009-07-07 Informed Control Inc System and method for ontology-based translation between directory schemas
US8510321B2 (en) 2006-08-03 2013-08-13 International Business Machines Corporation Information retrieval from relational databases using semantic queries
JP4171757B2 (ja) 2006-09-28 2008-10-29 株式会社東芝 オントロジー統合支援装置、オントロジー統合支援方法及びオントロジー統合支援プログラム
US20080091634A1 (en) 2006-10-15 2008-04-17 Lisa Seeman Content enhancement system and method and applications thereof
US20080091727A1 (en) 2006-10-17 2008-04-17 Craig Burton Wynett Innovation by analogy
NO325864B1 (no) * 2006-11-07 2008-08-04 Fast Search & Transfer Asa Fremgangsmåte ved beregning av sammendragsinformasjon og en søkemotor for å støtte og implementere fremgangsmåten
US8468244B2 (en) * 2007-01-05 2013-06-18 Digital Doors, Inc. Digital information infrastructure and method for security designated data and with granular data stores
US7890518B2 (en) * 2007-03-29 2011-02-15 Franz Inc. Method for creating a scalable graph database
US8112416B2 (en) * 2007-05-25 2012-02-07 International Business Machines Corporation Method and system for semantic publish-subscribe services
WO2008146807A1 (ja) 2007-05-31 2008-12-04 Nec Corporation オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム
US7792836B2 (en) 2007-06-17 2010-09-07 Global Telegenetics, Inc. Portals and doors for the semantic web and grid
US8401980B2 (en) 2009-11-10 2013-03-19 Hamid Hatama-Hanza Methods for determining context of compositions of ontological subjects and the applications thereof using value significance measures (VSMS), co-occurrences, and frequency of occurrences of the ontological subjects
US20090048907A1 (en) 2007-08-13 2009-02-19 Universal Passage, Inc. Method and system for advertising and data mining as a part of a marketing and sales program for universal critical life stage decision support
US20090077094A1 (en) 2007-09-17 2009-03-19 Yan Bodain Method and system for ontology modeling based on the exchange of annotations
CN101398831B (zh) * 2007-09-27 2013-08-21 日电(中国)有限公司 本体数据导入/导出方法及装置
US8041746B2 (en) 2007-10-30 2011-10-18 Sap Ag Mapping schemas using a naming rule
KR100963623B1 (ko) * 2008-04-23 2010-06-15 재단법인서울대학교산학협력재단 시맨틱 웹 자원의 랭킹처리방법
US8401991B2 (en) 2008-08-08 2013-03-19 Oracle International Corporation Database-based inference engine for RDFS/OWL constructs
US8738636B2 (en) 2008-09-19 2014-05-27 Yves Reginald JEAN-MARY Ontology alignment with semantic validation
US8103962B2 (en) 2008-11-04 2012-01-24 Brigham Young University Form-based ontology creation and information harvesting
KR100993288B1 (ko) * 2008-12-15 2010-11-09 한국과학기술정보연구원 Dbms 기반의 rdf 트리플 저장부에서의 뷰를 이용한 효율적인 추론 시스템 및 방법
US8219540B2 (en) * 2009-02-26 2012-07-10 Raytheon Company Information viewing stem
US8775433B2 (en) * 2009-10-16 2014-07-08 Oracle International Corporation Self-indexing data structure
US20130166303A1 (en) * 2009-11-13 2013-06-27 Adobe Systems Incorporated Accessing media data using metadata repository
US8793208B2 (en) 2009-12-17 2014-07-29 International Business Machines Corporation Identifying common data objects representing solutions to a problem in different disciplines
EP2583195B1 (en) * 2010-06-21 2019-11-27 Telefonaktiebolaget LM Ericsson (publ) Method and server for handling database queries
US20120173493A1 (en) * 2011-01-03 2012-07-05 Nokia Corporation Method and apparatus for providing safeguarding against malicious ontologies
US8478766B1 (en) * 2011-02-02 2013-07-02 Comindware Ltd. Unified data architecture for business process management
AU2011201127A1 (en) * 2011-03-14 2012-10-04 Moxy Studios Pty Ltd Collaborative Knowledge Management
US8528018B2 (en) * 2011-04-29 2013-09-03 Cisco Technology, Inc. System and method for evaluating visual worthiness of video data in a network environment
US8747115B2 (en) 2012-03-28 2014-06-10 International Business Machines Corporation Building an ontology by transforming complex triples
US8539001B1 (en) 2012-08-20 2013-09-17 International Business Machines Corporation Determining the value of an association between ontologies

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216851A (zh) * 2008-01-11 2008-07-09 孟小峰 一种本体数据(Ontology)管理系统和方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Automatic Lexicon-based Ontology-creation;Ulrik Petersen;《A methodological study》;20030106;第2.4节,第2.5节,第4.2.6节,第4.4.2节,第4.4.3节,第4.4.5节,第4.6.2节,第4.6.4节,第5.1节,第5.2节,第5.4.3节,第5.4.4节,第5.5.1节,第5.6.5节,第5.6.6节,第5.6.7节,附录A *
Identifying Key Concepts in an Ontology, through the Integration of Cognitive Principles with Statistical and Topological Measures;Silvio Peroni 等;《Springer-Verlag Berlin Heidelberg》;20081231;243 *
Ontological Modeling: Part 2;Terry Halpin;《Business Rules Journal》;20091231;1 *

Also Published As

Publication number Publication date
US9489453B2 (en) 2016-11-08
WO2013144744A1 (en) 2013-10-03
US9298817B2 (en) 2016-03-29
CN104205092A (zh) 2014-12-10
US20140237000A1 (en) 2014-08-21
US8747115B2 (en) 2014-06-10
US20160171099A1 (en) 2016-06-16
US20130260358A1 (en) 2013-10-03

Similar Documents

Publication Publication Date Title
CN104205092B (zh) 通过变换复杂三元组建立本体的方法和系统
CN110347843B (zh) 一种基于知识图谱的中文旅游领域知识服务平台构建方法
CN107291687B (zh) 一种基于依存语义的中文无监督开放式实体关系抽取方法
Buccella et al. Ontology-driven geographic information integration: A survey of current approaches
Habernal et al. SWSNL: semantic web search using natural language
CN106663101A (zh) 本体映射方法和设备
Dimou et al. Mapping hierarchical sources into RDF using the RML mapping language
CN102693310A (zh) 一种基于关系数据库的资源描述框架查询方法和系统
CN107491476B (zh) 一种适用于多种大数据管理系统的数据模型转换及查询分析方法
CN116244344A (zh) 基于用户需求的检索方法、装置以及电子设备
CN114168615A (zh) 自然语言查询智能变电站scd文件的方法及系统
Dannélls et al. A framework for improved access to museum databases in the semantic web
Elasri et al. An ontology-based method for semantic integration of business components
Chiarcos A generic formalism to represent linguistic corpora in RDF and OWL/DL.
Damljanovic Natural language interfaces to conceptual models
Wagih et al. Mapping object role modeling 2 schemes to OWL2 ontologies
CN102646099B (zh) 模式匹配系统、模式映射系统及方法
Stanimirović et al. Methodology and intermediate layer for the automatic creation of ontology instances stored in relational databases
Dimitriadis et al. How to integrate databases without starting a typology war: The Typological Database System
Zhu et al. Auto-construction of course knowledge graph based on course knowledge
Kubis A query language for WordNet-like lexical databases
Wu et al. Multi-hop community question answering based on multi-aspect heterogeneous graph
Naz et al. Fully automatic OWL generator from RDB schema
Guo et al. Enriching city entities in the EKOSS failure cases knowledge base with Linked Open Data
Belhadef A new bidirectional method for ontologies matching

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211104

Address after: USA New York

Patentee after: Qindarui Co.

Address before: USA New York

Patentee before: International Business Machines Corp.

TR01 Transfer of patent right