CN117015772A - 依赖于话语树以构建本体 - Google Patents

依赖于话语树以构建本体 Download PDF

Info

Publication number
CN117015772A
CN117015772A CN202280007822.5A CN202280007822A CN117015772A CN 117015772 A CN117015772 A CN 117015772A CN 202280007822 A CN202280007822 A CN 202280007822A CN 117015772 A CN117015772 A CN 117015772A
Authority
CN
China
Prior art keywords
entity
response
tree
phrase
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280007822.5A
Other languages
English (en)
Inventor
B·加里斯基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oracle International Corp
Original Assignee
Oracle International Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/466,409 external-priority patent/US11914961B2/en
Application filed by Oracle International Corp filed Critical Oracle International Corp
Priority claimed from PCT/US2022/011280 external-priority patent/WO2022150359A1/en
Publication of CN117015772A publication Critical patent/CN117015772A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明的系统、设备和方法涉及话语树。在示例中,一种方法涉及生成话语树。该方法包括从话语树中识别与类型详述的修辞关系相关联并且与识别文本的中心实体的主题节点对应的中心实体。该方法包括确定与中心实体相关联的话语树的基本话语单元的子集。该方法包括从基本话语单元的子集形成泛化短语。该方法包括从泛化短语形成元组,其中元组是正常形式的词语的有序集合。该方法涉及响应于成功地将与识别出的元组相关联的基本话语单元转换成逻辑表示,用来自识别出的元组的实体来更新本体。

Description

依赖于话语树以构建本体
相关申请的交叉引用
本申请要求于2021年9月3日提交的美国专利申请No.17/466,409的优先权,该申请要求于2021年1月7日提交的美国临时申请No.63/134,757的权益,这些申请的内容在此通过引用将其整体并入本文以用于所有目的。
技术领域
本公开一般涉及语言学。更具体地,本公开涉及使用话语技术来形成本体(ontology)。
背景技术
语言学是语言的科学研究。语言学的一方面是将计算机科学应用于人类自然语言,诸如英语。由于极大提高的处理器的速度和存储器的容量,语言学的计算机应用正在增加。例如,启用计算机的对语言话语的分析促进了可以回答来自用户的问题的许多应用,诸如自动化代理。但此类应用无法利用丰富的话语相关信息来形成本体,从而导致回答问题、执行对话管理或提供推荐系统方面较差。
发明内容
一般而言,本发明的系统、设备和方法涉及使用话语技术来生成或扩展本体。在示例中,计算机实现的方法确定话语树中与中心实体相关联的文本。该方法对文本进行泛化(generalize)。
在一方面,一种扩展本体的方法包括从包括片段的文本生成表示片段之间的修辞相互关系(relationship)的话语树。话语树包括节点,每个非终端节点表示两个片段之间的修辞相互关系,并且话语树的节点中的每个终端节点与片段中的一个相关联。该方法还包括从话语树中识别与不是类型详述(elaboration)或类型联合(joint)的修辞关系相关联并且与识别文本的中心实体的主题(topic)节点对应的中心实体。该方法还包括从话语树中确定与中心实体相关联的基本话语单元的子集。确定基本话语单元的子集包括识别与类型详述的关系相关联的核心(nucleus)基本话语单元。该方法还包括通过在与基本话语单元的子集相关联的文本中识别对基本话语单元的子集中的两个或更多个基本话语单元共同的一个或多个元素来形成泛化短语(generalized phrase)。该方法还包括通过将一个或多个句法或语义模板应用于一个或多个共同元素来从泛化短语形成元组。每个元组是正常形式的词语的有序集合。该方法还包括将元组中的每个元组识别为具有包括以下的类型:名词短语、动词短语、形容词短语或介词短语。该方法还包括响应于成功地将与识别出的元组相关联的基本话语单元转换成包括谓词(predicate)和论元(argument)的逻辑表示,用来自识别出的元组的实体来更新本体。转换基于识别出的元组的类型。
在一方面,该方法还包括响应于从用户设备接收到查询,在本体中定位实体并向用户设备提供该实体。
在一方面,该方法还包括识别实体类。识别实体类涉及将元组编码为向量表示、向机器学习模型提供向量表示以及从机器学习模型接收实体类。
在一方面,向用户设备提供实体包括向用户设备提供实体类。
在一方面,识别中心实体包括定位话语树中的根节点。识别中心实体包括从话语树中确定与表示类型详述的修辞相互关系的非终端节点相关联并且表示核心基本话语单元的终端节点的子集。识别中心实体包括对于终端节点的子集中的每个节点计算距根节点的相应的路径长度。识别中心实体包括从终端节点的子集中识别具有作为所述路径长度中的最小路径长度的路径长度的主题节点。
在一方面,将与一个或多个元组相关联的每个基本话语单元转换成相应的逻辑表示包括识别出元组的类型是名词短语或介词短语,提取中心名词(head noun)或最后的名词中的一个或多个作为逻辑谓词,以及提取一个或多个其他词语作为该逻辑谓词的论元。
在一方面,将与一个或多个元组相关联的每个基本话语单元转换成相应的逻辑表示包括识别出元组的类型是动词短语以及提取元组的动词作为谓词并提取一个或多个其他词语作为论元。
在一方面,每个元组包括谓词、主语(subject)和宾语(object)。
在一方面,该方法还包括识别与泛化短语对应的一个或多个元组的实体类。实体类表示实体的类别。更新还包括用实体类更新本体。
在一方面,一种系统包括存储计算机可执行程序指令的非暂态计算机可读介质以及通信地耦合到非暂态计算机可读介质以用于执行计算机可执行程序指令的处理设备。执行计算机可执行程序指令将处理设备配置为执行操作。这些操作包括从包括片段的文本生成表示片段之间的修辞相互关系的话语树。话语树包括节点,每个非终端节点表示两个片段之间的修辞相互关系,并且话语树的节点中的每个终端节点与片段中的一个相关联。这些操作包括从话语树中识别中心实体,该中心实体(i)与类型详述或类型联合的修辞关系相关联,并且(ii)与识别文本的中心实体的主题节点对应。这些操作包括通过将话语树中具有动词的每个片段与预定动词签名匹配,从话语树构造交流(communicative)话语树。这些操作包括从交流话语树中识别与类型详述的修辞关系相关联并且与识别文本的中心实体的主题节点对应的中心实体。这些操作包括从交流话语树中确定与中心实体相关联的基本话语单元的子集。确定基本话语单元的子集包括识别与类型详述的关系相关联的核心基本话语单元。这些操作还包括通过在与基本话语单元的子集相关联的文本中识别对基本话语单元的子集中的两个或更多个基本话语单元共同的一个或多个元素来形成泛化短语。这些操作还包括通过将一个或多个句法或语义模板应用于相应的短语来从一个或多个共同元素形成元组。每个元组是正常形式的词语的有序集合。这些操作还包括将元组中的每个元组识别为具有包括以下的类型:名词短语、动词短语、形容词短语或介词短语。这些操作还包括响应于成功地将与识别出的元组相关联的基本话语单元转换成包括谓词和论元的逻辑表示,用来自识别出的元组的实体来更新本体。转换基于识别出的元组的类型。
上述方法可以被实现为有形的计算机可读介质和/或在计算机处理器和附接的存储器内操作。
附图说明
图1描绘了根据一方面的示例性本体环境。
图2描绘了根据一方面的话语树的示例。
图3描绘了根据一方面的话语树的进一步的示例。
图4描绘了根据一方面的说明性模式(schema)。
图5描绘了根据一方面的分层二叉树的节点链接表示。
图6描绘了根据一方面的图5中的表示的示例性缩进文本编码。
图7描绘了根据一方面的关于财产税的示例请求的示例性话语树。
图8描绘了对图7中表示的问题的示例性响应。
图9图示了根据一方面的用于第一回答的话语树。
图10图示了根据一方面的用于第二回答的话语树。
图11图示了根据一方面的用于第一代理的声明(claim)的交流话语树。
图12图示了根据一方面的用于第二代理的声明的交流话语树。
图13图示了根据一方面的用于第三代理的声明的交流话语树。
图14图示了根据一方面的解析丛林(parse thicket)。
图15图示了根据一方面的用于构建交流话语树的示例性处理。
图16描绘了根据本公开的一方面的从文本中提取逻辑子句(clause)的示例。
图17描绘了根据本公开的一方面的实体关系图的示例。
图18描绘了根据本公开的一方面的实体图和话语树。
图19描绘了根据本公开的一方面的事件注释(annotation)的示例。
图20描绘了根据本公开的一方面的注释的示例可视化。
图21描绘了根据本公开的一方面的抽象含义表示图和事件分类法。
图22描绘了根据本公开的一方面的用于获得层次结构的短语的聚合。
图23描绘了根据本公开的一方面的实体网格矩阵。
包括图24A和图24B的图24描绘了根据本公开的一方面的句法树。
图25描绘了根据本公开的一方面的实体相互关系图。
图26描绘了根据本公开的一方面的附加的实体相互关系图。
图27描绘了根据本公开的一方面的话语树。
图28是根据本公开的一方面的用于扩充本体的示例性处理的流程图。
图29描绘了用于实现这些方面中的一个方面的分布式系统的简化图。
图30是根据一方面的系统环境的组件的简化框图,通过该系统环境,可以作为云服务提供由方面系统的组件提供的服务。
图31图示了其中可以实现本发明的各种方面的示例性计算机系统。
具体实施方式
本文公开的方面提供了对计算机实现的语言学的领域的技术改进。更具体地,某些方面使用话语和其他技术来生成改进的本体。本体包括实体以及相关实体或属性的对之间的关系。可以为任何知识领域(诸如法律、技术、医学等)构造本体。进而,本体可以用于诸如决策支持系统(DSS)或搜索工具之类的电子系统。
作为示例,在医学领域中,本体可以将疾病映射到药物名称映射到治疗。本体在医学中的使用主要集中在医学术语的表示上。例如,卫生专业人员使用本体来表示关于疾病的症状和治疗的知识。制药企业使用本体来表示关于药物、剂量和过敏的信息。
本体是用于支持医疗活动的众多DSS的基础,因此底层本体的质量影响使用依赖于这些本体的DSS的结果。因此,自动构建的医学本体(包括模式知识和个体描述)由领域专家验证。出于该原因,传统上,构建和调整医学本体已经依赖于领域专家(例如,卫生专业人员)和知识工程师之间的密切合作。存在现有的自动化本体构造技术,但局限于创建部分解决方案。
因此,一些方面的技术优势包括经由使用更准确地表示源文本的话语技术实现的改进的本体。与先前的技术相比,使用话语技术促进了从源文本中选择更相关的本体条目。受益于改进的本体的应用的示例包括搜索系统、推荐系统、DSS、自主代理和诊断系统。
此外,一些方面使用交流话语树(CDT)。CDT是包括交流动作的话语树。通过结合识别交流动作的标记(label),交流话语树的学习可以发生在比仅基本话语单元(EDU)的修辞关系和句法更丰富的特征集上。利用此类特征集,可以使用附加的技术来开发和/或论证本体,从而实现改进的自动化代理。通过这样做,计算系统能够实现能够智能地回答问题的自主代理。
某些定义
如本文所使用的,“修辞结构理论”是提供了可以分析话语的连贯性的理论基础的研究和学习领域。
如本文所使用的,“话语树”或“DT”是指表示句子(sentence)的一部分的句子的修辞关系的结构。
如本文中所使用的,“修辞关系”、“修辞相互关系”或“连贯关系”或“话语关系”是指话语的两个段在逻辑上如何彼此连接。修辞关系的示例包括详述、对比(contrast)和归因(attribution)。
如本文所使用的,“句子片段”或“片段”是可以与句子的其余部分分开的句子的一部分。片段是基本话语单元。例如,对于句子“Company B says that evidence points toorganization C as being responsible for causing the loss(B公司说,证据指向C组织被认为对于造成损失负责)”,两个片段是“Company B says that evidence points toorganization C(B公司说,证据指向C组织)”和“as being responsible for causing theloss(被认为对于造成损失负责)”。片段可以但不必包括动词。
如本文所使用的,“签名”或“框架”是指片段中的动词的性质。每个签名可以包括一个或多个题元角色。例如,对于片段“Company B says that evidence points toorganization C(B公司说,证据指向C组织)”,动词是“say”并且动词“say”的这种特定用法的签名可以是“代理动词主题(agent verb topic)”,其中“Company B”是代理,并且“evidence”是主题。
如本文所使用的,“题元角色”是指用于描述一个或多个词语的角色的签名的组成部分。继续先前的示例,“代理”和“主题”是题元角色。
如本文中所使用的,“核心性(nuclearity)”是指哪个文本段、片段或区段(span)对于作者的目的更为中心。核心是更中心的区段,而卫星(satellite)是更不中心的区段。
如本文所使用的,“相干(coherency)”是指将两个修辞关系链接在一起。
如本文所使用的,“交流动词(communicative verb)”是指示交流的动词。例如,动词“deny(否认)”是交流动词。
如本文所使用的,“交流动作(communicative action)”描述了由一个或多个代理和代理的主体执行的动作。
如本文所使用的,“声明”是对某事的真实性的断言。例如,声明可以是“我不负责支付本月的租金(I am not responsible for paying rent this month)”或“租金迟交了(the rent is late)”。
如本文所使用的,“论元”是为支持声明而提出的理由(reason)或理由的集合。上述声明的示例论元是“必要的维修没有完成(the necessary repairs were notcompleted)”。
如本文所使用的,“论元有效性”或“有效性”是指支持声明的论元是否是内部且一致的。内部一致性是指论元是否与自身一致,例如,不包含两个相互矛盾的陈述。外部一致性是指论元是否与已知的事实和规则一致。
如本文所使用的,“逻辑系统”或“逻辑程序”是指令、规则、事实和可以表示特定声明的论证的其他信息的集合。解决逻辑系统导致确定论证是否有效。
图1描绘了根据一方面的示例性本体环境。图1描绘了计算设备101、输入文本120和本体140。计算设备的示例包括分别在图29和图30中描绘的客户端计算设备2902、2904、2906和2908以及客户端计算设备3004、3006、3008。在所描绘的示例中,计算设备101访问输入文本120并使用话语和其他技术来形成和/或更新本体140。用于为本体创建条目的处理的示例是关于图28进行讨论的处理2800。本体包括关于特定主题领域(诸如法律、工程或医学)的数据或信息。本体通常包括多个条目,其中每个条目可以包括逻辑陈述和对其他条目或外部源的交叉引用。
计算设备101包括应用122、话语解析器104、机器学习模型124和训练数据125中的一个或多个。应用122可以被配置为执行本文描述的操作,诸如解析文本、将语义或句法模板应用于文本等等。话语解析器104可以创建话语树和/或交流话语树。用于创建形成话语树的处理的示例是关于图16进行讨论的处理1600。机器学习模型124可以是分类器、预测模型或其他类型的模型。合适的模型的示例包括树核模型和最近邻模型。可以使用监督或无监督技术来训练机器学习模型124。可以使用训练数据125来训练机器学习模型124。训练数据可以包括带有相关联的训练标记的正负数据集。
修辞结构理论和话语树
语言学是语言的科学研究。例如,语言学可以包括句子的结构(句法),例如,主语-动词-宾语;句子的含义(语义),例如,狗咬猫与猫咬狗;以及说话者在会话中做什么,即,句子之外的话语分析或语言分析。
话语的理论基础——修辞结构理论(RST)可以归功于Mann,William和Thompson,Sandra,“Rhetorical structure theory:ATheory of Text organization,”Text-Interdisciplinary Journal for the Study of Discourse,8(3):243–281,1988。类似于编程语言理论的句法和语义如何帮助实现现代软件编译器,RST帮助实现了话语的分析。更具体地,RST假设了至少两个层次上的结构块,诸如核心性和修辞关系的第一层次,以及结构或模式的第二层次。话语解析器或其他计算机软件可以将文本解析成话语树。
修辞结构理论对文本的逻辑组织进行建模,文本的逻辑组织是由作者采用的结构,它依赖于文本的各部分之间的关系。RST通过经由话语树形成文本的分层连接结构来模拟文本连贯性。修辞关系被分为同级(coordinate)和从属(subordinate)的类;这些关系跨两个或更多个文本区段保持,因此实现了连贯性。这些文本区段被称为基本话语单元(EDU)。句子中的子句和文本中的句子由作者逻辑连接。给定句子的含义与先前和随后的句子的含义相关。子句之间的这种逻辑关系被称为文本的连贯结构。RST是最流行的话语理论中的一个,它基于树状的话语结构——话语树(DT)。DT的叶子对应于EDU,即连续的原子文本区段。相邻的EDU通过连贯关系(例如,归因、序列)相连接,从而形成更高层次的话语单元。然后,这些单元也受此关系链接的约束。通过关系而链接的EDU然后基于其相对重要性来区分:核心是关系的核心部分,而卫星是外围部分。如所讨论的那样,为了确定准确的请求-响应对,主题和修辞一致性两者都被分析。当说话者回答问题(诸如短语或句子)时,说话者的回答应该针对该问题的主题。在经由消息的种子文本隐式提出问题的情况下,期望不仅维持主题而且还与该种子的广义认知状态匹配的适当回答。
修辞关系
如所讨论的那样,本文描述的方面使用交流话语树。可以用不同的方式来描述修辞关系。例如,Mann和Thompson描述了23种可能的关系。C.Mann,William&Thompson,Sandra.(1987)(“Mann和Thompson”).Rhetorical Structure Theory:A Theory of TextOrganization。其他数量的关系是可能的。
一些实证研究假设大多数文本是使用核心-卫星关系结构化的。参见Mann和Thompson。但是其他关系并没有承载对核心的明确选择。此类关系的示例如下所示。
图2描绘了根据一方面的话语树的示例。图2包括话语树200。话语树包括文本区段201、文本区段202、文本区段203、关系210和关系228。图2中的数字对应于三个文本区段。图3对应于具有编号为1、2、3的三个文本区段的以下示例文本:
1.Honolulu,Hawaii will be site of the 2017Conference on HawaiianHistory(夏威夷火奴鲁鲁将成为2017年夏威夷历史会议的举办地)
2.It is expected that 200historians from the U.S.and Asia will attend(预计将有来自美国和亚洲的200名历史学家参加)
3.The conference will be concerned with how the Polynesians sailed toHawaii(会议将关注波利尼西亚人如何航行到夏威夷)
例如,关系210(或详述)描述了文本区段201和文本区段202之间的相互关系。关系228描绘了文本区段203和204之间的相互关系(详述)。如所描绘的那样,文本区段202和203进一步详述文本区段201。在上面的示例中,给定向读者通知会议的目标,文本区段1是核心。文本区段2和3提供关于会议的更多细节。在图2中,水平数字(例如,1-3、1、2、3)覆盖文本的(可能由进一步的区段组成的)区段;垂直线标示一个或多个核心;并且曲线表示修辞关系(详述)并且箭头的方向从卫星指向核心。如果文本区段仅充当卫星而不充当核心,则删除该卫星仍将留下连贯的文本。如果某人从图2中删除核心,则文本区段2和3将难以理解。
图3描绘了根据一方面的话语树的进一步的示例。图3包括组成部分301和302、文本区段305-307、关系310和关系328。关系310描绘了组成部分306和305以及307和305之间的相互关系——使能。图3涉及以下文本区段:
1.The new Tech Report abstracts are now in the journal area of thelibrary near the abridged dictionary.(现在新的技术报告摘要在图书馆的靠近节本词典的期刊区域中。)
2.Please sign your name by any means that you would be interested inseeing.(请以任何您有兴趣看到的手段签署您的名字。)
3.Last day for sign-ups is 31May.(签署的最后一天是5月31日。)
如可以看到的那样,关系328描绘了实体307和306之间的相互关系(该相互关系是使能)。图3图示了虽然核心可以被嵌套,但是仅存在一个最核心的文本区段。
构造话语树
可以使用不同的方法来生成话语树。自底向上构造DT的方法的简单示例是:
(1)通过以下方式将话语文本划分成单元:
(a)取决于分析的目标,单元大小可以不同
(b)典型地,单元是子句
(2)检查每个单元及其邻居。它们之间是否保持有关系?
(3)如果是,则标记该关系。
(4)如果不是,则该单元可能位于更高层次关系的边界处。查看更大的单元(区段)之间保持的关系。
(5)继续,直到查明了文本中的所有单元为止。
Mann和Thompson还描述了构建被称为模式应用的块结构的第二层次。在RST中,修辞关系没有被直接映射到文本上;它们被适配到被称为模式应用的结构上,并且这些结构进而被适配到文本。模式应用是从被称为模式的更简单的结构派生的(如图4所示)。每个模式指示如何将文本的特定单元分解成其他更小的文本单元。修辞结构树或DT是模式应用的分层系统。模式应用链接多个连续的文本区段,并创建复杂的文本区段,该复杂的文本区段进而可以由更高层次的模式应用链接。RST断言每个连贯话语的结构可以由单个修辞结构树来描述,该单个修辞结构树的顶部模式创建涵盖整个话语的区段。
图4描绘了根据一方面的说明性模式。图4示出了联合模式是由没有卫星的核心组成的项目列表。图4描绘了模式401-406。模式401描绘了文本区段410和428之间的环境关系。模式402描绘了文本区段420和421之间的序列关系以及文本区段421和422之间的序列关系。模式403描绘了文本区段430和431之间的对比关系。模式404描绘了文本区段440和441之间的联合相互关系。模式405描绘了450和451之间的动机相互关系,以及452和451之间的使能相互关系。模式406描绘了文本区段460和462之间的联合相互关系。图4中示出了针对以下三个文本区段的联合模式的示例:
1.Skies will be partly sunny in the New York metropolitan area today.(今天纽约都会区的天空将部分晴朗。)
2.It will be more humid,with temperatures in the middle 80’s.(天气将更加潮湿,并且温度在80中部)
3.Tonight will be mostly cloudy,with the low temperature between65and 70.(今晚将大部分多云,并具有在65至70之间的低温。)
虽然图2-图4描绘了话语树的一些图形表示,但其他表示是可能的。
图5描绘了根据一方面的分层二叉树的节点链接表示。如从图5中可以看到的那样,DT的叶子对应于被称为基本话语单元(EDU)的连续非重叠文本区段。相邻的EDU通过关系(例如,详述、归因...)相连接并形成更大的话语单元,这些话语单元也通过关系相连接。“RST中的话语分析涉及两个子任务:话语分割是识别EDU的任务,并且话语解析是将话语单元链接成标记的树的任务”。参见Joty,Shafiq R and Giuseppe Carenini,Raymond TNg,和Yashar Mehdad.2013.Combining intra-and multi-sentential rhetorical parsingfor document-level discourse analysis.In ACL(1),第486-496页。
图5描绘了作为树上的叶子或终端节点的文本区段,每一个按它们在图6中所示的全文中出现的次序进行编号。图5包括树500。树500包括例如节点501-507。节点指示相互关系。节点是非终端的(诸如节点501),或者是终端的(诸如节点502-507)。如可以看到的那样,节点503和504通过联合相互关系而相关。节点502、505、506和508是核心。虚线指示分支或文本区段是卫星。关系是灰色框中的节点。
图6描绘了根据一方面的图5中的表示的示例性缩进文本编码。图6包括文本600和文本序列602-604。文本600以更适用于计算机编程的方式呈现。文本序列602对应于节点502,序列603对应于节点503,并且序列604对应于节点504。在图6中,“N”指示核心,并且“S”指示卫星。
话语解析器的示例
可以用不同的方法来执行自动话语分割。例如,给定句子,分割模型通过预测是否应在句子中的每个特定词符(token)之前插入边界来识别复合基本话语单元的边界。例如,一个框架按顺序且独立地考虑句子中的每个词符。在这个框架中,分割模型逐个词符地扫描句子,并使用二元分类器(诸如支持向量机或逻辑回归)来预测在正被检查的词符之前插入边界是否是适当的。在另一个示例中,任务是顺序标记问题。一旦将文本分割成基本话语单元,就可以执行句子层次话语解析以构造话语树。可以使用机器学习技术。
在本发明的一个方面,使用了两个修辞结构理论(RST)话语解析器:依赖于成分句法的CoreNLPProcessor,以及使用依存句法的FastNLPProcessor。参见Surdeanu,Mihai&Hicks,Thomas&Antonio Valenzuela-Escarcega,Marco.Two Practical RhetoricalStructure Theory Parsers.(2015)。
此外,上述的两个话语解析器(即,CoreNLPProcessor和FastNLPProcessor)使用自然语言处理(NLP)来进行句法解析。例如,Stanford CoreNLP给出了词语的基本形式、它们的词性、它们是否是公司、人的名称等,对日期、时间和数值量进行规范化,根据短语和句法依存来标记句子的结构,指示哪些名词短语指代相同的实体。实际上,RST仍然是在话语的许多情况下可能起作用但在一些情况下可能不起作用的理论。存在许多可变因素,包括但不限于,连贯文本中有哪些EDU(即,使用了哪些话语分割器、使用了哪些关系清单以及为EDU选择了哪些关系)、用于训练和测试的文档的语料库以及甚至使用了哪些解析器。因此,例如,在上面引用的Surdeanu等人的“Two Practical Rhetorical Structure TheoryParsers”论文中,必须使用专用的指标在特定语料库上运行测试,以确定哪个解析器给出更好的性能。因此,与给出可预测结果的计算机语言解析器不同,话语解析器(和分割器)可能取决于训练和/或测试文本语料库而给出不可预测的结果。因此,话语树是可预测技术(例如,编译器)和不可预测技术(例如,像化学一样需要进行实验来确定哪些组合将给你期望的结果)的混合。
为了客观地确定话语分析有多好,正在使用一系列指标,例如来自Daniel Marcu,“The Theory and Practice of Discourse Parsing and Summarization,”MIT Press,(2000)的精确率(Precision)/召回率(Recall)/F1指标。精确率或正预测值是检索到的实例当中相关实例所占的比例(fraction),而召回率(也被称为敏感性)是在相关实例的总量上已被检索的相关实例所占的比例。因此,精确率和召回率两者都基于对相关性(relevance)的理解和测量。假设用于识别照片中的狗的计算机程序在包含12条狗和一些猫的图片中识别出8条狗。在识别出的八条狗中,五条实际上是狗(真阳性),而其余的是猫(假阳性)。该程序的精确率为5/8,而它的召回率为5/12。当搜索引擎返回30页,其中只有20页是相关的,而未能返回40个附加的相关页时,其精确率为20/30=2/3,而其召回率为20/60=1/3。因此,在这种情况下,精确率是“搜索结果有多么有用”,并且召回率是“结果有多么完整”。F1分数(也称为F-分数或F-度量)是测试的准确性的度量。它考虑了测试的精确率和召回率二者来计算分数:F1=2×((精确率×召回率)/(精确率+召回率))并且是精确率和召回率的调和平均值。F1分数在1处达到其最佳值(完美的精确率和召回率),并且在0处达到其最差值。
自主代理或聊天机器人
人类A和人类B之间的会话是话语的形式。例如,存在诸如Messenger、/>SMS等应用,除了更传统的电子邮件和语音会话之外,A和B之间的会话通常还可以经由消息进行。聊天机器人(其也可以被称为智能机器人或虚拟助手等)是例如取代人类B并在各种程度上模仿两个人类之间的会话的“智能”机器。示例最终目标是人类A不能分辨出B是人类还是机器(由Alan Turing在1950年开发的图灵测试)。话语分析、包括机器学习的人工智能以及自然语言处理已经针对通过图灵测试的长期目标取得了很大的进步。当然,随着计算机越来越能够搜索和处理大量数据储存库以及对数据执行复杂分析以包括预测分析,长期目标是使聊天机器人像人类一样并且与计算机组合。
例如,用户可以通过会话交互与智能机器人平台进行交互。也被称为会话用户接口(UI)的这种交互是最终用户和聊天机器人之间的对话,正如两个人类之间的对话一样。它可能像最终用户对聊天机器人说“Hello”然后聊天机器人以“Hi”响应并询问用户它能够怎样帮助一样简单,或者它可以是银行聊天机器人中的交易交互(诸如将资金从一个账户转移到另一个账户),或者是HR聊天机器人中的信息交互(诸如检查假期余额),或者是在零售聊天机器人中询问FAQ(诸如如何处理退货)。可以使用与其他方法组合的自然语言处理(NLP)和机器学习(ML)算法对最终用户意图进行分类。高层次的意图是最终用户想要实现的那些(例如,获得账户余额、进行购买)。意图本质上是客户输入到后端应执行的工作单元的映射。因此,基于用户在聊天机器人中说出的短语,将这些短语映射到特定且离散的用例或工作单元,例如,检查余额、转移资金和跟踪支出都是聊天机器人应支持并能够从最终用户以自然语言键入的自由文本条目中研究出应触发哪个工作单元的“用例”。
使AI聊天机器人像人类一样做出响应的基本原理是人类大脑可以制定和理解请求,然后对人类请求给出比机器好得多的好响应。因此,如果模仿人类B,则聊天机器人的请求/响应应该有显著改进。因此,问题的最初部分是人类大脑如何制定和理解请求?为了模仿,使用模型。RST和DT允许以形式化且可重复的方式完成这一点。
在高层次上,通常存在两种类型的请求:(1)执行某个动作的请求;和(2)对信息的请求,例如,问题。第一种类型具有创建工作单元的响应。第二种类型具有作为例如对该问题的良好回答的响应。例如,在一些方面,回答可以采取以下形式:AI从其广泛的(一个或多个)知识库中构造回答,或者从匹配来自搜索互联网或内联网或其他公共/私有可用数据源的最佳现有回答中构造回答。
交流话语树和修辞分类器
本公开的方面构建交流话语树,并使用交流话语树来分析请求或问题的修辞结构是否与回答一致。更具体地,本文描述的方面创建请求-响应对的表示,学习该表示,并将这些对关联到有效对或无效对的类中。以这种方式,自主代理可以从用户接收问题,(例如通过搜索多个回答)处理该问题,从这些回答中确定最佳回答,并向用户提供该回答。
更具体地,为了表示文本的语言特征,本文描述的方面使用修辞关系和言语行为(或交流动作)。修辞关系是句子的各部分之间的相互关系,它通常是从话语树中获得的。言语行为是从动词资源(诸如VerbNet)中作为动词获得的。通过使用修辞关系和交流动作两者,本文描述的方面可以正确地识别有效的请求-响应对。为了这样做,各方面将问题的句法结构与回答的句法结构相互关联。通过使用该结构,可以确定更好的回答。
例如,当自主代理从人接收到该人期望出售具有某些特征的项目的指示时,自主代理应提供不仅包含这些特征而且还指示购买的意图的搜索结果。以这种方式,自主代理已确定用户的意图。类似地,当自主代理从人接收到共享关于特定项目的知识的请求时,搜索结果应包含接收推荐的意图。当人向自主代理询问关于话题(subject)的意见时,自主代理分享关于该话题的意见,而不是征求另一意见。
分析请求和响应对
图7描绘了根据一方面的关于财产税的示例请求的示例性话语树。节点标记是关系并且带有箭头的线指向卫星。核心是实线。图7描绘了以下文本。
请求:“My husbands’grandmother gave him his grandfather’s truck.Shesigned the title over but due to my husband having unpaid fines on hislicense,he was not able to get the truck put in his name.I wanted to put inmy name and paid the property tax and got insurance for the truck.By the timeit came to sending off the title and getting the tag,I didn't have the moneyto do so.Now,due to circumstances,I am not going to be able to afford thetruck.I went to the insurance place and was refused a refund.I am justwondering that since I am not going to have a tag on this truck,is itpossible to get the property tax refunded?”(“我丈夫的祖母把他祖父的卡车给了他。她签字转让了车契,但是因为我丈夫在他的执照上有未支付的罚款,所以他无法将卡车放在他的名下。我想放在我的名下,并且支付了财产税,并为卡车买了保险。等到了送出车契和获得标签的时候,我没有钱这样做。现在,由于境况,我将无法负担起这辆卡车。我去了保险场所并且被拒绝退款。我只是想知道既然我不打算在这辆卡车上拥有标签,是否有可能使财产税退还?”)
响应:“The property tax is assessed on property that you own.Justbecause you chose to not register it does not mean that you don'town it,sothe tax is not refundable.Even if you have not titled the vehicle yet,youstill own it within the boundaries of the tax district,so the tax ispayable.Note that all states give you a limited amount of time to transfertitle and pay the use tax.If you apply late,there will be penalties on top ofthe normal taxes and fees.You don't need to register it at the same time,butyou absolutely need to title it within the period of time stipulated in statelaw.”(“财产税是对您拥有的财产征收的。仅仅因为您选择不注册它并不意味着您不拥有它,因此该税款不可退还。即使您尚未取得车辆的契书,您也仍然在税区范围内拥有它,因此该税款是应付的。请注意,所有州都给您有限量的时间来转让车契和支付使用税。如果您申请晚了,在正常的税费之上还会有罚款。您不需要同时注册它,但是您绝对需要在州法律中规定的时段内为其办理车契。”)
如在图7中可以看到的那样,分析上面的文本产生以下结果。“My husbands’grandmother gave him his grandfather’s truck(我丈夫的祖母把他祖父的卡车给了他)”通过“She signed the title over but due to my husband(她签字转让了车契,但是因为我丈夫)”进行详述,后者通过“having unpaid fines on his license,he was notable to get the truck put in his name.(在他的执照上有未支付的罚款,所以他无法将卡车放在他的名下。)”进行详述,其通过“I wanted to put in my name(我想放在我的名下)”、“and paid the property tax(并且支付了财产税)”和“and got insurance forthe truck(并为卡车买了保险)”进行详述。
“My husbands’grandmother gave him his grandfather’struck.She signedthe title over but due to my husband having unpaid fines on his license,hewas not able to get the truck put in his name.I wanted to put in my name andpaid the property tax and got insurance for the truck.(我丈夫的祖母把他祖父的卡车给了他。她签字转让了车契,但是因为我丈夫在他的执照上有未支付的罚款,所以他无法将卡车放在他的名下。我想放在我的名下,并且支付了财产税,并为卡车买了保险。)”通过以下进行详述:
“I didn't have the money(我没有钱)”,其通过“to do so(这样做)”进行详述,后者与
“By the time(等…的时候)”形成对比,“By the time”通过“it came tosending off the title(到了送出车契)”
“and getting the tag(和获得标签)”进行详述;
“My husbands’grandmother gave him his grandfather’struck.She signedthe title over but due to my husband having unpaid fines on his license,hewas not able to get the truck put in his name.I wanted to put in my name andpaid the property tax and got insurance for the truck.By the time it came tosending off the title and getting the tag,I didn't have the money to do so(我丈夫的祖母把他祖父的卡车给了他。她签字转让了车契,但是因为我丈夫在他的执照上有未支付的罚款,所以他无法将卡车放在他的名下。我想放在我的名下,并且支付了财产税,并为卡车买了保险。等到了送出车契和获得标签的时候,我没有钱这样做)”与以下形成对比:
“Now,due to circumstances(现在,由于境况)”,其通过“I am not going to beable to afford the truck(我将无法负担起这辆卡车)”进行详述,后者通过以下进行详述:
“I went to the insurance place(我去了保险场所)”
“and was refused a refund(并且被拒绝退款)”。
“My husbands’grandmother gave him his grandfather’struck.She signedthe title over but due to my husband having unpaid fines on his license,hewas not able to get the truck put in his name.I wanted to put in my name andpaid the property tax and got insurance for the truck.By the time it came tosending off the title and getting the tag,I didn't have the money to doso.Now,due to circumstances,I am not going to be able to afford the truck.Iwent to the insurance place and was refused a refund.(我丈夫的祖母把他祖父的卡车给了他。她签字转让了车契,但是因为我丈夫在他的执照上有未支付的罚款,所以他无法将卡车放在他的名下。我想放在我的名下,并且支付了财产税,并为卡车买了保险。等到了送出车契和获得标签的时候,我没有钱这样做。现在,由于境况,我将无法负担起这辆卡车。我去了保险场所并且被拒绝退款。)”通过以下进行详述:
“I am just wondering that since I am not going to have a tag on thistruck,is it possible to get the property tax refunded?(我只是想知道既然我不打算在这辆卡车上拥有标签,是否有可能使财产税退还?)”
“I am just wondering(我只是想知道)”归因于:
“that”与“is it possible to get the property tax refunded?(是否有可能使财产税退还?)”是相同的单元,后者具有条件“since I am not going to have a tagon this truck(既然我不打算在这辆卡车上拥有标签)”。
如可以看到的那样,该主题的主要话题是“Property tax on acar(车的财产税)”。该问题包括矛盾:一方面,所有财产都应纳税,而另一方面,所有权有些不完整。良好的响应必须既解决问题的主题又澄清不一致性。为了做到这一点,响应者关于无论注册状态如何都要对拥有的任何事物支付税款的必要性做出更加强烈的声明。这个示例是来自我们的Yahoo!Answers评估领域的正训练集的成员。该主题的主要话题是“Property tax ona car(车的财产税)”。该问题包括矛盾:一方面,所有财产都应纳税,而另一方面,所有权有些不完整。良好的回答/响应必须既解决问题的主题又澄清不一致性。读者可以观察到,由于问题包括对比的修辞关系,因此回答必须将它与类似的关系匹配以令人信服。否则,这个回答甚至对于那些不是领域专家的人来说也将看起来不完整。
图8描绘了根据本发明的某些方面的对图7中表示的问题的示例性响应。中心核心是通过“that you own(您拥有的)”进行详述的“the property tax is assessed onproperty(财产税是对财产征收的)”。“The property tax is assessed on propertythat you own(财产税是对您拥有的财产征收的)”也是通过“Just because you chose tonot register it does not mean that you don't own it,so the tax is notrefundable.Even if you have not titled the vehicle yet,you still own itwithin the boundaries of the tax district,so the tax is payable.Note that allstates give you a limited amount of time to transfer title and pay the usetax.(仅仅因为您选择不注册它并不意味着您不拥有它,因此该税款不可退还。即使您尚未取得车辆的契书,您也仍然在税区范围内拥有它,因此该税款是应付的。请注意,所有州都给您有限量的时间来转让车契和支付使用税。)”详述的核心。
核心“The property tax is assessed on property that you own.Justbecause you chose to not register it does not mean that you don'town it,sothe tax is not refundable.Even if you have not titled the vehicle yet,youstill own it within the boundaries of the tax district,so the tax ispayable.Note that all states give you a limited amount of time to transfertitle and pay the use tax.(财产税是对您拥有的财产征收的。仅仅因为您选择不注册它并不意味着您不拥有它,因此该税款不可退还。即使您尚未取得车辆的契书,您也仍然在税区范围内拥有它,因此该税款是应付的。请注意,所有州都给您有限量的时间来转让车契和支付使用税。)”通过具有条件“If you apply late(如果您申请晚了)”的“there willbe penalties on top of the normal taxes and fees(在正常的税费之上还会有罚款)”进行详述,其进而通过“but you absolutely need to title it within the period oftime stipulated in state law(但是您绝对需要在州法律中规定的时段内为其办理车契)”和“You don't need to register it at the same time.(您不需要同时注册它)”的对比进行详述。
比较图7的DT和图8的DT,使得能够确定响应(图8)与请求(图7)匹配得有多好。在本发明的一些方面,以上框架至少部分地用于确定用于请求/响应的DT以及DT之间的修辞一致性(rhetoric agreement)。
在另一个示例中,问题“What does Company A do”(“A公司做什么”)至少具有两个回答,例如,第一回答或第二回答。
图9图示了根据一方面的用于第一回答的话语树。如图9中所描绘的那样,第一回答或使命陈述说明了:“The Company A is the main regional commercialorganization which operates as Area A's product manufacturer and has businessresponsibility for providing first-rate goods,manufacturing high-qualityproducts,is responsible for producing goods required by Area A”(“A公司是主要的区域性商业组织,它作为A区域的产品制造商运作,并具有提供一流商品、制造高质量产品的业务责任,负责生产A区域所需的商品”)。
图10图示了根据一方面的用于第二回答的话语树。如图10中所描绘的那样,另一个回答说明了:“Company A is supposed to manufacture high-qualityproducts.However,departments of the Company A are deemed to cut corners.Notonly that,but their involvement in hypes,exaggerating the function of goods,false advertisement,and environmental damage has been reported.Due to theactivities of these departments,dozens of huge losses including the ones toconsumers had been resulted in”(“A公司被期望制造高质量产品。然而,A公司的部门被认为偷工减料。不仅如此,已经报道了他们还涉及炒作、夸大商品功能、虚假广告和损害环境。由于这些部门的活动,已经导致了数十笔巨额损失,包括针对消费者的损失”)。
回答的选择取决于上下文。修辞结构允许区分第一回答与第二回答,参见图9和图10。有时,问题本身可以给出关于期望哪种类别的回答的提示。如果问题被表述为事实或定义性问题而没有第二含义,则第一类别的回答是合适的。否则,如果问题具有“告诉我它事实上是什么”的含义,则第二类别是合适的。通常,在从问题中提取修辞结构之后,选择将具有相似、匹配或互补的修辞结构的合适回答是更容易的。
第一回答基于详述和联合,这在文本可能包含的争议性方面是中性的(参见图9)。同时,第二回答包括对比关系。这种关系是在期望代理做什么和发现该代理已经做了什么的短语之间提取的。
请求-响应对的分类
应用122可以确定给定的回答或响应(诸如从回答数据库105或公共数据库获得的回答)是否响应于给定的问题或请求。更具体地,应用122通过确定请求和响应之间的(i)相关性或(ii)修辞一致性中的一个或两者来分析请求和响应对是正确的还是不正确的。修辞一致性可以在不考虑相关性的情况下进行分析,其可以被正交地处理。
应用122可以使用不同的方法来确定问题-回答对之间的相似性。例如,应用122可以确定单个问题和单个回答之间的相似性水平。可替代地,应用122可以确定包括问题和回答的第一对与包括问题和回答的第二对之间的相似性度量。
例如,应用122使用被训练以预测匹配或不匹配回答的机器学习模型124。应用122可以一次处理两对,例如<q1,a1>和<q2,a2>。应用122将q1与q2以及a1与a1进行比较,从而产生组合的相似性分数。此类比较允许通过评估与具有已知标记的另一个问题/回答对的距离来确定未知问题/回答对是否包含正确回答。特别地,可以处理未标记的对<q2,a2>,使得不是基于q2和a2共享的词语或结构来“猜测”正确性,而是可以基于此类词语或结构将q2和a2两者与已标记的对<q2,a2>的它们的对应组成部分q1和a2进行比较。因为这种方法以与领域无关的回答分类作为目标,所以只能利用问题和回答之间的结构内聚性,而不是回答的“含义”。
在一方面,应用122使用训练数据125来训练机器学习模型124。以这种方式,机器学习模型124被训练以确定问题和回答的对之间的相似性。这是分类问题。训练数据125可以包括正训练集和负训练集。训练数据125包括正数据集中的匹配请求-响应对和负数据集中的任意或较低相关性或适当性的请求-响应对。对于正数据集,选择了具有不同接受准则的各种领域,接受准则指示回答或响应是否适合于问题。
每个训练数据集包括训练对的集合。每个训练集包括表示问题的问题交流话语树和表示回答的回答交流话语树以及问题和回答之间的预期互补性水平。通过使用迭代处理,应用122向机器学习模型124提供训练对并且从模型接收互补性水平。应用122通过确定特定训练对的所确定的互补性水平与预期互补性水平之间的差异来计算损失函数。基于损失函数,应用122调整分类模型的内部参数以使损失函数最小化。
接受准则可以随应用而不同。例如,对于社区问题回答、自动化问题回答、自动化和手动客户支持系统、社交网络通信以及个人(诸如消费者)撰写关于他们对产品的体验(诸如评论和投诉),接受准则可能低。RR接受准则在科学文本、专业新闻、FAQ形式的健康和法律文档、专业社交网络(诸如“stackoverflow”)中可能高。
交流话语树(CDT)
应用122可以创建、分析和比较交流话语树。交流话语树被设计为将修辞信息与言语行为结构组合。CDT包括有标记有用于交流动作的表达的弧线。通过组合交流动作,CDT使得能够对RST关系和交流动作进行建模。CDT是解析丛林的简化。解析丛林是句子的解析树的组合,其在一个图中具有句子的词语和部分之间的话语级相互关系。通过结合识别言语动作的标记,交流话语树的学习可以发生在比仅基本话语单元(EDU)的修辞关系和句法更丰富的特征集上。
在示例中,分析了三方之间关于一笔巨额商业损失的原因(cause)的争议。构建了所交流的论元的RST表示。在示例中,三个冲突的代理(B公司、A公司和自称的C公司)关于这件事交换了他们的意见。示例图示了争议性冲突,其中各方都尽其所能责怪其对方。为了听起来更令人信服,各方不仅提出自己的声明,而且还以拒绝对方的声明的方式做出回应。为了实现这个目标,各方都试图匹配对方的声明的风格和话语。
图11图示了根据一方面的用于第一代理的声明的交流话语树。图11描绘了交流话语树100,该交流话语树100表示以下文本:“Company B says that evidence points toorganization C as being responsible for causing the loss.The report indicateswhere the bad products were manufactured and identifies who was in control ofthe factory and pins the causing of the loss on the organization C”(“B公司说,证据指向C组织被认为对于造成损失负责。报告指示了不良产品在哪里制造,并识别出谁控制了该工厂,并且把损失的造成归咎于C组织”)。
如从图11可以看到的那样,CDT的非终端节点是修辞关系,并且终端节点是作为这些关系的主体的基本话语单元(短语、句子片段)。CDT的某些弧线标记有用于交流动作的表达,包括行动者代理和这些动作的主体(正在交流什么)。例如,用于详述关系的核心节点(在左侧)被标记有say(Company B,evidence),并且卫星被标记有responsible(organization C,causing)。这些标记并不旨在表达EDU的主体是evidence和causing,而是为了使该CDT与其他CDT匹配,以用于找到它们之间的相似性的目的。在这种情况下,仅通过修辞关系来链接这些交流动作而不提供交流话语的信息对于表示正在交流什么和如何交流的结构来说将是过于局限的方式。对于RR对来说,要具有相同或同级的修辞关系的要求太弱,因此要求匹配节点的顶部上的弧线的CDT标记的一致性。
该图的直边是句法关系,并且弯曲的弧线是话语关系,诸如回指(anaphora)、相同实体、子实体、修辞关系和交流动作。该图包括比仅各个句子的解析树的组合丰富得多的信息。除了CDT之外,还可以在词语、关系、短语和句子的层次对解析丛林进行泛化。言语动作是表达相应言语行为及其主体所涉及的代理的逻辑谓词。如由诸如VerbNet之类的框架所提出的,根据相应的语义角色来形成逻辑谓词的论元。参见Karin Kipper,Anna Korhonen,Neville Ryant,Martha Palmer,A Large-scale Classification of English Verbs,Language Resources and Evaluation Journal,42(1),pp.21-40,Springer Netherland,2008.和/或Karin Kipper Schuler,Anna Korhonen,Susan W.Brown,VerbNet overview,extensions,mappings and apps,Tutorial,NAACL-HLT2009,Boulder,Colorado。
图12图示了根据一方面的用于第二代理的声明的交流话语树。图12描绘了交流话语树1200,该交流话语树1200表示以下文本:“The Company A believes that the losswas caused by bad products,which were not produced in Area A.The Company Acites an investigation that established the type of the bad products”(“A公司认为,损失由不良产品造成,该不良产品不是在A区域生产的。A公司引用了确定了不良产品的类型的调查”)。
图13图示了根据一方面的用于第三代理的声明的交流话语树。图13描绘了交流话语树1300,该交流话语树1300表示以下文本:“Organization C,the self-proclaimedCompany C,denies that it controlled the factory in which the bad productswere allegedly manufactured.It became possible only after three months afterthe event to say if organization C controlled one or another factory”(“自称C公司的C组织否认它控制了据称在其中制造了不良产品的工厂。仅在事件发生后三个月之后才有可能说C组织是否控制了一个或另一个工厂”)。
如从交流话语树1100-1300可以看到的那样,响应不是任意的。响应谈及与原始文本相同的实体。例如,交流话语树1200和1300与交流话语树1100相关。响应支持与关于这些实体以及关于这些实体的动作的估计和观点的不一致。
更具体地,所涉及代理的答复需要反映第一种子消息的交流话语。作为简单的观察,因为第一代理使用归因来交流其声明,所以其他代理必须遵循这一套,并且要么提供其自己的归因,要么攻击支持者的归因的有效性,或者进行以上两者。为了捕获各种各样的特征以用于需要如何在连续消息中保留种子消息的交流结构,可以学习相应CDT的对。
为了验证请求-响应的一致性,仅仅话语关系或言语行为(交流动作)往往是不够的。如从图11-图13中所描绘的示例可以看到的那样,代理之间的交互的话语结构和交互的种类是有用的。然而,交互的领域(例如,业务冲突或商业制造)或这些交互的主体(即,实体)不需要被分析。
表示修辞关系和交流动作
为了计算抽象结构之间的相似性,频繁地使用两种方法:(1)在数值空间中表示这些结构,并将相似性表达为数字,这是统计学习方法,或者(2)在不使用数值空间的情况下使用结构表示,诸如树和图形,并且将相似性表达为最大公共子结构。将相似性表达为最大公共子结构被称为泛化。
学习交流动作有助于表达和理解论元。计算动词词典帮助支持获取动作的实体,并提供基于规则的形式来表达其含义。动词表达所描述的事件的语义以及该事件中的参与者之间的关系信息,并投射编码该信息的句法结构。动词,特别是交流动作动词,可以高度可变并且可以显示丰富范围的语义行为。作为响应,动词分类通过将动词组织到共享核心语义性质的组中来帮助学习系统应对这种复杂性。
VerbNet是一种这样的词典,它识别每个类中的动词的语义角色和句法模式特性,并明确可以为类中的所有成员推断出的底层语义关系与句法模式之间的连接。参见KarinKipper,Anna Korhonen,Neville Ryant和Martha Palmer,Language Resources andEvaluation,Vol.42,No.1(2008年3月),at 21。类的每个句法框架或动词签名具有对应的语义表示,其详细描述了跨事件过程的事件参与者之间的语义关系。
例如,动词amuse(娱乐)是具有相似论元(语义角色)结构的相似动词的聚类的一部分,这些动词诸如amaze(惊奇)、anger(生气)、arouse(激起)、disturb(打扰)和irritate(激怒)。这些交流动作的论元的角色如下:Experiencer(体验者)(通常为有生命实体)、Stimulus(刺激)和Result(结果)。每个动词可以具有通过针对该动词在句子或框架中如何出现的句法特征而区分的含义的类。例如,针对amuse的框架如下,使用以下关键名词短语(NP)、名词(N)、交流动作(V)、动词短语(VP)、副词(ADV):
NP V NP。示例:“The teacher amused the children”。句法:Stimulus VExperiencer。子句:amuse(Stimulus,E,Emotion,Experiencer),cause(Stimulus,E),emotional_state(result(E),Emotion,Experiencer)。
NP V ADV-Middle。示例:“Small children amuse quickly”。句法:ExperiencerV ADV。子句:amuse(Experiencer,Prop):-,property(Experiencer,Prop),adv(Prop)。
NP V NP-PRO-ARB。示例“The teacher amused”。句法Stimulus V.amuse(Stimulus,E,Emotion,Experiencer):.cause(Stimulus,E),emotional_state(result(E),Emotion,Experiencer)。
NP.cause V NP。示例“The teacher's dolls amused the children”。句法Stimulus<+genitive>('s)V Experiencer.amuse(Stimulus,E,Emotion,Experiencer):.cause(Stimulus,E),emotional_state(during(E),Emotion,Experiencer)。
NP V NP ADJ。示例“This performance bored me totally”。句法Stimulus VExperiencer Result.amuse(Stimulus,E,Emotion,Experiencer).cause(Stimulus,E),emotional_state(result(E),Emotion,Experiencer),Pred(result(E),Experiencer)。
交流动作可以被表征为聚类,例如:具有表语补语的动词(appoint,characterize,dub,declare,conjecture,masquerade,orphan,captain,consider,classify),感知动词(See,sight,peer)。心理状态动词(amuse,admire,marvel,appeal),欲望动词(want,long)。判断动词(judgment),评估动词(assess,estimate),搜索动词(hunt,search,stalk,investigate,rummage,ferret),社交互动动词(correspond,marry,meet,battle),交流动词(transfer(message),inquire,interrogate,tell,manner(speaking),talk,chat,say,complain,advise,confess,lecture,overstate,promise)。避免动词(avoid),度量动词(register,cost,fit,price,bill),体动词(begin,complete,continue,stop,establish,sustain)。
本文描述的方面提供优于统计学习模型的优势。与统计解决方案相比,使用分类系统的方面可以提供动词或类动词结构,该动词或类动词结构被确定为导致目标特征(诸如修辞一致性)。例如,统计机器学习模型将相似性表达为数字,这可能使得解释困难。
表示请求-响应对
表示请求-响应对基于对来促进基于分类的操作。在示例中,请求-响应对可以被表示为解析丛林。解析丛林是两个或更多个句子的解析树的表示,其在一个图中具有句子的词语和部分之间的话语级相互关系。参见Galitsky 2015。问题和回答之间的主题相似性可以被表达为解析丛林的公共子图。公共图节点的数量越多,相似性越高。
图14图示了根据一方面的解析丛林。图14描绘了解析丛林1400,该解析丛林1400包括(用于请求的)解析树1401和(用于对应的响应的)解析树1402。
解析树1401表示问题“I just had a baby and it looks more like thehusband I had my baby with.However it does not look like me at all and I amscared that he was cheating on me with another lady and I had her kid.Thischild is the best thing that has ever happened to me and I cannot imaginegiving my baby to the real mom”(“我刚有了孩子,并且它看起来更像是我与其有了我的孩子的丈夫。然而,它看起来根本不像我,并且我害怕他在与另一位女士对我撒谎而我有了她的孩子。这个孩子是迄今发生在我身上的最好的事情,而我无法想象把我的孩子交给真正的母亲”)。
响应1402表示响应“Marital therapists advise on dealing with a childbeing born from an affair as follows.One option is for the husband to avoidcontact but just have the basic legal and financial commitments.An otheroption is to have the wife fully involved and have the baby fully integratedinto the family just like a child from a previous marriage”(“婚姻治疗师针对应对从事务中出生的孩子建议如下。一种选择是让丈夫避免接触,而只具有基本的法律和财务承诺。另一种选择是让妻子充分参与,并使孩子就像来自以前的婚姻的孩子一样完全融入家庭”)。
图14表示用于表示关于文本的段落的语言信息的贪心方法。该图的直边是句法关系,并且弯曲的弧线是话语关系,诸如回指、相同实体、子实体、修辞关系和交流动作。实心弧线用于相同实体/子实体/回指关系,并且虚弧线用于修辞关系和交流动作。直边中的椭圆形标记表示句法关系。词目(Lemma)写在节点的框中,并且词目形式写在节点的右侧。
解析丛林1400包括比仅各个句子的解析树的组合丰富得多的信息。沿着句法关系的边以及话语关系的弧线导航遍历该图允许将给定的解析丛林变换成语义上等效的形式,以用于与其他解析丛林匹配,从而执行文本相似性评估任务。为了形成段落的完整形式表示,表达尽可能多的链接。每个话语弧线产生可能是潜在匹配的丛林短语的对。
种子(请求)和响应之间的话题相似性被表达为解析丛林的公共子图。它们被可视化为连接的云。公共图节点的数量越多,相似性越高。对于修辞一致性,公共子图不必像它在给定的文本中那样大。然而,种子和响应的修辞关系和交流动作是相互关联的,并且需要对应关系。
交流动作的泛化
两个交流动作A1和A2之间的相似性被定义为拥有A1和A2之间共同的特征的抽象动词。将两个动词的相似性定义为抽象的类动词结构支持归纳学习任务,诸如修辞一致性评估。在示例中,可以将以下两个常见动词(agree和disagree)之间的相似性泛化如下:agree^disagree=verb(Interlocutor,Proposed_action,Speaker),其中Interlocution是向Speaker提出Proposed_action、并且Speaker向其交流他们的响应的人。Proposed_action是在Speaker要接受或拒绝请求或提议的情况下Speaker将执行的动作,并且Speaker是已向其提出特定动作并对所做出的请求或提议进行响应的人。
在进一步的示例中,动词agree和explain之间的相似性被表示如下:agree^explain=verb(Interlocutor,*,Speaker)。交流动作的主体在交流动作的上下文中被泛化,并且不以其他“物理”动作来泛化。因此,各方面将交流动作的各个出现与对应的主体一起泛化。
此外,可以将表示对话的交流动作序列与相似对话的其他此类序列进行比较。以这种方式,表示单个交流动作的含义以及对话的动态话语结构(与经由修辞关系反映的其静态结构相对比)。泛化是发生在每个层次的复合结构表示。交流动作的词目与词目一起泛化,并且其语义角色与相应的语义角色一起泛化。
文本作者使用交流动作来指示对话或冲突的结构。参见Searle,J.R.1969,Speechacts:an essay in the philosophy of language.London:Cambridge UniversityPress。主体在这些动作的上下文中被泛化,并且不以其他“物理”动作来泛化。因此,交流动作的各个出现与它们的主体以及它们的对一起被泛化为话语“步骤”。
还可以从匹配动词框架(诸如VerbNet)的角度来考虑交流动作的泛化。交流链接反映了与文本中的多于一个代理的参与(或提及)相关联的话语结构。这些链接形成连接用于交流动作的词语(隐式指示人的交流意图的动词或者多个词语)的序列。
交流动作包括行动者、正在被采取行动的一个或多个代理以及描述该动作的特征的短语。交流动作可以被描述为以下形式的函数:verb(agent,subject,cause)(动词(代理,主体,原因)),其中动词表征所涉及的代理之间的某种类型的交互(例如,解释、确认、提醒、不同意、否认等),主体是指所传输的信息或所描述的对象,并且原因是指针对主体的动机或解释。
场景(标记有向图)是解析丛林G=(V,A)的子图,其中V={action1,action2…actionn}是与交流动作对应的顶点的有限集合,并且A是带标记的弧线(有序的顶点对)的有限集合,其分类如下:
每个弧线actioni,actionj∈Asequence对应于指代相同主体(例如,sj=si)或不同主体的两个动作vi,agi,si,ci和vj,agj,sj,cj的时间优先顺序。每个弧线actioni,actionj∈Acause对应于动作actioni和actionj之间的攻击相互关系,其指示actioni的原因与actionj的主体或原因冲突。
与代理之间的交互场景相关联的解析丛林的子图具有一些区别性特征。例如,(1)所有顶点都按时间排序,使得对于所有顶点(初始和终端顶点除外)都存在一个传入弧线和一个传出弧线,(2)对于Asequence弧线,可容许最多一个传入弧线和仅一个传出弧线,以及(3)对于Acause弧线,从给定顶点可以有许多传出弧线以及许多传入弧线。所涉及的顶点可以与不同的代理或相同的代理(即,当他自相矛盾时)相关联。为了计算解析丛林及其交流动作之间的相似性,分析了归纳子图、具有相似弧线标记的相同配置的子图以及顶点的严格对应关系。
通过分析解析丛林的交流动作的弧线,存在以下相似性:(1)其主体来自T1的一个交流动作针对其主体来自T2的另一个交流动作(不使用交流动作弧线),和(2)其主体来自T1的一对交流动作与来自T2的另一对交流动作相比较(使用交流动作弧线)。
泛化两个不同的交流动作是基于它们的属性的。参见(Galitsky等人2013)。如在关于图14所讨论的示例中可以看到的那样,可以将来自T1的一个交流动作cheating(husband,wife,another lady)与来自T2的第二交流动作avoid(husband,contact(husband,another lady))进行比较。泛化导致communicative_action(husband,*),其引入对A的约束,其形式为:如果在Q中提及给定的代理(=husband)作为CA的主体,则他(她)也应作为A中的(可能的另一个)CA的主体。总是可以泛化两个交流动作,而对于其主体不是这样的情况:如果其泛化结果为空,则具有这些主体的交流动作的泛化结果也为空。
RST关系的泛化
可以泛化话语树之间的一些关系,诸如可以泛化表示相同类型的关系(呈现关系,诸如对照;主旨关系,诸如条件;以及多核心关系,诸如列举)的弧线。核心或由核心呈现的情况由“N”来指示。卫星或由卫星呈现的情况由“S”来指示。“W”指示作者。“R”指示读者(听者)。情况是提议、完成的动作或进行中的动作以及交流动作和状态(包括信念、欲望、赞成、解释、和解等)。具有上述参数的两个RST关系的泛化被表达为:rst1(N1,S1,W1,R1)^rst2(N2,S2,W2,R2)=(rst1^rst2)(N1^N2,S1^S2,W1^W2,R1^R2)。
N1,S1,W1,R1中的文本作为短语经受泛化。例如,rst1^rst2可以被泛化如下:(1)如果relation_type(rst1)!=relation_type(rst2),则泛化为空。(2)否则,修辞关系的签名被泛化为句子:sentence(N1,S1,W1,R1)^sentence(N2,S2,W2,R2)。参见Iruskieta,Mikel,Iria da Cunha和Maite Taboada.Aqualitative comparison method forrhetorical structures:identifying different discourse structures inmultilingual corpora.Lang Resources&Evaluation.2015年6月,第49卷,第2期。
例如,rst-background^rst-enablement的含义=(S增加R理解N中的元素的能力)^(R理解S增加R执行N中的动作的能力)=increase-VB the-DT ability-NN of-IN R-NNto-IN。
因为关系rst-background^rst-enablement不同,所以RST关系部分为空。然后,泛化作为相应RST关系的言语定义的表达。例如,对于每个词语或诸如代理之类的词语的占位符,如果该词语在每个输入短语中相同,则保留该词语(与其POS),如果该词语在这些短语之间不同,则移除该词语。可以将结果表达解释为形式上获得的两个不同RST关系的定义之间的共同含义。
图14中描绘的问题和回答之间的两个弧线示出了基于RST关系“RST对比(RST-contrast)”的泛化实例。例如,“I just had a baby(我刚有了孩子)”是与“it does notlook like me(它看起来不像我)”的RST对比,并与“husband to avoid contact(丈夫避免接触)”相关,后者是与“have the basic legal and financial commitments(具有基本的法律和财务承诺)”的RST对比。如可以看到的那样,回答不必与问题的动词短语相似,但问题和回答的修辞结构是相似的。并非回答中的所有短语都必须匹配问题中的短语。例如,不匹配的短语与回答中与问题中的短语相关的短语具有某些修辞关系。
构建交流话语树
图15图示了根据一方面的用于构建交流话语树的示例性处理。应用122可以实现处理1500。如所讨论的那样,交流话语树能够实现改进的搜索引擎结果。
在框1501处,处理1500涉及访问包括片段的句子。至少一个片段包括动词和词语,并且每个词语包括片段内词语的角色,并且每个片段是基本话语单元。例如,应用122访问诸如关于图13所描述的“Organization C,the self-proclaimed Company C,denies thatit controlled the factory in which the bad products were allegedlymanufactured(自称C公司的C组织否认它控制了据称在其中制造了不良产品的工厂)”之类的句子。
继续该示例,应用122确定该句子包括几个片段。例如,第一片段是“organizationC..denies”。第二片段是“that it controlled the factory”。第三片段是“in which thebad products were allegedly manufactured”。每个片段包含动词,例如,第一片段的“denies”和第二片段的“controlled”。然而,片段不必包含动词。
在框1502处,处理1500涉及生成表示句子片段之间的修辞相互关系的话语树。话语树包括节点,每个非终端节点表示句子片段中的两个句子片段之间的修辞相互关系,并且话语树的节点中的每个终端节点与句子片段中的一个相关联。
继续该示例,应用122生成如图13中所示的话语树。例如,第三片段“in which thebad products were allegedly manufactured(据称在其中制造了不良产品的)”详述“that it controlled the factory(它控制了工厂)”。第二片段和第三片段一起与所发生的事情的归因相关,即,原因不可能是C组织,因为它没有控制工厂。
在框1503处,处理1500涉及访问多个动词签名。例如,应用122访问(例如来自VerbNet的)动词的列表。每个动词与片段中的动词匹配或相关。例如,对于第一片段,动词为“deny”。相应地,应用122访问与动词deny相关的动词签名的列表。
如所讨论的那样,每个动词签名包括片段中的动词以及题元角色中的一个或多个。例如,签名包括名词短语(NP)、名词(N)、交流动作(V)、动词短语(VP)或副词(ADV)中的一个或多个。题元角色描述动词与相关词语之间的相互关系。例如,“the teacher amusedthe children”具有与“small children amuse quickly”不同的签名。对于第一片段,动词“deny”,应用122访问与“deny”匹配的动词的动词签名或框架的列表。该列表是“NP V NPto be NP”、“NP V that S”和“NP V NP”。
每个动词签名包括题元角色。题元角色是指句子片段中动词的角色。应用122确定每个动词签名中的题元角色。示例题元角色包括行动者、代理、资产、属性、受益者、原因、位置目的地源、目的地、源、位置、体验者、程度、仪器、材料和产品、材料、产品、受动者、谓词、接收者、刺激、题目(theme)、时间或主题。
在框1504处,处理1500涉及针对动词签名中的每个动词签名确定与片段中词语的角色匹配的相应签名的题元角色的数量。对于第一片段,应用122确定动词“deny”仅具有三个角色:“代理”、“动词”和“题目”。
在框1505处,处理1500涉及基于特定动词签名具有最大数量的匹配而从动词签名中选择该特定动词签名。例如,再次参照图13,将第一片段“the organization Cdenies...that it controlled the factory”中的deny与动词签名deny“NP V NP”匹配,并且将“control”与control(organization,factory)匹配。动词签名被嵌套,从而导致“deny(organization C,control(organization C,factory))”的嵌套的签名。
表示请求-响应
可以单独或成对地分析请求-响应对。在示例中,请求-响应对可以链接在一起。在链中,期望不仅在连续成员之间保持修辞一致性,而且还在三元组和四元组之间保持修辞一致性。可以为表达请求-响应对序列的文本构造话语树。例如,在客户投诉的领域,从投诉者的视点来看,请求和响应出现在同一文本中。可以将客户投诉文本拆分为请求和响应文本部分,然后形成成对的正负数据集。在示例中,支持者的所有文本和反对者的所有文本被组合。下面每个段落的第一句将形成请求部分(其将包括三个句子),并且每个段落的第二句将形成响应部分(其在这个示例中也将包括三个句子)。
从文本构建本体
某些方面与使用话语树和/或交流话语树(CDT)的本体构造相关。此外,此类技术可以改进用于本体条目的文本内的相关文本和/或实体的提取。改进的本体导致改进性能的下游应用,诸如搜索系统。
医疗记录可以是关于患者的医学治疗的最有价值的信息和数据源中的一个。此类记录包含重要项目,诸如资格准则、诊断结果的摘要和处方药,这些项目通常在非结构化的自由文本中记录。从健康记录中提取医疗或临床信息是重要的任务,尤其是在采用电子健康记录的情况下。这些记录通常被存储为文本文档,并且包含有价值的非结构化信息,该信息对于更好地做出患者的治疗决策来说至关重要。存在可以从这些临床记录中提取的三个主要元素:实体、属性和相关联的关系。
非结构化文本中医学实体的自动识别是生物医学信息检索系统的关键组成部分。应用包括分析电子健康记录中的非结构化文本和从生物医学文献中发现知识。许多医学术语被结构化为本体,添加实体之间的关系并且往往包括每个术语的几个同义词。
从文本中自动提取的本体的质量和一致性决定了决策支持系统(DSS)的准确性。构建简洁、鲁棒和完整的本体的瓶颈是由于缺乏从文档的可靠、权威部分提取本体条目的机制。为了构建本体,使用表达文本的中心点的可靠文本片段。此外,避免从文本的附加评论、澄清、示例、实例和其他不太重要的部分构造条目。所公开的技术使用话语分析(已证明对如总结之类的任务有用)来选择产生本体条目的话语单元。
通常,检索到的信息是由关系绑定的实体的集合。以这种格式呈现的信息对于许多应用(挖掘生物医学文本、本体学习和问题回答)来说是有用的。本体将知识结构化为术语的集合,它们之间具有边,这些边被标记为关系信息以唤起有意义的信息。本体充当旨在在web上提供有意义信息的语义web概念的支柱。本体可以在本体的开发或填充(也被称为本体学习和填充)方面受益于信息提取。
可以使用话语技术来开发本体或改进现有本体。话语通常包括一系列句子,但话语也可以甚至在单个句子内找到,例如,诸如动作、结果状态和事件之类的可能情况(eventuality)的连接序列。由话语的句子形成的模式提供了超过话语的单独部分的总和的附加信息。例如,以下示例中的每个句子是简单的断言:“Don’t worry about the watersource exhausting today.It is already tomorrow in some parts of the Earth(今天不用担心水源枯竭。在地球的一些地区已经是明天了)”。第二个句子以not worrying(不用担心)的Reason(原因)的修辞关系与第一个句子相连接。
话语分析利用语言特征,这可以使说话者能够指定他们正在:
1)谈论他们之前在同一话语中已经谈论过的某事;
2)指示在话语中呈现的状态、事件、信念等之间保持的关系;或者
3)改变为新主题或恢复来自话语中早些时候的主题。
允许说话者指定在话语中呈现的状态、事件、信念等之间保持的关系的语言特征包括从属连词(诸如“until(直到)”或“unless(除非)”)以及话语状语(诸如“as a result(因此)”),如以下中的那样:“Birds have wings.As a result,they can fly unlessthey are too heavy and wings cannot support their weight(鸟具有翅膀。因此,它们可以飞,除非它们太重并且翅膀无法支撑它们的重量)”。话语中的语言特征也给说话者机会来指定改变为新主题或恢复较早的主题,包括可以被称为线索短语(cue phrase)或边界特征的内容。
话语可以与句子序列相关联,该句子序列:
1)通过其各个句子的相互关系向彼此传达多于其各个句子;或者
2)利用使话语能够更容易被理解的语言的特殊特征。
话语可以通过其主题被结构化,每个主题包括实体集合和关于它们所说到的有限范围的事情。主题结构在教科书、百科全书和参考资料中找到的说明性文本中是常见的。主题可以通过它解决的问题来表征。每个主题涉及可以(但不必)随主题的改变而改变的实体集合。这里,实体包括滑翔机(glider);然后是滑翔机、其飞行员和乘客;然后是滑翔机及其推进装置;然后是滑翔机及其启动机构。结构的这方面已被建模为实体链。
实体链包括指代同一实体的表达的序列。例如,在关于flu(流感)的文本中存在几个实体链:flu→virus→vitamins→their→drinking more liquids→high temperature(流感→病毒→维生素→它们的→多喝液体→高温)。实体链的序列终止和另一集合开始的位置可以用作话语已经从一个主题导向的段移动到另一个段的指示符。这对于从文本形成本体的处理中的元组提取逻辑来说是有用的。
一些话语单元对于本体条目比其他话语单元更有价值。例如,考虑以下句子:Iwent to see a pulmonologist,becauseIsuspected tuberculosis,as my mom asked meto do.(我去看肺科专家,因为我怀疑是结核病,正如我妈妈让我做的那样)。
图16描绘了根据本公开的一方面的从文本中提取逻辑子句的示例。图16描绘了话语树1610和抽象含义表示(AMR)树1620,它们由关系1630和1640链接。
话语树1610表示文本“I went to see a pulmonologist because Isuspectedtuberculosis as my mom asked me to do(我去看肺科专家,因为我怀疑是结核病,正如我妈妈让我做的那样)”。话语树1620包括基本话语单元1612(“I went to see apulmonologist(我去看肺科专家)”)、基本话语单元1614(“because I suspectedtuberculosis(因为我怀疑是结核病)”)和基本话语单元1616(“as my mom asked me todo(正如我妈妈让我做的那样)”)。
句子的第一部分,“I went to see a pulmonologist because Isuspectedtuberculosis(我去看肺科专家,因为我怀疑是结核病)”是有用的,而句子的第二部分,“asmy mom asked me to do(正如我妈妈让我做的那样)”是没有用的。因此,在形成本体时,将使用句子的第一部分。核心基本话语单元可以指示文本中更有用的部分。
AMR树1620包括两个部分:部分1620和部分1622。部分1620对应于基本话语单元1612和1614,并且部分1622对应于基本话语单元1616。部分1624对应于基本话语单元1616。
逻辑子句可以是用于从文本中提取和形式化断言的可靠提示。提取部分1620作为本体条目的候选。在某种程度上,短语之间存在显式逻辑连接,这些连接应该被捕获在本体中。相反,不相关的环境或事实(诸如部分1622)不应该被包括。提取了以下逻辑子句:suspect(tuberculosis)->see(pulmonologists)。
图17描绘了根据本公开的一方面的实体关系图的示例。实体关系图图示了在文本、本体中或存储在数据库中的实体之间的相互关系。此上下文中的实体是对象,数据的组成部分。图17描绘了实体关系图1710、1720、1730和1740。图17对应于以下示例文本:“Oxygen saturation refers to the amount of oxygen that’s in yourbloodstream.The body requires a specific amount of oxygen in your blood tofunction properly.The normal range of oxygen saturation for adults is 94to99percent.However,if your oxygen saturation level is below 90percent,you willlikely require supplemental oxygen,which is prescribed by your primary caredoctor or pulmonologist”(“氧饱和度是指您的血流中的氧气量。身体需要您的血液中特定量的氧气来正常运作。成人的氧饱和度的正常范围是94%至99%。然而,如果您的氧饱和度水平低于90%,则您将可能需要补充氧气,这由您的初级保健医生或肺科专家开处方”)。
如可以看到的那样,实体关系图1710对应于文本“Oxygen saturation refers tothe amount of oxygen that’s in your bloodstream(氧饱和度是指您的血流中的氧气量)”。实体关系图1720对应于文本“The body requires a specific amount of oxygenin your blood to function properly(身体需要您的血液中特定量的氧气来正常运作)”。实体关系图1730对应于文本“The normal range of oxygen saturation foradults is 94to 99percent(成人的氧饱和度的正常范围是94%至99%)”。实体关系图1740对应于文本“However,if your oxygen saturation level is below 90percent,youwill likely require supplemental oxygen,which is prescribed by your primarycare doctor or pulmonologist(然而,如果您的氧饱和度水平低于90%,则您将可能需要补充氧气,这由您的初级保健医生或肺科专家开处方)”。
实体-关系图可以提供要从文本中提取的候选元组的集合。元组是正常形式的词语的有序集合(短语减去语言信息)。因此,元组在长度上小于从中形成它的句子。例如,返回参照实体关系图1710,实体“oxygen saturation(氧饱和度)”和“amount of oxygen(氧气量)”在主体相互关系中相关。
下面示出了话语树的示例。话语树可以提供哪些文本片段是要记录在本体中的权威、可靠的关系源(在下面的下划线中示出),而哪些片段不是(在括号[]中示出)的逻辑视图。
详述
详述
详述
文本:[Oxygen saturation refers to the amount of oxygen,]
文本:[that is in your bloodstream.]
使能
文本:The body requires a specific amount of oxygen in your blood
文本:to function properly.
对比(从右到左)
文本:The normal range of oxygen saturation for adults is 94to99percent.
相同单元
文本:However,
条件(从右到左)
文本:if your oxygen saturation level is below90percent,使能
文本:you will likely require supplemental oxygen,
文本:which is prescribed by your primary care doctor or pulmonologist.
出现在话语树中详述下的任何定义短语都不太重要并且信息量不大。例如,基本话语单元“Oxygen saturation refers to the amount of oxygen(氧饱和度是指氧气量)”和“that is in your bloodstream(您的血流中的)”可以产生:
oxygen(saturation)=oxygen(amount)
然而,这给出saturation(饱和度)和amount(量)之间的不可靠的同义关系。术语“amount”不是中心实体。在这种特定情况下,“saturation”是与非常广泛的术语“amount”相关联的特定术语。因此,该术语不应形成本体条目,因为“amount”太常见并且可以与任何值相关联。话语分析告知了该链接不应被转成本体条目。例如,不应该从给定的文本中提取在文本之外假定或解释的实体或属性的定义。如果文本是关于extension of a taxreturn filing(纳税申报填写的延期)的,则本体应该获取“tax(税)”和“extension oftime(延期)”之间的关联,而不是可以被假定并且在一些情况下可能先前已经从关于会计的介绍性文档中被提取的“tax”和“return(申报)”之间的关联。
相比之下,用于形成本体条目的更重要的短语出现在用于除详述和联合之外的非平凡关系的EDU中:
条件→本体规则
level(oxygen(),saturation)→require(patient,oxygen(supplemental))使能
enable(doctor(primary_care),oxygen(supplemental))
enable(pulmonologist(),oxygen(supplemental))
对比:从核心提取(通常、正常、典型部分)
level(oxygen(),saturation)=94..99
图18描绘了根据本公开的一方面的实体图和话语树。图18描绘了实体关系图1810和话语树1820。
实体关系图1810图示了以下短语“...about how you are taking themedication(关于您在如何服用药物)”和“The application must be downloaded ontoyour smartphone before you start the medication(在您开始服药之前,必须将该应用下载到您的智能电话上)”的实体内的关系。更具体地,“you”通过关系主语与“are taking”相关,“are taking”进而通过关系宾语与“medication”相关。
话语树1820表示以下文本:“The tablets that contain a small sensor comewith a patch that detects a signal from the tablet and a smartphoneapplication to display information about how you are taking themedication.The application must be downloaded onto your smartphone before youstart the medication.Apply your patch to the left side of the body above thelower edge of the rib cage only when prompted by the smartphone appinstructions”(“包含小传感器的药片附带贴片,该贴片检测来自药片和智能电话应用的信号,以显示关于您在如何服用药物的信息。在您开始服药之前,必须将该应用下载到您的智能电话上。仅当智能电话应用指令提示时,才将您的贴片贴到胸腔下缘上方身体的左侧”)。
由虚线标识的文本(例如,文本1822、1824、1826和1828)图示了中心短语,其中所提取的关系信息量大并且表达了该文本的中心主题。相比之下,话语树120中的其他文本包括不应产生实体元组的短语,因为该其他文本仅在附接到中心短语时才是信息量大的。
在话语树中,中心短语tablet-contain-sensor对应于使能的顶级修辞关系的核心EDU。此短语谈到了作为该本文的中心主题的tablet(药片),以及它的谓词和宾语/属性“contain a small sensor(包含小传感器)”。与主要实体节点“The tablets”相关联的另一个重要短语是“to display information about how you are taking the medication(以显示关于您在如何服用药物的信息)”。
卫星EDU包含不能在独立模式下正确解释的短语。“Come with a patch thatdetects a signal(附带贴片,该贴片检测信号)”必须在药片的上下文中进行解释。否则,假设的本体条目detect(patch,signal)过于笼统,并且不一定能独自保持。一致的本体不应该从该表达中泛化。核心EDU是可独自解释的,并且可以形成本体条目,而卫星EDU不应形成本体条目。
最后,可以提取以下本体条目:
contain(tablet,sensor(small))
display(information(take(people,medications))
事件可以被注释。例如,可以注释陈述生物医学事件的、被定义为物理实体的状态或性质的变化的表达。
图19描绘了根据本公开的一方面的事件注释的示例。图19描绘了用诸如“原因”或“题目”之类的事件注释的实体图1900。事件是实体之间的相互作用。在一般领域中,事件经由事件演算被形式化为具有前提条件和结果条件的状态序列。事件的示例包括化学反应、蛋白质之间、蛋白质与DNA之间的相互作用或实体之间的任何其他种类的相互作用。
事件注释是具有特定角色(例如,题目、原因)的任意数量的实体的文本绑定关联。注释标签可以与修辞关系重叠。
实体图1900是句子“The binding of I kappa B/MAD-3to NF-kappa B p65 issufficient to retarget NF-kappa B p65 from the nucleus to the cytoplasm”(“Ikappa B/MAD-3与NF-kappa B p65的结合足以将NF-kappa B p65从细胞核重新定向到细胞质”)的注释版本。
图20描绘了根据本公开的一方面的注释的示例可视化。图20包括可视化2010、2020、2030和2040,它们一起图示了也在图19中描绘的以下句子的注释:“The binding ofI kappa B/MAD-3to NF-kappa B p65 is sufficient to retarget NF-kappa B p65from the nucleus to the cytoplasm(I kappa B/MAD-3与NF-kappa B p65的结合足以将NF-kappa B p65从细胞核重新定向到细胞质)”。
可视化2020、2030和2040显示了已被添加到句子的事件注释。原始句子被示出在这些框中的每个框内,以示出属于对应注释的文本区段。示出了早前在术语注释期间已经注释过的生物实体。例如,“I kappa B/MAD-3”和“NF-kappa B p65”是蛋白质分子。“nucleus(细胞核)”和“cytoplasm(细胞质)”是细胞组成部分。这些术语被表达为属性-值对的n元组,如下:
·(Id:T36,类:Protein_molecule,名称:I kappa B/MAD-3)
·(Id:T37,类:Protein_molecule,名称:NF-kappa B p65)
·(Id:T38,类:Protein_molecule,名称:NF-kappa B p65)
·(Id:T39,类:Cell_component,名称:nucleus)
·(Id:T40,类:Cell_component,名称:cytoplasm)
第一事件E5表示两个实体T36(I kappa B/MAD-3)和T37(NF-kappa B p65)的结合(binding)。这指示对结合事件的指示。事件中的题目是要由其性质受事件影响的一个或多个实体填充的属性或槽。第二事件E6表示蛋白质T38的定位(localization)。文本指示retarget(重新定向)和“to the cytoplasm(到细胞质)”分别被标记为范围涵盖事件类型和与事件相关的位置的关键表达。最后的事件E7是E5和E6之间的因果(causality)关系。即,两种蛋白质的结合事件(E5)“导致”两种蛋白质中的一个的定位事件(E6)。这种因果关系被表示为类型Positive_regulation的事件。
调节(regulation)具有比严格生物学意义上的调节事件更广泛的定义,例如,催化、抑制、上调/下调等。事件之间的一般因果关系可以被编码。表达“is sufficient to”被证明是因果关系的句法线索。
图21描绘了根据本公开的一方面的抽象含义表示图和事件分类法。图21描绘了可视化2000的抽象含义表示图2110和事件分类法2120。
事件分类法2120在矩形框中图示了本体实体,并且事件实体在圆圈中被示出。箭头指示事件和题目之间的链接。“调节”和“结合”之间存在事件和原因之间的链接。“定位”和“cytoplasm(细胞质)”之间存在事件和位置之间的链接。
短语聚合采用短语的列表,并且合并同义和相关短语以形成有意义的本体条目。聚合器输出通过短语实例的泛化获得的短语实体的层次结构。短语聚合可以包括多种功能,诸如短语过滤器和短语分组器。短语过滤器可以包括观点过滤器、短语类型过滤器(NP、VP)、短语长度过滤器(2-6个词语)、名词实体过滤器(无专有名词)、出现POS过滤器(无CD、无PRP等)、频率分析过滤器、禁止短语(手动设置)过滤器、短语规范化过滤器。短语分组器包括中心名词短语提取器、短语泛化器、短语合并器以及短语聚合器和分类器。短语聚合导致泛化短语。
可以使用以下短语过滤规则:
1)只提取名词、动词和介词短语;
2)排除带有观点的短语,因为它们可能出现在固执己见的上下文中;
3)排除名称实体,因为名称实体不能被跨性质泛化。然而,特定类型的此类专有名词与特定于健康领域的关系(诸如affect/cure/drug-for/followed-by等)相关地被包括;
4)排除数字和介词;
5)对短语长度存在限制;
6)移除太频繁的短语和太罕见的短语;
7)避免以冠词开头的短语(如果它们很短);或者
8)清理/规范化不是词语的字符串;
一旦短语被提取,它们就被聚类和聚合以获得可靠的、重复的实例。只出现一次的短语是不可靠的,并且被认为是“噪声”。例如,层次结构由短语的列表形成:
·insulin-dependent diabetes mellitus,(胰岛素依赖型糖尿病,)
·adult-onset dependent diabetes mellitus,(成人发病依赖型糖尿病,)
·diabetes with almost complete insulin deficiency(几乎完全缺乏胰岛素的糖尿病)
·diabetes with almost complete insulin deficiency and strong
hereditary component(几乎完全缺乏胰岛素和强遗传成分的糖尿病)
中心名词提取可以如下发生:如果两个短语具有相同的中心名词,则可以将这些短语组合成一个类别。如果类别内的两个短语除了中心名词之外还具有其他共同的名词或形容词,则由这些共同的名词形成子类别。在这方面,遵循归纳的认知过程,从而找到数据样本之间的共性、保留中心名词,诸如diabetes。
图22描绘了根据本公开的一方面的用于获得层次结构的短语的聚合。短语聚合2200图示了以下类、子类和子子类(sub-subclass):
diabetes
mellitus
insulin-dependent
使用实体网格来帮助提取相互关系。连贯的文本将句子结合在一起以作为整体表达含义:句子的解释通常取决于相邻句子的含义。可以区分连贯文本与不连贯文本的连贯性模型;这种能力在文本生成、总结和连贯性评分方面具有范围广泛的应用。连贯性模型可以判断哪些短语和句子是本体条目的良好来源,而哪些短语不是。在各种话语模型(诸如修辞结构理论(RST))中测量连贯性。在RST中,可以作为所识别的修辞关系的平均置信度分数来测量连贯性。在其他话语理论中,可以作为实体的传播来测量连贯性。如果实体在文本中突然出现然后消失,则连贯性分数低。
实体网格通过捕获不同实体的语法角色如何随句子的变化而变化的网格来表示文本。然后,该网格被转换成包含局部实体转变概率的特征向量,这使得机器学习模型能够学习每个实体出现的重要性程度。
图23描绘了根据本公开的一方面的实体网格矩阵。图23描绘了实体网格矩阵2310,以及句子2320中的产生的注释。如可以看到的那样,对于每个句子s0-s3,实体网格矩阵包括列中的实体。期望提取由关系连接的最完整的对象元组。矩阵涉及四个句子:s0、s1、s2和s3,如下:
s0:Eaton Corp.said it sold its Pacific Sierra Research unit to acompany formed by employees of that unit(Eaton公司表明,它将其Pacific SierraResearch部门出售给了由该部门的员工组建的公司)。
s1:Terms were not disclosed(条款没有被披露)。
s2:Pacific Sierra,based in Los Angeles,has 200employees and suppliesprofessional services and advanced products to industry(总部位于洛杉矶的Pacific Sierra拥有200名员工,并且为行业提供专业服务和先进产品)。
s3:Eaton is an automotive parts,controls and aerospace electronicsconcern(Eaton是一家汽车零部件、控制和航空电子产品公司)。
对于每个句子,如果给定的实体是主语,则用“S”来选择该实体,如果实体是宾语,则用“O”来选择,如果它是另一种类型的实体,则用“X”来选择,并且如果它不存在,则用“-”来选择。因此,对于句子s0,“company”被标记,因为“company”出现在该句子中。
句子2320的注释包括将对“Eaton”和“Pacific Sierra Research”的各种引用标记为组织,实体的类型。
提取了以下元组:
s0:sell(eaton,unit,company).
s3:employ(pacific_sierra,200).
包括图24A和图24B的图24描绘了根据本公开的一方面的句法树。图24包括句法树2410、2420、2430和2440。句法树对应于图23中提到的句子s0、s1、s2和s3。
句法树2410表示文本“Eaton Corp.said it sold its Pacific SierraResearch unit to a company formed by employees of that unit(Eaton公司表明,它将其Pacific Sierra Research部门出售给了由该部门的员工组建的公司)”。句法树2420表示文本“Terms were not disclosed(条款没有被披露)”。句法树2430表示文本“PacificSierra,based in Los Angeles,has 200employees and supplies professionalservices and advanced products to industry(总部位于洛杉矶的Paciflc Sierra拥有200名员工,并且为行业提供专业服务和先进产品)”。句法树2440表示文本“Eaton is anautomotive parts,controls and aerospace electronics concern(Eaton是一家汽车零部件、控制和航空电子产品公司)”。
图25描绘了根据本公开的一方面的实体相互关系图。图25描绘了图23和图24中提到的句子s0、s1、s2和s3的实体相互关系图2500。
图26描绘了根据本公开的一方面的附加的实体相互关系图。图26描述了实体相互关系图2600,该实体相互关系图2600描绘了句子s3内的实体。与实体相互关系图2500相比,实体相互关系图2600进一步注释有诸如组织类型之类的细节。
图27描绘了根据本发明的一方面的话语树。话语树2700对应于上面关于图23-图25讨论的文本。
图28是根据本公开的一方面的用于扩充本体的示例性处理2800的流程图。处理2800可以由应用122来实现。
在框2801处,处理2800涉及从包括片段的文本生成表示片段之间的修辞相互关系的话语树。话语树包括节点,每个非终端节点表示两个片段之间的修辞相互关系,并且话语树的节点中的每个终端节点与片段中的一个相关联。在框2801处,处理2800涉及与处理1500的框1501和1502基本相似的操作。
在一些情况下,在框2801处生成交流话语树(CDT)。在该情况下,处理2800涉及与处理1500的框1501-1505基本相似的操作。在一些情况下,CDT可以比仅话语树的能力更好地为在处理2800中执行的操作提供信息。例如,在框2801处生成的CDT中的交流动作可以形成对应的基本话语单元的话题。例如,句子“she told me the sky is blue(她告诉我天空是蓝的)”中的主语“she(她)”可以通过对应的交流动作被识别为重要。从那里,即使传统上被视为信息量较少的卫星基本话语单元的话题,也可以指示卫星实际上是信息量大的。在这方面,交流动作可以凌驾于仅从核心EDU中提取文本的传统视图。
返回到处理2800,在框2802处,处理2800涉及从话语树中识别中心实体,该中心实体(i)与类型详述的修辞关系相关联,并且(ii)对应于识别文本的中心实体的主题节点。从话语树(或交流话语树)中识别主题节点。为了识别主题,应用122对于树的终端节点中的每个节点计算距根节点的相应的路径长度。如图27中所描绘的那样,根节点是第一“详述”节点。
继续该示例,应用122通过识别具有作为所述路径长度中的最小路径长度的路径长度的节点来从终端节点中识别主题节点。然后,应用122通过从与主题节点相关联的核心基本话语单元中提取名词短语,来从主题节点确定话语树的主题。该名词短语是中心实体。
返回参照图27,中心实体的示例是“Eaton Corp.(Eaton公司)”。中心实体可以在基本话语单元“Eaton Corp.said(Eaton公司表明)”中找到。在另一个示例中,对于文本“sky is blue(天空是蓝的)”,中心实体被识别为“sky(天空)”。
在框2803处,处理2800涉及从话语树中确定与中心实体相关联的基本话语单元的子集。话语树可以具有与中心实体相关联的一个或多个基本话语单元。
确定基本话语单元和中心实体之间的关联可以涉及对与类型核心相关联并且与非平凡的修辞关系相关联的基本话语单元的文本分析。非平凡关系的示例是那些不是类型详述或联合的关系。例如,应用122从话语树中识别基本话语单元,这些基本话语单元(i)具有类型核心并且(ii)不是默认关系,例如与不是类型“详述”或“联合”的修辞关系相关联或连接。
返回参照图27,类型核心的基本话语单元包括“It sold its PacificSierra...”、“Pacific Sierra...”和“Eaton is an automotive parts...”。
在框2804处,处理2800涉及在与基本话语单元的子集相关联的文本中识别对基本话语单元的子集中的两个或更多个基本话语单元共同的一个或多个元素。识别共同的元素可以涉及泛化。
对于相同词性(POS)的两个词语,它们的泛化是具有该POS的相同词语。如果两个词语的词目不同,但POS相同,则POS保留在结果中。如果词目相同,但POS不同,则词目保留在结果中。词目表示没有相关词性信息的词语。
为了说明这个概念,考虑两个自然语言表达的示例。表达的含义由逻辑公式表示。构造了这些公式的合一(unification)和反合一(anti-unification)。一些词语(实体)被映射到谓词,一些被映射到它们的论元中,并且一些其他词语没有显式地出现在逻辑形式表示中,而是指示具有论元的谓词的上述实例化。
考虑以下两个句子“camera with digital zoom(具有数字变焦的相机)”和“camera with zoom for beginners(适合初学者的具有变焦的相机)”。为了表达含义,使用了以下逻辑谓词:camera(name_of_feature,type_of_users),以及
zoom(type_of_zoom)。
注意,这是简化的示例,因此与更典型的示例相比,这可能具有减少数量的论元。继续该示例,上面的表达可以被表示为:camera(zoom(digital),AnyUser),以及
camera(zoom(AnyZoom),beginner)
根据符号,变量(非实例化值,未在NL表达中指定)被大写。给定上述一对公式,合一计算它们最宽泛的特化camera(zoom(digital),beginner),并且反合一计算它们最特定的泛化,camera(zoom(AnyZoom),AnyUser)。
在句法层次上,这些表达受到两个名词短语的泛化(‘^’)如:{NN-camera,PRP-with,[digital],NN-zoom[for beginners]}。方括号中的表达被剔除,因为它们出现在一个表达中,但没有出现在另一个表达中。因此,获得了{NN-camera,PRP-with,NN-zoom]},这是语义泛化的句法模拟。
抽象泛化的目的是找到各种语义层次上的文本的部分之间的共性。泛化操作发生在一个或多个层次上。层次的示例是段落层次、句子层次、短语层次和词语层次。
在每个层次(词语层次除外)上,各个词语,两个表达的泛化的结果是表达的集合。在此类集合中,对于每对表达,使得一个表达比另一个表达更不宽泛,后者被剔除。表达的两个集合的泛化是作为这些表达的逐对泛化的结果的集合的集合。
对于一对词语仅存在单个泛化:如果词语是相同形式的相同词语,则结果是具有该形式的该词语的节点。为了涉及word2vec模型(Mikolov等人,2015),计算两个不同词语的泛化,使用以下规则。如果subject1=subject2,则subject1^subject2=<subject1,POS(subject1),1>。否则,如果它们具有相同的词性,则subject1^subject2=<*,POS(subject1),word2vecDistance(subject1^subject2)>。如果词性不同,则泛化是空元组。它不能被进一步泛化。
对于一对短语,泛化包括短语中词语的泛化节点的所有最大有序集合,使得词语的次序被保留。在以下示例中,
“To buy digital camera today,on Monday(今天要购买数码相机,在星期一)”。
“Digital camera was a good buy today,first Monday of the month(今天数码相机是划算的购买,本月的第一个星期一)”。
泛化是{<JJ-digital,NN-camera>,<NN-today,ADV,Monday>},其中对名词短语的泛化之后是对副词短语的泛化。动词buy被排除在两个泛化之外,因为它在上述短语中以不同的次序出现。Buy-digital-camera不是泛化短语,因为buy以与其他泛化节点不同的顺序出现。
在另一个示例中,
“movie from spain(来自西班牙的电影)”
和“movie from italy(来自意大利的电影)”
则泛化是“movie from[COUNTRY]”
每个共同的事物保留;每个不同的事物被移除。
移除共同元素的根本原因是其有助于在多个源中定位元素以增加可靠性。因此,只维持共同元素。
在框2805处,处理2800涉及通过将一个或多个句法或语义模板应用于相应的短语来从泛化短语形成元组。模板的示例包括:
<drug_entity1>is a generic substitute for<drug entity2>
<entity1>concentration is affected by dissolution of<entity 2>
<entity1>is a<class_of_entity>
(<drug_entity1>是<drug entity2>的通用替代物
<entity1>浓度受<entity 2>的溶解影响
<entity1>是<class_of_entity>)
如上文提到的那样,元组是移除了语言信息的正常形式的短语。正常形式包括不定式形式的动词和主格单数形式的名词。例如,考虑文本“all skies are blue(所有天空都是蓝的)”、“sky is blue(天空是蓝的)”和“sky has a blue color(天空具有蓝色)”。这些短语由名词-形容词形式的元组“sky blue(天空蓝)”表示。注意,每个元组与短语具有一一对应的关系。
在框2806处,处理2800涉及将元组中的一个元组识别为具有包括以下的类型:名词短语、动词短语、形容词短语或介词短语。
名词短语(NP)是具有名词(诸如动词的主语或者动词或介词的宾语)功能的句法元素(例如,子句)。句子中名词短语的示例是“I found the owner of the dog(我找到了狗的主人)”,其中“the owner of the dog(狗的主人)”是名词短语。动词短语是句子的一部分,其包含动词和直接或间接宾语(动词的从属)两者“He appears on screen as anactor(他作为演员出现在屏幕上)”。形容词短语是以描述名词或代词的形容词为首的一组词语。形容词短语的示例是“She is rather fond of skiing(她相当喜欢滑雪)”。介词短语是修饰短语,包括介词及其宾语。“Before going home,go to the store(在回家之前,去商店)”。
应用122可以识别文本是否包括名词短语、动词短语、形容词短语或介词短语。例如,可以从文本中形成句法树。从标识词性的句法树中,应用122可以确定短语的类型。如果树包括动词,则该短语是动词短语。如果短语以形容词开头,则该短语是形容词短语。如果短语以介词开头,则该短语是介词短语。否则,该短语是名词短语。
在一些情况下,可以使用机器学习技术来确定给定的短语是否为名词短语、动词短语、形容词短语或介词短语。例如,短语被提供给经训练的机器学习模型124,其输出短语类型分类。
在框2807处,处理2800涉及响应于基于识别出的元组的类型成功地将与识别出的元组相关联的基本话语单元转换成包括谓词和论元的逻辑表示,用来自识别出的元组的实体来更新本体。
如本文所使用的,逻辑谓词表示性质或关系。例如,考虑短语“sky blue”,词语“sky”是谓词,因为“sky”是中心名词。谓词可以被表示为:
谓词名称[论元0...n]
转换基于识别出的元组的类型。例如,如果元组是名词短语或介词短语,则应用122提取中心名词或最后的名词中的一个或多个作为逻辑谓词,并提取一个或多个其他词语作为论元。如果元组是动词短语,则应用122提取元组的动词作为谓词,并提取一个或多个其他词语作为论元。
形容词或介词短语给出更简单的事实作为本体条目:
‘lower concentration of acids’->concentration(acid,lower)
‘in low indirect light’->light(low,indirect)
如果元组指示形容词短语或介词短语,则执行对形容词或介词短语内的内部动词短语的搜索。如果介词或形容词短语中存在嵌入的动词短语,则从内部动词短语形成元组。如果不存在内部动词短语,则不执行本体条目。
如果不能将短语转换成逻辑表示,则不能使用该短语。在该情况下,可以重复处理2800以找到本体条目的其他候选。
下游应用包括搜索系统、推荐系统、决策支持系统(DSS)和诊断系统。例如,应用122可以从用户设备接收查询。查询的示例包括关于治疗的问题。响应于接收到查询,应用122可以在本体中定位实体并向用户设备提供该实体。
在一方面,实体可以具有类。类的示例包括实体类,包括“实验室测试”、“药物”和“蛋白质”。类的识别可以涉及使用“word2vec”方法。例如,机器学习模型124。可以训练机器学习模型124来识别实体类。例如,应用122将元组编码为向量表示,并向机器学习模型124提供该向量表示。反过来,机器学习模型向应用122提供所确定的实体类。本体可以用实体类来更新和/或向用户设备提供实体类。
在一方面,可以执行附加的分组。例如,相同种类的元组被分组以产生可靠的、信息量大的本体条目并最小化不一致性。名词短语与名词短语分组,动词短语与动词短语分组,并且介词短语与介词短语分组。随后的聚合组件执行元组泛化,以避免无法以足够的置信度可靠地应用的过于特定、有噪声的条目。
包括同义词识别的字典管理器有助于泛化具有相同含义但不同词语表达它的元组。使用推理来涵盖不是同义词但在其他词语的上下文中相互暗示的词语和多词(multiword)。
评估
复杂的特定于领域的医学Q/A数据集(诸如MCTest、生物过程建模、BioASQ和InsuranceQA数据集)是可用的,但由于任务的复杂性或对于无法被众包或从web收集的专家注释的需求,这些数据集规模有限(500-10K)。组合了用于跟踪每个本体构造步骤的贡献的不同复杂度的问题、文本及其关联的七个数据集。在表3中表征了Q/A数据集。
/>
/>
当从有噪声数据中任意地提取本体条目时,一些条目相互矛盾。矛盾的频率间接指示元组提取和整体本体形成的错误率。矛盾条目的示例是<bird,penguin,fly>vs<bird,penguin,not fly>和<frog,crawl,water>vs<frog,swim,water>(第三个论元应该不同)。
从回答中提取本体条目。然后,在结果本体中,给定每个条目,我们试图找到与该给定条目相矛盾的其他条目。如果找到至少一个此类条目,则我们认为该给定条目不一致。整个本体的不一致条目的部分被计数并被显示为所有本体条目的百分比。作为基线,我们评估其条目是从所有文本部分中提取的并保持原样而没有任何细化的本体。然后,我们应用各种增强步骤并跟踪它们是否影响本体一致性。
/>
如何评估每个本体改进影响结果本体一致性(表4)。不一致性值针对本体条目的总数被归一化,因为每个细化步骤减少条目的数量,删除被确定为做得不可靠的条目。每个步骤具有其自己的机制来减少预计有噪声、不可靠和误导性的条目。
可以观察到,添加用于提取本体条目的规则使得结果本体更干净、更鲁棒和一致。采用所有手段来减少不一致性在大多数领域中实现了不一致本体条目的低于1%的矛盾率。最难以实现不一致性的领域是MedQuAD和emrQA。最差的表现出现于电子医疗记录(底部的行)。
评估当本体支持多个健康相关数据集中的搜索时该搜索的准确性。本体支持的复杂度是不同的。(表4)。当获得了每个评估数据集的单个最佳回答时,作为F1来测量搜索相关性。
可以观察到,随着本体构造中的每个增强,搜索相关性(F1)有小的改进。这种在2%范围内的改进可能难以与随机偏差区分开来。然而,由于本体而导致的整体改进是显著的:超过10%。我们的消融实验表明,话语处理、聚合、匹配和验证中的每个步骤都是重要的,并且不应被跳过。
虽然本体辅助搜索不能被表示为机器学习任务,但在我们先前的研究中,我们已经从我们对学习迁移框架的工业评估中吸取了重要教训(Galitsky 2019)。经由web挖掘构建本体并将它们应用于特定垂直领域可以被视为具有特征表示和关系知识转移方法的归纳转移/多任务学习。我们评估了从各种各样的来源构建的本体,这些来源包括博客(Galitsky和Kovalerchuk 2006)、论坛、聊天、意见数据(Galitsky和McKenna 2017)以及在诸如eBay.com处的购物和娱乐之类的垂直领域中以及在金融领域中搜索产品和推荐时足以处理用户查询的客户支持数据。这项工作中的本体学习是在垂直领域中执行的,其中术语的歧义是有限的,因此,完全自动化的设置产生足够的结果搜索准确性。
用于支持临床决策的先进系统在急诊科特别有吸引力。由于情况至关重要,因此它也许是需要尽可能快的最准确解决方案的那个。TM的使用在支持急诊服务决策的智能系统的开发中已经发挥了重要作用,并且其应用已经是初期的现实。(Portela等人2014)提出了用于急诊服务的特定系统,该系统在正确的决策过程方面引导医疗保健专业人员确立临床优先级。多亏从电子医疗记录、实验室测试或治疗计划中提取相关数据的TM技术,这个复杂的过程被执行(Gupta和Lehal 2009)。
我们的评估表明,依赖于话语分析确实在以下方面改进了本体的质量:
1)不一致性的数量更低;
2)结果搜索的相关性更高。
一旦从文本的重要且信息量大的部分中提取了本体条目而不是从所有文本中提取它们,用于搜索和决策的结果本体的可靠性就增加。
示例性计算系统
图29描绘了用于实现这些方面中的一个方面的分布式系统2900的简化图。在所示的方面中,分布式系统2900包括一个或多个客户端计算设备2902、2904、2906和2908,其被配置为通过一个或多个网络2910执行和操作客户端应用,诸如web浏览器、专有客户端(例如,Oracle Forms)等。服务器2912可以经由网络2910与客户端计算设备2902、2904、2906和2908通信地耦合。
在各种方面中,服务器2912可以适于运行由系统的一个或多个组件提供的一个或多个服务或软件应用。服务或软件应用可以包括非虚拟和虚拟环境。虚拟环境可以包括用于虚拟事件、贸易展览、模拟器、教室、购物交易场所和企业的环境,无论是二维或三维(3D)表示、基于页面的逻辑环境还是以其他方式。在一些方面中,这些服务可以作为基于web的服务或云服务或者在软件即服务(SaaS)模型下被提供给客户端计算设备2902、2904、2906和/或2908的用户。操作客户端计算设备2902、2904、2906和/或2908的用户进而可以利用一个或多个客户端应用来与服务器2912交互以利用由这些组件提供的服务。
在图中描绘的配置中,分布式系统2900的软件组件2918、2920和2922被显示为在服务器2912上实现。在其他方面中,分布式系统2900的一个或多个组件和/或由这些组件提供的服务也可以由客户端计算设备2902、2904、2906和/或2908中的一个或多个来实现。然后,操作客户端计算设备的用户可以利用一个或多个客户端应用来使用由这些组件提供的服务。这些组件可以用硬件、固件、软件或其组合来实现。应该意识到的是,各种不同的系统配置是可能的,其可能与分布式系统2900不同。因此,图中所示的方面是用于实现方面系统的分布式系统的一个示例,而不是旨在限制。
客户端计算设备2902、2904、2906和/或2908可以是便携式手持设备(例如,蜂窝电话、/>计算平板电脑、个人数字助理(PDA))或可穿戴设备(例如,Google/>头戴式显示器),其运行诸如Microsoft Windows/>和/或各种移动操作系统(诸如iOS、Windows Phone、Android、BlackBerry 10、Palm OS等)之类的软件,并且启用互联网、电子邮件、短消息服务(SMS)、/>或其他通信协议。客户端计算设备可以是通用个人计算机,通过举例的方式,包括运行各种版本的MicrosoftApple/>和/或Linux操作系统的个人计算机和/或膝上型计算机。客户端计算设备可以是运行任何各种可商业获得的/>或类UNIX操作系统(包括但不限于各种GNU/Linux操作系统,诸如例如Google Chrome OS)的工作站计算机。可替代地或附加地,客户端计算设备2902、2904、2906和2908可以是能够通过(一个或多个)网络2910通信的任何其他电子设备,诸如瘦客户端计算机、启用互联网的游戏系统(例如,具有或不具有/>手势输入设备的Microsoft Xbox游戏控制台)和/或个人消息传递设备。
虽然示例性分布式系统2900被显示为具有四个客户端计算设备,但是可以支持任何数量的客户端计算设备。其他设备(诸如具有传感器的设备等)可以与服务器2912交互。
分布式系统2900中的(一个或多个)网络2910可以是本领域技术人员所熟悉的、可以使用任何各种可商业获得的协议来支持数据通信的任何类型的网络,所述协议包括但不限于TCP/IP(传输控制协议/互联网协议)、SNA(系统网络体系架构)、IPX(互联网分组交换)、AppleTalk等。仅仅通过举例的方式,(一个或多个)网络2910可以是局域网(LAN),诸如基于以太网、令牌环等的LAN。(一个或多个)网络2910可以是广域网和互联网。它可以包括虚拟网络,包括但不限于虚拟专用网络(VPN)、内联网、外联网、公共交换电话网(PSTN)、红外网络、无线网络(例如,依据电气电子学会(IEEE)802.29协议套件、和/或任何其他无线协议中的任何一种操作的网络);和/或这些和/或其他网络的任何组合。
服务器2912可以由一个或多个通用计算机、专用服务器计算机(通过举例的方式,包括PC(个人计算机)服务器、服务器、中档服务器、大型主机计算机、机架安装的服务器等)、服务器农场、服务器集群或任何其他适当的布置和/或组合组成。服务器2912可以包括运行虚拟操作系统或涉及虚拟化的其他计算架构的一个或多个虚拟机。可以虚拟化逻辑存储设备的一个或多个灵活的池,以维护服务器的虚拟存储设备。服务器2912可以使用软件定义的网络来控制虚拟网络。在各种方面中,服务器2912可以适于运行在前述公开中所描述的一个或多个服务或软件应用。例如,服务器2912可以对应于用于执行以上根据本公开的方面描述的处理的服务器。
服务器2912可以运行包括以上讨论的操作系统中的任何一种的操作系统,以及任何可商业获得的服务器操作系统。服务器2912还可以运行任何各种附加的服务器应用和/或中间层应用,包括HTTP(超文本传输协议)服务器、FTP(文件传输协议)服务器、CGI(公共网关接口)服务器、服务器、数据库服务器等。示例性数据库服务器包括但不限于可从Oracle、Microsoft、Sybase、IBM(国际商业机器)等商业获得的那些数据库服务器。
在一些实现方案中,服务器2912可以包括一个或多个应用,以分析和整合从客户端计算设备2902、2904、2906和2908的用户接收到的数据馈送和/或事件更新。作为示例,数据馈送和/或事件更新可以包括但不限于馈送、/>更新或者从一个或多个第三方信息源接收到的实时更新和连续数据流,其可以包括与传感器数据应用、金融报价机、网络性能测量工具(例如,网络监视和流量管理应用)、点击流分析工具、汽车交通监视等相关的实时事件。服务器2912还可以包括一个或多个应用,以经由客户端计算设备2902、2904、2906和2908的一个或多个显示设备显示数据馈送和/或实时事件。
分布式系统2900还可以包括一个或多个数据库2914和2916。数据库2914和2916可以驻留在各种位置中。通过举例的方式,数据库2914和2916中的一个或多个可以驻留在服务器2912本地的(和/或驻留在服务器2912中的)非暂态存储介质上。可替代地,数据库2914和2916可以远离服务器2912,并且经由基于网络的连接或专用的连接与服务器2912通信。在一组方面中,数据库2914和2916可以驻留在存储区域网络(SAN)中。类似地,用于执行归因于服务器2912的功能的任何必要的文件可以视情况被本地存储在服务器2912上和/或远程存储。在一组方面中,数据库2914和2916可以包括适于响应于SQL格式的命令而存储、更新和检索数据的关系数据库,诸如由Oracle提供的数据库。
图30是根据本公开的一方面的系统环境3000的一个或多个组件的简化框图,通过该系统环境3000,可以作为云服务提供由方面系统的一个或多个组件提供的服务。在所示的方面中,系统环境3000包括可以由用户使用以与提供云服务的云基础设施系统3002交互的一个或多个客户端计算设备3004、3006和3008。客户端计算设备可以被配置为操作客户端应用,诸如web浏览器、专有客户端应用(例如,Oracle Forms)或某种其他应用,其可以由客户端计算设备的用户用来与云基础设施系统3002交互以使用由云基础设施系统3002提供的服务。
应该意识到的是,图中描绘的云基础设施系统3002可以具有除了所描绘的那些组件之外的其他组件。此外,图中所示的方面仅是可以结合本发明的方面的云基础设施系统的一个示例。在一些其他方面中,云基础设施系统3002可以具有比图中所示的组件更多或更少的组件,可以组合两个或更多个组件,或者可以具有不同的组件配置或布置。
客户端计算设备3004、3006和3008可以是与上面针对2902、2904、2906和2908所描述的设备类似的设备。
虽然示例性系统环境3000被显示为具有三个客户端计算设备,但是可以支持任何数量的客户端计算设备。其他设备(诸如具有传感器的设备等)可以与云基础设施系统3002交互。
(一个或多个)网络3010可以促进客户端计算设备3004、3006和3008与云基础设施系统3002之间的数据的通信和交换。每个网络可以是本领域技术人员所熟悉的、可以使用任何各种可商业获得的协议(包括上面针对(一个或多个)网络2910所描述的那些协议)来支持数据通信的任何类型的网络。
云基础设施系统3002可以包括一个或多个计算机和/或服务器,其可以包括上面针对服务器2912所描述的那些计算机和/或服务器。
在某些方面中,由云基础设施系统提供的服务可以包括按需对云基础设施系统的用户可用的许多服务,诸如在线数据存储和备份解决方案、基于Web的电子邮件服务、托管的办公套件和文档协作服务、数据库处理、管理的技术支持服务等。由云基础设施系统提供的服务可以动态地改变规模以满足其用户的需要。由云基础设施系统提供的服务的具体实例化在本文中被称为“服务实例”。通常,从云服务提供商的系统经由通信网络(诸如互联网)对用户可用的任何服务被称为“云服务”。通常,在公有云环境中,构成云服务提供商的系统的服务器和系统与客户自己的本地部署(on-premises)服务器和系统不同。例如,云服务提供商的系统可以托管应用,并且用户可以经由诸如互联网之类的通信网络按需订购和使用应用。
在一些示例中,计算机网络云基础设施中的服务可以包括对由云供应商向用户提供或如以其他方式在本领域中已知的存储装置、托管的数据库、托管的Web服务器、软件应用或其他服务的受保护的计算机网络访问。例如,服务可以包括通过互联网对云上的远程存储装置进行密码保护的访问。作为另一个示例,服务可以包括基于Web服务的托管的关系数据库和脚本语言中间件引擎,以供联网的开发者私有使用。作为另一个示例,服务可以包括对在云供应商的网站上托管的电子邮件软件应用的访问。
在某些方面中,云基础设施系统3002可以包括以自助服务、基于订阅、弹性可伸缩、可靠、高度可用和安全的方式递送给客户的应用、中间件和数据库服务提供物的套件。此类云基础设施系统的示例是由本受让人提供的Oracle公有云。
大容量数据(有时被称为大数据)可以由基础设施系统在许多层次和不同规模上托管和/或操纵。此类数据可能包括太庞大且复杂的数据集,以致于可能难以使用典型的数据库管理工具或传统的数据处理应用进行处理。例如,使用个人计算机或其基于机架的对应物可能难以存储、检索和处理数万亿字节的数据。使用最新的关系数据库管理系统以及桌面统计数据和可视化包可能难以对这种大小的数据起作用。它们可能需要运行数千台服务器计算机的超出常用软件工具的结构大规模地并行处理软件,以在可容忍的经过时间内捕获、整理、管理和处理数据。
分析者和研究者可以存储和操纵非常大的数据集以可视化大量数据、检测趋势和/或以其他方式与数据进行交互。并行链接的数十个、数百个或数千个处理器可以对此类数据采取动作,以呈现该数据或者模拟作用于该数据或其表示的事物的外力。这些数据集可以涉及结构化数据(诸如在数据库中或根据结构化模型以其他方式进行组织的结构化数据)和/或非结构化数据(例如,电子邮件、图像、数据blob(二进制大对象)、网页、复杂事件处理)。通过利用一方面的能力来相对快速地将更多(或更少)计算资源集中在目标上,可以基于来自企业、政府机构、研究组织、私人个体、志趣相投的个人或组织的群体或者其他实体的需求,更好地利用云基础设施系统来对大型数据集执行任务。
在各种方面中,云基础设施系统3002可以适于自动供应、管理和跟踪客户对由云基础设施系统3002提供的服务的订阅。云基础设施系统3002可以经由不同的部署模型来提供云服务。例如,可以依据公有云模型来提供服务,其中云基础设施系统3002由销售云服务的组织拥有(例如,由Oracle拥有),并且服务对一般公众或不同行业的企业可用。作为另一个示例,可以依据私有云模型来提供服务,其中云基础设施系统3002仅针对单个组织操作,并且可以为该组织内的一个或多个实体提供服务。还可以依据社区云模型来提供云服务,其中云基础设施系统3002和由云基础设施系统3002提供的服务由相关社区中的几个组织共享。还可以依据混合云模型来提供云服务,该混合云模型是两个或更多个不同模型的组合。
在一些方面中,由云基础设施系统3002提供的服务可以包括在软件即服务(SaaS)类别、平台即服务(PaaS)类别、基础设施即服务(IaaS)类别或包括混合服务的其他服务类别下提供的一个或多个服务。客户经由订阅订单可以订购由云基础设施系统3002提供的一个或多个服务。然后,云基础设施系统3002执行处理以提供客户的订阅订单中的服务。
在一些方面中,由云基础设施系统3002提供的服务可以包括但不限于应用服务、平台服务和基础设施服务。在一些示例中,应用服务可以由云基础设施系统经由SaaS平台提供。SaaS平台可以被配置为提供落入SaaS类别下的云服务。例如,SaaS平台可以提供在集成开发和部署平台上构建和递送按需应用套件的能力。SaaS平台可以管理和控制用于提供SaaS服务的底层软件和基础设施。通过利用由SaaS平台提供的服务,客户可以利用在云基础设施系统上执行的应用。客户可以获取应用服务,而无需客户购买单独的许可证和支持。可以提供各种不同的SaaS服务。示例包括但不限于为大型组织提供销售绩效管理、企业集成和业务灵活性的解决方案的服务。
在一些方面中,平台服务可以由云基础设施系统经由PaaS平台提供。PaaS平台可以被配置为提供落入PaaS类别下的云服务。平台服务的示例可以包括但不限于使组织(诸如Oracle)能够在共享的公共架构上整合现有应用以及利用平台提供的共享服务来构建新应用的能力的服务。PaaS平台可以管理和控制用于提供PaaS服务的底层软件和基础设施。客户可以获取由云基础设施系统提供的PaaS服务,而无需客户购买单独的许可证和支持。平台服务的示例包括但不限于Oracle Java云服务(JCS)、Oracle数据库云服务(DBCS)等。
通过利用由PaaS平台提供的服务,客户可以采用由云基础设施系统支持的编程语言和工具,并且还控制所部署的服务。在一些方面中,由云基础设施系统提供的平台服务可以包括数据库云服务、中间件云服务(例如,Oracle融合中间件服务)和Java云服务。在一方面,数据库云服务可以支持共享服务部署模型,该模型使得组织能够汇集数据库资源并且以数据库云的形式向客户提供数据库即服务。在云基础设施系统中,中间件云服务可以为客户提供开发和部署各种业务应用的平台,并且Java云服务可以为客户提供部署Java应用的平台。
各种不同的基础设施服务可以由云基础设施系统中的IaaS平台来提供。基础设施服务促进底层计算资源(诸如存储、网络和其他基础计算资源)的管理和控制,以便客户利用由SaaS平台和PaaS平台提供的服务。
在某些方面中,云基础设施系统3002还可以包括基础设施资源3030,用于向云基础设施系统的客户提供用于提供各种服务的资源。在一方面,基础设施资源3030可以包括预先集成和优化的硬件(诸如服务器、存储装置和联网资源)的组合,以执行由PaaS平台和SaaS平台提供的服务。
在一些方面中,云基础设施系统3002中的资源可以由多个用户共享并且根据需要动态重新分配。此外,可以将资源分配给在不同时区中的用户。例如,云基础设施系统3002可以使在第一时区中的第一组用户能够在指定的小时数内利用云基础设施系统的资源,并且然后使相同资源能够被重新分配给位于不同时区中的另一组用户,从而使资源的利用率最大化。
在某些方面中,可以提供由云基础设施系统3002的不同组件或模块以及由云基础设施系统3002所提供的服务共享的多个内部共享服务3032。这些内部共享服务可以包括但不限于安全和身份服务、集成服务、企业储存库服务、企业管理器服务、病毒扫描和白名单服务、高可用性、备份和恢复服务、启用云支持的服务、电子邮件服务、通知服务、文件传输服务等。
在某些方面中,云基础设施系统3002可以提供云基础设施系统中的云服务(例如,SaaS、PaaS和IaaS服务)的综合管理。在一方面,云管理功能可以包括用于供应、管理和跟踪由云基础设施系统3002接收到的客户的订阅的能力等。
在一方面,如图中所描绘的那样,云管理功能可以由一个或多个模块提供,诸如订单管理模块3020、订单编排模块3022、订单供应模块3024、订单管理和监视模块3026以及身份管理模块3028。这些模块可以包括一个或多个计算机和/或服务器或者使用一个或多个计算机和/或服务器来提供,该一个或多个计算机和/或服务器可以是通用计算机、专用服务器计算机、服务器农场、服务器集群或任何其他适当的布置和/或组合。
在示例性操作3034中,使用客户端设备(诸如客户端计算设备3004、3006或3008)的客户可以通过请求由云基础设施系统3002提供的一个或多个服务并且针对由云基础设施系统3002提供的一个或多个服务的订阅下订单来与云基础设施系统3002进行交互。在某些方面中,客户可以访问云用户接口(UI)(云UI 3012、云UI 3014和/或云UI 3016)并经由这些UI下订阅订单。云基础设施系统3002响应于客户下订单而接收到的订单信息可以包括识别客户以及客户想要订阅的由云基础设施系统3002提供的一个或多个服务的信息。
在客户已经下过订单之后,订单信息经由云UI 3030、3014和/或3016被接收。
在操作3036处,在订单数据库3018中存储订单。订单数据库3018可以是由云基础设施系统3002操作和与其他系统元件结合操作的几个数据库中的一个。
在操作3038处,将订单信息转发到订单管理模块3020。在一些情况下,订单管理模块3020可以被配置为执行与订单相关的计费和记账功能,诸如验证订单以及在验证后预订订单。
在操作3040处,将关于订单的信息传送到订单编排模块3022。订单编排模块3022可以利用订单信息来为客户下的订单编排服务和资源的供应。在一些情况下,订单编排模块3022可以使用订单供应模块3024的服务来编排资源的供应以支持所订阅的服务。
在某些方面中,订单编排模块3022使得能够管理与每个订单相关联的业务过程并应用业务逻辑来确定订单是否应该进行到供应。在操作3042处,在接收到新订阅的订单后,订单编排模块3022向订单供应模块3024发送分配资源并配置履行订阅订单所需的那些资源的请求。订单供应模块3024使得能够为客户订购的服务分配资源。订单供应模块3024提供在由云基础设施系统3002提供的云服务和用于供应用于提供所请求的服务的资源的物理实现层之间的抽象层次。因此,订单编排模块3022可以与实现细节(诸如服务和资源是否实际上即时供应或预先供应并仅在请求后才被分配/指派)隔离。
在操作3042处,一旦供应了服务和资源,就可以通过云基础设施系统3002的订单供应模块3024向客户端计算设备3004、3006和/或3008上的客户发送所提供的服务3044的通知。
在操作3046处,订单管理和监视模块3026可以管理和跟踪客户的订阅订单。在一些情况下,订单管理和监视模块3026可以被配置为收集订阅订单中的服务的使用统计,诸如所使用的存储量、传输的数据量、用户的数量以及系统运行时间和系统停机时间的量。
在某些方面中,云基础设施系统3002可以包括身份管理模块3028。身份管理模块3028可以被配置为提供身份服务,诸如云基础设施系统3002中的访问管理和授权服务。在一些方面中,身份管理模块3028可以控制关于希望利用由云基础设施系统3002提供的服务的客户的信息。此类信息可以包括认证此类客户的身份的信息以及描述这些客户被授权相对于各种系统资源(例如,文件、目录、应用、通信端口、存储器段等)执行哪些动作的信息。身份管理模块3028还可以包括对关于每个客户的描述性信息以及关于可以如何和由谁访问和修改该描述性信息的描述性信息的管理。
图31图示了其中可以实现本发明的各种方面的示例性计算机系统3100。可以使用计算机系统3100来实现上述计算机系统中的任何一个。如图中所示,计算机系统3100包括经由总线子系统3102与多个外围子系统通信的处理单元3104。这些外围子系统可以包括处理加速单元3106、I/O子系统3108、存储子系统3118和通信子系统3124。存储子系统3118包括有形计算机可读存储介质3122和系统存储器3110。
总线子系统3102提供用于让计算机系统3100的各种组件和子系统按意图彼此通信的机制。虽然总线子系统3102被示意性地显示为单个总线,但是总线子系统的替代方面可以利用多个总线。总线子系统3102可以是使用任何各种总线体系架构的几种类型的总线结构中的任何一种,包括存储器总线或存储器控制器、外围总线以及局部总线。例如,此类体系架构可以包括工业标准体系架构(ISA)总线、微通道体系架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线和外围组件互连(PCI)总线,其可以被实现为按IEEE P3186.1标准制造的Mezzanine总线。
可以被实现为一个或多个集成电路(例如,常规微处理器或微控制器)的处理单元3104控制计算机系统3100的操作。一个或多个处理器可以被包括在处理单元3104中。这些处理器可以包括单核或多核处理器。在某些方面中,处理单元3104可以被实现为一个或多个独立的处理单元3132和/或3134,其中在每个处理单元中包括单核或多核处理器。在其他方面中,处理单元3104还可以被实现为通过将两个双核处理器集成到单个芯片中形成的四核处理单元。
在各种方面中,处理单元3104可以响应于程序代码而执行各种程序并且可以维护多个并发执行的程序或过程。在任何给定的时间,要执行的程序代码中的一些或全部程序代码可以驻留在处理单元3104中和/或存储子系统3118中。通过合适的编程,处理单元3104可以提供上述的各种功能。计算机系统3100可以附加地包括处理加速单元3106,其可以包括数字信号处理器(DSP)、专用处理器等。
I/O子系统3108可以包括用户接口输入设备和用户接口输出设备。用户接口输入设备可以包括键盘、定点设备(诸如鼠标或轨迹球)、并入显示器中的触摸板或触摸屏、滚轮、点击轮、拨盘、按钮、开关、小键盘、具有语音命令识别系统的音频输入设备、麦克风以及其他类型的输入设备。例如,用户接口输入设备可以包括运动感测和/或手势识别设备,诸如Microsoft运动传感器,其使得用户使用手势和口头命令通过自然用户接口来控制输入设备(诸如Microsoft/>360游戏控制器)并与之交互。用户接口输入设备还可以包括眼姿势识别设备,诸如检测来自用户的眼活动(例如,在拍照和/或做出菜单选择时的“眨眼”)并且将眼姿势变换为到输入设备(例如,Google/>)中的输入的Google/>眨眼检测器。此外,用户接口输入设备可以包括使用户能够通过语音命令与语音识别系统(例如,/>导航器)交互的语音识别感测设备。
用户接口输入设备还可以包括但不限于三维(3D)鼠标、操纵杆或指点杆、游戏手柄和图形板以及音频/视觉设备,诸如扬声器、数码相机、数码摄像机、便携式媒体播放器、网络摄像头、图像扫描仪、指纹扫描仪、条形码阅读器3D扫描仪、3D打印机、激光测距仪和视线跟踪设备。此外,用户接口输入设备可以包括例如医学成像输入设备,诸如计算机断层扫描、磁共振成像、正电子发射断层扫描、医学超声成像设备。例如,用户接口输入设备还可以包括诸如MIDI键盘、数字乐器等的音频输入设备。
用户接口输出设备可以包括显示子系统、指示灯或诸如音频输出设备之类的非视觉显示器等。显示子系统可以是阴极射线管(CRT)、平板设备(诸如使用液晶显示器(LCD)或等离子显示器的平板设备)、投影设备、触摸屏等。通常,术语“输出设备”的使用旨在包括用于从计算机系统3100向用户或其他计算机输出信息的所有可能类型的设备和机制。例如,用户接口输出设备可以包括但不限于在视觉上传达文本、图形和音频/视频信息的各种显示设备,诸如监视器、打印机、扬声器、耳机、汽车导航系统、绘图仪、语音输出设备以及调制解调器。
计算机系统3100可以包括存储子系统3118,该存储子系统3118包括软件元件,被显示为当前位于系统存储器3110内。系统存储器3110可以存储可在处理单元3104上加载和执行的程序指令,以及在这些程序的执行期间所产生的数据。
取决于计算机系统3100的配置和类型,系统存储器3110可以是易失性的(诸如随机存取存储器(RAM))和/或非易失性的(诸如只读存储器(ROM)、闪存等)。RAM通常包含可被处理单元3104立即访问和/或目前正被处理单元3104操作和执行的数据和/或程序模块。在一些实现方案中,系统存储器3110可以包括多种不同类型的存储器,例如静态随机存取存储器(SRAM)或动态随机存取存储器(DRAM)。在一些实现方案中,包含有助于(诸如在启动期间)在计算机系统3100内的元件之间传送信息的基本例程的基本输入/输出系统(BIOS)通常可以被存储在ROM中。通过举例而非限制的方式,系统存储器3110还图示了可以包括客户端应用、Web浏览器、中间层应用、关系数据库管理系统(RDBMS)等的应用程序3112,程序数据3114,以及操作系统3116。通过举例的方式,操作系统3116可以包括各种版本的MicrosoftApple/>和/或Linux操作系统、各种可商业获得的或类UNIX操作系统(包括但不限于各种GNU/Linux操作系统、Google/>OS等)和/或诸如iOS、/>Phone、/>OS、/>10OS和OS操作系统之类的移动操作系统。
存储子系统3118还可以提供用于存储提供一些方面的功能的基本编程和数据结构的有形计算机可读存储介质。在由处理器执行时提供上述功能的软件(程序、代码模块、指令)可以被存储在存储子系统3118中。这些软件模块或指令可以由处理单元3104执行。存储子系统3118还可以提供用于存储根据本发明所使用的数据的储存库。
存储子系统3118还可以包括可以进一步连接到计算机可读存储介质3122的计算机可读存储介质读取器3120。与系统存储器3110一起并且可选地与系统存储器3110组合,计算机可读存储介质3122可以全面地表示用于临时和/或更永久地包含、存储、传输和检索计算机可读信息的远程、本地、固定和/或可移除存储设备加存储介质。
包含代码或代码的一部分的计算机可读存储介质3122还可以包括本领域中已知或使用的任何适当的介质,包括存储介质和通信介质,诸如但不限于以用于信息的存储和/或传输的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。这可以包括有形的非暂态计算机可读存储介质,诸如RAM、ROM、电子可擦除可编程ROM(EEPROM)、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光学存储装置、磁带盒、磁带、磁盘存储装置或其他磁存储设备或者其他有形的计算机可读介质。当被指定时,这也可以包括非有形的暂态计算机可读介质,诸如数据信号、数据传输或者可以用于传输期望的信息并且可以由计算机系统3100访问的任何其他介质。
通过举例的方式,计算机可读存储介质3122可以包括从不可移除的非易失性磁介质读取或向不可移除的非易失性磁介质写入的硬盘驱动器、从可移除的非易失性磁盘读取或向可移除的非易失性磁盘写入的磁盘驱动器以及从可移除的非易失性光盘(诸如CDROM、DVD和Blu-盘或其他光学介质)读取或向其写入的光盘驱动器。计算机可读存储介质3122可以包括但不限于/>驱动器、闪存卡、通用串行总线(USB)闪存驱动器、安全数字(SD)卡、DVD盘、数字视频带等。计算机可读存储介质3122还可以包括基于非易失性存储器的固态驱动器(SSD)(诸如基于闪存的SSD、企业级闪存驱动器、固态ROM等)、基于易失性存储器的SSD(诸如固态RAM、动态RAM、静态RAM、基于DRAM的SSD、磁阻RAM(MRAM)SSD)以及使用基于DRAM和闪存的SSD的组合的混合SSD。盘驱动器及其相关联的计算机可读介质可以为计算机系统3100提供计算机可读指令、数据结构、程序模块以及其他数据的非易失性存储。
通信子系统3124提供到其他计算机系统和网络的接口。通信子系统3124充当用于从其他系统接收数据和从计算机系统3100向其他系统发送数据的接口。例如,通信子系统3124可以使得计算机系统3100能够经由互联网连接到一个或多个设备。在一些方面中,通信子系统3124可以包括用于(例如,使用蜂窝电话技术,诸如3G、4G或EDGE(增强型数据速率全球演进)之类的先进数据网络技术,WiFi(IEEE 802.30族标准),或其他移动通信技术,或者其任何组合)访问无线语音和/或数据网络的射频(RF)收发器组件、全球定位系统(GPS)接收器组件和/或其他组件。在一些方面中,除了无线接口之外或者替代无线接口,通信子系统3124可以提供有线网络连接(例如,以太网)。
在一些方面中,通信子系统3124还可以代表可以使用计算机系统3100的一个或多个用户接收结构化和/或非结构化的数据馈送3126、事件流3128、事件更新3130等形式的输入通信。
通过举例的方式,通信子系统3124可以被配置为实时地从社交媒体网络和/或其他通信服务的用户接收非结构化的数据馈送3126,诸如馈送、/>更新、诸如丰富站点摘要(RSS)馈送之类的web馈送和/或来自一个或多个第三方信息源的实时更新。
此外,通信子系统3124还可以被配置为接收连续数据流形式的数据,这可以包括本质上可以是连续或无界的没有明确结束的实时事件的事件流3128和/或事件更新3130。例如,生成连续数据的应用的示例可以包括传感器数据应用、金融报价机、网络性能测量工具(例如,网络监视和流量管理应用)、点击流分析工具、汽车交通监视等。
通信子系统3124还可以被配置为向一个或多个数据库输出结构化和/或非结构化的数据馈送3126、事件流3128、事件更新3130等,该一个或多个数据库可以与耦合到计算机系统3100的一个或多个流式数据源计算机进行通信。
计算机系统3100可以是各种类型中的一种,包括手持便携式设备(例如,蜂窝电话、/>计算平板电脑、PDA)、可穿戴设备(例如,Google/>头戴式显示器)、PC、工作站、大型主机、信息亭(kiosk)、服务器机架或任何其他数据处理系统。
由于计算机和网络的不断变化的本质,因此在图中描绘的计算机系统3100的描述仅旨在作为特定的示例。具有比图中描绘的系统更多或更少组件的许多其他配置是可能的。例如,也可以使用定制的硬件和/或可以用硬件、固件、软件(包括小应用程序)或组合来实现特定的元素。此外,可以采用与其他计算设备(诸如网络输入/输出设备)的连接。基于本文提供的公开和教导,本领域普通技术人员将意识到用于实现各种方面的其他方式和/或方法。
在前述的说明书中,参照本发明的特定方面描述了本发明的方面,但本领域技术人员将意识到本发明不限于此。上述发明的各种特征和方面可以被单独或联合使用。此外,在不脱离本说明书的更广泛的精神和范围的情况下,各方面可以在除本文描述的那些环境和应用之外的任何数量的环境和应用中被利用。因此,本说明书和附图应当被认为是说明性而不是限制性的。

Claims (20)

1.一种使用本体对来自用户设备的查询进行响应的计算机实现的方法,所述方法包括:
为多个文本语料库中的每个文本语料库生成本体的本体条目,所述生成包括:
对于包括基本话语单元的文本语料库,形成表示基本话语单元之间的修辞相互关系的话语树,其中所述话语树包括多个节点,每个非终端节点表示所述基本话语单元中的两个基本话语单元之间的修辞相互关系,并且所述话语树的节点中的每个终端节点与所述基本话语单元中的一个基本话语单元相关联;
从所述话语树中识别中心实体,所述中心实体(i)与类型详述的修辞关系相关联,并且(ii)对应于识别文本语料库的中心实体的主题节点;
通过识别与不是类型详述或类型联合的修辞关系相关联的核心基本话语单元,从所述话语树中确定与所述中心实体相关联的基本话语单元的子集;
通过在与基本话语单元的子集相关联的文本中识别对基本话语单元的子集中的两个或更多个基本话语单元共同的一个或多个元素来形成泛化短语;
通过将一个或多个句法或语义模板应用于相应的短语来从泛化短语形成元组,其中每个元组是正常形式的词语的有序集合;以及
响应于将与所形成的元组相关联的基本话语单元转换成包括谓词和论元的逻辑表示,将来自识别出的元组的实体添加到本体;以及
响应于从用户设备接收到查询:
从本体中并基于所述查询获得来自多个条目的第一实体和第二实体;以及
形成包括第一实体的第一响应和包括第二实体的第二响应;
通过将机器学习模型应用于所述查询和第一响应,为第一响应确定第一分数,所述第一分数表示所述查询与第一响应之间的(i)相关性或(ii)修辞一致性中的一个或两者;
通过将所述机器学习模型应用于所述查询和第二响应,为第二响应确定第二分数,所述第二分数表示所述查询与第二响应之间的(i)相关性或(ii)修辞一致性中的一个或两者;以及
响应于识别出第一分数大于第二分数,向用户设备提供第一响应。
2.根据权利要求1所述的方法,还包括将元组中的每个元组识别为具有包括以下的类型:(i)名词短语,(ii)动词短语,(iii)形容词短语,或(iv)介词短语,并且其中所述转换基于所形成的元组的所述类型。
3.根据权利要求2所述的方法,还包括通过以下方式识别实体类:
将元组编码为向量表示;
向机器学习模型提供所述向量表示;以及
从所述机器学习模型接收所述实体类,其中向用户设备提供实体包括向用户设备提供所述实体类。
4.根据前述权利要求中的任一项所述的方法,其中识别中心实体包括:
定位所述话语树中的根节点;
从所述话语树中确定终端节点的子集,所述终端节点(i)与表示类型详述的修辞相互关系的非终端节点相关联,并且(ii)表示核心基本话语单元;
对于终端节点的子集中的每个节点,计算距根节点的相应的路径长度;以及
从终端节点的子集中识别具有作为所述路径长度中的最小路径长度的路径长度的主题节点。
5.根据前述权利要求中的任一项所述的方法,其中将与元组中的一个或多个元组相关联的每个基本话语单元转换成相应的逻辑表示包括:
识别出元组的类型是名词短语或介词短语;
提取中心名词或最后的名词中的一个或多个作为逻辑谓词;以及
提取一个或多个其他词语作为逻辑谓词的论元。
6.根据前述权利要求中的任一项所述的方法,其中将与元组中的一个或多个元组相关联的每个基本话语单元转换成相应的逻辑表示包括:
识别出元组的类型是动词短语;以及
提取元组的动词作为逻辑谓词并提取一个或多个其他词语作为逻辑谓词的论元。
7.根据前述权利要求中的任一项所述的方法,每个元组包括以下中的一个或多个:谓词、主语和宾语。
8.根据前述权利要求中的任一项所述的方法,还包括:
识别与泛化短语对应的元组中的一个或多个元组的实体类,其中实体类表示实体的类别,其中所述添加包括用实体类更新本体。
9.一种系统,包括:
存储计算机可执行程序指令的非暂态计算机可读介质;以及
处理设备,所述处理设备通信地耦合到所述非暂态计算机可读介质以用于执行所述计算机可执行程序指令,其中执行所述计算机可执行程序指令将所述处理设备配置为执行包括以下的操作:
为多个文本语料库中的每个文本语料库生成本体的本体条目,所述生成包括:
对于包括基本话语单元的文本语料库,形成表示基本话语单元之间的修辞相互关系的话语树,其中所述话语树包括多个节点,每个非终端节点表示所述基本话语单元中的两个基本话语单元之间的修辞相互关系,并且所述话语树的节点中的每个终端节点与所述基本话语单元中的一个基本话语单元相关联;
从所述话语树中识别中心实体,所述中心实体(i)与类型详述的修辞关系相关联,并且(ii)对应于识别文本语料库的中心实体的主题节点;
通过识别与不是类型详述或类型联合的修辞关系相关联的核心基本话语单元,从所述话语树中确定与所述中心实体相关联的基本话语单元的子集;
通过在与基本话语单元的子集相关联的文本中识别对基本话语单元的子集中的两个或更多个基本话语单元共同的一个或多个元素来形成泛化短语;
通过将一个或多个句法或语义模板应用于相应的短语来从泛化短语形成元组,其中每个元组是正常形式的词语的有序集合;
响应于将与所形成的元组相关联的基本话语单元转换成包括谓词和论元的逻辑表示,将来自识别出的元组的实体添加到本体;以及
响应于从用户设备接收到查询:
从本体中并基于所述查询获得来自多个条目的第一实体和第二实体;
形成包括第一实体的第一响应和包括第二实体的第二响应;
通过将机器学习模型应用于所述查询和第一响应,为第一响应确定第一分数,所述第一分数表示所述查询与第一响应之间的(i)相关性或(ii)修辞一致性中的一个或两者;
通过将所述机器学习模型应用于所述查询和第二响应,
为第二响应确定第二分数,所述第二分数表示所述查询与第二响应之间的(i)相关性或(ii)修辞一致性中的一个或两者;以及
响应于识别出第一分数大于第二分数,向用户设备提供第一响应。
10.根据权利要求9所述的系统,其中在由所述处理设备执行时,所述指令还使得所述处理设备执行包括以下的操作:将元组中的每个元组识别为具有包括以下的类型:(i)名词短语,(ii)动词短语,(iii)形容词短语,或(iv)介词短语,并且其中所述转换基于所形成的元组的所述类型。
11.根据权利要求10所述的系统,其中在由所述处理设备执行时,所述指令还使得所述处理设备执行包括通过以下方式识别实体类的操作:
将元组编码为向量表示;
向机器学习模型提供所述向量表示;以及
从所述机器学习模型接收所述实体类,其中向用户设备提供实体包括向用户设备提供所述实体类。
12.根据权利要求9、10或11中的任一项所述的系统,其中识别中心实体包括:
定位所述话语树中的根节点;
从所述话语树中确定终端节点的子集,所述终端节点(i)与表示类型详述的修辞相互关系的非终端节点相关联,并且(ii)表示核心基本话语单元;
对于终端节点的子集中的每个节点,计算距根节点的相应的路径长度;以及
从终端节点的子集中识别具有作为所述路径长度中的最小路径长度的路径长度的主题节点。
13.根据权利要求9至12中的任一项所述的系统,其中将与元组中的一个或多个元组相关联的每个基本话语单元转换成相应的逻辑表示包括:
识别出元组的类型是名词短语或介词短语;以及
提取中心名词或最后的名词中的一个或多个作为逻辑谓词;并且提取一个或多个其他词语作为逻辑谓词的论元。
14.根据权利要求9至13中的任一项所述的系统,其中将与元组中的一个或多个元组相关联的每个基本话语单元转换成相应的逻辑表示包括:
识别出元组的类型是动词短语;以及
提取元组的动词作为逻辑谓词并提取一个或多个其他词语作为逻辑谓词的论元。
15.一种存储计算机可执行指令的非暂态计算机可读介质,所述计算机可执行指令在由处理设备执行时,使得所述处理设备执行包括以下的操作:
为多个文本语料库中的每个文本语料库生成本体的本体条目,所述生成包括:
对于包括基本话语单元的文本语料库,形成表示基本话语单元之间的修辞相互关系的话语树,其中所述话语树包括多个节点,每个非终端节点表示所述基本话语单元中的两个基本话语单元之间的修辞相互关系,并且所述话语树的节点中的每个终端节点与所述基本话语单元中的一个基本话语单元相关联;
从所述话语树中识别中心实体,所述中心实体(i)与类型详述的修辞关系相关联,并且(ii)对应于识别文本语料库的中心实体的主题节点;
通过识别与不是类型详述或类型联合的修辞关系相关联的核心基本话语单元,从所述话语树中确定与所述中心实体相关联的基本话语单元的子集;
通过在与基本话语单元的子集相关联的文本中识别对基本话语单元的子集中的两个或更多个基本话语单元共同的一个或多个元素来形成泛化短语;
通过将一个或多个句法或语义模板应用于相应的短语来从泛化短语形成元组,其中每个元组是正常形式的词语的有序集合;以及
响应于将与所形成的元组相关联的基本话语单元转换成包括谓词和论元的逻辑表示,将来自识别出的元组的实体添加到本体;以及
响应于从用户设备接收到查询:
从本体中并基于所述查询获得来自多个条目的第一实体和第二实体;
形成包括第一实体的第一响应和包括第二实体的第二响应;
通过将机器学习模型应用于所述查询和第一响应,为第一响应确定第一分数,所述第一分数表示所述查询与第一响应之间的(i)相关性或(ii)修辞一致性中的一个或两者;
通过将所述机器学习模型应用于所述查询和第二响应,为第二响应确定第二分数,所述第二分数表示所述查询与第二响应之间的(i)相关性或(ii)修辞一致性中的一个或两者;以及
响应于识别出第一分数大于第二分数,向用户设备提供第一响应。
16.根据权利要求15所述的非暂态计算机可读介质,其中在由所述处理设备执行时,所述计算机可执行指令还使得所述处理设备执行包括以下的操作:将元组中的每个元组识别为具有包括以下的类型:(i)名词短语,(ii)动词短语,(iii)形容词短语,或(iv)介词短语,并且其中所述转换基于所形成的元组的所述类型。
17.根据权利要求16所述的非暂态计算机可读介质,还包括通过以下方式识别实体类:
将元组编码为向量表示;
向机器学习模型提供所述向量表示;以及
从所述机器学习模型接收所述实体类,其中向用户设备提供实体包括向用户设备提供所述实体类。
18.根据权利要求15、16或17中的任一项所述的非暂态计算机可读介质,其中识别中心实体包括:
定位所述话语树中的根节点;
从所述话语树中确定终端节点的子集,所述终端节点(i)与表示类型详述的修辞相互关系的非终端节点相关联,并且(ii)表示核心基本话语单元;
对于终端节点的子集中的每个节点,计算距根节点的相应的路径长度;以及
从终端节点的子集中识别具有作为所述路径长度中的最小路径长度的路径长度的主题节点。
19.根据权利要求15至18中的任一项所述的非暂态计算机可读介质,其中将与元组中的一个或多个元组相关联的每个基本话语单元转换成相应的逻辑表示包括:
识别出元组的类型是名词短语或介词短语;
提取中心名词或最后的名词中的一个或多个作为逻辑谓词;以及
提取一个或多个其他词语作为论元。
20.根据权利要求15至19中的任一项所述的非暂态计算机可读介质,其中在由所述处理设备执行时,所述计算机可执行指令还使得所述处理设备执行包括以下的操作:
识别与泛化短语对应的元组中的一个或多个元组的实体类,其中实体类表示实体的类别,其中所述添加包括用实体类更新本体。
CN202280007822.5A 2021-01-07 2022-01-05 依赖于话语树以构建本体 Pending CN117015772A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US63/134,757 2021-01-07
US17/466,409 2021-09-03
US17/466,409 US11914961B2 (en) 2021-01-07 2021-09-03 Relying on discourse trees to build ontologies
PCT/US2022/011280 WO2022150359A1 (en) 2021-01-07 2022-01-05 Relying on discourse trees to build ontologies

Publications (1)

Publication Number Publication Date
CN117015772A true CN117015772A (zh) 2023-11-07

Family

ID=88564004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280007822.5A Pending CN117015772A (zh) 2021-01-07 2022-01-05 依赖于话语树以构建本体

Country Status (1)

Country Link
CN (1) CN117015772A (zh)

Similar Documents

Publication Publication Date Title
US11694037B2 (en) Enabling rhetorical analysis via the use of communicative discourse trees
US11977568B2 (en) Building dialogue structure by using communicative discourse trees
US11694040B2 (en) Using communicative discourse trees to detect a request for an explanation
US20200218859A1 (en) Utilizing discourse structure of noisy user-generated content for chatbot learning
US11455494B2 (en) Automated building of expanded datasets for training of autonomous agents
CN112106056A (zh) 构造虚构的话语树来提高回答聚敛性问题的能力
US20210103703A1 (en) Generating recommendations by using communicative discourse trees of conversations
US20220253611A1 (en) Techniques for maintaining rhetorical flow
US11914961B2 (en) Relying on discourse trees to build ontologies
US11775772B2 (en) Chatbot providing a defeating reply
CN115392217A (zh) 用于保持修辞流的技术
US11615145B2 (en) Converting a document into a chatbot-accessible form via the use of communicative discourse trees
CN114902230A (zh) 改进的话语解析
US20240119232A1 (en) Relying on discourse trees to build ontologies
CN117015772A (zh) 依赖于话语树以构建本体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination