CN114902230A

CN114902230A - 改进的话语解析

Info

Publication number: CN114902230A
Application number: CN202180005817.6A
Authority: CN
Inventors: B·加利茨基
Original assignee: Oracle International Corp
Current assignee: Oracle International Corp
Priority date: 2020-06-26
Filing date: 2021-06-02
Publication date: 2022-08-12
Also published as: WO2021262408A1; JP2023531345A

Abstract

本发明的系统、设备和方法涉及话语树。在一些方面，系统通过识别文本中的基本话语单元来创建话语树。话语树包括节点，每个非终止节点表示两个基本话语单元之间的修辞关系，并且每个终止节点与基本话语单元相关联。该系统在话语树的参考句子中识别阐述或连接类型的修辞关联。该系统选择一组句法泛化评分中具有最高句法泛化评分的候选句子。该系统识别与该候选句子相对应的语义关联。语义关联对应于候选句子中的单词，并定义了候选句子中的角色。该系统在话语树中将修辞关联替换为与语义关联相对应的更新的修辞关联，从而创建更新的话语树。

Description

改进的话语解析

相关申请的交叉引用

技术领域

本公开总体上涉及语言学。更具体地，本公开涉及改进的话语树的生成。

背景技术

语言学是对语言的科学研究。语言学的一个方面是将计算机科学应用于人类自然语言，如英语。由于处理器速度和存储器容量的大幅增加，语言学的计算机应用程序正在兴起。例如，计算机使能的语言话语分析促进了许多应用程序，如可以回答来自用户的问题的自动代理。但这种应用程序无法利用丰富的话语相关信息来回答问题、执行对话管理或提供推荐系统。

发明内容

通常，本发明的系统、设备和方法与改进的话语树有关。

在一些方面，一种提高话语树的准确性的方法包括：通过识别文本中的基本话语单元从所述文本创建话语树，其中，所述话语树包括节点，所述话语树中的所述节点中的每个非终止节点表示两个基本话语单元之间的修辞关系，并且所述话语树中的所述节点中的每个终止节点与基本话语单元相关联；在所述话语树中识别阐述或连接类型的修辞关联，其中，所述修辞关联涉及第一基本话语单元和第二基本话语单元，并且其中，所述第一基本话语单元和所述第二基本话语单元形成参考句子；为一组候选句子中的每个候选句子确定句法泛化评分，其中，每个候选句子具有对应的语义关联，所述确定包括：识别所述候选句子与所述参考句子之间的一个或多个共同实体；以及计算句法泛化评分，所述句法泛化评分等于所识别的一个或多个共同实体的数量；选择所述句法泛化评分中具有最高句法泛化评分的候选句子；识别与所述候选句子相对应的语义关联，其中，所述语义关联对应于所述候选句子中的单词并定义所述候选句子中的角色；以及在所述话语树中将所述修辞关联替换为与所述语义关联相对应的更新的修辞关联，从而创建更新的话语树。

在一些方面，从所述文本创建所述话语树包括：将所述文本提供给分类模型；以及使用所述分类模型来识别所述第一基本话语单元、所述第二基本话语单元和所述修辞关联。

在一些方面，所述更新的修辞关联是目的、手段、原因或时间顺序之一。

在一些方面，所述一个或多个共同实体中的每一个在所述候选句子与所述参考句子之间共享共同的词性(part of speech)。

在一些方面，所述方法进一步包括从所述更新的话语树形成响应并将所述响应输出到外部设备。

在一些方面，所述方法包括从每个候选句子形成第一句法解析树；以及从所述参考句子形成第二句法解析树，其中，识别所述候选句子与所述参考句子之间的所述一个或多个共同实体包括，针对每个共同实体，识别所述第一句法解析树和所述第二句法解析树中的共同实体。

在一些方面，所述方法包括通过将具有动词的每个片段与动词签名进行匹配来从所述更新的话语树形成交流话语树；通过将被训练用于检测论证的分类模型应用于所述交流话语树来识别出所述文本包括论证；以及从所述文本形成响应并将所述响应输出到外部设备。

在一些方面，所述方法包括通过将具有动词的每个片段与动词签名进行匹配来从所述更新的话语树形成交流话语树；通过将被训练用于检测论证的分类模型应用于所述交流话语树来识别出所述文本包括与主张相对应的论证；通过求解包括以下各项的逻辑系统来评估所述论证相对于自身和相对于与所述文本的领域相关联的领域定义从句的一致性：固定部分，所述固定部分包括所述主张的项和所述领域定义从句，以及可变部分，所述可变部分包括来自所述交流话语树的一组可废止规则和来自所述交流话语树的交流动作的事实；以及响应于确定所评估的一致性大于阈值，从所述文本形成文本响应并将所述文本响应输出到外部设备。

上述方法可以实施为有形计算机可读介质和/或在计算机处理器和所附接的存储器内操作。

附图说明

图1描绘了根据一方面的示例性话语树环境。

图2描绘了根据一方面的话语树的示例。

图3描绘了根据一方面的另外的话语树示例。

图4描绘了根据一方面的说明性图示。

图5描绘了根据一方面的分层二叉树的节点链接表示。

图6描绘了根据一方面的图5中的表示的示例性缩进文本编码。

图7描绘了根据一方面的关于财产税的示例请求的示例性话语树。

图8描绘了对图7中表示的问题的示例性响应。

图9图示了根据一方面的官方回答的话语树。

图10图示了根据一方面的原始回答的话语树。

图11图示了根据一方面的第一代理的主张的交流话语树。

图12图示了根据一方面的第二代理的主张的交流话语树。

图13图示了根据一方面的第三代理的主张的交流话语树。

图14图示了根据一方面的解析树丛。

图15图示了根据一方面的用于建立交流话语树的示例性过程。

图16图示了根据一方面的话语树和场景图。

图17图示了根据一方面形成请求-响应对。

图18图示了根据一方面的最大共同子交流话语树。

图19图示了根据一方面的交流话语树的核学习(kernel learning)格式的树。

图20图示了根据一方面的用于实施修辞一致性分类器的示例性过程。

图21图示了根据一方面的聊天机器人对帖子进行评论。

图22图示了根据一方面的聊天机器人对帖子进行评论。

图23图示了根据一方面的算法文本的话语树。

图24图示了根据一方面的带标注的句子。

图25图示了根据一方面的带标注的句子。

图26图示了根据一方面的对话的话语行为。

图27图示了根据一方面的对话的话语行为。

图28描绘了根据一方面的示例性交流话语树。

图29描绘了根据一方面的示例性交流话语树。

图30描绘了根据一方面的示例性交流话语树。

图31描绘了根据一方面的示例性交流话语树。

图32描绘了根据一方面的示例交流话语树。

图33描绘了根据一方面的示例交流话语树。

图34描绘了根据一方面的示例交流话语树。

图35描绘了根据一方面的示例交流话语树。

图36描绘了根据一方面的用于使用机器学习来确定论证的示例性过程。

图37是根据一方面的话语树的片段。

图38描绘了根据一方面的针对临界评论的话语树。

图39描绘了根据一方面的针对句子的话语树，示出了用于情感分析的组合语义方法。

图40描绘了根据一方面的用于验证论证的示例性方法。

图41描绘了根据一方面的针对论证的示例性交流话语树。

图42描绘了根据一方面的用于使用可废止逻辑编程来验证论证的示例性方法。

图43描绘了根据一方面的示例性辩证树。

图44描绘了根据一方面的话语树和语义树。

图45描绘了根据一方面的话语树和语义树。

图46是根据一方面的用于生成改进的话语树的示例性过程的流程图。

图47描绘了根据一方面的句子和具有已知语义关联的模板的泛化

图48描绘了根据一方面的两个句子之间的对齐。

图49描绘了用于实施各方面之一的分布式系统的简化图。

图50是根据一方面的系统环境的部件的简化框图，通过该系统环境，由一方面的系统的部件提供的服务可以作为云服务提供。

图51图示了本发明的各方面可以在其中实施的示例性计算机系统。

具体实施方式

本文所公开的各方面为计算机实施的语言学领域提供了技术改进。更具体地，所公开的解决方案通过从文本的语义表示的语义关联确定话语树的更新修辞关联来生成改进的话语树。改进的话语树可以使得使用话语树的应用程序(如对话管理、推理、论证检测、搜索和导航)得到改善。改进的话语树可以通过交流动作来扩充，从而形成交流话语树(“CDT”)。交流动作是个体在相互协商和论证的基础上采取的合作行为。

因此，一些方面的技术优势因此包括更准确地表示源文本的话语树和改进的自主代理(autonomous agent)，如可以使用CDT验证文本中的论证的自主代理。例如，CDT可以被用于确定句子之间的一致性，或检测或验证文本中的论证。有效论证是逻辑上一致的论证，例如，其中论证的文本支持论证的前提。

更具体地，通过结合标识交流动作的标签，交流话语树的学习可以发生在与仅仅基本话语单元(EDU)的修辞关联和句法相比更丰富的特征集上。有了这样的特征集，就可以使用诸如分类等附加技术来确定问题和回答或请求-响应对之间的修辞一致性水平、检测文本中的论证并验证文本中的论证，从而实现改进的自动代理。通过这样做，计算系统使自主代理能够智能地回答问题。

在另一个示例中，在计算设备上执行的修辞分类应用程序接收来自用户的问题。修辞分类应用程序为问题生成交流话语树。交流话语树是包括交流动作的话语树。修辞分类应用程序访问对问题的潜在回答的数据库。修辞一致性应用程序使用预测模型来确定问题与每个潜在回答之间的互补性水平。响应于确定互补性水平高于阈值，修辞一致性分类器例如经由显示设备向用户提供回答。

在另一个示例中，修辞分类应用程序从输入文本生成交流话语树(CDT)，并使用机器学习来验证文本子集中的论证。修辞分类应用程序通过从交流话语树中提取事实和可废止规则来创建逻辑程序，并将事实和可废止规则提供给诸如可废止逻辑编程(DeLP)等逻辑系统。逻辑系统进而访问固定规则和领域特定的定义从句并求解逻辑程序，从而确定论证是有效的(例如，论证支持主张)还是无效的(例如，论证不支持主张)。

某些定义

如本文所使用的，“修辞结构理论”是提供了可以分析话语的连贯性的理论基础的研究和学习领域。

如本文所使用的，“话语树”或“DT”是指表示句子的一部分的句子的修辞关联的结构。

如本文所使用的，“修辞关联”、“修辞关系”或“连贯关联”或“话语关联”是指话语的两个片段如何在逻辑上相互连接。修辞关联的示例包括阐述、对比和归因。

如本文所使用的，“句子片段”或“片段”是句子中可以与句子的其余部分分开的一部分。片段是基本话语单元。例如，对于句子“[People 1]say that evidence points to[Organization 1]as being responsible for[Event 1]([人1]说，证据表明[组织1]应对[事件1]负责)”，两个片段是“[People 1]say that evidence points to[Organization1]”和“as being responsible for[Event 1]”。片段可以包括但不是必须包括动词。

如本文所使用的，“签名(signature)”或“框架”是指片段中动词的属性。每个签名可以包括一个或多个题元角色(thematic role)。例如，对于片段“[People 1]say thatevidence points to[Organization 1]”，动词是“say”，并且这个动词“say”的特殊用法的签名可能是“agent verb topic(代理动词主题)”，其中“[People 1]”是代理，“evidence”是主题。

如本文所使用的，“题元角色”是指签名中的用于描述一个或多个单词的角色的成分。继续前面的示例，“代理”和“主题”是题元角色。

如本文所使用的，“核心性”是指哪个文本段、片段或区段(span)对于作者的目的而言更重要。核心成分(nucleus)是更中心的区段，而外围成分(satellite)是不太中心的。

如本文所使用的，“连贯性”是指将两种修辞关联联系在一起。

如本文所使用的，“交流动词”是指示交流的动词。例如，动词“deny(否认)”是交流动词。

如本文所使用的，“交流动作”描述了由一个或多个代理和代理的主体执行的动作。

如本文所使用的，“主张”是对某事的事实的断言。例如，主张可能是“I am notresponsible for paying rent this month(这个月我不负责支付租金)”或“the rent islate(租金逾期)”。

如本文所使用的，“论证”是为支持主张而提出的一个理由或一组理由。上述主张的示例论证是“the necessary repairs were not completed(没有完成必要的维修)”。

如本文所使用的，“论证有效性”或“有效性”是指支持主张的论证是否是内部的和一致的。内部一致性是指论证是否与自身一致，例如，不包含两个矛盾的陈述。外部一致性是指论证是否与已知的事实和规则一致。

如本文所使用的，“逻辑系统”或“逻辑程序”是可以表示特定主张的论证的一组指令、规则、事实和其他信息。求解逻辑系统的结果是确定论证是否有效。

如本文所使用的，“辩证树”是表示各个论证的树。求解辩证树以确定各个论证所支持的主张的真或假。评估辩证树涉及确定各个论证的有效性。

图1描绘了根据一方面的示例性话语树环境。图1描绘了计算设备101、输入文本130和论证指示符165。计算设备101包括应用程序102、话语解析器104、回答数据库105、修辞一致性分类器120和训练数据125中的一个或多个。计算设备的示例包括分别在图49和图50中描绘的设备4902、4904、4906和4908以及云计算设备5002、客户端设备5004、5006、5008。

在示例中，应用程序102生成的话语树具有相比于先前解决方案更高的质量和/或准确性。在示例中，话语解析器104从输入文本130生成话语树。应用程序102分析话语树并生成语义表示，如抽象意义表示(AMR)图。AMR是语义表示语言。AMR图是有根的、带标签的有向无环图(DAG)，包括整个句子。应用程序102使用本文公开的技术从AMR图生成改进的话语树，该改进的话语树进而可以用于执行话语分析。关于图45讨论了用于创建改进的话语树的过程的示例。

在另一个示例中，应用程序102回答经由聊天会话接收的问题。输入文本130可以是单个问题或一连串问题。应用程序102从输入文本130创建问题交流话语树并选择一个或多个候选回答。可以从诸如回答数据库105等现有数据库中获得回答。输入文本130可以由诸如移动电话、智能电话、平板计算机、膝上型计算机、智能手表等任何移动设备生成。移动设备可以经由数据网络与计算设备101通信。以这种方式，移动设备可以向计算设备101提供例如来自用户的问题。

继续该示例，应用程序102从候选回答中确定最合适的回答。可以使用不同的方法。在一方面，应用程序102可以为每个候选回答创建候选回答交流话语树，并将问题交流话语树与每个候选话语树进行比较。应用程序102识别问题交流话语树与候选回答交流话语树之间的最佳匹配。应用程序102然后针对来自最佳交流话语树的文本访问或查询数据库。应用程序102然后将与第二交流话语树相关联的文本发送到移动设备。

在另一个示例中，应用程序102为每个候选回答创建回答交流话语树。然后，应用程序102针对每个候选回答创建包括输入文本130和候选回答的问答对(question-answerpair)。应用程序102将问答对提供给预测模型，如修辞一致性分类器120。应用程序102使用训练后的修辞一致性分类器120来确定问答对是否高于匹配阈值水平，例如，指示回答是否解决了问题。如果否，则应用程序102继续分析包括该问题和不同回答的另外的对，直到找到合适的回答。通过使用交流话语树，可以准确地对问题与回答之间的修辞一致性和交流动作进行建模。

在另一个示例中，应用程序102使用修辞一致性分类器120来确定输入文本130中是否存在论证。例如，修辞分类应用程序102访问输入文本130，其内容如下：“[t]he rentwas properly refused....The landlord contacted me,the tenant,and the rent wasrequested.(租金被适当拒绝…房东联系了我，即租户，并要求租金。)However,I refusedthe rent since I demanded repair to be done.(然而，我拒绝了租金，因为我要求进行维修。)I reminded the landlord about necessary repairs,but the landlord issuedthe three-day notice confirming that the rent was overdue.(我提醒房东进行必要的维修，但房东发出了限期三天的通知，确认租金已经逾期。)Regretfully,the propertystill stayed unrepaired.(遗憾的是，该房产仍然没有得到维修。)”因此，输入文本130包括“the rent was properly refused”的主张和相关的论证“The landlord contactedme,the tenant,and the rent was requested.However,Irefused the rent since Idemanded repair to be done.I reminded the landlord about necessary repairs,but the landlord issued the three-day notice confirming that the rent wasoverdue.Regretfully,the property still stayed unrepaired.”

为了检测论证，应用程序102从输入文本130确定交流话语树并将交流话语树提供给训练后的分类器，如修辞一致性分类器120。应用程序102从修辞一致性分类器120接收对是否存在论证的预测。应用程序102提供预测作为论证指示符165。修辞一致性分类器120将交流话语树与在训练集中被识别为正(有论证)或负(无论证)的交流话语树进行比较。关于图36讨论了示例性过程。

在又一方面，应用程序102可以验证输入文本130中存在论证。关于图40讨论了示例性过程。在示例中，应用程序102例如通过使用修辞一致性分类器120来确定论证的存在。然后应用程序102可以确定检测到的论证是有效的还是无效的。可以使用可废止逻辑编程。关于图42讨论了示例性过程。应用程序102可以输出论证指示符165，该论证指示符可以指示是否检测到论证，并且如果是，指示论证是有效的还是无效的。

修辞结构理论和话语树

语言学是对语言的科学研究。例如，语言学可以包括句子的结构(句法)，例如主语-动词-宾语；句子含义(语义)，例如狗咬人与人咬狗；以及说话者在对话中的行为，即话语分析或句子以外的语言分析。

话语的理论基础(修辞结构理论(RST))可以归结于Mann,William和Thompson,Sandra的“Rhetorical structure theory:A Theory of Text organization(修辞结构理论：文本组织理论)”,Text-Interdisciplinary Journal for the Study of Discourse(话语研究的文本-跨学科杂志),8(3):243-281,1988。类似于编程语言理论的句法和语义帮助实现现代软件编译器的方式，RST帮助实现了话语分析。更具体地，RST在至少两个层面上安置结构块，第一层面如核心性和修辞关联，并且第二层面是结构或模式。话语解析器或其他计算机软件可以将文本解析成话语树。

修辞结构理论依靠文本各部分之间的关联对作者所采用的文本、结构的逻辑组织进行建模。RST通过经由话语树形成层次化的、连接的文本结构来模拟文本连贯性。修辞关联分为并列类和从属类；这些关联持续跨越两个或更多个文本区段并且因此实施连贯性。这些文本区段被称为基本话语单元(EDU)。句子中的从句和文本中的句子由作者逻辑地连接。给定句子的含义与前面的句子和后面的句子的含义相关。从句之间的这种逻辑关联称为文本的连贯结构。RST是最流行的话语理论之一，其基于树状的话语结构——话语树(DT)。DT的叶对应于EDU，即，连续的原子文本区段。相邻的EDU通过连贯关联(例如，归因、顺序)连接在一起，形成更高层次的话语单元。然后，这些单元也受到这种关联链接的影响。然后，通过关联链接的EDU基于其相对重要性进行区分：核心成分是关联的核心部分，而外围成分是外周围部分。如所讨论的，为了确定准确的请求-响应对，主题和修辞一致性两者都被分析。当说话者回答问题时，例如短语或句子，说话者的回答应该针对这个问题的主题。在经由消息的种子文本隐式提出问题的情况下，适当的回答被预期不仅保持主题，而且还与该种子的广义认知状态(generalized epistemic state)相匹配。

修辞关联

如所讨论的，本文描述的各方面使用交流话语树。修辞关联可以用不同方式进行描述。例如，Mann和Thompson描述了二十三种可能的关联。C.Mann,William和Thompson,Sandra(1987)(“Mann和Thompson”).Rhetorical Structure Theory:A Theory of TextOrganization[修辞结构理论：文本组织理论]。其他数量的关联是可能的。

一些经验性的研究假设大部分文本是使用核心成分-外围成分关联来构建的。参见Mann和Thompson。但是其他关联并没有携带明确的核心成分的选择。这种关联的示例在下面示出。

关联名称	区段	其他区段
			对比	一个替代物	另一个替代物
连接	(无约束)	(无约束)
			列举	一项	下一项
顺序	一项	下一项

图2描绘了根据一方面的话语树的示例。图2包括话语树200。话语树包括文本区段201、文本区段202、文本区段203、关联210和关联228。图2中的数字对应于三个文本区段。图3对应于带有三个文本区段编号为1、2、3的以下示例文本：

1.Honolulu,Hawaii will be site of the 2017Conference on HawaiianHistory(2017夏威夷历史会议将在夏威夷檀香山举行)

2.It is expected that 200historians from the U.S.and Asia will attend(预期将有来自美国和亚洲的200名历史学家出席)

3.The conference will be concerned with how the Polynesians sailed toHawaii(会议将涉及波利尼西亚人如何航行到夏威夷)

例如，关联210或阐述描述了文本区段201与文本区段202之间的关系。关联228描绘了文本区段203与204之间的关系，即阐述。如所描绘的，文本区段202和203进一步阐述了文本区段201。在以上示例中，考虑到目标是向读者通知会议，文本区段1是核心成分。文本区段2和3提供了关于会议的更多细节。在图2中，水平数字(例如1-3，1、2、3)覆盖文本(可能由更多区段构成)的区段；竖直线表示核心或核成分；并且曲线表示修辞关联(阐述)且箭头的方向从外围成分指向核心成分。如果文本区段仅作为外围成分而不是核心成分起作用，则删除外围成分将仍然保留相干文本。如果从图2中删除核心成分，则文本区段2和3就很难理解。

图3描绘了根据一方面的另外的话语树示例。图3包括组成部分301和302、文本区段305至307、关联310和关联328。关联310描绘了成分306与305之间以及307与305之间的关系310，即使能。图3涉及以下文本区段：

1.The new Tech Report abstracts are now in the journal area of thelibrary near the abridged dictionary.(新的技术报告摘要目前在图书馆靠近简略词典的期刊区内)。

2.Please sign your name by any means that you would be interested inseeing.(请以任何您有兴趣看到的方式签上你的名字)。

3.Last day for sign-ups is 31May.(登记的最后一天是5月31日)。

可以看出，关联328描绘了实体307与306之间的关系，即使能。图3图示了虽然核心成分可以嵌套，但只存在一个最核心的文本区段。

构建话语树

话语树可以用不同的方法生成。自底向上构建DT的方法的简单示例是：

(1)通过以下方式将话语文本分成单元：

(a)单元大小可以根据分析的目标而不同

(b)单元通常是从句

(2)检查每个单元及其相邻单元。他们之间是否持有关联？

(3)如果是，则标记该关联。

(4)如果否，则该单元可能位于更高层级关联的边界。查看较大单元(区段)之间持有的关联。

(5)继续，直到考虑了文本中的所有单元。

Mann和Thompson还描述了被称为模式应用(schema application)的构建块结构的第二层面。在RST中，修辞关联并不直接映射到文本上；其被拟合到被称为模式应用的结构上，而这些结构进而被拟合到文本。模式应用源自被称为模式的更简单的结构(如图4所示)。每个模式均指示特定文本单元如何被分解成其他更小的文本单元。修辞结构树或DT是层次化的模式应用系统。模式应用将多个连续的文本区段链接起来，并创建复杂的文本区段，该文本区段进而可以由更高层次的模式应用链接。RST断言，每个相干话语的结构都可以用单个修辞结构树来描述，该修辞结构树的顶部模式创建涵盖整个话语的区段。

图4描绘了根据一方面的说明性模式。图4示出了连接模式是由没有外围成分的核心成分构成的项目列表。图4描绘了模式401至406。模式401描绘了文本区段410与428之间的环境关联。模式402描绘了文本区段420与421之间的顺序关联以及文本区段421与422之间的顺序关联。模式403描绘了文本区段430与431之间的对比关联。模式404描绘了文本区段440与441之间的连接关系。模式405描绘了450与451之间的动机关系以及452与451之间的使能关系。模式406描绘了文本区段460与462之间的连接关系。针对以下三个文本区段图4示出了连接模式的示例：

1.Skies will be partly sunny in the New York metropolitan area today.(今日纽约都市区的天空将会局部晴朗)。

2.It will be more humid,with temperatures in the middle 80’s.(将更加湿润，平均温度为80中部)。

3.Tonight will be mostly cloudy,with the low temperature between65and 70.(今晚将大部分多云，低温在65与70之间)。

虽然图2至图4描绘了话语树的一些图形表示，但其他表示也是可能的。

图5描绘了根据一方面的分层二叉树的节点链接表示。从图5中可以看出，DT的叶对应于被称为基本话语单元(EDU)的连续不重叠的文本区段。相邻的EDU通过关联(例如，阐述、归因……)连接并形成更大的话语单元，该更大的话语单元也通过关联连接。“RST中的话语分析涉及两个子任务：话语分段是识别EDU的任务，并且话语解析是将话语单元链接成带标签的树的任务”。参见Joty,Shafiq R和Giuseppe Carenini、Raymond T Ng和YasharMehdad.2013.Combining intra-and multi-sentential rhetorical parsing fordocument-level discourse analysis[结合句内和多句修辞解析进行文档级话语分析]ACL(1)，第486-496页。

图5描绘了作为树上的叶或终止节点的文本区段，每个文本区段以其在全部文本中出现的顺序进行编号，如图6所示。图5包括树500。树500包括例如节点501至507。节点指示关系。节点是非终止的，如节点501，或者是终止的，如节点502至507。可以看出，节点503和504通过连接关系相关联。节点502、505、506和508是核心成分。虚线指示分支或文本区段是外围成分。该关联是灰色框中的节点。

图6描绘了根据一方面的图5中的表示的示例性缩进文本编码。图6包括文本600和文本序列602至604。文本600以更顺从于计算机编程的方式呈现。文本序列602对应于节点502，序列603对应于节点503，并且序列604对应于节点504。在图6中，“N”指示核心成分，并且“S”指示外围成分。

话语解析器的示例

可以用不同的方法执行自动话语分段。例如，给定一个句子，分段模型通过预测是否应该在句子中的每个特定记号之前插入边界来识别复合基本话语单元的边界。例如，一个框架按顺序且独立地考虑句子中的每个记号。在此框架中，分段模型逐个记号地扫描句子，并使用二元分类器(如支持向量机器或逻辑回归)来预测在检查记号之前插入边界是否合适。在另一个示例中，任务是顺序标记问题。一旦文本被分段成基本话语单元，就可以执行句子级别的话语解析来构建话语树。可以使用机器学习技术。

在本发明的一个方面，使用两种修辞结构理论(RST)话语解析器：依赖于成分句法(constituent syntax)的CoreNLP处理器和使用依存句法(dependency syntax)的FastNLP处理器。参见Surdeanu,Mihai和Hicks,Thomas和Antonio Valenzuela-Escarcega,Marco.“Two Practical Rhetorical Structure Theory Parsers[两种实用的修辞结构理论解析器]”(2015)。

另外，以上两种话语解析器(即CoreNLP处理器和FastNLP处理器)使用自然语言处理(NLP)进行句法解析。例如，Stanford CoreNLP给出了单词的基本形式、其词性、其是否是公司名、人名等、是否是规范化日期、时间和数字量、是否根据短语和句法依存性标记句子结构、是否指示哪些名词短语指代相同的实体。实际上，RST是静止的理论，其可以在许多话语情况下起作用，但在某些情况下可能不起作用。存在许多变量，该变量包括但不限于EDU在相干文本中是什么，即，使用了什么话语分段器、使用了什么关联清单和为EDU选择了什么关联、用于训练和测试的文档语料库、以及甚至使用了什么解析器。因此，例如，在以上引用的Surdeanu等人的“Two Practical Rhetorical Structure Theory Parsers[两种实用的修辞结构理论解析器]”论文中，测试必须使用专门的度量在特定语料库上运行，以确定哪个解析器提供更好的性能。因此，不同于给出可预测结果的计算机语言解析器，话语解析器(和分段器)可以根据训练和/或测试文本语料库给出不可预测的结果。因此，话语树是可预测技术(例如，编译器)和不可预测技术(例如，像化学一样需要实验来确定什么组合会给出期望的结果)的混合。

为了客观地确定话语分析有多好，使用了一系列度量，例如，来自Daniel Marcu,“The Theory and Practice of Discourse Parsing and Summarization[话语解析和总结的理论与实践]”,MIT出版社，(2000)的精确率/召回率/F1度量。精确率或正预测值是相关实例在取得的实例中的比例，而召回率(也被称为灵敏度)是已经被取得的相关实例在相关实例总量中的比例。因此，精确率和召回率都是基于对相关性的理解和度量。假设用于识别照片中的狗的计算机程序在含有12只狗和一些猫的照片中识别出八只狗。对于识别出的八只狗，实际上有五只是狗(真阳性)，而其余的是猫(假阳性)。该程序的精确率为5/8，而其召回率为5/12。当搜索引擎返回30个页面，其中只有20个页面是相关的，而未能返回另外的40个相关页面时，其精确率为20/30＝2/3，而其召回率为20/60＝1/3。因此，在这种情况下，精确率是‘搜索结果的有用程度’，而召回率是‘结果的完整程度’。F1评分(也称为F评分或F测量)是对测试的准确性的度量。其考虑了测试的精确率和召回率两者来计算评分：F1＝2x((精确率x召回率)/(精确率+召回率))并且是精确率和召回率的调和平均数。F1评分在1(完美的精确率和召回率)时达到其最佳值，并且在0时达到最差值。

自主代理或聊天机器人

人类A与人类B之间的会话是一种话语形式。例如，存在诸如

Messenger、

Slack、

SMS等应用程序，除了更传统的电子邮件和语音会话之外，A与B之间的会话通常还可以经由消息进行。聊天机器人(也可以被称为智能机器人或虚拟助理等)是一种“智能”机器，例如，其取代了人类B，并在不同程度上模仿了两个人之间的会话。示例最终目标是人类A无法分辨B是人类还是机器(由Alan Turing在1950年开发的图灵测试(Turning test))。话语分析、人工智能(包括机器学习)和自然语言处理，在通过图灵测试的长期目标方面取得了长足的进步。当然，随着计算机越来越有能力搜索和处理庞大的数据存储库，并对数据执行包括预测分析在内的复杂分析，长期目标是聊天机器人能够像人类一样并与计算机相结合。

例如，用户可以通过会话互动与智能机器人平台进行互动。这种互动(也称为会话用户接口(UI))是最终用户与聊天机器人之间的对话，就像两个人类之间一样。它可以简单到最终用户对聊天机器人说“Hello(你好)”，聊天机器人回应“Hi(嗨)”并询问用户它能够如何提供帮助，或者它可以是银行聊天机器人中的交易互动(如从一个账户转账到另一个账户的金钱转账)，或HR聊天机器人中的信息互动(如核对假期余额)，或在零售聊天机器人中询问常见问题解答(FAQ)(如如何处理退货)。自然语言处理(NLP)和机器学习(ML)算法与其他方法相结合可以用于对最终用户意图进行分类。高层次的意图是最终用户想要完成的事情(例如，获得账户余额、进行购买)。意图本质上是客户输入到后端应该执行的工作单元的映射。因此，基于用户对聊天机器人说出的短语，这些短语被映射到特定且不连续的用例或工作单元，例如检查余额、金钱转账和跟踪花费都是聊天机器人应该支持并且能够从最终用户用自然语言输入的自由文本录入中找出应该触发哪个工作单元的“用例”。

让AI聊天机器人像人类一样做出响应的根本推理是，人脑可以公式化和理解请求，然后对人类请求做出比机器好得多的好的响应。因此，如果模仿人类B，聊天机器人的请求/响应应该有显著改善。所以问题的最初部分是人脑如何公式化和理解请求？为了模仿，使用模型。RST和DT允许以正式且可重复的方式执行此操作。

在高层次上，通常有两种类型的请求：(1)执行某些动作的请求；以及(2)信息请求，例如问题。第一类型具有创建工作单元的响应。第二类型具有对问题的响应，例如好的回答。例如，在一些方面，回答的形式可以是AI从其大量的(多个)知识库中构建回答，或者通过搜索互联网或内联网或其他公开/私人可用的数据源来匹配最佳的现有回答。

交流话语树和修辞分类器

本公开的各方面建立交流话语树并使用交流话语树来分析请求或问题的修辞结构是否与回答一致。更具体地，本文描述的各方面创建请求-响应对的表示，学习这些表示，并将这些对关联到有效或无效对的类中。以这种方式，自主代理可以接收来自用户的问题，处理该问题(例如，通过搜索多个回答)，从回答中确定最佳回答，并将回答提供给用户。

更具体地，为了表示文本的语言学特征，本文描述的各方面使用修辞关联和言语行为(或交流动作)。修辞关联是句子各部分之间的关系，通常从话语树中获得。言语行为作为动词从动词资源(例如VerbNet)中获得。通过使用修辞关联和交流动作两者，本文描述的各方面可以正确地识别有效的请求-响应对。为此，各方面将问题的句法结构与回答的句法结构相关联。通过使用该结构，可以确定更好的回答。

例如，当自主代理从某人接收到该人希望出售具有某些特征的物品的指示时，自主代理应提供不仅包含这些特征而且还指示购买的意图的搜索结果。以这种方式，自主代理已经确定了用户的意图。类似地，当自主代理收到来自某人的请求以分享有关特定物品的知识时，搜索结果应该包含接收推荐的意图。当某人向自主代理询问关于某个主题的意见时，自主代理分享关于该主题的意见，而不是征求其他的意见。

分析请求响应对

图7描绘了根据一方面的关于财产税的示例请求的示例性话语树。节点标记是关联，并且带箭头的线指向外围成分。核心成分是实线。图7描绘了以下文本。

请求：“My husbands’grandmother gave him his grandfather’s truck.(我丈夫的祖母把他祖父的卡车给了他。)She signed the title over but due to my husbandhaving unpaid fines on his license,he was not able to get the truck put inhis name.(她签署了所有权文件转让，但是由于我丈夫的驾照还有罚款未支付，所以他无法将卡车写到他的名下。)I wanted to put in my name and paid the property taxand got insurance for the truck.(我想将卡车写到我的名下，并支付了财产税并为卡车获得了保险。)By the time it came to sending off the title and getting thetag,I didn't have the money to do so.(到了授予所有权文件并领取牌照的时候，我却没有钱来这样做。)Now,due to circumstances,I am not going to be able to affordthe truck.(现在，由于各种情况，我负担不起这辆卡车了。)I went to the insuranceplace and was refused a refund.(我去了保险的地方，但被拒绝退款。)I am justwondering that since I am not going to have a tag on this truck,is itpossible to get the property tax refunded？(我只是想知道，由于我不会对这辆卡车上牌，是否有可能退还财产税？)”

响应：“The property tax is assessed on property that you own.(财产税是针对你所拥有的财产征收的。)Just because you chose to not register it does notmean that you don't own it,so the tax is not refundable.(仅仅因为你选择不登记它这并不意味着你不拥有它，所以税款不可退还。)Even if you have not titled thevehicle yet,you still own it within the boundaries of the tax district,so thetax is payable.(即使你尚未被授予车辆的所有权文件，在税区范围内也你仍然拥有该车辆，因此应支付税款。)Note that all states give you a limited amount of time totransfer title and pay the use tax.(注意，所有州对于转让所有权文件和支付使用税均有时间限制。)If you apply late,there will be penalties on top of the normaltaxes and fees.(如果你申请晚了，除了正常的税款和费用之外还会受到罚款。)You don't need to register it at the same time,but you absolutely need to title itwithin the period of time stipulated in state law.(你无需同时登记该车辆，但你绝对需要在州法律规定的时间段内授予其所有权文件。)”

从图7中可以看出，分析上述文本会产生以下结果。“My husbands’grandmothergave him his grandfather’s truck”由“She signed the title over but due to myhusband”进行阐述，后者由“having unpaid fines on his license,he was not able toget the truck put in his name”进行阐述，这又由“I wanted to put in my name”、“and paid the property tax”和“and got insurance for the truck”进行阐述。

“My husbands’grandmother gave him his grandfather’s truck.She signedthe title over but due to my husband having unpaid fines on his license,hewas not able to get the truck put in his name.I wanted to put in my name andpaid the property tax and got insurance for the truck.”由以下进行阐述：

由“to do so”阐述的“I didn't have the money”与

由“it came to sending off the title”

“and getting the tag”阐述的“By the time”形成对比。

“My husbands’grandmother gave him his grandfather’s truck.She signedthe title over but due to my husband having unpaid fines on his license,hewas not able to get the truck put in his name.I wanted to put in my name andpaid the property tax and got insurance for the truck.By the time it came tosending off the title and getting the tag,I didn't have the money to do so”与

由“I am not going to be able to afford the truck.”阐述的“Now,due tocircumstances”形成对比，前者由

“I went to the insurance place”

“and was refused a refund”阐述。

“My husbands’grandmother gave him his grandfather’s truck.She signedthe title over but due to my husband having unpaid fines on his license,hewas not able to get the truck put in his name.I wanted to put in my name andpaid the property tax and got insurance for the truck.By the time it came tosending off the title and getting the tag,I didn't have the money to doso.Now,due to circumstances,I am not going to be able to afford the truck.Iwent to the insurance place and was refused a refund.”由

“I am just wondering that since I am not going to have a tag on thistruck,is it possible to get the property tax refunded？”阐述。

“I am just wondering”归因于

与“is it possible to get the property tax refunded？”是相同单元的“that”，其具有条件“since I am not going to have a tag on this truck”为条件。

如可以看到的，该话题的主题是“Property tax on a car”。这个问题包括以下矛盾：一方面，所有的财产都要纳税，另一方面，财产所有权有些不完整。好的响应必须解决该问题的这两个话题，并澄清不一致。为此，响应者提出了更强有力的主张，关于所拥有的不论什么财产都要纳税的必要性，其与登记状态不相关。此示例是来自我们雅虎问答(Yahoo！Answers)评估领域的正训练集中的成员。该话题的主题是“Property tax on a car(车辆的财产税)”。这个问题包括以下矛盾：一方面，所有的财产都要纳税，另一方面，财产所有权有些不完整。好的回答/响应必须解决该问题的这两个话题，并澄清不一致。读者可以观察到，由于问题包括对比修辞关联，因此回答必须以类似的关联与其匹配才能令人信服。否则，即使对于不是领域专家的人来说，这个回答看起来也是不完整的。

图8描绘了根据本发明的某些方面的对图7中呈现的问题的示例性响应。中心核心成分是由“that you own”阐述的“the property tax is assessed on property”。“Theproperty tax is assessed on property that you own”也是由“Just because youchose to not register it does not mean that you don't own it,so the tax isnot refundable.Even if you have not titled the vehicle yet,you still own itwithin the boundaries of the tax district,so the tax is payable.Note that allstates give you a limited amount of time to transfer title and pay the usetax.”阐述的核心成分。

核心成分“The property tax is assessed on property that you own.Justbecause you chose to not register it does not mean that you don't own it,sothe tax is not refundable.Even if you have not titled the vehicle yet,youstill own it within the boundaries of the tax district,so the tax ispayable.Note that all states give you a limited amount of time to transfertitle and pay the use tax.”由以“If you apply late,”为条件的“there will bepenalties on top of the normal taxes and fees”进行阐述，这进而由“but youabsolutely need to title it within the period of time stipulated in statelaw.”和“You don't need to register it at the same time”的对比进行阐述。

将图7的DT与图8的DT进行比较，能够确定响应(图8)与请求(图7)的匹配良好程度。在本发明的一些方面，至少部分地使用上述框架来确定请求/响应的DT以及DT之间的修辞一致性。

在另一个示例中，“What does[Organization 1]do([组织1]是做什么的)”这个问题至少有两个回答，例如官方回答或实际回答。

图9图示了根据一方面的官方回答的话语树。如图9中描绘的，官方回答或任务陈述陈述了“[Organization 1]is the[A]agency and has responsibility for[doingB1],[doing B2],is responsible for[doing C].([组织1]是[A]机构，并且具有[做B1]、[做B2]的责任，负责[做C]。)”

图10图示了根据一方面的原始回答的话语树。如图10所描绘的，另一个也许更诚实的回答陈述了“[Organization 1]is supposed to[do D].([组织1]应该[做D]。)However,[Organization 1]is charged with[negative activities A].(然而，[组织1]被指控[负面活动A]。)Not only that,but their involvement in[further negativeactivities B].(不仅如此，他们还参与了[更多负面活动B]。)Due to the activities of[Organization 1],[negative results happened]including[F].(由于[组织1]的活动，[发生负面结果]，包括[F]。)”

对回答的选择取决于上下文。修辞结构允许区分“官方”、基于模板的回答和“实际”、“原始”、“来自现场的报道”或“有争议的”回答，参见图9和图10。有时候，问题本身就可以给出关于期望哪一类回答的提示。如果问题被公式化为事实的问题或定义的问题而没有第二含义，则第一类回答是合适的。否则，如果问题具有“tell me what it really is(告诉我它到底是什么)”的含义，则第二类是合适的。一般来说，在从问题中提取修辞结构后，选择具有类似的、匹配的或互补修辞结构的合适回答会更加容易。

官方回答基于阐述和连接，其在文本可能包含的争议方面是中立的(参见图9)。同时，原始回答包括对比关联。这种关联从表示期望代理做什么与发现此代理做了什么的短语之间提取。

请求-响应对的分类

应用程序102可以确定给定回答或响应(如从回答数据库105或公共数据库获得的回答)是否响应了给定问题或请求。更具体地，应用程序102通过确定请求与响应之间的(i)相关性或(ii)修辞一致性中的一者或两者来分析请求响应对是正确还是错误。可以在不考虑相关性的情况下分析修辞一致性，其可以被正交处理。

应用程序102可以使用不同的方法来确定问答对之间的相似性。例如，应用程序102可以确定单个问题与单个回答之间的相似性。可替代地，应用程序102可以确定包括问题和回答的第一对与包括问题和回答的第二对之间的相似性度量。

例如，应用程序102使用被训练用于预测匹配或不匹配的回答的修辞一致性分类器120。应用程序102可以一次处理两个对，例如<q1,a1>和<q2,a2>。应用程序102比较q1与q2以及a1与a1，产生组合的相似性评分。这种比较允许通过评定与具有已知标签的另一个问题/回答对的距离来确定未知问题/回答对是否包含正确回答。特别是，可以处理不带标签的对<q2,a2>，使得不是基于q2和a2共享的单词或结构来“猜测”正确性，而是可以基于这样的单词或结构将q2和a2两者与其带标签的对<q2,a2>的对应成分q1和a2进行比较。因为这种方法针对的是与领域无关的回答分类，所以只能利用问题与回答之间的结构粘聚性(cohesiveness)，而不是回答的‘含义’。

在一方面，应用程序102使用训练数据125来训练修辞一致性分类器120。以这种方式，修辞一致性分类器120被训练以确定问答对之间的相似性。这是一个分类问题。训练数据125可以包括正训练集和负训练集。训练数据125包括正数据集中匹配的请求-响应对和负数据集中任意或较低相关性或适当性的请求-响应对。对于正数据集，选择具有不同接受标准的各种领域，以指示回答或响应是否适合该问题。

每个训练数据集包括一组训练对。每个训练集包括表示问题的问题交流话语树和表示回答的回答交流话语树以及问题与回答之间的预期互补性水平。通过使用迭代过程，应用程序102向修辞一致性分类器120提供训练对并且从模型接收互补性水平。应用程序102通过确定所确定的互补性水平与特定训练对的预期互补性水平之间的差异来计算损失函数。基于损失函数，应用程序102调整分类模型的内部参数以最小化损失函数。

接受标准可能因应用而变化。例如，对于社区问答、自动问答、自动和手动客户支持系统、社交网络交流以及个人(如消费者)关于他们对产品的体验的写作(如评论和投诉)的接受标准可能较低。在科学文本、专业新闻、常见问题解答形式的健康和法律文档、专业社交网络(如“stackoverflow”)中，RR接受标准可能较高。

交流话语树(CDT)

应用程序102可以创建、分析和比较交流话语树。交流话语树被设计为将修辞信息与言语行为结构相结合。CDT包括标记有交流动作表达式的弧。通过组合交流动作，CDT可以对RST关联和交流动作进行建模。CDT是解析树丛的缩减。参见Galitsky,B、Ilvovsky,D.和Kuznetsov SO.的Rhetoric Map of an Answer to Compound Queries[对复合查询的回答的修辞映射]Knowledge Trail Inc.ACL 2015,681-686.(“Galitsky 2015”)。解析树丛是句子解析树的组合，其中在一个图中带有句子的单词与各部分之间的话语级别的关系。通过结合标识言语动作的标签，交流话语树的学习可以发生在与仅仅基本话语单元(EDU)的修辞关联和句法相比更丰富的特征集上。

在示例中，分析了三方之间[事件A]原因的争议。建立了正在交流的论证的RST表示。在该示例中，三个冲突的代理，即，[组织1]、[组织2]和[组织3]，就此事交换了他们的意见。该示例说明了一场有争议的冲突，每一方都竭尽全力指责其对手。为了听起来更令人信服，每一方都不只是提出自己的主张，而是以拒绝对手的主张的方式来公式化响应。为了实现这一目标，每一方都试图与对手的主张的风格和话语相匹配。

图11图示了根据一方面的第一代理的主张的交流话语树。图11描绘了交流话语树100，该交流话语树表示以下文本：“[Organization 1]says that evidence points to[Organization 3]as being responsible for[Event A].([组织1]说，证据表明[组织3]应对[事件A]负责)。The report indicates[Condition A]and identifies[Condition B]and pins[Event A]on the[Organization 3].(报告指出了[情况A]，并确定了[情况B]，并将[事件A]归咎于[组织3])。”

从图11可以看出，CDT的非终止节点是修辞关联，并且终止节点是作为这些关联的主语的基本话语单元(短语、句子片段)。CDT的某些弧用交流动作表达式来标记，包括行动者(actor)代理和这些动作的主语(正在交流的内容)。例如，阐述关联的核心节点(左侧)标有say([Organization 1],evidence)，外围成分标有responsible([Organization3],[Action for Event A])。这些标签不是为了表达EDU的主语是证据和事件A的动作，而是为了将这个CDT与其他进行匹配，以发现它们之间的相似性。在这种情况下，仅仅通过修辞关联将这些交流动作联系起来而不提供交流话语的信息，对于表示交流内容和交流方式的结构来说，是非常有限制的方式。RR对的具有相同或协调的修辞关联的要求太弱了，所以需要在匹配的节点上对弧的CDT标签一致。

该图的直边为句法关联，曲线弧为话语关联，如首语重复(anaphora)、同一实体、子实体、修辞关联、交流动作。该图包括比仅仅各个句子的解析树的组合更丰富的信息。除了CDT之外，解析树丛还可以在单词、关联、短语和句子的级别上被泛化。言语动作是表示参与相应的言语行为的代理的逻辑谓词和其主语。正如诸如VerbNet等框架所提出的，逻辑谓词的论元是根据相应语义角色形成的。参见Karin Kipper、Anna Korhonen、NevilleRyant、Martha Palmer的A Large-scale Classification of English Verbs[英语动词的大规模分类]Language Resources and Evaluation Journal，42(1)，第21-40页，SpringerNetherland，2008.和/或Karin Kipper Schuler、Anna Korhonen、Susan W.Brown的VerbNet overview,extensions,mappings and apps[VerbNet概述、扩展、映射和应用]，Tutorial，NAACL-HLT 2009，科罗拉多州博尔德。

图12图示了根据一方面的第二代理的主张的交流话语树。图12描绘了交流话语树1200，该交流话语树表示以下文本：“[Organization 2]believes[Condition C],which[Condition D].([组织2]认为，[情况C]，而[情况D])。[Organization 2]cites aninvestigation that established[Condition E].([组织2]引用了确定了[情况E]的一项调查)。”

图13图示了根据一方面的第三代理的主张的交流话语树。图13描绘了交流话语树1300，该交流话语树表示以下文本：“[Organization 3]denies that[Condition B]which[Condition A].([组织3]否认了[情况A]的[情况B])。It became possible only at[TimeA]to say[Condition B].(在[时间A]，才有可能来说[情况B])。”

从交流话语树1100-1300可以看出，响应不是任意的。响应与原始文本谈论相同的实体。例如，交流话语树1200和1300与交流话语树1100相关。响应支持与关于这些实体以及关于这些实体的动作的估计和情感的不一致。

更具体地，所涉及代理的回复需要反映第一种子消息的交流话语。作为简单的观察，因为第一代理使用归因来传达他的主张，其他代理必须遵循这套方案，要么提供他们自己的归因，要么攻击提议者的归因的有效性，或者两者兼有。为了捕获种子消息的通信结构需要如何在连续消息中保留的各种特征，可以学习成对的相应CDT。

为了验证请求-响应的一致性，仅话语关联或言语行为(交流动作)通常是不够的。从图11至图13中描绘的示例可以看出，代理之间的互动的话语结构和互动的种类是有用的。然而，不需要分析互动的领域或这些互动的主语，即实体。

表示修辞关联和交流动作

为了计算抽象结构之间的相似性，经常使用两种方法：(1)在数值空间中表示这些结构，并将相似性表达为数字，这是一种统计学习方法，或(2)使用结构表示，而不使用数值空间，如树和图，并将相似性表达为最大共同子结构。将相似性表达为最大共同子结构称为泛化。

学习交流动作有助于表达和理解论证。计算动词词典有助于支持动作实体的获取，并提供基于规则的形式来表达其含义。动词表达被描述事件的语义以及该事件参与者之间的关联信息，并投射出对该信息进行编码的句法结构。动词，特别是交流动作动词，可能是高度可变的，并且可以显示出丰富范围的语义行为。作为响应，动词分类通过将动词组织成共享核心语义属性的组来帮助学习系统处理这种复杂性。

VerbNet就是一个这样的词典，它识别每一类中动词的语义角色和句法模式特性，并明确可以为类的所有成员推断的句法模式与底层语义关联之间的联系。参见KarinKipper、Anna Korhonen、Neville Ryant和Martha Palmer，Language Resources andEvaluation[语言资源和评估]，第42卷，第1期(2008年3月)，第21页。一个类的每个句法框架或动词签名都有对应的语义表示，该语义表示详细说明了事件过程中事件参与者之间的语义关联。

例如，动词amuse(逗乐)是具有相似的论证结构(语义角色)的一组相似动词(如amaze(使吃惊)、anger(使生气)、arouse(激起)、disturb(打扰)和irritate(激怒))的一部分。这些交流动作的论证的角色如下：经历者(通常是有生命的实体)、刺激和结果。每个动词都可以具有含义类别，这些含义由该动词在句子或框架中如何出现的句法特征进行区分。例如，使用以下关键名词短语(NP)、名词(N)、交流动作(V)、动词短语(VP)、副词(ADV)，amuse的框架如下：

NP V NP。示例：“The teacher amused the children(老师把孩子们逗乐了)。”句法：刺激V经历者。从句：amuse(Stimulus,E,Emotion,Experiencer),cause(Stimulus,E),emotional_state(result(E),Emotion,Experiencer)。

NP V ADV-Middle。示例：“Small children amuse quickly(小孩子很快就会被逗乐)。”句法：经历者V ADV。从句：amuse(Experiencer,Prop):-,property(Experiencer,Prop),adv(Prop).

NP V NP-PRO-ARB。示例“The teacher amused(老师逗乐)”。句法：刺激V。amuse(Stimulus,E,Emotion,Experiencer):.cause(Stimulus,E),emotional_state(result(E),Emotion,Experiencer)。

NP.cause V NP。示例“The teacher's dolls amused the children(老师的玩具娃娃把孩子们逗乐了)”。句法：刺激<+所有格>('s)V经历者。amuse(Stimulus,E,Emotion,Experiencer):.cause(Stimulus,E),

emotional_state(during(E),Emotion,Experiencer)。

NP V NP ADJ。示例“This performance bored me totally(这场演出让我感到非常无聊)。”句法：刺激V经历者结果。amuse(Stimulus,E,Emotion,Experiencer).cause(Stimulus,E),emotional_state(result(E),Emotion,Experiencer),Pred(result(E),Experiencer)。

交流动作可以被表征为群组，例如：

带有谓词补语的动词(任命、表征、复制、声明、猜想、伪装、孤立、指挥、考虑、分类)，感知动词(看到、瞄准、端详)。

心理状态动词(逗乐、钦佩、感到惊奇、恳求)，欲望动词(想要、渴望)。

判断动词(判断)，评定动词(评定、估计)，搜索动词(追捕、搜索、跟踪、侦察、翻找、搜寻)，社会互动动词(相符、结婚、见面、斗争)，交流动词(转移(消息)、询问、查询、告诉、方式(说话)、谈话、聊天、说、投诉、建议、承认、演讲、夸大、承诺)。避免动词(避免)，测量动词(注册、成本、拟合、定价、计费)，动态动词(开始、完成、继续、停止、建立、维持)。

本文描述的各方面提供了优于统计学习模型的优点。与统计解决方案相比，各方面使用分类系统可以提供被确定为导致目标特征(如修辞一致)的动词或类动词结构。例如，统计机器学习模型将相似性表示为数字，这会使解释变得困难。

表示请求-响应对

表示请求-响应对有助于基于对来进行基于分类的操作。在示例中，请求-响应对可以被表示为解析树丛。解析树丛是带有句子的单词与部分之间的话语级别的关系的两个或更多个句子的解析树的在一个图中的表示。参见Galitsky 2015。问题与回答之间的主题相似性可以表示为解析树丛的共同子图。共同图节点的数量越多，相似性越高。

图14图示了根据一方面的解析树丛。图14描绘了包括请求1401的解析树和对应响应1402的解析树的解析树丛1400。

解析树1401表示问题“I just had a baby and it looks more like thehusband I had my baby with.(我刚刚生了一个孩子，它看起来更像和我一起生孩子的丈夫。)However it does not look like me at all and I am scared that he wascheating on me with another lady and I had her kid.(然而，它看起来一点也不像我，我很害怕他和另一位女士偷情，而我却生了她的孩子。)This child is the bestthing that has ever happened to me and I cannot imagine giving my baby to thereal mom.(这个孩子是发生在我身上最好的事情，我无法想象把我的孩子交给真正的妈妈。)”

响应1402表示响应“Marital therapists advise on dealing with a childbeing born from an affair as follows.(婚姻治疗师对处理婚外情所生孩子的建议如下。)One option is for the husband to avoid contact but just have the basiclegal and financial commitments.(一种选择是丈夫避免接触，而只是有基本的法律和财务承诺。)Another option is to have the wife fully involved and have the babyfully integrated into the family just like a child from a previous marriage.(另一个选择是让妻子完全参与进来，让孩子完全融入家庭，就像先前婚姻中的孩子一样。)”

图14表示一种贪婪方法，用于表示关于文本段落的语言学信息。该图的直边为句法关联，曲线弧为话语关联，如首语重复、同一实体、子实体、修辞关联、交流动作等。实线弧线表示同一实体/子实体/首语重复关联，并且虚线弧线表示修辞关联和交流动作。直边中的椭圆标签表示句法关联。词元(lemma)写在节点的框内，并且词元形式写在节点的右侧。

解析树丛1400包括比仅各个句子的解析树组合更丰富的信息。沿着句法关联的边缘和话语关联的弧导航通过该图，可以允许给定的解析树丛变换为语义等效的形式，以与其他解析树丛匹配，执行文本相似性评定任务。为了形成段落的完整形式表示，需要尽可能多地表达链接。每个话语弧都会产生一对可能匹配的树丛短语。

种子(请求)与响应之间的主题相似性表达为解析树丛的共同子图。它们被可视化为连接的云。共同图节点的数量越多，相似性越高。对于修辞一致性，共同子图不必像给定文本中那样大。然而，种子和响应的修辞关联和交流动作是相关的，并且需要对应。

交流动作的泛化

两个交流动作A₁与A₂之间的相似性被定义为具有A₁与A₂之间共同的特征的抽象动词。将两个动词的相似性定义为抽象的类动词结构支持归纳学习任务，如修辞一致性评定。在示例中，以下两个常见动词——agree(同意)和disagree(不同意)——之间的相似性可以被泛化如下：agree^disagree＝verb(Interlocutor,Proposed_action,Speaker)，其中，Interlocution是向Speaker提出Proposed_action并且Speaker向其交流他们响应的人。Proposed_action是Speaker在接受或拒绝请求或邀约时将执行的动作，并且Speaker是已向其提出特定动作并对所做出的请求或邀约作出响应的人。

在另一个示例中，动词agree(同意)与explain(解释)之间的相似性表示如下：agree^explain＝verb(Interlocutor,*,Speaker).交流动作的主语在交流动作的上下文中被泛化，不是以其他“物理”动作而被泛化。因此，各方面将交流动作的个别发生与对应的主体一起泛化。

另外，可以将表示对话的交流动作序列与其他这样的类似对话序列进行比较。以这种方式，体现了单个交流动作的含义以及对话的动态话语结构(相比于其经由修辞关联反映的静态结构)。泛化是发生在每个级别的复合结构表示。交流动作的词元以词元来泛化，并且其语义角色以相应的语义角色来泛化。

文本作者使用交流动作来指示对话或冲突的结构。参见Searle,J.R.1969，Speechacts:an essay in the philosophy of language[言语行为：语言哲学中的短文].伦敦：剑桥大学出版社。主体在这些动作的上下文中被泛化，不是以其他“物理”动作而被泛化。因此，交流动作的单个发生一起以它们的主体以及它们的对被泛化为话语“步骤”。

也可以从匹配动词框架(如VerbNet)的角度来考虑交流动作的泛化。交流链接反映了与文本中多于一个单一主体的参与(或提及)相关联的话语结构。这些链接形成连接用于交流动作的单词(隐含地表明人的交流意图的动词或多词)的序列。

交流动作包括行动者、被执行动作的一个或多个代理，以及描述该动作的特征的短语。交流动作可以根据以下形式来描述：动词(代理，主语，原因)，其中，动词表征所涉及的代理之间的一些类型的互动(例如，解释、确认、提醒、不同意、否认等)，主语是指传递的信息或描述的对象，并且原因是指主语的动机或解释。

场景(标记有有向图)是解析树丛G＝(V,A)的子图，其中V＝{action₁,action₂...action_n}是与交流动作相对应的有限的一组顶点，并且A是有限的一组带标签的弧(有序顶点对)，分类如下：

每个弧action_i，action_j∈A_sequence与涉及相同主语(例如，s_j＝s_i)或不同主语的两个动作的时间优先次序v_i，ag_i，s_i，c_i和v_j，ag_j，s_j，c_j相对应。每个弧action_i，action_j∈A_cause与action_i和action_j之间的指示action_i的原因与action_j的主语或原因相冲突的攻击关系相对应。

与代理之间互动场景相关联的解析树丛子图具有一些区别特征。例如，(1)所有顶点按时间排序，使得所有顶点(除了初始顶点和终止顶点)都有一个入弧和一个出弧，(2)对于A_sequence弧，允许最多一个入弧和仅一个出弧，以及(3)对于A_cause弧，可以有来自给定顶点的许多出弧、以及许多入弧。所涉及的顶点可以与不同的代理相关联，也可以与同一代理相关联(即，当他反驳他自己时)。为了计算解析树丛及其交流动作之间的相似性，分析了诱导子图、具有相似弧标签的相同配置子图和顶点的严格对应关系。

通过分析解析树丛的交流动作弧，存在以下相似之处：(1)其主语来自T1的一个交流动作与其主语来自T2的另一个交流动作(不使用交流动作弧)，以及(2)其主语来自T1的一对交流动作与来自T2的另一对交流动作(使用交流动作弧)。

泛化两种不同的交流动作是基于它们的属性。参见(Galitsky等人，2013年)。从关于图14讨论的示例中可以看出，来自T1的一个交流动作cheating(husband，wife，anotherlady)可以与来自T2的第二交流动作avoid(husband，contact(husband，another lady))进行比较。泛化导致communicative_action(husband，*)，其以如下形式对A引入约束：如果给定agent(＝husband)在Q中被提及作为CA的主语，则他(她)也应该是A中的(可能另一个)CA的主语。两个交流动作总是可以被泛化的，但它们的主语却不是这样：如果他们的泛化结果为空，则具有这些主语的交流动作的泛化结果也是空的。

RST关联的泛化

话语树之间的一些关联可以被泛化，如表示同一类关联(表示关联(如对照关联)，主题关联(如条件)和多核关联(如列表))的弧可以被泛化。核心成分或核心成分所呈现的情况用“N”表示。外围成分或外围成分所呈现的情况用“S”表示。“W”表示作者。“R”表示读者(听者)。情况是命题、已完成的动作或正在进行的动作、以及交流动作和状态(包括信念、愿望、赞同、解释、和解和其他)。用上述参数对两个RST关联的泛化被表达为：

rst1(N1，S1，W1，R1)^rst2(N2，S2，W2，R2)＝

(rst1^rst2)(N1^N2，S1^S2，W1^W2，R1^R2)。

N1、S1、W1、R1中的文本被泛化为短语。例如，rst1^rst2可以被泛化如下：(1)如果relation_type(rst1)！＝relation_type(rst2)，则泛化为空。(2)否则，修辞关联的签名被泛化为句子：sentence(N1,S1,W1,R1)^sentence(N2,S2,W2,R2).参见Iruskieta、Mikel、Iria da Cunha和Maite Taboada.的A qualitative comparison method for rhetoricalstructures:identifying different discourse structures in multilingual corpora[修辞结构的定性比较方法：识别多语言语料库中的不同话语结构].Lang Resources&Evaluation.2015年6月，第49卷，第2期。

例如，rst-背景^rst-使能＝(S增加R理解N中的元素的能力)^(理解S的R增加R执行N中动作的能力)＝increase-VB the-DT ability-NN of-IN R-NN to-IN。

因为关联rst-背景^rst-使能不同，所以RST关联部分为空。然后，作为各个RST关联的动词定义的表达式被泛化。例如，对于每个单词或诸如代理等单词的占位符，如果每个输入短语中的单词相同，则保留该单词(及其POS)，如果这些短语之间的单词不同，则删除该单词。由此产生的表达式可以被解释为正式获得的两个不同RST关联的定义之间的共同含义。

图14中描绘的问题与回答之间的两条弧线示出了基于RST关联“RST-对比”的泛化实例。例如，“I just had a baby”是与“it does not look like me”的RST-对比，并且与“husband to avoid contact”相关，这是与“have the basic legal and financialcommitments”的RST-对比。可以看出，回答不必与问题的动词短语相似，但问题和回答的修辞结构是相似的。并非回答中的所有短语都必须与问题中的短语相匹配。例如，不匹配的短语与回答中的与问题中的短语相关的短语具有一定的修辞关联。

建立交流话语树

图15图示了根据一方面的用于建立交流话语树的示例性过程。应用程序102可以实施过程1500。如所讨论的，交流话语树能够改进搜索引擎的结果。

在框1501处，过程1500涉及访问包括片段的句子。至少一个片段包括动词和单词，并且每个单词包括单词在片段内的角色，并且每个片段是基本话语单元。例如，应用程序102访问诸如关于图13所描述的“[Organization 3]denies[Condition B]which[Condition A]”的句子。

继续该示例，应用程序102确定该句子包括几个片段。例如，第一个片段是“[Organization 3]denies”。第二个片段是“[Condition B]”。第三个片段是“which[Condition A]”。每个片段包括一个动词，例如，第一个片段的“deny”和第二个片段的“[Action in Condition B]”。但是，片段不必包括动词。

在框1502处，过程1500涉及生成表示句子片段之间的修辞关系的话语树。话语树包括节点，每个非终止节点表示两个句子片段之间的修辞关系，并且话语树的节点中的每个终止节点与句子片段之一相关联。

继续该示例，应用程序102生成如图13所示的话语树。例如，第三个片段，“which[Condition A]”阐述了“[Condition B]”。第二个片段和第三个片段一起与所发生事件的归因有关，即，对象不可能是[组织3]，因为[情况B]未发生。

在框1503处，过程1500涉及访问多个动词签名。例如，应用程序102访问例如来自VerbNet的动词列表。每个动词与片段的动词相匹配或相关。例如，对于第一个片段，动词是“deny”。因此，应用程序102访问与动词deny(否认)相关的动词签名列表。

如所讨论的，每个动词签名包括片段的动词和一个或多个题元角色。例如，签名包括名词短语(NP)、名词(N)、交流动作(V)、动词短语(VP)或副词(ADV)中的一个或多个。题元角色描述了动词与相关单词之间的关系。例如，“the teacher amused the children”与“small children amuse quickly”具有不同的签名。对于第一个片段，动词“deny”，应用程序102访问与“deny”匹配的动词的框架列表或动词签名。列表是“NP V NP to be NP”、“NPV that S”和“NP V NP”。

每个动词签名都包括题元角色。题元角色是指动词在句子片段中的角色。应用程序102确定每个动词签名中的题元角色。示例题元角色包括行动者、代理、资产、属性、受益者、原因、位置目的地来源、目的地、来源、位置、经历者、范围、工具、材料和产品、材料、产品、承受者、谓词、接受者、刺激、主题、时间或题目。

在框1504处，过程1500涉及针对动词签名中的每个动词签名确定与单词在片段中的角色相匹配的相应签名的多个题元角色。对于第一片段，修辞分类应用程序102确定动词“deny(否认)”只有三个角色，“agent(代理)”、“verb(动词)”和“theme(主题)”。

在框1505处，过程1500涉及基于特定动词签名具有最高匹配数而从动词签名中选择特定动词签名。例如，再次参考图13、第一个片段“[Organization 3]denies...that[Condition B]”中的deny与动词签名deny“NP V NP”相匹配，并且“[Action in ConditionB]”与[Action in Condition B]([Organization 3],[Object in Condition B])相匹配。动词签名是嵌套的，导致嵌套的签名“deny([Organization 3],[Action in Condition B]([Organization3],[Object in Condition B]))”。

表示请求-响应

请求-响应对可以单独分析或成对分析。在示例中，请求-响应对可以被链接在一起。在链中，预期修辞一致性不仅在连续成员之间成立，而且在三元组和四元组之间也成立。可以为表达一系列请求-响应对的文本构建话语树。例如，在客户投诉领域，从投诉者的观点来看，请求和响应存在于同一文本中。客户投诉文本可以被拆分为请求文本部分和响应文本部分，然后形成对的正和负数据集。在示例中，提议者的所有文本和对方的所有文本被组合。下面每个段落的第一句将形成请求部分(其将包括三个句子)，并且每个段落的第二句将形成响应部分(其在该示例中也将包括三个句子)。

图16图示了根据一方面的话语树和场景图。图16描绘了话语树1601和场景图1602。话语树1601对应以下三个句子：

(1)I explained that my check bounced(I wrote it after I made adeposit).(我解释说我的支票被退回了(我是在存款后写的)。)A customer servicerepresentative accepted that it usually takes some time to process thedeposit.(客户服务代表接受了通常需要一些时间来处理存款。)

(2)I reminded that I was unfairly charged an overdraft fee a monthago in a similar situation.(我提醒说，一个月前我在类似情况下被不公平地收取了透支费。)They denied that it was unfair because the overdraft fee was disclosedin my account information.(他们否认这是不公平的，因为在我的账户信息中已经披露了透支费。)

(3)I disagreed with their fee and wanted this fee deposited back tomy account.(我不同意他们的费用，并希望将这笔费用存回我的账户中。)They explainedthat nothing can be done at this point and that I need to look into theaccount rules closer.(他们解释说此时无能为力，我需要更仔细地研究账户规则。)

从图16中的话语树可以看出，很难判断确定文本是代表互动还是描述。因此，通过分析解析树丛的交流动作弧，可以发现文本之间的隐含相似性。例如，总体地说：

(1)其主语来自第一树的一个交流动作相对于其主语来自第二树的另一个交流动作(不使用交流动作弧)。

(2)其主语来自第一树的一对交流动作相对于来自第二树的另一对交流动作(使用交流动作弧)。

例如，在前面的示例中，cheating(husband,wife,another lady)^avoid(husband,contact(husband,another lady))的泛化为我们提供了communicative_action(husband,*)，它以如下形式对A引入约束：如果给定agent(＝husband)在Q中被提及作为CA的主语，则他(她)也应该是A中的(可能另一个)CA的主语。

为了处理表达CA的主语的单词的含义，可以将单词应用于向量模型，如“word2vector”模型。更具体地，为了计算交流动作的主语之间的泛化，可以使用以下规则：如果subject1＝subject2，则subject1^subject2＝<subject1,POS(subject1),1>。在此，主语仍然存在，并且评分为1。否则，如果该主语具有相同的词性(POS)，则subject1^subject2＝<*,POS(subject1),word2vecDistance(subject1^subject2)>。‘*’表示词元是占位符，并且评分是这些单词之间的word2vec距离。如果POS不同，则泛化是空元组，并且可能不会被进一步泛化。

请求-响应对的分类设置

在传统搜索中，作为基线，请求响应对之间的匹配可以用关键字统计来衡量，如短期频率-逆文档频率(TF*IDF)。为了提高搜索相关性，该评分通过项目流行度、项目位置或基于分类学的评分来扩充(Galitsky 2015)。搜索也可以表述为机器学习框架中的段落重排序问题。特征空间包括请求-响应对来作为元素，并且分离超平面将该特征空间分成正确对和错误对。因此，搜索问题可以以局部方式被公式化为Req与Resp之间的相似性，或者经由请求-响应对之间的相似性以全局学习方式被公式化。

其他方法可能用于确定请求与响应之间的匹配。在第一示例中，应用程序102提取Req和Resp的特征并将特征作为计数进行比较，引入评分函数，使得评分将指示分类(错误对的评分低，正确对的评分高)

在第二示例中，应用程序102将Req和Resp的表示相互比较，并为比较结果分配评分。类似地，评分将指示分类。

在第三示例中，应用程序102建立Req和Resp对的表示<Req，Resp>作为训练集的元素。应用程序102然后在所有这种元素<Req，Resp>的特征空间中执行学习。

图17图示了根据一方面形成请求-响应对。图17描绘了请求-响应对1701、请求树(或对象)1702和响应树1703。为了形成<Req，Resp>对象，应用程序102将请求话语树和响应话语树组合成具有根RR的单个树。应用程序102然后将对象分类为正确类别(具有高一致性)和错误类别(具有低一致性)。

基于最近邻图的分类

一旦建立了CDT，为了识别文本中的论证，应用程序102计算与正类的CDT相比的相似性，并验证它低于其负类的CDT集。CDT之间的相似性是通过最大共同子CDT的方法来定义的。

在示例中，构建CDT(V，E)的有序集G，其具有来自集合

和

的顶点标签和边标签。G中带标签的CDTΓ是一对形式为((V，l)，(E，b))的对，其中，V是一组顶点，E是一组边，

是将标签分配给顶点的函数，并且b：E→Λ_E是将标签分配给边的函数。具有相同标记的同构树不进行区分。

顺序被如下定义：对于G中的两个CDTΓ₁：＝((V₁，l₁)，(E₁，b₁))和Γ₂：＝((V₂，l₂)，(E₂，b₂))，如果存在一对一映射

V₂→V₁使得其(1)考虑边：

并且(2)符合标签：

则Γ₁主导Γ₂，或者Γ₂≤Γ₁(或Γ₂是Γ₁的子CDT)。

该定义考虑了当从“较大”CDT G₁传到“较小”CDT G₂时的匹配顶点的标签的相似性计算(“弱化”)。

现在，一对CDT X和Y的相似性CDT Z(表示为X^Y＝Z)是X和Y的所有包含最大共同子CDT的集合，其中每一个都满足以下附加条件(1)为了进行匹配，来自CDT X和Y的两个顶点必须表示相同的RST关联；并且(2)Z中的每个共同子CDT包含至少一个与X和Y具有相同VerbNet签名的交流动作。

该定义很容易扩展到寻找几个图的泛化。图集X和Y的对的归类顺序μ自然地被定义为XμY：＝X*Y＝X。

图18图示了根据一方面的最大共同子交流话语树。注意，树是倒置的，并且弧的标签被泛化：交流动作site()以交流动作say()来被泛化。前者CA“委员会”的第一(代理)论证以后者CA“荷兰”的第一论证来泛化。相同的操作适用于这对CA的第二论证：investigator^evidence(调查员^证据)。

CDT U属于正类，使得(1)U类似于(具有非空共同子CDT)正示例R⁺，并且(2)对于任何负示例R^-，如果U类似于R^-(即，

)则U*R^-μU*R⁺。

该条件引入了相似性度量，并说要分配给类，未知CDT U与离正类最接近的CDT之间的相似性应该高于U与每个负示例之间的相似性。条件2意味着存在正示例R⁺使得没有具有U*R⁺μR^-的R^-，即，正示例的这种泛化没有反例。

CDT的树丛核学习

如今，针对字符串、解析树和解析树丛的树核学习是一个已建立的研究领域。解析树核将共同子树的数量计数为两个实例之间的话语相似性度量。Joty、Shafiq和A.Moschitti的Discriminative Reranking of Discourse Parses Using Tree Kernels[使用树核对话语解析进行判别式重排序].Proceedings of EMNLP.(2014)为DT定义了树核。另见Wang，W.、Su，J.和Tan，C.L.(2010).的Kernel Based Discourse RelationRecognition with Temporal Ordering Information[使用时间顺序信息的基于内核的话语关联识别].Proceedings of 48th Annual Meeting of the Association forComputational Linguistics，(计算语言学协会第48届年会论文集)，(使用树核的特殊形式进行话语关联识别)。通过使用有关交流动作的信息来扩充DT内核，为CDT定义了树丛内核。

CDT可以由每个子树类型的整数计数向量V表示(而不考虑其原型)：

V(T)＝(类型1的子树数量，...，类型I的子树数量，...，类型n的子树数量).这导致非常高的维度，因为不同子树的数量其大小是指数级的。因此，直接使用特征向量

在计算上是不可行的。为了求解计算问题，引入了树核函数来高效地计算上述高维向量之间的点积。给定两个树段CDT1和CDT2，树核函数被定义为：

K(CDT1，CDT2)＝<V(CDT1)，V(CDT2)>＝∑iV(CDT1)[i]，V(CDT2)[i]＝∑n1∑n2∑i Ii(n1)*Ii(n2)其中，

n1∈N1，n2∈N2，其中，N1和N2分别是CDT1和CDT2中所有节点的集合；

Ii(n)是指示符函数。

Ii(n)＝{当且仅当类型i的子树在节点处出现根时为1；否则为0}。K(CDT1，CDT2)是树结构上的卷积核的实例(Collins和Duffy，2002)，并且可以通过递归定义计算为：

Δ(n1，n2)＝∑I Ii(n1)*Ii(n2)

如果n1和n2被分配了相同的POS标签，或者它们的子代是不同的子树，则Δ(n1，n2)＝0。

否则，如果n1和n2都是POS标签(是前终止节点)，则Δ(n1，n2)＝1xλ；

否则，Δ(n1，n2)＝λΠ_j＝1 ^nc(n1)(1+Δ(ch(n1，j)，ch(n2，j)))

其中，ch(n，j)是节点n的第j个子代，nc(n₁)是n₁的子代数，并且λ(0＜λ＜1)是衰减因子，以使内核值在相对于子树大小更不可变。另外，递归规则(3)成立因为给定具有相同子代的两个节点，可以使用这些子代和进一步后代的共同子树来构建共同子树。解析树核将共同子树的数量计数为两个实例之间的句法相似性测量。

图19图示了根据一方面的交流话语树的核学习格式中的树。

作为标签的交流动作的项被转换成树，这些树被添加到RST关联的相应节点。对于作为终止节点的标签的EDU文本，仅保留短语结构。终止节点使用短语类型的序列而不是解析树片段而被标记。

如果从节点X到带有标签A(B,C(D))的终止EDU节点Y存在修辞关联弧，则将子树A-B->(C-D)附加到X。

修辞一致性分类器的实施方式

修辞一致性分类器120可以通过使用交流话语树来确定两个句子(如问题和回答)之间的互补性。图20图示了根据一方面的用于实施修辞一致性分类器的示例性过程。图20描绘了可以由应用程序102实施的过程2000。如所讨论的，修辞一致性分类器120用训练数据125进行训练。

修辞一致性分类器120确定问题和回答两者的交流话语树。例如，修辞一致性分类器120从诸如问题171或输入文本130等的问题中构建问题交流话语树，并从候选回答中构建回答交流话语树。

在框2001处，过程2000涉及为问题句子确定包括问题根节点的问题交流话语树。问题句子可以是明确的问题、请求或评论。应用程序102从输入文本130创建问题交流话语树。使用关于图13和图15讨论的示例，示例问题句子是“are[Organization 3]responsiblefor[Event A]”。应用程序102可以使用关于图15描述的过程1500。示例问题具有根节点“阐述”。

在框2002处，过程2000涉及为回答句子确定第二交流话语树，其中，回答交流话语树包括回答根节点。继续以上示例，应用程序102创建交流话语树111，如图13所描绘的，它也具有根节点“阐述”。

在框2003处，过程2000涉及通过识别问题根节点和回答根节点是相同的来关联交流话语树。应用程序102确定问题交流话语树和回答交流话语树具有相同的根节点。得到的相关联的交流话语树在图17中被描绘并且可以被标记为“请求-响应对”。

在框2004处，过程2000涉及通过将预测模型应用于合并的话语树来计算问题交流话语树与回答交流话语树之间的互补性水平。

修辞一致性分类器使用机器学习技术。在一方面，应用程序102训练并使用修辞一致性分类器120。例如，应用程序102定义了请求-响应对的正类和负类。正类包括修辞上正确的请求-响应对，并且负类包括相关但修辞上不相干的请求-响应对。

对于每个请求-响应对，应用程序102通过解析每个句子并获得句子片段的动词签名来建立CDT。

应用程序102向修辞一致性分类器120提供相关联的交流话语树对。修辞一致性分类器120输出互补性水平。

在框2005处，过程2000涉及响应于确定互补性水平高于阈值，将问题句子和回答句子识别为互补的。应用程序102可以使用互补性水平的阈值来确定问答对是否充分互补。例如，如果分类评分大于阈值，则应用程序102可以将回答输出为回答172或回答150。可替代地，应用程序102可以丢弃回答并访问回答数据库105或另一个候选回答的公共数据库，并根据需要重复过程2000。

在一方面，应用程序102获得共同引用。在另一方面，应用程序102获得实体和子实体，或下位词(hyponym)链接。下位词是与适用于单词的一般或上位词(superordinate)相比更具体含义的单词。例如，“勺子(spoon)”是“餐具(cutlery)”的下位词。

在另一方面，应用程序102将树丛核学习应用于表示。树丛核学习可以代替上述基于分类的学习，例如在框2004处。应用程序102为请求-响应对的解析树建立解析树丛对。应用程序102应用话语解析以获得请求-响应对的话语树对。应用程序102将话语树请求-响应和解析树请求-响应的基本话语单元对齐。应用程序102合并话语树请求-响应和解析树请求-响应的基本话语单元。

在一方面，应用程序102通过word2vector模型改进了文本相似性评定。

在另一方面，应用程序102将与问题交流话语树相对应的句子或与回答交流话语树相对应的句子发送到诸如移动设备170等设备。来自应用程序102的输出可以用作搜索查询、数据库查找或其他系统的输入。以这种方式，应用程序102可以与搜索引擎系统集成。

图21图示了根据一方面的聊天机器人对帖子进行评论。图21描绘了聊天2100、用户消息2101-2104和代理响应2105。代理响应2105可以由应用程序102实施。如所示的，代理响应2105已经识别出对用户消息2101-2104的线程的合适回答。

图22图示了根据一方面的聊天机器人对帖子进行评论。图22描绘了聊天2200、用户消息2201-2205和代理响应2206。图22描绘了来自用户1的三个消息(具体地2201、2203和2205)以及来自用户2的两个消息(具体地2202和2204)。代理响应2206可以由应用程序102实施。如所示的，代理响应2106已经识别出对消息2201-2204的线程的合适回答。

图21和图22中描绘的特征可以由计算设备101实施，或者由向计算设备101提供输入文本130并从计算设备101接收回答150的设备来实施。

RR一致性和RR非理性的附加规则

以下是引入约束以实施RR一致性的结构规则的示例：

1.Req和Resp都具有相同的情感极性(如果请求为正，则响应也应该为正，反之亦然)。

2.Req和Resp都具有逻辑论证。

在理性的推理下，请求和响应将完全一致：理性的代理将提供既相关又与问题修辞相匹配的回答。然而，在现实世界中，并非所有的响应都是完全理性的。对认知偏见(Cognitive bias)的研究的主体探索了人类以某些方式思考的倾向，这些倾向可能导致系统性地偏离理性或良好判断的标准。

对应偏见(correspondence bias)是人们在对问题进行响应时，倾向于对他人观察到的行为过分强调基于人格的解释。参见Baumeister,R.F.和Bushman,B.J.Socialpsychology and human nature[社会心理学和人性]：国际版.(2010)。同时，那些响应问题的人低估了情境影响对同一行为的作用和力量。

确认偏见(Confirmation bias)是以确认那些回答问题的人的先入之见的方式来搜索或解释信息的倾向。他们可能会怀疑不支持他们的观点的信息。确认偏见与认知失调的概念有关。因此，个人可以通过搜索重新确认他们的观点的信息来减少不一致。

锚定会导致在做出决策时过于依赖或“锚定”一个特质或一条信息。

可得性启发法使我们高估了记忆中具有更大“可得性”的事件的可能性，这可能受到记忆的新近程度或它们可能不寻常或情绪化的程度的影响。

根据从众效应(Bandwagon effect)，人们在回答问题时相信事情，因为许多其他人也做了(或相信)同样的事情。

信念偏见(Belief bias)是一种效应，其中某人对论证的逻辑强度的评估由结论的可信度而产生偏见。

偏见盲点是认为自己的偏见比其他人少、或者能够在别人身上识别出比自己更多的认知偏见的倾向。

评估

第一测试数据领域源自雅虎问答(Yahoo！Answer)的问答对，其是话题广泛的问答对集合。在440万个用户问题的集合中，选择了20000个问题，每个问题都包括两个以上的句子。大多数问题的回答都相当详细，因此没有对回答进行过滤。每个问题有多个回答，并且最好的回答被标记出来。我们将问题-最佳回答对视为正训练集的元素，并将问题-其他回答视为负训练集之一。为了得到负集，我们要么随机选择对不同但有些相关的问题的回答，要么由问题形成查询并从web搜索结果中获得回答。

我们的第二个数据集包括社交媒体。我们主要从Facebook上的帖子中提取请求-响应对。我们还使用了与就业相关的Linkedln.com和vk.com会话的一小部分。在社会领域，写作的标准相当低。文本的内聚性非常有限，并且逻辑结构和相关性常常缺失。作者通过其自己的账户和多年来可通过API获得的公共Facebook账户形成了训练集(在编写FacebookAPI以获得消息时不可用)。另外，我们使用了来自Enron数据集的860个电子邮件线程。而且，我们收集了对代表人类用户-主机自动生成帖子的代理的帖子的手动响应的数据。见Galitsky B.、Dmitri Ilvovsky、Nina Lebedeva和Daniel Usikov.的Improving Trust inAutomation of Social Promotion[提高社会推广自动化的信任].关于自主系统中的鲁棒性智能和信任的交叉点的AAAI春季研讨会，斯坦福大学2014年.(“Galitsky2014”)。我们从各种社交网络来源形成了4000个对。

第三个领域是客户投诉。在典型的投诉中，不满意的客户描述了他在产品和服务方面的问题，以及他如何试图与公司交流这些问题以及他们如何响应的过程。投诉经常以带有偏见的方式撰写，夸大产品缺陷并将对方的行为描述为不公平和不恰当的。同时，投诉人试图以令人信服、连贯和逻辑一致的方式撰写投诉(Galitsky 2014)；因此，投诉充当了请求与响应之间高度一致的领域。为了评定用户投诉与公司响应之间的一致性(根据该用户如何对其进行描述)，我们收集了10年内来自planetfeedback.com的670份投诉。

第四个领域是记者采访。通常，专业记者撰写采访的方式是，问题与回答之间的匹配度非常高。我们从诸如datran.com、allvoices.com、huffmgtonpost.com和其他来源收集了1200份专业记者和公民记者的投稿。

为了促进数据收集，我们设计了爬虫，它搜索一组特定的网站、下载网页、提取候选文本并验证它是否符合问题或请求与响应格式。然后形成相应的文本对。搜索是经由Web和新闻领域中的Bing Azure搜索引擎API实施的。

识别有效回答和无效回答

回答分类准确性如表1所示。每行代表一种特定的方法；每一类方法在灰色区域中示出。

可以看出，新闻和社区回答领域的准确性最高，而客户投诉和社交网络的准确性最低。我们可以得出结论，在方法固定的情况下所实现的准确性越高，Req与Resp之间的一致性程度就越高，相应地响应者的能力就越高。

确定性系列的方法(中间两行，基于局部RR相似性的分类)的表现比SVM TK低约9％，这表明Req与Resp之间的相似性大体上不如指示RR一致性的RR对的某些结构重要。这意味着不能以单独的基础来评定Req与Resp之间的一致性：如果我们要求DT(Req)与DT(Resp)非常相似，我们将获得不错的精确率，但召回率极低。从DT到CDT仅有1-2％的帮助，因为交流动作在构成请求和形成响应方面都不发挥重要作用。

对于统计系列的方法(底部5行，树核)，最丰富的话语数据来源(RR-DT的SVM TK)给出最高的分类准确性，几乎与基于RR相似性的分类相同。尽管针对RST和CA(完整解析树)的SVM TK包括更多的语言学数据，但其中的一些部分(很可能是句法)是冗余的，并且对于有限的训练集给出了较低的结果。使用TK下的附加特征(如情感和论证)也没有帮助：最有可能的是，这些特征是从RR-CDT特征得到的，并且它们本身对分类准确性没有贡献。

采用基于CDT的TK系列的方法，使我们的准确性与将DT分类为正确和错误的准确性相当，在修辞学解析任务中，最先进的系统在过去几年中遇到了强烈的竞争，并获得了超过80％的准确性。

确定性系列中的直接分析方法表现相当弱，这意味着需要更多数量和更复杂的特征结构：仅计数和考虑修辞关联的类型不足以判断RR彼此之间的一致性。如果两个RR对具有相同类型和计数的修辞关联，甚至是交流动作，则在大多数情况下，它们仍然可能属于相反的RR一致性分类。

针对CDT的最近对邻学习达到低于针对CDT的SVM TK的准确性，但前者给出了感兴趣的子树示例，这些示例典型地是针对论证的，并且是在事实数据之间共享的。前者的CDT子树组的数量自然要高得多。不幸的是，SVM TK方法无助于解释RR一致性问题到底是如何解决的：它只给出了最终评分和类别标签。在没有交流动作的情况下，在响应中表达逻辑论证是可能的，但很少见(这一观察得到了我们的数据的支持)。

在评估领域中测量RR一致性

从对识别准确性的评估的角度来看，我们在上一小节中获得了最佳方法。现在，固定该方法后，我们将在我们的评估领域中测量RR一致性。我们还将示出由最佳方法提供的一般、全面的一致性如何与个人一致性标准(如情感、逻辑论证、主题和关键字相关性)相关联。一旦我们使用我们的最佳方法(针对RR-CDT的SVM TK)来标记训练集，其大小就会急剧增长，并且我们可以在各个领域探索RR一致性的感兴趣的属性。我们将发现RR一致性的多个直觉的特征在比先前评估更大的数据集上的贡献。

在该小节中，我们打算证明RR对有效性识别框架可以充当任意请求与响应之间一致性的衡量。而且，该识别框架可以评定各种特征与RR对有效性的相关性有多强。

通过对识别准确性的评估，我们获得了识别RR对有效与否的最佳方法。现在，固定这种识别方法后，我们将在我们的评估领域中测量RR一致性，并且还将估计由最佳方法提供的一般、全面的一致性如何与个人一致性标准(如情感、逻辑论证、主题和关键字相关性)相关联。一旦我们使用我们的最佳方法(针对RR-CDT的SVM TK)来标记训练集，其大小就会急剧增长，并且我们可以在各个领域探索RR一致性的感兴趣属性。我们将发现RR一致性的多个直觉的特征在比先前评估更大的数据集上的贡献。我们将仅在上述评估的正训练数据集上逐个特征地测量这种一致性作为识别精确率(％，表2)。

注意，召回和负数据集对于一致性评定不是必需的。

例如，根据针对RR-CDT分类的SVM TK，我们估计在客户投诉领域中如通过词袋计算的主题一致性方法确定的RR对是有效RR对的观察的精确率为64.3％。

情感一致性示出了RR对中适当情感匹配的贡献。情感规则特别地包括，如果RR的极性相同，则响应应该确认请求在说什么。相反，如果极性相反，则响应应该攻击请求所主张的内容。逻辑论证一致性需要其中响应与请求中的主张不一致的适当交流话语。

这些数据阐明了支持者所说的与对手如何响应之间的语言学一致性的性质。对于有效的对话话语，并非所有一致性特征都需要存在。然而，如果这些特征中的大多数不一致，则应将给定回答视为无效、不适当的，并应选择另一个回答。表2告诉我们，在各个领域的对话支持中，哪些特征应该在什么程度上被使用。因此，所提出的技术可以充当写作质量和客户支持质量评定的自动化手段。

聊天机器人应用程序

社会推广会话代理(CASP)是以模拟人类角色出现的代理，它代表其人类主人行事，为他或她促进和管理她的交流。Galitsky B.、Dmitri Ilvovsky、Nina Lebedeva和Daniel Usikov.的Improving Trust in Automation of Social Promotion[提高社会推广自动化的信任].AAAI Spring Symposium on The Intersection of RobustIntelligence and Trust in Autonomous Systems Stanford CA 2014.(关于自主系统中的鲁棒性智能和信任的交叉点的AAAI春季研讨会，斯坦福大学2014年)。CASP将其人类主人从社交网络上的日常、不太重要的活动(如分享新闻和评论他人的消息、博客、论坛、图像和视频)中解脱出来。社会推广会话代理随着可能失去的信任而发展。评估了CASP的整体性能，重点是RR对一致性，过滤了从web中挖掘的回复。

平均而言，人们在诸如Facebook和LinkedIn等社交网络系统上有200-300个朋友或联系人。为了与这么大量的朋友保持活跃的关系，需要每周花几个小时来阅读他们发布的内容并发表评论。在现实中，人们只与10-20个最亲密的朋友、家人和同事保持关系，而其余的朋友很少交流。这些不那么亲密的朋友觉得社交网络关系已经被放弃了。然而，与社交网络的所有成员保持活跃的关系对生活中从工作相关的到个人的许多方面都是有益的。社交网络的用户被期望向他们的朋友表明他们对他们感兴趣、关心他们，并因此对他们生活中的事件做出反应，响应他们发布的消息。因此，社交网络的用户需要花费大量时间来保持社交网络上的关系，但往往没有时间去做。对于亲密的朋友和家人，用户仍然会手动进行社交。对于网络的其余部分，他们将使用提议的CASP进行社会推广。

CASP跟踪用户聊天、用户在博客和论坛上的帖子、购物网站上的评论，并建议与购买决策相关的web文档及其片段。为此，它需要获取部分文本，生成搜索引擎查询，针对诸如Bing等搜索引擎API运行该搜索引擎查询，并过滤掉被确定为与种子消息无关的搜索结果。最后一步对于CASP的合理功能至关重要，而修辞空间中的不良相关性会导致对其失去信任。因此，准确评定RR一致性对于成功使用CASP是至关重要的。

CASP是作为模拟角色出现的，其代表其人类主人行事，为她促进和管理她的交流(图21至图22)。该代理被设计为将其人类主人从社交网络上的日常、不太重要的活动(如分享新闻和评论他人的消息、博客、论坛、图像和视频)中解脱出来。与大多数模拟人类角色的应用领域不同，其社交伙伴不一定知道他们与自动代理交换新闻、意见和更新。我们在多个Facebook账户中实验了CASP的修辞一致性和有关其同伴的心理状态的推理。我们评估它的性能和对涉及与之交流的人类用户的心理状态进行推理的准确性。对于会话系统，用户需要感觉该会话系统对他们的动作做出了正确的反应，并且该会话系统的回复是有意义的。为了在横向领域实现这一点，需要充分利用语言学信息，以便能够以有意义的方式交换消息。

CASP输入种子(由人类撰写的帖子)并输出它从web上挖掘的内容形成的消息，并调整为与输入帖子相关。这种相关性基于内容方面的适当性和RR一致性或心理状态一致性方面的适当性(例如，它以问题响应问题，以回答响应寻求更多问题的推荐帖子等)。

图21至图22图示了聊天机器人对帖子进行评论。

我们对人类用户在内容和心理状态的相关性都失败的情况下如何对CASP和其主人失去信任进行评估。代替评估修辞相关性(其是系统可用性方面的中间参数)，我们而是评定用户在因CASP在修辞上无关和不适当的帖子感到恼火时如何对CASP失去信任。

在表3中，我们展示了用户对CASP失败的容忍度结果。在一定次数的失败后，朋友会失去信任并抱怨、取消好友关系、与他人分享关于失去信任的负面信息，甚至鼓励其他朋友取消启用CASP的朋友的好友关系。单元格中的值表明在失去信任的相应事件发生时，修辞相关性失败的帖子的平均数量。这些相关性失败的帖子发生在本次评定活动的一个月内，并且我们没有获得这些帖子的相对发生频率的值。平均而言，每个用户有100个帖子被回复(每个种子帖子1-4个)。

可以看到，在不同的领域，用户对CASP失去信任的场景是不同的。对于如旅行和购物等信息关键性较低的领域，对失败相关性的容忍度相对较高。

相反，在更严肃的领域(如与工作相关的领域)以及具有个人风格的领域(如个人生活)，用户对CASP失败更敏感，其各种形式的信任丢失发生得更快。

对于所有领域，当帖子的复杂性增加时，容忍度会慢慢降低。与CASP发布的较短的句子或短语相比，用户对与内容或他们的期望无关的较长文本的感知更差。

算法的自然语言描述领域

将自然语言映射到正式的查询或命令语言的能力对于为许多计算系统(如数据库)开发更加用户友好的界面至关重要。然而，相对来说，很少有研究解决了从与其形式语言等同物配对的句子的语料库中学习这种语义解析器的问题。Kate、Rohit.、Y.W.Wong和R.Mooney.的Learning to transform natural to formal languages[学习将自然语言变换为形式语言].AAAI，2005年。此外，据我们所知，在话语级别上没有进行过这样的研究。通过学习将自然语言(NL)变换为完整的形式语言，可以更容易开发用于复杂的计算和AI系统的NL界面。

40多年前，发明“结构化编程”概念的荷兰计算机科学家Dijkstra写道：“我怀疑用我们的母语编程的机器——无论是荷兰语、英语、美国语、法语、德语还是斯瓦希里语——都非常难以制造和使用”。这位有远见的人绝对是正确的——编程语言的专业化和高准确性使计算和计算机的巨大进步成为可能。Dijkstra将编程语言的发明与数学符号的发明进行了比较。用他的话说：“与其将使用形式化符号的义务视为一种负担，我们不如将使用它们的便利性视为一种特权：多亏了它们，学童才能学会做在早期只有天才才能做到的事情”。但是四十年后的今天，我们在典型的行业应用中的代码量上不断碰壁——数千万甚至数亿行的代码——这是支持和开发的噩梦。习语“代码本身就是最好的描述”成了一个糟糕的笑话。

程序的自然语言描述是一个文本修辞特殊且语句之间的一致性至关重要的领域。我们将研究常见的修辞表示以及将算法描述映射到软件代码的领域特定的表示。

图23图示了根据一方面的算法文本的话语树。我们有以下文本及其DT(图23)：

1)Find a random pixel p1.(找到随机像素p1)。

2)Find a convex area a_off this pixel p1 belongs so that all pixelsare less than 128.(找到该像素p1所属的凸形区域a_off，使得所有像素都小于128)。

3)Verify that the border of the selected area has all pixels above128.(验证所选区域的边界的所有像素都在128以上)。

4)If the above verification succeeds,stop with positive result.(如果上述验证成功，则以肯定结果停止)。Otherwise,add all pixels which are below 128tothe a_off(否则，将所有低于128的像素添加到a_off中)

5)Check that the size of a_off is below the threshold.(检查a_off的大小是否低于阈值)。Then go to 2.(然后转到2)。Otherwise,stop with negative result.(否则，以否定结果停止)。

我们现在展示如何将特定句子转换为逻辑形式，然后再转换为软件代码表示。某些修辞关联有助于将由单个句子的转化结果得到的语句组合起来。

Verify that the border of the selected area has all pixels above 128(验证所选区域的边界的所有像素都在128以上)。

图24图示了根据一方面的带标注的句子。参见图24，用于伪代码的带标注的解构，1-1到1-3。

将所有常量转换为变量，我们试图将自由变量的数量降到最低，同时不过度约束表达式。耦接(由边链接)的箭头显示出，按照逻辑编程的惯例，相同的常数值(pixel)被映射到相等的变量(Pixel)。为了实现这一点，我们添加了需要约束自由变量的(一元的)谓词。

1-4)添加约束自由变量的谓词

epistemic_action(verify)&border(Area)&border(Pixel)&above(Pixel，128)&area(Area)

现在我们需要为量化所有建立明确的表达式。在这种特殊情况下，它将不会被使用，因为无论如何我们都使用循环结构

图25图示了根据一方面的带标注的句子。参见图25，用于伪代码的带标注的解构，1-5到2-3。

最终，我们得到

2-3)由此产生的代码片段

相关工作

虽然话语分析在问答、总结和文本生成方面具有有限数量的应用，但我们还没有发现自动构建的话语树的应用。我们列举了与话语分析在两个领域的应用相关的研究：对话管理和对话游戏。这些领域有可能被应用于当前提议所针对的相同问题。这两个提议都有一系列基于逻辑的方法以及基于分析和机器学习的方法。

管理对话和问答

如果一个问题和回答在逻辑上是相连接的，则它们的修辞结构一致性就变得较不重要了。

De Boni提出了一种通过逻辑相关性证明而不是真实性的逻辑证明来确定问题对回答的适当性的方法。参见De Boni、Marco的Using logical relevance for questionanswering[使用逻辑相关性进行问答]，Journal of Applied Logic,Volume 5,Issue 1,March 2007,Pages92-103(应用逻辑杂志，第5卷，第1期，2007年3月，第92-103页)。我们将逻辑相关性定义为这样的想法，有关于问题，回答不应该被认为是绝对为真或假，而应该更灵活地被认为在变化的(sliding)适合性尺度中是真的。然后，即使在回答来源不完整、不一致或包含错误的情况下，也可能对回答的适当性进行严格的推理。作者展示了如何通过使用测得的简化(约束放松的一种形式)来实施逻辑相关性，以便寻求逻辑证明(而不是回答)实际上作为对特定问题的回答。

我们的CDT模型试图将一般修辞和言语行为信息结合在单一的结构中。虽然言语行为提供了一种语用用意(pragmatic force)的有用的表示，但最近的工作(特别是在建立对话系统方面)已经大大扩展了这一核心概念，对话语(utterance)可以发挥的更多种类的会话功能进行了建模。由此产生的丰富行为被称为对话行为。参见Jurafsky、Daniel和Martin、James H.2000年.Speech and Language Processing:An Introduction toNatural Language Processing,Computational Linguistics,and Speech Recognition[言语和语言处理：自然语言处理、计算语言学和言语识别简介].Upper Saddle River,NJ:Prentice Hall。Traum和Hinkelman在他们对会话行为的多层次方法中区分了四个层次的对话行为，其是必需的以确保会话的连贯性和内容。参见Traum、David R.和JamesF.Allen.1994年.Discourse obligations in dialogue processing[对话处理中的话语义务].In Proceedings of the 32nd annual meeting on Association forComputational Linguistics(ACL’94).Association for Computational Linguistics(第32届计算语言学协会(ACL'94)年会的会议记录.计算语言学协会)，Stroudsburg，PA，USA，1-8。会话行为的四个层次是：轮流行为、基础行为、核心言语行为和论证行为。

几十年来，进行了对Q/A的逻辑和哲学基础的研究，其一直集中在有限的领域和尺寸相当小的系统上，并且被发现在工业环境中的用途有限。在语言学和数理逻辑中发展起来的“作为回答”的逻辑证明思想已被显示在实际系统中的适用性有限。目前的大多数应用研究(其目的是产生工作的通用目的的(“开放领域”)系统)是基于相对简单的架构，结合了信息提取和检索，正如在文本检索会议(TREC)Q/A竞赛给出的标准评估框架中提出的系统所证明的那样。

(Sperber和Wilson 1986年)取决于“证明”特定回答与问题相关所需的努力程度来判断回答的相关性。该规则可以经由修辞术语公式化为相关性度量：证明回答与问题相匹配所需的假设修辞关联越少，回答就越相关。所需的努力可以根据所需的先验知识量、根据文本进行的推理、或假设来度量。为了提供更易于管理的度量，我们建议简化这个问题，通过把重点放在可以从问题的公式化方式中移除约束或修辞关联的方式。换句话说，我们度量问题如何被简化以证明回答。由此产生的规则被公式化如下：回答的相关性是由必须从问题中去除多少修辞约束才能证明回答来决定的；必须去除的修辞约束越少，回答就越相关。

关于发现修辞关联可能如何有助于Q/A的研究的语料库非常有限。Kontos介绍了所述系统，所述系统允许利用提出生物医学系统模型的“基本”文本与提供支持该模型的实验结果的论文摘要部分之间的修辞关联。参见Kontos、John、Ioanna Malagardi、JohnPeros(2016年)的Question Answering and Rhetoric Analysis of Biomedical Textsin the AROMA System[AROMA系统中生物医学文本的问答和修辞分析]。未发表的手稿。

邻接对被定义为相邻的话语对，由不同的说话者产生，按第一部分和第二部分排序，并且是类型化的——特定类型的第一部分需要特定类型的第二部分。可以丢弃其中一些约束以涵盖更多话语之间的依赖关系的情况。参见Popescu-Belis、Andrei.的DialogueActs:One or More Dimensions？[对话行为：一个或多个维度？]Tech Report ISSCOWorking paper n.62.2005(技术报告ISSCO工作文件n.62.2005年)。

邻接对在本质上是关系性的，但它们可以被简化为标签(‘第一部分’、‘第二部分’、‘无’)，可能用指向该对中的其他成员的指针来扩充。经常遇到的观察到的邻接对的种类包括以下几种：请求/提供/邀请→接受/拒绝；评定→同意/不同意；责备→否认/承认；问题→回答；道歉→不予重视；谢谢→欢迎；问候→问候。参见Levinson、Stephen C.2000年.Presumptive Meanings:The Theory of Generalized Conversational Implicature[推定意义：广义会话含义理论].Cambridge，MA：MIT出版社。

修辞关联(类似于邻接对)是一个关系性概念，涉及话语之间的关联，而不是孤立的话语。然而，假设话语是相对于仅在一种关联中的核心成分的外围成分，则可以为该话语分配关联标签。这对对话结构的深入分析提出了强烈要求。RST中修辞关联的数量范围从(Grosz和Sidner 1986)使用的‘主导’和‘满意优先’类到一百多种类型。连贯关联是表达文本中的修辞结构的另一种方式。参见Scholman、Merel、Jacqueline Evers-Vermeul、TedSanders.的Categories of coherence relations in discourse annotation[话语标注中连贯关联的类别].Dislogure&Discourse,Vol 7,No 2(2016)(对话与话语，第7卷，第2期(2016年))

有许多类的NLP应用程序有望利用文本的信息结构。DT可以是非常有用的，是文本总结。基于Sparck-Jones 1995提出的核心成分-外围成分关联以及段之间的关联结构，应考虑文本段的特点知识，以形成准确和连贯的总结。参见Sparck Jones、K.的Summarising:analytic framework,key component,experimental method',in Summarising Text forIntelligent Communication[总结：智能通信总结文本中的分析框架、关键部分、实验方法]，(Ed.B.Endres-Niggemeyer、J.Hobbs和K.Sparck Jones),Dagstuhl Seminar Report79(1995)Dagstuhl研讨会报告79(1995年)。通过组合从根节点开始的阐述关联的最重要段，可以生成信息量最大的总结。DT已用于多文档总结。参见Radev、Dragomir R.、HongyanJing和Malgorzata Budzikowska.2000年.Centroid-based summarization of multipledocuments:sentence extraction,utility-based evaluation,and user studies[基于中心点的多文档总结：句子提取、基于效用的评估和用户研究].In Proceedings of the2000NAACL-ANLPWorkshop on Automatic summarization–Volume 4(2000年NAACL-ANLP自动总结研讨会论文集-第4卷)

在自然语言生成问题(其主要困难是连贯性)中，可以依靠文本的信息结构以连贯的方式组织提取的文本片段。衡量文本连贯性的方式可以用于论文的自动评估中。由于DT可以捕获文本连贯性，因此产生论文的话语结构可以被用于评定论文的写作风格和质量。Burstein描述了一种评估文本连贯性的半自动论文评定方式。参见Burstein、Jill C.、Lisa Braden-Harder、Martin S.Chodorow、Bruce A.Kaplan、Karen Kukich、Chi Lu、Donald A.Rock和Susanne Wolff。(2002)。

(engio 2003)中提出的神经网络语言模型使用前面几个词向量的串联来形成神经网络的输入，并试图预测下一个单词。参见Bengio、Yoshua、Réjean Ducharme、PascalVincent和Christian Janvin.2003年.A neural probabilistic language model[神经概率语言模型].J.Mach.Learn.Res.3(2003年3月)，1137-1155。结果是，在模型被训练之后，词向量被映射到向量空间中，使得句子和文档的分布式表示在语义上相似的单词具有相似的向量表示。这种模型可以潜在地对话语关联进行操作，但很难提供像我们为树核学习所做的那样丰富的语言学信息。有一个研究语料库将word2vec模型扩展到单词级别之外，以实现短语或句子级别的表示。例如，一种简单的方法是使用文档中所有单词的加权平均值(词向量的加权平均)，类似于词袋方法的方式丢失词序。一种更复杂的方法是使用矩阵向量操作，按照句子解析树给定的顺序来组合词向量。参见R.Socher、C.D.Manning和A.Y.Ng.2010年.Learning continuous phrase representations and syntacticparsing with recursive neural networks[使用递归神经网络学习连续短语表示和句法解析].In Proceedings of the NIPS-2010Deep Learning and Unsupervised FeatureLearning Workshop.(NIPS-2010深度学习和无监督特征学习研讨会论文集)。使用解析树组合词向量已被证明仅适用于句子，因为它依赖于解析。

许多早期的对话系统策略学习方法使用小的状态空间和动作集，并且只集中于有限的策略学习实验(例如，确认类型或主动类型)。Communicator数据集(Walker等人2001)是最大可用的人机对话语料库，并已经用对话上下文做了进一步标注。该语料库已广泛被用于训练和测试对话管理器，但它仅限于航空旅行领域针对有限数量的属性(如目的地城市)的信息请求对话。同时，在目前的工作中，我们依赖于各种性质的请求-响应对的大量语料库。

Reichman 1985参考用于识别话语的言语行为的传统方法，给出了会话话步(move)的形式描述和ATN(扩充转移网络)模型。作者使用的语言学标记分析类似于现在用于修辞解析的语言学标记分析，如前语言‘please(请)’、情态助词、韵律、引用、提示短语(例如‘Yes(是的)，but(但是)……’(子论证)让步和反论证)、‘Yes(是的)，and(并且)……’(论证同意和进一步支持)、‘No(否)’和‘Yes(是)’(不同意/同意)、‘Because(因为)……’(支持)等)和其他非措辞(illocutionary)指示符。参见Reichman,R.1985.的Gettingcomputers to talk like you and me:discourse context,focus and semantics(anATN model)[让计算机像你我一样谈话：话语上下文、重点和语义(ATN模型)].Cambridge,Mass.伦敦：MIT出版社。

给定文本的DT作为对复合查询的候选回答，提出了该DT中查询关键字的有效和无效出现的规则系统。参见Galisky 2015。要成为查询的有效回答，其关键字需要出现在该回答的基本话语单元链中，使得这些单元完全有序并通过核心成分-外围成分关联连接。如果查询的关键字仅出现在回答的外围成分话语单元中，则回答可能无效。

对话游戏

在任意会话中，问题之后通常是回答，或者是一些无法或拒绝回答的明确语句。会话的意向空间有以下模型。从代理B提出的问题中，代理A认识到代理B的目标是找出回答，并采用目标来告诉B回答，以便合作。然后A计划实现这一目标，从而生成回答。这在简单的情况下提供了精致的解释，但需要强有力的合作性假设。代理A必须将代理B的目标作为自己的目标。因此，它没有解释为什么A在她不知道回答或未准备好接受B的目标时说什么。

除了领域级别之外，Litman和Allen还在话语级别引入了意向分析，并在话语级别假设了一组常规的多代理动作。参见Litman,D.L.和Allen,J.F.1987年.A planrecognition model for subdialogues in conversation[会话中子对话的计划识别模型]，Cognitive Science(认知科学)，11：163-2。其他人试图使用诸如联合意图等社会意向结构来解释这种行为。参见Cohen P.R.和Levesque,H.J.1990年.Intention is choicewith commitment[意图是有承诺的选择]，Artificial Intelligence(人工智能)，42：213-261。另见Grosz,Barbara J.和Sidner,Candace L.1986年.Attentions,Intentions andthe Structure of Discourse[注意力、意向和话语结构].Computational Linguistics(计算语言学)，12(3)，175-204。虽然这些解释确实有助于更令人满意地解释一些话语现象，但它们仍然需要高度的合作来解释对话的连贯性，并且不能轻易解释为什么代理可能会在不支持高级共同目标的情况下采取行动。

让我们想象一个陌生人走近一个人并问：“Do you have spare coins？(你有多余的硬币吗？)”这不太可能有联合意图或共享的计划，因为他们以前从未见过。从纯粹的战略角度来看，代理可能对陌生人的目标是否得到满足没有兴趣。然而，通常代理在这种情况下仍会做出响应。因此，对Q/A的描述必须超出对说话者意图的认识。问题比提供说话者的目标的证据有更多作用，而且在公式化对问题的响应时，除了采纳对话者的目标之外，还涉及更多的东西。

Mann提出了一个话语级别的动作库，有时称为对话游戏，它对常见的交流互动进行编码。Mann、William和Sandra Thompson.1988年.Rhetorical structure theory:Towards afunctional theory of text organization[修辞结构理论：迈向文本组织的功能理论].Text-Interdisciplinary Journal for the Study of Discourse(话语研究的文本-跨学科杂志)，8(3):243-281。为了合作，代理必须始终参与其中一个游戏。因此，如果提出问题，则只有固定数量的活动(即由问题引入的活动)才是合作响应。游戏为连贯性提供了更好的解释，但仍然需要代理识别彼此的意图来执行对话游戏。因此，这项工作可以被视为意向观点的特例。由于这种分离，他们不必假设每个代理正在执行的任务上的合作，但仍然需要在会话层面上识别意图和合作。至于是什么目标促使了会话合作，则没有得到解释。

Coulthard和Brazil认为响应可以起到响应和新诱发的双重作用：Initiation^(Re-Initiation)^Response^(Follow-up)(诱发^(重新诱发)^响应^(附和))。参见Coulthard,R.M.和Brazil D.1979年.Exchange structure:Discourse analysismonographs no.5[交换结构：话语分析专著]第5期.Birmingham:The University ofBirmingham,English Language Research.(伯明翰：伯明翰大学，英语语言研究)。交换可以由两到四个话语构成。而且，附和(follow-up)本身可以被跟进。起始话步有时表示交换的开始，这并不限制下一话步的类型。最后，有时会出现关闭话步，不一定是附和。当这些观察被添加到他们的公式中时，最终得到：

(Open)^Initiation^(Re-Initiation)^Response^(Feedback)^(Follow-up)^(Close)((起始)^诱发^(重新诱发)^响应^(反馈)^(附和)^(关闭))

现在，这可以处理任何从两到七个以上的交换。

图26图示了根据一方面的对话的话语行为。Tsui(1994)根据三部分事务来表示话语行为。她对诱发、响应和附和的选择的系统相应地在图26中的顶部、中部和底部示出。

图27图示了根据一方面的对话的话语行为。

有效与无效RR对的分类问题也适用于问答和自动对话支持之外的完整对话生成任务。Popescu提出了用于人机对话的自然语言生成器的基于逻辑的修辞结构组件。参见Popescu、Vladimir、Jean Caelen、Corneliu Burileanu.的Logic-Based RhetoricalStructuring for Natural Language Generation in Human-Computer Dialogue[人机对话中自然语言生成的基于逻辑的修辞结构].Lecture Notes in Computer ScienceVolume 4629，pp309-317，2007(计算机科学讲义第4629卷，第309-317页，2007年)。在与提供以完全形式化的任务本体的方式构造的领域和应用程序相关的信息的任务控制器进行通信时考虑到语用和上下文方面。为了实现计算的可行性和一般性的目标，已经建立了话语本体，并提出了引入修辞关联约束的许多公理。

例如，指定topic(α)的语义的公理如下：

其中，K(α)从句在逻辑上表达了话语α的语义。

话语主题的概念在此被定义为领域本体中的对象集，在话语中以确定的方式提及。因此，话语之间的主题关联是使用任务/领域本体计算的，由任务控制器处理。

作为这种规则的示例，可以考虑

topic(β)：：＝ExhaustiveDecomposition(book，read，good time(’14h’)，goodtime(’monday’)，t+)；

其中，t+是“未来且‘新的’”。

修辞关联和论证

通常，链接问题和回答的主要手段是逻辑论证。RST与该研究中试图学习的论证关联之间存在明显的联系。有四种类型的关联：有向关联支持、攻击、细节和无向顺序关联。支持关联和攻击关联是论证关联，这在相关工作中是己知的。参见Peldszus，A.和Stede，M.2013年.From Argument Diagrams to Argumentation Mining in Texts：A Survey[从论证图到文本中的论证挖掘：调查].Int.J of Cognitive Informatics and NaturalIntelligence7(1)，1-31(认知信息学与自然智能杂志7(1)，1-31)。后两者对应于RST中使用的话语关联。论证顺序关联对应RST中的“顺序”，论证细节关联大致对应“背景”和“阐述”。

论证细节关联很重要，因为在科学出版物中的许多案例中，一些背景信息(例如术语的定义)对于理解整体论证很重要。论元成分Resp与另一个论元成分Req之间的支持关联表明Resp支持(理由，证明)Req。类似地，如果Resp攻击(限制、相矛盾)Req，则标注了Resp和Req之间的攻击关联。如果Resp是Req的细节并提供更多信息或定义Req中陈述的内容而无需论证推理，则使用细节关联。最后，如果(Req或Resp内的)两个论元成分属于一起并且仅在组合中才有意义，即，它们形成多句子论元成分，则我们将这些成分与顺序关联联系起来。

我们观察到，使用SVM TK可以区分各种文本风格(Galitsky 2015)，包括没有论证的文本风格和具有各种论证形式的文本风格。每种文本风格和体裁都有其固有的可以利用和自动学习的修辞结构。由于文本风格与文本词汇之间的相关性相当低，因此在复杂情况下，传统的仅考虑关键字统计信息的分类方法可能缺乏准确性。我们还执行文本分类，分为相当抽象的类(如属于文学领域中的语言对象和元语言)，以及基于风格的文档分类，分为专有设计文档。参见Galitsky,B、Ilvovsky,D.和Kuznetsov SO.的Rhetoric Map of anAnswer to Compound Queries[对复合查询的回答的修辞映射]Knowledge Trail Inc.ACL2015,681-686。对有效与无效客户投诉(那些有论证流、不连贯的、表明投诉人心情不好的客户投诉)领域的文本完整性评估表明，与情感概要信息相比，修辞结构信息的贡献更强。RST解析器获得的话语结构足以进行文本完整性评定，而基于情感概要的方法显示出更弱的结果，并且强有力的补充修辞结构信息。

已有大量的研究语料库致力于RST解析器，但关于如何利用RST解析结果解决实际NLP问题的研究仅限于内容生成、总结和搜索(Jansen等人2014)。这些解析器获得的DT不能直接以基于规则的方式用于过滤或构建文本。因此，需要学习来利用DT的隐含属性。据我们所知，这项研究是一项开创性的研究，它使用话语树及其扩展来进行一般和开放领域问答、聊天机器人、对话管理和文本构建。

对话聊天机器人系统需要能够理解和匹配用户的交流意图，根据这些意图进行推理，建立其自己相应的交流意图，并用实际语言填充这些意图以便与用户进行交流。话语树本身并不能提供这些交流意图的表示。在这项研究中，我们引入了建立在传统话语树之上的交流话语树，该交流话语树一方面可以在当今大量生产，另一方面构成对话的描述性话语级模型。经由交流话语树的机器学习来处理对话使我们能够对广泛阵列的对话类型的协作模式和互动类型(计划、执行以及交错的计划和执行)进行建模。

与手动的基于规则的手动编码方法相比，统计计算学习方法在对话系统开发中提供了几个关键的潜在优势：

·数据驱动的开发周期；

·可证明的最佳动作策略；

·更准确的响应选择模型；

·泛化到未看到的状态的可能性；

·降低行业的开发和部署成本。

将归纳学习的结果与基于内核的统计学习进行比较，依靠相同的信息，我们可以执行比任何一种方法都更简洁的特征工程。

大量关于RST解析器的文献语料库并没有解决产生的DT将如何用于实际NLP系统的问题。主要在与人类标注的测试集的一致性方面对RST解析器进行评估，而不是其对感兴趣特征的表达。在这项工作中，我们专注于对DT的解释，并探索以指示一致或不一致的形式而不是对事实进行中立列举的形式来表示它们。

为了衡量对话中给定消息如何与下一条消息衔接的一致性，我们使用了CDT，它现在包括针对呈替代VerbNet框架形式的交流动作的标签。我们调查了指示正确与错误的请求-响应对和问答对的话语特征。我们使用了两个学习框架来识别正确的对：作为图的CDT的确定性最近邻学习，以及CDT的树核学习，其中，所有CDT子树的特征空间都要经受SVM学习。

正训练集是根据从雅虎问答、社交网络、包括安然电子邮件(Enron email)在内的企业会话、客户投诉和记者采访中获得的正确对构建的。对应的负训练集是通过对包括相关关键字的不同随机请求和问题的附加响应来创建的，因此请求与响应之间的相关相似性很高。评估表明，在请求-响应一致性较弱的领域，有68％-79％的案例可以识别有效对，并且在一致性较强的领域，有80％-82％的案例可以识别有效对。这些准确性对于支持自动会话至关重要。这些准确性与将话语树本身分类为有效或无效的基准任务相当，也与事实问答系统相当。

我们相信这项研究是第一个利用自动构建的话语树来支持问答的研究。先前的研究使用了特定的客户话语模型和特征，这些模型和特征难以系统地收集、可解释性学习、逆向工程和相互比较。我们得出结论，学习呈CDT形式的修辞结构是支持回答复杂问题、聊天机器人和对话管理的数据的关键来源。

使用交流话语树进行论证检测

本文描述的各方面使用交流话语树来确定文本是否包含论证。这种方法可能例如对于聊天机器人能够确定用户是否正在争论很有用。当用户试图为某事提供论证时，可以使用多个论证模式。论证可以是任何交流、有说服力的文章或演讲的关键点。

给定文本的交流话语树反映了文本中存在的论证。例如，论证的基本点被反映在提出论证的文本的修辞结构中。没有论证的文本具有不同的修辞结构。参见Moens、Marie-Francine、Erik Boiy、Raquel Mochales Palau和Chris Reed.2007年.Automaticdetection of arguments in legal texts[自动检测法律文本中的论证].InProceedings of the 11th International Conference on Artificial Intelligenceand Law,ICAIL’07,PAGES 225-230,Stanford,CA,USA(第11届人工智能和法律国际会议论文集，ICAIL’07，第225-230页，斯坦福，CA，USA)此外，不同领域的论证可能不同。例如，对于产品推荐，具有积极情感的文本被用来鼓励潜在买家进行购买。在政治领域，情感与论证与代理的逻辑结构要复杂得多。

机器学习可以与交流话语树结合使用来确定论证。确定论证可以作为二元分类任务来处理，其中，将表示特定文本块的交流话语树提供给分类模型。分类模型返回对交流话语树是属于正类还是负类的预测。正类对应于有论证的文本，并且负类对应于没有论证的文本。本文描述的各方面可以基于与逻辑论证相关联的不同句法和话语特征来执行分类。在示例中，对于要分类为包含论证的文本，该文本类似于第一类中的要分配给该类的元素。为了评估我们的资源的贡献，可以使用两种类型的学习：最近邻和统计学习方法。

最近邻(kNN)学习使用显式的图形描述工程。测得的相似性是给定文本的图与训练集的给定元素的图之间的重叠。在统计学习中，各方面学习具有隐含特征的结构。

一般来说，机器学习方法估计每种特征类型和上述学习方法对论证识别问题(包括对立论证的存在)的贡献(Stab和Gurevych，2016)。更具体地，各方面使用修辞关联以及话语和语义关联如何在论证检测任务中共同工作。

尽管情感分析对于广泛的行业应用是必要的，但其准确性仍然相当低。当人们打算将强烈的意见内容与中立的内容区分开来时，识别出论证的存在(如果可靠地完成的话)可以潜在地替代一些意见挖掘任务。然后，论证识别结果可以充当情感分析分类器的特征，将具有高情感极性的案例与中立的案例、低极性的案例区分开来。

使用交流话语树来分析论证的示例

引入以下示例以说明使用交流话语树来确定文本中存在论证的价值。第一个示例讨论了Theranos，一家希望在血液检测领域进行革命的医疗保健公司。一些消息来源，包括《华尔街日报》在内，声称该公司的行为具有欺诈性。这些说法是基于离开Theranos的员工的举报而提出的。在某个时候，FDA介入了。2016年，一些公众相信Theranos的立场，认为该案是由Theranos的竞争对手发起的，他们嫉妒Theranos承诺的血液检测技术的效率。然而，使用论证分析，本文描述的各方面说明在其网站上挖掘的Theranos论证模式是错误的。事实上，一个欺诈案例被推进，从而导致了大规模的欺诈判决。根据证券交易委员会称，Theranos的CEO Elizabeth Holmes“通过精心策划的长达数年的欺诈”从投资者那里筹集了超过7亿美元，她在欺诈中对公司的技术和财务状况进行了夸大或虚假陈述。

考虑到有关Theranos的内容，如果用户倾向于Theranos而不是其对手，那么论证检测系统会试图提供有利于Theranos立场的回答。在这种情况下，其支持者的好论证或对手的坏论证也很有用。表4示出了代理、情感和论证的各种组合的标志，用于为具有实体A与实体B的特定偏好的给定用户定制搜索结果。在第二行和第三行中，右边灰色的那一列具有相反的标志。对于第四行，只有具有普遍接受的意见分享优点的案例被标记以进行显示。

聊天机器人可以使用表4中的信息来个性化响应或者根据用户期望定制搜索结果或意见数据。例如，聊天机器人在向用户提供新闻时可以考虑政治观点。另外，个性化响应对于产品推荐很有用。例如，特定用户可能更喜欢双板滑雪板(skis)而不是单板滑雪板(snowboards)，这可以通过用户分享不喜欢单板滑雪板的人的故事来证明。以这种方式，本文描述的各方面使聊天机器人能够通过表现出同理心并确保用户不会因为与聊天机器人缺乏共同点而感到恼火而表现得像同伴。

继续Theranos的示例，构建论证的RST表示，并且各方面可以观察话语树是否能够指示段落是否传达了主张和支持它的论证。附加信息被添加到话语树中，使得可以判断它是否表达了论证模式。根据《华尔街日报》报道，事情是这样的：“自[2015年]10月以来，《华尔街日报》发表了一系列匿名来源的指控，这些指控不准确地描绘了Theranos。现在，在其最新报道(“美国调查Theranos的投诉”，12月20日)中，《华尔街日报》再次依赖匿名消息来源，这一次报道了两起据称向医疗保险和医疗补助服务中心(CMS)和美国食品药品监督管理局(FDA)提交的未公开和未经证实的投诉。”(Carreyrou，2016)

图28描绘了根据一方面的示例性交流话语树。图28描绘了话语树2800、交流动作2801和交流动作2802。更具体地，话语树2800表示以下段落：“But Theranos hasstruggled behind the scenes to turn the excitement over its technology intoreality.(但Theranos一直在幕后努力将对其技术的兴奋变为现实)。At the end of2014,the lab instrument developed as the linchpin of its strategy handledjust a small fraction of the tests then sold to consumers,according to fourformer employees.(根据四名前员工称，在2014年底，作为其战略关键而开发的实验室仪器只处理了一小部分测试，然后卖给了消费者)。”可以看出，当任意的交流动作被附加到话语树2800作为终止弧的标签时，明显作者试图将她的观点表达出来，而不仅仅是分享事实。如图所示，交流动作2801是“struggle(努力)”，并且交流动作2802是“develop(开发)”。

图29描绘了根据一方面的示例性交流话语树。图29描绘了话语树2900，该话语树表示以下文本：“Theranos remains actively engaged with its regulators,includingCMS and the FDA,and no one,including the Wall Street Journal,has providedTheranos a copy of the alleged complaints to those agencies.(Theranos仍在积极与包括CMS和FDA在内的监管机构接洽，包括《华尔街日报》在内的任何人都没有向Theranos提供这些机构的所谓投诉副本)。Because Theranos has not seen these allegedcomplaints,it has no basis on which to evaluate the purported complaints.(因为Theranos没有看到这些所谓的投诉，所以它没有依据来评估这些所谓的投诉)。”但可以看出，仅从阐述的话语树和多重修辞关联以及单一的背景实例来看，并不清楚作者是在与他的对手争论还是列举一些观察。依赖于“engaged(接洽)”或“not see(没有看到)”这样的交流动作，CDT可以表达出作者实际上是在与他的对手争论的事实

图30描绘了根据一方面的示例性交流话语树。图30描绘了话语树3000，它表示以下文本，其中Theranos试图让自己摆脱困境：“It is not unusual for disgruntled andterminated employees in the heavily regulated health care industry to filecomplaints in an effort to retaliate against employers for termination ofemployment.(在受到严格监管的医疗保健行业中，心怀不满和被解雇的员工提出投诉以报复雇主解雇员工的情况并不少见)。Regulatory agencies have a process forevaluating complaints,many of which are not substantiated.(监管机构有一个评估投诉的程序，其中许多投诉没有得到证实)。Theranos trusts its regulators toproperly investigate any complaints.(Theranos相信其监管机构会妥善调查任何投诉)。”

可以看出，为了显示论证的结构，话语关联是必要但不充分的，并且言语行为(交流动作)也是必要但不充分的。对于与图30相关联的段落，有必要知道代理之间互动的话语结构，以及它们是怎样的互动。更具体地，需要区分中立阐述(不包括交流动作)与阐述关联，该阐述关联包括具有与论证相关的情感(如“not provide(不提供)”)的交流动作。注意，互动领域(例如，医疗保健)不是必需的，这些互动的主题(公司、杂志、机构)或实体是什么也不是必需的。然而，这些实体之间的心理的、与领域无关的关联是有用的。

图31描绘了根据一方面的示例性交流话语树。图31描绘了话语树3100，其表示Theranos关于对手的论证是错误的论证的以下文本：“By continually relying onmostly anonymous sources,while dismissing concrete facts,documents,and expertscientists and engineers in the field provided by Theranos,the Journal deniesits readers the ability to scrutinize and weigh the sources’identities,motives,and the veracity of their statements.(通过不断依赖大多数匿名消息来源，同时否认Theranos提供的具体事实、文档以及该领域的专家科学家和工程师，《华尔街日报》剥夺了其读者审查和权衡消息来源的身份、动机及其声明真实性的能力)。”

从常识推理的角度来看，Theranos公司有两种选择来确认其测试有效的论证：(1)进行独立调查，将其结果与同行进行比较，向公众开放数据，确认其分析结果正确；以及(2)反对对手关于他们的测试结果无效的论证，并为他们的对手是错误的主张提供支持。显然，前一种论证要强得多，并且通常当代理认为前一种论证太难实施时才会选择后一种论证。一方面，读者可能会同意Theranos，即，WSJ本应为其对该公司的指控提供更多证据。另一方面，读者可能不喜欢Theranos选择上述后一种论证类型(2)的事实，因为这会使该公司的立场相当薄弱。Theranos的论证薄弱的一个原因是，该公司试图反驳对手关于客户对Theranos服务的投诉的指控。Theranos邀请WSJ披露投诉的来源和性质的证据要求较弱。一种主张是第三方(独立调查代理)会更合理和更有说服力。然而，一些读者可能认为该公司的论证(规避举证责任)是合乎逻辑且有效的。注意，论证评定者不能仅依靠文本来识别文本中的修辞关联。相反，为了把握论证者的意图，情况的上下文是有帮助的。

在第二个示例中，作者的目的是攻击[事件A]的主张。图32描绘了根据一方面的示例交流话语树。图32描绘了该第二个示例的交流话语树3200。

考虑到这个示例，可接受的证据是分享从同行的角度来看相关联的不存在[事件A]的某个观察结果。例如，如果有可能证明所谓的[事件A]发生的时间与[事件B]的时间相吻合，则这将是一种令人信服的方式来攻击这一主张。然而，由于没有识别到这样的观察结果，消息来源1诉诸于绘制关于该主张是如何传播的复杂心理状态，其中，很难核实有关各方心理状态的大多数陈述。以下示出了由话语解析器拆分的基本话语单元：[Whatever the[Organization 1],][who had first-hand experience of the shooting of[Event B]][after[Event A],][have to say,][their words simply do not fit into thenarrative][allowed for[Organization 2],][analysts said.](无论对拍摄[事件A]后[事件B]视频有第一手经验的[组织1]怎么说，必须说，他们的话根本不符合[组织2]允许的叙述，分析员说)[Footage of[Organization 3]][with[Event B],][presumably to[Object A],][was a key part in convincing[Organization 2]][that[Event A]happened.]([组织3]带有[事件B]的画面，大概是为了[目的A]，这是让[组织2]相信发生[事件A]的关键部分)[[Organization 4]brought the people][seen in the video][to[Place A],][where they told anyone][interested in listening][[Condition A].]([组织4]将视频中看到的人带到了[地点A]，在那里他们告诉任何有兴趣听的人，[情况A])[However,[Condition B]][[Condition C].](然而，[情况B]，[情况C])[They refuse tosee this as evidence,][obviously pending][[Condition D]],[[Organization 5]said.]([组织5]说，他们拒绝将此视为证据，显然是在等待[情况D])[[Event A],][with[Condition E]][leads to[Result A]]([事件A]，带有[情况E]，造成[结果A])。

注意，上述文本没有为其试图反对的[事件A]主张找到反证据。而是，该文本指出，对手对观察这种反证据不感兴趣。该文章的主要陈述是某个代理“不接受”攻击主要主张的特定类型的证据，而是提供和支持该证据。该文章没有反对[事件A]的主张，而是建立了[组织1]、[组织4]、[组织2]和[组织5]之间的复杂心理状态冲突。

图33描绘了根据一方面的示例交流话语树。图33描绘了另一个有争议的报道，[事件C]的交流话语树3300。很长一段时间以来，无法证实这一主张，因此报道一遍又一遍地重复，以保持读者对它有一天会称为现实的期望。既没有确认也没有拒绝该档案的存在，并且作者的目标是在不歪曲事件的情况下让观众相信这样的档案存在。为了实现这一目标，作者可以将关于现有档案的多个假设性陈述附加到各种心理状态中，以使读者对该主题的真实性和有效性留下深刻印象。

如图32和图33所描绘的，许多修辞关联与心理状态相关联。心理状态非常复杂，以至于人类很难验证主要主张的正确性。交流话语树示出，作者正试图用复杂心理状态来替代将支持主张的逻辑链。仅仅通过查看图32和图33中描绘的CDT，而不阅读相关的文本，就足以看出论证线路是错误的。

处理激烈的论证

图34描绘了根据一方面的示例交流话语树。图34描绘了针对激烈论证的示例的交流话语树3400。具体而言，由交流话语树3400表示的以下文本说明了2007年美国运通(Amex)信用卡公司恶劣对待客户的激烈论证的CDT示例。交流话语树3400显示了情感概要。情感概要是附加到支持者(在本例中为“我”)和对手(在本例中为“Amex”)的指示的情感值。可以看出，支持者几乎总是为正，并且对手为负，这证实了这一投诉的论证流程。波动的情感值表明作者提供论证的方式存在问题。

文本被分成如下逻辑块：[I'm another one of the many][that has beencarelessly mistreated by American Express.](我是不小心被美国运通不公平对待的众多人中的另一个)[I have had my card since 2004and never late.](我从2004年开始拥有我的卡，从未逾期)[In 2008][they reduced my credit limit from$16,600to$6,000][citing several false excuses.](2008年，他们以几个虚假借口将我的信用额度从16,600美元降到6,000美元)[Only one of their excuses was true-other credit cardbalances.](他们的借口中只有一个是真的——其他信用卡余额)[They also increasedmy interest rate by 3％][at the same time.](同时，他们还将我的利率提高了3％)[Ihave never been so insulted by a credit card company.](我从未被信用卡公司如此侮辱过)[I used to have a credit score of 830,not anymore,thanks to theirunfair credit practices.](我曾经有830分的信用分数，现在没有了，这要归因于他们不公平的信用做法)[They screwed my credit score.](他们搞砸了我的信用评分)[Inthese bad economic times you'd think][they would appreciate consistent payingcustomers like us][but I guess][they are just so full of themselves.](在这个经济不景气的时代，你曾经认为他们会感谢像我们这样的稳定的付款客户，但我想他们只是太自以为是了)[I just read today][that their CEO stated][that they will behurt less than their competitors][because 80percent of their revenues][aregenerated from fees.That][explains their callous,arrogant,unacceptable creditpractices.](我今天刚读到，他们的CEO表示，他们受到的伤害会比他们的竞争对手小，因为他们80％的收入来自收费。这解释了他们无情、傲慢、不可接受的信贷做法)[It seems][they have to screw every cardholder][they can before the new law becomeseffective.](似乎他们必须在新法生效前搞垮所有持卡人)[Well America,let's learnfrom our appalling experience][and stop using our American Express creditcard][so we can pay it off！].(好吧，美国，让我们从我们令人震惊的经验中吸取教训，停止使用我们的美国运通信用卡，这样我们就可以还清它了！)

图35描绘了根据一方面的示例交流话语树。图35描绘了交流话语树3500，其表示建议应如何表现交流论证的文本：“When a person is in the middle of an argument,it can be easy to get caught up in the heat of the moment and say somethingthat makes the situation even worse.(当一个人处于论证之中时，很容易陷入激动的瞬间，说出一些使情况更加糟糕的话)。Nothing can make someone more frenzied andhysterical than telling them to calm down.(没有什么比告诉他们冷静下来更让人疯狂和歇斯底里的了)。It causes the other person to feel as if one is putting theblame for the elevation of the situation on them.(它使另一个人觉得好像有人将情况的升级归咎于他们)。Rather than actually helping them calm down,it comesoff as patronizing and will most likely make them even angrier.(这不是真正帮助他们平静下来，而是一种居高临下的态度，而且很可能会让他们更加愤怒)。”图35是元论证的示例。元论证是关于如何进行激烈论证的论证，可以用相同的修辞关联来表达。

使用机器学习模型来确定论证

如所讨论的，应用程序102可以检测文本中的论证。图36描绘了根据一方面的用于使用机器学习来确定论证的示例性过程。

在框3601处，过程3600涉及访问包括片段的文本。应用程序102可以来自不同来源的文本，如输入文本130，或基于互联网(如聊天、Twitter等)的来源。文本可以由片段、句子、段落或更长的量构成。

在框3602处，过程3600涉及从文本创建话语树，该话语树包括节点，并且每个非终止节点表示两个片段之间的修辞关系，并且话语树的节点中的每个终止节点与片段之一相关联。应用程序102以与过程1500中的框1502中描述的方式基本相似的方式创建话语。

在框3603处，过程3600涉及将具有动词的每个片段与动词签名进行匹配，从而创建交流话语树。应用程序102以与过程1500中的步骤1503-1505中描述的方式基本相似的方式创建话语。

在框3604处，过程3600涉及通过将被训练用于检测论证的分类模型应用于交流话语树来确定交流话语树是否包括论证。分类模型可以使用不同的学习方法。例如，分类模型可以使用带有树核学习的支持向量机。另外，分类模型可以使用最大共同子树的最近邻学习。

作为示例，应用程序102可以使用机器学习来确定在框3603处识别的交流话语树与来自交流话语树的训练集的一个或多个交流话语树之间的相似性。应用程序102可以从包括多个交流话语树的训练集中选择附加的交流话语树。训练可以基于与附加的交流话语树具有最高数量的相似性的交流话语树。应用程序102识别附加的交流话语树是来自正集还是负集。正集与包含论证的文本相关联，而负集与不包含论证的文本相关联。应用程序102基于该识别确定文本是包含论证还是不包含论证。

逻辑论证检测的评估

为了评估论证检测，从几个来源创建正数据集，使其不统一，并将不同的风格、体裁和论证类型挑选在一起。首先，我们使用了论证频繁的部分数据，例如来自诸如纽约时报(1400篇文章)、波士顿环球报(1150篇文章)、洛杉矶时报(2140篇)和其他(1200篇)等报纸的意见数据。还使用文本客户投诉。另外，还使用了文本风格和体裁识别数据集(Lee，2001)。该数据集具有与论证相关联的特定维度([ted]部分“Emotional speech on apolitical topic with an attempt to sound convincing[为使人信服而就政治话题发表的情绪性演讲]”)。并且最后，我们从标准的论证挖掘数据集中添加一些文本，其中论证的存在是由标注者确定的：“Fact and Feeling[事实与感觉]”数据集(Oraby等人，2015)，680篇文章，以及数据集“Argument annotated essays v.2[论证标注论文v.2]”(Stab和Gurevych，2016)，430篇文章。

对于负数据集，可以使用维基百科(3500篇文章)，事实新闻来源(路透社提要，3400篇文章，以及(Lee，2001)数据集，包括语料库的部分，如[tells](450篇文章)，“Instructions for how to use software[软件使用说明]”(320篇文章)；[tele]，“Instructions for how to use hardware[硬件使用说明]”(175篇文章)；[news]、“Apresentation of anews article in an objective,independent manner[以客观、独立的方式呈现新闻文章]”(220篇文章)，以及其他没有论证的混合数据集(735篇文章)。

正数据集和负数据集包括8800条文本。平均文本大小为400字(总是高于200且低于1000字)。根据受雇工作人员的说法，我们使用Amazon Mechanical Turk来确认正数据集包括常识性观点中的论证。十二名先前接受评分高于85％的工作人员被分配了标记任务。为了人工确认论证的存在和不存在，我们从每组中随机选择代表(约10％)，并确保它们正确地属于置信度高于95％的类。我们避免了这种置信度低于95％的来源。对于受到人工标记的第一部分文本，我们对标注者间的一致性进行了评定，并观察到它超过了90％。因此，对于其余的标注，我们每个文本依赖于单个工作人员。为了进行评估，我们以4:1的比例将数据集拆分为训练部分和测试部分。

特定论证模式数据集

这个论证数据集的目的是收集文本投诉，其中作者使用各种论证手段来证明他们是企业的受害者。客户投诉是充满情绪性的文本，其中包括他们在某些业务中遇到的问题的描述。从PlanetFeedback.com收集了2006-2010年提交的多家银行的原始投诉。关于以下与论证相关的参数，人工标记了四百条投诉：

·感知的投诉有效性，

·论证有效性

·特定论证行话的存在

·以及可检测的虚假陈述。

从投诉来看，大多数投诉人由于他们对服务的预期、他们收到的内容和交流方式之间存在很大差异而感到非常痛苦。大多数投诉作者报告了客户服务人员的不合格、有缺陷的政策、无知、对客户需求的不重视和虚假陈述。

作者经常用尽了他们可用的交流方式，感到困惑，寻求其他用户的推荐，并建议其他人避免使用特定的金融服务。投诉的重点是支持者是对的而她的对手是错的证明、解决方案提议和期望的结果。

投诉中使用了多种论证模式：

·最常见的情况是，所发生的与根据常识预期的不同。该模式涵盖有效论证和无效论证两者(有效模式)。

·第二种流行的论证模式提到了承诺(广告、传达)的内容与已收到或实际发生的内容之间的差异。这个模式还提到了对手不按规则行事(有效)。

·大量投诉明确表明银行代表在撒谎。撒谎包括不同银行代理提供的信息不一致、事实虚假陈述和粗心的承诺(有效)。

·出现投诉的另一个原因是银行代理和客户服务人员的粗鲁。客户在对手的观点有效或无效(并且相应地标记了投诉和论证的有效性)这两种情况下都提到了粗鲁。即使既没有经济损失也没有不便，但如果投诉人被粗鲁地服务，他们也不同意给定银行所做的一切(无效模式)。

·投诉人提到他们的需求作为银行应该以某些方式行事的原因。流行的论证是，既然政府经由纳税人担保了银行，他们现在应该支持客户(无效)。

与其他论证挖掘数据集相比，该数据集包括更多情绪激动的投诉。对于给定的主题，如资金费用不足，该数据集提供了许多不同的论证方式，即该费用不公平。因此，我们的数据集允许系统地探索与主题无关的论证模式群组，并观察论证类型与整体投诉有效性之间的联系。包括法律论证、学生论文(Stab和Gurevych 2017)、互联网论证语料库(Abbot等人，2016)、事实感觉数据集(Oraby等人，2016)和政治辩论的其他论证数据集的主题变化很大，因此很难跟踪每个主题的可能的论证模式的范围。与法律和政治领域的专业写作不同，投诉用户的真实写作具有简单的动机结构，其目的透明，并且发生在固定的领域和背景下。在本研究中使用的数据集中，这些论证对作者的福祉起着至关重要的作用，他们可能会被不公平地收取一大笔钱或被驱逐出家。因此，作者试图提供尽可能有力的论证来支持他们的主张并加强他们的情况。

如果投诉不真实，则通常是无效的：客户要么因为心情不好而投诉，要么她想得到补偿。然而，如果投诉是真实的，它也很容易无效，尤其是当论证有缺陷时。当不真实的投诉具有有效的论证模式时，标注者很难适当地将其分配为有效或无效。三个标注者处理该数据集，并且标注者之间的一致性超过80％。

评估设置和结果

对于最近邻分类，我们使用了针对DT方法的最大共同子图以及基于从文本中提取的CA构建的场景图的针对CA方法的最大共同子图(表5)。对于SVM TK分类，我们采用了解析树丛方法的树核学习，其中每个段落都由包括详尽的句法和话语信息的解析树丛表示。我们还使用了针对DT的SVM TK，其中不考虑CA信息。

我们的前基线方法系列基于关键字和关键字统计信息。对于朴素贝叶斯方法，我们依赖于WEKA框架(Hall等人，2009)。由于大多数词汇和基于长度的特征对于发现支持不足的论证是可靠的(Stab和Gurevych 2017)，我们使用非NER以及短语中可能表达论证的记号数一起作为特征。而且，使用了NER计数，因为它被认为与论证的强度相关。即使这些特征与论证密切相关，它们也无助于理解论证在语言中的结构和交流的性质，正如CDT所表达的那样。

一种朴素方法是只依赖关键字来找出论证的存在。通常，至少一个具有(与对手相关的)负面情感极性的一对交流动作就足以推断存在逻辑论证。这种朴素方法的表现优于表现最好的CDT方法29％。朴素贝叶斯分类器仅提供2％的改进。

可以观察到，对于最近邻学习，DT和CA确实是相互补充的，所提供的CDT的准确性比前者高26％，比后者高30％。仅CA提供的结果比单独的DT差(表6)。可以看出，CDT的SVMTK的表现优于针对RST+CA和完整句法特征(SVM TK基线)的SVM TK 5％。这是由于特征工程和依赖于较少数据但与基线更相关的数据。

针对CDT的最近邻学习实现略低于针对CDT的SVM TK的准确性，但前者给出了感兴趣的子树示例，这些示例典型地是针对论证的，并且是在事实数据之间共享的。前者的CDT子树组的数量自然要高得多。不幸的是，SVM TK方法无助于解释论证识别问题到底是如何求解的。它只给出了最终评分和类别标签。在没有CA的情况下表达逻辑论证是可能的，但很少见。这一观察得到了我们的数据的支持。

值得一提的是，我们的评估设置接近基于SVM的RST解析排名。这个问题被公式化为将DT分类为一组正确的树(接近人工标注的树)和错误的树。我们的设置有些不同，因为它们可以更好地被调整用于较小的数据集。注意，从DT到CDT的论证检测改进证明了我们通过言语行为相关信息对RST进行扩展的充分性。

表7示出了每个来源的SVM TK论证检测结果。作为正集，我们现在只取单个来源。负集由相同的来源形成，但尺寸有所减小以匹配较小正集的尺寸。交叉验证设置类似于我们对整个正集的评定。

我们没有发现特定领域的特殊性与话语级别的信息对论证检测准确性的贡献之间的相关性。同时，当我们从关键字和朴素贝叶斯到SVM TK时，所有这四个领域都显示出单调的改进。由于所有四个来源都证明了由于CDT的对论证检测率的提高，我们得出结论，其他论证相关信息来源也可能如此。

模式特定的论证检测结果如表8所示。我们计算了分类为特定模式与其他模式以及缺乏论证的准确性。第一种类型和第二种类型的论证更难识别(比一般论证低7％-10％)，第三种类型和第四种类型更容易检测(超过一般论证准确性3％)。

这些论证识别准确性可与最先进的论证挖掘技术相当。一项研究对包含128个前提结论对的文本进行了分析，并获得了63％-67％的F测量值(F-measure)，从而确定了论证中推理连接的方向性。参见Lawrence、John和Chris Reed.的Mining ArgumentativeStructure from Natural Language text using Automatically Generated Premise-Conclusion Topic Models[使用自动生成的前提-结论主题模型从自然语言文本中挖掘论证结构].Proceedings of the 4th Workshop on Argument Mining,pages 39-48.2017.(第4届论证挖掘研讨会论文集，第39-48页.2017年)。Bar-Haim等人表明通过初始词典的自动扩展，论证立场识别(什么支持主张和什么反对主张)的准确性和覆盖范围可以显著提高到69％的F测量值。参见Bar-Haim、Roy Lilach Edelstein、Charles Jochim和NoamSlonim.的Improving Claim Stance Classification with Lexical KnowledgeExpansion and Context Utilization[通过词汇知识扩展和上下文利用来改进主张立场分类].Proceedings of the 4th Workshop on Argument Mining,pages 32-28.2017.(第4届论证挖掘研讨会论文集，第32-38页.2017年)。Aker等人对不同的监督机器学习方法和特征集在论证挖掘任务上的性能进行比较分析，对于检测论证句子实现了81％的F测量值，并且对于论证结构预测任务实现59％。参见Aker、Ahmet、Alfred Sliwa、Yuan Ma、RuishenLiu Niravkumar Borad、Seyedeh Fatemeh Ziyaei、Mina Ghbadi的What works and whatdoes not:Classifier and feature analysis for argument mining[什么有效，什么无效：用于论证挖掘的分类器和特征分析].Proceedings of the 4th Workshop onArgument Mining,pages 91-96.2017.(第4届论证挖掘研讨会论文集，第91-96页.2017年)。关于将论证文本论证分割成论证单元及其非论证对应物，Ajjour等人使用Bi-LSTM对论文实现了88％，对社论实现了84％。参见Ajjour、Yamen、Wei-Fan Chen、JohannesKiesel、Henning Wachsmuth和Benno Stein.的Unit Segmentation of ArgumentativeTexts[论证文本的单元分割].Proceedings of the 4th Workshop on Argument Mining,pages 118-128,2017.(第4届论证挖掘研讨会论文集，第118-128页，2017年)。考虑到论证挖掘任务的复杂性，这些分类准确性与当前的研究相当，但缺乏经由话语级别的分析对论证因果关系的探索。因此，本研究提出了更直接的一般论证特征工程及其特定模式。

CDT构建

虽然拆分为EDU效果相当好，但RST关联的分配是有噪的，并且在某个领域其准确性可能低至50％。然而，当RST关联标签是随机的时，它不会显著降低我们的论证检测系统的性能，因为随机话语树与正或负训练集的元素不太相似，并且很可能不会参与正或负决策。为了克服有噪输入问题，需要更广泛的训练数据集，使得可靠、合理的话语树的数量足以覆盖要分类的案例。只要这个数字足够高，有噪的、不适当地构建的话语树的贡献就会很低。

与由话语解析器获得的正确、直观的话语树存在一定的系统偏差。在本节中，我们将评估CDT的偏差与我们的训练集之间是否存在相关性。我们允许有论证的文本的CDT偏差比没有论证的文本更强的可能性。

对于每个来源，我们计算了存在明显偏差的CDT的数量。出于该评定的目的，如果超过20％的修辞关联被不适当地确定，则我们认为CDT存在偏差。我们不区分与论证相关联的特定RST关联，如归因和对比。失真评估数据集明显小于检测数据集，因为需要大量的人工工作并且任务无法提交给Amazon Mechanical Turk的工作人员。

可以观察到，识别分类与CDT失真率之间没有明显的相关性(表9)。因此，我们得出结论，有噪CDT的训练集可以在论证检测方面得到充分评估。可以看出，这些有噪CDT与逻辑论证的存在之间存在很强的相关性。

情感

因为在任意领域进行可靠的情感检测都具有挑战性，所以我们专注于与情感相关的特定特征，如具有一定极性的逻辑论证。逻辑论证的检测可以有助于提高检测到情感检测的性能。我们在段落级别公式化情感检测问题。我们只检测情感极性。

基于各个单词对情感进行分类可能会被误导，因为原子情感载体可能基于词汇、话语或上下文因素而被修改(弱化、加强或反转)。单词相互影响产生表达级别的极性。例如，复合表达式的含义是其部分的含义和组合它们所按照的句法规则的函数。因此，考虑比RST所需的更多的语言学结构是促使我们组合各种话语分析模型的这些见解的原因。我们的假设是，可以以非常准确的方式将文本中较大句法元素的极性值计算为其子成分的极性的函数，其方式类似于形式语义中的‘组合性原则(principle of compositionality)’。换句话说，如果句子的含义是其部分的含义的函数，则该句子的全局极性是其部分的极性的函数。例如，我们可以将负面特质归于动词“reduce(降低)”，但在“reduce the risk(降低风险)”中为正极性，即使“risk(风险)”本身是负面的(参见“reduce productivity(降低生产力)”中的负面极性)。这种极性反转只有在我们将分析扩展到句子级别以外以计算整个文本的全局极性时才会被捕获。因此，任何极性冲突都可以基于文本和上下文因素作为文本的全局含义来解决。极性权重不是文本的单个元素的属性，而是在话语分析的句法、话语和语用级别潜在的衔接和连贯关联级别上运行的属性的函数。

许多研究表明，与话语相关的信息可以成功地提高情感分析的性能，例如，可以基于DT中的他们的关联类型或深度(Hogenboom等人，2015a)来重新权衡EDU的重要性。一些方法在某些阈值下对话语树进行修剪，以产生两到四级之间固定深度的树。其他方法基于作为输入特征的关联类型来训练机器学习分类器(Hogenboom等人，2015b)。大多数针对情感的RDST研究都试图将DT结构映射到数学上更简单的表示，因为在固定长度向量中编码任意复杂度的非结构化数据事实上是不可能的(Markle-HuB等人2017)。

图37是根据一方面的话语树的片段。图37描绘了话语树3700，该话语树表示以下文本。我们使用以下两个句子来表明核心成分-外围成分关联对于确定实体的情感确实很重要：[Although the camera worked well,][I could not use it because of theviewfinder](虽然相机运行良好，但由于取景器的问题，我无法使用它)，这代表了对相机的负面情感；以及[The camera worked well],[although the viewfinder wasinconvenient](相机运行良好，虽然取景器有些不便)，这代表了关于相机的正面情感。

为了评估情感检测，我们使用了正和负的真实和虚假旅行者对芝加哥地区酒店的评论的数据集。参见M.Ott、C.Cardie和J.T.Hancock.2013年.Negative DeceptiveOpinion Spam[负面的欺骗性意见垃圾邮件].In Proceedings of the 2013Conferenceof the North American Chapter of the Association for ComputationalLinguistics:Human Language Technologies.(计算语言学协会北美分会2013年会议论文集：人类语言技术)。作者编译数据集是为了区分真假评论。事实证明，评论的虚假性与逻辑论证的存在没有很强的相关性。由Mechanical Turn工作人员创建的虚假评论以与真实旅行者相同的方式支持作者的意见。测试语料库包含四组400条评论，每个1-3段。1)来自TripAdvisor的400条真实正面评论；2)来自Mechanical Turk的400条欺骗性正面评论；3)来自Expedia、Hotels.com、Orbitz、Priceline、TripAdvisor的400条真实负面评论；以及4)来自Mechanical Turk的400条欺骗性负面评论。

作为基线方法，我们使用斯坦福NLP情感。我们获得句子级别的极性并将其聚合到段落级别。通常，如果意见是正面的，则作者只会列举她喜欢的东西。然而，如果意见是负面的，则在许多情况下，作者会试图支持它，针对他为什么是对的以及他的评定是充分的进行比较、解释、论证。

因此，默认和基于论证的情感检测器的整合规则如下(表10)。该规则面向消费者评论数据，并且将需要修改以更好地处理其他文本体裁。

下面的案例是临界正面评论，它很容易被翻转为负面评论：“Like all hotels inChicago,this hotel caters to wealthy and/or business clients with very highparking price.(像芝加哥的所有酒店一样，这家酒店以非常高的停车价格迎合了富裕和/或商务客户的需求。)However,if you are aware of that prior to arrival,it’s nota big deal.(然而，如果你在抵达之前就意识到了这一点，那就不是什么大问题。)Itmakes sense to find a different place to park the car and bring your ownsnacks for the room.(找一个不同的地方停车，并将自己的零食带到房间也是可以的。)It would be nice though if hotels such as the Swissotel had a fridge in theroom for guest use.(不过如果像瑞士酒店这样的酒店在房间里有冰箱供客人使用就更好了。)Staff was very helpful.(工作人员非常乐于助人。)Overall,if I can get agood rate again,I'll stay at the Swissotel the next time I am in Chicago.(总的来说，如果我再次能得到好的价格，我下次来芝加哥的时候就会住在瑞士酒店。)”从DT的角度来看，该文本总体上看起来像是负面评论。大多数具有相似DT的评论都是负面的。

图38图示了根据一方面的针对临界评论的话语树。图38描绘了针对临界评论的话语树3800。从话语的角度来看，临界评论是负面的，而从读者的角度来看是中立的。

将组合性语义扩展到话语

让我们看看语义组合性模型如何评定第一句中的情感。参见R.Socher、A.Perelygin、J.Wu、J.Chuang、C.Manning、A.Ng和C.Potts.的Recursive Deep Models forSemantic Compositionality Over a Sentiment Treebank[情感树库上语义组合性的递归深度模型].Conference on Empirical Methods in Natural Language Processing(自然语言处理经验方法会议)(EMNLP 2013)。从各个单词及其构成来看，很难理解‘highprice(高的价格)’在这里具有负面情感值。在用于训练的电影数据库中，‘high(高)’被分配了正面情感，而‘high price(高的价格)’很可能没有被标记为负面的。即使‘high price(高的价格)’被识别为是负面的，也很难确定树的其余部分(如‘wealthy and/or businessclients(富裕和/或商务客户)’这一短语)会如何影响它。注意，在电影领域中，该短语的单词也没有被分配足够的情感。

考虑到其单词和措辞，很难单独确定这个句子的情感极性。相反，考虑到连续句子的话语，可以更准确地确定整体段落情感和给定句子的情感。

图39描绘了根据一方面的针对句子的话语树，示出了用于情感分析的组合语义方法。图39描绘了话语树3900。

我们指出，如果分析不仅捕获单词‘high’(分配有负面情感极性)、短语‘highprice’(具有负面情感极性)或句子级别的结构‘Like all....price’(其中情感极性难以确定，因为我们需要针对全局情感极性属性阅读整个文本)，则受益于‘组合语义’见解的情感分析将准确地分配以上示例中的极性情感。情感分析是基于全局极性计算的，不依赖于句子的单个元素，更有趣的是，依赖于话语级别的结构(宏观结构)。例如，“I want a carwith high reliability(我想要一辆高可靠性的汽车)”中的“high reliability(高可靠性)”是中立的，因为尽管它是正面属性，但它并不指代任何特定的汽车。

结果

基线系统(Socher等人，2013)在与测试领域不同的领域上进行训练，因为我们对情感检测的评估是与领域无关的。

混合组合语义和话语分析所实现的情感分析结果如表11所示。在第一行中，我们示出了基线系统在我们的数据上的准确性。在第二个灰色行中，我们示出了由混合系统的方法的改进。这一改进是在识别到存在论证的情况下通过在段落级别发现整体负面情感来实现的。在其中一些情况下，负面情感是隐含的，并且只能从各个单词并不表示负面情感的话语结构中间接地被检测到。

我们调查了具有各种表示(第三到第五行)的独立SVM TK情感识别系统。CDT表示的表现优于解析树丛表示和DT表示。对于完全不考虑话语级别的信息的更简单的表示，情感识别的准确性相当低(未示出)。

我们还探索了虚假意见文本是否具有与真实文本不同的修辞结构。参见Jindal和Liu的Opinion Spam and Analysis[意见垃圾邮件和分析]，Department of ComputerScience,University of Illinois at Chicago,2008.(伊利诺伊大学芝加哥分校计算机科学系，2008)。Jindal和Liu解决了破坏性意见垃圾邮件的检测问题：人类读者很容易识别的明显实例，例如广告、问题和其他不相关或非意见文本。(Ott等人调查了可能更隐蔽的意见垃圾邮件类型，如欺骗性意见垃圾邮件，这些被故意写成听起来是真实的以欺骗读者。参见M.Ott、Y.Choi、C.Cardie和J.T.Hancock.2011年.Finding Deceptive Opinion Spam byAny Stretch of the Imagination[通过任何想象力的展开发现欺骗性意见垃圾邮件].InProceedings of the 49th Annual Meeting of the Association for ComputationalLinguistics:Human Language Technologies.(计算语言学协会第49届年会论文集：人类语言技术)。虚假评论是由Amazon Mechanical Turk工作人员撰写的。指示要求工作人员假设他们受雇于酒店的营销部门，并假装他们被要求撰写虚假评论(就像他们是客户一样)以发布在旅行评论网站上；另外，评论需要听起来真实，并从正面的角度描述酒店。类似地完成负面评论请求。

虽然我们的SVM TK系统没有达到90％的性能，但检测虚假评论文本的任务是由通用文本分类系统(与提取论证和评定情感极性相同的系统)执行的(准确性为76％-77％，底部灰色的两行)。

论证的验证

本公开的各方面验证论证。为了令人信服，文本或话语包括有效论证。应用程序102从文本正文中提取论证结构，并经由交流话语树(CDT)表示论证。随后，应用程序102可以验证文本中的主张或目标主张是有效的，即，在逻辑上没有受到其他主张的攻击，并且与外部事实(即，规则)一致。可以借助领域知识来验证主张的有效性。然而，在一些情况下，领域知识可能不可用，而使用其他与领域无关的信息，如写作风格和写作逻辑。

某些方面支持诸如客户关系管理(CRM)等应用程序。CRM解决了处理客户投诉的问题(Galitsky和de la Rosa 2011)。在客户投诉中，作者对他们收到的产品或服务以及客户支持对问题的传达方式感到不满。投诉人经常用非常强烈的情感性语言来写投诉，这可能会扭曲论证的逻辑，并因此难以判断投诉的有效性。情感性和逻辑性两者的论证都被大量地使用。

为了促进改进的自主代理，某些方面使用基于语言学的论证挖掘和基于逻辑的论证逻辑验证。自动识别论证方案的概念首先在(Walton等人，2008)中进行了讨论。Ghosh等人(2014年)调查了一种特定类型的交流的论证话语结构——在线互动线程。识别文本中的论证与识别web上的真实信息、错误信息和虚假信息的问题相连接(Pendyala和Figueira，2015，Galitsky 2015，Pisarevskaya等人2015)。在(Lawrence和Reed,2015)中，组合了三种类型的论证结构识别：语言学特征、主题变化和机器学习。如本文进一步解释的，一些方面结合交流话语树使用可废止逻辑编程(DeLP)(García和Simari,2004；Alsinet等人，2008)。

图40描绘了根据一方面的用于验证论证的示例性过程4000。应用程序102可以执行过程4000。

在框4001处，过程4000涉及访问包括片段的文本。在框4001处，过程4000执行与过程3600的框3601中描述的基本相似的步骤。文本可以包括输入文本130，其可以是段落、句子、话语或其他文本。

在框4002处，过程4000涉及通过从文本创建交流话语树并将被训练用于检测论证的分类模型应用于交流话语树来识别文本子集中的论证存在。在框4002处，过程4000执行与过程3600的框3602-3604中描述的基本相似的步骤。可以使用其他论证检测方法。

在框4003处，过程4000涉及通过使用逻辑系统来评估论证。应用程序102可以使用不同类型的逻辑系统来评估论证。例如，可以使用可废止逻辑编程(DeLP)。图42描绘了可以实施框4003的示例性操作。为了说明性目的，关于图41讨论了过程4000。

图41描绘了根据一方面的针对论证的示例性交流话语树。图41包括交流话语树4101。交流话语树4101包括节点4120和其他节点，其中一些节点用交流动作4110-4117标记。

在示例中，法官审理了一起驱逐案例，并希望做出判断是否可以证明租金是已支付(存入)还是未支付(表示为rent_receipt)。输入是被告表达其观点的文本。CDT 4101表示以下文本：“The landlord contacted me,the tenant,and the rent wasrequested.However,I refused the rent since I demanded repair to be done.Ireminded the landlord about necessary repairs,but the landlord issued thethree-day notice confirming that the rent was overdue.Regretfully,theproperty still stayed unrepaired.(房东联系了我，即租户，并要求租金。然而，我拒绝了租金，因为我要求进行维修。我提醒房东进行必要的维修，但房东发出了限期三天的通知，确认租金已经逾期。遗憾的是，该房产仍然没有得到维修。)”

图42描绘了根据一方面的用于使用可废止逻辑编程来验证论证的示例性方法。可废止逻辑编程(DeLP)是形式为(A:-B)的一组事实严格的规则Π，以及形式为A-<B的一组可废止规则Δ，其本意是“如果B是这种情况，那么通常A也是这种情况”令P＝(Π,Δ)是DeLP程序，并且L是基础文字。严格的规则不能改变，即使是基于意见的。相反，可废止规则在一些情况下可能是错误的。

在以上示例中，带下划线的单词构成了DeLP中的从句，而其他表达式可以构成事实。事实的示例是“rent_refused”，即，房东拒绝租金。严格规则的示例是“the earth isflat(地球是平的)”。可废止规则的示例是“rent_receipt-<rent_deposit_transaction”，这意味着，通常如果“rent_deposit_transaction”，则“rent_receipt”(收到租金)。但可废止规则可能并不总是正确的，例如，在如果租金存入错误的账户或银行出现错误的情况下。

应用程序102可以使用来自在框4002处开发的交流话语树的结果作为DeLP的输入。交流话语树指示有价值的信息，如事实如何通过可废止规则相互连接。CDT中的修辞关联类型为“对比”并且交流动作类型为“不同意”的基本话语单元指示可废止规则。

在框4201处，方法4200涉及创建逻辑系统的固定部分。逻辑系统的固定部分包括一个或多个主张项和一个或多个领域定义从句。领域定义从句与文本的领域相关联，并且可以包括特定领域中的法律、科学术语和常识知识。一个科学的示例是“if a physicalbody is moving with acceleration,it is subject to a physical force(如果物体在加速移动，则它就会受到物理力的影响)。”在房东-租户法领域，标准定义的示例是：“ifrepair is done->home is habitable and appliances are working(如果维修完成->房屋适合居住并且电器正常工作)。”

继续以上示例，文本包含要评估的目标主张“rent_receipt”，即“was the rentreceived？”应用程序102还从文本“refused the rent since I demanded repair to bedone”中提取了以下从句“repair_is_done-<rent_refused”。

在框4202处，方法4200涉及通过确定一组可废止规则和一组事实来创建逻辑系统的可变部分。应用程序102通过从交流话语树中提取以下一项或多项来从交流话语树中确定一组可废止规则：(i)为修辞关联类型对比的基本话语单元，以及(ii)分类类型为不同意的交流动作。不同意类包括诸如“否认”、“有不同意见”、“不相信”、“拒绝相信”、“矛盾”、“分歧”、“偏离”、“反驳”、“不同”、“异议”、“不一样”等行为。其他示例也是可能的。

应用程序102确定以下可废止规则：rent_receipt-<

rent_deposit_transaction，

rent_deposit_transaction-<contact_tenant.

rent_deposit_transaction-<contact_tenant，three_days_notice_is_issued.

rent_deposit_transaction-<rent_is_overdue.

repair_is_done-<rent_refused，repair_is_done.

repair_is_done-<rent_is_requested.

rent_deposit_transaction-<tenant_short_on_money，repair_is_done.

repair_is_done-<repair_is_requested.

repair_is_done-<rent_is_requested.

repair_is_requested-<stay_unrepaired.

repair_is_done-<stay_unrepaired.

另外，应用程序102从类型为“不同意”的交流动作中确定附加事实。继续该示例，并返回参考图41，应用程序102从CDT的交流动作的主语中确定以下事实：contact_tenant(交流动作4111)、rent_is_requested(交流动作4112)、rent_refused(交流动作4113)、stay_unrepaired(交流动作4114)、remind_about_repair(交流动作4115)、three_days_notice_is_issued(交流动作4116)和rent_is_overdue(交流动作4117)。

在框4203处，方法4200涉及从该组可废止规则确定包括一组非矛盾可废止规则的可废止推导。L从P的可废止推导由基础文字的有限序列L₁，L²，...，L_n＝L构成，使得每个文字L_i是在序列中，因为：(a)L_i是Π中的事实，或(b)具有开头L_i和正文B₁，B₂，...，B_k的P中存在规则R_i(严格或可废止的)，并且正文的每个文字都是序列中出现在L_j(j＜i)之前的元素L_j。令h为文字，且P＝(Π，Δ)DeLP程序。如果A是一组可废止规则Δ使得以下条件成立，则我们说<A，h>是针对h的论证：

1.从＝(Π∪A)，存在针对h的可废止推导；

2.集合(Π∪A)是非矛盾的；并且

3.A是最小的：不存在A的适当子集A₀使得A₀满足条件(1)和(2)。

因此，论证<A，h>是从针对与程序P相关联的给定文字h的可废止推导中获得的最小非矛盾的一组可废止规则。如上所述，最小子集意味着不存在满足条件1和2的子集。

在框4204处，方法4200涉及从该组事实创建一个或多个反击者(defeater)论证。反击者是可以反过来被其他论证攻击的论证，就像人类对话中的情况一样。论证线(argumentation line)是一系列论证，其中，序列中的每个元素都反对了它的前者。在DeLP的情况下，为了避免谬误(如通过重复相同的论证两次的循环推理)，论证线有许多可接受性要求。

反对者论证可以通过以下方式形成。例如，当且仅当存在<A₂，h₂>的子论证<A，h>

使得h和h₁不一致(即，Π∪{h，h₁}推导互补文字)时，论证<A₁，h₁>才攻击<A₂，h₂>。如果在子论证<A，h>和<A₁，h₁>下<A₁，h₁>攻击<A₂，h₂>严格好于(不相当于)<A，h>，则我们会说<A₁，h₁>反击了<A₂，h₂>。在第一种情况下，我们将<A₁，h₁>称为恰当反击者(properdefeater)，而在第二种情况下，它将是阻碍反击者(blocking defeater)。

在框4205处，方法4200涉及从可废止推导中构造辩证树，该辩证树包括表示论证的根节点和表示反击者论证的叶节点。可以将目标主张视为根据辩证树求解的DeLP查询，该辩证树包含给定查询的所有可能论证线。辩证树的定义为我们提供了发现用户主张中隐含的自攻击关联的算法视图。令<A₀，h₀>是来自程序P的论证(目标主张)。为了讨论的目的，关于图43讨论了框4205。

图43描绘了根据一方面的示例性辩证树。图43描绘了上面开发的文本的辩证树。图43包括辩证树4300，该辩证树包括根节点4301和节点4302-4307。辩证树4300是基于<A₀，h₀>，其定义如下：

1.树的根(根节点4301)标记为<A₀，h₀>

2.令N为标记有<A_n，h_n>的树的非根顶点，并且Λ＝[<A₀，h₀>，<A₁，h₁>，...，<A_n，h_n>](从根到N的路径的标签序列)。令[<B₀，q₀>，<B₁，q₁>，...，<B_k，q_k>]全部都攻击<A_n，h_n>。对于具有可接受的论证线[Λ，<B_i，q_i>]的每个攻击者<B_i，q_i>，我们在N与其子代N_i之间有一条弧。

然后可以按如下方式对辩证树进行标记：

1.所有叶(节点4302-4307)都将被标记为U节点(未被击败的节点)。

2.每当其所有相关联的子代节点都被标记为D节点时，任何内部节点都将被标记为U节点。

3.每当其相关联子代节点中的至少一个被标记为U节点时，任何内部节点都将被标记为D节点。

在框4206处，方法4200涉及通过递归地评估反击者论证来评估辩证树。

在DeLP示例中，文字rent_receipt由<A，rent_receipt>＝<{(rent_receipt-<rent_deposit_transaction)，(rent_deposit_transaction-<tenant_short_on_money)}，rent_receipt>支持并且针对其存在三个反击者，具有三个相应的论证线：

(1)

(2)

(3)

(1)和(2)是恰当反击者，最后一个是阻碍反击者。观察到第一个论证结构有相反的论证，<{rent_deposit_transaction-<

tenant_short_on_money}，

rent_deposit_transaction)，

但它不是反击者，因为前者更具体。因此，不存在反击者，并且论证线就到此为止。

上面的B₃具有阻碍反击者<{(rent_deposit_transaction-<tenant_short_on_money)}，rent_deposit_transaction>，

这是<A，rent_receipt>的不一致子论证，并且它不能被引入，因为它会引起不可接受的论证线。B₂有两个可以引入的反击者：

其中，

恰当反击者，以及

其中，

是阻碍反击者。因此，其中一条线进一步分为两个；C₁具有可以引入线

中的阻碍反击者，其中，

D₁和C₂具有阻碍反击者，但它们不能被引入，因为它们使论证线不可接受。因此，无法达到状态rent_receipt，因为支持文字rent_receipt的论证是没有根据的。

在框4207处，方法4200涉及响应于确定没有一个反击者论证与可废止推导相矛盾，将由论证支持的主张识别为有效。不存在矛盾论证的确定指示主张是有效的，而存在矛盾论证的确定指示主张是无效的。修辞分类102然后可以基于验证执行动作，例如基于主张的有效性向用户设备提供不同的回答。

论证验证结果

论证验证是基于论证检测(通过语言学手段)和之后验证(逻辑手段)进行评估的。形成了从Landlord vs Tenant(2018)中抓取的623个法律案例的数据集。该网站每年都会提供700多份近期房东-租户法庭案例和机构决定的摘要。Landlord v.Tenant涵盖十多个法庭和机构，包括纽约市民事法庭、纽约州房屋和社区重建部(DHCR)、纽约市环境控制委员会等等。该网站允许用户访问其可追溯到1993年的动态案例数据库和纽约Landlordv.Tenant通讯档案，并可以搜索指定的案例摘要。全文案例决定和意见书也可从该来源获得。

一个典型的案例摘要如下：“Tenants complained of a reduction inbuilding-wide services.(租户们抱怨全楼的服务减少。)They said that the buildingsuper didn’t make needed repairs as requested and that landlord had refusedto perform repairs in their apartment.(他们说，大楼管理员没有按照要求进行必要的维修，而且房东拒绝对他们的公寓进行维修。)They also complained about buildingaccessibility issues.(他们还抱怨了大楼的无障碍问题。)Among other things,thebuilding side door walkway was reconstructed and made narrower.(除其他事项外，大楼侧门的走道被重建并变得更窄。)This made it hard to navigate a wheelchairthrough that doorway.(这使得很难导航轮椅通过该门道。)The DRA ruled againsttenants,who appealed and lost.(DRA反对租户裁定，租户上诉后败诉。)”

首先，我们提取包含论证的句子，然后试图从DeLP本体中找到所传达的主张。以上示例中要验证的主张是repair_is_done。然后，我们对该主张进行验证。我们从审理该案的法官分配的网页上标签中获得主张的有效性值，如rent_reduction_denied。下面的表12示出了与房东与租户案例文本中的论证交流的评估结果。

对于论证检测任务，我们使用这个landlord vs tenant作为正训练集。作为负数据集，我们使用各种文本源，这些文本源既不包含论证也不包含意见数据。我们使用了维基百科、事实新闻来源，以及(Lee，2001)数据集的组成部分，其中包括以下语料库部分：[‘tells’]，软件使用说明；[‘tele’]，硬件使用说明；以及[news]，以客观、独立的方式呈现新闻文章；等等。(Galitsky等人2018和第10章)中提供了有关负面无论证数据集的进一步细节。

基线论证检测方法依赖于关键字和句法特征来检测论证(表13.8)。通常，一对协调的交流动作(因此至少一个具有与对手相关的负面情感极性)暗示了存在逻辑论证。这种朴素方法的表现优于表现最好的TK学习CDT方法29％。CDT的SVM TK的表现优于针对RST+CA和RST+完整解析树的SVM TK(Galitsky，2017)约5％，这是因为有噪句法数据对于论证检测来说经常是冗余的。

SVM TK方法提供了可接受的F测量值，但无助于解释情感论证识别问题到底是如何求解的，而仅提供了最终评分和分类标签。在这方面，最近邻最大共同子图算法更有成效(Galitsky等人，2015)。比较底部的两行，我们观察到在没有CA的情况下表达情感论证是可能的，但很少见。

评定从文本中提取的逻辑论证，我们对作者提供无效、不一致、自相矛盾的案例感兴趣。这对于作为专注于客户保留和促进与客户的交流的CRM系统的前端的聊天机器人非常重要(Galitsky等人，2009年)。选择住宅房地产投诉领域，并为该领域建立了DeLP词库。自动化投诉处理系统例如对于物业管理公司的决策支持过程可能是至关重要的(Constantinos等人，2003)。

在我们的有效性评定中，我们专注于与需要如何处理给定投诉相关的目标特征，如compensation_required、proceed_with_eviction、rent_receipt等。

有效性评定结果在表13中示出。在第一行和第二行中，我们分别示出了包含单个修辞关联(如对比)的最简单的投诉的结果和指示提取的论证攻击关联的单个CA的最简单的投诉的结果。在第三行和第四行中，我们相应地示出了具有两个非默认修辞关联和不同意类型的两个CA的法律案例的验证结果。在第五行，我们评定平均复杂性的投诉，并且在最下面一行，我们评定根据其CDT评定最复杂、最长的投诉。第三列示出了在独立论证验证系统中对投诉中无效论证的检测准确性。最后，第四列示出了集成的论证提取和验证系统的准确性。

在我们的有效性评定中，我们专注于与需要发布什么样的判决相关的目标特征(主张)，如compensation_required、proceed_with_eviction、rent_receipt等。系统决策由已识别的主张是否得到验证来确定：如果其得到验证，则判决支持该主张，如果未得到验证，则决定反对该主张。

在这些结果中，召回率很低，因为在大多数情况下，主张的无效性是由于自我击败以外的因素造成的。精确率相对较高，因为如果确立了论证中的逻辑缺陷，则很可能整个主张是无效的，因为论证之外的其他因素(如虚假事实)也有贡献。随着投诉的复杂性及其话语树的增长，F1首先会提高，因为有更多的逻辑术语可用，然后又会下降，因为由于输入噪声越大，推理错误的机会越高。

对于决策支持系统，保持低假阳性率很重要。错过无效投诉是可以接受的，但对于检测到的无效投诉，置信度应该相当高。如果推荐人类代理将给定的投诉视为无效，则大多数时候应该满足她的预期。尽管与现代识别系统相比，整个论证检测和验证系统的F1测量值较低，但仍被认为可用作CRM决策支持系统的组成部分。

句法泛化

本文讨论的一些技术，包括改进的话语解析器，可以使用句法泛化。执行两个句子的句法泛化涉及识别每个句子中的单词和/或每个句子中的相同词性(POS)。词元是指没有相关词性信息的单词。如果两个单词的词元不同但每个单词的词性相同，则词性是泛化结果的一部分。如果词元相同但词性不同，则词元是泛化结果的一部分。

为了说明这个概念，考虑两个自然语言表达的示例。表达的含义由逻辑公式表示。构建了这些公式的合一和反合一。一些单词(实体)被映射到谓词，一些被映射到其论证中，还有一些其他单词没有显式地出现在逻辑形式表示中，而是指示以上带有论证的谓词实例化。

考虑以下两个句子“数字变焦相机”和“面向初学者的变焦相机”。为了表达含义，使用了以下逻辑谓词：

camera(name_of_feature,type_of_users)和

zoom(type_of_zoom)。

注意，这是简化的示例，并且因此与更典型的示例相比，可能具有减少的论证数量。

继续该示例，上述表达可以表示为：

camera(zoom(digital),AnyUser)

camera(zoom(AnyZoom),beginner)

根据记法，变量(未实例化的值，未在NL表达中指定)大写。给定以上公式对，合一计算其最一般特化(specialization)：camera(zoom(digital),beginner)，并且反合一计算其最具体泛化：camera(zoom(AnyZoom),AnyUser)。

在句法级别上，这些表达受制于两个名词短语的泛化(‘^’)，如：{NN-camera,PRP-with,[digital],NN-zoom[for beginners]}。方括号中的表达被删除，因为其出现在一个表达中，但没有出现在另一个表达中。因此，获得{NN-camera,PRP-with,NN-zoom]}，得到了语义泛化的句法类比。

抽象泛化的目的是在不同语义级别寻找文本的各部分之间的共性。泛化操作发生在一个或多个级别上。级别的示例为段落级别、句子级别、短语级别和单词级别。

在每一级别(单词级别除外)，各个单词、两个表达的泛化结果是表达集合。在这种集合中，对于每一对表达，使得一个比另一个概括性更低，后者被消除。两个表达集合的泛化是多个集合中的集合，该集合是这些表达成对泛化的结果。

一对单词仅存在单个泛化：如果单词在相同形式中相同，则结果是在该形式中的带有该单词的节点。为了涉及word2vec模型，使用以下规则计算两个不同单词的泛化。如果subject1＝subject2，则subject1^subject2＝<subject1,POS(subject1),1>。否则，如果他们的词性相同，则subject1^subject2＝<*,POS(subject1),word2vecDistance(subject1^subject2)>。如果词性不同，则泛化是空元组。无法进一步泛化。

对于一对短语，泛化包括短语中单词的所有最大有序泛化节点集合，使得保留了单词的顺序。在以下示例中，

“To buy digital camera today,on Monday.(今天，星期一，买数字相机。)”

“Digital camera was a good buy today,first Monday of the month.(数字相机在今天，本月的第一个星期一，是很划算的购买物。)”

泛化为{<JJ-digital,NN-camera>,<NN-today,ADV,Monday>}，其中名词短语的泛化之后是副词短语的泛化。动词buy(买)被排除在两个泛化之外，因为该动词在上述短语中以不同的顺序出现。buy-digital-camera(买-数字-相机)不是泛化短语，因为buy(买)与其他泛化节点的出现顺序不同。

改进的话语解析器

某些方面涉及改进的话语解析器。预测两个句子之间的修辞关联是话语解析以及文本分割(将句子拆分成基本话语单元)的目标。虽然可以将文档分析为分层话语结构的序列，但话语连贯性的问题是修辞关联如何由源文本用信号通知(并且可以由解析器识别)。例如，修辞关联通常由诸如and(以及)、because(因为)、however(然而)和while(虽然)等话语标记来用信号通知，如果关联包含这样的标记，则它们有时会被分类为显式关联。话语标记是连贯关联的可靠信号。

但是现有的话语解析器使用机器学习方法和可能难以扩展且扩展耗时的数据集。话语关联预测的任务本来已经很复杂，而扩展这些带标注的数据集的耗时性质使这一任务更加复合。因此，许多可用的话语解析器在其他更具描述性的修辞关联更合适的情况下分配阐述和连接关联。因此，建立其他更具体的修辞关联的召回率可能相对较低。

但是现有的话语解析器可以通过对话语树进行附加分析(例如语义分析)并相应地调整话语树来改进。在下面讨论的示例中，将话语解析器应用于文本，并且如果可用的话，可以用通过使用语义分析(例如，抽象意义表示)模式获得的更合适的修辞关联来替换任何产生的阐述或连接修辞关联。一般来说，这种方法适用于句子内的修辞关联。

图44描绘了根据一方面的话语树和语义树。图44描绘了话语树4400和语义树4410。

话语树4400和语义树4410各自表示以下文本：“It was a question of life ordeath for me:(对我来说，这是一个生或死的问题：)I had scarcely enough drinkingwater to last aweek.(我几乎没有足够的饮用水维持一个星期。)”

话语树4410以基于文本的形式表示如下(缩进是指树中的嵌套级别)：

阐述

文本：It was a question of life or death for me:

阐述

文本：I had scarcely enough drinking water

文本：to last a week。

从话语树4410可以看出，由话语解析器生成的与“I had scarcely enoughdrinking water”和“to last a week”相关的第二个阐述关联4412相对于文本而言不是如可能的那么准确，因为“to last a week”不仅仅是对“I had scarcely enough drinkingwater”的阐述。这可以通过利用语义树4420中的AMR关联来改进。语义树4410也在下面以基于文本的形式示出：

如在语义树4420中可以看到的，标识为关联4422的语义关联目的具有与标识为角色4424的动词drink相关的语义角色。可以识别在话语树4400中有drink的核心成分EDU(“Ihad scarcely enough drinking water”)，因为话语树4410和语义树4420具有共同的实体——“drink”。

话语树与语义树模板之间的共同实体的数量越高，用于改善修辞关联的匹配度就越好。继续该示例，识别外围成分EDU(“to last a week”)并将其与修辞关联阐述相链接。最后，用目的代替阐述，以获得更准确的话语树。该链接示出为链接4430。

在某些情况下，例如在缺少话语标记、话语标记模糊或具有误导性、或者句子的更深层次语义表示(如AMR)暗示了特定修辞关联时，利用语义信息可以改进话语树。一旦在被解析的文本与AMR模式之间建立了句法相似性，来自AMR动词的语义角色就可以在话语级别被解释为相应的修辞关联。AMR中的语义关联与特定修辞关联之间的这种映射是与连接成分、核心成分和外围成分EDU的连接方式无关地建立的。

AMR语义关联与修辞关联之间的映射是作为对可用AMR标注的人工泛化的结果而开发的，如下表14所示。表14图示了语义角色和对应的修辞关联的示例。在表14中，第一列列举了要检测的修辞关联。第二列表示被映射到修辞关联的AMR语义关联。第三列提供了将要与被修辞解析的句子再次匹配的例句。第四列示出了模板的AMR解析。

为了创建可以离线执行(例如，在运行时之前)的修辞关联到语义角色的这种映射，考虑修辞关联列表。对于每个修辞关联，确定特定语义关联的AMR标注集合。一旦识别出系统相关性，就会创建由表14中的条目表示的对应映射。表14图示了由AMR示例透彻地表示的修辞关联。

下面的表15提供了已细化话语树的示例，其中阐述变成了具体关联。建立并细化了模板。模板以粗体示出了检测到的修辞关联方式。第二个示例示出了实际的细化，其中通过从底部第二行开始应用该模板而将阐述变成了让步。还示出了该模板与句子之间的句法泛化。

为了将阐述修辞关联替换为人工标记AMR所获得的修辞关联，在该阐述的核心成分和外围成分的基本话语单元与模板之间建立了句法相似性。如果这种相似性很高(来自AMR数据集的模式被解析)，则可以以高置信度重写阐述。句法相似性评分越高，从模式中获得的语义角色精确描述修辞关联的置信度就越高。在没有足够的AMR模式数据和到修辞关联数据的广泛映射的情况下，这种映射的正式学习是困难的。因此，使用该相似性评分的阈值。

表16示出了词汇、句法和语义与修辞关联相关的共现值(co-occurrence value)和百分比。这些数据有助于提高“and”和“as”的评分(通常在句法泛化时被忽略)，并且but、while、however、because通常评分很低。

使用语义关联和角色来改善修辞关联的另一个示例在图45中示出。

图45描绘了根据一方面的话语树和语义树。图45描绘了话语树4510和语义树4520。话语树4510表示文本“I ate the most wonderful hamburger that she had everbought for me.(我吃了她为我买过的最完美的汉堡包)”。语义树4520不表示与话语树4510相同的文本。相反，语义树4520表示与话语树4510的文本适当匹配并且可以被用于改进话语树4510的模板文本。

话语树4510以以下文本形式表示：

阐述

文本：I ate the most wonderful hamburger

文本：that she had ever bought for me.

从话语树4510可以看出，这两个基本话语单元“I ate the most wonderfulhamburger”和“that she had ever bought for me.”通过修辞关联“阐述”连接。因此，话语树4510是很好的改进候选项，因为“阐述”可能不是最准确的修辞关联。

compared-to的AMR语义角色映射到比较的修辞关联。如果具有默认修辞关联的EDU对与具有可以被映射到修辞关联的特定语义关联的模板在语义上相似，则默认话语解析提供了可以转换为更准确的修辞关联的阐述。为了在句子中的EDU之间建立准确的修辞关系，试图与在一组语义模板(例如，AMR存储库)中找到的模板进行匹配。匹配的模板是针对句子“It was the most magnificent and stately planet that he had ever seen.(这是他见过的最宏伟、最庄严的星球。)”

为了将被解析的EDU对与模板进行匹配，将EDU和模板进行对齐和泛化。在这种情况下，EDU对与模板之间的句法泛化如下：[VB-*DT-the RBS-most JJ-(wonderful^magnificent)IN-that PRP-she VB-had RB-ever VB-*]，使得有重要的证据表明被解析的句子和模式共享共同的句法结构。例如，wonderful^magnificent产生抽象形容词，其含义表示这些形容词之间的共同点。连接4530示出了AMR表示中的形容词magnificent与原始DT中的形容词wonderful之间的对应性。

因此，话语树4500中的阐述被替换为“比较”类型的修辞关联。校正后的话语树如下：

比较

文本：I ate the most wonderful hamburger

文本：that she had ever bought for me.

在以上示例的基础上，进一步描述了改进话语树的过程。

图46是根据一方面的用于生成改进的话语树的示例性过程4600的流程图。应当理解，在一些情况下，可能不执行过程4600中的一个或多个操作。过程4600可以由应用程序102执行。

在框4602处，过程4600涉及通过识别文本中的基本话语单元从文本创建话语树。在框4602处，过程4600涉及与过程1500的框1502基本相似的操作。所确定的话语树包括节点。节点中的每个非终止节点表示两个基本话语单元之间的修辞关系，并且话语树的节点中的每个终止节点与基本话语单元相关联。

在框4604处，过程4600涉及在话语树中识别类型为阐述或连接的修辞关联。修辞关联涉及两个基本话语单元，例如，第一基本话语单元和第二基本话语单元(而不是涉及两个其他修辞关联或者一个修辞关联和一个基本话语单元)。

第一基本话语单元和第二基本话语单元一起形成参考句子。例如，返回参考图45，第一个EDU是“I ate the most wonderful hamburger”，并且第二个EDU是“that she hadever bought for me”，并且修辞关联(更新之前)是“阐述”。

在框4606处，过程4600涉及为一组候选句子中的每个候选句子确定句法泛化评分。如以上在表14和15中所描述的，每个候选句子具有对应的语义关联(例如，AMR表示)。在简化的示例中，句法泛化评分是参考句子与候选句子之间的共同实体的数量。这些共同实体中的每一个在候选句子与参考句子之间共享共同的词性。但是可以在其他方面不同地计算句法泛化评分，如下所述。

抽象泛化的目的是在不同语义级别寻找文本的各部分之间的共性。可以在段落、句子、EDU、短语和单个单词的级别上进行泛化。除了单词级别之外，两个表达的泛化结果是表达集合。在这种集合中，对于每一对表达，如果一个表达的概括性低于另一个表达，则后者被消除。两个表达集合的泛化是多个表达集合中的集合，该集合是这些表达成对泛化的结果。出于示例目的，关于图示了泛化的图47和图示了对齐的图48讨论了图46。

图47描绘了根据一方面的句子和具有已知语义关联的模板的泛化。图47示出了“If you read a book at night,your knowledge will improve(如果你在晚上看书，你的知识就会提高)”的句子泛化4710，以及来自表14的“If one gets lost in the night,such knowledge is valuable”的模板4720。所得的泛化4730如下：

[IN-If PRP-*VB-*...NN-night...NN-knowledge]

虽然在该模板中IN-If PRP-*VB-*是:condition()的语义关联以及Condition的话语关联的签名，但恰好有一些比较常见的单词，比如“NN-night...NN-knowledge”，其可能会或可能不会用于建立句子与模板之间的相似性。

为了确定如何计算适当的泛化评分，进行了一项确定词性权重的计算研究，以提供句子之间最准确的相似性度量。该问题被公式化为找到名词、形容词、动词及其形式(如动名词和过去时)的最佳权重，以使由此产生的搜索相关性最大。搜索相关性被衡量为搜索结果顺序与给定查询的最佳结果的偏差；当前搜索顺序是基于给定POS权重集的泛化评分来确定的(固定其他泛化参数)。由于执行此优化，获得W_NN＝1.0，W_JJ＝0.32，W_RB＝0.71，W_CD＝0.64，W_VB＝0.83，W_PRP＝0.35，不包括常见的频繁动词，如get、take、set和put，对于这些动词，W_VBcommon＝0.57。W_<POS,*>设置为0.2(不同的单词但相同的POS)，并且W_<*,word>＝0.3(相同的单词但在两个句子中作为不同的POS出现)，W_{{and,as,but,while,however,because}}被计算作为针对表16第二列中的值标准化的默认值1。注意，默认句法泛化大多忽略了话语提示词。

参考句子(ref_sentence)与候选模板(Template)之间的泛化评分，然后可以表示为单词Wword_{ref_sentence}和word_template的加权和的短语的总和：

score(ref_sentence，template)＝∑_{NP，VP，._..}∑W_POSword_generalization(word_{ref_sentence}，word_templae).

然后可以将最大泛化定义为具有最高评分的泛化。

在短语级别，泛化从找到两个短语之间的对齐开始(两个短语之间尽可能多的单词对应)。执行对齐操作以保持短语完整性。例如，两个短语只有在它们的头部名词之间的对应性建立时才能被对齐。对于动词、介词和其他类型的短语的对齐，也有类似的完整性约束。

图48描绘了根据一方面的两个句子之间的对齐。图48描绘了句子4810“use thescrew driver from this tool for fixing heaters(使用这个工具的螺丝刀来固定加热器)”与句子4820“get short screw driver holder for electric heaters(为电加热器获得短的螺丝刀架)”之间的对齐。所得的对齐4830如下：

VB-*JJ-*NN-zoom NN-*IN-for NN-*

在一方面，可以使用核心成分和外围成分的单独泛化来生成改进的话语树。例如，在过程4600的框4602中创建了话语树。从话语树中识别出修辞关联。确定合适的修辞关联。合适的修辞关联的示例包括阐述和连接的最内层关联，以及嵌套关联(Elaboration overanother Elaboration[over another Elaboration](对[另一个阐述的]另一个阐述的阐述))。

识别出核心成分EDU和外围成分EDU。如果它们太复杂或太长，则可以减小这些EDU的大小和/或复杂性。核心成分EDU用每个模板进行泛化(例如，表14和/或15)。与框4608一样，选择具有最高泛化评分的候选句子。如果评分高于阈值，则用模板泛化与修辞关联相对应的外围成分EDU。如果外围成分EDU的泛化评分高于阈值，则使用修辞关联来代替参考句子中的修辞关联。泛化阈值的示例是2.0(对于核心成分)和3.3(对于外围成分)。

返回图46，在框4608处，过程4600涉及选择句法泛化评分中具有最高句法泛化评分的候选句子。

在一方面，未找到匹配。例如，应用程序102搜索抽象意义表示(AMR)数据集(例如，表14和/或15)以识别所识别的语义关联不在AMR数据集中，然后在话语树中将修辞关联替换为AMR数据集中的附加语义关联。

在框4610处，过程4600涉及识别与候选句子相对应的语义关联。语义关联对应于候选句子中的单词，并定义了候选句子中的角色。例如，候选句子中的语义关联在表14和/或表15中标识。

在框4612处，过程4600涉及在话语树中将修辞关联替换为与语义关联相对应的更新的修辞关联，从而创建更新的话语树。识别与框4610中识别的语义关联相匹配的修辞关联。所识别的修辞关联被插入到话语树中以代替在框4604处识别的修辞关联。

泛化级别：从句法到语义再到话语

为了证明句法泛化如何使我们从句法级别上升到语义级别，可以遵循Mill的应用于语言学结构的直接一致性方法(Direct method of agreement)(归纳)。英国哲学家JSMills在他1843年的著作“A System of Logic[逻辑系统]”中写道：‘如果被调查的现象的两个或更多个实例只有一个共同点，那么只有所有实例一致的情况才是给定现象的原因(或效果)。’

考虑短语f的语言学属性A。要使A成为某个效果E的必要条件，A必须始终出现在涉及E的多个短语中。在语言学领域，A是一种语言学结构，并且E是其含义。因此，语言学属性是否被认为是‘可能的必要条件’在句子中被验证为存在或不存在。显然，当含义E存在时不存在的任何语言学属性A都不能成为短语的这个含义E的必要条件。

例如，一致性方法可以表示为一个短语f₁，其中单词{A B C D}一起出现，其含义正式表示为<w x y z>。还要考虑另一个短语f₂，其中单词{A E F G}以与短语f₁相同的含义<w t u v>一起出现。现在通过对单词{A B C D}和{A E F G}进行泛化，我们获得{A}(这里，为了举例，我们忽略了f₁和f₂的句法结构)。因此，这里我们可以看到单词A是w的原因(具有w含义)。在整本书中，除了这个列表本身之外，我们确实考虑了涵盖AB C D的语言学结构，并应用了一致性方法。

因此，可以产生应用句法泛化的(归纳)语义。仅给定样本的句法信息的情况下无法获得语义；然而，泛化两个或更多个短语(样本)，我们获得了(归纳)语义结构，而不仅仅是句法结构。将句法泛化视为一种归纳认知过程，可以正式定义从句法层面到语义层面的转变。在这项工作中，我们不混合句法和语义特征来学习类：相反，我们根据上述归纳框架从句法中推导语义特征。

改进解析器的评估

在增强阐述的修辞关联时，识别出假的阳性和阴性。为此，分析了话语解析的下游应用的功能，例如总结、对话管理和论证分析。

如果阐述是正确的关联，但变成了更具体的关联，则获得的搜索结果可能与查询不匹配，并且一些句子可能不会出现在由此产生的总结中，因为规则是针对阐述而调整的。为了使搜索和总结系统对我们的细化系统所获得的假阳性较不敏感，需要更新匹配和选择规则以考虑到原因、让步、条件是阐述的部分情况并且具有这些节点标签的话语树应相应地匹配。

如果阐述未用更具体的关联重写，则下游系统的精确率就会受到负面影响。如果识别了问题中的具体特殊关联，则必须在回答中解决它，因此如果它仍然是阐述，则选择在风格上与问题相匹配的具体回答将失败。不太相关的句子或短语可以被包含在总结中，或者将减少这种包含的候选者的数量。我们得出结论，假阴性比假阳性更糟糕。

另一个考虑因素涉及用于话语解析的训练数据集的体裁。RST DiscourseTreebank[RST话语树库](RST-DT，Carlson等人，2001)包括新闻文章，并且不是用于对其他体裁(如小说、科学文本、工程系统描述和法律文档)的文本结构进行建模的好来源。话语解析在这些领域的应用至关重要。因此，即使阐述在新闻呈现中足够了，也需要一种更具体的结构来对作者在其他体裁和领域(如专业文本)中的推理进行建模。

使用四个问题来评估所开发的话语解析器细化(表16)：

1)搜索复杂的长问题，强制执行问题与回答之间的协调(第2节)。使用了雅虎问答数据集；

2)从文本或文档中寻找话语以形成对话。使用了在第1章第2卷中开发的数据集和技术。这项技术在很大程度上依赖于话语解析；

3)从初始查询生成对话(第1章第2卷)。在过滤不合适的话语时考虑了修辞关联(Galitsky和Ilvovsky 2016)；

4)通过其话语结构评定文档的真实性(第6章第2卷)。作者如何表达信息以及通过何种修辞关联的方式来表达信息的话语树结构对于检测谎言或假新闻很重要。

可以观察到，在话语分类和文本分类中，通过对话语解析器结果的细化，我们实现了4％以上的改进。然而，在对适当的修辞关联不太敏感的搜索问题中，我们实现了接近3％的改进。我们现在继续评估单个修辞关联细化的表现(表17)。我们使用一个AMR语料库进行训练，并另一个进行测试。

在第三行到第八行中，分析了针对单个关联类型(如对比)的关联检测结果。在基线解析器中，对比度以及原因和条件被识别，而其余关联则不被识别。这是因为这些特殊的、罕见的关联在Discourse TreeBank中没有得到很好的体现。总的来说，仅对于这些修辞关联，由这些关联的分量加权的基线分类器的性能相当低。通过从AMR学习，对于这个数据有可能达到77.7的性能。因此，对于这六种关联的细化，我们得到了36.1的改进。这对于重点放在特定关联类型上而不是话语树结构上的任务至关重要。

总的来说，由于这六种关联很少见，解析器的增强在所有修辞关联中平均提高了6％。这对于话语解析器的应用仍然很有价值。

Claims

1.一种提高话语树的准确性的方法，所述方法包括：

通过识别文本中的基本话语单元从所述文本创建话语树，其中，所述话语树包括多个节点，所述话语树中的所述节点中的每个非终止节点表示两个基本话语单元之间的修辞关系，并且所述话语树中的所述节点中的每个终止节点与基本话语单元相关联；

在所述话语树中识别阐述或连接类型的修辞关联，其中，所述修辞关联涉及第一基本话语单元和第二基本话语单元，并且其中，所述第一基本话语单元和所述第二基本话语单元形成参考句子；

为一组候选句子中的每个候选句子确定句法泛化评分，其中，每个候选句子具有对应的语义关联，所述确定包括：

识别所述候选句子与所述参考句子之间的一个或多个共同实体；以及

计算句法泛化评分，所述句法泛化评分等于所识别的一个或多个共同实体的数量；

选择所述句法泛化评分中具有最高句法泛化评分的候选句子；

识别与所述候选句子相对应的语义关联，其中，所述语义关联对应于所述候选句子中的单词并定义所述候选句子中的角色；以及

在所述话语树中将所述修辞关联替换为与所述语义关联相对应的更新的修辞关联，从而创建更新的话语树。

2.如权利要求1所述的方法，其中，从所述文本创建所述话语树包括：

将所述文本提供给分类模型；以及

使用所述分类模型来识别所述第一基本话语单元、所述第二基本话语单元和所述修辞关联。

3.如权利要求1所述的方法，其中，所述更新的修辞关联是目的、手段、原因或时间顺序之一。

4.如权利要求1所述的方法，进一步包括从所述更新的话语树形成响应；以及

将所述响应输出到外部设备。

5.如权利要求1所述的方法，进一步包括：

从每个候选句子形成第一句法解析树；以及

从所述参考句子形成第二句法解析树，其中，识别所述候选句子与所述参考句子之间的所述一个或多个共同实体包括，针对每个共同实体，识别所述第一句法解析树和所述第二句法解析树中的共同实体。

6.如权利要求1所述的方法，进一步包括：

通过将具有动词的每个片段与动词签名进行匹配来从所述更新的话语树形成交流话语树；

通过将被训练用于检测论证的分类模型应用于所述交流话语树来识别出所述文本包括论证；以及

从所述文本形成响应并将所述响应输出到外部设备。

7.如权利要求1所述的方法，进一步包括：

通过将被训练用于检测论证的分类模型应用于所述交流话语树来识别出所述文本包括与主张相对应的论证；

通过求解包括以下各项的逻辑系统来评估所述论证相对于自身和相对于与所述文本的领域相关联的领域定义从句的一致性：

(a)固定部分，所述固定部分包括所述主张的项和所述领域定义从句，以及

(b)可变部分，所述可变部分包括来自所述交流话语树的一组可废止规则和来自所述交流话语树的交流动作的事实；以及

响应于确定所评估的一致性大于阈值，从所述文本形成文本响应并将所述文本响应输出到外部设备。

8.一种系统，包括：

存储计算机可执行程序指令的非暂态计算机可读介质；以及

处理设备，所述处理设备通信地耦接到所述非暂态计算机可读介质以执行所述计算机可执行程序指令，其中，执行所述计算机可执行程序指令配置所述处理设备以执行包括以下各项的操作：

9.如权利要求8所述的系统，其中，从所述文本创建所述话语树包括：

将所述文本提供给分类模型；以及

10.如权利要求8所述的系统，其中，所述更新的修辞关联是目的、手段、原因或时间顺序之一。

11.如权利要求8所述的系统，其中，所述一个或多个共同实体中的每一个共同实体在所述候选句子与所述参考句子之间共享共同的词性。

12.如权利要求8所述的系统，其中，所述操作进一步包括：

从每个候选句子形成第一句法解析树；以及

13.如权利要求8所述的系统，其中，所述操作进一步包括：

从所述文本形成响应并将所述响应输出到外部设备。

14.如权利要求8所述的系统，其中，所述操作进一步包括：

15.一种存储计算机可执行程序指令的非暂态计算机可读存储介质，其中，当由处理设备执行时，所述计算机可执行程序指令使所述处理设备执行包括以下各项的操作：通过识别文本中的基本话语单元从所述文本创建话语树，其中，所述话语树包括多个节点，所述话语树中的所述节点中的每个非终止节点表示两个基本话语单元之间的修辞关系，并且所述话语树中的所述节点中的每个终止节点与基本话语单元相关联；

16.如权利要求15所述的非暂态计算机可读存储介质，其中，从所述文本创建所述话语树包括：

将所述文本提供给分类模型；以及

17.如权利要求15所述的非暂态计算机可读存储介质，其中，所述更新的修辞关联是目的、手段、原因或时间顺序之一。

18.如权利要求15所述的非暂态计算机可读存储介质，其中，所述一个或多个共同实体中的每一个共同实体在所述候选句子与所述参考句子之间共享共同的词性。

19.如权利要求15所述的非暂态计算机可读存储介质，其中，当由处理设备执行时，所述计算机可执行程序指令使所述处理设备执行包括以下各项的操作：

从每个候选句子形成第一句法解析树；以及

20.如权利要求15所述的非暂态计算机可读存储介质，其中，当由处理设备执行时，所述计算机可执行程序指令使所述处理设备执行包括以下各项的操作：

从所述文本形成响应并将所述响应输出到外部设备。