CN113761158A - 基于话语树的焦点信息共享对话的管理 - Google Patents

基于话语树的焦点信息共享对话的管理 Download PDF

Info

Publication number
CN113761158A
CN113761158A CN202110608704.7A CN202110608704A CN113761158A CN 113761158 A CN113761158 A CN 113761158A CN 202110608704 A CN202110608704 A CN 202110608704A CN 113761158 A CN113761158 A CN 113761158A
Authority
CN
China
Prior art keywords
additional
utterance
text
tree
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110608704.7A
Other languages
English (en)
Inventor
B·加利茨基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oracle International Corp
Original Assignee
Oracle International Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US16/995,302 external-priority patent/US11295085B2/en
Priority claimed from US17/235,329 external-priority patent/US11809825B2/en
Application filed by Oracle International Corp filed Critical Oracle International Corp
Publication of CN113761158A publication Critical patent/CN113761158A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本公开涉及基于话语树的焦点信息共享对话的管理。所公开的技术涉及管理用户设备与自主代理之间的对话。例如,计算设备根据包括片段的文本主体创建话语树。话语树包括根节点、非终端节点和终端节点。每个非终端节点表示片段中的两个片段之间的修辞关系,并且每个终端节点与片段之一相关联。计算设备根据话语树确定文本主体的主要话题。计算设备向用户设备提供主要话题,并且作为响应,接收用户言语。计算设备根据用户言语确定意图,并导航话语树以定位与意图一致的相关信息。

Description

基于话语树的焦点信息共享对话的管理
相关申请的交叉引用
本申请是于2020年8月17日提交的16/995,302的部分继续申请,所述部分继续申请是于2018年9月28日提交的美国申请号16/145,644(现作为美国专利号10,853,574发布)的分案,所述分案要求于2017年9月28日提交的美国临时申请号62/564,961和于 2018年9月10日提交的美国临时申请号62/729,335的权益,所有这些申请通过援引以其全文并入本文。本申请要求于2020年6月1日提交的美国临时申请号63/032,895的权益,所述美国临时申请通过援引以其全文并入本文。
技术领域
本公开总体上涉及语言学。更具体地,本公开涉及使用话语树来管理对话会话。
背景技术
由于计算语言学和机器学习的改进,可以训练自主代理来回答从用户设备接收到的问题或管理与用户设备的对话。例如,可利用各种内容训练自主代理,如客户服务历史记录或其他数据库。
但是,使用从这种内容中训练的机器学习模型进行操作的自主代理存在缺陷。例如,许多深度学习系统不能分离话题结构和导航结构,这种解决方案也不能保证所有相关信息实际上都呈现给用户。
因此,需要用于向用户设备呈现信息的改进的解决方案。
发明内容
本公开的系统、设备和方法总体上涉及管理自主代理与用户设备之间的对话。例如,计算设备根据文本主体创建话语树,并根据所述话语树确定文本主体的主要话题。所述计算设备向所述用户设备提供所述主要话题,并且作为响应,接收用户言语。所述计算设备进行混合主动对话,并试图通过基于文本的内容片段来驱动用户,从而针对用户兴趣进行调整。所述计算设备根据所述用户言语确定意图,并导航所述话语树以定位与所述意图一致的相关信息。所述计算设备以由用户兴趣以及由话语树的配置确定的顺序导航用户通过文本片段。
一方面,一种方法涉及根据包括片段的文本创建话语树。所述话语树包括根节点、非终端节点和终端节点。每个非终端节点表示所述片段中的两个片段之间的修辞关系,并且每个终端节点与所述片段之一相关联。所述片段是基本话语单元。所述方法涉及根据所述话语树确定终端节点子集,所述终端节点子集与表示阐述类型的修辞关系的非终端节点相关联,并且与该阐述的核心基本话语单元相关联。所述方法进一步涉及针对所述终端节点子集的每个节点计算从所述根节点开始的相应路径长度。所述方法进一步涉及从所述终端节点子集识别出具有是所述路径长度中的最小路径长度的路径长度的话题节点。所述方法进一步涉及通过从与所述话题节点相关联的所述核心基本话语单元中提取名词短语来根据所述话题节点确定所述话语树的话题。所述方法进一步涉及向用户设备提供所述话题。
另一方面,所述方法进一步涉及在所述话语树中识别出通过所述阐述类型的修辞关系与所述话题节点相关联的辅助基本话语单元。所述方法进一步涉及向所述用户设备提供与所述辅助基本话语单元相关联的文本。
另一方面,所述方法进一步涉及在所述话语树中从所述终端节点子集识别出附加终端节点,所述附加终端节点具有等于或大于所述路径长度的附加路径长度。所述方法进一步涉及从与所述附加终端节点相关联的附加核心基本话语单元中提取附加文本。所述方法进一步涉及向所述用户设备提供所述附加文本。
另一方面,所述方法进一步涉及在所述话语树中导航到附加非终端节点,所述附加非终端节点连接到所述话题节点并表示附加修辞关联。所述方法进一步涉及通过从与附加非终端节点相关联的附加核心基本话语单元中提取附加名词短语来根据所述附加非终端节点确定附加话题。所述方法进一步涉及响应于确定所述附加修辞关联是阐述类型、条件类型或时间顺序类型之一而执行动作。所述动作包括从所述附加核心基本话语单元中提取附加文本,并向所述用户设备提供所述附加文本。
另一方面,所述方法进一步涉及从所述用户设备接收言语。所述方法进一步涉及确定所述言语指示对附加话题的熟悉度。所述方法进一步涉及在所述话语树中识别出附加非终端节点,所述附加非终端节点包括表示所述附加话题的文本并表示附加修辞关联。所述方法进一步涉及响应于确定所述附加修辞关联是阐述类型、条件类型或对比类型之一而执行动作。所述方法进一步涉及从与连接到所述附加终端节点的终端节点相关联的基本话语单元中提取附加文本。所述方法进一步涉及向所述用户设备提供所述附加文本。
另一方面,所述方法进一步涉及从所述用户设备接收言语。所述方法进一步涉及确定所述言语包括对附加话题的兴趣的确认。所述方法进一步涉及在所述话语树中识别出附加非终端节点,所述附加非终端节点包括表示所述附加话题的文本并表示附加修辞关联。所述方法进一步涉及从与连接到所述附加非终端节点的终端节点相关联的基本话语单元中提取附加文本。所述方法进一步涉及向所述用户设备提供所述附加文本。
另一方面,所述方法进一步涉及从用户设备接收言语。所述方法进一步涉及确定所述言语包括与所述话题无关的问题。所述方法进一步涉及响应于该确定而执行动作。所述动作包括:从所述言语中识别出一个或多个关键词;通过向搜索引擎提供包括所述关键词的查询识别出附加文本;以及向所述用户设备提供来自所述附加文本的一个或多个基本话语单元的文本。
另一方面,所述方法进一步涉及通过将具有动词的每个片段与相应的动词签名相匹配来根据所述话语树形成表示所述文本的交流话语树。所述方法进一步涉及从所述交流话语树中识别出对应于所述话题节点的动词签名。所述方法进一步涉及从所述动词签名中提取主题。所述方法进一步涉及向所述用户设备提供所述主题。
上述方法可以实施为有形计算机可读介质和/或在计算机处理器和所附接的存储器内操作。
附图说明
图1示出了根据一个方面的示例性修辞分类环境。
图2描绘了根据一个方面的话语树的示例。
图3描绘了根据一个方面的话语树的另外的示例。
图4描绘了根据一个方面的说明性模式。
图5描绘了根据一个方面的分层二叉树的节点链接表示。
图6描绘了根据一个方面的图5中的表示的示例性缩进文本编码。
图7描绘了根据一个方面的关于财产税的示例请求的示例性DT。
图8描绘了对图7中表示的问题的示例性响应。
图9图示了根据一个方面的官方回答的话语树。
图10图示了根据一个方面的原始回答的话语树。
图11图示了根据一个方面的第一代理的主张的交流话语树。
图12图示了根据一个方面的第二代理的主张的交流话语树。
图13图示了根据一个方面的第三代理的主张的交流话语树。
图14图示了根据一个方面的解析树丛(parse thicket)。
图15图示了根据一个方面的用于构造交流话语树的示例性过程。
图16描绘了根据一个方面的扩展话语树的示例。
图17描绘了根据一个方面的用于创建扩展话语树的过程的示例的流程图。
图18还描绘了根据一个方面的不同粒度级别的文档的文本单元之间的关系。
图19描绘了根据一个方面的使用扩展话语树在文档之间导航的过程的示例的流程图。
图20描绘了根据一个方面的使用扩展话语树回答用户问题的自主代理的示例。
图21描绘了根据一个方面的扩展话语树的示例。
图22描绘了根据一个方面的使用搜索引擎的导航与使用启用了扩展话语树的自主代理的导航之间的比较。
图23描绘了根据一个方面的使用话语树在文档内导航的过程的示例的流程图。
图24描绘了根据一个方面的示例性话语树及其导航。
图25描绘了根据一个方面的由图24中描绘的话语树产生的示例性对话。
图26描绘了根据一个方面的示例性话语树及其导航。
图27描绘了根据一个方面的示例性话语树及其导航。
图28描绘了根据一个方面的示例性话语树及其导航。
图29描绘了根据一个方面的示例性话语树及其导航。
图30描绘了用于实施这些方面之一的分布式系统的简化图。
图31是根据一个方面的系统环境的部件的简化框图,通过所述系统环境由方面系统的部件提供的服务可以作为云服务提供。
图32图示了本发明的各方面可以在其中实施的示例性计算机系统。
具体实施方式
所公开的技术为计算机实施的语言学领域提供了技术改进。更具体地,某些方面涉及通过利用话语树和/或交流话语树来管理与用户设备的对话的自主代理。如本文所解释的,话语树表示特定文档的基本话语单元之间的修辞关系。交流话语树(CDT)是由一个或多个交流动作补充的话语树。交流动作是个体在相互协商和论证的基础上采取的合作行为。
在示例中,自主代理(“聊天机器人”)管理对话会话。代理处理输入文档,并根据所述文档形成话语树。代理使用话语树中的修辞关联确定文档的话题并向用户设备提供话题。用户设备向代理传输言语,代理进而确定言语的意图。意图的示例包括不同意、要求进一步解释、要求细节或要求对立观点。基于意图,代理根据一个或多个修辞关联导航话语树以获得相关响应。当用户设备导航文档时,此过程可以继续。
相比之下,现有的基于关键词的解决方案无法捕获文本主体内不同文本部分的相关性,从而导致自主代理在没有完全理解交流话语的情况下试图模仿人类对话。这种解决方案导致自主代理发出随机的言语序列,从而使完成任务或提供建议变得困难。
话语树源自修辞结构理论(RST)。RST依靠文本各部分之间的关联对作者所采用的文本的逻辑组织进行建模。RST通过经由话语树形成层次化的、连接的文本结构来模仿文本相干性。修辞关联分为并列类和从属类;这些关联跨越两个或更多个文本范围(span),并且因此实现相干性。这些文本范围被称为基本话语单元(EDU)。句子中的从句和文本中的句子由作者逻辑地连接在一起。给定句子的含义与前面的句子和后面的句子的含义相关。
话语树的叶子对应于相连的原子文本范围EDU。相邻的EDU通过相干关联(如归因、顺序)连接在一起,从而形成更高层次的话语单元。特定EDU的叶子在逻辑上是相关的。这种关系被称为文本的相干结构。示例关联包括阐述和使能。如本文所使用的,“核心性(nuclearity)”是指哪个文本区段、片断或范围对于作者的目的而言更重要。“核心(nucleus)”是指对于作者的目的而言比“辅助(satellite)”更重要的文本范围,“辅助”对于作者的目的而言不太重要。
某些定义
如本文所使用的,“文本单元”是指文本的单元。示例包括基本话语单元、短语、片段、句子、段落、页和文档。
如本文所使用的,“实体”是指独特和独立存在的事物。实体可以在文本单元中使用。实体的示例包括人、公司、地点、事物、文档名称或日期或时间。
如本文所使用的,“修辞结构理论”是提供了可以分析话语的相干性的理论基础的研究和学习领域。
如本文所使用的,“话语树”或“DT”是指表示句子的一部分的句子的修辞关联的结构。
如本文所使用的,“修辞关联”、“修辞关系”或“相干关联”或“话语关联”是指话语的两个区段如何在逻辑上相互连接。修辞关联的示例包括阐述、对比和归因。
如本文所使用的,“句子片段”或“片段”是句子中可以与句子的其余部分分开的一部分。片段是基本话语单元。例如,对于句子“调查员1说,证据表明组织1应对事件1负责”,两个片段是“事件调查员1说,证据表明组织1”和“应对事件1负责”。片段可以但不是必须包括动词。
如本文所使用的,“索引”是链接两个关键词、数据或文本部分的表格、数据结构、指示符或其他机制。索引可以包括可搜索内容。索引的示例包括反向索引、可搜索索引和字符串匹配。反向索引也是可搜索的。
现在转向附图,图1示出了根据一个方面的示例性文档导航环境。图1包括输入文档110a-n、计算设备120、用户设备170和数据网络150中的一个或多个。在图1所描绘的示例中,计算设备120实施自主代理,所述自主代理使用话语树和/或交流话语树来管理与用户设备170的对话。
更具体地,计算设备120可以执行话语导航应用122、认知状态管理器124、用户意图识别器126和机器学习模型130中的一个或多个。另外,计算设备120可以包括领域本体128和训练数据135。计算设备120的示例是分布式系统3000以及客户端计算设备 3002、3004、3006和3008。
用户设备170可以是任何移动设备,如移动电话、智能电话、平板计算机、膝上型计算机、智能手表等。用户设备170经由数据网络160与计算设备120通信,以到计算设备120或远程服务器。数据网络160可以是任何公共或私有网络、有线或无线网络、广域网、局域网或因特网。用户设备170的功能可以例如经由应用或web应用在软件中实施。用户设备170包括显示器171。
在更具体的示例中,话语导航应用122根据输入文档110a-n之一创建话语树。话语导航应用122使用所创建的话语树来导航用户设备通过输入文档。例如,显示器171描绘了三条消息181至183。话语导航应用122向用户设备输出消息181,该消息为“[语句1]。”作为响应,用户设备提供消息182,所述消息为“他们为什么要这样做?不要相信这个。”话语导航应用122确定消息182中的质疑并生成消息183,所述消息声明“这是根据媒体1的报道”。
可以使用各种技术来确定消息的这种意图。基于所述意图,话语导航应用122可以确定如何响应。可以关于图23中的过程2300找到涉及如何响应的过程的示例。话语导航应用122可以继续此导航过程,直到话语树被完全遍历。
认知状态管理器124可以对用户的知识状态进行建模。例如,最初,当自主代理发起与用户的对话时,用户的背景知识是未知的。但是在对话会话的过程中,认知状态管理器124基于从用户设备170接收到的新的信息进行更新。在一些情况下,认知状态用于向用户设备170提供经调整的响应。
用户意图识别器126从接收自用户设备170的言语中检测用户状态。例如,用户可能期望更多信息。或者用户可能期望了解相反的观点。
领域本体128包括如关于特定领域(例如,主题)的术语、实体等信息。在一些情况下,自主代理可以具有领域特殊性。领域的示例包括金融、商业、工程等等。
在一些方面,所公开的技术可以使用机器学习来执行各种功能。机器学习模型130可以由话语导航应用122训练和/或使用以进行预测和/或分类。例如,机器学习模型130可以用训练数据135来训练,以预测两个话语树是否彼此匹配,或者特定话语树是否对应于具有争论的文本。
修辞结构理论和话语树
语言学是对语言的科学研究。例如,语言学可以包括句子的结构(句法),如主语-动词-宾语;句子含义(语义),例如狗咬人与人咬狗;以及说话者在对话中的行为,即话语分析或句子以外的语言分析。
话语的理论基础(修辞结构理论(RST))可以归结于Mann,William和Thompson,Sandra,“Rhetorical structure theory:A Theory of Text organization(修辞结构理论:文本组织理论)”,《Text-Interdisciplinary Journal for the Study of Discourse(话语研究的文本-跨学科杂志)》,8(3):243-281,1988。类似于编程语言理论的句法和语义帮助实现现代软件编译器的方式,RST帮助实现了话语分析。更具体地,RST在至少两个层面上假定结构块,第一层面如核心性和修辞关联,并且第二层面是结构或模式。话语解析器或其他计算机软件可以将文本解析成话语树。
修辞关联
如所讨论的,本文描述的方面使用修辞关联和话语树。修辞关联可以用不同方式进行描述。例如,Mann和Thompson描述了二十三种可能的联系。C.Mann,William和Thompson,Sandra(1987)(“Mann和Thompson”)。修辞结构理论:文本组织理论。
其他数量的关联也是可能的。下表2列出了不同的修辞关联。
Figure RE-GDA0003233459430000081
Figure RE-GDA0003233459430000091
一些实证研究假设大部分文本是使用核心-辅助关联构建的。参见Mann和Thompson。
但是其他关联并没有明确的选择核心。这种关联的示例在下表3中示出。
Figure RE-GDA0003233459430000092
图2描绘了根据一个方面的话语树的示例。图2包括话语树200。话语树包括文本范围201、文本范围202、文本范围203、关联210和关联211。图2中的数字对应于三个文本范围。图2对应于三个文本范围编号为1、2、3的以下示例文本:
1.2017夏威夷历史会议将在夏威夷檀香山举行
2.预计将有来自美国和亚洲的200名历史学家出席
3.会议将涉及波利尼西亚人如何航行到夏威夷
例如,关联210或阐述描述了文本范围201与文本范围202之间的关系。关联210 描绘了文本范围203与204之间的关系,即阐述。如所描绘的,文本范围202和203进一步阐述了文本范围201。在以上示例中,给定向读者通知会议的目标,文本范围1是核心。文本范围2和3提供了关于会议的更多细节。在图2中,水平数字例如1-3,1、2、 3覆盖文本(可能由更多范围构成)的范围;竖直线表示一个或多个核心;并且曲线表示修辞关联(阐述)且箭头的方向从辅助指向核心。如果文本范围仅作为辅助而不是核心,则删除辅助将仍然保留相干文本。如果从图2中删除核心,则文本范围2和3就很难理解。
图3描绘了根据一个方面的话语树的另外的示例。图3包括组成部分301和302、文本范围305至307、关联310和关联311。关联310(使能)描述了组成部分306与305 以及307与305之间的关系。图3涉及以下文本范围:
1.新的技术报告摘要目前在图书馆靠近节本词典的期刊区内。
2.请以任何您有兴趣看到的方式签上你的名字。
3.登记的最后一天是5月31日。
可以看出,关联310描绘了实体307与306之间的关系,即使能。图3图示了虽然核心可以嵌套,但只存在一个最核心的文本范围。
构建话语树
话语树可以用不同的方法生成。自底向上构建DT的方法的简单示例是:
(1)通过以下方式将话语文本分成单元:
(a)单元大小可以根据分析的目标而不同
(b)单元通常是从句
(2)检查每个单元及其相邻单元。单元之间是否有关联?
(3)如果是,则标记该关联。
(4)如果否,则所述单元可能位于更高层次关联的边界。查看较大单元(范围) 之间的关联。
(5)继续,直到考虑了文本中的所有单元。
Mann和Thompson还描述了被称为模式应用的构造块结构的第二层面。在RST中,修辞关联并不直接映射到文本上;其拟合在被称为模式应用的结构上,而这些结构进而拟合到文本。模式应用源自被称为模式的更简单的结构(如图4所示)。每个模式均指示特定文本单元如何分解成其他更小的文本单元。修辞结构树或DT是模式应用的层次系统。模式应用链接多个连续的文本范围,并创建复杂的文本范围,文本范围进而可以由更高层次的模式应用链接。RST断言,每个相干话语的结构都可以用单个修辞结构树来描述,修辞结构树的顶部模式创建涵盖整个话语的范围。
图4描绘了根据一个方面的说明性模式。图4示出了联合模式,所述联合模式是由没有辅助的核心构成的项目列表。图4描绘了模式401至406。模式401描绘了文本范围410与411之间的环境关联。模式402描绘了文本范围420与421之间的序列关联以及文本范围421与422之间的序列关联。模式403描绘了文本范围430与431之间的对比关联。模式404描绘了文本范围440与441之间的联合关系。模式405描绘了450与 451之间的动机关系以及452与451之间的使能关系。模式406描绘了文本范围460与 462之间的联合关系。图4示出了以下三个文本范围的联合模式的示例:
1.今日纽约都市区的天气将会局部晴朗。
2.天气将更加湿润,平均温度为80's。
3.今晚将大部分多云,低温在65与70之间。
虽然图2至图4描绘了话语树的一些图形表示,但其他表示也是可能的。
图5描绘了根据一个方面的分层二叉树的节点链接表示。从图5中可以看出,DT的叶子对应于被称为基本话语单元(Elementary Discourse Unit,EDU)的连续不重叠的文本范围。相邻的EDU通过关联(例如,阐述、归因...)连接在一起并形成更大的话语单元,所述更大的话语单元也通过关联连接在一起。“RST中的话语分析涉及两个子任务:话语分段是标识EDU的任务,并且话语解析是将话语单元链接成标记树的任务”。参见 Joty,Shafiq R和Giuseppe Carenini、Raymond T Ng以及Yashar Mehdad2013.Combining intra-andmulti-sentential rhetorical parsing for document-level discourse analysis(结合句内和多句修辞解析进行文档级话语分析)在ACL(1)中,第486-496页。
图5描绘了作为树上的叶子或终端节点的文本范围,每个文本范围以其在全部文本中出现的顺序进行编号,如图6所示。图5包括树500。树500包括例如节点501至507。节点指示关系。节点是非终端节点,如节点501,或者是终端节点,如节点502至507。可以看出,节点503和504通过联合关系相关联。节点502、505、506和508是核心。虚线指示分支或文本范围是辅助。所述关联是灰色框中的节点。
图6描绘了根据一个方面的图5中的表示的示例性缩进文本编码。图6包括文本600和文本序列602至604。文本600以更易于计算机编程的方式呈现。文本序列602对应于节点502,序列603对应于节点503,并且序列604对应于节点504。在图6中,“N”指示核心,并且“S”指示辅助。
话语解析器的示例
可以用不同的方法执行自动话语分段。例如,给定一个句子,分段模型通过预测是否应该在句子中的每个特定记号前插入边界来标识复合基本话语单元的边界。例如,一个框架按顺序且独立地考虑句子中的每个记号。在此框架中,分段模型逐个记号地扫描句子,并使用二元分类器如支持向量机或逻辑回归来预测在检查记号之前插入边界是否合适。在另一个示例中,任务是顺序标记问题。一旦文本被分段成基本话语单元,就可以执行句子级话语分析来构建话语树。可以使用机器学习技术。
在本发明的一个方面,使用两种修辞结构理论(RST)话语解析器:依赖于组成句法的CoreNLP处理器和使用依存句法的FastNLP处理器。参见Surdeanu,Mihai和Hicks,Thomas和Antonio Valenzuela-Escarcega,Marco.“Two Practical RhetoricalStructure Theory Parsers(两种实用的修辞结构理论解析器)”(2015)。
另外,以上两种话语解析器即CoreNLP处理器和FastNLP处理器使用自然语言处理(NLP)进行句法解析。例如,Stanford CoreNLP给出了单词的基本形式,其词性,其是否是公司名、人名等,是否是规范化日期、时间和数字量,是否根据短语和句法依存性标记句子结构,是否表明哪些名词短语指代相同的实体。实际上,RST是静止的理论,其可以在许多话语情况下起作用,但在某些情况下可能不起作用。存在许多变量,所述变量包括但不限于EDU在相干文本中是什么,即,使用了什么样的话语分段器、使用了什么样的关联清单和为EDU选择了什么样的关联、用于训练和测试的文档语料库、以及甚至使用了什么样的解析器。因此,例如,在以上引用的Surdeanu等人的“Two Practical Rhetorical Structure TheoryParsers(两种实用的修辞结构理论解析器)”论文中,测试必须使用专门的度量在特定语料库上运行,以确定哪个解析器提供更好的性能。因此,不同于给出可预测结果的计算机语言解析器,话语解析器(和分段器)可以根据训练和/或测试文本语料库给出不可预测的结果。因此,话语树是可预测技术(例如,编译器)和不可预测技术(例如,像化学一样需要实验来确定什么组合会给出期望的结果)的混合。
为了客观地确定话语分析有多好,使用了一系列度量,例如,来自Daniel Marcu,“The Theory and Practice of Discourse Parsing and Summarization(话语解析和总结的理论与实践)”,MIT出版社,(2000)的精确率(precision)/召回率(recall)/F1度量。精确率或正预测值是信息性实例在取得的实例中的比例,而召回率(也被称为灵敏度)是已经取得的信息性实例在信息性实例总量中的比例。因此,精确率和召回率都是基于对相关性的理解和量度。假设用于识别照片中的狗的计算机程序在含有12只狗和一些猫的照片中识别出八只狗。对于识别出的八只狗,实际上有五只是狗(真阳性),而其余的是猫(假阳性)。程序的精确率为5/8,而其召回率为5/12。当搜索引擎返回30个页面,其中只有 20个页面是信息性的,而没有返回40个附加信息性页面时,其精确率为20/30=2/3,而其召回率为20/60=1/3。因此,在这种情况下,精确率是“搜索结果的有用程度”,而召回率是“结果的完整程度”。F1得分(也称为F得分或F量度)是对测试的准确性的度量。其同时考虑了测试的精确率和召回率来计算得分:F1=2×((精确率×召回率)/(精确率+召回率))并且是精确率和召回率的调和平均数。F1得分在1(完美的精确率和召回率)时达到其最佳值,并且在0时达到最差值。
分析请求和响应对
图7描绘了根据一个方面的关于财产税的示例请求的示例性话语树。节点标记是关联,并且带箭头的线指向辅助。核心是实线。图7描绘了话语树700,所述话语树表示以下文本。
请求:“我丈夫的祖母把他祖父的卡车给了他。(My husbands’grandmother gavehim his grandfather’s truck.)他祖母签署了所有权转让协议,但是由于我丈夫的驾照还有罚款未支付,所以他无法将卡车写到他的名下。(She signed the title over butdue to my husband having unpaid fines on his license,he was not able to getthe truck put in his name.)我想将卡车写到我的名下,并支付了财产税并为卡车购买了保险。(I wanted to put in my name and paid the property tax and gotinsurance for the truck.)到了授予所有权并领取牌照的时候,我却没有钱接受所有权并领取牌照。(By the time it came to sending off the title and getting the tag,I didn't have the money to do so.)现在,由于各种情况,我负担不起这辆卡车了。(Now,due to circumstances,I am not going to be able to afford the truck.)我去了买保险的地方,但被拒绝退款。(I went to the insurance place and was refused arefund.)我只是想知道,既然我不会对这辆卡车上牌,是否有可能退还财产税?(I am justwondering that since I am not going to have a tag on this truck,is itpossible to get the property tax refunded?)”
响应:“财产税是针对所拥有的财产征收的。(The property tax is assessed onproperty that you own.)仅仅因为你选择不登记这并不意味着你不拥有,所以税款不予退还。(Just because you chose to not register it does not mean that you don'town it,so the tax is not refundable.)即使你尚未被授予车辆的所有权,在税区范围内也仍然拥有该车辆,因此应支付税款。(Even if you have not titled the vehicleyet,you still own it within the boundaries of the tax district,so the tax ispayable.)注意,所有州对于转让所有权和支付使用税均有时间限制。(Note that allstates give you a limited amount of time to transfer title and pay the usetax.)如果延迟申请,除了正常的税费之外还会受到罚款。(If you apply late,therewill be penalties on top of the normal taxes and fees.)您无需同时登记该车辆,但绝对需要在州法律规定的时间段内获得所有权。(You don't need to register it atthe same time,but you absolutely need to title it within the period of timestipulated in state law.)”
从图7中可以看出,分析上述文本会产生以下结果。“我丈夫的祖母把他祖父的卡车给了他”由“他祖母签署了所有权转让协议,但是由于我丈夫”进行阐述,后者由“驾照还有罚款未支付,所以他无法将卡车写到他的名下”进行阐述,这又由“我想将卡车写到我的名下”、“并支付了财产税”和“并为卡车购买了保险”进行阐述。
“我丈夫的祖母把他祖父的卡车给了他。他祖母签署了所有权转让协议,但是由于我丈夫的驾照还有罚款未支付,所以他无法将卡车写到他的名下。我想将卡车写到我的名下,并支付了财产税并为卡车购买了保险。”由以下进行阐述:
由“接受所有权并领取牌照”阐述的“我却没有钱”,其与
由“授予所有权”
“和领取牌照”阐述的“到了……的时候”形成对比。
“我丈夫的祖母把他祖父的卡车给了他。他祖母签署了所有权转让协议,但是由于我丈夫的驾照还有罚款未支付,所以他无法将卡车写到他的名下。我想将卡车写到我的名下,并支付了财产税并为卡车购买了保险。到了授予所有权并领取牌照的时候,我却没有钱接受所有权并领取牌照”与
由“我负担不起这辆卡车了”阐述的“现在,由于各种情况”形成对比,后者由
“我去了买保险的地方”
“但被拒绝退款”阐述。
“我丈夫的祖母把他祖父的卡车给了他。他祖母签署了所有权转让协议,但是由于我丈夫的驾照还有罚款未支付,所以他无法将卡车写到他的名下。我想将卡车写到我的名下,并支付了财产税并为卡车购买了保险。到了授予所有权并领取牌照的时候,我却没有钱接受所有权并领取牌照。现在,由于各种情况,我负担不起这辆卡车了。我去了买保险的地方,但被拒绝退款。”由
“我只是想知道,既然我不会对这辆卡车上牌,是否有可能退还财产税?(I amjust wondering that since I am not going to have a tag on this truck,is itpossible to get the property tax refunded?)”阐述。
“我只是想知道(I am just wondering)”归因于
“that”与“是否有可能退还财产税?(is it possible to get the property taxrefunded?)”是相同单元,其以“既然我不会对这辆卡车上牌(since I am not going tohave a tag on this truck)”为条件。
如可以看到的,所述话题的主题是“汽车财产税”。这个问题包括矛盾:一方面,所有的财产都要纳税,另一方面,所有权有些不完整。好的响应必须解决所述问题的两个话题,并澄清不一致之处。为了做到这一点,响应者提出了更强有力的主张,即无论登记状态如何,所拥有的财产都必须纳税。此示例是来自雅虎(Yahoo)的积极训练集中的成员!回答评估领域。所述话题的主题是“汽车财产税”。这个问题包括矛盾:一方面,所有的财产都要纳税,另一方面,所有权有些不完整。好的回答/响应必须解决所述问题的两个话题,并澄清不一致之处。读者可以观察到,由于问题包括对比修辞关联,因此回答必须以类似的修辞关联匹配才能令人信服。否则,即使对于不是领域专家的人来说,这个回答看起来也是不完整的。
图8描绘了根据本发明的某些方面的对图7中呈现的问题的示例性响应。图8描绘了话语树800。中心核心是由“所拥有的”阐述的“财产税是针对财产征收的”。“财产税是针对所拥有的财产征收的”也是由“仅仅因为你选择不登记这并不意味着你不拥有,所以税款不予退还。即使你尚未被授予车辆的所有权,在税区范围内也仍然拥有该车辆,因此应支付税款。注意,所有州对于转让所有权和支付使用税均有时间限制。”阐述的核心。
核心“财产税是针对所拥有的财产征收的。仅仅因为你选择不登记这并不意味着你不拥有,所以税款不予退还。即使你尚未被授予车辆的所有权,在税区范围内也仍然拥有该车辆,因此应支付税款。注意,所有州对于转让所有权和支付使用税均有时间限制。”由以“如果延迟申请”为条件的“除了正常的税费之外还会受到罚款”进行阐述,这进而由“但绝对需要在州法律规定的时间段内获得所有权”和“您无需同时登记该车辆”的对比进行阐述。
将图7的DT与图8的DT进行比较,能够确定响应(图8)与请求(图7)的匹配良好程度。在本发明的一些方面,至少部分地使用上述框架来确定请求/响应的DT以及 DT之间的修辞一致性。
在另一个示例中,“某某委员会是做什么的”这个问题至少有两种回答,例如官方回答或实际回答。
图9图示了根据一个方面的官方回答的话语树。图9描绘了官方回答或任务陈述的话语树900,其陈述了“某某委员会是作为……代理机构运行的……机构,并且具有检查……、打击……的责任,负责对……进行调查。”
图10图示了根据一个方面的原始回答的话语树1000。如图10所描绘的,另一个也许更诚实的回答陈述了“某某委员会应该……。然而,某某委员会……被指控……(负面行为)。不仅如此,……(更多负面行为)。由于……,导致……(负面结果)”
对回答的选择取决于上下文。修辞结构允许区分“官方”、“政治正确”、基于模板的回答和“实际”、“原始”、“来自现场的报道”或“有争议的”回答。(参见图9 和图10)。有时候,问题本身就可以给出关于期望哪一类回答的提示。如果问题被表述为事实问题或定义问题而没有第二层含义,则第一类回答是合适的。否则,如果问题有“告诉我它到底是什么(tellme what it really is)”的含义,则第二类是合适的。一般来说,在从问题中提取修辞结构后,选择具有类似的、匹配的或互补修辞结构的合适回答会更加容易。
官方回答基于阐述和联合,其在文本可能包含的争议方面是中立的(参见图9)。同时,原始回答包括对比关联。这种关联从表示期望代理做什么与发现此代理做了什么的短语之间提取。
扩展话语树
本公开的各方面便于导航从如多个文档等相关内容语料库构造的扩展话语树。扩展话语树是来自多个文档的单独文本单元(例如,段落)的话语树的组合。各方面使用扩展话语树不仅允许基于关键词放大,而且还允许基于文档如何互连来导航进出或返回,从而使得自主代理能够提供如引导搜索等内容导航。
图16描绘了根据一个方面的扩展话语树的示例。图16描绘了扩展话语树1600。扩展话语树1600包括组1600、1620、1630、1640和1650。每个组包括文档和根据所述文档生成的话语树。例如,组1610包括话语树1616和文档1612,组1620包括话语树1621 和文档1622,等等。
除了特定话语树例如话语树1616、1621、1631、1641和1651内之间的链接之外,扩展话语树1600还包括话语树间链接1661至1664和相关联的文档间链接1671至1674。如关于图12进一步解释的,话语导航应用122构建话语树1616至1615。话语树1616表示文档1612,话语树1621表示文档1622,等等。扩展话语树1600通过为每个段落或文档构造话语树来构造。
话语树间链接1661连接话语树1616和1621,话语树间链接1662连接话语树1621和1631,话语树间链接1663连接话语树1616和1641,并且话语树间链接1664连接话语树1621和1651。基于话语树间链接1661至1664,话语导航应用122创建文档间链接 1671、1672、1673和1674,其分别对应于话语树间链接1661、1662、1663和1664。文档间链接1671至1674可以用于导航文档1612、1622、1632、1642和1652。
话语导航应用122确定话语树1616至1615的第一话语树中的一个或多个实体。实体的示例包括地点、事物、人或公司。话语导航应用122然后识别出其他话语树中存在的相同实体。基于所确定的实体,话语导航应用122确定每个匹配实体之间的修辞关系。
例如,如果实体“旧金山(San Francisco)”出现在文档1612中,例如,“旧金山位于加利福尼亚(San Francisco is in California)”,并且文档1622进一步解释了“旧金山的气候温和但经常刮风(San Francisco has a moderate climate but can be quitewindy)”,则话语导航应用122将确定实体“旧金山”之间的修辞关系是“阐述”之一,并将链接 1661和1671标记为“阐述”。继续所述示例,话语导航应用122基于所确定的修辞关联来确定链接1662至1664和对应的链接1672至1674。话语导航应用122组合文档的段落的话语树以形成扩展话语树1600。
通过使用扩展话语树1600中的链接,话语导航应用可以在同一文档的段落之间或者在文档(例如,文档1612与1622)之间导航。例如,如果用户对关于特定话题的更多信息感兴趣,则话语导航应用122在段落内通过阐述修辞关联从核心导航到辅助,或者通过阐述修辞关联超链接导航到提供关于所述话题的更多特定信息的文档。
相反,如果用户决定推荐的话题并不是确切所需要的,则用户可以返回到文档的更高层级视图(例如,从辅助到核心,或者从窄文档到宽文档)。反过来,话语导航应用 122以相反的顺序(即,从辅助到核心)在段落处或文档之间导航阐述关系。类似地,话语导航应用122促进其他导航选项如依靠对比或条件修辞关系来探索有争议的话题。
为了在不同段落或文档中的文本片段之间构造修辞链接,话语导航应用122通过使用来自原始段落的相应文本片段的虚构文本片段或临时段落来识别实体之间的关系,并对段落执行共指分析和话语解析。
图17描绘了根据一个方面的用于创建扩展话语树的过程1700的示例的流程图。过程1700的输入是文档集合,并且输出是扩展话语树,所述扩展话语树被编码为具有每个节点的文档标识标签的常规话语树。出于示例目的,过程1700关于两个文档(例如,文档110a-b)进行描述,但是过程1700可以使用任意数量的文档。
在框1701处,过程1700涉及访问第一文档和第二文档。文档的示例包括文本、书籍、新闻文章及其他电子文档。
一方面,话语导航应用122选择话题类似或相同的文档。例如,话语导航应用122可以例如通过确定文档之间关键词的相似性来确定每个文档的内容得分。例如,话语导航应用122确定第一文档的第一内容得分和第二文档的第二内容得分在阈值内,并且基于相似性使用第一文档和第二文档来创建扩展话语树。
一方面,话语导航应用122执行文档分析,所述文档分析包括生成表示文档的句子和短语结构的文档树。与文档间链接相关联的修辞关联可以确定不同的导航场景。默认情况下,可以使用阐述。如果用户对如“为什么(why)”或“如何(how)”等问题感兴趣,则话语导航应用122提供到通过归因关系关联的另一个文档的链接。如果用户表示不同意最初呈现的文档或要求提供与当前文档相对的文档,则话语导航应用122可以提供到通过对比关系关联的文档的链接。
另一方面,话语导航应用122通过执行用户查询来获得第一文档和第二文档。用户查询的示例包括“气候变化(climate change)”或“关于语言学的文档(documents onlinguistics)”。
在框1702处,过程1700涉及为第一文档的第一段落创建第一话语树。话语导航应用122访问来自第一文档的段落。段落中的每个句子包括片段或基本话语单元。至少有一个片段包括动词。片段中的每个单词包括所述单词在片段中的角色,例如功能。话语导航应用122生成表示片段之间的修辞关系的话语树。话语树包括多个节点,每个非终端节点表示两个片段之间的修辞关系,并且每个终端节点与片段之一相关联。话语导航应用122以这种方式继续,从而为第一文档中的每个段落构造话语树集合。过程1700关于作为文本单元的段落进行描述,但也可以使用其他文本大小。
在框1703处,过程1700涉及为第二文档的第二段落创建第二话语树。在框1703处,过程1700对第二文档执行与在框1702处对第一文档执行的步骤基本类似的步骤。在过程1700为多于两个文档创建扩展话语树的情况下,过程1700对多个文档执行在框1702 处描述的功能。过程1700可以通过每个话语树对应于文档的话语树集合中的所有话语树对迭代。话语树对可以表示为:
DTi和DTj∈DTA。
在框1704处,过程1700涉及根据第一话语树确定实体和对应的第一基本话语单元。使用经训练的机器学习模型或搜索因特网资源可以使用各种方法,如关键词处理(在第一文档的句子中搜索预定义关键词列表中的一个关键词)。话语导航应用122识别话语树DTi和DTj.中的所有名词短语和命名实体。
在示例中,话语导航应用122从话语树中提取名词短语。话语导航应用122然后通过使用经训练的机器学习模型将名词短语分类为(i)实体或(ii)非实体。
在框1705处,过程1700涉及在第二话语树中确定与第一基本话语单元匹配的第二基本话语单元。更具体地,话语导航应用122计算重叠并识别DTi与DTj.之间的公共实体Ei,j。话语导航应用122建立在Ei,j中出现的实体之间的关系,如相等、子实体或部分。话语导航应用122然后针对在Ei,j中出现的每个实体对形成段落间修辞链接R(Ei,j)。
在框1706处,过程1700涉及响应于确定第一基本话语单元与第二基本话语单元之间的修辞关系,通过修辞关系链接第一话语树和第二话语树,从而创建扩展话语树。更具体地,话语导航应用122通过形成文本片段(例如,EDU(Ei)和EDU(Ej))的合并对每个修辞链接的修辞关联进行分类,从而构造其DT并使用此修辞链接的经识别的关联标记。
一方面,话语导航应用122将第一基本话语单元和第二基本话语单元组合成临时段落。话语导航应用122然后通过对临时段落应用话语解析来确定临时段落内的第一基本话语单元与第二基本话语单元之间的修辞关系。
另一方面,响应于未确定修辞关系,话语导航应用122在第一基本话语单元与第二基本话语单元之间创建阐述类型的默认修辞关系,并且链接第一话语树和第二话语树。
一方面,话语导航应用122执行跨文档的文本范围之间链接的自动构造和分类。这里可以使用以下一系列方法:词汇距离、词汇链、信息提取和语言模板匹配。词汇距离可以使用跨句子对的余弦相似性,并且词汇链可以更鲁棒地利用同义关系和上位关系。
扩展话语树可以在不同粒度级别的两个或更多个文档之间形成关系。例如,可以确定基本话语单元之间的关系,如关于过程1700所描述的。另外,扩展话语树可以表示单词、句子、段落、文档区段或整个文档之间的关系。如所描绘的,每个单独的图表由每个单独文档的更小的子图表构成。示出了表示单个文档内的话题之间的逻辑连接的链接。
图18还描绘了根据一个方面的不同粒度级别的文档的文本单元之间的关系。图18描绘了话语树1801、1802和1803,每个话语树对应于单独的文档。图18还描绘了各种文档间链接,如链接话语树1802和1803中的单词的单词链接1810、链接文档1801和 1802中的段落或句子的段落/句子链接1811、链接文档1801和1803中的短语的短语链接1812以及链接文档1801和1803的跨文档链接1818。话语导航应用122可以使用链接1810至1818在文档1801至1803之间导航。
使用扩展话语树进行导航
如由过程1700创建的扩展话语树等扩展话语树可以用于导航文档或其他文本主体。扩展话语树使能不同的应用,如自主代理、改进的搜索和导航以及问题-回答协调。
图19描绘了根据一个方面的使用扩展话语树在文档之间导航的过程1900的示例的流程图。
在框1901处,方法1900涉及访问表示多个文档的扩展话语树。如关于过程1200所描述的,扩展话语树可以包括用于第一文档的第一话语树和用于第二文档的第二话语树,以及文档之间的表示修辞关联的链接集合。
一方面,文档可以响应于特定用户问题或查询。话语导航应用122可以执行对文档集合、数据库或因特网资源的搜索,以确定相关文档。另外,话语导航应用122可以使用问题或查询作为第一文档,并且使用包括对问题或查询的回答的文档作为第二文档。
在框1902处,方法1900涉及根据扩展话语树确定响应于来自用户设备的查询的第一基本话语单元和对应于第一基本话语单元的第一位置。确定第一基本话语单元可以涉及在第一基本话语单元中匹配来自查询的一个或多个关键词。例如,如果查询中阈值数量的关键词与基本话语单元相匹配,则选择基本话语单元。
例如,话语导航应用122接收用户查询,例如,“亚特兰大(Atlanta)”。话语导航应用122确定包括实体“亚特兰大”的第一基本话语单元。话语导航应用122然后确定第一话语树内的相关位置。位置可以通过不同的方式来指示,如节点号或包括文档标识符和段落标识符的有序对。
在框1903处,方法1900涉及根据扩展话语树确定一组导航选项。选项可以包括文档内的基本话语单元之间的修辞关系,如第一话语树的第一基本话语单元与第二基本话语单元之间的第一修辞关系。选项还可以包括文档之间的修辞关联,如第一话语树的第一基本话语单元与第二话语树的第三基本话语单元之间的第二修辞关系。
继续以上示例,话语导航应用122确定两个选项可用:第一话语树内阐述了“亚特兰大”(例如,“亚特兰大勇士队(the Atlanta Braves)”)的一个选项以及第二话语树中包括关于“佐治亚理工学院(Georgia Tech)”的另外的信息的另一个选项。
在框1904处,方法1900涉及向用户设备呈现第一修辞关系和第二修辞关系。继续以上示例,用户设备170向用户呈现“亚特兰大勇士队”和“佐治亚理工学院”。
在框1905处,方法1900涉及响应于(i)从用户设备接收对第一修辞关系的选择,向用户设备呈现第二基本话语单元,或者(ii)从用户设备接收对第二修辞关系的选择,向用户设备呈现第三基本话语单元。
继续以上示例,用户设备170接收对“佐治亚理工学院”的选择,并且作为响应,话语导航应用122向用户设备170提供对应于“佐治亚理工学院”的基本话语单元,例如,“佐治亚理工学院是亚特兰大的一所研究型大学(Georgia Tech is a research university inAtlanta)”。
一方面,话语导航应用122使用所选结果来执行另外的分析。例如,基于对“佐治亚理工学院”的选择,话语导航应用可以在一个或多个文档中搜索与“佐治亚理工学院”相关的实体,或者搜索附加文档以进行分析并任选地整合到扩展话语树中。
将扩展话语树应用于自主代理
自主代理被设计成模仿人类智力活动,从而保持对话。代理可以以迭代的方式操作,以向用户提供高效和有效的信息。用于实施自主代理的现有解决方案(包括在对话中使用单词序列深度学习的解决方案)试图构造看似合理的单词序列来响应用户查询。相反,本文描述的某些方面使用扩展话语树来使代理能够引导用户尽可能快地导航到适当的回答。
例如,如果用户表述以下查询“我可以用一张信用卡支付另一张信用卡吗(Can Ipay with one credit card for another)”,代理会尝试识别用户意图和关于此用户的背景知识,以建立适当的上下文。例如,当没有现金时,个人可能希望用一张信用卡支付另一张信用卡以避免支付滞纳金。不同于像主要搜索引擎那样以链接到相关网页的片段形式给出回答,某些方面提供了供用户选择的回答话题。这样的话题让用户有机会评估一方面如何理解其请求以及另一方面与其问题相关联的知识领域是什么。在示例中,话题包括“余额转移(balance transfer)”、“使用支票账户上的资金(using funds on a checkingaccount)”或“取消信用卡(canceling your credit card)”。用户被提示选择澄清选项、深入查看这些选项中的任一个,或者拒绝所有选项并请求代理可以识别的新话题集合。
使用扩展话语树,话语导航应用122可以从话语树的根节点开始,所述根节点表示与用户查询最匹配的文本区段。然后,话语导航应用122通过从作为话语树的根节点的辅助的基本话语单元中提取短语来构造可能的话题集合。如果用户接受给定话题,则导航继续沿着图形的选定边缘进行。否则,如果话题没有覆盖用户兴趣,则话语导航应用 122在扩展话语树中向后导航,并前进到与最初用户查询匹配的另一个其他区段或另一个文档。
图20描绘了根据一个方面的使用扩展话语树回答用户问题的自主代理的示例。图20 描绘了聊天窗口2000,所述聊天窗口包括消息2001至2006。消息2001、2003和2005 由用户设备170发送,并且消息2002、2004和2006由话语导航应用122实施的自主代理发送。
如可以看到的,用户设备170通过发送陈述“我破产了并且身无分文”的消息2001来发起与代理的对话。代理导航扩展话语树,在扩展话语树内的第一话语树中找到话题,并确定响应消息2001的若干话题。
如消息2002所图示的,话题包括“是否超出你的经济能力范围(Is out of yourfinancial reach)”、“错误的决定会产生后果(Bad decisions have consequences)”、“我从破产中学到的东西(What I learned from being broke)”、“破产后的生活(Life afterbroke)”、“遭受与不同的人关系破裂的问题(Suffering from breakup issues withdifferent guys)”、“削减你现有的账单(Cut your existing bills)”。每个话题由扩展话语树中的导航链接确定。每个话题可以在第一话语树或另一个话语树中,因为扩展话语树包括文档之间和文档内部的链接。
利用消息2003,用户设备170从代理提供的选项中选择“削减账单”选项。然后,代理向用户设备170提供一段相关文本。此过程如消息2004至2006所图示的继续进行。
将扩展话语树应用于搜索和内容探索
在web上,信息通常以具有一定的区段结构的网页和文档的形式呈现。回答问题、形成候选回答话题以及尝试基于用户选择的话题提供回答是可以借助于包括所涉及文本的话语树的结构来表示的操作。当向用户推荐文本的某一部分作为回答时,此用户可能想要钻研更具体的东西、提升到更一般的知识水平或者转移到同一水平的话题。从文本的一部分导航到另一部分的这些用户意图可以表示为这些部分之间的协调或从属话语关联。
本公开的各方面改善了基于web的搜索的访问时间。例如,各方面可以将来自各种网页和文档的文本块动态地组织成树形,使得根据用户的选择,系统尽可能快地导航到此树的意向终端叶。另外,如果用户用多个句子描述其问题,则自主代理试图通过找到修辞结构与问题的修辞结构相协调的回答来解决这个问题。通过这样做,代理不仅提供了关于来自问题的实体的回答,还匹配了其间的逻辑相互关系。
内容探索
一方面,扩展话语树用于促进内容探索。在示例中,用户设备170接收来自用户的问题“什么是分面搜索?(What is faceted search?)”用户期望了解分面搜索是如何运行的,并且因此希望熟悉其他相关概念。
作为响应,话语导航应用122提供另外的内容探索或搜索选项。话语导航应用122通过形成扩展话语树来确定相关文档集合。
图21描绘了根据一个方面的扩展话语树的示例。图21描绘了扩展话语树2100,所述扩展话语树包括话语树2102、2103和2104。每个话语树2102至2104都是根据特定文本段落创建的。在此示例中,话语导航应用122根据不同文本段落创建单独的话语树 2102至2104。然而,不同大小的文本单元是可能的,如句子或多个段落。
更具体地,话语导航应用122根据以下文本创建话语树2103,所述文本与分面搜索话题相关:“方面对应于信息元素的属性。其通常通过使用实体提取技术对项目文本进行分析得到,或者从数据库中预先存在的字段(如作者、描述符、语言和格式)中得到。因此,现有的网页、产品描述或在线文章集可以用导航方面进行扩充。”
另外,话语导航应用122根据以下文本创建话语树2102,所述文本也与分面搜索话题相关:“在学术界,分面搜索主要吸引了图书馆和信息科学研究人员的兴趣,但专门从事信息检索的计算机科学研究人员的兴趣有限。”
话语导航应用122根据以下文本创建话语树2104,所述文本与实体提取话题相关:“实体提取(也被称为实体名称提取或命名实体识别)是一种信息检索技术,所述技术是指识别来自文本的关键元素并将其分类为预定义类别的过程。”
话语导航应用122根据创建的话语树识别以下用于内容探索的附加实体:(1)实体提取;(2)信息检索;(3)数据库中预先存在的字段;以及(4)用导航方面扩充。更具体地,话语导航应用122确定这些实体通过阐述关系关联并创建链接2120至2123。由节点2111 表示的信息检索阐述了由节点2110表示的分面搜索,因此链接2120连接节点2110和 2111。由节点2113表示的实体提取阐述了由节点2112表示的分面搜索,因此链接2121 连接节点2112和2113。由节点2115表示的信息检索阐述了实体提取节点2114,因此链接2123连接节点2114和2115。最后,节点2115阐述了实体提取的话语导航应用122,因此话语导航应用122创建连接节点2113和2115的话语树间链接2122。
话语导航应用122向用户设备170提供实体。用户设备170向用户提供实体,用户可以跟随链接登陆单个信息或运行新的搜索以获得供选择的多个搜索结果。例如,从“分面搜索”开始,用户设备170可以导航到信息检索(例如,通过到节点2111的链接2120)、实体提取(例如,通过从节点2112到节点2113的链接2121)、信息检索(通过链接2122) 或关于信息检索的另外的信息(通过到节点2115的链接2123)。
创建附加的扩展话语树
话语导航应用122可以根据现有的扩展话语树构建附加的扩展话语树。更具体地,通过使用机器学习模型130,话语导航应用122可以基于第一领域(例如,工程)中的文本的话语树、通过使用第二领域(例如,法律)中的文本的扩展话语树集合来创建扩展话语树。
在示例过程中,话语导航应用122访问表示文档集合中的第一文档的第一话语树和表示文档集合中的第二文档的第二话语树。
继续所述示例,话语导航应用122通过将第一话语树和第二话语树应用于经训练的分类模式(例如,机器学习模型130)来从扩展话语树集合中获得参考扩展话语树。扩展话语树集合包括由如过程1700等过程创建的多个扩展话语树。更具体地,分类模型通过扩展话语树集合迭代,以标识第一候选话语树和第二候选话语树。分类模型将第一候选话语树和第二候选话语树标识为第一话语树和第二话语树的最佳匹配。分类模型可以使用不同的模型,如分类器或最近的邻居等。
继续所述示例,话语导航应用122根据参考扩展话语树确定第一参考话语树与第二参考话语树之间的一个或多个链接。可以通过使用过程1700(例如,框1706)来确定链接。然后,话语导航应用122将链接传播到第一话语树和第二话语树,从而创建扩展话语树。以这种方式,话语导航应用122通过标识包括与第一话语树和第二话语树类似的话语树的扩展话语树并且然后通过生成适当的话语树间链接创建了扩展话语树。
用于评估的数据集
对Web 2009(查询1至50)和Web 2010(查询51至100)轨迹的TREC数据集进行了实验,所述数据集总共包含100条查询及其在Clueweb09 B类数据集2上的相关性评估(在2009年1月与2月之间抓取了50,220,423个英文网页)。选择这些数据集是因为其在社区中被广泛使用,从而允许与最新技术进行比较。使用Cormack等人的垃圾邮件排名移除垃圾邮件,其中推荐的百分比得分设置<70指示垃圾邮件3。考虑此集合的子集,所述子集由响应于由基线检索模型使用Indri IR系统对经调整的设置(在第4.1.2 节中描述)的每条查询而检索的前1000个文档构成。
形成了与汽车维修建议相关的Q/A对数据集。这些对从对话中提取作为第一言语和第二言语,使得问题是七到十五个关键词,并且回答是三到六个句子。获得此资源以训练对话支持系统,但所述资源也被证明对评估搜索有用。此数据集是从(CarPros 2017) 下载的,并且可在(Github Car Repair Dataset 2017(Github汽车维修数据集2017))处获得。
回答(Webscope 2017)是话题广泛的问题-回答对集合。在14万个用户问题的集合中,选择了其中的3300个,这些问题包括三到五个句子。大多数问题的回答都相当详细,因此没有对回答应用句子长度过滤。
我们的社交媒体数据集包括主要来自Facebook上的帖子的请求-响应对。还使用了与就业相关的LinkedIn.com和vk.com对话的一小部分。在社会领域,写作的标准相当低。文本的内聚性非常有限,并且逻辑结构和相关性常常缺失。作者通过其自己的账户和多年来可通过API获得的公共Facebook账户形成了训练集(在编写Facebook API以获得消息时不可用)。另外,使用了来自Enron数据集的860个电子邮件线程。而且,收集了对代表人类用户-主机自动生成帖子的代理的帖子的手动响应数据。从各种社交网络来源形成了4000对。
从Fidelity.com下载金融问题数据集。此数据集将演示如何在合理覆盖的纵向领域中提高搜索相关性。对于两个系统都有相关回答的查询,我们将使用提出的聊天机器人的信息访问的效率与主要的web搜索引擎(如谷歌)进行了比较。对于搜索引擎,未命中(miss)是与给定用户相关的搜索结果之前的搜索结果。对于聊天机器人,未命中是导致用户选择代理建议的其他选项或请求其他话题的回答。
问题的话题包括个人财务。十二个用户(作者的同事)向代理询问了15到20个反映其财务状况的问题,并且当他们对回答满意或者不满意并放弃时停止了询问。同样的问题被发送到谷歌,并且评估者必须点击每个搜索结果片段来获得文档或网页,并决定所述文档或网页是否令他们满意。
聊天机器人与搜索引擎的搜索效率的比较结构在表4中示出。箭头的顶部部分示出了所有搜索结果(左侧)均用于形成用于澄清的话题列表。底部的箭头示出了聊天机器人根据两轮用户反馈和澄清最终选择了底部回答。
图22描绘了根据一个方面的使用搜索引擎的导航与使用启用了扩展话语树的自主代理的导航之间的比较。图22描绘了比较2200,所述比较包括呈现给搜索引擎的问题2201、响应于搜索而收集的结果2102至2105、用户与自主代理之间的交互2201至2206。箭头示出了不同话题的多个搜索结果如何汇集成列举自动提取的话题的单个澄清请求。
代替于查看所有搜索结果来找到相关的结果(使用搜索引擎,左边),用户回答由代理编写的澄清请求并深入其感兴趣的话题(右边)。箭头示出了不同话题的多个搜索结果如何被汇集成列举自动提取的话题的单个澄清请求。然后,所选话题会将用户导航到新文档或同一文档的新区段。
Figure RE-GDA0003233459430000261
从表4中可以观察到,聊天机器人的知识探索会话时间比搜索引擎的要长。虽然这似乎对用户没有太大好处,但由于用户获取的机会增加,因此企业更希望用户在其网站上停留更长的时间。预计花费7%以上的时间阅读代理回答以让用户更好地熟悉某个领域,尤其是当这些回答遵循此用户的选择时。代理的探索会话的步骤数是搜索引擎所需步骤数的四分之一。如MAP和NDCG等用于量度搜索引擎性能的传统方法也适用于传统搜索引擎与聊天机器人之间关于信息访问效率的比较(Sakai 2007)。与传统搜索引擎和专注于模仿人类智力活动的聊天机器人相比,使用具有扩展话语树驱动导航的聊天机器人是一种高效且富有成效的信息访问方式。
使用话语树的对话管理
如所讨论的,某些方面涉及使用话语树或交流话语树来导航文本。应用的示例是数据探索。在一些任务取向的领域中,目标是完全告知用户某个特定的重要信息。进一步地,信息的可信度是有帮助的。用户应该相信所提供的信息。为了促进这一点,在某些情况下,自主代理可以依赖于与类型解释和论证的修辞关联相关的文本。以这种方式,自主代理可以导航用户通过可能的分歧和误解,以确保问题得到充分解释。
在更具体的示例中,自主代理可以将文本分成通过使用话语树确定的逻辑部分,而不是向用户提供整个文本段落,并且逐项地向用户提供相关文本部分,从而提高文本的教育价值。代理使用话语树(DT),话语树提供了文本作者如何组织其思想的结构。如所讨论的,DT是叶子对应于从句的连续单元(基本话语单元,EDU)的标记树。相邻的 EDU以及更高层级(更大)的话语单元通过修辞关联(例如,原因、时间顺序)以某种层次组织。反对称关联涉及EDU对:作为关联的内核部分(core part)的核心(nuclei) 和作为修辞关联的支持部分的辅助(satellites)。当对应的核心已被用户接收和确认时,自主代理将辅助作为言语传递给用户。在文本中递归地应用修辞关联,直到该文本中的所有单元都是修辞关联的组成部分。因此,话语树包括涵盖其他更低层级的关联的顶级关联。
进一步地,一些方面使用交流话语树(CDT)。CDT被设计成将修辞信息与言语行为结构相结合,CDT是弧线标记有交流动作的表达的DT。这些表达是表示参与相应的言语行为的代理的逻辑谓词及其主语。添加这些标记的目的是将特定于言语行为的信息结合到DT中,使得其学习发生在更丰富的特征集上,而不仅仅是基本话语单元(EDU) 的修辞关联和句法。
如所讨论的,核心与辅助之间的修辞关联行为可以被认为是文本中最重要的部分,而对核心有贡献的辅助是次要的。核心包含基本信息,并且辅助包含关于核心的附加信息。在没有对应的核心的情况下,辅助可能常常是不可理解的。相比之下,删除了辅助的文本在一定程度上可以被理解。因此,内容传递通常应该以先传递核心然后传递辅助的方式来建立。如果用户明确询问在辅助中发生的话题,则可以传递辅助,但其核心也应该以某种形式或另一种形式给出。
导航文本主体可以用线性方式完成:从第一个短语或句子片段开始,到最后一个短语或片段结束。但是通过以这种方式导航,不会向用户呈现一般信息到特定信息(包括属性和实体之间的关联)。因此,某些方面通过使用基于话语的技术来提高可读性和可理解性。另外地或可替代地,根据用户言语确定用户意图。确定意图有助于以让用户专注于听或读的方式导航文本。用户意图列表在表5中呈现。
用户意图
要求特定话题
确认话题是熟悉的
确认对某个话题感兴趣
转到更多细节/放大
了解原因
了解后果
了解主张的论点
不同意陈述
表5:基本用户意图
图23描绘了根据一个方面的使用话语树在文档内导航的过程2300的示例的流程图。过程2300可以用于遍历话语树,并且当意图在整个导航中改变时提供满足用户意图的信息。
在框2301处,过程2300涉及进行引入并向用户设备提供文本的主要话题。在示例中,话语导航应用122访问输入文档110a-n、从输入文档110a-n中的一个或多个输入文档中识别主要话题,并向用户设备170提供话题。
话语导航应用122实施自主代理。导航文本T的话语树是传达文本内容的高效方式。代理通过进行引入并且然后提供主要话题MT来开始。一方面,引入包括鼓励用户继续对话,如问题或知识共享请求。
主要话题可以从话语树中获得。如关于过程1500所讨论的,创建话语树涉及从文本中识别出片段或基本话语单元。每个话语树包括根节点(通常在图表的顶部示出)、非终端节点和终结节点,每个非终结节点表示片段中的两个片段之间的修辞关系。每个终端节点与片段之一相关联(例如,表示片段的文本)。
为了形成主要话题,话语导航应用122针对终端节点子集的每个节点计算从根节点开始的相应路径长度。话语导航应用122从终端节点的子集识别出具有是所述路径长度中的最小路径长度的路径长度的话题节点。然后,话语导航应用122通过从与话题节点相关联的核心基本话语单元中提取名词短语来从话题节点中确定话语树的话题。
在框2302处,过程2300涉及接收用户言语并确定用户意图。例如,代理可以询问用户是否想要更多的细节、用户是否不同意等等。用户可以要求更多的细节ET、不同意 ET或就此文本OT的范围之外的话题进行提问。
确定意图可以涉及机器学习或算法技术。例如,话语导航应用122可以将言语提供给机器学习模型130,所述机器学习模型可以被训练成将言语分类为对更多细节的请求、不同意、对特定话题的请求等。在其他情况下,可以使用算法技术,例如,分析言语中的单词或短语的一套规则。这种技术的示例公开于标题为“Using Communicative Discourse TreesTo Detect A Request For An Explanation(使用交流话语树来检测对解释的请求)”的共同未决的美国专利申请17/162,740中,所述美国专利申请通过援引以其全文并入本文。
代理对用户的持续鼓励可以取决于当前导航节点(现在是MT节点)的修辞关联。用户根据代理的鼓励问题以某种形式回答(提出问题)。示例包括:
阐述->想了解更多?(Want to know more?)
对比->但你知道吗?(But you know what?)
归因->知道出处吗?(Do you know the source?)
原因/后果/理由->知道为什么吗?(Do you know why?)
一旦代理接收到用户问题,就关于是否需要搜索外部知识源和/或是否应该启动机器阅读理解方法来找到事实问题的值以及还识别出现答案的基本话语单元的位置来分析用户问题。基于所述意图,代理确定用户是否改变话题以及是否需要围绕话语树导航。
在框2303处,过程2300涉及确定用户正在要求更多细节(由IT表示),并提供与主要话题(MT)的阐述相关联的EDU。指示请求更多细节的言语的示例包括“告诉我关于实体e的情况(tell me about entity e)”(其中e是实体),或者“是的,请告诉我更多。(Yes,tellme more.)”在一些情况下,机器学习可以用于对意图进行分类。
在更具体的示例中,话语导航应用122在话语树中识别出直接连接到话题节点的父节点。根据父节点,话语导航应用122在话语树中识别出通过类型“阐述(elaboration)”的修辞关联与父节点相关的附加终端节点。
话语导航应用122从与附加终端节点相关联的基本话语单元中提取附加文本,并将附加文本提供给用户设备。
在框2304处,过程2300涉及确定用户不同意、提供通过解释或原因与MT或IT连接的EDU。指示不同意意图的文本示例为“我不同意(I disagree)”或“我不相信这个 (I don’tbelieve that)”。
继续所述示例,话语导航应用122在话语树中识别出直接连接到话题节点的父节点。话语导航应用122在话语树中识别出通过类型“阐述”或类型“原因”的修辞关联与父节点相关的附加终端节点。话语导航应用122从与附加终端节点相关联的基本话语单元中提取附加文本并将附加文本提供给用户设备。在一些情况下,向用户设备提供附加文本以及代理坚持回复正确的陈述。
在框2305处,过程2300涉及确定用户已经询问了话题范围之外的问题,并且然后回答所述问题作为事实问题,并且然后提供作为主要话题的阐述的EDU。更具体地,如果问题在OT范围之外,则应该将其作为事实问题来回答,但是因为代理应该将用户带回 T,所以回复应该以阐述(IT)结束。
话语导航应用122在话语树中识别出通过阐述类型的修辞关系与话题节点相关联的辅助基本话语单元。话语导航应用122向用户设备提供与辅助基本话语单元相关联的文本。
在框2306处,过程2300涉及确定用户怀疑主张的有效性,并且然后提供通过归因与主要话题连接的EDU。如果MT中的主张有争议,则代理应该尝试以其他方法说服用户。归因(MT)是告知用户出处的回答。可替代地,用户可能会明确要求来源。
继续所述示例,话语导航应用122在话语树中识别出直接连接到话题节点的父节点。话语导航应用122在话语树中识别出通过类型归因的修辞关联与父节点相关的附加终端节点。话语导航应用122从与附加终端节点相关联的基本话语单元中提取附加文本并将附加文本提供给用户设备。在一些情况下,向用户设备提供附加文本以及代理坚持回复正确的陈述。
在框2307处,过程2300涉及从言语中识别出请求了特定话题以及基于当前基本话语单元类型和当前修辞关联类型提供响应。对话的巨大可变性可以通过为每个用户的意图和话语树中的当前位置类型生成特定回复来实现。意图到当前节点、到关联、到代理回复的映射在表6中示出。
过程2300执行如表6所示的操作。如表6所示,如果一类意图是“要求特定话题(ask for a specific topic)”,并且当前节点(例如,在话语树中)是核心,并且相关修辞关联属于阐述类型,则话语导航应用122可以返回核心的文本,任选地具有提示“想了解更多吗(do you want to learn more)”或类似提示。如所示出的,基于当前节点是核心还是辅助并且基于修辞关联类型,其他示例也是可能的。
Figure RE-GDA0003233459430000301
Figure RE-GDA0003233459430000311
在框2308处,过程2300涉及从言语中识别出特定话题是已知的以及基于当前基本话语单元类型和当前修辞关联类型提供响应。在框2308处,过程2300执行如表6所示的操作。例如,如果用户意图被识别为话题是已知的,当前节点类型是核心,并且当前修辞关联是类型条件,则话语导航应用122可以向用户指示用户知道它,但是可以询问用户是否知道其何时为真。
在框2309处,过程2300涉及从言语中识别出对话题的兴趣以及基于当前基本话语单元类型和当前修辞关联类型提供响应。在框2309处,过程2300执行如表6所示的操作。例如,如果用户确认对代理提供的话题感兴趣,并且当前节点是辅助,并且修辞关联是阐述类型,则话语导航应用122返回对应于辅助的文本并继续遍历。
在框2310处,过程2300涉及识别出关于行动者的问题,从而形成CDT,并基于交流动作提供响应。CDT可以提供对对话导航有用的附加信息。例如,话语导航应用122 可以为过程2300中使用的话语树创建交流话语树。
因此,代理可以访问与当前节点相关联的交流动作,并向用户呈现从所述交流动作生成的问题。例如,交流动作CA=告诉(主题)意味着告知代理主题,而交流动作CA =拒绝(主题)=>代理不想主题发生。
在框2311处,过程2300涉及当存在未向用户设备提供的EDU时继续迭代。过程2300迭代,直到在T中不再有EDU或者用户终止对话。如果代理为使用户回到T而持续性太高,则该用户可能会过早终止对话。否则,如果代理持续性太低,则用户会偏离T 太远并且可能会读取更少的T内容(EDU(T))。期望优化代理保持最佳持续性,以最大化所传递的EDU(T)的数量,直到用户放弃对话。
图24描绘了根据一个方面的示例性话语树及其导航。图24描绘了话语树2400、基本话语单元2401、2402、2403和2404(示出了其他基本话语单元但没有标记)、以及言语2410至2414(其是代理与用户之间的对话的一部分)。话语树2400以基于文本的形式示出。缩进级别对每个节点的深度进行编码。具有EDU的终端节点被标记为‘文本:’并且修辞关联也是这样匹配的(“归因”、“阐述”等)。
话语树2400表示以下文本:“媒体1报导,[语句1]。某人XX向媒体1解释,这是因为[语句2],并且[语句3]。然而,组织1认为,[语句4]。[语句5]……”
言语2410至2413是从用户设备接收的言语,例如,由用户响应于显示基本话语单元2401至2404中的一个或多个而生成的言语。第一代理言语由IT表示。箭头从用户言语2410至2412指向可以用作代理响应的基本话语单元。
例如,基于话语树2400的对话以代理呈现来自基本话语单元2401和2402的文本“媒体1报导,[语句1]”开始。作为响应,如言语2410中所反映的,用户询问“他们为什么要这样做?我不相信这个。”代理将言语2410中的意图识别为对更多信息的请求。代理识别出基本话语单元2401和2402提供回答。然后,用户在言语2411处询问“某群体是否参与其中?”代理将言语2411识别为对更多信息的请求,并且基本话语单元2403 和2404包括处理所述请求的信息。
继续所述示例,用户然后在言语2413处询问“谁是XX?”代理将言语2413识别为对超出初始文本范围的信息的请求。如可以看出的,初始文本中并没有解释“XX”是谁。
图25描绘了根据一个方面的由图24中描绘的话语树产生的示例性对话。图25描绘了发生在代理与用户设备之间的对话2500。对话2500包括言语2501至2515。言语2501、2503、2505、2507、2509、2511、2513、2515由代理(例如,通过过程2300)生成。在这些言语中,斜体指示由代理添加的短语,并且代理对言语的分析结果和回复选择规则/ 结果以方括号提供。来自源文本的EDU用双引号引起来。言语2502、2504、2506、2508、 2510、2512和2514是用户提供的(例如通过用户设备)。
如可以观察到的,对话是合理的,尽管没有应用数据驱动的方法。用户是否偏离目标文本并不要紧,只要代理总是将用户带回到EDU和与用户所询问或主张的相关的修辞关联,或者只是遵循DT导航流程(从更重要的、更接近根节点的到不太重要的)。
如果用户提出的问题在目标文本的范围之外,则代理从外部来源提供回答,然后还切换话题并返回到目标回答的业务范围,从而继续导航。
最终的示例对话如下所示:
代理:[语句1]
用户:他们为什么要这样做?不要相信这个。
代理:这是根据媒体1的报道
用户:某群体是否参与其中?
代理:这是因为[语句2]
用户:这是为什么?
代理:某人XX解释说……
用户:XX是谁?
代理:XX是……,并且,[语句3]
用户:[关于语句3的提问]
代理:组织1认为,[语句4]
用户:这关组织1什么事?
代理:组织1正在关注……
代理:你知道[针对语句5的提问]吗?
用户:我知道,………
代理:[语句5]
图26描绘了根据一个方面的示例性话语树及其导航。图26描绘了话语树2600、基本话语单元2601至2605和言语2610至2612。话语树2600以基于文本的形式示出。缩进级别对每个节点的深度进行编码。具有EDU的终端节点被标记为‘文本:’并且修辞关联也是这样匹配的(“归因”、“阐述”等)。言语2610至2612是从用户设备接收的言语。箭头从用户言语2610至2613指向可以用作代理响应的基本话语单元。
图26示出了通过话语树2600的对话流。首先引入引入性话题(IT):引入性话题为“继续使用Tu-104”并且从基本话语单元2601得出。接下来,引入主要话题MT“飞机不可靠。”
因为用户没有指示特定兴趣,所以代理沿“阐述”修辞关联继续前进到下一子话题,子话题是“飞机非常不可靠、沉重、非常不稳定且控制响应差”,其来自基本话语单元2602。从图26中可以看出,基本话语单元2602通过“阐述”修辞关联与基本话语单元 2601的父代——“对比”修辞关联相关。
然后,用户用言语2610中断默认导航流,询问问题“它导致事故了吗”,迫使跳转到基本话语单元2604“至少发生了两次事故。”
言语2612中的用户问题“为什么发生?”没有违反原始文本流,并且代理到达基本话语单元2605“因为上仰现象。”当用户询问“这是什么原因造成的?(What caused it?)”(并非“这种现象造成了什么?(What does this phenomenon cause?)”,这将是直接响应),代理被迫跳回原因回答“机翼空气动力学设计不佳”。对于话题的“为什么”问题以及与辅助节点相关联的“解释”或“原因”修辞关联,代理提供来自辅助节点的文本作为回答。没有“原因”的“为什么”问题迫使代理尝试确定理由(例如,通过web 挖掘或将“为什么”问题转换为“什么”问题,并通过更传统的搜索手段而非话语技术针对“什么”找到实体)。
顶部IT和MT的EDU突出显示。引入文本T“继续使用Tu-104”,随后是主要话题“飞机不可靠。”注意,此主要话题MT不是导引部分的辅助,而是距离此DT的根最近的下一个核心。在给定的探索场景中,尚未达到辅助(IT)。
图27描绘了根据一个方面的示例性话语树及其导航。图27描绘了用户最初是被动的对话流。图27描绘了话语树2700、基本话语单元2701至2704和言语2710至2715。话语树2700以基于文本的形式示出。缩进级别对每个节点的深度进行编码。具有EDU 的终端节点被标记为‘文本:’并且修辞关联也是这样匹配的(“归因”、“阐述”等)。
如果IT和MT一旦宣布用户确实决定了问题,则代理试图通过依靠“对比(Contrast)”询问“但是你知道吗”来引起用户对辅助基本话语(IT)内容的兴趣。
一旦用户响应“告诉我!(Tell me!)”(言语2711)代理就响应“虽然飞机的安全记录很差……(although the safety record of the aircraft was poor…)”,从而引发用户问题“飞行员对此有何感受?(How do pilots feel in it?)”代理回答“机组人员会以高于建议进场速度的速度进场,你知道为什么吗?(aircrew would fly approaches abovethe recommended approach speed)”。添加第二言语是因为导航走向辅助。
对话的流程并不总是遵循初始文本的流程,因为用户可能会以完全不同的顺序提问。而且,提供完整的段落作为对关于特定点的问题的回答会使用户被信息淹没。
这是一种混合主动性对话:代理开始对话,引入话题。然后,用户可以跟随代理的主动性,接受其共享信息的提议,或者开始询问用户自己关于话题的问题,从而迫使代理在DT导航中跳转。
图28描绘了根据一个方面的示例性话语树及其导航。图28包括话语树2800、基本话语单元2801至2804和言语2810至2814。话语树2800以基于文本的形式示出。缩进级别对每个节点的深度进行编码。具有EDU的终端节点被标记为‘文本:’并且修辞关联也是这样匹配的(“归因”、“阐述”等)。
图28所描绘的示例图示了相比于其他示例更少参与的用户。这里,代理的主动性稍高。代理发起对话,在言语2810中询问“你知道痛风患者经历了什么吗?(Do you knowwhat people with gout experience?)”。用户在言语2811处响应说“告诉我!(tellme!)”。作为响应,代理通过告诉用户“关节中的烧灼感、瘙痒感或刺痛感(burning,itching,or tingling feeling in a joint)”来做出响应,如言语2803中所示。
另外,图28图示了交流话语树(CDT)如何能够提供关于文本中提到的个体的精神状态的附加信息。当用户提出涉及交流动作或精神状态的问题时,代理可以将问题与CDT中交流动作的弧线标记进行匹配,并且然后与该交流动作的主题进行匹配。例如,用户在言语2812中询问“如何了解身体消息?(how can one learn from body messages?)”
图29描绘了根据一个方面的示例性话语树及其导航。图29包括话语树2900、基本话语单元2901至2906和言语2910至2919。话语树2900以基于文本的形式示出。缩进级别对每个节点的深度进行编码。具有EDU的终端节点被标记为‘文本:’并且修辞关联也是这样匹配的(“归因”、“阐述”等)。
话语树2900对应于以下与癫痫相关的文本:“癫痫持续状态是一种常见的危及生命的神经系统疾病,其本质上是一种急性、长期的癫痫危象。(Status epilepticus is acommon, life-threatening neurologic disorder that is essentially an acute,prolonged epileptic crisis.)癫痫持续状态可以表示早先存在的癫痫发作病症的恶化,即癫痫发作病症的初期表现。 (Status epilepticus can represent an exacerbationof a preexisting seizure disorder,the initial manifestation of a seizuredisorder.)然而,这也可能是除癫痫发作病症之外的损伤。 (However,it can also be aninsult other than a seizure disorder.)在已知患有癫痫的患者中,最常见的原因是用药的改变。(In patients with known epilepsy,the most common cause is a changein medication.)大多数癫痫发作是自发终止的。(Most seizures terminatespontaneously.)积极治疗对于癫痫持续状态是必需的。(Aggressive treatment isnecessary for status epileptics.)无论患者是否已经服用苯妥英,临床医生都不应在施用负荷剂量的苯妥英之前等待血液水平结果。(Clinicians should not wait forblood level results before administering a loading dose of phenytoin,regardless of whether the patient is already taking phenytoin.)用苯二氮、磷苯妥英和/或苯巴比妥积极治疗的大多数癫痫持续状态患者都经历了其癫痫发作完全停止。(Most patients with status epilepticus who are treated aggressively with abenzodiazepine,fosphenytoin,and/or phenobarbital experience completecessation of their seizures.)如果癫痫持续状态没有停止,则指示全身麻醉。(Ifstatus epilepticus does not stop,general anesthesia is indicated.)”
用户以言语2910开始对话,言语陈述了“什么是癫痫?(what is epilepticus?)”作为响应,代理在言语2911中提出问题“你知道癫痫代表什么吗?(do you know whatepilepticus represents?)”并且用户回答“是的,告诉我!(Yes tell me!)”代理由此导航话语树2900。代理提供IT,即“癫痫持续状态可以表示早先存在的癫痫发作病症的恶化(Status epilepticus can represent an exacerbation of a preexisting seizuredisorder)”,并且然后在言语2913中询问“你知道癫痫持续状态不一定是癫痫发作病症吗?(Do you know that it is not necessarily a seizure disorder?)”作为响应,用户在言语2914处询问“告诉我 (tell me)”。
作为响应,代理继续在言语2915中陈述“它也可能是一种损伤(it can also bean insult)”。用户在言语2916处询问“大多数癫痫发作是如何终止的?(How do mostseizures terminate?)”然后,代理导航到陈述“自发(spontaneously)”的基本话语单元2906。
然后代理在言语2917处询问“你知道已知癫痫患者最常见的病因吗?(Do youknow the most common cause in patients with known epilepsy?)”,并且用户在言语2918处回复“我知道。病因是药物的变化(I know.It is a change in drug)”。代理从基本话语单元 2905以言语2919处的“用药的变化(a change in medication)”确认了这一点。
话题分类
一方面,话题和意图可以并行地量度。例如,可以训练第一分类模型来预测话题,并且可以训练第二分类模型来预测意图。第一分类模型和第二分类模型可以各自接收用户言语,并且并行地进行其各自的分类。还可以并行地运行第三分类模型,从而预测话题和意图。然后,可以合并预测的话题(即,来自第一模型和第三模型),并且可以合并预测的意图(即,来自第二模型和第三模型)。
在开放领域对话代理中,话题和对话意图分类可以被视为文本分类问题。与一般的文本分类相比,由于以下原因,言语分类提出了更大的挑战:(1)人类言语变得简短的趋势;(2)用户频繁提到的词汇表之外的词汇和实体;以及(3)可用的标记开放领域人机对话数据的缺乏。
自然对话需要取决于上下文的言语,因此在不考虑前述言语的情况下是不可能对话题和意图进行分类的。例如,当客户回复“哦,是的(Oh,yeah)”表述时,其可以被解释为如“接受同意”或“话题切换”等若干选项之一。为了帮助解决这些问题,提出了针对开放领域会话代理的上下文感知话题和对话意图分类模型。为了标识话题和对话意图,开发了多专家混合(Mixture of Experts)模型。
针对如“糖尿病”和“肺病”等新话题对话题分类器进行训练,并且针对如“是-回答”等新对话意图对意图分类器进行训练。另外,意图分类器旨在提高一些特定类的质量,以更好地适应健康的用例。例如,观察到默认意图分类器会将用户不同意视为“话题切换”,即使这不是当前对话情况的最准确标记。为了改善这种情况,添加了另一个意图“拒绝”,以覆盖用户不同意上一次系统响应但不打算结束当前讨论话题的情况。
认知状态
以一段文本为中心的对话的一个目的是确保接受者从文本中获得信息、能够自愿遵循说明、相信文本并且能够与他人共享理念。换句话说,一个目标是说服用户话题很重要,并且需要被很好地理解。代理扮演说服者的角色,而用户扮演被说服者的角色。然而,为了以更可靠的方式实现这一目标,角色可以互换并鼓励用户回答问题,如可以由代理在随后的言语中确认/更新/修改答案。
说服的目的是让说服者改变被说服者的想法,并且提供好的论点以及可能的反驳对此至关重要。计算说服领域的一些最新进展集中在对被说服者的理念进行建模的需求上,以使说服者更好地选择论点呈现给被说服者。例如,如果说服者想说服被说服者停止在人行道上跑步,并且说服者知道被说服者相信如果放弃任何跑步他的体重会增加,则说服者可以通过对此提供反驳来开始对话,例如说本地有一个非常适合在草地上跑步的体育场。
对被说服者进行建模的一种方法是利用认知方法进行论证。认知状态管理器124可以执行此功能。使用争论图表来呈现它们之间的争论和攻击。当代理开始与被说服者的对话时,并没有关于被说服者已经知道什么和不知道什么的模型。这是最初的默认认知状态。然后在对话期间,参与者根据某种协议进行移动。每次移动后,使用话语树上定义的更新功能对认知状态进行更新。
具有由n个EDU构成的DT的文本。最初,代理认为用户不知道此文本的任何内容:
Figure RE-GDA0003233459430000381
不知道(用户,EDU(i))。i=0..n是根据如何构造DT(初始顺序)来排序的。用户无法以任何顺序获得这些EDU(i):此顺序应遵循DT的导航,因为例如,只要获取了其核心EDU(i-1)就无法获取作为辅助的EDU(i)。代理无法只遍历DT,因为每个用户都有不同的初始知识和兴趣并通过其选择的认知状态来引导代理会话。因此实际序列偏离0..n。
当用户询问EDU(i)时,代理认为该用户想知道EDU(i)。如果用户共享EDU(i),则代理决定此用户还想要知道或想要共享EDU(i+1)以及EDU(i-1),从而从核心和辅助两个方向遍历DT并返回。
如果用户打断代理并想要新的话题t,则代理找到被确定为类似的话题t~EDU(i)或启动外部搜索并尝试将外部搜索结果与EDU(i)相关联。如果关于e的属性a的问题是由用户给出的,不能从当前节点I访问,则代理转变到机器阅读理解模式并确定值a连同新节点j。
如果代理处于辅助节点,则其已经传递了主要点e,并且现在能够产生关于e的阐述、e的归因、e的原因、e的时间顺序的言语而不改变当前话题。相反,如果代理处于核心模式,则其与用户共享主要核心话题e,并期望用户请求关于e、e的归因、e的原因等更多细节的信息。目的是在用户放弃对话之前,尽可能减少未传递的EDU。离线情况下,对要传递的一段文本进行话语解析。然后对其进行附加定制解析,以确定导航的特定修辞关联。而且,本体是整合的,以区分可以由该文本回答的问题与需要外部搜索的问题。
在线情况下,当用户回复时,其意图被建立(被分类为预先确定的类别之一)。而且,当用户分享其知识时,知识必须与要传递的文本的给定段落相匹配,以与此文本兼容、矛盾或独立于此文本。
持续代理的中心部分是话语树导航器。其主要功能是通过用户意图和在话语树中的当前位置建立回复类型。在每个用户言语后,导航器决定要继续进行到哪个下一个节点。如果用户有明确的知识请求,则需要跳转到具有文本块的节点来处理该请求。否则,持续代理会采取主动,并为用户生成一组选项以继续前进。这些选项与进入和离开话语树的当前节点的修辞关联相匹配。作为用户意图特性的一部分,用户认知状态之间的匹配也由导航器完成。
根据认知状态,导航器选择文本片段来回复用户,并且还鼓励用户以某种形式或另一种形式继续知识探索。有关回复哪个文本的决定以及有关提议哪个下一步的决定是独立进行的。
内部和外部搜索引擎首先将用户查询或用户陈述与话语树的每个EDU相匹配。在问题和陈述两种情况下,其跳转到在句法和语义上最接近用户言语的节点。在问题的情况下返回答案(此EDU),并且在陈述的情况下确认是否与此EDU匹配或被拒绝,并且然后鼓励用户接收正确的信息块。搜索引擎实施方式基于结构化word2vec,结合句法和语义特征来寻找与用户言语匹配的最佳文本片段。
知识回复生成器和导航回复生成器两者都采用基于机器学习的修辞一致性来确保所选言语不仅符合话题,而且在风格和逻辑上也与先前的言语一致。
评估
研究人员面临的主要挑战之一是,由于缺乏针对任务取向型对话的明确目标,因此缺乏用于量度性能的良好机制。为了量度给定一组先前言语的响应的质量,可以使用以下七个针对评估者的问题。
在给定上下文的情况下,响应是否有意义。有意义是实现会话人性化必不可少的特征。有意义包括:回答与问题的相关性、当代理遵循用户请求共享信息时认知状态的一致性、常识以及逻辑和修辞的相干性。有意义还包括代理的其他重要方面,如一致性。要求评估者用常识来判断响应在先前言语上下文中是否完全合理。如果有任何东西看起来不对——混淆、不合逻辑、脱离上下文或事实错误——则其应被标记为“没有意义”。
响应有多具体。合乎情理是不够的:一般的响应(例如,我不知道)可能是合乎情理的,但也是无聊的和不具体的。这种响应通常是由机器人生成,机器人仅根据合理性等指标进行评估。要求评估者确定代理响应是否特定于给定上下文,在给定步骤中为用户提供信息。特异性平均(SSA)将此量度与评估1)相结合,作为类人代理的关键方面:有意义且具体。图灵测试竞赛参赛者经常试图通过策略模糊来避免被发现(Venkatesh等人,2018),因此我们打算避免这种方法。
参与度是对对话兴趣度的量度(Yu等人,2004)。对话评估领域的研究人员试图识别与参与度相关的,如对话回合数和总对话持续时间,这是用户在对话中参与度的指标。由于任务取向型机器人无法理解用户的意图,因此存在回合数可能会很高的情况,从而导致后续的回合针对澄清和修改,还可能导致用户不满意。对随机对话抽样的分析 (Venkatesh等人,2018)得出了这种效果的影响可以忽略不计的结论。
相干响应指示对用户请求的可理解且相关的响应。如果响应稍有关联,则其可以被视为弱相干性。例如,当用户说:“你觉得实体e怎么样?(What do you think about theentity e?)”;响应应该关于e、更广泛的e的类别或相关的事物。与e相关但不完全是与e的类别相关的观点或事物的响应将被视为弱相干性。对于开放领域对话,响应空间的复杂性使得此问题变得非常困难,但是在特定文本T内,评估是简单的。
对话深度。相干性通常以回合水平度量。然而,在多回合对话中,上下文可能通过多个回合承载。在评估对话代理时,检测对话的上下文和深度很重要。人类对话通常会深入到某个特定的话题。能够捕捉话题深度的代理(Galitsky 2017)可能听起来更自然。为了在对话深度方面评估代理,可以依靠话题模型来识别每个单独言语的领域。对话深度可以计算为相同话题领域内连续回合数的平均值。更准确地说,其可以被估计为被传达的实体链的深度,如疾病特异性症状-该症状的特异性特征。
对话广度。这是聊天开放领域机器人的特征。其可以从给定的言语中识别出主题和关键词、围绕相同的话题进行对话并共享相关的概念。自然对话具有高度话题性,并且人类在其互动中经常使用关键词。用户通常对缺乏话题多样性的机器人不满意。与关于少数有限领域的潜在的高度脚本化的对话不同,评估对话广度对于理解代理能够支持对话的广泛程度而言非常重要。
总体用户满意度评分。对于给定的对话,用户确认其达到了目标、了解了其想要了解的(+1)或没有了解(0)。为了与人类正确地对话,机器人的响应必须在上下文中有意义;人类在相互交谈时通常认为这是理所当然的,并且97%的人类产生的陈述符合这个判据。为了评估DT导航的有用性,使用如用户满意度评分等总体量度,表示需要在对话后阅读T。如果在与代理进行会话后仍然需要查阅文本,则认为该用户不满意。然后,针对T计算多个用户的多次会话的平均值。
Figure RE-GDA0003233459430000401
Figure RE-GDA0003233459430000411
首先评估回答用户问题的说服力水平。导航算法从使用户专注于文本T到更精确地回答用户问题各不相同。
此评估也可以被视为打开/关闭各种部件并跟踪T中所覆盖信息的百分比和总体用户满意度评分的消融研究。
Figure RE-GDA0003233459430000412
Figure RE-GDA0003233459430000421
在评估中,专注于包含关于如何做事的重要说明的文本段落(每段5至7个句子)。领域从家庭到专业领域,从低责任性到高责任性直到航空领域。
现在评估对话和修辞一致性的总体意义。手动评估每个领域中20%的对话。对于剩下的80%,使用了专门设计的评估代理,评估代理被设计成重现人类评估者的评估得分,而不考虑主要代理的错误类型。此评估代理被设计成在主要代理或用户给出言语的情况下提出基本问题。主要的底层算法用于概括接收到的句子,并将其转换成关于出现在此问题中的实体的属性的问题。算法的详细描述可在doc2dialogue论文(Galitsky和Ilvovsky,2019)中获得。
评估代理被调整为对评估数据集的20%部分产生与人类相同的评估。然后,评估代理(不是主要代理)的评估性能对此数据集的剩下的10%进行手动评估。其余70%由评估代理以全自动模式进行评估。
Figure RE-GDA0003233459430000422
在表9中,可以看到用户满意度达到了更高的70%。一些复杂程度较高的健康领域比咳嗽、肌肉痉挛和咽喉刺激等较简单的领域落后3%至5%。在与健康相关的领域,缺失重要的知识是很大的缺陷,这可能导致受训者必须在代理模式后阅读整个段落。评估者在这些领域应用更严格的有意义判据。在其他与娱乐相关的知识领域,在大多数情况下仅对话模式就足够了,缺失某些EDU不会严重影响知识获取结果。
为了比较DT导航与纯数据驱动的方法,将给定的文本段落作为种子并从健康资源和web中挖掘几百个类似的文本。然后从中学习,并应用类似于(??)的对话模型。代表用户的评估代理是一样的,但是现在对话完全不同。最缺乏的是通过文本的系统导航:数据驱动的代理突然从一个话题跳到另一个话题,并且内容探索变得混乱(表5中最右列)。
评估结果示出,与数据驱动的内容探索方法相比,DT导航方法具有优势。当数据驱动的系统取代DT导航时,用户满意度下降11%。
Figure RE-GDA0003233459430000431
对其他对话判据的评估结果在表10中呈现。
特异性列示出了在对相同或相关实体讲话时特定的言语的百分比。非特定回答将包括完全外来实体或根本没有特定实体。
参与度列示出了成功覆盖正在交流的文本段落的对话的百分比。如果在第二问题之后人类用户放弃了继续对话并决定与进行对话相比阅读此文本对其有利,则认为参与度不合格。
相干性列示出了在遇到代理的完全不相干的言语时用户没有中断对话的对话百分比。这种不相干的言语会打断用户的思路,突然改变对话流程。如果总共少于五句的言语导致相干性丧失,则给定的对话被认为是不相干的。
对话深度以代理回复所传达的嵌套实体的最高数量量度。例如,糖尿病-慢性疾病-不正常的高糖水平-葡萄糖-血液中-胰岛素链的深度给出深度=6。
对话广度以对话中覆盖的不同实体的数量量度,使得一个实体不是另一个实体的子实体(不要根据深度评估形成链)。
注意,特异性、参与度和相干性的失败并不相互排斥:一些有问题的对话可能在多于一个判据上失败。
数据驱动的代理形成回复,回复通过许多类似的文本片段和对话片段求平均值以构建流畅和看似可信的对话。尽管这样的对话可以被人类注释者接受为有意义的对话,但是通过求平均值构造的对话并没有任何目的。针对困惑优化对话确保该对话的焦点不断演变,但不会给同级之间传输或该对话的读者带来任何意义。从更多的数据中学习确保在用于求平均值的训练集中很好地表现用户的任何言语,但是也不会使对话更有意义。
以“你好(Hi)”然后是“我很好/你好吗(I am well/How are you)”开始的对话是为了及时继续此对话并让对话者保持忙碌。相反,我们提出了明确目标是通过以全面、系统和可解释的方式传递一定的知识块来通知用户的对话模式。
健康代理中的个性化
在医学教育领域,保持具有组织良好的结构的高质量内容非常重要。代理传递的内容需要有组织良好的结构以及流畅的逻辑流程。从症状到治疗,逐步导航用户通过知识的各个部分和类型非常重要。最好保持文本的原始段落不变。
许多开发的基于DL的端对端代理在最好的情况下以成为插槽填充物结束并且在最坏的情况下以成为随机聊天工具结束。这些代理可能依赖于症状与疾病之间的联系。在线情况下,一旦建立候选疾病,代理就可以实时地同时了解症状-疾病关联、对话管理和言语生成。因此,很难实现高质量的内容传递。
在过去的二十年里,医疗保健和医学中的个性化研究的数量持续增加,越来越多的证据显示其有效性。医疗保健个性化文献中的一个重要限制是将其等同于基因组学支持的医学研究。基因组标志物仅仅是个性化的一个方面,其有助于识别个体的独特性并使其药物个性化。还有其他因素影响这种医疗保健个性化,如人们的生活方式选择、其社会经济背景和生活环境,以及可以是个性化的其他医疗保健服务,像健康教育和疗法。
对话系统可以基于用户推断的目标、意图、知识理念并基于之前在对话中说过的一切提供使要传递给用户的信息个性化的细粒度可能性。
从之前对话历史中学习对于确保随着时间的推移在多次互动中发生的健康交流的连续性起着关键作用。对行为改变干预的回顾根据其在传递给个体的消息中的个性化程度表征为四个干预组:通用的(一刀切的消息)、个性化的(具有人名的信息)、有针对性的(特定于一般群体中的子群的消息)或定制的(特定于个体特性的消息)。
个性化主要用于定制要传递的内容。个性化内容包括:(1)关于情绪状态、叙述技巧、症状总结、冥想练习和对设定目标的当前进展的反馈;(2)提醒、警告和警报(Harper等人,2008);(3)多媒体;以及(4)关于疼痛、体力活动和健康状况的问题。
可以根据用户的动机状态、用户对于系统的专业水平和对话历史通过改变对话风格使用户界面个性化。作者基于用户概况和进展使用了说教式、关联式或激励式的对话风格。说教式风格用于与培训相关的对话,关联式风格在会话开始时使用,以基于从用户接收的回答提高用户参与度。激励式风格用于收集与进展相关的信息,并且然后提供定制的响应来支持用户。在更简单的实施方式中,另一项研究对后续会话使用了更短的问题格式。
虽然智能代理背后的技术不断发展,但其当前不具有完全的人类水平语言能力,从而导致误解和用户的不满。此外,随着机器学习算法的发展,跟踪其发展、演变以及其响应背后的推理变得越来越具有挑战性。虽然黑盒效应似乎是使用AI不可避免的后果,但仍有一些关于使AI透明且可解释的新研究。然而,目前,其使用可能会影响治疗的安全性和准确性,并且应在用于医疗保健时仔细监测和评估。
代理正在从执行简单的事务性任务向更复杂的终点(如长期疾病管理和行为变化) 演变。大多数会话代理以患者为目标,只有少数针对医疗保健专业人员,例如,通过自动接收患者或帮助患者分类和诊断。
机器人被创建为包括以下面向治疗过程的特征:(1)移情响应:机器人以与所识别的用户情绪相适应的移情方式回复。例如,在响应关于疏远的抱怨时,机器人回复“很抱歉你感到孤独。(Sorry you are feeling lonely.)我想我们有时都会感到有点被疏远(Iguess we all feel a little alienated sometimes)”,或者其表现出兴奋,“耶,听到这个总是很高兴!(Yay,always good to hear that!)”(2)定制:根据情绪状态向个体发送具体内容。例如,向表明感到焦虑的参与者提供对焦虑事件的体内援助。(3)目标设定:对话代理询问参与者其是否有希望在2周时期内实现的个人目标。(4)责任性:为了促进责任感,代理设定了定期签到的期望,并跟踪了较早的活动,例如,陈述的目标的状态。(5)动机和参与度:为了让个体参与日常监测,机器人每天或每隔一天发送一条个性化消息来发起对话(即,提示)。另外,“表情符号”和具有提供积极强化作用的消息的动画gif可以用来鼓励努力和完成任务。
反映:机器人还提供了描述每个参与者随时间变化的情绪的每周图表。每张图表随对数据的简要描述一起发送以便于反映,例如,“总的来说,你的情绪一直相当稳定,尽管经过一段时间的焦虑后,你往往会变得疲劳。(Overall,your mood has been fairlysteady, though you tend to become tired after periods of anxiety.)看来星期二是你最好的一天。(It looks like Tuesday was your best day.)”
持续代理在无法确保系统化教育方法的组织中尤其有价值。
针对这个关于社交机器人最喜欢的特征的问题,出现了两个主要的主题:过程和内容。在过程主题中,出现的子主题是日常签到的责任性、机器人表现出的移情作用或与其“个性”相关的其他因素;以及机器人所促进的学习,这进而被划分为情感洞察、一般洞察和关于认知洞察的另外的子主题(图17)。
图30描绘了用于实施这些方面之一的分布式系统3000的简化图。在所图示的方面,分布式系统3000包括一个或多个客户端计算设备3002、3004、3006和3008,一个或多个客户端计算设备被配置为通过一个或多个网络3010执行和操作客户端应用,如web浏览器、专有客户端(例如,甲骨文表格(Oracle Forms))等。服务器3012可以通过网络 3010与远程客户端计算设备3002、3004、3006和3008通信地耦接。
在各个方面,服务器3012可以被适配成运行由系统的部件中的一个或多个部件提供的一个或多个服务或软件应用。服务或软件应用可以包括非虚拟和虚拟环境。虚拟环境可以包括用于虚拟事件、贸易展览、模拟器、教室、购物交易和企业的环境,无论其是二维还是三维(3D)表示、基于页面的逻辑环境还是其他环境。在一些方面,这些服务可以作为基于web的服务或云服务或在软件即服务(SaaS)模型下提供给客户端计算设备 3002、3004、3006和/或3008的用户。操作客户端计算设备3002、3004、3006和/或3008 的用户进而可以利用一个或多个客户端应用来与服务器3012交互以利用这些部件所提供的服务。
在图中描绘的配置中,分布式系统3000的软件部件3018、3020和3022被示出为在服务器3012上实施。在其他方面,分布式系统3000的部件中的一个或多个部件和/或这些部件所提供的服务还可以由客户端计算设备3002、3004、3006和/或3008中的一个或多个来实施。然后,操作客户端计算设备的用户可以利用一个或多个客户端应用来使用这些部件所提供的服务。这些部件可以用硬件、固件、软件或其组合来实施。应了解,可以与分布式系统3000不同的各种不同的系统配置是可能的。因此,图中所示的方面是用于实施方面系统的分布式系统的一个示例并且不旨在是限制性的。
客户端计算设备3002、3004、3006和/或3008可以是便携式手持设备(例如,
Figure RE-GDA0003233459430000471
蜂窝电话、
Figure RE-GDA0003233459430000472
计算平板计算机、个人数字助理(PDA))或可穿戴设备(例如,Google
Figure RE-GDA0003233459430000473
头戴式显示器)、如Microsoft Windows
Figure RE-GDA0003233459430000474
等运行软件,和/或各种移动操作系统,如iOS、Windows电话、安卓(Android)、黑莓(BlackBerry)10、Palm OS等,并且是因特网、电子邮件、短消息服务(SMS)、
Figure RE-GDA0003233459430000475
或支持其他通信协议的。客户端计算设备可以是通用个人计算机,包括例如运行各种版本的Microsoft
Figure RE-GDA0003233459430000476
Apple
Figure RE-GDA0003233459430000477
和/或Linux操作系统的个人计算机和/或膝上型计算机。客户端计算设备可以是运行各种可商购获得的
Figure RE-GDA0003233459430000478
或类UNIX操作系统中的任一种的工作站计算机,包括但不限于各种GNU/Linux操作系统,例如,Google Chrome OS。可替代地或另外地,客户端计算设备3002、3004、3006和3008可以是能够通过(多个)网络3010进行通信的任何其他电子设备,如瘦客户端计算机、支持因特网的游戏系统(例如,具有或不具有
Figure RE-GDA0003233459430000479
姿势输入设备的微软(Microsoft)Xbox游戏机)和/或个人消息传递设备。
尽管示例性分布式系统3000被示出为具有四个客户端计算设备,但是可以支持任何数量的客户端计算设备。其他设备(如具有传感器的设备等)可以与服务器3012交互。
分布式系统3000中的(多个)网络3010可以是本领域技术人员所熟悉的可以使用各种可商购获得的协议中的任何一种支持数据通信的任何类型的网络,可商购获得的协议包括但不限于TCP/IP(传输控制协议/因特网协议)、SNA(系统网络架构)、IPX(因特网分组交换)、AppleTalk等。仅通过示例的方式,(多个)网络3010可以是局域网 (LAN),如基于以太网、令牌环等的局域网。(多个)网络3010可以是广域网和因特网。其可以包括虚拟网络,包括但不限于虚拟专用网络(VPN)、内联网、外联网、公用交换电话网(PSTN)、红外网络、无线网络(例如,根据电气与电子协会(IEEE)802.30 协议套件、
Figure RE-GDA00032334594300004710
和/或任何其他无线协议中的任一种协议操作的网络);和/或这些和/或其他网络的任何组合。
服务器3012可以由以下各项构成:一个或多个通用计算机、专用服务器计算机(通过示例的方式包括PC(个人计算机)服务器、
Figure RE-GDA00032334594300004711
服务器、中档服务器、大型计算机、机架式服务器等)、服务器群、服务器集群、或任何其他适当的布置和/或组合。服务器 3012可以包括运行虚拟操作系统或涉及虚拟化的其他计算架构的一个或多个虚拟机。可以对逻辑存储设备的一个或多个灵活池进行虚拟化,以维护服务器的虚拟存储设备。虚拟网络可以由服务器3012使用软件定义的联网进行控制。在各个方面,服务器3012可以被适配成运行在前述公开中描述的一个或多个服务或软件应用。例如,根据本公开的方面,服务器3012可以对应于用于执行上述处理的服务器。
服务器3012可以运行包括以上所讨论的那些操作系统中的任何一个以及任何可商购获得的服务器操作系统。服务器3012还可以运行各种附加服务器应用和/或中间层应用中的任何一种应用,包括HTTP(超文本运输协议)服务器、FTP(文件传送协议)服务器、CGI(通用网关接口)服务器、
Figure RE-GDA0003233459430000481
服务器、数据库服务器等。示例性数据库服务器包括但不限于从甲骨文公司、微软公司、赛贝斯公司(Sybase)、IBM(国际商业机器)公司等商购获得的那些数据库服务器。
在一些实施方式中,服务器3012可以包括一个或多个应用以分析并合并从客户端计算设备3002、3004、3006和3008的用户接收的数据馈送和/或事件更新。作为示例,数据馈送和/或事件更新可以包括但不限于
Figure RE-GDA0003233459430000482
馈送、
Figure RE-GDA0003233459430000483
更新或从一个或多个第三方信息源和连续数据流接收的实时更新,实时更新可以包括与传感器数据应用、财务收报机、网络性能测量工具(例如,网络监测和流量管理应用)、点击流分析工具、汽车交通监测等相关的实时事件。服务器3012还可以包括一个或多个应用以经由客户端计算设备3002、3004、3006和3008的一个或多个显示设备来显示数据馈送和/或实时事件。
分布式系统3000还可以包括一个或多个数据库3014和3016。数据库3014和3016可以驻留在各种位置。通过示例的方式,数据库3014和3016中的一个或多个可以驻留在服务器3012本地(和/或驻留在其中)的非暂态存储介质上。可替代地,数据库3014 和3016可以远离服务器3012,并通过基于网络的或专用的连接与服务器3012通信。在一组方面中,数据库3014和3016可以驻留在存储区域网络(SAN)中。类似地,用于执行归属于服务器3012的功能的任何必要文件可以根据情况本地存储在服务器3012上和/或远程存储。在一组方面中,数据库3014和3016可以包括关系数据库,如由甲骨文公司提供的数据库,数据库被适配成响应于SQL格式的命令来存储、更新和检索数据。
图31是根据本公开的一个方面的系统环境3100的一个或多个部件的简化框图,通过系统环境,由方面系统的一个或多个部件提供的服务可以作为云服务提供。在所图示的方面,系统环境3100包括一个或多个客户端计算设备3104、3106和3108,一个或多个客户端计算设备可以被用户用来与提供云服务的云基础设施系统3102进行交互。客户端计算设备可以被配置为操作客户端应用,如web浏览器、专有客户端应用(例如,甲骨文表格)或一些其他应用,应用可以被客户端计算设备的用户用来与云基础设施系统 3102交互以使用云基础设施系统3102所提供的服务。
应了解,图中所描绘的云基础设施系统3102可以具有除了所描绘的部件之外的其他部件。进一步地,图中所示的方面只是可以结合本发明的方面的云基础设施系统的一个示例。在一些其他方面,云基础设施系统3102可以具有比图中所示更多或更少的部件、可以组合两个或更多个部件或可以具有不同的部件配置或布置。
客户端计算设备3104、3106和3108可以是类似于以上针对3002、3004、3006和3008的设备。
尽管示例性系统环境3100被示出为具有三个客户端计算设备,但是可以支持任何数量的客户端计算设备。其他设备(如具有传感器的设备等)可以与云基础设施系统3102交互。
(多个)网络3110可以促进客户端计算设备3104、3106和3108与云基础设施系统3102之间的数据通信和交换。每个网络可以是本领域技术人员所熟悉的可以使用各种可商购获得的协议中的任何一种来支持数据通信的任何类型的网络,可商购获得的协议包括以上针对(多个)网络3110所描述的那些协议。
云基础设施系统3102可以包括一个或多个计算机和/或服务器,一个或多个计算机和/或服务器可以包括以上针对服务器1712所描述的那些计算机和/或服务器。
在某些方面,云基础设施系统所提供的服务可以包括按需提供给云基础设施系统的用户的大量服务,如在线数据存储和备份解决方案、基于Web的电子邮件服务、托管办公套件和文档协作服务、数据库处理、管理技术支持服务等。云基础设施系统所提供的服务可以动态扩展以满足其用户的需求。云基础设施系统所提供的服务的特定实例在本文中被称为“服务实例”。一般来说,通过通信网络(如因特网)从云服务提供商的系统提供给用户的任何服务都被称为“云服务”。通常,在公共云环境中,构成云服务提供商的系统的服务器和系统不同于客户自己的室内服务器和系统。例如,云服务提供商的系统可以托管应用,并且用户可以通过如因特网等通信网络按需订购和使用应用。
在一些示例中,计算机网络云基础设施中的服务可以包括对存储装置、托管数据库、托管web服务器、软件应用的受保护的计算机网络访问或云供应商向用户提供的其他服务,或本领域中已知的其他服务。例如,服务可以包括通过因特网对云上远程存储装置的密码保护访问。作为另一个示例,服务可以包括供网络开发人员专用的基于web服务的托管关系数据库和脚本语言中间件引擎。作为另一个示例,服务可以包括对云供应商的网站上托管的电子邮件软件应用的访问。
在某些方面,云基础设施系统3102可以包括以自助、基于订阅、可弹性扩展、可靠、高度可用和安全的方式传递给客户的一套应用、中间件和数据库服务产品。这种云基础设施系统的示例是本受让人所提供的甲骨文公共云。
大量数据(有时被称为大数据)可以由基础设施系统在多个级别和不同规模上进行托管和/或操纵。这种数据可以包括非常庞大且复杂的数据集,以致于很难使用典型的数据库管理工具或传统的数据处理应用对其进行处理。例如,万亿字节的数据可能很难使用个人计算机或其基于机架的对等设备进行存储、检索和处理。使用当前大多数关系数据库管理系统以及桌面统计和可视化包很难处理如此大的数据。其可能需要超出常用软件工具结构的运行数千个服务器计算机的大规模并行处理软件以在可容忍的经过时间内捕获、整理、管理和处理数据。
分析员和研究人员可以存储和操纵非常大的数据集以可视化大量数据、检测趋势和/ 或以其他方式与数据交互。数十个、数百个或数千个并行链接的处理器可以作用于这样的数据,以便呈现数据或模拟数据上的外力或其所呈现的东西。这些数据集可以涉及结构化数据,如在数据库中组织的或根据结构化模型以其他方式组织的结构化数据,和/或非结构化数据(例如,电子邮件、图像、数据块(二进制大对象)、网页、复杂事件处理)。通过利用相对快速地将更多(或更少)计算资源集中在目标上的方面的能力,云基础设施系统可以更好地用于基于来自企业、政府机构、研究组织、私人个体、志同道合的个体组或组织或其他实体的需求在大数据集上执行任务。
在各个方面,云基础设施系统3102可以被适配成自动供应、管理和跟踪客户对云基础设施系统3102提供的服务的订阅。云基础设施系统3102可以通过不同的部署模型提供云服务。例如,可以在公共云模型下提供服务,在公共云模型中,云基础设施系统3102 归销售云服务的组织所有(例如,归甲骨文公司所有),并且服务对一般公众企业或不同行业企业可用。作为另一个示例,可以在私有云模型下提供服务,在私有云模型中,云基础设施系统3102仅针对单个组织运行,并且可以为组织内的一个或多个实体提供服务。云服务还可以在社区云模型下提供,在社区云模型中,云基础设施系统3102和云基础设施系统3102所提供的服务由相关社区中的若干组织共享。云服务还可以在混合云模型下提供,混合云模型是两个或更多个不同模型的组合。
在一些方面,云基础设施系统3102所提供的服务可以包括在软件即服务(SaaS)类别、平台即服务(PaaS)类别、基础设施即服务(IaaS)类别下提供的一个或多个服务,或包括混合服务的其他类别的服务。客户可以通过订阅订单来订购云基础设施系统3102 所提供的一个或多个服务。然后,云基础设施系统3102执行处理以提供客户的订阅订单中的服务。
在一些方面,云基础设施系统3102所提供的服务可以包括但不限于应用服务、平台服务和基础设施服务。在一些示例中,云基础设施系统可以通过SaaS平台提供应用服务。SaaS平台可以被配置为提供归入SaaS类别的云服务。例如,SaaS平台可以提供在集成开发和部署平台上构造和传递一套按需应用的能力。SaaS平台可以管理和控制用于提供 SaaS服务的底层软件和基础设施。通过利用SaaS平台提供的服务,客户可以利用在云基础设施系统上执行的应用。客户可以在无需购买单独的许可证和支持的情况下获取应用服务。可以提供各种不同的SaaS服务。示例包括但不限于为大型组织提供销售绩效管理、企业整合和业务灵活性解决方案的服务。
在一些方面,云基础设施系统可以通过PaaS平台提供平台服务。PaaS平台可以被配置为提供归入PaaS类别的云服务。平台服务的示例可以包括但不限于使组织(如甲骨文公司)能够在共享的通用架构上合并现有应用的服务,以及构造利用平台所提供的共享服务的新应用的能力。PaaS平台可以管理和控制用于提供PaaS服务的底层软件和基础设施。客户可以在无需购买单独的许可证和支持的情况下获取云基础设施系统提供的 PaaS服务。平台服务的示例包括但不限于甲骨文Java云服务(JCS)、甲骨文数据库云服务(DBCS)等。
通过利用PaaS平台提供的服务,客户可以采用云基础设施系统所支持的编程语言和工具并控制所部署的服务。在一些方面,云基础设施系统所提供的平台服务可以包括数据库云服务、中间件云服务(例如,甲骨文融合中间件服务)和Java云服务。一方面,数据库云服务可以支持共享服务部署模型,共享服务部署模型使组织能够汇集数据库资源并以数据库云的形式向客户提供数据库即服务。在云基础设施系统中,中间件云服务可以为客户提供用于开发和部署各种业务应用的平台,并且Java云服务可以为客户提供部署Java应用的平台。
云基础设施系统中的IaaS平台可以提供各种不同的基础设施服务。基础设施服务促进了利用SaaS平台和PaaS平台所提供的服务的客户对底层计算资源诸如如存储装置、网络及其他基本计算资源的管理和控制。
在某些方面,云基础设施系统3102还可以包括基础设施资源3130,基础设施资源用于提供用于向云基础设施系统的客户提供各种服务的资源。一方面,基础设施资源3130可以包括用于执行PaaS平台和SaaS平台所提供的服务的预整合和优化的硬件组合,如服务器、存储装置和网络资源。
在一些方面,云基础设施系统3102中的资源可以由多个用户共享并根据需要动态地重新分配。另外地,资源可以被分配给不同时区的用户。例如,云基础设施系统3102可以使第一时区中的第一组用户能够在指定的小时数内利用云基础设施系统的资源,并且然后使相同的资源能够重新分配给定位于不同时区中的另一组用户,由此最大化资源的利用。
在某些方面,可以提供由云基础设施系统3102的不同部件或模块以及由云基础设施系统3102提供的服务共享的多个内部共享服务3132。这些内部共享服务可以包括但不限于安全和身份服务、整合服务、企业储存库服务、企业管理器服务、病毒扫描和白名单服务、高度可用性、备份和恢复服务、用于实现云支持的服务、电子邮件服务、通知服务、文件传送服务等。
在某些方面,云基础设施系统3102可以提供对云基础设施系统中的云服务(例如,SaaS、PaaS和IaaS服务)的全面管理。一方面,云管理功能可以包括用于供应、管理和跟踪由云基础设施系统3102接收的客户的订阅等的能力。
一方面,如图中所描绘的,云管理功能可以由一个或多个模块提供,如订单管理模块3126、订单编排模块3122、订单供应模块3124、订单管理和监测模块3126以及身份管理模块3128。这些模块可以包括或使用一个或多个计算机和/或服务器来提供,计算机和/或服务器可以是通用计算机、专用服务器计算机、服务器群、服务器集群或任何其他适当的布置和/或组合。
在示例性操作3134中,使用如客户端计算设备3104、3106或3108等客户端设备的客户可以通过请求云基础设施系统3102所提供的一个或多个服务并下订单订阅云基础设施系统3102所提供的一个或多个服务来与云基础设施系统3102交互。在某些方面,客户可以访问云用户界面(UI)3112、云UI 3114和/或云UI 3116并通过这些UI下订单订阅。云基础设施系统3102响应于客户下订单而接收的订单信息可以包括标识客户和客户打算订阅的云基础设施系统3102所提供的一个或多个服务的信息。
在客户下订单后,通过云UI 3131、3114和/或3116接收订单信息。
在操作3136处,订单存储在订单数据库3118中。订单数据库3118可以是由云基础设施系统3102操作并与其他系统元素结合操作的若干数据库之一。
在操作3138处,订单信息被转发到订单管理模块3126。在一些情况下,订单管理模块3126可以被配置为执行与订单相关的记账和会计功能,如验证订单以及在验证后预订订单。
在操作3140处,关于订单的信息被传送到订单编排模块3122。订单编排模块3122可以利用订单信息为客户所下的订单编排服务和资源的供应。在一些情况下,订单编排模块3122可以使用订单供应模块3124的服务来编排资源的供应以支持订阅的服务。
在某些方面,订单编排模块3122使得能够管理与每个订单相关联的业务流程,并应用业务逻辑来确定订单是否应该继续进行供应。在操作3142处,在接收到针对新订阅的订单时,订单编排模块3122向订单供应模块3124发送请求,以分配资源并配置满足订阅订单所需的那些资源。订单供应模块3124使得能够为客户订购的服务分配资源。订单供应模块3124在云基础设施系统3102所提供的云服务与用于供应用于提供所请求服务的资源的物理实施层之间提供抽象级别。因此,订单编排模块3122可以与实施细节隔开,如服务和资源是实际上被实时地供应还是被预先供应并且仅在请求时被分配/指定。
在操作3144处,一旦服务和资源被供应,云基础设施系统3102的订单供应模块3124 就可以向客户端计算设备3104、3106和/或3108上的客户发送所提供服务的通知。
在操作3146处,客户的订阅订单可以由订单管理和监测模块3126管理和跟踪。在一些情况下,订单管理和监测模块3126可以被配置为收集订阅订单中服务的使用统计信息,如使用的存储量、传输的数据量、用户数量以及系统开机时间和系统停机时间的量。
在某些方面,云基础设施系统3102可以包括身份管理模块3128。身份管理模块3128 可以被配置为提供身份服务,如云基础设施系统3102中的访问管理和授权服务。在一些方面,身份管理模块3128可以控制关于希望利用云基础设施系统3102所提供的服务的客户的信息。这样的信息可以包括认证这样的客户的身份的信息以及描述授权那些客户相对于各种系统资源(例如,文件、目录、应用、通信端口、存储器段等)执行哪些动作的信息。身份管理模块3128还可以包括关于每个客户的描述性信息的管理以及可以如何以及由谁来访问和修改描述性信息。
图32图示了本发明的各方面可以在其中实施的计算机系统3200。计算机系统3200可以用于实施上述计算机系统中的任何一种。如图所示,计算机系统3200包括通过总线子系统3202与多个外围子系统通信的处理单元3204。这些外围子系统可以包括处理加速单元3206、I/O子系统3208、存储子系统3218和通信子系统3224。存储子系统3218 包括有形计算机可读存储介质3222和系统存储器3210。
总线子系统3202提供用于使计算机系统3200的各个部件和子系统按预期彼此通信的机构。虽然总线子系统3202被示意性地示出为单个总线,但是总线子系统的替代性方面可以利用多个总线。总线子系统3202可以是几种类型的总线结构中的任何一种,包括存储器总线或存储器控制器、外围总线以及使用各种总线架构中的任何一种的本地总线。例如,这种架构可以包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型 ISA(EISA)总线、视频电子标准协会(VESA)局部总线以及外围部件互连(PCI)总线 (外围部件互连总线可以被实施为根据IEEE P3286.1标准制造的夹层(Mezzanine)总线)。
可以被实施为一个或多个集成电路(例如,常规的微处理器或微控制器)的处理单元3204控制计算机系统3200的操作。处理单元3204中可以包括一个或多个处理器。这些处理器可以包括单核处理器或多核处理器。在某些方面,处理单元3204可以被实施为一个或多个独立的处理单元3232和/或3234,每个处理单元中包括单核处理器或多核处理器。在其他方面,处理单元3204还可以被实施为通过将两个双核处理器集成到单个芯片中而形成的四核处理单元。
在各个方面,处理单元3204可以响应于程序代码而执行各种程序,并且可以维护多个同时执行的程序或进程。在任何给定时间,要执行的程序代码中的一些或全部可以驻留在处理单元3204和/或存储子系统3218中。通过适当的编程,处理单元3204可以提供以上的各种功能。计算机系统3200可以另外包括处理加速单元3206,处理加速单元可以包括数字信号处理器(DSP)、专用处理器等。
I/O子系统3208可以包括用户接口输入设备和用户接口输出设备。用户接口输入设备可以包括键盘、如鼠标或轨迹球等指向设备、合并到显示器中的触摸板或触摸屏、滚轮、点击轮、拨号盘、按钮、开关、小键盘、具有话音命令识别系统的音频输入设备、麦克风以及其他类型的输入设备。用户接口输入设备可以包括例如运动感测和/或姿势识别设备,如Microsoft
Figure RE-GDA0003233459430000541
运动传感器,其使得用户能够通过使用姿势和口头命令的自然用户界面来控制如Microsoft
Figure RE-GDA0003233459430000542
360游戏控制器等输入设备并与其交互。用户接口输入设备还可以包括眼部姿势识别设备,如检测来自用户的眼部活动(例如,在拍照和/ 或进行菜单选择时‘眨眼’)并将眼部姿势变换为到输入设备(例如,Google
Figure RE-GDA0003233459430000543
)的输入的Google
Figure RE-GDA0003233459430000544
眨眼检测器。另外地,用户接口输入设备可以包括使得用户能够通过话音命令与话音识别系统(例如,
Figure RE-GDA0003233459430000545
导航器)交互的话音识别感测设备。
用户接口输入设备还可以包括但不限于三维(3D)鼠标、操纵杆或指向杆、游戏手柄和图形板、以及音频/视觉设备诸如扬声器、数码相机、数码摄像机、便携式媒体播放器、网络摄像机、图像扫描仪、指纹扫描仪、条形码读取器3D扫描仪、3D打印机、激光测距仪、以及眼睛注视跟踪设备。另外地,用户接口输入设备可以包括例如医学成像输入设备,如计算机断层扫描、磁共振成像、正电子发射断层扫描、医学超声检查设备。用户接口输入设备还可以包括例如音频输入设备,如MIDI键盘、数码乐器等。
用户接口输出设备可以包括显示子系统、指示灯或如音频输出设备等非视觉显示器。显示子系统可以是阴极射线管(CRT)、平板设备(如使用液晶显示器(LCD)或等离子显示器的平板设备)、投影设备、触摸屏等。通常,使用术语“输出设备”旨在包括用于从计算机系统3200向用户或其他计算机输出信息的所有可能类型的设备和机构。例如,用户接口输出设备可以包括但不限于在视觉上传达文本、图形和音频/视频信息的各种显示设备,如监视器、打印机、扬声器、头戴式耳机、汽车导航系统、绘图仪、话音输出设备和调制解调器。
计算机系统3200可以包括存储子系统3218,存储子系统包括被示出为当前定位在系统存储器3210内的软件元件。系统存储器3210可以存储可在处理单元3204上加载和执行的程序指令以及在这些程序执行期间生成的数据。
根据计算机系统3200的配置和类型,系统存储器3210可以是易失性的(如随机存取存储器(RAM))和/或非易失性的(如只读存储器(ROM)、闪速存储器等)。RAM 通常包含处理单元3204可立即访问和/或当前正在操作和执行的数据和/或程序模块。在一些实施方式中,系统存储器3210可以包括多种不同类型的存储器,如静态随机存取存储器(SRAM)或动态随机存取存储器(DRAM)。在一些实施方式中,包含如在启动期间帮助在计算机系统3200内的元件之间传送信息的基本例程的基本输入/输出系统 (BIOS)通常可以存储在ROM中。通过示例而非限制的方式,系统存储器3210还图示了应用程序3212,其可以包括客户端应用、Web浏览器、中间层应用、关系数据库管理系统(RDBMS)等,程序数据3214和操作系统3216。通过示例的方式,操作系统3216 可以包括各种版本的Microsoft
Figure RE-GDA0003233459430000551
Apple
Figure RE-GDA0003233459430000552
和/或Linux操作系统、各种可商购获得的
Figure RE-GDA0003233459430000553
或类UNIX操作系统(包括但不限于各种GNU/Linux操作系统、 Google
Figure RE-GDA0003233459430000554
OS等)和/或如iOS、
Figure RE-GDA0003233459430000555
电话、
Figure RE-GDA0003233459430000556
OS、
Figure RE-GDA0003233459430000557
10 OS和
Figure RE-GDA0003233459430000558
OS操作系统等移动操作系统。
存储子系统3218还可以提供用于存储提供一些方面的功能的基本编程和数据构造的有形计算机可读存储介质。当由处理器执行时提供上述功能的软件(程序、代码模块、指令)可以存储在存储子系统3218中。这些软件模块或指令可以由处理单元3204执行。存储子系统3218还可以根据本发明提供用于存储所使用的数据的储存库。
存储子系统3218还可以包括可以进一步连接到计算机可读存储介质读取器3220的计算机可读存储介质读取器3220。与系统存储器3210一起并且任选地结合的计算机可读存储介质读取器3220可以全面地表示远程、本地、固定和/或可移动存储设备以及用于临时和/或更永久地包含、存储、传输和取得计算机可读信息的存储介质。
计算机可读存储介质读取器3220可以包含代码或代码的一部分,还可以包括本领域已知或使用的任何适当的介质,介质包括存储介质和通信介质,如但不限于以用于存储和/或传输信息的任何方法或技术实施的易失性和非易失性、可移动和不可移动介质。介质可以包括有形非暂态计算机可读存储介质,如RAM、ROM、电可擦除可编程ROM (EEPROM)、闪速存储器或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储装置、磁带盒、磁带、磁盘存储装置或其他磁存储设备,或其他有形计算机可读介质。当指定时,介质还可以包括非有形暂态计算机可读介质,如数据信号、数据传输或可以用于传输期望的信息并且可以由计算系统3200访问的任何其他介质。
通过示例的方式,计算机可读存储介质读取器3220可以包括从不可移动非易失性磁介质读取或向其写入的硬盘驱动器、从可移动非易失性磁盘读取或向其写入的磁盘驱动器,以及从可移动非易失性光盘(如CD ROM、DVD和
Figure RE-GDA0003233459430000561
光盘或其他光学介质) 读取或向其写入的光盘驱动器。计算机可读存储介质3222可以包括但不限于
Figure RE-GDA0003233459430000562
驱动器、闪速存储器卡、通用串行总线(USB)闪速存储器驱动器、安全数字(SD)卡、DVD 盘、数字录像带等。计算机可读存储介质读取器3220还可以包括如基于闪速存储器的固态驱动器(SSD)、企业级闪速存储器驱动器、固态ROM等基于非易失性存储器的SSD、如固态RAM、动态RAM、静态RAM等基于易失性存储器的SSD、基于DRAM的SSD、磁阻RAM(MRAM)SSD以及使用DRAM和基于闪速存储器的SSD的组合的混合SSD。磁盘驱动器及其相关联的计算机可读介质可以为计算机系统3200提供计算机可读指令、数据结构、程序模块及其他数据的非易失性存储。
通信子系统3224提供到其他计算机系统和网络的接口。通信子系统3224用作用于从其他系统接收数据并从计算机系统3200向其他系统发射数据的接口。例如,通信子系统3224可以使计算机系统3200能够通过因特网连接到一个或多个设备。在一些方面,通信子系统3224可以包括用于访问无线声音和/或数据网络的射频(RF)收发器部件(例如,使用蜂窝电话技术、如3G、4G或EDGE(全球演进增强型数据速率)等先进的数据网络技术、WiFi(IEEE 802.28家庭标准、或其他移动通信技术、或其任何组合)、全球定位系统(GPS)接收器部件和/或其他部件。在一些方面,除了无线接口之外或替代无线接口,通信子系统3224可以提供有线网络连接性(例如,以太网)。
在一些方面,通信子系统3224还可以代表可以使用计算机系统3200的一个或多个用户接收结构化和/或非结构化数据馈送3226、事件流3228、事件更新3230等形式的输入通信。
通过示例的方式,通信子系统3224可以被配置为从社交媒体网络和/或其他通信服务的用户实时地接收非结构化数据馈送3226,如
Figure RE-GDA0003233459430000571
馈送、
Figure RE-GDA0003233459430000572
更新、web馈送(如丰富站点摘要(RSS)馈送)和/或来自一个或多个第三方信息源的实时更新。
另外地,通信子系统3224还可以被配置为接收连续数据流形式的数据,连续数据流可以包括(可以没有显式结束的本质上连续的或无界的)实时事件的事件流3228和/或事件更新3230。生成连续数据的应用的示例可以包括例如传感器数据应用、财务收报机、网络性能测量工具(例如,网络监测和流量管理应用)、点击流分析工具、汽车交通监测等。
通信子系统3224还可以被配置为将结构化和/或非结构化数据馈送3226、事件流3228、事件更新3230等输出到可以与耦接到计算机系统3200的一个或多个流数据源计算机通信的一个或多个数据库。
计算机系统3200可以是各种类型中的一种,包括手持便携式设备(例如,
Figure RE-GDA0003233459430000574
蜂窝电话、
Figure RE-GDA0003233459430000573
计算平板计算机、PDA)、可穿戴设备(例如,Google
Figure RE-GDA0003233459430000575
头戴式显示器)、PC、工作站、主机、自助服务终端、服务器机架或任何其他数据处理系统。
由于计算机和网络的不断变化的性质,对图中所描绘的计算机系统3200的描述旨在仅作为具体示例。具有比图中所描绘的系统更多或更少的部件的许多其他配置是可能的。例如,还可以使用定制的硬件和/或可以在硬件、固件、软件(包括小程序)或组合中实施特定元件。进一步地,可以采用到如网络输入/输出设备等其他计算设备的连接。基于本文提供的公开内容和教导,本领域普通技术人员将理解实施各个方面的其他方式和/或方法。
在前述说明书中,参考本发明的具体方面描述了本发明的各方面,但是本领域技术人员将认识到,本发明并不限于此。可以单独地或联合地使用上述发明的各种特征和方面。进一步地,在不脱离说明书的更广泛的精神和范围的情况下,可以在除了本文所描述的那些环境和应用外的任何数量的环境和应用环境中利用各方面。因此,说明书和附图应被视为说明性的而非限制性的。

Claims (20)

1.一种用于使用话语树导航文本的计算机实施的方法,所述方法包括:
根据包括片段的文本创建话语树,其中,所述话语树包括根节点、非终端节点和终端节点,每个非终端节点表示所述片段中的两个片段之间的修辞关系,并且每个终端节点与所述片段之一相关联,其中,所述片段是基本话语单元;
根据所述话语树确定终端节点子集,所述终端节点子集(i)与表示阐述类型的修辞关系的非终端节点相关联,并且(ii)与该阐述的核心基本话语单元相关联;
针对所述终端节点子集的每个节点计算从所述根节点开始的相应路径长度;
从所述终端节点子集识别出具有是所述路径长度中的最小路径长度的路径长度的话题节点;
通过从与所述话题节点相关联的所述核心基本话语单元中提取名词短语来根据所述话题节点确定所述话语树的话题;以及
向用户设备提供所述话题。
2.如权利要求1所述的方法,还包括:
在所述话语树中识别出通过所述阐述类型的修辞关系与所述话题节点相关联的辅助基本话语单元;以及
向所述用户设备提供与所述辅助基本话语单元相关联的文本。
3.如权利要求1所述的方法,还包括:
在所述话语树中从所述终端节点子集识别出附加终端节点,所述附加终端节点具有等于或大于所述路径长度的附加路径长度;
从与所述附加终端节点相关联的附加核心基本话语单元中提取附加文本;以及
向所述用户设备提供所述附加文本。
4.如权利要求1所述的方法,还包括:
在所述话语树中导航到附加非终端节点,所述附加非终端节点连接到所述话题节点并表示附加修辞关联;
通过从与附加非终端节点相关联的附加核心基本话语单元中提取附加名词短语来根据所述附加非终端节点确定附加话题;以及
响应于确定所述附加修辞关联是阐述类型、条件类型或时间顺序类型之一:
从所述附加核心基本话语单元中提取附加文本;以及
向所述用户设备提供所述附加文本。
5.如权利要求1所述的方法,还包括:
从所述用户设备接收言语;
确定所述言语指示对附加话题的熟悉度;
在所述话语树中识别出附加非终端节点,所述附加非终端节点包括表示所述附加话题的文本并表示附加修辞关联;
响应于确定所述附加修辞关联是阐述类型、条件类型或对比类型之一:
从与连接到所述附加终端节点的终端节点相关联的基本话语单元中提取附加文本;以及
向所述用户设备提供所述附加文本。
6.如权利要求1所述的方法,还包括:
从所述用户设备接收言语;
确定所述言语包括对附加话题的兴趣的确认;
在所述话语树中识别出附加非终端节点,所述附加非终端节点包括表示所述附加话题的文本并表示附加修辞关联;
从与连接到所述附加非终端节点的终端节点相关联的基本话语单元中提取附加文本;以及
向所述用户设备提供所述附加文本。
7.如权利要求1所述的方法,还包括:
从所述用户设备接收言语;
确定所述言语包括对与所述话题相关的附加细节的请求;以及
响应于该确定:
在所述话语树中识别出直接连接到所述话题节点的父节点;
在所述话语树中识别出通过阐述类型的修辞关联与所述父节点相关的附加终端节点;
从与所述附加终端节点相关联的基本话语单元中提取附加文本;以及
向所述用户设备提供所述附加文本。
8.如权利要求1所述的方法,还包括:
从所述用户设备接收言语;
确定所述言语包括与所述话题无关的问题;以及
响应于该确定:
从所述言语中识别出一个或多个关键词;
通过向搜索引擎提供包括所述关键词的查询识别出附加文本;以及
向所述用户设备提供来自所述附加文本的一个或多个基本话语单元的文本。
9.如权利要求1所述的方法,还包括:
通过将具有动词的每个片段与相应的动词签名相匹配来根据所述话语树形成表示所述文本的交流话语树;
从所述交流话语树中识别出对应于所述话题节点的动词签名;
从所述动词签名中提取主题;以及
向所述用户设备提供所述主题。
10.一种系统,包括:
存储计算机可执行程序指令的非暂态计算机可读介质;以及
处理设备,所述处理设备通信地耦接到所述非暂态计算机可读介质以执行所述计算机可执行程序指令,其中,执行所述计算机可执行程序指令配置所述处理设备以执行包括以下各项的操作:
根据包括片段的文本创建话语树,其中,所述话语树包括根节点、非终端节点和终端节点,每个非终端节点表示所述片段中的两个片段之间的修辞关系,并且每个终端节点与所述片段之一相关联,其中,所述片段是基本话语单元;
根据所述话语树确定终端节点子集,所述终端节点子集(i)与表示阐述类型的修辞关系的非终端节点相关联,并且(ii)与该阐述的核心基本话语单元相关联;
针对所述终端节点子集的每个节点计算从所述根节点开始的相应路径长度;
从所述终端节点子集识别出具有是所述路径长度中的最小路径长度的路径长度的话题节点;
通过从与所述话题节点相关联的所述核心基本话语单元中提取名词短语来根据所述话题节点确定所述话语树的话题;以及
向用户设备提供所述话题。
11.如权利要求10所述的系统,其中,所述操作还包括:
在所述话语树中识别出通过所述阐述类型的修辞关系与所述话题节点相关联的辅助基本话语单元;以及
向所述用户设备提供与所述辅助基本话语单元相关联的文本。
12.如权利要求10所述的系统,其中,所述操作还包括:
在所述话语树中从所述终端节点子集识别出附加终端节点,所述附加终端节点具有等于或大于所述路径长度的附加路径长度;
从与所述附加终端节点相关联的附加核心基本话语单元中提取附加文本;以及
向所述用户设备提供所述附加文本。
13.如权利要求10所述的系统,其中,所述操作还包括:
在所述话语树中导航到附加非终端节点,所述附加非终端节点连接到所述话题节点并表示附加修辞关联;
通过从与附加非终端节点相关联的核心基本话语单元中提取附加名词短语来根据所述附加非终端节点确定附加话题;以及
响应于确定所述附加修辞关联是阐述类型、条件类型或时间顺序类型之一:
从所述附加核心基本话语单元中提取附加文本;以及
向所述用户设备提供所述附加文本。
14.如权利要求10所述的系统,其中,所述操作还包括:
从所述用户设备接收言语;
确定所述言语指示对附加话题的熟悉度;
在所述话语树中识别出附加非终端节点,所述附加非终端节点包括表示所述附加话题的文本并表示附加修辞关联;
响应于确定所述附加修辞关联是阐述类型、条件类型或对比类型之一:
从与连接到所述附加非终端节点的终端节点相关联的基本话语单元中提取附加文本;以及
向所述用户设备提供所述附加文本。
15.如权利要求10所述的系统,其中,所述操作还包括:
从所述用户设备接收言语;
确定所述言语包括对附加话题的兴趣的确认;
在所述话语树中识别出附加非终端节点,所述附加非终端节点包括表示所述附加话题的文本并表示附加修辞关联;
从与连接到所述附加非终端节点的终端节点相关联的基本话语单元中提取附加文本;以及
向所述用户设备提供所述附加文本。
16.如权利要求10所述的系统,其中,所述操作还包括:
通过将具有动词的每个片段与相应的动词签名相匹配来根据所述话语树形成表示所述文本的交流话语树;
从所述交流话语树中识别出对应于所述话题节点的动词签名;
从所述动词签名中提取主题;以及
向所述用户设备提供所述主题。
17.一种存储计算机可执行程序指令的非暂态计算机可读介质,所述计算机可执行程序指令在由处理器执行时,执行包括以下各项的操作:
根据包括片段的文本创建话语树,其中,所述话语树包括根节点、非终端节点和终端节点,每个非终端节点表示所述片段中的两个片段之间的修辞关系,并且每个终端节点与所述片段之一相关联,其中,所述片段是基本话语单元;
根据所述话语树确定终端节点子集,所述终端节点子集(i)与表示阐述类型的修辞关系的非终端节点相关联,并且(ii)与该阐述的核心基本话语单元相关联;
针对所述终端节点子集的每个节点计算从所述根节点开始的相应路径长度;
从所述终端节点子集识别出具有是所述路径长度中的最小路径长度的路径长度的话题节点;
通过从与所述话题节点相关联的所述核心基本话语单元中提取名词短语来根据所述话题节点确定所述话语树的话题;以及
向用户设备提供所述话题。
18.如权利要求17所述的非暂态计算机可读介质,其中,所述操作还包括:
在所述话语树中导航到附加非终端节点,所述附加非终端节点连接到所述话题节点并表示附加修辞关联;
通过从与附加非终端节点相关联的核心基本话语单元中提取附加名词短语来根据所述附加非终端节点确定附加话题;以及
响应于确定所述附加修辞关联是阐述类型、条件类型或时间顺序类型之一:
从所述附加核心基本话语单元中提取附加文本;以及
向所述用户设备提供所述附加文本。
19.如权利要求17所述的非暂态计算机可读介质,其中,所述操作还包括:
从所述用户设备接收言语;
确定所述言语指示对附加话题的熟悉度;
在所述话语树中识别出附加非终端节点,所述附加非终端节点包括表示所述附加话题的文本并表示附加修辞关联;
响应于确定所述附加修辞关联是阐述类型、条件类型或对比类型之一:
从与连接到所述附加非终端节点的终端节点相关联的基本话语单元中提取附加文本;以及
向所述用户设备提供所述附加文本。
20.如权利要求17所述的非暂态计算机可读介质,其中,所述操作还包括:
从所述用户设备接收言语;
确定所述言语包括对附加话题的兴趣的确认;
在所述话语树中识别出附加非终端节点,所述附加非终端节点包括表示所述附加话题的文本并表示附加修辞关联;
从与连接到所述附加非终端节点的终端节点相关联的基本话语单元中提取附加文本;以及
向所述用户设备提供所述附加文本。
CN202110608704.7A 2020-06-01 2021-06-01 基于话语树的焦点信息共享对话的管理 Pending CN113761158A (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US202063032895P 2020-06-01 2020-06-01
US63/032,895 2020-06-01
US16/995,302 US11295085B2 (en) 2017-09-28 2020-08-17 Navigating electronic documents using domain discourse trees
US16/995,302 2020-08-17
US17/235,329 US11809825B2 (en) 2017-09-28 2021-04-20 Management of a focused information sharing dialogue based on discourse trees
US17/235,329 2021-04-20

Publications (1)

Publication Number Publication Date
CN113761158A true CN113761158A (zh) 2021-12-07

Family

ID=78787294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110608704.7A Pending CN113761158A (zh) 2020-06-01 2021-06-01 基于话语树的焦点信息共享对话的管理

Country Status (1)

Country Link
CN (1) CN113761158A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023216857A1 (en) * 2022-05-09 2023-11-16 International Business Machines Corporation Multi-agent chatbot with multi-intent recognition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023216857A1 (en) * 2022-05-09 2023-11-16 International Business Machines Corporation Multi-agent chatbot with multi-intent recognition
US11985097B2 (en) 2022-05-09 2024-05-14 International Business Machines Corporation Multi-agent chatbot with multi-intent recognition

Similar Documents

Publication Publication Date Title
JP7439038B2 (ja) コミュニケーション用談話ツリーの使用による修辞学的分析の可能化
US11694040B2 (en) Using communicative discourse trees to detect a request for an explanation
US11797773B2 (en) Navigating electronic documents using domain discourse trees
US11599731B2 (en) Generating recommendations by using communicative discourse trees of conversations
JP2023089059A (ja) 収束質問に対する回答を改善するための仮想談話ツリーの構築
US11861319B2 (en) Chatbot conducting a virtual social dialogue
US20230057760A1 (en) Constructing conclusive answers for autonomous agents
US20220253611A1 (en) Techniques for maintaining rhetorical flow
US11809825B2 (en) Management of a focused information sharing dialogue based on discourse trees
US11775772B2 (en) Chatbot providing a defeating reply
US11914961B2 (en) Relying on discourse trees to build ontologies
CN115392217A (zh) 用于保持修辞流的技术
CN113761158A (zh) 基于话语树的焦点信息共享对话的管理
US20240119232A1 (en) Relying on discourse trees to build ontologies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination