CN107590153B - 使用卷积神经网络的对话相关性建模 - Google Patents

使用卷积神经网络的对话相关性建模 Download PDF

Info

Publication number
CN107590153B
CN107590153B CN201610534215.0A CN201610534215A CN107590153B CN 107590153 B CN107590153 B CN 107590153B CN 201610534215 A CN201610534215 A CN 201610534215A CN 107590153 B CN107590153 B CN 107590153B
Authority
CN
China
Prior art keywords
query
branch
segments
processing
pooling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610534215.0A
Other languages
English (en)
Other versions
CN107590153A (zh
Inventor
武博文
王宝勋
彭爽
曾敏
周力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Priority to CN201610534215.0A priority Critical patent/CN107590153B/zh
Priority to EP17740557.8A priority patent/EP3482305A1/en
Priority to US16/316,095 priority patent/US11593613B2/en
Priority to PCT/US2017/040626 priority patent/WO2018009490A1/en
Publication of CN107590153A publication Critical patent/CN107590153A/zh
Application granted granted Critical
Publication of CN107590153B publication Critical patent/CN107590153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本公开的非限制性示例描述了一种卷积神经网络(CNN)架构,该架构被配置成评估查询-响应配对的对话相关性。提供了一种CNN模型。该CNN模型包括:第一分支、第二分支、以及多层感知器(MLP)层。第一分支包括用于处理查询的多个采用动态池化的卷积层。第二分支包括用于处理针对所述查询的候选响应的多个采用动态池化的卷积层。MLP层被配置成基于对话相关性来对查询-响应配对进行排名。使用CNN模型来并行地处理查询和候选响应。使用所述MLP层基于传递自所述第一分支的第一输入和传递自所述第二分支的第二输入来生成所述查询-响应配对的配对级排名。一个或多个查询-响应配对的排名可被输出。还描述了其他示例。

Description

使用卷积神经网络的对话相关性建模
背景
为了增加用户在对话中的活动,一般的对话服务需要提供对话相关响应,而不是词法相关响应。深度神经网络可被用来在维度上对查询的相关性建模。作为一个示例,卷积神经网络(CNN)模型可被用于提供对训练数据的深度学习以改善系统响应查询的能力。CNN学习语义特征并假设那些特征不被限制于它们被呈现的绝对位置。当涉及自然语言处理时,CNN模型的各特征可被应用以对与诸如词性标注(POS)、命名实体识别(NER)等之类的输入有关的不同方面进行评估。CNN模型通常由一堆不同的层形成,这些不同的层通过可微分函数将输入量转换成输出量(例如,保持类别分数)。虽然CNN可提供针对数据的词法评估的深度学习,但是要从大量的对话数据中学习深度的语义知识并且将学习到的知识用于对于查询的自动响应选择是具有挑战性的。例如,考虑查询“what is the weather like if Iwant to go on a picnic in autumn?”。典型的CNN模型在评估该查询的语义特征时可将该查询拆分成(多个部分)诸如:“what is the”、“the weather like”、“weather likeif”、“like if I”、“I want to”等。可以看到,在各文本部分中存在文本重叠,这可能会影响CNN模型的输出(在确定什么部分具有最大的上下文相关性时)以及处理效率。由此,本申请涉及改善用于评估查询/响应配对的CNN建模的通用技术环境。
概述
本公开的非限制性示例描述了一种卷积神经网络(CNN)架构,该架构被配置成评估查询-响应配对的对话相关性。提供了一种CNN模型。该CNN模型包括:第一分支、第二分支、以及多层感知器(MLP)层。第一分支包括具有用于处理查询的多个采用动态池化的卷积层。第二分支包括用于处理针对所述查询的候选响应的多个采用动态池化的卷积层。MLP层被配置成基于对话相关性来对查询-响应配对进行排名。使用CNN模型来并行地处理查询和候选响应。使用所述MLP层基于传递自所述第一分支的第一输入和传递自所述第二分支的第二输入来生成所述查询-响应配对的配对级排名。一个或多个查询-响应配对的排名可被输出。
在各示例中,第一分支可进一步包括生成所述查询的句子表示的单词嵌入层,所述句子表示由多个单词嵌入(单词向量)组成。示例性单词嵌入包括多个特征向量,每一个特征向量被映射到所述查询的一个单词,所述多个特征向量被用作为用于所述查询的CNN建模的特征输入。第一分支执行处理以通过对所述特征输入建模以使用所述多个卷积层来抽象所述句子表示的短文本部分的含意来评估所述查询的含意。为了改善CNN模型处理,第一分支被配置成执行动态池化处理操作,所述动态池化处理操作包括:将所述查询的句子表示划分成至少两个片段,评估所述查询的至少两个片段之间各个短文本部分中的冗余文本信息,以及传递所述至少两个片段的非冗余短文本部分供进一步处理。在各示例中,第一分支可进一步包括多个采用k个最大池化的卷积层。之前提到的第一分支的进一步处理可包括将所述查询的至少两个片段的非冗余短文本部分传递给多个采用k个最大池化的卷积层。通过所述多个采用k个最大池化的卷积层的处理导致生成要用于对查询-响应配对进行排名的MLP层的第一输入。
在各示例中,第二分支可进一步包括生成所述候选响应的句子表示的单词嵌入层,所述句子表示各自由候选响应的多个单词嵌入(单词向量)组成。示例性单词嵌入包括多个特征向量,每一个特征向量被映射到候选响应的一个单词,所述多个特征向量被用作为用于候选响应的CNN建模的特征输入。第二分支执行处理以通过对所述特征输入建模以使用所述多个卷积层来抽象所述句子表示的短文本部分的含意来评估所述候选响应的含意。为了改善CNN模型处理,第二分支被配置成执行动态池化处理操作,所述动态池化处理操作包括:将所述候选响应的句子表示划分成至少两个片段,评估所述候选响应的至少两个片段之间各个短文本部分中的冗余文本信息,以及传递所述至少两个片段的非冗余短文本部分供进一步处理。在各示例中,第二分支可进一步包括多个采用k个最大池化的卷积层。之前提到的第二分支的进一步处理可包括将所述候选响应的至少两个片段的非冗余短文本部分传递给多个采用k个最大池化的卷积层。通过所述多个采用k个最大池化的卷积层的处理导致生成要用于对查询-响应配对进行排名的MLP层的第二输入。
提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本发明内容并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。各示例的附加方面、特征、和/或优点将在以下描述中阐述,并且根据该描述而部分地显而易见,或者可通过实施本发明而获知。
附图简述
参考以下附图描述非限制性和非穷尽的示例。
图1是解说可用来实现本公开的各方面的计算设备的示例的框图。
图2A和2B是可用来实施本公开的各方面的移动计算设备的简化框图。
图3是可在其中实施本公开的各方面的分布式计算系统的简化框图。
图4示出可在在其上本发明的各方面可被实施的一个或多个计算设备上实现的示例性系统。
图5是可用来实施本发明的各方面的用于将示例性卷积神经网络模型应用于查询处理的示例性方法。
详细描述
本文中描述的示例涉及卷积神经网络(CNN)架构,该架构采用动态池化处理操作来评估查询/响应配对的文本/词组之间的对话相关性。虽然所描述的各示例涉及查询/响应配对排名,但是本领域技术人员应当理解本公开中描述的处理操作可被应用于评估任何两种类型的数据(例如,两个独立的句子)之间的语义特征。CNN通常是非常复杂的,并且需要大量的资源来工作。本文中描述的示例生成动态CNN模型,该动态CNN模型例如基于对话相关性来输出对于查询/响应的配对级排名。在处理期间,示例性动态池化处理操作被应用以消除冗余文本信息对于查询的候选响应的排名的影响。与仅采用k个最大池化函数的CNN模型相比,本文中描述的示例性动态池化函数相对于句子的其它文本部分来评估该句子的文本部分(例如,n元、词组等)以针对各文本部分之间的冗余文本(例如,重叠的)对句子进行过滤。这使得示例性CNN模型能够在执行对查询对候选响应的配对级排名时传递最相关的文本部分供评价,这改善了CNN模型的处理效率。本文中描述的处理操作可被配置成与任何类型的CNN模型一起工作以动态地调适CNN模型。
如本文中所描述的,卷积神经网络(CNN)被适配成根据应用/服务(诸如对话服务、社交网络服务、以及智能个人助理服务等)中的用户的对话来对查询-响应进行建模。查询和响应被并行和独立地映射成语义空间,其中来自对查询和候选响应的独立处理的输入在多层感知器(MLP)层处被组合,所述MLP层被配置成基于对话相关性来对查询-响应配对进行排名。对示例性CNN模型的训练构建了二元分类器或排名器,二元分类器或排名器使用该语义空间来辨别对话相关的查询-响应配对的肯定示例以及对话不相关的查询-响应配对的否定示例。经训练的CNN模型可被用于对查询/响应配对进行排名,例如其中二元分类器应用学习到的参数来针对对话相关性对查询和候选响应进行建模。如以上所描述的,示例性CNN模型使用动态池化操作(例如,执行动态池化函数)来探索由卷积操作生成的有价值的语义特征。使用社交网络服务对话数据集的实验结果表明示例性的经适配CNN模型在对查询/响应配对进行排名方面胜过传统CNN方法,而无需任何在先知识或手动注解工作。
因此,本公开提供多个技术优势,包括但不限于:生成和管理经适配的CNN模型(该CNN模型被定制用于评估与查询/响应配对相关联的语义特征(包括隐藏的语义特征))、改善的查询处理(包括对查询/响应配对进行排名)、允许查询和候选响应以并行方式被独立映射的CNN架构、训练CNN模型以标识对话相关的查询-响应配对的能力、改善的动态池化操作(该动态池化操作被合并以适配CNN架构)、在使用CNN来评估查询/响应配对时处理设备的更高效的操作(例如,节省计算周期/计算资源)、将示例性CNN架构合并到各种产品和/或服务中的扩展性、以及与根据给定查询的候选响应排名有关的改善的用户体验等等。
图1-3及相关联的描述提供了其中可实施本发明的各示例的各种操作环境的讨论。然而,关于图1-3所示出和讨论的设备和系统是用于示例和说明的目的,而非对可被用于实施本文所述的本发明的各示例的大量计算设备配置的限制。
图1是解说计算设备102的物理组件(例如,可用来实现本公开的各示例的移动处理设备)的框图。例如,计算设备102可以是用于实施所执行的处理的示例性计算设备,所述处理与构建、训练和/或调试CNN架构以评估包括查询/响应配对的数据有关。在基本配置中,计算设备102可包括至少一个处理单元104以及系统存储器106。取决于计算设备的配置和类型,系统存储器106可包括但不限于易失性存储(例如,随机存取存储器)、非易失性存储(例如,只读存储器)、闪存、或者此类存储器的任何组合。系统存储器106可包括操作系统107和适合于运行诸如IO管理器120、其它工具126以及应用128之类的软件程序/模块120的一个或多个程序模块108。作为示例,系统存储器106可存储用于执行的指令。系统存储器106的其他示例可存储与应用相关联的数据。例如,操作系统107可适合于控制计算设备102的操作。此外,本发明的各示例可结合图形库、其他操作系统、或任何其他应用程序来实施,并且不限于任何特定应用或系统。该基本配置在图1中由虚线122内的那些组件示出。计算设备102可具有附加特征或功能。例如,计算设备102也可以包括附加的数据存储设备(可移动和/或不可移动),诸如磁盘、光盘或带。这些附加存储在图1中由可移动存储设备109和不可移动存储设备110示出。
如上所声明的,大量程序模块和数据文件可被存储在系统存储器106中。尽管在处理单元104上执行,但是程序模块108(例如输入/输出(I/O)管理器124、其它工具126、以及应用128)可以执行包括但不限于下列过程:本文中描述的操作的阶段中的一个或多个。根据本发明的示例可使用的其他程序模块可包括电子邮件和联系人应用、字处理应用、电子表格应用、数据库应用、幻灯片演示应用、绘图或计算机辅助应用、相片编辑应用、创作应用等。
此外,本发明的各示例可在包括分立电子元件的电子电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路、或在包含电子元件或微处理器的单个芯片上实施。例如,可以通过片上系统(SOC)来实施本发明的各示例,其中,可以将图1中示出的每个或许多组件集成到单个集成电路上。这样的SOC设备可包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元以及各种应用功能,所有这些都被集成到(或“烧录到”)芯片基板上作为单个集成电路。当通过SOC操作时,在此所述的功能可以通过与计算设备102的其他组件一起集成在单个集成电路(芯片)上的应用专用逻辑来操作。本发明的各示例还可使用能够执行诸如例如,AND(与)、OR(或)和NOT(非)的逻辑运算的其他技术来实施,包括但不限于,机械、光学、流体和量子技术。另外,本发明的各示例可在通用计算机或任何其他电路或系统中实施。
计算设备102还可具有一个或多个输入设备112,如键盘、鼠标、笔、语音输入设备、用于语音输入/识别的设备、触摸输入设备等。也可包括输出设备114,如显示器、扬声器、打印机等等。前述设备是示例,并且可使用其它设备。计算设备104可包括允许与其它计算设备116通信的一个或多个通信连接118。合适的通信连接116的示例包括但不限于RF发射机、接收机、和/或收发机电路系统、通用串行总线(USB)、并行和/或串行端口。
如本文中所使用的术语计算机可读介质可包括计算机存储介质。计算机存储介质可包括以用于存储信息(诸如计算机可读指令、数据结构、或者程序模块)的任何方法和技术实现的易失性和非易失性、可移除和不可移除介质。系统存储器106、可移除存储设备109、以及不可移除存储设备110都是计算机存储介质示例(即,存储器存储)。计算机存储介质可包括RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光学存储、磁带盒、磁带、磁盘存储或其它磁存储设备、或者可用于存储信息且可由计算设备102访问的任何其它制品。任何此类计算机存储介质可以是计算设备102的一部分。计算机存储介质不包括载波或者其它经传播或经调制的数据信号。
通信介质可通过计算机可读指令、数据结构、程序模块、或者经调制的数据信号(诸如载波或者其他传送机制)中的其他数据体现,并且包括任何信息传递介质。术语“已调制数据信号”可以描述以对信号中的信息进行编码的方式来设置或改变其一个或多个特征的信号。通过示例而非限制,通信介质可包括诸如有线网络或直接有线连接之类的有线介质、以及诸如声、射频(RF)、红外和其它无线介质之类的无线介质。
图2A和2A示出可用来实施本发明的各示例的移动计算设备200,例如移动电话、智能电话、个人数据助理、平板个人计算机、大屏手机、平板、膝上型计算机等。移动计算设备200可以是用于与构建、训练和/或调试CNN架构以评估包括查询/响应配对的数据有关的处理的示例性计算设备。应用命令控制涉及通过用户界面(UI)或图形用户界面(GUI)来与应用一起使用的命令的呈现和控制。在一个示例中,应用命令控制可被专门地编程以与单个应用一起工作。在其他示例中,应用命令控制可被编程以跨一个以上的应用工作。参考图2A,示出了用于实现各示例的移动计算设备200的一个示例。在基本配置中,移动计算设备200是具有输入元件和输出元件两者的手持计算机。移动计算设备200通常包括显示器205以及允许用户将信息输入移动计算设备200的一个或多个输入按钮210。移动计算设备205的显示器200还可用作输入设备(例如,触摸屏显示器)。如果被包括在内,任选的侧输入元件215允许进一步的用户输入。侧输入元件215可以是旋转开关、按钮、或者任何其它类型的手动输入元件。在替代示例中,移动计算设备200可纳入更多或更少的输入元件。例如,在某些示例中,显示器205可以不是触摸屏。在又一替代示例中,移动计算设备200是诸如蜂窝电话之类的便携式电话系统。移动计算设备200还可包括任选的小键盘235。可选的键区235可以是物理键区或者在触摸屏显示器或任一其他软输入面板(SIP)上生成的“软”键区。在各种示例中,输出元件包括用于示出GUI的显示器205、可视指示器220(如发光二极管)、和/或音频换能器225(如扬声器)。在某些示例中,移动计算设备200结合振动换能器来向用户提供触觉反馈。在又一示例中,移动计算设备200结合诸如音频输入(如传声器插孔)、音频输出(如耳机插孔)、以及视频输出(如HDMI端口)之类的输入和/或输出端口,用于将信号发送到外部设备或从外部设备接收信号。
图2B是示出移动计算设备的一个示例的架构的框图。即,移动计算设备200可纳入系统(即架构)202以实现某些示例。在一个示例中,系统202被实现为能够运行一个或多个应用(如浏览器、电子邮件、日历、联系人管理器、消息收发客户端、游戏、以及媒体客户端/播放器)的“智能电话”。在某些示例中,系统202被集成为计算设备,诸如集成的个人数字助理(PDA)、平板和无线电话。
一个或多个应用程序266可被加载到存储器262中,并且在操作系统264上或者与其相关联地运行。应用程序的示例包括电话拨号程序、电子邮件程序、个人信息管理(PIM)程序、文字处理程序、电子表格程序、因特网浏览器程序、消息收发程序等等。系统202还包括存储器268内的非易失性存储区域262。非易失性存储区域268可用于存储持久性信息,如果系统202断电,该持久性信息则不会丢失。应用程序266可使用和存储非易失性存储区域268中的信息,诸如电子邮件应用所使用的电子邮件或其它消息等。同步应用(未示出)还驻留在系统202上,并且被编程为与驻留在主机计算机上的相应同步应用交互以使存储在非易失性存储区域268中的信息保持与存储在主机计算机的相应信息同步。应当理解,其它应用也可被加载到存储器262中并在此处所述的移动计算设备200上运行。
系统202具有可被实现为一个或多个电池的电源270。电源270可能进一步包括外部电源,诸如补充电池或对电池再充电的AC适配器或供电底座(powered dockingcradle)。
系统202可包括执行促进系统202和一个或多个外围设备之间的连接性的功能的外围设备端口230。来往外围设备端口230的传输是在操作系统(OS)264的控制下进行的。换言之,外围设备端口230接收的通信可通过操作系统264传播到应用程序266,反之亦然。
系统202还可包括执行发射和接收无线电频率通信的功能的无线电接口层272。无线电接口层272通过通信运营商或服务供应商促进了系统202与“外部世界”之间的无线连接性。来往无线电接口层272的传输是在操作系统264的控制下进行的。换言之,无线电接口层272接收的通信可通过操作系统264传播到应用程序266,反之亦然。
视觉指示器220可用于提供视觉通知,和/或音频接口274可用于经由音频换能器225生成听得见的通知。在所示示例中,可视指示器220是发光二极管(LED),而音频换能器225是扬声器。这些设备可直接耦合到电源270以使它们在激活时保持开启达通知机制所陈述的持续时间,即使处理器260以及其它组件可能关闭以节约电池电量。LED可被编程为无限地保持开启,直至用户采取措施来指示该设备的开启状态。音频接口274用于向用户提供听得见的信号且接收来自用户的听得见的信号。例如,除了耦合到音频换能器225以外,音频接口274还可耦合到话筒以接收听得见的输入,诸如促进电话交谈。根据各本发明的各示例,话筒也可充当音频传感器来便于对通知的控制,如下文将描述的。系统202可进一步包括允许板载相机230的操作来记录静止图像、视频流等的视频接口276。
实现系统200的移动计算设备202可具有附加特征或功能。例如,移动计算设备200还可包括附加数据存储设备(可移除和/或不可移除),诸如磁盘、光盘或带。这种附加存储设备在图2B中用非易失性存储区268示出。
如上所述,通过移动计算设备200生成或捕捉且经由系统202存储的数据/信息可在本地被存储在移动计算设备200上,或者该数据可被存储在可由该设备经由无线电272或者经由移动计算设备200与关联于移动计算设备200的单独计算设备(例如,分布式计算网络中的服务器计算机(诸如因特网))之间的有线连接访问的任意数量的存储介质上。如应当领会的,可经由移动计算设备200、经由无线电272、或者经由分布式计算网络访问此类数据/信息。类似地,可以在根据熟知的数据/信息转移和存储装置(包括电子邮件和协同数据/信息共享系统)的用于存储和使用的计算设备之间容易地转移此类数据/信息。
图3示出用于向一个或多个客户端设备提供如上所述的可靠地访问存储系统上的目标数据并且处理对一个或多个客户端设备的通信故障的应用的系统架构的一个示例。图3的系统可以是与构建、训练和/或调试CNN架构以评估包括查询/响应配对的数据有关的示例性系统。与编程模块108、应用120以及存储/存储器相关联地访问、交互或编辑的目标数据可被存储在不同的通信信道或其他存储类型中。例如,各种文档可使用目录服务322、web门户324、邮箱服务326、即时消息收发存储328或社交网站330来存储,应用128、IO管理器124、其它工具126以及存储系统可使用这些类型的系统或诸如此类中的任意一种来实现如本文所描述的数据使用。服务器320可提供存储系统以供操作在通用计算设备102和移动设备200上的客户端通过网络315来使用。作为示例,网络315可包括因特网或任何其它类型的局域网或广域网,并且客户端节点可被实现为具体化在个人计算机、平板计算设备和/或移动计算设备200(如移动处理设备)中的计算设备102。客户端计算设备102或200的这些示例中的任一个可从存储316获得内容。
图4示出可在其上实施本发明的各方面的一个或多个计算设备上实现的示例性系统400。系统400可以是用于与构建、训练和/或调试CNN架构以评估包括查询/响应配对的数据有关的处理的示例性系统。所呈现的示例性系统400是相互依赖的组件的组合,这些组件交互以形成一个集成的整体以并入并应用可被独立使用以用并行方式对查询对响应候选建模的模型。系统400的各组件可以是硬件组件或者在硬件组件上实现的和/或由其执行的软件。在各示例中,系统400可包括硬件组件(例如,ASIC、用于执行/运行OS的其它设备)以及运行在硬件上的软件组件(例如,应用、应用编程接口、模块、虚拟机、运行时库)中的任一者。在一个示例中,示例性系统400可提供用于软件组件运行的环境、遵守用于操作的约束集、以及利用系统/处理识别的资源或工具,其中各组件可以是运行在一个或多个处理设备上的软件(例如,应用、程序、模块)。例如,软件(例如,应用、操作指令、模块)可以被执行在诸如接收机、移动设备(例如,智能手机/电话、平板)和/或任何其它电子设备之类的处理设备上。作为处理设备操作环境的示例,参照图1-3的操作环境。
本领域技术人员将领会系统(诸如系统400)的规模可变化,并且可包括与图4中描述的那些组件相比更多或更少的组件。在一些示例中,系统400的各组件之间的对接可能远程地进行,例如在系统400的组件可能散布在分布式网络的一个或多个设备中的情况下。在各示例中,一个或多个数据存储/贮存器或其它存储器与系统400相关联。例如,系统400的组件可具有与其相关联的一个或多个数据存储/存储器/存储。与系统400的组件相关联的数据以及由系统400的组件执行的处理操作/指令可被存储在该数据存储上。此外,还呈现了系统400的应用组件可与多个应用服务中的任意一个交互。应用服务可以是可扩展系统400的一个或多个组件的功能的任何资源。应用服务可包括但不限于:操作系统服务、智能个人助理服务、web搜索服务、电子邮件应用、日历、设备管理服务、地址簿服务、信息服务等、业务线(LOB)管理服务、客户关系管理(CRM)服务、调试服务、会计服务、薪酬管理服务、以及由第三方主控或控制的服务和/或网站等等。应用服务还可包括被第三方主控的其他网站和/或应用,诸如社交媒体网站;相片共享网站;视频和音乐流传输网站;搜索引擎网站;体育、新闻或娱乐网站等。应用服务可进一步与系统400的组件联合地提供分析、数据整理和/或存储服务等。
与系统400的组件交互的应用服务可控制处理手段并可被配置成处理任一类型的输入,包括但不限于,话音/语音输入、文本输入、姿势输入、手写输入等。换言之,示例性CNN模型可与应用/服务相关联以处理来自应用/服务的数据,以便不仅训练示例性CNN模型,还实时执行查询处理以协助应用/服务返回对于接收到的查询的响应。例如,示例应用/服务可以是社交网络服务(SNS),其中SNS的查询和响应可被用于训练系统400的模型。经训练的模型可被用于标识与对话最相关(例如,导致更多聊天来回)的候选响应。在该示例中,经训练的CNN模型可被用于处理SNS或任何其他类型的应用/服务中接收到的查询。在一个示例中,系统400可与聊天机器人应用/服务交互。聊天机器人是被设计为经由听觉或文本方法模拟与一个或多个用户的智能对话的对话组件。如果查询是向聊天机器人提出的,则系统400的经训练模型可被用于为该聊天机器人提供对于查询-响应配对的排名以使得该聊天机器人能够最佳地对用户查询作出响应。
系统400可以是可伸缩和可配置的以在各种处理设备中的任意一种上操作,各种处理设备包括但不限于:台式计算机、膝上型计算机、诸如电话、平板、板式之类的移动处理设备、可穿戴处理设备(例如,手表、眼镜、耳机等)、车载处理设备以及具有至少一个处理器的任意其他设备等。如以上指出的,系统400的组件可被分布在多个设备上并且通过分布式网络环境连接。系统400可进一步通过分布式网络连接到执行应用/服务的其它处理设备。
系统400可被训练以实时地对查询和候选响应进行评估以根据对话相关性对查询-响应配对进行排名。训练可包括提取来自诸如社交网络服务及其它示例之类的应用服务的查询和响应。系统400可处理这些提取出的数据来构建示例性二元分类器,该二元分类器可被用于学习用于评估查询-响应配对的特征参数以供测试和/或实时处理。训练处理操作可被执行以标识可导致标识查询的对话相关响应的低误差率的参数。用于训练系统400的处理可以是对本领域技术人员已知的。理解本公开的本领域技术人员应当理解执行用于训练的操作可能随着要获得标识对话相关查询响应配对的最低误差率的目的而改变。
示例性系统400包括一堆层,这些层被配置成以并行方式独立地处理查询和候选响应并且将该处理的结果组合以对查询-响应配对排名以供输出。系统400是示例性CNN架构,该CNN架构包括第一分支,该第一分支包括多个被用于评估查询的层。在一个示例中,第一分支包括:单词嵌入层402、采用动态池化的卷积层404、以及采用k个最大池化的卷积层406。系统400还包括第二分支,第二分支包括被用于评估查询的候选响应的多个层。在一个示例中,第二分支包括:单词嵌入层412、采用动态池化的卷积层414、以及采用k个最大池化的卷积层416。系统400还包括被配置成基于对话相关性来对查询-响应配对进行排名的MLP层。MLP层包括全连接层408和输出层410,其中MLP层将从第一和第二分支接收的各组输入数据映射到一组合适的输出上。作为一个示例,输出可以是应用/服务可用来确定插叙你的响应的一组经排名的查询-响应配对。然而,本领域技术人员应当认识到系统400中描述的示例性CNN架构可被配置成处理和评估与查询和/或候选响应的数据相关联的任何方面。系统400的双分支架构为CNN提供了选择在评判查询-响应配对时有用的信息的能力。结合系统400的各组件描述的示例性处理操作可以是可执行的计算机程序、应用编程接口(API)、或者机器学习处理等。例如,机器学习处理操作可被应用以对查询和候选响应配对建模,其中所生成的输出是根据对话相关性对查询-响应配对的排名。
系统400的第一分支的示例性单词嵌入层402分析查询的文本。作为一个示例,单词嵌入层402所执行的处理操作获得查询的句子表示并将该查询的每一个单词映射为一个唯一的特征向量,该特征向量被用于在使用系统400的示例性CNN模型建模时表示单词的含意。被用于卷积建模的特征向量可表示单词的不同评估方面,包括但不限于:语义含意、词性、实体识别、以及单词在句子中的位置等等。作为一个示例,4维度嵌入被用于表示句子表示的单词。然而,本领域技术人员应当理解维度建模可针对单词嵌入而改变。单词嵌入层402的输出是与句子表示的各单词以与查询的句子表示一致的顺序依次对准的单词嵌入。为了处理各特征向量,单词嵌入层402将单词嵌入传递给采用动态池化的卷积层404。
采用动态池化的卷积层404对该特征输入建模以使用多个卷积层来抽象出该查询的句子表示的各个短的文本部分的含意。采用动态池化的卷积层404包括卷积层和动态池化层。为了便于理解,对层404的描述被拆解为卷积层(在图4中被堆叠在彼此之上)以及随后的动态池化层(在图4中被堆叠在彼此之上)。在每一个池层之前堆叠的多个堆叠的卷积层提供了更大、更深的网络的益处,因为多个堆叠的卷积层发展出更复杂的特征。
在层404中的卷积层中执行的卷积处理操作可将单词嵌入映射到维度空间中以探索与查询的句子表示相关联的语义特征。卷积层由计算单元组成,每一个计算单元对应于输入的一个小的区域。卷积层的目标是提取模式(pattern),即在输入的句子内找到的有辨识度的单词序列,这些单词序列在整个训练实例中是相同的。这有助于训练CNN模型以识别在实时评估查询时有用的模式。
卷积层参数由一组可学习过滤器组成。每一个卷积层是一个独立的层,该层应用一个或多个不同的维度过滤器以评估单词嵌入的不同方面。例如,不同卷积层可被认为是在评估句子表示的单词的语义含意时聚焦于不同视角的不同的语言专家。使用多个卷积层对单词嵌入进行过滤可捕捉输入的句子中相隔较远的不连续词组之间的句法或语义关系。作为一个示例,每一个过滤器学习一个特征图。由不同过滤器学习的特征图可沿深度维度堆叠。在一个示例中,可采用参数共享来控制建模期间使用的参数的数目。
句子表示可以按小的片段或部分来评估。卷积层在评估句子表示时对经设定的窗口大小应用矩阵-向量操作。作为一个示例,考虑查询“many people love going on apicnic in autumn because the weather is warm and dry”。发生在卷积层中的处理操作担当抽象和理解具有固定的预确定长度的词组(例如,单词的组合)的含意的角色。例如,考虑以上的示例查询,卷积处理可将以上的示例查询评估为小的片段,诸如:“Many peoplelove”、“people love going”、“love going on”、“on picnic in”、“picnic in autumn”等。每一个卷积层可被配置成评估该句子表示的各个短文本部分的不同方面。该句子表示的多个短文本部分可被传递以供动态池化处理。在一个示例中,单维度级卷积操作被执行,其中不同输出特征图提供各种过滤权重以为各个短文本部分生成不同的本地信息组合。同一词组或子句的各个潜在特征由多个过滤器生成。这类特征被层404中的更高级的动态池化层屏蔽以寻找各短文本部分的显著的隐藏语义。
层404的动态池化层被配置成对来自卷积处理的输入的空间维度进行下采样。层404的动态池化层可被配置成对短文本部分进行过滤,使得后续卷积处理可更高效地评估句子表示的语义含意。动态池化层担当选择或组合要传递给后续的处理层的词组的角色。在这样做时,动态池化层评估之前所描述的卷积层处理的结果。在动态池化层中应用的处理操作包括:将查询的句子表示划分成至少两个片段、对该至少两个片段之间的短文本部分中的冗余文本信息进行评估、以及传递该至少两个片段的非冗余的短文本部分以供进一步处理(例如,传递给采用k个最大池化的卷积层406)。层404的卷积层所作的处理可确定单词的位置以及其对于查询的句子表示的重要性,其中动态池化层可利用这一确定以便能够对句子表示的各个短文本部分进行过滤。考虑以上描述的查询示例,其中针对查询“manypeople love going on a picnic in autumn because the weather is warm and dry”的多个短文本部分被传递给动态池化层。所执行的处理可为该句子表示的每一个经确定的片段标识要传递的一个或多个短文本部分,例如,其中要传递给层406的短文本部分可包括“many people love”、“going on”、“a picnic in”、“autumn because the”、“weatheris”、“warm and dry”等等。在这样做时,可消除包括冗余/重叠文本的短文本部分。需要注意,一些不太重要的词组的组合也可能对于整个句子含意而言是重要的。在各示例中,此处所执行的动态池化处理操作旨在获得这类有用的组合以及最重要的词组以实现按小的部分进行的池化。示例性动态池化操作协助CNN模型保持序列顺序,而不是使用词袋处理。这保证了处理可变长度文本的能力,并且对于越长的句子包含越多的信息。同时,组池化移除了相邻的冗余信息,从而使得模型比传统CNN模型快得多地聚集到最优方案。
考虑其中两个卷积层被用在层404中的示例。示例性动态池化函数可以是:
Figure GDA0001153164580000141
在这一示例架构中,L=2,因为存在两个卷积层,这导致一半节点是在后续动态池层中的卷积组合之后被采样的。
处理可前进至将经传递的各个短文本部分传递至采用k个最大池化的卷积层406。采用k个最大池化的卷积层406对该特征输入建模以使用多个卷积层来抽象出该查询的句子表示的各个短的文本部分的含意。采用k个最大池化的卷积层406包括卷积层和k个最大池化层。为了便于理解,对层406的描述被拆解为卷积层(在图4中被堆叠在彼此之上)以及随后的k个最大池化层(在图4中被堆叠在彼此之上)。层406的卷积层执行对于所传递的短文本部分的卷积处理。卷积处理的示例已在之前被描述(例如,参见对采用动态池化的卷积层404的描述)。这类附加的卷积处理层可被用于进一步评估所传递的短文本部分之间的隐藏的语义含意。
k个最大池化层是进一步的用于在较上层处理(例如MLP层)之前对输入的空间维度进行下采样的池化层。动态k个最大池化被用于与其输入大小成比例地对特征进行采样。k个最大池化操作被用于在输入被传递至全连接层之前将不同长度向量下采样成相同长度。与提取单个最大值不同,k个值被按照它们的原始顺序提取。这使得能够从输入句子中提取若干个最大的激活值。来自层406的卷积层的数据被传递给k个最大池化层,k个最大池化层被配置成学习适当的阈值以聚集所传递的信息并减少空间表示。示例性动态k个最大组池化函数从序列z中选取重要序列h如下:
Figure GDA0001153164580000151
其中L代表z的元素数目,而hi(z)表示第i个k个最大组池化输出。各个值(这些值可与候选响应相关)被传递给MLP层的全连接层408以对查询-响应配对建模。
如之前所描述的,系统400被配置成并行地独立地处理查询和候选响应。如图4中所示,系统400还包括第二分支,第二分支包括被用于评估查询的候选响应的多个层。在一个示例中,第二分支包括:单词嵌入层412、采用动态池化的卷积层414、以及采用k个最大池化的卷积层416。这些层的处理类似于第一分支中描述的层的处理(查询处理)。例如,单词嵌入层412执行与单词嵌入层402类似的处理操作,但是生成用于候选响应的单词嵌入。采用动态池化的卷积层414执行与采用动态池化的卷积层404类似的处理操作,但是对候选响应的单词嵌入建模并且传递短文本部分供后续卷积处理(例如,采用k个最大池化的卷积层416)。采用k个最大池化的卷积层416执行与采用k个最大池化的卷积层406类似的处理操作,但是用于对与所传递的候选响应相关联的数据的评估。
MLP层将从第一和第二分支接收的各组输入数据映射到一组适当的输出。作为一个示例,输出可以是应用/服务可用来确定查询的响应的一组经排名的查询-响应配对。查询的输入数据(传递自第一分支)和候选响应的输入数据(传递自第二分支)可在全连接层408处被接收并由全连接层408进一步处理。
全连接层408被配置成对查询和候选响应之间的关系建模。全连接层408通过比较查询和每一个候选响应之间的交互和子含意来评判查询和候选响应的对话相关性。在这样做时,全连接层408应用机器学习处理操作来对从第一分支的采用k个最大池化的卷积层406和第二分支的采用k个最大池化的卷积层416中的每一者中抽象出的输入建模。在一个示例中,评分操作被应用以基于全连接层408所执行的建模对查询-响应配对排名。例如,可生成置信度分数以评估查询和候选响应之间的句子配对匹配。在全连接层408中应用的用于对查询-响应配对进行评估和评分的处理操作对于本领域技术人员是已知的。
输出层410与全连接层408接口以输出查询-响应配对的排名。对于成对的排名模型,输出层提供对于每一个查询-响应配对的排名得分。作为对比,对于类别模型,输出层提供查询-响应配对的置信度分数作为对话相关的配对或对话不相关的配对。输出层410表示经排名的查询响应配对的类别得分。在各示例中,处理操作可被执行以与一个或多个应用/服务接口以例如使用分布式网络输出经排名的查询-响应配对。在一个实例中,最高排名的查询-响应配对可被传送给应用/服务。然而,任意数目个经排名的查询-响应配对可被输出给应用/服务。
图5是可用来实施本发明的各方面的用于将示例性卷积神经网络应用于查询处理的示例性方法500。作为一个示例,方法500可由诸如图1-4中显示的之类的示例性处理设备和/或系统来执行。在各示例中,方法500可以在包括被配置成存储和执行操作、程序或指令的至少一个处理器的设备上执行。方法500中执行的操作可对应于系统和/或服务执行的执行计算机程序、应用编程接口(API)或机器学习处理等示例的操作。包括生成、训练以及测试CNN模型在内的对CNN模型的调适可跨多个处理设备进行。
方法500开始于操作502,在此,提供CNN模型以评估查询-响应配对。在一个示例中,通过可由应用/服务访问的分布式网络来提供示例性CNN模型(操作502)。例如,应用/服务可传送查询的数据以及CNN模型的潜在的候选响应以处理和返回查询-响应配对的排名。在另一示例中,提供(操作502)示例性CNN模型包括将示例性CNN模型集成在特定产品或服务中。例如,CNN模型可与诸如智能个人助理、聊天机器人应用、社交网络服务等之类的应用/服务相关联。
一个示例性CNN模型是图4中示出并在图4的对应描述中描述的系统400。示例性CNN模型可被配置成应用各处理操作来评估查询的候选响应的对话相关性。在这样做时,如之前描述的,各处理操作被执行以评估查询和候选响应的语义特征(以独立方式)。
示例性CNN模型可包括第一分支,第一分支包括:单词嵌入层(用于生成与查询相关联的单词嵌入)、用于处理查询的多个采用动态池化的卷积层、以及用于进一步处理查询的多个采用k个最大池化的卷积层。多个采用动态池化的卷积层应用动态池化处理操作,处理操作包括:将查询的句子表示划分成至少两个片段、对该至少两个片段之间的短文本部分中的冗余文本信息进行评估、以及传递该至少两个片段的非冗余的短文本部分以供进一步处理。进一步处理可包括使用多个采用k个最大池化的卷积层来对所传递的非冗余短文本部分建模。使用多个采用k个最大池化的卷积层,至少两个片段的非冗余短文本部分被进一步评估为作为MLP的第一输入来传递与查询的该至少两个片段中的每一个相关联的若干个短文本部分。在一个示例中,被确定为MLP层的第一输入的该若干个短文本部分是基于针对k个最大池化的超参数集来确定的。
示例性CNN模型可进一步包括第二分支,第二分支包括:单词嵌入层(用于生成与候选响应相关联的单词嵌入)、用于处理候选响应的多个采用动态池化的卷积层、以及用于进一步处理候选响应的多个采用k个最大池化的卷积层。多个采用动态池化的卷积层应用动态池化处理操作,处理操作包括:将候选响应的句子表示划分成至少两个片段、对该至少两个片段之间的短文本部分中的冗余文本信息进行评估、以及传递该至少两个片段的非冗余的短文本部分以供进一步处理。进一步处理可包括使用多个采用k个最大池化的卷积层来对所传递的非冗余短文本部分建模。使用多个采用k个最大池化的卷积层,至少两个片段的非冗余短文本部分被进一步评估为作为MLP的第二输入来传递与候选响应的该至少两个片段中的每一个相关联的若干个短文本部分。在一个示例中,被确定为MLP层的第二输入的该若干个短文本部分是基于针对k个最大池化的超参数集来确定的。
另外,示例性CNN模型可进一步包括MLP层,MLP层包括全连接层和输出层。CNN模型的MLP层被使用以便聚集来自示例性CNN模型的不同分支的输入数据、基于对话相关性对查询-响应配对进行排名、以及输出一个或多个经排名的查询-响应配对。
流程可前进至操作504,在此,使用示例性CNN模型并行地处理查询和候选响应。操作504中应用的并行处理可包括使用第一分支执行对查询的CNN建模以及使用第二分支执行对候选响应的CNN建模。来自每一分支的输入可被传递至MLP层以对查询-响应配对进行排名。
流程可前进至操作506,在此,使用MLP层来生成对查询-响应配对的配对级排名。如之前所描述的,配对级排名可基于传递自第一分支的第一输入和传递自第二分支的第二输入来生成(操作506)。
在操作508,一个或多个经排名的查询-响应配对的排名可被输出。作为一个示例,经排名的查询-响应配对可被传送至应用/服务,该应用/服务可将针对该查询的响应提供给用户的计算设备。在另一示例中,操作508可包括将查询-响应配对的配对级排名传送至应用/服务,其中该应用/服务可执行进一步处理以确定要提供的针对查询的响应。在另一示例中,经排名的查询-响应配对的输出(操作508)可包括在一个或多个计算设备上显示候选响应。在又一示例中,输出可以是与候选响应是否与给定查询对话相关的置信度分数。
流程可前进至判决操作510,在此,判断是否接收到后续查询。如果否,则流程分支到否,并且方法500保持空闲,直到接收到后续查询。如果接收到后续查询,则流程分支到是,并且方法500返回操作504,在此,使用示例性CNN模型并行地处理查询和后续响应。针对后续查询的经排名的查询-响应配对可被生成并被输出以提供对于查询的对话相关响应。
本说明书通篇引述了“一个示例”或“一示例”,这意味着在至少一个实施例中包括特定描述的特征、结构或特性。因此,使用这些词组可指不止仅仅一个示例。而且,在一个或多个示例中,可以用任何合适的方式组合所描述的特征、结构或特性。
然而,相关领域内技术人员可以理解各示例可省去一个或多个特定细节而实现,或通过其它方法、资源、材料等实现。在其它实例中,公知的结构、资源或操作尚未被示出或详细说明以仅避免对各实施例的某些方面产生混淆。
虽然示出和描述了示例示例和应用,但是应该理解本实施例不限于上述精确配置和资源。可以对此处公开的方法和系统的排列、操作以及细节作出对本领域技术人员显而易见的各种修改、改变和变化,而不背离所要求保护的本示例的范围。

Claims (16)

1.一种处理查询的方法,包括:
提供卷积神经网络CNN模型,所述CNN模型被配置成评估查询-响应配对的对话相关性,其中所述CNN模型包括:
第一分支,所述第一分支包括用于处理查询的多个采用动态池化的卷积层,其中用于处理所述查询的动态池化包括在所述第一分支中执行动态池化处理操作,所述动态池化处理操作包括:将所述查询的句子表示划分成至少两个片段,评估所述至少两个片段之间各个短文本部分中的冗余文本信息,以及传递所述至少两个片段的非冗余短文本部分供进一步处理,
第二分支,所述第二分支包括用于处理针对所述查询的候选响应的多个采用动态池化的卷积层,其中用于处理所述候选响应的动态池化包括在所述第二分支中执行动态池化处理操作,所述动态池化处理操作包括:将所述候选响应的句子表示划分成至少两个片段,评估所述至少两个片段之间各个短文本部分中的冗余文本信息,以及传递所述至少两个片段的非冗余短文本部分供进一步处理,以及
多层感知器MLP层,所述MLP层被配置成基于对话相关性来对查询-响应配对进行排名;
并行地使用所述CNN模型来处理所述查询和所述候选响应;
使用所述MLP层基于传递自所述第一分支的第一输入和传递自所述第二分支的第二输入来生成所述查询-响应配对的配对级排名;以及
输出一个或多个查询-响应配对的排名。
2.如权利要求1所述的方法,其特征在于,所述第一分支进一步包括多个采用k个最大池化的卷积层,并且所述至少两个片段的被传递的非冗余短文本部分被进一步使用所述多个采用k个最大池化的卷积层来评估以作为所述MLP层的第一输入来传递与所述至少两个片段中的每一个相关联的若干个短文本部分。
3.如权利要求2所述的方法,其特征在于,被确定作为所述MLP层的输入的所述若干个短文本部分是基于针对k个最大池化的超参数集来确定的。
4.如权利要求1所述的方法,其特征在于,所述第一分支进一步包括生成所述查询的句子表示的单词嵌入的单词嵌入层,其中所述单词嵌入包括多个特征向量,每一个特征向量被映射到所述查询的一个单词,所述多个特征向量被用作为用于建模的特征输入,并且其中所述第一分支执行处理以通过对所述特征输入建模以使用所述多个卷积层来抽象所述句子表示的短文本部分的含意来评估所述查询的含意。
5.如权利要求1所述的方法,其特征在于,所述第二分支进一步包括多个采用k个最大池化的卷积层,并且所述候选响应的所述至少两个片段的被传递的非冗余短文本部分被进一步使用所述多个采用k个最大池化的卷积层来评估以作为所述MLP层的第二输入来传递与所述候选响应的至少两个片段中的每一个相关联的若干个短文本部分。
6.如权利要求5所述的方法,其特征在于,被确定作为所述MLP层的输入的所述若干个短文本部分是基于针对k个最大池化的超参数集来确定的。
7.如权利要求1所述的方法,其特征在于,所述第二分支进一步包括生成所述候选响应的句子表示的单词嵌入的单词嵌入层,其中所述单词嵌入包括多个特征向量,每一个特征向量被映射到所述查询的一个单词,所述多个特征向量被用作为用于建模的特征输入,并且其中所述第二分支执行处理以通过对所述特征输入建模以使用所述多个卷积层来抽象所述候选响应的句子表示的短文本部分的含意来评估所述候选响应的含意。
8.一种处理查询的系统,包括:
至少一个处理器;以及
与所述至少一个处理器操作地连接的存储器,所述存储器存储计算机可执行指令,所述计算机可执行指令在由所述至少一个处理器执行时致使所述至少一个处理器执行一种方法,所述方法包括:
提供卷积神经网络CNN模型,所述CNN模型被配置成评估查询-响应配对的对话相关性,其中所述CNN模型包括:
第一分支,所述第一分支包括用于处理查询的多个采用动态池化的卷积层,用于处理所述查询的动态池化包括在所述第一分支中执行动态池化处理操作,所述动态池化处理操作包括:将所述查询的句子表示划分成至少两个片段,评估所述至少两个片段之间各个短文本部分中的冗余文本信息,以及传递所述至少两个片段的非冗余短文本部分供进一步处理,
第二分支,所述第二分支包括用于处理针对所述查询的候选响应的多个采用动态池化的卷积层,用于处理所述候选响应的动态池化包括在所述第二分支中执行动态池化处理操作,所述动态池化处理操作包括:将所述候选响应的句子表示划分成至少两个片段,评估所述至少两个片段之间各个短文本部分中的冗余文本信息,以及传递所述至少两个片段的非冗余短文本部分供进一步处理,以及
多层感知器MLP层,所述MLP层被配置成基于对话相关性来对查询-响应配对进行排名;
并行地使用所述CNN模型来处理所述查询和所述候选响应;
使用所述MLP层基于传递自所述第一分支的第一输入和传递自所述第二分支的第二输入来生成所述查询-响应配对的配对级排名;以及
输出一个或多个查询-响应配对的排名。
9.如权利要求8所述的系统,其特征在于,所述第一分支进一步包括多个采用k个最大池化的卷积层,并且所述至少两个片段的被传递的非冗余短文本部分被进一步使用所述多个采用k个最大池化的卷积层来评估以作为所述MLP层的第一输入来传递与所述至少两个片段中的每一个相关联的若干个短文本部分。
10.如权利要求9所述的系统,其特征在于,被确定作为所述MLP层的输入的所述若干个短文本部分是基于针对k个最大池化的超参数集来确定的。
11.如权利要求8所述的系统,其特征在于,所述第一分支进一步包括生成所述查询的句子表示的单词嵌入的单词嵌入层,其中所述单词嵌入包括多个特征向量,每一个特征向量被映射到所述查询的一个单词,所述多个特征向量被用作为用于建模的特征输入,并且其中所述第一分支执行处理以通过对所述特征输入建模以使用所述多个卷积层来抽象所述句子表示的短文本部分的含意来评估所述查询的含意。
12.如权利要求8所述的系统,其特征在于,所述第二分支进一步包括多个采用k个最大池化的卷积层,并且所述候选响应的所述至少两个片段的被传递的非冗余短文本部分被进一步使用所述多个采用k个最大池化的卷积层来评估以作为所述MLP层的第二输入来传递与所述候选响应的至少两个片段中的每一个相关联的若干个短文本部分。
13.如权利要求12所述的系统,其特征在于,被确定作为所述MLP层的输入的所述若干个短文本部分是基于针对k个最大池化的超参数集来确定的。
14.如权利要求8所述的系统,其特征在于,所述第二分支进一步包括生成所述候选响应的句子表示的单词嵌入的单词嵌入层,其中所述单词嵌入包括多个特征向量,每一个特征向量被映射到所述查询的一个单词,所述多个特征向量被用作为用于建模的特征输入,并且其中所述第二分支执行处理以通过对所述特征输入建模以使用所述多个卷积层来抽象所述候选响应的句子表示的短文本部分的含意来评估所述候选响应的含意。
15.一种处理查询的系统,包括:
至少一个处理器;以及
与所述至少一个处理器操作地连接的存储器,所述存储器存储计算机可执行指令,所述计算机可执行指令在由所述至少一个处理器执行时致使所述至少一个处理器执行一种方法,所述方法包括:
提供卷积神经网络CNN模型,所述CNN模型被配置成评估查询-响应配对的对话相关性,其中所述CNN模型包括:
第一分支,所述第一分支执行处理操作以:通过对特征输入建模以使用多个卷积层来抽象查询的句子表示的短文本部分的含意来评估所述查询的含意,以及执行动态池化处理操作,所述动态池化处理操作包括:将所述查询的句子表示划分成至少两个片段,评估所述至少两个片段之间各个短文本部分中的冗余文本信息,以及传递所述至少两个片段的非冗余短文本部分供进一步处理,
第二分支,所述第二分支执行处理操作以:通过对特征输入建模以使用多个卷积层来抽象候选响应的句子表示的短文本部分的含意来评估所述候选响应的含意,以及执行动态池化处理操作,所述动态池化处理操作包括:将所述候选响应的句子表示划分成至少两个片段,评估所述候选响应的至少两个片段之间各个短文本部分中的冗余文本信息,以及传递所述候选响应的至少两个片段的非冗余短文本部分供进一步处理,以及
多层感知器MLP层,所述MLP层被配置成基于对话相关性来对查询-响应配对进行排名;
并行地使用所述CNN模型来处理所述查询和所述候选响应;
使用所述MLP层基于传递自所述第一分支的第一输入和传递自所述第二分支的第二输入来输出所述查询-响应配对的配对级排名;以及
输出一个或多个经排名的查询-响应配对。
16.如权利要求15所述的系统,其特征在于,所述第一分支进一步包括多个采用k个最大池化的卷积层,并且其中所述查询的至少两个片段的被传递的非冗余短文本部分被进一步使用所述多个采用k个最大池化的卷积层来评估以作为所述MLP层的第一输入来传递与所述至少两个片段中的每一个相关联的若干个短文本部分,并且其中所述第二分支进一步包括多个采用k个最大池化的卷积层,并且所述候选响应的至少两个片段的被传递的非冗余短文本部分被进一步使用所述多个采用k个最大池化的卷积层来评估以作为所述MLP层的第二输入来传递与所述候选响应的至少两个片段中的每一个相关联的若干个短文本部分。
CN201610534215.0A 2016-07-08 2016-07-08 使用卷积神经网络的对话相关性建模 Active CN107590153B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201610534215.0A CN107590153B (zh) 2016-07-08 2016-07-08 使用卷积神经网络的对话相关性建模
EP17740557.8A EP3482305A1 (en) 2016-07-08 2017-07-04 Conversational relevance modeling using convolutional neural network
US16/316,095 US11593613B2 (en) 2016-07-08 2017-07-04 Conversational relevance modeling using convolutional neural network
PCT/US2017/040626 WO2018009490A1 (en) 2016-07-08 2017-07-04 Conversational relevance modeling using convolutional neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610534215.0A CN107590153B (zh) 2016-07-08 2016-07-08 使用卷积神经网络的对话相关性建模

Publications (2)

Publication Number Publication Date
CN107590153A CN107590153A (zh) 2018-01-16
CN107590153B true CN107590153B (zh) 2021-04-27

Family

ID=59363257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610534215.0A Active CN107590153B (zh) 2016-07-08 2016-07-08 使用卷积神经网络的对话相关性建模

Country Status (4)

Country Link
US (1) US11593613B2 (zh)
EP (1) EP3482305A1 (zh)
CN (1) CN107590153B (zh)
WO (1) WO2018009490A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180027887A (ko) * 2016-09-07 2018-03-15 삼성전자주식회사 뉴럴 네트워크에 기초한 인식 장치 및 뉴럴 네트워크의 트레이닝 방법
US10719770B2 (en) * 2016-09-28 2020-07-21 International Business Machines Corporation System and method for enhanced chatflow application
US11095590B2 (en) * 2016-09-28 2021-08-17 International Business Machines Corporation System and method for enhanced chatflow application
US11640436B2 (en) 2017-05-15 2023-05-02 Ebay Inc. Methods and systems for query segmentation
CN109426553A (zh) * 2017-08-21 2019-03-05 上海寒武纪信息科技有限公司 任务切分装置及方法、任务处理装置及方法、多核处理器
US11605100B1 (en) 2017-12-22 2023-03-14 Salesloft, Inc. Methods and systems for determining cadences
CN108364061B (zh) * 2018-02-13 2020-05-05 北京旷视科技有限公司 运算装置、运算执行设备及运算执行方法
CN108509520B (zh) * 2018-03-09 2021-10-29 中山大学 基于词性和多重cnn的多通道文本分类模型的构建方法
CN108985448B (zh) * 2018-06-06 2020-11-17 北京大学 神经网络表示标准框架结构
CN109255020B (zh) * 2018-09-11 2022-04-01 浙江大学 一种利用卷积对话生成模型解决对话生成任务的方法
CN109272061B (zh) * 2018-09-27 2021-05-04 安徽理工大学 一种包含两个cnn的深度学习模型的构建方法
US11804211B2 (en) 2020-12-04 2023-10-31 Google Llc Example-based voice bot development techniques
US11902222B2 (en) * 2021-02-08 2024-02-13 Google Llc Updating trained voice bot(s) utilizing example-based voice bot development techniques
US11586878B1 (en) * 2021-12-10 2023-02-21 Salesloft, Inc. Methods and systems for cascading model architecture for providing information on reply emails

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答系统
CN105574133A (zh) * 2015-12-15 2016-05-11 苏州贝多环保技术有限公司 一种多模态的智能问答系统及方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8392436B2 (en) * 2008-02-07 2013-03-05 Nec Laboratories America, Inc. Semantic search via role labeling
US8676565B2 (en) 2010-03-26 2014-03-18 Virtuoz Sa Semantic clustering and conversational agents
US20140236578A1 (en) 2013-02-15 2014-08-21 Nec Laboratories America, Inc. Question-Answering by Recursive Parse Tree Descent
US9189742B2 (en) 2013-11-20 2015-11-17 Justin London Adaptive virtual intelligent agent
EP3204888A4 (en) * 2014-10-09 2017-10-04 Microsoft Technology Licensing, LLC Spatial pyramid pooling networks for image processing
US10452971B2 (en) * 2015-06-29 2019-10-22 Microsoft Technology Licensing, Llc Deep neural network partitioning on servers
JP6678930B2 (ja) * 2015-08-31 2020-04-15 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 分類モデルを学習する方法、コンピュータ・システムおよびコンピュータ・プログラム
US9904874B2 (en) * 2015-11-05 2018-02-27 Microsoft Technology Licensing, Llc Hardware-efficient deep convolutional neural networks
US10679643B2 (en) * 2016-08-31 2020-06-09 Gregory Frederick Diamos Automatic audio captioning
US10936862B2 (en) * 2016-11-14 2021-03-02 Kodak Alaris Inc. System and method of character recognition using fully convolutional neural networks
US10817509B2 (en) * 2017-03-16 2020-10-27 Massachusetts Institute Of Technology System and method for semantic mapping of natural language input to database entries via convolutional neural networks
US20180329884A1 (en) * 2017-05-12 2018-11-15 Rsvp Technologies Inc. Neural contextual conversation learning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答系统
CN105574133A (zh) * 2015-12-15 2016-05-11 苏州贝多环保技术有限公司 一种多模态的智能问答系统及方法

Also Published As

Publication number Publication date
EP3482305A1 (en) 2019-05-15
US20210312260A1 (en) 2021-10-07
CN107590153A (zh) 2018-01-16
WO2018009490A1 (en) 2018-01-11
US11593613B2 (en) 2023-02-28

Similar Documents

Publication Publication Date Title
CN107590153B (zh) 使用卷积神经网络的对话相关性建模
CN107924679B (zh) 计算机实施的方法、输入理解系统和计算机可读存储设备
US9965465B2 (en) Distributed server system for language understanding
US10572598B2 (en) Method and system for ranking and summarizing natural language passages
US10706237B2 (en) Contextual language generation by leveraging language understanding
US11157490B2 (en) Conversational virtual assistant
US20180060728A1 (en) Deep Embedding Forest: Forest-based Serving with Deep Embedding Features
JP6701206B2 (ja) ユーザーエクスペリエンスを向上させるためにあいまいな表現を弁別すること
US20150179170A1 (en) Discriminative Policy Training for Dialog Systems
CN111386686B (zh) 用于回答与文档相关的查询的机器阅读理解系统
EP3345132A1 (en) Generation and application of universal hypothesis ranking model
CN111247778A (zh) 使用web智能的对话式/多回合的问题理解
WO2018039009A1 (en) Systems and methods for artifical intelligence voice evolution
US20140350931A1 (en) Language model trained using predicted queries from statistical machine translation
US10534780B2 (en) Single unified ranker
US12032627B2 (en) Hybrid transformer-based dialog processor
US20230153348A1 (en) Hybrid transformer-based dialog processor
WO2022099566A1 (en) Knowledge injection model for generative commonsense reasoning
US20240202460A1 (en) Interfacing with a skill store
WO2024137127A1 (en) Interfacing with a skill store

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant