CN110301117A - 在会话中提供响应 - Google Patents

在会话中提供响应 Download PDF

Info

Publication number
CN110301117A
CN110301117A CN201780086747.5A CN201780086747A CN110301117A CN 110301117 A CN110301117 A CN 110301117A CN 201780086747 A CN201780086747 A CN 201780086747A CN 110301117 A CN110301117 A CN 110301117A
Authority
CN
China
Prior art keywords
image
emotion
response
message
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780086747.5A
Other languages
English (en)
Other versions
CN110301117B (zh
Inventor
吴先超
王颍
母海龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN110301117A publication Critical patent/CN110301117A/zh
Application granted granted Critical
Publication of CN110301117B publication Critical patent/CN110301117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/36Indoor scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/02User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages

Abstract

本公开内容提供了用于在会话中向用户提供响应的方法和装置。可以在会话中接收与第一对象相关联的至少一条消息,所述会话在用户与电子对话代理之间。可以获得对第一对象的图像表示。可以至少基于图像表示来确定第一对象的情感信息;可以至少基于至少一条消息和情感信息来生成响应。可以将响应提供给用户。

Description

在会话中提供响应
背景技术
人工智能(AI)聊天机器人变得越来越流行,并且正在越来越多的场景中得到应用。聊天机器人被设计用于模拟人类对话,并且可以通过文本、语音、图像等与用户聊天。通常,聊天机器人可以扫描由用户输入的消息内的关键词或对消息应用自然语言处理,并向用户提供具有最匹配的关键词或最相似的措辞模式的响应。
发明内容
提供本发明内容以便介绍一组概念,这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征,也不旨在用于限制所保护主题的范围。
本公开内容的实施例提出了用于在会话中向用户提供响应的方法和装置。可以在会话中接收与第一对象相关联的至少一条消息,该会话是在用户和电子对话代理之间的。可以获得对所述第一对象的图像表示。可以至少基于所述图像表示来确定所述第一对象的情感信息。可以至少基于所述至少一条消息和所述情感信息来生成响应。可以将所述响应提供给所述用户。
应当注意,以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式,并且本公开内容旨在包括所有这些方面和其等同变换。
附图说明
以下将结合附图描述所公开的多个方面,这些附图被提供用以说明而非限制所公开的多个方面。
图1示出了根据实施例的部署了聊天机器人的示例性网络架构。
图2示出了根据实施例的示例性聊天机器人系统。
图3示出了根据实施例的示例性用户界面。
图4示出了根据实施例的用于构建以艺术品为中心的知识图谱的示例性知识记录。
图5示出了根据实施例的示例性依存句法分析。
图6示出了根据实施例的示例性以艺术品为中心的知识图谱。
图7A示出根据实施例的示例性依存句法分析。
图7B示出了根据实施例的示例性以艺术家为中心的知识图谱。
图8示出了根据实施例的示例性问题回答过程。
图9示出了根据实施例的示例性情感集合。
图10示出了根据实施例的用于获得用于情感分析的训练数据集的示例性过程。
图11示出了根据实施例的用于对文本执行情感分析的示例性架构。
图12示出根据实施例的用于图像编码的示例性残差学习块。
图13示出了根据实施例的用于对图像执行情感分析的示例性架构。
图14A示出了根据实施例的图像的示例性感兴趣区域(ROI)。
图14B示出了根据实施例的用于对图像的ROI执行情感分析的示例性过程。
图15示出了根据实施例的用于确定域类别的示例性过程。
图16示出了根据实施例的用于执行图像到文本转换的示例性架构。
图17示出了根据实施例的用于检索图像的示例性过程。
图18示出了根据实施例的用于改变图像表示的示例性过程。
图19示出了根据实施例的示例性聊天窗口。
图20示出了根据实施例的示例性聊天窗口。
图21A至图21C示出了根据实施例的用于提供自动聊天服务的示例性硬件设备。
图22示出了根据实施例的用于在会话中向用户提供响应的示例性方法的流程图。
图23示出了根据实施例的用于在会话中向用户提供响应的示例性装置。
图24示出了根据实施例的用于在会话中向用户提供响应的示例性装置。
具体实施方式
现在将参考多种示例性实施方式来讨论本公开内容。应当理解,这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开内容的实施例,而并非教导对本公开内容的范围的任何限制。
当人们参观美术馆、博物馆、展览馆等时,他们可能需要讲解员来帮助解释展出的物品的细节。真人讲解员不容易记住与展出的物品相关的知识,而这可能使真人讲解员花费很长的培训时间来学习该知识并练习如何向参观者表达该知识。此外,参观者可能具有各种背景知识水平,因此即使对于相同的展出物品也可能有各种类型的问题。因此,当真人讲解员与参观者进行交流时,真人讲解员给参观者的问题提供适当的答案也是一个挑战。
本公开内容的实施例提出了利用电子对话代理来在用户欣赏或参观感兴趣对象(例如艺术品、文物、科技展览品、摄影作品等)时向用户提供帮助。帮助可以包括解释与感兴趣对象相关的细节或背景知识,回答来自用户的与感兴趣对象相关的问题,与用户进行基于图像的交互等。电子对话代理可以在与用户的会话中提供帮助。电子对话代理可以是例如聊天机器人。通常,聊天机器人可以与用户进行自动会话。在本文中,“会话”可以指两个聊天参与者之间的时间连续的对话,并且可以包括对话中的消息和响应,其中,“消息”是指由用户输入的任何信息,例如来自用户的查询、用户对来自聊天机器人的问题的答案、用户的意见等,“响应”是指由聊天机器人提供的任何信息,例如聊天机器人对来自用户的问题的答案、聊天机器人的评论等。术语“消息”和术语“查询”也可以互换使用。
根据本公开内容的实施例,聊天机器人可以识别并理解用户在会话中指示的感兴趣对象。根据一个方面,聊天机器人可以从预先建立的知识图谱中检索与对象相关的知识信息。以一件艺术品作为对象的示例,知识信息可以包括艺术家、地点、时间、风格等,其中,“艺术家”是指制作艺术品的人,“地点”是指制作艺术品或展示艺术品的地方,“时间”是指艺术品制作的日期或时间段,“风格”是指艺术品的类别。预先建立的知识图谱可能已经存储了与艺术品相关的知识信息,因此聊天机器人可以基于检索到的知识信息来回答用户的问题。根据另一方面,聊天机器人可以获得对对象的图像表示,并且至少基于对对象的图像表示来确定与对象相关的事实信息和/或情感信息。在本文中,“图像表示”可以指由用户提供或由聊天机器人捕获的对象的照片、视频图像、屏幕截图等。在一种实现方案中,聊天机器人可以至少基于情感信息将对象分类到对应的类别。以一件艺术品作为对象的示例,聊天机器人可以通过情感分析来确定艺术品的情感类别。聊天机器人还可以确定艺术品的领域类别,其中在这种情况下,“领域类别”是指艺术领域中的众所周知的类别。在一种实现方案中,聊天机器人可以至少基于情感信息来检索与感兴趣对象相似的另一对象的图像表示。例如,当用户询问是否有任何与当前的感兴趣艺术品风格相似的艺术品时,聊天机器人可以根据当前的感兴趣艺术品的风格或类别向用户提供对另一艺术品的图像表示。在一种实现方案中,聊天机器人可以通过例如改变对感兴趣对象的图像表示来与用户进行基于图像的交互。例如,用户可能希望用由用户指定的图像中的脸部区域来改变绘画中的脸部区域,并且聊天机器人可以生成经更新的绘画,其中,绘画中的脸部区域已被改变为指定图像中的脸部区域,并且绘画的风格被传递到经更新的绘画中的脸部区域。
图1示出了根据实施例的部署了聊天机器人的示例性网络架构100。
在图1中,网络110被应用于在终端设备120和聊天机器人服务器130之间进行互连。
网络110可以是能够对网络实体进行互连的任何类型的网络。网络110可以是单个网络或各种网络的组合。就覆盖范围而言,网络110可以是局域网(LAN)、广域网(WAN)等。就承载介质而言,网络110可以是有线网络、无线网络等。就数据交换技术而言,网络110可以是电路交换网络、分组交换网络等。
终端设备120可以是能够连接到网络110、访问网络110上的服务器或网站、处理数据或信号等的任何类型的电子计算设备。例如,终端设备120可以是台式计算机、笔记本电脑、平板电脑、智能电话、AI终端、可穿戴设备等。终端设备120可以由用户携带,或者被部署在合作伙伴的地点,例如美术馆、博物馆、展览馆等。尽管在图1中仅示出了一个终端设备,但是应当理解,可以有不同数量的终端设备连接到网络110。
在一种实现方案中,终端设备120可以由用户使用。终端设备120可以包括可为用户提供自动聊天服务的聊天机器人客户端122。在一些情况下,聊天机器人客户端122可以与聊天机器人服务器120进行交互。例如,聊天机器人客户端122可以将用户输入的消息传送到聊天机器人服务器130,从聊天机器人服务器130接收与消息相关联的响应并且将响应提供给用户。然而,应当理解,在其它情况下,不是与聊天机器人服务器130进行交互,而是聊天机器人客户端132也可以本地地生成对由用户输入的消息的响应。
聊天机器人服务器130可以连接到或包含聊天机器人数据库140。聊天机器人数据库140可以包括可由聊天机器人服务器130用于生成响应的信息。
应当理解,图1中所示的所有网络实体都是示例性的,根据具体的应用需求,在应用场景100中可以涉及任何其它网络实体。
图2示出了根据实施例的示例性聊天机器人系统200。
聊天机器人系统200可以包括用于呈现聊天窗口的用户界面(UI)210。聊天窗口可以由聊天机器人用于与用户进行交互。
聊天机器人系统200可以包括核心处理模块220。核心处理模块220被配置用于通过与聊天机器人系统200的其它模块的协作,在聊天机器人的运行期间提供处理能力。
核心处理模块220可以获得由用户在聊天窗口中输入的消息,并将消息存储在消息队列232中。消息可以采用各种多媒体形式,例如文本、语音、图像、视频等。
核心处理模块220可以用先进先出的方式处理消息队列232中的消息。核心处理模块220可以调用应用程序接口(API)模块240中的处理单元来处理各种形式的消息。API模块240可以包括文本处理单元242、语音处理单元244、图像处理单元246等。
对于文本消息,文本处理单元242可以对文本消息执行文本理解,并且核心处理模块220可以进一步确定文本响应。
对于语音消息,语音处理单元244可以对语音消息执行语音到文本转换以获得文本语句,文本处理单元242可以对所获得的文本语句执行文本理解,并且核心处理模块220可以进一步确定文本响应。如果确定以语音提供响应,则语音处理单元244可以对文本响应执行文本到语音转换以生成对应的语音响应。
对于图像消息,图像处理单元246可以对图像消息执行图像识别以生成对应的文本,并且核心处理模块220可以进一步确定文本响应。在一些情况下,图像处理单元246也可以用于基于文本响应来获得图像响应。
此外,尽管在图2中未示出,但是API模块240还可以包括任何其它处理单元。例如,API模块240可以包括视频处理单元,该视频处理单元用于与核心处理模块220协作以处理视频消息并确定响应。
核心处理模块220可以通过数据库250来确定响应。数据库250可以包括可由核心处理模块220检索用于确定响应的多个索引项。
数据库250可以包括纯聊天索引集252。纯聊天索引集252可以包括为在聊天机器人和用户之间进行自由聊天而准备的索引项,并且可以用来自例如社交网络的数据来建立。纯聊天索引集252中的索引项可以采用或不采用问题-答案(QA)对的形式,例如<问题,答案>。问题-答案对也可以称为消息-响应对。
数据库250可以包括通用知识图谱254。在本文中,通用知识图谱254可以指包含与感兴趣对象相关的知识信息的单个知识图谱或多个知识图谱的组合。通用知识图谱254可以基于各种公共知识源(例如网络上的公共网站、出版物等)来建立。例如,知识型网站可以包含与感兴趣对象相关的各种知识记录,并且这些知识记录可以用于建立与对象相关的通用知识图谱。随着从网络获得的知识越来越多,此种通用知识图谱可以被不断扩展。
数据库250可以包括合作伙伴知识图谱256。在本文中,合作伙伴知识图谱256可以指单个知识图谱或多个知识图谱的组合。合作伙伴知识图谱256可以基于目标合作伙伴的知识源来建立。例如,假设British Museum是目标合作伙伴,则可以基于专用于BritishMuseum的各种知识记录来建立对应的合作伙伴知识图谱,其中知识记录可以包括诸如British Museum的官方网站上叙述的British Museum中展出物品的介绍。
应该认识到,通用知识图谱254和合作伙伴知识图谱256是基于用于建立知识图谱的知识源来划分的。这些知识图谱可以基于知识图谱中的主要内容来进一步划分。以艺术领域为例,根据知识图谱中的主要内容,知识图谱可以被划分为以艺术品为中心的知识图谱、以艺术家为中心的知识图谱、以地点为中心的知识图谱等。
聊天机器人系统200可以包括模块集合260,模块集合260是可以由核心处理模块220操作以生成或获得响应的功能模块的集合。
模块集合260可以包括问题回答模块261。问题回答模块261可以被配置用于至少基于知识图谱来执行深度问题回答。在本文中,“知识图谱”可以包括通用知识图谱254和合作伙伴知识图谱256。知识图谱可以包含与感兴趣对象相关的内部知识和外部知识。内部知识是指对象本身传达或呈现的信息,例如,对象中包括什么人物,对象中描述了什么场景等。外部知识包括对象的背景信息,例如创作者在创作对象期间的生活或情感状况,创作者的年龄、家庭情况及其它相关属性等。以著名的油画“Mona Lisa(蒙娜丽莎)”为例,关于Mona Lisa的知识属于“内部知识”和关于艺术家“Da Vinci(达芬奇)”的知识属于“外部知识”。当从用户接收关于对象的问题时,问题回答模块261可以根据知识图谱中与对象相关的内部知识和/或外部知识来确定响应。问题回答模块261可以采用潜在语义匹配算法(例如具有丰富潜在语义特征的学习排序(LTR)框架),用于将用户的问题与知识图谱中的知识信息进行匹配。在潜在语义空间中执行匹配。问题和知识信息都可以采用各种形式,例如文本、图像等。
模块集合260可以包括情感分析模块262。情感分析模块262可以被配置用于对文本、图像等执行情感分析。例如,当获得对感兴趣对象的图像表示时,情感分析模块262可以至少基于图像表示来导出对象正在传达的情感类别。此外,例如,当建立知识图谱时,情感分析模块262可以导出对象的文本描述或图像表示的情感类别,并在知识图谱中将情感类别附加到对象。
模块集合260可以包括对象分类模块263。对象分类模块263可以被配置用于将感兴趣对象分类到对应的类别,例如情感类别或领域类别。对于情感类别,对象分类模块263可以与情感分析模块262协作以至少基于对对象的图像表示来导出对象的情感类别。对于领域类别,对象分类模块263可以将对象分类到对象领域中的公知类别。以艺术品作为对象的示例,艺术领域中的公知的类别可以是基于例如时间、地点等来确定的。例如,对于西方绘画,公知的类别可以包括:the Stone Age(石器时代)、the Ancient Near East()古代近东、the Ancient Egypt(古埃及)、the art of Ancient Greece(古希腊艺术)、theAncient Rome(古罗马)、the Early Middle Age(早期中世纪)、the Romanesque Art(罗马艺术)、Precursors of the Renaissance(文艺复兴前奏)、the Early Renaissance(文艺复兴初期)、the High Renaissance in Italy(意大利文艺复兴全盛期)、the Mannerismin the Later Sixteen Century in Italy(意大利16世纪晚期的矫饰主义)、theNineteenth-Century Realism(19世纪现实主义)、the Cubism/Futurism and relatedTwentieth-Century Styles(立体主义/未来主义和相关的二十世纪风格)等。在一种实现方案中,对象分类模块263在将对象分类到领域类别中时可以采用对象的情感信息。通过考虑对象的情感信息,可以以较准确的方式来确定对象的领域类别。
模块集合260可以包括图像检索模块264。图像检索模块264可以被配置用于检索对与当前的感兴趣对象对应的(例如在风格或类别方面与当前的感兴趣对象类似的)另一对象的图像表示。知识图谱可以包括对各种候选对象的文本描述和/或图像表示。图像检索模块264可以通过在感兴趣对象和知识图谱之间执行例如潜在语义匹配和/或密集向量空间匹配来找到类似对象。可以在LTR模型中使用各种特征来选择候选对象,诸如创作者、地点、时间、图像表示的密集向量等。此外,图像检索模块264可以执行图像到文本转换,使得可以将对感兴趣对象的图像表示转换为文本表示,并且可以在LTR模型中额外使用文本表示来与知识图谱中候选对象的文本描述进行比较。在一种实现方案中,图像检索模块264可以采用感兴趣对象的情感信息与候选对象的情感信息之间的相似度分数作为LTR模型中的特征。通过考虑情感信息,所检索的对相似对象的图像表示可以在风格或类别方面与感兴趣对象更相关。
模块集合260可以包括图像改变模块265。图像改变模块265可以被配置用于通过改变对感兴趣对象的图像表示来与用户进行基于图像的交互。图像改变模块265可以通过生成式对抗网络(GAN)来生成经更新的图像表示,其中,在经更新的图像中,对感兴趣对象的图像表示中的脸部区域已被由用户指定的图像中的脸部区域替换。在一种实现方案中,用户还可以指定想要在经更新的图像表示中传达的情感。因此,图像改变模块265还可以在通过GAN生成经更新的图像表示期间考虑所指定的情感。上述与用户的基于图像的交互可以提高用户与聊天机器人聊天和交互的兴趣。
核心处理模块220可以将基于来自模块261至265的输出所确定的响应提供给响应队列或响应高速缓存234。例如,响应高速缓存234可以确保能够以预定义的时间流来显示响应的序列。假设对于一条消息,由核心处理模块220确定了不少于两个响应,则针对响应的时间延迟设置可能是必要的。例如,如果用户输入的消息是“你吃早餐了吗?”,则可能确定出两个响应,例如,第一响应是“是的,我吃了面包”,第二响应是“你呢?还觉得饿吗?”。在这种情况下,通过响应高速缓存234,聊天机器人可以确保立即向用户提供第一响应。此外,聊天机器人可以确保以例如1或2秒的时间延迟来提供第二响应,使得第二响应将在第一响应之后的1或2秒提供给用户。由此,响应高速缓存234可以管理将要发送的响应以及针对每个响应的适当定时。
可以将响应队列或响应高速缓存234中的响应进一步传送到UI 210,以便可以在聊天窗口中将响应显示给用户。
应当理解,图2中的聊天机器人系统200中所示的所有单元都是示例性的,并且根据具体的应用需求,在聊天机器人系统200中可以省略任何所示的单元并且可以涉及任何其它单元。
图3示出了根据实施例的示例性用户界面300。
用户界面300被包括在终端设备中,并且可以包括聊天机器人图标310、呈现区域320、控制区域330和输入区域340。聊天机器人图标310可以是表示聊天机器人的照片或图片。呈现区域320显示聊天窗口,该聊天窗口包含用户与聊天机器人之间的会话中的消息和响应。控制区域330包括多个虚拟按钮以供用户执行消息输入设置。例如,用户可以通过控制区域330来选择进行声音输入、附加图像文件、选择表情符号、进行对当前屏幕的截图、启动摄像机等。输入区域340由用户用于输入消息。例如,用户可以通过输入区域340键入文本。用户界面300还可以包括虚拟按钮350,用于确认发送所输入的消息。如果用户触摸虚拟按钮350,则可以将在输入区域340中输入的消息发送到呈现区域320。
应当理解,图3中所示的所有单元及其布局都是示例性的。根据具体的应用需求,图3中的用户界面可以省略或添加任何单元,并且图3中的用户界面中的单元的布局也可以以各种方式改变。例如,尽管消息和响应在呈现区域320中以文本的形式示出,但消息和响应也可以是语音的形式。因此,聊天机器人和用户可以通过语音聊天。
以下讨论将把“艺术品”作为感兴趣对象的示例。在本文中,“艺术品”可以指艺术家的各种作品,例如绘画、雕塑等。应当理解的是,在相同或相似的发明概念下,以下结合“艺术品”所讨论的所有过程、方法、算法、架构等也可以类似地应用于任何其它类型的对象,例如文物、科技展览品、摄影作品等。
如上所述,可以建立各种知识图谱。根据知识图谱的主要内容,艺术领域中的知识图谱可以包括以艺术品为中心的知识图谱、以艺术家为中心的知识图谱、以地点为中心的知识图谱等。这些知识图谱可以是基于各种知识源(例如,知识型网站、合作伙伴的官方网站等)的知识记录来建立的。
以艺术品为中心的知识图谱可以包括与艺术品相关的各种知识信息,例如对艺术品的图像表示、谁制作了艺术品、何时制作了艺术品、艺术品中包含什么等。
图4示出了根据实施例的用于构建以艺术品为中心的知识图谱的示例性知识记录400。知识记录400包括对绘画的图像表示402。知识记录400还包括绘画的文本描述404,例如“The Creation of Adam(1508–1512),by Michelangelo,in the Sistine Chapel(Vatican)(由米开朗基罗在西斯廷教堂(梵蒂冈)的创造亚当(1508-1512))”。
在一种实现方案中,可以应用一个或多个启发式规则来从文本描述404中提取与绘画相关的知识信息。
时间信息经常在括号中来表述,时间信息可以是年份、日期或甚至小时、分钟或秒的形式。这是根据文本描述404来确定时间信息的线索。在这个示例中,“时间”信息是“1508-1512”,这是绘制这幅画的年份。
一件艺术品的名称经常出现在文字描述的开始处,并且后面可以是括号内的时间信息。在这个示例中,可以将这幅画的名称确定为“The Creation of Adam(创造亚当)”。
艺术品的艺术家之后经常跟随关键词“by(由)”。在这个示例中,可以将这幅画的艺术家确定为“Michelangelo(米开朗基罗)”。
关键词“in(在)”是地点信息的线索。在这个示例中,可以将“地点”信息确定为位于“Vatican(梵蒂冈)”中的“Sistine Chapel(西斯廷教堂)”。
在另一种实现方案中,依存句法分析可以应用于文本描述404以提取与绘画相关的知识信息。与基于启发式规则的方法相比,这种基于依存句法分析的方法耗时较少,且不需要预先确定大量的启发式规则,以覆盖自然语言语句中的众多表达模式。
图5示出了根据实施例的对文本描述404的示例性依存句法分析500。
通过依存句法分析500,可以识别与知识信息相关的词语。例如,将“1508”和“1512”注释为“CD”(基数),将“Michelangelo”注释为指示专有名词的“NNP”,将“SistineChapel”注释为指示命名实体的“NNP+NN”,将“Vatican”注释为“NNP”等。此外,可以定义基于依存句法分析的简单启发式规则的集合。例如,经CD注释的词语是对时间敏感的,并可以对应于时间信息,经NNP注释的词语是专有名词或命名实体,并可以对应于名称或地点等。通过梳理依存句法分析和简单启发式规则的集合,可以获得与绘画相关的知识信息。这种基于依存句法分析的方法不依赖于文本描述中的词序,并且在知识信息提取时较为鲁棒。
图6示出了根据实施例的示例性以艺术品为中心的知识图谱600。图6涉及的艺术品是名为“The Creation of Adam”的绘画,以艺术品为中心的知识图谱600可以包括与绘画“The Creation of Adam”有关的知识信息。基于以上讨论的基于启发式规则的方法和/或基于依存句法分析的方法,从图4中的知识记录400生成以艺术品为中心的知识图谱600。
以艺术品为中心的知识图谱600可以包括从对知识记录400的图像表示402中提取的图像表示602。以艺术品为中心的知识图谱600可以进一步包括属性列表604,该属性列表包含艺术品的多个属性,并可以从知识记录400的文本描述404中提取。例如,属性列表604可以包括“名称=The Creation of Adam”、“时间=1508-1512”、“艺术家=Michelangelo”、“地点=Sistine Chapel(Vatican)”等。可以看出,属性列表604中的属性以“关键字-值”格式组织,其中,“关键字”指示属性名称,“值”指示属性内容。例如,对于关键字“名称”,关键字“名称”的值是“The Creation of Adam”。
图6中的属性列表604是示例性的,属性列表604中可以包括更多或更少的属性。例如,如果对图像表示402应用情感分析,则属性列表604中可以包括绘画的对应的情感类别。
此外,应理解的是,图6中以艺术品为中心的知识图谱600的形式是示例性的,本公开内容不限于知识图谱中知识信息的任何特定组织形式。例如,所有知识信息也可以以图表形式组织,其中,图表由多个节点形成。每个节点通过边链接到艺术品的名称,其中,边指示属性名称并且节点指示属性内容。
以艺术家为中心的知识图谱可以包括与艺术家有关的各种知识信息,例如艺术家的肖像、艺术家的出生信息、艺术家的著名作品等。
在一种实现方案中,可以应用基于启发式规则的方法来提取与艺术家相关的知识信息。通常,一些知识型网站可以包括名人(例如艺术家)的文本或图像介绍。对于文本介绍,可以应用启发式规则集合以提取艺术家的个人信息,例如出生日期、出生地点、著名作品等。该过程与上面讨论的基于启发式规则生成以艺术品为中心的知识图谱的过程类似。
在另一种实现方案中,可以对文本介绍应用依存句法分析以提取与艺术家相关的知识信息。图7A示出根据实施例的示例性依存句法分析710。对示例性文本语句“Michelangelo sculpted two of his best-known works,the Pietà and David,beforethe age of thirty(米开朗琪罗在30岁之前雕刻了他的最著名的作品中的两件作品thePietà和David)”执行依存句法分析710。在图7A中可以获得多个依存关系。例如,将“Michelangelo”和“sculpted(雕刻)”之间的依存关系表示为“nsubj”,该nsubj表示“名词性主语论元”关系,将“sculpted”和“two of his best-known works”、“the Pietà”、“David”之间的依存关系表示为“nsubj”,该nsubj表示“直接宾语论元”关系。基于上述依存关系,可以确定“the Pietà”和“David”是“Michelangelo”的两件著名作品。以类似的方式,与艺术家相关的其它知识信息也可以通过依存句法分析来提取。
图7B示出了根据实施例的示例性以艺术家为中心的知识图谱720。以艺术家为中心的知识图谱720对应于艺术家“Michelangelo”,并且包括Michelangelo的肖像722和属性列表724。属性列表724包含以“关键字-值”形式组织的艺术家的多个属性。例如,对于关键字“著名作品”,该关键字的值是一组字符串,包括“David”、“the Pietà”、“The LastJudgment(最后的审判)”和“Sistine Chapel Ceiling”。
应理解,图7B中的属性列表724是示例性的,属性列表724中可以包括更多或更少的属性。此外,图7B中的以艺术家为中心的知识图谱720中的知识信息可以也可以以任何其它形式组织,例如以图表形式。
以地点为中心的知识图谱可以包括与地点相关的各种知识信息,例如,在该地点制作了什么艺术品、在该地点展出了什么艺术品、该地点处的艺术品的风格、与该地点相关联的艺术家等。类似如上所述,可以基于基于启发式规则的方法和/或基于依存句法分析的方法来生成以地点为中心的知识图谱。以“British Museum(大英博物馆)”作为地点的示例,对应的以地点为中心的知识图谱可以包括在British Museum展出的艺术品的名称、在British Museum发生的历史艺术事件等。以“Sistine Chapel in Vatican(梵蒂冈的西斯廷教堂)”作为地点的示例,对应的以地点为中心的知识图谱可以包括位于Sistine Chapel的一件艺术品“Sistine Chapel Ceiling(西斯廷教堂天花板)”的名称、在Sistine Chapel绘制“Sistine Chapel Ceiling”的艺术家“Michelangelo”的名字、Sistine Chapel因一些著名的文艺复兴时期盛期艺术品在该教堂中而被关注的时段的时间信息“HighRenaissance(文艺复兴全盛期)”等。
应理解的是,以上讨论的以艺术品为中心的知识图谱、以艺术家为中心的知识图谱和以地点为中心的知识图谱也可以被组合或链接在一起。例如,如果将艺术品名称“Sistine Chapel Ceiling”包括在针对地点“Sistine Chapel”的以地点为中心的知识图谱中,同时将艺术品名称“Sistine Chapel Ceiling”也包括在针对艺术家“Michelangelo”的以艺术家为中心的知识图谱中,则“Sistine Chapel Ceiling”可以成为用于链接针对地点“Sistine Chapel”的以地点为中心的知识图谱与针对艺术家“Michelangelo”的以艺术家为中心的知识图谱的节点。聊天机器人可以使用以艺术品为中心的知识图谱、以艺术家为中心的知识图谱、以地点为中心的知识图谱或其组合来回答用户的问题。
图8示出了根据实施例的示例性问题回答过程800。可以执行过程800以用于基于知识图谱来回答用户的问题。
在802处,可以从用户接收示例性消息“谁是Sistine Chapel Ceiling的作者,你知道作者的任何其它艺术绘画吗?”。
可以确定该消息实际上包括两个问题。因此,在804处,可以执行问题分离操作以获得两个问题,例如问题806“谁是Sistine Chapel Ceiling的作者”和另一个问题808“你知道作者的任何其它艺术绘画吗?”
在810处,可以解析问题806以获得问题806中的关键信息。例如,可以确定问题806涉及地点“Sistine Chapel”和艺术品“Sistine Chapel Ceiling”。
基于在810处获得的关键信息,可以检索针对地点“Sistine Chapel”的以地点为中心的知识图谱812和针对艺术品“Sistine Chapel Ceiling”的以艺术品为中心的知识图谱814。知识图谱812和814可以是基于公共知识源或合作伙伴知识源来预先建立的。
以地点为中心的知识图谱812可以包括关于地点“Sistine Chapel”的知识信息,诸如在Sistine Chapel制作的艺术品、与Sistine Chapel相关联的艺术家等。以艺术品为中心的知识图谱814可以包括关于艺术品“Sistine Chapel Ceiling”的知识信息,例如制作艺术品的艺术家、制作艺术品的时间信息等。通过匹配知识图谱812和814中的知识信息,可以确定艺术品“Sistine Chapel Ceiling”的作者或艺术家是“Michelangelo”,其形成对问题806的答案816。
答案816可以进一步用于在818处重写问题808。例如,可以将问题808重写为“你知道Michelangelo的任何其它艺术绘画吗?”。在818处重写问题可以改善问题808的语义完整性,例如问题808中的“作者”被“Michelangelo”代替,这可以有助于找到适当的答案。
由于经重写的问题涉及关于“Michelangelo”和“艺术画作”的关键信息,因此可以检索针对“Michelangelo”的以艺术家为中心的知识图谱820和以艺术品为中心的知识图谱822的集合。知识图谱820和822可以是基于公共知识源或合作伙伴知识源来预先建立的。
以艺术家为中心的知识图谱820可以包括关于艺术家“Michelangelo”的知识信息,诸如Michelangelo的出生信息、Michelangelo的著名作品等。以艺术品为中心的知识图谱822的集合可以包括多个以艺术品为中心的知识图谱,其中每个艺术品为中心的知识图谱针对某一件艺术品并包括该艺术品的知识信息,例如,制作该艺术品的艺术家、制作该艺术品的时间信息等。通过匹配知识图谱820和822中的知识信息,可以确定艺术家“Michelangelo”还制作了其它一些艺术品,例如“David”、“the Pietà”、“The LastJudgment”等,其形成对问题808的答案824。
应理解,过程800中的所有操作都是示例性的,并且根据实际需求,可以从过程800中省略任何操作。例如,如果来自用户的问题已在语义上是完整的,则也可以省略在818处的问题重写操作。此外,尽管将答案816和824示出为仅包括完全针对相应的问题的内容,但是任何其它相关内容也可以被包括在答案中以增强用户对聊天的兴趣并改善用户的体验。例如,当为“谁是Sistine Chapel Ceiling的作者”这个问题提供答案“Michelangelo”时,聊天机器人还可以另外告诉用户:“他不仅以绘画而且以雕塑、建筑和诗歌著称”。可以从例如针对“Michelangelo”的以艺术家为中心的知识图谱820中检索这样的附加内容。
本公开内容的实施例可以涉及对文本、图像等执行情感分析以获得情感信息。相应地,可以分别建立文本到情感分类模型和图像到情感分类模型以用于执行情感分析。
在这些实施例中可以采用各种情感维度。例如,图9示出了根据实施例的示例性情感集合900。情感集合900也被称为Plutchik的情感轮盘。
如图9所示,定义了八类“基本”情感,包括:快乐(joy)、信任(trust)、恐惧(fear)、吃惊(surprise)、悲伤(sadness)、厌恶(disgust)、愤怒(anger)和期待(anticipation)。每个基本情感都定义有三个强度等级,包括“弱”、“中等”和“强”。例如,对于基本情感“愤怒”,强度弱的情感是“烦恼(annoyance)”,中等强度的情感是“愤怒”,强度强的情感是“狂怒(rage)”。强度弱的情感和强度强的情感可以视为对应的基本情感的各变体。
此外,在图9中还定义了不具有“强度”的八类“组合式”情感,包括:爱(love)、屈服(submission)、敬畏(awe)、不赞成(disapproval)、悔恨(remorse)、蔑视(contempt)、积极性(aggressiveness)和乐观(optimism)。每个组合式情感是基于两个相邻的基本情感来定义的。例如,基于情感“快乐”和基本情感“信任”来定义组合式情感“爱”。
因此,情感集合900中包括总共32类情感。然而,应理解,本公开内容的实施例不限于采用情感集合900中的情感,也可以采用定义更多或更少情感的任何其它类型的情感集合。
为了训练文本到情感分类模型,应当获得<文本,情感类别>形式的大规模训练数据集,其中,“情感类别”可以指情感集合900中的32类情感中的一类,或者指8类基本情感中的一类连同对应的强度等级或8类组合式情感中的一类。图10示出了根据实施例的用于获得用于情感分析的训练数据集的示例性过程1000。可以执行过程1000以用于通过扩展种子情感词语来生成情感词典,并且通过使用情感词典来进一步确定训练数据集。
在1010处,可以获得种子情感词语。在本文中,种子情感词语可以包括对应于32类情感中的每一类的情感词语。例如,种子情感词语可以包括对应于情感“joy”的多个词语,例如“happyiness(高兴)”、“gladness(喜悦)”、“pleasure(乐意)”等。可以从现有的人为构建的情感词典中获得种子情感词语,其中人为构建的情感词典包含具有人为标记的情感极性的词语。这些人为构建的情感词典只能提供有限数量的种子情感词语,其中有限数量的种子情感词语不足以获得用于情感分析的训练数据集。
在1020处,可以基于种子情感词语来执行Word2vec词语扩展,以便扩展种子情感词语。可以计算每个种子情感词语和来自语料库的词语的Word2vec余弦相似度分值。以这种方式,可以针对每个情感词语从语料库收集具有所计算的分值的大量词语,然后可以将多个排序最高的词语确定为对种子情感词语的扩展。例如,如图10示,对于种子情感词语“sadness”,可以基于所计算的Word2vec余弦相似度分值来确定出扩展词语“sorrow(哀伤)”、“unhappyiness(不高兴)”、“suffering(痛苦)”、“happyiness”等。
应理解,Word2vec余弦相似度分值是基于例如词语在语句中的位置来计算的。因此,Word2vec词语扩展不能确保所有扩展词语都与对应的种子情感词语具有相似的语义含义。例如,在图10中,将“happiness”确定为种子情感词语“sadness”的扩展词语,然而,这两个词语具有不同的语义含义。因此,过程1000还包括基于双语词语对齐的删减机制,以用于去除与对应的种子情感词语具有不同的语义含义或弱语义相关性的那些扩展词语。
在1030处,可以执行双语词语对齐。双语词语对齐可以用于通过在两种不同语言之间的往返翻译来找到种子词语的语义相关词语。可以将第一语言的种子情感词语翻译成第二语言的词语。例如,可以将英文的种子情感词语“sadness”翻译成中文的词语“伤心”、“不高兴”和“悲痛”。然后,可以将第二语言的词语翻译回第一语言的词语。例如,可以将中文的词语“伤心”、“不高兴”和“悲痛”翻译回英文的词语“sorrow”、“unhappiness”和“grief”。由此,可以通过对种子情感词语“sadness”的双语词语对齐而获得词语列表“sorrow”、“unhappiness”和“grief”。
在1040处,可以对在1020处通过Word2vec词语扩展获得的扩展词语以及在1030处通过双语词语对齐获得的词语列表执行求交集运算。求交集运算可以用于去除通过Word2vec词语扩展获得的、与对应的种子情感词语具有不同的语义含义或弱语义相关性的那些扩展词语。例如,在图10中,通过求交集运算,可以保留词语“sorrow”和“unhappiness”,而去除与“sadness”具有弱语义相关性的词语“suffering”以及与“sad”具有不同语义含义的词语“happiness”。
可以将通过求交集运算而保留的词语附加到情感词典1050。在一种实现方案中,可以向情感词典1050中的词语进一步添对相应的表情符号,例如emoji(绘文字)或kaomoji(颜文字)。在1060处,可以针对每种类型的情感从网络收集emoji或kaomoji。例如,对于情感“sadness”,其对应的表情符号可以包括:例如“><”、“(つд)”等。相应地,可以在情感词典1050中将这些表情符号附加到与情感“sadness”对应的词语“sadness”、“sorrow”和“unhappiness”。
如上所述,通过对种子情感词语执行Word2vec词语扩展和双语词语对齐来建立情感词典1050,并且情感词典1050可以包括比人为构建的情感词典多的词语。情感词典1050可以用于从web数据1070中抓取包含情感词典1050中的至少一个词语的文本语句。这些经抓取的文本语句可以用作候选训练数据。
在一些情况下,候选训练数据可以包括具有模糊情感或难以识别情感的一些干扰语句。示例性干扰语句可以包括可以从原始情感转换到相反情感的词语“不”或其等同词语。另一示例性干扰语句可以以混合方式包括肯定词和否定词,例如“先表扬后批评”。此外,在一些情况下,一个种子情感词语的“强度”与包含该种子情感词语的一个语句的“强度”之间可能存在差距。即,不能保证语句完全遵循种子情感词语的相同强度。例如,对于种子情感词语“anger(愤怒)”,“anger”的强度是“中等”。然而,在如“他非常愤怒了,他扣动枪的扳机”的语句中,总体语句的情感应被注释为“强”的愤怒,即具有强强度的情感“rage(狂怒)”而不是仅具有中等强度的情感“anger”。此外,种子情感词语可以扩展一些新的同义词,这些新的同义词其强度从原始种子情感词语改变。
为了减轻上述问题,可以使用支持向量机(SVM)分类器1080来从候选训练数据中滤除干扰语句或者校正一些候选训练数据的不适当情感注释。SVM分类器1080可以使用三元字符作为特征。可以获得种子训练数据1082的集合以用于训练SVM分类器1080。例如,种子训练数据可以包括针对每类情感的1,000个人为注释的实例。在一种情况下,一个实例中的语句可以由8类基本情感中的一类或8类组合式情感中的一类加以注释,且如果注释了一类基本情感,则应进一步注释强度等级。在另一种情况下,可以通过情感集合900中的32类情感中的一类情感直接注释实例中的语句。
SVM分类器1080可以对基于情感词典1050获得的候选训练数据进行二次判断。通过SVM分类器1080的操作,在候选训练数据中具有相对较高的置信概率的那些语句最终可以附加到训练数据集1090。训练数据集1090可以用于训练文本到情感分类模型。
应理解,在过程1000中,在1020处的Word2vec同义词扩展的操作、在1060处的附加表情符号的操作以及由SVM分类器1080进行的操作都是可选的。因此,在其它实现方案中,可以从过程1000中省略这些操作中的任何一个或多个。
图11示出了根据实施例的用于对文本执行情感分析的示例性架构1100。架构1100可以由通过图10中获得的训练数据集训练的文本-情感分类模型采用。
架构1100可以包括字符级递归卷积神经网络(RCNN)。字符级RCNN能够对来自字符的语义信息和拼写信息两者进行编码,并且可以包括嵌入层、卷积层、递归层和输出层。应理解的是,对于字符式语言(例如日文、中文等)中的文本语句,可以将语句中的字符作为用于嵌入的基本单位,而对于词语式语言(例如英文),语句中的词语而不是字母可以作为用于嵌入的基本单位。当嵌入层中的基本单位是“字符”时,卷积层将找出各自由几个字符组合成的词语的最佳组合。当嵌入层中的基本单位是“词语”时,卷积层将找出各自由几个词语组合成的短语的最佳组合。尽管下面的讨论针对“字符”的情况,但对于“词语”的情况也可以应用类似的技术手段。
嵌入层可以将文本语句转换为密集向量空间,例如为该语句中的每个字符生成向量。
卷积层可以是基于CNN的,并且可以对来自嵌入层的向量执行卷积运算,例如,以各种核大小转换向量。
是字符嵌入矩阵,d是字符嵌入的维度,V是字符词汇集。假定词语w=c1,…,cl,其有l个字符cj。于是,w的字符级别表示由矩阵给出,其中,Cw的第j列对应于针对进一步是Q的第j列的cj的字符嵌入。将窄卷积应用于Cw和宽度为f的过滤器或卷积函数之间。图11示出了宽度为f=3、5和7的三个示例性过滤器。然后,添加偏差,并且应用非线性变换以获得特征映射fw的第i个元素可以给定为:
fw[i]=tanh(<Cw[*,i:i+f-1],H>+b) 方程(1)
其中,Cw[*,i:i+f-1]是Cw的第i到第(i+f-1)列,<A,B>=Tr(ABT)是Frobenius内积。
在一种实现方案中,卷积层处的CNN可以采用诸如随时间的最大池化。
递归层可以对卷积层的输出执行递归操作。应理解的是,尽管图11示出了递归层中的双向递归操作,但单向递归操作也可以应用于递归层中。递归层也可以被称为递归神经网络(RNN)层,其可以采用长短期记忆(LSTM)单元。LSTM可以通过在每个时间步骤用记忆单元向量增大传统的RNN来解决长距离依存性的学习问题和梯度消失问题。LSTM的一个步骤是将xt、ht-1、ct-1作为输入,并经由以下中间计算产生ht、ct
it=σ(Wixt+Uiht-1+bi) 方程(2)
ft=σ(Wfxt+Ufht-1+bf) 方程(3)
ot=σ(Woxt+Uoht-1+bo) 方程(4)
gt=tanh(Wgxt+Ught-1+bg) 方程(5)
其中,σ(.)和tanh(.)是按元素的S型和双曲正切函数,是按元素的乘法算符,it、ft、ot分别表示输入门、忘记门和输出门。当t=1时,h0和c0被初始化为零向量。要在LSTM中训练的参数是矩阵Wj、Uj和偏差向量bj,其中,j∈{i,f,o,g}。
输出层可以被配置用于将来自递归层的RNN状态传递到softmax层1110或1120。
softmax层1110和softmax层1120被配置用于不同的情感分类策略。在一种策略中,情感类别可以是基于情感集合900中的32类情感来定义的,包括具有“中等”强度的8类基本情感、8类弱情感、8类强情感和8类组合式情感。softmax层1110可以是完全连接层,其输出对应于32类情感类别的情感向量。在另一种策略中,可以基于情感和强度的组合来定义情感类别。例如,根据情感集合900,可以定义8类基本情感和8类组合式情感,其中,8类基本情感中的每一类进一步定义有强度等级,而8类组合式情感不定义有任何强度等级。softmax层1120可以是完全连接层,其输出对应于8类基本情感、8类基本情感的强度等级和8类组合式情感的情感向量。由softmax层1110和softmax层1120输出的情感向量可以被解释为输入文本语句的情感信息。
采用了架构1100的文本到情感分类模型可以用于对文本语句进行情感分析。例如,聊天机器人在从用户接收到文本消息时,可以通过文本到情感分类模型对文本消息中的语句进行情感分析,以确定用户的情感。
如上所述,本公开内容的实施例还可以采用图像到情感分类模型对图像进行情感分析。
可以采用深度神经网络来将图像投影为密集向量。例如,可以采用残差网络(ResNet)来对图像进行编码。ResNet可以包括多个残差学习块。图12示出根据实施例的用于图像编码的示例性残差学习块1200。形式上,对于输入x,期望的底层映射可以表示为H(x),并且堆叠的非线性层可以适合另一映射F(x):=H(x)-x。原始映射可以重写为F(x)+x。假设优化残差映射比优化原始未引用映射容易。极端情况下,如果恒等映射是最优的,那么将残差推至零相比通过非线性层堆叠适合恒等映射而言较容易。非线性激活函数是修正线性单元(relu),其可以被定义为:Relu(x)=max(0,x)。基于图12所示的残差学习块,可以建立残差网络。
图13示出了根据实施例的用于对图像执行情感分析的示例性架构1300。架构1300可以被图像到情感分类模型采用。
架构1300可以包括用于对输入图像进行编码的示例性残差网络。残差网络有34层,可以提供相对良好的精度和快速的训练/测试。在图13中,例如,“3*3conv,64”表示存在64个过滤器,并且每个过滤器具有卷积核或函数,并且具有3*3像素的规模。“/2”表示双步幅。“池化”表示池化操作,“avg池(avg pool)”表示平均池化操作。平均池化操作的输出是图像事实向量,其是对输入图像的密集向量表示。事实向量可以被解释为输入图像的事实信息。
图像事实向量可以进一步提供给根据不同的情感分类策略配置的softmax层1310和softmax层1320。softmax层1310和softmax层1320可以以与图11中的softmax层1110和softmax层1120类似的方式起作用。例如,softmax层1310可以输出与32类情感对应的情感向量,并且softmax层1320可以输出与8类基本情感、8类基本情感的强度等级和8类组合式情感对应的情感向量。由softmax层1310或softmax层1320输出的情感向量可以被解释为输入图像的情感信息。
采用了架构1300的图像到情感分类模型可以用于对图像执行情感分析。例如,当获得一件艺术品的图像表示时,聊天机器人可以通过图像到情感分类模型对图像表示执行情感分析,以确定艺术品的情感类别。
应理解,ResNet是可以在图像编码中采用的示例性技术,并且可以在图像编码中采用任何其它技术,诸如AlexNet、GoogleNet、VGG-Net等。
在一些实施例中,可以识别图像的感兴趣区域(ROI),并且图像到情感分类模型可以进一步对ROI执行情感分析以获得ROI的情感信息。在本文中,“ROI”可以指包括脸部图片的图像中的脸部区域。在一些情况下,图像可能包括多于一个人,这些人可以有各自的情感。例如,假设图像中有两个人,一个人在哭,另一个人很冷静并试图与哭泣的人交流。显然,这两个人的脸部区域可以代表不同的情感。如果可以识别这两个脸部区域并且可以确定每个脸部区域的情感,那么对于理解总体图像具有什么样的情感将是有益的。
图14A示出了根据实施例的图像1410的示例性ROI。通过任何现有的方法,可以在图像1410中检测到两个ROI 1412和1414。ROI 1412和1414中的每个是脸部区域。
图14B示出了根据实施例的用于对图像的ROI执行情感分析的示例性过程1420。
在1422处,可以获得输入图像。在1424处,可以从输入图像检测至少一个ROI。在1426处,可以通过诸如图13中所示的ResNet将ROI投射到特征图1428中。然后,在1430处,可以使用ROI池化层来执行诸如特征图1428上的最大池化,以便将特征图1428转换成小特征图。例如,假设ROI为h×w矩形窗口,则可以将该ROI窗口划分为(h/H)×(w/W)子窗口,并且ROI池化层可以对每个子窗口中的值执行最大池化,并输出尺寸为H×W的小特征图。参数H和W可以是独立于任何特定的ROI的层超参数。在1432处,可以将小特征图提供给连接到两个分支的至少一个完全连接层。一个分支到达softmax层1434,其可以与图13中的softmax层1310或softmax层1320相同并且输出ROI的情感向量1436。另一分支到达边框回归器1438,其可以输出指示ROI的左上角的坐标和ROI的右下角的坐标的ROI位置向量1440。
在一种实现方案中,可以将图像中的ROI的情感向量和总图像的情感向量组合在一起作为图像的情感信息。
为了训练图像到情感分类模型,应获得<图像,情感类别>形式的大规模训练数据集。在一种实现方案中,可以将图10中的情感词典1050发送到基于文本的图像搜索引擎,以便收集与如在情感词典中包括的情感词语和/或其强度等级相关联的大量图像。可以将所收集的图像连同对应的情感词语和/或其强度等级人为判断为“匹配”或“不匹配”。如果在图像中出现多于一个脸部,并且已针对此图像给出了“匹配”判断,则可以在图像中进一步人为绘制图像中的与情感词语和/或其强度等级相符的ROI(例如脸部区域)。上述获得训练数据集的过程可以简化注释任务,使人级别的判断更容易。
本公开内容的各实施例可以通过如上讨论的文本到情感分类模型和/或图像到情感分类模型来确定一件艺术品的情感类别。例如,文本到情感分类模型可以用于通过对艺术品的文本描述或属性执行情感分析来确定艺术品的情感类别。图像到情感分类模型可以用于通过对艺术品的图像表示执行情感分析来确定艺术品的情感类别。此外,文本到情感分类模型和图像到情感分类模型也可以一起工作以确定艺术品的情感类别。在一些实现方案中,确定艺术品的情感类别可以进一步考虑在诸如艺术家当时正在创作艺术品时艺术家的情感。例如,可以对与艺术家相关联的一些新闻、报道等执行情感分析,以获得艺术家的情感。在一些实现方案中,用户的情感反馈可以用于确定或更新艺术品的情感类别。例如,不同的用户可以对艺术品具有相似或不同的情感反馈,并且可以对这些来自用户的情感反馈执行情感分析,以获得用户对艺术品的情感。用户的情感也可以是用于确定或更新艺术品的情感类别的有价值的因素。
除了情感类别之外,本公开内容的实施例还可以确定一件艺术品的领域类别。
图15示出了根据实施例的用于确定领域类别的示例性过程1500。
在1502处,可以获得输入图像。输入图像可以是对一件艺术品的图像表示。可以在1506处将输入图像提供给深度神经网络,以用于获得艺术品的事实信息和情感信息,例如基于输入图像获得的事实向量和情感向量1508。深度神经网络可以基于图13中的架构1300。
在1504处,可以检索知识图谱中的图像。知识图谱可以包括以艺术品为中心的知识图谱、以艺术家为中心的知识图谱和以地点为中心的知识图谱中的至少一个。可以在1506处将知识图谱中的图像提供给深度神经网络以用于获得图像的事实信息和情感信息,例如事实向量和情感向量1510。
在1512处,可以计算事实向量和情感向量1508与事实向量和情感向量1510之间的相似度。例如,可以在1512处计算余弦相似度分数。
基于输入图像与知识图谱中的图像之间的相似度,可以在1514将知识图谱中的至少一个排序最高的图像确定为候选图像。也可以从知识图谱中检索与候选图像相关联的知识信息。
在1516处,可以从与候选图像相关联的知识信息中识别关于艺术家、时间、地点、风格等的信息。然后,在1518处,可以将关于艺术家、时间、地点、风格等的信息提供给嵌入神经网络,以用于获得关于艺术家、时间、地点、风格等的信息的嵌入向量。
可以将事实向量和情感向量1508以及关于艺术家、时间、地点、风格等的信息的嵌入向量提供给分类神经网络1520中的输入层1522。输入层连接到诸如包含线性层的两个隐藏层1524,之后是S型非线性激活函数。然后softmax层1526可以预测艺术品的领域类别1530。
根据过程1500,领域类别分类器可以用于确定领域类别。领域类别分类器可以利用以下特征中的至少一个:输入图像的事实向量;输入图像的情感向量;以及与知识图谱中的候选图像相关联的关于艺术家、时间、地点、风格等的信息的嵌入向量。
本公开内容的实施例可以执行可以将图像转换成文本表示的图像到文本转换。图像可以是对一件艺术品的图像表示,并且因此通过图像到文本转换,聊天机器人可以基于图像表示来生成对艺术品的文本描述或评论。
图16示出了根据实施例的用于执行图像到文本转换的示例性架构1600。架构1600是基于CNN-RNN框架的,其中,图16的右部中的深度CNN可以用于获得输入图像的事实向量,并且图16的左部中的RNN可以是用于生成文本语句。图16中的深度CNN可以是基于图13中的ResNet的。架构1600的基本思想是在潜在语义空间中匹配图像和文本语句,其中,将图像通过深度CNN投射到密集向量空间中,并且将语句通过RNN投射到另一个密集向量空间中。
针对架构1600的训练数据可以是<图像,文本>的形式。例如,可以将对绘画“TheCreation of Adam”的图像表示和描述该绘画的文本语句“The God is touching afigure with Adam(上帝正在触摸亚当的形象)”用作训练数据的实例,其中,将图像表示提供给深度CNN并将文本语句提供给RNN。在一些情况下,可以将训练数据中的语句分解成词语,并且可以提取所有词语以形成词汇集。然后,可以基于来自输入图像的线索,将来自不同语句的词语重新组合以形成新语句,其中基于生成概率优化该新语句以适配输入图像。
架构1600的语句生成过程可以如下工作。将输入图像的事实向量I提供给RNN的多模态层。softmax层可以计算目标词汇集中词语的概率,并选择具有最大概率的至少一个词语。在一种实现方案中,波束搜索可以用于保持头B个候选词的记录,其中B是波束大小。例如,当B是3时,这意味着保持具有最高概率的前3个词语在softmax层中的记录。
可以通过RNN的输入层来输入一个或多个先前生成的词{w1,w2,…,wi-1}。可以通过RNN的嵌入层1和2来获得向量w(t)。可以通过RNN的递归层来获得向量r(t)。可以将向量w(t)和r(t)与输入图像的事实向量I一起作为三个输入向量提供给多模态层。这三个输入向量可以通过以下方式在多模态层被加在一起:
m(t)=g(Vw*w(t)+Vr*r(t)+VI*I) 方程(8)
其中,“+”表示按元素加法,m表示多模式层特征向量,g(x)是按元素缩放的双曲正切函数,并且g(x)=1.7159*tanh(2x/3)。函数g(x)强迫梯度进入最非线性值范围,并且导致比基本双曲正切函数快的训练过程。
基于来自多模态层的输出,softmax层将从词汇集中选择下一个词语或接下来的可能的头B个词语。
上述生成过程可以被迭代地执行,并且可以直到表示文本语句结束的符号</s>停止。
应理解的是,在一些实现方案中,还可以在图16中的语句生成过程中考虑输入图像的情感类别。在这种情况下,上述讨论中涉及的输入图像的向量I可以变成输入图像的事实向量和输入图像的情感向量的组合。相应地,由架构1600生成的文本语句可以是对输入图像的情感描述或评论。例如,如果输入图像是关于哭泣的人,那么生成的文本语句可以类似于“This painting tells a sad story(这幅画讲述悲伤的故事)”,其包含指示由绘画传达的情感“sadness(悲伤)”的情感表达。
本公开内容的实施例可以按照风格或类别检索与当前感兴趣艺术品相似的另一艺术品的图像表示。
图17示出了根据实施例的用于检索图像的示例性过程1700。
在1702处,可以获得输入图像。输入图像可以是对一件艺术品的图像表示。输入图像可以是对一件艺术品的图像表示。可以在1706处将输入图像提供给深度神经网络,以用于获得艺术品的事实信息和情感信息,例如基于输入图像获得的事实向量和情感向量1708。深度神经网络可以是基于图13中的架构1300的。
在1704处,可以检索知识图谱中的图像。知识图谱可以包括以艺术品为中心的知识图谱、以艺术家为中心的知识图谱和以地点为中心的知识图谱中的至少一个。可以在1706处将知识图谱中的图像提供给深度神经网络以用于获得图像的事实信息和情感信息,例如事实向量和情感向量1710。
在1712处,可以对输入图像执行图像到文本转换以获得针对输入图像的文本描述。1712处的图像到文本转换可以是基于以上结合图16讨论的图像到文本转换的。然后,可以从在1712处获得的文本中识别关于艺术家、时间、地点、风格等的信息。
在1716处,可以计算输入图像与知识图谱中的图像之间的相似度。在一种实现方案中,可以计算输入图像的事实向量与知识图谱中的图像的事实向量之间的相似度分数。在一种实现方案中,可以计算输入图像的情感向量与知识图谱中的图像的情感向量之间的相似度分数。在一种实现方案中,可以计算从为输入图像生成的文本中识别的关于艺术家、时间、地点、风格等的信息和与知识图谱中的图像相关联的关于艺术家、时间、地点、风格等的信息1714之间的相似度分数。基于以上计算的相似度分数中的至少一个,可以在1718处选择知识图谱中的至少一个排序最高的图像作为经检索的图像。
图像检索模型可以用于根据过程1700来检索图像。图像检索模型可以是梯度提升决策树(GBDT)(GBDT)学习排序(LTR)模型。图像检索模型可以利用以下特征中的至少一个:输入图像的事实向量与知识图谱中的图像的事实向量之间的相似度分数;输入图像的情感向量与知识图谱中的图像的情感向量之间的相似度分数;以及从为输入图像生成的文本中识别的关于艺术家、时间、地点、风格等的信息和与知识图谱中的图像相关联的关于艺术家、时间、地点、风格等的信息之间的相似度分数。
本公开内容的实施例可以与用户进行基于图像的交互。在一种实现方案中,聊天机器人可以改变对一件艺术品的图像表示,以提高用户与聊天机器人聊天和交互的兴趣。例如,聊天机器人可以生成经更新的图像表示,其中用指定图像中的脸部区域来改变对艺术品的原始图像表示中的脸部区域,并且将艺术品的风格传递到经更新的图像表示中的脸部区域。
图18示出了根据实施例的用于改变图像表示的示例性过程1800。
可以获得对一件艺术品的图像表示1802。图像表示1802可以由用户上传,或者可以由聊天机器人在用户对艺术品的指示下检索。
在1804处,可以对图像表示1802执行脸部区域检测,以便获得脸部区域1806和其余区域1808,其中,其余区域1808可以指图像表示1802中排除了脸部区域1806的区域。
可以获得指定图像1810。指定图像1810可以由用户上传,或者可以由聊天机器人在用户对指定图像1810的指示下检索。例如,指定图像1810可以是用户自己的照片或其它人的照片。
在1812处,可以对指定图像1810执行脸部区域检测以便获得脸部区域1814。
过程1800可以采用例如生成式对抗网络(GAN)1820来生成经更新的图像表示。GAN1820在从艺术品到经更新的图像表示的风格转换方面具有优势。例如,GAN 1820可以使得基于脸部区域1814的在经更新的图像表示中的脸部区域处于与原始艺术品相比相同的或相似的风格。此外,GAN 1820在处理经更新的图像表示中的脸部区域1814与其余区域1808之间的边界方面也具有优势。
GAN 1820可以包括基于编码器-解码器框架的生成器1822。可以将脸部区域1814和其余区域1808提供给生成器1822以便生成经更新的图像表示1830。GAN 1820可以进一步包括鉴别器1824。可以将经更新的图像表示1830和图像表示1802输入到鉴别器1824以便计算相似度分数并反向传播误差以进行优化。
GAN的损失函数可以是:
其中,D和G分别表示鉴别器和生成器。对G优化以通过生成使鉴别器D难以与真实图像区分的图像来再现真实的数据分布pdata。同时,对D优化以区分根据pdata的真实图像和从G生成的合成图像。
在方程(9)中,x是遵循真实数据分布pdata的真实图像,z是根据诸如均匀分布或一维/多维高斯分布的分布pz采样的噪声向量。D(x)是关于通过给定x作为D的输入的D输出的概率,D(G(z))是由G生成的D分配给z的概率。D的任务是为了使得V(D,G)中的分数最大化,这为了“让真实数据尽可能接近1,并让合成数据尽可能接近0”。此外,G的任务是为了尽可能地“欺骗”D,也就是为了最小化D的益处。
易于通过附加额外的条件变量c扩展G和D,产生G(x,c)和D(x,c)。此公式允许G生成以变量c为条件的图像。例如,图18中的脸部区域1814是一种类型的c。
通过GAN 1820,在经更新的图像表示1830中,脸部区域1806已被脸部区域1814替换,例如,艺术品中的人脸被指定图像中的用户的脸替换。此外,以原始艺术品的相同或相似风格变换了已包含在经更新的图像表示1830中的脸部区域1814。
应理解,尽管在图18中没有示出,但是在通过GAN生成经更新的图像表示时也可以考虑由用户指示的指定情感。在一种情况下,用户可能希望将艺术品的原始情感类别改变为指定的情感类别。例如,假设绘画的原始情感类别是“sadness(悲伤)”,用户想要在经更新的图像表示中传达“anger(愤怒)”情感。在另一种情况下,用户可能希望将指定图像的原始情感类别改变为另一指定情感类别。例如,假设指定图像中的脸部区域显示“fear(恐惧)”情感,用户想要在经更新后的图像表示中传达“joy(快乐)”情感。可以将指定情感转换为情感向量并提供给GAN的生成器。相应地,这个情感向量可以影响经更新的图像表示的生成,使得经更新的图像表示可以传达由用户指定的情感。
图19示出了根据实施例的示例性聊天窗口1900。
用户可以发送消息“谁画了这幅画?”并上传对画的图像表示。聊天机器人可以试图从知识图谱中检索关于该绘画的艺术家信息。例如,可以一起执行图8中的过程800与图15中的相似度计算1512和/或图17中的相似度计算1716,以便在知识图谱中找到经匹配的图像,并且进一步从知识图谱中检索经匹配的图像的艺术家信息。聊天机器人可以向用户返回响应“Michelangelo”以指示该绘画的艺术家。
当用户询问“何时?”时,其表明用户想要知道绘画的时间信息。聊天机器人可以以与检索艺术家信息类似的方式从知识图谱中检索和返回时间信息“1508-1512”。
用户可以进一步询问“这幅画中的人高兴吗?”。根据上面的讨论,聊天机器人可以确定绘画的情感类别。例如,可以向用户提供响应“非常中立并充满希望”。
当从用户接收到消息“风格如何?”时,聊天机器人可以根据图15中的过程1500来确定绘画的领域类别,并且返回响应“这代表在文艺复兴期间的最佳作品”。
如果用户询问“有什么任何相似的绘画吗?”,那么聊天机器人可以执行图17中的过程1700以便检索和返回与用户上传的绘画风格相似的绘画。
图20示出了根据实施例的示例性聊天窗口2000。在聊天窗口2000中,聊天机器人可以改变对一件艺术品的图像表示。
用户需要“脸部改变”并上传对一件艺术品的图像表示。聊天机器人可以检测用户上传的图像表示中的脸部区域,并与用户进行确认。然后用户可以将指定图像(例如,用户自己的照片)上传到聊天机器人。聊天机器人可以执行图18中的过程1800以便生成经更新的图像表示。
应认识到,图19和图20中的聊天窗口是示例性的,并且根据实际的聊天场景,在聊天机器人和用户之间的会话中可以发生各种聊天流程。
图21A至图21C示出了根据实施例的用于提供自动聊天服务的示例性硬件设备2110、2120。根据本公开内容实施例的聊天机器人可以在硬件设备2110、2120和2130中实现。
设备2110是在合作伙伴的位置处提供和使用的智能终端。设备2110可以包括:至少一个摄像机,用于捕获用户的图像或捕获用户视野中的物品的图像;屏幕,其可以向用户呈现视觉信息或者可以是可触摸的用于与用户交互;麦克风和扬声器,用于通过语音与用户进行交流;用于发声的按钮,用于切换到纯语音模式;电源按钮;和聊天机器人标志。根据实际需求,设备2110可以包括更多或更少的组件。设备2110可以放置在固定位置或者可以由用户携带。例如,可以将设备2110放置在艺术画廊、博物馆等的入口处,用于引导用户参观,可以将设备2110放置在某个展品附近,以便当用户在该展品附近时与用户进行通信,或者可以由用户携带设备2110,以便在用户携带其期间提供自动聊天服务。
设备2120是包括至少一个屏幕、至少一个摄像机、音响、麦克风等的可穿戴设备。虽然将设备2120示出为与眼镜相似,但其可以是任何其它类型的可穿戴设备,例如,智能手表。
设备2130是用户拥有的智能终端。设备2130可以是智能电话、平板电脑、膝上型电脑、台式计算机等。通过设备2130,用户可以与聊天机器人进行通信而不受位置的限制。
应理解,设备2110、2120和2130是示例性的,并且根据本公开内容的实施例的聊天机器人可以以任何其它类型的硬件设备来实现。
图22示出了根据实施例的用于在会话中向用户提供响应的示例性方法2200的流程图。
在2210处,可以在会话中接收与第一对象相关联的至少一条消息,该会话在用户与电子对话代理(例如聊天机器人)之间。
在2220处,可以获得对第一对象的图像表示。
在2230处,可以至少基于图像表示来确定第一对象的情感信息。
在2240处,可以至少基于至少一条消息和情感信息来生成响应。
在2250处,可以将响应提供给用户。
在一种实现方案中,第一对象可以是艺术品、文物、科技展览品和摄影作品中的至少一个。
在一种实现方案中,至少一条消息可以指示关于获得所述第一对象的情感类别的意图,并且生成响应可以包括:至少基于第一对象的情感信息来确定所述第一对象的情感类别。
在一种实现方案中,至少一条消息可以指示关于获得第一对象的领域类别的意图,并且生成响应可以包括:至少基于第一对象的情感信息、第一对象的事实信息以及知识图谱中与第一对象相关联的知识信息来确定第一对象的领域类别。可以通过以下方式获得与第一对象相关联的知识信息:从知识图谱中识别在密集向量空间中与第一对象匹配的第二对象;以及从知识图谱中检索第二对象的属性作为知识信息。
在一种实现方案中,至少一条消息可以指示关于获得对与第一对象对应的第二对象的图像表示的意图,并且所述生成响应可以包括:至少基于情感信息来确定所述第一对象与知识图谱中的候选对象之间的相似度;至少基于相似度来选择第二对象;以及在响应中包括对第二对象的图像表示。确定相似度可以包括:至少基于情感信息来计算对第一对象的图像表示与对知识图谱中的候选对象的图像表示之间的相似度分数。此外,确定相似度可以包括:将对第一对象的图像表示转换为文本表示;以及计算对第一对象的文本表示和对知识图谱中的候选对象的文本描述之间的相似度分数。转换可以是至少基于情感信息的。
在一种实现方案中,至少一条消息可以指示关于用指定图像中的第二脸部区域来改变图像表示中的第一脸部区域的意图,并且生成响应可以包括:通过基于GAN由第二脸部区域替换第一脸部区域来生成经更新的图像表示。至少一条消息可以进一步指示指定情感,并且生成经更新的图像表示可以是进一步基于指定情感的。
在一种实现方案中,至少一条消息可以包括文本消息、图像消息、语音消息和视频消息中的至少一个。
应认识到,方法2200还可以包括根据上述本公开内容的实施例的用于在会话中向用户提供响应的任何步骤/过程。
图23示出了根据实施例的用于在会话中向用户提供响应的示例性装置2300。
装置2300可以包括:消息接收模块2310,用于在会话中接收与第一对象相关联的至少一条消息,该会话在用户与电子对话代理之间;图像表示获得模块2320,用于获得对第一对象的图像表示;情感信息确定模块2330,用于至少基于图像表示来确定第一对象的情感信息;响应生成模块2340,用于至少基于至少一条消息和情感信息来生成响应;以及响应提供模块2350,用于将响应提供给用户。
在一种实现方案中,第一对象可以是艺术品、文物、科技展览品和摄影作品中的至少一个。
在一种实现方案中,至少一条消息可以指示关于获得第一对象的情感类别的意图,并且响应生成模块可以进一步用于:至少基于第一对象的情感信息来确定第一对象的情感类别。
在一种实现方案中,至少一条消息可以指示关于获得第一对象的领域类别的意图,并且响应生成模块可以进一步用于:至少基于第一对象的情感信息、第一对象的事实信息以及知识图谱中与第一对象相关联的知识信息来确定第一对象的领域类别。
在一种实现方案中,至少一条消息可以指示关于获得对与第一对象对应的第二对象的图像表示的意图,并且响应生成模块可以进一步用于:至少基于情感信息来确定第一对象与知识图谱中的候选对象之间的相似度;至少基于相似度来选择第二对象;并在响应中包括对第二对象的图像表示。
在一种实现方案中,至少一条消息可以指示关于用指定图像中的第二脸部区域来改变图像表示中的第一脸部区域的意图,并且响应生成模块可以进一步用于:通过基于GAN由第二脸部区域替换第一脸部区域来生成经更新的图像表示。至少一条消息可以进一步指示指定情感,并且生成经更新的图像表示可以是进一步基于指定情感的。
此外,装置2300还可以包括根据上述本公开内容的实施例的被配置用于在会话中向用户提供响应的任何其它模块。
图24示出了根据实施例的用于在会话中向用户提供响应的示例性装置2400。
装置2400可以包括一个或多个处理器2410和存储计算机可执行指令的存储器2420。当执行计算机可执行指令时,一个或多个处理器2410可以:在会话中接收与第一对象相关联的至少一条消息,该会话在用户与电子对话代理(例如聊天机器人)之间;获得对第一对象的图像表示;至少基于图像表示来确定第一对象的情感信息;至少基于至少一条消息和情感信息来生成响应;及将响应提供给用户。一个或多个处理器2410可以被进一步配置用于执行根据上述本公开内容的实施例的用于在会话中向用户提供响应的方法的任何操作。
本公开内容的实施例可以实施在非暂时性计算机可读介质中。该非暂时性计算机可读介质可以包括当被执行时使得一个或多个处理器执行根据上述本公开内容实施例的用于在会话中向用户提供响应的方法的任何操作的指令。
应理解,以上描述的方法中的所有操作都仅仅是示例性的,本公开内容并不限制于方法中的任何操作或这些操作的顺序,而是应涵盖在相同或相似构思下的所有其它等同变换。
还应理解,以上描述的装置中的所有模块都可以通过各种方式来实现。这些模块可以被实现为硬件、软件、或其组合。此外,这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。
已结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实现。这些处理器是实现为硬件还是软件将取决于具体的应用以及施加在系统上的总体设计约束。作为示例,在本公开内容中给出的处理器、处理器的任意部分、或者处理器的任意组合可以以微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门控逻辑、分立硬件电路、以及被配置用于执行在本公开内容中描述的各种功能的其它适合的处理部件来实现。在本公开内容给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以以由微处理器、微控制器、DSP或其它适合的平台所执行的软件来实现。
软件应当被广泛地解释为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器,存储器可以例如为磁性存储设备(如,硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移动盘。尽管在本公开内容给出的多个方面中将存储器示出为是与处理器分离的,但是存储器也可以位于处理器内部(如,缓存或寄存器)。
以上描述被提供用于使得本领域任何技术人员可以实现本文所描述的各个方面。对这些方面的各种修改对于本领域技术人员是显而易见的,本文限定的一般性原理可以应用于其它方面。因此,权利要求书并非旨在被局限于本文示出的方面。本领域技术人员已知或即将获知的、对贯穿本公开内容所描述的各个方面的元素的所有结构和功能上的等价物都通过引用而明确地包含到本文中,并且旨在由权利要求书所涵盖。

Claims (20)

1.一种用于在会话中向用户提供响应的方法,包括:
在会话中接收与第一对象相关联的至少一条消息,所述会话在所述用户与电子对话代理之间;
获得对所述第一对象的图像表示;
至少基于所述图像表示来确定所述第一对象的情感信息;
至少基于所述至少一条消息和所述情感信息来生成响应;以及
将所述响应提供给所述用户。
2.根据权利要求1所述的方法,其中,所述第一对象是艺术品、文物、科技展览品和摄影作品中的至少一个。
3.根据权利要求1所述的方法,其中,所述至少一条消息指示关于获得所述第一对象的情感类别的意图,并且所述生成所述响应包括:
至少基于所述第一对象的所述情感信息来确定所述第一对象的所述情感类别。
4.根据权利要求1所述的方法,其中,所述至少一条消息指示关于获得所述第一对象的领域类别的意图,并且所述生成所述响应包括:
至少基于所述第一对象的所述情感信息、所述第一对象的事实信息以及知识图谱中与所述第一对象相关联的知识信息来确定所述第一对象的所述领域类别。
5.根据权利要求4所述的方法,其中,通过以下方式来获得与所述第一对象相关联的所述知识信息:
从所述知识图谱中识别在密集向量空间中与所述第一对象匹配的第二对象;以及
从所述知识图谱中检索所述第二对象的属性作为所述知识信息。
6.根据权利要求1所述的方法,其中,所述至少一条消息指示关于获得对与所述第一对象相对应的第二对象的图像表示的意图,并且所述生成所述响应包括:
至少基于所述情感信息来确定所述第一对象与知识图谱中的候选对象之间的相似度;
至少基于所述相似度来选择所述第二对象;以及
在所述响应中包括对所述第二对象的所述图像表示。
7.根据权利要求6所述的方法,其中,所述确定所述相似度包括:
至少基于所述情感信息来计算对所述第一对象的所述图像表示与对所述知识图谱中的所述候选对象的图像表示之间的相似度分数。
8.根据权利要求6所述的方法,其中,所述确定所述相似度包括:
将对所述第一对象的所述图像表示转换为文本表示;以及
计算对所述第一对象的所述文本表示和对所述知识图谱中的所述候选对象的文本描述之间的相似度分数。
9.根据权利要求8所述的方法,其中,所述转换是至少基于所述情感信息的。
10.根据权利要求1所述的方法,其中,所述至少一条消息指示关于用指定图像中的第二脸部区域来改变所述图像表示中的第一脸部区域的意图,并且所述生成所述响应包括:
通过基于生成式对抗网络(GAN)由所述第二脸部区域替换所述第一脸部区域来生成经更新的图像表示。
11.根据权利要求10所述的方法,其中,所述至少一条消息进一步指示指定情感,并且所述生成所述经更新的图像表示是进一步基于所述指定情感的。
12.根据权利要求1所述的方法,其中,所述至少一条消息包括文本消息、图像消息、语音消息和视频消息中的至少一个。
13.一种用于在会话中向用户提供响应的装置,包括:
消息接收模块,用于在所述会话中接收与第一对象相关联的至少一条消息,所述会话在所述用户与电子对话代理之间;
图像表示获得模块,用于获得对所述第一对象的图像表示;
情感信息确定模块,用于至少基于所述图像表示来确定所述第一对象的情感信息;
响应生成模块,用于至少基于所述至少一条消息和所述情感信息来生成响应;以及
响应提供模块,用于将所述响应提供给所述用户。
14.根据权利要求13所述的装置,其中,所述第一对象是艺术品、文物、科技展览品和摄影作品中的至少一个。
15.根据权利要求13所述的装置,其中,所述至少一条消息指示关于获得所述第一对象的情感类别的意图,并且所述响应生成模块进一步用于:
至少基于所述第一对象的所述情感信息来确定所述第一对象的所述情感类别。
16.根据权利要求13所述的装置,其中,所述至少一条消息指示关于获得所述第一对象的领域类别的意图,并且所述响应生成模块进一步用于:
至少基于所述第一对象的所述情感信息、所述第一对象的事实信息以及知识图谱中与所述第一对象相关联的知识信息来确定所述第一对象的所述领域类别。
17.根据权利要求13所述的装置,其中,所述至少一条消息指示关于获得对与所述第一对象相对应的第二对象的图像表示的意图,并且所述响应生成模块进一步用于:
至少基于所述情感信息来确定所述第一对象与知识图谱中的候选对象之间的相似度;
至少基于所述相似度来选择所述第二对象;及
在所述响应中包括对所述第二对象的所述图像表示。
18.根据权利要求13所述的装置,其中,所述至少一条消息指示关于用指定图像中的第二脸部区域来改变所述图像表示中的第一脸部区域的意图,并且所述响应生成模块进一步用于:
通过基于生成式对抗网络(GAN)由所述第二脸部区域替换所述第一脸部区域来生成经更新的图像表示。
19.根据权利要求18所述的装置,其中,所述至少一条消息进一步指示指定情感,并且所述生成所述经更新的图像表示是进一步基于所述指定情感的。
20.一种用于在会话中向用户提供响应的装置,包括:
一个或多个处理器;及
存储器,存储计算机可执行指令,所述计算机可执行指令在被执行时使所述一个或多个处理器:
在会话中接收与第一对象相关联的至少一条消息,所述会话在所述用户与电子对话代理之间;
获得对所述第一对象的图像表示;
至少基于所述图像表示来确定所述第一对象的情感信息;
至少基于所述至少一条消息和所述情感信息来生成响应;以及
将所述响应提供给所述用户。
CN201780086747.5A 2017-11-24 2017-11-24 用于在会话中提供响应的方法和装置 Active CN110301117B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2017/112831 WO2019100319A1 (en) 2017-11-24 2017-11-24 Providing a response in a session

Publications (2)

Publication Number Publication Date
CN110301117A true CN110301117A (zh) 2019-10-01
CN110301117B CN110301117B (zh) 2022-10-21

Family

ID=66631250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780086747.5A Active CN110301117B (zh) 2017-11-24 2017-11-24 用于在会话中提供响应的方法和装置

Country Status (4)

Country Link
US (1) US11704501B2 (zh)
EP (1) EP3695570A4 (zh)
CN (1) CN110301117B (zh)
WO (1) WO2019100319A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191135A (zh) * 2021-01-26 2021-07-30 北京联合大学 一种融合颜文字的多类别情感提取方法
CN116188632A (zh) * 2023-04-24 2023-05-30 之江实验室 一种图像的生成方法、装置、存储介质及电子设备
CN116665273A (zh) * 2023-05-31 2023-08-29 南京林业大学 基于表情识别和情感量化分析计算的机器人人机交互方法

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11551042B1 (en) * 2018-08-27 2023-01-10 Snap Inc. Multimodal sentiment classification
US11270084B2 (en) * 2018-10-12 2022-03-08 Johnson Controls Tyco IP Holdings LLP Systems and methods for using trigger words to generate human-like responses in virtual assistants
EP3816864A1 (en) * 2019-10-28 2021-05-05 Robert Bosch GmbH Device and method for the generation of synthetic data in generative networks
CN113129399A (zh) * 2019-12-31 2021-07-16 微软技术许可有限责任公司 纹样生成
US11431658B2 (en) * 2020-04-02 2022-08-30 Paymentus Corporation Systems and methods for aggregating user sessions for interactive transactions using virtual assistants
US11853348B2 (en) * 2020-06-24 2023-12-26 Adobe Inc. Multidimensional digital content search
KR20220006926A (ko) * 2020-07-09 2022-01-18 삼성전자주식회사 요약 비디오를 생성하는 디바이스 및 방법
US11288080B2 (en) * 2020-07-20 2022-03-29 Bank Of America Corporation Affect-focused gamified portal builder
US20220084204A1 (en) * 2020-09-11 2022-03-17 Nvidia Corporation Labeling images using a neural network
US11533279B2 (en) 2021-03-30 2022-12-20 International Business Machines Corporation Method for electronic messaging using image based noisy content
US11683283B2 (en) 2021-03-30 2023-06-20 International Business Machines Corporation Method for electronic messaging
CN113449135B (zh) * 2021-08-31 2021-11-19 阿里巴巴达摩院(杭州)科技有限公司 图像生成系统与方法
US11869128B2 (en) * 2021-12-14 2024-01-09 Fujitsu Limited Image generation based on ethical viewpoints

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040039483A1 (en) * 2001-06-01 2004-02-26 Thomas Kemp Man-machine interface unit control method, robot apparatus, and its action control method
CN1514399A (zh) * 2002-11-25 2004-07-21 ��˹���´﹫˾ 用于健康监视和个人安全的成像方法和系统
EP1605436A1 (en) * 2003-03-20 2005-12-14 Sony Corporation Singing voice synthesizing method, singing voice synthesizing device, program, recording medium, and robot
KR20090112213A (ko) * 2008-04-24 2009-10-28 한국과학기술원 로봇의 호감도 형성장치 및 그 방법
CN102323926A (zh) * 2011-06-15 2012-01-18 百度在线网络技术(北京)有限公司 一种用于获取与请求对象相关的对象信息的设备和方法
CN103612252A (zh) * 2013-12-03 2014-03-05 北京科技大学 面向孤独症儿童的智能远程社交辅助治疗机器人
US20140122618A1 (en) * 2012-10-26 2014-05-01 Xiaojiang Duan User-aided learning chatbot system and method
CN104317298A (zh) * 2014-11-04 2015-01-28 郭海锋 一种情感交互型手机机器人
CN104656653A (zh) * 2015-01-15 2015-05-27 长源动力(北京)科技有限公司 一种基于机器人的交互系统及方法
CN106937531A (zh) * 2014-06-14 2017-07-07 奇跃公司 用于产生虚拟和增强现实的方法和系统
US20170310613A1 (en) * 2016-04-22 2017-10-26 SmarTBotHub LLC System and Method for Facilitating Computer Generated Conversations with the aid of a Digital Computer

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002225160A1 (en) 2001-01-22 2002-07-30 Digital Animations Group Plc Interactive virtual assistant
US20050192025A1 (en) * 2002-04-22 2005-09-01 Kaplan Richard D. Method and apparatus for an interactive tour-guide system
WO2007134402A1 (en) * 2006-05-24 2007-11-29 Mor(F) Dynamics Pty Ltd Instant messaging system
US20080096533A1 (en) * 2006-10-24 2008-04-24 Kallideas Spa Virtual Assistant With Real-Time Emotions
US20120239504A1 (en) * 2011-03-15 2012-09-20 Microsoft Corporation Virtual Shopping Assistance
WO2013155619A1 (en) * 2012-04-20 2013-10-24 Sam Pasupalak Conversational agent
US9571645B2 (en) * 2013-12-16 2017-02-14 Nuance Communications, Inc. Systems and methods for providing a virtual assistant
US9786299B2 (en) * 2014-12-04 2017-10-10 Microsoft Technology Licensing, Llc Emotion type classification for interactive dialog system
US10154071B2 (en) * 2015-07-29 2018-12-11 International Business Machines Corporation Group chat with dynamic background images and content from social media
US20170147202A1 (en) * 2015-11-24 2017-05-25 Facebook, Inc. Augmenting text messages with emotion information
US10884503B2 (en) * 2015-12-07 2021-01-05 Sri International VPA with integrated object recognition and facial expression recognition
US10015124B2 (en) * 2016-09-20 2018-07-03 Google Llc Automatic response suggestions based on images received in messaging applications
US20180174055A1 (en) * 2016-12-19 2018-06-21 Giridhar S. Tirumale Intelligent conversation system
US10146768B2 (en) * 2017-01-25 2018-12-04 Google Llc Automatic suggested responses to images received in messages using language model
US10838967B2 (en) * 2017-06-08 2020-11-17 Microsoft Technology Licensing, Llc Emotional intelligence for a conversational chatbot
CN109844708B (zh) * 2017-06-21 2022-06-21 微软技术许可有限责任公司 通过聊天机器人推荐媒体内容
US20200137001A1 (en) * 2017-06-29 2020-04-30 Microsoft Technology Licensing, Llc Generating responses in automated chatting
US10585991B2 (en) * 2017-06-29 2020-03-10 Microsoft Technology Licensing, Llc Virtual assistant for generating personalized responses within a communication session

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040039483A1 (en) * 2001-06-01 2004-02-26 Thomas Kemp Man-machine interface unit control method, robot apparatus, and its action control method
CN1514399A (zh) * 2002-11-25 2004-07-21 ��˹���´﹫˾ 用于健康监视和个人安全的成像方法和系统
EP1605436A1 (en) * 2003-03-20 2005-12-14 Sony Corporation Singing voice synthesizing method, singing voice synthesizing device, program, recording medium, and robot
KR20090112213A (ko) * 2008-04-24 2009-10-28 한국과학기술원 로봇의 호감도 형성장치 및 그 방법
CN102323926A (zh) * 2011-06-15 2012-01-18 百度在线网络技术(北京)有限公司 一种用于获取与请求对象相关的对象信息的设备和方法
US20140122618A1 (en) * 2012-10-26 2014-05-01 Xiaojiang Duan User-aided learning chatbot system and method
CN103612252A (zh) * 2013-12-03 2014-03-05 北京科技大学 面向孤独症儿童的智能远程社交辅助治疗机器人
CN106937531A (zh) * 2014-06-14 2017-07-07 奇跃公司 用于产生虚拟和增强现实的方法和系统
CN104317298A (zh) * 2014-11-04 2015-01-28 郭海锋 一种情感交互型手机机器人
CN104656653A (zh) * 2015-01-15 2015-05-27 长源动力(北京)科技有限公司 一种基于机器人的交互系统及方法
US20170310613A1 (en) * 2016-04-22 2017-10-26 SmarTBotHub LLC System and Method for Facilitating Computer Generated Conversations with the aid of a Digital Computer

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KYO-JOONG OH 等: "《A Chatbot for Psychiatric Counseling in Mental Healthcare Service Based on Emotional Dialogue Analysis and Sentence Generation》", 《2017 18TH IEEE INTERNATIONAL CONFERENCE ON MOBILE DATA MANAGEMENT(MDM)》 *
SHURONG SHENG等: "《A Dataset for Multimodal Question Answering in the Cultural Heritage Domain》", 《PROCEEDING TECHNOLOGY RESOURCES AND TOOLS FOR DIGITAL HUMANITIES(LT4DH)》 *
张斌: "《基于倒谱距离特征和卷积神经网络的语音情感识别研究》", 《中国优秀硕士学位论文全文数据库》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191135A (zh) * 2021-01-26 2021-07-30 北京联合大学 一种融合颜文字的多类别情感提取方法
CN116188632A (zh) * 2023-04-24 2023-05-30 之江实验室 一种图像的生成方法、装置、存储介质及电子设备
CN116665273A (zh) * 2023-05-31 2023-08-29 南京林业大学 基于表情识别和情感量化分析计算的机器人人机交互方法
CN116665273B (zh) * 2023-05-31 2023-11-17 南京林业大学 基于表情识别和情感量化分析计算的机器人人机交互方法

Also Published As

Publication number Publication date
US20200327327A1 (en) 2020-10-15
WO2019100319A1 (en) 2019-05-31
US11704501B2 (en) 2023-07-18
EP3695570A4 (en) 2021-06-02
EP3695570A1 (en) 2020-08-19
CN110301117B (zh) 2022-10-21

Similar Documents

Publication Publication Date Title
CN110301117A (zh) 在会话中提供响应
CN109844741B (zh) 在自动聊天中生成响应
Abdullah et al. SEDAT: sentiment and emotion detection in Arabic text using CNN-LSTM deep learning
CN109844743B (zh) 在自动聊天中生成响应
CN110325982A (zh) 在会话中提供多媒体文档的摘要
US20200395008A1 (en) Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models
CN109564572A (zh) 生成用于自动聊天的问题-答案对
JP2022531855A (ja) テキストに基づくアバターの行動制御方法、デバイス及びコンピュータプログラム
CN110121706A (zh) 提供会话中的响应
CN109690526A (zh) 用于智能自动聊天的方法与装置
Nishida et al. Conversational informatics
CN109314660A (zh) 在自动聊天中提供新闻推荐
CN109313650A (zh) 在自动聊天中生成响应
CN109716326A (zh) 在自动聊天中提供个性化歌曲
EP2274689A2 (en) Systems and methods for natural language communication with a computer
CN109643325A (zh) 在自动聊天中推荐朋友
CN110476169A (zh) 在会话中提供情感关怀
JP6076425B1 (ja) 対話インターフェース
JP2017091570A (ja) 対話インターフェース
JP6034459B1 (ja) 対話インターフェース
Palekar The Nachya in Natrang: queer (ing) bodies in representations of Tamasha in Marathi cinema
Liapis et al. Modelling the quality of visual creations in iconoscope
Tang et al. An attention-based denoising framework for personality detection in social media texts
Kim Autobiographical Revisions: Photography in Roland Barthes by Roland Barthes and Claude Cahun’s Disavowals
Ferreira 3D Character Animation Using Sign Language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant