CN109844708A

CN109844708A - 通过聊天机器人推荐媒体内容

Info

Publication number: CN109844708A
Application number: CN201780063786.3A
Authority: CN
Inventors: 吴先超; 藤原敬三; S·宫川
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-06-21
Filing date: 2017-06-21
Publication date: 2019-06-04
Anticipated expiration: 2037-06-21
Also published as: EP3642703A1; CN109844708B; WO2018232622A1; EP3642703A4; US20200154170A1; US11070879B2

Abstract

本公开提供了一种用于通过智能自动聊天推荐媒体内容的方法。在与用户的对话中，从该用户接收消息。基于该消息和该对话的上下文识别新话题。基于该新话题从一组媒体内容识别媒体内容。在该对话中提供该媒体内容的推荐。

Description

通过聊天机器人推荐媒体内容

背景技术

人工智能(AI)对话聊天程序越来越受欢迎。通过这些对话聊天程序，也被称作聊天机器人(chatbots)，用户可以与虚拟实体进行对话。该聊天机器人被设计为模拟人类的对话，并且可以通过文本、语音、图像等与用户聊天。

发明内容

以下提供本发明内容以介绍将在下文具体实施方式中进一步描述的一些概念。本发明内容不旨在标识所要求保护的主题的关键特征或者必要特征，也不旨在用于限制所要求保护的主题的范围。

本公开的实施例提供了一种用于通过智能自动聊天推荐媒体内容的方法。在对话中接收消息。基于该消息和该对话的上下文，识别新话题。基于该新话题，从一组媒体内容识别媒体内容。在该对话中，提供该媒体内容的推荐。

应该理解，上述一个或多个方面包括在下文充分描述且在权利要求书中特别指出的特征。以下描述和附图详细陈述了所述一个或多个方面的某些说明性的特征。这些特征仅表示利用各方面原理的各种方式，而本公开旨在涵盖所有此类方面以及其等效物。

附图说明

以下将结合附图来描述所公开的各个方面，这些附图是用来说明而不是限制所公开的各个方面。

图1示出了根据一个实施例的能够实现所描述的技术的示例性环境。

图2示出了根据一个实施例的应用聊天机器人的示例性系统。

图3示出了根据一个实施例的示例性用户界面(UI)。

图4到图7各示出了根据一个实施例的示例性聊天流。

图8到图8B示出了根据一个实施例的用于收集电视节目的知识图谱的示例性过程。

图9示出了根据一个实施例的用于收集训练数据的示例性过程。

图10示出了根据一个实施例的示例性评论生成模型。

图11示出了根据一个实施例的用于收集训练数据的示例性过程。

图12示出了根据一个实施例的示例性情绪分析分类器模型。

图13示出了根据一个实施例的示例性短视频生成模型。

图14示出了根据一个实施例的用于获得用户简档数据的示例性过程。

图15示出了根据一个实施例的用于通过智能自动聊天推荐媒体内容的示例性过程。

图16示出了根据一个实施例的用于通过智能自动聊天推荐媒体内容的示例性过程。

图17示出了根据一个实施例的用于自动智能聊天的示例性装置。

图18示出了根据一个实施例的示例性计算系统。

具体实施方式

以下将结合若干示例性实施方式来阐述本公开。应该理解，阐述这些实施方式仅仅是为了使本领域技术人员能够更好地理解并且从而实施本公开的实施例，而不代表对本公开的范围的任何限制。

在示例性环境100中，网络110用于将聊天机器人服务器120、终端设备130、140或150和电视节目服务器互连在一起。

网络110可以是能够将网络实体互连在一起的任何类型的网络。网络110可以是单个的网络或者是各种网络的组合。从覆盖范围方面来说，网络110可以是局域网(LAN)、广域网(WAN)等。从承载媒介方面来说，网络110可以是有线网络、无线网络等。从数据交换技术方面来说，网络110可以是电路交换网络、分组交换网络等。

终端设备可以是能够进行连接到网络110、通过网络110访问服务器或网站、处理数据或信号等操作的任何类型的计算设备。所示出的终端设备130的示例包括电视(TV)130、电话140和电视盒150。该终端设备的其他示例可以是台式计算机、膝上型计算机、平板电脑、音箱等。尽管在图1中仅示出了三个终端设备，但是应该理解，不同数量的终端设备可能连接到网络110。

电视130可以是智能电视，其中安装了聊天机器人客户端132。远程控制器134可用于用户与电视130进行交互。例如，远程控制器134可用于输入信息以控制该电视的操作，并且可用于输入信息以与聊天机器人客户端132进行交互。远程控制器134可用于通过文本输入单元(诸如在一个实现中的小键盘或者触摸板)输入文本信息，并且可用于通过语音输入单元(诸如在另一个实现中的麦克风)输入语音信息。

电话140可以是包括聊天机器人客户端142的智能电话。在一个实现中，电话140被用作远程控制器以控制电视144的操作，诸如打开/关闭该电视、选择节目频道、预约节目、录制节目，等等。

电视盒150可以从电视节目服务器160获得电视节目并将该节目提供给电视154来显示。电视盒150通常可以提供两种电视节目，一个是播出节目，另一个是视频点播(VOD)节目。以与远程控制器134类似的方式，远程控制器156可用于用户与电视盒150和聊天机器人客户端152进行交互。尽管电视盒150被示出为与电视154是分开的，但是该电视盒也可能是被集成在诸如电视154的电视中。

聊天机器人客户端132、142或152为用户提供聊天服务。在一些实现中，该聊天机器人客户端是与由聊天机器人服务器120提供的聊天机器人服务相对应的独立客户端应用。在另一些实现中，特别是当该聊天机器人客户端被实现在电话140中时，该聊天机器人客户端可以在第三方应用中实现，如第三方即时消息(IM)应用。

聊天机器人客户端132、142或152与聊天机器人服务器120通信。例如，聊天机器人客户端132、142或152将用户输入的消息发送到聊天机器人服务器120，并且从聊天机器人服务器120接收与该消息相关联的响应。聊天机器人客户端132、142或152和聊天机器人服务器120可统称为聊天机器人。由于通常情况下该用户和该聊天机器人之间的对话是以查询-响应的方式进行的，所以该用户输入的该消息通常被称为查询，该聊天机器人输出的答复通常被称为响应。查询-响应对被记录为用户日志数据。应该理解，在一些实现中，不与聊天机器人服务器120进行交互，聊天机器人客户端132、142或152也可以本地生成针对用户输入的查询的响应。

应该理解，图1中所示的所有网络实体均是示例性的，并且根据具体的应用需求，环境100中还可能包含任何其他网络实体。

图2示出了根据一个实施例的示例性聊天机器人系统。

系统200可以包括用户界面(UI)210。UI 210可以在聊天机器人客户端132、142或152处实现，其提供用于用户和该聊天机器人之间进行交互的聊天窗口。

由该用户通过用户界面210输入的查询被传送到查询队列232，查询队列232临时存储用户的查询。该用户的查询可以是各种形式，包括文本、声音、图像、视频等。

核心处理模块220可以将查询队列232中的消息或查询作为其输入。在一些实现中，可以以先进先出的方式处理或响应队列232中的查询。

核心处理模块220可以调用应用程序接口(API)模块240中的处理单元来处理各种形式的消息。API模块240可以包括文本处理单元242、语音处理单元244、图像处理单元246等。

对于文本消息，文本处理单元242可以对该文本消息执行文本理解，并且核心处理模块220可以进一步确定文本响应。

对于语音消息，语音处理单元244可以对该语音消息执行语音到文本转换以获得文本，文本处理单元242可以对所获得的文本执行文本理解，并且核心处理模块220可以进一步确定文本响应。如果确定要以语音的形式提供响应，则语音处理单元244可以对该文本响应执行文本到语音转换以生成相应的语音响应。

对于图像消息，图像处理单元246可以对该图像消息执行图像识别以生成相应的文本，并且核心处理模块220可以进一步确定文本响应。例如，当接收到来自用户的一副狗的图像时，AI聊天系统可以确定狗的种类和颜色，并进一步给出若干评论，例如“多么可爱的德国牧羊犬！你一定非常喜欢它”。在某些情况下，图像处理单元246也可以用于基于该文本响应获得图像响应。

此外，尽管未在图2中示出，API模块240可以包括任何其他处理单元。例如，API模块240可以包括视频处理单元，用于与核心处理模块220合作以处理视频消息并确定响应。再例如，API模块240可以包括用于支持基于位置的服务的基于位置的处理单元。

数据库250可以包括多个索引项目。索引数据库250中的索引项目可以包括纯聊天索引集合252和问答对索引集合253，其可被核心处理模块220检索作为响应。问答对索引集合253中的索引项目是问答对的形式，并且该问答对索引集合253可以包括与实现在该聊天机器人中的应用相关联的问答对。纯聊天索引集合252中的索引项目是为该用户和该聊天机器人之间的闲聊而准备的，并且可以是也可以不是问答对的形式。应该理解，问答对这个术语也可以被称为查询-响应对或任何其他合适的术语。以查询“玲奈，你多大了”为例，通过该纯聊天索引集合，核心处理模块220可以确定响应“高中二年级”。

数据库250还可以包括电视节目数据库254、短电视节目数据库255、视频广告数据库256、用户简档257和话题知识图谱258。

电视节目数据库254包括关于电视节目的数据。该电视节目数据的格式的一个示例是<节目名称，类别，放映时间，放映位置，演员名单，该节目的描述文本，相关的图像，一般评论，视频文件>，该“演员名单”元素可以进一步是元素的列表，其中每个元素的一个示例是<演员的真实名字，角色名字，一般图像，在该节目的图像，描述文本>。

通常，电视节目的时间长达诸如几十分钟或一小时以上。可以将该节目最令人印象深刻或有趣的部分提供给用户供其快速查看。短电视节目数据库255包括该节目的被剪裁的部分。在一个实现中，可以手动地获得该节目的被剪裁的短视频。在另一个实现中，视频剪辑模块264用于剪裁出该电视节目的缩略形式，其可以是分钟级或数十秒级的短视频片段。在数据库255中的该短电视节目数据的格式与电视节目数据库254中的数据格式类似，不同之处在于电视节目数据库254中的视频文件被替换为包含有短视频的小文件。也就是说，该短电视节目数据的格式一个示例为<节目名称，类别，放映时间，放映位置，演员名单，该节目的描述文本，相关的图像，一般评论，短视频文件>。

视频广告数据库256包括关于广告视频的数据。数据库256的该广告视频数据的格式与该短电视节目数据库的数据格式类似，并且其进一步包括目标产品的信息。也就是说，该广告视频数据的格式的一个示例是<节目名称，类别，放映时间，放映位置，演员名单，该节目的描述文本，相关的图像，一般评论，短视频文件，产品信息>，其中在这个元组中的术语“节目”可以用术语“广告”来代替。

应该理解，数据库254-256的格式不限定于所示出的示例，并且该视频数据的格式中可以有更多或更少的元素。应该理解，该电视节目数据、该短电视节目数据和该广告视频数据可以被统称为媒体数据。

用户简档数据库257包括与电视节目和/或广告视频的使用相关的用户数据。该用户数据的格式的一个示例是<用户ID，电视节目名称或视频广告名称，情感观点，评论文本，观看时间>。应该理解，在该用户数据的格式中可能有更多或更少的元素。

话题知识图谱258包括与电视节目和/或广告视频相关的话题信息。在一些实现中，可以从文本信息(诸如节目数据库254或256的描述)获得该话题知识图谱。一种话题知识的示例采用<实体，属性，值>的格式，其提供由该实体元素标识的媒体内容的属性信息。另一种话题知识的示例采用<话题，话题，相似性>的格式，其提供两个实体之间的相似性信息。

聊天机器人系统100包括推荐模块260、话题检测模块262、视频剪辑模块264、评论生成模块266和情绪分析(SA)模块268。

话题检测模型262负责检测包括在用户输入消息或查询中的话题。特别地，话题检测模型262确定该用户想要继续当前话题还是该用户想要开始新的话题。例如，如果用户说“我想看龙珠”，话题检测模型262可以确定这是新话题“龙珠”的开始。在那个查询之后，如果用户说“什么时候有最新的一集？”，那么话题检测模型262可以确定这是在继续当前话题“龙珠”并且该用户想要了解更具体的关于“龙珠”的“放映时间”的信息。否则，如果用户说“任何其他卡通片？”，则话题检测模型262可以确定这是新的话题的开始，也就是说，该用户正试图从“龙珠”切换到某个新的“卡通片”。在该聊天机器人和该用户之间的对话中开始新话题的该用户意图指示为该用户推荐媒体内容的机会，该媒体内容可以是电视节目或广告视频。话题检测模块262用于识别这样的机会，以便在适当的时间为该用户推荐电视节目或视频广告。

评论生成模型266自动地生成针对特定演员或特定电视节目的评论。应该理解，术语“演员”指的是男演员或女演员或歌手或本公开中的任何一种演员。在一个实现中，该评论生成模型有两个部分，一个部分以一般的方式生成针对演员的评论，其与当前电视节目没有直接关系，另一个部分生成针对特定电视节目的评论或推荐理由。通过在该聊天机器人和该用户之间的对话中提供该演员和/或电视节目的评论，可以使该用户有兴趣与该聊天机器人谈论起该电视节目或演员，这样能够收集关于用户针对该媒体内容相关话题的兴趣的更多信息，以便得出与该媒体内容相关的用户简档。

SA模型268将针对该电视节目的用户评论分类为各种情感类型，诸如高兴的(happy)、难过的(sad)、愤怒的(angry)等。该SA模型的一个应用是捕获用户对媒体内容的兴趣，这样的用户兴趣数据可以用来向该用户推荐更合适的电视节目或视频广告，以便改进对于所推荐的电视节目和视频广告的用户满意率。

视频剪辑模块266用于剪裁出给定电视节目的精彩而令人印象深刻的部分。当在该聊天机器人和该用户之间的对话中推荐电视节目时，可以在该对话中呈现该电视节目的被剪裁的部分以供该用户快速查看。

推荐模块260可以用基于学习排序(LTR)的推荐算法来实现，该基于学习排序(LTR)的推荐算法用于从数据库254和/或256识别电视节目和/或视频广告。

图3示出了UI 210的示例。聊天窗口320显示在诸如智能电话的计算设备300上。聊天窗口320包括呈现区域322、控制区域324和输入区域326。呈现区域322呈现在用户和聊天机器人之间的对话中的查询和响应，图标310代表聊天机器人。控制区域324包括用于用户执行消息输入设置的多个虚拟按钮。例如，通过控制区域324，用户可以进行语音输入、附加图像文件、选择表情符号以及创建当前屏幕的快捷方式等。输入区域326用于用户输入消息。例如，用户可以通过输入区域326键入文本。控制区域324和输入区域326可统称为输入单元。用户也可以通过该输入单元与AI聊天机器人进行语音通话或视频对话。

例如，在如图3所示的UI中，用户输入消息“玲奈，你多大了”作为查询，聊天机器人输出消息“高中二年级”作为响应。类似地，用户输入消息“你吃早餐了吗”作为查询，聊天机器人输出消息“吃了，你呢”作为响应。在这里，玲奈是该AI聊天机器人的名字，AI聊天机器人也可以被称为AI聊天系统。应该理解，消息的输入可以是以语音的形式，并且在UI中所示出的文本只是该语音的转录文本。甚至也有可能该语音的转录文本也不显示在该屏幕上，而该聊天机器人和该用户之间的对话是通过语音来进行的。

尽管计算设备300被示出为智能电话，但是其可以是任何其它种类的计算设备，诸如电视130、电视盒150，其中，该UI可以显示在与电视盒150连接的电视130和电视154上。

图4示出了根据一个实施例的聊天机器人和用户之间的示例性对话流。

该对话流可以在如图3所示的UI 320中实现，为了清楚起见，在图6中仅示出了呈现区域322。界面400右侧的人形图标表示用户，界面400左侧的年轻女孩形状的图标表示聊天机器人。

在该用户输入消息“音乐”之后，聊天机器人，具体地，话题检测模块262，可以识别开始与诸如电视节目和视频广告的媒体内容相关的新话题的用户意图。然后，聊天机器人，具体地，推荐模块260，可以基于新的音乐话题识别音乐节目。例如，推荐模块260可以基于该话题和该用户简档对候选电视节目的匹配率进行评分，并且基于该匹配率从候选电视节目中选择音乐节目。在这个示出的示例中，向该用户推荐将展示演员岚(Arashi)的新歌的电视节目。在该示出的示例中，向该用户呈现该电视节目的简短介绍，例如“岚(Arashi)将在M电台展示新歌！奥斯汀·马洪(Austin Mahone)将演唱一件佐藤圣良(blouson chiemi)的搞笑作品！”，然后呈现所推荐的电视节目的视频片段或代表性图像以供用户快速查看，然后在该对话中呈现针对所推荐的电视节目的评论，例如“4月28日(星期五)，美国歌手奥斯汀·马洪将在朝日电视台(TV Asahi)的“音乐现场”(“Music Station”)节目中首次亮相”，针对所推荐的电视节目的评论也可被称为所推荐的电视节目的推荐理由。在另一个实现中，当提供该电视节目的推荐时，可以提供更多或更少的信息，例如，当提供该电视节目的推荐时，可以提供针对所推荐的电视节目的演员的评论。以岚为例，可以向该用户提供针对该演员的评论，诸如“岚如此受年轻人的欢迎，是因为他们的帅气的外表和歌唱才华”。

响应于该用户关于上映时间的查询，在该对话中提供上映时间或播出时间。并且响应于用户的反馈“为我预约这个节目”，该聊天机器人可以为该用户预约该节目。作为预约的一个示例，该聊天机器人可以为该用户设置提醒，以便在该节目的播出时间之前不久提醒该用户观看该节目。作为预约的另一个示例，该聊天机器人可以向电视或电视盒发送指令以预先设置该节目的播放，使得该电视或电视盒可以在播出的时间自动地切换到节目。作为预约的另一个例子，该聊天机器人可以只在该用户的预约列表中设置一项预约信息。

在另一个实现中，如果所推荐的节目正在放映中，则响应于诸如“我想观看这个节目”的用户反馈，该聊天机器人可以在该电视上播放该节目。

图5示出了根据一个实施例的聊天机器人和用户之间的示例性对话流。

在该用户输入消息“请跟我说说刚力彩芽(Ayame Goriki)”之后，该聊天机器人可以提供响应，诸如针对该演员的评论“当然不能算是一张长得很漂亮的脸，但她的微笑还是非常棒的”。

当该用户输入消息“刚力彩芽出演的电视剧”之后，该聊天机器人，具体地，话题检测模块262，可以识别与诸如电视节目和视频广告的媒体内容相关的新话题。然后，该聊天机器人，具体地，推荐模块260，可以基于刚力彩芽出演的电视剧的新话题来识别电视剧节目。类似地，可以基于候选电视节目的匹配率的评分，识别所推荐的电视剧节目。如聊天流500中所示，在该对话中呈现该电视节目的简短介绍、所推荐的电视节目的视频片段或代表性图像、以及针对所推荐的电视节目的评论或推荐理由。

响应于该用户的反馈“为我录制这个节目”，该聊天机器人可以在该电视或电视盒中预先设置这个节目的录制，并且向该用户作出响应，例如“了解，录制将被完成”。

图6示出了根据一个实施例的聊天机器人和用户之间的示例性对话流。

在该用户输入消息“岚的新歌”之后，该聊天机器人，具体地，话题检测模块262，可以识别与诸如电视节目和视频广告的媒体内容相关的新话题。然后，该聊天机器人，具体地，推荐模块260，可以基于岚的新歌的新话题识别视频广告。类似地，可以基于候选视频广告和电视节目的匹配率的评分来识别所推荐的视频广告。如聊天流600中所示，在该对话中提供该新歌的视频广告和该广告的购买信息，诸如购买该新歌专辑的链接。

图7示出了根据一个实施例的聊天机器人和用户之间的示例性对话流。

在该用户输入消息“岚的新歌”之后，该聊天机器人，具体地，话题检测模块262，可以识别与诸如电视节目和视频广告的媒体内容相关的新话题。然后，该聊天机器人，具体地，推荐模块260，可以识别当该短电视节目数据库中的短视频片段与该用户的话题相关时，该电视节目数据库中没有电视节目满足该用户的需求，而借此机会可以向该用户推荐演唱会的视频广告。然后，在聊天流700中所示出的若干轮对话之后，在该对话中提供该演唱会的视频广告和该广告的购买信息。与对话流600相比，在提供该视频广告之前，聊天流700提供更多的软对话，并且对于用户来说更容易接受。

图8示出了根据一个实施例的用于构建与电视节目相关的知识图谱的示例性过程。

从电视节目数据库810开始，该电视节目数据库中包含的描述文本和一般评论850可用于以元组<实体，属性，值>和<话题，话题，相似性>的格式提取知识图谱。

例如，以下数据记录在该电视节目数据库中：

<节目名称＝越狱第五季，

类别＝电视剧，

放映时间＝本季于2017年4月4日首播，并在每周二晚9点播出，

放映位置＝美国，

演员名单＝{温特沃斯·米勒饰迈克尔·斯科菲尔德，多米尼克·珀塞尔饰林肯·伯罗斯，莎拉·韦恩·卡丽丝饰萨拉·斯科菲尔德，…}

描述文本＝越狱第五季(也称为越狱：复活)是一部限定事件电视剧，是2005年至2009年在福克斯电视台播出的由保罗·舒尔灵(Paul Scheuring)创作的原创剧的续集。该季由二十世纪福克斯电视台与阿黛尔斯坦/巴鲁斯(Adelstein/Parouse)制作公司和原创电影公司(Original Film)联合制作。保罗·舒尔灵担当剧集运作人，与保罗·舒尔灵一起，马蒂·阿黛尔斯坦(Marty Adelstein)、尼尔·H·莫瑞兹(Neal H.Moritz)和道恩·奥尔姆斯蒂德(Dawn Olmstead)、冯·威尔莫特(Vaun Wilmott)、迈克尔·霍洛维兹(MichaelHorowitz)和尼尔森·麦科米克(Nelson McCormick)一起担任执行制片人。麦科米克还担任导演。本季于2017年4月4日首播，并在每周二晚9点播出。该剧的第一部预告片于2016年5月16日发布。

图像＝图像列表，

一般评论＝林肯仍然粗暴而冲动。迈克尔还会有那种孤独的不远不近的凝视。周二的首播暗示着未来会有大量行动，若干并行的现实世界的情节，还有冗长的剧情可能会向有趣的方向发展。希望那个方向终将成为结局。

视频文件＝越.狱.第五季.mp4>

然后，可以构造<实体，属性，值>格式的以下知识图谱：

<越狱第五季，放映时间，本季于2017年4月4日首播，并在每周二晚9:00播出>

<越狱第五季，放映位置，美国>

<越狱第五季，演员，{温特沃斯·米勒饰迈克尔·斯科菲尔德，多米尼克·珀塞尔饰林肯·伯罗斯，莎拉·韦恩·卡丽丝饰萨拉·斯科菲尔德，…}>

<越狱第五季，图像，图像列表>

<越狱第五季，评论，林肯仍然粗暴而冲动…>

<越狱第五季，视频文件，越.狱.第五季.mp4>

<越狱第五季，描述，越狱的第五季(也被称为越狱：复活)…>

另一方面，对于电视节目数据库中的描述文本和一般评论，使用依赖关系解析提取在实体及其属性之间的以及共享一个依赖弧的一对实体之间的句法关系。

图8A示出了对于句子“福克斯将重新启动新一季的越狱”的依赖关系解析的示例。从这个依赖关系解析树来看，谓词“重新启动”可用于连接其主语和宾语论元，以获得元组<福克斯，重新启动，新一季的越狱>。应该理解，可以通过使用现有技术来执行该依赖关系解析，并且为了简单起见，所示出的依赖关系解析树仅示出了必要的弧。

图8B示出了对于句子“与“越狱”相比，“绝命毒师”具有较高评分”的依赖关系解析的示例。在这个示例句子中，由于“越狱”和“绝命毒师”是通过“依赖关系”弧连接的，因此提取诸如<越狱，绝命毒师，依赖关系>的元组，以表明这两部电视剧之间存在话题关系。

基于所收集的<话题，话题，依赖关系>元组，可以计算两个话题的相似性分数。计算话题A和话题B的相似性的一个示例如下：

相似性分数<A，B>＝<A，B，依赖关系>的数量/<A，x，依赖关系>的数量>+<A，B，依赖关系>的数量/<y，B，依赖关系>的数量等式(1)

其中，x是指与话题A具有依赖关系的任何话题，y指的是与话题B具有依赖关系的任何话题。

例如，<A，B，依赖关系>的数量是10(其指示相同的10个元组被收集)，<A，X，依赖关系>的数量是100(其指示100个元组包括A)，<y，B，依赖关系>的数量是200(其指示200个元组包括B)，则相似性分数<A，B>＝10/100+10/200＝0.15。因此，获得元组<话题A，话题B，相似性＝0.15>。

另一方面，可以从网络挖掘<实体，属性，值>以及<话题，话题，相似性>格式的知识图谱。在820，电视节目数据库810可用于提供相关的关键词，诸如节目名称、类别、演员等。在830，可以通过使用搜索引擎基于这些关键词执行网络搜索，以获得用于该电视节目的相关网络数据840。然后，在860，解析该网络数据，诸如在搜索到的网页中的文本等，以获得<实体，属性，值>和<话题，话题，相似性>格式的相关元组。该网络数据的解析类似于如图8A和8B中所示的解析。

应该理解，可以在860统一解析文本数据840和850，以获得与该电视节目相关的知识图谱，其随后可以由话题检测模型262使用。

在一个实现中，该话题检测模型以当前用户查询、当前对话会话、该电视节目数据库、和该知识图谱作为输入。可以通过该对话中传送的消息流来定义对话会话，其中，一个对话会话中的任何两个连续消息应该在预定义时间距离(诸如30分钟)之内输出。也就是说，如果距离该聊天机器人的最后一次响应之后的该示例性的30分钟之内，该用户没有发送任何内容，则当前对话会话结束。而当该用户开始向该聊天机器人发送消息时，开始新的会话。

该模型的输出的格式是<话题词语列表，相似性分数>，其中，该话题词语列表包括包含在该当前用户查询中的话题词语。

在一个实现中，可以在从查询中检测到话题词语之前对该查询进行查询补足。该查询补足的一个部分是指代消解，其用于使用确切的实体名称代替该查询中的指代内容，诸如代词、由不同的字符串表达的同一个话题。该查询补足的另一部分用于补全可能缺少的部分，诸如该查询中的主语或宾语。以连续查询“我想看龙珠”和“什么时候有最新的一集？”为例，基于该对话的上下文，可以将该查询“什么时候有最新的一集？”补足为“什么时候有龙珠的最新的一集？”。

在一个实现中，可以通过文本处理从该当前用户查询中选出话题词语列表，该文本处理可以包括词语分割、词性(POS)标记、名词短语提取、命名实体识别(NER)。在另一个实现中，在将该知识图谱和/或该电视节目数据作为数据语料库或者数据集合的同时，可以通过进一步使用诸如TF-IDF(词频-逆向文档频率)的术语加权算法挑选出话题词语的列表。例如，词语的词频TF指示在该数据语料库中的该词语的词频，该词语的逆向文档频率IDF指示在该数据语料库中包含该词语的文档数量。可以基于该两个因素将权重给予话题词语。通常情况下，TF越大导致权重越大，而IDF越小导致权重越大。

该输出<话题词语列表，相似性分数>中的相似性分数是为了表明当前话题词语列表接近于当前对话会话中包括的话题的程度。在训练数据中，这个“相似性分数”取值为1，其表示深入一个话题，或者取值为0，其表示从一个话题拓展到另一个新话题。在一个实现中，使用概率模型，因此该输出相似性分数在区间[0，1]中取值。例如，当该分数大于诸如0.5的阈值时，其指示该用户查询与该当前对话会话之间的类似话题，否则，其指示该用户查询的新话题。应该理解，该话题检测模型的输出可以包括该列表中的话题词语的相似性分数，其中通过将该话题词语的相似性分数相加可以获得该查询的相似性分数。

在一个实现中，训练逻辑回归模型，以将该当前查询归类为新的话题或不是新的话题。该逻辑回归模型可以作为该话题检测模型的一部分。在该逻辑回归模型中可以使用以下特征中的至少一部分。

在该逻辑回归模型中可以使用的特征是该当前对话会话的话题词语列表和该当前查询的话题词语列表之间共享的话题词语的数量。

在该逻辑回归模型中可以使用的特征是该当前对话会话的话题词语列表和该当前查询的话题词语列表之间共享的话题词语占该两者的话题词语的总数的比例。具体而言，该比例＝共享的话题词语的数量/(当前会话的话题词语的数量+当前查询的话题词语的数量)。

在该逻辑回归模型中可以使用的特征是该会话话题词语列表中的词语和该当前查询话题词语列表中的词语之间的最接近知识图谱距离。例如，对于当前查询中的话题词语“绝命毒师”和当前会话中的话题词语“24小时”，以及两个元组<越狱，绝命毒师，0.1>和<24小时，越狱，0.2>，可以获得该知识图谱距离为两个跳，或者为匹配概率0.02＝0.1×0.2。通过该元组的话题之间的匹配将带来更多的新话题的分类。

在该逻辑回归模型中可以使用的特征是当前查询话题词语列表中的词语是否是当前会话话题词语列表中的词语的属性。对于当前会话中的话题词语“绝命毒师”和当前查询中的“多少集”，元组<绝命毒师，剧集的数量，15>被触发，这将带来更多的类似话题的分类。

在该逻辑回归模型中可以使用的特征是当前查询话题词语列表中的词语与当前会话话题词语列表中的词语在该电视节目数据库中是否属于同一类别。

在该逻辑回归模型中可以使用的特征是该会话话题词语列表的词语和该当前查询话题词表中的词语之间的最小的基于词到向量(word2vec)的余弦分数。

图9示出了根据一个实施例的用于收集用于评论生成模块266的训练数据的示例性过程。

该评论生成模型有两个部分，一个部分生成一般方式的针对演员的评论，另一部分生成针对给定的电视节目的评论或推荐理由。该两个部分的每一个部分也可以被称为评论生成模块。

在910可以从该电视节目数据库获得演员信息。在912，可以基于该演员信息，诸如演员姓名，由搜索引擎执行网络搜索，以获得与该演员相关的网络数据914。在916，可以对该网络数据执行情绪分析，以检测出针对该演员的情感评论918。随后，将该演员的一般描述以及该演员的情感评论作为用于训练该评论生成模块的训练对。该演员的该一般描述可以从该电视节目数据库获得，也可以从网站获得，诸如该演员的个人网站、娱乐公司的网站、基于知识的网站，等等。

在922，可以从该电视节目数据库获得电视节目信息。在924，可以基于该节目信息，诸如节目名称，由搜索引擎执行网络搜索，以获得与该电视节目相关的网络数据926。在928，可以对该网络数据执行情绪分析，以检测出针对该节目的情感评论930。随后，将该节目的一般描述以及该节目的情感评论作为用于训练该评论生成模块的训练对。该节目的该一般描述可以从该电视节目数据库获得，也可以从网站挖掘，诸如该节目供应商的网站、基于知识的网站，等等。一种示例性的训练对是<e＝“越狱第五季(也称为越狱：复活)是一部限定事件电视剧，是2005年至2009年在福克斯电视台播出的由保罗·舒尔灵(PaulScheuring)创作的原创剧的续集。”，f＝“林肯仍然粗暴而冲动。迈克尔还会有那种孤独的不远不近的凝视”>。

对于一个电视节目的情感评论部分地受到针对该电视节目的演员的情感评论的影响。并且，对于该演员的情感评论受到针对由该演员参与的电视节目的情感评论的影响。因此，在一个实现中，将电视节目的情感评论作为该电视节目中的演员的情感评论，并且将该电视节目中的演员的情感评论作为该电视节目的情感评论，表示为“联合部分共享”，其用于缓解潜在的数据稀疏。

图10示出了根据一个实施例的示例性的评论生成模型。

利用基于注意力的编码-解码神经网络模型来实现该评论生成模型，该神经网络模型包括编码层、内部语义层、隐藏循环层、以及解码层。

在该编码层，可以对输入序列实施双向循环操作，以便获得源向量。该输入序列可以是上述训练对中的描述文本，并且相应地，该输出序列可以是该训练对中的评论。该双向循环操作涉及两个方向，例如，由左到右和由右到左。该双向循环操作可以基于，诸如，门控循环单元(GRU)风格的循环神经网络。该源向量可用时间上的注释(temporalannotations)h_j来表示，其中j＝1，2，...，T_x，并且T_x是该输入序列的长度，例如，该输入序列中的词语的数量。可以通过使用以下等式来获得源向量h_j。

z_t＝σ_g(W_zX_t+U_zh_t-1+b_z) 等式(2)

r_t＝σ_g(W_rX_t+U_rh_t-1+b_r) 等式(3)

h_t＝z_tοh_t-1+(1-z_t)οσ_h(W_hX_t+U_h(r_tοh_t-1)+b_h) 等式(4)

其中，

符号ο表示哈达玛乘积(Hadamard product)。

h₀＝0

x_t表示输入向量。

h_t表示输出向量。

z_t表示更新门控向量。

r_t表示重置门控向量。

σ_g表示激活函数，初始值是西格莫伊德函数(sigmoid function)。

σ_h表示激活函数，初始值是双曲函数(hyperbolic function)。

W，U，b表示参数矩阵和向量。W_z是将输入向量x_t投射到遵循z_t的向量空间的矩阵，U_z是将隐藏层(循环层)h_t-1投射到也遵循z_t的向量空间的矩阵，而b_z是试图确定目标向量z_t的相对位置的偏置向量。类似地，W_r、U_r、和b_r将x_t、h_t-1投射到r_t的向量空间。

在内部语义层，可以实现注意力机制。可以基于一组时间上的注释(temporalannotations)h_j计算上下文向量c_i，并且可以将其作为该当前输入序列的时间上的密集表示。该上下文向量c_i可被计算为该时间上的注释h_j的加权和，如以下等式所示：

用于每个h_j的加权α_ij也可以被称为“注意力”加权，并且可以通过softmax函数来计算：

其中，e_ij＝a(s_i-1,h_j)是对齐模型，其对位置j周围的输入和位置i处的输出彼此匹配的程度进行评分。该对齐分数介于该输入序列的前一隐藏状态s_i-₁和第j个时间上的注释h_j之间。概率α_ij反映了在决定下一隐藏状态s_i并且同时生成下一词语y_i的过程中h_j相对于上一隐藏状态s_i-1的重要性。该内部语义层通过施加加权α_ij来实施注意力机制。

在隐藏循环层，通过单向的(例如从左到右)循环操作确定用于输出序列的隐藏状态s_i。可以通过诸如单向GRU单元执行该单向循环操作。s_i的计算也参照等式(2)-(4)，其中，将h_i替换为s_i。

在解码器层，可以通过如下等式确定对下一词语y_i的词语预测：

p(y_i|y₁，...，y_i-1，x)＝g(y_i-1，s_i，c_i) 等式(7)

其中，s_i来自隐藏循环层，c_i来自内部语义层。这里，g(.)函数是非线性、潜在多层函数，其输出在输出序列中的接下来的候选词语的概率。解码层也可以被称为输出层。因此，所训练的生成模型可以从电视节目的一般描述或者演员的一般描述生成针对该电视节目的评论或者针对该演员的评论。

图11示出了根据一个实施例的用于收集用于情绪分析分类器的训练数据的示例性过程1100。

可以执行过程1100用于通过扩展种子情感词语生成情感词库以及通过使用该情感词库进一步确定训练数据集。

在1110，可以获得种子情感词语。在这里，该种子情感词语可以包括与每个情感类型相对应的情感词语。例如，该种子情感词语可以包括与情感“高兴的”(happy)相对应的多个词语、诸如“高兴的”(happy)、“高兴的”(pleased)、“愉快的”(glad)、“幸福的”(blessed)等等。该种子情感词语可以从包含带有手动标记的情感极性的词语的现有手动构造的情绪词库中获得。这些手动构造的情绪词库只能提供有限数量的种子情感词语。

在1112，可以基于该种子情感词语执行词到向量(Word2vec)词语扩展，以便扩展该种子情感词语。为每个种子情感词语和来自语料库的词语计算词到向量余弦相似性分数。通过这种方式，可以为每个情感词语收集来自于语料库的带有所计算的分数的多个词语，然后，可以将多个排序靠前的词语确定为该种子情感词语的扩展。例如，如图11所示，对于种子情感词语“难过的”(sad)，可以基于所计算的词到向量余弦相似性分数确定扩展词语“伤心的”(sorrow)、“不高兴的”(unhappy)、“痛苦的”(suffering)、“高兴的”(happy)等等。

应该理解，词到向量余弦相似性分数是基于，诸如，词语在句子中的位置计算的。因此，词到向量词语扩展不能确保所有的扩展词语与相应的种子情感词语具有相似的语义含义。例如，在图11中，“高兴的”(happy)被确定为种子情感词语“难过的”(sad)的扩展词语，然而，这两个词具有不同的语义含义。因此，该过程1100进一步包括修整机制，该机制基于双语词语对齐，用于从相应的种子情感词语中移除那些具有不同语义含义或者语义相关性弱的扩展词语。

在1114，执行双语词语对齐。该双语词语对齐可用于通过两种不同语言之间的双向翻译找到与种子词语语义相关的词语。可以将第一语言的种子情感词语翻译成第二语言的词语。例如，中文的种子情感词语“难过的”可以翻译成英文的词语“sorrow”、“unhappy”和“pathetic”。然后，可以将该第二语言的词语翻译回第一语言的词语。例如，英文的词语“sorrow”、“unhappy”和“pathetic”可以翻译回中文的词语“伤心的”、“不高兴的”和“悲哀的”。因此，可以通过对该种子情感词语“难过的”的双语词语对齐获得词语列表“伤心的”、“不高兴的”和“悲哀的”。

在1116，可以对在1112通过词到向量词语扩展获得的扩展词语和在1114通过双语词语对齐获得的词语列表进行交集操作。该交集操作可用于移除那些通过词到向量词语扩展获得的与相应的种子情感词语具有不同语义含义或者语义相关性弱的扩展词语。例如，在图11中，通过该交集操作，可以保留词语“伤心的”(sorrow)和“不高兴的”(unhappy)，而将相对于“难过的”(sad)语义相关性弱的词语“痛苦的”(suffering)和相对于“难过的”(sad)具有不同语义含义的词语“高兴的”(happy)移除。

通过该交集操作，可以将所保留的词语附加到情感词库1120。在一个实现中，情感词库1120中的词语可以被进一步添加相应的表情符号，例如绘文字(emoji)或颜文字(kaomoji)。在1118，可以针对每种类型的情感从网络收集绘文字(emoji)或颜文字(kaomoji)。例如，对于情感“难过的”(sad)，其对应的表情符号可包括，例如，“><”、“(つд)”等。因此，可以将这些表情符号附加到与该情感词库1120中的情感“难过的”(sad)相对应的词语“难过的”(sad)、“伤心的”(sorrow)和“不高兴的”(unhappy)。

如以上所讨论的，通过对种子情感词语执行词到向量词语扩展和双语词语对齐建立情感词库1120，并且情感词库1120可以包括比手动构造的情绪词库多得多的词语。情感词库1120可以用作用于执行在1122处的网络搜索的关键词，以便找到网络数据，诸如包含情感词库1120中的至少一个词语的句子。该句子中的每个句子可以用该句子包含的情感词库1120中的相应词语的情感来标记。这些句子与相应的情感标签一起可以用作候选训练数据1124。

在一些情况下，候选训练数据1124可以包括具有模糊的情感或难以识别情感的一些干扰句子。一个示例性的干扰句子可以包括词语“不”(not)或其等同词，其可以从初始情感切换到相反的情感。另一个示例性的干扰句子可以以混合的方式包括肯定的词语和否定的词语，例如，“先表扬，然后再批评”。支持向量机(SVM)分类器1126可用于从候选训练数据1124中过滤掉干扰句子。可以获得一组分类器训练数据1128用于训练SVM分类器480。对于除“中性的”以外的情感，可以针对每一种类型的情感来手动标记实例，作为分类器训练数据。对于“中性的”情感，可以从网络收集不包含情感词语或绘文字(emoji)/颜文字(kaomoji)的句子作为训练数据1130。

通过该分类器训练数据，SVM分类器1126可以被训练为区分候选训练数据1124中的干扰句子与其他句子。候选训练数据1124中的余下的句子可以形成训练数据集1130用于训练情绪分析分类器。

应该理解，在过程1100中SVM分类器1126执行的操作是可选的。因此，在一个实现中，也可以在过程1100中不执行SVM分类器1126的操作，并且相应地，候选训练数据1124可以直接形成训练数据集1130。

图12示出了根据一个实施例的示例性SA分类器1200。SA分类器1200是SA模型268的一个示例，并且可以通过图11中所获得的训练数据集来训练SA分类器1200。

SA分类器1200可以基于字符级的循环卷积神经网络(RCNN)。字符级的RCNN能够对来自字符的语义和正字法信息进行编码。该字符级RCNN可以包括嵌入层、卷积层、循环层和输出层。

嵌入层可以将句子转换到密集的向量空间，例如，为该句子中的每个字符生成情感向量。

卷积层可以是基于CNN的，并且可以对来自嵌入层的情感向量执行卷积操作，例如以各种核尺寸对情感向量进行转换。

假设为字符嵌入矩阵，其中d是字符嵌入的维数，V是字符词汇集。假设词w＝c₁，...，c_l，其中有l个字符。然后，由矩阵给出w的字符级表示，其中C^w的第j列对应于c_j的字符嵌入，其也是Q的第c_j列。在C^w和宽度为f的过滤器或卷积函数之间实施窄卷积。图12示出了宽度为f＝3、5和7的三个示例性过滤器。然后，加入偏置，并且应用非线性转换以获得特征图f^w的第i个元素可以被给定为：

f^w[i]＝tanh(＜C^w[*，i：i+f-1]，H＞+b 等式(8)

其中C^w[*，i：i+f-1]是C^w的第i到第(i+f-1)列，并且＜A，B＞＝Tr(AB^T)是弗罗贝尼乌斯内积(Frobenius inner product)。

在一个实现中，可以采用在卷积层的CNN，例如时间维度上的最大池化(pooling)。

循环层可以对卷积层的输出进行循环操作。应该理解，尽管图12示出了循环层中的单向循环操作，也可以在该循环层中应用双向循环操作。该循环层也可被称为RNN层，其可以采用长短期存储器(LSTM)单元。通过在每个时间步以记忆单元向量来扩展传统RNN，该LSTM可以解决长距离依赖的学习问题和梯度消失问题。该LSTM的一步将x_t，h_t-1，c_t-1作为输入，并且通过以下的中间计算得到h_t、c_t：

i_t＝σ(WⁱX_t+Uⁱh_t-1+bⁱ) 等式(9)

f_t＝σ(W^fX_t+U^fh_t-1+b^f) 等式(10)

o_t＝σ(W^oX_t+U^oh_t-1+b^o) 等式(11)

g_t＝tanh(W^gX_t+U^gh_t-₁+b^g) 等式(12)

其中，σ(.)和tanh(.)是元素级的西格莫伊德函数(sigmoid function)和双曲正切函数(hyperbolic tangent function)，是元素级的乘法运算符，i_t、f_t、o_t分别表示输入门、遗忘门和输出门。当t＝1时，h₀和c₀被初始化为零向量。在LSTM中要被训练的参数是矩阵W^j，U^j，以及偏置向量b^j，其中j∈{i,f,o,g}。

该输出层可以使用来自循环层的RNN状态作为特征向量，并输出情感分类结果。例如，该输出层可以是能够将来自该循环层的256维向量转换成为与8类情感相对应的8维向量输出的全连接层。在一个实现中，该8类情感包括高兴的、惊讶的、愤怒的、厌恶的、难过的、蔑视的、恐惧的和中性的。在一个实现中，该SA分类器可用于在916和928处收集情感评论。在一个实现中，该SA分类器可用于对针对目标电视节目的用户评论和意见进行分类。

图13示出了根据一个实施例的用于从长视频中剪裁出短视频的示例性RCNN结构1300。该RCNN结构1300是视频剪辑模块264的一个示例。

由帧组成的视频1310被分为短时长片段1314。该片段可以具有固定的时长，例如若干秒。在一个实现中，将片段1314和相应帧1312发送到三维(3D)CNN和2D CNN，其将该片段编码成密集向量表示。应该理解，可以通过使用现有技术来实现由2D CNN 1316和3D CNN1318构成的CNN编码器1315，因此，为简单起见，在此处不描述该2D CNN 1316和3D CNN1318的详细结构。应该理解，可以将视频片段编码为向量的任何技术都适用于本公开。

RNN编码器1320的示例性结构包括池化层1322，注意力层1324和LSTM编码层1326，可以通过使用现有技术来实现每个层，因此，为简单起见，在此处不描述这些层的详细结构。将通过CNN编码获得的向量发送到RNN编码器1320以捕获对应于片段1314的向量的上下文信息。

然后，双向RNN层1328用于将片段1314的向量链接在一起。可以用LSTM或GRU单元来实现双向RNN层1328。

决策层1330用于将该向量分类为0或1。该决策层可以实现为softmax层。当该softmax层为一个向量断定0的标签，则该向量不被保留，而当该softmax层为一个向量断定1的标签，则该向量被保留。因此，可以将该片段选择出来保留在被剪裁的短视频中。

用于这个生成模型的训练数据的格式可以是<完整视频文件，所选的令人印象深刻的短视频文件>的格式。可以手动地剪裁出所选择的令人印象深刻的短视频文件。且可以从用于预告相关节目的那些短视频中收集该手动剪裁的短视频。

图14示出了用于从用户日志数据获得用户简档的示例性过程1400。

该用户日志数据记录用户与该聊天机器人的对话历史，并且通常采用<查询，响应>对的形式。该用户日志数据也可以包括其他信息，诸如节目的收看时间。在1410，按照对话会话整理用户日志数据1410。如以上所讨论的，一个会话中的任何两个连续的查询是在预定时间间隔之内的，诸如30分钟。

在1412，基于会话的上下文，对该会话中的查询执行查询补足。该查询补足的一个部分是指代消解，其用于使用确切的实体名称替换该查询中的指代内容，诸如代词、由不同的字符串表达的一个话题。该查询补足的另一部分用于补全可能缺少的部分，诸如该查询中的主语或宾语。

在1416，对于每个查询执行话题检测以便提取话题。该查询补足和话题检测类似于以上结合话题检测模型所述的查询补足和话题检测。

在1414，对于每个查询执行SA分类，以获得查询的SA标签，以及该查询中的话题的SA标签。

例如，对于查询，诸如“我喜欢电影海边的曼彻斯特，卡西·阿弗莱克这一次比他的哥哥演得好”，可以获得该用户的知识<用户A，喜欢，海边的曼彻斯特>，<用户A，喜欢，卡西·阿弗莱克>，其中“海边的曼彻斯特”是一部电影的名字，“卡西·阿弗莱克”是一个演员的名字。这些类型的知识可以帮助建立带有用户喜欢的演员名单和喜欢的节目列表的更新的用户简档。

在1418，基于已有的话题类别数据库，识别所检测的话题的类别，该话题类别数据库包括预定义的类别，诸如电影、音乐、演员等等。类别还可以包括子类别，例如，电影的类别可以包括子类别，诸如喜剧片、悲剧片、浪漫爱情片等等。

在1420，可以获得具有诸如<用户A，话题A，话题A的类别，带有频率的情感标签>格式的该用户的示例性知识。带有频率的情感标签可以指示该用户A的关于该话题A的情感以及用户A的关于该话题A的此类情感被检测到的次数。该用户的该知识可用作用户简档，其可以提供针对具体节目和演员的该用户的倾向。

应该理解，该用户简档还可以包括对于特定类别或特定演员的该用户的情感或概率。例如，如果对于特定类别该用户一次或者多次给出好评，则对于这个用户的该特定类别的概率将被给予更高的分数。基于该SA结果并且根据该用户的关于该特定类别的特定情感被检测到的次数，可以确定该分数。如果对于特定演员，该用户一次或者多次给出好评，则对于这个用户而言该演员的概率将被给予更高的分数。因此，诸如<用户A，类别，概率>，<用户A，演员，概率>等的知识也可以被包括在该用户简档中。

应该理解，用户知识1420还可以包括其他信息，例如，该用户A针对该话题A的评论，该用户针对该话题A的观看时间。

基于学习排序(LTR)的电视节目和视频广告推荐算法可以被用于推荐模块260，以在特定查询下为特定用户提供可用的电视节目和视频广告的排序。可以训练梯度提升决策树(GBDT)用于该排序。该排序可以基于该用户简档、该电视节目和视频广告、该当前查询、该会话，等等。以下特征中的至少一部分可用于该GBDT算法。

可用于该GBDT的一个特征是来自话题检测模型262的输出。该输出包括该当前查询的话题词语列表以及与当前对话会话相比的当前查询的话题词语的相似性分数。可以通过将该话题词语的相似性分数相加来获得该当前查询的相似性分数。应该理解，当前查询的该相似性分数也可以是从话题检测模型输出。当该相似性分数指示从当前话题到新话题的宽度扩展时，此时是推荐该新提到的电视节目和/或相关视频广告的机会。在一个实现中，该当前查询的该相似性分数被用作决定因数，其中，只有当该相似性分数指示与媒体内容相关的新话题时才进行后续的排序。在另一个实现中，该当前查询的该相似性分数被用作权重因数，如果与媒体内容相关的新话题被指示，则该当前查询可以被赋予较高的权重，从而可以提高总体排序分数，并且因此，如果该当前查询与新话题相关，则推荐可能性将被提高。

可用于该GBDT的一个特征是该电视节目的类别。一方面，如果候选节目的类别与在该查询中提到的话题类别相匹配，则该候选节目被给予更高的排序分数。例如，如果该用户正在谈论一部诸如“星球大战”的电影，则类别“电影”或“科幻电影”被给予更高的分数。另一方面，与特定用户相关的不同类别可以被给予不同的分数。例如，与诸如音乐的第二类别相比，该特定用户更喜欢诸如电影的第一类别，则在该用户的简档中，该第一类别具有比该第二类别更高的分数。在该查询的话题涉及到与该第一和第二类别都相关的演员的情况下，基于该用户简档，该第一类别被给予比该第二类别更高的排序分数。

可用于该GBDT的一个特征是该电视节目或视频广告的演员名单。一方面，如果候选节目的一个或多个演员与在该查询中提到的话题的演员信息相匹配，则该候选节目被给予更高的排序分数。另一方面，与特定用户相关的不同演员可以被给予不同的分数。例如，与第二演员相比，该特定用户更喜欢第一演员，则在该用户的简档中，该第一演员具有比该第二演员更高的分数。然后，基于该用户简档，具有该第一演员的节目被给与比具有该第二演员的节目更高的排序分数。

可用于该GBDT的一个特征是该用户喜欢的演员名单和该用户喜欢的演员名单与该电视节目或视频广告的演员名单共享的演员的数量。一方面，具有该用户喜欢的演员中的一个或多个演员的节目或视频广告将被给予较高的排序分数。另一方面，用户喜欢的演员名单与该电视节目或视频广告的演员名单共享的演员越多，该节目或者视频广告被给予越高的排序分数。

可用于该GBDT的一个特征是电视节目的评论和该电视节目中的演员的评论之间的词到向量相似性。该词到向量相似性可以被计算为在向量空间中的该两个评论之间的余弦距离。这个特征考虑到对该节目的评价和对该节目中的一些演员的评价之间的不一致性。例如，如果该节目中的演员获得较高等级评论而该节目获得较低等级评论(其中，这个不一致性通过该词到向量相似性来指示)，可以在某种轻度上提高这个节目的排序分数。如果该节目中的演员获得较低等级评论而该节目获得较高等级评论(其中，这个不一致性通过该词到向量相似性来指示)，可以在某种轻度上降低这个节目的排序分数。

可用于该GBDT的一个特征是该当前对话会话的情感分类。该节目的情感分类可以是预定义的，或者可以通过使用SA模型对该节目的评论或描述进行情绪分析来获得，而该用户的情感分类可以通过使用SA模型对该当前对话会话的内容进行情绪分析来获得。其情感适合于该用户的当前情感的节目可以被给予较高的排序分数。例如，如果基于该当前对话会话，该SA模型确定该用户是难过的(sad)，则匹配该难过的情感的节目被给予较高的排序分数，诸如快乐的电影。

可用于该GBDT的一个特征是感兴趣的话题和该用户简档中的该话题的相关情感。该用户简档的一个示例是<用户，话题，情感>，该情感分数用于为从用户的当前查询检测到的话题给予权重。该情感分数的一个示例可以是针对特定话题的该情感的频率。

可用于该GBDT的一个特征是竞价数据，例如，与视频广告相关的或与诸如娱乐节目的电视节目相关的关键词的竞价价格。

可用于该GBDT的一个特征是n词元(word ngrams)，诸如对于该查询中的词语的单词元(unigram)和双词元(bigrams)。这是一个基于字符串的特征。以n词元(word ngrams)为单位来进行该查询和该候选节目或广告之间的匹配。

可用于该GBDT的一个特征是n字符元(character ngrams)。这也是一个基于字符串的特征。对于该查询中的每个词，提取n字符元以执行该查询和该候选节目或广告之间的基于字符串的匹配。例如，四元和五元被用作基于字符串的匹配单位。该n字符元对于诸如中文和日文的亚洲语言是尤其有优势的。

可用于该GBDT的一个特征是词元略过(word skip-grams)。对于在该查询中所有的三元和四元，使用符号替换该词中的一个词以指示非连续词的存在。

可用于该GBDT的一个特征是布朗聚类n元(Brown cluster n-grams)。使用布朗聚类代表查询中的词，然后提取一元和二元。

可用于该GBDT的一个特征是词性(POS)标签。词性标签的存在或不存在被用作二元特征。

可用于该GBDT的一个特征是社交网络相关词语。例如，该查询中的话题标签、表情符号、加长词和标点符号的数量被作为特征。

可用于该GBDT的一个特征是词到向量(Word2vec)聚类n元。可以使用词到向量工具(米克罗夫(Mikolov)等人，2013)从社交网络数据集学习100维的词嵌入(wordembedding)。然后，可以使用K-平均算法和词向量的L2距离来将百万级词汇聚类为200类。使用这些类来表示在该查询中的广义的词。

应该理解，用于该GBDT的以上所讨论的特征是说明性的而不是限制性的，可以有更多或更少的特征用于该GBDT。

图15示出了用于通过智能自动聊天推荐媒体内容的示例性过程1500。

在1510，在与用户的对话中从该用户接收消息。

在1512，基于该消息和该对话的上下文识别与媒体内容相关的新话题。例如，该新的话题可以是诸如音乐、戏剧等的媒体类别、演员、节目名称、等，其与媒体内容相关。

在1514，基于该新话题从一组媒体内容识别媒体内容。所识别的媒体内容可以是电视节目，其可以是任何媒体类别，诸如音乐、电影、戏剧等。所识别的媒体内容也可以是视频广告，其可以由某些演员来扮演，并且可以与某些话题相关。

在1516，在该对话中提供该媒体内容的推荐。

在一个实现中，进一步地基于与该一组媒体内容相关的知识图谱识别该新话题。在一个实现中，该知识图谱包括指示该媒体内容的属性的第一种数据和指示媒体内容之间的相似性的第二种数据。

在一个实现中，通过基于该新话题和该用户的用户简档对该一组媒体内容的至少一部分的匹配率进行评分并且基于该匹配率从该一组媒体内容中选择媒体内容，从该一组媒体内容中识别该媒体内容。在一个实现中，该用户简档包括以下话题中的至少一个，诸如节目名称、该话题的类别、该话题的演员、针对该话题的用户情感、针对该演员的用户情感。在一个实现中，该用户简档包括类别和针对该类别的用户情感。在一个实现中，该用户简档包括演员和针对该演员的用户情感。在一个示例中，可以从该用户简档中获得特定用户的喜欢的演员和/或喜欢的媒体内容，其可以直接记录在该用户简档中，或者可以从该用户简档中推导得到。

在一个实现中，进一步基于以下中的至少一个来对该匹配率进行评分：与该一组媒体内容相关的知识图谱、在该对话的上下文中该用户的情感、以及该一组媒体内容的至少一个媒体内容的竞价信息。在一个实现中，媒体内容的知识图谱包括该媒体内容的演员、针对该媒体内容的用户评论、和针对该媒体内容的演员的用户评论、该媒体内容的类别、该媒体内容的播出时间中的至少一个。

在一个实现中，该媒体内容包括电视节目和视频广告中的至少一个。

在一个实现中，响应于对于该推荐的该用户的反馈，可以在电视或电视盒上播放该电视节目，或者可以预约该电视节目，或者可以在电视或电视盒上录制该电视节目。

在一个实现中，提供该媒体内容的推荐包括提供以下中的至少一个：针对该媒体内容的演员的评论；针对该媒体内容的评论；该媒体内容的代表性图像，或者该媒体内容的短视频片段，或者该媒体内容本身；以及诸如与该电视节目相关的播出时间和频道的播出信息，或者与该视频广告相关的购买信息。

在一个实现中，通过使用第一神经网络模型，从关于该演员的描述文本生成针对该演员的评论，通过使用第二神经网络模型，从关于该媒体内容的描述文本生成针对该媒体内容的评论，通过使用第三神经网络模型，从该媒体内容生成该短视频片段。

在一个实现中，通过使用<演员的描述，该演员的情感评论>形式的数据对训练该第一神经网络模型，通过使用<节目的描述，该节目的情感评论>形式的数据对训练该第二神经网络模型。在一个实现中，通过使用SA模型对与该演员相关的网络数据进行情感分析来收集该演员的该情感评论，通过使用该SA模型对与该节目相关的网络数据进行情感分析来收集该节目的该情感评论。

在一个实现中，该第三神经网络模型包括卷积神经网络(CNN)部分和循环神经网络(RNN)部分。通过以下步骤生成该短视频片段：将该媒体内容划分成多个片段；通过该CNN将该多个片段映射到多个向量；通过该RNN识别一部分向量；以及基于该一部分向量，生成该短视频片段，该一部分向量代表应被保留在该短视频片段中的片段。

在一个实现中，通过使用<句子，情感标签>形式的训练数据来训练该SA模型。在一个实现中，通过以下步骤收集该训练数据：对种子情感词语执行词到向量词语扩展以获得第一扩展词语列表；对种子情感词语执行双语词语对齐以获得第二扩展词语列表；取该第一和第二扩展词语列表的交集以获得情感词库；基于该情感词库通过网络搜索获得候选训练数据集；以及通过利用SVM分类器对该候选训练数据集进行SVM分类来获得该训练数据集。可以通过使用手动收集的训练数据(例如，每个情感类别1000个数据实例)训练该SVM分类器。

图16示出了用于通过智能自动聊天推荐媒体内容的示例性过程1600。

在1610，在与用户的对话中从该用户接收消息。在1612，从该消息识别至少一个话题。在1614，基于该至少一个话题和该用户的用户简档对一组媒体内容的匹配率进行评分。在1616，基于该匹配率，从该一组媒体内容中选择媒体内容。在1617，在该对话中提供该媒体内容的推荐。

图17示出了用于通过智能自动聊天推荐媒体内容的示例性装置1700。

该装置包括交互模块1710、话题检测模块1720和推荐模块1730。交互模块1710在对话中接收消息。话题检测模块1720基于该消息和该对话的上下文识别新话题。推荐模块1730基于该新话题从一组媒体内容识别媒体内容。并且，交互模块1710在该对话中提供该媒体内容的推荐。

在一个实现中，话题检测模块1720进一步基于与该一组媒体内容相关的知识图谱识别该新话题。在一个实现中，该知识图谱包括指示该媒体内容的属性的第一种数据和指示媒体内容之间的相似性的第二种数据。

在一个实现中，通过基于该新话题和该用户的用户简档对该一组媒体内容的至少一部分的匹配率进行评分并且基于该匹配率从该一组媒体内容中选择该媒体内容，推荐模块1730从该一组媒体内容中识别该媒体内容。

在一个实现中，推荐模块1730进一步地基于以下中的至少一个对该匹配率进行评分：与该一组媒体内容相关的知识图谱；在该对话的该上下文中的该用户的情感；该一组媒体内容的至少一个媒体内容的竞价信息。

在一个实现中，该装置包括操作模块，用于响应于针对该推荐的该用户的反馈执行以下中的至少一个：播放该电视节目；预约该电视节目；以及录制该电视节目。

在一个实现中，交互模块1710提供针对该媒体内容的演员的评论作为该媒体内容的推荐。

在一个实现中，交互模块1710提供针对该媒体内容的评论作为该媒体内容的推荐。

在一个实现中，交互模块1710提供该媒体内容的代表性图像、或者该媒体内容的短视频片段、或者该媒体内容作为该媒体内容的推荐。

在一个实现中，交互模块1710提供与该电视节目相关的播出信息或者与该视频广告相关的购买信息作为该媒体内容的推荐。

在一个实现中，该装置包括演员评论生成模块，用于从关于该演员的描述文本生成针对该演员的评论。

在一个实现中，该装置包括媒体内容评论生成模块，用于从关于该媒体内容的描述文本生成针对该媒体内容的评论。

在一个实现中，该装置包括短视频片段生成模块，用于从该媒体内容生成该短视频片段。

应该理解，装置1700还可以包括被配置为用于执行根据以上结合图1-16所述的各实施例的任何操作的任何其它模块。

图18示出根据一个实施例的示例性计算系统1800。

系统1800可以包括一个或多个处理器1810。系统1800可以进一步包括与该一个或多个处理器1810连接的存储器1820。

存储器1820可以存储计算机可执行指令，该计算机可执行指令在被执行时，使得该一个或多个处理器1810在与用户的对话中从该用户接收消息；基于该消息和该对话的上下文，识别新话题；基于该新话题，从一组媒体内容识别媒体内容；以及在该对话中提供该媒体内容的推荐。

应该理解，该计算机可执行指令在被执行时，使得该一个或多个处理器1810执行根据以上结合图1-17所述的实施例的过程的任何操作。

本公开的实施例可以在非易失性计算机可读介质中实现。该非易失性计算机可读介质可以包括指令，该指令被执行时使得一个或多个处理器执行根据上述实施例的过程的任何操作。

应该理解，以上所描述的过程中的所有操作都仅仅是示例性的，本公开不仅限于该过程中的任何操作或者这些操作的执行顺序，并且应当涵盖与之具有相同或相似概念的所有其他等同物。

还应该理解，以上所描述的装置中的所有模块可以以各种方式来实现。这些模块可被实现为硬件、软件、或两者的组合。此外，任何这些模块都可以在功能上进一步被划分为子模块或被组合在一起。

结合各种装置和方法已经对处理器进行了描述。这些处理器可以使用电子硬件、计算机软件或其两者任意组合来实现。至于这样的处理器是实现为硬件还是软件，取决于特定的应用以及施加在系统上的整体设计约束。举例来说，本公开提供的处理器、处理器的任何部分、或处理器的任何组合可以利用微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑设备(PLD)、状态机、门控逻辑、离散硬件电路、以及被配置成执行本公开所描述的各种功能的其他合适的处理组件来实现。本公开提供的处理器的功能、处理器的任何部分、或处理器的任何组合可以利用由微处理器、微控制器、DSP或其他合适的平台执行的软件来实现。

软件应当被宽泛地解释成意指指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、执行线程、流程、功能等。该软件可驻留在计算机可读介质上。计算机可读介质可以包括，例如，诸如磁存储设备(如硬盘，软盘，磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器、或可移动磁盘的存储器。尽管从本公开中的各个方面来说存储器被示为与处理器是分开的，但对于处理器来说，存储器可以在其内部(例如，高速缓存或寄存器)。

提供以上描述是为了使任何本领域技术人员均能实践其中所描述的各个方面。对于这些方面的各种修改对于本领域技术人员是显而易见的，此处定义的一般原理可以适用于其他方面。因此，权利要求并非旨在被限定于以上所描述的各个方面。本公开描述的各个方面中包含的各要素的为本领域普通技术人员当前或今后所知的所有结构上和功能上的等效方案以引用的方式被明确添加在此，并且旨在被权利要求所涵盖。

Claims

1.一种用于通过智能自动聊天推荐媒体内容的方法，包括：

在对话中接收消息；

基于所述消息和所述对话的上下文，识别新话题；

基于所述新话题，从一组媒体内容识别媒体内容；以及

在所述对话中，提供所述媒体内容的推荐。

2.根据权利要求1所述的方法，其中，所述识别新话题包括：

进一步地基于与所述一组媒体内容相关的知识图谱，识别所述新话题。

3.根据权利要求2所述的方法，其中，所述知识图谱包括指示所述媒体内容的属性的第一种数据和指示所述媒体内容之间的相似性的第二种数据。

4.根据权利要求1所述的方法，其中，从一组媒体内容中识别媒体内容包括：

基于所述新话题和所述用户的用户简档，对所述一组媒体内容的至少一部分的匹配率进行评分；以及

基于所述匹配率，从所述一组媒体内容选择所述媒体内容。

5.根据权利要求4所述的方法，其中，对匹配率进行所述评分包括进一步地基于以下中的至少一个对所述匹配率进行评分：

与所述一组媒体内容相关的知识图谱；

在所述对话的所述上下文中的所述用户的情感；以及

所述一组媒体内容的至少一个媒体内容的竞价信息。

6.根据权利要求1所述的方法，其中，所述媒体内容包括电视节目和视频广告中的至少一个。

7.根据权利要求6所述的方法，进一步包括响应于针对所述推荐的所述用户的反馈，执行以下中的至少一个：

播放所述电视节目；

预约所述电视节目；以及

录制所述电视节目。

8.根据权利要求6所述的方法，其中，所述提供所述媒体内容的推荐包括提供以下中的至少一个：

针对所述媒体内容的演员的评论；

针对所述媒体内容的评论；

所述媒体内容的代表性图像、或者所述媒体内容的短视频片段、或者所述媒体内容；以及

与所述电视节目相关的播出信息或者与所述视频广告相关的购买信息。

9.根据权利要求8所述的方法，进一步包括以下中的至少一个：

通过使用神经网络模型，从关于所述演员的描述文本生成针对所述演员的所述评论；

通过使用神经网络模型，从关于所述媒体内容的描述文本生成针对所述媒体内容的所述评论；以及

通过使用神经网络模型，从所述媒体内容生成所述短视频片段。

10.根据权利要求9所述的方法，其中，用于生成所述短视频片段的所述神经网络模型包括卷积神经网络(CNN)部分和循环神经网络(RNN)部分，并且其中，所述生成所述短视频片段进一步包括：

将所述媒体内容划分成多个片段；

通过所述CNN部分，将所述多个片段映射到多个向量；

通过所述RNN部分，选择代表应被保留的片段的一部分向量；以及

基于所述一部分向量，生成所述短视频片段。

11.一种用于通过智能自动聊天推荐媒体内容的装置，包括：

交互模块，用于在对话中接收消息；

话题检测模块，用于基于所述消息和所述对话的上下文识别新话题；以及

推荐模块，用于基于所述新话题，从一组媒体内容识别媒体内容；

其中，所述交互模块在所述对话中提供所述媒体内容的推荐。

12.根据权利要求11所述的装置，其中，所述话题检测模块进一步基于与所述一组媒体内容相关的知识图谱识别所述新话题。

13.根据权利要求12所述的装置，其中，所述知识图谱包括指示所述媒体内容的属性的第一种数据和指示所述媒体内容之间的相似性的第二种数据。

14.根据权利要求11所述的装置，其中，通过以下步骤，所述推荐模块从所述一组媒体内容识别所述媒体内容：

基于所述匹配率，从所述一组媒体内容选择所述媒体内容。

15.根据权利要求14所述的装置，其中，所述推荐模块进一步地基于以下中的至少一个对所述匹配率进行评分：

与所述一组媒体内容相关的知识图谱；

在所述对话的所述上下文中的所述用户的情感；以及

所述一组媒体内容的至少一个媒体内容的竞价信息。

16.根据权利要求11所述的装置，其中，所述媒体内容包括电视节目和视频广告中的至少一个。

17.根据权利要求16所述的装置，进一步包括操作模块，用于响应于针对所述推荐的所述用户的反馈，执行以下中的至少一个：

播放所述电视节目；

预约所述电视节目；以及

录制所述电视节目。

18.根据权利要求16所述的装置，其中，所述交互模块提供以下中的至少一个：

针对所述媒体内容的演员的评论；

针对所述媒体内容的评论；

19.根据权利要求18所述的装置，进一步包括以下中的至少一个：

演员评论生成模块，其用于从关于所述演员的描述文本生成针对所述演员的所述评论；

媒体内容评论生成模块，其用于从关于所述媒体内容的描述文本生成针对所述媒体内容的所述评论；以及

短视频片段生成模块，其用于从所述媒体内容生成所述短视频片段。

20.一种计算机系统，包括：

一个或多个处理器；以及

存储器，其存储计算机可执行指令，所述计算机可执行指令被执行时，使得所述一个或多个处理器：

在与用户的对话中从所述用户接收消息；

基于所述消息和所述对话的上下文，识别新话题；

基于所述新话题，从一组媒体内容识别媒体内容；以及

在所述对话中提供所述媒体内容的推荐。