CN109314660B

CN109314660B - 在自动聊天中提供新闻推荐的方法和装置

Info

Publication number: CN109314660B
Application number: CN201780035947.8A
Authority: CN
Inventors: 吴先超
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-03-31
Filing date: 2017-03-31
Publication date: 2021-11-23
Anticipated expiration: 2037-03-31
Also published as: EP3566399A1; EP3566399A4; CN109314660A; US11153234B2; US20200036659A1; WO2018176413A1

Abstract

本公开提供了用于在自动聊天中提供新闻推荐的方法和装置。可以在聊天流中获得第一消息。可以至少基于第一消息、包括情感标签的用户喜好列表以及包括情感标签的新闻数据集来确定推荐新闻。可以基于第一消息来提供推荐新闻的标题、摘要和内容中的至少一个。

Description

在自动聊天中提供新闻推荐的方法和装置

背景技术

人工智能(AI)聊天机器人被设计用于模拟人类对话，并且可以通过文本、语音、图像等向用户提供自动聊天服务。聊天机器人正在越来越多的场景中得到应用。例如，聊天机器人可以在自动聊天中向用户提供新闻推荐。

发明内容

提供本发明内容以便介绍一组概念，这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征，也不旨在用于限制所保护主题的范围。

本公开的实施例提出了用于在自动聊天中提供新闻推荐的方法和装置。可以在聊天流中获得第一消息。可以至少基于第一消息、包括情感标签的用户喜好列表以及包括情感标签的新闻数据集来确定推荐新闻。可以基于第一消息来提供推荐新闻的标题、摘要和内容中的至少一个。

应当注意，以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式，并且本公开旨在包括所有这些方面和其等同变换。

附图说明

以下将结合附图描述所公开的多个方面，这些附图被提供用以说明而非限制所公开的多个方面。

图1示出了根据实施例的聊天机器人的示例性应用场景。

图2示出了根据实施例的示例性聊天机器人系统。

图3示出了根据实施例的示例性聊天窗口。

图4示出了根据实施例的用于提供新闻推荐的示例性聊天流。

图5示出了根据实施例的用于提供新闻推荐的示例性方法的流程图。

图6示出了根据实施例的获得用于情感分析分类器的训练数据集的示例性过程。

图7示出了根据实施例的用于提供情感分析分布信息的示例性聊天流。

图8示出了根据实施例的用于确定推荐新闻的示例性过程。

图9示出了根据实施例的用于确定问题-答案对的示例性过程。

图10示出了根据实施例的对示例性语句的示例性依存句法分析。

图11示出了根据实施例的示例性话题图谱。

图12示出了根据实施例的用于建立话题图谱的示例性过程。

图13示出了根据实施例的用于在自动聊天中提供新闻推荐的示例性方法的流程图。

图14示出了根据实施例的用于在自动聊天中提供新闻推荐的示例性装置。

图15示出了根据实施例的用于在自动聊天中提供新闻推荐的示例性装置。

具体实施方式

现在将参考多种示例性实施方式来讨论本公开。应当理解，这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例，而并非教导对本公开的范围的任何限制。

在一些方面，本公开的实施例可以使聊天机器人能够以交互方式向用户提供新闻推荐。聊天机器人可以在聊天流中通过自然语言与用户聊天，并且在自动聊天期间提供新闻推荐。在本文中，聊天流是指包括来自用户的消息和来自聊天机器人的响应的聊天过程。聊天机器人和用户之间的聊天可以采用文本或语音的形式。

在一些方面，聊天机器人可以帮助用户以“快速”方式获得新闻信息。例如，聊天机器人可以向用户提供推荐新闻的摘要而不是完整的新闻，因此用户可以在短时间内了解推荐新闻，而不需要阅读或收听完整的新闻。

在一些方面，聊天机器人可以以“深度”的方式提供新闻推荐。例如，聊天机器人可以为多个候选新闻预先建立基于知识的问题-答案(QA)集合。当用户询问关于从候选新闻中选择的推荐新闻的问题时，聊天机器人可以根据基于知识的QA集合来提供对用户问题的答案。

在一些方面，聊天机器人可以以“宽度”方式提供新闻推荐。例如，如果用户打算切换到其它新闻，聊天机器人可以以有效的方式基于话题图谱来提供其它推荐新闻。所述其它推荐新闻可以在事件类型、人物、时间、位置等方面与先前推荐新闻相关联。

在一些方面，聊天机器人可以收集用户对新闻的喜好，并且相应地提供个性化的新闻推荐。

在一些方面，聊天机器人可以基于情感分析来提供新闻推荐。一方面，推荐新闻可以是基于情感分析来确定的。另一方面，聊天机器人可以向用户提供推荐新闻的情感分析分布信息或者对推荐新闻的社交评论的情感分析分布信息。

图1示出了根据实施例的聊天机器人的示例性应用场景100。

在图1中，网络110被应用于在终端设备120、聊天机器人服务器130 和新闻源140之间进行互连。

网络110可以是能够对网络实体进行互连的任何类型的网络。网络110 可以是单个网络或各种网络的组合。在覆盖范围方面，网络110可以是局域网(LAN)、广域网(WAN)等。在承载介质方面，网络110可以是有线网络、无线网络等。在数据交换技术方面，网络110可以是电路交换网络、分组交换网络等。

终端设备120可以是能够连接到网络110、访问网络110上的服务器或网站、处理数据或信号等的任何类型的电子计算设备。例如，终端设备120 可以是台式计算机、笔记本电脑、平板电脑、智能电话等。尽管在图1中仅示出了一个终端设备120，但是应当理解，可以有不同数量的终端设备连接到网络110。

终端设备120可以包括可以为用户提供自动聊天服务的聊天机器人客户端122。在一些实施方式中，聊天机器人客户端122可以与聊天机器人服务器130进行交互。例如，聊天机器人客户端122可以将用户输入的消息发送到聊天机器人服务器130，并且从聊天机器人服务器130接收与消息相关联的响应。然而，应当理解，在其它实施方式中，聊天机器人客户端122 也可以本地地生成对用户输入的消息的响应，而不是与聊天机器人服务器 130进行交互。

聊天机器人服务器130可以连接到或包含聊天机器人数据库132。聊天机器人数据库132可以包括可由聊天机器人服务器130用于生成响应的信息。

新闻源140可以指可以向公众提供新闻或报道的新闻网站或新闻频道。

在一些实施方式中，聊天机器人服务器130可以从新闻源140收集新闻信息，并且确定对终端设备120的用户的推荐新闻。聊天机器人客户端 122可以与聊天机器人服务器130进行交互，并将确定的推荐新闻呈现给用户。

应当理解，图1中所示的所有网络实体都是示例性的，根据具体的应用需求，应用场景100中可以涉及任何其它网络实体。

图2示出了根据实施例的示例性聊天机器人系统200。

聊天机器人系统200可以包括用于呈现聊天窗口的用户界面(UI)210。聊天窗口可以由聊天机器人用于与用户进行交互。

聊天机器人系统200可以包括核心处理模块220。核心处理模块220 被配置用于通过与聊天机器人系统200的其它模块的协作，在聊天机器人的运行期间提供处理能力。

核心处理模块220可以获得由用户在聊天窗口中输入的消息，并将消息存储在消息队列232中。消息可以采用各种多媒体形式，例如文本、语音、图像、视频等。

核心处理模块220可以用先进先出的方式处理消息队列232中的消息。核心处理模块220可以调用应用程序接口(API)模块240中的处理单元来处理各种形式的消息。API模块240可以包括文本处理单元242、语音处理单元244、图像处理单元246等。

对于文本消息，文本处理单元242可以对文本消息执行文本理解，并且核心处理模块220可以进一步确定文本响应。

对于语音消息，语音处理单元244可以对语音消息执行语音到文本转换以获得文本语句，文本处理单元242可以对所获得的文本语句执行文本理解，并且核心处理模块220可以进一步确定文本响应。如果确定以语音提供响应，则语音处理单元244可以对文本响应执行文本到语音转换以生成相应的语音响应。

对于图像消息，图像处理单元246可以对图像消息执行图像识别以生成相应的文本，并且核心处理模块220可以进一步确定文本响应。在一些情况下，图像处理单元246也可以用于基于文本响应来获得图像响应。

此外，尽管在图2中未示出，API模块240还可以包括任何其它处理单元。例如，API模块240可以包括视频处理单元，该视频处理单元用于与核心处理模块220协作以处理视频消息并确定响应。

核心处理模块220可以通过索引数据库250来确定响应。索引数据库 250可以包括可由核心处理模块220提取作为响应的多个索引项。索引数据库250中的索引项可以被分类为纯聊天索引集合252和基于知识的QA集合254。纯聊天索引集合252可以包括索引项，索引项被准备用于用户和聊天机器人之间的自由聊天，并且可以用来自社交网络的数据来建立。纯聊天索引集合252中的索引项可以采用或不采用问题-答案对的形式。问题- 答案对也可以称为消息-响应对。基于知识的QA集合254可以包括基于来自网络上的新闻网站或新闻提供方的新闻信息而生成的问题-答案对。

核心处理模块220可以利用新闻处理模块260来确定作为对来自用户的消息的响应的新闻推荐。在本文中，新闻推荐可以包括以下至少之一：例如，推荐新闻的标题、推荐新闻的摘要、推荐新闻的内容、对关于推荐新闻的问题的答案、推荐新闻的情感分析分布信息、对推荐新闻的社交评论的情感分析分布信息等。

新闻处理模块260可以包括情感分析模块262、新闻推荐模块264以及基于知识的QA模块266。情感分析模块262可以被配置用于对例如新闻、来自用户的消息等执行情感分析。情感分析模块262可以采用情感分析分类器，情感分析分类器可以是基于训练数据集通过机器学习或深度学习来建立的，并且可以用于将输入的内容分类为多种情感之一。新闻推荐模块 264可以被配置为通过学习排序(LTR：learning-to-rank)新闻推荐模型来确定推荐新闻。基于知识的QA模块266可以被配置用于建立基于知识的 QA集合254并且从基于知识的QA集合254中确定对消息的答案。

可以将由核心处理模块220确定的响应提供给响应队列或响应高速缓存234。例如，响应高速缓存234可以确保能够以预定义的时间流来显示响应序列。假设对于一个消息，由核心处理模块220确定了不少于两个响应，则对响应的时间延迟设置可能是必要的。例如，如果玩家输入的消息是“你吃早餐了吗？”，则可能确定出两个响应，例如，第一响应是“是的，我吃了面包”，第二响应是“你呢？还觉得饿吗？”。在这种情况下，通过响应高速缓存234，聊天机器人可以确保立即向玩家提供第一响应。此外，聊天机器人可以确保以例如1或2秒的时间延迟来提供第二响应，使得第二响应将在第一响应之后的1或2秒提供给玩家。由此，响应高速缓存234可以管理将要发送的响应以及针对每个响应的适当定时。

可以将响应队列或响应高速缓存234中的响应进一步传送到用户界面 210，以便可以在聊天窗口中将响应显示给用户。

应当理解，图2中的聊天机器人系统200中所示的所有单元都是示例性的，并且根据具体的应用需求，在聊天机器人系统200中可以省略任何所示的单元并且可以涉及任何其它单元。

图3示出了根据实施例的示例性聊天窗口300。聊天窗口300可以包括呈现区域310、控制区域320和输入区域330。呈现区域310显示聊天流中的消息和响应。控制区域320包括多个虚拟按钮以由用户用于执行消息输入设置。例如，用户可以通过控制区域320选择进行语音输入、附加图像文件、选择表情符号、进行当前屏幕的截图等。输入区域330用于用户输入消息。例如，用户可以通过输入区域330键入文本。聊天窗口300还可以包括虚拟按钮340以用于确认发送所输入的消息。如果用户触摸虚拟按钮340，则可以将在输入区域330中输入的消息发送到呈现区域310。

应当注意，图3中所示的所有单元及其布局都是示例性的。根据具体的应用需求，图3中的聊天窗口可以省略或添加任何单元，并且图3中的聊天窗口中的单元的布局也可以以各种方式改变。

图4示出了根据实施例的用于提供新闻推荐的示例性聊天流400。

当从用户获得消息“今天有什么新的？”时，聊天机器人可以获知用户打算获得新闻推荐，并且可以相应地确定推荐新闻。聊天机器人可以向用户提供推荐新闻的标题“德克萨斯州选举人退出，声称誓言约束(pledge binding)且特朗普‘不具备基于圣经的资格(biblically qualifiied)’”。然后，用户询问“谁？”，聊天机器人提供答案“ArtSisneros”。当用户询问“德克萨斯州有多少选举人？”时，聊天机器人提供答案“德克萨斯州有38名选举人”。用户进一步输入消息“只是给我一个摘要”，聊天机器人将向用户提供该推荐新闻的摘要。当用户输入消息“我看了。另一个”时，聊天机器人可以获知用户打算切换到另一个新闻推荐，因此可以提供其它推荐新闻的标题“加州将奶牛作为目标以对抗全球变暖”。

图5示出了根据实施例的用于提供新闻推荐的示例性方法500的流程图。方法500可以由例如图2中的新闻处理模块260来执行，用于向与聊天机器人聊天的用户提供新闻推荐。

在502处，可以获得消息。例如，用户可以在终端设备中在与聊天机器人的聊天流中输入消息，聊天机器人可以在终端设备的UI中接收消息。消息可以是，例如，对新闻推荐的需求、关于推荐新闻的问题、对推荐新闻的评论、关于聊天机器人对用户问题的答案的评论、对另一个新闻推荐的需求、用于纯聊天的消息等。

在504处，确定是否应提供推荐新闻。在一种实施方式中，可以在504 处确定消息是否指示了用户获得新闻推荐的意图。例如，当获得诸如“今天有什么新的？”、“新闻”、“总统选举怎么样了？”等的消息时，可以确定用户想要获得新闻推荐。可以采用各种方式来执行504处的确定。例如，可以用n-gram词语特征来训练逻辑回归分类器，其中，n-gram词语特征是根据从新闻语料库中确定的新闻相关词语来生成的。逻辑回归分类器可用于确定消息是否指示了获得新闻推荐的意图。

如果在504处确定要推荐新闻，则可以在506处确定一条推荐新闻。例如，新闻推荐模块530可以用于确定该推荐新闻。在一种实施方式中，可以至少基于消息、用户喜好列表和新闻数据集来确定该推荐新闻。

用户喜好列表包括关于用户感兴趣的新闻的信息。例如，用户喜好列表可以包括感兴趣的新闻的关键词和/或感兴趣的新闻的类别。感兴趣的新闻的关键词可以是新闻中记载的代表性的或具有较高重要性的词语。感兴趣的新闻的类别可以指新闻话题所属的类别，如政治、体育、经济等。

用户喜好列表还可以包括关键词和/或类别的情感标签。情感标签是通过情感分析来确定的，以指示相应的情感。可以通过用户对新闻推荐服务的使用来建立和更新用户喜好列表。例如，聊天机器人可以在新闻推荐服务中不断收集用户行为，例如，来自用户的对新闻推荐的反馈或评论，并且建立和更新用户喜好列表。

新闻数据集可以包括多条候选新闻，其中推荐新闻是从多条候选新闻中选择的。例如，新闻数据集可以包括多个候选新闻条目，每个条目对应于一条候选新闻。对应于一条候选新闻的条目可以包括以下至少之一：候选新闻的标题、候选新闻的摘要、候选新闻的内容、对候选新闻的评论、候选新闻的情感标签、评论的情感标签等。

后面将结合图8来解释确定推荐新闻的细节。

在508处，可以向用户提供推荐信息。推荐信息可以是推荐新闻的标题、推荐新闻的摘要、推荐新闻的内容等中的至少一个。

如果在504处确定不推荐新闻，则方法500可以在510处进一步确定消息是否包括关于已经提供给用户的推荐新闻的问题。例如，图4中的消息“谁？”和“德克萨斯州有多少选举人？”是关于推荐新闻“德克萨斯州选举人退出，声称誓言约束且特朗普‘不具备基于圣经的资格’”的问题。

在一些情况下，这种类型的消息包含与推荐新闻有关的词语，例如，消息“德克萨斯州有多少选举人？”。可以通过使用，例如，消息与推荐新闻之间共用的词语数量、和/或消息与推荐新闻之间的Word2vec余弦相似度分值的特征来训练梯度提升决策树(GBDT)分类器。GBDT分类器可以用于执行510处的确定。

在其它情况下，这种类型的消息可能较短，例如消息“谁？”。因此，可以在GBDT分类器中应用附加特征，例如，消息是否包含疑问词、用户的声音是否是疑问语气等。

如果在510处将消息确定为关于推荐新闻的问题，则可以在512处确定该问题的答案。例如，基于知识的QA模块540可以用于确定答案。基于知识的QA模块540可以建立基于知识的QA集合。基于知识的QA集合可以包括基于新闻信息生成的多个问题-答案对。可以从基于知识的QA集合中确定对用户问题的答案。

后面将结合图9来解释确定答案的细节。

在514处，可以向用户提供答案。

如果在510处确定消息不是关于推荐新闻的问题，则方法500还可以在516处确定消息是否包括对答案的情感性评论。情感性评论是指具有一种类型的情感的评论，例如，正面评论或负面评论。情感分析模块可以用于确定消息是否是关于答案的具有正面情感，例如高兴的等，的评论，或者是关于答案的具有负面情感，例如悲伤的、愤怒的等，的评论。正面评论的示例可以是“太棒了！”，负面评论的示例可以是“完全错误！”。

如果在516处将消息确定为对答案的情感性评论，则可以在518处根据消息来更新基于知识的QA模块540。例如，如果消息是对答案的正面评论，则可以在基于知识的QA模块540内提高该答案的权重，而如果消息是对答案的负面评论，则可以在基于知识的QA模块540内降低该答案的权重，或者可以由基于知识的QA模块540确定更新的答案。

如果在516处确定消息不是对答案的情感性评论，则方法500可以在 520处进一步确定消息是否包括对推荐新闻的情感性评论。情感分析模块还可以用于确定对推荐新闻的情感性评论是正面评论还是负面评论。

如果在520处将消息确定为对推荐新闻的情感性评论，则可以在522 处根据消息来更新用户喜好列表。情感性评论可以用于更新用户喜好列表并进一步更新新闻推荐模块530。例如，对推荐新闻的正面评论可以指示用户对推荐新闻感兴趣，因此可以将推荐新闻的关键词、推荐新闻的类别、或者关键词和/或类别的正面情感标签添加到用户喜好列表中。而对推荐新闻的负面评论可以指示用户对推荐新闻不感兴趣，因此可以将负面情感标签附加到用户喜好列表中的该推荐新闻的关键词和/或类别。可以由情感分析模块为推荐新闻确定上述情感标签。

如果在520处确定消息不是对推荐新闻的情感性评论，则方法500可以进行到524处以进行纯聊天过程。在这种情况下，可以将消息视为被输入用于自由聊天，因此聊天机器人可以根据纯聊天索引集合来提供响应。

应当理解，根据具体的应用需要，方法500中的操作的顺序可以改变。例如，尽管504、510、516和520处的确定是顺序地执行的，但是这些确定可以以任何其它顺序来执行。在一些实施方式中，这些确定也可以并行地执行。

如上所述，本公开的实施例可以采用情感分析模块来执行情感分析。在一些实施方式中，可以在情感分析模块中训练情感分析分类器以执行情感分析。情感分析分类器可以是例如逻辑回归分类器。

常规情感分析只能将输入的内容分类为有限数量的情感，例如正面情感、负面情感和中性情感。而根据本公开的实施例的情感分析分类器可以执行细分的情感分析，其可以将输入的内容分类为更多的情感。

在一种实施方式中，情感分析分类器可以区分8类情感，包括高兴的、愤怒的、恐惧的、轻蔑的、悲伤的、吃惊的、厌恶的和中性的。应当理解，虽然以下讨论涉及具有8类情感的情感分析分类器，但是本公开的实施例不限于8类情感。相反，可以在本公开的构思下获得具有任何其它数量的情感类型的情感分析分类器。

具有情感“高兴的”的示例性语句可以是“我很乐意听到这个！”。具有情感“愤怒的”的示例性语句可以是“你怎么敢不理会！”。具有情感“恐惧的”的示例性语句可以是“这是个可怕的事故”。具有情感“轻蔑的”的示例性语句可以是“无非是一台电脑，有什么可吹嘘的”。具有情感“悲伤的”的示例性语句可以是“我不喜欢它，想哭”。具有情感“吃惊的”的示例性语句可以是“什么？真的吗？”。具有情感“厌恶的”的示例性语句可以是“他比我预计的更愚蠢”。具有情感“中性的”的示例性语句可以是“确定了明天的时间表”。

图6示出了根据实施例的获得用于情感分析分类器的训练数据集的示例性过程600。可以执行过程600以用于通过扩展种子情感词语来生成情感词典，并且通过使用情感词典来进一步确定训练数据集。

在610处，可以获得种子情感词语。在本文中，种子情感词语可以包括对应于每种类型情感的情感词语。例如，种子情感词语可以包括对应于情感“高兴的”的多个词语，例如“高兴的”、“喜悦的”、“乐意的”、“幸福的”等。可以从现有的人为构建的情感词典中获得种子情感词语，在所述人为构建的情感词典中包含具有人为标记的情感极性的词语。这些人为构建的情感词典只能提供有限数量的种子情感词语，这些词语不足以获得用于情感分析分类器的训练数据集。

在620处，可以基于种子情感词语来执行Word2vec词语扩展，以便扩展种子情感词语。可以计算每个种子情感词语和来自语料库的词语的 Word2vec余弦相似度分值。以这种方式，可以针对每个情感词语从语料库收集具有所计算分值的大量词语，然后可以将多个排序最高的词语确定为种子情感词语的扩展。例如，如图6所示，对于种子情感词语“sad(悲伤的)”，可以基于所计算的Word2vec余弦相似度分值来确定出扩展词语“sorrow(哀伤的)”、“unhappy(不高兴的)”、“suffering(痛苦的)”、“happy (高兴的)”等。

应当理解，Word2vec余弦相似度分值是基于例如词语在语句中的位置来计算的。因此，Word2vec词语扩展不能确保所有扩展词语都与相应种子情感词语具有相似的语义含义。例如，在图6中，将“happy(高兴的)”确定为种子情感词语“sad(悲伤的)”的扩展词语，然而，这两个词语具有不同的语义含义。因此，过程600还包括基于双语词语对准的删减机制，以用于去除与相应种子情感词语具有不同语义含义或具有弱语义相关性的那些扩展词语。

在630处，可以执行双语词语对准。双语词语对准可以用于通过在两种不同语言之间的往返翻译来找到种子词语的语义相关词语。可以将第一语言的种子情感词语翻译成第二语言的词语。例如，可以将英文的种子情感词语“sad”翻译成中文的词语“伤心的”、“不高兴的”和“悲哀的”。然后，可以将第二语言的词语翻译回第一语言的词语。例如，可以将中文的词语“伤心的”、“不高兴的”和“悲哀的”翻译回英文的词语“sorrow”、“unhappy”和“pathetic”。由此，可以通过对种子情感词语“sad”的双语词语对准而获得词语列表“sorrow”、“unhappy”和“pathetic”。

在640处，可以对在620处通过Word2vec词语扩展获得的扩展词语以及在630处通过双语词语对准获得的词语列表执行交集操作。交集操作可以用于去除通过Word2vec词语扩展所获得的、与相应种子情感词语具有不同语义含义或弱语义相关性的那些扩展词语。例如，在图6中，通过交集操作，可以保留词语“sorrow”和“unhappy”，而去除与“sad”具有弱语义相关性的词语“suffering”以及与“sad”具有不同语义含义的词语“happy”。

可以将通过交集操作而保留的词语附加到情感词典650。在一种实施方式中，可以向情感词典650中的词语进一步添加相应的表情符号，例如绘文字(emoji)或颜文字(kaomoji)。在660处，可以针对每种类型的情感从网络收集绘文字或颜文字。例如，对于情感“sad(悲伤的)”，其相应的表情符号可以包括，例如，“＞＜”、

等。因此，可以在情感词典 650中将这些表情符号附加到与情感“sad”相对应的词语“sad”、“sorrow”和“unhappy”。

如上所述，通过对种子情感词语执行Word2vec词语扩展和双语词语对准来建立情感词典650，并且情感词典650可以包括比人为构建的情感词典更多的词语。情感词典650可以用于从web数据670中找到包含情感词典 650中的至少一个词语的语句。每个语句可以被标记有情感，该情感是该语句所包含的情感词典650中的相应词语的情感。这些语句与相应的情感标签可以一起用于形成情感分析分类器的训练数据集680。

在一种实施方式中，可以在情感分析分类器中应用以下特征中的至少一个：词n-gram(n元)；字符n-gram；词skip-gram(跳元)；Brown聚类 n-gram；词性(POS)标签；人为构建的情感词典；社交网络相关表达，例如话题标签(hashtag)的数量、表情符号、加长词语和标点符号；Word2vec 聚类n-gram；等等。

可以通过训练数据集680，基于上述特征来训练情感分析分类器。

情感分析分类器可以用于对新闻或消息执行情感分析。在一种实施方式中，情感分析分类器可以获得新闻的情感分析分布。例如，如果情感分析分类器能够区分8类情感，则情感分析分类器可以为一条新闻确定每类情感的分值。情感的分值可以以各种方式呈现，例如网格图、表格等。在一种实施方式中，情感分析分类器可以获得对于一条新闻的社交评论的情感分析分布。例如，聊天机器人可以收集多个用户对新闻的评论，情感分析分类器可以针对用户对新闻的评论而计算每类情感的分值。聊天机器人可以不断收集用户的评论，因而可以动态更新社交评论的情感分析分布。在一种实施方式中，情感分析分类器可以将输入的内容，例如，来自用户的消息、一条新闻的标题、一条新闻的内容，分类到一类情感。例如，可以将输入的内容分类到排序最高的情感。

图7示出了根据实施例的用于提供情感分析分布信息的示例性聊天流 700。

当从用户获得消息“今天有什么新的？”时，聊天机器人可以向用户提供推荐新闻的标题“德克萨斯州选举人退出，声称誓言约束且特朗普‘不具备基于圣经的资格’”。当用户问“这是条好新闻吗？”时，聊天机器人可以在710处提供该推荐新闻的情感分析分布，其中，情感“愤怒的”具有“0.4”的分值，情感“吃惊的”具有“0.1”的分值，情感“中性的”具有“0.1”的分值，情感“厌恶的”具有“0.4”的分值等。当用户问“对这条新闻的社交评论是什么？”时，聊天机器人可以在720处提供对该推荐新闻的社交评论的情感分析分布，其中，情感“轻蔑的”具有“0.3”的分值，情感“吃惊的”具有“0.1”的分值，情感“中性的”具有“0.2”的分值，情感“厌恶的”具有“0.4”的分值等。应当理解，尽管在图7中以网格图示出了情感分析分布，但可以使用任何其它方法来呈现情感分析分布，例如通过表格等。

图8示出了根据实施例的用于确定推荐新闻的示例性过程800。过程 800可以由新闻推荐模块执行以响应于来自用户的消息而确定推荐新闻。

在802处，可以从网络上的新闻源抓取新闻文档。新闻文档可以包括相应新闻的信息，例如新闻的标题和内容。新闻文档还可以包括浏览者对新闻的评论。新闻源可以是向公众提供新闻或报道的新闻网站或新闻频道，例如FOX新闻、BBC新闻频道等。可以自动地且实时地执行对新闻文档的抓取。

在804处，可以解析新闻文档。例如，可以将HTML解析器用于将新闻文档解析为<标题，内容>。如果新闻文档进一步包括评论，则HTML解析器也可以将新闻文档解析为<标题，内容，评论>。通过804处的解析，可以针对每条新闻获得<标题，内容>或<标题，内容，评论>元组。

在806处，可以对所解析的新闻文档执行情感分析。例如，可以将情感分析分类器用于为新闻的标题、内容和评论分别确定情感标签。情感标签可以指示可由情感分析分类器区分的多种情感中的一种。在一种实施方式中，可以基于新闻标题的情感标签和新闻内容的情感标签来进一步获得一条新闻的情感标签。

在808处，可以为每条新闻生成摘要。摘要可以包括从新闻中选择的多个代表性语句。在一种实施方式中，可以采用GBDT模型来生成摘要。 GBDT模型可以对一条新闻的内容中的语句进行评分，并且选择例如排序最高的3个语句来形成该新闻的摘要。

用于GBDT模型的训练数据可以来自具有人为标记的摘要的一组新闻文档。例如，可以在新闻语料库中为每条新闻文档标记摘要，其中，摘要可以包括例如从新闻内容中选择的3个语句。所选择的3个语句可以被标记为“1”，而新闻内容中剩余的语句可以被标记为“0”。

GBDT模型可以以迭代方式为一条新闻生成摘要。例如，可以迭代地确定摘要中的语句。在GBDT模型中可以应用以下特征中的至少一个：

·新闻内容中当前语句的情感标签是否与新闻的情感标签类似，其中，当前语句是正在判断的语句；

·当前语句与新闻标题所共用的词语数量；

·当前语句与当前摘要中的语句所共用的词语数量，其中，当前摘要可能已经包含了一个或多个语句，但尚未形成最终摘要；

·当前语句的长度，例如，当前语句中的词语数量；

·当前语句的长度与新闻内容的平均语句长度之间的差；

·当前语句的长度与当前摘要的平均语句长度之间的差；

·当前语句中的词语与新闻标题中的词语之间的最大和/或平均 Word2vec相似度；

·当前语句中的词语与当前摘要中的词语之间的最大和/或平均 Word2vec相似度；以及

·当前语句与对新闻的评论所共用的词语数量，其中，如果当前语句中的词语在评论中被重复，则可以将该词语视为引起用户的更多关注。

可以基于804处的所解析的新闻文档、806处的情感分析和808处的生成的摘要来生成新闻数据集810。

新闻数据集810可以包括多个候选新闻，从中可以选择推荐新闻。在新闻数据集中包括多个候选新闻项。每一项对应于一条候选新闻，并且可以包括以下至少之一：候选新闻的标题、候选新闻的摘要、候选新闻的内容、对候选新闻的评论、候选新闻的情感标签、评论的情感标签等。

过程800可以采用用于对候选新闻评分的LTR新闻推荐模型812。在一种实施方式中，LTR新闻推荐模型812可以是基于GBDT的模型。LTR 新闻推荐模型812的输入可以包括新闻数据集810、用户喜好列表814和当前消息816。

如上所述，用户喜好列表814可以包括词语列表，例如，感兴趣的新闻的关键词和/或感兴趣的新闻的类别。用户喜好列表814还可以包括词语的情感标签。通过将用户喜好列表814作为输入，在对新闻数据集810中的候选新闻进行评分和排序时，LTR新闻推荐模型812可以考虑用户喜好列表814中的个性化信息。

当前消息816可以是用户当前输入的消息。例如，该当前消息816可能已经在图5的504处被确定为指示了用户获得新闻推荐的意图。

可以在LTR新闻推荐模型812中应用以下特征中的至少一个：

·一条候选新闻的标题与用户喜好列表所共用的词语数量；

·当前消息与用户喜好列表所共用的词语数量；

·该候选新闻的标题与当前消息所共用的词语数量；

·该候选新闻的标题与用户喜好列表所共用的词语数量除以该候选新闻标题中的词语数量的比率；

·当前消息与用户喜好列表所共用的词语数量除以当前消息中的词语数量的比率；

·用户喜好列表与该候选新闻所共用的词语数量除以用户喜好列表中的词语数量的比率；

·该候选新闻标题中的词语与用户喜好列表中的词语之间的最大和/或平均Word2vec相似度；

·当前消息中的词语与用户喜好列表中的词语之间的最大和/或平均 Word2vec相似度；

·该候选新闻标题中的词语与当前消息中的词语之间的最大和/或平均Word2vec相似度；

·该候选新闻的情感标签是否与当前消息的情感标签类似，其中，该特征可以有助于将推荐新闻与来自用户的当前消息的情感倾向对准；

·该候选新闻的情感标签是否与用户喜好列表中的相关词语的情感标签类似，其中，该特征可以有助于将推荐新闻与用户的情感倾向对准；

·该候选新闻的情感标签；

·对该候选新闻的评论的平均情感标签；以及

·该候选新闻与其它候选新闻所共用的话题词语的数量，其中，该特征可以有助于增加具有话题多样性的候选新闻的权重。

可以由LTR新闻推荐模型812输出经评分的候选新闻的列表。然后，可以在818处确定推荐新闻，例如排序最高的候选新闻。

应当理解，根据来自用户的请求，例如“给我个摘要”，也可以将在808 处生成并保存在新闻数据集810中的该推荐新闻的摘要提供给用户。

图9示出了根据实施例的用于确定问题-答案对的示例性过程900。过程900可以用于确定对用户关于一条推荐新闻的问题的答案。过程900可以包括两个阶段，一个阶段用于建立基于知识的QA集合，另一个阶段用于通过相似度评分模型来选择QA对。可以由基于知识的QA模块执行过程 900。

在902处，可以获得一组新闻的标题和内容。例如，可以从图8的新闻数据集810中提取新闻的标题和内容。

在904处，可以将依存句法分析应用于新闻的标题和内容。可以采用任何现有的依存句法分析器来执行依存句法分析，例如谓词-论元结构分析。通过依存句法分析，可以获得语句的词语之间的依存弧和依存角色。图10 示出了根据实施例的对示例性语句的示例性依存句法分析1000。假设将语句“汤姆预订了一张票去巴黎”输入依存句法分析。词语“预订”被确定为语句的谓词。确定出从“预订”到“汤姆”的依存弧，并将“汤姆”和“预定”之间的依存角色确定为“nsubj”，其中，“nsubj”表示名词性主语。确定出从“预订”到“票”的依存弧，并将“票”和“预订”之间的依存角色确定为“dobj”，其中，“dobj”表示直接主语。确定出从“票”到“一张”的依存弧，并将“一张”和“票”之间的依存角色确定为“det”，其中，“det”表示限定词。确定出从“票”到“去”的依存弧，并将“去”和“票”之间的依存角色确定为“prep”，其中，“prep”表示介词。确定出从“去”到“巴黎”的依存弧，并将“巴黎”和“去”之间的依存角色确定为“pobj”，其中，“pobj”表示介词的宾语。应当理解，图10所示的依存角色是示例性的，对于其它语句，可以通过依存句法分析来确定出各种依存角色。

在906处，可以基于在904处的依存句法分析来生成QA对。对于已经执行了依存句法分析的语句，可以根据语句中的不同依存角色并参考已知的问题模式来生成多个问题-答案对。在本文中，问题模式可以指示什么样的语句结构和疑问词可以用于询问语句中的论元。以语句“汤姆预订了一张票去巴黎”为例，可以生成问题-答案对“谁预订了一张票去巴黎？”和“汤姆”以用于询问主语论元“汤姆”，可以生成问题-答案对“汤姆预订了去哪里的票？”和“去巴黎”以用于询问介词论元的宾语“巴黎”，等等。在906处，还可以收集所生成的QA对以形成基于知识的QA集合。基于知识的QA集合中的QA对也可以被称为候选QA对，候选QA对在随后的确定对用户问题的答案的过程中进一步用作候选问题和候选答案。

可以在过程900中应用相似度评分模型908。可以使用相似度评分模型 908来从基于知识的QA集合中的候选QA对中找到对用户问题的答案。例如，相似度评分模型908可以计算用户的问题与基于知识的QA集合中的候选QA对之间的相似度。相似度评分模型908的特征可以包括以下至少之一：用户的问题与候选问题之间词语级别的编辑距离；用户的问题与候选问题之间字符级别的编辑距离；用户的问题与候选问题之间的Word2Vec 相似度；用户的问题与候选QA对之间的BM25分值；等等。在获得基于知识的QA集合中的QA对的相似度分值后，可以将与排序最高的QA对相对应的候选答案确定为对用户的问题的答案。

如图9所示，可以将来自用户的当前消息910提供给相似度评分模型 908。当前消息910可以是关于已经提供给用户的推荐新闻的问题，例如，图4中的问题“谁？”和“德克萨斯州有多少选举人？”。

响应于当前消息910，相似度评分模型908可以输出所选择的QA对 912。该选择的QA对912可以是基于知识的QA集合中的排序最高的QA 对，因此可以将所选择的QA对912中的候选答案确定为对当前消息910 的答案。例如，如果用户的问题是“德克萨斯州有多少选举人？”，并且通过相似度评分模型908选择了候选QA对“德克萨斯州的选举人数量是多少？”和“德克萨斯州有38名选举人”，则可以提供所选择的候选QA对中的“德克萨斯州有38名选举人”以作为对用户的问题的答案。

在一些情况下，用户的问题可能是短且简单的，例如“谁？”，其不包含用于相似度评分模型908确定答案的足够信息。因此，在一些实施方式中，在将当前消息910提供给相似度评分模型908之前，可以通过依存句法分析基于推荐新闻来扩展当前消息910中包括的问题。

可以确定用户问题中的疑问词，例如“谁”、“何时”、“哪里”、“什么”、“哪个”等。

然后，可以应用一系列规则来从推荐新闻中查找与疑问词相关的信息。例如，对于疑问词“谁”，可以确定聊天机器人关于推荐新闻的先前响应的命名实体和谓词-论元结构。对于疑问词“何时”，可以确定聊天机器人的先前响应中的与时间和日期相关的词语/短语。对于疑问词“哪里”，可以确定聊天机器人的先前响应中的与空间/位置相关的词语/短语。对于疑问词“什么”，可以确定聊天机器人的先前响应中的谓词-论元结构。对于疑问词“哪个”，可以确定聊天机器人的先前响应中的与疑问词对应的修饰词。

可以利用以上确定的信息来扩展用户的问题。例如，当在图4中用户询问“谁？”时，考虑到先前响应“德克萨斯州选举人退出，声称誓言约束且特朗普‘不具备基于圣经的资格’”包括两个命名实体，例如“德克萨斯州选举人”和“特朗普”，可以在两个方向上扩展用户的问题，一个是“德克萨斯州选举人”，另一个是“特朗普”。然而，由于先前响应和推荐新闻更多地涉及德克萨斯州选举人而不是特朗普，所以可以选择“德克萨斯州选举人”的方向。基于先前响应的谓词-论元结构，可以将用户的问题扩展为“退出并且声称誓言约束且特朗普‘不具备基于圣经的资格’的德克萨斯州选举人是谁？”。可以将该扩展问题提供给相似度评分模型908，相似度评分模型908可以进一步确定答案“Art Sisneros”。

如上所述，根据本公开的实施例，聊天机器人可以以“宽度”方式提供新闻推荐。如果用户想要从当前推荐新闻切换到其它新闻，则聊天机器人可以基于话题图谱来提供其它推荐新闻。在本文中，话题图谱可以包括在一组新闻的话题之间的映射信息。新闻的切换可以对应于新闻话题的切换。例如，如果当前推荐新闻具有第一话题，并且从话题图谱中确定了与第一话题相关联的第二话题，则可以提供与第二话题有关的一条候选新闻作为进一步的推荐新闻。

图11示出了根据实施例的示例性话题图谱1100。如图11所示，话题“特朗普”具有多个相关话题，例如“总统”、“商人”、“奥巴马”等。话题“总统”进一步具有多个相关话题，例如“奥巴马”、“克林顿”、“希拉里”等。

图12示出了根据实施例的用于建立话题图谱的示例性过程1200。可以通过数据挖掘从各种源建立话题图谱。

在一种实施方式中，可以对新闻源1210执行数据挖掘。新闻源1210 可以是例如新闻网站或新闻频道。

假设从新闻源1210获得以下段落：“一名德克萨斯州共和党人在周末宣布他计划辞去其作为选举团成员的职位，而不会投票给美国总统候选人唐纳德·特朗普，一个他认为‘不具备基于圣经的资格来任职’的人。根据非营利的FairVote，美国历史上总共只有157位不履行职责的选举人，没有人影响到总统竞选”。在1212处，可以从该段落中提取名词性词语/短语。例如，可以从该段落中提取“德克萨斯州共和党人”、“选举团”、“唐纳德·特朗普”、“FairVote”和“总统竞选”。

在1214处，可以对由所提取的名词性词语/短语形成的话题对进行评分。例如，如果话题对中的词语/短语出现在一个语句中，则可以将这对词语/短语评分为“a”，而如果话题对中的词语/短语出现在一个段落中而不是一个语句中，则可以将这对词语/短语评分为“b”。

对于上述示例性段落，话题对的分值如下表1所示：

德克萨斯州共和党人	选举团	a
			德克萨斯州共和党人	唐纳德·特朗普	a
选举团	唐纳德·特朗普	a
			FairVote	总统竞选	a
德克萨斯州共和党人	FairVote	b
			选举团	FairVote	b
唐纳德·特朗普	FairVote	b
			德克萨斯州共和党人	总统竞选	b
选举团	总统竞选	b
			唐纳德·特朗普	总统竞选	b

表1

在一种实施方式中，可以对网络上的知识网站1220，例如维基百科，执行数据挖掘。

假设从知识网站1220获得以下页面：“标题＝唐纳德·特朗普”，“内容＝唐纳德·约翰·特朗普(生于1946年6月14日)是美国商人、电视名人、政治家和第45任美国总统”。在1222处可以从该页面中提取名词性词语/ 短语。例如，可以从该页面中提取“唐纳德·特朗普”、“美国商人”、“电视名人”、“政治家”、“总统”和“美国”。

在1224处，可以对由所提取的名词性词语/短语形成的话题对进行评分。例如，可以将由标题实体“唐纳德·特朗普”与其它提取的词语/短语所形成的所有词语/短语对评分为“c”。此外，1214处的“a”和“b”的评分机制也可以应用于1224处。可以在1224处获得话题对的分值。例如，“唐纳德·特朗普”和“美国商人”的话题对可被评分为“c”，“美国商人”和“政治家”的话题可被评分为“a”，等等。

在一种实施方式中，可以对来自QA风格网站的、或者来自由聊天机器人用于自由聊天的纯聊天索引集合的QA对1230执行数据挖掘。

在1232处，对于每个QA对，可以为由QA对的问题中的词语和QA 对的答案中的词语所形成的话题对计算词语对准分值“d”。计算词语对准分值的主要思想是确定整个语料库中两个词语在语句对中的同时出现频率。例如，在1232处可以采用IBM模型1-5并结合期望最大化(EM)算法，以计算词语对准分值。

在1240处，可以基于在1214、1224和1232处的评分来为每个话题对获得相关性分值。例如，对于一个话题对，可以将在1214、1224和1232 处获得的相应分值的和或者加权和用作该话题对的相关性分值。

然后，可以建立话题图谱1250。例如，对于第一话题，可以将具有与第一话题的排序最高的相关性分值的那些话题添加到话题图谱中，由此可以在话题图谱中包括从第一话题到这些话题的映射。以这种方式，可以在话题图谱中包括一个或多个进一步的映射级。

话题图谱1250还可以用于在一组推荐新闻之间进行切换。

图13示出了根据实施例的用于在自动聊天中提供新闻推荐的示例性方法1300的流程图。

在1310处，可以在聊天流中获得第一消息。

在1320处，可以至少基于第一消息、包括情感标签的用户喜好列表以及包括情感标签的新闻数据集来确定推荐新闻。

在1330处，可以基于第一消息来提供推荐新闻的标题、摘要和内容中的至少一个。

在一种实施方式中，第一消息可以是用自然语言表达的。第一消息以及推荐新闻的标题、摘要和内容中的至少一个可以采用文本或语音的形式。

在一种实施方式中，方法1300还可以包括：确定第一消息指示了获得新闻推荐的意图。

在一种实施方式中，用户喜好列表可以包括用户感兴趣的新闻的关键词和/或类别，以及关键词和/或类别的情感标签。新闻数据集可以包括多个候选新闻项，每一项对应于一条候选新闻并且包括以下至少之一：候选新闻的标题、候选新闻的摘要、候选新闻的内容、对候选新闻的评论、候选新闻的情感标签以及评论的情感标签。

在一种实施方式中，方法1300还可以包括：在聊天流中获得第二消息；确定第二消息包括对推荐新闻的情感性评论；以及基于第二消息中的情感性评论来更新用户喜好列表。

在一种实施方式中，方法1300还可以包括：在聊天流中获得第二消息；确定第二消息包括关于推荐新闻的问题；以及从基于知识的QA集合中确定对问题的答案。在一种实施方式中，方法1300还可以包括：通过依存句法分析，基于推荐新闻来扩展问题。在一种实施方式中，方法1300还可以包括：在聊天流中获得第三消息；确定第三消息包括对答案的情感性评论；以及基于第三消息中的情感性评论来更新基于知识的QA集合。

在一种实施方式中，方法1300还可以包括以下至少之一：通过在推荐新闻上执行情感分析来提供推荐新闻的情感分析分布信息；以及通过在对推荐新闻的社交评论上执行情感分析来提供社交评论的情感分析分布信息。

在一种实施方式中，执行情感分析可以包括：通过情感分析分类器来执行情感分析，情感分析分类器是利用训练数据集进行训练的，训练数据集是通过使用情感词典获得的，情感词典是至少通过在种子情感词语上执行Word2vec词语扩展和双语词语对准来建立的。

在一种实施方式中，方法1300还可以包括：在聊天流中获得第二消息；确定第二消息指示了切换到其它新闻推荐的意图；至少基于预定话题图谱来确定与推荐新闻相关联的第二推荐新闻，所述话题图谱包括多个话题对，每个话题对对应于彼此相关联的两组新闻；以及提供第二推荐新闻的标题、摘要和内容中的至少一个。

应当理解，方法1300还可以包括根据上述本公开实施例的用于在自动聊天中提供新闻推荐的任何步骤/过程。

图14示出了根据实施例的用于在自动聊天中提供新闻推荐的示例性装置1400。

装置1400可以包括：消息获得模块1410，用于在聊天流中获得第一消息；推荐新闻确定模块1420，用于至少基于第一消息、包括情感标签的用户喜好列表以及包括情感标签的新闻数据集来确定推荐新闻；以及推荐新闻提供模块1430，用于基于第一消息来提供推荐新闻的标题、摘要和内容中的至少一个。

在一种实施方式中，装置1400还可以包括：意图确定模块，用于确定第一消息指示了获得新闻推荐的意图。

在一种实施方式中，消息获得模块1410还用于在聊天流中获得第二消息，并且装置1400还可以包括：情感性评论确定模块，用于确定第二消息包括对推荐新闻的情感性评论；以及用户喜好列表更新模块，用于基于第二消息中的情感性评论来更新用户喜好列表。

在一种实施方式中，消息获得模块1410还用于在聊天流中获得第二消息，并且装置1400还可以包括：问题确定模块，用于确定第二消息包括关于推荐新闻的问题；以及答案确定模块，用于从基于知识的QA集合中确定对问题的答案。在一种实施方式中，装置1400还可以包括：问题扩展模块，用于通过依存句法分析，基于推荐新闻来扩展问题。在一种实施方式中，消息获得模块1410还用于在聊天流中获得第三消息，并且装置1400 还可以包括：情感性评论确定模块，用于确定第三消息包括对答案的情感性评论；以及基于知识的QA集合更新模块，用于基于第三消息中的情感性评论来更新基于知识的QA集合。

在一种实施方式中，装置1400还可以包括情感分析分布信息提供模块，用于以下至少之一：通过在推荐新闻上执行情感分析来提供推荐新闻的情感分析分布信息；以及通过在对推荐新闻的社交评论上执行情感分析来提供社交评论的情感分析分布信息。

在一种实施方式中，消息获得模块1410还用于在聊天流中获得第二消息。装置1400还可以包括意图确定模块，用于确定第二消息指示了切换到其它新闻推荐的意图。推荐新闻确定模块1420还用于至少基于预定话题图谱来确定与推荐新闻相关联的第二推荐新闻，所述话题图谱包括多个话题对，每个话题对对应于彼此相关联的两组新闻。推荐新闻提供模块1430还用于提供第二推荐新闻的标题、摘要和内容中的至少一个。

此外，装置1400还可以包括被配置用于执行根据上述本公开实施例的用于在自动聊天中提供新闻推荐的方法的任何操作的任何其它模块。

图15示出了根据实施例的用于在自动聊天中提供新闻推荐的示例性装置1500。

装置1500可以包括处理器1510。装置1500还可以包括与处理器1510 连接的存储器1520。存储器1520可以存储计算机可执行指令，当所述计算机可执行指令被执行时，使得处理器1510执行根据上述本公开实施例的用于在自动聊天中提供新闻推荐的方法的任何操作。

本公开的实施例可以实施在非暂时性计算机可读介质中。该非暂时性计算机可读介质可以包括指令，当所述指令被执行时，使得一个或多个处理器执行根据上述本公开实施例的用于在自动聊天中提供新闻推荐的方法的任何操作。

应当理解，以上描述的方法中的所有操作都仅仅是示例性的，本公开并不限制于方法中的任何操作或这些操作的顺序，而是应当涵盖在相同或相似构思下的所有其它等同变换。

还应当理解，以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外，这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。

已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在系统上的总体设计约束。作为示例，本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以实施为微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门逻辑、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其它适合的处理部件。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以实施为由微处理器、微控制器、DSP或其它适合的平台所执行的软件。

软件应当被广泛地视为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器，存储器可以例如为磁性存储设备(如，硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的，但是存储器也可以位于处理器内部(如，缓存或寄存器)。

以上描述被提供用于使得本领域任何技术人员可以实施本文所描述的各个方面。这些方面的各种修改对于本领域技术人员是显而易见的，本文限定的一般性原理可以应用于其它方面。因此，权利要求并非旨在被局限于本文示出的方面。关于本领域技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换，都将通过引用而明确地包含到本文中，并且旨在由权利要求所覆盖。

Claims

1.一种用于在自动聊天中提供新闻推荐的方法，包括：

在聊天流中获得第一消息；

确定所述第一消息指示了获得新闻推荐的意图；

至少基于所述第一消息、包括情感标签的用户喜好列表以及包括情感标签的新闻数据集来确定推荐新闻；以及

基于所述第一消息来提供所述推荐新闻的标题、摘要和内容中的至少一个，

其中，所述用户喜好列表包括用户感兴趣的新闻的关键词和/或类别，以及所述关键词和/或类别的情感标签，并且

所述新闻数据集包括多个候选新闻项，每一项对应于一条候选新闻并且包括以下至少之一：所述候选新闻的标题、所述候选新闻的摘要、所述候选新闻的内容、对所述候选新闻的评论、所述候选新闻的情感标签以及所述评论的情感标签。

2.根据权利要求1所述的方法，其中，

所述第一消息是用自然语言表达的，并且所述第一消息以及所述推荐新闻的标题、摘要和内容中的所述至少一个采用了文本或语音的形式。

3.根据权利要求1所述的方法，还包括：

在所述聊天流中获得第二消息；

确定所述第二消息包括对所述推荐新闻的情感性评论；以及

基于所述第二消息中的所述情感性评论来更新所述用户喜好列表。

4.根据权利要求1所述的方法，还包括：

在所述聊天流中获得第二消息；

确定所述第二消息包括关于所述推荐新闻的问题；以及

从基于知识的问题-答案(QA)集合中确定对所述问题的答案。

5.根据权利要求4所述的方法，还包括：

通过依存句法分析，基于所述推荐新闻来扩展所述问题。

6.根据权利要求4所述的方法，还包括：

在所述聊天流中获得第三消息；

确定所述第三消息包括对所述答案的情感性评论；以及

基于所述第三消息中的所述情感性评论来更新所述基于知识的QA集合。

7.根据权利要求1所述的方法，还包括以下至少之一：

通过在所述推荐新闻上执行情感分析来提供所述推荐新闻的情感分析分布信息；以及

通过在对所述推荐新闻的社交评论上执行情感分析来提供所述社交评论的情感分析分布信息。

8.根据权利要求7所述的方法，其中，所述执行所述情感分析包括：

通过情感分析分类器来执行所述情感分析，所述情感分析分类器是利用训练数据集训练的，所述训练数据集是通过使用情感词典获得的，所述情感词典是至少通过在种子情感词语上执行Word2vec词语扩展和双语词语对准来建立的。

9.根据权利要求1所述的方法，还包括：

在所述聊天流中获得第二消息；

确定所述第二消息指示了切换到其它新闻推荐的意图；

至少基于预定话题图谱来确定与所述推荐新闻相关联的第二推荐新闻，所述话题图谱包括多个话题对，每个话题对对应于彼此相关联的两组新闻；以及

提供所述第二推荐新闻的标题、摘要和内容中的至少一个。

10.一种用于在自动聊天中提供新闻推荐的装置，包括：

消息获得模块，用于在聊天流中获得第一消息；

意图确定模块，用于确定所述第一消息指示了获得新闻推荐的意图；

推荐新闻确定模块，用于至少基于所述第一消息、包括情感标签的用户喜好列表以及包括情感标签的新闻数据集来确定推荐新闻；以及

推荐新闻提供模块，用于基于所述第一消息来提供所述推荐新闻的标题、摘要和内容中的至少一个，

11.根据权利要求10所述的装置，其中，所述消息获得模块还用于在所述聊天流中获得第二消息，并且所述装置还包括：

情感性评论确定模块，用于确定所述第二消息包括对所述推荐新闻的情感性评论；以及

用户喜好列表更新模块，用于基于所述第二消息中的所述情感性评论来更新所述用户喜好列表。

12.根据权利要求10所述的装置，其中，所述消息获得模块还用于在所述聊天流中获得第二消息，并且所述装置还包括：

问题确定模块，用于确定所述第二消息包括关于所述推荐新闻的问题；以及

答案确定模块，用于从基于知识的问题-答案(QA)集合中确定对所述问题的答案。

13.根据权利要求12所述的装置，还包括：

问题扩展模块，用于通过依存句法分析，基于所述推荐新闻来扩展所述问题。

14.根据权利要求12所述的装置，其中，所述消息获得模块还用于在所述聊天流中获得第三消息，并且所述装置还包括：

情感性评论确定模块，用于确定所述第三消息包括对所述答案的情感性评论；以及

基于知识的QA集合更新模块，用于基于所述第三消息中的所述情感性评论来更新所述基于知识的QA集合。

15.根据权利要求10所述的装置，还包括情感分析分布信息提供模块，用于以下至少之一：

16.根据权利要求10所述的装置，其中，

所述消息获得模块还用于在所述聊天流中获得第二消息，

所述装置还包括意图确定模块，用于确定所述第二消息指示了切换到其它新闻推荐的意图，

所述推荐新闻确定模块还用于至少基于预定话题图谱来确定与所述推荐新闻相关联的第二推荐新闻，所述话题图谱包括多个话题对，每个话题对对应于彼此相关联的两组新闻，并且

所述推荐新闻提供模块还用于提供所述第二推荐新闻的标题、摘要和内容中的至少一个。