CN109313649A

CN109313649A - 用于聊天机器人的基于语音的知识共享应用

Info

Publication number: CN109313649A
Application number: CN201780034615.8A
Authority: CN
Inventors: 吴先超; 伊藤和重; 波村大悟; 藤原敬三; 三芳三奈
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-03-24
Filing date: 2017-03-24
Publication date: 2019-02-05
Anticipated expiration: 2037-03-24
Also published as: US11341174B2; EP3602336A4; WO2018170876A1; US20210141818A1; CN109313649B; EP3602336A1

Abstract

本公开提供了一种用于通过智能自动聊天提供基于语音的知识的方法。接收输入。响应于该输入，从一组知识消息中选择知识消息，其中，对应于该一组知识消息中的每个知识消息的语音的长度不超过预定义长度。在该智能自动聊天的对话中输出对应于该知识消息的话音。

Description

用于聊天机器人的基于语音的知识共享应用

背景技术

人工智能(AI)对话聊天程序越来越受欢迎。通过这些对话聊天程序，也被称作“聊天机器人”，用户可以与虚拟实体进行对话。可以在用户和聊天机器人之间的对话中实现各种应用。

发明内容

以下提供本发明内容以介绍将在下文具体实施方式中进一步描述的一些概念。本发明内容不旨在标识所要求保护的主题的关键特征或者必要特征，也不旨在用于限制所要求保护的主题的范围。

本公开的实施例提供了一种用于通过智能自动聊天提供语音消息的方法。接收输入。响应于该输入，从多个语音消息中选择语音消息，其中，该多个语音消息中的每个语音消息的长度不超过预定义长度。在该智能自动聊天的对话中，输出该语音消息。

应该理解，上述一个或多个方面包括在下文充分描述且在权利要求书中特别指出的特征。以下描述和附图详细陈述了该一个或多个方面的说明性的特征。这些特征仅表示利用各方面原理的各种方式，而本公开旨在涵盖所有此类方面以及其等效物。

附图说明

以下将结合附图来描述所公开的各个方面，这些附图是用来说明而不是限制所公开的各个方面。

图1示出了根据一个实施例的可以实现所描述的技术的示例性环境。

图2示出了根据一个实施例的应用聊天机器人的示例性系统。

图3和图4分别示出了根据一个实施例的示例性用户界面(UI)。

图5至图8分别示出了根据一个实施例的示例性对话聊天流。

图9示出了根据一个实施例的用于通过快速控制按钮控制语音消息的提供的示例性过程。

图10示出了根据一个实施例的用于生成知识消息的示例性过程。

图11示出了根据一个实施例的用于训练语言模型的示例性过程。

图12示出了根据一个实施例的示例性用户-应用使用数据库。

图13示出了根据一个实施例的从用户数据收集信息的示例。

图14示出了根据一个实施例的从网络数据收集信息的示例。

图15示出了根据一个实施例的用户数据和网络数据的示例性链接。

图16示出了根据一个实施例的用于生成知识消息的示例性过程。

图17示出了根据一个实施例的用于生成事件浏览知识的示例性过程。

图18示出了根据一个实施例的示例性事件浏览知识。

图19示出了根据一个实施例的用于通过智能自动聊天提供基于语音的知识的示例性过程。

图20示出了根据一个实施例的用于通过智能自动聊天提供基于语音的知识的示例性装置。

图21示出了根据一个实施例的示例性计算系统。

具体实施方式

以下将结合若干示例性实施方式来阐述本公开。应该理解，阐述这些实施方式仅仅是为了使本领域技术人员能够更好地理解并且从而实施本公开的实施例，而不表示对本公开的范围的任何限制。

图1示出了根据一个实施例的能够实现所描述的技术的示例性环境100。

在示例性环境100中，网络110用于将终端装置120、应用服务器130和聊天机器人服务器140互连在一起。

网络110可以是能够将网络实体互连在一起的任何类型的网络。网络110可以是单个的网络或者是各种网络的组合。从覆盖范围方面来说，网络110可以是局域网(LAN)、广域网(WAN)等。从承载媒介方面来说，网络110可以是有线网络、无线网络等。从数据交换技术方面来说，网络110可以是电路交换网络、分组交换网络等。

终端设备120可以是能够进行连接到网络110、通过网络110访问服务器或网站、处理数据或信号等操作的任何类型的计算设备。例如，终端设备120可以是台式计算机、膝上型计算机、平板电脑、智能电话、音箱等。尽管在图1中仅示出了一个终端设备120，但是应该理解，不同数量的终端设备可能连接到网络110。

终端设备120可以包括可为用户提供聊天服务的聊天机器人客户端122。在一些实现中，终端设备120处的聊天机器人客户端122可以是与由聊天机器人服务器140提供的聊天机器人服务相对应的独立客户端应用。在另一些实现中，终端设备120处的聊天机器人客户端122可以在第三方应用中实现，如第三方即时消息(IM)应用。举例来说，第三方IM消息包括MSN^TM、ICQ^TM、SKYPE^TM、QQ^TM、WeChat^TM等。

聊天机器人客户端122与聊天机器人服务器140通信。例如，聊天机器人客户端122将用户输入的消息发送到聊天机器人服务器140，并且接收来自聊天机器人服务器140的与该消息相关联的响应。聊天机器人客户端122和聊天机器人服务器140可统称为聊天机器人。由于通常情况下用户和聊天机器人之间的对话是以查询-响应的方式进行的，所以用户输入的消息通常被称为查询，而聊天机器人输出的答复通常被称为响应。查询-响应对可以被记录为用户日志数据。应该理解，在一些实现中，在不与聊天机器人服务器140进行交互的情况下，聊天机器人客户端122也可以本地生成针对用户输入的查询的响应。

在聊天机器人和用户之间的对话期间，应用124可以被激活。例如，应用124可与触发词列表相关联。当决定了用户的输入与触发词之一相匹配时，聊天机器人可以在该对话期间激活该应用。

在一些实现中，应用124可以在应用服务器130处实现，应用服务器130可以是第三方应用服务器。例如，在应用124在该对话期间是活动的同时，将来自用户的查询经由聊天机器人发送给应用服务器130，并将来自应用服务器130的响应经由聊天机器人发送给用户。在另一些实现中，应用124可以在聊天机器人服务器140处实现，在这种情况下，应用模块142可以在聊天机器人服务器140处实现。由聊天机器人服务供应商提供的应用和/或由第三方应用供应商提供的应用可以在应用模块142处实现。聊天机器人可以在应用模块142处调用应用，以便在该对话期间激活该应用。在一些实现中，根据一个实施例，应用124可用于通过智能自动聊天提供基于语音的知识。

应该理解，与聊天机器人服务相关联的应用124也可以被称为特征、功能、小应用之类的名称，其用于在与用户的机器对话期间满足该用户的相对独立的需求。

应该理解，图1所示的所有网络实体均是示例性的，并且根据具体的应用需求，环境100中还可能包含任何其他网络实体。

图2示出了根据一个实施例的示例性聊天机器人系统200。

系统200可以包括用户界面(UI)210。UI 210可以在聊天机器人客户端122处实现，其提供用于用户和聊天机器人之间进行交互的可视聊天窗口。UI 210也可以完全由声音输入和输出来实现，而不使用可视聊天窗口。

图3示出了UI 210的示例。聊天窗口320显示在计算设备300上。聊天窗口320包括呈现区域322、控制区域324和输入区域326。呈现区域322在用户和聊天机器人之间的对话中呈现查询和响应，图标310表示聊天机器人。控制区域324包括用于用户执行消息输入设置的多个虚拟按钮。例如，通过控制区域324，用户可以进行语音输入、附加图像文件、选择表情符号以及创建当前屏幕的快捷方式等。根据一个实施例，控制区域324包括新的虚拟按钮328，其被用于快速触发基于语音的知识共享应用，以及快速控制语音知识的提供。输入区域326用于用户输入消息。例如，用户可以通过输入区域326键入文本。控制区域324和输入区域326可统称为输入单元。用户也可以通过输入单元与AI聊天机器人进行语音通话或视频对话。

例如，在如图3所示的UI中，用户输入消息“你吃早餐了吗”，作为查询，而聊天机器人可以输出消息“吃了，你呢”，作为响应。在接收到指示用户点击或触摸按钮328的信号之后，聊天机器人激活语音知识共享应用并输出语音消息或语音知识。应该理解，在这里，术语“语音消息”和“语音知识”可以互换使用。应该理解，图3的呈现区域322中所示的“按钮328被点击”用于指示用户点击快速控制按钮322的操作，但是实际上，这个消息可能不被输出在UI中。

图4示出了作为终端设备120的示例的音箱400。尽管在该音箱上没有屏幕，但是如在图3的呈现区域322中呈现的对话中的消息流可以以声音的形式通过使用麦克风420和扬声器430(作为输入/输出单元)来实现。在图4中，以声音的形式实现UI 210。图标410表示聊天机器人。音箱400包括按钮410，其用于快速触发基于语音的知识共享应用以及快速控制语音知识的提供。例如，在接收到指示用户操作按钮410的信号之后，聊天机器人激活语音知识共享应用并输出语音消息，类似于参考图3中所示的按钮328的描述。

来自用户的查询被传送到查询队列232，查询队列232临时存储用户的查询。用户查询可以是各种形式，包括文本、声音、图像、视频等。当然，如图4中所示，输入到非可视UI中的用户查询采用声音的形式。

核心处理模块220可以将查询队列232中的消息或查询作为其输入。在一些实现中，可以以先进先出的方式处理或响应队列232中的查询。

核心处理模块220可以调用应用程序接口(API)模块250中的处理单元以处理各种形式的消息。API模块250可以包括文本处理单元252、语音处理单元254、图像处理单元256等。

对于文本消息，文本处理单元252可以对文本消息执行文本理解，并且核心处理模块220可以进一步确定文本响应。

对于语音消息，语音处理单元254可以对语音消息执行语音到文本转换以获得文本，文本处理单元252可以对获得的文本执行文本理解，并且核心处理模块220可以进一步确定文本响应。如果确定要以语音的形式提供响应，则语音处理单元254可以对该文本响应执行文本到语音转换以生成相应的语音响应。

对于图像消息，图像处理单元256可以对图像消息执行图像识别以生成相应的文本，并且核心处理模块220可以进一步确定文本响应。例如，当接收到来自用户的一副狗的图像时，AI聊天系统可以确定狗的种类和颜色，并进一步给出若干评论，例如“多么可爱的德国牧羊犬！你一定非常喜欢它”。在某些情况下，图像处理单元256也可以用于基于该文本响应获得图像响应。

此外，尽管未在图2中示出，API模块250可以包括任何其他处理单元。例如，API模块250可以包括视频处理单元，用于与核心处理模块220合作以处理视频消息并确定响应。再例如，API模块250可以包括用于支持基于位置的服务的基于位置的处理单元。

系统200中的基于语音的知识提供模块280可以实现向用户提供语音知识的功能或应用。语音数据库290存储准备的语音消息，该语音消息可以由基于语音的知识提供模块280提供给用户。语音数据库290还可以存储准备的文本消息，该文本消息可以通过使用文本到语音(TTS)API被转换成语音消息，以便通过基于语音的知识提供模块280将该语音消息提供给用户。语音数据库290还可以存储准备的文本消息和转换的语音消息。在这三种情况中的任一种情况下，该语音消息和/或该文本消息可以被统称为知识消息。

核心处理模块220可以响应于用户查询通过索引数据库260来确定响应。索引数据库260可以包括多个索引项目，这些索引项目可由核心处理模块220获取作为响应。索引数据库260中的索引项目可以被分类为问答对索引集合262和纯聊天索引集合264。问答对索引集合262中的索引项目是问答对的形式，并且该问答对索引集合262可以包括与诸如应用124的应用相关联的问答对。应该理解，尽管语音数据库290被示为单独的数据库，但是语音数据库290可以被实现为问答对索引集合262的一部分，其与在基于语音的知识提供模块280上实现的基于语音的知识提供应用相关联。

纯聊天索引集合264中的索引项目是为用户和聊天机器人之间的闲聊而准备的，并且可以是也可以不是问答对的形式。应该理解，术语问答对也可以被称为查询-响应对或任何其它合适的术语。

可以将由核心处理模块220确定的响应提供给响应队列或响应高速缓存234。响应队列或响应高速缓存234中的响应可被进一步传送到用户界面210，以便可以以合适的顺序将该响应呈现给用户。

系统200中的用户数据库270记录在用户和聊天机器人之间的对话中出现的用户数据。用户数据库270可包括用户日志数据库272和用户-应用使用数据库274。

用户日志数据库272记录在用户和聊天机器人之间的对话中出现的消息。例如，用户日志数据库272记录纯聊天的用户日志数据。再例如，用户日志数据库272不仅记录纯聊天的用户日志数据，而且还记录应用活动期间出现的用户日志数据。用户日志数据可以是查询-响应对形式，或者是任何其他合适的形式。

用户-应用使用数据库274可用于存储与聊天机器人或AI聊天服务相关联的应用的每个用户的使用信息。用户数据库270可以为基于语音的知识提供模块280提供信息，以便考虑到不同用户组的兴趣来准备语音知识。

图5示出了根据一个实施例的用户和聊天机器人之间的示例性聊天流500。

在该聊天流或对话中，聊天机器人主动向用户推荐基于语音的知识提供应用，例如，聊天机器人呈现消息“你知道玲奈的语音广播吗？”，在这里玲奈是聊天机器人的名字。从用户收到肯定的答复“告诉我”之后，该应用被激活并且语音消息被输出。

聊天机器人可以基于一些条件为用户选择语音消息。例如，聊天机器人可以基于用户的历史使用数据来识别用户的兴趣，并且基于用户的兴趣选择语音消息。聊天机器人可以识别用户所属的用户组的特殊兴趣，并且基于该用户组的兴趣选择语音消息。聊天机器人可以识别当前最流行的新闻，并且为该用户选择与该新闻相关的语音消息。聊天机器人可以为在第二用户组中但不在第一用户组中的用户选择在第一用户组中流行的语音消息。有时，以这种方式推送的语音消息会为知识共享带来意想不到的效果。应该理解，本公开不限于用于为用户选择语音消息的任何具体标准。

在正在播放语音消息时，当从用户接收到诸如“够了”、“停止”等否定消息时，聊天机器人停止播放该语音消息。当从用户接收到诸如“再来一条”、“下一个”等的消息时，聊天机器人可以输出下一语音。当从用户接收到诸如“有趣”的肯定消息时，聊天机器人可以推荐以主动的方式向用户提供语音消息。例如，聊天机器人可以推荐每天提供语音消息。该推荐可以以图5所示的方式进行，“玲奈想要明天向你发送问候消息”。在响应于该推荐收到诸如“好的”的肯定消息之后，聊天机器人可以设置该用户的配置以便每天提供语音消息或新闻。

在正在播放语音消息时，当从用户接收到诸如“暂停”的消息时，聊天机器人可以暂停播放当前语音消息。并且，当接收到诸如“恢复”的查询时，聊天机器人可以恢复该当前语音消息的播放。

图6示出了根据一个实施例的用户和聊天机器人之间的示例性聊天流600。

如果用户确认了每天提供语音消息的推荐，则诸如语音消息602的语音消息会每天呈现在对话中，例如可以每天上午6:00自动呈现。当用户点击语音消息602或者点击快速控制按钮328或440时，语音消息被播放。

当用户输入诸如“下一个、连续的”的消息时，可以依次播放后续语音消息，直到接收到指示暂停或停止的用户的输入。该语音消息的连续输出也可以被实现为默认设置。例如，在用户点击第一消息602之后，消息602以及后续的消息可以被依次播放，直到接收到进一步的用户输入。

图7示出了根据一个实施例的用户和聊天机器人之间的示例性聊天流700。

当用户在纯聊天模式中输入消息“玲奈，我想看电影‘龙猫’”时，聊天机器人可以识别与语音数据库290中的语音消息相关联的关键字“龙猫”。聊天机器人可以推荐为用户提供与“龙猫”相关的语音消息。在从用户接收到肯定答复“好的”之后，聊天机器人可以激活基于语音的知识提供应用并提供与“龙猫”相关的语音。应该理解，尽管这里描述了语音消息被存储在语音数据库中，但是也可能将对应于该语音消息的文本消息存储在该语音数据库中，在其被输出给用户之前选择文本消息并将其转换成语音。该语音消息和文本消息是语音数据库290中的知识消息的示例。为了简化描述，本公开将语音消息作为知识消息的示例进行描述。

类似地，从用户的输入“有趣！我现在突然想吃春卷了”，聊天机器人可以识别关键词“春卷”。聊天机器人可以推荐提供与“春卷”相关的语音消息，并且可以在接收到肯定答复“好的”之后在对话中提供该语音。

应该理解，多于一个关键词可以与一个语音消息相关联。语音消息的关键词不限于词级关键词，也可以是短语级关键词或句子级关键词。可以通过使用相似度评分模块来实现用户的查询和语音消息的关键词之间的匹配。

图8示出了根据一个实施例的用户和聊天机器人之间的示例性聊天流800。

在接收到作为基于语音的知识提供应用的关键词语的示例的诸如“60秒语音”、“语音共享”、“语音新闻”、“新广播”等用户查询之后，聊天机器人可以激活基于语音的知识提供应用并为该用户提供语音消息。在该应用处于活动状态期间，当接收到诸如“任何有趣的事”的用户查询时，聊天机器人可以向该用户输出与一些语音消息相关联的一些关键词，例如“唐纳德·特朗普”、“中国菲律宾”、“英特尔收购Mobilieye”、“新电影”、“巴塞罗那逆转”等等。在接收到用户的输入“英特尔”或者“英特尔收购Mobilieye”后，与关键词“英特尔收购Mobilieye”相关联的语音消息被输出。

如图5-8中所示，基于用户输入的查询，通过可视UI或非可视UI来触发或控制对语音消息的提供。可以通过按钮328或440来触发或控制语音消息的提供。

图9示出了根据一个实施例的用于通过快速控制按钮控制对语音消息的提供的示例性过程900。

在状态一910，基于语音的知识提供应用未被激活，或者在该应用处于活动状态时没有语音消息被选择。将显示为点击次数的参数设置为0以表示状态一。

如标号1所示，在接收到对诸如按钮328或440的语音按钮的点击或轻触之后，聊天机器人为该用户选择语音消息并在与该用户的对话中输出该语音消息，并且该过程进行到状态二920。在920，当前语音消息正在被播放。将点击次数设置为1以表示状态二。

如标号2所示，在播放当前语音期间接收到对该语音按钮的点击之后，聊天机器人暂停播放该当前语音，并且该过程进行到状态三930。将点击次数设置为2以表示状态三。

如标号3所示，在状态三中接收到对该语音按钮的点击之后，聊天机器人恢复该当前语音的播放，并且该过程进行到状态二920。

如标号4所示，在完成该当前语音的播放之后，该过程进行到状态一。应该理解，尽管如标号1所示在接收到对该语音按钮的点击之后，该过程将进行到状态二，但是在一些其他实现中，聊天机器人还可以根据用户设置自动地选择和输出下一语音而不需要用户的操作，并且该过程进行到状态二。

如标号5所示，在状态二或状态三中接收到对该语音按钮的双击或长按操作之后，聊天机器人停止该当前语音，并且该过程进行到状态一。

应该理解，图9的控制过程是说明性的而不旨在于限制本公开的范围。例如，在状态二或状态三中对该语音按钮的双击可以指示在放弃当前语音消息的同时提供下一语音消息，并且该过程进行到状态二，而对该语音按钮的长按操作可以指示当前语音消息的中断或停止，并且该过程进行到状态一。

图10示出了根据一个实施例的用于生成语音知识的示例性过程1000。

在1010，从诸如各种网站的各种资源收集网络数据。该资源的示例包括社交网络、知识相关网站、网络门户等。例如，可以使用爬虫程序从网站的新闻频道列表收集新闻。收集的新闻数据是网络数据的示例，收集的新闻数据可能包括新闻的文本、图像以及用户对该新闻的评论。再例如，可以从网站收集与电影、食品、音乐等各种话题相关的网络数据。可以周期性地执行网络数据的收集。以新闻挖掘为例，可以每天执行新闻数据的收集，以便及时地提供基于语音的新闻。

在1020，对网络数据执行摘要处理。以从网站获取的一条新闻为例。由于新闻的内容和新闻之后的评论通常相对较长，所以包括新闻内容和评论在内的全部文本的语音可能太长了。对新闻内容和新闻之后的评论进行摘要，以确保该新闻的要点可以被包含在一段预定长度的语音中，例如，该语音的长度是60秒。通过这种方式，对应于该知识消息的语音消息或语音可以被限制在预定时间长度内。

可以训练机器学习模型以执行对诸如新闻的网络数据的摘要。该机器学习模型可以被称为文本摘要模型。

在一个实现中，可以训练梯度提升决策树(GBDT)模型以对诸如新闻文档的给定文档的句子进行评分。可以选择具有最高得分的前N个句子作为该文档的最终摘要。基于语音消息的预定义长度来确定包含在该摘要中的句子的数量N。为了确定该数量N，确保包括在前N个句子中的词语的数量是最接近可以在预定时间长度(例如60秒)内朗读的。具体地，可以基于该语音的预定义速度来确定可以在该预定时间长度内朗读的词语的数量。然后，可以确定摘要中的句子的数量N，使得这些句子中的词语的数量最接近但不超过可以在预定时间长度内朗读的词语的数量。因此，由该摘要转换的该语音消息接近但不超过该预定时间长度。

为了构建训练数据，给定诸如具有多个句子的新闻文档的文档，人们手动地注释应该被包括在该文档的摘要中的句子的子集。也就是说，所选择的句子被分配“1”的标签，其指示所选择的句子是肯定的并且应该被包括在该摘要中，而剩余的句子被分配“0”的标签，其指示该剩余的句子是否定的并且不应该被包括在该摘要中。

为了训练GBDT模型，对于文档中的句子，可以使用以下特征中的至少一个：

1.当前句子的情绪分析(SA)标签是否与该文档的(平均)SA标签相似。

2.当前句子与该新闻的标题共享的词语的数量。

3.当前句子与已经在该摘要中的句子共享的词语的数量。

4.当前句子的长度(即，词语的数量)。

5.当前句子的长度与该文档中的句子的平均长度之间的长度差。

6.当前句子的长度与当前摘要中的句子的平均长度之间的长度差。

7.当前句子中的词语与该新闻的标题中的词语之间的(最大和/或平均)词到向量(word2vec)相似度。

8.当前句子中的词语与当前摘要中的词语之间的(最大和/或平均)词到向量(word2vec)相似度。

9.当前句子和该新闻的评论之间共享的词语的数量(如果用户在评论中重复一个词语，则该词语吸引该用户的更多关注)。

应该理解，用于该文本摘要模型的特征是说明性的而不旨在于限制本公开的范围，并且更多或更少的特征可以用于该文本摘要模型。

在1030，将该摘要的文本转换成符合聊天机器人的虚拟人格的人格特定文本。人格的示例包括年龄、性别、职业、说话的习惯等等。在一个实现中，将聊天机器人设计为一个17岁的女孩。性别和年龄相关的词语是反映该聊天机器人的人格的重要因素。

一方面，一些词语的使用可以与人的性别和年龄有关。例如，在日文或德文中，一些词语与性别和年龄相关联地被使用。例如，对于日文中的“我”，男孩可以用“僕、俺”，而女孩要用“私、あたし”。这些词语是对性别敏感的并且不能随机地由不同性别使用。

另一方面，一些书面词语不符合聊天机器人(如一个17岁的女孩)的人格。这种书面词语可以用具有类似含义的高频口语词语来替换。在一个实现中，词到向量(word2vec)模型，其利用向量代表每个词，可以被用于在一个句子中将书面词语投射为具有相似含义的口语词语。可以手动地建立官方词语到聊天机器人词语映射列表，以确保该摘要的已被转换的文本采用聊天机器人的风格。

在1040，可以在该摘要的人格特定文本中注释情感信号和/或逻辑点的曲调。

情绪分析(SA)分类器可用于检测文本的情感。例如，可以由该SA分类器分类的情感包括愤怒、轻蔑、厌恶、恐惧、快乐、中性、悲伤、惊讶等等。

可以在以上所描述的摘要过程中识别包含在该文本中的重要词语。可以针对每个词语获得术语频率和逆文档频率(TF-IDF)得分，这可以有助于识别重要词语。

对该文本的情感和重要词语进行检测之后，可以确定情感信号和逻辑点的曲调，并在该摘要的文本中对其进行注释。可以将添加有情感和/或逻辑音调的文本作为知识消息存储在语音数据库270。可以响应于用户的输入选择文本格式的知识消息，并通过TTS模块将其转换成语音，以便向该用户输出该语音知识。

在1050，将附加有情感标签和逻辑曲调的该人格特定文本，如年龄和性别特定文本，发送到TTS模块以便被转换成符合聊天机器人的风格的语音。例如，如果将聊天机器人设计为一个17岁的高中女生，则使用由具有相似风格的人们朗读的训练语音来训练该TTS模块。因此，由该文本转换的语音可能听起来像一个十几岁的女孩。可以将语音和/或用于生成语音的人格特定文本存储在语音数据库290中，其中每个语音和/或每个文本被存储为知识消息，并且该知识消息与可用于触发该知识消息的口头表达的关键词列表相关联地被存储。

图11示出了根据一个实施例的用于训练文本转换模型和聊天机器人风格语言模型的示例性过程1100。已被训练的模型可用于在1030将摘要的文本转换成人格特定文本。

在1110，准备针对聊天机器人的目标人格或特征的种子词语列表。可以手动地收集种子词语。聊天机器人的示例可以是一个17岁的高中女生。种子词语的示例可以是“一个高中女生”、“打算明年上大学”、“申请大学”等。

在1120，使用该种子词语列表从网络收集句子，即，可以收集包含至少一个种子词语的网络句子，并且该句子的集合被称为C。例如，可以收集包括在社交网络或新闻频道中的消息，作为句子。

在1130，基于集合C，训练递归神经网络语言模型(RNNLM)。RNNLM可以计算句子的得分，该得分指示该句子符合聊天机器人的语言风格的程度。

在1140，使用词到向量(word2vec)模型将来自网络的句子s(其不包括在集合C中)重写为新句子s’。

可以训练词到向量(word2vec)模型以利用M-维(例如，M＝100、200或500)向量代表每个词语，以便计算每两个词语之间的相似度得分。该词到向量(word2vec)模型可用于针对该种子词语列表中的每个种子词语检索语义相似的词语。通过这种方式，创建从正常词语(来自网络)到种子词语之间的连接(以及替换候选)。对于句子或文本，如果可以将该正常词语变更为聊天机器人经常使用的词语，则可以将正常句子或文本转换成聊天机器人风格的句子或文本。

在1150，使用RNNLM计算网络句子s的聊天机器人风格的语言得分和新句子s’的聊天机器人风格的语言得分。应该理解，由正常词语转换成种子词语期间，该替换候选不限于一个，因此在集合C下被训练的RNNLM可用于评估每个转换。具有最高RNNLM得分的已被转换的句子将被选择。

在1160，如果网络句子s的得分或新句子s’的得分大于阈值，则指示该网络句子s是可转换句子，并且将该网络句子s添加到集合C，以便扩大集合C。

可以针对多个网络句子执行1140到1160的操作，并且在1130基于更新的集合C训练RNNLM。可以多次执行1130到1160的操作循环，以便训练RNNLM。

通过使用词到向量(word2vec)模型和RNNLM，可以将从图10的块1020获得的摘要的文本转换成聊天机器人风格的人格特定文本。该人格特定文本符合聊天机器人的人格，如年龄、性别等。例如，使用该聊天机器人经常使用的并且符合该聊天机器人的年龄和性别的词语或表达，替换该新闻的摘要的文本中的词语或表达。

图12示出了示例性的用户-应用使用数据库1200，其是图2中所示的用户-应用使用数据库274的一个示例。

数据库中有两种类型的数据，一种是称为历史数据1210的日志式数据，其存储所有用户的所有应用的历史使用，另一种是称为活动数据1220的活动式数据，其为特定用户(由用户ID标识)记录当前活动的应用的统计信息。当当前活动的应用被用户终止或者由于超时异常结束时，可以将该活动数据1220存储在历史数据单元1210中。

如1230和1240所示，历史数据和活动数据的架构是相同的，不同之处在于由于该活动应用仍在工作，该活动数据中的一些信息处于更新过程中。例如，直到该当前活动的应用结束之前，在该活动数据单元中的时间戳结束信息不可用。

用户-应用使用数据的示例性架构在1230中示出。该示例性架构包括用户ID、应用ID、时间戳开始、时间戳结束、用户查询列表、应用统计、应用会话数据、是第三方应用吗、应用所有者。应该理解，更多或更少的信息元素可以适用，并且本公开不限于特定架构1230。时间戳开始和时间戳结束指示该用户(由用户ID标识)使用的该应用(由应用ID标识)的开始时间和结束时间。该用户查询列表包括针对该应用此次使用的用户输入的查询。例如，对于烹调应用，用户查询可以是在此次使用该烹调应用的过程中输入的“如何烹调春卷”，“我想做寿司”等。该应用统计包括关于此次使用该应用的统计信息，如用户使用“六十秒语音”应用收听的回合次数。应用会话数据的示例包括该应用以正常方式终止的次数，该应用以中断的方式终止的次数(例如，该应用被另一个应用中断)。在一些实现中，可以针对单个用户和单个应用来计算该应用会话数据，而在一些其他实现中，还可以针对单个应用和所有用户来计算该应用会话数据。可以周期性地更新该应用会话数据。是否第三方应用的元素指示由该应用ID识别的该应用是否是由第三方应用供应商提供的。应用所有者指示应用供应商的信息，例如第三方开发者的名称或ID。

图13示出了根据一个实施例的从用户数据收集信息的示例1300。可以使用用户聚类模型自动地将用户聚类成多个组，并进一步将每个组与关键词列表相链接，该关键词列表进一步与事件连接。词语“事件”用来表达共享公共话题关键词的一组句子或句子级描述。用户组的数量可以反映用户关于信息的不同兴趣。

在1304，可以使用潜在狄利克雷分配(LDA，Latent Dirichlet allocation)聚类算法自动地将用户数据1302聚类成多个集群，例如集群1 1306，集群2 1308等。用户数据1302可以是存储在用户日志数据库272中的用户的日志数据和/或存储在用户-应用使用数据库274中的用户-应用使用数据。在一些实现中，收集所有用户的日志数据(例如，以查询-响应对的形式)和存储在用户-应用使用数据库中的用户查询，作为用户数据1302。

为了使该用户数据具有时间敏感性，可以将打折的权重λ/n值分配给较旧的用户数据，其中λ取值范围是(0,1]，n是该用户数据距进行聚类的时间的时间距离(例如，月数)。例如，λ可以是0.8，则对于用户数据的上个月的日志，权重是0.8，而对于用户数据的两个月前的日志，权重是0.8/2＝0.4。通过这种方式，由用户聚类过程收集的想法可以是“新鲜的”。

每个集群包括关键词列表，如在1306处示出的龙猫、海贼王等，以及在1308处示出的春卷、咖喱等。应该理解，尽管图13中示出了两个集群，但可能存在特定数量的集群，例如集群的数量可能在数百级、数千级、数万级、或者甚至数百万级。在一些实现中，可以针对各个集群明确地定义标签。在一些其他实现中，可以只用整数来注释集群。因此，该聚类算法可以仅通过预定义集群数量来进行，而不做其它配置。

在每个集群中的每个关键词附加有包含一个或多个事件的列表。集群1中的示例性关键词“龙猫”如1310所示，关键词“龙猫”附加有两个示例性事件“玲奈，我想看电影‘龙猫’”以及“玲奈，可以为我找到电影‘龙猫’吗”，如1312和1314所示。应该理解，更多或更少的事件可能附加到关键词。在一些实现中，与集群的关键词相匹配的来自用户数据1302的用户查询可以作为事件被附加到该集群的该关键词，并且发送该查询的用户可被链接到该集群。以集群1中的关键词“龙猫”为例，查询“玲奈，我想看电影龙猫”中包含关键词“龙猫”，则该查询被作为事件附加到该关键词，并且相应地该查询以及发送该查询的用户与该集群1相链接。发送包含关键词“龙猫”的查询的所有用户都可以被包括在集群1中。类似地，发送包含关键词“海贼王”的查询的所有用户都可以被包括在集群1中。最后，发送包含集群1中的任意关键词的查询的所有用户都可以被包括在集群1中。

此外，对于基于语音的知识共享应用，除了用户发送的查询以外，用户听到的知识语音也可以在上述用户聚类过程中被用作查询，因为用户听到的知识语音反映用户的兴趣。还以集群1中的关键词“龙猫”为例，听到了包含关键词“龙猫”的语音消息的用户将被分组在集群1中。

设计用户聚类模型以便更好地理解由大规模用户经常使用的词语以及经常参与的事件。并且通过该用户聚类收集到的信息有助于为具有不同兴趣的不同用户组准备语音知识。

图14示出了根据一个实施例的从网络数据收集信息的示例1400。

在1404，可以使用LDA聚类模型自动地将网络数据1402聚类为多个集群，例如集群1 1406，集群2 1408等。该网络数据1402可能来自各种网络资源，例如网络门户、社交网络、与知识有关的网站等。网络数据1402的示例可以包括来自网站的新闻、来自网站的与知识有关的内容等。

每个集群包括关键词列表，如在1406处示出的星战、龙猫等，以及在1408处示出的春卷、寿司等。应该理解，尽管图中示出了两个集群，但可能存在特定数量的集群，如上面所讨论的。

各集群中的每个关键词附加有包含一个或多个事件的列表。集群1中的示例性关键词“龙猫”如1410所示，关键词“龙猫”附加有两个示例性的事件，“‘龙猫’是一部由吉卜力工作室制作的长篇动画电影”以及“‘龙猫’的导演是宫崎骏”，如1412和1414所示。应该理解，可能有更多或更少的事件附加到关键词。在一些实现中，来自网络数据1402的句子级描述(如句子1412，1414或句子1418，1420)，与集群的关键词相匹配，其可被作为事件附加到该集群的该关键词，并且相应地该事件以及包含该事件中的至少一个的来自网络数据的文档与该集群1相链接。如图所示，将句子1412和1414附加到集群1中的关键词1410，将句子1418和1420附加到集群2中的关键词1416，并且将包含句子1412和1414之一的网络文档链接到集群1，将包含句子1418和1420之一的网络文档链接到集群2。该网络文档是从网站获得的数据，并且该网络文档的示例包括新闻(例如，新闻文档可以包括该新闻的内容以及对该新闻的用户评论)、与知识有关的文章等。

图15示出了根据一个实施例的用户集群和网络集群的示例性链接1500。图13-15中所示出的相同标号表示相同元素。

在如图13中所示由用户数据生成用户集群列表并且在如图14中所示由网络数据生成网络集群列表之后，将这两个集群列表中相似的集群统一。例如，如图15中所示，如果该用户集群列表中的集群(例如，该用户集群列表中的集群1)和该网络集群列表中的集群(例如，该网络集群列表中的集群1)共享一个关键词(例如，“龙猫”1310)，则可将被附加到该网络集群中的该关键词的事件(例如，事件1412，1414)链接到被附加到该用户集群中的该关键词的事件。这种链接是有意义的，因为用户的需求意图主要包括在来自该用户的事件中，而来自网络的事件可为准备针对由该关键词来标识的用户特殊意图的知识提供材料。因此，本公开通过利用这些数据建立新的“查询-知识对”，其中查询来自于用户，知识摘要/大纲来自于网络。通过这种方式，本公开实际上是依据用户组的兴趣为不同用户组选择知识。

在一些实现中，针对来自用户数据的查询，使用查询-知识相似度得分计算模型从网络数据中找到具有高可信度的知识。该模型的一个示例性算法如下。

对于用户集群列表中的每个用户集群Cu：

在网络集群列表中找到网络集群Cw，使得Cw与Cu共享最大数量的关键词；

对于与Cu连接的每个查询Qu：

sim_max(Qu，Dw)＝0；

对于与Cw连接的每个文档Dw：

计算相似度得分sim(Qu，Dw)，并且如果sim(Qu，Dw)>sim_max(Qu，Dw)，则记录该Dw；

sim_max(Qu，Dw)＝sim(Qu，Dw)；

如果sim_max(Qu，Dw)>＝阈值，

取(Qu，Dw)作为<查询，文档>候选对。

sim(Qu，Dw)表示Qu和Dw之间的相似度得分，sim_max(Qu，Dw)表示最大相似度得分。可以训练机器学习模块，例如，梯度提升决策树，用于计算相似度得分sim(Qu，Dw)，其指示该文档针对查询的应答准确度。查询Qu是用户集群Cu中的事件，文档Dw是以上提到的网络文档或者以上提到的该网络文档的摘要，其被链接到网络集群Cw。该阈值是预定义的值，例如，该阈值可以是0.5，其中，sim(Qu，Dw)取值范围是0到1。

应该理解，以上算法是说明性的而不旨在于限制本公开的范围，并且对于该算法可以进行适当的修改。应该理解，基于用户数据和网络数据，可以周期性地进行候选查询-文档对的查找。以新闻作为语音知识的示例，可以每天进行对于该查询-文档对的更新。

图16示出了根据一个实施例的用于生成语音知识的示例性过程1600。

在1610，基于用户数据将用户分组为用户组，如在图13中示例性地详细说明。

在1620，从诸如各种网站的各种资源收集网络数据。例如，可以使用爬虫程序从网站的新闻频道列表收集新闻，以便提供基于语音的新闻。应该理解，新闻也是本公开中所谓知识的示例。

在1630，网络数据被分组为网络组，如在图14中示例性地详细说明，其中，通过对该网络数据的分组将该网络数据的内容或文档链接到相应的网络组。

在1640，为每个用户组选择该网络数据的内容或文档。以上参考图15示出了用于为用户组选择内容或文档的示例性过程。以新闻为例，通过该选择过程，基于用户的兴趣，将新闻(包括新闻内容本身和/或对新闻的评论)链接到不同的用户组。

在1650，针对网络数据的所选择的内容或文档，执行摘要过程，如在图10的1020示例性地详细说明。

在1660，将所选择的内容或文档的摘要转换成语音消息。可以将该语音消息作为知识消息与关键词列表相关联地存储在语音数据库中。在一个实现中，可以在TTS模块直接将该摘要转换成语音。在另一个实现中，在1660处的摘要到语音的转换过程可包括1030到1050的过程，以便获得符合聊天机器人的虚拟人格的语音。在另一个实现中，可以将该摘要的文本作为知识消息与关键词列表相关联地存储在语音数据库中。

应该理解，图16中所示出的过程是说明性的而不旨在于限制本公开的范围，并且对于该算法可以进行适当的修改。步骤1610到1630的顺序不是固定的，并且可以并行地被执行。在图16中所示的过程的一个变型中，在从网站收集文档之后，可以针对该网络数据的所有文档执行该摘要过程，然后可以基于该网络文档的摘要执行1640的选择过程，并且相应地，没有必要执行步骤1650。

图17示出了根据一个实施例的用于生成事件浏览知识的示例性过程1700。

在1710，针对一个事件(如在图14中所示的事件)的种子句子，提取基本的谓词-论元结构。例如，在句子“发布Windows 95”中，被提取的谓词-论元结构是“<对象论元＝Windows 95，谓词＝发布>”。

在1720，将包括在谓词-论元结构中的关键词作为查询发送到搜索引擎，例如“必应”(Bing)等。

在1730，可以从搜索结果中获得粗略候选集。例如，可以将从该搜索引擎获得的前N个(例如，N＝10或100)结果作为粗略候选集。

在1740，对该粗略候选集中的文档执行时间敏感性整理，以获得依照时间线的与该事件相关的文档。

在1750，可以使用文本摘要模块仅提取文档的标题和提要，以使最终结果被高度概括。

在1760，可以获得具有有限数量的附加有时间点的文档提要的列表，作为事件浏览知识。图18示出了这样的列表1800，其将“发布Windows 95”作为种子句子。可以在知识卡片中制定这个列表，或者可以将其转换成语音消息，以便在AI聊天的对话中呈现给用户。来自网络的时间敏感性知识可以帮助终端用户理解与一个实体名称(如人名、地名、公司名称等)相关的事件。

应该理解，除了获得事件的时间敏感性提要作为事件浏览内容之外，还可以在相似时间点处获得与热门话题相关的内容作为事件浏览内容。例如，对于热门话题“美国总统选举”，可以获得在相似时间点处的相关内容，并且将其概括以形成具有相关内容提要的列表。然后，可以在知识卡片中形成该列表或者可以将其转换成语音消息，以便在AI聊天的对话中呈现给用户。

图19示出了用于通过智能自动聊天提供基于语音的知识的示例性过程1900。

在1910，在AI聊天系统或聊天机器人处接收输入。例如，该输入可以是从对话中的用户处接收的查询。根据一个实施例，该查询可以与基于语音的知识提供应用的关键词相匹配。该查询可以与针对由该应用提供的语音消息的关键词相匹配。再例如，该输入可以是指示对于图3或4中所示的快速控制按钮328或440的操作的信号。

在1920，响应于该输入，从一组知识消息中选择知识消息，其中，对应于该一组知识消息中的每个知识消息的语音的长度不超过预定义长度，并且优选为接近该预定义长度，例如60秒。该一组知识消息采用语音或文本的形式。

在1930中，在该智能自动聊天的对话中输出对应于所选择的知识消息的语音。

在一个实现中，该一组知识消息中的每个知识消息符合聊天机器人的虚拟人格。在第一个方面，该知识消息的内容采用聊天机器人的风格，其中，使用该聊天机器人经常说的词语来替换在该知识消息的原始内容中具有相似含义的正常词语。在第二个方面，说话的方式，诸如对应于该知识消息的语音的音调采用该聊天机器人的风格，诸如一个17岁的高中女生的说话风格。

在一个实现中，可以接收第二输入，并且响应于该第二输入执行以下中的至少一个：输出对应于下一知识消息的下一语音；依次输出对应于多个知识消息的多个语音；推荐主动推送该知识消息；输出与至少一个知识消息相关联的至少一个关键词；暂停播放该语音，其中在该播放期间接收到该第二输入，或者恢复播放该已被暂停的话音；或者停止播放该语音。

在一个实现中，该聊天机器人可以主动向用户输出与语音或知识消息相关联的关键词。例如，该聊天机器人可以在与该用户的对话中输出该用户感兴趣的关键词，并且该用户可以选择该关键词中的一个关键词以触发该聊天机器人提供相关联的知识消息。如果该用户对所推送的关键词不感兴趣，并且该用户的查询是有关于切换到另一个话题或关键词，则该聊天机器人可以为该用户重新制订关键词并将该关键词推送给该用户。通过这种方式，可以为该用户推荐他可能感兴趣的语音消息。

在一个实现中，基于输入和与知识消息相关联的关键词的匹配，在1920选择该知识消息，其中，该一组知识消息中的每个知识消息与至少一个关键词相关联。

在一个实现中，基于该用户的历史使用数据、该用户所属用户组的历史使用数据、以及该知识消息的排序中的至少一个，在1920选择知识消息。

一方面，该用户最近访问的话题可以是用于为该用户选择知识消息的一条好线索。例如，可以将有关发布新音乐的知识消息提供给经常访问或最近访问音乐数据的用户。

另一方面，对于知识消息，诸如那些与新闻有关的知识消息，可以基于新闻本身对其进行排序，并且可以基于该排序为该用户选择知识消息。

另一方面，用户组的兴趣可以反映该组中用户的兴趣，并且因此，用户组的历史使用数据也是用于为该用户组中的用户选择知识消息的一条好线索。

另一方面，可以为用户选择其与该用户的使用习惯相匹配的知识消息。例如，可以为特定用户组中的用户选择链接到该特定用户组的知识消息，因为该知识消息符合该用户组的兴趣。另一方面，可以为该用户选择与该用户的使用习惯不匹配的知识消息。例如，可以为第二用户组中的用户选择链接到第一用户组的知识消息。尽管一些知识消息不被链接到该用户所属的用户组，知识消息的此类跨组推送可以使用户更广泛地选择知识消息。在这种情况下，可以计算每对用户组之间的相对距离用于执行跨组推送。该相对距离的一个示例可以是在这些用户组中共享的用户的数量。考虑到组距离，跨组推送知识消息更可能有好的结果。例如，对音乐感兴趣的用户组更加愿意接受链接到对电影感兴趣的用户组的知识消息，因此，该用户更可能愿意接受在此类用户组之间的跨组推送，因为该两个组之间的距离比较接近。

在一个实现中，基于网络数据或同时基于网络数据和用户数据，生成该一组知识消息中的至少一部分。

在一个实现中，在生成该一组知识消息中的至少一部分的过程中，从该网络数据的内容中提取摘要，其中，每个摘要包括多个句子，基于语音的预定义长度，确定在每个摘要中的句子的数量。

可以将该摘要转换成符合聊天机器人的虚拟人格(例如为该聊天机器人设计的年龄和性别)的该一组语音消息。在一个实现中，将该摘要的文本变更为符合该聊天机器人的虚拟人格的文本，和/或将该摘要的已被变更的文本转换成符合该聊天机器人的虚拟人格的该一组语音的一部分。可以将已被变更的文本或者语音或者以上两者作为知识消息存储在语音数据库中。

在一个实现中，基于用户数据生成多个用户组，并且基于网络数据生成多个网络组。基于该多个用户组和该多个网络组，为用户集群中的每一个从该网络数据中选择诸如新闻的内容。通过将所选择的内容的摘要转换成该多个知识消息中的至少一部分，生成该多个知识消息中的至少一部分。

在一个实现中，生成沿时间线的或在相似时间点处的与话题相关的多个内容，并且通过使用与该话题相关的该多个内容的摘要，生成语音消息或知识卡片。

图20示出了根据一个实施例的一种用于通过智能自动聊天提供语音消息的示例性装置2000。

装置2000包括接收模块2010、选择模块2020和输出模块2030。接收模块2010被配置为接收输入。选择模块2020被配置成响应于该输入，从一组知识消息中选择知识消息，其中，对应于该一组知识消息中的每个知识消息的语音的长度不超过预定义长度。输出模块2030被配置为在智能自动聊天的对话中输出对应于该知识消息的语音。该一组知识消息采用语音或文本的形式。

在一个实现中，该一组知识消息中的每个知识消息符合聊天机器人的虚拟人格。

在一个实现中，接收模块2010被配置为接收查询，作为该对话中的输入。在一个实现中，接收模块2010被配置为接收指示对于控制按钮的操作的信号，作为输入。

在一个实现中，接收模块2010被配置为接收第二输入。输出模块2030被配置为响应于该第二输入执行以下中的至少一个：输出对应于下一知识消息的下一语音；依次输出对应于多个知识消息的多个语音；推荐主动推送知识消息；输出与至少一个知识消息相关联的的至少一个关键词；暂停播放该语音，其中在该播放期间接收到该第二输入，或者恢复播放该被暂停的语音；或者停止播放该语音。

在一个实现中，选择模块2020被配置为基于该输入和与该知识消息相关联的关键词之间的匹配，选择该知识消息，其中，该一组知识消息中的每个知识消息与至少一个关键词相关联。

在一个实现中，选择模块2020被配置为基于该用户的历史使用数据、该用户所属用户组的历史使用数据、以及该知识消息的排序中的至少一个，选择该知识消息。

在一个实现中，选择模块2020被配置为选择与该用户的使用习惯相匹配的知识消息。

在一个实现中，选择模块2020被配置为选择与该用户的使用习惯不匹配的知识消息。

在一个实现中，装置2000包括生成模块，其被配置为基于网络数据或者基于网络数据和用户数据，生成该一组知识消息中的至少一部分。

在一个实现中，该生成模块被配置为从网络数据的内容中提取摘要，其中，每个摘要包括多个句子，基于语音的预定义长度确定每个摘要中的句子的数量。

在一个实现中，该生成模块被配置为将摘要转换成语音，作为符合聊天机器人的虚拟人格的一组知识消息。

在一个实现中，该生成模块被配置成将该摘要的文本变更为符合该聊天机器人的虚拟人格的文本，和/或将该摘要的已被变更的文本转换成符合该聊天机器人的虚拟人格的语音。

应该理解，装置2000还可以包括任何其他模块，该任何其他模块被配置为用于执行根据以上结合图1-19所述的各实施例的用于提供基于语音的知识的方法的任何操作。

图21示出了根据一个实施例的示例性计算系统2100。

系统2100可以包括一个或多个处理器2110。系统2100可以进一步包括与该一个或多个处理器2110连接的存储器2120。

存储器2120可以存储计算机可执行指令，该计算机可执行指令在被执行时，使得该一个或多个处理器2110接收输入，响应于该输入从一组知识消息中选择知识消息，其中，对应于该一组知识消息中的每个知识消息的语音的长度不超过预定义长度，以及在该智能自动聊天的对话中，输出对应于该知识消息的语音。

应该理解，该计算机可执行指令在被执行时，使得该一个或多个处理器2110执行根据以上结合图1-20所述实施例的过程的任何操作。

本公开的实施例可以在非易失性计算机可读介质中实现。该非易失性计算机可读介质可以包括指令，该指令被执行时使得一个或多个处理器执行根据上述实施例的过程的任何操作。

应该理解，以上所描述的过程中的所有操作都仅仅是示例性的，本公开不限于该过程中的任何操作或者这些操作的执行顺序，并且应当涵盖与之具有相同或相似概念的所有其他等同物。

还应该理解，以上所描述的装置中的所有模块可以以各种方式来实现。这些模块可被实现为硬件、软件、或两者的组合。此外，任何这些模块都可以在功能上进一步被划分为子模块或被组合在一起。

结合各种装置和方法已经对处理器进行了描述。这些处理器可以使用电子硬件、计算机软件或其两者任意组合来实现。至于这些处理器是实现为硬件还是软件，将取决于特定的应用以及施加在系统上的整体设计约束。举例来说，本公开提供的处理器、处理器的任何部分、或处理器的任何组合可以利用微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑设备(PLD)、状态机、门控逻辑、离散硬件电路、以及被配置成执行本公开所描述的各种功能的其他合适的处理组件来实现。本公开提供的处理器、处理器的任何部分、或处理器的任何组合的功能可以利用由微处理器、微控制器、DSP或其他合适的平台执行的软件来实现。

软件应当被宽泛地解释成意指指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、执行线程、流程、功能等。该软件可驻留在计算机可读介质上。计算机可读介质可以包括，例如，诸如磁存储设备(如硬盘，软盘，磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器、或可移动磁盘的存储器。尽管在本公开中的各个方面中存储器被示为与处理器是分开的，但对于处理器来说，存储器可以在其内部(例如，高速缓存或寄存器)。

提供以上描述是为了使任何本领域技术人员均能实践所描述的各个方面。对于这些方面的各种修改对于本领域技术人员是显而易见的，此处定义的一般原理适用于其他方面。因此，权利要求并非旨在被限定于以上所描述的各个方面。本公开描述的各个方面中包含的各要素的为本领域普通技术人员当前或今后所知的所有结构上和功能上的等效方案以引用的方式被明确添加在此，并且旨在被权利要求所涵盖。

Claims

1.一种用于通过智能自动聊天提供基于语音的知识的方法，包括：

接收输入；

响应于所述输入，从一组知识消息中选择知识消息，其中，对应于所述一组知识消息中的每个知识消息的语音的长度不超过预定义长度；以及

在所述智能自动聊天的对话中，输出对应于所述知识消息的语音。

2.根据权利要求1所述的方法，其中，所述一组知识消息采用语音或文本的形式。

3.根据权利要求2所述的方法，其中，所述一组知识消息中的每个知识消息符合聊天机器人的虚拟人格。

4.根据权利要求1所述的方法，其中，所述接收输入包括以下之一：

接收所述对话中的查询；或者

接收指示对控制按钮的操作的信号。

5.根据权利要求1所述的方法，进一步包括：

接收第二输入；以及

响应于所述第二输入，执行以下中的至少一个：

输出对应于下一知识消息的下一语音；

依次输出对应于多个知识消息的多个语音；

推荐主动推送所述知识消息；

输出与至少一个知识消息相关联的的至少一个关键词；

暂停播放所述语音，其中在播放所述语音期间接收到所述第二输入，或者恢复播放被暂停的语音；或者

停止播放所述语音。

6.根据权利要求1所述的方法，其中，所述选择知识消息进一步包括以下之一：

基于所述输入和与所述知识消息相关联的关键词之间的匹配，选择所述知识消息，其中，所述一组知识消息中的每个知识消息与至少一个关键词相关联；

基于所述用户的历史使用数据、所述用户所属的用户组的历史使用数据、以及所述知识消息的排序中的至少一个，选择所述知识消息；

选择与所述用户的使用习惯相匹配的所述知识消息；或者

选择与所述用户的使用习惯不匹配的所述知识消息。

7.根据权利要求1所述的方法，进一步包括基于网络数据或者基于网络数据和用户数据两者，生成所述一组知识消息的至少一部分。

8.根据权利要求7所述的方法，其中，所述生成所述一组知识消息的所述至少一部分进一步包括：

从所述网络数据的内容提取摘要，其中，所述摘要中的每一个包括多个句子，基于所述语音的所述预定义长度，确定每个摘要中的句子的数量。

9.根据权利要求8所述的方法，其中，所述生成所述一组知识消息中的所述至少一部分进一步包括：

将所述摘要的文本变更为符合所述聊天机器人的虚拟人格的文本；和/或

将所述摘要的已被变更的文本转换成符合所述聊天机器人的所述虚拟人格的语音。

10.根据权利要求7所述的方法，其中，所述生成所述一组知识消息中的所述至少一部分进一步包括：

基于所述用户数据，生成多个用户组；

基于所述网络数据，生成多个网络组；

基于所述多个用户组和所述多个网络组，从所述网络数据为用户集群中的每一个选择内容；以及

通过将所选择的内容的摘要转换成所述多个知识消息中的所述至少一部分，生成所述多个知识消息中的所述至少一部分。

11.根据权利要求7所述的方法，其中，所述生成所述多个知识消息中的所述至少一部分进一步包括：

沿时间线或在相似时间点处获得与话题相关的多个内容；

通过使用与所述话题相关的所述多个内容的摘要，生成知识消息。

12.一种用于通过智能自动聊天提供基于语音的知识的装置，包括：

接收模块，其被配置为接收输入；

选择模块，其被配置为响应于所述输入，从一组知识消息中选择知识消息，其中，对应于所述一组知识消息中的每个知识消息的语音的长度不超过预定义长度；以及

输出模块，其被配置为在所述智能自动聊天的对话中，输出对应于所述知识消息的语音。

13.根据权利要求12所述的装置，其中，所述一组知识消息采用语音或文本的形式。

14.根据权利要求13所述的装置，其中，所述一组知识消息中的每个知识消息符合聊天机器人的虚拟人格。

15.根据权利要求12所述的装置，其中，所述接收模块被配置为通过以下中的一个来接收所述输入：

在所述对话中接收查询；或者

接收指示对控制按钮的操作的信号。

16.根据权利要求12所述的装置，其中，

所述接收模块被配置为接收第二输入；以及

所述输出模块被配置为响应于所述第二输入，执行以下中的至少一个：

输出对应于下一知识消息的下一语音；

依次输出对应于多个知识消息的多个语音；

推荐主动推送所述知识消息；

输出与至少一个知识消息相关联的至少一个关键词；

停止播放所述语音。

17.根据权利要求12所述的装置，其中，所述选择模块被配置为执行以下中的至少一个：

选择与所述用户的使用习惯相匹配的所述知识消息；或者

选择与所述用户的使用习惯不匹配的所述知识消息。

18.根据权利要求12所述的装置，进一步包括生成模块，其被配置为通过执行以下步骤生成所述一组知识消息中的至少一部分：

从网络数据的内容提取摘要，其中，所述摘要中的每一个包括多个句子，基于所述语音的所述预定义长度确定每个摘要中的句子的数量。

19.根据权利要求18所述的装置，其中，所述生成模块被进一步配置为：

20.一种计算机系统，包括：

一个或多个处理器；以及

存储器，用于存储计算机可执行指令，所述计算机可执行指令被执行时，使得所述一个或多个处理器：

接收输入；

响应于所述输入，从一组知识消息中选择知识消息，其中，对应于所述一组语音消息中的每个语音消息的语音的长度不超过预定义长度；以及