CN110309270B

CN110309270B - 聊天机器人的唱歌答复技术

Info

Publication number: CN110309270B
Application number: CN201810183271.3A
Authority: CN
Inventors: 周典; 栾剑; 刘诗慧; 徐翔
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-03-06
Filing date: 2018-03-06
Publication date: 2023-06-20
Anticipated expiration: 2038-03-06
Also published as: CN110309270A

Abstract

本文公开的聊天机器人的唱歌答复技术，将歌曲形式的答复融入到了聊天机器人与用户的会话中，从而增强了聊天机器人的丰富的表现力。

Description

聊天机器人的唱歌答复技术

背景技术

聊天机器人(chatterbot)是一个用来模拟人类对话或聊天的程序。随着人工智能技术的发展，聊天机器人能够与用户进行丰富的对话，并且能够通过聊天来辅助用户完成一些事务，比如，搜索信息、生成任务计划、购票等。聊天机器人与用户之间的互动变得越来越频繁，逐渐成为用户日常工作和生活的一部分。

发明内容

提供本发明实施例内容是为了以精简的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。

上述说明仅是本公开技术方案的概述，为了能够更清楚了解本公开的技术手段，而可依照说明书的内容予以实施，并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂，以下特举本公开的具体实施方式。

附图说明

图1为本发明实施例的歌曲答复的处理装置之一的应用示例框图；

图2为本发明实施例的歌曲答复的处理装置之二的应用示例框图；

图3为本发明实施例的歌曲答复的处理装置之三的应用示例框图；

图4为本发明实施例的歌曲答复的处理装置之四的应用示例框图；

图5为本发明实施例的歌曲答复的处理装置之五的应用示例框图；

图6为发明实施例的歌曲答复的处理方法的流程之一的示意图；

图7为发明实施例的歌曲答复的处理方法的流程之二的示意图；

图8为发明实施例的歌曲答复的处理方法的流程之三的示意图；

图9为发明实施例的歌曲答复的处理方法的流程之四的示意图；

图10为发明实施例的歌曲答复的处理方法的流程之五的示意图；

图11为本发明实施例的电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本文中，术语“技术”可以指代例如(一个或多个)系统、(一个或多个)方法、计算机可读指令、(一个或多个)模块、算法、硬件逻辑(例如，现场可编程门阵列(FPGA))、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)和/或上述上下文以及在本文档通篇中所允许的(一项或多项)其它技术。

随着聊天机器人的广泛应用，聊天机器人与用户之间的互动变得越来越频繁，聊天机器人的拟人化是一个很重要的发展方向。现有的聊天机器人主要是使用文本、图像或者语音对话的形式与用户进行交流，答复形式较为局限，很难表达丰富的情感，缺少丰富的表现力。本文中，将歌曲作为聊天机器人的一种交流形式引入到聊天机器人技术中，从而来增强聊天机器人的情感表现力。

在现有技术中，虽然也存在聊天机器人给用户播放歌曲的情形，但是，这种情形往往是基于用户的点歌请求，例如，用户输入“请给我播放一首《XXX》歌曲”，聊天机器人会根据用户提供的歌曲名称《XXX》去离线或者在线的区块中去检索，然后进行歌曲播放，整个过程只是一个单纯的点歌过程，并没有将歌曲融入到与用户交流中。

在本发明实施例中，将歌曲作为一种答复方式来融入得到会话中，在特定的触发条件下，或者在理解了用户的意图后，或者针对用户输入的查询内容等，选择合适的歌曲或者歌曲片段作为答复信息进行答复。其中，用户的意图、触发条件以及用户直接输入的查询内容都可以转换为查询向量，从而可以根据查询向量来生成歌曲形式的答复。其中，触发条件可以包括：时间条件、场景条件、聊天上下文中的一项或任意多项的组合。

其中，生成歌曲形式的答复可以采用如下两种方式：

方式一：在确定查询向量后，直接生成歌曲形式的答复。具体可以通过机器学习模型进行处理，生成歌曲答复，该机器学习模型可以采用大规模的歌曲形式的问答对(用户查询样本和预选的歌曲或者歌曲片段构成)进行训练。

方式二：在确定查询向量后，按照现有技术的方式先生成答复信息，然后根据答复信息去歌曲数据库中进行检索，获取到合适的歌曲后，进行歌词替换，然后形成歌曲答复。

通过上述的技术方案，在理解用户意图的基础上生成歌曲答复，能够增强聊天机器人的表现力和情感形态，从而能够与用户进行更加亲密的沟通。

下面通过具体应用示例来进一步说明一下本发明实施例的歌曲答复的处理方法及装置的相关技术方案。

具体应用示例

如图1所示，其为本发明实施例的歌曲答复的处理装置之一的应用示例框图100。图中的处理装置101可以被实现为小型因素便携式(或移动)电子装置或者设置于小型因素便携式(或移动)电子装置中。这里所说的小型因素便携式(或移动)电子装置可以是：例如，蜂窝电话、个人数据助理(PDA)、个人媒体播放器装置、无线网络观看装置、个人头戴装置、专用装置或包括以上功能中的任何一个的混合装置。处理装置101还可以被实现为台式计算机、笔记本电脑、平板电脑、专用服务器等计算机设备，或者设置于这些计算机设备中。另外，处理装置101还可以被实现为通信网络中的服务器或者设置于该服务器之中，该服务器可以通过一个或多个计算机系统实现(分布式服务器)，处理装置101也可以实现为基于云架构的云服务器或者设置于云服务器之中，该云服务器可以通过互联网与用户终端连接，为用户提供基于云的服务。

作为一种示例，图1所示的处理装置101设置于服务器102中，服务器102通信网络104与用户终端103连接。服务器102中运行有聊天机器人的后台处理系统，用户终端103中运行有聊天机器人的APP(或者网页客户端)，该APP通过通信网络104与服务器102中给的聊天机器人的后台处理系统通信连接。用户终端103中的APP通过聊天界面与用户进行会话，并将会话信息实时发送给聊天机器人的后台处理系统，该聊天机器人的后台处理系统根据用户的会话信息来识别用户意图，并生成相应的答复，然后再发送给用户终端103中的APP，并输出显示或者语音播放给用户。本发明实施例的处理装置101可以嵌入到聊天机器人的后台处理系统中。歌曲库105可以存储于服务器102的本地存储介质中，也可以存储于与服务器102连接的另一服务器或者数据库中，其中，存储知识库的服务器或者数据库可以是分布式服务器或者数据库，也可以是基于云架构的服务器或者数据库。该歌曲库105也可以是聊天机器人以外的第三方的平台提供的歌曲库。

如图1所示，上述的处理装置101包括：查询向量获取模块106、第一答复生成模块107、第一答复输出模块108。

查询向量获取模块106，用于获取查询向量。本文所说的查询向量或者查询内容等表述是一个广义的概念，不仅包含具有明确提问语义的内容，也包含会话内容，可以将会话过程分解为多个QA(问答对)形式的会话单元，其中，Q对应于用户查询，而A对应于聊天机器人的答复。

查询向量可以是根据用户的查询内容而生成的语义向量，用户的查询内容可以来自于用户直接的会话输入，例如，“今天天气如何？”、“你的心情好吗？”、“今天好累呀”等等。用户的查询内容也可以来自于对用户意图的识别，将识别出的用户意图文本化后(相当于生成了查询内容)，再转化为查询向量。

对于用户意图的识别，可以是根据聊天机器人与用户进行聊天的上下文信息而做出的分析结果，也可以根据用户执行的聊天操作以外的行为来分析用户的意图，例如，用户在与聊天机器人交流的过程中，打开了浏览器查询天气情况，这时可以识别出用的用户的意图是想要知道今天的天气情况。

第一答复生成模块107，用于根据查询向量，生成歌曲形式的第一答复。这里所说的歌曲形式的第一答复可以是歌曲片段也可以是整首歌曲。在实际应用方面，歌曲片段的答复方式会更加灵活。

第一答复输出模块108，输出第一答复。对于歌曲形式的第一答复，主要是通过扬声器进行播放的方式来输出。

以上介绍了本发明实施例的歌曲答复的处理装置的最基本结构，下面再从歌曲答复的具体生成方式上，进一步介绍一下处理装置的一些具体变形结构。

如前面所介绍的，生成歌曲形式的答复可以采用上述的方式一和方式二。具体地，如图2所示，其为本发明实施例的歌曲答复的处理装置之二的应用示例框图200，图中的处理装置201示出了上述的第一答复生成模块107的具体结构，该结构能够在确定查询向量后，直接生成歌曲形式的答复(即上述的方式一)。

如图2所示，在处理装置201中，第一答复生成模块107可以包括：歌曲答复生成模型202和第一歌曲获取模块203。

歌曲答复生成模型202，用于对查询向量进行处理，输出歌曲答复向量。其中，该歌曲答复生成模型202可以采用机器学习模型，例如神经网络模型。该机器学习模型使用大量的问答对样本进行事先的训练，该问答对样本包括查询向量样本和歌曲答复向量样本，查询向量样本和歌曲答复向量样本成对出现，构成一个问答对样本。查询向量样本可以从日常的用户语料库中进行提取，可以采用机器学习的方式从原始的文本形式的语料中提取出语义特征向量作为查询向量样本。歌曲答复向量样本可以从给定的歌曲库中进行提取，也可以采用机器学习的方式从原始的歌词文本中提取语义特征向量作为歌曲答复向量样本。在提取歌曲答复向量样本的特征过程中，也可以加入一些歌曲或者歌曲片段的旋律或者节奏等特征，这些特征可以从该歌曲或者歌曲片段的标签(事先通过人为标定)中进行提取。

这里所说的歌曲库可以是经过人工加工后的歌曲库，可以将歌曲拆分为歌曲片段，从而便于进行特征提取以及向用户输出歌曲形式的答复，还可以针对各个歌曲或者歌曲片段标记一些标签(例如，节奏、旋律、场景、心情、年代等等)，从而提供更多的特征维度。

第一歌曲获取模块203，用于根据歌曲答复向量，在歌曲库中进行检索，获取歌曲或者歌曲片段作为第一答复。如前面所介绍的，歌曲答复向量样本是从歌曲库中的歌曲中提取的，歌曲答复生成模型202输出的歌曲答复向量也是在歌曲答复向量样本的空间范围内，因此，当歌曲答复生成模型202输出了歌曲答复向量后，就可以根据歌曲答复向量在歌曲库中找到相应的歌曲或者歌曲片段。

另外，如图3所示，其为本发明实施例的歌曲答复的处理装置之三的应用示例框图300，图3所示的处理装置301在图2所示的处理装置201的基础上，增加了根据歌曲答复向量的置信度来对答复方式进行选择的机制。

在图3所示的处理装置301中，歌曲答复生成模型202可以在输出歌曲答复向量的同时，输出该出歌曲答复向量对应的置信度。由于歌曲答复向量是基于指定的歌曲库而形成的，歌词的语料范围不一定能够很好地匹配到海量的能够作为用户查询内容的语料，简单讲，歌词作为答复的内容的可选择范围还是有限的，因此，这个置信度体现了歌曲答复向量与输入的查询向量之间的匹配程度，可以根据这个置信度来选择是否采用歌曲形式的答复。

具体地，在处理装置201的基础上，处理装置301还可以包括第二答复生成模块302和第二答复输出模块303以及置信度判定模块304。

第二答复生成模块302，用于查询向量生成文本形式的第二答复。具体的方式可以采用现有技术中常规的方式来生成答复，即该第二答复可以认为是非歌曲形式的常规答复。

第二答复输出模块303，用于输出第二答复。

置信度判定模块304，用于对置信度进行判定，如果置信度在预设阈值之上，则触发第一歌曲获取模块203执行获取歌曲或者歌曲片段的而处理以及第一答复输出模块的输出处理，如果置信度低于预设阈值，则触发第二答复生成模块302执行第二答复的生成处理，并通过第二答复输出模块303输出第二答复。

图3所示的处理装置301中，通过置信度判定模块304对置信度的判定来选择是按照常规的方式生成并输出答复信息还是采用歌曲形式输出答复。从判定逻辑上来看，仍然是优先选择歌曲形式的答复。图3所示的处理装置301中，在判定了获得歌曲形式的答复不满足要求(置信度低于阈值)时，才触发生成第二答复的处理过程，从而减少系统资源的浪费，同理，在判定了歌曲形式的答复满足要求(置信度高于或者等于阈值)时，才触发进一步获取歌曲或者歌曲片段的处理，从而也能够减少系统资源的浪费。

作为一种可选择的处理方式，如图4所示，其为本发明实施例的歌曲答复的处理装置之四的应用示例框图400，与图3所示的处理装置301不同之处在于，置信度判定模块304与第二答复输出模块302连接。在这种方式下，让第二答复生成模块302预先生成第二答复，在置信度判定模块304判定歌曲答复向量的置信度不满足要求时，直接触发第二答复输出模块302输出预先生成好的第二答复，虽然这种方式可能会造成一定的资源浪费，但是，会有效提升答复信息的回复速度。

以上介绍了生成歌曲形式的答复的方式一，下面再详细介绍一下生成歌曲形式的答复的方式二。

如图5所示，如图5所示，其为本发明实施例的歌曲答复的处理装置之五的应用示例框图500，图中的处理装置501示出了上述的第一答复生成模块107的另一种具体结构，该结构先按照常规方式生成答复信息，然后再用答复信息进行歌词替换，生成歌曲答复。

如图5所示，在处理装置501中，第一答复生成模块107可以包括第二答复生成模块502、第二歌曲获取模块503以及歌词替换模块504，

第二答复生成模块502，用于根据查询向量，生成文本形式的第二答复；

第二歌曲获取模块503，用于根据第二答复，在歌曲库中进行检索，获取满足预设的匹配条件的歌曲或者歌曲片段。这里所说的匹配条件可以包括字数方面的条件和/或情景方面的条件。其中，字数方面的条件主要是指歌曲或者歌曲片段字数与第二答复的字数差别较小，最好是字数一样，这样在后续进行歌词替换时，可以很容易的匹配到被替换的歌曲或者歌曲片段中，对于较小的字数差异，可以通过对部分字或者词在音节上的拉长或者缩短，也能够较好匹配到被替换的歌曲或者歌曲片段中。情景方面的条件主要是指歌曲或者歌曲片段的旋律或者节奏等是否符合要回复的语言场景，比如第二答复的内容是比较积极或者让人高兴的内容，则应该选择具有欢快的旋律歌曲或者歌曲片段。

歌词替换模块504，用于将歌曲或者歌曲片段中的歌词替换为第二答复，并将歌词替换后的歌曲或者歌曲片段作为第一答复。在这种方式下，相当于对歌曲或者歌曲片段进行了重新的填词，这样的处理可以通过语音合成的技术来实现。

方式二相对于方式一而言，其对答复内容的适应性较高，一般来说，对于任何的答复内容，都可以通过歌词替换的方式来生成歌曲形式的回复，因此，其适用范围较广，灵活度较大。

以上介绍了两种方式生成歌曲答复的处理装置的具体结构。在实际应用中，可以将歌曲答复方式作为聊天机器人对用户进行答复的方式之一，在实际的会话的过程中，可以控制以歌曲形式答复的会话比例。具体可以根据答复策略来控制正常会话和以歌曲形式答复的会话的比例，比如，可以将歌曲形式答复的概率控制在20％。

此外，触发进行歌曲回复的时机或者场景可以灵活地设定，例如可以在如下条件下触发歌曲回复：

1)用户主动要求聊天机器人唱歌

2)通过用户的输入来触发歌曲答复，例如，用户输入了一段文字、声音、视频或者图片等信息，经过分析用户意图，发现适合进行歌曲答复。

3)通过用户的行为触发歌曲答复，例如，用户停止了会话进入沉默状态，换了一个地理位置，触摸或者晃动聊天机器人界面。

4)在合适的时间触发歌曲答复，例如，用户的生日，纪念日，节日等。

5)用户通过对聊天机器人的设置而将聊天机器人设置为歌曲答复模式。

以上列出了一下可能的触发条件，在实际应用中，可以将这些触发条件识别为用户意图，然后，再根据用户意图生成查询向量，从而进一步生成歌曲回复。

以上介绍了本发明实施例的歌曲答复的处理装置的几个应用示例，下面介绍一下本发明实施例的歌曲答复的处理方法的执行流程。

如图6所示，其为本发明实施例的歌曲答复的处理方法的流程之一的示意图600。图6所示的处理流程对应于图1中处理装置101的执行处理，具体地，该处理方法可以包括：

S601：获取查询向量。该步骤的处理可以由处理装置101的查询向量获取模块106来执行。

S602：根据查询向量，生成歌曲形式的第一答复。该步骤的处理可以由处理装置101的第一答复生成模块107来执行。

S603：输出第一答复。该步骤的处理可以由处理装置101的第一答复输出模块108来执行。

如图7所示，其为本发明实施例的歌曲答复的处理方法的流程之二的示意图700。图7所示的处理流程对应于图2中处理装置201的执行处理，具体地，该处理方法可以包括：

S701：获取查询向量。该步骤的处理可以由处理装置201的查询向量获取模块106来执行。

S702：将查询向量输入到歌曲答复生成模型中进行处理，输出歌曲答复向量。该步骤的处理可以由处理装置201的歌曲答复生成模型202来执行。该歌曲答复生成模型可以采用机器学习模型，例如神经网络模型。该机器学习模型使用大量的问答对样本进行事先的训练，该问答对样本包括查询向量样本和歌曲答复向量样本，查询向量样本和歌曲答复向量样本成对出现，构成一个问答对样本。

S703：根据歌曲答复向量，在歌曲库中进行检索，获取歌曲或者歌曲片段作为第一答复。该步骤的处理可以由处理装置201的第一歌曲获取模块203来执行。

S704：输出第一答复。该步骤的处理可以由处理装置201的第一答复输出模块108来执行。

如图8所示，其为本发明实施例的歌曲答复的处理方法的流程之三的示意图800。图8所示的处理流程对应于图3中处理装置301的执行处理，具体地，该处理方法可以包括：

S801：获取查询向量。该步骤的处理可以由处理装置301的查询向量获取模块106来执行。

S802：将查询向量输入到歌曲答复生成模型中进行处理，输出歌曲答复向量和该歌曲答复向量对应的置信度。该步骤的处理可以由处理装置301的歌曲答复生成模型202来执行。

S803：对置信度进行判定，如果置信度在预设阈值之上，则执行S804，如果置信度低于预设阈值，则执行S806。该步骤的处理可以由处理装置301的置信度判定模块304来执行。

S804：根据歌曲答复向量，在歌曲库中进行检索，获取歌曲或者歌曲片段作为第一答复。该步骤的处理可以由处理装置301的第一歌曲获取模块203来执行。

S805：输出第一答复，然后结束流程。该步骤的处理可以由处理装置301的第一答复输出模块108来执行。

S806：根据查询向量生成文本形式的第二答复。该步骤的处理可以由处理装置301的第二答复生成模块302来执行。

S807：输出第二答复，然后结束流程。该步骤的处理可以由处理装置301的第二答复生成模块303来执行。

如图9所示，其为本发明实施例的歌曲答复的处理方法的流程之四的示意图900。图9所示的处理流程对应于图4中处理装置401的执行处理，具体地，该处理方法可以包括：

S901：获取查询向量。该步骤的处理可以由处理装置401的查询向量获取模块106来执行。

S902：将查询向量输入到歌曲答复生成模型中进行处理，输出歌曲答复向量和该歌曲答复向量对应的置信度。该步骤的处理可以由处理装置401的歌曲答复生成模型202来执行。

S903：根据查询向量生成文本形式的第二答复。需要说明的是，该步骤与S902无先后顺序关系，可以并行执行。该步骤的处理可以由处理装置401的第二答复生成模块302来执行。

S904：对置信度进行判定，如果置信度在预设阈值之上，则执行S905，如果置信度低于预设阈值，则执行S907。该步骤的处理可以由处理装置401的置信度判定模块304来执行。

S905：根据S902中生成的歌曲答复向量，在歌曲库中进行检索，获取歌曲或者歌曲片段作为第一答复。该步骤的处理可以由处理装置401的第一歌曲获取模块203来执行。

S906：输出第一答复，然后结束流程。该步骤的处理可以由处理装置401的第一答复输出模块108来执行。

S907：输出S903中生成的第二答复，然后结束流程。该步骤的处理可以由处理装置401的第二答复生成模块303来执行。

如图10所示，其为本发明实施例的歌曲答复的处理方法的流程之五的示意图1000。图10所示的处理流程对应于图5中处理装置501的执行处理，具体地，该处理方法可以包括：

S1001：获取查询向量。该步骤的处理可以由处理装置501的查询向量获取模块106来执行。

S1002：根据查询向量，生成文本形式的第二答复。该步骤的处理可以由处理装置501的第二答复生成模块502来执行。

S1003：根据第二答复，在歌曲库中进行检索，获取满足预设的匹配条件的歌曲或者歌曲片段。该步骤的处理可以由处理装置501的第二歌曲获取模块503来执行。

S1004：将歌曲或者歌曲片段中的歌词替换为第二答复，并将歌词替换后的歌曲或者歌曲片段作为第一答复。其中，歌曲或者歌曲片段字数与第二答复的字数的差别小于预设的阈值，和/或，第二答复的情景与歌曲或者歌曲片段的情景匹配。该步骤的处理可以由处理装置501的歌词替换模块504来执行。

S1005：输出第一答复。该步骤的处理可以由处理装置501的第一答复输出模块108来执行。

以上介绍了本发明实施例的歌词答复的处理方法的各个流程，其技术细节以及相应的技术效果在之前针对处理装置的介绍中进行了详细说明，在此不再赘述。

具体实现示例

在一些例子中，上述图1至图10涉及的一个或多个模块或者一个或多个步骤或者一个或多个处理过程，可以通过软件程序、硬件电路，也可以通过软件程序和硬件电路相结合的方式来实现。例如，上述各个组件或者模块以及一个或多个步骤都可在芯片上系统(SoC)中实现。SoC可包括：集成电路芯片，该集成电路芯片包括以下一个或多个：处理单元(如中央处理单元(CPU)、微控制器、微处理单元、数字信号处理单元(DSP)等)、存储器、一个或多个通信接口、和/或用于执行其功能的进一步的电路和可任选的嵌入的固件。

如图11所示，其为发明实施例的电子设备1100的结构框图。电子设备1100包括：存储器1101和处理器1102。

存储器1101，用于存储程序。除上述程序之外，存储器1101还可被配置为存储其它各种数据以支持在电子设备1100上的操作。这些数据的示例包括用于在电子设备1100上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器1101可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

存储器1101耦合至处理器1102并且包含存储于其上的指令，所说的指令在由处理器1102执行时使电子设备执行动作，作为一种电子设备的实施例，该动作可以包括：

获取查询向量；

根据查询向量，生成歌曲形式的第一答复；

输出第一答复。

其中，根据查询向量，生成歌曲形式的第一答复包括：

将查询向量输入到歌曲答复生成模型中进行处理，输出歌曲答复向量，根据歌曲答复向量，在歌曲库中进行检索，获取歌曲或者歌曲片段作为第一答复。

其中，歌曲答复生成模型为使用问答对样本进行训练后的机器学习模型，问答对样本包括查询向量样本和歌曲答复向量样本，歌曲答复向量样本对应于歌曲库中的歌曲或者歌曲片段。

其中，歌曲答复生成模型还输出歌曲答复向量对应的置信度，动作还包括：

对置信度进行判定，如果置信度在预设阈值之上，则根据歌曲答复向量，在歌曲库中进行检索，获取歌曲或者歌曲片段作为第一答复，并输出第一答复，如果置信度低于预设阈值，则根据查询向量生成文本形式的第二答复，并输出第二答复。

其中，根据查询向量，生成歌曲形式的第一答复包括：

根据查询向量，生成文本形式的第二答复；

根据第二答复，在歌曲库中进行检索，获取满足预设的匹配条件的歌曲或者歌曲片段；

将歌曲或者歌曲片段中的歌词替换为第二答复，并将歌词替换后的歌曲或者歌曲片段作为第一答复。

其中，预设的匹配条件包括：

歌曲或者歌曲片段字数与第二答复的字数的差别小于预设的阈值，和/或，第二答复的情景与歌曲或者歌曲片段的情景匹配。

其中，获取查询向量包括：

识别用户意图，并将用户意图转化为查询向量；

或者，响应于预设的触发条件，并根据触发条件生成查询向量。

对于上述的处理操作，在前面方法和装置的实施例中已经进行了详细说明，对于上述的处理操作的详细内容同样也适用于电子设备1100中，即可以将前面实施例中提到的具体处理操作，以程序的方式写入在存储器1101，并通过处理器1102来进行执行。

进一步，如图11所示，电子设备1100还可以包括：通信组件1103、电源组件1104、音频组件1105、显示器1106、芯片组1107等其它组件。图11中仅示意性给出部分组件，并不意味着电子设备1100只包括图11所示组件。

通信组件1103被配置为便于电子设备1100和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1103经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件1103还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件1104，为电子设备的各种组件提供电力。电源组件1104可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件1105被配置为输出和/或输入音频信号。例如，音频组件1105包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1101或经由通信组件1103发送。在一些实施例中，音频组件1105还包括一个扬声器，用于输出音频信号。

显示器1106包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

上述的存储器1101、处理器1102、通信组件1103、电源组件1104、音频组件1105以及显示器1106可以与芯片组1107连接。芯片组1107可以提供处理器1102与电子设备1100中的其余组件之间的接口。此外，芯片组1107还可以提供电子设备1100中的各个组件对存储器1101的访问接口以及各个组件间相互访问的通讯接口。

示例条款

A：一种方法，包括：

获取查询向量；

根据所述查询向量，生成歌曲形式的第一答复；

输出所述第一答复。

B：根据段落A所述的方法，其中，根据所述查询向量，生成歌曲形式的第一答复包括：

将所述查询向量输入到歌曲答复生成模型中进行处理，输出歌曲答复向量，根据所述歌曲答复向量，在歌曲库中进行检索，获取歌曲或者歌曲片段作为所述第一答复。

C：根据段落B所述的方法，其中，所述歌曲答复生成模型为使用问答对样本进行训练后的机器学习模型，所述问答对样本包括查询向量样本和歌曲答复向量样本，所述歌曲答复向量样本对应于所述歌曲库中的歌曲或者歌曲片段。

D：根据段落B所述的方法，其中，所述歌曲答复生成模型还输出歌曲答复向量对应的置信度，所述方法还包括：

对所述置信度进行判定，如果置信度在预设阈值之上，则根据所述歌曲答复向量，在歌曲库中进行检索，获取歌曲或者歌曲片段作为所述第一答复，并输出所述第一答复，如果置信度低于所述预设阈值，则根据所述查询向量生成文本形式的第二答复，并输出所述第二答复。

E：根据段落A所述的方法，其中，根据所述查询向量，生成歌曲形式的第一答复包括：

根据所述查询向量，生成文本形式的第二答复；

根据所述第二答复，在歌曲库中进行检索，获取满足预设的匹配条件的歌曲或者歌曲片段；

将所述歌曲或者歌曲片段中的歌词替换为所述第二答复，并将歌词替换后的歌曲或者歌曲片段作为所述第一答复。

F：根据段落E所述的方法，其中，所述预设的匹配条件包括：

所述歌曲或者歌曲片段字数与所述第二答复的字数的差别小于预设的阈值，和/或，所述第二答复的情景与所述歌曲或者歌曲片段的情景匹配。

G：根据段落A所述的方法，其中，获取查询向量包括：

识别用户意图，并将所述用户意图转化为查询向量；

或者，响应于预设的触发条件，并根据所述触发条件生成所述查询向量。

H：一种装置，包括：

查询向量获取模块，用于获取查询向量；

第一答复生成模块，用于根据所述查询向量，生成歌曲形式的第一答复；

第一答复输出模块，输出所述第一答复。

I：根据段落H所述的装置，其中，所述第一答复生成模块包括歌曲答复生成模型和第一歌曲获取模块：

所述歌曲答复生成模型，用于对所述查询向量进行处理，输出歌曲答复向量；

所述第一歌曲获取模块，用于根据所述歌曲答复向量，在歌曲库中进行检索，获取歌曲或者歌曲片段作为所述第一答复。

J：根据段落I所述的装置，其中，所述歌曲答复生成模型为使用问答对样本进行训练后的机器学习模型，所述问答对样本包括查询向量样本和歌曲答复向量样本，所述歌曲答复向量样本对应于所述歌曲库中的歌曲或者歌曲片段。

K：根据段落I所述的装置，其中，所述歌曲答复生成模型还输出歌曲答复向量对应的置信度，所述装置还包括第二答复生成模块和第二答复输出模块以及置信度判定模块，

所述第二答复生成模块，用于根据所述查询向量生成文本形式的第二答复；

所述第二答复输出模块，用于输出所述第二答复；

所述置信度判定模块，用于对所述置信度进行判定，如果置信度在预设阈值之上，则触发所述歌曲获取模块执行获取歌曲或者歌曲片段的而处理以及第一答复输出模块的输出处理，如果置信度低于所述预设阈值，则触发所述第二答复生成模块执行所述第二答复的生成处理，并通过所述第二答复输出模块输出所述第二答复。

L：根据段落H所述的装置，其中，所述第一答复生成模块包括第二答复生成模块、第二歌曲获取模块以及歌词替换模块，

所述第二答复生成模块，用于根据所述查询向量，生成文本形式的第二答复；

所述第二歌曲获取模块，用于根据所述第二答复，在歌曲库中进行检索，获取满足预设的匹配条件的歌曲或者歌曲片段；

歌词替换模块，用于将所述歌曲或者歌曲片段中的歌词替换为所述第二答复，并将歌词替换后的歌曲或者歌曲片段作为所述第一答复。

M：根据段落L所述的装置，其中，所述预设的匹配条件包括：

N：根据段落H所述的装置，其中，获取查询向量包括：

识别用户意图，并将所述用户意图转化为查询向量；

O：一种电子设备，包括：

处理单元；以及

存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时使所述设备执行动作，所述动作包括：

获取查询向量；

根据所述查询向量，生成歌曲形式的第一答复；

输出所述第一答复。

P：根据段落O所述的电子设备，其中，根据所述查询向量，生成歌曲形式的第一答复包括：

Q：根据段落P所述的电子设备，其中，所述歌曲答复生成模型为使用问答对样本进行训练后的机器学习模型，所述问答对样本包括查询向量样本和歌曲答复向量样本，所述歌曲答复向量样本对应于所述歌曲库中的歌曲或者歌曲片段。

R：根据段落P所述的电子设备，其中，所述歌曲答复生成模型还输出歌曲答复向量对应的置信度，所述动作还包括：

S：根据段落O所述的电子设备，其中，根据所述查询向量，生成歌曲形式的第一答复包括：

根据所述查询向量，生成文本形式的第二答复；

T：根据段落S所述的电子设备，其中，所述预设的匹配条件包括：

U：根据段落O所述的电子设备，其中，获取查询向量包括：

识别用户意图，并将所述用户意图转化为查询向量；

结语

系统的多个方面的硬件与软件实现之间区别不大；使用硬件还是软件通常(但并不总是，因为在某些背景下，硬件与软件之间的选择可以变得显著)是表示成本与效率权衡的设计选择。存在可以实现在此描述的处理和/或系统和/或其它技术(例如，硬件、软件，以及/或固件)的各种承载工具，并且优选承载工具将随着部署该处理和/或系统和/或其它技术的背景而改变。例如，如果实现方确定速度和准确度最重要，则该实现方可以选择主要硬件和/或固件承载工具；如果灵活性最重要，则该实现方可以选择主要软件实现；或者，此外又另选地，该实现方可以选择硬件、软件，以及/或固件的一些组合。

前述详细描述已经经由使用框图、流程图，以及/或示例阐述了该装置和/或处理的各种实施方式。至于这种框图、流程图，以及/或示例包含一个或更多个功能和/或操作，本领域技术人员应当明白，这种框图、流程图，或示例内的每一个功能和/或操作可以单独地和/或共同地，通过宽范围的硬件、软件、固件，或者实际上其任何组合来实现。在一个实施方式中，在此描述的主旨的几个部分可以经由专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)，或其它集成格式来实现。然而，本领域技术人员应当认识到，在此公开的实施方式的一些方面整个地或者部分地可以等同地在集成电路中实现，实现为运行在一个或更多个计算机上的一个或更多个计算机程序(例如，实现为运行在一个或更多个计算机系统上的一个或更多个程序)，实现为运行在一个或更多个处理器上的一个或更多个程序(例如，实现为运行在一个或更多个微处理器上的一个或更多个程序)，实现为固件，或者实际上实现为其任何组合，并且根据本公开，设计电路和/或编写用于软件和/或固件的代码完全处于本领域技术人员的技术内。另外，本领域技术人员应当清楚的是，在此描述的主题的机制能够按多种形式作为程序产品分配，并且在此描述的主题的例示性实施方式适用，而与被用于实际执行该分配的特定类型的信号承载介质无关。信号承载介质的示例包括但不限于，以下：可记录型介质，如软盘、硬盘驱动器(HDD)、质密盘(CD)、数字通用盘(DVD)、数字磁带、计算机存储器等；和传输型介质，如数字和/或模拟通信媒介(例如，光纤线缆、波导管、有线通信链路、无线通信链路等)。

本领域技术人员应当认识到，按在此阐述的方式来描述装置和/或处理，并且此后，使用工程实践将这样描述的装置和/或处理集成到数据处理系统中是本领域内常见的。即，在此描述的装置和/或处理的至少一部分可以经由合理量的实验而集成到数据处理系统中。本领域技术人员应当认识到的是，通常的数据处理系统通常包括以下中的一个或更多个：系统单元外壳、视频显示装置、诸如易失性和非易失性存储器的存储器、诸如微处理器和数字信号处理器的处理器、诸如操作系统、驱动器、图形用户接口，以及应用程序的计算实体、诸如触摸板或触摸屏的一个或更多个交互式装置，以及/或包括反馈回路和控制电动机的控制系统(例如，用于感测位置和/或速度的反馈；用于移动和/或调节组件和/或数量的控制马达)。通常的数据处理系统可以利用任何合适商业可获组件来实现，如通常在数据计算/通信和/或网络通信/计算系统中找到的那些。

在此描述的主题有时例示了包含在不同的其它组件内或与其相连接的不同组件。要明白的是，这样描绘的架构仅仅是示例性的，并且实际上，可以实现获得相同功能的许多其它架构。在概念意义上，用于获得相同功能的组件的任何排布结构都有效地“关联”，以使获得希望功能。因此，在此为获得特定功能而组合的任两个组件都可以被看作彼此“相关联”，以使获得希望功能，而与架构或中间组件无关。同样地，这样关联的任两个组件还可以被视作彼此“可操作地连接”，或“可操作地耦接”，以获得希望功能，并且能够这样关联的任两个组件也可以被视作可彼此“操作地耦接”，以获得希望功能。可操作地耦接的具体示例包括但不限于，物理上可配合和/或物理上交互的组件和/或可无线地交互和/或无线地交互的组件和/或逻辑上交互和/或逻辑上可交互组件。

针对在此实质上使用的任何复数和/或单数术语，本领域技术人员可以针对背景和/或应用在适当时候从复数翻译成单数和/或从单数翻译成复数。为清楚起见，各种单数/多数置换在此可以确切地阐述。

本领域技术人员应当明白，一般来说，在此使用的，而且尤其是在所附权利要求书中(例如，所附权利要求书的主体)使用的术语通常旨在作为“开放式”措辞(例如，措辞“包括(including)”应当解释为“包括但不限于”，措辞“具有(having)”应当解释为“至少具有”，措辞“包括(include)”应当解释为“包括但不限于”等)。本领域技术人员还应当明白，如果想要特定数量的介绍权利要求列举，则这种意图将明确地在该权利要求中陈述，并且在没有这些列举的情况下，不存在这种意图。例如，为帮助理解，下面所附权利要求书可以包含使用介绍性短语“至少一个”和“一个或更多个”来介绍权利要求列举。然而，使用这种短语不应被认作，暗示由不定冠词“一(a)”或“一(an)”介绍的权利要求列举将包含这种介绍权利要求列举的任何特定权利要求限制于仅包含一个这种列举的发明，即使同一权利要求包括介绍性短语“一个或更多个”或“至少一个”以及诸如“一(a)”或“一(an)”的不定冠词(例如，“一(a)”或“一(an)”通常应当被解释成意指“至少一个”或“一个或更多个”)；其对于使用为介绍权利要求列举而使用的定冠词来说同样保持为真。另外，即使明确地陈述特定数量的介绍权利要求列举，本领域技术人员也应当认识到，这种列举通常应当被解释成，至少意指所陈述数量(例如，“两个列举”的仅有的列举在没有其它修饰语的情况下通常意指至少两个列举，或者两个或更多个列举)。而且，在使用类似于“A、B，以及C等中的至少一个”的惯例的那些实例中，一般来说，这种句法结构希望本领域技术人员在意义上应当理解这种惯例(例如，“具有A、B，以及C中的至少一个的系统”应当包括但不限于具有单独A、单独B、单独C、A和B一起、A和C一起、B和C一起，以及/或A、B以及C一起等的系统)。在使用类似于“A、B，或C等中的至少一个”的惯例的那些实例中，一般来说，这种句法结构希望本领域技术人员在意义上应当理解这种惯例(例如，“具有A、B，或C中的至少一个的系统”应当包括但不限于具有单独A、单独B、单独C、A和B一起、A和C一起、B和C一起，以及/或A、B以及C一起等的系统)。本领域技术人员还应当明白的是，实际上，呈现两个或更多个另选术语的任何转折词和/短语(无论处于描述、权利要求书中，还是在附图中)应当被理解成，设想包括这些术语、这些术语中的任一个，或者两个术语的可能性。例如，短语“A或B”应当被理解成，包括“A”或“B”或“A和B”的可能性。

本说明书中针对“实现方式”、“一个实现方式”、“一些实现方式”，或“其它实现方式”的引用可以意指，结合一个或更多个实现方式描述的特定特征、结构，或特性可以被包括在至少一些实现方式中，但不必被包括在所有实现方式中。前述描述中不同出现的“实现方式”、“一个实现方式”，或“一些实现方式”不必全部针对同一实现方式而引用。

虽然利用不同方法和系统描述和示出了特定示例性技术，但本领域技术人员应当明白，在不脱离要求保护的主题的情况下，可以进行各种其它修改，并且可以代替等同物。另外，在不脱离在此描述的中心概念的情况下，可以进行许多修改以使适应针对要求保护的主题的教导的特定情况。因此，要求保护的主题不限于所公开的特定示例，而是这种要求保护的主题还可以包括落入所附权利要求书及其等同物的范围内的所有实现。

尽管已经用结构特征和/或方法动作专用的语言描述了本主题，但要理解，所附权利要求书中定义的主题不必限于所描述的具体特征或动作。而是，这些具体特征和动作是作为实现该权利要求的解说性形式而公开的。

除非另外具体声明，否则在上下文中可以理解并一般地使用条件语言(诸如“能”、“能够”、“可能”或“可以”)表示特定示例包括而其他示例不包括特定特征、元素和/或步骤。因此，这样的条件语言一般并非旨在暗示对于一个或多个示例以任何方式要求特征、元素和/或步骤，或者一个或多个示例必然包括用于决定的逻辑、具有或不具有用户输入或提示、在任何特定实施例中是否要包括或要执行这些特征、元素和/或步骤。

除非另外具体声明，应理解联合语言(诸如短语“X、Y或Z中至少一个”)表示项、词语等可以是X、Y或Z中的任一者、或其组合。

本文所述和/或附图中描述的流程图中任何例行描述、元素或框应理解成潜在地表示包括用于实现该例程中具体逻辑功能或元素的一个或多个可执行指令的代码的模块、片段或部分。替换示例被包括在本文描述的示例的范围内，其中各元素或功能可被删除，或与所示出或讨论的顺序不一致地执行，包括基本上同步地执行或按相反顺序执行，这取决于所涉及的功能，如本领域技术人也将理解的。

应当强调，可对上述示例作出许多变型和修改，其中的元素如同其他可接受的示例那样应被理解。所有这样的修改和变型在此旨在包括在本公开的范围内并且由以下权利要求书保护。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种用于生成歌曲形式的答复的方法，包括：

获取查询向量；

根据所述查询向量，生成歌曲形式的第一答复；

输出所述第一答复，

其中，根据所述查询向量，生成歌曲形式的第一答复包括：

根据所述查询向量，生成文本形式的第二答复；

将所述歌曲或者歌曲片段中的歌词替换为所述第二答复，并将歌词替换后的歌曲或者歌曲片段用作所述第一答复。

2.根据权利要求1所述的方法，其中，根据所述查询向量，生成歌曲形式的第一答复包括：

3.根据权利要求2所述的方法，其中，所述歌曲答复生成模型为使用问答对样本进行训练后的机器学习模型，所述问答对样本包括查询向量样本和歌曲答复向量样本，所述歌曲答复向量样本对应于所述歌曲库中的歌曲或者歌曲片段。

4.根据权利要求2所述的方法，其中，所述歌曲答复生成模型还输出歌曲答复向量对应的置信度，所述方法还包括：

5.根据权利要求1所述的方法，其中，所述预设的匹配条件包括：

6.根据权利要求1所述的方法，其中，获取查询向量包括：

识别用户意图，并将所述用户意图转化为查询向量；

或者，

响应于预设的触发条件，并根据所述触发条件生成所述查询向量。

7.一种用于生成歌曲形式的答复的装置，包括：

查询向量获取模块，用于获取查询向量；

第一答复输出模块，输出所述第一答复，

其中，所述第一答复生成模块包括第二答复生成模块、第二歌曲获取模块以及歌词替换模块，

歌词替换模块，用于将所述歌曲或者歌曲片段中的歌词替换为所述第二答复，并将歌词替换后的歌曲或者歌曲片段用作所述第一答复。

8.根据权利要求7所述的装置，其中，所述第一答复生成模块包括歌曲答复生成模型和第一歌曲获取模块：

9.根据权利要求8所述的装置，其中，所述歌曲答复生成模型为使用问答对样本进行训练后的机器学习模型，所述问答对样本包括查询向量样本和歌曲答复向量样本，所述歌曲答复向量样本对应于所述歌曲库中的歌曲或者歌曲片段。

10.根据权利要求8所述的装置，其中，所述歌曲答复生成模型还输出歌曲答复向量对应的置信度，所述装置还包括第二答复生成模块和第二答复输出模块以及置信度判定模块，

所述第二答复输出模块，用于输出所述第二答复；

所述置信度判定模块，用于对所述置信度进行判定，如果置信度在预设阈值之上，则触发所述歌曲获取模块执行获取歌曲或者歌曲片段以进行处理并且所述第一答复输出模块输出所述第一答复，如果置信度低于所述预设阈值，则触发所述第二答复生成模块执行所述第二答复的生成处理，并通过所述第二答复输出模块输出所述第二答复。

11.根据权利要求7所述的装置，其中，所述预设的匹配条件包括：

12.根据权利要求7所述的装置，其中，获取查询向量包括：

识别用户意图，并将所述用户意图转化为查询向量；

13.一种电子设备，包括：

处理单元；以及

获取查询向量；

根据所述查询向量，生成歌曲形式的第一答复；

输出所述第一答复，

其中，根据所述查询向量，生成歌曲形式的第一答复包括：

根据所述查询向量，生成文本形式的第二答复；

14.根据权利要求13所述的电子设备，其中，根据所述查询向量，生成歌曲形式的第一答复包括：

15.根据权利要求14所述的电子设备，其中，所述歌曲答复生成模型为使用问答对样本进行训练后的机器学习模型，所述问答对样本包括查询向量样本和歌曲答复向量样本，所述歌曲答复向量样本对应于所述歌曲库中的歌曲或者歌曲片段。

16.根据权利要求14所述的电子设备，其中，所述歌曲答复生成模型还输出歌曲答复向量对应的置信度，所述动作还包括：

17.根据权利要求13所述的电子设备，其中，所述预设的匹配条件包括：

18.根据权利要求13所述的电子设备，其中，获取查询向量包括：

识别用户意图，并将所述用户意图转化为查询向量；