CN107767869A

CN107767869A - 用于提供语音服务的方法和装置

Info

Publication number: CN107767869A
Application number: CN201710883349.8A
Authority: CN
Inventors: 谢波
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-09-26
Filing date: 2017-09-26
Publication date: 2018-03-06
Anticipated expiration: 2037-09-26
Also published as: US20190096400A1; CN107767869B; US10403282B2

Abstract

本申请公开了用于提供语音服务的方法和装置。该用于提供语音服务的方法的一具体实施方式包括：获取语音输入信号；对语音输入信号的时域波形进行分析以确定语音输入信号的当前语速信息；比对当前语速信息和已获取的发出语音输入信号的用户的标准语速信息集合，并根据比对结果从预设的需求信息集合中确定出第一需求信息，其中，标准语速信息集合包括至少一个标准语速信息，预设的需求信息集合包括与标准语速信息集合中的各标准语速信息对应的需求信息；根据第一需求信息以及解析语音输入信号获取的第二需求信息生成语音响应信号。该实施方式能够提升语音服务与用户潜在需求的匹配度，实现了更灵活、更精准的语音服务。

Description

用于提供语音服务的方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及语音技术领域，尤其涉及用于提供语音服务的方法和装置。

背景技术

人工智能(Artificial Intelligence，AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。

人工智能领域中的语音识别技术是计算机科学领域与人工智能领域中的一个重要方向，主要用在智能语音服务技术中，对用户的发出的语音信号进行识别，而后基于识别结果生成响应信息，并通过语音合成技术将响应信息转化为语音信号输出。

现有的语音服务技术在对用户发出的语音服务请求进行响应时，大都采用将语音信号转换为对应的文字，而后对文字进行分析、检索进而确定响应策略的方式。然而，这个过程中忽略了说话人的不同语速所包含的不同的潜在需求信息，从而存在着提供的语音服务与用户需求匹配度差的问题。

发明内容

为了解决上述背景技术部分提到的一个或多个技术问题，本申请实施例提供了用于提供语音服务的方法和装置。

第一方面，本申请实施例提供了一种用于提供语音服务的方法，包括：获取语音输入信号；对语音输入信号的时域波形进行分析以确定语音输入信号的当前语速信息；比对当前语速信息和已获取的发出语音输入信号的用户的标准语速信息集合，并根据比对结果从预设的需求信息集合中确定出第一需求信息，其中，标准语速信息集合包括至少一个标准语速信息，预设的需求信息集合包括与标准语速信息集合中的各标准语速信息对应的需求信息；根据第一需求信息以及解析语音输入信号获取的第二需求信息生成语音响应信号。

在一些实施例中，上述比对当前语速信息和已获取的发出语音输入信号的用户的标准语速信息集合，并根据比对结果从预设的需求信息集合中确定出第一需求信息，包括：比对当前语速信息和已获取的发出语音输入信号的用户的标准语速信息集合，以从标准语速信息集合中确定出与当前语速信息匹配的目标标准语速信息；在预设的需求信息集合中查找出与目标标准语速信息对应的需求信息，作为第一需求信息。

在一些实施例中，在比对当前语速信息和已获取的发出语音输入信号的用户的标准语速信息集合，并根据比对结果从预设的需求信息集合中确定出第一需求信息之前，上述方法还包括：基于语音输入信号对发出语音输入信号的用户进行识别；获取识别出的用户的标准语速信息集合。

在一些实施例中，上述根据第一需求信息以及解析语音输入信号获取的第二需求信息生成语音响应信号，包括：基于第二需求信息生成至少一个用于响应语音输入信号的候选语音信号；计算各候选语音信号与第一需求信息的关联度，根据关联度从候选语音信号中确定出语音响应信号。

在一些实施例中，上述方法还包括构建用户的标准语速信息集合的步骤，包括：获取与用户关联的历史语音服务记录，历史语音服务记录包括：用户发出的历史语音输入信号的语速信息、历史语音响应信号、用户对历史语音服务的反馈信息；筛选出反馈信息为正面反馈信息的历史语音服务对应的历史语音响应信号作为样本语音响应信号，筛选出反馈信息为正面反馈信息的历史语音服务对应的历史语音输入信号的语速信息作为样本语速信息；对样本语音响应信号进行解析以确定对应的与语速相关的第三需求信息，基于第三需求信息对语音响应信号进行聚类，根据各聚类中语音响应信号对应的样本语速信息生成各标准语速信息。

第二方面，本申请实施例提供了一种用于提供语音服务的装置，包括：获取单元，用于获取语音输入信号；分析单元，用于对语音输入信号的时域波形进行分析以确定语音输入信号的当前语速信息；确定单元，用于比对当前语速信息和已获取的发出语音输入信号的用户的标准语速信息集合，并根据比对结果从预设的需求信息集合中确定出第一需求信息，其中，标准语速信息集合包括至少一个标准语速信息，预设的需求信息集合包括与标准语速信息集合中的各标准语速信息对应的需求信息；生成单元，用于根据第一需求信息以及解析语音输入信号获取的第二需求信息生成语音响应信号。

在一些实施例中，上述确定单元进一步用于按照如下方式确定出第一需求信息：比对当前语速信息和已获取的发出语音输入信号的用户的标准语速信息集合，以从标准语速信息集合中确定出与当前语速信息匹配的目标标准语速信息；在预设的需求信息集合中查找出与目标标准语速信息对应的需求信息，作为第一需求信息。

在一些实施例中，上述装置还包括：识别单元，用于在比对当前语速信息和已获取的发出语音输入信号的用户的标准语速信息集合，并根据比对结果从预设的需求信息集合中确定出第一需求信息之前，基于语音输入信号对发出语音输入信号的用户进行识别；并且获取识别出的用户的标准语速信息集合。

在一些实施例中，上述生成单元进一步用于按照如下方式生成语音响应信号：基于第二需求信息生成至少一个用于响应语音输入信号的候选语音信号；计算各候选语音信号与第一需求信息的关联度，根据关联度从候选语音信号中确定出语音响应信号。

在一些实施例中，上述装置还包括用于构建用户的标准语速信息集合的构建单元；构建单元用于：获取与用户关联的历史语音服务记录，历史语音服务记录包括：用户发出的历史语音输入信号的语速信息、历史语音响应信号、用户对历史语音服务的反馈信息；筛选出反馈信息为正面反馈信息的历史语音服务对应的历史语音响应信号作为样本语音响应信号，筛选出反馈信息为正面反馈信息的历史语音服务对应的历史语音输入信号的语速信息作为样本语速信息；对样本语音响应信号进行解析以确定对应的与语速相关的第三需求信息，基于第三需求信息对语音响应信号进行聚类，根据各聚类中语音响应信号对应的样本语速信息生成各标准语速信息。

本申请实施例提供的用于提供语音服务的方法和装置，通过获取语音输入信号，然后对语音输入信号进行频谱分析以确定语音输入信号的当前语速信息，而后比对当前语速信息和已获取的发出语音输入信号的用户的标准语速信息集合，并根据比对结果从预设的需求信息集合中确定出第一需求信息，其中，标准语速信息集合包括至少一个标准语速信息，预设的需求信息集合包括与标准语速信息集合中的各标准语速信息对应的需求信息，最后根据第一需求信息以及解析语音输入信号获取的第二需求信息生成语音响应信号，能够提升语音服务与用户潜在需求的匹配度，实现了更灵活、更精准的语音服务。

附图说明

通过阅读参照以下附图所作的对非限制性实施例详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的用于提供语音服务的方法的一个实施例的流程示意图；

图3是一段语音输入信号的示意性时域波形图；

图4是根据本申请的用于提供语音服务的方法的另一个实施例的流程示意图；

图5是本申请的用于提供语音服务的装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于提供语音服务的方法或用于提供语音服务的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102，网络103、以及服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户110可以使用终端设备101、102通过网络103与服务器104互，以接收或发送消息等。终端设备101、102上可以安装有各种语音交互类应用。

终端设备101、102可以是具有音频输入接口和音频输出接口并支持互联网访问的各种电子设备，包括但不限于智能手机、平板电脑、智能手表、电子书、智能音箱等。

服务器104可以是为语音服务提供支持的语音服务器，语音服务器可以接收终端设备101、102发出的语音交互请求，并对语音交互请求进行解析，然后查找相应的服务数据，生成响应数据，并将生成的响应数据返回给终端设备101、102。

需要说明的是，本申请实施例所提供的用于提供语音服务的方法可以由服务器104执行，相应地，用于提供语音服务的装置可以设置于服务器104中。

应该理解，图1中的终端设备、网络、服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络、服务器。

继续参考图2，示出了根据本申请的用于提供语音服务的方法的一个实施例的流程200。该用于提供语音服务的方法，包括以下步骤：

步骤201，获取语音输入信号。

在本实施例中，上述用于提供语音服务的方法运行于其上的电子设备(例如图1所示的服务器)可以通过网络获取根据用户发出的语音信息生成的语音输入信号。具体地，上述电子设备可以通过网络与具有音频输入接口的终端设备(例如图1所示终端设备)建立连接，终端设备可以通过音频输入接口获取用户发出的语音信息，并进行编码生成语音输入信号，然后通过网络传输至上述用于提供语音服务的方法运行于其上的电子设备。

通常，具有音频输入装置(例如麦克风)的终端设备上可以安装有语音交互应用，用户可以通过手势、特定按键或特定音频信号唤醒语音助手，然后终端设备可以检测用户发出的声音，并根据检测到的声音进行编码生成语音输入信号。之后，为了获取对语音输入信号的响应数据，终端设备可以请求与语音服务器连接，并将语音输入信号发送至语音服务器。则语音服务器可以通过网络接收该终端设备生成的语音输入信号。

步骤202，对语音输入信号的时域波形进行分析以确定语音输入信号的当前语速信息。

语音输入信号通常包括频率、音调、音强和音色等特性。在本实施例中，语音输入信号可以表示为音强随时间变化的时域波形。可以对语音输入信号的时域波形进行分析，从中提取出说话速度信息，作为语音输入信号的当前语速信息。

具体地，请参考图3，其示出了一段语音输入信号的示意性时域波形图。其中横坐标为时间(T)，纵坐标为音强(M)。通常用户说话所生成的语音输入信号的音强随时间变化，在各个波峰(如301、302)处音强较大，对应语音信号中的一个字节。这里的一个字节可以例如为中文的一个声母音节或一个韵母音节，或者是英文的一个音节。

在本实施例中，可以对语音输入信号的时域波形的波峰进行检测，然后计算相邻两个波峰之间的时间间隔，根据时间间隔确定出语音输入信号的当前语速信息。具体来说，可以依次检测波峰并记录每个波峰对应的时间，然后按照时间顺序依次计算各相邻波峰之间的时间间隔，之后对得到多个时间间隔进行聚合运算，例如计算平均值，根据计算结果确定当前语速信息。例如图3所示的语音输入信号的时域波形图中检测出8个波峰对应的时间点t1、t2、t3、t4、t5、t6、t7、t8。然后依次计算t2与t1的时间间隔Δt1、t3与t2的时间间隔Δt2、t4与t3的时间间隔Δt3、t5与t4的时间间隔Δt4、t6与t5的时间间隔Δt5、t7与t6的时间间隔Δt6以及t8与t7的时间间隔Δt7，之后可以对7个时间间隔Δt1、Δt2、Δt3、Δt4、Δt5、Δt6、Δt7取平均值，该平均值表示发出两个音节的平均时间间隔。可以将该平均时间间隔作为当前语速信息。

在本实施例的一些可选的实现方式中，在检测出波峰之后、确定当前语速信息之前，可以对检测出的波峰进行过滤。具体地，可以统计检测出的波峰的音强，然后根据检测出的音强的分布确定出置信范围，将音强在置信范围之外的波峰去除。例如当检测出的波峰中90％的音强均在m1以上时，可以将其余10％的音强在m1以下的波峰去除。这样，可以将环境噪音从语音输入信号中滤除，避免环境噪音影响当前语速信息的准确性。

步骤203，比对当前语速信息和已获取的发出语音输入信号的用户的标准语速信息集合，并根据比对结果从预设的需求信息集合中确定出第一需求信息。

标准语速信息集合可以包括至少一个标准语速信息。标准语速信息可以是用户预先注册的、或者由上述电子设备根据用户的历史语音记录学习得出的用户在某一种情绪状态下的语速信息，例如至少可以包括用户在平和的情绪状态下的语速信息。可选地，标准语速信息集合还可以包括用户在急切、激动、失落、悲伤等情绪状态下的语速信息。标准语速信息可以是语速的具体数值表示，也可以是语速的数值范围的表示，可选地，各标准语速信息可以由用户在对应的情绪状态下发出相邻两个音节所需的时间间隔来表示，也可以由单位时间内的音节数来表示。

举例来说，若用户在平和的情绪状态下的语速为0.6秒/字到0.8秒/字，在急切的情绪状态下的语速为0.3秒/字到0.5秒/字，在失落的情绪状态下的语速为0.9秒/字到1.2秒/字，可以设定该用户的标准语速信息集合包括三个标准语速信息：0.6秒/字到0.8秒/字、0.3秒/字到0.5秒/字、以及0.9秒/字到1.2秒/字，分别对应以上三种不同情绪状态下的语速。

预设的需求信息集合包括与标准语速信息集合中的各标准语速信息对应的需求信息。在这里，需求信息可以是表示用户对语音服务的情感、响应方式、响应速度等的需求的信息，可以包括但不限于情感需求信息或响应语速需求信息。在本实施例中，可以预先设定不同标准语速信息对应的需求信息。举例来说，可以根据标准语速信息对应的用户情绪状态设定对应的情感需求信息，或者可以设定响应语速信息与对应的标准语速信息一致。

在本实施例中，可以对当前语速信息和标准语速信息集合中的各标准语速信息进行比对，将比对结果中与当前语速信息最接近的标准语速信息对应的需求信息作为第一需求信息。

在本实施例的一些可选的实现方式中，可以通过如下方式来确定出上述第一需求信息：比对当前语速信息和已获取的发出语音输入信号的用户的标准语速信息集合，以从标准语速信息集合中确定出与当前语速信息匹配的目标标准语速信息，在预设的需求信息集合中查找出与目标标准语速信息对应的需求信息，作为第一需求信息。

在一个具体的示例中，标准语速信息集合中的标准语速信息以语速的数值范围来表示，若当前语速信息落入其中一个数值范围中，可以确定该数值范围所限定的标准语速信息为目标语速信息，进而可以根据预设的需求信息集合中的需求信息与标准语速信息的对应关系，查找出目标标准语速对应的需求信息作为第一需求信息。

步骤204，根据第一需求信息以及解析语音输入信号获取的第二需求信息生成语音响应信号。

在本实施例中，上述电子设备可以解析语音输入信号的内容，从而获取第二需求信息。具体地，可以将语音输入信号转换为文本信息，然后可以采用已有的需求分析方法对文本信息进行解析，以得出第二需求信息。例如可以通过切词、关键词提取来获取文本信息中的关键词，然后利用关键词匹配来确定上述第二需求信息。

然后，上述电子设备可以根据第一需求信息和第二需求信息对语音输入信号进行响应，生成语音响应信号。举例来说，若语音输入信号为急促的“播放音乐”，确定出的第一需求信息为“激烈、快速”，第二需求信息为“查找乐库中的音乐并通过扬声器播放”，则可以从音乐库中找出节奏较快、比较激烈的音乐来生成语音响应信号。

在本实施例的一些可选的实现方式中，上述步骤404可以按照如下方式执行：基于第二需求信息生成至少一个用于响应语音输入信号的候选语音信号，计算各候选语音信号与第一需求信息的关联度，根据关联度从候选语音信号中确定出语音响应信号。

具体地，在上述实现方式中，上述电子设备可以根据第二需求信息确定出多个候选语音信号。例如，当语音输入信号为“播放一些音乐”时，确定出第二需求信息为播放音乐，这时，可以选择出多个不同类型的乐曲，分别生成不同的候选语音信号。

然后，可以计算各候选语音信号与第一需求信息的关联度，具体可以提取各候选语音信号的属性特征，分别计算各候选语音信号的属性特征与第一需求信息的关联度，然后选择关联度最高的候选语音信号作为上述语音响应信号。例如，在确定出多个不同类型的乐曲来生成不同的候选语音信号后，若根据当前语速信息确定出第一需求信息为“激烈、欢快”，则可以选定节奏感较强、比较欢快的乐曲作为语音响应信号。

在生成语音响应信号之后，上述电子设备可以将语音响应信号传输至终端设备，终端设备可以通过音频输出端口(扬声器)输出语音响应信号。

本申请上述实施例的一个示例性的应用场景可以为：当用户开启智能语音设备，并询问天气情况时，若用户以高于其平均说话速度的语速说出“天气情况”，智能语音设备可以查询天气情况并简短地播报，例如：今天晴，15到23度；若用户以与其平均说话速度大约一致的语速询问“今天天气怎么样”，智能语音设备可以查询天气情况并详细播报，例如：今天白天晴间多云，北风3级，最高气温23度，夜晚晴，北风2级，最低气温15度，空气质量优。这样，可以根据用户的说话速度适应性地调整响应方式，实现了基于说话人语速的差异化服务。

本申请上述实施例的用于提供语音服务的方法，通过获取语音输入信号，然后对语音输入信号进行频谱分析以确定语音输入信号的当前语速信息，而后比对当前语速信息和已获取的发出语音输入信号的用户的标准语速信息集合，并根据比对结果从预设的需求信息集合中确定出第一需求信息，其中，标准语速信息集合包括至少一个标准语速信息，预设的需求信息集合包括与标准语速信息集合中的各标准语速信息对应的需求信息，最后根据第一需求信息以及解析语音输入信号获取的第二需求信息生成语音响应信号，能够在提供语音服务时结合用户的语速信息所包含的用户的情绪状态等进行响应，提升了语音服务与用户的潜在需求的匹配度，实现了更灵活、更精准的语音服务。

在一些实施例中，上述用于提供语音服务的方法还可以包括构建用户的标准语速信息集合的步骤。具体地，构建用户的标注语速信息集合的步骤可以包括：

S1、获取与用户关联的历史语音服务记录。其中，历史语音服务记录包括：用户发出的历史语音输入信号的语速信息、历史语音响应信号、用户对历史语音服务的反馈信息。在这里，可以通过查询语音服务日志来获取与发出语音输入信号的用户关联的历史语音服务记录。历史语音响应信号可以包括在历史语音服务中上述电子设备生成的用于响应用户的语音服务请求的语音信号，用户对历史语音服务的反馈信息可以包括用户对历史语音服务的评价、打分等信息。

S2、筛选出反馈信息为正面反馈信息的历史语音服务对应的历史语音响应信号作为样本语音响应信号，筛选出反馈信息为正面反馈信息的历史语音服务对应的历史语音输入信号的语速信息作为样本语速信息。

在步骤S2中，可以筛选出评价为正面评价(例如点赞)、打分高于预设的分数阈值的历史语音服务记录，将筛选出的历史语音服务记录中的历史语音响应信号作为样本语音响应信号，筛选出的历史语音服务记录中的历史语音输入信号的语速信息为样本语速信息。

S3、对样本语音响应信号进行解析以确定对应的与语速相关的第三需求信息，基于第三需求信息对语音响应信号进行聚类，根据各聚类中语音响应信号对应的样本语速信息生成各标准语速信息。

具体地，在步骤S3中，可以对样本语音响应信号进行转码，并对转码生成的文本信息进行解析，进而确定对应的历史服务记录中用户的与语速相关的第三需求信息。这里的第三需求信息是根据用户反馈较好的历史语音响应信息解析得出的与语速相关的需求信息，可以比较准确地表征用户在历史语音服务记录中的真实需求。与语速相关的第三需求信息可以是对应的历史语音响应信息的语速信息，也可以是从对应的历史语音响应信息中提取出的情绪状态信息，或者是对应的历史语音响应信息所包含的内容中的篇幅、复杂度等与说话速度相关的信息。

在得出第三需求信息之后，可以根据第三需求信息对语音响应信号进行聚类，将具有相同第三需求信息或相同类别的第三需求信息的语音响应信息聚为一类。之后对每个一个聚类，统计聚类内各语音响应信号对应的样本语速信息，例如统计聚类中各样本语速信息的范围或平均值，作为该聚类对应的标准语速信息。这样，可以得到与各个聚类一一对应的多个标准语速信息，进而可以生成标准语速信息集合。其中，每个标准语速信息对应相同的第三需求信息或对应相同或相似的第三需求信息，不同的标准语速信息对应不同或不相似的第三需求信息。

通过采集用户反馈信息并利用用户反馈信息来构建标准语速信息集合，可以更准确地获取到用户在不同需求状态下对应的语音响应信号的语速信息，从而可以应用在语音服务过程的需求信息识别中，以更准确地匹配用户的潜在需求。

请参考图4，其示出了根据本申请的用于提供语音服务的方法的另一个实施例的流程图。如图4所示，本实施例的用于提供语音服务的方法的流程400，可以包括以下步骤：

步骤401，获取语音输入信号。

在本实施例中，上述用于提供语音服务的方法运行于其上的电子设备(例如图1所示的服务器)可以通过网络与具有音频输入接口的终端设备(例如图1所示终端设备)建立连接，终端设备可以通过音频输入接口获取用户发出的语音信息，并进行编码生成语音输入信号，然后通过网络传输至上述用于提供语音服务的方法运行于其上的电子设备。

步骤402，对语音输入信号的时域波形进行分析以确定语音输入信号的当前语速信息。

在本实施例中，语音输入信号可以表示为音强随时间变化的时域波形。可以对语音输入信号的时域波形进行分析，检测时域波形中的波峰，然后计算相邻两个波峰之间的时间间隔，根据时间间隔确定出语音输入信号的当前语速信息。

步骤403，基于语音输入信号对发出语音输入信号的用户进行识别。

在本实施例中，可以对发出语音输入信号的用户的身份进行识别。具体地，可以采用各种声纹识别方法来进行识别。一种可选的方式为从将语音输入信号转换为频域信号，然后从采用滤波等方法从频域信号中提取出声纹特征，利用声纹特征与已注册的用户的声纹特征来进行匹配，从而确定发出语音输入信号的用户的身份。

在另一种可选的实现方式中，可以从语音输入信号中提取出音色、音调特征，利用已注册的用户的音色、音调特征进行匹配，从而确定发出语音输入信号的用户的身份。

用户可以通过终端设备(例如智能音箱等)注册自己的音频信息。终端设备可以将设备ID与从音频信息中提取出的声纹特征、音色特征、音调特征等关联地保存。则在识别用户身份时，可以根据声纹特征、音色特征、音调特征等来匹配出设备ID，进而确定用户身份。可选地，用户还可以注册自己的用户账号，终端设备可以将用户账号与从用户的音频信息中提取出的声纹特征、音色特征、音调特征等关联地保存，在识别用户身份时，可以根据声纹特征、音色特征、音调特征等来匹配出与用户账号。

步骤404，获取识别出的用户的标准语速信息集合。

在本实施例中，上述电子设备可以存储与多个不同用户关联的标准语速信息集合。用户的标准语速信息集合可以包括至少一个标准语速信息。标准语速信息可以是识别出的用户预先注册的、或者由上述电子设备根据识别出的用户的历史语音记录学习得出的用户在某一种情绪状态下的语速信息，至少可以包括用户在平和的情绪状态下的语速信息。在识别出用户的身份之后，可以根据用户账号或设备ID调取与该用户账号或设备ID关联的标准语速信息集合。这样，可以为不同用户构建个性化的标准语速信息集合，有利于根据用于的语速特性提供个性化的语音服务。

步骤405，比对当前语速信息和已获取的发出语音输入信号的用户的标准语速信息集合，并根据比对结果从预设的需求信息集合中确定出第一需求信息。

预设的需求信息集合可以包括与标准语速信息集合中的各标准语速信息对应的需求信息。在这里，需求信息可以是表示用户对语音服务的情感、响应方式、响应速度等的需求的信息，可以包括情感需求信息或响应语速需求信息。在本实施例中，可以预先设定步骤402识别出的用户的不同标准语速信息对应的需求信息。对当前语速信息和标准语速信息集合中的各标准语速信息进行比对，将比对结果中与当前语速信息最接近的标准语速信息对应的需求信息作为第一需求信息。

步骤406，根据第一需求信息以及解析语音输入信号获取的第二需求信息生成语音响应信号。

在本实施例中，上述电子设备可以将语音输入信号转换为文本信息，然后可以采用已有的需求分析方法对文本信息进行解析，以得出第二需求信息。例如可以通过切词、关键词提取来获取文本信息中的关键词，然后利用关键词匹配来确定上述第二需求信息。

上述方法流程中的步骤401、步骤402、步骤405、步骤406分别与前述实施例中的步骤201、步骤202、步骤203、步骤204相同，上文针对步骤201、步骤202、步骤203、步骤204的描述也适用于本实施中的步骤401、步骤402、步骤405、步骤406，此处不再赘述。

从图4可以看出，与图2所示实施例相比，本实施例增加了根据语音输入信号识别用户身份，并获取识别出的用户的标准语速信息集合的步骤，由此，本实施例的用于提供语音服务的方法充分考虑了不同用户的语速之间的差异，能够为用户提供个性化的语音服务。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种用于提供语音服务的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的用于提供语音服务的装置500包括：获取单元501、分析单元502、确定单元503以及生成单元504。其中，获取单元501用于获取语音输入信号，分析单元502用于对语音输入信号的时域波形进行分析以确定语音输入信号的当前语速信息，确定单元503用于比对当前语速信息和已获取的发出语音输入信号的用户的标准语速信息集合，并根据比对结果从预设的需求信息集合中确定出第一需求信息，其中，标准语速信息集合包括至少一个标准语速信息，预设的需求信息集合包括与标准语速信息集合中的各标准语速信息对应的需求信息，生成单元504用于根据第一需求信息以及解析语音输入信号获取的第二需求信息生成语音响应信号。

在本实施例中，获取单元501可以通过网络与具有音频输入接口的终端设备(例如图1所示终端设备)建立连接，从终端设备接收通过音频输入接口获取并进行编码后的用户的语音输入信号。

分析单元502可以对语音输入信号的时域波形进行分析，具体可以检测时域波形中的波峰，计算相邻两个波峰之间的时间间隔，并按照所有的相邻波峰之间的时间间隔的统计结果来估算该语音输入信号对应的说话速度，作为语音输入信号的当前语速信息。

确定单元503可以首先将当前语速信息与包含预先注册的、或者由上述电子设备根据用户的历史语音记录学习得出的用户在不同情绪状态下的语速信息生成的标准语速信息集合进行匹配。在本实施例中，上述电子设备可以获取包括多个预设需求信息的预设的需求信息集合，预设需求信息可以包括情感需求信息、响应方式需求信息、响应速度需求信息、响应信号的语速需求信息等。各预设需求信息与标准语速信息集合中的各标准语速信息的对应关系式预先定义的，这样，在确定出当前语速信息匹配的标准语速信息之后，可以快速地查找到对应的预设需求信息作为第一需求信息。

生成单元504可以对语音输入信号的内容进行解析，根据解析出的语音内容得到第二需求信息。然后，可以结合第一需求信息和第二需求信息来生成语音响应信号，即可以在网络数据中查找与第一需求信息和第二需求信息均匹配的响应信息，或利用机器学习模型等生成可同时满足第一需求信息和第二需求信息的响应信息，并将响应信息转换为语音信号，以生成语音响应信号，从而实现智能语音服务。

本申请上述实施例的用于提供语音服务的装置500，通过获取单元获取语音输入信号，然后分析单元对语音输入信号进行频谱分析以确定语音输入信号的当前语速信息，而后确定单元比对当前语速信息和已获取的发出语音输入信号的用户的标准语速信息集合，最后生成单元根据第一需求信息以及解析语音输入信号获取的第二需求信息生成语音响应信号，能够提升语音服务与用户潜在需求的匹配度，实现了更灵活、更精准的语音服务。

在一些实施例中，上述确定单元503可以进一步用于按照如下方式确定出第一需求信息：比对当前语速信息和已获取的发出语音输入信号的用户的标准语速信息集合，以从标准语速信息集合中确定出与当前语速信息匹配的目标标准语速信息；在预设的需求信息集合中查找出与目标标准语速信息对应的需求信息，作为第一需求信息。

在一些实施例中，上述装置500还可以包括：识别单元，用于在比对当前语速信息和已获取的发出语音输入信号的用户的标准语速信息集合，并根据比对结果从预设的需求信息集合中确定出第一需求信息之前，基于语音输入信号对发出语音输入信号的用户进行识别；并且获取识别出的用户的标准语速信息集合。这样，可以根据不同的用户的不同说话速度提供差异化、个性化的语音服务。

在一些实施例中，上述生成单元504可以进一步用于按照如下方式生成语音响应信号：基于第二需求信息生成至少一个用于响应语音输入信号的候选语音信号；计算各候选语音信号与第一需求信息的关联度，根据关联度从候选语音信号中确定出语音响应信号。

在一些实施例中，上述装置500还可以包括用于构建用户的标准语速信息集合的构建单元。构建单元可以用于：获取与用户关联的历史语音服务记录，历史语音服务记录包括：用户发出的历史语音输入信号的语速信息、历史语音响应信号、用户对历史语音服务的反馈信息；筛选出反馈信息为正面反馈信息的历史语音服务对应的历史语音响应信号作为样本语音响应信号，筛选出反馈信息为正面反馈信息的历史语音服务对应的历史语音输入信号的语速信息作为样本语速信息；对样本语音响应信号进行解析以确定对应的与语速相关的第三需求信息，基于第三需求信息对语音响应信号进行聚类，根据各聚类中语音响应信号对应的样本语速信息生成各标准语速信息。通过基于用户反馈来准确描述用户在各种语速状态下对语音响应信号的满意程度，进而构建用户的标准语速集合，有利于更加准确地定位用户在不同语速下的需求信息，实现更精准的语音服务。

应当理解，装置500中记载的诸单元可以与参考图2和图4描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于装置500及其中包含的单元，在此不再赘述。

下面参考图6，其示出了适于用来实现本申请实施例的服务器的计算机系统600的结构示意图。图6示出的终端设备或服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、分析单元确定单元以及生成单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取语音输入信号的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：获取语音输入信号；对所述语音输入信号的时域波形进行分析以确定所述语音输入信号的当前语速信息；比对所述当前语速信息和已获取的发出所述语音输入信号的用户的标准语速信息集合，并根据比对结果从预设的需求信息集合中确定出第一需求信息，其中，所述标准语速信息集合包括至少一个标准语速信息，所述预设的需求信息集合包括与所述标准语速信息集合中的各标准语速信息对应的需求信息；根据所述第一需求信息以及解析所述语音输入信号获取的第二需求信息生成语音响应信号。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于提供语音服务的方法，其特征在于，所述方法包括：

获取语音输入信号；

对所述语音输入信号的时域波形进行分析以确定所述语音输入信号的当前语速信息；

比对所述当前语速信息和已获取的发出所述语音输入信号的用户的标准语速信息集合，并根据比对结果从预设的需求信息集合中确定出第一需求信息，其中，所述标准语速信息集合包括至少一个标准语速信息，所述预设的需求信息集合包括与所述标准语速信息集合中的各标准语速信息对应的需求信息；

根据所述第一需求信息以及解析所述语音输入信号获取的第二需求信息生成语音响应信号。

2.根据权利要求1所述的方法，其特征在于，所述比对所述当前语速信息和已获取的发出所述语音输入信号的用户的标准语速信息集合，并根据比对结果从预设的需求信息集合中确定出第一需求信息，包括：

比对所述当前语速信息和已获取的发出所述语音输入信号的用户的标准语速信息集合，以从所述标准语速信息集合中确定出与所述当前语速信息匹配的目标标准语速信息；

在所述预设的需求信息集合中查找出与所述目标标准语速信息对应的需求信息，作为所述第一需求信息。

3.根据权利要求1所述的方法，其特征在于，在比对所述当前语速信息和已获取的发出所述语音输入信号的用户的标准语速信息集合，并根据比对结果从预设的需求信息集合中确定出第一需求信息之前，所述方法还包括：

基于所述语音输入信号对发出所述语音输入信号的用户进行识别；

获取识别出的用户的标准语速信息集合。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一需求信息以及解析所述语音输入信号获取的第二需求信息生成语音响应信号，包括：

基于所述第二需求信息生成至少一个用于响应所述语音输入信号的候选语音信号；

计算各所述候选语音信号与所述第一需求信息的关联度，根据所述关联度从所述候选语音信号中确定出所述语音响应信号。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括构建所述用户的标准语速信息集合的步骤，包括：

获取与所述用户关联的历史语音服务记录，所述历史语音服务记录包括：用户发出的历史语音输入信号的语速信息、历史语音响应信号、用户对历史语音服务的反馈信息；

筛选出所述反馈信息为正面反馈信息的历史语音服务对应的历史语音响应信号作为样本语音响应信号，筛选出所述反馈信息为正面反馈信息的历史语音服务对应的历史语音输入信号的语速信息作为样本语速信息；

对所述样本语音响应信号进行解析以确定对应的与语速相关的第三需求信息，基于第三需求信息对所述语音响应信号进行聚类，根据各聚类中语音响应信号对应的样本语速信息生成各标准语速信息。

6.一种用于提供语音服务的装置，其特征在于，所述装置包括：

获取单元，用于获取语音输入信号；

分析单元，用于对所述语音输入信号的时域波形进行分析以确定所述语音输入信号的当前语速信息；

确定单元，用于比对所述当前语速信息和已获取的发出所述语音输入信号的用户的标准语速信息集合，并根据比对结果从预设的需求信息集合中确定出第一需求信息，其中，所述标准语速信息集合包括至少一个标准语速信息，所述预设的需求信息集合包括与所述标准语速信息集合中的各标准语速信息对应的需求信息；

生成单元，用于根据所述第一需求信息以及解析所述语音输入信号获取的第二需求信息生成语音响应信号。

7.根据权利要求6所述的装置，其特征在于，所述确定单元进一步用于按照如下方式确定出所述第一需求信息：

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：识别单元，用于在比对所述当前语速信息和已获取的发出所述语音输入信号的用户的标准语速信息集合，并根据比对结果从预设的需求信息集合中确定出第一需求信息之前，

基于所述语音输入信号对发出所述语音输入信号的用户进行识别；并且获取识别出的用户的标准语速信息集合。

9.根据权利要求6所述的装置，其特征在于，所述生成单元进一步用于按照如下方式生成语音响应信号：

10.根据权利要求6-9任一项所述的装置，其特征在于，所述装置还包括用于构建所述用户的标准语速信息集合的构建单元；

所述构建单元用于：

11.一种服务器，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的方法。