CN113823281B

CN113823281B - 语音信号处理方法、装置、介质及电子设备

Info

Publication number: CN113823281B
Application number: CN202011330132.2A
Authority: CN
Inventors: 杨慕葵
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2024-04-05
Anticipated expiration: 2040-11-24
Also published as: CN113823281A

Abstract

本发明提供了一种语音信号处理方法，包括：接收用户在终端输入的第一语音信号；对所述第一语音信号进行语音识别，得到待播放音频资源的名称；根据所述待播放音频资源的名称确定与所述待播放音频资源的名称相对应的待播放音频资源；将所述待播放音频资源中的第一音频特征转换为第二音频特征，所述第一音频特征与所述第二音频特征不同；向终端发送所述待播放音频资源，以使得所述终端根据所述第二音频特征播放所述待播放音频资源，有效地避免相关技术中只能以默认音频特征播放音频资源的技术缺陷，实现了以除默认音频特征之外的音频特征播放音频资源，提高用户体验。本发明还提供了一种语音信号处理装置、介质以及电子设备。

Description

语音信号处理方法、装置、介质及电子设备

技术领域

本发明涉及语音信号处理的技术领域，具体而言，涉及一种语音信号处理方法、装置、介质及电子设备。

背景技术

目前，用户可以通过语音信号让终端播放原唱歌曲或其他歌曲翻唱的歌曲，例如，语音信号为“我想听青花瓷”，在这种情况下，终端响应该请求，播放周杰伦唱的青花瓷或其他歌手翻唱的青花瓷。这样终端只能以歌曲本身默认的音频特征播放歌曲，例如，以周杰伦的音频特征播放青花瓷，或者以其他歌手的音频特征播放青花瓷。而并不能以用户与终端进行交互时的音频特征播放歌曲，降低用户体验。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明实施例的目的在于提供一种语音信号处理方法、装置、介质及电子设备，进而至少可以在一定程度上实现以除默认音频之外的音频特征播放音频资源，提供用户体验。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明实施例的第一方面，提供了一种语音信号处理方法，包括：接收用户在终端输入的第一语音信号；对所述第一语音信号进行语音识别，得到待播放音频资源的名称；根据所述待播放音频资源的名称确定与所述待播放音频资源的名称相对应的待播放音频资源；将所述待播放音频资源中的第一音频特征转换为第二音频特征，所述第一音频特征与所述第二音频特征不同；向终端发送所述待播放音频资源，以使得所述终端根据所述第二音频特征播放所述待播放音频资源。

在本发明的一些实施例中，该方法还包括：接收用户在终端输入的第二语音信号，所述第二语音信号与所述第一语音信号不同；对所述第二语音信号进行语音识别，得到含有时序标签的文本；将所述第二语音信号转换为MIDI格式的音符文本；从所述第二语音信号中提取所述第一音频特征；基于所述含有时序标签的文本、所述MIDI格式的音符文本、以及所述第一音频特征合成所述待播放音频资源。

在本发明的一些实施例中，基于所述含有时序标签的文本、所述MIDI格式的音符文本、以及所述第一音频特征合成所述待播放音频资源包括：对所述含有时序标签的文本和所述MIDI格式的音符文本进行对齐处理，得到对齐后的音词数据；基于所述对齐后的音词数据和所述第一音频特征合成所述待播放音频资源。

在本发明的一些实施例中，对所述含有时序标签的文本和所述MIDI格式的音符文本进行对齐处理，得到对齐后的音词数据包括：对所述含有时序标签的文本进行拼音转换处理，得到拼音转换后的文本，所述拼音转换后的文本中包含时序标签和所述时序标签对应的拼音；基于所述拼音转换后的文本和所述MIDI格式的音符文本进行对齐处理，得到对齐后的音词数据。

在本发明的一些实施例中，该方法还包括：基于所述用户标识和所述待播放音频资源生成播放链接；根据预设存储路径将所述播放链接存储至指定的网络服务。

在本发明的一些实施例中，根据所述待播放音频资源的名称确定与所述待播放音频资源的名称相对应的待播放音频资源包括：根据所述待播放音频资源的名称匹配与所述待播放音频资源的名称相对应的播放链接；基于所述播放链接下载与所述播放链接相对应的待播放音频资源。

在本发明的一些实施例中，如果所述待播放音频资源的名称属于预设音频资源的名称，根据所述待播放音频资源的名称确定与所述待播放音频资源的名称相对应的待播放音频资源包括：根据所述待播放音频资源的名称从互联网音频资源库中查询与所述待播放音频资源的名称相对应的待播放音频资源。

根据本发明实施例的第二方面，提供了一种语音信号处理装置，该装置包括：第一接收模块，用于接收用户在终端输入的第一语音信号；第一语音识别模块，用于对所述第一语音信号进行语音识别，得到待播放音频资源的名称；确定模块，用于根据所述待播放音频资源的名称确定与所述待播放音频资源的名称相对应的待播放音频资源；音频转换模块，用于将所述待播放音频资源中的第一音频特征转换为第二音频特征，所述第一音频特征与所述第二音频特征不同；发送模块，用于向终端发送所述待播放音频资源，以使得所述终端根据所述第二音频特征播放所述待播放音频资源。

在本发明的一些实施例中，该装置还包括：第二接收模块，用于接收用户在终端输入的第二语音信号，所述第二语音信号与所述第一语音信号不同；第二语音识别模块，用于对所述第二语音信号进行语音识别，得到含有时序标签的文本；格式转换模块，用于将所述第二语音信号转换为MIDI格式的音符文本；提取模块，用于从所述第二语音信号中提取所述第一音频特征；音频资源合成模块，基于所述含有时序标签的文本、所述MIDI格式的音符文本、以及所述第一音频特征合成所述待播放音频资源。

在本发明的一些实施例中，上述音频资源合成模块包括：音词对齐模块，用于对所述含有时序标签的文本和所述MIDI格式的音符文本进行对齐处理，得到对齐后的音词数据；音频资源合成模块的子模块，基于所述对齐后的音词数据和所述第一音频特征合成所述待播放音频资源。

在本发明的一些实施例中，上述音词对齐模块包括：拼音转换模块，用于对所述含有时序标签的文本进行拼音转换处理，得到拼音转换后的文本，所述拼音转换后的文本中包含时序标签和所述时序标签对应的拼音；音词对齐模块的子模块，基于所述拼音转换后的文本和所述MIDI格式的音符文本进行对齐处理，得到对齐后的音词数据。

在本发明的一些实施例中，该装置还包括：生成模块，基于所述用户标识和所述待播放音频资源生成播放链接；存储模块，用于根据预设存储路径将所述播放链接存储至指定的网络服务。

在本发明的一些实施例中，上述确定模块包括：匹配模块，用于根据所述待播放音频资源的名称匹配与所述待播放音频资源的名称相对应的播放链接；下载模块，基于所述播放链接下载与所述播放链接相对应的待播放音频资源。

在本发明的一些实施例中，如果所述待播放音频资源的名称属于预设音频资源的名称，上述确定模块被配置为：根据所述待播放音频资源的名称从互联网音频资源库中查询与所述待播放音频资源的名称相对应的待播放音频资源。

根据本发明实施例的第三方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中第一方面所述的语音信号处理方法。

根据本发明实施例的第四方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述实施例中第一方面所述的语音信号处理方法。

本发明实施例提供的技术方案可以包括以下有益效果：

在本发明的一些实施例所提供的技术方案中，接收用户在终端输入的第一语音信号，对第一语音信号进行语音识别，得到待播放音频资源的名称，根据待播放音频资源的名称确定与所述待播放音频资源的名称相对应的待播放音频资源，将待播放音频资源中的第一音频特征转换为第二音频特征，所述第一音频特征与所述第二音频特征不同，然后向终端发送所述待播放音频资源，以使得所述终端可以根据所述第二音频特征播放该待播放音频资源，有效地避免相关技术中只能以默认音频特征播放音频资源的技术缺陷，实现了以除默认音频特征之外的音频特征播放音频资源，提高用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本发明实施例的语音信号处理方法或语音信号处理装置的示例性系统架构的示意图；

图2示意性示出了根据本发明的实施例的语音信号处理方法的流程图；

图3示意性示出了根据本发明的另一个实施例的语音信号处理方法的流程图；

图4示意性示出了根据本发明的另一个实施例的语音信号处理方法的流程图；

图5示意性示出了根据本发明的另一个实施例的语音信号处理方法的流程图；

图6示意性示出了根据本发明的另一个实施例的语音信号处理方法的流程图；

图7示意性示出了根据本发明的另一个实施例的语音信号处理方法的流程图；

图8和图9示意性示出了本发明的合成待播放音频资源的流程图；

图10示意性示出了根据本发明的另一个实施例的语音信号处理装置的方框图；

图11示意性示出了根据本发明的另一个实施例的语音信号处理装置的方框图；

图12示意性示出了根据本发明的另一个实施例的语音信号处理装置的方框图；

图13示意性示出了根据本发明的另一个实施例的语音信号处理装置的方框图；

图14示意性示出了根据本发明的另一个实施例的语音信号处理装置的方框图；

图15示意性示出了根据本发明的另一个实施例的语音信号处理装置的方框图；

图16示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本发明实施例的语音信号处理方法或语音信号处理装置的示例性系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有播放音频功能的各种电子设备，包括但不限于智能音箱、智能手机、平板电脑、便携式计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器。例如服务器105可以从终端设备103(也可以是终端设备101或102)接收用户输入的第一语音信号；对所述第一语音信号进行语音识别，得到待播放音频资源的名称；根据所述待播放音频资源的名称确定与所述待播放音频资源的名称相对应的待播放音频资源；将所述待播放音频资源中的第一音频特征转换为第二音频特征，所述第一音频特征与所述第二音频特征不同；向终端发送所述待播放音频资源，以使得所述终端根据所述第二音频特征播放所述待播放音频资源，有效地避免相关技术中只能以默认音频特征播放音频资源的技术缺陷，实现了以除默认音频特征之外的音频特征播放音频资源，提高用户体验。

在一些实施例中，本发明实施例所提供的语音信号处理方法一般由服务器105执行，相应地，语音信号处理装置一般设置于服务器105中。在另一些实施例中，某些终端可以具有与服务器相似的功能从而执行本方法。因此，本发明实施例所提供的语音信号处理方法不限定在服务器端执行。

图2示意性示出了根据本发明的实施例的语音信号处理方法的流程图。

如图2所示，语音信号处理方法可以包括步骤S210～步骤S250。

在步骤S210中，接收用户在终端输入的第一语音信号。

在步骤S220中，对所述第一语音信号进行语音识别，得到待播放音频资源的名称。

在步骤S230中，根据所述待播放音频资源的名称确定与所述待播放音频资源的名称相对应的待播放音频资源。

在步骤S240中，将所述待播放音频资源中的第一音频特征转换为第二音频特征，所述第一音频特征与所述第二音频特征不同。

在步骤S250中，向终端发送所述待播放音频资源，以使得所述终端根据所述第二音频特征播放所述待播放音频资源。

该方法可以接收用户在终端输入的第一语音信号，对第一语音信号进行语音识别，得到待播放音频资源的名称，根据待播放音频资源的名称确定与所述待播放音频资源的名称相对应的待播放音频资源，将待播放音频资源中的第一音频特征转换为第二音频特征，所述第一音频特征与所述第二音频特征不同，然后向终端发送所述待播放音频资源，以使得所述终端可以根据所述第二音频特征播放该待播放音频资源，有效地避免相关技术中只能以默认音频特征播放音频资源的技术缺陷，实现了以除默认音频特征之外的音频特征播放音频资源，提高用户体验。

在本发明的一个实施例中，上述终端可以是具备与用户交互功能的电子设备。例如，在终端安装语音助手用于实现与用户交互功能。例如，用户可以通过特定指令唤醒终端，然后可以与终端进行对话，在用户与终端进行对话时，用户听到声音的音频特征为第二音频特征。在本实施例中，第二音频特征可以是根据业务需求事先设定的，用于终端与用户交互时以第二音频特征播放音频资源。

在本发明的一个实施例中，上述第一语音信号可以是用户在唤醒终端之后输入的语音信号。例如，第一语音信号为“我要听青花瓷”，终端将接收的第一语音信号发送至服务器，服务器对第一语音信号进行语音识别，以获取待播放音频资源的名称，即歌曲名称“青花瓷”。服务器根据待播放音频资源的名称从自身网络服务中查找与待播放音频资源的名称相对应的待播放音频资源。或者根据待播放音频资源的名称从其他服务器的网络服务中查找与待播放音频资源的名称相对应的待播放音频资源。通过上述方式获取到待播放音频资源之后，将待播放音频资源默认的第一音频特征(即原唱歌曲的音频特征或翻唱歌手的音频特征)转换为事先预设的第二音频特征(即终端与用户对话时，用户听到的声音的音频特征)，然后向终端发送待播放音频资源，以使得安装该终端的语音助手执行该播放任务，以第二音频特征播放待播放音频资源，有效地避免相关技术中只能以默认音频特征播放音频资源的技术缺陷，实现了以除默认音频特征之外的音频特征播放音频资源，提高用户体验。

图3示意性示出了根据本发明的另一个实施例的语音信号处理方法的流程图。

如图3所示，上述方法还包括步骤S310～S350。

在步骤S310中，接收用户在终端输入的第二语音信号，所述第二语音信号与所述第一语音信号不同。

在步骤S320中，对所述第二语音信号进行语音识别，得到含有时序标签的文本。

在步骤S330中，将所述第二语音信号转换为MIDI格式的音符文本。

在步骤S340中，从所述第二语音信号中提取所述第一音频特征。

在步骤S350中，基于所述含有时序标签的文本、所述MIDI格式的音符文本、以及所述第一音频特征合成所述待播放音频资源。

该方法可以基于含有时序标签的文本、MIDI格式的音符文本、以及第一音频特征合成待播放音频资源，以此方式合成待播放音频资源操作简单，为用户的业余即兴发挥提供便利，而且在用户创作时无需用户在终端上调整音调、音速等可选操作，应用范围广。

在本发明的一个实施例中，上述第二语音信号可以是用户与终端交互时，用户哼唱的一首歌曲。在终端接收到第二语音信号之后，将其发送至服务器，服务器对该语音信号进行语音识别，得到含有时序标签的文本。例如，用户在哼唱时，终端录音采集的是数字音频文件(即第二语音信号)、比如WAV格式的音频数字文件，服务器一方面对第二语音信号语音识别提取其中的文字作为歌词基础，同时需要保留识别转换的时序。如下表所示：

时序	0.5	1	1.5
				歌词	Da(哒)	Da(哒)	A(啊)

其中，由于歌声是连续发音的，比如1.5秒内仅说了2个字，是因为出于动听的目的做了内容补充，比如加入了拉长的韵母(如上表的第4列A)。

在本发明的一个实施例中，上述MIDI格式的音符文本中的音符可以用于表示歌词中每个字符的音调的高低，以及音速的快慢，从而实现用户在创作时无需手动调节音频和音速，提高创作效率。

在本发明的一个实施例中，上述第一音频特征可以是用户声音的音频特征。服务器在合成待播放音频资源之后，基于用户标识和待播放音频资源生成播放链接，并根据预设存储路径将播放链接存储至指定的网络服务，例如，在服务器本身的设置的网络服务(例如，CDN，Content Delivery Network，即内容分发网络)。在这种情况下，用户可以通过与终端交互，以获取服务器的待播放音频资源，例如，用户将自己事先创作的歌曲名称作为第一语音信号，如“我要听我自己谱的xxx”。服务器可以接收到该第一语音信号，并对其进行识别，得到待播放音频资源的名称，即“xxx”。然后根据该待播放音频资源的名称从内容分发网络中下载该待播放音频资源，将待播放音频资源中的第一音频特征转换为第二音频特征，即将用户的声音的音频特征转换为第二音频特征，向终端发送待播放音频资源，以使得终端根据第二音频特征播放待播放音频资源。

图4示意性示出了根据本发明的另一个实施例的语音信号处理方法的流程图。

如图4所示，上述步骤S350可以包括步骤S410～步骤S420。

在步骤S410中，对所述含有时序标签的文本和所述MIDI格式的音符文本进行对齐处理，得到对齐后的音词数据。

在步骤S420中，基于所述对齐后的音词数据和所述第一音频特征合成所述待播放音频资源。

该方法可以对含有时序标签的文本和MIDI格式的音符文本进行对齐处理，得到对齐后的音词数据，然后基于对齐后的音词数据和第一音频特征合成待播放音频资源，以此方式确保合成后的待播放音频资源保留了用户创作时歌词的音调、音速，提高用户体验。

在本发明的一个实施例中，对含有时序标签的文本和MIDI格式的音符文本进行对齐处理，得到对齐后的音词数据，如下表所示；

时序	0.5	1	1.5
				歌词	Da(哒)	Da(哒)	A(啊)
MIDI/音符	#D5	#A4	#A4

其中，歌声是连续发音的，比如1.5秒内仅说了2个字，是因为出于动听的目的做了内容补充，比如加入了拉长的韵母(如上图的第4列A)，因此对齐的过程是基于拼音，这样系统在对齐过程可以进行填充适配。即对于哼唱无有效歌词的情况，相当于仅生成旋律。

图5示意性示出了根据本发明的另一个实施例的语音信号处理方法的流程图。

如图5所示，上述步骤S410可以包括步骤S510～步骤S520。

在步骤S510中，对所述含有时序标签的文本进行拼音转换处理，得到拼音转换后的文本，所述拼音转换后的文本中包含时序标签和所述时序标签对应的拼音。

在步骤S520中，基于所述拼音转换后的文本和所述MIDI格式的音符文本进行对齐处理，得到对齐后的音词数据。

该方法可以对含有时序标签的文本进行拼音转换处理，这样在对齐过程中便于进行填充适配，例如上表的第四列A出于动听的目的做了内容补充，比如加入了拉长的韵母。

图6示意性示出了根据本发明的另一个实施例的语音信号处理方法的流程图。

如图6所示，上述方法还可以包括步骤S610～步骤S620。

在步骤S610中，基于所述用户标识和所述待播放音频资源生成播放链接。

在步骤S620中，根据预设存储路径将所述播放链接存储至指定的网络服务。

该方法可以基于用户标识和待播放音频资源生成播放链接，并根据预设存储路径将播放链接存储至指定的网络服务，这样便于后续在调用时可以快速准备的根据该播放链接下载待播放音频资源。

在本发明的一个实施例中，上述指定的网络服务可以是CDN，Content DeliveryNetwork，即内容分发网络。在下载待播放音频资源时，利用CDN可以加快下载速度，进一步提高用户体验。

图7示意性示出了根据本发明的另一个实施例的语音信号处理方法的流程图。

如图7所示，上述步骤S230可以包括步骤S710～步骤S720。

在步骤S710中，根据所述待播放音频资源的名称匹配与所述待播放音频资源的名称相对应的播放链接。

在步骤S720中，基于所述播放链接下载与所述播放链接相对应的待播放音频资源。

该方法可以根据待播放音频资源的名称匹配与待播放音频资源的名称相对应的播放链接，基于播放链接下载与播放链接相对应的待播放音频资源，以此方式可以快速准备的查询到待播放音频资源，并在CDN的加速下快速下载该待播放音频资源，这样可以间接提升终端响应用户请求的速度。

在本发明的一个实施例中，如果待播放音频资源的名称属于预设音频资源的名称，根据待播放音频资源的名称确定与待播放音频资源的名称相对应的待播放音频资源包括：根据待播放音频资源的名称从互联网音频资源库中查询与待播放音频资源的名称相对应的待播放音频资源。在本实施例中，预设音频资源的名称可以指存储在指定网络服务的音频资源的名称。如果在指定网络服务中查询不到待播放音频资源的名称，则根据待播放音频资源的名称从互联网音频资源库中查询与待播放音频资源的名称相对应的待播放音频资源，这样避免终端无法响应用户请求的情况发生。

图8和图9示意性示出了本发明的合成待播放音频资源的流程图。

如图8所示，在用户进行创作歌曲时，需要将终端调整为谱曲任务的等待状态。具体包括以下步骤：

S1：对接收到的用户语音信号进行语音识别，以获取语音信号中的“我要谱曲一首红花陶”。

S2：对“我要谱曲一首红花陶”进行语义理解，并生成谱曲任务。例如，谱曲任务为“task＝进入谱曲，id＝红花陶”。

S3：向终端发送该谱曲任务，以使得终端根据该谱曲任务进入谱曲任务的等待状态，在这种情况下，终端需要在预设分钟数(例如，5分钟)向服务器发送用户哼唱的语音信号。

S4：服务器存储S1接收到的语音信号和语音识别结果。

参看图9，图9示出了在终端进入谱曲任务的等待状态之后，服务器接收到用户哼唱的歌声之后的处理步骤，具体包括以下步骤：

S11：接收用户在终端输入的语音信号，即哼唱输入的音频数字信号，对语音信号进行语音识别，得到得到含有时序标签的文本，即Duration＝0.5，text＝哒、Duration＝1.0，text＝哒哒、Duration＝1.5，text＝哒哒哒哒、Final text＝哒哒哒……。

S12：对含有时序标签的文本进行拼音转换处理，得到拼音转换后的文本，所述拼音转换后的文本中包含时序标签和所述时序标签对应的拼音。

S13：将语音信号转换为MIDI格式的音符文本。

S14：对含有时序标签的文本和MIDI格式的音符文本进行对齐处理，得到对齐后的音词数据。

S15：基于对齐后的音词数据和第一音频特征合成待播放音频资源，即合成“红花陶歌曲”。

S16：向终端发送该歌曲且将该歌曲的音频特征转换为第二音频特征，以使得在终端播放该歌曲，在播放时，以事先设置的第二音频特征播放该歌曲。例如，“我帮你谱好啦，你听一遍”。

S17：基于用户标识和待播放音频资源生成播放链接，根据预设存储路径将播放链接存储至指定的网络服务。

图10示意性示出了根据本发明的实施例的语音信号处理装置的方框图。

如图10所示，语音信号处理装置1000包括第一接收模块1001、第一语音识别模块1002、确定模块1003、音频转换模块1004和发送模块1005。

具体地，第一接收模块1001，用于接收用户在终端输入的第一语音信号。

第一语音识别模块1002，用于对所述第一语音信号进行语音识别，得到待播放音频资源的名称。

确定模块1003，用于根据所述待播放音频资源的名称确定与所述待播放音频资源的名称相对应的待播放音频资源。

音频转换模块1004，用于将所述待播放音频资源中的第一音频特征转换为第二音频特征，所述第一音频特征与所述第二音频特征不同。

发送模块1005，用于向终端发送所述待播放音频资源，以使得所述终端根据所述第二音频特征播放所述待播放音频资源。

该语音信号处理装置1000可以接收用户在终端输入的第一语音信号，对第一语音信号进行语音识别，得到待播放音频资源的名称，根据待播放音频资源的名称确定与所述待播放音频资源的名称相对应的待播放音频资源，将待播放音频资源中的第一音频特征转换为第二音频特征，所述第一音频特征与所述第二音频特征不同，然后向终端发送所述待播放音频资源，以使得所述终端可以根据所述第二音频特征播放该待播放音频资源，有效地避免相关技术中只能以默认音频特征播放音频资源的技术缺陷，实现了以除默认音频特征之外的音频特征播放音频资源，提高用户体验。

根据本发明的实施例，该语音信号处理装置1000可以用于实现图2实施例描述的语音信号处理方法。

图11示意性示出了根据本发明的另一个实施例的语音信号处理装置的方框图。

如图11所示，上述语音信号处理装置1000还包括第二接收模块1006、第二语音识别模块1007、格式转换模块1008、提取模块1009和音频资源合成模块1010。

具体地，第二接收模块1006，用于接收用户在终端输入的第二语音信号，所述第二语音信号与所述第一语音信号不同。

第二语音识别模块1007，用于对所述第二语音信号进行语音识别，得到含有时序标签的文本。

格式转换模块1008，用于将所述第二语音信号转换为MIDI格式的音符文本。

提取模块1009，用于从所述第二语音信号中提取所述第一音频特征。

音频资源合成模块1010，基于所述含有时序标签的文本、所述MIDI格式的音符文本、以及所述第一音频特征合成所述待播放音频资源。

该语音信号处理装置1000可以基于含有时序标签的文本、MIDI格式的音符文本、以及第一音频特征合成待播放音频资源，以此方式合成待播放音频资源操作简单，为用户的业余即兴发挥提供便利，而且在用户创作时无需用户在终端上调整音调、音速等可选操作，应用范围广。

根据本发明的实施例，该语音信号处理装置1000可以用于实现图3实施例描述的语音信号处理方法。

图12示意性示出了根据本发明的另一个实施例的语音信号处理移装置的方框图。

如图12所示，上述音频资源合成模块1010具体可以包括音词对齐模块1010-1和音频资源合成模块的子模块1010-2。

具体地，音词对齐模块1010-1，用于对所述含有时序标签的文本和所述MIDI格式的音符文本进行对齐处理，得到对齐后的音词数据。

音频资源合成模块的子模块1010-2，基于所述对齐后的音词数据和所述第一音频特征合成所述待播放音频资源。

该音频资源合成模块1010可以对含有时序标签的文本和MIDI格式的音符文本进行对齐处理，得到对齐后的音词数据，然后基于对齐后的音词数据和第一音频特征合成待播放音频资源，以此方式确保合成后的待播放音频资源保留了用户创作时歌词的音调、音速，提高用户体验。

根据本发明的实施例，该音频资源合成模块1010可以用于实现图4实施例描述的语音信号处理方法。

图13示意性示出了根据本发明的另一个实施例的语音信号处理移装置的方框图。

如图13所示，上述音词对齐模块1010-1还包括拼音转换模块1010-1-1和音词对齐模块的子模块1010-1-2。

具体地，拼音转换模块1010-1-1，用于对所述含有时序标签的文本进行拼音转换处理，得到拼音转换后的文本，所述拼音转换后的文本中包含时序标签和所述时序标签对应的拼音。

音词对齐模块的子模块1010-1-2，基于所述拼音转换后的文本和所述MIDI格式的音符文本进行对齐处理，得到对齐后的音词数据。

该音词对齐模块1010-1可以对含有时序标签的文本进行拼音转换处理，这样在对齐过程中便于进行填充适配，例如上表的第四列A出于动听的目的做了内容补充，比如加入了拉长的韵母。

根据本发明的实施例，该音词对齐模块1010-1可以用于实现图5实施例描述的语音信号处理方法。

图14示意性示出了根据本发明的另一个实施例的语音信号处理装置的方框图。

如图14所示，上述语音信号处理装置1000还包括生成模块1011和存储模块1012。

具体地，生成模块1011，基于所述用户标识和所述待播放音频资源生成播放链接。

存储模块1012，用于根据预设存储路径将所述播放链接存储至指定的网络服务。

该语音信号处理装置1000可以基于用户标识和待播放音频资源生成播放链接，并根据预设存储路径将播放链接存储至指定的网络服务，这样便于后续在调用时可以快速准备的根据该播放链接下载待播放音频资源。

根据本发明的实施例，该语音信号处理装置1000可以用于实现图6实施例描述的语音信号处理方法。

图15示意性示出了根据本发明的另一个实施例的语音信号处理装置的方框图。

如图15所示，上述确定模块1003可以包括匹配模块1003-1和下载模块1003-2。

具体地，匹配模块1003-1，用于根据所述待播放音频资源的名称匹配与所述待播放音频资源的名称相对应的播放链接。

下载模块1003-2，基于所述播放链接下载与所述播放链接相对应的待播放音频资源。

该确定模块1003可以根据待播放音频资源的名称匹配与待播放音频资源的名称相对应的播放链接，基于播放链接下载与播放链接相对应的待播放音频资源，以此方式可以快速准备的查询到待播放音频资源，并在CDN的加速下快速下载该待播放音频资源，这样可以间接提升终端响应用户请求的速度。

根据本发明的实施例，该确定模块1003可以用于实现图7实施例描述的语音信号处理方法。

由于本发明的示例实施例的语音信号处理装置1000的各个模块可以用于实现上述2～图9描述的语音信号处理方法的示例实施例的步骤，因此对于本发明装置实施例中未披露的细节，请参照本发明上述的语音信号处理方法的实施例。

可以理解的是，第一接收模块1001、第一语音识别模块1002、确定模块1003、匹配模块1003-1、下载模块1003-2、音频转换模块1004、发送模块1005、第二接收模块1006、第二语音识别模块1007、格式转换模块1008、提取模块1009、音频资源合成模块1010、音词对齐模块1010-1、拼音转换模块1010-1-1、音词对齐模块的子模块1010-1-2、音频资源合成模块的子模块1010-2、生成模块1011、以及存储模块1012可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本发明的实施例，第一接收模块1001、第一语音识别模块1002、确定模块1003、匹配模块1003-1、下载模块1003-2、音频转换模块1004、发送模块1005、第二接收模块1006、第二语音识别模块1007、格式转换模块1008、提取模块1009、音频资源合成模块1010、音词对齐模块1010-1、拼音转换模块1010-1-1、音词对齐模块的子模块1010-1-2、音频资源合成模块的子模块1010-2、生成模块1011、以及存储模块1012中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式的适当组合来实现。或者，第一接收模块1001、第一语音识别模块1002、确定模块1003、匹配模块1003-1、下载模块1003-2、音频转换模块1004、发送模块1005、第二接收模块1006、第二语音识别模块1007、格式转换模块1008、提取模块1009、音频资源合成模块1010、音词对齐模块1010-1、拼音转换模块1010-1-1、音词对齐模块的子模块1010-1-2、音频资源合成模块的子模块1010-2、生成模块1011、以及存储模块1012中的至少一个可以至少被部分地实现为计算机程序模块，当该程序被计算机运行时，可以执行相应模块的功能。

下面参考图16，其示出了适于用来实现本发明实施例的电子设备的计算机系统1600的结构示意图。图16示出的电子设备的计算机系统1600仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图16所示，计算机系统1600包括中央处理单元(CPU)1601，其可以根据存储在只读存储器(ROM)1602中的程序或者从存储部分1608加载到随机访问存储器(RAM)1603中的程序而执行各种适当的动作和处理。在RAM 1603中，还存储有系统操作所需的各种程序和数据。CPU 1601、ROM 1602以及RAM 1603通过总线1604彼此相连。输入/输出(I/O)接口1605也连接至总线1604。

以下部件连接至I/O接口1605：包括键盘、鼠标等的输入部分1606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1607；包括硬盘等的存储部分1608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1609。通信部分1609经由诸如因特网的网络执行通信处理。驱动器1610也根据需要连接至I/O接口1605。可拆卸介质1611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1610上，以便于从其上读出的计算机程序根据需要被安装入存储部分1608。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1609从网络上被下载和安装，和/或从可拆卸介质1611被安装。在该计算机程序被中央处理单元(CPU)1601执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的语音信号处理方法。

例如，所述的电子设备可以实现如图2中所示的：在步骤S210中，接收用户在终端输入的第一语音信号。在步骤S220中，对所述第一语音信号进行语音识别，得到待播放音频资源的名称。在步骤S230中，根据所述待播放音频资源的名称确定与所述待播放音频资源的名称相对应的待播放音频资源。在步骤S240中，将所述待播放音频资源中的第一音频特征转换为第二音频特征，所述第一音频特征与所述第二音频特征不同。在步骤S250中，向终端发送所述待播放音频资源，以使得所述终端根据所述第二音频特征播放所述待播放音频资源。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种语音信号处理方法，其特征在于，该方法包括：

接收用户在终端输入的第二语音信号；

对所述第二语音信号进行语音识别，得到含有时序标签的文本；

将所述第二语音信号转换为MIDI格式的音符文本，其中所述MIDI格式的音符文本中的音符用于表示歌词中每个字符的音调的高低以及因速的快慢；

从所述第二语音信号中提取第一音频特征，所述第一音频特征是所述用户的声音的音频特征；

基于所述含有时序标签的文本、所述MIDI格式的音符文本以及所述第一音频特征合成待播放音频资源；

接收用户在终端输入的第一语音信号；

对所述第一语音信号进行语音识别，得到所述待播放音频资源的名称；

根据所述待播放音频资源的名称确定与所述待播放音频资源的名称相对应的所述待播放音频资源；

将所述待播放音频资源中的所述第一音频特征转换为第二音频特征，所述第一音频特征与所述第二音频特征不同；

向终端发送所述待播放音频资源，以使得所述终端根据所述第二音频特征播放所述待播放音频资源。

2.根据权利要求1所述的方法，其特征在于，基于所述含有时序标签的文本、所述MIDI格式的音符文本、以及所述第一音频特征合成所述待播放音频资源包括：

对所述含有时序标签的文本和所述MIDI格式的音符文本进行对齐处理，得到对齐后的音词数据；

基于所述对齐后的音词数据和所述第一音频特征合成所述待播放音频资源。

3.根据权利要求2所述的方法，其特征在于，对所述含有时序标签的文本和所述MIDI格式的音符文本进行对齐处理，得到对齐后的音词数据包括：

对所述含有时序标签的文本进行拼音转换处理，得到拼音转换后的文本，所述拼音转换后的文本中包含时序标签和所述时序标签对应的拼音；

基于所述拼音转换后的文本和所述MIDI格式的音符文本进行对齐处理，得到对齐后的音词数据。

4.根据权利要求1所述的方法，其特征在于，该方法还包括：

基于所述用户标识和所述待播放音频资源生成播放链接；

根据预设存储路径将所述播放链接存储至指定的网络服务。

5.根据权利要求4所述的方法，其特征在于，根据所述待播放音频资源的名称确定与所述待播放音频资源的名称相对应的待播放音频资源包括：

根据所述待播放音频资源的名称匹配与所述待播放音频资源的名称相对应的播放链接；

基于所述播放链接下载与所述播放链接相对应的待播放音频资源。

6.根据权利要求1所述的方法，其特征在于，如果所述待播放音频资源的名称属于预设音频资源的名称，根据所述待播放音频资源的名称确定与所述待播放音频资源的名称相对应的待播放音频资源包括：

根据所述待播放音频资源的名称从互联网音频资源库中查询与所述待播放音频资源的名称相对应的待播放音频资源。

7.一种语音信号处理装置，其特征在于，该装置包括：

第二接收模块，用于接收用户在终端输入的第二语音信号；

第二语音识别模块，用于对所述第二语音信号进行语音识别，得到含有时序标签的文本；

格式转换模块，用于将所述第二语音信号转换为MIDI格式的音符文本，其中所述MIDI格式的音符文本中的音符用于表示歌词中每个字符的音调的高低以及音速的快慢；

提取模块，用于从所述第二语音信号中提取第一音频特征，所述第一音频特征是所述用户的声音的音频特征；

音频资源合成模块，用于基于所述含有时序标签的文本、所述MIDI格式的音符文本以及所述第一音频特征合成待播放音频资源；

第一接收模块，用于接收用户在终端输入的第一语音信号；

第一语音识别模块，用于对所述第一语音信号进行语音识别，得到待播放音频资源的名称；

确定模块，用于根据所述待播放音频资源的名称确定与所述待播放音频资源的名称相对应的待播放音频资源；

音频转换模块，用于将所述待播放音频资源中的第一音频特征转换为第二音频特征，所述第一音频特征与所述第二音频特征不同；

发送模块，用于向终端发送所述待播放音频资源，以使得所述终端根据所述第二音频特征播放所述待播放音频资源。

8.一种电子设备，包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现根据权利要求1～6中任意一项所述的方法。

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现根据权利要求1～6中任意一项所述的方法。