CN116665643B

CN116665643B - 韵律标注方法、装置和终端设备

Info

Publication number: CN116665643B
Application number: CN202211529665.2A
Authority: CN
Inventors: 龚雪飞
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-11-30
Filing date: 2022-11-30
Publication date: 2024-03-26
Anticipated expiration: 2042-11-30
Also published as: CN116665643A

Abstract

本申请实施例提供一种韵律标注方法、装置和终端设备，上述韵律标注方法中，获取输入文本之后，对上述输入文本进行分词，然后将分词获得的文本词拆分为子词，并确定上述子词的词性。进而对上述子词中的中文子词添加中文标记，对上述子词中的英文子词添加英文标记，根据上述子词、上述中文标记、上述英文标记和上述子词的词性，分别对上述中文子词和上述英文子词进行韵律预测，获得上述中文子词的韵律等级和上述英文子词的韵律等级。最后，合并上述中文子词的韵律等级和上述英文子词的韵律等级，获得上述输入文本的韵律等级，从而可以实现对输入文本的韵律等级进行标注，进而可以提升语音合成的表现力，增加合成音频的韵律感。

Description

韵律标注方法、装置和终端设备

技术领域

本申请实施例涉及智能终端技术领域，特别涉及一种韵律标注方法、装置和终端设备。

背景技术

语音合成是将文字转化为语音的一种技术，类似于人类的嘴巴，通过不同的音色说出想表达的内容。端侧语音合成是指在端侧设备上运行语音合成(text to speech，TTS)系统，需要充分考虑功耗、时延、只读存储器(read only memory，ROM)和/或随机存取存储器(random access memory，RAM)等指标，因此需要对常规的TTS模型进行压缩。

另外，现有相关技术中，手机或平板等终端设备侧安装的TTS引擎，音质较差，机械感较强，因此还需要对端侧的TTS模型进行优化，提升语音合成的表现力，增加合成音频的韵律感，从而提升TTS的平均意见值(mean opinion score，MOS)。训练声学模型的数据，输入是文本与音频，文本中要有韵律等级标注，前端预测的韵律等级要在音频中生效，声学模型需要学习到韵律等级对应的不同静音时长；现有相关技术中，一般采用人工标注的方式对文本的韵律等级进行标注，而人工标注费时费力，并且会人为主观性地引入标注错误。

发明内容

本申请实施例提供了一种韵律标注方法、装置和终端设备，本申请实施例还提供一种计算机可读存储介质，以实现对输入文本的韵律等级进行标注，并修正韵律等级的标注结果，从而提升语音合成的表现力，增加合成音频的韵律感。

第一方面，本申请实施例提供了一种韵律标注方法，包括：获取输入文本；对所述输入文本进行分词；将分词获得的文本词拆分为子词，并确定所述子词的词性；对所述子词中的中文子词添加中文标记，对所述子词中的英文子词添加英文标记；根据所述子词、所述中文标记、所述英文标记和所述子词的词性，分别对所述中文子词和所述英文子词进行韵律预测，获得所述中文子词的韵律等级和所述英文子词的韵律等级；合并所述中文子词的韵律等级和所述英文子词的韵律等级，获得所述输入文本的韵律等级。

其中一种可能的实现方式中，所述将分词获得的文本词拆分为子词包括：将分词获得的文本词中的中文词拆分为中文子词，以及将分词获得的文本词中的英文词拆分为英文子词。

其中一种可能的实现方式中，所述将分词获得的文本词中的中文词拆分为中文子词包括：将所述中文词拆分为字级别的中文子词。

其中一种可能的实现方式中，所述将分词获得的文本词中的英文词拆分为英文子词包括：对所述英文词进行前缀树匹配，获得所述英文词的前缀，作为所述英文词的第一英文子词；和/或，对所述英文词进行后缀树匹配，获得所述英文词的后缀，作为所述英文词的第二英文子词；其中，所述前缀树是预先将英文前缀按树形结构保存形成的，所述后缀树是预先将英文后缀按树形结构保存形成的；从所述英文词中减去所述第一英文子词和/或所述第二英文子词，获得所述英文词的第三英文子词。

其中一种可能的实现方式中，所述合并所述中文子词的韵律等级和所述英文子词的韵律等级，获得所述输入文本的韵律等级之后，还包括：根据所述输入文本对应的音频的静音时长对所述输入文本的韵律等级进行修正。

其中一种可能的实现方式中，所述根据所述输入文本对应的音频的静音时长对所述输入文本的韵律等级进行修正包括：获取所述输入文本对应的音频中每个字级别的发音单元的第一发音时长，以及相邻两个所述发音单元之间的第一停顿时长；根据所述第一发音时长和所述第一停顿时长，对所述音频中相邻两个发音单元之间的停顿时长和所述音频前后的第一静音时长进行归一化；获取归一化后的音频中每个字级别的发音单元的第二发音时长、相邻两个所述发音单元之间的第二停顿时长和归一化后的音频前后的第二静音时长；根据所述第二发音时长、所述第二停顿时长和所述第二静音时长，从所述归一化后的音频中获取时长大于或等于第一预定时长的第三静音时长；根据所述第三静音时长在所述归一化后的音频中的位置，将所述输入文本中对应位置处的韵律等级修正为语调短语级；通过语音活动检测，获取所述归一化后的音频中时长大于或等于第二预定时长，并且小于所述第一预定时长的静音片段；根据所述静音片段在所述归一化后的音频中的位置，将所述输入文本中对应位置处的韵律等级修正为韵律短语级；保留所述输入文本中韵律词级的韵律等级。

其中一种可能的实现方式中，所述根据所述子词、所述中文标记、所述英文标记和所述子词的词性，分别对所述中文子词和所述英文子词进行韵律预测，获得所述中文子词的韵律等级和所述英文子词的韵律等级包括：获取所述子词对应的向量、所述中文标记对应的向量、所述英文标记对应的向量和所述子词的词性对应的向量；通过预先训练的韵律预测模型中的第一韵律预测子模型，根据所述中文标记对应的向量，对所述子词对应的向量中的中文子词对应的向量和所述中文子词的词性对应的向量进行韵律预测，获得所述中文子词的韵律等级；以及通过所述预先训练的韵律预测模型中的第二韵律预测子模型，根据所述英文标记对应的向量，对所述子词对应的向量中的英文子词对应的向量和所述英文子词的词性对应的向量进行韵律预测，获得所述英文子词的韵律等级。

第二方面，本申请实施例提供一种韵律标注装置，该装置包含在终端设备中，该装置具有实现第一方面及第一方面的可能实现方式中终端设备行为的功能。功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块或单元。例如，获取模块、分词模块、拆分模块、添加模块、预测模块和合并模块。

第三方面，本申请实施例提供一种终端设备，包括：一个或多个处理器；存储器；多个应用程序；以及一个或多个计算机程序，其中上述一个或多个计算机程序被存储在上述存储器中，上述一个或多个计算机程序包括指令，当上述指令被上述终端设备执行时，使得上述终端设备执行以下步骤：获取输入文本；对所述输入文本进行分词；将分词获得的文本词拆分为子词，并确定所述子词的词性；对所述子词中的中文子词添加中文标记，对所述子词中的英文子词添加英文标记；根据所述子词、所述中文标记、所述英文标记和所述子词的词性，分别对所述中文子词和所述英文子词进行韵律预测，获得所述中文子词的韵律等级和所述英文子词的韵律等级；合并所述中文子词的韵律等级和所述英文子词的韵律等级，获得所述输入文本的韵律等级。

其中一种可能的实现方式中，当所述指令被所述终端设备执行时，使得所述终端设备执行所述将分词获得的文本词拆分为子词的步骤包括：将分词获得的文本词中的中文词拆分为中文子词，以及将分词获得的文本词中的英文词拆分为英文子词。

其中一种可能的实现方式中，当所述指令被所述终端设备执行时，使得所述终端设备执行所述将分词获得的文本词中的中文词拆分为中文子词的步骤包括：将所述中文词拆分为字级别的中文子词。

其中一种可能的实现方式中，当所述指令被所述终端设备执行时，使得所述终端设备执行所述将分词获得的文本词中的英文词拆分为英文子词的步骤包括：对所述英文词进行前缀树匹配，获得所述英文词的前缀，作为所述英文词的第一英文子词；和/或，对所述英文词进行后缀树匹配，获得所述英文词的后缀，作为所述英文词的第二英文子词；其中，所述前缀树是预先将英文前缀按树形结构保存形成的，所述后缀树是预先将英文后缀按树形结构保存形成的；从所述英文词中减去所述第一英文子词和/或所述第二英文子词，获得所述英文词的第三英文子词。

其中一种可能的实现方式中，当所述指令被所述终端设备执行时，使得所述终端设备执行所述合并所述中文子词的韵律等级和所述英文子词的韵律等级，获得所述输入文本的韵律等级的步骤之后，还执行以下步骤：根据所述输入文本对应的音频的静音时长对所述输入文本的韵律等级进行修正。

其中一种可能的实现方式中，当所述指令被所述终端设备执行时，使得所述终端设备执行所述根据所述输入文本对应的音频的静音时长对所述输入文本的韵律等级进行修正的步骤包括：获取所述输入文本对应的音频中每个字级别的发音单元的第一发音时长，以及相邻两个所述发音单元之间的第一停顿时长；根据所述第一发音时长和所述第一停顿时长，对所述音频中相邻两个发音单元之间的停顿时长和所述音频前后的第一静音时长进行归一化；获取归一化后的音频中每个字级别的发音单元的第二发音时长、相邻两个所述发音单元之间的第二停顿时长和归一化后的音频前后的第二静音时长；根据所述第二发音时长、所述第二停顿时长和所述第二静音时长，从所述归一化后的音频中获取时长大于或等于第一预定时长的第三静音时长；根据所述第三静音时长在所述归一化后的音频中的位置，将所述输入文本中对应位置处的韵律等级修正为语调短语级；通过语音活动检测，获取所述归一化后的音频中时长大于或等于第二预定时长，并且小于所述第一预定时长的静音片段；根据所述静音片段在所述归一化后的音频中的位置，将所述输入文本中对应位置处的韵律等级修正为韵律短语级；保留所述输入文本中韵律词级的韵律等级。

其中一种可能的实现方式中，当所述指令被所述终端设备执行时，使得所述终端设备执行所述根据所述子词、所述中文标记、所述英文标记和所述子词的词性，分别对所述中文子词和所述英文子词进行韵律预测，获得所述中文子词的韵律等级和所述英文子词的韵律等级的步骤包括：获取所述子词对应的向量、所述中文标记对应的向量、所述英文标记对应的向量和所述子词的词性对应的向量；通过预先训练的韵律预测模型中的第一韵律预测子模型，根据所述中文标记对应的向量，对所述子词对应的向量中的中文子词对应的向量和所述中文子词的词性对应的向量进行韵律预测，获得所述中文子词的韵律等级；以及通过所述预先训练的韵律预测模型中的第二韵律预测子模型，根据所述英文标记对应的向量，对所述子词对应的向量中的英文子词对应的向量和所述英文子词的词性对应的向量进行韵律预测，获得所述英文子词的韵律等级。

应当理解的是，本申请实施例的第二方面和第三方面与本申请实施例的第一方面的技术方案一致，各方面及对应的可行实施方式所取得的有益效果相似，不再赘述。

第四方面，本申请实施例提供一种计算机可读存储介质，上述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行第一方面提供的方法。

第五方面，本申请实施例提供一种计算机程序，当上述计算机程序被计算机执行时，用于执行第一方面提供的方法。

在一种可能的设计中，第九方面和第十方面中的程序可以全部或者部分存储在与处理器封装在一起的存储介质上，也可以部分或者全部存储在不与处理器封装在一起的存储器上。

附图说明

图1为现有相关技术中提供的语音合成方案的示意图；

图2为现有相关技术提供的一个韵律预测的示例；

图3为现有相关技术提供的一种韵律预测模型的示意图；

图4为本申请一个实施例提供的终端设备的结构示意图；

图5为本申请一个实施例提供的韵律标注方法的流程图；

图6为本申请一个实施例提供的韵律预测模型的示意图；

图7为本申请另一个实施例提供的韵律标注方法的流程图；

图8为本申请再一个实施例提供的韵律标注方法的流程图；

图9为本申请另一个实施例提供的终端设备的结构示意图；

图10为本申请再一个实施例提供的终端设备的结构示意图。

具体实施方式

本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释，而非旨在限定本申请。

图1为现有相关技术中提供的语音合成方案的示意图，如图1所示，语音合成系统包括两个大模块：前端和后端。其中，前端包括文本正则、韵律预测和注音这3个模块；后端包括声学模型和声码器这2个模块。下面分别对这些模块的功能进行介绍。

1、文本正则：在语音合成中常见的文字很多是简写或者缩写的，需要通过文本正则把这些文字标准化，例如：Sep.11th需要展成全写的September Eleventh。

2、韵律预测：使用深度网络预测文本中词与词之间的停顿和/或重读。例如：“革命胜利后，又经受了一次次政治风浪的考验”这句话，如果停顿信息不准确就会出现：“革命胜利后，又经受了一次/次/政治风浪的考验”，在“一次/次”两个“次”中间多了一个停顿，这是不该有的，会导致语音合成的音频不自然，如果再严重点可能会影响语音信息的传达。

3、注音：使用深度网络将文字转换为拼音，同时解决多音字问题。举例来说，“模”是一个多音字，在“模型”和“模样”这两个词中“模”的读音不同，所以在输入一个句子的时候，前端就需要准确判断出这个字的发音。

另外，在注音这个模块，还需要完成英文字母到音素(grapheme to phoneme，G2P)，例如：“speech”是这个单词的字形，需要先把这个单词转化成音素s p iy ch。

4、声学模型：基于前端产生的发音信息或者语言学信息来产生声学特征，例如：梅尔频谱图；前端预测的韵律等级要在音频中生效，声学模型需要学习到韵律等级对应不同的静音时长；

5、声码器：主要作用是基于声学模型生成的声学特征来合成最后声音的波形图。具体地，可以使用生成对抗网络(generative adversarial network，GAN)网络将音频声学特征转换为音频。

对于前端中的韵律预测，图2为现有相关技术提供的一个韵律预测的示例，如图2所示，输入文本为“我今天去银行存了300块钱”，经过文本正则化、分词和词性分析之后，获得的韵律预测结果为“我#2今天#1去#1银行#2存了#1三百块钱#4”。这里的韵律预测结果中的“#1”、“#2”和“#4”标记的是韵律等级。一般来说，韵律等级分为4级，分别用“#4(SEN)”、“#3(IP)”、“#2(PP)”和“#1(PW)”表示。

其中，#4：整句(sentence，SEN)级。如果一个完整语意的句子，切除前后可以独立成为一个句子，从听感上调形是完全降下来的，有明显的停顿，那么在该句子的后面标记韵律等级为“#4”；如果是以二声词结尾的短句，这个二声的词被拖长音，且与后面是转折的关系的，有明显的停顿，这时这个短句的后面也标记韵律等级为“#4”。

#3：语调短语(intonation phase，IP)级通常标在一个语调短语的后面，有时会是一个词，从听感上调形是降下来的，但不够完全，不能独立成为一个语意完整的句子。

#2：韵律短语(prosodic phrase，PP)级，通常标在韵律短语的后面。一般包括以下两种情况：(1)表示被“重读”的词或单个字，有停顿，调形上有小的变化，有“骤停”的感觉，在被“重读”的词或单个字的后面标记韵律等级为“#2”；(2)并列关系的词如果被强调重读，标记韵律等级为“#2”；如果是很平滑的，则标记韵律等级为“#1”。

#1：韵律词(prosodicword，PW)级，通常标在韵律词的后面，一般没有停顿。

前端韵律预测是一个自然语言处理(natural language processing，NLP)领域的问题，现有相关技术中提供的解决方案是使用预训练模型，例如：双向编码表示转换器(bidirectional encoder representation from transformers，Bert)和/或词到向量(word to vector，Word2Vec)等等，后面接一个多分类网络，如图3所示，图3为现有相关技术提供的一种韵律预测模型的示意图。

但是，现有的韵律预测模型网络特别大，无法在端侧设备上落地。

基于以上问题，本申请实施例提供一种韵律标注方法，可以实现对输入文本的韵律等级进行标注，并修正韵律等级的标注结果，从而提升语音合成的表现力，增加合成音频的韵律感。

本申请实施例提供的韵律标注方法可以应用于终端设备，其中，上述终端设备可以为智能手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobilepersonal computer，UMPC)、上网本或个人数字助理(personal digital assistant，PDA)等设备；本申请实施例对终端设备的具体类型不作任何限制。

示例性的，图4为本申请一个实施例提供的终端设备的结构示意图，如图4所示，终端设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对终端设备100的具体限定。在本申请另一些实施例中，终端设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，DCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现终端设备100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现终端设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现终端设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为终端设备100充电，也可以用于终端设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对终端设备100的结构限定。在本申请另一些实施例中，终端设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过终端设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为终端设备100供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

终端设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。终端设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在终端设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在终端设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，终端设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得终端设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

终端设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，终端设备100可以包括1个或N个显示屏194，N为大于1的正整数。

终端设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，终端设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当终端设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。终端设备100可以支持一种或多种视频编解码器。这样，终端设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现终端设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储终端设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行终端设备100的各种功能应用以及数据处理。

终端设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。终端设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当终端设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。终端设备100可以设置至少一个麦克风170C。在另一些实施例中，终端设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。终端设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，终端设备100根据压力传感器180A检测所述触摸操作强度。终端设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定终端设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定终端设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测终端设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消终端设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，终端设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。终端设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当终端设备100是翻盖机时，终端设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测终端设备100在各个方向上(一般为三轴)加速度的大小。当终端设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。终端设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，终端设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。终端设备100通过发光二极管向外发射红外光。终端设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定终端设备100附近有物体。当检测到不充分的反射光时，终端设备100可以确定终端设备100附近没有物体。终端设备100可以利用接近光传感器180G检测用户手持终端设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。终端设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测终端设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。终端设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，终端设备100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，终端设备100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，终端设备100对电池142加热，以避免低温导致终端设备100异常关机。在其他一些实施例中，当温度低于又一阈值时，终端设备100对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控器件”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于终端设备100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器180M也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息，实现心率检测功能。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。终端设备100可以接收按键输入，产生与终端设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和终端设备100的接触和分离。终端设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。终端设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，终端设备100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在终端设备100中，不能和终端设备100分离。

为了便于理解，本申请以下实施例将以具有图4所示结构的终端设备为例，结合附图和应用场景，对本申请实施例提供的韵律标注方法进行具体阐述。

图5为本申请一个实施例提供的韵律标注方法的流程图，如图5所示，上述韵律标注方法可以包括：

步骤501，获取输入文本。

步骤502，对上述输入文本进行分词。

步骤503，将分词获得的文本词拆分为子词，并确定上述子词的词性。

具体地，由于TTS需要支持中英文混说，词表特别大(特别是英文)，因此，本实施例中，终端设备100将输入文本拆分为子词，从而减小词表的大小，去除预训练模型，进而还可以降低模型参数量。

步骤504，对上述子词中的中文子词添加中文标记，对上述子词中的英文子词添加英文标记。

具体地，终端设备100可以先对上述子词进行分类，获得上述子词中的中文子词和英文子词，然后分别对上述子词中的中文子词添加中文标记，对上述子词中的英文子词添加英文子词。

步骤505，根据上述子词、上述中文标记、上述英文标记和上述子词的词性，分别对上述中文子词和上述英文子词进行韵律预测，获得上述中文子词的韵律等级和上述英文子词的韵律等级。

具体地，参见图6，根据上述子词、上述中文标记、上述英文标记和上述子词的词性，分别对上述中文子词和上述英文子词进行韵律预测，获得上述中文子词的韵律等级和上述英文子词的韵律等级可以为：获取上述子词对应的向量、上述中文标记对应的向量、上述英文标记对应的向量和上述子词的词性对应的向量；通过预先训练的韵律预测模型中的第一韵律预测子模型，根据上述中文标记对应的向量，对上述子词对应的向量中的中文子词对应的向量和上述中文子词的词性对应的向量进行韵律预测，获得上述中文子词的韵律等级；以及通过上述预先训练的韵律预测模型中的第二韵律预测子模型，根据上述英文标记对应的向量，对上述子词对应的向量中的英文子词对应的向量和上述英文子词的词性对应的向量进行韵律预测，获得上述英文子词的韵律等级。图6为本申请一个实施例提供的韵律预测模型的示意图。

如图6所示，首先，获取输入文本，然后，将输入文本拆分为子词，并确定子词的词性；接下来，将子词、中文标记、英文标记和词性转换为向量(embedding)；获取上述子词对应的向量、上述中文标记对应的向量、上述英文标记对应的向量和上述子词的词性对应的向量之后，通过预先训练的韵律预测模型中的第一韵律预测子模型对中文子词进行韵律预测，获得中文子词的韵律等级，图6中，CN Output即表示中文子词的韵律等级；通过预先训练的韵律预测模型中的第二韵律预测子模型对英文子词进行韵律预测，获得英文子词的韵律等级，图6中，EN Output即表示英文子词的韵律等级。由此可以看出，本实施例中提供的韵律预测模型是一个多任务的韵律预测模型，中文子词的韵律等级预测和英文子词的韵律等级预测分别由不同的子任务模型完成。

步骤506，合并上述中文子词的韵律等级和上述英文子词的韵律等级，获得上述输入文本的韵律等级。

仍然参见图6，在获得上述中文子词的韵律等级和上述英文子词的韵律等级，可以合并上述中文子词的韵律等级和上述英文子词的韵律等级(merge output)，获得输入文本的韵律等级。

上述韵律标注方法中，获取输入文本之后，对上述输入文本进行分词，然后将分词获得的文本词拆分为子词，并确定上述子词的词性。进而对上述子词中的中文子词添加中文标记，对上述子词中的英文子词添加英文标记，根据上述子词、上述中文标记、上述英文标记和上述子词的词性，分别对上述中文子词和上述英文子词进行韵律预测，获得上述中文子词的韵律等级和上述英文子词的韵律等级。最后，合并上述中文子词的韵律等级和上述英文子词的韵律等级，获得上述输入文本的韵律等级，从而可以实现对输入文本的韵律等级进行标注，进而可以提升语音合成的表现力，增加合成音频的韵律感。

图7为本申请另一个实施例提供的韵律标注方法的流程图，如图7所示，本申请图5所示实施例中，步骤503可以包括：

步骤701，将分词获得的文本词中的中文词拆分为中文子词，以及将分词获得的文本词中的英文词拆分为英文子词。

具体地，将分词获得的文本词中的中文词拆分为中文子词可以为：将中文词拆分为字级别的中文子词。

举例来说，参见表1，输入文本为“再也不愿向邻国轻易低头表示忏悔了。”先对输入文本进行分词，然后将分词获得的文本词拆分为子词，对于中文词来说，即为将中文词拆分为字级别的中文子词。

表1

将分词获得的文本词中的英文词拆分为英文子词可以为：对英文词进行前缀树匹配，获得上述英文词的前缀，作为上述英文词的第一英文子词；和/或，对英文词进行后缀树匹配，获得上述英文词的后缀，作为上述英文词的第二英文子词；其中，上述前缀树是预先将英文前缀按树形结构保存形成的，上述后缀树是预先将英文后缀按树形结构保存形成的。

然后，从上述英文词中减去第一英文子词和/或第二英文子词，获得上述英文词的第三英文子词。

具体来说，本实施例采用“前缀+后缀”的方案将英文词拆分为英文子词。一个英文单词可以分为3个部分：前缀(prefix)、词根(stem)和后缀(suffix)。

常见的前缀有如下几类：

第一类：表示正负(或增减)的，如：“un-”、“in-”、“im-”、“il-”、“ir-”、“non-”、“mis-”、“mal-”、“dis-”、“anti-”、“de-”、“under-”、“re-”和“over-”等；

第二类：表示尺寸的，如：“semi-”、“equi-”、“mini-”、“micro-”、“macro-”和“mega-”等；

第三类：表示位置关系的，如：“inter-”、“super-”、“trans-”、“ex-”、“extra-”、“sub-”、“infra-”和“peri-”等；

第四类：表示时间和次序的，如：“ante-”、“pre-”、“prime-”、“post-”、“retro-”等；

第五类：表示数字的，如：“semi-”、“mono-”、“bi-”、“tri-”、“quad-”、“penta-”、“hex-”、“sept(em)-”、“oct-”、“dec-”和“multi-”等；

其它类别：如：“pro-”、“auto-”、“co-”和“con-”等等。

常见的后缀包括：名词后缀、动词后缀、形容词后缀和副词后缀等等。

本实施例中，可以预先将英文前缀按照树形结构进行保存，形成前缀树，并且将英文后缀按照树形结构进行保存，形成后缀树；然后，对英文词进行前缀树匹配，获得上述英文词的前缀，记为上述英文词的第一英文子词；和/或，对上述英文词进行后缀树匹配，获得上述英文词的后缀，记为上述英文词的第二英文子词。

然后，从英文词中减去第一英文子词和/或第二英文子词，获得上述英文词的第三英文子词。

举例来说，对于英文单词“transcript”，进行前缀树匹配，获得英文前缀“trans”，记为子词1；进行后缀树匹配，结果为空；从单词中减去英文前缀，获得“cript”，记为子词2。因此，英文单词“transcript”可以拆分为[trans、cript]；

对于英文单词“childlike”，进行前缀树匹配，结果为空，进行后缀树匹配，获得英文后缀“like”，记为子词1，从单词“childlike”中减去子词1，获得“child”，记为子词2。因此英文单词“childlike”可以拆分为[child、like]；

对于英文单词“multi-colored”，进行前缀树匹配，获得英文前缀“multi”，记为子词1；进行后缀树匹配，获得英文后缀“ed”，记为子词2；从单词“multi-colored”中减去子词1和子词2，获得“color”，记为子词3。因此，英文单词“multi-colored”可以拆分为[multi、color、ed]，如表1所示。

步骤702，确定上述子词的词性。

本实施例中，子词的词性与该子词所属的文本词的词性相同，举例来说，参见表1，分词获得的文本词“邻国”的词性为名词，记为“n”，那么将“邻国”拆分为子词“邻”和“国”之后，子词“邻”和“国”的词性也为“n”。

图8为本申请再一个实施例提供的韵律标注方法的流程图，如图8所示，本申请图5所示实施例中，步骤506之后，终端设备100还可以根据上述输入文本对应的音频的静音时长对上述输入文本的韵律等级进行修正。

具体地，根据上述输入文本对应的音频的静音时长对上述输入文本的韵律等级进行修正可以包括：

步骤801，获取上述输入文本对应的音频中每个字级别的发音单元的第一发音时长，以及相邻两个发音单元之间的第一停顿时长。

步骤802，根据第一发音时长和第一停顿时长，对上述音频中相邻两个发音单元之间的停顿时长和上述音频前后的第一静音时长进行归一化。

步骤803，获取归一化后的音频中每个字级别的发音单元的第二发音时长、相邻两个发音单元之间的第二停顿时长和归一化后的音频前后的第二静音时长。

步骤804，根据第二发音时长、第二停顿时长和第二静音时长，从归一化后的音频中获取时长大于或等于第一预定时长的第三静音时长。

其中，上述第一预定时长的长短可以在具体实现时根据系统性能和/或实现需求等自行设定，本实施例对上述第一预定时长的长短不作限定，举例来说，上述第一预定时长可以为100毫秒。

步骤805，根据上述第三静音时长在归一化后的音频中的位置，将输入文本中对应位置处的韵律等级修正为语调短语级。

举例来说，对于输入文本“再也不愿向邻国轻易低头表示忏悔了”，假设该输入文本对应的归一化后的音频中，在“再也不愿”后面有一段大于或等于100毫秒的静音时长，那么可以将输入文本“再也不愿”后面的韵律等级修正为语调短语级，即“再也不愿#3向邻国轻易低头表示忏悔了”。

步骤806，通过语音活动检测(voice activity detection，VAD)，获取归一化后的音频中时长大于或等于第二预定时长，并且小于第一预定时长的静音片段。

其中，上述第二预定时长的长短可以在具体实现时根据系统性能和/或实现需求等自行设定，本实施例对上述第二预定时长的长短不作限定，只要第二预定时长小于第一预定时长即可。举例来说，上述第二预定时长可以为45毫秒。

步骤807，根据上述静音片段在归一化后的音频中的位置，将上述输入文本中对应位置处的韵律等级修正为韵律短语级。

举例来说，对于输入文本“再也不愿向邻国轻易低头表示忏悔了”，假设该输入文本对应的归一化后的音频中，在“轻易”后面有一段大于或等于45毫秒，并小于100毫秒的静音片段，那么可以将输入文本“轻易”后面的韵律等级修正为韵律短语级，即“再也不愿#3向邻国轻易#2低头表示忏悔了”。

步骤808，保留上述输入文本中韵律词级的韵律等级。

本实施例中，终端设备100保留输入文本中韵律词级的韵律等级，这样，就可以获得输入文本的韵律等级的标注结果。

可以理解的是，上述实施例中的部分或全部步骤或操作仅是示例，本申请实施例还可以执行其它操作或者各种操作的变形。此外，各个步骤可以按照上述实施例呈现的不同的顺序来执行，并且有可能并非要执行上述实施例中的全部操作。

可以理解的是，终端设备为了实现上述功能，其包含了执行各个功能相应的硬件和/或软件模块。结合本申请所公开的实施例描述的各示例的算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本实施例可以根据上述方法实施例对终端设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是，本实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图9为本申请另一个实施例提供的终端设备的结构示意图，在采用对应各个功能划分各个功能模块的情况下，图9示出了上述实施例中涉及的终端设备900的一种可能的组成示意图，如图9所示，该终端设备900可以包括：获取模块901、分词模块902、拆分模块903、添加模块904、预测模块905和合并模块906；

其中，获取模块901，用于获取输入文本；

分词模块902，用于对上述输入文本进行分词；

拆分模块903，用于将分词获得的文本词拆分为子词，并确定上述子词的词性；

添加模块904，用于对上述子词中的中文子词添加中文标记，对上述子词中的英文子词添加英文标记；

预测模块905，用于根据上述子词、上述中文标记、上述英文标记和上述子词的词性，分别对上述中文子词和上述英文子词进行韵律预测，获得上述中文子词的韵律等级和上述英文子词的韵律等级；

合并模块906，用于合并中文子词的韵律等级和英文子词的韵律等级，获得上述输入文本的韵律等级。

需要说明的是，本申请图5所示实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

本实施例提供的终端设备900，用于执行本申请图5所示实施例提供的韵律标注方法，因此可以达到与上述方法相同的效果。

图10为本申请再一个实施例提供的终端设备的结构示意图，与图9所示的终端设备相比，图10所示的终端设备中，拆分模块903，具体用于将分词获得的文本词中的中文词拆分为中文子词，以及将分词获得的文本词中的英文词拆分为英文子词。具体地，拆分模块903，具体用于将上述中文词拆分为字级别的中文子词。拆分模块903，具体用于对英文词进行前缀树匹配，获得上述英文词的前缀，作为上述英文词的第一英文子词；和/或，对英文词进行后缀树匹配，获得上述英文词的后缀，作为上述英文词的第二英文子词；其中，上述前缀树是预先将英文前缀按树形结构保存形成的，上述后缀树是预先将英文后缀按树形结构保存形成的；从上述英文词中减去第一英文子词和/或第二英文子词，获得上述英文词的第三英文子词。

进一步地，终端设备900还可以包括：

修正模块907，用于在合并模块906合并中文子词的韵律等级和英文子词的韵律等级，获得上述输入文本的韵律等级之后，根据上述输入文本对应的音频的静音时长对上述输入文本的韵律等级进行修正。

具体地，修正模块907包括：时长获取子模块9071、归一化子模块9072、等级修正子模块9073、语音检测子模块9074和等级保留子模块9075；

其中，时长获取子模块9071，用于获取输入文本对应的音频中每个字级别的发音单元的第一发音时长，以及相邻两个发音单元之间的第一停顿时长；

归一化子模块9072，用于根据第一发音时长和第一停顿时长，对上述音频中相邻两个发音单元之间的停顿时长和上述音频前后的第一静音时长进行归一化；

时长获取子模块9071，还用于获取归一化后的音频中每个字级别的发音单元的第二发音时长、相邻两个发音单元之间的第二停顿时长和归一化后的音频前后的第二静音时长；以及根据第二发音时长、第二停顿时长和第二静音时长，从归一化后的音频中获取时长大于或等于第一预定时长的第三静音时长；

等级修正子模块9073，用于根据上述第三静音时长在归一化后的音频中的位置，将输入文本中对应位置处的韵律等级修正为语调短语级；

语音检测子模块9074，用于通过语音活动检测，获取归一化后的音频中时长大于或等于第二预定时长，并且小于所述第一预定时长的静音片段；

等级修正子模块9073，还用于根据上述静音片段在归一化后的音频中的位置，将输入文本中对应位置处的韵律等级修正为韵律短语级；

等级保留子模块9075，用于保留上述输入文本中韵律词级的韵律等级。

本实施例中，预测模块905可以包括：向量获取子模块9051和等级预测子模块9052；

向量获取子模块9051，用于获取上述子词对应的向量、上述中文标记对应的向量、上述英文标记对应的向量和上述子词的词性对应的向量；

等级预测子模块9052，用于通过预先训练的韵律预测模型中的第一韵律预测子模型，根据上述中文标记对应的向量，对上述子词对应的向量中的中文子词对应的向量和上述中文子词的词性对应的向量进行韵律预测，获得上述中文子词的韵律等级；以及通过预先训练的韵律预测模型中的第二韵律预测子模型，根据上述英文标记对应的向量，对上述子词对应的向量中的英文子词对应的向量和上述英文子词的词性对应的向量进行韵律预测，获得英文子词的韵律等级。

需要说明的是，本申请图5～图8所示实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

本实施例提供的终端设备900，用于执行本申请图5～图8所示实施例提供的韵律标注方法，因此可以达到与上述方法相同的效果。

应当理解的是，终端设备900可以对应于图4所示的终端设备100。其中，获取模块901、分词模块902、拆分模块903、添加模块904、预测模块905、合并模块906和修正模块907的功能可以由图4所示终端设备100中的处理器110实现。

在采用集成的单元的情况下，终端设备900可以包括处理模块、存储模块和通信模块。

其中，处理模块可以用于对终端设备900的动作进行控制管理，例如，可以用于支持终端设备900执行上述获取模块901、分词模块902、拆分模块903、添加模块904、预测模块905、合并模块906和修正模块907执行的步骤。存储模块可以用于支持终端设备900存储程序代码和数据等。通信模块，可以用于支持终端设备900与其他设备的通信。

其中，处理模块可以是处理器或控制器，其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框、模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理(digital signal processing，DSP)和微处理器的组合等等。存储模块可以是存储器。通信模块具体可以为射频电路、蓝牙芯片和/或Wi-Fi芯片等与其他电子设备交互的设备。

在一个实施例中，当处理模块为处理器，存储模块为存储器时，本实施例所涉及的终端设备900可以为具有图4所示结构的设备。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行本申请图5～图8所示实施例提供的方法。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序，当其在计算机上运行时，使得计算机执行本申请图5～图8所示实施例提供的方法。

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本领域普通技术人员可以意识到，本文中公开的实施例中描述的各单元及算法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法DD224803I01的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种韵律标注方法，其特征在于，包括：

获取输入文本；

对所述输入文本进行分词；

将分词获得的文本词拆分为子词，并确定所述子词的词性；

对所述子词中的中文子词添加中文标记，对所述子词中的英文子词添加英文标记；

根据所述子词、所述中文标记、所述英文标记和所述子词的词性，分别对所述中文子词和所述英文子词进行韵律预测，获得所述中文子词的韵律等级和所述英文子词的韵律等级；

合并所述中文子词的韵律等级和所述英文子词的韵律等级，获得所述输入文本的韵律等级；

其中，所述合并所述中文子词的韵律等级和所述英文子词的韵律等级，获得所述输入文本的韵律等级之后，还包括：

根据所述输入文本对应的音频的静音时长对所述输入文本的韵律等级进行修正；

所述根据所述输入文本对应的音频的静音时长对所述输入文本的韵律等级进行修正包括：

获取所述输入文本对应的音频中每个字级别的发音单元的第一发音时长，以及相邻两个所述发音单元之间的第一停顿时长；

根据所述第一发音时长和所述第一停顿时长，对所述音频中相邻两个发音单元之间的停顿时长和所述音频前后的第一静音时长进行归一化；

获取归一化后的音频中每个字级别的发音单元的第二发音时长、相邻两个所述发音单元之间的第二停顿时长和归一化后的音频前后的第二静音时长；

根据所述第二发音时长、所述第二停顿时长和所述第二静音时长，从所述归一化后的音频中获取时长大于或等于第一预定时长的第三静音时长；

根据所述第三静音时长在所述归一化后的音频中的位置，将所述输入文本中对应位置处的韵律等级修正为语调短语级；

通过语音活动检测，获取所述归一化后的音频中时长大于或等于第二预定时长，并且小于所述第一预定时长的静音片段；

根据所述静音片段在所述归一化后的音频中的位置，将所述输入文本中对应位置处的韵律等级修正为韵律短语级；

保留所述输入文本中韵律词级的韵律等级。

2.根据权利要求1所述的方法，其特征在于，所述将分词获得的文本词拆分为子词包括：

将分词获得的文本词中的中文词拆分为中文子词，以及将分词获得的文本词中的英文词拆分为英文子词。

3.根据权利要求2所述的方法，其特征在于，所述将分词获得的文本词中的中文词拆分为中文子词包括：

将所述中文词拆分为字级别的中文子词。

4.根据权利要求2所述的方法，其特征在于，所述将分词获得的文本词中的英文词拆分为英文子词包括：

对所述英文词进行前缀树匹配，获得所述英文词的前缀，作为所述英文词的第一英文子词；和/或，对所述英文词进行后缀树匹配，获得所述英文词的后缀，作为所述英文词的第二英文子词；其中，所述前缀树是预先将英文前缀按树形结构保存形成的，所述后缀树是预先将英文后缀按树形结构保存形成的；

从所述英文词中减去所述第一英文子词和/或所述第二英文子词，获得所述英文词的第三英文子词。

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述根据所述子词、所述中文标记、所述英文标记和所述子词的词性，分别对所述中文子词和所述英文子词进行韵律预测，获得所述中文子词的韵律等级和所述英文子词的韵律等级包括：

获取所述子词对应的向量、所述中文标记对应的向量、所述英文标记对应的向量和所述子词的词性对应的向量；

通过预先训练的韵律预测模型中的第一韵律预测子模型，根据所述中文标记对应的向量，对所述子词对应的向量中的中文子词对应的向量和所述中文子词的词性对应的向量进行韵律预测，获得所述中文子词的韵律等级；以及通过所述预先训练的韵律预测模型中的第二韵律预测子模型，根据所述英文标记对应的向量，对所述子词对应的向量中的英文子词对应的向量和所述英文子词的词性对应的向量进行韵律预测，获得所述英文子词的韵律等级。

6.一种韵律标注装置，其特征在于，包括：

获取模块，用于获取输入文本；

分词模块，用于对所述输入文本进行分词；

拆分模块，用于将分词获得的文本词拆分为子词，并确定所述子词的词性；

添加模块，用于对所述子词中的中文子词添加中文标记，对所述子词中的英文子词添加英文标记；

预测模块，用于根据所述子词、所述中文标记、所述英文标记和所述子词的词性，分别对所述中文子词和所述英文子词进行韵律预测，获得所述中文子词的韵律等级和所述英文子词的韵律等级；

合并模块，用于合并所述中文子词的韵律等级和所述英文子词的韵律等级，获得所述输入文本的韵律等级；

其中，所述韵律标注装置还包括：修正模块；

所述修正模块，用于在所述合并模块合并所述中文子词的韵律等级和所述英文子词的韵律等级，获得所述输入文本的韵律等级之后，根据所述输入文本对应的音频的静音时长对所述输入文本的韵律等级进行修正;

所述修正模块包括：时长获取子模块、归一化子模块、等级修正子模块、语音检测子模块和等级保留子模块；

其中，所述时长获取子模块，用于获取所述输入文本对应的音频中每个字级别的发音单元的第一发音时长，以及相邻两个所述发音单元之间的第一停顿时长；

所述归一化子模块，用于根据所述第一发音时长和所述第一停顿时长，对所述音频中相邻两个发音单元之间的停顿时长和所述音频前后的第一静音时长进行归一化；

所述时长获取子模块，还用于获取归一化后的音频中每个字级别的发音单元的第二发音时长、相邻两个所述发音单元之间的第二停顿时长和归一化后的音频前后的第二静音时长；以及根据所述第二发音时长、所述第二停顿时长和所述第二静音时长，从所述归一化后的音频中获取时长大于或等于第一预定时长的第三静音时长；

所述等级修正子模块，用于根据所述第三静音时长在所述归一化后的音频中的位置，将所述输入文本中对应位置处的韵律等级修正为语调短语级；

所述语音检测子模块，用于通过语音活动检测，获取所述归一化后的音频中时长大于或等于第二预定时长，并且小于所述第一预定时长的静音片段；

所述等级修正子模块，还用于根据所述静音片段在归一化后的音频中的位置，将所述输入文本中对应位置处的韵律等级修正为韵律短语级；

所述等级保留子模块，用于保留所述输入文本中韵律词级的韵律等级。

7.一种终端设备，其特征在于，包括：

一个或多个处理器；存储器；多个应用程序；以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述终端设备执行时，使得所述终端设备执行以下步骤：

获取输入文本；

对所述输入文本进行分词；

将分词获得的文本词拆分为子词，并确定所述子词的词性；

其中，当所述指令被所述终端设备执行时，使得所述终端设备执行所述合并所述中文子词的韵律等级和所述英文子词的韵律等级，获得所述输入文本的韵律等级的步骤之后，还执行以下步骤：

当所述指令被所述终端设备执行时，使得所述终端设备执行所述根据所述输入文本对应的音频的静音时长对所述输入文本的韵律等级进行修正的步骤包括：

保留所述输入文本中韵律词级的韵律等级。

8.根据权利要求7所述的终端设备，其特征在于，当所述指令被所述终端设备执行时，使得所述终端设备执行所述将分词获得的文本词拆分为子词的步骤包括：

9.根据权利要求8所述的终端设备，其特征在于，当所述指令被所述终端设备执行时，使得所述终端设备执行所述将分词获得的文本词中的中文词拆分为中文子词的步骤包括：

将所述中文词拆分为字级别的中文子词。

10.根据权利要求8所述的终端设备，其特征在于，当所述指令被所述终端设备执行时，使得所述终端设备执行所述将分词获得的文本词中的英文词拆分为英文子词的步骤包括：

11.根据权利要求7-10任意一项所述的终端设备，其特征在于，当所述指令被所述终端设备执行时，使得所述终端设备执行所述根据所述子词、所述中文标记、所述英文标记和所述子词的词性，分别对所述中文子词和所述英文子词进行韵律预测，获得所述中文子词的韵律等级和所述英文子词的韵律等级的步骤包括：

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如权利要求1-5任一项所述的方法。