CN109686359B - 语音输出方法、终端及计算机可读存储介质 - Google Patents
语音输出方法、终端及计算机可读存储介质 Download PDFInfo
- Publication number
- CN109686359B CN109686359B CN201811632187.1A CN201811632187A CN109686359B CN 109686359 B CN109686359 B CN 109686359B CN 201811632187 A CN201811632187 A CN 201811632187A CN 109686359 B CN109686359 B CN 109686359B
- Authority
- CN
- China
- Prior art keywords
- voice
- text
- read
- output
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 21
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 62
- 238000012549 training Methods 0.000 claims description 59
- 230000006870 function Effects 0.000 claims description 29
- 230000002194 synthesizing effect Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 17
- 238000002372 labelling Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 15
- 239000012634 fragment Substances 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 7
- 230000006854 communication Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种语音输出方法,该方法包括:在接收到启动朗读功能的指令时,获取待朗读文本,并通过训练好的语音合成模型合成所述待朗读文本对应的语音;输出所述语音,以及,显示朗读速度控件;侦测作用于所述朗读速度控件的触控操作;在侦测到作用于所述朗读速度控件的触控操作时,根据侦测到的触控操作调整所述语音的输出速度。本发明还公开了一种终端及计算机可读存储介质。本发明能够增强语音朗读的自然感,且能够满足用户调节语音朗读速度的个性化需求,从而提升了用户体验。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种语音输出方法、终端及计算机可读存储介质。
背景技术
随着移动互联网的发展,对语音技术的利用越来越多,语音朗读也越来越普及。比如等车、坐车、环境光线昏暗的场景下,进行视觉阅读不是很方便,而语音朗读使得用户可以随心所欲地听书籍、新闻、查阅的资料等。然而,现在的语音朗读一般是调用语音模块按照默认的语速进行逐字输出,这种输出结果用户听起来较为机械和单调,用户体验不佳。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种语音输出方法、终端及计算机可读存储介质,旨在解决现有的语音朗读较为机械和单调,用户体验不佳的技术问题。
为实现上述目的,本发明提供一种语音输出方法,所述语音输出方法包括以下步骤:
在接收到启动朗读功能的指令时,获取待朗读文本,并通过训练好的语音合成模型合成所述待朗读文本对应的语音;
输出所述语音,以及,显示朗读速度控件;
侦测作用于所述朗读速度控件的触控操作;
在侦测到作用于所述朗读速度控件的触控操作时,根据侦测到的触控操作调整所述语音的输出速度。
可选地,所述训练好的语音合成模型包括训练好的韵律分析模型和训练好的声学模型,
所述通过训练好的语音合成模型合成所述待朗读文本对应的语音的步骤包括:
通过训练好的韵律分析模型,提取所述待朗读文本对应的文本特征向量;
将所述文本特征向量输入至训练好的声学模型中,得到训练好的声学模型输出的声学特征向量;
根据所述声学特征向量,合成所述待朗读文本对应的语音。
可选地,所述通过训练好的韵律分析模型,提取所述待朗读文本对应的文本特征向量的步骤包括:
将所述待朗读文本输入至训练好的韵律分析模型中,进行分词处理和标注处理,得到分词结果和标注结果;
根据所述分词结果和标注结果提取所述待朗读文本对应的文本特征向量。
可选地,所述根据所述声学特征向量,合成所述待朗读文本对应的语音的步骤包括:
对所述声学特征向量进行反变换处理,得到所述声学特征向量对应的声音波形;
依次拼接所述声学特征向量对应的声音波形,合成所述待朗读文本对应的语音。
可选地,所述根据所述声学特征向量,合成所述待朗读文本对应的语音的步骤,还包括:
根据所述声学特征向量,从预存真人语音片段库中,匹配所述声学特征向量对应的目标语音片段;
依次拼接匹配到的目标语音片段,合成所述待朗读文本对应的语音。
可选地,所述根据侦测到的触控操作调整所述语音的输出速度的步骤包括:
确定侦测到的触控操作对应的变速倍率;
根据所述变速倍率调整所述语音的输出速度。
可选地,所述根据所述变速倍率调整所述语音的输出速度的步骤包括:
从所述语音中提取待输出语音;
通过预设的傅里叶变换算法,按照所述变速倍率对所述待输出语音进行变速处理;
输出处理后的待输出语音。
可选地,所述在接收到启动朗读功能的指令时,获取待朗读文本,并通过训练好的语音合成模型合成所述待朗读文本对应的语音的步骤之前,包括:
获取文本数据训练集,并根据所述文本数据训练集录制对应的语音数据训练集;
根据所述文本数据训练集训练韵律分析模型,以及,根据所述文本数据训练集和所述语音数据训练集训练声学模型,得到训练好的语音合成模型。
此外,为实现上述目的,本发明还提供一种终端,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音输出程序,所述语音输出程序被所述处理器执行时实现如上所述的语音输出方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有语音输出程序,所述语音输出程序被处理器执行时实现如上所述的语音输出方法的步骤。
本发明提供一种语音输出方法,在接收到启动朗读功能的指令时,获取待朗读文本,并通过训练好的语音合成模型合成所述待朗读文本对应的语音;输出所述语音,以及,显示朗读速度控件;侦测作用于所述朗读速度控件的触控操作;在侦测到作用于所述朗读速度控件的触控操作时,根据侦测到的触控操作调整所述语音的输出速度。通过上述方式,合成的语音质量较高,输出时圆润细腻、没有机械感,用户听到的文本朗读声更接近真实的人声,比较自然,用户还可以对文本朗读的速度进行实时调节,满足了用户的个性化需求,从而提升了用户体验。
附图说明
图1为实现本发明各个实施例的一种移动终端的硬件结构示意图;
图2为本发明实施例提供的一种通信网络系统架构图;
图3为本发明语音输出方法第一实施例的流程示意图;
图4为本发明语音输出方法涉及的朗读速度控件示意图;
图5为本发明语音输出方法第二实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
终端可以以各种形式来实施。例如,本发明中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)、便捷式媒体播放器(Portable Media Player,PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端,以及诸如数字TV、台式计算机等固定终端。
后续描述中将以移动终端为例进行说明,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。
请参阅图1,其为实现本发明各个实施例的一种移动终端的硬件结构示意图,该移动终端100可以包括:RF(Radio Frequency,射频)单元101、Wi-Fi模块102、音频输出单元103、A/V(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解,图1中示出的移动终端结构并不构成对移动终端的限定,移动终端可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图1对移动终端的各个部件进行具体的介绍:
射频单元101可用于收发信息或通话过程中,信号的接收和发送,具体的,将基站的下行信息接收后,给处理器110处理;另外,将上行的数据发送给基站。通常,射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元101还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA2000(CodeDivision Multiple Access 2000,码分多址2000)、WCDMA(Wideband Code DivisionMultiple Access,宽带码分多址)、TD-SCDMA(Time Division-Synchronous CodeDivision Multiple Access,时分同步码分多址)、FDD-LTE(Frequency DivisionDuplexing-Long Term Evolution,频分双工长期演进)和TDD-LTE(Time DivisionDuplexing-Long Term Evolution,分时双工长期演进)等。
WiFi属于短距离无线传输技术,移动终端通过WiFi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块102,但是可以理解的是,其并不属于移动终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
音频输出单元103可以在移动终端100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时,将射频单元101或WiFi模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元103还可以提供与移动终端100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。
A/V输入单元104用于接收音频或视频信号。A/V输入单元104可以包括图形处理器(Graphics Processing Unit,GPU)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或WiFi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据),并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。
移动终端100还包括至少一种传感器105,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度,接近传感器可在移动终端100移动到耳边时,关闭显示面板1061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1061。
用户输入单元107可用于接收输入的数字或字符信息,以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元107可包括触控面板1071以及其他输入设备1072。触控面板1071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作),并根据预先设定的程式驱动相应的连接装置。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器110,并能接收处理器110发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071,用户输入单元107还可以包括其他输入设备1072。具体地,其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种,具体此处不做限定。
进一步的,触控面板1071可覆盖显示面板1061,当触控面板1071检测到在其上或附近的触摸操作后,传送给处理器110以确定触摸事件的类型,随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图1中,触控面板1071与显示面板1061是作为两个独立的部件来实现移动终端的输入和输出功能,但是在某些实施例中,可以将触控面板1071与显示面板1061集成而实现移动终端的输入和输出功能,具体此处不做限定。
接口单元108用作至少一个外部装置与移动终端100连接可以通过的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外部装置之间传输数据。
存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器109可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器110是移动终端的控制中心,利用各种接口和线路连接整个移动终端的各个部分,通过运行或执行存储在存储器109内的软件程序和/或模块,以及调用存储在存储器109内的数据,执行移动终端的各种功能和处理数据,从而对移动终端进行整体监控。处理器110可包括一个或多个处理单元;优选的,处理器110可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。
移动终端100还可以包括给各个部件供电的电源111(比如电池),优选的,电源111可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管图1未示出,移动终端100还可以包括蓝牙模块等,在此不再赘述。
基于上述终端硬件结构,提出本发明终端的各个实施例。
请参照图1,在本发明终端的一实施例中,该终端包括:存储器109、处理器110和存储在所述存储器109上并可在所述处理器110上运行的语音输出程序,所述语音输出程序被所述处理器110执行时实现以下步骤:
在接收到启动朗读功能的指令时,获取待朗读文本,并通过训练好的语音合成模型合成所述待朗读文本对应的语音;
输出所述语音,以及,显示朗读速度控件;
侦测作用于所述朗读速度控件的触控操作;
在侦测到作用于所述朗读速度控件的触控操作时,根据侦测到的触控操作调整所述语音的输出速度。
进一步地,所述训练好的语音合成模型包括训练好的韵律分析模型和训练好的声学模型,所述语音输出程序被所述处理器110执行时还实现以下步骤:
通过训练好的韵律分析模型,提取所述待朗读文本对应的文本特征向量;
将所述文本特征向量输入至训练好的声学模型中,得到训练好的声学模型输出的声学特征向量;
根据所述声学特征向量,合成所述待朗读文本对应的语音。
进一步地,所述语音输出程序被所述处理器110执行时还实现以下步骤:
将所述待朗读文本输入至训练好的韵律分析模型中,进行分词处理和标注处理,得到分词结果和标注结果;
根据所述分词结果和标注结果提取所述待朗读文本对应的文本特征向量。
进一步地,所述语音输出程序被所述处理器110执行时还实现以下步骤:
对所述声学特征向量进行反变换处理,得到所述声学特征向量对应的声音波形;
依次拼接所述声学特征向量对应的声音波形,合成所述待朗读文本对应的语音。
进一步地,所述语音输出程序被所述处理器110执行时还实现以下步骤:
根据所述声学特征向量,从预存真人语音片段库中,匹配所述声学特征向量对应的目标语音片段;
依次拼接匹配到的目标语音片段,合成所述待朗读文本对应的语音。
进一步地,所述语音输出程序被所述处理器110执行时还实现以下步骤:
确定侦测到的触控操作对应的变速倍率;
根据所述变速倍率调整所述语音的输出速度。
进一步地,所述语音输出程序被所述处理器110执行时还实现以下步骤:
从所述语音中提取待输出语音;
通过预设的傅里叶变换算法,按照所述变速倍率对所述待输出语音进行变速处理;
输出处理后的待输出语音。
进一步地,所述语音输出程序被所述处理器110执行时还实现以下步骤:
获取文本数据训练集,并根据所述文本数据训练集录制对应的语音数据训练集;
根据所述文本数据训练集训练韵律分析模型,以及,根据所述文本数据训练集和所述语音数据训练集训练声学模型,得到训练好的语音合成模型。
为了便于理解本发明实施例,下面对本发明的移动终端所基于的通信网络系统进行描述。
请参阅图2,图2为本发明实施例提供的一种通信网络系统架构图,该通信网络系统为通用移动通信技术的LTE系统,该LTE系统包括依次通讯连接的UE(User Equipment,用户设备)201,E-UTRAN(Evolved UMTS Terrestrial Radio Access Network,演进式UMTS陆地无线接入网)202,EPC(Evolved Packet Core,演进式分组核心网)203和运营商的IP业务204。
具体地,UE201可以是上述终端100,此处不再赘述。
E-UTRAN202包括eNodeB2021和其它eNodeB2022等。其中,eNodeB2021可以通过回程(backhaul)(例如X2接口)与其它eNodeB2022连接,eNodeB2021连接到EPC203,eNodeB2021可以提供UE201到EPC203的接入。
EPC203可以包括MME(Mobility Management Entity,移动性管理实体)2031,HSS(Home Subscriber Server,归属用户服务器)2032,其它MME2033,SGW(Serving Gate Way,服务网关)2034,PGW(PDN Gate Way,分组数据网络网关)2035和PCRF(Policy andCharging Rules Function,政策和资费功能实体)2036等。其中,MME2031是处理UE201和EPC203之间信令的控制节点,提供承载和连接管理。HSS2032用于提供一些寄存器来管理诸如归属位置寄存器(图中未示)之类的功能,并且保存有一些有关服务特征、数据速率等用户专用的信息。所有用户数据都可以通过SGW2034进行发送,PGW2035可以提供UE 201的IP地址分配以及其它功能,PCRF2036是业务数据流和IP承载资源的策略与计费控制策略决策点,它为策略与计费执行功能单元(图中未示)选择及提供可用的策略和计费控制决策。
IP业务204可以包括因特网、内联网、IMS(IP Multimedia Subsystem,IP多媒体子系统)或其它IP业务等。
虽然上述以LTE系统为例进行了介绍,但本领域技术人员应当知晓,本发明不仅仅适用于LTE系统,也可以适用于其他无线通信系统,例如GSM、CDMA2000、WCDMA、TD-SCDMA以及未来新的网络系统等,此处不做限定。
基于上述终端硬件结构以及通信网络系统,提出本发明语音输出方法各个实施例。
本发明提供一种语音输出方法。
参照图3,图3为本发明语音输出方法第一实施例的流程示意图。
在本实施例中,所述语音输出方法可选应用于终端中,可选为图1所示的终端,所述语音输出方法包括以下步骤:
步骤S10,在接收到启动朗读功能的指令时,获取待朗读文本,并合成所述待朗读文本对应的语音;
本实施例的语音输出方法适用于对用户所阅读的文本进行语音播放的场景。在本实施例中,终端屏幕上显示任意一文本阅读界面,比如新闻阅读界面、小说阅读界面、百科词条界面等。该文本阅读界面中包括麦克风选项(具体可以是麦克风图标),用户通过点击该麦克风选项可以触发文本朗读功能,当终端检测到用户作用于该麦克风选项的点击操作时,终端启动朗读功能,首先获取相应的待朗读文本,将获取到的待朗读文本转化为相应的语音,即,通过训练好的韵律分析模型和声学模型合成该待朗读文本对应的语音。具体地,首先将待朗读文本输入至训练好的韵律分析模型中,训练好的韵律分析模型可以结合该待朗读文本的语义和上下文语境对待朗读文本进行分词处理和标注处理,其中,通过分词处理可以将待朗读文本切分为若干个分词,得到分词结果;通过标注处理可以注明待朗读文本中每个字符的发音、音调以及待朗读文本中的停顿信息(哪里需要停顿),得到标注结果。之后,训练好的韵律分析模型根据得到的分词结果和标注结果提取待朗读文本的特征,得到若干个文本特征向量。
进一步地,将得到的各个文本特征向量输入至训练好的声学模型中进行处理,训练好的声学模型可以完成文本特征向量到声学特征向量的映射,也就是说,将得到的各个文本特征向量输入至训练好的声学模型中,经过训练好的声学模型的处理,训练好的声学模型可以输出相应的声学特征向量。
在得到各个声学特征向量之后,通过预设的声码器将各个声学特征向量进行反变换处理,得到相应的声音波形,然后依次拼接声音波形,即可合成待朗读文本对应的语音。需要说明的是,声学特征向量反映了声音信号的关键信息,反变换则可看作用关键信息还原全量信息,因此,在反变换的过程中还可以使得合成的语音具备特定的音色,比如录制某个明星或卡通人物的语音片段,在合成时据此调整相应的参数,使得合成的语音拥有这个明星或卡通人物的音色。作为一种实施方式,在得到待朗读文本对应的声学特征向量之后,也可以不用声码器,直接通过录音拼接的方法进行合成,这种方式需要预先录制大量的真人语音片段,将真人语音片段及其对应的声学特征向量进行关联存储,从而构建真人语音片段库,那么就可以在真人语音片段库中,根据待朗读文本对应的声学特征向量匹配它们所对应的目标语音片段直接进行拼接,合成待朗读文本对应的语音。
通过上述方式合成的语音质量较高,输出时圆润细腻、没有机械感,更接近真实的人声,增强了自然感。
步骤S20,输出所述语音,以及,显示朗读速度控件;
在合成待朗读文本对应的语音之后,按照默认的标准朗读速度(用X表示)输出该语音,同时,在文本阅读界面中,显示朗读速度控件,本实施例对朗读速度控件的样式不作限定,可参照图4,图4举例了一种朗读速度控件的示意图。朗读速度控件中包括各种倍速,比如1.0X、1.25X、1.5X和2.0X。终端可以将朗读速度控件显示在文本阅读界面的任意位置,考虑到有些用户喜欢边阅读边听,为了不影响用户阅读,可以将朗读速度控件的显示透明度设置为大于0小于1。
步骤S30,侦测作用于所述朗读速度控件的触控操作;
在终端显示朗读速度控件后,用户若想调节朗读的语速,则可以点击朗读速度控件中的倍速按钮,终端侦测作用于朗读速度控件的触控操作。
步骤S40,在侦测到作用于所述朗读速度控件的触控操作时,根据侦测到的触控操作调整所述语音的输出速度。
在侦测到作用于朗读速度控件的触控操作时,首先判断侦测到的触控操作是作用于哪一倍速按钮上,以确定侦测到的触控操作对应的变速倍率,然后从合成的语音中切分出还未输出的语音,也就是待输出语音,再通过预设的傅里叶变换算法,根据确定的变速倍率对待输出语音的频率进行修改,得到变速处理后的待输出语音,然后输出变速处理后的待输出语音,实现了对语音的输出速度的调整,满足了用户调节朗读语速的需求。
下面下面举例说明本实施例的应用场景。
用户在坐地铁时,通过移动终端查询某一百科词条,由于地铁较为拥挤,用眼睛阅读起来很不方便,用户便可以戴上耳机,在跳转出的百科词条界面中点击麦克风图标,启用朗读功能,如果查询百科词条较长,用户则可以点击朗读速度控件,调节朗读语速。
本实施例提供一种语音输出方法,在接收到启动朗读功能的指令时,获取待朗读文本,并通过训练好的语音合成模型合成所述待朗读文本对应的语音;输出所述语音,以及,显示朗读速度控件;侦测作用于所述朗读速度控件的触控操作;在侦测到作用于所述朗读速度控件的触控操作时,根据侦测到的触控操作调整所述语音的输出速度。通过上述方式,合成的语音质量较高,输出时圆润细腻、没有机械感,用户听到的文本朗读声更接近真实的人声,比较自然,用户还可以对文本朗读的速度进行实时调节,满足了用户的个性化需求,从而提升了用户体验。
进一步地,基于第一实施例提出本发明语音输出方法的第二实施例。
语音输出方法的第二实施例与语音输出方法的第一实施例的区别在于,参照图5,所述步骤S10之前,所述方法还包括:
步骤S50,获取文本数据训练集,并根据所述文本数据训练集录制对应的语音数据训练集;
步骤S60,获取文本数据训练集,并根据所述文本数据训练集录制对应的语音数据训练集;
根据所述文本数据训练集训练韵律分析模型,以及,根据所述文本数据训练集和所述语音数据训练集训练声学模型,得到训练好的语音合成模型。
应当理解,在本实施例中,在接收到启动朗读功能的指令时,获取待朗读文本,并通过训练好的语音合成模型合成所述待朗读文本对应的语音的步骤之前,需预先训练语音合成模型,其中,语音合成模型包括韵律分析模型和声学模型。在本实施例中,基于深度神经网络训练韵律分析模型和声学模型。即,首先采集大量用于训练韵律分析模型和声学模型的文本数据(涵盖了汉语中常见的句型),构成文本数据训练集。此外,还通过发音人对这些文本数据进行朗读,录制这些文本数据对应的语音数据,构成语音数据训练集。
即,创建深度神经网络DNN(DeepNeuralNetworks)和双向LSTM神经网络,采用文本数据训练集对DNN+双向LSTM神经网络进行训练,具体地,首先提取文本数据训练集中文本数据的特征向量,然后初始化DNN+双向LSTM的参数,将文本数据的特征向量作为DNN的输入,DNN的输出作为双向LSTM神经网络的输入,然后基于Bi-LSTM的输出对参数进行更新,从而得到训练好的韵律分析模型。
创建深度神经网络DNN,采用文本数据训练集及其对应的语音数据训练集对DNN进行训练,具体地,对文本数据训练集中文本数据进行分析,得到句式信息(包含陈述句、疑问句或感叹句)、上下文特征信息(包含语义、重音、情感)等,然后始化DNN的参数,根据句式信息、上下文特征信息和语音数据训练集对DNN进行训练,基于反向传播算法对DNN的参数进行更新,得到训练好的声学模型,该声学模型具有较强的情感表现力。
本实施例训练好的韵律分析模型,在提取待朗读文本对应的文本特征向量时,更加准确,而训练好的声学模型的情感表现力得到了增强,那么在通过训练好的韵律分析模型和声学模型合成的待朗读文本对应的语音时,则可以提升合成的语音的质量,增强圆润感和细腻感,合成的语音将更接近真实的人声。
此外,本发明实施例还提出一种计算机可读存储介质。
本发明计算机可读存储介质上存储有语音输出程序,所述语音输出程序被处理器执行时实现如下步骤:
在接收到启动朗读功能的指令时,获取待朗读文本,并通过训练好的语音合成模型合成所述待朗读文本对应的语音;
输出所述语音,以及,显示朗读速度控件;
侦测作用于所述朗读速度控件的触控操作;
在侦测到作用于所述朗读速度控件的触控操作时,根据侦测到的触控操作调整所述语音的输出速度。
进一步地,所述语音输出程序被处理器执行时还实现如下步骤:
通过训练好的韵律分析模型,提取所述待朗读文本对应的文本特征向量;
将所述文本特征向量输入至训练好的声学模型中,得到训练好的声学模型输出的声学特征向量;
根据所述声学特征向量,合成所述待朗读文本对应的语音。
进一步地,所述语音输出程序被处理器执行时还实现如下步骤:
将所述待朗读文本输入至训练好的韵律分析模型中,进行分词处理和标注处理,得到分词结果和标注结果;
根据所述分词结果和标注结果提取所述待朗读文本对应的文本特征向量。
进一步地,所述语音输出程序被处理器执行时还实现如下步骤:
对所述声学特征向量进行反变换处理,得到所述声学特征向量对应的声音波形;
依次拼接所述声学特征向量对应的声音波形,合成所述待朗读文本对应的语音。
进一步地,所述语音输出程序被处理器执行时还实现如下步骤:
所述根据所述声学特征向量,合成所述待朗读文本对应的语音的步骤,还包括:
根据所述声学特征向量,从预存真人语音片段库中,匹配所述声学特征向量对应的目标语音片段;
依次拼接匹配到的目标语音片段,合成所述待朗读文本对应的语音。
进一步地,所述语音输出程序被处理器执行时还实现如下步骤:
确定侦测到的触控操作对应的变速倍率;
根据所述变速倍率调整所述语音的输出速度。
进一步地,所述语音输出程序被处理器执行时还实现如下步骤:
从所述语音中提取待输出语音;
通过预设的傅里叶变换算法,按照所述变速倍率对所述待输出语音进行变速处理;
输出处理后的待输出语音。
进一步地,所述语音输出程序被处理器执行时还实现如下步骤:
获取文本数据训练集,并根据所述文本数据训练集录制对应的语音数据训练集;
根据所述文本数据训练集训练韵律分析模型,以及,根据所述文本数据训练集和所述语音数据训练集训练声学模型,得到训练好的语音合成模型。
其中,在所述处理器上运行的语音输出程序被执行时所实现的方法可参照本发明语音输出方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种语音输出方法,其特征在于,所述语音输出方法包括以下步骤:
在接收到启动朗读功能的指令时,获取待朗读文本,并通过训练好的语音合成模型合成所述待朗读文本对应的语音;
输出所述语音,以及,显示朗读速度控件;
侦测作用于所述朗读速度控件的触控操作;
在侦测到作用于所述朗读速度控件的触控操作时,根据侦测到的触控操作调整所述语音的输出速度;
其中,所述训练好的语音合成模型包括训练好的韵律分析模型和训练好的声学模型,所述通过训练好的语音合成模型合成所述待朗读文本对应的语音的步骤包括:
通过训练好的韵律分析模型,提取所述待朗读文本对应的文本特征向量;
将所述文本特征向量输入至训练好的声学模型中,得到训练好的声学模型输出的声学特征向量;
根据所述声学特征向量,合成所述待朗读文本对应的语音;
所述根据所述声学特征向量,合成所述待朗读文本对应的语音的步骤包括:
对所述声学特征向量进行反变换处理,得到所述声学特征向量对应的声音波形;
依次拼接所述声学特征向量对应的声音波形,合成所述待朗读文本对应的语音。
2.如权利要求1所述的语音输出方法,其特征在于,所述通过训练好的韵律分析模型,提取所述待朗读文本对应的文本特征向量的步骤包括:
将所述待朗读文本输入至训练好的韵律分析模型中,进行分词处理和标注处理,得到分词结果和标注结果;
根据所述分词结果和标注结果提取所述待朗读文本对应的文本特征向量。
3.如权利要求1所述的语音输出方法,其特征在于,所述根据所述声学特征向量,合成所述待朗读文本对应的语音的步骤,还包括:
根据所述声学特征向量,从预存真人语音片段库中,匹配所述声学特征向量对应的目标语音片段;
依次拼接匹配到的目标语音片段,合成所述待朗读文本对应的语音。
4.如权利要求1所述的语音输出方法,其特征在于,所述根据侦测到的触控操作调整所述语音的输出速度的步骤包括:
确定侦测到的触控操作对应的变速倍率;
根据所述变速倍率调整所述语音的输出速度。
5.如权利要求4所述的语音输出方法,其特征在于,所述根据所述变速倍率调整所述语音的输出速度的步骤包括:
从所述语音中提取待输出语音;
通过预设的傅里叶变换算法,按照所述变速倍率对所述待输出语音进行变速处理;
输出处理后的待输出语音。
6.如权利要求1所述的语音输出方法,其特征在于,所述在接收到启动朗读功能的指令时,获取待朗读文本,并通过训练好的语音合成模型合成所述待朗读文本对应的语音的步骤之前,包括:
获取文本数据训练集,并根据所述文本数据训练集录制对应的语音数据训练集;
根据所述文本数据训练集训练韵律分析模型,以及,根据所述文本数据训练集和所述语音数据训练集训练声学模型,得到训练好的语音合成模型。
7.一种终端,其特征在于,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音输出程序,所述语音输出程序被所述处理器执行时实现权利要求1至6中任一项所述的语音输出方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音输出程序,所述语音输出程序被处理器执行时实现如权利要求1至6中任一项所述的语音输出方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811632187.1A CN109686359B (zh) | 2018-12-28 | 2018-12-28 | 语音输出方法、终端及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811632187.1A CN109686359B (zh) | 2018-12-28 | 2018-12-28 | 语音输出方法、终端及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109686359A CN109686359A (zh) | 2019-04-26 |
CN109686359B true CN109686359B (zh) | 2023-11-10 |
Family
ID=66190309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811632187.1A Active CN109686359B (zh) | 2018-12-28 | 2018-12-28 | 语音输出方法、终端及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109686359B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111816168A (zh) * | 2020-07-21 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、语音播放的方法、装置及存储介质 |
CN112331176B (zh) * | 2020-11-03 | 2023-03-10 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、存储介质及电子设备 |
CN112989974A (zh) * | 2021-03-02 | 2021-06-18 | 赵宏福 | 自动分词拼写的文本识别方法及装置、存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2317359A1 (en) * | 1999-09-09 | 2001-03-09 | Lucent Technologies Inc. | A method and apparatus for interactive language instruction |
JP2001222290A (ja) * | 2000-02-07 | 2001-08-17 | Canon Inc | 音声合成装置及びその制御方法並びに記憶媒体 |
CN105355193A (zh) * | 2015-10-30 | 2016-02-24 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002333895A (ja) * | 2001-05-10 | 2002-11-22 | Sony Corp | 情報処理装置および情報処理方法、記録媒体、並びにプログラム |
US20140067399A1 (en) * | 2012-06-22 | 2014-03-06 | Matopy Limited | Method and system for reproduction of digital content |
-
2018
- 2018-12-28 CN CN201811632187.1A patent/CN109686359B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2317359A1 (en) * | 1999-09-09 | 2001-03-09 | Lucent Technologies Inc. | A method and apparatus for interactive language instruction |
JP2001222290A (ja) * | 2000-02-07 | 2001-08-17 | Canon Inc | 音声合成装置及びその制御方法並びに記憶媒体 |
CN105355193A (zh) * | 2015-10-30 | 2016-02-24 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109686359A (zh) | 2019-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109447234B (zh) | 一种模型训练方法、合成说话表情的方法和相关装置 | |
US9685161B2 (en) | Method for updating voiceprint feature model and terminal | |
CN108197185A (zh) | 一种音乐推荐方法、终端及计算机可读存储介质 | |
CN110827826B (zh) | 语音转换文字方法、电子设备 | |
CN109686359B (zh) | 语音输出方法、终端及计算机可读存储介质 | |
CN110033769B (zh) | 一种录入语音处理方法、终端及计算机可读存储介质 | |
CN109302528B (zh) | 一种拍照方法、移动终端及计算机可读存储介质 | |
CN108989558A (zh) | 终端通话的方法及装置 | |
CN108073572A (zh) | 信息处理方法及其装置、同声翻译系统 | |
CN114065168A (zh) | 信息处理方法、智能终端及存储介质 | |
CN109167880B (zh) | 双面屏终端控制方法、双面屏终端及计算机可读存储介质 | |
CN108632465A (zh) | 一种语音输入的方法及移动终端 | |
CN112700783A (zh) | 通讯的变声方法、终端设备和存储介质 | |
CN112163148A (zh) | 信息显示方法、移动终端及存储介质 | |
CN109453526B (zh) | 一种声音处理方法、终端及计算机可读存储介质 | |
CN111292727A (zh) | 一种语音识别方法及电子设备 | |
CN114627872A (zh) | 一种虚拟人物语音调控方法、设备及计算机可读存储介质 | |
CN113127740A (zh) | 信息推荐方法、电子设备及存储介质 | |
CN109656658B (zh) | 一种编辑对象处理方法、设备及计算机可读存储介质 | |
CN108958505B (zh) | 一种显示候选信息的方法及终端 | |
CN112489619A (zh) | 语音处理方法、终端设备及存储介质 | |
CN112672213A (zh) | 一种视频信息处理方法、设备及计算机可读存储介质 | |
CN110364177B (zh) | 语音处理方法、移动终端及计算机可读存储介质 | |
CN109951607B (zh) | 一种内容处理方法、终端及计算机可读存储介质 | |
CN113314095A (zh) | 处理方法、移动终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231008 Address after: Room 3605, Floor 5, Building 3, Micro World, No. 23, Century Avenue, Liuwu New District, Lhasa, Xizang Autonomous Region, 850000 Applicant after: Xizang Liansa Intelligent Technology Co.,Ltd. Address before: 518057 Dazu Innovation Building, 9018 Beihuan Avenue, Nanshan District, Shenzhen City, Guangdong Province, 6-8, 10-11, 6 and 6-10 floors in Area A, B and C Applicant before: NUBIA TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |