CN104464718A - 韵律编辑装置及方法 - Google Patents

韵律编辑装置及方法 Download PDF

Info

Publication number
CN104464718A
CN104464718A CN201410458186.5A CN201410458186A CN104464718A CN 104464718 A CN104464718 A CN 104464718A CN 201410458186 A CN201410458186 A CN 201410458186A CN 104464718 A CN104464718 A CN 104464718A
Authority
CN
China
Prior art keywords
operating point
approximate
reference mark
approximate trajectories
trajectories
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201410458186.5A
Other languages
English (en)
Inventor
森纮一郎
那须悠
田村正统
森田真弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN104464718A publication Critical patent/CN104464718A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

根据一个实施例,一种韵律编辑装置包括近似轨迹生成器、设置器、显示控制器、操作接收器和更新器。所述近似轨迹生成器用包括控制点的参数曲线近似表示韵律信息的时间序列的轨迹,以生成近似轨迹。所述设置器在所述近似轨迹上设置与所述控制点对应的操作点。所述显示控制器在显示装置上显示操作屏幕,所述操作屏幕包括在其上显示所述操作点的所述近似轨迹。所述操作接收器接收在所述操作屏幕上移动任意选择的操作点的操作。所述更新器根据所述操作点的移动量计算所述控制点的位置,并更新所述近似轨迹。

Description

韵律编辑装置及方法
相关申请的交叉引用
本申请基于并要求2013年9月17日提交的日本专利申请No.2013-192359的优先权;其全部内容通过引用并入本文。
技术领域
在此描述的实施例一般涉及韵律编辑装置及方法。
背景技术
近来用于根据文本生成合成语音的语音合成技术使用统计韵律模型,从而显著提高了所生成的合成语音的质量。然而,即使根据大量的语音语料库构建了详尽的韵律模型,从韵律模型中生成的平均韵律在口语表达和词尾表达的情况下也可能不足,诸如问候具有各种类型的韵律。为此,已提出了响应于用户操作而编辑从韵律模型中生成的韵律的装置。
这种响应于用户操作而编辑韵律的装置需要用直观且简单的操作提供用户所期望的自然韵律,以防止由编辑后的韵律的不自然而导致的合成语音的质量的恶化,并提高用户在编辑工作中的可操作性。
发明内容
在此描述的实施例的目的是提供一种韵律编辑装置及方法,其能够用直观且简单的操作提供用户所期望的自然韵律。
根据一个实施例,一种韵律编辑装置包括近似轨迹生成器、设置器、显示控制器、操作接收器和更新器。近似轨迹生成器用包括控制点的参数曲线近似表示韵律信息的时间序列的轨迹,以生成近似轨迹。设置器在近似轨迹上设置与控制点对应的操作点。显示控制器在显示装置上显示操作屏幕,该操作屏幕包括在其上显示操作点的近似轨迹。操作接收器接收在操作屏幕上移动任意选择的操作点的操作。更新器根据操作点的移动量计算控制点的位置,并更新近似轨迹。
附图说明
图1是根据实施例的韵律编辑装置的示例性配置的方框图;
图2是三次贝塞尔(Bézier)曲线的例子的图;
图3是近似轨迹的例子的示意图;
图4A和4B是其中操作点被设置在近似轨迹上的状态的示意图;
图5是在显示装置上显示的操作屏幕的例子的示意图;
图6是其中近似轨迹响应于移动操作点的操作而更新的状态的示意图;
图7是更新后的操作屏幕的例子的示意图;
图8是由根据实施例的韵律编辑装置执行的一系列处理的流程图;
图9是详细说明编辑的流程图;
图10是其中操作点被添加到近似轨迹上的期望位置处的状态的示意图;
图11是根据实施例的韵律编辑装置的示例性硬件配置的方框图。
具体实施方式
图1是根据实施例的韵律编辑装置100的示例性配置的方框图。如图1所示,韵律编辑装置100包括语音合成器101、近似轨迹生成器102、设置器103、显示控制器104、操作接收器105和更新器106。韵律编辑装置100还包括扬声器110、诸如液晶显示器的显示装置120和作为用户接口的诸如鼠标和触摸板的输入装置130。在触摸板被用作输入装置130的情况下,显示装置120和输入装置130一体化。
语音合成器101从外部接收文本,以生成韵律和合成语音。为了生成韵律,例如使用统计韵律模型。至于语音合成方法,可采用所期望的方法,包括公知的单元挑选语音合成和隐马尔可夫模型语音合成。语音合成器101也可接收通过用户操作而编辑的韵律(更新后的近似轨迹,其将在后面描述),从而生成被应用了编辑后的韵律的合成语音。由语音合成器101生成的合成语音从扬声器110输出。
指示语音的韵律的韵律信息(能够由计算器处理的参数)的例子包括基频(F0)、音素的持续时间和力量。F0的时间序列可由线表示,其中横轴表示时间,纵轴表示频率。由这样的线表示的F0的时间序列称为F0轨迹。编辑F0轨迹使得有可能生成具有各种类型的语调的合成语音。
以下描述了由语音合成器101生成的F0轨迹是将要被编辑的目标的情况。然而,将要被编辑的韵律信息并不限于F0轨迹。根据本实施例的韵律编辑方法可广泛适用于任何能够由线(轨迹)表示的韵律信息的时间序列。例如,音素的持续时间的时间序列可以由线(轨迹)表示,其中横轴表示音素的发生时间,纵轴表示时间长度。力量的时间序列可以由线(轨迹)表示,其中横轴表示时间,纵轴表示力量的大小。本实施例还可适用于编辑音素的持续时间的时间序列和力量的时间序列。
近似轨迹生成器102以预定单位用参数曲线近似由语音合成器101生成的F0轨迹,从而生成近似轨迹。参数曲线的例子包括样条(spline)曲线、B样条曲线和贝塞尔曲线。本实施例使用贝塞尔曲线作为参数曲线,以生成近似轨迹。用于近似的参数曲线不限于贝塞尔曲线。
贝塞尔曲线是由N个控制点定义的(N-1)阶参数曲线。由于贝塞尔曲线可以用数量少的参数表示连续曲线,因此,贝塞尔曲线经常用于绘制平滑曲线。m阶贝塞尔曲线的方程用以下等式(1)表示:
q ( t i ) = Σ k = 0 m m k P k ( 1 - t i ) m - k t i k , 0 ≤ t i ≤ 1 - - - ( 1 )
其中,m表示贝塞尔曲线的阶数,ti表示参数,i表示参数的索引,Pk表示第k个控制点在二维坐标平面上的坐标。参数ti从0变化到1,从而构建一个贝塞尔曲线。
m阶贝塞尔曲线的形状由一组m+1个控制点(P0、P1、P2、…、Pm)唯一地确定。例如,三次贝塞尔曲线的方程由以下等式(2)定义:
q ( t i ) = ( 1 - t i ) 3 P 0 + 3 t i ( 1 - t i ) 2 P 1 + 3 t i 2 ( 1 - t i ) P 2 + t i 3 P 3 - - - ( 2 )
图2是三次贝塞尔曲线的例子的图。图2所示的三次贝塞尔曲线201由四个控制点P0、P1、P2和P3定义。P0和P3是充当贝塞尔曲线201的端点的控制点。通常,除了端点以外的控制点并不必需在贝塞尔曲线201上存在。
近似轨迹生成器102以预定单位划分由语音合成器101生成的F0轨迹,并用贝塞尔曲线近似每一段,从而生成近似轨迹。本实施例采用最小二乘法来计算用其近似了F0轨迹的每一段的贝塞尔曲线的控制点。虽然将对用三次贝塞尔曲线进行近似的例子进行说明以简化说明,但是,用除了三次贝塞尔曲线之外的m阶贝塞尔曲线进行近似可类似地概括。
近似轨迹生成器102估计使由以下的等式(3)定义的平方误差和最小化的控制点Pk,其中,pi(i=1~n)表示F0轨迹的某一段在二维坐标平面上的坐标,q(ti)表示贝塞尔曲线。在该等式中,n表示参数t的数据的数量。
S = Σ i = 1 n [ p i - q ( t i ) ] 2 - - - ( 3 )
采用最小二乘法,控制点的坐标Pk最终通过以下的等式(4)和(5)计算。由于P0和P3对应于贝塞尔曲线的端点,因此,这些点的坐标等于充当F0轨迹的某一段的端点的p1和pn的坐标。等式(4)和(5)中的常数由以下的等式(6)到(10)定义。
P 1 = A 2 C 1 - A 12 C 2 A 1 A 2 - A 12 A 12 - - - ( 4 )
P 2 = A 1 C 2 - A 12 C 1 A 1 A 2 - A 12 A 12 - - - ( 5 )
A 1 = 9 Σ i = 1 n t i 2 ( 1 - t i ) 4 - - - ( 6 )
A 2 = 9 Σ i = 1 n t i 4 ( 1 - t i ) 2 - - - ( 7 )
A 12 = 9 Σ i = 1 n t i 3 ( 1 - t i ) 3 - - - ( 8 )
C 1 = Σ i = 1 n 3 t i ( 1 - t i ) 2 [ p i - ( 1 - t i ) 3 P 0 - t i 3 P 3 ] - - - ( 9 )
C 2 = Σ i = 1 n 3 t i 2 ( 1 - t i ) [ p i - ( 1 - t i ) 3 P 0 - t i 3 P 3 ] - - - ( 10 )
这样,计算了用其近似F0轨迹的每一段的贝塞尔曲线的控制点。通过按时间顺序连接各个段的贝塞尔曲线而获得的曲线对应于近似轨迹。本实施例将近似轨迹看作F0轨迹来执行编辑。
在本实施例中,假定输入文本以日语书写,并假定划分F0轨迹的预定单位是重音短语单位。换句话说,F0轨迹在每个重音短语中用贝塞尔曲线近似。在这种情况下,用其近似F0轨迹的段的贝塞尔曲线的阶数优选地被设置成等于或大于在该段的重音短语中包括的短音节的数量的值。这可以减少近似轨迹(贝塞尔曲线)相对于F0轨迹的近似误差。划分F0轨迹的预定单位并不限于重音短语。可采用任何防止近似误差增大的期望单位。
图3是由近似轨迹生成器102生成的近似轨迹的例子的示意图。例如,图3中示出的近似轨迹301通过在每个重音短语中用贝赛尔曲线近似输入文本302的F0轨迹而获得。输入文本302由三个重音短语(不包括停顿)“KOREWA/ONSEIGOUSEINO/TESUTODESU”(英文是“this is speechsynthesis test”)组成。图3中的水平方向对应于时间轴(此后称为X轴),而垂直方向对应于频率轴(此后称为Y轴)。图3中的实心方块是贝塞尔曲线的控制点303。垂直的虚线304指示X轴中音素之间的边界,而垂直的实线305指示X轴中重音短语之间的边界。输入文本302之上的诸如“k/o/r/e/w/a”的字符串是音素串306。近似轨迹生成器102估计每个重音短语中的控制点303的坐标,并连接由控制点303(不包括停顿)定义的贝塞尔曲线,从而生成近似轨迹301。
设置器103在近似轨迹上设置与用其近似F0轨迹的贝塞尔曲线的控制点对应的操作点(即,在贝塞尔曲线上)。操作点由用户在操作屏幕上操作(其将在后面描述)以使用近似轨迹来编辑F0轨迹,并总是在近似轨迹上存在。贝塞尔曲线的控制点和近似轨迹上的操作点形成对,并处于一对一对应。设置操作点意味着存储操作点的坐标。
如上所述,贝赛尔曲线的除端点以外的控制点并不必需在贝塞尔曲线上存在。在本实施例中,与贝塞尔曲线的控制点对应的操作点被设置在近似轨迹上。这使得用户能够通过操作近似轨迹上的操作点来编辑F0轨迹(近似轨迹)。与在近似轨迹上不存在的控制点相比,用户可以更直观地操作在近似轨迹上存在的操作点。充当贝塞尔曲线的端点的控制点可被设置为操作点。
图4A和4B是其中操作点被设置在近似轨迹上的状态的示意图。图4A和4B中的例子示出了在图3中所示的近似轨迹301的一部分(与重音短语“test”对应的一部分)作为近似轨迹401。实心方块表示以与图3相同的方式形成近似轨迹401的贝塞尔曲线的控制点402。空心圆表示与控制点402对应的操作点403。由于充当贝塞尔曲线的端点的控制点在近似轨迹401上存在,因此,这些控制点本身充当操作点。
在图4A和4B中示出的例子中,控制点402的数量被设置为等于输入文本404中短音节的数量,因此每个短音节具有一个操作点403。在图4A和4B中表示操作点403的空心圆中的字符指示与各自的操作点403对应的短音节。控制点402的数量和与其对应的操作点403的数量并不必需等于输入本文404中短音节的数量。例如,控制点402和操作点403可被提供给输入文本404中的各个音素,或者可不管短音节和音素如何地提供。
假设控制点402的X坐标与短音节的X坐标一致,如图4A所示。在这种情况下,通过将控制点402垂直(在Y轴方向)投影到近似轨迹401上,可将与各个控制点402对应的操作点403设置在近似轨迹401上。然而,如图4B所示,通过上述的等式(4)和(5)计算的控制点402的X坐标并不必需与各个短音节的X坐标一致。在这种情况下,调整控制点402的位置,以使得控制点402的X坐标与短音节的X坐标一致。例如,如由图4B中的箭头所指示的,控制点402被平行移动,以使得控制点402的X坐标与短音节的X坐标一致。
控制点402的平移稍微改变了贝塞尔曲线的形状。这可能增加贝塞尔曲线与原始F0轨迹之间的误差(近似误差)。在近似误差超过阈值的情况下,控制点402可被直接垂直(在Y轴方向)投影到近似轨迹401上而不进行平行移动,从而设置操作点403。更复杂地,约束最小二乘法可用于用贝塞尔曲线近似F0轨迹。约束最小二乘法具有使控制点402的X坐标与短音节的X坐标一致的约束,从而使近似误差最小化。可选地,另一个操作点403可使用响应于用户操作而添加另一个操作点的功能(其在后面作为变形描述)来添加到近似轨迹401上的短音节的发生位置处。
显示控制器104在显示装置120上显示包括在其上显示操作点的近似轨迹的操作屏幕。
图5是在显示控制部104的控制下在显示装置120上显示的操作屏幕的例子的示意图。在图5所示的操作屏幕501中,屏幕的水平方向对应于X轴,而垂直方向对应于Y轴。操作屏幕501包括在其上显示操作点502的近似轨迹503。类似于在图3中示出的近似轨迹301,近似轨迹503通过在每个重音短语中用贝赛尔曲线近似输入文本504“KOREWA/ONSEIGOUSEINO/TESUTODESU”的F0轨迹获得。类似于在图4A和4B中示出的例子,近似轨迹503上的操作点502用空心圆表示,与操作点502对应的短音节的符号被写在各自的空心圆中。在对各个音素设置操作点502的情况下,音素的符号可代替短音节的符号被写在空心圆中。
类似于图3中的例子,图5中示出的操作屏幕501显示输入文本504、音素串505以及近似轨迹503。垂直的虚线506表示音素之间的边界,而垂直的实线507表示重音短语之间的边界。控制点并不必需在操作屏幕501上显示,但可作为引导显示。
用户使用输入装置130在图5中示出的操作屏幕501上执行在Y轴方向移动期望操作点502的操作,从而编辑F0轨迹。例如,在鼠标用作输入装置130的情况下,用户对期望操作点502执行拖拽和释放操作,从而在Y轴方向上移动操作点502。在触摸板用作输入装置130的情况下,用户对期望操作点502执行触摸操作,从而在Y轴方向上移动操作点502。
在显示装置120上显示的操作屏幕的格式并不限于图5所示的格式。在显示装置120上显示的操作屏幕仅仅需要包括在其上显示可通过用户的操作来移动的操作点的近似轨迹。
操作接收器105接收在显示装置120上显示的操作屏幕上移动期望操作点的用户操作,并将操作点的移动量传送到更新器106。
更新器106根据从操作接收器105接收的操作点的移动量计算与移动后的操作点对应的控制点的位置,并更新近似轨迹。更新后的近似轨迹对应于编辑后的F0轨迹。
近似轨迹上的操作点与形成近似轨迹的贝赛尔曲线的控制点一一对应。当操作点移动时,与其对应的控制点也移动。由于操作点的移动量不等于控制点的移动量,因此,需要通过进行以下的计算来根据操作点的移动量计算控制点的位置(坐标)。
为了简化计算,做出两个假设。第一个假设是用户被限制为仅在垂直方向(Y轴方向)移动操作点。第二个假设是除了与由用户移动的操作点对应的控制点以外的其它控制点的坐标是不变的。这两个假设的引入便于根据近似轨迹上的操作点的移动量来如下计算与操作点对应的控制点的移动量。
例如,P2表示与移动后的操作点对应的控制点。假定t表示在与控制点P2对应的操作点的位置处的参数的值,Δq表示操作点在垂直方向的移动量,ΔP表示控制点P2在垂直方向的移动量,则满足以下等式(11):
q(t)+Δq=(1-t)3P0+3t(1-t)2P1+3t2(1-t)(P2+ΔP)+t3P3  (11)
通过将上面给出的等式(2)的q(t)代入等式(11)中并整理该等式,可获得以下等式(12):
ΔP = Δq 3 t 2 ( 1 - t ) - - - ( 12 )
采用公式(12),可以从已知操作点的移动量Δq中导出控制点的移动量ΔP。通过将ΔP添加到控制点P2的Y坐标上,然后执行更新,可获得新的控制点P2的坐标。通过以相同方式从期望操作点的移动量中导出控制点的移动量,可获得新的控制点的位置。
更新器106通过上述的计算从操作点的移动量中获得控制点的位置。更新器106使用新的控制点重新绘制贝塞尔曲线,从而更新近似轨迹。
图6是其中响应于移动操作点的用户操作而更新近似轨迹的状态的示意图。在图6中,例如,用户在图5中示出的操作屏幕501上在垂直方向移动与短音节“te”对应的操作点。在图6中,虚曲线表示更新前的近似轨迹601B,而实曲线表示更新后的近似轨迹601A。操作点602用空心圆表示,形成更新前的近似轨迹601B的贝塞尔曲线的控制点603用虚线方块表示,与移动后的操作点602A对应的控制点603A用实心方块表示。由于充当贝塞尔曲线的端点的控制点存在于近似轨迹601A(601B)上,因此,这些控制点本身充当操作点。
如图6中所示,更新器106进行上述的计算,从而基于与短音节“te”对应的操作点602的移动量Δq而获得控制点603的移动量ΔP。更新器106将ΔP添加到移动前的控制点603的Y坐标上,从而获得与移动后的操作点602A对应的新的控制点603A的位置。更新器106使用新的控制点603A和与其它未移动的操作点602对应的控制点603绘制另一个贝塞尔曲线,从而将近似轨迹601B更新成近似轨迹601A。
在更新器106更新了近似轨迹后,语音合成器101接收更新后的近似轨迹作为另一个F0轨迹,并使用该F0轨迹生成合成语音。然后,合成语音从扬声器110中输出。用户收听从扬声器110输出的合成语音,从而检查编辑的效果。
在更新器106更新了近似轨迹后,设置器103重新设置更新后的近似轨迹上的操作点。显示控制器104在显示装置120上显示包括在其上显示重新设置的操作点的更新后的近似轨迹的操作屏幕。因此,在显示装置120上显示的操作屏幕被更新。用户可以在更新后的操作屏幕上进一步执行编辑工作。
图7是更新后的操作屏幕的例子的示意图。在图7中示出的操作屏幕701是响应于在图5中示出的操作屏幕501上如图6所示地移动与短音节“te”对应的操作点的用户操作而更新的操作屏幕。正如从图7中的操作屏幕701与图5中的操作屏幕501的比较中清楚地看出,响应于移动与短音节“te”对应的操作点702的用户操作,近似轨迹703在包括短音节“te”的重音短语“test”的整个段上改变。随后,操作点702被重新设置在与更新后近似轨迹703上的各个短音节对应的位置处。对于除了其操作点702被用户移动的短音节“te”以外的其它短音节,与其对应的操作点702的位置改变,但与其对应的控制点的位置不改变。
以下描述根据本实施例的韵律编辑装置100的操作。图8是由韵律编辑装置100执行的一系列处理的流程图。
首先,语音合成器101使用例如预先创建的统计韵律模型以生成输入文本的F0轨迹(步骤S101)。
接着,近似轨迹生成器102以诸如重音短语的预定单位用贝赛尔曲线近似在步骤S101中生成的F0轨迹,从而生成近似轨迹(步骤S102)。
接着,设置器103在步骤S102生成的近似轨迹上设置与用于近似F0轨迹的贝塞尔曲线的控制点对应的操作点(步骤S103)。
接着,显示控制器104在显示装置120上显示包括在其上显示在步骤S103设置的操作点的近似轨迹的操作屏幕(步骤S104)。用户使用在显示装置120上显示的操作屏幕以执行编辑工作以编辑F0轨迹。
根据本实施例的韵律编辑装置100根据需要询问用户是否结束编辑工作(步骤S105)。如果用户没有发出结束编辑工作的指示(步骤S105的“否”),则在步骤S106重复编辑。如果用户发出结束编辑工作的指示(步骤S105的“是”),则结束这一系列处理。
图9是详细说明图8中的步骤S106的编辑的流程图。
首先,用户用输入装置130在显示在显示装置120上的操作屏幕上执行移动期望操作点的操作。操作接收器105接收用户的操作,并将操作点的移动量传送到更新器106(步骤S201)。
接着,更新器106采用上述的方法根据操作点的移动量计算与移动后的操作点对应的新的控制点的位置(步骤S202)。然后,更新器106使用在步骤S202导出的新的控制点更新近似轨迹(步骤S203)。
接着,显示控制器104在显示装置120上显示包括在步骤S203更新的近似轨迹的另一个操作屏幕,从而更新在显示装置120上显示的操作屏幕(步骤S204)。在更新后的操作屏幕上显示的是在其上显示新的操作点的更新后的近似轨迹。
在步骤S203更新的近似轨迹作为编辑后的F0轨迹被传送到语音合成器101。语音合成器101使用编辑后的F0轨迹以生成合成语音,然后,合成语音从扬声器110输出(步骤S205)。用户收听合成语音,从而检查是否获得所期望的韵律。为了进一步执行编辑工作,用户在步骤S204所更新的操作屏幕上执行移动期望操作点的操作。为了结束编辑工作,用户发出结束工作的指令。
如特定例子所详细描述的,根据本实施例的韵律编辑装置100用参数曲线近似表示韵律信息的时间序列的轨迹,从而生成近似轨迹。韵律编辑装置100在近似轨迹上设置与参数曲线的控制点对应的操作点。韵律编辑装置100在操作屏幕上显示包括在其上显示操作点的近似轨迹的操作屏幕,并响应于移动操作点的用户操作而更新近似轨迹。根据本实施例的韵律编辑装置100以这种方式编辑韵律,并因此可以用直观且简单的操作来提供用户所期望的自然韵律。
换句话说,根据本实施例的韵律编辑装置100用参数曲线近似表示韵律信息的时间序列的轨迹,从而生成近似轨迹。韵律编辑装置100将近似轨迹当作将被编辑的轨迹,并响应于对操作点执行的用户操作而更新近似轨迹,从而执行编辑。通过移动操作点的操作,韵律编辑装置100可以提供其中除了操作点的位置外的操作点的外围平滑变化的轨迹。因此,韵律编辑装置100可以用简单的操作来提供用户所期望的自然韵律。
根据本实施例的韵律编辑装置100在近似轨迹上设置将被操作以编辑轨迹的操作点。这使得用户能够用直观的操作编辑轨迹,如同用户直接对将被编辑的轨迹进行变形。
虽然通过移动控制点来使曲线变形的方法是众所周知的,但控制点并不必须存在于曲线上。仅仅将该方法应用到用于编辑韵律的技术会妨碍用户执行直观的操作。还开发了用于提供与将被编辑的轨迹分离的用于操作的界面并响应于通过该界面的操作而使轨迹变形的方法。同样在这种情况下,用户也不能如同用户直接对将被编辑的轨迹进行的变形一样执行直观的操作。相比之下,在本实施例中,近似轨迹响应于对近似轨迹上的操作点执行的操作而更新,从而编辑轨迹。这使得用户能够用直观的操作编辑轨迹,如同用户直接对将被编辑的轨迹进行变形。为此,根据本实施例的韵律编辑装置100在近似轨迹上设置与控制点对应的操作点,并根据操作点的移动量计算新的控制点的位置,从而更新轨迹。
此外,在根据本实施例的韵律编辑装置100中,语音合成器101使用更新后的近似轨迹以生成合成语音,然后,合成语音从扬声器110输出。这使得用户能够在收听合成语音时检查编辑效果。
此外,根据本实施例的韵律编辑装置100特别使用贝塞尔曲线作为用其近似表示韵律信息的时间序列的轨迹的参数曲线。因此,韵律编辑装置100可以提高近似的精确度,并提供自然的韵律。换句话说,参数曲线中的贝塞尔曲线可以与表示韵律信息的时间序列的轨迹中的变化类似地进行变化。韵律编辑装置100使用贝塞尔曲线生成近似轨迹,从而提供自然的韵律。
此外,在如图4B所示的控制点402在时间轴方向的位置(X坐标)不同于近似轨迹401上音素或短音节的发生位置(X坐标)的情况下,根据本实施例的韵律编辑装置100进行调整,以使得控制点402的X坐标与音素或短音节的X坐标一致,并设置操作点403。这使得用户能够如同用户直接操作期望改变的音素或短音节一样执行编辑工作,导致更直观的操作。
此外,如图5中所示,根据本实施例的韵律编辑装置100在显示装置120上显示操作屏幕501。操作屏幕501使用表示音素或短音节的符号在近似轨迹503上显示操作点502。这使得用户能够如同用户直接操作期望改变的音素或短音节一样执行编辑工作,导致更直观的操作。
变形例
在上述实施例中,操作接收器105接收移动已设置在操作屏幕所包括的近似轨迹上的操作点的用户操作。除了移动已设置的操作点的操作之外,操作接收器105还可接收在近似轨迹上的期望位置处添加操作点的操作。
图10是其中响应于用户操作而在近似轨迹上的期望位置处添加操作点的状态的示意图。在图10的例子中,用户执行在图5示出的操作屏幕501上执行在重音短语“KOREWA”的段的近似轨迹上的音素“w”和音素“a”之间的边界的位置处添加新的操作点1001的操作。
用户用输入装置130执行在操作屏幕所包括的近似轨迹上的期望位置处添加操作点的操作。在鼠标用作输入装置130的情况下,例如,用户将光标定位在近似轨迹上的期望位置处进行双击或右键单击,从而在光标的位置处添加操作点。在触摸板用作输入装置130的情况下,用户在近似轨迹上的期望位置上执行触摸操作,从而在触摸位置处添加操作点。
操作接收器105接收在近似轨迹上的期望位置处添加操作点的用户操作,并将所添加的操作点的位置信息(坐标)传送到更新器106。
更新器106通过进行以下基于由用户操作添加的操作点的位置信息的计算,获得与操作点对应的控制点的位置,并更新近似轨迹。
假设q表示通过用户操作而添加的操作点的坐标,t表示在该位置处的参数的值,Pk表示与所添加的操作点对应的控制点的位置,除了该控制点外的其它控制点的坐标是不变的,则满足以下等式(13):
q - q ( t ) = m k P k ( 1 - t ) m - k t k - - - ( 13 )
等式(13)表明在右侧的所添加的控制点Pk的项等于在左侧的操作点的变化量。因此,与所添加的操作点对应的控制点的坐标Pk根据以下等式(14)计算:
P k = q - q ( t ) m k ( 1 - t ) m - k t k - - - ( 14 )
更新器106使用以该方式计算出的新的控制点以及已有的控制点重新绘制贝赛尔曲线,从而更新近似轨迹。在图10所示的例子中,虚线方块表示与所添加的操作点1001对应的新的控制点1002。更新器106使用控制点1002以提供更新后的近似轨迹1003。相对于还未添加操作点的近似轨迹,更新后的近似轨迹1003的形状没有显著改变。新的控制点1002的添加增大了阶数,从而使近似轨迹的形状更平滑。
在更新了近似轨迹后,与以上实施例类似地,在显示装置120上显示包括更新后的近似轨迹的操作屏幕。用户可以在更新后的操作屏幕上以与以上实施例相同的方式编辑F0轨迹。
在该变形例中,操作点可被添加在近似轨迹上的期望位置处,从而进一步提高用户可操作性。在如上所述的控制点的X坐标与近似轨迹上的音素或短音节的X坐标不一致的情况下,例如,操作点可添加在与音素或短音节的X坐标对应的位置处,而无需进行在X轴方向平行移动控制点的调整。这可以减小近似误差。
例如,根据本实施例的韵律编辑装置可以使用通用计算机作为基本硬件来提供。图11是根据本实施例的韵律编辑装置100的示例性硬件配置的方框图。在图11所示的例子中,韵律编辑装置100包括存储器140、中央处理单元(CPU)150、外部存储装置160、扬声器110、显示装置120、输入装置130和总线170。存储器140例如在其中存储执行韵律编辑的计算机程序。CPU 150根据在存储器140中存储的计算机程序来控制韵律编辑装置100的每个单元。外部存储装置160在其中存储用于控制韵律编辑装置100所要求的各种类型的数据。扬声器110例如输出合成语音。显示装置120显示操作屏幕。输入装置130由用户使用以对操作屏幕进行操作。总线170连接这些单元。外部存储装置160例如可经由有线或无线局域网(LAN)连接到每个单元。
有关在以上实施例中描述的处理的指令例如基于作为软件的计算机程序来执行。有关在以上实施例中描述的处理的指令被记录在诸如磁盘(例如,软盘(FD)和硬盘)、光盘(例如,光盘只读存储器(CD-ROM)、可录光盘(CD-R)、可擦写光盘(CD-RW)、数字多功能光盘只读存储器(DVD-ROM)、DVD±R、DVD±RW和蓝光(注册商标)光盘)、半导体存储器等的记录介质中,作为计算机可执行程序。记录介质可具有任何存储格式,只要它是计算机可读的记录介质。
计算机从记录介质中读取计算机程序,并基于计算机程序用CPU 150执行在计算机程序中描述的指令。这样,计算机具有作为根据以上实施例的韵律编辑装置100的功能。计算机可经由网络获取或读取计算机程序。
基于来自记录介质的安装在计算机中的计算机程序的指令,在计算机上运行的操作系统(OS)和中间件(MW)(诸如数据库管理软件和网络)可例如执行处理的一部分以提供本实施例。
本实施例中的记录介质并不限于独立于计算机的介质,也可以是下载并在其中永久或暂时存储经由LAN、因特网等传输的计算机程序的记录介质。
记录介质并不限于单个记录介质,多个介质也可作为本实施例中的记录介质执行处理。记录介质可具有任何配置。
由计算机执行的计算机程序具有模块配置,其包括构成根据本实施例的韵律编辑装置100的处理单元(语音合成器101、近似轨迹生成器102、设置器103、显示控制器104、操作接收器105和更新器106)。在实际的硬件配置中,例如,CPU 150从存储器140中读取并执行计算机程序,以将处理单元加载到主存储器上。这样,处理单元在主存储器上加载并生成。
本实施例中的计算机基于在记录介质中存储的计算机程序执行本实施例中的处理。计算机可具有任何配置,例如,包括诸如个人计算机和微型计算机的单个装置,以及在其中多个装置经由网络连接的系统。本实施例中的计算机并不限于个人计算机,可以是例如在信息处理器和微计算机中包括的算术处理单元。计算机统指能够基于计算机程序执行本实施例中的功能的设备和装置。
虽然已经描述了某些实施例,但是这些实施例仅以举例的方式提出,并不意味者限制本发明的范围。事实上,在此描述的新颖实施例可以采用各种其它形式体现;此外,在不脱离本发明的精神的情况下,可以可以对在此描述的实施例的形式进行各种省略、替代和变化。所附的权利要求及其等同意图涵盖落在本发明的范围和精神之内的这种形式或修改。

Claims (7)

1.一种韵律编辑装置,包括:
近似轨迹生成器,其用包括控制点的参数曲线近似表示韵律信息的时间序列的轨迹,以生成近似轨迹;
设置器,其在所述近似轨迹上设置与所述控制点对应的操作点;
显示控制器,其在显示装置上显示操作屏幕,所述操作屏幕包括在其上显示所述操作点的所述近似轨迹;
操作接收器,其接收在所述操作屏幕上移动任意选择的操作点的操作;以及
更新器,其根据所述操作点的移动量计算所述控制点的位置,并更新所述近似轨迹。
2.根据权利要求1所述的装置,还包括:
语音合成器,其通过使用所述近似轨迹来生成合成语音。
3.根据权利要求1所述的装置,其中,所述近似轨迹生成器通过使用贝塞尔曲线作为所述参数曲线来生成所述近似轨迹。
4.根据权利要求1所述的装置,其中,当所述控制点在时间轴方向的位置不同于所述近似轨迹上的音素或短音节的发生位置时,所述设置器进行调整,以使得所述控制点在所述时间轴方向的所述位置与所述近似轨迹上的所述音素或所述短音节的所述发生位置一致,并将所述操作点设置在所述近似轨迹上的所述音素或所述短音节的所述发生位置。
5.根据权利要求4所述的装置,其中,所述显示控制器在所述显示装置上显示所述操作屏幕,所述操作屏幕包括在其上用表示在所述操作点的所述位置处发生的所述音素或所述短音节的符号显示所述操作点的所述近似轨迹。
6.根据权利要求1所述的装置,其中,
所述操作接收器还接收将所述操作点添加到在所述操作屏幕中包括的所述近似轨迹上的期望位置处的操作;
在添加所述操作点时,所述更新器计算与所添加的操作点对应的控制点的位置,并更新所述近似轨迹。
7.一种韵律编辑方法,包括:
用包括控制点的参数曲线近似表示韵律信息的时间序列的轨迹,以生成近似轨迹;
在所述近似轨迹上设置与所述控制点对应的操作点;
在显示装置上显示操作屏幕,所述操作屏幕包括在其上显示所述操作点的所述近似轨迹;
接收在所述操作屏幕上移动任意选择的操作点的操作;以及
根据所述操作点的移动量计算所述控制点的位置,并更新所述近似轨迹。
CN201410458186.5A 2013-09-17 2014-09-10 韵律编辑装置及方法 Withdrawn CN104464718A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013192359A JP6261924B2 (ja) 2013-09-17 2013-09-17 韻律編集装置、方法およびプログラム
JP2013-192359 2013-09-17

Publications (1)

Publication Number Publication Date
CN104464718A true CN104464718A (zh) 2015-03-25

Family

ID=52668748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410458186.5A Withdrawn CN104464718A (zh) 2013-09-17 2014-09-10 韵律编辑装置及方法

Country Status (3)

Country Link
US (1) US20150081306A1 (zh)
JP (1) JP6261924B2 (zh)
CN (1) CN104464718A (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6461660B2 (ja) * 2015-03-19 2019-01-30 株式会社東芝 検出装置、検出方法およびプログラム
US10553199B2 (en) * 2015-06-05 2020-02-04 Trustees Of Boston University Low-dimensional real-time concatenative speech synthesizer
WO2018175892A1 (en) * 2017-03-23 2018-09-27 D&M Holdings, Inc. System providing expressive and emotive text-to-speech
JP6747489B2 (ja) 2018-11-06 2020-08-26 ヤマハ株式会社 情報処理方法、情報処理システムおよびプログラム
JP6737320B2 (ja) 2018-11-06 2020-08-05 ヤマハ株式会社 音響処理方法、音響処理システムおよびプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04362998A (ja) * 1990-12-13 1992-12-15 Ricoh Co Ltd ピッチパターン分析装置及び合成装置
JPH0620021A (ja) * 1992-07-03 1994-01-28 Mutoh Ind Ltd 図形処理方法および装置
JP3303835B2 (ja) * 1999-04-30 2002-07-22 日本電気株式会社 音声の規則合成のためのピッチパタン生成装置及び方法
JP4639532B2 (ja) * 2001-06-05 2011-02-23 日本電気株式会社 自然音声の節点抽出装置
US20050177369A1 (en) * 2004-02-11 2005-08-11 Kirill Stoimenov Method and system for intuitive text-to-speech synthesis customization
US8438032B2 (en) * 2007-01-09 2013-05-07 Nuance Communications, Inc. System for tuning synthesized speech
JP5119700B2 (ja) * 2007-03-20 2013-01-16 富士通株式会社 韻律修正装置、韻律修正方法、および、韻律修正プログラム
JP2008268477A (ja) * 2007-04-19 2008-11-06 Hitachi Business Solution Kk 韻律調整可能な音声合成装置
JP5262464B2 (ja) * 2008-09-04 2013-08-14 ヤマハ株式会社 音声処理装置およびプログラム
TWI394142B (zh) * 2009-08-25 2013-04-21 Inst Information Industry 歌聲合成系統、方法、以及裝置
US8577141B2 (en) * 2010-11-05 2013-11-05 Lg Innotek Co., Ltd. Method of enhancing contrast using bezier curve

Also Published As

Publication number Publication date
JP2015060002A (ja) 2015-03-30
US20150081306A1 (en) 2015-03-19
JP6261924B2 (ja) 2018-01-17

Similar Documents

Publication Publication Date Title
CN104464718A (zh) 韵律编辑装置及方法
JP4714441B2 (ja) フラットオーディオボリュームコントロールモデルを実装するシステムおよび方法
CN106062867B (zh) 语音字体说话者以及韵律插值
US7831432B2 (en) Audio menus describing media contents of media players
US7869892B2 (en) Audio file editing system and method
CN102486921A (zh) 语音合成信息编辑设备
EP3824461B1 (en) Method and system for creating object-based audio content
CN103782342A (zh) 电子文本的声道
US10649971B2 (en) Incremental dynamic document index generation
CN104835493A (zh) 语音合成字典生成装置和语音合成字典生成方法
US20050223325A1 (en) Document structure-editing program, document structure-editing method, document structure-editing apparatus, and computer-readable recording medium having document structure-editing program recorded thereon
CN106325833A (zh) 一种用于企业信息管理的代码生成方法
CN101681662B (zh) 编辑装置和编辑方法
CN103124969B (zh) 集成的无历史的和基于历史的建模
CN103594082A (zh) 声音合成装置、方法以及存储介质
US20150193976A1 (en) Systems and methods of updating graphical objects
WO2023129348A1 (en) Multidirectional generative editing
CN104573526B (zh) 软件产品多版本管理方法、装置以及计算机设备
CN112631587A (zh) 界面原型设计方法、界面原型操作方法及存储介质
JP2014089475A (ja) 音声合成装置およびプログラム
CN112017698B (zh) 语音机器人采用的人工录音的优化方法、装置及电子设备
JP5449284B2 (ja) ユーザインタフェース設計支援装置、ユーザインタフェース設計支援方法、およびユーザインタフェース設計支援プログラム
CN117632132A (zh) 代码生成方法、装置、电子设备及计算机可读存储介质
JP2016033674A (ja) 音声合成装置および音声合成方法
CN114281324A (zh) 页面生成方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
C04 Withdrawal of patent application after publication (patent law 2001)
WW01 Invention patent application withdrawn after publication

Application publication date: 20150325