CN103370743A - 音质变换系统、音质变换装置及其方法、声道信息生成装置及其方法 - Google Patents
音质变换系统、音质变换装置及其方法、声道信息生成装置及其方法 Download PDFInfo
- Publication number
- CN103370743A CN103370743A CN2012800070696A CN201280007069A CN103370743A CN 103370743 A CN103370743 A CN 103370743A CN 2012800070696 A CN2012800070696 A CN 2012800070696A CN 201280007069 A CN201280007069 A CN 201280007069A CN 103370743 A CN103370743 A CN 103370743A
- Authority
- CN
- China
- Prior art keywords
- vowel
- shape information
- voice
- sound
- tonequality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001755 vocal effect Effects 0.000 title claims abstract description 167
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims description 57
- 238000002156 mixing Methods 0.000 claims abstract description 48
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 22
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 10
- 230000009466 transformation Effects 0.000 claims description 106
- 239000000203 mixture Substances 0.000 claims description 82
- 238000003860 storage Methods 0.000 claims description 78
- 238000004458 analytical method Methods 0.000 claims description 45
- 238000003825 pressing Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 22
- 238000005516 engineering process Methods 0.000 description 17
- 239000013598 vector Substances 0.000 description 17
- 238000012986 modification Methods 0.000 description 16
- 230000004048 modification Effects 0.000 description 16
- 238000001228 spectrum Methods 0.000 description 15
- 230000008859 change Effects 0.000 description 13
- 238000005755 formation reaction Methods 0.000 description 12
- 230000008451 emotion Effects 0.000 description 10
- 230000005484 gravity Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 210000001260 vocal cord Anatomy 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 210000002105 tongue Anatomy 0.000 description 5
- 238000007792 addition Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000035807 sensation Effects 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 241000270708 Testudinidae Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008602 contraction Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 210000004704 glottis Anatomy 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241001248531 Euchloe <genus> Species 0.000 description 1
- 241000255969 Pieris brassicae Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000007799 cork Substances 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003292 diminished effect Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
音质变换系统(100)具备:母音接受部(102),接受种类互不相同的多个母音的语音;分析部(103),分析接受的多个母音的语音,从而按每个母音的种类,生成第一声道形状信息;混合部(105),按每个母音的种类,对该母音的第一声道形状信息和与该母音不同种类的母音的第一声道形状信息进行混合,从而生成该母音的第二声道形状信息;以及合成部(108),通过对输入语音中包含的母音的声道形状信息和与输入语音中包含的母音相同种类的母音的第二声道形状信息进行混合,从而变换输入语音的声道形状信息,通过使用变换后的输入语音的声道形状信息和输入语音的声源信息生成合成音,从而变换输入语音的音质。
Description
技术领域
本发明涉及音质变换技术。
背景技术
作为以往的音质变换技术有如下技术,大量准备以互不相同的2种说话方式(例如感情)来发音的相同内容的语音的对,从中学习2种说话方式之间的变换规则的技术(例如,参见专利文献1)。在专利文献1所述的音质变换技术中,能够根据学习模型从无感情语音变换到有感情语音。
在专利文献2所述的音质变换技术中,通过从孤立发音的少量的母音中提取特征量,从而实现向目标语音的变换。
(现有技术文献)
(专利文献)
专利文献1:日本特开平7-72900号公报
专利文献2:国际公开第2008/142836号
发明要解决的课题
然而,在所述的音质变换技术中,有时不能将输入语音变换成流畅自然的语音。
发明内容
于是,本发明提供能够将输入语音变换成流畅自然的语音的音质变换系统。
用于解决课题的手段
本发明的一个实施例涉及的音质变换系统,使用表示声道的形状的声道形状信息,对输入语音的音质进行变换,所述音质变换系统具备:母音接受部,接受种类互不相同的多个母音的语音;分析部,分析由所述母音接受部接受的多个母音的语音,从而按每个所述母音的种类,生成第一声道形状信息;混合部,按每个所述母音的种类,对该母音的所述第一声道形状信息和与该母音不同种类的母音的所述第一声道形状信息进行混合,从而生成该母音的第二声道形状信息;以及合成部,获得输入语音的声道形状信息以及声源信息,通过对所述输入语音中包含的母音的声道形状信息和与所述输入语音中包含的母音相同种类的母音的所述第二声道形状信息进行混合,从而变换所述输入语音的声道形状信息,通过使用变换后的所述输入语音的声道形状信息和所述输入语音的声源信息生成合成音,从而变换所述输入语音的音质。
另外,这些全体或具体的实施例,可以用系统、方法、集成电路、计算机程序或计算机可读取的CD-ROM(Compact Disc Read OnlyMemory)等记录介质来实现,也可以任意组合系统、方法、集成电路、计算机程序以及记录介质来实现。
根据本发明的一个实施例涉及的音质变换系统能够将输入语音变换为流畅自然的语音。
附图说明
图1是示出母音的谱包络的一例的模式图。
图2A是示出孤立母音的第一峰段频率以及第二峰段频率的分布的图。
图2B是示出文中母音的第一峰段频率以及第二峰段频率的分布的图。
图3是示出人的声道的发音管模型的图。
图4A是示出孤立母音和平均声道形状信息的关系的图。
图4B是示出文中母音和平均声道形状信息的关系的图。
图5A是示出孤立母音的第一峰段频率以及第二峰段频率的平均的图。
图5B是示出文中母音的第一峰段频率以及第二峰段频率的平均的图。
图6是示出文中母音的F1-F2平均、孤立母音的F1-F2平均、以及平均声道形状信息的各自与多个文中母音的第一峰段频率以及第二峰段频率的均方根(Root mean square)误差的图。
图7是用于说明使在F1-F2平面的各孤立母音的位置移动至平均声道形状信息的位置时的效果的图。
图8是实施例1的音质变换系统的构成图。
图9是示出实施例1的分析部的详细构成的一例的图。
图10是表示实施例1的合成部的详细构成的一例的图。
图11A是示出实施例1的音质变换系统的处理工作的流程图。
图11B是示出实施例1的音质变换系统的处理工作的另一流程图。
图12是示出实施例1的音质变换系统的处理工作的流程图。
图13A是示出对日语的输入语音的音质进行变换时的实验结果的图。
图13B是示出对英语的输入语音的音质进行变换时的实验结果的图。
图14是在F1-F2平面配置了英语的13母音的图。
图15是表示实施例1的母音接受部的一例的图。
图16是示出以比率q使所有孤立母音的第一峰段频率以及第二峰段频率移动的情况下在F1-F2平面上形成的多边形的图。
图17是用于说明以声道长变换比率r来使声道截面积函数伸缩的变换方法的图。
图18是用于说明以声道长变换比率r来使声道截面积函数伸缩的变换方法的图。
图19是用于说明以声道长变换比率r来使声道截面积函数伸缩的变换方法的另一图。
图20是示出实施例2的音质变换系统的构成图。
图21是用于说明在实施例2的声道信息生成装置输出的各母音的语音的图。
图22是示出实施例3的音质变换系统的构成图。
图23是示出其他实施例的音质变换系统的构成图。
图24是专利文献1的音质变换装置的构成图。
图25是专利文献2的音质变换装置的构成图。
具体实施方式
(成为本发明的基础的见解)
在设备和接口中的语音输出功能担负着对用户告知操作方法和设备状态等重要的作用。此外,在信息设备中,语音输出功能作为读出经由网络获得的文本信息等的功能而利用。
加之最近,设备被拟人化的同时输出有特征的语音的需求也逐渐增加。例如,因为人感觉人型机器人有人格,当人型机器人用单调的合成语音说话时常常觉得有不协调感。
此外,还出现了用名人和动画片登场人物的语音说喜欢的句子的服务。用于提供这样的服务的应用程序中,语音的特征比说的内容更成为需求的关键。
这样,对语音输出功能的需求,从以前的明确性或者准确性,扩展到能够选择语音的种类,或者能够变换为喜好的语音等。
此外,作为实现这样的语音输出功能的方法有以下方式:对人说话的语音进行录音并再生的录音再生方式、以及根据文本和发音记号生成语音波形的语音合成方式。录音再生方式的优点是音好,不过,缺点是存储容量大以及不能根据状况改变说话的内容。
另一方面,语音合成方式,可以用文本来改变说话内容,所以能够避免存储容量的增大,不过,在音质和声调自然方面上不及录音再生方式。因此,常常是消息(message)的种类少的情况下选择录音再生方式,多的情况下选择语音合成方式。
然而,不论用哪种方式,语音的种类限定在预先准备的种类。即,想使用男性和女性等2种语音的情况下,需要预先录制双方的语音、或者准备双方语音的语音合成部,导致设备成本和开发成本增加。更不可能调整或改变成喜好的语音。
于是,使语音的特征近似于其他发话者的语音的特征的音质变换技术的需求增加。
如上所述,作为以往的音质变换技术有如下技术,准备大量的互不相同的2种说话方式(例如感情)来发音的同一内容的语音的对,从中学习2种说话方式之间的变换规则的技术(例如,参考专利文献1)。
图24是专利文献1所述的音质变换装置的构成图。
这个图示出的音质变换装置具备:声的分析部2002、谱的DP(Dynamic Programming:动态规划)匹配部2004、各音素的时间长伸缩部2006、神经网络部2008。
神经网络部2008进行学习,使无感情的语音的声的特征参数,变换为带着感情的语音的声的特征参数。之后,利用已学习的该神经网络部2008,对无感情的语音赋予感情。
谱的DP匹配部2004,从声的分析部2002提取的特征参数中,针对谱的特征参数,时时刻刻调查无感情的语音与带着感情的语音之间的相似度。而且,谱的DP匹配部2004,通过采取每个同一音素的时间上的对应,来求出每个感情语音音素针对无感情语音的时间上的伸缩率。
各音素的时间长伸缩部2006,按照在谱的DP匹配部2004得到的每个音素的时间上的伸缩率,将感情语音的特征参数的时序列在时间上标准化,以符合无感情语音的特征参数的时序列。
神经网络部2008,在学习时,对时时刻刻输入到输入层的无感情语音的声的特征参数与带给输出层的感情语音的声的特征参数之间的差异进行学习。
此外,神经网络部2008,在赋予感情时,利用在学习时决定的网络内部的加权系数,进行根据时时刻刻输入到输入层的无感情语音的声的特征参数推测有感情语音的声的特征参数的计算。根据上述,音质变换装置,根据学习模型从无感情语音变换为有感情语音。
然而,在专利文献1的技术中,需要将与预先被决定的学习用文章的内容相同的文章的语音,以带着希望的感情的发音来录音。因此,在用于变换发话者的情况下,需要请作为目标的发话者(目标发话者)读预先决定的学习用文章的全部。因此,存在目标发话者的负担变大的课题。
于是,作为目标发话者的发音负担少的技术,提出了从少量的语音提取目标发话者的特征量来利用的技术(例如,参考专利文献2)。
图25是专利文献2所述的音质变换装置的构成图。
该图示出的音质变换装置,以被输入的变换比率将输入语音的母音的声道信息变换为目标发话者的母音的声道信息,从而变换输入语音的音质。在这里,音质变换装置具备目标母音声道信息保持部2101、变换比率输入部2102、母音变换部2103、子音声道信息保持部2104、子音选择部2105、子音变形部2106、合成部2107。
目标母音声道信息保持部2101,保持从目标发话者发音的有代表性的母音中提取的目标母音声道信息。母音变换部2103采用目标母音声道信息,对输入语音的母音区间的声道信息进行变换。
此时,母音变换部2103根据从变换比率输入部2102被给予的变换比率,对输入语音的母音区间的声道信息和目标母音声道信息进行混合。子音选择部2105考虑与前后的母音的连接性,从子音声道信息保持部2104选择子音的声道信息。而且,子音变形部2106,将被选择的子音的声道信息变形为与前后的母音流畅地连接。合成部2107利用输入语音的声源信息、母音变换部2103、子音选择部2105以及由子音变形部2106变形的声道信息,生成合成音。
然而,在专利文献2的技术中作为目标语音的声道信息,使用被孤立发音的母音的声道信息,所以被变换的语音缺乏流畅性,有生硬的印象。这是因为分别发音的母音的特征与作为句子连续发音的语音中的母音的特征之间有差异。因此,日常对话等语音为对象进行音质变换时,自然性明显地降低。
如以上说明,在以往的音质变换技术中,利用少量的目标语音的样品来变换输入语音的音质时,不能变换为流畅自然的语音。即,在专利文献1的技术中,需要从大量的同一内容的发音语音对中学习变换规则,所以存在需要由目标发话者进行大量的发音这样的课题。另一方面,在专利文献2的技术中,忧点是只需要目标发话者的母音的语音的输入就能够变换音质,不过,能够利用的语音特征量是孤立发音的母音,所以存在所生成的语音的自然性降低这样的课题。
鉴于这样的课题,下面说明本发明者们发现的见解。
孤立发音的语音(discrete utterance speech)中包含的母音与作为文章而发音的语音中包含的母音,具有不同的特征。例如,只发出“あ(a)”时的作为母音的“a”,与日语的“こんにちは(你好)/ko N ni chi wa/”中包含的句尾的“a”,具有不同的特征。此外,只发出“え(e)”时的作为母音的“e”,与英语的“Hello”中包含的“e”,具有不同的特征。
以下,将孤立进行的发音称为“孤立发音”,作为文章连续发音称为“连续发音”或者“文章发音”。此外,将孤立发音的母音称为“孤立母音”,作为文章连续发音的母音称为“文中母音”。本发明者们进行专心研究的结果,找到了有关孤立发音的母音和文章发音的母音的差异的新见解。以下进行说明。
图1是示出母音的谱包络的一例的模式图。在图1,纵轴表示功率,横轴表示频率。如图1所示,母音声谱有多个峰值。该多个峰值与声道的共振对应。最小的频率的峰值被称为第一峰段。第二个小的频率的峰值被称为第二峰段。与各个峰值的位置对应的频率(中心频率),分别称为第一峰段频率、第二峰段频率。母音的种类,主要由第一峰段频率与第二峰段频率的关系所决定。
图2A是示出孤立母音的第一峰段频率以及第二峰段频率的分布的图。图2B是示出文中母音的第一峰段频率以及第二峰段频率的分布的图。在图2A以及图2B,横轴表示第一峰段频率,纵轴表示第二峰段频率。由图2A及图2B示出的第一峰段频率以及第二峰段频率被定义的二维平面称为F1-F2平面。
具体而言,图2A示出某个发话者对日语的5母音进行孤立发音时的母音的第一峰段频率以及第二峰段频率。此外,图2B示出相同发话者对日语的文章进行连续发音时的母音的第一峰段频率以及第二峰段频率。在图2A及图2B,对/a//i//u//e//o/的5个母音,用不同的符号示出。
如图2A所示,连接5个孤立母音的点线的形状成为五角形。此外,/a//i//u//e//o/的5个孤立母音,配置成在F1-F2平面互相分开。这表示,/a//i//u//e//o/的5个孤立母音,分别具有不同的特征。例如/a/与/i/的孤立母音比/a/与/o/的孤立母音离得更远。
但是,如图2B所示,5个文中母音在F1-F2平面彼此的位置相近。换言之,图2B示出的文中母音的位置,比图2A示出的孤立母音的位置,更接近五角形的中心或者重心。
在文中母音中,进行与该母音前后的音素或者子音的调音。因此,在各个文中母音上产生发音的惰怠(reduction of articulation)。因此,作为文章连续发音时的各个母音成为模糊的发音。但是通过文章整体语音感觉流畅自然。
相反,与孤立母音一样,每一个文中母音被清楚地发音时,调音运动变得不自然。其结果,通过文章整体语音不流畅,感觉生硬。从而,合成连续语音时重要的是使用模仿发音惰怠的语音。
为了实现发音的惰怠可以从文章发音的语音中提取母音特征量。但是,为此需要准备很多文章发音的语音,实用便利性大大减少。加之,文中母音受前后的音韵的影响很大。如果不使用前后的音韵(音韵环境)近的母音,则成为自然性受损的语音。因此,需要庞大量的文章发音的语音。例如,数十个左右的文章发音的语音,不算是必要充分的量。
本发明者们发现了以下知见:(1)为了发挥只准备少量的语音就可以的便利性,获得孤立母音的特征量,(2)为了模仿发音的惰怠,在F1-F2平面上使由孤立母音所形成的五角形缩小的方向移动孤立母音的特征量。根据上述知见,说明具体的方法。
第1个方法是在F1-F2平面将各母音朝向五角形的重心移动的方法。在这里,在F1-F2平面上的第i母音的位矢b,定义为算式(1)。
(数式1)
bi=[f1i f2i](1)
在这里,f1i示出第i母音的第一峰段频率,f2i示出第i母音的第二峰段频率。i是表示母音的种类的指数。在5母音的情况下成为1≤i≤5。
重心g以下列的算式(2)来表示。
(数式2)
在这里,N是母音的种类的数量。即,重心g是母音的位矢的算术平均。接着第i母音的位矢如下列的算式(3)一样地变换。
(数式3)
在这里,a是从0到1之间的值,该a是表示母音的位矢b接近重心g的程度的模糊程度系数。模糊程度系数a越接近1,所有的母音也越接近重心g。其结果,母音的位矢b的差异也变小。换句话说,在图2A示出的F1-F2平面上,各母音的声的特征变得模糊。
根据所述的想法,能够进行母音的模糊化。但是直接变更峰段频率存在问题。在图2A中,只示出了第一峰段频率和第二峰段频率。但是,孤立母音与文中母音不同的不仅是第一峰段频率以及第二峰段频率,而且其他的物理量也不同。其他的物理量,例如是比第二峰段频率高阶的峰段频率或者各峰段的带宽等。因此,例如仅使母音的第二峰段频率变为更高的频率时,可以想到第二峰段频率过多地接近第三峰段频率。
其结果,在谱包络出现异常尖的峰值,出现合成滤波器振荡,或合成音的振幅变得异常大的可能性。这样的情况下不能合成正常的语音。
在变换语音的音质的情况下,表示语音的特征的多个参数不以保持平衡的状态变化时,变换后的语音成为不恰当的语音。因此,只变换第一峰段频率以及第二峰段频率的2个参数的情况下,多个参数的平衡破坏,音质明显恶化。
为了解决这个课题,本发明者们找到了不是直接变更峰段频率,而是使声道形状变形来进行母音暧昧化的方法。
(声道截面积函数)
作为示出声道形状的信息(以下称为“声道形状信息”),例如有声道截面积函数。图3示出人的声道的发音管模型。人的声道是从声带到嘴唇为止的空间。
在图3的(a),纵轴示出截面积的大小,横轴示出发音管的部分编号。在这里,发音管的部分编号示出声道中的位置。横轴的左端与嘴唇(Lip)的位置对应,横轴的右端与声门(glottis)的位置对应。
图3的(a)示出的发音管模型中,多个圆形的发音管级联。声道的截面积作为各部分的发音管的截面积,模仿声道形状。在这里,声道的长度方向的位置和与该位置对应的截面积的大小的关系称为声道截面积函数。
周知的是,声道的截面积与基于线性预测编码(LPC)分析的PARCOR系数唯一地对应。根据下列算式(4),能够将PARCOR系数变换为声道的截面积。下面,将PARCOR系数ki作为声道形状信息的一例来说明。但是,声道形状信息不被PARCOR系数所限定,可以是与PARCOR系数等效的线谱对(LSP:Line Spectrum Pairs)和LPC等。此外,上述的发音管模型的发音管之间的反射系数和PARCOR系数,不同之处只是符号相反。因此,作为声道形状信息也可以使用反射系数。
(数式4)
在这里,Ai是图3的(b)示出的第i区间的发音管的截面积,ki是与第i个与第i+1个的界限的PARCOR系数(反射系数)。
PARCOR系数,能够使用根据LPC分析而被分析的线性预测系数αi来算出。具体而言,PARCOR系数通过使用Levinson-Durbin-Itakura算法而被算出。另外,PARCOR系数有如下特征。
·线性预测系数依存于分析次数p,不过,PARCOR系数不依存于分析的次数。
·低阶系数的值的变动对谱的影响大,越是高阶则值的变动对谱的影响越小。
·高阶系数的值的变动对谱的影响,在全频带都很平稳。
另外,声道形状信息,不一定是示出声道的截面积的信息,也可以是示出声道的各部分的容积的信息。
(声道形状的变形)
其次,对声道形状的变形进行说明。如上所述,声道的形状根据算式(4)示出的PARCOR系数而求出。在这里为了变形声道形状,而对多个声道形状信息进行混合。具体而言,求出多个PARCOR系数矢量的加权平均,以代替求出多个声道截面积函数的加权平均。第i母音的PARCOR系数矢量以算式(5)来表示。
(数式5)
多个母音的PARCOR系数矢量的加权平均以算式(6)来表示。
(数式6)
在这里wi是加权系数。想混合的母音的声道形状信息是2个的情况下,加权系数与2个声道形状信息的混合比对应。
(声道形状信息的模糊化)
下面说明为了使母音模糊化而混合多个母音的声道形状信息的顺序。
首先,根据算式(7)求出N个种类的母音的平均声道形状信息。换言之,通过计算各个母音的声道形状信息示出的值(在这里是PARCOR系数)的算术平均,从而生成平均声道形状信息。
(数式7)
下面利用第i母音的模糊程度系数a,将第i母音的声道形状信息变换为模糊化后的声道形状信息。即,通过使各母音的声道形状信息示出的值接近平均声道形状信息示出的值,从而生成模糊化后的各母音的声道形状信息。换言之,混合第i母音的声道形状信息和其他的母音的声道形状信息,生成模糊化后的声道形状信息。
(数式8)
通过使用这样生成的模糊化后的母音的声道形状信息来进行语音的合成,从而不使音质恶化,并能再现发音的惰怠。
以下,对实际进行实验的结果进行说明。
图4A是示出孤立母音和平均声道形状信息的关系的图。此外,图4B是示出文中母音和平均声道形状信息的关系的图。在图4A以及图4B中,按照算式(7)利用图2A示出的孤立母音的信息求出平均声道形状信息。图4A以及图4B示出的星号,表示利用平均声道形状信息而被合成的母音的第一峰段频率以及第二峰段频率。
在图4A,平均声道形状信息位于根据5个母音形成的五角形的重心附近。在图4B,平均声道形状信息位于文中母音分布的区域的中心附近。
图5A示出孤立母音(图2A表示的15个母音)的第一峰段频率以及第二峰段频率的平均。此外,图5B示出文中母音(图2B表示的95个母音)的第一峰段频率以及第二峰段频率的平均。另外,以下将第一峰段频率以及第二峰段频率的平均也称为F1-F2平均。
在图5A以及图5B,第一峰段频率及第二峰段频率的平均用虚线示出。此外,图5A及图5B中,将图4A以及图4B示出的平均声道形状信息也以星号来示出。
利用算式(7)求出的图4A示出的平均声道形状信息的位置,比图5A示出的孤立母音的F1-F2平均的位置,更靠近图5B示出的文中母音的F1-F2的平均的位置。因此,利用算式(7)以及算式(8)求出的平均声道形状信息,比孤立母音的F1-F2的平均,更近似于实际发音的惰怠。以下,对具体的坐标值进行说明。
图6是示出文中母音的F1-F2平均、孤立母音的F1-F2平均、以及平均声道形状信息的每一个与多个文中母音的第一峰段频率以及第二峰段频率的均方根误差(RMSE:Root mean square error)的图。
如图6所示,平均声道形状信息的RMSE比孤立母音的F1-F2平均的RMSE更接近文中母音的F1-F2平均的RMSE。但是,不能说只有RMSE接近才对语音的自然性有贡献,可以作为表示发音的惰怠的近似程度的指标来看待。
下面图7是利用算式(8)用来说明使在F1-F2平面的各孤立母音的位置移动至平均声道形状信息的位置时的效果的图。在图7大的白色圆表示在a=0情况下的各母音的位置,小的白色圆表示在a=1情况下的各母音的位置即平均声道形状的位置,黑色点表示以0.1刻度使a变大的情况下的各母音的位置。所有的母音从孤立母音的位置朝向平均声道形状的母音的位置连续移动。这样可知通过混合声道形状信息,对声道形状进行变形,从而能够使第一峰段频率以及第二峰段频率平均化以及模糊化。
于是,本发明的一个实施例涉及的音质变换系统,使用表示声道的形状的声道形状信息,对输入语音的音质进行变换,所述音质变换系统具备:母音接受部,接受种类互不相同的多个母音的语音;分析部,分析由所述母音接受部接受的多个母音的语音,从而按每个所述母音的种类,生成第一声道形状信息;混合部,按每个所述母音的种类,对该母音的所述第一声道形状信息和与该母音不同种类的母音的所述第一声道形状信息进行混合,从而生成该母音的第二声道形状信息;以及合成部,获得输入语音的声道形状信息以及声源信息,通过对所述输入语音中包含的母音的声道形状信息和与所述输入语音中包含的母音相同种类的母音的所述第二声道形状信息进行混合,从而变换所述输入语音的声道形状信息,通过使用变换后的所述输入语音的声道形状信息和所述输入语音的声源信息生成合成音,从而变换所述输入语音的音质。
根据该构成,按每个母音的种类,对多个第一声道形状信息进行混合,生成第二声道形状信息。换言之,能够根据少量的语音的样品,按每个母音的种类生成第二声道形状信息。这样按每个母音的种类生成的第二声道形状信息,相当于模糊化的母音的声道形状信息。因此,通过利用第二声道形状信息变换输入语音的音质,从而能够使输入语音变换为更流畅自然的语音。
此外,例如可以是所述混合部具备:平均声道信息算出部,计算按每个所述母音的种类生成的多个第一声道形状信息的平均,从而算出一个平均声道形状信息;以及混合声道信息生成部,按每个由所述母音接受部接受的母音的种类,对该母音的第一声道形状信息和所述平均声道形状信息进行混合,从而生成该母音的第二声道形状信息。
根据该构成,能够简单地使第二声道形状信息近似于平均声道形状信息。
此外,例如可以是平均声道信息算出部,计算所述多个第一声道形状信息的加权算术平均,从而算出所述平均声道形状信息。
根据该构成,能够将多个第一声道形状信息的加权算术平均作为平均声道形状信息来算出。因此,例如按照目标发话者的发音的惰怠的特征,对第一声道形状信息进行加权,从而能够使输入语音变换为更流畅自然的目标发话者的语音。
此外,例如可以是所述混合部,以所述输入语音中包含的母音的局部发话速度越大,与所述输入语音中包含的母音相同种类的母音的所述第二声道形状信息越近似于按每个所述母音的种类生成的多个第一声道形状信息的平均的方式,生成所述第二声道形状信息。
根据该构成,按照输入语音中包含的母音的局部的发话速度,能够设定多个第一声道形状信息的混合比率。文中母音的模糊化程度依存于局部的发话速度。因此能够使输入语音变换为更流畅自然的语音。
此外,例如可以是所述混合部,使用按照母音的种类而设定的混合比率,按每个所述母音的种类,对该母音的所述第一声道形状信息和与该母音不同种类的母音的所述第一声道形状信息进行混合。
根据该构成,能够按每个母音的种类而设定多个第一声道形状信息的混合比率。文中母音的模糊化程度依存于母音的种类。从而能够使输入语音变换为更流畅自然的语音。
此外,例如可以是所述混合部,使用由用户设定的混合比率,按每个所述母音的种类,对该母音的所述第一声道形状信息和与该母音不同种类的母音的所述第一声道形状信息进行混合。
根据该构成,能够按照用户的爱好而设定多个母音的模糊化程度。
此外,例如可以是所述混合部,使用按照所述输入语音的语言种类而设定的混合比率,按每个所述母音的种类,对该母音的所述第一声道形状信息和与该母音不同种类的母音的所述第一声道形状信息进行混合。
根据该构成,能够根据输入语音的语言种类而设定多个第一声道形状信息的混合比率。文中母音的模糊化程度依存于输入语音的语言种类。因此,能够设定适合各语言的模糊化程度。
此外,例如可以是所述音质变换系统还具备输入语音存储部,该输入语音存储部存储有所述输入语音的声道形状信息以及声源信息,所述合成部,从所述输入语音存储部获得所述输入语音的声道形状信息以及声源信息。
本发明的一个实施例涉及的声道信息生成装置,生成声道形状信息,该声道形状信息表示声道的形状,并且在变换输入语音的音质时使用,所述声道信息生成装置具备:分析部,分析种类互不相同的多个母音的语音,从而按每个所述母音的种类,生成第一声道形状信息;以及混合部,按每个所述母音的种类,对该母音的所述第一声道形状信息和与该母音不同种类的母音的所述第一声道形状信息进行混合,从而生成该母音的第二声道形状信息。
根据该构成,按每个母音的种类,对多个第一声道形状信息进行混合,生成第二声道形状信息。换言之,能够根据少量的语音的样品,按每个母音的种类生成第二声道形状信息。这样按每个母音的种类生成的第二声道形状信息,相当于模糊化的母音的声道形状信息。因此,在第二声道形状信息被输出到音质变换装置时,音质变换装置利用第二声道形状信息使输入语音变换为流畅自然的语音。
此外,例如可以是所述声道信息生成装置还具备:合成部,按每个所述母音的种类,使用所述第二声道形状信息生成合成音;以及输出部,将所述合成音作为语音来输出。
根据该构成,能够将按每个母音的种类利用第二声道形状信息而生成的合成音,作为语音来输出。因此,利用以往的音质变换装置,能够使输入语音变换为更流畅自然的语音。
本发明的一个实施例涉及的音质变换装置,使用表示声道的形状的声道形状信息,对输入语音的音质进行变换,所述音质变换装置具备:母音声道信息存储部,存储第二声道形状信息,该第二声道形状信息是按每个母音的种类,对该母音的所述第一声道形状信息和与该母音不同种类的母音的所述第一声道形状信息进行混合而生成的信息;以及合成部,通过对输入语音中包含的母音的声道形状信息和与所述输入语音中包含的母音相同种类的母音的所述第二声道形状信息进行混合,从而变换所述输入语音的声道形状信息,通过使用变换后的所述输入语音的声道形状信息和所述输入语音的声源信息生成合成音,从而变换所述输入语音的音质。
根据该构成,能够起到与所述音质变换系统同样的效果。
另外,这些全体或具体的实施例,可以用方法、集成电路、计算机程序或计算机可读取的CD-ROM等记录介质来实现,也可以任意组合方法、集成电路、计算机程序以及记录介质来实现。
下面,参考附图来说明本发明的实施例。
另外,下面说明的实施例都是示出本发明的一个具体例子。以下的实施例中示出的数值、形状、材料、构成要素、构成要素的配置位置以及连接形式、步骤、步骤的顺序等,都是本发明的一个例子,主旨不是限制本发明。并且,以下的实施例的构成要素中,示出最上位概念的独立权利要求中没有记载的构成要素,可以说明是任意的构成要素。
(实施例1)
图8是实施例1的音质变换系统100的构成图。
音质变换系统100利用示出声道的形状的声道形状信息变换输入语音的音质。如图8所示,音质变换系统100具备:输入语音存储部101、母音接受部102、分析部103、第一母音声道信息存储部104、混合部105、第二母音声道信息存储部107、合成部108、输出部109、混合比率输入部110、变换比率输入部111。各个构成要素以有线或者无线连接,互相收发信息。下面,说明各个构成要素。
(输入语音存储部101)
输入语音存储部101存储输入语音信息以及与输入语音信息相对应的附属信息。输入语音信息是与成为变换对象的输入语音有关的信息。具体而言,输入语音信息是以多个音素被构成的语音的信息。例如、预先对某个歌手唱的歌声等进行录音,从而准备输入语音信息。更具体而言,输入语音存储部101将输入语音信息分为声道信息与声源信息的形式来进行存储。
附属信息包含针对输入语音示出音素的境界的时间的信息以及音素的种类的信息。
(母音接受部102)
母音接受部102接受母音的语音。在本实施例中,母音接受部102,接受与输入语音相同的语言的母音的语音,且互相种类不同的多个母音的语音。互相种类不同的多个母音的语音,可以包含多个不同的种类的母音,也可以包含相同种类的多个母音。
母音接受部102,向分析部103发送母音的声信号,该母音的声信号是与母音的语音对应的电信号。
母音接受部102,例如在接受发话者发出的语音的情况下,具有麦克风。母音接受部102,例如在接受预先被变换为电信号的声信号的情况下,具有音频电路以及模拟数字变换器。母音接受部102,例如,在接受声信号预先被变换为数字化数据的声数据的情况下,具有数据读出器。
另外,母音接受部102可以具备显示部。显示部显示想让目标发话者发音的单母音或者文章,以及发音定时。
此外,母音接受部102接受的语音也可以是被孤立发音的母音。例如,母音接受部102,可以接受有代表性的母音的声信号。有代表性的母音根据语言而不同。例如,日语的代表性的母音是,/a//i//u//e//o/的5种母音。英语的代表性的母音是以下的国际音标(IPA∶International PhoneticAlphabet)示出的13种母音。
(数式9)
母音接受部102,例如在接受日语的母音的语音的情况下,使目标发话者将/a//i//u//e//o/的5种母音孤立发音(即各母音之间分开发音),从而接受母音的语音。这样,通过使发话者对母音进行孤立发音,分析部103利用功率信息能够剪切母音区间。
但是,母音接受部102,不必一定要接受被孤立发音的母音的语音。母音接受部102也可以接受作为文章而连续发音的母音。例如,发话者比较紧张,有意识地清楚发音的情况下,作为文章连续发音的母音也有可能成为近似于孤立发音的母音的语音。在母音接受部102接受文章发音的母音的情况下,例如可以使发话者发音包含5母音的文章(例如“本日は晴天なり(今天是晴天)”等)。这个情况下,分析部103,通过使用HMM(Hidden-Markov-Model)等的音素自动切分技术,能够剪切母音区间。
(分析部103)
分析部103从母音接受部102接受母音的声信号。分析部103针对由母音接受部102接受的母音的声信号赋予附属信息。加之,分析部103,例如采用LPC(Linear Predictive Coding)分析以及ARX(Auto-regressive Exogenous)分析等的分析方法对各母音的声信号进行分析,从而将各母音的声信号分为声道信息和声源信息。
声道信息中包含示出母音被发音时的声道的形状的声道形状信息。由分析部103分离的声道信息中包含的声道形状信息被称为第一声道形状信息。换言之,分析部103,通过分析由母音接受部102接受的多个母音的语音,按每个母音的种类,生成第一声道形状信息。
作为第一声道形状信息的例子,除了上述的LPC以外,还有PARCOR系数、与PARCOR系数等效的LSP(Line Spectrum Pairs)等。此外,发音管模型的发音管之间的反射系数和PARCOR系数的关系,只是符号相反。因此,可以将反射系数本身作为第一声道形状信息来使用。
附属信息包含各个母音的种类(/a//i/等)与母音区间中心的时刻。分析部103向第一母音声道信息存储部104,按每个母音的种类,至少存放母音的第一声道形状信息。
下面说明母音的第一声道形状信息的生成方法的一例。
图9是示出实施例1的分析部103的详细构成的一例的图。分析部103具备母音稳定区间提取部1031和母音声道信息作成部1032。
母音稳定区间提取部1031,从包含被输入的母音的语音中提取孤立母音的区间(母音区间),从而算出母音区间中心的时刻。关于母音区间的提取方法不需要特别的限定。例如,母音稳定区间提取部1031,将功率为一定以上的区间作为稳定区间,将该稳定区间作为母音区间来提取。
母音声道信息作成部1032,针对由母音稳定区间提取部1031提取的孤立母音的母音区间中心,制作母音的声道形状信息。例如,母音声道信息作成部1032,将上述的PARCOR系数作为第一声道形状信息来算出。母音声道信息作成部1032向第一母音声道信息存储部104存放母音的第一声道形状信息。
(第一母音声道信息存储部104)
第一母音声道信息存储部104,按每个母音的种类,至少存储母音的第一声道形状信息。换言之,第一母音声道信息存储部104,存储由分析部103按每个母音的种类生成的多个第一声道形状信息。
(混合部105)
混合部105,按每个母音的种类,通过混合该母音的第一声道形状信息和与该母音不同种类的母音的第一声道形状信息,从而生成该母音的第二声道形状信息。具体而言,混合部105按每个母音的种类,以使该母音的第二声道形状信息比该母音的第一声道形状信息更近似于平均声道形状信息的方式,生成该母音的第二声道形状信息。这样被生成的第二声道形状信息,相当于被模糊化的声道形状信息。
另外,平均声道形状信息是按每个母音的种类被生成的多个第一声道形状信息的平均。此外混合多个声道形状信息的意思是将多个声道形状信息的每一个示出的值或者矢量加权相加。
在这里说明混合部105的详细构成的一例。混合部105例如具备平均声道信息算出部1051和混合声道信息生成部1052。
(平均声道信息算出部1051)
平均声道信息算出部1051获得存储在第一母音声道信息存储部104的多个第一声道形状信息。平均声道信息算出部1051,通过计算获得的多个第一声道形状信息的平均,从而算出1个平均声道形状信息。关于具体的处理,后述。平均声道信息算出部1051,向混合声道信息生成部1052发送平均声道形状信息。
(混合声道信息生成部1052)
混合声道信息生成部1052从平均声道信息算出部1051接收平均声道形状信息。此外,混合声道信息生成部1052获得存储在第一母音声道信息存储部104的多个第一声道形状信息。
而且,混合声道信息生成部1052按由母音接受部102接受的母音的种类的每一个,混合该母音的第一声道形状信息和平均声道形状信息,从而生成该母音的第二声道形状信息。具体而言,混合声道信息生成部1052,按每个母音的种类,进行使第一声道形状信息向平均声道形状信息靠近的处理,从而生成第二声道形状信息。
第一声道形状信息和平均声道形状信息的混合比率,可以按照母音的模糊化程度而设定。在本实施例中,混合比率相当于算式(8)的模糊程度系数a。换言之,混合比率是值越大则模糊化程度也越高。混合声道信息生成部1052利用从混合比率输入部110输入的混合比率,混合第一声道形状信息和平均声道形状信息。
另外,混合声道信息生成部1052可以利用预先被存储的混合比率,混合第一声道形状信息和平均声道形状信息。这个情况下,音质变换系统100,不必一定具备混合比率输入部110。
在使某种母音的第二声道形状信息近似于平均声道形状信息的情况下,该种类的母音的第二声道形状信息近似于其他种类的母音的第二声道形状信息。即,混合比率被设定为第二声道形状信息更近似于平均声道形状信息时,混合声道信息生成部1052能够生成更加模糊化的第二声道形状信息。用这样的更模糊化的第二声道形状信息所生成的合成音,成为口齿不伶俐的语音。例如,将输入语音的音质变换为幼儿的语音时,这样将混合比率设定为第二声道形状信息近似于平均声道形状信息为有效。
此外,第二声道形状信息不太近似于平均声道形状信息的情况下,第二声道形状信息变得近似于孤立母音的声道形状信息。例如,将输入语音的音质变换为口张开得很大有清楚地调音的倾向的歌声时,适合这样将混合比率设定为第二声道形状信息不太近似于平均声道形状信息。
混合声道信息生成部1052,向第二母音声道信息存储部107,存放每个母音的种类的第二声道形状信息。
(第二母音声道信息存储部107)
第二母音声道信息存储部107按每个母音的种类存储第二声道形状信息。换言之,第二母音声道信息存储部107,存储由混合部105按每个母音的种类生成的多个第二声道形状信息。
(合成部108)
合成部108获得存储在输入语音存储部101的输入语音信息。此外,合成部108获得存储在第二母音声道信息存储部107的按每个母音的种类的第二声道形状信息。
而且,合成部108,通过对输入语音信息中包含的母音的声道形状信息和与输入语音信息中包含的母音相同种类的母音的第二声道形状信息进行混合,从而变换输入语音的声道形状信息。之后,合成部108,利用输入语音的变换后的声道形状信息与存储在输入语音存储部101的输入语音的声源信息生成合成音,从而变换输入语音的音质。
具体而言,合成部108将从变换比率输入部111输入的变换比率作为混合比率来利用,对输入语音信息中包含的母音的声道形状信息和与该母音相同种类的母音的第二声道形状信息进行混合。这个变换比率可以根据使输入语音变化的程度来设定。
另外,合成部108可以利用预先被存储的变换比率,对输入语音信息中包含的母音的声道形状信息以及与该母音相同种类的母音的第二声道形状信息进行混合。这个情况下,音质变换系统100不必一定要具备变换比率输入部111。
合成部108,将这样被生成的合成音的信号发送到输出部109。
在这里说明合成部108的详细构成的一例。另外,以下说明的合成部108的详细构成是与专利文献2同样的构成。
图10是表示实施例1的合成部108的详细构成的一例的图。合成部108具备:母音变换部1081、子音选择部1082、子音声道信息存储部1083、子音变形部1084、语音合成部1085。
母音变换部1081从输入语音存储部101获得附音素分界的声道信息和声源信息。
附音素分界的声道信息是在输入语音的声道信息附上与输入语音对应的音素信息和各音素的时间长的信息的信息。母音变换部1081从第二母音声道信息存储部107按每个母音区间读出相应的母音的第二声道形状信息。而且,母音变换部1081通过对母音区间的声道形状信息和读出的第二声道形状信息进行混合,从而进行输入语音的母音部的音质变换。这个时候的变换程度是基于从变换比率输入部111输入的变换比率。
子音选择部1082考虑前后的母音之间的连接性从子音声道信息存储部1083选择子音的声道信息。而且,子音变形部1084,将被选择的子音的声道信息进行变形,使得与前后的母音流畅地连接。语音合成部1085利用输入语音的声源信息与由母音变换部1081、子音选择部1082以及子音变形部1084变形的声道信息生成合成音。
这样将专利文献2的目标母音声道信息调换为第二声道形状信息,执行音质变换。
(输出部109)
输出部109从合成部108接收合成音信号。输出部109将合成音信号作为合成音来输出。输出部109,例如由扬声器构成。
(混合比率输入部110)
混合比率输入部110接受在混合声道信息生成部1052使用的混合比率。混合比率输入部110将接受的混合比率发送到混合声道信息生成部1052。
(变换比率输入部111)
变换比率输入部111接受在合成部108使用的变换比率。变换比率输入部111将接受的变换比率发送到合成部108。
下面,说明如上所述被构成的音质变换系统100的各种工作。
图11A、图11B以及图12是示出实施例1的音质变换系统100的处理工作的流程图。
具体而言,图11A示出音质变换系统100从接受母音的语音到生成第二声道形状信息为止的处理的流程。此外,图11B示出图11A所示的第二声道形状信息生成处理(S600)的细节。此外,图12示出实施例1的变换输入语音的音质的处理的流程。
(步骤S100)
母音接受部102接受包含目标发话者发音的母音的语音。包含母音的语音在日语的情况下是例如将日语的5母音发音为“アー、イー、ウー、エー、オー(a、i、u、e、o)”时的语音。各母音的间隔是500ms左右就可以。
(步骤S200)
分析部103将母音接受部102接受的语音中包含的1个母音的声道形状信息作为第一声道形状信息来生成。
(步骤S300)
分析部103,将被生成的第一声道形状信息存放到第一母音声道信息存储部104。
(步骤S400)
分析部103针对母音接受部102接受的语音中包含的所有种类的母音,判断是否生成了第一声道形状信息。例如,分析部103获得由母音接受部102接受的语音中包含的母音的种类信息。加之,分析部103,参考获得的母音的种类信息,判断语音中包含的所有种类的母音的第一声道形状信息是否存储在第一母音声道信息存储部104。在这里,所有种类的母音的第一声道形状信息存储在第一母音声道信息存储部104时,分析部103判断为结束。另一方面,任一种类的母音的第一声道形状信息没有被存储的情况下,分析部103进行步骤S200的处理。
(步骤S500)
平均声道信息算出部1051使用第一母音声道信息存储部104中存储的所有种类的母音的第一声道形状信息,算出1个平均声道形状信息。
(步骤S600)
混合声道信息生成部1052,按每个在步骤S100接受的语音中包含的母音的种类,利用平均声道形状信息和存储在第一母音声道信息存储部104的第一声道形状信息,生成第二声道形状信息。
在这里使用图11B来说明步骤S600的细节。
(步骤S601)
混合声道信息生成部1052通过将存储在第一母音声道信息存储部104的一个母音的第一声道形状信息与平均声道形状信息进行混合,从而生成该母音的第二声道形状信息。
(步骤S602)
混合声道信息生成部1052对第二母音声道信息存储部107存放在步骤S601生成的第二声道形状信息。
(步骤S603)
混合声道信息生成部1052针对在步骤S100接受的语音中包含的所有种类的母音,判断是否进行了步骤S602的处理。例如,混合声道信息生成部1052获得母音接受部102接受的语音中包含的母音的种类信息。而且,混合声道信息生成部1052参考获得的母音的种类信息,判断语音中包含的所有种类的母音的第二声道形状信息是否存储在第二母音声道信息存储部107。
在这里,所有种类的母音的第二声道形状信息存储在第二母音声道信息存储部107时,混合声道信息生成部1052判断为结束。另一方面,任一种类的母音的第二声道形状信息没有存储在第二母音声道信息存储部107的情况下,混合声道信息生成部1052进行步骤S601的处理。
下面,用图12来说明使用这样按每个母音的种类生成的第二声道形状信息来变换输入语音的音质的处理。
(步骤S800)
合成部108使用存储在第二母音声道信息存储部107的第二声道形状信息,变换存储在输入语音存储部101的输入语音的声道形状信息。具体而言,合成部108对输入语音中包含的母音的声道形状信息和与输入语音中包含的母音相同种类的母音的第二声道形状信息进行混合,从而变换输入语音的声道形状信息。
(步骤S900)
合成部108使用在步骤S800被变换的输入语音的声道形状信息和存储在输入语音存储部101的输入语音的声源信息,生成合成音。这样,生成输入语音的音质被变换的合成音。换言之,音质变换系统100能够使输入语音的特征变化。
(实验结果)
下面说明对输入语音的音质实际进行变换并对实验的效果进行确认的结果。图13A是示出对日语的输入语音的音质进行变换时的实验结果的图。在这里,输入语音是由某女性发话者进行文章发音的语音。此外,目标发话者是与输入语音发音的女性发话者不同的另外的女性发话者。图13A中示出了根据该目标发话者孤立发音的母音,输入语音的音质被变换的结果。
图13A的(a)是示出以往技术中音质被变换的谱图。图13A的(b)是示出由本实施例的音质变换系统100音质被变换的谱图。本实验中,作为算式(8)的模糊程度系数a(混合比率)使用了“0.3”。
而且,发话内容是日语的“ねえご隐居さん、昔から鹤は千年、龟は万年なんてことを言いますね”(/ne e go i N kyo sa N,mu ka shi ka ra,tsu ru wa se N ne N,ka me wa ma N ne N naN te ko to o i i ma su ne/、“Hi daddy.They say crane lives longerthan a thousand years,and tortoise lives longer than ten thousand years,don’t they?(老爷,自古说鹤命千年,龟寿万年)”。
图13A的(b)中,与(a)比较,整体的时间方向上的峰段轨迹变得光滑,作为连续发音改善了自然性。尤其在,图13A的白线围着的部分,在(a)与(b)之间有显著的差异。
图13B是示出对英语的输入语音的音质进行变换时的实验结果的图。具体而言,图13B的(a)示出以往技术中音质被变换的谱图。图13B的(b)示出由本实施例的音质变换系统100音质被变换的谱图。
在图13B中,输入语音的发话者和目标发话者与图13A相同。此外,模糊程度系数a也与图13A相同。
发话内容是英语的“Work hard today.”。另外,英语的发话内容被调换为片假名的“ワ-クハ-ドトゥデイ”的文字串,以日语的音素生成合成音。
音质变换后的语音的韵律(即声调模式),变得与输入语音的韵律一样,所以即使采用日语的音素进行音质变换,音质变换后的语音在某种程度上听起来像是英语。但是,英语的母音的数量比日语多,所以存在只用日语的有代表性的母音,不能表达英语的母音这样的问题。
于是,本实施例示出的技术中通过进行母音模糊化,减少听起来像是日语,作为结果增加英语语音的自然性。特别是以下IPA示出的作为模糊母音的schwa与日语的5母音完全不同,在F1-F2平面位于由日语的5母音形成的五角形的重心附近,所以本实施例的模糊化的效果很大。
(数式10)
在图13B,尤其是白线围着的部分,在(a)与(b)之间有显著的差异。可知在时刻1.2秒,不仅是第一峰段频率以及第二峰段频率,对于第三峰段频率也有差异。实际听到合成音的印象是,(a)是原样发音片假名一样的感觉,(b)是容易接受为英语的感觉。此外,(a)是说英语时用力调音的感觉,(b)是轻松地说的感觉。
但是,发音的惰怠由发话速度而变化。慢慢地发话时,各母音与孤立母音同样被正确地调音。这个特征显著地出现在唱歌的情况等。输入语音是歌声的情况下,音质变换系统100,即使原样采用孤立母音进行音质变换,也能生成没有不协调感的合成音。
另一方面,以对话语调的说法方式来快速发话时,颚和舌头等的调音器官的动作赶不上发话速度,所以发音的惰怠变得大。于是,模糊化程度(混合比率),可以按照该音韵周围的局部发话速度而设定。换言之,混合部105,可以以输入语音中包含的母音的局部的发话速度越大,则与输入语音中包含的母音相同种类的母音的第二声道形状信息越近似于平均声道形状信息的方式,来生成第二声道形状信息。这样,能够使输入语音变换为更流畅自然的语音。
具体而言,算式(8)的模糊程度系数a(混合比率),可以例如下面的算式(9)一样作为局部的发话速度r(单位为1秒的音素数等)的函数而设定。
(数式11)
a=a0+h(r-r0) (9)
在这里,a0是显示基准的模糊化程度的值,r0是基准的发话速度(单位与r相同)。此外,h是规定的值,是根据r使a变化的灵敏度。
另外,文中母音,在F1-F2平面,移动到比孤立母音更靠多边形的内侧,不过,该程度根据母音而不同。例如在图4A及图4B,/o/的变化比较少,不过,/a/除了少数偏离值以外都很大地移动到内侧。此外,/i/的多数也向特定的方向移动,不过,/u/的移动方向各不相同。
于是,可以认为根据母音改变模糊化程度(混合比率)也是有效的。换言之,混合部105可以利用按照母音的种类而设定的混合比率,按每个母音的种类,对该母音的第一声道形状信息和与该母音不同的种类的母音的第一声道形状信息进行混合。这个情况下,可以使/o/的模糊化程度变小,/a/的模糊化程度变大。此外,可以使/i/的模糊化程度变大,/u/因为不知道往哪个方向移动,所以可以使模糊化程度变小。这些的倾向,可能因人而不同,所以可根据目标发话者是谁来改变模糊化程度。
当然,模糊化程度可以根据用户的爱好而改变。这个情况下,用户可以经由混合比率输入部110,按每个母音的种类,输入示出喜好的模糊化程度的混合比率。换言之,混合部105可以利用由用户设定的混合比率,按每个母音的种类,对该母音的第一声道形状信息和与该母音不同种类的母音的第一声道形状信息进行混合。
此外,平均声道信息算出部1051,如算式(7)所示,通过算出多个第一声道形状信息的算术平均(相加平均),从而算出了平均声道形状信息,不过,不必一定要像算式(7)一样算出平均声道形状信息。例如,平均声道信息算出部1051,可以使算式(6)的加权系数wi不均一,算出平均声道形状信息。
换言之,平均声道形状信息可以是种类互不相同的多个母音的第一声道形状信息的加权算术平均。例如,调查每个人的发音惰怠的特征,以接近该个人的发音的惰怠的方式,调整加权系数是很有效的。例如,按照目标发话者的发音的惰怠的特征,对第一声道形状信息加权,从而能够将输入语音变换为更流畅自然的目标发话者的语音。
此外,平均声道信息算出部1051,可以不算出算式(7)一样的相加平均,而是算出相乘平均和调和平均,以作为平均声道形状信息。具体而言,如算式(10)一样地表示PARCOR系数的平均矢量时,平均声道信息算出部1051,可以如算式(11)一样地算出多个母音的第一声道形状信息的相乘平均,以作为平均声道形状信息。此外,平均声道信息算出部1051,可以如算式(12)一样地算出多个母音的第一声道形状信息的调和平均,以作为平均声道形状信息。
(数式12)
(数式13)
(数式14)
总之,算出多个母音的第一声道形状信息的平均,使得与各母音的第一声道形状信息混合时,在F1-F2平面的母音的分布范围缩小就可以。
例如,日语的5母音/a/,/i/,/u/,/e/,/o/的情况下,不必一定要算出如算式(7)、算式(11),算式(12)一样的平均声道形状。例如,通过对某个母音与另外的母音进行混合,从而进行将该母音向5角形的重心靠近的操作。例如进行母音/a/的模糊化的情况下,至少选择两个与/a/不同种类的母音,利用被选择的2个母音以规定的加权进行混合。在F1-F2平面上5母音形成的五角形是凸五角形(所有内角的大小比平角小的五角形),则对/a/与其他任意的2个母音进行混合而成的母音必定位于该5角形的内侧。很多情况下,日语的5母音形成的五角形是凸五角形,根据该方法能够使母音模糊化。
此外,如上所述,因为英语母音的数量比日语多,具有在F1-F2平面母音之间的距离小的倾向。这个倾向根据语言而不同,所以优选的是按照语言设定模糊程度系数。换言之,混合部105可以利用按照输入语音的语言种类而规定的混合比率,按每个母音的种类,对该母音的第一声道形状信息以及与该母音不同种类的母音的第一声道形状信息进行混合。这样,能够设定适合各语言的模糊化程度,能够使输入语音变换为更流畅自然的语音。
因为英语的母音种类比日语多,所以在F1-F2平面的多边形比日语的多边形要复杂。图14是在F1-F2平面配置英语的13母音的图。另外,图14引用了“Ghonim,A.,Smith,J.and Wolfe,J.(2007)“The sounds ofworld English”,http∶//www.phys.unsw.edu.au/swe”。英语中只发母音的音较难,所以以[h]与[d]夹着的虚拟的词语来表示母音。将13母音全部相加平均而求出的平均声道形状与各母音进行混合的情况下,各母音向靠近重心的方向移动,从而被模糊化。
但是,如对日语的说明,不一定需要采用所有的母音求出平均声道形状。利用图14的布置时,可以利用"heed",“haired”,"had","hard","hod","howd","whod"构成凸多边形。靠近该多边形的边缘的母音与日语相同,将该母音与其他至少2母音进行混合,从而能够进行模糊化。另一方面,关于位于多边形内部的母音(图中的“heard”),因为这些原本就是模糊的语音,所以原样利用。
这样,根据本实施例的音质变换系统100,只输入少量的母音就能生成流畅的文章发音的语音。加之,采用日语母音能够生成英语的语音等,可以进行灵活性有巨大飞跃的音质变换。
换言之,本实施例的音质变换系统100,能够按每个母音的种类,混合多个第一声道形状信息来生成第二声道形状信息。换言之,能够根据少量的语音的样品,按每个母音的种类生成第二声道形状信息。这样按每个母音的种类生成的第二声道形状信息,相当于被模糊化的母音的声道形状信息。因此,利用第二声道形状信息变换输入语音的音质,从而能够使输入语音变换为流畅自然的语音。
另外,母音接受部102,如前述典型的是具有麦克风,不过,更加优选的是具有用于向用户指示发音内容和定时的显示装置(prompter)。作为具体例子,如图15所示,母音接受部102可以由麦克风1021和配置在麦克风1021的附近的液晶显示器等显示部1022所构成。这个情况下,显示部1022向目标发话者显示发音的内容1023(这个情况下是母音)和定时1024就可以。
另外,本实施例中,混合部105算出平均声道形状信息,不过,不必一定要算出平均声道形状信息。例如,混合部105按每个母音的种类,通过以规定的混合比率混合该母音的第一声道形状信息和与该母音不同种类的母音的声道形状信息,从而生成该母音的第二声道形状信息就可以。此时,规定的混合比率,可以设定为第二声道形状信息比第一声道形状信息更近似于平均声道形状信息。
换言之,混合部105只要以在F1-F2平面上母音之间的距离靠近的方式生成第二声道形状信息,则多个第一声道形状信息以何种方式混合都可以。例如,混合部105,可以生成第二声道形状信息,使得在输入语音中从某个母音变化为另外的母音时,声道形状信息不急剧地变化。换言之,混合部105,可以一边按照输入语音中包含的母音的排列使混合比率变化,一边对与输入语音中包含的母音相同种类的母音的第一声道形状信息和与输入语音中包含的母音不同种类的母音的第一声道形状信息进行混合。其结果,从第二声道形状信息得到的母音的F1-F2平面上的位置,即使是种类相同的母音,也在多边形区域内移动。这个可以通过将PARCOR系数的时序列根据移动平均法等变得平滑来实现。
(实施例1的变形例)
下面对实施例1的变形例进行说明。
在实施例1中,母音接受部102接受在该语言中有代表性的所有种类的母音(日语是5个母音),不过,在本变形例中,母音接受部102不一定需要接受所有种类的母音。在本变形例中,以比实施例1少的种类的母音来实现音质的变换。下面,说明其方法。
母音的种类通过第一峰段频率和第二峰段频率被赋予特征,不过,那些的值因每个人而不同。尽管如此,作为说明感觉是同一母音的理由的模型,存在被假定为根据第一峰段频率和第二峰段频率的比母音被赋予特征的模型。在这里,以算式(13)表示第i母音的第一峰段频率f1i以及第二峰段频率f2i组成的矢量vi,以算式(14)表示以保持第一峰段频率与第二峰段频率的比的状态移动矢量vi的矢量vi′。
(数式15)
vi=[f1i f2i] (13)
(数式16)
q是矢量vi与矢量vi′的比率。基于上述模型,即使比率q的值发生变化,矢量vi和矢量vi′也作为相同的母音来感知。
这样,将所有孤立母音的第一峰段频率以及第二峰段频率以比率q来移动的情况下,如图16所示,在F1-F2平面上根据母音的第一峰段频率以及第二峰段频率形成的多边形互相相似。在图16中,显示了原来的多边形A、q>1时的多边形B、q<1时的多边形C以及D。
这样作为在保持第一峰段频率f1i和第二峰段频率f2i的比的状态下对声道形状进行变形的方法,有变更声道的长度这样的方法。使声道长成为1/q倍,则所有的峰段的频率成为q倍。于是,首先求出声道长变换比率r=1/q,接着进行以声道长变换比率r使声道截面积函数伸缩的变换。
首先对求出声道长变换比率q的方法进行说明。
PARCOR系数具有这样的倾向,分析次数充分高时,越是高阶的系数绝对值则变得越小。尤其是,相当于声带的位置的部分编号以上的次数继续小的值。于是,从高阶的系数向低的次数按顺序检查值,将绝对值超过某个阈值的地方看成是声带位置,存储该次数k。根据这个方法,从预先准备的母音取出的k设为ka,从被输入的母音取出的k设为kb时,声道长变换比率r,能够如算式(15)一样地计算。
(数式17)
接着说明以声道长变换比率r来使声道截面积函数伸缩的变换方法。
图17示出某母音的声道截面积函数。横轴以部分编号表示从嘴唇朝向声带的距离。纵轴表示声道截面积。虚线表示根据仿样函数等对声道截面积进行内插成为连续值。
对成为连续值的声道截面积函数,以新的部分间隔1/r来取样(图18),将被取样的值以原来的部分间隔重新配置(图19)。在图19的例子中,在声道末端部分(声带侧)产生剩余部分(图19的网点部分),不过,剩余部分设成具有一定的截面积。这是因为超过声道长的部分中,PARCOR系数的绝对值成为非常小的值。换言之,使PARCOR系数的符号相反的是部分之间的反射系数,反射系数是0意味着部分之间的截面积没有差。
在所述的例子中,示出了缩短声道长的情况下(r<1)的变换方法。另一方面,如果伸长声道长的情况下(r>1),产生没能收纳在声道末端部(声带侧)的部分,而这些的部分的值可以丢弃。为了使丢弃的PARCOR系数的绝对值变得小,可以提高原来的分析次数。例如针对采样频率10kHz的语音,通常的PARCOR分析中设次数为10左右,不过,也可以设为20等高的值。
通过这样的方法,可以根据被输入的单一的母音和预先准备的母音,推测所有的母音的声道形状信息。换言之,母音接受部102没有必要接受所有的种类的母音。
(实施例2)
下面说明实施例2。
本实施例中,音质变换系统由2个装置构成的点,不同于实施例1的音质变换系统。下面,以与实施例1不同的地方为中心来说明。
图20是示出实施例2的音质变换系统200的构成图。在图20中,对于具有与图8相同功能的构成要素采用相同的编号,适当地省略说明。
如图20所示,音质变换系统200具备声道信息生成装置201和音质变换装置202。
声道信息生成装置201生成第二声道形状信息,该第二声道形状信息表示声道的形状,并且在变换输入语音的音质时使用。声道信息生成装置201具备:母音接受部102、分析部103、第一母音声道信息存储部104、混合部105、混合比率输入部110、第二母音声道信息存储部107、合成部108a、输出部109。
合成部108a,按每个母音的种类,使用存储在第二母音声道信息存储部107的第二声道形状信息生成合成音。而且,合成部108a,将生成的合成音的信号发送到输出部109。声道信息生成装置201的输出部109,将按每个母音的种类被生成的合成音的信号,作为语音来输出。
图21是用于说明在实施例2的声道信息生成装置201输出的母音的语音的图。在图21中用实线来表示根据由声道信息生成装置201的母音接受部102接受的多个母音的语音在F1-F2平面形成的五角形。此外,用虚线来表示根据由声道信息生成装置201的输出部109按每个母音的种类输出的语音在F1-F2平面形成的五角形。
根据图21能够知道声道信息生成装置201的输出部109输出模糊化的母音的语音。
音质变换装置202利用声道形状信息变换输入语音的音质。音质变换装置202具备:母音接受部102、分析部103、第一母音声道信息存储部104、输入语音存储部101、合成部108b、变换比率输入部111、输出部109。该音质变换装置202是与图25示出的专利文献2的音质变换装置相同的构成。
合成部108b使用存储在第一母音声道信息存储部104的第一声道形状信息,变换输入语音的音质。但是,本实施例中,音质变换装置202的母音接受部102,接受由声道信息生成装置201进行了模糊化的母音的语音。换言之,音质变换装置202的第一母音声道信息存储部104存储的第一声道形状信息,相当于实施例1的第二声道形状信息。因此,音质变换装置202的输出部109输出与实施例1同样的语音。
如上所述,在本实施例的音质变换系统200,可以由声道信息生成装置201和音质变换装置202的2个装置来构成。而且,音质变换装置202可以具有与以往的音质变换装置同样的构成。换言之,根据本实施例的音质变换系统200,使用以往的音质变换装置来实现与实施例1同样的效果。
(实施例3)
下面说明实施例3。
本实施例中,音质变换系统由2个装置构成的点与实施例1的音质变换系统不同。下面,以与实施例1不同的地方为中心来说明。
图22是示出实施例3的音质变换系统300的构成图。在图22中,对于具有与图8相同功能的构成要素采用相同的编号,适当地省略说明。
如图22所示,音质变换系统300具备声道信息生成装置301和音质变换装置302。
声道信息生成装置301具备第一母音声道信息存储部104、混合部105、混合比率输入部110。音质变换装置302具备:输入语音存储部101、母音接受部102、分析部103、合成部108、输出部109、变换比率输入部111、母音声道信息存储部303、母音声道信息输入输出切换部304。
母音声道信息输入输出切换部304以第一模式或者第二模式工作。具体而言,母音声道信息输入输出切换部304在第一模式中,将存储在母音声道信息存储部303的第一声道形状信息输出到第一母音声道信息存储部104。另一方面,母音声道信息输入输出切换部304在第二模式中,将从混合部105输出的第二声道形状信息存储到母音声道信息存储部303。
母音声道信息存储部303存储第一声道形状信息及第二声道形状信息。换言之,母音声道信息存储部303相当于实施例1的第一母音声道信息存储部104以及第二母音声道信息存储部107。
以上,根据本实施例的音质变换系统,能够将具有使母音模糊化的功能的声道信息生成装置301作为独立的装置来构成。而且,声道信息生成装置301因为不需要麦克风等,也能够作为计算机软件来实现。因此,声道信息生成装置301,能够作为为了提高音质变换装置302的性能而后加的软件(所谓插件)提供。
此外,声道信息生成装置301能够作为服务器应用程序来实现。在这个情况下,声道信息生成装置301经由网络与音质变换装置302连接就可以。
以上,根据实施例来说明了本发明的一个实施例涉及的音质变换系统、音质变换装置以及声道信息生成装置,不过,本发明不是被这些实施例所限制的。只要不超出本发明的宗旨,则技术者想出的各种变形例实施在各个实施例的例子,对不同实施例中的构成要素进行组合而构筑的例子也都包括在本发明的范围中。
例如,在所述实施例1~3中音质变换系统具备多个构成要素,不过不必一定要具备其全部的构成要素。例如,音质变换系统可以构成为如图23所示。
图23是示出其他实施例的音质变换系统400的构成图。另外,在图23中,对于与图8相同的构成要素附上相同的编号,适当地省略说明。
如图23所示,音质变换系统400具备声道信息生成装置401和音质变换装置402。另外,在图23中,对于与图8相同的构成要素附上相同的编号,省略说明。
图23示出的音质变换系统400具备具有分析部103以及混合部105的声道信息生成装置401、具有第二母音声道信息存储部107以及合成部108的音质变换装置402。另外,音质变换系统400不一定需要具备第二母音声道信息存储部107。
音质变换系统400,即使被这样地构成,也使用作为被模糊化的声道形状信息的第二声道形状信息能够变换输入语音的音质,也能起到与实施例1的音质变换系统100相同的作用。
此外,所述各个实施例的音质变换系统、音质变换装置、或声道信息生成装置具备的构成要素的一部分或全部可以由1个系统LSI(LargeScale integration:大规模集成电路)构成。
系统LSI是将多个构成部集成在1个芯片上制造而成的超多功能LSI,具体来讲是构成为包含微处理器、ROM(Read Only Memory)、RAM(Random Access Memory:随机存取存储器)等的计算机系统。在所述ROM中存储有计算机程序。通过由所述微处理器按照所述计算机程序工作,系统LSI实现其功能。
另外,在这里称为系统LSI,但是按照集成度的不同,也被称为IC、LSI、超级LSI、极超LSI。还有,集成电路化的方法不局限于LSI,也可以用专用电路或者通用处理器来实现。也可以利用在LSI制造之后可编程的现场可编程门阵列(FPGA∶Field Programmable Gate Array)或可重构LSI内部的电路单元的连接和设定的可重构处理器。
而且,随着半导体技术的进步或派生出的其他的技术,若出现了能够取代LSI的集成电路化的技术,当然也可以利用这些技术来对功能块进行集成化。有可能适用生物技术等。
此外,本发明的一个实施例,不仅是具备这样的有特征的构成要素的音质变换系统、音质变换装置、或声道信息生成装置,而且可以是将音质变换系统、音质变换装置、或声道信息生成装置中包含的有特征的处理部作为步骤的音质变换方法或者声道信息生成方法。此外,本发明的一个实施例也可以是使计算机执行音质变换方法或者声道信息生成方法中包含的有特征的各个步骤的计算机程序。而且,这样的计算机程序,可以经由CD-ROM等计算机可读取的非一时的记录介质或者互联网等通信网络来流通。
本发明的一个实施例涉及的音质变换系统作为语音加工工具、游戏、家用电器等语音向导、机器人的语音输出等而有用。此外,即使不应用在将某人的语音变换为别人的语音的用途,也能应用在将文本语音合成的输出听起来流畅容易听懂的用途。
符号说明
100,200,300,400音质变换系统
101输入语音存储部
102母音接受部
103分析部
104第一母音声道信息存储部
105混合部
107第二母音声道信息存储部
108,108a,108b合成部
109输出部
110混合比率输入部
111变换比率输入部
201,301,401声道信息生成装置
202,302,402音质变换装置
303母音声道信息存储部
304母音声道信息输入输出切换部
1021麦克风
1022显示部
1031母音稳定区间提取部
1032母音声道信息作成部
1051平均声道信息算出部
1052混合声道信息生成部
1081母音变换部
1082子音选择部
1083声道信息存储部
1084子音变形部
1085语音合成部
Claims (17)
1.一种音质变换系统,使用表示声道的形状的声道形状信息,对输入语音的音质进行变换,
所述音质变换系统具备:
母音接受部,接受种类互不相同的多个母音的语音;
分析部,分析由所述母音接受部接受的多个母音的语音,从而按每个所述母音的种类,生成第一声道形状信息;
混合部,按每个所述母音的种类,对该母音的所述第一声道形状信息和与该母音不同种类的母音的所述第一声道形状信息进行混合,从而生成该母音的第二声道形状信息;以及
合成部,获得输入语音的声道形状信息以及声源信息,通过对所述输入语音中包含的母音的声道形状信息和与所述输入语音中包含的母音相同种类的母音的所述第二声道形状信息进行混合,从而变换所述输入语音的声道形状信息,通过使用变换后的所述输入语音的声道形状信息和所述输入语音的声源信息生成合成音,从而变换所述输入语音的音质。
2.如权利要求1所述的音质变换系统,
所述混合部具备:
平均声道信息算出部,计算按每个所述母音的种类生成的多个第一声道形状信息的平均,从而算出一个平均声道形状信息;以及
混合声道信息生成部,按每个由所述母音接受部接受的母音的种类,对该母音的第一声道形状信息和所述平均声道形状信息进行混合,从而生成该母音的第二声道形状信息。
3.如权利要求2所述的音质变换系统,
平均声道信息算出部,计算所述多个第一声道形状信息的加权算术平均,从而算出所述平均声道形状信息。
4.如权利要求1至3的任一项所述的音质变换系统,
所述混合部,以所述输入语音中包含的母音的局部发话速度越大,与所述输入语音中包含的母音相同种类的母音的所述第二声道形状信息越接近按每个所述母音的种类生成的多个第一声道形状信息的平均的方式,生成所述第二声道形状信息。
5.如权利要求1至4的任一项所述的音质变换系统,
所述混合部,使用按照母音的种类而设定的混合比率,按每个所述母音的种类,对该母音的所述第一声道形状信息和与该母音不同种类的母音的所述第一声道形状信息进行混合。
6.如权利要求1至5的任一项所述的音质变换系统,
所述混合部,使用由用户设定的混合比率,按每个所述母音的种类,对该母音的所述第一声道形状信息和与该母音不同种类的母音的所述第一声道形状信息进行混合。
7.如权利要求1至6的任一项所述的音质变换系统,
所述混合部,使用按照所述输入语音的语言种类而设定的混合比率,按每个所述母音的种类,对该母音的所述第一声道形状信息和与该母音不同种类的母音的所述第一声道形状信息进行混合。
8.如权利要求1至7的任一项所述的音质变换系统,
所述音质变换系统还具备输入语音存储部,该输入语音存储部存储有所述输入语音的声道形状信息以及声源信息,
所述合成部,从所述输入语音存储部获得所述输入语音的声道形状信息以及声源信息。
9.一种声道信息生成装置,生成声道形状信息,该声道形状信息表示声道的形状并且在变换输入语音的音质时使用,
所述声道信息生成装置具备:
分析部,分析种类互不相同的多个母音的语音,从而按每个所述母音的种类,生成第一声道形状信息;以及
混合部,按每个所述母音的种类,对该母音的所述第一声道形状信息和与该母音不同种类的母音的所述第一声道形状信息进行混合,从而生成该母音的第二声道形状信息。
10.如权利要求9所述的声道信息生成装置,还具备:
合成部,按每个所述母音的种类,使用所述第二声道形状信息生成合成音;以及
输出部,将所述合成音作为语音来输出。
11.一种音质变换装置,使用表示声道的形状的声道形状信息,对输入语音的音质进行变换,
所述音质变换装置具备:
母音声道信息存储部,存储第二声道形状信息,该第二声道形状信息是按每个母音的种类,对该母音的所述第一声道形状信息和与该母音不同种类的母音的所述第一声道形状信息进行混合而生成的信息;以及
合成部,通过对输入语音中包含的母音的声道形状信息和与所述输入语音中包含的母音相同种类的母音的所述第二声道形状信息进行混合,从而变换所述输入语音的声道形状信息,通过使用变换后的所述输入语音的声道形状信息和所述输入语音的声源信息生成合成音,从而变换所述输入语音的音质。
12.一种音质变换方法,使用表示声道的形状的声道形状信息,对输入语音的音质进行变换,
所述音质变换方法包括:
母音接受步骤,接受种类互不相同的多个母音的语音;
分析步骤,分析在所述母音接受步骤接受的多个母音的语音,从而按每个所述母音的种类生成第一声道形状信息;
混合步骤,按每个所述母音的种类,对该母音的所述第一声道形状信息和与该母音不同种类的母音的所述第一声道形状信息进行混合,从而生成该母音的第二声道形状信息;
变换步骤,通过对输入语音中包含的母音的声道形状信息和与所述输入语音中包含的母音相同种类的母音的所述第二声道形状信息进行混合,从而变换所述输入语音的声道形状信息;以及
合成步骤,通过使用变换后的所述输入语音的声道形状信息和所述输入语音的声源信息生成合成音,从而变换所述输入语音的音质。
13.一种声道信息生成方法,生成声道形状信息,该声道形状信息表示声道的形状并且在变换输入语音的音质时使用,
所述声道信息生成方法包括:
分析步骤,分析种类互不相同的多个母音的语音,从而按每个所述母音的种类,生成第一声道形状信息;以及
混合步骤,按每个所述母音的种类,对该母音的所述第一声道形状信息和与该母音不同种类的母音的所述第一声道形状信息进行混合,从而生成该母音的第二声道形状信息。
14.一种音质变换方法,使用表示声道的形状的声道形状信息,对输入语音的音质进行变换,
所述音质变换方法包括:
变换步骤,通过对输入语音中包含的母音的声道形状信息和与所述输入语音中包含的母音相同种类的母音的第二声道形状信息进行混合,从而变换所述输入语音的声道形状信息,所述第二声道形状信息是对与所述输入语音中包含的母音相同种类的母音的第一声道形状信息和与所述输入语音中包含的母音不同种类的母音的第一声道形状信息进行混合而生成的信息;以及
合成步骤,通过使用变换后的所述输入语音的声道形状信息和所述输入语音的声源信息生成合成音,从而变换所述输入语音的音质。
15.一种程序,用于使计算机执行权利要求12所述的音质变换方法。
16.一种程序,用于使计算机执行权利要求13所述的声道信息生成方法。
17.一种程序,用于使计算机执行权利要求14所述的音质变换方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011-156042 | 2011-07-14 | ||
JP2011156042 | 2011-07-14 | ||
PCT/JP2012/004517 WO2013008471A1 (ja) | 2011-07-14 | 2012-07-12 | 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103370743A true CN103370743A (zh) | 2013-10-23 |
Family
ID=47505774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012800070696A Pending CN103370743A (zh) | 2011-07-14 | 2012-07-12 | 音质变换系统、音质变换装置及其方法、声道信息生成装置及其方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9240194B2 (zh) |
JP (1) | JP5194197B2 (zh) |
CN (1) | CN103370743A (zh) |
WO (1) | WO2013008471A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110958859A (zh) * | 2017-08-28 | 2020-04-03 | 松下知识产权经营株式会社 | 认知能力评估装置、认知能力评估系统、认知能力评估方法及程序 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9390085B2 (en) * | 2012-03-23 | 2016-07-12 | Tata Consultancy Sevices Limited | Speech processing system and method for recognizing speech samples from a speaker with an oriyan accent when speaking english |
US9466292B1 (en) * | 2013-05-03 | 2016-10-11 | Google Inc. | Online incremental adaptation of deep neural networks using auxiliary Gaussian mixture models in speech recognition |
WO2016042626A1 (ja) * | 2014-09-17 | 2016-03-24 | 株式会社東芝 | 音声処理装置、音声処理方法及びプログラム |
WO2016111644A1 (en) * | 2015-01-05 | 2016-07-14 | Creative Technology Ltd | A method for signal processing of voice of a speaker |
CN107464554B (zh) * | 2017-09-28 | 2020-08-25 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
CN109308892B (zh) * | 2018-10-25 | 2020-09-01 | 百度在线网络技术(北京)有限公司 | 语音合成播报方法、装置、设备及计算机可读介质 |
US11869529B2 (en) * | 2018-12-26 | 2024-01-09 | Nippon Telegraph And Telephone Corporation | Speaking rhythm transformation apparatus, model learning apparatus, methods therefor, and program |
US11183168B2 (en) * | 2020-02-13 | 2021-11-23 | Tencent America LLC | Singing voice conversion |
US11302301B2 (en) * | 2020-03-03 | 2022-04-12 | Tencent America LLC | Learnable speed control for speech synthesis |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4624012A (en) * | 1982-05-06 | 1986-11-18 | Texas Instruments Incorporated | Method and apparatus for converting voice characteristics of synthesized speech |
JPH0772900A (ja) | 1993-09-02 | 1995-03-17 | Nippon Hoso Kyokai <Nhk> | 音声合成の感情付与方法 |
JP3631657B2 (ja) * | 2000-04-03 | 2005-03-23 | シャープ株式会社 | 声質変換装置および声質変換方法、並びに、プログラム記録媒体 |
WO2006053256A2 (en) * | 2004-11-10 | 2006-05-18 | Voxonic, Inc. | Speech conversion system and method |
JP2008537600A (ja) * | 2005-03-14 | 2008-09-18 | ボクソニック, インコーポレイテッド | 音声変換のための自動的ドナーランキングおよび選択システムおよび方法 |
JP4830350B2 (ja) * | 2005-05-26 | 2011-12-07 | カシオ計算機株式会社 | 声質変換装置、及びプログラム |
JP4586675B2 (ja) * | 2005-08-19 | 2010-11-24 | 株式会社国際電気通信基礎技術研究所 | 声道断面積関数の推定装置及びコンピュータプログラム |
CN101578659B (zh) * | 2007-05-14 | 2012-01-18 | 松下电器产业株式会社 | 音质转换装置及音质转换方法 |
EP2156182B1 (en) * | 2007-06-06 | 2010-10-06 | Roche Diagnostics GmbH | Detection of an analyte in a sample of hemolyzed whole blood |
WO2008149547A1 (ja) * | 2007-06-06 | 2008-12-11 | Panasonic Corporation | 声質編集装置および声質編集方法 |
JP4294724B2 (ja) * | 2007-08-10 | 2009-07-15 | パナソニック株式会社 | 音声分離装置、音声合成装置および声質変換装置 |
WO2010035438A1 (ja) * | 2008-09-26 | 2010-04-01 | パナソニック株式会社 | 音声分析装置および音声分析方法 |
-
2012
- 2012-07-12 WO PCT/JP2012/004517 patent/WO2013008471A1/ja active Application Filing
- 2012-07-12 CN CN2012800070696A patent/CN103370743A/zh active Pending
- 2012-07-12 JP JP2012551826A patent/JP5194197B2/ja not_active Expired - Fee Related
-
2013
- 2013-04-29 US US13/872,183 patent/US9240194B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110958859A (zh) * | 2017-08-28 | 2020-04-03 | 松下知识产权经营株式会社 | 认知能力评估装置、认知能力评估系统、认知能力评估方法及程序 |
CN110958859B (zh) * | 2017-08-28 | 2023-06-30 | 松下知识产权经营株式会社 | 认知能力评估装置、认知能力评估系统、认知能力评估方法及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP5194197B2 (ja) | 2013-05-08 |
WO2013008471A1 (ja) | 2013-01-17 |
JPWO2013008471A1 (ja) | 2015-02-23 |
US20130238337A1 (en) | 2013-09-12 |
US9240194B2 (en) | 2016-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103370743A (zh) | 音质变换系统、音质变换装置及其方法、声道信息生成装置及其方法 | |
US8073696B2 (en) | Voice synthesis device | |
CN101064104B (zh) | 基于语音转换的情感语音生成方法 | |
CN101606190B (zh) | 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法 | |
CN101578659B (zh) | 音质转换装置及音质转换方法 | |
CN102227770A (zh) | 音质变换装置、音高变换装置及音质变换方法 | |
CN116863038A (zh) | 一种文本生成数字人语音及面部动画的方法 | |
CN101156196A (zh) | 混合语音合成器、方法和使用 | |
WO2005093713A1 (ja) | 音声合成装置 | |
CN111627420A (zh) | 极低资源下的特定发音人情感语音合成方法及装置 | |
KR20200088263A (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
Burkhardt et al. | Emotional speech synthesis 20 | |
CN113724683A (zh) | 音频生成方法、计算机设备及计算机可读存储介质 | |
KR20230075340A (ko) | 실시간 음색 및 운율 스타일 복제 가능한 음성합성 시스템 및 방법 | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
Karpov et al. | Multimodal synthesizer for Russian and Czech sign languages and audio-visual speech | |
Ling et al. | Articulatory control of HMM-based parametric speech synthesis driven by phonetic knowledge | |
Burkhardt et al. | Emotional speech synthesis: Applications, history and possible future | |
Le et al. | Emotional Vietnamese Speech Synthesis Using Style-Transfer Learning. | |
CN1979636B (zh) | 一种音标到语音的转换方法 | |
Ravi et al. | Text-to-speech synthesis system for Kannada language | |
Kayte et al. | The Marathi text-to-speech synthesizer based on artificial neural networks | |
Greenberg | Pronunciation variation is key to understanding spoken language | |
KR20050058949A (ko) | 한국어 운율구 추출방법 | |
JP2910587B2 (ja) | 音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20131023 |