CN101379549B - 声音合成装置、声音合成方法 - Google Patents

声音合成装置、声音合成方法 Download PDF

Info

Publication number
CN101379549B
CN101379549B CN2007800048865A CN200780004886A CN101379549B CN 101379549 B CN101379549 B CN 101379549B CN 2007800048865 A CN2007800048865 A CN 2007800048865A CN 200780004886 A CN200780004886 A CN 200780004886A CN 101379549 B CN101379549 B CN 101379549B
Authority
CN
China
Prior art keywords
mentioned
music
music signal
sounding form
sounding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007800048865A
Other languages
English (en)
Other versions
CN101379549A (zh
Inventor
加藤正德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN101379549A publication Critical patent/CN101379549A/zh
Application granted granted Critical
Publication of CN101379549B publication Critical patent/CN101379549B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/081Genre classification, i.e. descriptive metadata for classification or selection of musical pieces according to style
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的在于,提供能够生成合成声音的装置、方法,该合成声音具有同音乐取得协调的发声形式。声音合成装置的音乐类型推断部21中,推断所输入的音乐信号属于的音乐类型,发声形式选择部23中,参照发声形式信息记忆部24,根据音乐类型决定发声形式。韵律生成部11中,参照从韵律生成规则记忆部151至15N中根据发声形式所选择的韵律生成规则记忆部,根据发音符号串产生韵律信息。单位波形选择部12中,参照从单位波形数据记忆部161至16N中根据发声形式所选择的单位波形数据记忆部,根据发音符号串和韵律信息选择单位波形。波形生成部13中,从韵律信息和单位波形数据产生合成声音波形。

Description

声音合成装置、声音合成方法
技术领域
本发明涉及声音合成技术,特别地,用于根据文本合成声音的声音合成装置、声音合成方法和程序。 
背景技术
最近,随着计算机高性能化、小型化,声音合成技术在汽车导航装置、移动电话、PC、机器人等各种装置上安装并利用。伴随着对各种装置的应用的普及,利用声音合成装置的环境多样化。 
现有的一般的声音合成装置中,对于发音符号串(含有读、句法/词类信息、语调类型等的文本解析结果),韵律(例如,音调频率模式、振幅、持续时长)生成、单位波形(例如,具有从自然声音中所提取的音调长或音节时长程度的长度的波形)选择、波形生成处理结果原则上唯一地决定。即,声音合成装置不管在什么样的情况和环境中,始终采用同样的发声形式(声音的大小和发声速度、韵律、声调等)进行声音合成。 
但是,实际上如果观察人类的发声,即使在讲同样文本的情况下,也是按照讲话者的情况、感情、意图等来控制发声形式。因此,始终采用同样发声形式的现有声音合成装置未必可以说是充分地有效地利用声音这种传播介质的特征。 
为解决声音合成装置的这样的问题,有人进行了按照用户环境(声音合成装置利用者存在的场所的情况和环境)动态地改变韵律生成/单位波形选择,由此产生适合用户环境的合成声音,改善用户使用方便的这种尝试。例如,专利文献1中,公开了按照表示用户环境明暗和用户位置等的信息,选择音韵/韵律的控制规则的声音合成系统的构成。 
另外,专利文献2中,公开了根据周围噪音的能量谱、频率分布信息,控制辅音功率、音调频率、以及取样频率的声音合成装置的构成。 
更进一步地,专利文献3中,公开了根据包含有时间、日期、和星期 的各种计时信息,控制发声速度、音调频率、音量、以及音质的声音合成装置。 
下面说明构成本发明背景技术的公开了音乐信号的分析、检索方法的非专利文献1~3。非专利文献1,公开了采用分析音乐信号的短时间振幅频谱或离散小波(wavelet)变换系数来得到音乐特征(乐器构成、节奏结构),从而推断音乐类型的类型推断方法。 
非专利文献2中,公开了采用树结构型矢量量化法,根据音乐信号的Mel频率推断音乐类型的音乐类型推断方法。 
非专利文献3中,公开了采用频谱的直方图进行相似度计算、检索音乐信号的方法。 
专利文献1:日本特开第3595041号公报 
专利文献2:日本特开平11-15495号公报 
专利文献3:日本特开平11-161298号公报 
非专利文献1:Tzanetakis,Essl,Cook:“Automatic Musical GenreClassification of Audio Signals”,Proceedings of ISMIR 2001,pp.205-210,2001. 
非专利文献2:Hoashi,Matsumoto,Inoue:“Personalization of UserProfiles for Content-based Music Retrieval Based on Relevance Feedback”,Proceedings of ACM Multimedia 2003,pp.110-119,2003. 
非专利文献3:木村、他:「グロ一バルな枝刈りを導入した音ゃ映像の高速探索」,電子情報通信学会論文誌D-II,Vol.J85-D-II,No.10,pp.1552-1562,2002年10月 
为了吸引听众的注意以及让讯息给听众以深刻印象的目的,一般和自然声音一起播送BGM(background music,以下称为BGM)。例如,电视和收音机的新闻、信息提供节目,大多在解说背景中播送BGM。 
如果分析该节目,虽然有些是按照说话者的发声形式选择BGM,特别是该BGM属于的音乐类型,但也能够发现在说话者方面采用了意识到BGM的说话方式。例如,天气预报和交通信息中,伴随容易倾听的平稳曲调的BGM,一般用平稳语调进行广播。但是,即使是相同的内容,在特定节目中和实况转播等中,常常以有张力的声音进行广播。
并且在带着悲哀朗读诗的时候,将布鲁士舞曲音乐作为BGM使用,说话者也进行含有感情的朗读。此外还能够看出想要演出神秘气氛的情况下选择宗教音乐,快活的语调的情况下选择流行歌曲音乐这样的关系。 
另一方面,利用上述种类声音合成装置的环境多样化,将含有上述BGM的各种音乐进行再现的场所(用户环境)中,尽管输出合成声音的机会变多,包含有上述专利文献1等中记载的技术方案的现有声音合成装置中,在控制合成声音的发声形式方面,由于不能考虑用户环境中存在的音乐,存在发声形式与周围的音乐不能协调的问题。 
发明内容
本发明,是鉴于上述情况而产生的发明,其目的在于,提供声音合成装置、声音合成方法以及程序,能够合成与用户环境中存在的音乐协调的声音。 
根据本发明的第1个观点,提供一种声音合成装置,其特征在于,按照在用户环境中正再现的音乐信号自动选择发声形式。更具体地,上述声音合成装置具备:分析在用户环境中正再现音乐信号并决定适合该音乐信号分析结果的发声形式的发声形式选择部;和按照上述发声形式合成声音的声音合成部;从将音乐和该音乐的属性相关联地记忆的音乐属性信息记忆部,检索与在用户环境中正再现的音乐信号的分析结果相对应的数据,推断上述在用户环境中正再现的音乐信号的属性的音乐属性信息检索部,发声形式选择部通过选择与在用户环境中正再现的音乐信号的属性相对应的发声形式来决定发声形式。 
根据本发明的第2个观点,提供一种采用声音合成装置产生合成声音的声音合成方法,其特征在于,包含有:上述声音合成装置分析在用户环境中正再现的音乐信号并决定适合该音乐信号的分析结果的发声形式的步骤;和上述音乐合成装置按照上述发声形式合成声音的步骤;还包括:声音合成装置从将音乐和该音乐的属性相关联地记忆的音乐属性信息记忆部,检索与在用户环境中正再现的音乐信号的分析结果相对应的数据,并对在用户环境中正再现的音乐信号的属性进行推断的步骤,通过选择与在用户环境中正再现的音乐信号的属性相对应的发声形式,来决定适合音乐信号的分析结果的发声形式。 
根据本发明的第3个观点,提供一种在构成声音合成装置的计算机上执行的程序和保存该程序的记录介质,该程序在上述计算机上执行下列处理:分析在用户环境中正再现的音乐信号,从预先所准备的发声形式中,决定适合上述音乐信号分析结果的发声形式的处理;和按照上述发声形式合成声音的处理;从关联音乐和其属性并记忆的音乐属性信息记忆部,检索与所输入的音乐信号的分析结果相对应的数据,并推断上述所输入的音乐的属性的处理;和通过选择与上述所输入的音乐的属性相对应的发声形式,来进行决定适合上述音乐信号的分析结果的发声形式的处理。 
根据本发明,能够采用同用户环境BGM等音乐取得协调的发声形式而产生合成声音。结果,能够输出可以吸引用户注意的合成声音、以及不破坏BGM具有的气氛和倾听BGM的用户的情绪的合成声音。 
附图说明
图1是对涉及本发明第1实施方式的声音合成装置的构成进行示意的框图。 
图2是对涉及本发明第1实施方式的声音合成装置中使用的音乐类型与发声形式以及发声形式参数之间的关系进行定义的表的一个例子。 
图3是用于对涉及本发明第1实施方式的声音合成装置的工作进行说明的流程图。 
图4是对涉及本发明第2实施方式的声音合成装置的构成进行示意的框图。 
图5是对涉及本发明第2实施方式的声音合成装置中使用的音乐类型与发声形式以及发声形式参数之间的关系进行定义的表的一个例子。 
图6是用于对涉及本发明第2实施方式的声音合成装置的工作进行说明的流程图。 
图7是对涉及本发明第3实施方式的声音合成装置的构成进行示意的框图。 
图8是用于对涉及本发明第3实施方式的声音合成装置的工作进行说明的流程图。 
图9是对涉及本发明第4实施方式的声音合成装置的构成进行示意的框图。 
图10是用于对涉及本发明第4实施方式的声音合成装置的工作进行说明的流程图。 
符号说明 
11韵律生成部 
12单位波形选择部 
13波形生成部 
151~15N韵律生成规则记忆部 
161~16N单位波形数据记忆部 
17合成声音功率调整部 
18合成声音功率计算部 
19音乐信号功率计算部 
21音乐类型推断部 
23、27发声形式选择部 
24、28发声形式信息记忆部 
31音乐属性信息检索部 
32音乐属性信息记忆部 
35音乐再现部 
36再现音乐信息取得部 
37音乐数据记忆部 
具体实施方式
[第1实施方式] 
接着,对用于实施本发明的最佳的方式参照附图进行详细说明。图1是对涉及本发明第1个实施方式的声音合成装置的构成进行示意的框图。参照图1,涉及本实施方式的声音合成装置具备:韵律生成部11、单位波形选择部12、波形生成部13、韵律生成规则记忆部151至15N、单位波形数据记忆部161至16N、音乐类型推断部21、发声形式选择部23和发声形式信息记忆部24。 
韵律生成部11是用于从基于发声形式所选择的韵律生成规则和发音符号串产生韵律信息的处理部件。 
单位波形选择部12是用于从基于发声形式所选择的单位波形数据、发音符号串和韵律信息选择单位波形的处理部件。 
波形生成部13是用于从韵律信息和单位波形数据产生合成声音波形的处理部件。 
韵律生成规则记忆部151至15N中保存通过各发声形式实现合成声音所必需的韵律生成规则(例如,音调频率模式、振幅、持续时长等)。 
同韵律生成规则记忆部的情况相同,单位波形数据记忆部161至16N 中保存通过各发声形式实现合成声音所必需的单位波形数据(例如,具有从自然声音中所提取的音调长和音节时间长程度的长度的波形)。 
另外,上述韵律生成规则记忆部151至15N和单位波形数据记忆部161 至16N中应保存的韵律生成规则和单位波形数据,能够通过对适合各发声形式的自然声音进行收集、分析而产生。 
以下,本实施方式中,作为下列情况进行说明:从有活力的声音所产生的有活力的声音的实现所必需的韵律生成规则和单位波形数据保存在韵律生成规则记忆部151和单位波形数据记忆部161中,从平稳的声音所产生的平稳的声音的实现所必需的韵律生成规则和单位波形数据保存在韵律生成规则记忆部152和单位波形数据记忆部162中,从耳语声所产生的韵律生成规则和单位波形数据保存在韵律生成规则记忆部153和单位波形数据记忆部163中,从标准声音所产生的韵律生成规则和单位波形数据保存在韵律生成规则记忆部15N和单位波形数据记忆部16N中。另外,从自然声音产生韵律生成规则和单位波形数据的方法,能够不依赖发声形式,采用和从标准声音产生的情况相同的方法。 
音乐类型推断部21是用于对所输入的音乐信号属于的音乐类型进行推断的处理部件。 
发声形式选择部23是用于根据音乐类型决定发声形式的处理部件,该音乐类型根据发声形式信息记忆部24中保存的表所推断出。 
发声形式信息记忆部24中保存有对图2中举例说明的音乐类型同发声形式以及发声形式参数之间的关系进行定义的表。发声形式参数是指韵律生成规则记忆部号码和单位波形数据记忆部号码,通过将与各号码对应的韵律生成规则和单位波形数据进行编组,实现按照特定发声形式合成声音。另外,图2的例子中,虽然为说明方便定义了发声形式和发声形式参数两者,但是,由于发声形式选择部23中使用的只是发声形式参数,因此,能够省略发声形式的定义。 
相反的,发声形式信息记忆部24中,只定义音乐类型同发声形式之间的关系,发声形式同韵律生成规则以及单位波形数据之间的对应关系,能够采用韵律生成部11和单位波形选择部12,选择适合各发声形式的韵律生成规则和单位波形数据。 
并且,图2的例子中,虽然准备了多个发声形式,但是,能够只准备1种发声形式的单位波形数据,根据韵律生成规则的改变进行发声形式的转换。该情况,能够更加降低声音合成装置的记忆容量和处理量。 
更进一步地,上述发声形式信息记忆部24中定义的音乐类型信息同发声形式之间的对应关系,也可以按用户喜好而改变,也可以从预先所准备的多个对应关系的组合中由用户按照喜好进行选择。 
继续地,参照附图对涉及本实施方式的声音合成装置的工作详细说明。图3是对涉及本实施方式的声音合成装置的工作进行示意的流程图。参照图3,首先,音乐类型推断部21,从所输入的音乐信号,提取频谱和倒谱(cepstrum)等的音乐信号的特征量,推断所输入的音乐属于的音乐类型,向发声形式选择部23输出(步骤A1)。该音乐类型推断方法能够使用之前提出的非专利文献1、非专利文献2等中所记载的公知的方法。 
另外,在不存在BGM的情况和属于推断对象外的音乐类型的音乐被输入的情况下,不将特定的类型名,而将“其它”作为音乐类型向发声形式选择部23输出。 
接着,发声形式选择部23,根据音乐类型推断部21所转达的推断音乐类型,从发声形式信息记忆部24中所记忆的表(参照图2)选择相应的发声形式,将为实现所选择的发声形式所必需的发声形式参数向韵律生成部11和单位波形选择部12转达(步骤A2)。 
根据图2,例如,所推断的音乐类型为流行歌曲的情况,选择有活力的声音作为发声形式,容易倾听的情况选择平稳的声音,宗教音乐的情况选择耳语声。所推断的音乐类型在图2的表中不存在的情况下,同音乐类型为“其它”的情况相同,选择标准的发声形式。 
继续地,韵律生成部11,参照从发声形式选择部23所供给的发声形式参数,从韵律生成规则记忆部151至15N中,选择具有发声形式选择部23所指定的记忆部号码的韵律生成规则记忆部。然后,根据所选择的韵律生成规则记忆部的韵律生成规则,从所输入的发音符号串产生韵律信息,向单位波形选择部12和波形生成部13转达(步骤A3)。 
继续地,单位波形选择部12,参照从发声形式选择部23所转达的发声形式参数,从单位波形数据记忆部161至16N中,选择具有发声形式选择部23所指定的记忆部号码的单位波形数据记忆部。然后,根据所输入的发音符号串和从韵律生成部11所供给的韵律信息,从所选择的单位波形数据记忆部选择单位波形,向波形生成部13转达(步骤A4)。 
最后,波形生成部13,根据从韵律生成部11所转达的韵律信息,连接从单位波形选择部12所供给的单位波形,输出合成声音信号(步骤A5)。 
如上所述,根据本实施方式,能够按照通过与用户环境BGM取得了调和的韵律和单位波形实现的发声形式,产生合成声音。 
另外,上述实施方式中,虽然按发声形式准备单位波形数据记忆部161 至16N,但是,还能够只设置标准声音的单位波形数据记忆部。该情况下,虽然只按照韵律生成规则控制发声形式,但是,单位波形数据与以韵律生成规则为首的其它的数据相比,数据大小大,因此产生能够大幅度消减合成装置整体的记忆容量的优点。 
[第2实施方式] 
上述第1实施方式中,合成声音的功率没有成为控制对象,不管在采用耳语声输出合成声音的情况下,还是在通过有活力的声音输出合成声音的情况下,功率都是相同的。例如,根据BGM和发声形式的对应关系,能够想到如果合成声音的音量比背景音乐过大就损坏协调,根据场合的不同变得刺耳。反过来,能够想到如果合成声音的音量比背景音乐过小,则不仅仅损坏协调,而且变得难以听见合成声音。 
这里,对于上述加以改良,将合成声音的功率也追加为控制对象的本发明的第2实施方式,参照附图详细进行说明。图4是示意涉及本发明第2实施方式的声音合成装置构成的框图。 
参照图4,本实施方式的声音合成装置,对于涉及上述第1实施方式的声音合成装置(参照图1),再增加了下列部分:合成声音功率调整部17、合成声音功率计算部18和音乐信号功率计算部19。而且,按照图4所示,本实施方式中,代替上述第1实施方式的发声形式选择部23和发声形式信息记忆部24,配置有发声形式选择部27和发声形式信息记忆部28。 
发声形式信息记忆部28中,保存有对图5中举例说明的音乐类型同发声形式以及发声形式参数的关系进行定义的表。同上述第1实施方式的发声形式信息记忆部24中保持的表(参照图2)之间的不同点在于增加了功率比。 
该功率比是用合成声音的功率除以音乐信号的功率的值。即,如果功率比大于1.0,则表示合成声音的功率比音乐信号的功率大。参照图5,例如,音乐类型被推断为流行歌曲的情况,发声形式是有活力的声音,功率比设定为1.2,按照超过音乐信号功率的功率(1.2倍)输出合成声音。同样地,发声形式为平稳的声音时设定功率比为1.0,耳语声的情况设定为0.9,标准声音的情况设定为1.0。 
继续地,对于涉及本实施方式的声音合成装置的工作,参照附图详细说明。图6是示意涉及本实施方式的声音合成装置的工作的流程图。音乐类型推断(步骤A1)~波形生成(步骤A5)为止的期间,虽然同上述第1实施方式大致相同,但是不同点在于,步骤A2中,发声形式选择部27根据从音乐类型推断部21所转达的推断音乐类型,将发声形式信息记忆部28中所记忆的功率比向合成声音功率调整部17转达(步骤A2)。 
步骤A5中,如果波形生成结束,音乐信号功率计算部19,对所输入的音乐信号的平均功率进行计算,向合成声音功率调整部17转达(步骤B1)。如果信号样本号码为n、音乐信号为x(n),例如按照下面式子(1)表示的一次泄漏(リ一ク/leaky)积分,能够求出音乐信号的平均功率Pm(n)。 
[数1] 
Pm(n)=aPm(n-1)+(1-a)x2(n) 
其中,a是一次泄漏积分的时间常数。由于为了防止合成声音和BGM的平均音量的差变大而计算功率,最好将a设定为0.9等大的值,计算长时间平均功率。反过来,如果将a的值设定为0.1这样的小的值而计算功率,则合成声音的音量变化变得频繁并且大,有可能变得难于听到合成声音。另外,能够代替上面式子而使用移动平均和输入信号的所有样本的平均值等。 
继续地,合成声音功率计算部18,计算从波形生成部13所供给的合成声音的平均功率,向合成声音功率调整部17转达(步骤B2)。合成声音功率的计算中,能够采用同上述音乐信号功率相同的方法。 
最后,合成声音功率调整部17,根据从音乐信号功率计算部19供给的音乐信号功率、从合成声音功率计算部18供给的合成声音功率、从发声形式选择部27供给的发声形式参数中的功率比,对从波形生成部13供 给的合成声音信号的功率进行调整,并作为功率调整结束声音合成信号输出(步骤B3)。更具体地,合成声音功率调整部17调整合成声音的功率,以使得最终输出的合成声音信号的功率和音乐信号功率的比接近从发声形式选择部27所供给的功率比的值。 
更直接地,采用音乐信号功率、合成声音信号功率、功率比求出功率调整系数,并与合成声音信号相乘来实现。因此,功率调整系数中,音乐信号和功率调整结束合成声音的功率比,有必要使用与从发声形式选择部27所供给的功率比大致一致的值。如果音乐信号功率为Pm,合成声音功率为Ps,功率比为r,则音乐调整系数c用下面式子给出。 
[数2] 
c = P m P s r
并且,如果功率调整前的合成声音信号为y1(n),功率调整后的合成声音信号y2(n)用下面式子给出。 
[数3] 
y2(n)=cy1(n) 
以上那样,能够进行细微控制,选择有活力的声音的情况下,让合成声音功率比标准声音稍大,选择耳语声的情况下,让功率稍小,能够实现更加同BGM取得协调的发声形式。 
[第3实施方式] 
上述第1、第2实施方式中,虽然采用了推定输入音乐的类型的方案,但是,如果使用近几年的探索/对照方法,就能够更细致地分析输入音乐。以下,参照附图对于本发明的第3实施方式详细说明,第3实施方式对于上述加以改良。图7是对涉及本发明第3实施方式的声音合成装置的构成进行示意的框图。 
参照图7,涉及本实施方式的声音合成装置,对于涉及上述第1实施方式的声音合成装置(参照图1),增加音乐属性信息记忆部32的同时, 代替音乐类型推断部21而配置有音乐属性信息检索部31。 
音乐属性信息检索部31是用于从所输入的音乐信号提取频谱等特征量的处理部件。音乐属性信息记忆部32中,各种音乐信号的特征量和该音乐信号的音乐类型单独地记录,根据对照特征量,能够确定音乐并决定类型。 
使用上述特征量的音乐信号的检索中,能够使用非专利文献3中公开的通过频谱的直方图进行相似度计算的方法。 
继续地,对于涉及本实施方式的声音合成装置的工作参照附图详细说明。图8是对涉及本实施方式的声音合成装置的工作进行示意的流程图。相对于上述第1实施方式,音乐类型推断(步骤A1)部不同且其他已经说明完,因此以下对于图8的步骤D1详细说明。 
首先,音乐属性信息检索部31从所输入的音乐信号提取频谱等特征量。接着,音乐属性信息检索部31分别计算音乐属性信息记忆部32中保存的音乐的全部特征量和所输入的音乐信号的特征量的相似度。然后,将具有最高相似度的音乐的音乐类型信息向发声形式选择部转达(步骤D1)。 
另外,步骤D1中,相似度的最大值,在低于所预先设定的阈值的情况下,音乐属性信息检索部31,判断为与所输入的音乐信号相对应的音乐没有记录在音乐属性信息记忆部32中,并将“其他”作为音乐类型输出。 
以上那样,根据本实施方式,由于使用对于各个音乐单独地记录了音乐类型的音乐属性信息记忆部32,能够按照比上述第1、第2实施方式更高的精度确定音乐类型,并反映在发声形式上。 
另外,构筑音乐属性信息记忆部32时,如果记忆曲名、艺术家名、作曲者名等的属性信息,则能够根据音乐类型以外的属性信息决定发声形式。 
而且,如果音乐属性信息记忆部32中记忆的音乐的种类数目多,则虽然能够确定很多的音乐信号的类型,但是,音乐属性信息记忆部32的容量变大。根据需要,可以在音乐合成装置外部配置音乐属性信息记忆部32,在计算音乐信号特征量的相似度时,使用有线和无线通信部件对音乐属性信息记忆部32进行访问。 
继续地,对于涉及上述第1实施方式的声音合成装置,增加了BGM 等乐曲再现功能的本发明的第4实施方式,参照附图详细说明。 
[第4实施方式] 
图9是对涉及本发明第4实施方式的声音合成装置的构成进行示意的框图。参照图9,涉及本实施方式的声音合成装置,对于涉及上述第1实施方式的声音合成装置(参照图1),增加音乐再现部35、音乐数据记忆部37的同时,代替音乐类型推断部21而配置再现音乐信息取得部36。 
音乐数据记忆部37中保存有音乐信号、该音乐的曲号码和音乐类型。音乐再现部35,按照包含有曲号码和音量、再现·停止·倒退·快进等各种命令的再现指令,通过扬声器和耳机等,将音乐数据记忆部37中保存的音乐信号进行输出。而且,音乐再现部35,对于再现音乐信息取得部36,供给再现中的音乐的曲号码。 
再现音乐信息取得部36是与上述第1实施方式的音乐类型推断部21相同的处理部件,从音乐数据记忆部37取出与从音乐再现部35所供给的曲号码相对应的音乐的类型信息,向发声形式选择部23转达。 
继续地,对于涉及本实施方式的声音合成装置的工作参照附图详细说明。图10是对涉及本实施方式的声音合成装置的工作进行示意的流程图。由于相对于上述第1实施方式,音乐类型推断(步骤A1)的部分不同且其他已经说明完,以下,对于图10的步骤D2、D3详细说明。 
音乐再现部35,如果再现所指定的音乐,将该曲号码向再现音乐信息取得部36供给(步骤D2)。 
再现音乐信息取得部36,从音乐数据记忆部37取出与从音乐再现部35供给的曲号码相对应的音乐的类型信息,向发声形式选择部23传达(步骤D3)。 
根据本实施例,音乐类型的推断处理和检索处理是不必要的,能够可靠地确定再现中的BGM的音乐类型等。当然,在音乐再现部35,能够将再现中的音乐的类型信息从音乐数据记忆部37直接取得的情况下,能够取消再现音乐信息取得部36,从音乐再现部35向发声形式选择部23直接供给音乐类型。 
而且,音乐类型信息没有记录在音乐数据记忆部37中的情况下,能 够使用音乐类型推断部21代替再现音乐信息取得部36,推断音乐类型。 
而且,如果在音乐数据记忆部37记录有类型以外的音乐属性信息,如上述第3实施方式中说明的那样,可以改变发声形式选择部23以及发声形式信息记忆部24,以使得能够通过类型以外的属性信息决定发声形式。 
以上,虽然对本发明各实施方式进行了说明,但本发明的技术范围,不限于上述实施方式,能够按照声音合成装置的用途、方法等,加以各种变形,或者,采用等同物。 

Claims (12)

1.一种声音合成装置,其特征在于:
具有:
分析在用户环境中正再现的音乐信号并决定适合该音乐信号分析结果的发声形式的发声形式选择部;和
根据上述发声形式合成声音的声音合成部,
所述发声形式选择部按照在用户环境中正再现的音乐自动选择发声形式,
所述声音合成装置还具有从将音乐和该音乐的属性相关联地记忆的音乐属性信息记忆部,检索与上述在用户环境中正再现的音乐信号的分析结果相对应的数据,推断上述在用户环境中正再现的音乐信号的属性的音乐属性信息检索部,
上述发声形式选择部,通过选择与上述在用户环境中正再现的音乐信号的属性相对应的发声形式,来决定适合上述音乐信号的分析结果的发声形式。
2.根据权利要求1所述的声音合成装置,其特征在于:
上述声音合成部具有:
根据适合上述音乐信号的分析结果的发声形式产生韵律信息的韵律生成部;和
根据适合上述音乐信号的分析结果的发声形式选择单位波形的单位波形选择部。
3.根据权利要求1所述的声音合成装置,其特征在于:
上述声音合成部具有:
记忆每个发声形式的韵律生成规则的韵律生成规则记忆部;
按每个发声形式记忆单位波形的单位波形记忆部;
参照根据适合上述音乐信号的分析结果的发声形式所选择的韵律生成规则,根据发音符号串产生韵律信息的韵律生成部;
从单位波形记忆部中所记忆的单位波形中选择对应上述发音符号串和上述韵律信息的单位波形的单位波形选择部;和
根据上述韵律信息合成上述单位波形而产生合成声音波形的波形生成部。
4.根据权利要求1至3的任一个所述的声音合成装置,其特征在于:
具有分析上述音乐信号并推断上述音乐属于的音乐类型的音乐类型推断部,
上述发声形式选择部,通过选择与上述音乐类型相对应的发声形式,来决定适合上述音乐信号的分析结果的发声形式。
5.根据权利要求3所述的声音合成装置,其特征在于:
还具有按照上述音乐信号的功率,对根据适合上述音乐信号的分析结果的发声形式所产生的上述合成声音波形的功率进行调整的合成声音功率调整部。
6.根据权利要求3所述的声音合成装置,其特征在于:
还具有:
分析上述音乐信号而求出音乐信号功率的音乐信号功率计算部;和
分析上述合成声音波形而求出合成声音的功率的合成声音功率计算部;和
参照预先按每个发声形式设定的上述音乐信号的功率和上述合成声音的功率的比率,从而按照上述音乐信号的功率,对根据适合上述音乐信号的分析结果的发声形式所产生的上述合成声音波形的功率进行调整的合成声音功率调整部。
7.一种声音合成方法,使用声音合成装置而产生合成声音,包括:
上述声音合成装置分析在用户环境中正再现的音乐信号,决定适合该音乐信号分析结果的发声形式的步骤;和
上述声音合成装置根据上述发声形式合成声音的步骤;
还包括:上述声音合成装置从将音乐和该音乐的属性相关联地记忆的音乐属性信息记忆部,检索与上述在用户环境中正再现的音乐信号的分析结果相对应的数据,并对上述在用户环境中正再现的音乐信号的属性进行推断的步骤,
通过选择与上述在用户环境中正再现的音乐信号的属性相对应的发声形式,来决定适合上述音乐信号的分析结果的发声形式。
8.根据权利要求7所述的声音合成方法,其特征在于:
还包括上述声音合成装置根据适合上述音乐信号的分析结果的发声形式产生韵律信息的步骤;和
上述声音合成装置根据适合上述音乐信号的分析结果的发声形式选择单位波形的步骤,
上述声音合成装置采用上述韵律信息和上述单位波形合成声音。
9.根据权利要求7所述的声音合成方法,其特征在于:
上述声音合成装置根据适合上述音乐信号的分析结果的发声形式合成声音的步骤,含有,
上述声音合成装置参照从韵律生成规则记忆部中所记忆的韵律生成规则中按照适合上述音乐信号的分析结果的发声形式所选择的韵律生成规则,根据发音符号串产生韵律信息的步骤;和
上述声音合成装置从按适合上述音乐信号的分析结果的发声形式所准备的单位波形中,选择与上述发音符号串和上述韵律信息相对应的单位波形的步骤;和
上述声音合成装置根据上述韵律信息合成上述单位波形并产生合成声音波形的步骤。
10.根据权利要求7至9的任一个所述的声音合成方法,其特征在于:
还包括:上述声音合成装置分析上述音乐信号并推断该音乐属于的音乐类型的步骤,
上述声音合成装置通过选择与上述音乐类型相对应的发声形式,来决定适合上述音乐信号的分析结果的发声形式。
11.根据权利要求9所述的声音合成方法,其特征在于,还包括:
上述声音合成装置对根据适合上述音乐信号的分析结果的发声形式所产生的上述合成声音波形的功率按照上述音乐信号的功率进行调整的步骤。
12.根据权利要求9所述的声音合成方法,其特征在于,还包括:
上述声音合成装置分析上述音乐信号并求出音乐信号功率的步骤;
上述声音合成装置分析上述合成声音波形并求出合成声音功率的步骤;和
上述声音合成装置参照预先按发声形式所设定的上述音乐信号的功率和上述合成声音的功率的比率,对根据适合上述音乐信号的分析结果的发声形式所产生的上述合成声音波形的功率按照上述音乐信号的功率进行调整的步骤。
CN2007800048865A 2006-02-08 2007-02-01 声音合成装置、声音合成方法 Expired - Fee Related CN101379549B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006031442 2006-02-08
JP031442/2006 2006-02-08
PCT/JP2007/051669 WO2007091475A1 (ja) 2006-02-08 2007-02-01 音声合成装置、音声合成方法及びプログラム

Publications (2)

Publication Number Publication Date
CN101379549A CN101379549A (zh) 2009-03-04
CN101379549B true CN101379549B (zh) 2011-11-23

Family

ID=38345078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800048865A Expired - Fee Related CN101379549B (zh) 2006-02-08 2007-02-01 声音合成装置、声音合成方法

Country Status (4)

Country Link
US (1) US8209180B2 (zh)
JP (1) JP5277634B2 (zh)
CN (1) CN101379549B (zh)
WO (1) WO2007091475A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009139022A1 (ja) * 2008-05-15 2009-11-19 パイオニア株式会社 音声出力装置およびプログラム
US20130030789A1 (en) * 2011-07-29 2013-01-31 Reginald Dalce Universal Language Translator
US9959342B2 (en) * 2016-06-28 2018-05-01 Microsoft Technology Licensing, Llc Audio augmented reality system
CN109643541A (zh) * 2016-08-09 2019-04-16 索尼公司 信息处理装置和信息处理方法
US11138991B2 (en) 2017-05-16 2021-10-05 Sony Corporation Information processing apparatus and information processing method
EP3506255A1 (en) 2017-12-28 2019-07-03 Spotify AB Voice feedback for user interface of media playback device
JP7128222B2 (ja) * 2019-10-28 2022-08-30 ネイバー コーポレーション 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム
CN112735454A (zh) * 2020-12-30 2021-04-30 北京大米科技有限公司 音频处理方法、装置、电子设备和可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1061863A (zh) * 1991-11-05 1992-06-10 湘潭市新产品开发研究所 声控自动伴奏机
US5463713A (en) * 1991-05-07 1995-10-31 Kabushiki Kaisha Meidensha Synthesis of speech from text

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05307395A (ja) 1992-04-30 1993-11-19 Sony Corp 音声合成装置
JPH0837700A (ja) 1994-07-21 1996-02-06 Kenwood Corp 音場補正回路
JPH08328576A (ja) 1995-05-30 1996-12-13 Nec Corp 音声案内装置
JPH1020885A (ja) 1996-07-01 1998-01-23 Fujitsu Ltd 音声合成装置
JP3578598B2 (ja) 1997-06-23 2004-10-20 株式会社リコー 音声合成装置
JPH1115488A (ja) 1997-06-24 1999-01-22 Hitachi Ltd 合成音声評価・合成装置
JPH11161298A (ja) 1997-11-28 1999-06-18 Toshiba Corp 音声合成方法及び装置
ATE472193T1 (de) * 1998-04-14 2010-07-15 Hearing Enhancement Co Llc Vom benutzer einstellbare lautstärkensteuerung zur höranpassung
US6446040B1 (en) * 1998-06-17 2002-09-03 Yahoo! Inc. Intelligent text-to-speech synthesis
JP2000105595A (ja) * 1998-09-30 2000-04-11 Victor Co Of Japan Ltd 歌唱装置及び記録媒体
JP2001309498A (ja) 2000-04-25 2001-11-02 Alpine Electronics Inc 音声制御装置
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US6731307B1 (en) 2000-10-30 2004-05-04 Koninklije Philips Electronics N.V. User interface/entertainment device that simulates personal interaction and responds to user's mental state and/or personality
US6915261B2 (en) * 2001-03-16 2005-07-05 Intel Corporation Matching a synthetic disc jockey's voice characteristics to the sound characteristics of audio programs
US7203647B2 (en) * 2001-08-21 2007-04-10 Canon Kabushiki Kaisha Speech output apparatus, speech output method, and program
JP2003058198A (ja) 2001-08-21 2003-02-28 Canon Inc 音声出力装置、音声出力方法、及び、プログラム
JP2004205605A (ja) * 2002-12-24 2004-07-22 Yamaha Corp 音声および楽曲再生装置およびシーケンスデータフォーマット
JP2004361874A (ja) 2003-06-09 2004-12-24 Sanyo Electric Co Ltd 音楽再生装置
JP4225167B2 (ja) 2003-08-29 2009-02-18 ブラザー工業株式会社 音声合成装置、音声合成方法、及び音声合成プログラム
JP2007086316A (ja) * 2005-09-21 2007-04-05 Mitsubishi Electric Corp 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体
US9042921B2 (en) * 2005-09-21 2015-05-26 Buckyball Mobile Inc. Association of context data with a voice-message component
US7684991B2 (en) * 2006-01-05 2010-03-23 Alpine Electronics, Inc. Digital audio file search method and apparatus using text-to-speech processing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5463713A (en) * 1991-05-07 1995-10-31 Kabushiki Kaisha Meidensha Synthesis of speech from text
CN1061863A (zh) * 1991-11-05 1992-06-10 湘潭市新产品开发研究所 声控自动伴奏机

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
JP特开2003-58198A 2003.02.28
JP特开2004-361874A 2004.12.24
JP特开2005-77663A 2005.03.24
JP特开平11-15495A 1999.01.22
JP特开平8-37700A 1996.02.06
JP特表2003-524906A 2003.08.19
JP特表2004-513445A 2004.04.30
Kyu-Phil Han et al.GENRE CLASSIFICATION SYSTEM OF TV SOUND SIGNALS BASED ON A SPECTROGRAM ANALYSIS.《IEEE Transactions on Consumer Electronics》.1998,第44卷(第1期),第33-42页. *

Also Published As

Publication number Publication date
US8209180B2 (en) 2012-06-26
WO2007091475A1 (ja) 2007-08-16
JPWO2007091475A1 (ja) 2009-07-02
US20100145706A1 (en) 2010-06-10
CN101379549A (zh) 2009-03-04
JP5277634B2 (ja) 2013-08-28

Similar Documents

Publication Publication Date Title
CN101379549B (zh) 声音合成装置、声音合成方法
JP3381074B2 (ja) 音響構成装置
KR101274961B1 (ko) 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템
EP1736961B1 (en) System and method for automatic creation of digitally enhanced ringtones for cellphones
US7737354B2 (en) Creating music via concatenative synthesis
CN101996627B (zh) 语音处理装置、语音处理方法和程序
CN102881283B (zh) 用于语音处理的方法与系统
CN110211556B (zh) 音乐文件的处理方法、装置、终端及存储介质
RU2003129075A (ru) Способ и система динамической адаптации синтезатора речи для повышения разборчивости синтезтруемой им речи
JP2008096483A (ja) 音響出力制御装置、音響出力制御方法
CN110459196A (zh) 一种调整歌曲演唱难度的方法、装置及系统
CN113691909B (zh) 具有音频处理推荐的数字音频工作站
WO2018230670A1 (ja) 歌唱音声の出力方法及び音声応答システム
CN112289300B (zh) 音频处理方法、装置及电子设备和计算机可读存储介质
US20200105244A1 (en) Singing voice synthesis method and singing voice synthesis system
Tzanetakis Song-specific bootstrapping of singing voice structure
CN101930732B (zh) 基于用户输入语音的乐曲生成方法及装置、智能终端
WO2014142200A1 (ja) 音声処理装置
CN105976802A (zh) 基于机器学习技术的音乐自动生成系统
CN113781989A (zh) 一种音频的动画播放、节奏卡点识别方法及相关装置
CN113936629A (zh) 音乐文件处理方法和装置、音乐演唱设备
CN114743526A (zh) 音频调整方法、计算机设备和计算机程序产品
KR100468971B1 (ko) 멜로디 기반 검색이 가능한 음악 재생장치
JPH1115488A (ja) 合成音声評価・合成装置
Jayasinghe Machine Singing Generation Through Deep Learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111123

Termination date: 20160201

CF01 Termination of patent right due to non-payment of annual fee