CN106611595A - 用于将文本转换为语音的电子装置和方法 - Google Patents
用于将文本转换为语音的电子装置和方法 Download PDFInfo
- Publication number
- CN106611595A CN106611595A CN201610902916.5A CN201610902916A CN106611595A CN 106611595 A CN106611595 A CN 106611595A CN 201610902916 A CN201610902916 A CN 201610902916A CN 106611595 A CN106611595 A CN 106611595A
- Authority
- CN
- China
- Prior art keywords
- acoustic data
- data set
- super
- information
- electronic installation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 46
- 230000001131 transforming effect Effects 0.000 title 1
- 238000009434 installation Methods 0.000 claims description 180
- 238000001228 spectrum Methods 0.000 claims description 34
- 238000003066 decision tree Methods 0.000 description 44
- 230000006870 function Effects 0.000 description 43
- 238000004891 communication Methods 0.000 description 33
- 238000010586 diagram Methods 0.000 description 17
- 238000007726 management method Methods 0.000 description 13
- 238000003860 storage Methods 0.000 description 13
- 230000001413 cellular effect Effects 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 241001269238 Data Species 0.000 description 8
- 230000005611 electricity Effects 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000000712 assembly Effects 0.000 description 4
- 238000000429 assembly Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 239000012141 concentrate Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 2
- 238000002591 computed tomography Methods 0.000 description 2
- 239000004020 conductor Substances 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 241000256844 Apis mellifera Species 0.000 description 1
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 235000008429 bread Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 238000001646 magnetic resonance method Methods 0.000 description 1
- 230000010358 mechanical oscillation Effects 0.000 description 1
- 238000004377 microelectronic Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 229910052724 xenon Inorganic materials 0.000 description 1
- FHNFHKCVQCLJFQ-UHFFFAOYSA-N xenon atom Chemical compound [Xe] FHNFHKCVQCLJFQ-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
- G10L13/0335—Pitch control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
Abstract
一种用于将文本转换为语音的电子装置和方法。电子装置包括处理器和与处理器电连接的存储器。存储器存储超级群集型通用声学数据集和使处理器执行以下操作的指令:获取至少一个文本,选择与获取的文本被转换成的语音相关联的信息,当所选择的信息是第一信息时,选择第一路径中的至少一条第一路径,基于所选择的第一路径来加载所述超级群集型通用声学数据集中的元素,并基于所述超级群集型通用声学数据集中的所述元素来产生第一声学信号,当所选择的信息是第二信息时,选择第二路径中的至少一条第二路径,基于所述至少一条的第二路径来加载所述超级群集型通用声学数据集中的元素,并基于所述超级群集型通用数据集中的所述元素来产生第二声学信号。
Description
技术领域
本公开涉及一种执行基于参数的文本到语音(TTS)的电子装置。更具体地,本公开涉及一种利用支持多语言/说话人的超级群集型通用声学数据集的使用所述超级群集型通用声学数据集来执行TTS转换的电子装置及其转换TTS的方法。
背景技术
基于参数的文本到语音(TTS)转换可具有语言处理器和针对每种语言的语音数据,基于输入句子的句子分析结果选择合适的语音数据,并基于其连接和转换产生合成声音。由于TTS转换不接收语音作为输入(如编解码器(CODEC)),而接收文本作为输入,因此可首先执行以下处理:估计适合于文本的语音数据并以声学模形的形式存储估计出的语音数据。基于参数的TTS可具有针对每种语言和每个说话人的声学模型,每个声学模型的大小大约为5MB。
在提供针对多语言的TTS商业服务的情况下,随着服务语言的数量和支持说话人的语言的数量的增加,针对某类语言或某类说话人的声学模型的语音数据随之增加,因此可能出现电子装置容量负担增加的问题。此外,基于决策树的声学模型可在音素单元被划分的细分音素单元中大量产生代表声学数据的叶节点,细分音素单元中的声学信号不易被人耳区分。在异质语言和说话人间可显著地出现具有相似形式的叶节点被大量产生的现象,这会导致在由语言和说话人划分并存储的声学模型本身包括高冗余的问题。
上述信息仅作为背景信息被呈现以帮助理解本公开。至于上述信息中的任何信息是否可用作针对本公开的现有技术,尚未做出决定,也未做出断定。
发明内容
本公开的多个方面在于至少解决上述问题和/或缺点并且至少提供以下描述的优点。因此,本公开的一方面提供用于将文本转换到语音(TTS)的方法和设备,所述方法和设备可配置由多语言/说话人共享的超级群集型通用声学数据(SCCAD),并通过基于支持多语言/说话人的超级群集型通用声学数据执行基于参数的TTS转换以大大降低容量。
根据本公开的一方面,提供了一种电子装置。所述电子装置包括:处理器;存储器,与处理器电连接,其中,存储器被配置为存储超级群集型通用声学数据集,其中,存储器还被配置为存储使处理器能够执行以下操作的指令:获取至少一个文本、选择与所获取的文本被转换成的语音相关联的信息,当所选择的信息是第一信息时,选择多条第一路径中的至少一条第一路径,基于所选择的至少一条第一路径来加载所述超级群集型通用声学数据集的至少一个元素,并基于加载的所述超级群集型通用声学数据集的所述至少一个元素来产生第一声学信号,当所选择的信息是第二信息时,选择多条第二路径中的至少一条第二路径,基于所选择的至少一条第二路径来加载所述超级群集型通用声学数据集的至少一个元素或至少一个其它元素,并基于加载的所述超级群集型通用声学数据集的所述至少一个元素或所述至少一个其它元素来产生第二声学信号。
根据本公开的另一方面,提供了一种电子装置。所述电子装置包括:处理器;存储器,与处理器电连接,其中,存储器被配置为存储使处理器能够执行以下操作的指令:获取与关于语音的第一信息相应的第一声学数据集和与关于所述语音的第二信息相应的第二声学数据集;确定第一声学数据集的至少一个元素和/或第二声学数据集的至少一个元素之间的相似度;基于所述被确定来产生与第一声学数据集的所述至少一个元素和/或第二声学数据集的所述至少一个元素相关联的超级群集型通用声学数据集。
根据本发明的另一方面,提供了一种电子装置的转换TTS的方法。所述方法包括:获取至少一个文本,选择与获取的文本被转换成的语音相关联的信息,当所选择的信息是第一信息时,选择多条第一路径中的至少一条第一路径,基于所选择的至少一条第一路径来加载所述超级群集型通用声学数据集的至少一个元素,并基于加载的所述超级群集型通用声学数据集的所述至少一个元素来产生第一声学信号,当所选择的信息是第二信息时,选择多条第二路径中的至少一条第二路径,基于所选择的至少一条第二路径来加载所述超级群集型通用声学数据集的至少一个元素或至少一个其它元素,基于加载的所述超级群集型通用声学信号集的所述至少一个元素或所述至少一个其它元素来产生第二声学信号。
根据本发明的另一方面,提供了一种电子装置的转换TTS的方法。所述方法包括:获取与关于至少一个文本被转换成的语音的第一信息相应的第一声学数据集和/或与关于所述语音的第二信息相应的第二声学数据集,确定第一声学数据集的至少一个元素和/或第二声学数据集的至少一个元素之间的相似度;基于所述确定来产生与第一声学数据集的所述至少一个元素和/或第二声学数据集的所述至少一个元素相应的超级群集型通用声学数据集。
根据本公开的各种实施例,所述电子装置可基于一个支持多语言/说话人的超级群集型通用声学数据集来执行TTS转换,从而减少了存储多个声学数据集所需的存储空间。
根据本公开的各种实施例,当针对新的语言或说话人的声学模型被额外安装在所述电子装置中时,所述电子装置仅下载针对已产生的超级群集型通用声学数据集的额外声学模型的链接器,从而减少了所述电子装置的数据传输所需的负担。
从以下的结合附图公开本公开的各种实施例的详细描述,对于本领域技术人员而言,本公开的其它方面、优点和显著特征将变得清楚。
附图说明
从以下结合附图的描述,本公开的特定实施例的以上和其它方面、特征和优点将更容易理解,其中,在附图中:
图1是示出根据本公开的实施例的包括电子装置的网络环境的示图;
图2是根据本公开的各种实施例的电子装置的框图;
图3是根据本公开的各种实施例的编程模块的框图;
图4是示出根据本公开的各种实施例的电子装置选择关于文本将被转换成的语音的信息并基于所选择的信息来产生声学信号的操作的流程图;
图5是示出根据本公开的各种实施例的电子装置将声学数据集的至少一条路径映射到超级群集型通用声学数据集的至少一部分的操作的示图;
图6是示出根据本公开的各种实施例的电子装置产生超级群集型通用声学数据的操作的流程图;
图7A是示出根据本公开的各种实施例的电子装置确定第一声学数据集的至少一部分和第二声学数据集的至少一部分之间的相似度并基于对相似度的确定来产生超级群集型通用声学数据集的操作的示图:
图7B是示出根据本公开的各种实施例的电子装置在收集至少一个声学数据集的完全声学数据集中执行群集算法的操作的示图;
图8是示出根据本公开的各种实施例的电子装置产生超级群集型通用声学数据集并将特定声学数据的多个路径匹配到超级群集型通用声学数据集的操作的示图;
图9是根据本公开的各种实施例的第一电子装置的框图和第二电子装置的框图。
在所有图中,相同的标号将被理解为相同的部分、组件和结构。
具体实施方式
参照附图的以下描述被提供以有助于全面理解由权利要求和它们的等同物所限定的本公开的各种实施例。所述描述包括各种具体细节来帮助理解,但这些将仅被视为示例性的。因此,本领域普通技术人员将认识到:在不脱离本公开的范围和精神的情况下,可对在此描述的各种实施例做出各种改变和修改。此外,为了清晰及简明,可省略对公知的功能和结构的描述。
在以下描述和权利要求中所使用的术语和词汇不限于书面的含义,而是仅被发明者使用以使本公开能够被清楚和一致地理解。因此,对于本领域技术人员而言应该清楚的是:提供本公开的各种实施例的以下描述仅用于说明目的,而并非为了限制由权利要求及其等同物所限定的本公开的目的。
应该理解:除非上下文清楚地另有指示,否则单数形式包括复数指示物。因此,例如,提到“组件表面”包括提到一个或更多个这样的表面。
这里使用的表述“具有”、“可具有”、“包括”或“可包括”指示相应的特征(例如,数值、功能、操作或构成元件(诸如组件))的存在,并且不排除存在一个或更多个额外的特征。
在本公开,表述“A或B”、“A和/或B中的至少一个”或“A和/或B中的一个或更多个”可包括所列出项的所有可能的组合。例如,表述“A或B”、“A和B中的至少一个”或“A或B中的一个或更多个”指下列所有情况:(1)包括至少一个A(2)包括至少一个B、或(3)包括至少一个A和至少一个B两者。
在本公开的各种实施例中使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种组件而不考虑顺序和/或重要性,并且不限制相应组件。例如,第一用户装置和第二用户装置指示不同的用户装置,虽然它们二者都是用户装置。例如,在不脱离本公开的范围的情况下,第一元件可被称为第二元件,类似地,第二元件可被称为第一元件。
应该被理解的是当一元件(例如,第一元件)被描述为(以操作方式或通信方式)“连接”或“耦合”到另一元件(例如,第二元件)时,该元件可直接连接或直接耦合到所述另一元件,或者任何其他元件(例如,第三元件)可以是它们之间的中介层。相反地,应该理解的是当一元件(例如,第一元件)被描述为“直接连接”或“直接耦合”到另一元件(第二元件)时,在该元件和所述另一元件之间不存在元件(例如,第三元件)。
在本公开中使用的表述“被配置为”可根据情况与例如“适合于”、“具有……的能力”、“被设计为”、“适应于”、“被制造为”或“能够”进行替换。术语“被配置为”可不一定表示在硬件中“被专门设计为”。可选地,在一些情况下,表述“被配置为...的装置”可表示该装置可与其他装置或组件一起“能够…”。例如,短语“适用于(或配置)为执行A、B和C的处理器”可表示仅用于执行相应操作的专用处理器(诸如,嵌入式处理器)或可通过执行存储在存储器装置的一个或更多个软件程序来执行相应操作的通用处理器(诸如,中央处理器(CPU)或应用处理器(AP))。
除非另有定义,否则在此使用的所有术语(包括技术术语和科学术语)具有与本领域技术人员通常理解的含义相同的含义。如在通常使用的字典中定义的这样的术语被认为具有与相关领域的上下文的含义相同的含义,并且除非在本公开被清楚地定义,否则将不被理解为理想的或过于正式的含义。在某些情况下,在本公开定义的术语不能被理解为排除本公开的实施例。
在本公开,电子装置可以是包含通信功能的装置。例如,电子装置可以是智能电话、平板个人电脑(PC)、移动电话、视频电话、电子书阅读器、台式PC、膝上型PC、上网本计算机、个人数字助理(PDA)、便携式多媒体播放器(PMP)、运动图像专家组1期或2期(MPEG-1或MPEG-2)音频层3(MP3)播放器、便携式医疗装置、数码相机或者可穿戴装置(例如,诸如电子眼镜的头戴式装置(HMD)、电子服装、电子手镯、电子项链、电子配件、电子纹身、智能镜子或智能手表)。
根据一些实施例,电子装置可以是包含通信功能的智能家用电器。例如,电子装置可以是电视(TV)、数字通用盘(DVD)播放器、音频设备、冰箱、空调、吸尘器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、TV盒(例如,Samsung HomeSyncTM,Apple TVTM,Google TVTM,等等)、游戏机、电子词典、电子钥匙、摄像机或电子相框。
根据另一实施例,电子装置包括下列项中的至少一项:各种医疗装置(例如,各种便携式医疗测量装置(血糖监测装置、心率监测装置、血压测量装置、体温测量装置等)、磁共振血管造影(MRA)、磁共振成像(MRI)、计算机断层扫描(CT)机和超声波机)、导航装置、全球定位系统(GPS)接收器,事件数据记录器(EDR)、飞行数据记录器(FDR)、车载信息娱乐装置、船用电子装置(例如,船用导航装置和陀螺罗盘)、航空电子设备、安全装置、汽车头单元、家用或工业用的机器人、银行里的自动取款机(ATM)、商店里的销售点(POS)或物联网装置(例如,灯泡、各种传感器、电子或燃气表,自动喷水灭火装置、火灾报警、自动调温器、路灯、烤面包机、体育用品、热水箱、加热器、锅炉等)
根据一些实施例,电子装置可以是具有通信功能的家具或者建筑或结构的一部分、电子板、电子签名接收装置、投影仪、或各种测量仪器(例如,水表、电表、煤气表、测波表等等)。这里公开的电子装置可以是上述装置或其任何组合之一。
在下文中,将参照附图描述根据各种实施例的电子装置。在此使用的术语“用户”可指使用电子装置的人、使用电子装置的装置(例如,人工智能电子装置)。
图1示出根据本公开的各种实施例的包括电子装置的网络环境。
参照图1,在网络环境100中的电子装置101包括:总线110、处理器120、存储器130、输入/输出接口150、显示器160和通信接口170。根据一些实施例,电子装置101可省略至少一个组件或还包括另一组件。
总线110可以是连接上述组件并在上述组件之间传输信息(例如,控制消息)的电路。
处理器120可包括CPU、AP或通信处理器(CP)中的一个或更多个。例如,处理器120可控制电子装置101的至少一个组件和/或执行与通信或数据处理相关的计算。
存储器130可包括易失性存储器和/或非易失性存储器。例如,存储器130可存储与电子装置101的至少一个组件相关的命令或数据。根据一些实施例,存储器可存储软件和/或程序140。例如,程序140可包括:内核141、中间件143、应用编程接口(API)145和/或应用147等。内核141、中间件143和API 145的至少一部分被定义为操作系统(OS)。
内核141控制或管理系统资源(例如,总线110、处理器120或存储器130),其中,所述系统资源用于执行由其余的其他程序(例如,中间件143、API 145或应用147)实现的操作或功能。此外,内核141提供用于从中间件143、API 145或应用147访问电子装置101的各个组件的接口以控制或管理所述组件。
中间件143执行使API 145或应用147能够与内核141通信以交换数据的中继功能。此外,在从应用147接收的操作请求中,中间件143通过使用将优先级分配给应用147的方法执行针对操作请求(例如,调度和负载平衡)的控制,其中,电子装置的系统资源(例如,总线110、处理器120、存储器130等)可根据优先级被使用。
API 145是这样的接口:应用147通过该接口可控制由内核141或中间件142提供的功能,并且API 145包括例如用于文件控制、窗口控制、图像处理或字符控制的至少一个接口或功能(例如,命令)。
输入/输出接口150可以是用于将由用户或另一外部装置输入的命令或数据发送到电子装置101的另一组件(另一些组件)的接口。此外,输入/输出接口150可将从电子装置的另一组件(另一些组件)接收的命令或数据输出到用户或其他外部装置。
显示器160可包括:例如,液晶显示器(LCD)、发光二极管(LED)、有机LED(OLED)、微电子机械系统(MEMS)显示器或电子纸显示器。显示器160可向用户显示例如各种内容(文本、图像、视频、图标或符号等)。显示器160可包括触摸屏,并可接收使用用户身体部位进行的触摸输入、手势输入、接近输入或悬停输入。
通信接口170可建立电子装置101和外部装置(例如,第一外部装置102、第二外部装置104或服务器106)的通信。例如,通信接口170可通过无线通信或有线通信与网络162连接,并与外部装置(例如,第二外部装置104或服务器106)通信。
无线通信使用以下项的至少一项作为蜂窝通信协议:例如,长期演进(LTE)、先进LTE(LTE-A)、码分多址(CDMA)、宽带CDMA(WCDMA)、通用移动电信系统(UMTS)、无线宽带(WiBro)、全球移动通信系统(GSM)等。短距离通信164包括:例如,Wi-Fi、蓝牙(BT)、近场通信(NFC)、磁性安全传输或近场磁数据带传动(MST)和全球导航卫星系统(GNSS)等的至少一个。
MST模块能够使用电磁信号产生与传输数据相应的脉冲,从而脉冲能够产生磁场信号。电子装置101将磁场信号发送到POS终端(读取器)。POS终端(读取器)通过MST读取器检测磁场信号,将检测到的磁场信号转换为电信号,从而恢复数据。
GNSS包括:例如,GPS、全球导航卫星系统(格洛纳斯)、北斗导航卫星系统(下文称“北斗”)和伽利略(欧洲的基于全球卫星的导航系统)。在下文中,本公开中的“GPS”可与“GNSS”可互换使用。有线通信可包括:例如,通用串行总线(USB)、高清多媒体接口(HDMI)、推荐标准-232(RS-232)、普通老式电话服务(POTS)等中的至少一个。网络162可包括电信网络,例如,计算机网络(例如,局域网(LAN)或无线区域网(WAN))、互联网和电话网络中的至少一个。
第一外部装置102和第二外部装置104中的每个外部装置可以是与电子装置101相同类型或不同类型的电子装置。根据一些实施例,服务器106可包括一个或更多个服务器群。根据各种实施例,由电子装置执行的执行的至少一部分可由一个或更多个电子装置(例如,外部电子装置102、104或服务器106)执行。根据一些实施例,当电子装置101应自动执行功能或服务时,电子装置101可向其他装置(例如,外部电子装置102、104或服务器106)请求执行至少一个功能。针对上述情况,可使用例如云计算技术、分布式计算技术或客户端-服务器计算技术。
图2示出根据本公开的实施例的电子装置的框图。
参照图2,电子装置201可配置例如图1所示的电子装置101的全部或一部分。电子装置201包括一个或更多个AP 210、通信模块220、用户识别模块(SIM)卡224、存储器230、传感器模块240、输入装置250、显示器260、接口270、音频模块280、相机模块291、电源管理模块295、电池296、指示器297和电机298。
AP 210操作OS或应用程序以控制与AP 210连接的多个硬件或软件组件元件,并执行包括多媒体数据的各种数据处理和计算。AP 210可由例如片上系统(SoC)被实现。根据实施例,处理器210可还包括图形处理单元(GPU)和/或图像信号处理器。AP 210可包括图2示出的组件(例如,蜂窝模块221)的至少一部分。AP 210可加载从至少一个另外组件(例如,非易失性存储器)接收的命令或数据,将各种数据存储在易失性存储器中。
通信模块220可包括与图1的通信接口170相同或相似的组件。通信模块220可包括:例如,蜂窝模块221、Wi-Fi模块223、BT模块225、GPS模块227、NFC模块228和射频(RF)模块229。
蜂窝模块221可通过通信网络(例如,LTE、LTE-A、CDMA、WCDMA、UMTS、WiBro、GSM等)提供语音、呼叫、视频呼叫、短消息服务(SMS)或互联网服务。此外,蜂窝模块221可通过使用SIM(例如,SIM卡224)对通信网络中的电子装置进行区分和验证。根据实施例,蜂窝模块221执行可由AP 210提供的功能中的至少一些功能。例如,蜂窝模块221可执行多媒体控制功能中的至少一些功能。根据实施例,蜂窝模块221可包括CP。
Wi-Fi模块223、BT模块225、GPS模块227和NFC模块228中的每一个模块可包括:例如,用于处理通过相应模块发送/接收的数据的处理器。根据一个实施例,虽然蜂窝模块221、Wi-Fi模块223、BT模块225,GPS模块227和NFC模块228是单独的模块,但是蜂窝模块221、Wi-Fi模块223、BT模块225,GPS模块227和NFC模块228中的至少一些(例如,两个或两个以上)可被包括在一个集成芯片(IC)或一个IC封装中。例如,与蜂窝模块221、Wi-Fi模块223、BT模块225、GPS模块227和NFC模块228相应的处理器中的至少一些处理器(例如,与蜂窝模块221相应的CP和与Wi-Fi模块223相应的Wi-Fi处理器)可由一个SoC来实现。
RF模块229发送/接收数据(例如,RF信号)。尽管没被示出,RF模块229可包括:例如,收发器、功率放大器模块(PAM)、频率滤波器、低噪声放大器(LNA)等。此外,RF模块229还可包括用于在无线通信的自由空间中发送/接收电磁波的组件,例如,导体、导体线等。虽然蜂窝模块221、Wi-Fi模块223、BT模块225、GPS模块227和NFC模块228共享一个RF模块229,但是根据一个实施例,蜂窝模块221、Wi-Fi模块223、BT模块225、GPS模块227和NFC模块228中的至少一个模块可通过单独的RF模块发射/接收RF信号。
SIM卡224是包括SIM的卡,并可被插入电子装置的特定位置处形成的插槽中。SIM卡224包括唯一的识别信息(例如,IC卡标识符(ICCID))或用户信息(例如,国际移动用户身份(IMSI))。
存储器230(例如,存储器130)可包括内部存储器232或外部存储器234。内部存储器232可包括以下项中的至少一个:例如,易失性存储器(例如,随机存取存储器(RAM)、动态RAM(DRAM)、静态RAM(SRAM)、同步动态RAM(SDRAM)等)和非易失性存储器(例如,只读存储器(ROM)、一次可编程ROM(OTPROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、掩膜ROM、闪存ROM、与非(NAND)闪存、或非(NOR)闪存等)。
根据实施例,内部存储器232可以是固态硬盘(SSD)。外部存储器234还可包括闪存驱动器,例如,紧凑型闪存(CF)、安全数字(SD)、微型SD、迷你SD、极速数字(xD)或记忆棒。外部存储器234可通过各种接口功能性地连接到电子装置201。根据实施例,电子装置201还可包括诸如硬盘驱动器的存储装置(或存储介质)。
在执行时,根据本公开的各种实施例的存储器230可存储这样的指令:该指令使处理器210能够执行以下操作:获取至少一个文本,选择与获取的文本被转换成的语音关联的信息,当被选择的信息是第一信息时,选择多条第一路径中的至少一条第一路径,基于被选择的至少一条第一路径来加载超级群集型通用声学数据集中的一部分,并基于加载的一部分超级群集型通用声学数据集来产生第一声学信号,当被选择的信息是第二信息时,选择多条第二路径中的至少一条第二路径,基于被选择的至少一条第二路径来加载所述超级群集型通用声学数据集中的一部分或另外一部分,并基于被加载的一部分或另外一部分超级群集型通用声学数据集来产生第二声学信号。
在执行时,根据本公开的各种实施例的存储器230可存储这样的指令:该指令使处理器210能够执行以下操作:从用户获取至少一个文本或从外部装置接收包括至少一个文本的文本消息。
在执行时,根据本公开的各种实施例的存储器230可存储这样的指令:该指令使处理器210能够执行以下操作:基于输入的文本来选择超级群集型通用声学数据集中的一部分中的至少一部分,并基于超级群集型通用声学数据集中的一部分中的至少一部分来额外地产生第一声学信号或第二声学信号。
在执行时,根据本公开的各种实施例的存储器230可存储这样的指令:该指令使处理器210能够执行以下操作:获取与关于语音的第一信息相应的第一声学数据集和/或与关于语音的第二信息相应的第二声学数据集,确定第一声学数据集中的至少一些和/或第二声学数据集中的至少一些之间的相似度,并基于所述确定来产生与第一声学数据集中的至少一部分和/或第二声学数据集中的至少一部分关联的超级群集型通用声学数据集。
在执行时,根据本公开的各种实施例的存储器230可存储这样的指令:该指令使处理器210能够执行以下操作:基于所述确定,当相似度等于或大于被选择的阈值时,决定与第一声学数据集中的至少一部分和第二声学数据集中的至少一部分二者相应的第一参数,当相似度小于所述阈值时,决定与第一声学数据集中的至少一部分相应的第二参数和与第二声学数据集中的至少一部分相应的第三参数;并基于第一参数、第二参数或第三参数来产生超级群集型通用声学数据集。
根据本公开的各种实施例的存储器230可存储超级群集型通用声学数据集、关于至少一个决策树的信息和由决策树的索引指示的至少一个声学数据集。
传感器模块240可测量物理量或检测电子装置201的操作状态,并将测量或检测到的信息转换成电信号。传感器模块240可包括以下项中的至少一项:例如,手势传感器240A、陀螺仪传感器240B、大气压力(气压)传感器240C、磁传感器240D、加速度传感器240E、握持传感器240F、接近传感器240G、颜色传感器240H(例如,红绿蓝(RGB)传感器)、生物传感器240I、温度/湿度传感器240J、照度(光)传感器240K和紫外线(UV)传感器240M。另外地/可选地,传感器模块240可包括:例如,电子鼻传感器、肌电图(EMG)传感器、脑电图(EEG)传感器、心电图(ECG)传感器、红外(IR)传感器、虹膜传感器、指纹传感器(未示出)等。传感器模块240还可包括用于控制传感器模块140中所包括的一个或更多个传感器的控制电路。
输入装置250包括触摸面板252、(数字)笔传感器254、按键256和超声输入装置258。例如,触摸面板252可识别电容类型、电阻类型、红外类型和超声波类型中的至少一种类型的触摸输入。触摸面板252还可包括控制电路。在电容类型的情况下,触摸面板252除了可识别直接触摸之外还可识别接近触摸。触摸面板252还可包括触觉层。在这种情况下,触摸面板252可向用户提供触觉反应。
(数字)笔传感器254可使用例如与接收用户的触摸输入的方法相同或相似的方法来实现或通过使用单独的识别片来实现。例如,按键256可包括物理按钮、光学键或键盘。超声输入装置258是可通过由电子装置201的麦克风(例如,麦克风288)通过产生超声信号的输入工具检测超声波以识别数据并可执行无线识别的装置。根据实施例,电子装置201通过使用通信模块220从连接到电子装置201的外部装置(例如,计算机或服务器)接收用户输入。
显示器260(例如,显示器260)包括面板262、全息图装置264和投影仪266。面板262可以是例如LCD或有源矩阵OLED(AM-OLED)。面板262可被实现为例如柔性的、透明的或可穿戴的。面板262可用触摸面板252和一个模块来构造。全息图装置264通过使用光的干涉在空中显示立体图像。投影仪266将光投射到屏幕上以显示图像。例如,屏幕可位于电子装置201的内部或外部。根据本公开的实施例,显示器260还可包括用于控制面板262、全息图装置264和投影仪266的控制电路。
接口270包括:例如,HDMI 272、USB 274、光学接口276和D-超小型(D-sub)278。接口270可包括在例如在图1中示出的通信界面170中。另外地或可选地,接口270可包括:例如,移动高清晰链接(MHL)接口、SD卡/多媒体卡(MMC)或红外数据协会(IrDA)标准接口。
音频模块280可将声音和电信号双向转换。音频模块280的至少一些组件可被包括在例如在图1中示出的输入/输出接口150中。音频模块280对通过例如扬声器282、接收器284、耳机286、麦克风288等输入或输出的声音信息进行处理。
相机模块291是可拍摄静态图像和视频的装置。根据实施例,相机模块291可包括一个或更多个图像传感器(例如,前置传感器或后置传感器)、图像信号处理器(ISP)(未示出)或闪光灯(例如,LED或氙气灯)。
电源管理模块295管理电子装置201的电源。尽管未示出,但电源管理模块295可包括例如电源管理集成电路(PMIC)、充电器IC或电池或燃料表。
PMIC可被安装在例如集成电路或SoC半导体中。充电方法可被分为有线方法和无线方法。充电器IC对电池充电,并防止来自充电器的过电压或过电流。根据实施例,充电器IC包括用于有线充电方法和无线充电方法中的至少一种方法的充电器IC。无线充电方法包括例如磁共振方法、磁感应法和电磁波法,并可添加用于无线充电的附加电路(例如,诸如线圈回路、谐振电路或整流器的电路等)。
电池量表测量例如电池296的剩余电量或在充电期间的电压、电流和/或温度。电池296可存储电力或产生电力,并可通过使用存储或产生的电力对电子装置201供电。电池296可包括可再充电电池或太阳能电池。
指示器297显示电子装置201或电子装置201的一部分(例如,AP 210)的特定状态(例如,启动状态、消息状态、充电状态等)。电机298将电信号转换成机械振动。尽管未示出,但电子装置201可包括用于支持移动TV的处理单元(例如,GPU)。用于支持移动TV的处理单元可根据数字多媒体广播(DMB)、数字视频广播(DVB)或媒体流等的标准来对例如媒体数据进行处理。
根据本公开的各种实施例的电子装置的组件中的每个组件可用一个或更多个组件来实现,并且相应组件的名称可根据电子装置的种类而变化。根据本公开的各种实施例的电子装置可包括上述组件中的至少一个组件,可省略上述组件中的一些组件,或还可包括额外组件。此外,根据本公开的各种实施例的电子装置中的组件中一些组件被组合以形成单一的实体,因此可同等地执行相应组件在组合之前的功能。
图3是示出根据本公开的实施例的编程模块的框图。
参照图3,编程模块310可被包括在(例如,被存储在)电子设备101(例如,如图1中示出的存储器130)中。可由软件、固件、硬件和/或其中的两个或更多个的组合配置编程模块310的至少一部分(例如,程序140)。编程模块310可包括在硬件(例如,硬件200)中实现的用于控制关于电子装置(例如,电子装置101)的资源的OS和/或在OS上驱动的各种应用(例如,应用370)。例如,OS可以是Android、iOS、Windows、Symbian、Tizen、Bada等。参照图3,编程模块310可包括内核320、中间件330、API 360和应用370(例如,应用147)。编程模块310的至少一部分可被预加载在电子装置上或从服务器(例如,电子装置102、104和服务器106等)被下载。
内核320可像内核141一样,可包括系统资源管理器321和/或装置驱动器323。系统资源管理器321可包括:例如,进程管理器、存储器管理器和文件系统管理器。系统资源管理器321可控制、分配和/或收集系统资源。装置驱动器323可包括:例如,显示驱动器、机相驱动器、BT驱动器、共享存储器驱动器,USB驱动器、键盘驱动器、Wi-Fi驱动器和音频驱动器。此外,根据实施例,装置驱动器323可包括进程间通信(IPC)驱动器(未示出)。
中间件330可包括预先实现的用于提供由应用370常用的功能的多个模块。此外,中间件330可通过API 360提供这些功能,使得应用370可有效地使用电子设备内的有限的系统资源。例如,如图3所示,中间件330可包括以下项中的至少一项:运行时库335、应用管理器341、窗口管理器342、多媒体管理器343、资源管理器344、电源管理器345、数据库管理器346、包管理器347、连接管理器348、通知管理器349、位置管理器350、图形管理器351、安全管理器352和支付管理器354。
运行时库335可包括编译器在应用370中的一个应用被执行时用于通过编程语言添加新的功能的库模块。根据实施例,运行时库335可执行输入/输出、存储器管理和/或针对算术功能的功能。
应用管理器341可管理应用370中的至少一个应用的生命周期。窗口管理器342可管理由屏幕使用的图形用户界面(GUI)资源。多媒体管理器343可检测用于各种媒体文件的再现的格式,并可通过使用适合于相应格式的编解码器来执行对媒体文件的编码和/或解码。资源管理器344可管理资源(诸如,源代码、存储器和应用370中的至少一个应用的存储空间)。
电源管理器345可管理电池和/或电源,同时和基本输入/输出系统(BIOS)一起操作,并可提供用于操作的电源信息。数据库管理器346可管理将被应用370中的至少一个应用使用的数据库的生成、搜索和/或更改。软件包管理器347可管理以包文件的形式分布的应用的安装和/或更新。
例如,连接管理器348可管理诸如Wi-Fi或BT的无线连接。通知管理器349可以以不打扰用户的方式显示和/或通知事件(诸如,到来的消息、承诺或邻近通知等)。位置管理器350可管理电子设备的位置信息。图形管理器351可管理将要提供给用户的图形效果和/或与图形效果相关的用户界面。安全管理器352可提供用于系统安全和/或用户认证的所有安全功能。根据实施例,当电子设备(例如,电子设备101)具有电话呼叫功能,中间件330还可包括用于管理电子设备的语音和/或视频通信功能的电话管理器(未示出)。支付管理器354能够将支付信息从应用370传递给应用370或内核320。可选地,支付管理器354能够将从外部装置接收的与支付相关的信息存储在电子装置200或将存储在电子装置200中的信息发送到外部装置。
中间件330可通过上述内部元件模块的各种功能的组合来生成和使用新的中间件模块。中间件330可根据OS的类型提供专用的模块以提供不同的功能。此外,中间件330可动态地删除一些现有的元件和/或添加新的元件。因此,中间件330可以排除在本公开的各种实施例中所描述的一些元件,还包括其他的元件,和/或用具有不同名称并执行与相似功能的元件来替代这些元件。
API 360可与API 133相似,是一组API编程功能,并可根据OS而被提供不同的构造。例如,在Android或iOS的情况下,一个API组可针对各个平台被提供,在Tizen的情况下,两个或更多个API组可被提供。
可包括与应用147类似的应用的应用370可包括,例如,预加载的应用程序和/或第三方应用程序。应用370可包括下列项中的一个或更多个:主页应用371、拨号器应用372、SMS/多媒体消息(MMS)应用373、即时消息(IM)应用374、浏览器应用375、相机应用376、闹钟应用377、联系人应用378、语音拨号应用379、电子邮件应用380、日历应用381、媒体播放器的应用382、相册应用383、时钟应用384、支付应用385、医疗应用(例如,血压和运动强度的测量等)、提供环境信息(例如,大气压力、湿度、温度等)的应用等。然而,本实施例不限于此,应用370可包括任何其他类似和/或适用的应用。
根据实施例,应用370能够包括用于支持电子装置(例如,电子装置101)和外部装置(例如,电子装置102和104)之间的信息交换的应用(下文中称为“信息交换应用”)。信息交换应用能够包括用于将特定信息转发到外部装置的通知转发应用或用于管理外部装置的装置管理应用。
例如,通知转发应用能够包括用于将在电子装置的其他应用(例如,SMS/MMS应用、电子邮件应用、医疗应用和环境信息应用等)中创建的通知信息转发到外部装置(例如,电子装置102和104)的功能。此外,通知转发应用能够从外部装置接收通知信息以将接收到的信息提供给用户。
装置管理应用能够管理(例如,安装,删除或更新)与电子装置通信的外部装置(例如,电子装置102和104)的至少一个功能。所述功能的示例是打开/关闭外部装置或外部装置的一部分的功能、控制显示器的亮度(或分辨率)的功能、在外部装置上运行的应用、由外部装置提供的服务等。所述服务的示例是呼叫服务、消息服务等。
根据实施例,应用370能够包括指定外部装置(例如,电子装置102和104)的属性的应用(例如,移动医疗装置的医疗应用等)。根据实施例,应用370能够包括从外部装置(例如,服务器106、电子装置102和104)接收的应用。根据实施例,应用370能够包括预加载的应用或可从服务器下载的第三方应用。应该理解的是,编程模块310的组件可根据操作系统的类型被称为不同的名称。
根据各种实施例,编程模块310的至少一部分可用软件、固件、硬件或它们中两个或两个以上的任何组合来实现。编程模块310的至少一部分可以由处理器(例如,处理器210)来实现(例如,执行)。编程模块310的至少一部分可包括模块、程序、例行程序、指令集或进程等,以执行一个或更多个功能。
图4是示出根据本公开的各种实施例的电子装置201选择与文本将被转化成的语音相关联的信息并基于所选择的信息产生声学信号的操作的流程图。
参照图4,在操作401,电子装置201可获取至少一个文本。电子装置201可通过输入装置250从用户获取至少一个文本,并从外部装置接收包括至少一个文本的文本消息。
在操作403,电子设备201可选择与获取的文本将被转换成的语音相关联的信息。与语音相关联的信息可包括所述语音的语言信息或所述语音的说话人信息。例如,语音的语言信息可包括关于声学数据集是由哪个国家的语言(例如,韩语、英语、法语等)组成的信息,语音的说话人信息可包括关于声学数据集是由哪个说话人(例如,男性说话人、女性说话人、根据年龄的说话人或根据地区的说话人(例如,讲方言的说话人)等)的说话方式组成的信息。电子装置201可从用户接收与语音相关联的信息以选择与语音关联的信息,或者电子装置201可通过分析获取的文本来确定与语音关联的信息。例如,电子装置201可从用户接收对于获取的文本将被转换成的语音是被再现为韩语还是被再现为男性声音的选择,或可通过分析所述文本来确定所述文本是否由任何国家的语言组成。根据本公开的各种实施例,操作403可在文本被获取之前(即,在操作401之前)被用户选择。根据本公开的各种实施例,所选择的信息可被存储在存储器230中。
在操作405,电子装置201可检查所选择的信息。电子装置201可确定所选择的信息是第一信息还是第二信息。电子装置201可检查与所选择的信息相应的决策树。电子装置201可从外部装置(例如,超级群集型通用声学数据提供服务器)接收关于决策树的数据,并将接收到的数据存储在存储器230中。决策树可由多条路径组成,并且每条路径的末端(叶节点)可包括指示超级群集型通用声学数据集的特定声学数据的索引信息。
图5是示出根据本公开的各种实施例的电子装置将声学数据集的至少一条路径映射到超级群集型通用声学数据集的至少一部分的操作的示图。
参照图5,第一决策树510可由多条路径组成,其中,所述多条路径指示由女性声音讲的英语的语言处理结果,每条路径的末端可包括指示音素单元中的声学数据(例如,与女性声音讲的“g”相应的声学数据)的索引信息。根据本公开的各种实施例,包括在决策树中的索引信息可指示音素单元中的声学数据,或指示音素单元中的声学数据被划分为预定的时间间隔的细分音素单元中的声学数据。
在操作407,当与文本将被转换成的语音相关联的信息是第一信息时,电子装置201可选择多条第一路径中的至少一条第一路径。第一信息可包括以下项中的至少一项:语音的语言信息和语音的说话人信息。例如,参照图5,当所选择的信息是由女性声音讲的英语,获取的文本是“go”,并且与所选择的信息相关的第一决策树510由指示关于女性声音讲英音的声学数据的索引信息组成时,电子装置201可选择关于包括在第一决策树510中的女性声音“g”的路径(例如,到索引A4的路径)以将获取的文本转换为语音信号,并选择包括在第一决策树510中的女性声音“o”的路径(例如,到索引An-1的路径)。决策树的至少一个索引可指示构造超级群集型通用数据集的至少一个声学数据。根据本公开的各种实施例,多条第一路径可指示所述超级群集型通用数据集中的一部分。例如,参照图5,第一决策树510的一条路径(到索引A1的路径)可指示超级群集型通用声学数据集500的声学数据S2,另一索引(到索引A2的路径)可指示超级群集型通用声学数据集500的声学数据S3。可基于至少一个声学数据集产生超级群集型通用声学数据集(SCCAD)。将参照下面的图6描述超级群集型通用声学数据集的产生的内容。
在操作409,电子装置201可基于所选择的至少一条第一路径来产生第一声学信号。电子装置201可基于所选择的至少一条第一路径加载超级群集型通用声学数据集中的一部分,并基于加载的一部分超级群集型通用声学数据集来产生第一声学信号。超级群集型通用声学数据集中的一部分可以是与语音的特定说话人信息或特定语言信息相应的声学数据集。电子装置201可基于输入的文本选择超级群集型通用声学数据集中的至少一部分,并基于超级群集型通用声学数据集中的一部分的至少一部分来产生第一声学信号。超级群集型通用声学数据集中的一部分的至少一部分代表与声学信号的元素相应的声学数据,并与下列项中的至少一项相应:声学信号中的至少一些声学信号的频谱、音调和噪音。例如,参照图5,要将由电子装置201获取的文本“go”转换为声学信号,电子装置201可选择针对包括在第一决策树510中的“g”的路径(到索引A4的路径)和针对包括在决策树510中的“o”的路径(到索引An-1的路径),并可从超级群集型通用声学数据集选择与所选择的至少一条第一路径相应的至少一个声学数据(由所选择的索引指示的声学数据)。电子装置201可加载所选择的超级群集型通用声学数据集的至少一个声学数据,并基于加载的声学数据产生第一声学信号。电子装置201可通过扬声器282输出第一声学信号。根据本公开的各种实施例的电子装置201可按音素单元分析输入的文本句子,或分析音素被划分成的细分音素单元。电子装置201可选择针对每个音素单元或每个细分音素单元的声学数据,并将所选择的声学数据合成以产生针对整个文本的合成声音。电子装置201可通过扬声器282输出针对整个文本的合成声音。
在操作411,当与文本将被转换成的语音相关联的信息是第二信息时,电子装置201可选择多条第二路径中的至少一条。第二信息是与第一信息不同的信息,第二信息可包括下列项中的至少一项:语音的语言信息和语音的说话人信息。例如,参照图5,当所选择的信息是关于男性声音讲的韩语的信息,并存在与所选择的信息相应的第二决策树520时,决策树的至少一个索引可指示构成超级群集型通用声学数据集的至少一个声学数据。根据本公开的各种实施例,多条第二路径可指示超级群集型通用数据集中的一部分。例如,参照图5,第二决策树520的一条路径(到索引B1的路径)可指示超级群集型通用声学数据集500的声学数据S4,另一路径(到索引B2的路径)可指示超级群集型超级通用声学数据集500的声学数据S5。
在操作413,电子装置201可基于所选择的至少一条第二路径产生第二声学信号。电子装置201可基于所选择的至少一条第二路径加载超级群集型通用声学数据集中的一部分(在操作409基于第一路径被加载的声学数据)或另外一部分,并基于加载的一部分超级群集型通用声学数据集或另外一部分超级群集型通用声学数据集来产生第二声学信号。例如,参照图5,第一决策树510的一条路径(到索引A4的路径)和第二决策树520的一条路径(到索引B2的路径)可指示相同的声学数据S5。超级群集型通用声学数据集的一部分或另外一部分可以是与语音的特定说话人信息或语音的特定语言信息相应的声学数据集。电子装置201可基于输入的文本选择超级群集型通用声学数据集中的至少一部分,并基于超级群集型通用数据集中的一部分的至少一部分额外地产生第二声学信号。超级群集型通用数据集中的一部分的至少一部分代表与声学信号的元素相应的声学数据,并与下列项中的至少一项相应:声学信号中的至少一些声学信号的频谱、音调和噪音。电子装置201可加载所选择的超级群集型通用声学数据集的至少一个声学数据,并基于加载的声学数据产生第二声学信号。电子装置201可通过扬声器282输出第二声学信号。根据本公开的各种实施例的电子装置201可按音素单元分析输入的文本句子或分析音素被划分成的细分音素单元。电子装置201可选择针对每个音素单元或每个细分音素单元的声学数据,并将所选择的声学数据合成以产生针对整个文本的合成声音。电子装置201可通过扬声器282输出针对整个文本的合成声音。
图6是示出根据本公开的各种实施例的电子装置201产生超级群集型通用声学数据的操作的流程图。
电子装置201可获取与关于语音的第一信息相应的第一声学数据集以及与关于语音的第二信息相应的第二声学数据集。第一信息或第二信息可包括语音的语言信息或说话人信息。
图7A是示出根据本公开的各种实施例的确定第一声学数据集的至少一部分和第二声学数据集的至少一部分之间的相似度,并基于对相似度的确定而产生超级群集型通用声学数据集的操作的示图。
参照图7A,电子装置201可获取第一声学数据集710和第二声学数据集720,其中,第一声学数据集710是与由女性声音(第一信息)讲的英语相应的声学数据的集,第二声学数据集720是与由男性声音(第二信息)讲的韩语相应的声学数据的集。
将描述在操作601中将超级群集型通用声学数据配置为第一声学数据集和第二声学数据集的方法,但也可获取超过上述声学数据集的声学数据集。可获取多个声学数据集,并且可对多个声学数据集执行在操作603中的处理。
在操作603,电子装置201可确定第一声学数据中的至少一部分和第二声学数据中的至少一部分之间的相似度。电子装置201可确定声学数据集的至少一部分的频谱、音调和噪音中的至少一个相似度。例如,电子装置201可基于向量量化将与声学数据集中的至少一部分相应的声学数据向量化以确定相似度。电子装置201可将声学信号的频谱、音调和噪音中的至少一个向量化,并基于向量化的值确定相似度。例如,参照图7A,电子装置201可获取收集了第一声学数据集710的至少一部分和/或第二声学数据集720的至少一个的完全声学数据集701。电子装置201可确定完全声学数据集701的声学数据A2 711和完全声学数据集701的声学数据B2 721之间的相似度。为确定相似度,电子装置201可将声学数据A2 711的频谱712向量化以获取向量值713,并将声学数据B2 721的频谱722向量化以获取向量值723。电子装置201可将A2的语音向量值521与B3的语音向量值522进行比较以确定声学数据之间的相似度。根据本公开的各种实施例的电子装置201可执行k-均值的算法、模糊算法、高斯混合模型(GMM)算法、劳埃德算法等来确定在第一声学数据集中的至少一部分和/或第二声学数据集中的至少一部分之间的相似度。根据本公开的各种实施例的电子装置201可获取收集了第一声学数据集710和第二声学数据集720的至少一部分的完全声学数据集701,(1)确定完全声学数据集701的第一声学数据集710的声学数据和完全声学数据集701的第二声学数据集720的声学数据之间的相似度,(2)确定完全声学数据集701的第一声学数据集710的声学数据之间的相似度,或(3)确定完全声学数据集701的第二声学数据集720的声学数据之间的相似度。
根据本公开的各种实施例的电子装置201可获取收集了至少一个声学数据集的完全声学数据集,并将完全声学数据集划分成预定数量的包括多个声学数据的群集。
图7B是示出根据本公开的各种实施例的电子装置在收集了至少一个声学数据集的完全声学数据集中执行群集算法的操作的示图。
参照图7B的<730>,电子装置201可从收集了至少一个声学数据集的完全声学数据集710随机选择代表声学数据731、732和733。参照<740>,电子装置201可针对每个声学数据基于代表声学数据731、732和733的平均距离划分群集741、742和743。参照<750>,电子装置201可确定各个声学数据和代表声学数据731、732和733之间的相似度,以将各个声学数据划分为具有高相似度的代表声学数据。参照<760>,电子装置201可基于划分的声学数据重新调整群集。电子装置201可执行重复处理<730>到处理<760>的群集算法以形成具有高相似度的声学数据的群集。电子装置201可基于在操作605中的相似度确定来产生与第一声学数据集中的一部分和第二声学数据集中的至少一部分相关联的超级群集型通用声学数据集。当相似度等于或大于所选择的阈值时,电子装置201可确定与第一声学数据集中的至少一部分和第二声学数据集中的至少一部分二者相应的第一参数,当相似度小于所选择的阈值时,电子装置201确定与第一声学数据集中的至少一部分相应的第二参数和与第二声学数据集中的至少一部分相应的第三参数。第一参数、第二参数或第三参数可与下列项中的至少一项相应:语音中的至少一些语音的频谱、音调和噪音。例如,参照图7A,当完全声学数据集701的声学数据A2 711的频谱712和完全声学数据集720的声学数据B2 721的频谱722之间的相似度等于或大于阈值时,电子装置201可产生与声学数据A2 711的频谱712和声学数据B2 721的频谱722两者相应的声学数据S1 530a的频谱。当完全声学数据集701的声学数据A2 711的频谱712和完全声学数据集720的声学数据B2 721的频谱722之间的相似度等于或大于阈值时,根据本公开的各种实施例的电子装置201可将声学数据A2 711的频谱712和声学数据B2 721的频谱722之一确定为超级群集型通用声学数据集500的声学数据S1501。
当完全声学数据集701的声学数据A2 711的频谱和完全声学数据集701的声学数据B2 721的频谱之间的相似度小于阈值时,根据本公开的各种实施例的电子装置201可产生与声学数据A2 711的频谱相应的声学数据S2 502的频谱和与声学数据B2 721的频谱相应的声学数据S3 503的频谱。当完全声学数据集701的声学数据A2 711的频谱和完全声学数据集701的声学数据B2 721的频谱之间的相似度小于阈值时,根据本公开的各种实施例的电子装置201可将声学数据A2 711的频谱确定为声学数据S2 502的频谱,并将声学数据B2 721的频谱确定为声学数据S3 503的频谱。根据本公开的各种实施例的电子装置201可在超级群集型通用声学数据集的声学数据之间设置足够的阈值以防止声音质量的下降,并基于该阈值对超级群集型数据集的声学数据进行群集。电子装置201可执行k-均值算法、模糊算法、GMM算法,劳埃德算法等以确定相似度等于或大于阈值的声学数据,并确定表示该声学数据的超级群集型通用声学数据。电子装置201可确定相似度小于阈值的声学数据,并确定与各个声学数据相应的超级群集型通用声学数据。
图8是示出根据本公开的各种实施例的电子装置201产生超级群集型通用声学数据集并将特定声学数据的多条路径匹配到超级群集型通用声学数据集的操作的示图。
参照图8,电子装置201可使用至少一个声学数据集产生超级群集型通用声学数据(SCCAD)500。电子装置201可确定收集了各个声学数据集的完全声学数据集的声学数据之间的相似度。可通过比较语音的频谱、音调和噪音等的至少一个来执行对声学数据之间的相似度的确定。当声学数据之间的相似度等于或大于所选择的阈值时,电子装置201可确定与所有声学数据相应的参数,当声学数据之间的相似度小于所选择的阈值时,电子装置201可确定与各个声学数据相应的参数。例如,参照图7A,电子装置201可确定完全声学数据集701的声学数据A3和完全声学数据集701的声学数据B2之间的相似度,以在相似度等于或大于阈值的情况下确定与声学数据A3和声学数据B2两者相应的第一参数,并在相似度小于阈值的情况下确定与声学数据A3相应的第二参数和与声学数据B2相应的第三参数。电子装置201可基于第一参数、第二参数或第三参数产生超级群集型通用声学数据集500的声学数据。
电子装置201除了可获取现存的声学模型之外还可另外获取新的声学模型,新获取的声学模型可包括决策树和与该决策树匹配的声学数据集。当获取新的声学模型时,电子装置201可将声学模型的决策树和超级群集型通用声学数据集重新匹配。例如,参照图8,电子装置201可获取包括P决策树726和P声学数据的P声学模型,当P决策树726由多条路径(到索引P1、P2、P3和P4的路径)组成时,电子装置201可检查由P决策树726的索引P1 801指示的P声学数据集的声学数据。电子装置201可在超级群集型通用声学数据集500中搜索与由P1 801最初指示的声学数据具有最高相似度的声学数据,并用指示通用声学数据的声学数据的索引S8 811来代替P决策树726的索引P1 801。相似地,电子装置201可用指示超级群集型通用声学数据的声学数据的索引S21 812来代替P决策树726的索引P2 802,用指示所述超级群集型通用声学数据的声学数据的索引S3 813来代替P决策树726的索引P3 803,并用指示超级群集型通用声学数据的声学数据的索引S30 814来代替P决策树726的索引P4804。P决策树726的每个索引都可被指示与最初指示的声学数据具有最大相似度的声学数据(超级群集型通用声学数据集的声学数据)的索引代替。
图9是根据本公开的各种实施例的第一电子装置的框图和第二电子装置的框图。
参照图9,第一电子装置901可包括处理器910、存储器920、输入装置930和通信模块940。第二电子装置902可包括处理器950、存储器960和通信模块970。虽然未在图9中被示出,根据本公开的各种实施例的第一电子装置901和第二电子装置902可包括在图2中示出的电子装置201的所有组件。
根据本公开的各种实施例的第一电子装置901的处理器910可执行图2的电子装置201的处理器210的功能。处理器910可包括文本分析器911、链接器912和合成声音生成器913。
文本分析器911可分析由电子装置901获取的至少一个文本,并选择与获取的文本将被转换成的语音相关联的信息。例如,文本分析器911可分析文本以选择关于文本是被再现为韩语还是被再现为男性声音的信息。
链接器912可确定所选择的信息是第一信息还第二信息。链接器912可检查与所选择的信息相应的决策树。当与文本将被转换成的语音相关联的信息是第一信息时,链接器912可选择包括在决策树中的多条第一路径中的至少一条第一路径。链接器912可基于所选择的至少一条第一路径加载超级群集型通用声学数据集中的一部分。当与文本将被转换成的语音相关联的信息是第二信息时,链接器912可选择包括决策树中的多条第二路径中的至少一条第二路径。链接器912可基于所选择的至少一条第二路径加载超级群集型通用声学数据集中的一部分或另一部分。合成声音生成器913可基于所选择的至少一条第一路径产生第一声学信号。合成声音生成器913可基于输入的文本选择超级群集型通用声学数据集中的至少一部分,并基于超级群集型通用声学数据集中的一部分的至少一部分额外地产生第一声学信号。合成声音生成器913可通过扬声器282输出第一声学信号。合成声音生成器913可基于由链接器912选择的多条第一路径加载多个超级群集型通用声学数据,合成加载的声学数据以在一个句子单元输出语音,然后输出被合成的声学数据。
合成声音生成器913可基于所选择的至少一条第二路径产生第二声学信号。合成声音生成器913可基于输入的文本选择超级群集型通用声学数据集中的至少一部分,并基于超级群集型通用声学数据集中的一部分的至少一部分额外地产生第二声学信号。合成声音生成器913可通过扬声器282输出第二声学信号。合成声音生成器913可基于由链接器912选择的多条第二路径加载多个超级群集型通用声学数据,合成加载的声学数据以在一个句子单元输出语音,然后输出合成的声学数据。
在执行时,根据本公开的各种实施例的电子装置901的存储器920可存储这样的指令:该指令可使处理器910能够执行以下操作:获取至少一个文本,选择与获取的文本将被转换成的语音相关联的信息,当所选择的信息是第一信息时,选择多条第一路径中的至少一条第一路径,基于所选择的至少一条第一路径加载超级群集型通用声学数据集中的一部分,并基于加载的一部分超级群集型通用声学数据集来产生第一声学信号,当所选择的信息是第二信息,选择多条第二路径中的至少一条第二路径,基于所选择的至少一条第二路径加载超级群集型通用声学数据集中的一部分或另外一部分,并基于加载的一部分或另外一部分超级群集型通用声学数据集来产生第二声学信号。
在执行时,根据本公开的各种实施例的存储器920可存储这样的指令:该指令可使处理器910能够执行以下操作:从用户获取至少一个文本,或从外部装置接收包括至少一个文本的文本消息。
在执行时,根据本公开的各种实施例的存储器920可存储这样的指令:该指令可使处理器910能够执行以下操作:基于输入的文本选择超级群集型通用声学数据集中的一部分的至少一部分,并基于超级群集型通用声学数据集中的一部分的至少一部分额外地产生第一声学信号或第二声学信号。
根据本公开的各种实施例的存储器920可存储关于超级群集型通用声学数据集的信息和至少一个决策树。
根据本公开的各种实施例的第一电子装置901的输入装置930可执行图2的电子装置201的输入装置250的功能。输入装置250可从用户获取将被转换为语音的至少一个文本。
根据本公开的各种实施例的第一电子装置901的通信模块940可执行图2的电子装置201的通信模块220的功能。通信模块940可将请求关于决策树的信息和/或关于超级群集型通用声学数据集的信息的请求信息发送到第二电子装置902,并从第二电子装置902接收关于决策树和/或超级群集型通用声学数据集的信息。
根据本公开的各种实施例的第二电子装置902可产生超级群集型通用声学数据集,并可用作提供超级群集型通用声学数据集的服务器。
根据本公开的各种实施例的第二电子装置902的处理器950可执行图2的电子装置201的处理器210的功能。处理器950可包括超级群集型通用声学数据集生成器951和索引匹配器952。
根据本公开的各种实施例的超级群集型通用声学数据集生成器951可获取与关于语音的第一信息相应的第一声学数据集和与关于语音的第二信息相应的第二声学数据集。超级群集型通用声学数据集生成器951可通过除了获取第一声学数据集和第二声学数据集还获取多个声学数据集来执行下面的操作。在操作603,超级群集型通用声学数据集生成器951可确定第一声学数据的至少一部分和/或第二声学数据集的至少一部分之间的相似度。在操作605,超级群集型通用声学数据集生成器951可基于相似度确定产生与第一声学数据集的一部分和第二声学数据集的至少一部分相关联的超级群集型通用声学数据集。当相似度等于或大于所选择的阈值时,超级群集型通用声学数据集生成器951可确定与第一声学数据集的至少一部分和第二声学数据的至少一部分两者相应的第一参数,当相似度小于所述阈值时,确定与第一声学数据集的至少一部分相应的第二参数和与第二声学数据集的至少一部分相应的第三参数。第一参数、第二参数或第三参数可与语音的至少一些语音的频谱、音调和噪声中的至少一个相应。
当获取新的声学模型时,根据本公开的各种实施例的索引匹配器952可将声学模型的决策树与超级群集型通用声学数据集进行重新匹配。新获取的声学模型可包括决策树和由该决策树指示的声学数据集。索引匹配器952可确定包括在新获取的声学模型中的声学数据集和超级群集型通用声学数据集之间的相似度,并可将索引替换为使新获取的声学模型的决策树能够指示超级群集型通用声学数据集的与新获取的声学数据集具有最高相似度的数据。
根据本公开的各种实施例的电子装置902的存储器960可执行图2的电子装置201的存储器230的功能。在执行时,存储器960可存储这样的指令:该指令可使处理器950能够执行以下操作:获取与关于语音的第一信息相应的第一声学数据集和/或与关于语音的第二信息相应的第二声学数据集,确定第一声学数据集的至少一部分和/或第二声学数据集的至少一部分之间的相似度,并基于所述确定产生与第一声学数据集的至少一部分和/或第二声学数据集的至少一部分相关联的超级群集型通用声学数据集。
在执行时,根据本公开的各种实施例的存储器960可存储这样的指令:该指令可使处理器950能够执行以下操作:基于所述确定,当相似处等于或大于所选择的阈值时,确定与第一声学数据集中的至少一部分和第二声学数据集中的至少一部分两者相应的第一参数,当相似度小于阈值时,确定与第一声学数据集中的至少一部分相应的第二参数和与第二声学数据集中的至少一部分相应的第三参数,并基于第一参数、第二参数或第三参数产生所述超级群集型通用声学数据集。
根据本公开的各种实施例的存储器960可存储超级群集型通用声学数据集、关于至少一个决策树的信息和由该决策树的索引所指示的至少一个声学数据集。
根据本公开的各种实施例的第二电子装置902的通信模块970可执行图2的电子装置201的通信模块220的功能。通信模块940可从第一电子装置901接收请求关于决策树的信息和/或关于超级群集型通用声学数据集的信息的请求信息,并将关于决策树和/或超级群集型通用声学数据集的信息发送到第一装置901。
在本公开中,术语“模块”表示包括硬件、软件和固件或它们的组合的“单元”。例如,术语“模块”可与“单元”、“逻辑”、“逻辑块”、“组件”、“电路”等互换地使用。“模块”可以是集成组件的最小单元或者其一部分。“模块”可以是能够执行一个或更多个功能的最小单元或其一部分。“模块”可被机械地和/或电子地实现。例如,“模块”可包括以下项中的至少一项:能够执行已知或将被开发的功能的专用集成电路(ASIC)芯片、现场可编程门阵列(FPGA)和可编程逻辑器件。
根据各种实施例的方法(例如,操作)和/或装置(例如,模块或功能)的至少一部分,可使用能够通过各种类型的计算机执行并存储在计算机可读存储介质中的指令来实现,例如作为各种类型的编程模块。一个或更多个处理器(例如,处理器120)可执行命令指令,从而执行功能。计算机可读存储介质的示例可以是存储器130。
计算机可读存储介质的示例包括:磁性介质(诸如硬盘、软盘和磁带)、光学介质(诸如紧凑盘只读存储器(CD-ROM)和DVD)、磁光介质(诸如软光盘)、以及硬件装置(诸如ROM、随机存取存储器(RAM)和闪存等)。程序指令的示例包括由汇编语言产生的机器代码指令(诸如编译器)和由在计算机使用解释器可运行的高级编码语言创建的代码指令等。所描述的硬件装置可被配置为作为一个或更多个软件模块来执行上述各种实施例的操作,反正亦然。
根据各种实施例的模块或编程模块可包括一个或更多个组件,可移除上述组件中的一部分,或可还包括新的组件。由根据各种实施例的模块、编程模块或其他组件执行的操作可按照顺序的、并行的、重复的或启发式的方法来执行。一些操作可按照不同的顺序被执行或者可被跳过,或可使用添加的操作来执行。
虽然已经参照本公开的各种实施例示出并描述了本公开,但是本领域技术人员将理解的是,在不脱离本公开的精神和范围的情况下可在这里做出形式和细节上的各种改变,本公开的精神和范围由权利要求及其等同物所限定。
Claims (20)
1.一种电子装置,包括:
处理器;
存储器,与处理器电连接,
其中,存储器被配置为存储超级群集型通用声学数据集,
其中,存储器还被配置为存储使处理器能够执行以下操作的指令:
获取至少一个文本;
选择与获取的文本被转换成的语音相关联的信息;
当所选择的信息是第一信息时,选择多条第一路径中的至少一条第一路径,基于所选择的至少一条第一路径来加载所述超级群集型通用声学数据集的至少一个元素,并基于加载的所述超级群集型通用声学数据集的所述至少一个元素来产生第一声学信号;
当所选择的信息是第二信息时,选择多条第二路径中的至少一条第二路径,基于所选择的至少一条第二路径来加载所述超级群集型通用声学数据集的至少一个元素或至少一个其它元素,并基于加载的所述超级群集型通用声学数据集的所述至少一个元素或所述至少一个其它元素来产生第二声学信号。
2.如权利要求1所述的电子装置,其中,与所述语音相关联的信息包括所述语音的语言信息和/或说话人信息。
3.如权利要求1所述的电子装置,其中,所述指令使处理器能够执行以下操作:从用户获取所述至少一个文本或从外部装置接收包括所述至少一个文本的文本消息。
4.如权利要求1所述的电子装置,其中,所述指令使处理器能够执行以下操作:
基于输入的文本来选择所述超级群集型通用声学数据集的所述至少一个元素中的至少一个元素,
基于所述超级群集型通用声学数据集的所述至少一个元素中的所述至少一个元素,额外地产生第一声学信号或第二声学信号。
5.如权利要求4所述的电子装置,其中,所述超级群集型通用声学数据集的所述至少一个元素中的所述至少一个元素与产生的声学信号的至少一部分的频谱、音调或噪音中的至少一个相应。
6.如权利要求1所述的电子装置,其中,所述多条第一路径或所述多条第二路径指示所述超级群集型通用声学数据集的所述至少一个元素。
7.一种电子装置,包括:
处理器;
存储器,与处理器电连接,
其中,存储器被配置为存储使处理器能够执行以下操作的指令:
获取与关于语音的第一信息相应的第一声学数据集和与关于所述语音的第二信息相应的第二声学数据集;
确定第一声学数据集的至少一个元素和/或第二声学数据集的至少一个元素之间的相似度;
基于所述确定来产生与第一声学数据集的所述至少一个元素和/或第二声学数据集的所述至少一个元素相关联的超级群集型通用声学数据集。
8.如权利要求7所述的电子装置,其中,第一信息或第二信息包括所述语音的语言信息和/或说话人信息。
9.如权利要求7所述的电子装置,其中,所述指令使处理器能够执行以下操作:
基于所述确定,当所述相似度等于或大于所选择的阈值时,确定与第一声学数据集的所述至少一个元素和第二声学数据集的所述至少一个元素两者相应的第一参数,
当所述相似度小于所述阈值时,确定与第一声学数据集的所述至少一个元素相应的第二参数和与第二声学数据集的所述至少一个元素相应的第三参数,
基于第一参数、第二参数或第三参数产生所述超级群集型通用声学数据集。
10.如权利要求9所述的电子装置,其中,第一参数、第二参数或第三参数与所述语音的至少一部分的频谱、音调或噪音中的至少一个相应。
11.一种电子装置的将文本转换到语音的方法,所述方法包括:
获取至少一个文本;
选择与获取的文本被转换成的语音相关联的信息;
当所选择的信息是第一信息时,选择多条第一路径中的至少一条第一路径,基于所选择的至少一条第一路径来加载超级群集型通用声学数据集的至少一个元素,并基于加载的所述超级群集型通用声学数据集的所述至少一个元素来产生第一声学信号;
当所选择的信息是第二信息时,选择多条第二路径中的至少一条第二路径,基于所选择的至少一条第二路径来加载所述超级群集型通用声学数据集的至少一个元素或至少一个其它元素,基于加载的所述超级群集型通用声学数据集的所述至少一个元素或所述至少一个其它元素来产生第二声学信号。
12.如权利要求11所述的方法,其中,与所述语音相关联的信息包括所述语音的语言信息和/或说话人信息。
13.如权利要求11所述的方法,其中,获取至少一个文本的步骤包括:从用户获取所述至少一个文本或从外部装置接收包括所述至少一个文本的文本消息。
14.如权利要求11所述的方法,其中,产生第一声学信号或第二声学信号的步骤包括:
基于输入的文本选择所述超级群集型通用声学数据集的所述至少一个元素中的至少一个元素;
基于所述超级群集型通用声学数据集的所述至少一个元素中的所述至少一个元素来额外地产生第一声学信号或第二声学信号。
15.如权利要求14所述的方法,其中,所述超级群集型通用声学数据集的所述至少一个元素中的所述至少一个元素与产生的声学信号的至少一部分的频谱、音调或噪音中的至少一个相应。
16.如权利要求11所述的方法,其中,所述多条第一路径或所述多条第二路径指示所述超级群集型通用声学数据集的所述至少一个元素。
17.一种电子装置的将文本转换到语音的方法,所述方法包括:
获取与关于至少一个文本被转换成的语音的第一信息相应的第一声学数据集和/或与关于所述语音的第二信息相应的第二声学数据集;
确定第一声学数据集的至少一个元素和/或第二声学数据集的至少一个元素之间的相似度;
基于所述确定,产生与第一声学数据集的所述至少一个元素和/或第二声学数据集的所述至少一个元素相关联的超级群集型通用声学数据集。
18.如权利要求17所述的方法,其中,第一信息或第二信息包括所述语音的语言信息和/或说话人信息。
19.如权利要求17所述的方法,其中,产生所述超级群集型通用声学数据集的步骤包括:
基于所述确定,当所述相似度等于或大于所选择的阈值时,确定与第一声学数据集的所述至少一个元素和第二声学数据集的所述至少一个元素两者相应的第一参数;
当所述相似度小于所述阈值时,确定与第一声学数据集的所述至少一个元素相应的第二参数和与第二声学数据集的所述至少一个元素相应的第三参数;
基于第一参数、第二参数或第三参数产生所述超级群集型通用声学数据集。
20.如权利要求19所述的方法,其中,第一参数、第二参数或第三参数与所述语音的至少一部分的频谱、音调或噪音的至少一个相应。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150144462A KR20170044849A (ko) | 2015-10-16 | 2015-10-16 | 전자 장치 및 다국어/다화자의 공통 음향 데이터 셋을 활용하는 tts 변환 방법 |
KR10-2015-0144462 | 2015-10-16 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106611595A true CN106611595A (zh) | 2017-05-03 |
CN106611595B CN106611595B (zh) | 2021-12-10 |
Family
ID=57136767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610902916.5A Active CN106611595B (zh) | 2015-10-16 | 2016-10-17 | 用于将文本转换为语音的电子装置和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20170110113A1 (zh) |
EP (1) | EP3157002A1 (zh) |
KR (1) | KR20170044849A (zh) |
CN (1) | CN106611595B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109272994A (zh) * | 2017-07-17 | 2019-01-25 | 三星电子株式会社 | 话音数据处理方法以及支持该话音数据处理方法的电子装置 |
CN109427331A (zh) * | 2017-08-16 | 2019-03-05 | 三星电子株式会社 | 语音识别方法及装置 |
CN111105799A (zh) * | 2019-12-09 | 2020-05-05 | 国网浙江省电力有限公司杭州供电公司 | 基于发音量化和电力专用词库的离线语音识别装置及方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030050779A1 (en) * | 2001-08-31 | 2003-03-13 | Soren Riis | Method and system for speech recognition |
CN1602483A (zh) * | 2001-12-17 | 2005-03-30 | 内维尼·加雅拉特尼 | 进行多语种口述词语实时翻译的实时翻译装置与方法 |
TW200620240A (en) * | 2004-12-10 | 2006-06-16 | Delta Electronics Inc | System and method for transforming text to speech |
CN1801321A (zh) * | 2005-01-06 | 2006-07-12 | 台达电子工业股份有限公司 | 文字转语音的系统与方法 |
CN1813285A (zh) * | 2003-06-05 | 2006-08-02 | 株式会社建伍 | 语音合成设备、语音合成方法和程序 |
JP2007172410A (ja) * | 2005-12-22 | 2007-07-05 | Matsushita Electric Works Ltd | 音声出力システム |
US20090055162A1 (en) * | 2007-08-20 | 2009-02-26 | Microsoft Corporation | Hmm-based bilingual (mandarin-english) tts techniques |
US7987244B1 (en) * | 2004-12-30 | 2011-07-26 | At&T Intellectual Property Ii, L.P. | Network repository for voice fonts |
US20130226569A1 (en) * | 2008-12-18 | 2013-08-29 | Lessac Technologies, Inc. | Methods employing phase state analysis for use in speech synthesis and recognition |
US8532995B2 (en) * | 2005-10-07 | 2013-09-10 | At&T Intellectual Property Ii, L.P. | System and method for isolating and processing common dialog cues |
CN103596155A (zh) * | 2012-08-16 | 2014-02-19 | 三星电子株式会社 | 用于提供使用文本数据的语音通话的方法及其电子装置 |
US20140122081A1 (en) * | 2012-10-26 | 2014-05-01 | Ivona Software Sp. Z.O.O. | Automated text to speech voice development |
US20140222415A1 (en) * | 2013-02-05 | 2014-08-07 | Milan Legat | Accuracy of text-to-speech synthesis |
CN104380284A (zh) * | 2012-03-06 | 2015-02-25 | 苹果公司 | 针对多种语言处理内容的语音合成 |
US20150279349A1 (en) * | 2014-03-27 | 2015-10-01 | International Business Machines Corporation | Text-to-Speech for Digital Literature |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6591240B1 (en) * | 1995-09-26 | 2003-07-08 | Nippon Telegraph And Telephone Corporation | Speech signal modification and concatenation method by gradually changing speech parameters |
JPH10247098A (ja) * | 1997-03-04 | 1998-09-14 | Mitsubishi Electric Corp | 可変レート音声符号化方法、可変レート音声復号化方法 |
DE19920501A1 (de) * | 1999-05-05 | 2000-11-09 | Nokia Mobile Phones Ltd | Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter Sprachsynthese |
US6549883B2 (en) * | 1999-11-02 | 2003-04-15 | Nortel Networks Limited | Method and apparatus for generating multilingual transcription groups |
US6535852B2 (en) * | 2001-03-29 | 2003-03-18 | International Business Machines Corporation | Training of text-to-speech systems |
AU2003299312A1 (en) * | 2003-12-16 | 2005-07-05 | Loquendo S.P.A. | Text-to-speech method and system, computer program product therefor |
WO2005098820A1 (ja) * | 2004-03-31 | 2005-10-20 | Pioneer Corporation | 音声認識装置及び音声認識方法 |
JP4661074B2 (ja) * | 2004-04-07 | 2011-03-30 | ソニー株式会社 | 情報処理システム、情報処理方法、並びにロボット装置 |
US7716052B2 (en) * | 2005-04-07 | 2010-05-11 | Nuance Communications, Inc. | Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis |
US20080126093A1 (en) * | 2006-11-28 | 2008-05-29 | Nokia Corporation | Method, Apparatus and Computer Program Product for Providing a Language Based Interactive Multimedia System |
JP2008225254A (ja) * | 2007-03-14 | 2008-09-25 | Canon Inc | 音声合成装置及び方法並びにプログラム |
US8719006B2 (en) * | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
-
2015
- 2015-10-16 KR KR1020150144462A patent/KR20170044849A/ko unknown
-
2016
- 2016-10-14 EP EP16193939.2A patent/EP3157002A1/en not_active Ceased
- 2016-10-14 US US15/293,879 patent/US20170110113A1/en not_active Abandoned
- 2016-10-17 CN CN201610902916.5A patent/CN106611595B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030050779A1 (en) * | 2001-08-31 | 2003-03-13 | Soren Riis | Method and system for speech recognition |
CN1602483A (zh) * | 2001-12-17 | 2005-03-30 | 内维尼·加雅拉特尼 | 进行多语种口述词语实时翻译的实时翻译装置与方法 |
CN1813285A (zh) * | 2003-06-05 | 2006-08-02 | 株式会社建伍 | 语音合成设备、语音合成方法和程序 |
TW200620240A (en) * | 2004-12-10 | 2006-06-16 | Delta Electronics Inc | System and method for transforming text to speech |
US7987244B1 (en) * | 2004-12-30 | 2011-07-26 | At&T Intellectual Property Ii, L.P. | Network repository for voice fonts |
CN1801321A (zh) * | 2005-01-06 | 2006-07-12 | 台达电子工业股份有限公司 | 文字转语音的系统与方法 |
US8532995B2 (en) * | 2005-10-07 | 2013-09-10 | At&T Intellectual Property Ii, L.P. | System and method for isolating and processing common dialog cues |
JP2007172410A (ja) * | 2005-12-22 | 2007-07-05 | Matsushita Electric Works Ltd | 音声出力システム |
US20090055162A1 (en) * | 2007-08-20 | 2009-02-26 | Microsoft Corporation | Hmm-based bilingual (mandarin-english) tts techniques |
CN101785048A (zh) * | 2007-08-20 | 2010-07-21 | 微软公司 | 基于hmm的双语(普通话-英语)tts技术 |
US20130226569A1 (en) * | 2008-12-18 | 2013-08-29 | Lessac Technologies, Inc. | Methods employing phase state analysis for use in speech synthesis and recognition |
CN104380284A (zh) * | 2012-03-06 | 2015-02-25 | 苹果公司 | 针对多种语言处理内容的语音合成 |
CN103596155A (zh) * | 2012-08-16 | 2014-02-19 | 三星电子株式会社 | 用于提供使用文本数据的语音通话的方法及其电子装置 |
US20140122081A1 (en) * | 2012-10-26 | 2014-05-01 | Ivona Software Sp. Z.O.O. | Automated text to speech voice development |
US20140222415A1 (en) * | 2013-02-05 | 2014-08-07 | Milan Legat | Accuracy of text-to-speech synthesis |
US20150279349A1 (en) * | 2014-03-27 | 2015-10-01 | International Business Machines Corporation | Text-to-Speech for Digital Literature |
Non-Patent Citations (2)
Title |
---|
ROBERT A.J. CLARK ET AL: "Multisyn: Open-domain unit selection for the Festival speech synthesis system", 《SPEECH COMMUNICATION》 * |
韩民: "一种改进的语音合成方法", 《中国优秀博硕士学位论文全文数据库 (硕士) 信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109272994A (zh) * | 2017-07-17 | 2019-01-25 | 三星电子株式会社 | 话音数据处理方法以及支持该话音数据处理方法的电子装置 |
CN109427331A (zh) * | 2017-08-16 | 2019-03-05 | 三星电子株式会社 | 语音识别方法及装置 |
CN109427331B (zh) * | 2017-08-16 | 2024-02-27 | 三星电子株式会社 | 语音识别方法及装置 |
CN111105799A (zh) * | 2019-12-09 | 2020-05-05 | 国网浙江省电力有限公司杭州供电公司 | 基于发音量化和电力专用词库的离线语音识别装置及方法 |
CN111105799B (zh) * | 2019-12-09 | 2023-07-07 | 国网浙江省电力有限公司杭州供电公司 | 基于发音量化和电力专用词库的离线语音识别装置及方法 |
Also Published As
Publication number | Publication date |
---|---|
US20170110113A1 (en) | 2017-04-20 |
EP3157002A1 (en) | 2017-04-19 |
KR20170044849A (ko) | 2017-04-26 |
CN106611595B (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107077464B (zh) | 电子设备和用于其口头交互的方法 | |
CN108292317B (zh) | 问题和答案处理方法以及支持该方法的电子设备 | |
CN108536416A (zh) | 处理用户输入的电子设备和处理用户输入的方法 | |
CN108121490A (zh) | 用于处理多模式输入的电子装置、方法和服务器 | |
CN110199350A (zh) | 用于感测语音结束的方法和实现该方法的电子设备 | |
CN108376546A (zh) | 语音输入方法以及用于支持该方法的电子设备和系统 | |
CN108027952A (zh) | 用于提供内容的方法和电子设备 | |
CN108023934A (zh) | 电子装置及其控制方法 | |
CN107800455A (zh) | 电子装置及其握持识别方法 | |
CN108735204A (zh) | 用于执行与用户话语相对应的任务的设备 | |
CN110168471A (zh) | 电子设备以及用于显示其运行的应用的历史的方法 | |
CN108475272A (zh) | 内容识别设备及其操作方法 | |
CN107430480A (zh) | 电子设备和在电子设备中处理信息的方法 | |
CN108024763B (zh) | 活动信息提供方法及支持其的电子设备 | |
CN107491177A (zh) | 用于识别旋转体的旋转的方法及用于处理该方法的电子设备 | |
CN108288471A (zh) | 用于识别语音的电子设备 | |
CN106940635A (zh) | 用于输出声音的方法以及支持该方法的电子设备 | |
CN108536725A (zh) | 电子设备及其提供信息的方法 | |
CN107852440A (zh) | 用于由电子设备处理声音的方法及其电子设备 | |
CN108351892A (zh) | 用于提供对象推荐的电子装置和方法 | |
CN105938392A (zh) | 具有可穿戴部分的电子设备及其操作方法 | |
CN108141490A (zh) | 用于处理图像的电子设备及其控制方法 | |
CN107665232A (zh) | 检测类似应用的方法及其适配的电子装置 | |
CN109196546A (zh) | 电子设备和包括该电子设备的信息处理系统 | |
CN108475162A (zh) | 用于显示用户界面的方法和用于支持该方法的电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |