CN113948059A - 声学模型训练集的优化生成方法、系统、存储介质及其计算机设备 - Google Patents

声学模型训练集的优化生成方法、系统、存储介质及其计算机设备 Download PDF

Info

Publication number
CN113948059A
CN113948059A CN202010617793.7A CN202010617793A CN113948059A CN 113948059 A CN113948059 A CN 113948059A CN 202010617793 A CN202010617793 A CN 202010617793A CN 113948059 A CN113948059 A CN 113948059A
Authority
CN
China
Prior art keywords
training set
generating
audio
feedback
intention information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010617793.7A
Other languages
English (en)
Inventor
杜国威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Anyun Century Technology Co Ltd
Original Assignee
Beijing Anyun Century Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Anyun Century Technology Co Ltd filed Critical Beijing Anyun Century Technology Co Ltd
Priority to CN202010617793.7A priority Critical patent/CN113948059A/zh
Publication of CN113948059A publication Critical patent/CN113948059A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明适用于语音合成技术领域,提供了一种声学模型训练集的优化生成方法,包括步骤:采集语音输入信号并转化成文本数据;分析所述文本数据所对应的领域和意图信息,并根据所述领域和所述意图信息以生成对应的反馈信息;分析所述意图信息对应的音频特征,并根据所述音频特征以生成所述反馈信息对应的反馈音频;根据所述反馈音频以优化生成声学模型的训练集。还提供了一种声学模型训练集的优化生成系统、用于存储执行所述方法的计算机程序的存储介质以及实现所述方法的计算机设备。借此,本发明通过优化生成的训练集能够使得语音合成播报的声音更容易烘托或者缓和气氛,可避免僵硬的播报方式。

Description

声学模型训练集的优化生成方法、系统、存储介质及其计算机 设备
技术领域
本发明涉及语音合成技术领域,尤其涉及一种声学模型训练集的优化生成方法、系统、存储介质及其计算机设备。
背景技术
随着语音技术的发展,人们对TTS(Text To Speech,从文本到语音)合成的声音的要求也逐渐提高;对身边的人,有时需要在某个时刻有一个特别温柔的声音;例如,辅导小孩写作业与智能终端设备如音箱的互动可能是较为严肃的,这时候人机互动涉及到的意图可能有“查询题目”,晚上睡觉前为了哄孩子睡觉,可能会播放儿歌,这个时候说话的声音也会比较温柔。所以总的而言,面对不同的场景,具体到同领域的不同意图,客户都存在着音色、音调的区别。
如何让TTS播报的声音更容易让家庭身边的人“陶醉”、烘托或者缓和气氛,毕竟大家都喜欢听播放儿歌时的音色,而不是查询题目的音色;是现存需要解决的一大难题。而现有的大多数语音技术方案商都未能提供相应的解决方案。
综上可知,现有的方法在实际使用上,存在着较多的问题,所以有必要加以改进。
发明内容
针对上述的缺陷,本发明的目的在于提供一种声学模型训练集的优化生成方法,系统、存储介质及其计算机设备,通过优化生成的训练集能够使得语音合成播报的声音更容易烘托或者缓和气氛,可避免僵硬的播报方式。
为了实现上述目的,本发明提供一种声学模型训练集的优化生成方法,包括有:
采集转化步骤,采集语音输入信号并转化成文本数据;
第一分析步骤,分析所述文本数据所对应的领域和意图信息,并根据所述领域和所述意图信息以生成对应的反馈信息;
第二分析步骤,分析所述意图信息对应的音频特征,并根据所述音频特征以生成所述反馈信息对应的反馈音频;
优化生成步骤,根据所述反馈音频以优化生成声学模型的训练集。
所述优化生成步骤进一步包括:
分析所述反馈音频的特征向量,并将所述特征向量对应的参数作为所述声学模型的所述训练集。
可选的,所述优化生成步骤包括:
特征向量步骤,分析至少两个所述意图信息对应的所述反馈音频的所述特征向量;
差值比对步骤,比对所述至少两个所述意图信息对应的所述特征向量之间的差值;
优化项选取步骤,根据所述差值与预置的录入规则以选取对应的所述意图信息的所述反馈音频,并将选取的所述反馈音频设为用于优化生成所述训练集的优化项。
可选的,所述优化生成步骤包括:
判断所述意图信息是否为预置信息,若是则将所述意图信息对应的所述反馈音频设为用于优化生成所述训练集的优化项。
还提供了一种声学模型训练集的优化生成系统,包括有:
采集转化单元,用于采集语音输入信号并转化成文本数据;
第一分析单元,用于分析所述文本数据所对应的领域和意图信息,并根据所述领域和所述意图信息以生成对应的反馈信息;
第二分析单元,用于分析所述意图信息对应的音频特征,并根据所述音频特征以生成所述反馈信息对应的反馈音频;
优化生成单元,用于根据所述反馈音频以优化生成声学模型的训练集。
所述优化生成单元进一步用于:
分析所述反馈音频的特征向量,并将所述特征向量对应的参数作为所述声学模型的所述训练集。
可选的,所述优化生成单元包括:
特征向量子单元,用于分析至少两个所述意图信息对应的所述反馈音频的所述特征向量;
差值比对子单元,用于比对所述至少两个所述意图信息对应的所述特征向量之间的差值;
优化项选取子单元,用于根据所述差值与预置的录入规则以选取对应的所述意图信息的所述反馈音频,并将选取的所述反馈音频设为用于优化生成所述训练集的优化项。
可选的,所述优化生成单元用于:
判断所述意图信息是否为预置信息,若是则将所述意图信息对应的所述反馈音频设为用于优化生成所述训练集的优化项。
另外,还提供了一种存储介质和计算机设备,所述存储介质用于存储一种用于执行上述声学模型训练集的优化生成方法的计算机程序。
所述计算机设备包括存储介质、处理器以及存储在所述存储介质上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的声学模型训练集的优化生成方法。
本发明所述的声学模型训练集的优化生成方法及其系统,通过分析出语音输入信号所对应的领域和意图信息,并根据意图信息分析对应的音频特征,将所述音频特征对应传入语音合成的反馈语音作为声学模型的训练集的优化项进行优化。从而使得本发明可根据对应的领域和意图信息,在处理数据时,偏向性的训练,以优化相对应的声学模型,最后通过声学模型参数的改变,将数据传入声码器,转化为对应的语音合成的播报声音,使得语音合成播报的声音更容易烘托或者缓和气氛,可避免僵硬的播报方式。
附图说明
图1为本发明优选实施例所述声学模型训练集的优化生成方法的步骤流程图;
图2为本发明所述声学模型训练集的优化生成方法的所述采集转化步骤可选的具体步骤流程图;
图3为本发明所述声学模型训练集的优化生成方法的所述第一分析步骤可选的第一种具体步骤流程图;
图4为本发明所述声学模型训练集的优化生成方法的所述第一分析步骤可选的第二种具体步骤流程图;
图5为本发明所述声学模型训练集的优化生成方法的所述第二分析步骤可选的具体步骤流程图;
图6为本发明所述声学模型训练集的优化生成方法的所述优化生成步骤可选的具体步骤流程图;
图7为本发明优选实施例所述声学模型训练集的优化生成系统的结构框图;
图8为本发明所述声学模型训练集的优化生成系统的所述采集转化单元可选的具体结构框图;
图9为本发明所述声学模型训练集的优化生成系统的所述第一分析单元可选的具体结构框图;
图10为本发明所述声学模型训练集的优化生成系统的所述第二分析单元可选的具体结构框图;
图11为本发明所述声学模型训练集的优化生成系统的所述优化生成单元可选的具体结构框图;
图12为语音合成技术的原理示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的,本说明书中针对“一个实施例”、“实施例”、“示例实施例”等的引用,指的是描述的该实施例可包括特定的特征、结构或特性,但是不是每个实施例必须包含这些特定特征、结构或特性。此外,这样的表述并非指的是同一个实施例。进一步,在结合实施例描述特定的特征、结构或特性时,不管有没有明确的描述,已经表明将这样的特征、结构或特性结合到其它实施例中是在本领域技术人员的知识范围内的。
此外,在说明书及后续的权利要求当中使用了某些词汇来指称特定组件或部件,所属领域中具有通常知识者应可理解,制造商可以用不同的名词或术语来称呼同一个组件或部件。本说明书及后续的权利要求并不以名称的差异来作为区分组件或部件的方式,而是以组件或部件在功能上的差异来作为区分的准则。在通篇说明书及后续的权利要求书中所提及的“包括”和“包含”为一开放式的用语,故应解释成“包含但不限定于”。以外,“连接”一词在此系包含任何直接及间接的电性连接手段。间接的电性连接手段包括通过其它装置进行连接。
图1示出本发明所述声学模型训练集的优化生成方法,包括有:
S101:采集语音输入信号并转化成文本数据。该过程是将音频转化为文本的过程,采集的语音输入信号为录入音频,具体可以是用户跟机器交互所输入的语音或用户对机器的命令语音等。
S102:分析所述文本数据所对应的领域和意图信息,并根据所述领域和所述意图信息以生成对应的反馈信息。在实际的语音交互场景中,领域和意图往往能反馈绝大多数的交互场景或者人们的需求;本实施例通过分析该文本数据的内容,获取该内容所对应的领域和意图;例如,文本数据为:通过歌曲哄孩子入睡;则经分析获得对应的领域为:音乐;意图信息为:播放安眠儿歌。进而根据对应的领域和意图信息生成对应的反馈信息,在上述例子中,对应的反馈信息即为开启音乐播放功能以播放哄儿童的安眠曲。
S103:分析所述意图信息对应的音频特征,并根据所述音频特征以生成所述反馈信息对应的反馈音频。其中,音频特征包括但不限于声音的特征向量如性别、高低音、韵律等信息;所述反馈音频与对应的意图信息相关联;通过分析所述文本数据的意图信息,获取该意图信息与之匹配的音频特征;例如,辅导小孩写作业与智能终端设备如音箱的互动,则对应的音频特征可能是较为严肃的,这时候人机互动涉及到的意图可能有“查询题目”;或者,晚上睡觉前为了哄孩子睡觉,可能会播放儿歌,这个时候说话的声音也会比较温柔。具体根据意图信息的区别,为其通过音频特征如性别、高低音、韵律等来配置不同的音色和/或音调,使得语音合成的播报音频更具有针对性,避免其播放语调的固定僵硬化。
S104:根据所述反馈音频以优化生成声学模型的训练集。根据领域和意图的不同,在经语音合成的处理数据时,偏向性的训练,以优化相对应的声学模型(声码器),最后通过声学模型参数的改变,将数据传入声码器,转化为对应的语音合成的播报声音。本实施例通过基于领域和意图的分析而生成对应该意图信息的音频来对TTS训练集进行优化,能使所述训练集的选取更具有目的性;使TTS播报的声音更容易让家庭身边的人“陶醉”、烘托或者缓和气氛,毕竟大家都喜欢听播放儿歌时的音色,而不是查询题目的音色。
TTS技术本质上解决的是:从文本转化为语音的问题,通过这种方式让机器开口说话。但这个过程并不容易,为了降低机器理解的难度,科学家们将这个转化过程拆分成了两个部分:前端系统和后端系统,如图12所示;前端负责把输入的文本转化为一个中间结果,然后把这个中间结果送给后端,由后端生成声音;前端系统生成“语言学规格书”。
目前主流的后端系统有两种方法:一种是基于波形拼接的方法,一种是基于参数生成的方法。参数生成法的系统直接使用数学的方法,先从音频里总结出音频最明显的特征,然后使用学习算法来学习一个如何把前端语言学规格书映射到这些音频特征的转换器。一但我们有了这个从语言学规格书到音频特征的转换器,例如合成《你真好看》这四个字的时候,我们先使用这个转换器转换出音频特征,然后用另一个组件,把这些音频特征还原成我们可以听到的声音。在本领域里,这个转换器叫:声学模型,把声音特征转化为声音的组件叫声码器。
本实施例的所述步骤S104进一步包括:分析所述反馈音频的特征向量,并将所述特征向量对应的参数作为所述声学模型的所述训练集。当训练集对应的云服务器收到该对应的音频时,则分析对应音频的特征向量,并将其特征向量对应的参数作为声学模型的训练集。
参见图6,可选的,步骤S104包括:
S1041:分析至少两个所述意图信息对应的所述反馈音频的所述特征向量;
S1042:比对所述至少两个所述意图信息对应的所述特征向量之间的差值;
S1043:根据所述差值与预置的录入规则以选取对应的所述意图信息的所述反馈音频,并将选取的所述反馈音频设为用于优化生成所述训练集的优化项。将不同意图的音频收集后,则分析这些音频对应的音频特征包括但不限于声音的特征向量,一般而言,通过对应声音之间特征向量的差值来选取,如我们认为女性高音会比女性低音相对来说更好听,则找到女性相对高音对应的意图作为以后意图的音频的主要收集项,并将其音频纳入到训练集。
在另一实施例中,可选的,所述步骤S104包括:判断所述意图信息是否为预置信息,若是则将所述意图信息对应的所述反馈音频设为用于优化生成所述训练集的优化项。具体由语音技术方案提供商对于特定的意图进行事先定义,在收集训练集的同时只收集固定的意图对应的音频并对音频进行分析来优化TTS的声学模型。当然,意图与音频之间关系包括但不限于以上两种方式,凡是通过意图的区别来进行TTS训练集的优化项均属于本专利的保护范围内。
参见图2,可选的,步骤S101包括:
S1011:采集外部输入的语音输入信号;具体通过上述的语音合成的前端和ASR(自动语音识别技术)收集语音输入信号。
S1012:通过语音识别技术以将所述语音输入信号转化成文本数据。
进一步的,步骤S101之后包括:
发送步骤,将所述文本数据发送至NLP(Natural Language Processing,自然语言处理)引擎;
步骤S102包括:通过所述NLP引擎分析所述文本数据以获得对应的领域以及意图信息,并根据所述领域和所述意图信息以生成对应的反馈信息。
参见图3,可选的,步骤S102包括:
S1021:将所述文本数据转化为机器语言;
S1022:分析所述机器语言中对应的领域和意图信息;
S1023:根据所述领域和所述意图信息以生成对应的反馈信息。
进一步的,参见图4,在另一实施例中,可选的,步骤S102还包括:
S1024:根据所述机器语言以填充所述意图信息对应的意图槽位;
S1025:根据所述领域、所述意图信息以及所述意图槽位以匹配生成对应的反馈信息。
首先NLU(Natural Language Understanding,自然语言理解)需要去理解传入文本的意图;例如,NLU服务器将该文本转化为机器可以理解的语言并分析出对话A的意图为播放儿歌,同时填充该意图槽位歌手、歌曲名称为贝瓦儿歌、小兔子乖乖等。将以上领域、意图及相关槽位发送至对话管理系统和语言生成系统,找到与对应意图相关的信息再发送到TTS训练集对应的服务器。
参见图5,可选的,步骤S103包括:
S1031:分析所述意图信息对应的音频特征;
S1032:将所述音频特征与所述反馈信息结合以生成对应的反馈音频。
分析该意图对应的音频特征,声音的音频特征包括但不限于声音的特征向量如性别、高低音、韵律等信息;并将经分析所得的音频特征对应的音频作为TTS的训练集。训练集优化项的收集方式优选为上述的事先定义或者对比声音之间特征向量的差值的方式。TTS训练集对应的云服务器收到该对应的音频时,则分析对应音频的特征向量,并将其特征向量对应的参数作为声学模型的训练集。当意图对应的音频越多,则特征向量越具有代表性,则对声学模型的训练影响越大。
图7示出本发明优选实施例所述的声学模型训练集的优化生成系统100,包括有采集转化单元10、第一分析单元20、第二分析单元30以及优化生成单元40,其中:
采集转化单元10用于采集语音输入信号并转化成文本数据;第一分析单元20用于分析所述文本数据所对应的领域和意图信息,并根据所述领域和所述意图信息以生成对应的反馈信息;具体可采用自然语言理解技术或者人工智能技术等方式分析对应的领域和意图信息;第二分析单元30用于分析所述意图信息对应的音频特征,并根据所述音频特征以生成所述反馈信息对应的反馈音频;可以是通过预先定义的匹配规则,结合对意图信息的分析来获取对应匹配的音频特征,如意图是哄小孩入睡,则对应音频特征的韵律可以是温柔、轻声调等音频特征;优化生成单元40用于根据所述反馈音频以优化生成声学模型的训练集。根据领域和意图的不同,在经语音合成的处理数据时,偏向性的训练,以优化相对应的声学模型(声码器),最后通过声学模型参数的改变,将数据传入声码器,转化为对应的语音合成的播报声音。
本实施例通过基于领域和意图的分析而生成对应该意图信息的音频来对TTS(Text To Speech,从文本到语音)训练集进行优化,能使所述训练集的选取更具有目的性;使TTS播报的声音更容易让家庭身边的人“陶醉”、烘托或者缓和气氛,毕竟大家都喜欢听播放儿歌时的音色,而不是查询题目的音色。
优选的是,本实施例的优化生成单元40进一步用于分析所述反馈音频的特征向量,并将所述特征向量对应的参数作为所述声学模型的所述训练集。当训练集对应的云服务器收到该对应的音频时,则分析对应音频的特征向量,并将其特征向量对应的参数作为声学模型的训练集。
参见图11,可选的,优化生成单元40包括有特征向量子单元41、差值比对子单元42和优化项选取子单元43,其中:
特征向量子单元41用于分析至少两个所述意图信息对应的所述反馈音频的所述特征向量;差值比对子单元42用于比对所述至少两个所述意图信息对应的所述特征向量之间的差值;优化项选取子单元43用于根据所述差值与预置的录入规则以选取对应的所述意图信息的所述反馈音频,并将选取的所述反馈音频设为用于优化生成所述训练集的优化项。将不同意图的音频收集后,则分析这些音频对应的音频特征包括但不限于声音的特征向量,一般而言,通过对应声音之间特征向量的差值来选取,如我们认为女性高音会比女性低音相对来说更好听,则找到女性相对高音对应的意图作为以后意图的音频的主要收集项,并将其音频纳入到训练集。
其他实施例中,优化生成单元40可用于判断所述意图信息是否为预置信息,若是则将所述意图信息对应的所述反馈音频设为用于优化生成所述训练集的优化项。具体由语音技术方案提供商对于特定的意图进行事先定义,在收集训练集的同时只收集固定的意图对应的音频并对音频进行分析来优化TTS的声学模型。
参见图8,可选的,采集转化单元10包括采集子单元11和转化子单元12,其中:
采集子单元11用于采集外部输入的语音输入信号;转化子单元12用于通过语音识别技术以将所述语音输入信号转化成文本数据。
可选的,还包括有发送单元,发送单元用于将文本数据发送至NLP引擎;
所述第一分析单元20用于:通过所述NLP引擎分析所述文本数据以获得对应的领域以及意图信息,并根据所述领域和所述意图信息以生成对应的反馈信息。
参见图9,可选的,第一分析单元20包括有转化子单元21、领域意图分析子单元22以及反馈生成子单元24;其中:
转化子单元21用于将所述文本数据转化为机器语言;领域意图分析子单元22用于分析所述机器语言中对应的领域和意图信息;反馈生成子单元23用于根据所述领域和所述意图信息以生成对应的反馈信息。
进一步的,第一分析单元20还包括有槽位填充子单元23,槽位填充子单元23用于根据所述机器语言以填充所述意图信息对应的意图槽位;反馈生成子单元24还用于根据所述领域、所述意图信息以及所述意图槽位以匹配生成对应的反馈信息。首先NLU需要去理解传入文本的意图;例如,NLU服务器将该文本转化为机器可以理解的语言并分析出对话A的意图为播放儿歌,同时填充该意图槽位歌手、歌曲名称为贝瓦儿歌、小兔子乖乖等。将以上领域、意图及相关槽位发送至对话管理系统和语言生成系统,找到与对应意图相关的信息再发送到TTS训练集对应的服务器。
参见图10,第二分析单元30包括有音频特征分析子单元31和反馈音频生成子单元32,其中:
音频特征分析子单元31用于分析所述意图信息对应的音频特征;反馈音频生成子单元32用于将所述音频特征与所述反馈信息结合以生成对应的反馈音频。训练集优化项的收集方式优选为上述的事先定义或者对比声音之间特征向量的差值的方式。TTS训练集对应的云服务器收到该对应的音频时,则分析对应音频的特征向量,并将其特征向量对应的参数作为声学模型的训练集。当意图对应的音频越多,则特征向量越具有代表性,则对声学模型的训练影响越大。
本发明还提供一种存储介质,用于存储如图1~图6所述声学模型训练集的优化生成方法的计算机程序。例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的存储介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输和/或被存储在根据程序指令运行的计算机设备的存储介质中。在此,根据本申请的一个实施例包括如图7所示声学模型训练集的优化生成系统的计算机设备,所述计算机设备优选包括用于存储计算机程序的存储介质和用于执行计算机程序的处理器,其中,当该计算机程序被该处理器执行时,触发该计算机设备执行基于前述多个实施例中的方法和/或技术方案。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
根据本发明的方法可以作为计算机实现方法在计算机上实现、或者在专用硬件中实现、或以两者的组合的方式实现。用于根据本发明的方法的可执行代码或其部分可以存储在计算机程序产品上。计算机程序产品的示例包括存储器设备、光学存储设备、集成电路、服务器、在线软件等。优选地,计算机程序产品包括存储在计算机可读介质上以便当所述程序产品在计算机上执行时执行根据本发明的方法的非临时程序代码部件。
在优选实施例中,计算机程序包括适合于当计算机程序在计算机上运行时执行根据本发明的方法的所有步骤的计算机程序代码部件。优选地,在计算机可读介质上体现计算机程序。
综上所述,本发明所述的声学模型训练集的优化生成方法及其系统,通过分析出语音输入信号所对应的领域和意图信息,并根据意图信息分析对应的音频特征,将所述音频特征对应传入语音合成的反馈语音作为声学模型的训练集的优化项进行优化。从而使得本发明可根据对应的领域和意图信息,在处理数据时,偏向性的训练,以优化相对应的声学模型,最后通过声学模型参数的改变,将数据传入声码器,转化为对应的语音合成的播报声音,使得语音合成播报的声音更容易烘托或者缓和气氛,可避免僵硬的播报方式。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
还提供了A1、一种声学模型训练集的优化生成方法,包括有:
采集转化步骤,采集语音输入信号并转化成文本数据;
第一分析步骤,分析所述文本数据所对应的领域和意图信息,并根据所述领域和所述意图信息以生成对应的反馈信息;
第二分析步骤,分析所述意图信息对应的音频特征,并根据所述音频特征以生成所述反馈信息对应的反馈音频;
优化生成步骤,根据所述反馈音频以优化生成声学模型的训练集。
A2、根据A1所述的声学模型训练集的优化生成方法,所述优化生成步骤进一步包括:
分析所述反馈音频的特征向量,并将所述特征向量对应的参数作为所述声学模型的所述训练集。
A3、根据A2所述的声学模型训练集的优化生成方法,所述优化生成步骤包括:
特征向量步骤,分析至少两个所述意图信息对应的所述反馈音频的所述特征向量;
差值比对步骤,比对所述至少两个所述意图信息对应的所述特征向量之间的差值;
优化项选取步骤,根据所述差值与预置的录入规则以选取对应的所述意图信息的所述反馈音频,并将选取的所述反馈音频设为用于优化生成所述训练集的优化项。
A4、根据A1所述的声学模型训练集的优化生成方法,所述优化生成步骤包括:
判断所述意图信息是否为预置信息,若是则将所述意图信息对应的所述反馈音频设为用于优化生成所述训练集的优化项。
A5、根据A1所述的声学模型训练集的优化生成方法,所述采集转化步骤包括:
采集步骤,采集外部输入的语音输入信号;
转化步骤,通过语音识别技术以将所述语音输入信号转化成所述文本数据。
A6、根据A1所述的声学模型训练集的优化生成方法,所述采集转化步骤之后包括:
发送步骤,将所述文本数据发送至NLP引擎;
所述第一分析步骤包括:
通过所述NLP引擎分析所述文本数据以获得对应的领域以及意图信息,并根据所述领域和所述意图信息以生成对应的反馈信息。
A7、根据A1所述的声学模型训练集的优化生成方法,所述第一分析步骤包括:
转化步骤,将所述文本数据转化为机器语言;
领域意图分析步骤,分析所述机器语言中对应的领域和意图信息;
反馈生成步骤,根据所述领域和所述意图信息以生成对应的反馈信息。
A8、根据A7所述的声学模型训练集的优化生成方法,所述第一分析步骤还包括:
槽位填充步骤,根据所述机器语言以填充所述意图信息对应的意图槽位;
所述反馈生成步骤,根据所述领域、所述意图信息以及所述意图槽位以匹配生成对应的反馈信息。
A9、根据A1所述的声学模型训练集的优化生成方法,所述第二分析步骤包括:
音频特征分析步骤,分析所述意图信息对应的音频特征;
反馈音频生成步骤,将所述音频特征与所述反馈信息结合以生成对应的反馈音频。
还提供了B10、一种声学模型训练集的优化生成系统,包括有:
采集转化单元,用于采集语音输入信号并转化成文本数据;
第一分析单元,用于分析所述文本数据所对应的领域和意图信息,并根据所述领域和所述意图信息以生成对应的反馈信息;
第二分析单元,用于分析所述意图信息对应的音频特征,并根据所述音频特征以生成所述反馈信息对应的反馈音频;
优化生成单元,用于根据所述反馈音频以优化生成声学模型的训练集。
B11、根据B10所述的声学模型训练集的优化生成系统,所述优化生成单元进一步用于:
分析所述反馈音频的特征向量,并将所述特征向量对应的参数作为所述声学模型的所述训练集。
B12、根据B11所述的声学模型训练集的优化生成系统,所述优化生成单元包括:
特征向量子单元,用于分析至少两个所述意图信息对应的所述反馈音频的所述特征向量;
差值比对子单元,用于比对所述至少两个所述意图信息对应的所述特征向量之间的差值;
优化项选取子单元,用于根据所述差值与预置的录入规则以选取对应的所述意图信息的所述反馈音频,并将选取的所述反馈音频设为用于优化生成所述训练集的优化项。
B13、根据B10所述的声学模型训练集的优化生成系统,所述优化生成单元用于:
判断所述意图信息是否为预置信息,若是则将所述意图信息对应的所述反馈音频设为用于优化生成所述训练集的优化项。
B14、根据B10所述的声学模型训练集的优化生成系统,所述采集转化单元包括:
采集子单元,用于采集外部输入的语音输入信号;
转化子单元,用于通过语音识别技术以将所述语音输入信号转化成所述文本数据。
B15、根据B10所述的声学模型训练集的优化生成系统,还包括:
发送单元,用于将所述文本数据发送至NLP引擎;
所述第一分析单元用于:
通过所述NLP引擎分析所述文本数据以获得对应的领域以及意图信息,并根据所述领域和所述意图信息以生成对应的反馈信息。
B16、根据B10所述的声学模型训练集的优化生成系统,所述第一分析单元包括:
转化子单元,用于将所述文本数据转化为机器语言;
领域意图分析子单元,用于分析所述机器语言中对应的领域和意图信息;
反馈生成子单元,用于根据所述领域和所述意图信息以生成对应的反馈信息。
B17、根据B16所述的声学模型训练集的优化生成系统,所述第一分析单元还包括:
槽位填充子单元,用于根据所述机器语言以填充所述意图信息对应的意图槽位;
所述反馈生成子单元,还用于根据所述领域、所述意图信息以及所述意图槽位以匹配生成对应的反馈信息。
B18、根据B10所述的声学模型训练集的优化生成系统,所述第二分析单元包括:
音频特征分析子单元,用于分析所述意图信息对应的音频特征;
反馈音频生成子单元,用于将所述音频特征与所述反馈信息结合以生成对应的反馈音频。
还提供了C19、一种存储介质,用于存储一种用于执行A1~A9中任意一种所述声学模型训练集的优化生成方法的计算机程序。
还提供了D20、一种计算机设备,包括存储介质、处理器以及存储在所述存储介质上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现A1~A9任一项所述的声学模型训练集的优化生成方法。

Claims (10)

1.一种声学模型训练集的优化生成方法,其特征在于,包括有:
采集转化步骤,采集语音输入信号并转化成文本数据;
第一分析步骤,分析所述文本数据所对应的领域和意图信息,并根据所述领域和所述意图信息以生成对应的反馈信息;
第二分析步骤,分析所述意图信息对应的音频特征,并根据所述音频特征以生成所述反馈信息对应的反馈音频;
优化生成步骤,根据所述反馈音频以优化生成声学模型的训练集。
2.根据权利要求1所述的声学模型训练集的优化生成方法,其特征在于,所述优化生成步骤进一步包括:
分析所述反馈音频的特征向量,并将所述特征向量对应的参数作为所述声学模型的所述训练集。
3.根据权利要求2所述的声学模型训练集的优化生成方法,其特征在于,所述优化生成步骤包括:
特征向量步骤,分析至少两个所述意图信息对应的所述反馈音频的所述特征向量;
差值比对步骤,比对所述至少两个所述意图信息对应的所述特征向量之间的差值;
优化项选取步骤,根据所述差值与预置的录入规则以选取对应的所述意图信息的所述反馈音频,并将选取的所述反馈音频设为用于优化生成所述训练集的优化项。
4.根据权利要求1所述的声学模型训练集的优化生成方法,其特征在于,所述优化生成步骤包括:
判断所述意图信息是否为预置信息,若是则将所述意图信息对应的所述反馈音频设为用于优化生成所述训练集的优化项。
5.一种声学模型训练集的优化生成系统,其特征在于,包括有:
采集转化单元,用于采集语音输入信号并转化成文本数据;
第一分析单元,用于分析所述文本数据所对应的领域和意图信息,并根据所述领域和所述意图信息以生成对应的反馈信息;
第二分析单元,用于分析所述意图信息对应的音频特征,并根据所述音频特征以生成所述反馈信息对应的反馈音频;
优化生成单元,用于根据所述反馈音频以优化生成声学模型的训练集。
6.根据权利要求5所述的声学模型训练集的优化生成系统,其特征在于,所述优化生成单元进一步用于:
分析所述反馈音频的特征向量,并将所述特征向量对应的参数作为所述声学模型的所述训练集。
7.根据权利要求6所述的声学模型训练集的优化生成系统,其特征在于,所述优化生成单元包括:
特征向量子单元,用于分析至少两个所述意图信息对应的所述反馈音频的所述特征向量;
差值比对子单元,用于比对所述至少两个所述意图信息对应的所述特征向量之间的差值;
优化项选取子单元,用于根据所述差值与预置的录入规则以选取对应的所述意图信息的所述反馈音频,并将选取的所述反馈音频设为用于优化生成所述训练集的优化项。
8.根据权利要求5所述的声学模型训练集的优化生成系统,其特征在于,所述优化生成单元用于:
判断所述意图信息是否为预置信息,若是则将所述意图信息对应的所述反馈音频设为用于优化生成所述训练集的优化项。
9.一种存储介质,其特征在于,用于存储一种用于执行权利要求1~9中任意一种所述声学模型训练集的优化生成方法的计算机程序。
10.一种计算机设备,包括存储介质、处理器以及存储在所述存储介质上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~9任一项所述的声学模型训练集的优化生成方法。
CN202010617793.7A 2020-06-30 2020-06-30 声学模型训练集的优化生成方法、系统、存储介质及其计算机设备 Pending CN113948059A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010617793.7A CN113948059A (zh) 2020-06-30 2020-06-30 声学模型训练集的优化生成方法、系统、存储介质及其计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010617793.7A CN113948059A (zh) 2020-06-30 2020-06-30 声学模型训练集的优化生成方法、系统、存储介质及其计算机设备

Publications (1)

Publication Number Publication Date
CN113948059A true CN113948059A (zh) 2022-01-18

Family

ID=79325825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010617793.7A Pending CN113948059A (zh) 2020-06-30 2020-06-30 声学模型训练集的优化生成方法、系统、存储介质及其计算机设备

Country Status (1)

Country Link
CN (1) CN113948059A (zh)

Similar Documents

Publication Publication Date Title
US11798528B2 (en) Systems and methods for providing notifications within a media asset without breaking immersion
US10381016B2 (en) Methods and apparatus for altering audio output signals
CN107454508B (zh) 麦克风阵列的电视机及电视系统
US10056078B1 (en) Output of content based on speech-based searching and browsing requests
CN109346076A (zh) 语音交互、语音处理方法、装置和系统
US20130144626A1 (en) Rap music generation
KR20210086974A (ko) 교차 언어 음성 변환 시스템 및 방법
WO2020098756A1 (zh) 一种基于情感的语音交互方法、存储介质及终端设备
WO2023222088A1 (zh) 语音识别与分类方法和装置
JP2017021125A (ja) 音声対話装置
WO2019114015A1 (zh) 一种机器人的演奏控制方法及机器人
CN110853606A (zh) 一种音效配置方法、装置及计算机可读存储介质
JP2023527473A (ja) オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器
CN112669838A (zh) 一种智能音箱音频播放方法、装置、电子设备、存储介质
CN111105776A (zh) 有声播放装置及其播放方法
CN113345407B (zh) 一种风格语音合成方法、装置、电子设备及存储介质
CN109460548B (zh) 一种面向智能机器人的故事数据处理方法及系统
CN113035203A (zh) 一种动态变换语音应答风格的控制方法
CN113948059A (zh) 声学模型训练集的优化生成方法、系统、存储介质及其计算机设备
CN108172241B (zh) 一种基于智能终端的音乐推荐方法及音乐推荐系统
CN114664303A (zh) 连续语音指令快速识别控制系统
CN113948071A (zh) 语音交互方法、装置、存储介质以及计算机设备
CN113948086A (zh) 智能交互的多轮对话方法、系统、存储介质及其计算机设备
WO2022041177A1 (zh) 通信消息处理方法、设备及即时通信客户端
CN113948058A (zh) 语音合成方法、系统、存储介质及其计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20220118

WD01 Invention patent application deemed withdrawn after publication