CN112712798B - 私有化数据获取方法及装置 - Google Patents

私有化数据获取方法及装置 Download PDF

Info

Publication number
CN112712798B
CN112712798B CN202011543728.0A CN202011543728A CN112712798B CN 112712798 B CN112712798 B CN 112712798B CN 202011543728 A CN202011543728 A CN 202011543728A CN 112712798 B CN112712798 B CN 112712798B
Authority
CN
China
Prior art keywords
data
user
model
training
privatized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011543728.0A
Other languages
English (en)
Other versions
CN112712798A (zh
Inventor
薛少飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN202011543728.0A priority Critical patent/CN112712798B/zh
Publication of CN112712798A publication Critical patent/CN112712798A/zh
Application granted granted Critical
Publication of CN112712798B publication Critical patent/CN112712798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种私有化数据获取方法及装置,方法包括:响应于用户私有化语音模型的更新,获取所述用户私有化语音模型更新后的模型参数;基于所述模型参数同步更新与所述用户对应的数据海绵系统,其中,所述数据海绵系统与所述用户私有化语音模型互为反向技术;至少基于更新后的数据海绵系统生成模拟用户数据。在用户优化私有化语音模型时,提取私有化语言模型中的模型参数,采用模型参数同步更新数据海绵系统,通过数据海绵系统合成模拟用户数据,并将模拟用户数据用于优化通用语音识别模型,使得在不需要拷贝任何用户私有的明文音频和明文文本的前提下,实现了对通用语音识别模型进行优化,避免了引入数据安全问题。

Description

私有化数据获取方法及装置
技术领域
本发明属于语音数据获取技术领域,尤其涉及一种私有化数据获取方法及装置。
背景技术
语音识别系统在实际应用中常因数据安全性的问题而需要私有化部署,用户也常常会利用自己所拥有的场景化数据对语音识别声学模型进行优化,而由于数据安全性等问题,该部分数据通常不会提供给语音识别系统的提供方,因此,语音识别系统的提供方无法直接使用该部分数据进行通用模型的优化,从而阻碍了通用模型在该类场景上的效果提升。
现有技术中对私有化声学数据用于语音识别建模的获取具体方式为将用户用自身数据调优后的私有化声学模型获取到,然后利用以下集中可能的方式进行模型融合:
1)在模型的权重参数层面对用户私有化声学模型和我们的通用模型进行加权融合;
2)在后续使用时同时利用用户私有化声学模型和我们的通用模型进行声学打分,然后将打分进行加权融合。
但是,上述方式分别存在以下问题:
在模型的权重参数层面融合后效果不理想:将用户优化后的声学模型和通用声学模型在权重层面进行融合通常很难保证融合后的效果,现有一些方法虽然可以减轻这种影响,但整体上看都会造成在用户场景和通用场景的识别效果下降,不具备很好的推广性。
同时使用用户私有化声学模型和我们的通用模型进行声学打分,然后将打分进行加权融合:该方法虽然在效果上优于上一种方法,但是存在两个问题:一是显著增加了模型计算的复杂度和和时间,此时需要同时计算用户声学模型和通用声学模型的打分;二是当需要将不多客户的多个声学模型和通用模型进行融合时,该方法会因计算复杂度和融合调优难度而变得不可行。
发明内容
本发明实施例提供一种私有化数据获取方法及装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种私有化数据获取方法,包括:响应于用户私有化语音模型的更新,获取所述用户私有化语音模型更新后的模型参数;基于所述模型参数同步更新与所述用户对应的数据海绵系统,其中,所述数据海绵系统与所述用户私有化语音模型互为反向技术;至少基于更新后的数据海绵系统生成模拟用户数据。
第二方面,本发明实施例提供一种私有化数据获取装置,包括:获取模块,配置为响应于用户私有化语音模型的更新,获取所述用户私有化语音模型更新后的模型参数;同步更新模块,配置为基于所述模型参数同步更新与所述用户对应的数据海绵系统,其中,所述数据海绵系统与所述用户私有化语音模型互为反向技术;生成模块,配置为至少基于更新后的数据海绵系统生成模拟用户数据。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的私有化数据获取方法的步骤。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的私有化数据获取方法的步骤。
本发明实施例提供的私有化数据获取方法及装置,在用户优化私有化语音模型时,提取私有化语言模型中的模型参数,采用模型参数同步更新数据海绵系统,通过数据海绵系统合成模拟用户数据,并将模拟用户数据用于优化通用语音识别模型,使得在不需要拷贝任何用户私有的明文音频和明文文本的前提下,实现了对通用语音识别模型进行优化,避免了引入数据安全问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种私有化数据获取方法的流程图;
图2为本发明一实施例提供的又一种私有化数据获取方法的流程图;
图3为本发明一实施例提供的一个具体实施例的结合用户隐私数据知识的通用训练框图;
图4为本发明一实施例提供的一种私有化数据获取装置的框图;
图5是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
请参阅图1,其示出了本申请提供的私有化数据获取方法一实施例的流程图,本实施例的私有化数据获取方法可以适用于具备语音合成模型的终端。
如图1所示,本申请的私有化数据获取方法具体包括以下步骤:
在步骤101中,响应于用户私有化语音模型的更新,获取用户私有化语音模型更新后的模型参数。
在本实施中,私有化数据获取装置响应于用户私有化语音模型的更新,获取用户私有化语音模型更新后的模型参数,例如,用户私有化语音模型可以是语音识别模型(语音转文本),用户优化私有化的语音识别系统,在语音识别系统训练完成以后将语音识别系统中模型参数从用户的私有化环境中拷贝出来。
本实施的方案,采用获取用户私有化语音模型更新后的模型参数,使得获得的内容中不包含任何显式或可逆的音频及文本信息,数据安全得到了保证,解决了获取用户隐私数据知识时的安全性问题。
在步骤102中,基于模型参数同步更新与用户对应的数据海绵系统,其中,数据海绵系统与用户私有化语音模型互为反向技术。
在本实施中,私有化数据获取装置基于模型参数同步更新与用户对应的数据海绵系统,其中,数据海绵系统与用户私有化语音模型互为反向技术,例如,数据海绵系统可以是音频合成系统(文本转语音),将音频合成系统引入到用户的私有环境中,该音频合成系统承担着“数据海绵”的角色,通过音频合成系统来记忆“用户数据”的信息,用户在优化自己的语音识别系统的同时,也同步训练该语音合成系统,认为音频合成系统可以“记忆”和“存储”用户声学数据的特性。需要说明的是,用户私有化语音模型也可以是现有技术中的或者未来开发的其他的可能用到用户数据的模型或系统,本申请的目的是通过反向技术去模拟相应的用户数据从而保护用户隐私不泄露。
本实施例的方案,采用模型参数对用户对应的数据海绵系统进行同步更新,使得数据海绵系统能够对模型参数中包含的用户声学数据的特性进行“记忆”和“存储”。
在步骤103中,至少基于更新后的数据海绵系统生成模拟用户数据。
本实施例的方案,私有化数据获取装置至少基于更新后的数据海绵系统生成模拟用户数据,在用户的私有化环境中,用户在优化自己的语音识别系统的同时,也同步训练数据海绵系统,数据海绵系统利用训练语音识别模型的音频和对应标注文本进行训练。在给定一些文本和参数化的声学环境信息的情况下,使得数据海绵系统可以合成目标语音,即目标语音为模拟用户数据,从而实现“记忆”和“存储”用户声学数据特性的数据海绵系统能够对自定义的文本数据进行合成模拟用户语音数据。
上述方法,采用在用户优化私有化语音模型时,提取私有化语言模型中的模型参数,基于模型参数同步更新数据海绵系统,通过数据海绵系统将自定义的文本数据合成模拟用户数据,并将模拟用户数据用于优化通用语音识别模型,使得在不需要拷贝任何用户私有的明文音频和明文文本的前提下,实现了对通用语音识别模型进行优化,避免了引入数据安全问题。
在一些可选的实施例中,模型参数为参数化的声学环境信息,用户私有化语音模型为用户私有化语音识别模型,数据海绵系统为音频合成系统,至少基于更新后的数据海绵系统生成模拟用户数据包括:将获取的参数化的声学环境信息和预设合成文本输入至音频合成系统以合成模拟用户数据。
本实施例的方案,通过引入参数化的声学环境信息,可以对用户数据提取参数化的声学环境信息,增强了模型对于用户数据特性的记忆能力和用于模拟生成用户数据时的泛化能力,从而提高了优化通用模型的效率和效果。
在一些可选的实施例中,参数化的声学环境信息包括说话人的信息、噪声环境的信息或语速的信息。
本实施例的方案,在数据海绵系统中引入参数化的声学环境信息,表征不同的说话人、噪声环境、语速等信息,在用户在优化自己的语音识别系统的同时,也同步训练数据海绵系统,而后将数据海绵系统和参数化的声学环境信息从用户私有环境中拷贝出来,之后在另一训练环境中可以使用数据海绵系统和自己定义的文本数据生成模拟数据,模拟音频数据与自有的数据一起训练,再利用用户模拟数据信息不断优化通用声学模型。
请参阅图2,其示出了本申请的又一私有化数据获取方法的流程图,该流程图主要是对步骤103“至少基于更新后的数据海绵系统生成模拟用户数据”的情况的进一步限定的步骤的流程图。
如图2所示,在步骤201中,将模拟用户数据和通用音频数据进行结合,使生成训练音频数据。
在步骤202中,响应于获取的训练音频数据和与训练音频数据对应的标注文本,对通用语音识别模型进行训练。
在本实施例中,对于步骤201,私有化数据获取装置将模拟用户数据和通用音频数据进行结合,使生成训练音频数据。
之后,对于步骤202,私有化数据获取装置响应于获取的训练音频数据和与训练音频数据对应的标注文本,对通用语音识别模型进行训练,
本实施的方法,将模拟用户数据和通用音频数据进行结合,通过训练音频数据和与训练音频数据对应的标注文本进行语音识别系统的训练,使通用语音识别模型在某些用户场景下也能得到明显的效果提升。
在一些可选的实施例中,响应于获取的训练音频数据和与训练音频数据对应的标注文本,对通用语音识别模型进行训练包括:响应于获取的训练音频数据和与训练音频数据对应的标注文本,基于一般性学习方法和增量学习方法对通用语音识别模型进行训练。
本实施的方法,通过一般性学习和增量学习等方法进行语音识别系统的训练,使通用识别模型在某些用户场景下也能得到明显的效果提升。
需要说明的是,上述方法步骤并不用于限制各步骤的执行顺序,实际上,某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行,本申请在此没有限制。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
发明人在实现本申请的过程中发现现有技术中存在的缺陷主要是由以下原因导致的:
1、神经网络声学模型是一种非线性模型,通常在权重层面进行的权重参数融合都很难取得良好的效果。
2、神经网络声学模型的计算复杂度通常较高,当需要将不多客户的多个声学模型和通用模型进行融合时,该方法会因计算复杂度和融合调优难度而变得不可行。
发明人还发现:通常在实践中从业人员一般会和用户进行沟通,部署一套声学特征提取工具到用户的私有环境中,进行敏感数据的特征提取,这些提取出的特征不能被播放或可逆,而后将这些特征和对应的文本标注数据拷贝出来,拿到自己的模型训练环境中与其它的数据联合起来进行模型训练。该方法存在以下几个问题:
问题一、数据安全性只得到了部分解决,虽然音频数据通过该方法得到了数据安全保障,但由于需要将对应的文本标注拷出,仍存在一定的数据安全风险;
问题二、当用户对数据隐私安全要求极高,不允许任何数据的流出时,该方法不能解决问题;
问题三、由于该方法拷贝出的声学特征不可逆成为音频,后续如果建模所用声学特征发生改变时,需要再次重复这一过程去获取新的特征数据,在实践中通常不可行或会非常麻烦。
本申请的方案主要从以下几个方面入手进行设计和优化来解决从用户处获取用于语音识别声学建模的隐私数据知识时,引入数据安全性风险的问题:
1)首先不同于“部署一套声学特征提取工具到用户的私有环境中,进行敏感数据的特征提取,这些提取出的特征不能被播放或可逆,而后将这些特征和对应的文本标注数据拷贝出来,拿到自己的模型训练环境中与其它的数据联合起来进行模型训练”这种方法。引入一套特别设计的“语音合成系统”到用户的私有环境中,该语音合成系统承担着“数据海绵”的角色,通过它来记忆“用户数据”的信息。用户在优化自己的语音识别系统的同时,也同步训练该语音合成系统,认为其可以“记忆”和“存储”用户声学数据的特性。
2)通过引入参数化的声学环境信息,表征不同的说话人、噪声环境、语速等信息。可以增加“数据海绵”对于用户数据特性的记忆能力和用于模拟生成用户数据时的泛化能力。
在语音合成模型中引入参数化的声学环境信息,表征不同的说话人、噪声环境、语速等信息。在用户在优化自己的语音识别系统的同时,也同步训练该语音合成系统,而后将该语音合成系统和参数化的声学环境信息从用户私有环境中拷贝出来,之后在自己的训练环境中可以使用该“合成系统”和自己定义的文本数据生成模拟数据,模拟音频数据与自有的数据一起训练,再利用用户“数据信息”不断优化通用声学模型的同时,由于不需要拷贝任何明文的音频和文本,也避免了引入数据安全问题。同时由于参数化的声学环境信息的引入,可以对用户数据提取参数化的声学环境信息,增强了模型对于用户数据特性的记忆能力和用于模拟生成用户数据时的泛化能力。提高了优化通用模型的效率和效果。
请参阅图3,其示出了一个具体实施例的结合用户隐私数据知识的通用训练框图。
如图3所示,在用户的私有化环境中,用户在优化自己的语音识别系统的同时,也同步训练该“数据海绵”系统(例如一个语音合成系统)。该系统利用训练语音识别系统(ASR)的音频和对应标注文本,结合参数化的声学环境信息(例如对音频提取i-vector),进行训练。该系统在给定一些文本和参数化的声学环境信息的情况下可以合成目标语音。该系统训练完成以后将系统模型参数和参数化的声学环境信息从用户的私有化环境中拷贝出来,由于拷贝出的内容中不包含任何显式或可逆的音频及文本信息,数据安全得到了保证。
在用户的私有化环境中,用户在优化自己的语音识别系统的同时,也同步训练该“数据海绵”系统(例如一个语音合成系统)。该系统利用训练语音识别系统(ASR)的音频和对应标注文本,结合参数化的声学环境信息(例如对音频提取i-vector),进行训练。该系统在给定一些文本和参数化的声学环境信息的情况下可以合成目标语音。该系统训练完成以后将系统模型参数和参数化的声学环境信息从用户的私有化环境中拷贝出来,由于拷贝出的内容中不包含任何显式或可逆的音频及文本信息,数据安全得到了保证。
本申请旨在提供一种既满足数据安全性要求,又能将用户场景化数据相关信息参数化,从而安全有效的提供给语音识别系统提供方,进行通用模型优化的方法。对于音识别系统提供方优化自身语音识别效果,提升产品竞争力有重要意义。具体实现的技术效果如下:
A:解决了从获取用户隐私数据知识时的安全性问题;
B:使得可以安全便捷的持续从用户处针对性的获取数据,来优化通用的语音识别声学模型,提升模型效果。
C:可能建立起一套用于语音识别建模的私有化数据信息获取的行业标准。
请参阅图4,其示出了本申请一实施例提供的私有化数据获取装置的框图。
如图4所示,私有数据获取装置300,包括获取模块310、同步更新模块320以及生成模块330
其中,获取模块310,配置为响应于用户私有化语音模型的更新,获取用户私有化语音模型更新后的模型参数;同步更新模块320,配置为基于模型参数同步更新与用户对应的数据海绵系统,其中,数据海绵系统与用户私有化语音模型互为反向技术;生成模块330,配置为至少基于更新后的数据海绵系统生成模拟用户数据。
应当理解,图4中记载的诸模块与参考图1和图2中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图4中的诸模块,在此不再赘述。
值得注意的是,本公开的实施例中的私有数据获取装置300还包括结合模块和训练模块。
其中,结合模块,配置为将模拟用户数据和通用音频数据进行结合,使生成训练音频数据;训练模块,配置为响应于获取的训练音频数据和与训练音频数据对应的标注文本,对通用语音识别模型进行训练。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的私有数据获取方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
响应于用户私有化语音模型的更新,获取用户私有化语音模型更新后的模型参数;
基于模型参数同步更新与用户对应的数据海绵系统,其中,数据海绵系统与用户私有化语音模型互为反向技术;
至少基于更新后的数据海绵系统生成模拟用户数据。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据私有数据获取装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至私有数据获取装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项私有数据获取方法。
图5是本发明实施例提供的电子设备的结构示意图,如图5所示,该设备包括:一个或多个处理器410以及存储器420,图5中以一个处理器410为例。私有数据获取方法的设备还可以包括:输入装置430和输出装置440。处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接,图5中以通过总线连接为例。存储器420为上述的非易失性计算机可读存储介质。处理器410通过运行存储在存储器420中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例私有数据获取方法。输入装置430可接收输入的数字或字符信息,以及产生与私有数据获取装置的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于私有数据获取装置中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
响应于用户私有化语音模型的更新,获取用户私有化语音模型更新后的模型参数;
基于模型参数同步更新与用户对应的数据海绵系统,其中,数据海绵系统与用户私有化语音模型互为反向技术;
至少基于更新后的数据海绵系统生成模拟用户数据。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种私有化数据获取方法,包括:
响应于用户私有化语音模型的更新,获取所述用户私有化语音模型更新后的模型参数;
基于所述模型参数同步更新与所述用户对应的数据海绵系统,其中,所述数据海绵系统与所述用户私有化语音模型互为反向技术;
至少基于更新后的数据海绵系统生成模拟用户数据;
将所述模拟用户数据和通用音频数据进行结合生成训练音频数据;
响应于获取的所述训练音频数据和与所述训练音频数据对应的标注文本,对通用语音识别模型进行训练。
2.根据权利要求1所述的方法,其中,所述模型参数为参数化的声学环境信息,所述用户私有化语音模型为用户私有化语音识别模型,所述数据海绵系统为音频合成系统,所述至少基于更新后的数据海绵系统生成模拟用户数据包括:
将获取的所述参数化的声学环境信息和预设合成文本输入至所述音频合成系统以合成模拟用户数据。
3.根据权利要求2所述的方法,其中,所述参数化的声学环境信息包括说话人的信息、噪声环境的信息和/或语速的信息。
4.根据权利要求1所述的方法,其中,所述响应于获取的所述训练音频数据和与所述训练音频数据对应的标注文本,对通用语音识别模型进行训练包括:
响应于获取的所述训练音频数据和与所述训练音频数据对应的标注文本,基于一般性学习方法和增量学习方法对通用语音识别模型进行训练。
5.根据权利要求1至4中任一项所述的方法,其中,在响应于获取的所述训练音频数据和与所述训练音频数据对应的标注文本,对通用语音识别模型进行训练之后,所述方法还包括:
响应于获取的某一场景化的音频数据,基于所述通用语音识别模型输出标注文本。
6.一种私有化数据获取装置,包括:
获取模块,配置为响应于用户私有化语音模型的更新,获取所述用户私有化语音模型更新后的模型参数;
同步更新模块,配置为基于所述模型参数同步更新与所述用户对应的数据海绵系统,其中,所述数据海绵系统与所述用户私有化语音模型互为反向技术;
生成模块,配置为至少基于更新后的数据海绵系统生成模拟用户数据;
结合模块,配置为将所述模拟用户数据和通用音频数据进行结合生成训练音频数据;和
训练模块,配置为响应于获取的所述训练音频数据和与所述训练音频数据对应的标注文本,对通用语音识别模型进行训练。
7.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至5任一项所述方法的步骤。
8.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。
CN202011543728.0A 2020-12-23 2020-12-23 私有化数据获取方法及装置 Active CN112712798B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011543728.0A CN112712798B (zh) 2020-12-23 2020-12-23 私有化数据获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011543728.0A CN112712798B (zh) 2020-12-23 2020-12-23 私有化数据获取方法及装置

Publications (2)

Publication Number Publication Date
CN112712798A CN112712798A (zh) 2021-04-27
CN112712798B true CN112712798B (zh) 2022-08-05

Family

ID=75543913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011543728.0A Active CN112712798B (zh) 2020-12-23 2020-12-23 私有化数据获取方法及装置

Country Status (1)

Country Link
CN (1) CN112712798B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1379391A (zh) * 2001-04-06 2002-11-13 国际商业机器公司 由文本生成个性化语音的方法
CN1496554A (zh) * 2001-02-26 2004-05-12 ���µ�����ҵ��ʽ���� 声音个性化的语音合成器
CN1760972A (zh) * 2004-10-15 2006-04-19 微软公司 使用合成输入测试和调整语音识别系统
CN106663219A (zh) * 2014-04-17 2017-05-10 软银机器人欧洲公司 处理与机器人的对话的方法和系统
EP3557499A1 (en) * 2018-04-20 2019-10-23 Facebook, Inc. Assisting users with efficient information sharing among social connections
CN111988476A (zh) * 2020-09-25 2020-11-24 南京酷朗电子有限公司 客户服务系统的自动语音协同工作方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1496554A (zh) * 2001-02-26 2004-05-12 ���µ�����ҵ��ʽ���� 声音个性化的语音合成器
CN1379391A (zh) * 2001-04-06 2002-11-13 国际商业机器公司 由文本生成个性化语音的方法
CN1760972A (zh) * 2004-10-15 2006-04-19 微软公司 使用合成输入测试和调整语音识别系统
CN106663219A (zh) * 2014-04-17 2017-05-10 软银机器人欧洲公司 处理与机器人的对话的方法和系统
EP3557499A1 (en) * 2018-04-20 2019-10-23 Facebook, Inc. Assisting users with efficient information sharing among social connections
CN111988476A (zh) * 2020-09-25 2020-11-24 南京酷朗电子有限公司 客户服务系统的自动语音协同工作方法

Also Published As

Publication number Publication date
CN112712798A (zh) 2021-04-27

Similar Documents

Publication Publication Date Title
US10803851B2 (en) Method and apparatus for processing speech splicing and synthesis, computer device and readable medium
CN113946211A (zh) 基于元宇宙的多个对象的交互方法及相关设备
KR20210001859A (ko) 3차원 가상 인물 입모양 변화 제어 방법 및 장치
CN106020449B (zh) 一种虚拟现实的交互方法及装置
CN109410297A (zh) 一种用于生成虚拟化身形象的方法与装置
CN111813910B (zh) 客服问题的更新方法、系统、终端设备及计算机存储介质
CN110174942B (zh) 眼动合成方法及装置
EP4131083A2 (en) Method and apparatus for generating federated learning model
CN112599116B (zh) 语音识别模型训练方法和语音识别联邦训练系统
CN111553138B (zh) 用于规范内容结构文档的辅助写作方法及装置
CN111383642B (zh) 基于神经网络的语音应答方法、存储介质以终端设备
KR102407132B1 (ko) 고인을 모사하는 가상 인물과 대화를 수행하는 서비스를 제공하는 방법 및 시스템
CN109785687A (zh) 一种用于在线视频教学的数据处理方法、装置及系统
CN114237540A (zh) 一种智慧课堂在线教学互动方法、装置、存储介质及终端
CN112672207B (zh) 音频数据处理方法、装置、计算机设备及存储介质
CN114025235A (zh) 视频生成方法、装置、电子设备及存储介质
CN111128120B (zh) 文本转语音方法和装置
CN112712798B (zh) 私有化数据获取方法及装置
CN114760274B (zh) 在线课堂的语音交互方法、装置、设备及存储介质
CN110209267A (zh) 终端、服务器以及虚拟场景调整方法、介质
CN110600021A (zh) 室外智能语音交互方法、装置和系统
CN110516043A (zh) 用于问答系统的答案生成方法和装置
CN113409767B (zh) 一种语音处理方法、装置、电子设备及存储介质
CN112530413B (zh) 语音识别模型自训练方法及系统
CN112825245B (zh) 实时修音方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Co.,Ltd.

GR01 Patent grant
GR01 Patent grant