CN112185362A - 针对用户个性化服务的语音处理方法及装置 - Google Patents
针对用户个性化服务的语音处理方法及装置 Download PDFInfo
- Publication number
- CN112185362A CN112185362A CN202011014640.XA CN202011014640A CN112185362A CN 112185362 A CN112185362 A CN 112185362A CN 202011014640 A CN202011014640 A CN 202011014640A CN 112185362 A CN112185362 A CN 112185362A
- Authority
- CN
- China
- Prior art keywords
- user
- voice
- model
- target user
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims description 11
- 238000000034 method Methods 0.000 claims abstract description 58
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims description 65
- 230000008569 process Effects 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 2
- 230000003993 interaction Effects 0.000 abstract description 23
- 230000003044 adaptive effect Effects 0.000 description 43
- 230000006870 function Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 7
- 230000006978 adaptation Effects 0.000 description 6
- 238000005457 optimization Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开一种针对用户个性化服务的语音交互方法及装置。在该方法中,获取用户个性化语音服务请求;确定所述用户个性化语音服务请求所对应的目标用户声纹信息;根据所述目标用户声纹信息,确定相应的目标用户语音模型;基于所述目标用户语音模型处理所述用户个性化语音服务请求。由此,利用用户声纹信息来自适应地确定用户语音模型,可以实现较高性能的用户个性化语音服务。
Description
技术领域
本发明属于语音处理技术领域,尤其涉及一种针对用户个性化服务的语音处理方法及装置。
背景技术
随着智能时代的到来,人们对于语音交互体验的要求也在不断提升。目前,虽然市面上已有的语音交互系统中可以支持ASR(Automatic Speech Recognition,自动语音识别)、TTS(Text To Speech,文本语音转换)等功能。
然而,在需要为不同的用户分别提供个性化的语音交互服务时,目前的语音交互系统的表现性能往往不如人意。
针对上述问题,目前业界暂时并未提供较佳的解决方案。
发明内容
本发明实施例提供一种针对用户个性化服务的语音处理方法及装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种针对用户个性化服务的语音处理方法,应用于个性化服务处理服务器,所述方法包括:获取用户个性化语音服务请求;确定所述用户个性化语音服务请求所对应的目标用户声纹信息;根据所述目标用户声纹信息,确定相应的目标用户语音模型;基于所述目标用户语音模型处理所述用户个性化语音服务请求。
第二方面,本发明实施例提供一种针对用户个性化服务的语音处理装置,包括:语音请求获取程序模块,被配置为获取用户个性化语音服务请求;声纹信息确定程序模块,被配置为确定所述用户个性化语音服务请求所对应的目标用户声纹信息;目标模型确定程序模块,被配置为根据所述目标用户声纹信息,确定相应的目标用户语音模型;语音消息处理程序模块,被配置为基于所述目标用户语音模型处理所述用户个性化语音服务请求。
第三方面,本发明实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本发明实施例的有益效果在于:识别用户个性化语音服务请求所对应的目标用户声纹信息,并利用该目标用户声纹信息来确定相应的目标用户语音模型,以提供个性化的语音服务。由此,利用用户声纹信息来自适应地确定用户语音模型,可以实现较高性能的用户个性化语音服务,保障了用户在个性化语音交互服务中的用户体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明实施例的针对用户个性化服务的语音处理方法的一示例的流程图;
图2示出了根据本发明实施例的根据目标用户声纹信息确定目标用户语音模型的一示例的流程图;
图3示出了根据本发明实施例的针对用户个性化服务的语音处理方法的一示例的流程图;
图4示出了适于应用本发明实施例的针对用户个性化服务的语音处理方法的系统一示例的架构示意图;
图5示出了根据本发明实施例的针对用户个性化服务的语音处理装置的一示例的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“系统”等等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
图1示出了根据本发明实施例的针对用户个性化服务的语音处理方法的一示例的流程图。关于本发明方法实施例的执行主体,其可以是专用于处理或响应用户的个性化服务请求的服务器,即个性化服务处理服务器。此外,个性化服务处理服务器还可以被称为是模型自适应服务器,其可以根据用户的语音服务请求而自适应地确定相应的用户语音模型来进行响应。
应理解的是,用户个性化的语音服务可以表示与用户个人紧密相关的各项语音服务,并且可以不同于由通用的语音模块所提供的服务过程,例如语音“chengming”在一些应用场景下期望被识别为“成名”,而在另一些应用场景期望被识别为“程明”。
需说明的是,为了实现针对用户个性化服务的模型,一般需要由用户主动地去录入数据,并且人为地触发自适应的训练才能得到自适应模型,导致操作过程比较繁琐,并且由于用户提供的数据量是有限的,导致训练样本不足,模型性能不佳。此外,为了保证比较高的准确性,通常使用的方案会导致完成自适应的训练和更新时间较长,不能达到性能和速度比较好的平衡。
此外,在目前的语音交互系统中,通常会存储大量的ASR历史语音数据,但通常这些数据只能和某一个设备有对应关系,无法做到与具体的用户一一对应,如果要使用已有的用户ASR音频数据做TTS的自适应训练,需要标注出每一个音频属于哪一个用户,导致标注方案的代价是非常大的,不具备实际操作的可行性。
如图1所示,在步骤110中,获取用户个性化语音服务请求。示例性地,用户终端设备可以同时集成通用语音服务功能和个性化语音服务功能,而当用户选择使用个性化语音服务功能时,用户终端可以向个性化服务处理器发送相应的用户个性化语音服务请求。
在步骤120中,确定用户个性化语音服务请求所对应的目标用户声纹信息。
应理解的是,可以通过各种已知的或潜在的声纹识别方式来确定用户个性化语音消息,或者在用户个性化语音服务请求中可以包含相应的目标用户声纹信息,且都属于本发明实施例的实施范围内。
在步骤130中,根据目标用户声纹信息,确定相应的目标用户语音模型。
在本发明实施例的一个示例中,在个性化服务处理服务器中可以存在语音模型库,语音模型库中存在多个用户语音模型,每一用户语音模型分别配置有相应的用户声纹信息。因此,可以根据目标用户声纹信息,从语音模型库中确定相应的目标用户语音模型,以提供个性化的语音交互服务。在本发明实施例的另一示例中,用户个性化语音服务请求中可以包括用户希望个性化识别的内容,例如希望语音交互系统将“chengming”识别为“程明”,此时可以基于个性化识别的内容来对通用型模型进行优化或训练,从而确定与用户声纹信息相对应的个性化用户语音模型(或,自适应模型)。进一步地,还可以将上述示例进行结合,例如还可以利用所确定的个性化用户语音模型来构建或完善语音模型库,或者,如果在语音模型库中未找到相匹配的用户语音模型时,则确定或构建新的个性化用户语音模型。
在步骤140中,基于目标用户语音模型处理用户个性化语音服务请求。在本发明实施例的一个示例中,可以由个性化服务处理服务器来直接处理个性化语音服务请求,以提供个性化的用户语音交互服务。在本发明实施例的另一示例,还可以由个性化服务处理服务器来调用其他的服务器或用户设备来处理个性化语音服务请求,以提供个性化的用户语音交互服务。
通过本发明实施例,可以利用声音中的声纹信息来确定与不同用户相对应的用户语音模型,语音交互过程与普通的语音交互过程基本无异,无需用户额外输入其他附加信息,保障了个性化语音服务的用户体验。
关于上述步骤120中的操作的细节,可以基于声纹识别模型确定用户个性化语音服务请求所对应的用户声纹信息,以通过模型的方式识别出相应的用户声纹信息。这里,声纹识别模型的训练样本集包括预设数量个用户声纹注册语音消息。应理解的是,用户声纹信息是服务器进行模型自适应匹配操作的关键所在,因此用户声纹注册语音消息的预设数量可以是尽量多一些。举例来说,假如初期注册声纹信息时用户只是注册了3条声纹注册语音信息,可以要求用户追加2条声纹注册语音信息,这样在验证阶段由原来的比对3条变为比对5条(即,预设数量个),比对正确的可能性就增加,可以提升声纹验证的准确性。此外,如果在用户历史语音数据库中存在该用户在过往操作中所产生的历史语音数据(例如,唤醒操作所对应语音数据),则也可以利用该历史语音数据丰富声纹识别模型的训练样本集,从而提升声纹识别结果的可靠性。
图2示出了根据本发明实施例的根据目标用户声纹信息确定目标用户语音模型的一示例的流程图。
如图2所示,在步骤210中,基于目标用户声纹信息,从用户历史语音数据库中筛选目标用户历史语音数据。示例性地,可以将用户历史语音数据库中的各个用户历史语音数据所对应的声纹信息与目标用户声纹信息进行比对,从而筛选出目标用户历史语音数据。
在步骤220中,基于目标用户历史语音数据和用户个性化语音服务请求训练用户语音模型,并将已完成训练的用户语音模型确定为目标用户语音模型。示例性地,可以从用户个性化语音服务请求中解析出用户希望个性化识别的内容,并将此内容结合该用户的历史语音数据来构建用户语音模型的训练样本集。
如上面所描述的一样,在目前的语音交互系统中,ASR的用户历史语音数据很难做到和用户个人一一对应。然而,在语音交互系统中集成声纹功能后,利用用户的声纹信息就可以与用户数据账号信息互通,将ASR的用户历史语音数据与用户个人进行对应,拥有这种对应关系后,用户历史语音数据就可以用于训练自适应的TTS、ASR模型。
通过本发明实施例,可以利用用户个性化语音服务请求来触发对用户语音模型的优化操作,并且还会结合用户的历史语音数据进行相应的训练优化操作,使得所确定的目标用户语音模型能够满足用户的个性化语音服务需求。
需说明的是,在目前多数的语音交互系统中,由于不具备同时集成ASR、TTS、声纹自适应的条件和能力,而只具备单一的功能集成,无法形成完整的产品系统,导致其性能也不够强大。
图3示出了根据本发明实施例的针对用户个性化服务的语音处理方法的一示例的流程图。这里,语音交互系统可以同时支持多个用户个性化的业务功能,例如用户个性化的ASR、TTS功能等。
如图3所示,在步骤310中,获取用户个性化语音服务请求。
在步骤320中,确定用户个性化语音服务请求所对应的目标用户声纹信息。关于步骤310和320的操作的细节,可以参照上面参考图1结合步骤110和步骤120的描述。
在步骤330中,解析用户个性化语音服务请求所对应的目标语音业务信息。
在步骤340中,根据目标语音业务信息和用户声纹信息,确定相对应的目标用户语音模型。结合上面所描述的示例,语音模型库中的各个用户语音模型分别配置有相应的用户声纹信息和语音业务信息,可以通过用户声纹信息和语音业务信息而在语音模型库中确定目标用户语音模型。
在步骤350中,根据目标语音业务信息在业务服务器集群中确定目标业务服务器。这里,业务服务器集群中的各个业务服务器分别用于为相应类型的语音业务提供服务,例如业务服务器集群中存在ASR服务器、TTS服务器等。
在步骤360中,将目标用户语音模型发送至目标业务服务器,以使得目标业务服务器利用目标用户语音模型来处理用户个性化语音服务请求。示例性地,当目标语音业务信息是ASR业务时,可以将目标用户语音模型发送至ASR服务器,以由该ASR服务器来向用户终端提供服务。
在本发明实施例中,语音交互系统可以同时支持各种个性化的语音业务,并且可以根据用户个性化语音服务请求自适应地调用相应业务的个性化模型,实现了强大的语音交互功能。
可替换或可附加地,在本发明实施例的一些示例中,用户终端还可以在本地(而非云端)调用用户语音模型来实现相应的个性化服务,可以节约服务器的资源,并提高响应速率。示例性地,个性化服务处理服务器可以将目标用户语音模型反馈至用于生成用户个性化语音服务请求的用户终端,以使得用户终端利用目标用户语音模型来处理用户个性化语音服务请求。
需说明的是,目前通常都只使用单一侧的训练方式来满足个性化用户语音模型的需求,例如只在云端或只在终端本地离线进行训练,导致性能和速度无法实现平衡。举例来说,对于在智能设备上的离线TTS系统,自适应训练的模式只使用云端的自适应训练或者只使用离线的自适应训练方案。通常云端的系统可以训练大量的数据,但是首先用户主动提供的训练数据是极其有限的,其次云端系统即使可以训练大量的数据,但是如果需要快速地完成训练,则需要实现分布式并行的训练,成本和代价会比较大。所以,即使使用云端的系统训练,也只是完成小数据的训练,并不是十分实用。离线自适应方案由于是运行在智能设备上,智能设备的计算能力和存储能力均是有限,因此就只能实现小数据量的训练,导致模型均无法实现较佳的性能。
作为本发明实施例的进一步的公开和优化,在用户终端收到个性化内容之后,用户语音模型可以基于个性化内容在本地进行训练及优化,在模型收敛之后输出第一个性化用户语音模型,通过第一个性化用户语音模型而在终端本地为用户提供个性化语音交互服务,但由于缺乏用户的历史语音数据,导致此模型的性能可能是较差的。同时,用户终端可以将个性化内容上传至个性化服务处理服务器,个性化服务处理服务器可以结合该个性化内容和对应用户的历史语音数据对用户语音模型进行训练,以得到较高性能的第二个性化用户语音模型。进而,个性化服务处理服务器可以将第二个性化用户语音模型发送至用户终端,例如以OTA(Over-the-Air Technology,空间下载技术)方式将第二个性化用户语音模型发送至用户终端,以替换用户终端上的第一个性化用户语音模型。由此,既保障了语音交互系统提供个性化服务的响应速度,又使得个性化服务可以处于较高的性能水平。
在本发明实施例中,为了平衡自适应速度和性能的问题,采取了“云加端”的自适应训练方式。为了快速满足用户对于离线模块功能(如离线TTS,基于唤醒词的声纹)自适应的需求,会将用户提供的少量数据在智能设备上进行快速的自适应训练,以让用户快速的能够使用自适应的功能,但是由于数据量有限,智能设备上自适应出来的系统,性能并不完全能满足需求。因此,在智能设备完成自适应训练后,会将此部分数据数传到云端的系统中,再利用其它与用户相关数据进行大量数据的自适应训练,待云端系统自适应训练完成后,适时地将模型同步到智能设备上,以提供更高性能的自适应模块。
图4示出了适于应用本发明实施例的针对用户个性化服务的语音处理方法的系统一示例的架构示意图。
如图4所示,系统包括移动终端410、云端接入服务420、数据存储服务431、语音识别服务433、TTS服务435、OTA服务437、数据标注服务440、自适应训练服务450和用户信息系统460。
具体地,在移动终端410中设置有语音信号增强模块、唤醒模块、声纹模块和TTS模块,其可以通过云端接入服务420来与云端的服务器交互,从而享受各种特定服务。自适应训练服务450中设置有ASR自适应训练服务、TTS自适应训练服务、声纹自适应训练服务。
以下将结合TTS业务的模型自适应训练流程、ASR业务的模型训练自适应流程、声纹识别(或,说话人识别)业务的模型训练自适应流程来描述系统的工作过程。
在TTS业务的模型自适应训练流程中,其目标是为了让自适应训练后的个性化模型,在用户使用过程中希望TTS的播报音与某一特定的声音相接近。
具体地,用户可以在智能设备上启动TTS自适应的功能,此时系统会提示用户根据固定的文本,录入一段音频。离线TTS模块会用这部分数据,进行自适应训练,并快速的输出自适应的TTS模型。与此同时,用户录制的这一数据会结合用户的声纹信息,一起传送到云端的数据服务器。自适应训练服务450中的TTS自适应系统会将用户录制的这一数据以及用户在使用过程中累积的个人的ASR数据结合起来进行TTS的自适应训练。自适应训练服务450中的TTS自适应系统由于结合较多的数据进行训练,因此并不会实时生效,为了保证自适应的效果且加快训练的时效性,在自适应系统中会采取只是自适应部分TTS模型的参数的方案,在云端TTS自适应训练结束后,采取合适的时机将模型通过OTA服务437推送到用户的智能设备上或对应的云端TTS服务即可。由于用户使用时均是通过唤醒词声纹触发进入语音交互,所以系统会根据用户的声纹身份信息加载特定的TTS自适应后的模型,以实现TTS自适应的功能。
由此,由于TTS自适应方案是采取云加端的方式,在云端TTS模型进行自适应训练时,对于正常使用智能设备的用户来说是无感的训练,并且在云端模型训练结束后更新到设备上对于用户来说会有更好的用户体验和感受,这种策略可以改善纯设备端自适应训练的效果。
需说明的是,如果只使用用户标准录音文本训练,并未使用用户对应的ASR数据进行训练,其会导致样本数据量少,训练的性能并不高,TTS播报的音色并不完全能满足用户需求。
在ASR业务的模型自适应训练流程中,其目标是为了让自适应训练后的个性化模型,在与用户交互的过程中识别一些个性化的内容,比如个人的联系簿等。由于这部分个性化的内容在ASR的公用服务中,并无法完整的集成和支持,因此需要支持ASR个性化的内容识别。
具体地,用户可以通过智能设备将用户希望个性化识别的内容,传入到云端数据系统中,并触发自适应训练服务450中的ASR自适应训练服务,从而利用用户上传的数据,将训练完成的模型同步到语音识别服务433中。与TTS自适应相类似,在用户再次使用的语音识别功能时,首先需要使用声纹信息接入系统,进而可以利用声纹信息在云端加载特定的ASR相关的模型,以达到ASR自适应的功能。
由此,在ASR业务的模型自适应训练过程中,由于用户需要特定的识别的内容会被专门的训练一个小模型来存储,并不直接和公用的大模型融合,这就可以做到快速训练和更新,既保证自适应的效果也能保证及时性。
在声纹业务的模型自适应训练流程中,其用于进行声纹验证,作为完成各个自适应功能中重要的一个功能,需要保证较高的验证准确率,因此还设计了声纹自适应的方案。
具体地,在声纹的使用过程中,可能会因为用户在一定阶段内声音的变化(如:感冒,变声等)导致声纹不稳定。因此,需要对声纹进行自适应训练优化。示例性地,可以采取两种策略方面进行自适应优化:一方面,使用声纹追加功能,用户可以对声纹数据进行追加注册,从而在验证声纹信息的时候,比对的声纹信息增加,从而达到更高的声纹验证准确率。另一方面,利用用户在长期使用的过程中,积累的唤醒声纹数据在云端系统中进行自适应训练,在用户长期使用的过程中,会将声纹唤醒的数据传送到云端数据服务器中。在一些情况下,当仅采用云端声纹自适应训练的策略,而不采用声纹追加功能时,如果积累的用户数据非常巨大,则导致声纹训练分类节点暴增,训练耗时较长,自适应的实时性比较差。
需说明的是,不同的模型之间的自适应训练系统是相互独立的,使得每一个模块都可以快速地更新升级。
应理解的是,在上面所描述各种业务信息(即,ASR、TTS等)仅用作示例,并不用作对本发明实施例的实施范围的限制,并且可以扩展到语音交互系统中的其他深度学习模块的自适应训练过程,例如语义解析,对话管理等。此外,整个系统架构是松耦合的,针对该系统架构所进行的简单的修改或替换操作都应视为本发明实施例的实施范围内。
图5示出了根据本发明一实施例的针对用户个性化服务的语音处理装置的结构框图。
如图5所示,针对用户个性化服务的语音处理装置500包括语音请求获取程序模块510、声纹信息确定程序模块520、目标模型确定程序模块530和语音消息处理程序模块540。
语音请求获取程序模块510被配置为获取用户个性化语音服务请求。
声纹信息确定程序模块520被配置为确定所述用户个性化语音服务请求所对应的目标用户声纹信息。
目标模型确定程序模块530被配置为根据所述目标用户声纹信息,确定相应的目标用户语音模型。
语音消息处理程序模块540被配置为基于所述目标用户语音模型处理所述用户个性化语音服务请求。
在一些实施例中,根据所述目标用户声纹信息,确定相应的目标用户语音模型,包括:
基于所述目标用户声纹信息,从用户历史语音数据库中筛选目标用户历史语音数据;
基于所述目标用户历史语音数据和所述用户个性化语音服务请求训练用户语音模型,并将已完成训练的所述用户语音模型确定为目标用户语音模型。
在一些实施例中,根据所述目标用户声纹信息,确定相应的目标用户语音模型,还包括:
解析所述用户个性化语音服务请求所对应的目标语音业务信息;
根据所述目标语音业务信息和所述目标用户声纹信息,确定相对应的目标用户语音模型。
在一些实施例中,基于所述目标用户语音模型处理所述用户个性化语音服务请求,包括:
根据所述目标语音业务信息在业务服务器集群中确定目标业务服务器,其中所述业务服务器集群中的各个业务服务器分别用于为相应类型的语音业务提供服务;
将所述目标用户语音模型发送至所述目标业务服务器,以使得所述目标业务服务器利用所述目标用户语音模型来处理所述用户个性化语音服务请求。
在一些实施例中,根据所述目标用户声纹信息,确定相应的目标用户语音模型,还包括:
根据所述目标用户声纹信息,从语音模型库中确定相应的目标用户语音模型,其中所述语音模型库中存在多个用户语音模型,每一所述用户语音模型分别配置有相应的用户声纹信息。
在一些实施例中,确定所述用户个性化语音服务请求所对应的目标用户声纹信息,包括:
基于声纹识别模型确定所述用户个性化语音服务请求所对应的用户声纹信息,其中所述声纹识别模型的训练样本集包括预设数量个用户声纹注册语音消息。
在一些实施例中,基于所述目标用户语音模型处理所述用户个性化语音服务请求,包括:
将所述目标用户语音模型反馈至用于生成所述用户个性化语音服务请求的用户终端,以使得所述用户终端利用所述目标用户语音模型来处理所述用户个性化语音服务请求。
上述本发明实施例的装置可用于执行本发明中相应的方法实施例,并相应的达到上述本发明方法实施例所达到的技术效果,这里不再赘述。
本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
另一方面,本发明实施例提供一种存储介质,其上存储有计算机程序,该程序被处理器执行如上的针对用户个性化服务的语音处理方法的步骤。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
本发明实施例的客户端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种针对用户个性化服务的语音处理方法,应用于个性化服务处理服务器,所述方法包括:
获取用户个性化语音服务请求;
确定所述用户个性化语音服务请求所对应的目标用户声纹信息;
根据所述目标用户声纹信息,确定相应的目标用户语音模型;
基于所述目标用户语音模型处理所述用户个性化语音服务请求。
2.如权利要求1所述的方法,其中,所述根据所述目标用户声纹信息,确定相应的目标用户语音模型,包括:
基于所述目标用户声纹信息,从用户历史语音数据库中筛选目标用户历史语音数据;
基于所述目标用户历史语音数据和所述用户个性化语音服务请求训练用户语音模型,并将已完成训练的所述用户语音模型确定为目标用户语音模型。
3.如权利要求1或2所述的方法,其中,所述根据所述目标用户声纹信息,确定相应的目标用户语音模型,还包括:
解析所述用户个性化语音服务请求所对应的目标语音业务信息;
根据所述目标语音业务信息和所述目标用户声纹信息,确定相对应的目标用户语音模型。
4.如权利要求3所述的方法,其中,所述基于所述目标用户语音模型处理所述用户个性化语音服务请求,包括:
根据所述目标语音业务信息在业务服务器集群中确定目标业务服务器,其中所述业务服务器集群中的各个业务服务器分别用于为相应类型的语音业务提供服务;
将所述目标用户语音模型发送至所述目标业务服务器,以使得所述目标业务服务器利用所述目标用户语音模型来处理所述用户个性化语音服务请求。
5.如权利要求1所述的方法,其中,所述根据所述目标用户声纹信息,确定相应的目标用户语音模型,还包括:
根据所述目标用户声纹信息,从语音模型库中确定相应的目标用户语音模型,其中所述语音模型库中存在多个用户语音模型,每一所述用户语音模型分别配置有相应的用户声纹信息。
6.如权利要求1所述的方法,其中,所述确定所述用户个性化语音服务请求所对应的目标用户声纹信息,包括:
基于声纹识别模型确定所述用户个性化语音服务请求所对应的用户声纹信息,其中所述声纹识别模型的训练样本集包括预设数量个用户声纹注册语音消息。
7.如权利要求1所述的方法,其中,所述基于所述目标用户语音模型处理所述用户个性化语音服务请求,包括:
将所述目标用户语音模型反馈至用于生成所述用户个性化语音服务请求的用户终端,以使得所述用户终端利用所述目标用户语音模型来处理所述用户个性化语音服务请求。
8.一种针对用户个性化服务的语音处理装置,包括:
语音请求获取程序模块,被配置为获取用户个性化语音服务请求;
声纹信息确定程序模块,被配置为确定所述用户个性化语音服务请求所对应的所述目标用户声纹信息;
目标模型确定程序模块,被配置为根据所述目标用户声纹信息,确定相应的目标用户语音模型;
语音消息处理程序模块,被配置为基于所述目标用户语音模型处理所述用户个性化语音服务请求。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011014640.XA CN112185362A (zh) | 2020-09-24 | 2020-09-24 | 针对用户个性化服务的语音处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011014640.XA CN112185362A (zh) | 2020-09-24 | 2020-09-24 | 针对用户个性化服务的语音处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112185362A true CN112185362A (zh) | 2021-01-05 |
Family
ID=73956979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011014640.XA Pending CN112185362A (zh) | 2020-09-24 | 2020-09-24 | 针对用户个性化服务的语音处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112185362A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113038420A (zh) * | 2021-03-03 | 2021-06-25 | 恒大新能源汽车投资控股集团有限公司 | 基于车联网的服务方法及装置 |
CN113160791A (zh) * | 2021-05-07 | 2021-07-23 | 京东数字科技控股股份有限公司 | 一种语音合成方法和装置、电子设备及存储介质 |
CN113744740A (zh) * | 2021-09-03 | 2021-12-03 | 北京烽火万家科技有限公司 | 基于边缘计算超算AIpass的语音识别方法、装置及系统 |
CN114242046A (zh) * | 2021-12-01 | 2022-03-25 | 广州小鹏汽车科技有限公司 | 语音交互方法及装置、服务器及存储介质 |
CN118675504A (zh) * | 2024-08-22 | 2024-09-20 | 成都乐超人科技有限公司 | 基于物联网实现智能产品的语音控制方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104575504A (zh) * | 2014-12-24 | 2015-04-29 | 上海师范大学 | 采用声纹和语音识别进行个性化电视语音唤醒的方法 |
CN106847292A (zh) * | 2017-02-16 | 2017-06-13 | 平安科技(深圳)有限公司 | 声纹识别方法及装置 |
CN107481720A (zh) * | 2017-06-30 | 2017-12-15 | 百度在线网络技术(北京)有限公司 | 一种显式声纹识别方法及装置 |
CN108320753A (zh) * | 2018-01-22 | 2018-07-24 | 珠海格力电器股份有限公司 | 电器设备的控制方法、装置和系统 |
CN108766428A (zh) * | 2018-06-01 | 2018-11-06 | 安徽江淮汽车集团股份有限公司 | 一种语音播报控制方法及系统 |
CN108958810A (zh) * | 2018-02-09 | 2018-12-07 | 北京猎户星空科技有限公司 | 一种基于声纹的用户识别方法、装置及设备 |
US20190362724A1 (en) * | 2017-06-30 | 2019-11-28 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for voiceprint creation and registration |
CN110990685A (zh) * | 2019-10-12 | 2020-04-10 | 中国平安财产保险股份有限公司 | 基于声纹的语音搜索方法、设备、存储介质及装置 |
CN111292733A (zh) * | 2018-12-06 | 2020-06-16 | 阿里巴巴集团控股有限公司 | 一种语音交互方法和装置 |
-
2020
- 2020-09-24 CN CN202011014640.XA patent/CN112185362A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104575504A (zh) * | 2014-12-24 | 2015-04-29 | 上海师范大学 | 采用声纹和语音识别进行个性化电视语音唤醒的方法 |
CN106847292A (zh) * | 2017-02-16 | 2017-06-13 | 平安科技(深圳)有限公司 | 声纹识别方法及装置 |
CN107481720A (zh) * | 2017-06-30 | 2017-12-15 | 百度在线网络技术(北京)有限公司 | 一种显式声纹识别方法及装置 |
US20190362724A1 (en) * | 2017-06-30 | 2019-11-28 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for voiceprint creation and registration |
CN108320753A (zh) * | 2018-01-22 | 2018-07-24 | 珠海格力电器股份有限公司 | 电器设备的控制方法、装置和系统 |
CN108958810A (zh) * | 2018-02-09 | 2018-12-07 | 北京猎户星空科技有限公司 | 一种基于声纹的用户识别方法、装置及设备 |
CN108766428A (zh) * | 2018-06-01 | 2018-11-06 | 安徽江淮汽车集团股份有限公司 | 一种语音播报控制方法及系统 |
CN111292733A (zh) * | 2018-12-06 | 2020-06-16 | 阿里巴巴集团控股有限公司 | 一种语音交互方法和装置 |
CN110990685A (zh) * | 2019-10-12 | 2020-04-10 | 中国平安财产保险股份有限公司 | 基于声纹的语音搜索方法、设备、存储介质及装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113038420A (zh) * | 2021-03-03 | 2021-06-25 | 恒大新能源汽车投资控股集团有限公司 | 基于车联网的服务方法及装置 |
CN113160791A (zh) * | 2021-05-07 | 2021-07-23 | 京东数字科技控股股份有限公司 | 一种语音合成方法和装置、电子设备及存储介质 |
CN113744740A (zh) * | 2021-09-03 | 2021-12-03 | 北京烽火万家科技有限公司 | 基于边缘计算超算AIpass的语音识别方法、装置及系统 |
CN114242046A (zh) * | 2021-12-01 | 2022-03-25 | 广州小鹏汽车科技有限公司 | 语音交互方法及装置、服务器及存储介质 |
CN114242046B (zh) * | 2021-12-01 | 2022-08-16 | 广州小鹏汽车科技有限公司 | 语音交互方法及装置、服务器及存储介质 |
CN118675504A (zh) * | 2024-08-22 | 2024-09-20 | 成都乐超人科技有限公司 | 基于物联网实现智能产品的语音控制方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112185362A (zh) | 针对用户个性化服务的语音处理方法及装置 | |
EP3095113B1 (en) | Digital personal assistant interaction with impersonations and rich multimedia in responses | |
CN109145204B (zh) | 画像标签生成和使用方法及系统 | |
CN111049996B (zh) | 多场景语音识别方法及装置、和应用其的智能客服系统 | |
US10142279B2 (en) | Method and system for presenting a listing of message logs | |
WO2021196614A1 (zh) | 一种信息的交互方法、交互装置、电子设备及存储介质 | |
CN111754985B (zh) | 一种语音识别模型的训练以及语音识别的方法和装置 | |
CN110246499B (zh) | 家居设备的语音控制方法及装置 | |
CN107430858A (zh) | 传送标识当前说话者的元数据 | |
CN102103670A (zh) | 通过上下文图像化可视公共图灵测试的人类验证 | |
JP7311707B2 (ja) | ヒューマンマシン対話処理方法 | |
CN114025186A (zh) | 直播间内的虚拟语音互动方法、装置及计算机设备 | |
CN110336892B (zh) | 一种多设备协作方法、装置 | |
CN110136713A (zh) | 用户在多模态交互中的对话方法及系统 | |
KR102196917B1 (ko) | 영어 말하기 평가 시스템 및 방법 | |
CN112837683B (zh) | 语音服务方法及装置 | |
CN113938697A (zh) | 直播间内的虚拟发言方法、装置及计算机设备 | |
CN110442698B (zh) | 对话内容生成方法及系统 | |
WO2021042584A1 (zh) | 全双工语音对话方法 | |
CN110516043A (zh) | 用于问答系统的答案生成方法和装置 | |
CN110764731A (zh) | 一种多媒体文件播放控制方法、智能终端及服务器 | |
US11318373B2 (en) | Natural speech data generation systems and methods | |
CN115527542A (zh) | 车载语音助手的设计方法、装置、终端设备以及存储介质 | |
CN110176227A (zh) | 一种语音识别的方法以及相关装置 | |
CN109614252B (zh) | 用于智能故事机的音频播放调度方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Co.,Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210105 |
|
RJ01 | Rejection of invention patent application after publication |