CN114242046B - 语音交互方法及装置、服务器及存储介质 - Google Patents

语音交互方法及装置、服务器及存储介质 Download PDF

Info

Publication number
CN114242046B
CN114242046B CN202111456140.6A CN202111456140A CN114242046B CN 114242046 B CN114242046 B CN 114242046B CN 202111456140 A CN202111456140 A CN 202111456140A CN 114242046 B CN114242046 B CN 114242046B
Authority
CN
China
Prior art keywords
user
updated
decoding
graph
application information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111456140.6A
Other languages
English (en)
Other versions
CN114242046A (zh
Inventor
王静怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202111456140.6A priority Critical patent/CN114242046B/zh
Publication of CN114242046A publication Critical patent/CN114242046A/zh
Application granted granted Critical
Publication of CN114242046B publication Critical patent/CN114242046B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/21Voice
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

本申请公开了一种语音交互方法,包括:接收车辆发送的用户语音请求,获取根据更新的用户应用信息更新的用户解码图,根据用户解码图和预先存储的基础解码图生成增强模型,利用增强模型对用户语音请求进行解码处理,并将处理后的结果返回车辆。实现了对具有用户个性化的用户应用信息的实时精准识别。同时,在用户信息有变更的时候更新解码图,避免了频繁生成解码图带来的高时延现象。本申请还公开了一种语音交互装置、电子设备和存储介质。

Description

语音交互方法及装置、服务器及存储介质
技术领域
本申请涉及交通领域,特别涉及一种语音交互方法、语音交互装置、服务器及计算机可读存储介质。
背景技术
在车辆与用户的语音交互过程中,需要对用户发出的语音指令进行识别及处理。Kaldi提出了名为Grammar-fst的数据结构,即通过解码图对语音进行解码识别。目前将解码图应用集成到大规模高并发系统中时,往往通过在每次接收到语音请求时生成个性化解码图以提高识别精准度,或在系统启动前生成静态的个性化解码图。然而,若每次处理语音请求时都生成个性化解码图,则时间成本较高,影响识别效率。若在系统启动前生成静态的个性化解码图,用户信息又无法得到及时更新。
发明内容
有鉴于此,本申请实施方式提供一种语音交互方法、语音交互装置、服务器及计算机可读存储介质。
本申请提供了一种语音交互方法,所述方法包括:
接收车辆发送的用户语音请求;
获取根据更新的用户应用信息更新的用户解码图;
根据用户解码图和预先存储的基础解码图生成增强模型;
利用所述增强模型对所述用户语音请求进行解码处理,并将处理后的结果返回所述车辆。
如此,实现了采用静态的基础解码图,与根据用户应用信息更新实时动态更新的用户个性化的用户解码图,相结合的方式来进行对用户信息的增强识别,预先离线存储基础解码图,在收到用户语音请求时再与个性化解码图相结合生成用户的增强模型,并采用实时结合的增强模型对用户语音请求进行解码。与传统全静态图方式相比,实现了对具有用户个性化的用户应用信息的实时精准识别。与传统根据语音请求频繁生成解码图的方式相比,本申请仅在用户信息有变更的时候才会更新解码图,避免了频繁生成解码图带来的高时延现象。
所述根据更新的用户应用信息更新的用户解码图的方法包括:
实时监听所述用户应用信息;
在所述用户应用信息有信息更新的情况下,接收更新的用户应用信息;
根据所述更新的用户应用信息更新用户解码图。
如此,可根据用户应用信息动态实时更新用户解码图,相较于现有通过静态图处理用户语音请求,能够提高对最新用户个性化信息的实时识别精准度。另外,本申请通过仅在用户信息有变更的时候才更新用户解码图,避免了因频繁生成用户解码图而导致的高时延。
所述根据更新的用户应用信息更新的用户解码图的方法还包括:
控制所述服务层对所述用户应用信息进行检测;
在检测到所述用户应用信息有信息更新的情况下,获取更新后的用户应用信息;及
将所述更新后的用户应用信息发送至算法层,以使得所述算法层对所述更新后的用户应用信息进行计算,以生成更新的用户解码图;
将所述更新的用户解码图发送至所述服务层,以使得所述服务层将所述更新的用户解码图存储在数据库中。
如此,通过分为用户层发送用户端车辆的用户应用信息,并控制服务层对用户应用信息进行检测判断,及存储用户解码图,然后控制算法层对解码图进行计算处理。利用分层设计的软件框架协议对用户应用信息进行处理,增强了业务的可扩展性,便于实现大规模高并发处理用户语音请求。
所述根据更新的用户应用信息更新的用户解码图的方法还包括:
控制所述算法层对所述更新的用户解码图进行序列化处理;及
将所述序列化处理后的用户解码图发送至所述服务层,以使得所述服务层将所述序列化处理后的用户解码图存储在数据库中。
如此,通过对用户解码图进行序列化处理,将用户解码图的状态信息转换为可以存储或传输的形式,一定程度上可以节省存储空间,便于实现较大规模的高并发请求处理。
所述获取根据更新的用户应用信息更新的用户解码图包括:
在接收到所述用户语音请求后,所述服务层从所述数据库中读取与所述用户语音请求对应的用户解码图并发送至所述算法层;
所述根据用户解码图和预先存储的基础解码图生成增强模型包括:
在接收到所述服务层发送的用户解码图后,对所述用户解码图进行反序列化处理;
根据所述反序列化处理后的用户解码图和所述预先存储的基础解码图生成所述增强模型。
如此,当接收到用户语音请求后,从数据库中将用户语音请求对应用户解码图读取出来,此时的用户解码图具有最新的用户应用信息,一定程度上实现了对具有用户个性化的用户应用信息的实时精准识别。而此时并不获取通用的基础解码图,有效地提高了处理速度和效率。
所述预先存储的基础解码图的方法包括:
预先根据历史用户的用户应用信息生成所述基础解码图,并在初始化时将所述基础解码图存储在内存中。
如此,将具有通用信息的基础解码图存储在内存中,可使得算法层在接收到用户解码图后,快速提取基础解码图,一定程度上提高了解码图的构建效率。
所述根据用户解码图和预先存储的基础解码图生成增强模型包括:
在接收所述服务层发送的用户解码图后,自所述内存中获取所述基础解码图;
将所述用户解码图和所述基础解码图进行合并以生成所述增强模型。
如此,增强模型包括静态离线预先存储的基础解码图,以及根据用户应用信息更新动态生成的用户解码图。两者相结合的方式,与传统全静态图方式相比,实现了对具有用户个性化的用户应用信息的实时精准识别。与传统根据语音请求频繁生成解码图的方式相比,本申请仅在用户信息有变更的时候才会更新解码图,避免了频繁生成解码图带来的高时延现象。
所述方法还包括:
在接收所述服务层发送的用户解码图后,将所述用户解码图生成与所述用户语音请求一一对应,以在处理完成所述用户语音请求后释放对所述用户解码图的线程权限。
如此,在一个服务线程处理完一个用户语音请求后即释放其所使用的用户解码图的线程权限,使得在软件框架实现上可支持大规模高并发语音请求。
本申请还提供了一种语音交互装置,其特征在于,所述装置包括:
接收模块,用于接收车辆发送的用户语音请求;
获取模块,用于获取根据更新的用户应用信息更新的用户解码图;
生成模块,用于根据用户解码图和预先存储的基础解码图生成增强模型;
处理模块,用于利用所述增强模型对所述用户语音请求进行解码处理,并将处理后的结果返回所述车辆。
本申请还提供了一种服务器,所述服务器包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现上述任一项所述的方法。
本申请还提供一种非易失性计算机可读存储介质,当所述计算机程序被一个或多个处理器执行时,实现上述任一项实施例中所述的方法。
本申请通过接收车辆发送的用户语音请求,获取根据更新的用户应用信息更新的用户解码图,根据用户解码图和预先存储的基础解码图生成增强模型,利用增强模型对用户语音请求进行解码处理,并将处理后的结果返回车辆。实现了采用静态的基础解码图,与根据用户应用信息更新实时动态更新的用户个性化的用户解码图,相结合的方式来进行对用户信息的增强识别,预先离线存储基础解码图,在收到用户语音请求时再与个性化解码图相结合生成用户的增强模型,并采用实时结合的增强模型对用户语音请求进行解码。与传统全静态图方式相比,实现了对具有用户个性化的用户应用信息的实时精准识别。与传统根据语音请求频繁生成解码图的方式相比,本申请仅在用户信息有变更的时候才会更新解码图,避免了频繁生成解码图带来的高时延现象。
本申请实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请的上述和/或附加的方面和优点可以从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本申请语音交互方法的流程示意图;
图2是本申请语音交互装置的模块示意图;
图3是本申请语音交互方法的流程示意图;
图4是本申请语音交互装置的模块示意图;
图5是本申请语音交互方法的流程示意图;
图6是本申请语音交互方法的流程示意图;
图7是本申请语音交互方法的流程示意图;
图8是本申请语音交互方法的流程示意图;
图9是本申请语音交互方法的流程示意图。
具体实施方式
下面详细描述本申请的实施方式,实施方式的示例在附图中示出,其中,相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本申请的实施方式,而不能理解为对本申请的实施方式的限制。
在车辆与用户的语音交互技术领域,对用户发出的语音指令需要进行识别及处理。而在服务器中往往并没有用户个性化的信息,使得无法对用户应用信息相对应的个性化信息进行较好得识别和处理。
例如在电话识别场景中,用户的通讯录中有人名“刘严”,但词“刘严”在基础的词表中不存在,而传统语音识别无法很好地处理此类未存储词的识别问题,较大概率会识别为发音词表中语言分较大的词,如“流言”。
再例如,服务器数据库中有用户A的通讯录中有人名“刘严”,而用户B的通讯录中有人名“刘言”,两个人名发音相同字型不同,此时无法根据用户通讯录中的人名信息分别区分识别出对应的名字。
目前将解码图应用集成到大规模高并发系统中时,往往通过在每次接收到语音请求时都生成个性化解码图以提高识别精准度,或在系统启动前生成静态的个性化解码图。然而,若每次处理语音请求时都生成个性化解码图,则时间成本较高,影响识别效率。若在系统启动前生成静态的个性化解码图,用户信息又无法得到及时更新。
请参阅图1,本申请提供了一种语音交互方法,方法包括:
01:接收车辆发送的用户语音请求;
02:获取根据更新的用户应用信息更新的用户解码图;
03:根据用户解码图和预先存储的基础解码图生成增强模型;
04:利用增强模型对用户语音请求进行解码处理,并将处理后的结果返回车辆。
相应地,请参阅图2,本申请实施方式还提供了一种语音交互装置100,本申请实施方式的语音交互方法可以由语音交互装置100实现。语音交互装置100包括接收模块110、获取模块120、生成模块130及处理模块140。步骤01可以由接收模块110实现,步骤02可以由获取模块120实现,步骤03可以由生成模块130实现,步骤04可以由处理模块140实现。或者说,接收模块110用于接收车辆发送的用户语音请求。获取模块120用于获取根据更新的用户应用信息更新的用户解码图。生成模块130用于根据用户解码图和预先存储的基础解码图生成增强模型。处理模块140用于利用增强模型对用户语音请求进行解码处理,并将处理后的结果返回车辆。
本申请实施方式还提供了一种车辆。车辆包括存储器和处理器。存储器中存储有计算机程序,处理器用于接收车辆发送的用户语音请求;获取根据更新的用户应用信息更新的用户解码图;根据用户解码图和预先存储的基础解码图生成增强模型;利用增强模型对用户语音请求进行解码处理,并将处理后的结果返回车辆。
在步骤01中,接收车辆发送的用户语音请求。
具体地,车辆包括可与用户进行语音交互的交通工具,例如汽车、电动车、高铁、动车等。车辆可搭载语音服务的相关智能硬件,如语音助手、车载音箱伴侣等智能硬件。语音服务的相关智能硬件可接收用户的语音指令,并对语音指令进行相应处理,得到与用户语音指令相关的用户语音请求。车辆将用户语音请求发送至语音交互装置100。其中,用户语音指令可包括用户对某种用户应用对象发出的语音指令,如“给刘严打电话”,相应的用户应用对象为通讯录。
进一步地,在步骤02中,获取根据更新的用户应用信息更新的用户解码图。
其中,根据更新的用户应用信息更新用户解码图的方法包括以下方法:
请参阅图3,根据更新的用户应用信息更新用户解码图的方法包括:
021:实时监听用户应用信息;
022:在用户应用信息有信息更新的情况下,接收车辆发送的更新的用户应用信息;
023:根据更新的用户应用信息更新用户解码图。
请参阅图4,语音交互装置100还包括监听模块150和更新模块160,步骤021可以由监听模块150来实现,步骤022可以由接收模块110来实现,步骤023可以由更新模块160来实现。或者说,监听模块150用于实时监听用户应用信息。接收模块110用于在用户应用信息有信息更新的情况下,接收更新的用户应用信息。更新模块160用于根据更新的用户应用信息更新用户解码图。
处理器用于实时监听用户应用信息;在用户应用信息有信息更新的情况下,接收更新的用户应用信息;根据更新的用户应用信息更新用户解码图。
具体地,实时监听用户应用信息,在用户应用信息有信息更新的情况下,接收车辆发送的更新的用户应用信息。其中,用户应用信息包括用户个性化的用户应用对象,如用户应用软件或用户应用程序相关的信息。例如,用户的通讯录信息。用户应用信息有信息更新的情况包括用户变更用户应用信息的部分内容,例如增加修改删除操作的情况。或用户初始化用户应用信息。例如,用户增加了一条“刘严”的通讯录。
实时监听用户应用信息,当用户应用信息有信息更新时,车辆相应的智能硬件可将有更新的用户应用信息全量发送至语音交互装置100,或可控制监听模块150在监听到用户应用信息有更新时,向车辆发送用户应用信息更新反馈的请求,在车辆接收到请求后,将有更新的用户应用信息全量发送至语音交互装置100。
进一步地,根据接收到的更新的用户应用信息更新用户解码图。
在用户应用信息初始化时,可根据初始化的用户应用信息生成用户解码图。
在用户应用信息有更新时,可根据用户应用信息中的更新部分生成更新部分的用户解码图,再将更新部分的用户解码图与原用户解码图进行合并,以更新用户解码图。
在用户应用信息有更新时,还可根据更新的全量用户应用信息生成新的用户解码图,将新的用户解码图替换原数据库存储的用户解码图。
其中,根据更新的全量用户应用信息生成新的用户解码图可通过KALDI方法构建HCLG解码图。
如此,可根据用户应用信息动态实时更新用户解码图,相较于现有通过静态图处理用户语音请求,能够提高对最新用户个性化信息的实时识别精准度。另外,本申请通过仅在用户信息有变更的时候才更新用户解码图,避免了因频繁生成用户解码图而导致的高时延。
请参阅图5,根据更新的用户应用信息更新用户解码图的方法还包括:
024:控制服务层对用户应用信息进行检测;
025:在检测到用户应用信息有信息更新的情况下,获取更新后的用户应用信息;及
026:将更新后的用户应用信息发送至算法层,以使得算法层对更新后的用户应用信息进行计算,以生成更新的用户解码图;
027:将更新的用户解码图发送至服务层,以使得服务层将更新的用户解码图存储在数据库中。
步骤024和025可以由监听模块150来实现,步骤026和027可以由更新模块160来实现。或者说,监听模块150用于控制服务层对用户应用信息进行检测;在检测到用户应用信息有信息更新的情况下,获取更新后的用户应用信息。更新模块160用于将更新后的用户应用信息发送至算法层,以使得算法层对更新后的用户应用信息进行计算,以生成更新的用户解码图;将更新的用户解码图发送至服务层,以使得服务层将更新的用户解码图存储在数据库中。
处理器用于控制服务层对用户应用信息进行检测;在检测到用户应用信息有信息更新的情况下,获取更新后的用户应用信息。并将更新后的用户应用信息发送至算法层,以使得算法层对更新后的用户应用信息进行计算,以生成更新的用户解码图;将更新的用户解码图发送至服务层,以使得服务层将更新的用户解码图存储在数据库中。
具体地,语音交互装置100的软件框架可包括用户层、服务层和算法层。用户层用于将车辆上发的用户应用信息或更新的用户应用信息发送至服务层。服务层对用户应用信息进行检测,检测用户应用信息是否有信息更新,在检测到用户应用信息user_info有信息更新的情况下,调用算法层的GenerateLM(user_info)方法,并将更新后的用户应用信息发送至算法层,以使得算法层GenerateLM(user_info)方法对更新后的用户应用信息进行计算,其中,计算方法可采用KALDI的解码图构建方法。
当生成用户解码图user_lm后,将用户解码图user_lm发送至服务层,服务层将更新的用户解码图发送至数据库中进行存储,存储包括替换原有用户应用信息对应的用户解码图user_lm,或按照版本存储当前更新的用户解码图user_lm。存储用户解码图时,可将用户解码图与用户应用信息进行关联,或将用户解码图与用户进行关联。
如此,通过分为用户层发送用户端车辆的用户应用信息,并控制服务层对用户应用信息进行检测判断,及存储用户解码图,然后控制算法层对解码图进行计算处理。利用分层设计的软件框架协议对用户应用信息进行处理,增强了业务的可扩展性,便于实现大规模高并发处理用户语音请求。
请参阅图6,根据更新的用户应用信息更新用户解码图的方法还包括:
028:控制算法层对更新的用户解码图进行序列化处理;及
029:将序列化处理后的用户解码图发送至服务层,以使得服务层将序列化处理后的用户解码图存储在数据库中。
步骤028和029可以由更新模块160来实现。或者说,更新模块160用于控制算法层对更新的用户解码图进行序列化处理;及将序列化处理后的用户解码图发送至服务层,以使得服务层将序列化处理后的用户解码图存储在数据库中。
处理器用于控制算法层对更新的用户解码图进行序列化处理;及将序列化处理后的用户解码图发送至服务层,以使得服务层将序列化处理后的用户解码图存储在数据库中。
具体地,当生成用户解码图user_lm后,算法层对更新的用户解码图进行序列化处理,序列化处理可利用现有处理方式,例如二进制序列化、Java序列化等。
进一步地,将序列化处理后的用户解码图发送至服务层,服务层将序列化处理后的用户解码图存储在数据库中。存储包括替换原有用户应用信息对应的用户解码图user_lm,或按照版本存储当前更新的用户解码图user_lm。
如此,通过对用户解码图进行序列化处理,将用户解码图的状态信息转换为可以存储或传输的形式,一定程度上可以节省存储空间,便于实现较大规模的高并发请求处理。
请参阅图7,步骤02包括:
0210:在接收到用户语音请求后,服务层从数据库中读取与用户语音请求对应的用户解码图并发送至算法层;
相应地,步骤03包括:
031:在接收到服务层发送的用户解码图后,对用户解码图进行反序列化处理;
032:根据反序列化处理后的用户解码图和预先存储的基础解码图生成增强模型。
步骤0210可以由获取模块120来实现,步骤031和032可以由生成模块130来实现。或者说,获取模块120用于在接收到用户语音请求后,服务层从数据库中读取与用户语音请求对应的用户解码图并发送至算法层。生成模块130用于在接收到服务层发送的用户解码图后,对用户解码图进行反序列化处理;根据反序列化处理后的用户解码图和预先存储的基础解码图生成增强模型。
处理器用于在接收到用户语音请求后,服务层从数据库中读取与用户语音请求对应的用户解码图并发送至算法层。在接收到服务层发送的用户解码图后,对用户解码图进行反序列化处理;根据反序列化处理后的用户解码图和预先存储的基础解码图生成增强模型。
具体地,当服务层接收到用户语音请求后,从服务层的相关数据库中读取与用户语音请求对应的用户解码图。如上,在服务层存储用户解码图时,可将用户解码图与用户应用信息进行关联,或将用户解码图与用户进行关联。在从数据库中读取时,则可根据用于语音请求对应的用户应用信息或用户信息,获取关联的用户解码图。
当提取到用户解码图后,服务层将用户解码图发送至算法层,调用算法层的GenerateLM(user_info)方法。
当接收到服务层发送的用户解码图后,算法层对用户解码图进行反序列化处理。其中,反序列化处理与存储时的序列化对应,其处理方法可采用现有的处理方法。
根据反序列化处理后的用户解码图和预先存储的基础解码图生成增强模型。其中,预先存储的基础解码图可基于大量历史用户的用户应用信息,并使用通用语言模型离线生成解码图,并在初始化时读入内存作为基础的解码图预先存储。其中,生成基础解码图可通过KALDI方法构建HCLG解码图。
预先存储的基础解码图的方法包括:
预先根据历史用户的用户应用信息生成基础解码图,并在初始化时将基础解码图存储在内存中。其中,历史用户可包括大量的用户数据,包括当前用户或非当前用户。生成解码图的方法同上,此处不再展开赘述。
如此,将具有通用信息的基础解码图存储在内存中,可使得算法层在接收到用户解码图后,快速提取基础解码图,一定程度上提高了解码图的构建效率。当接收到用户语音请求后,从数据库中将用户语音请求对应用户解码图读取出来,此时的用户解码图具有最新的用户应用信息,一定程度上实现了对具有用户个性化的用户应用信息的实时精准识别。而此时并不获取通用的基础解码图,有效地提高了处理速度和效率。
请参阅图8,步骤03包括:
033:在接收服务层发送的用户解码图后,自内存中获取基础解码图;
034:将用户解码图和基础解码图进行合并以生成增强模型。
步骤033和034可以由生成模块130来实现。或者说,生成模块130用于在接收服务层发送的用户解码图后,自内存中获取基础解码图;将用户解码图和基础解码图进行合并以生成增强模型。
处理器用于在接收服务层发送的用户解码图后,自内存中获取基础解码图;将用户解码图和基础解码图进行合并以生成增强模型。
具体地,当算法层接收到服务层发送的用户解码图时,自内存中获取预存储的基础解码图,并将用户解码图和基础解码图进行合并,生成增强模型。例如,可通过KALDI中的make-grammar-fst语法实现解码图的合并。合并的方法可为简单的直接合并,也可对用户解码图和基础解码图进行简单的线性变换合并,两者合并的线性变换可视为合并的简单替换。
如此,增强模型包括静态离线预先存储的基础解码图,以及根据用户应用信息更新动态生成的用户解码图。两者相结合的方式,与传统全静态图方式相比,实现了对具有用户个性化的用户应用信息的实时精准识别。与传统根据语音请求频繁生成解码图的方式相比,本申请仅在用户信息有变更的时候才会更新解码图,避免了频繁生成解码图带来的高时延现象。
进一步地,步骤04,利用增强模型对用户语音请求进行解码处理,并将处理后的结果返回车辆。
具体地,当算法层得到增强模型后,使用增强模型对该用户的语音请求进行解码处理。其中,解码方法与构建用户解码图的方法对应,如采用KALDI的WFST解码器对用户语音请求进行解码处理,对用户语音请求进行分帧,并根据声学模型对分帧后的每一帧语音计算声学分数,然后再根据声学分数和增强模型的语言分数进行搜索,以对用户语音请求进行解码。
例如,当用户的语音请求为“给liuyan打电话”,对于“liuyan”,通过增强模型进行解码后,得到当前用户的用户应用信息对应的是“刘严”,则将“给刘严打电话”返回车辆。
如此,本申请通过接收车辆发送的用户语音请求;获取根据更新的用户应用信息更新的用户解码图;根据用户解码图和预先存储的基础解码图生成增强模型;利用增强模型对用户语音请求进行解码处理,并将处理后的结果返回车辆。实现了采用静态的基础解码图,与根据用户应用信息更新实时动态更新的用户个性化的用户解码图,相结合的方式来进行对用户信息的增强识别,预先离线存储基础解码图,在收到用户语音请求时再与个性化解码图相结合生成用户的增强模型,并采用实时结合的增强模型对用户语音请求进行解码。与传统全静态图方式相比,实现了对具有用户个性化的用户应用信息的实时精准识别。与传统根据语音请求频繁生成解码图的方式相比,本申请仅在用户信息有变更的时候才会更新解码图,避免了频繁生成解码图带来的高时延现象。
请参阅图9,语音交互方法还包括:
05:在接收服务层发送的用户解码图后,将用户解码图生成与用户语音请求一一对应,以在处理完成用户语音请求后释放对用户解码图的线程权限。
步骤05可以由处理模块140来实现。或者说,处理模块140用于在接收服务层发送的用户解码图后,将用户解码图生成与用户语音请求一一对应,以在处理完成用户语音请求后释放对用户解码图的线程权限。
处理器用于在接收服务层发送的用户解码图后,将用户解码图生成与用户语音请求一一对应,以在处理完成用户语音请求后释放对用户解码图的线程权限。
具体的,在语音交互装置的软件实现中,对用户语音请求,使用请求级SetUserLM()操作,使得用户解码图与线程不相关联。
如此,在一个服务线程处理完一个用户语音请求后即释放其所使用的用户解码图的线程权限ownership,使得在软件框架实现上可支持大规模高并发语音请求。
本申请实施方式还提供了一种计算机可读存储介质。一个或多个存储有计算机程序的非易失性计算机可读存储介质,当计算机程序被一个或多个处理器执行时,实现上述任一实施方式的语音交互方法。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的软件来完成。程序可存储于一非易失性计算机可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
在本说明书的描述中,参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”或“一些示例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本申请的实施方式,可以理解的是,上述实施方式是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。

Claims (9)

1.一种语音交互方法,其特征在于,所述方法包括:
接收车辆发送的用户语音请求;
获取根据更新的用户应用信息更新的用户解码图;所述根据更新的用户应用信息更新的用户解码图的方法还包括:控制服务层对所述用户应用信息进行检测;在检测到所述用户应用信息有信息更新的情况下,获取更新后的用户应用信息;及将所述更新后的用户应用信息发送至算法层,以使得所述算法层对所述更新后的用户应用信息进行计算,以生成更新的用户解码图;将所述更新的用户解码图发送至所述服务层,以使得所述服务层将所述更新的用户解码图存储在数据库中;
根据用户解码图和预先存储的基础解码图生成增强模型;
利用所述增强模型对所述用户语音请求进行解码处理,并将处理后的结果返回所述车辆。
2.根据权利要求1所述的语音交互方法,其特征在于,所述根据更新的用户应用信息更新的用户解码图的方法还包括:
控制所述算法层对所述更新的用户解码图进行序列化处理;及
将所述序列化处理后的用户解码图发送至所述服务层,以使得所述服务层将所述序列化处理后的用户解码图存储在数据库中。
3.根据权利要求2所述的语音交互方法,其特征在于,所述获取根据更新的用户应用信息更新的用户解码图包括:
在接收到所述用户语音请求后,所述服务层从所述数据库中读取与所述用户语音请求对应的用户解码图并发送至所述算法层;
所述根据用户解码图和预先存储的基础解码图生成增强模型包括:
在接收到所述服务层发送的用户解码图后,对所述用户解码图进行反序列化处理;
根据所述反序列化处理后的用户解码图和所述预先存储的基础解码图生成所述增强模型。
4.根据权利要求1所述的语音交互方法,其特征在于,所述预先存储的基础解码图的方法包括:
预先根据历史用户的用户应用信息生成所述基础解码图,并在初始化时将所述基础解码图存储在内存中。
5.根据权利要求4所述的语音交互方法,其特征在于,所述根据用户解码图和预先存储的基础解码图生成增强模型包括:
在接收所述服务层发送的用户解码图后,自所述内存中获取所述基础解码图;
将所述用户解码图和所述基础解码图进行合并以生成所述增强模型。
6.根据权利要求1-5任一项所述的语音交互方法,其特征在于,所述方法还包括:
在接收所述服务层发送的用户解码图后,将所述用户解码图生成与所述用户语音请求一一对应,以在处理完成所述用户语音请求后释放对所述用户解码图的线程权限。
7.一种语音交互装置,其特征在于,所述装置包括:
接收模块,用于接收车辆发送的用户语音请求;
获取模块,用于获取根据更新的用户应用信息更新的用户解码图;
生成模块,用于根据用户解码图和预先存储的基础解码图生成增强模型;
处理模块,用于利用所述增强模型对所述用户语音请求进行解码处理,并将处理后的结果返回所述车辆;
监听模块,用于控制服务层对所述用户应用信息进行检测;在检测到所述用户应用信息有信息更新的情况下,获取更新后的用户应用信息;
更新模块,用于在检测到所述用户应用信息有信息更新的情况下,获取更新后的用户应用信息;及将所述更新后的用户应用信息发送至算法层,以使得所述算法层对所述更新后的用户应用信息进行计算,以生成更新的用户解码图;将所述更新的用户解码图发送至所述服务层,以使得所述服务层将所述更新的用户解码图存储在数据库中。
8.一种服务器,其特征在于,所述服务器包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现权利要求1-6任一项所述的方法。
9.一种计算机程序的非易失性计算机可读存储介质,其特征在于,当所述计算机程序被一个或多个处理器执行时,实现权利要求1-6任一项所述的方法。
CN202111456140.6A 2021-12-01 2021-12-01 语音交互方法及装置、服务器及存储介质 Active CN114242046B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111456140.6A CN114242046B (zh) 2021-12-01 2021-12-01 语音交互方法及装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111456140.6A CN114242046B (zh) 2021-12-01 2021-12-01 语音交互方法及装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN114242046A CN114242046A (zh) 2022-03-25
CN114242046B true CN114242046B (zh) 2022-08-16

Family

ID=80752646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111456140.6A Active CN114242046B (zh) 2021-12-01 2021-12-01 语音交互方法及装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN114242046B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065630A (zh) * 2012-12-28 2013-04-24 安徽科大讯飞信息科技股份有限公司 用户个性化信息语音识别方法及系统
CN108288467A (zh) * 2017-06-07 2018-07-17 腾讯科技(深圳)有限公司 一种语音识别方法、装置及语音识别引擎
CN108831439A (zh) * 2018-06-27 2018-11-16 广州视源电子科技股份有限公司 语音识别方法、装置、设备和系统
CN109243468A (zh) * 2018-11-14 2019-01-18 北京羽扇智信息科技有限公司 语音识别方法、装置、电子设备及存储介质
CN109524017A (zh) * 2018-11-27 2019-03-26 北京分音塔科技有限公司 一种用户自定义词的语音识别增强方法和装置
CN110428819A (zh) * 2019-05-21 2019-11-08 腾讯科技(深圳)有限公司 解码网络生成方法、语音识别方法、装置、设备及介质
CN112002308A (zh) * 2020-10-30 2020-11-27 腾讯科技(深圳)有限公司 一种语音识别方法及装置
CN112185362A (zh) * 2020-09-24 2021-01-05 苏州思必驰信息科技有限公司 针对用户个性化服务的语音处理方法及装置
CN112466293A (zh) * 2020-11-13 2021-03-09 广州视源电子科技股份有限公司 解码图优化方法、装置及存储介质
CN113113024A (zh) * 2021-04-29 2021-07-13 科大讯飞股份有限公司 语音识别方法、装置、电子设备和存储介质
CN113253971A (zh) * 2021-07-09 2021-08-13 广州小鹏汽车科技有限公司 语音交互方法及装置、语音交互系统、交通工具及介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065630A (zh) * 2012-12-28 2013-04-24 安徽科大讯飞信息科技股份有限公司 用户个性化信息语音识别方法及系统
CN108288467A (zh) * 2017-06-07 2018-07-17 腾讯科技(深圳)有限公司 一种语音识别方法、装置及语音识别引擎
CN108831439A (zh) * 2018-06-27 2018-11-16 广州视源电子科技股份有限公司 语音识别方法、装置、设备和系统
CN109243468A (zh) * 2018-11-14 2019-01-18 北京羽扇智信息科技有限公司 语音识别方法、装置、电子设备及存储介质
CN109524017A (zh) * 2018-11-27 2019-03-26 北京分音塔科技有限公司 一种用户自定义词的语音识别增强方法和装置
CN110428819A (zh) * 2019-05-21 2019-11-08 腾讯科技(深圳)有限公司 解码网络生成方法、语音识别方法、装置、设备及介质
CN112185362A (zh) * 2020-09-24 2021-01-05 苏州思必驰信息科技有限公司 针对用户个性化服务的语音处理方法及装置
CN112002308A (zh) * 2020-10-30 2020-11-27 腾讯科技(深圳)有限公司 一种语音识别方法及装置
CN112466293A (zh) * 2020-11-13 2021-03-09 广州视源电子科技股份有限公司 解码图优化方法、装置及存储介质
CN113113024A (zh) * 2021-04-29 2021-07-13 科大讯飞股份有限公司 语音识别方法、装置、电子设备和存储介质
CN113253971A (zh) * 2021-07-09 2021-08-13 广州小鹏汽车科技有限公司 语音交互方法及装置、语音交互系统、交通工具及介质

Also Published As

Publication number Publication date
CN114242046A (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
US20200312329A1 (en) Performing speech recognition using a local language context including a set of words with descriptions in terms of components smaller than the words
US10388277B1 (en) Allocation of local and remote resources for speech processing
JP5545467B2 (ja) 音声翻訳システム、制御装置、および情報処理方法
CN109243468B (zh) 语音识别方法、装置、电子设备及存储介质
JP2018054790A (ja) 音声対話システムおよび音声対話方法
JP2002528804A (ja) サービスアプリケーションに対するユーザインタフェースの音声制御
CN112242141B (zh) 一种语音控制方法、智能座舱、服务器、车辆和介质
US11854533B2 (en) Speaker awareness using speaker dependent speech model(s)
EP3958577A2 (en) Voice interaction method, voice interaction system, server and storage medium
US11508370B2 (en) On-board agent system, on-board agent system control method, and storage medium
JP2016042293A (ja) 情報提案システム
CN114242046B (zh) 语音交互方法及装置、服务器及存储介质
US10262652B2 (en) Voice control method and computer program product for performing the method
CN111559328B (zh) 智能体装置、智能体装置的控制方法及存储介质
CN114596840B (zh) 语音识别方法、装置、设备及计算机可读存储介质
CN111754974B (zh) 信息处理方法、装置、设备和计算机存储介质
CN111312254A (zh) 语音对话方法和装置
CN116110396B (zh) 语音交互方法、服务器和计算机可读存储介质
CN113553827B (zh) 一种信息处理方法、装置、设备和计算机存储介质
CN115881120A (zh) 处理用户语音请求的方法及相关装置
CN117672208A (zh) 一种信息处理方法、装置、电子设备及存储介质
CN113360607A (zh) 一种信息查询方法、装置及存储介质
CN115798482A (zh) 一种语音信息处理方法及终端
CN118280356A (zh) 语音交互方法、电子设备、车辆及存储介质
CN117334190A (zh) 一种切换语音交互对话风格的方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant