CN109671421B - 离线导航的定制和实现方法及装置 - Google Patents
离线导航的定制和实现方法及装置 Download PDFInfo
- Publication number
- CN109671421B CN109671421B CN201811590577.7A CN201811590577A CN109671421B CN 109671421 B CN109671421 B CN 109671421B CN 201811590577 A CN201811590577 A CN 201811590577A CN 109671421 B CN109671421 B CN 109671421B
- Authority
- CN
- China
- Prior art keywords
- semantic understanding
- model
- developer
- result
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Abstract
本发明公开离线导航的定制和实现方法及装置,其中,一种离线导航的定制方法,包括:响应于开发者开发离线导航技能,加载内置的第一语音识别模型和第一语义理解模型;获取开发者增加的新的功能和定制的对话逻辑;响应于开发者发布所述离线导航技能,训练与所述新的功能关联的第二语音识别模型和第二语义理解模型,训练与所述对话逻辑关联的对话模型,并将所述第一语音识别模型、第一语义理解模型、所述第二语音识别模型、所述第二语义理解模型和所述对话模型共同生成离线导航包。本申请的方案能够实现一整套离线导航的语音对话功能并支持开发者的个性化定制。
Description
技术领域
本发明属于离线导航技术领域,尤其涉及离线导航的定制和实现方法及装置。
背景技术
相关技术中,仅有某几家公司有对外提供离线导航所需要的基础语音技术。一些公司仅提供一项离线语音合成的基础技术,然后由导航公司将这两项基础技术集成到自己的APP中,来实现离线导航语音播报导航行程的功能。另一些公司,提供具备离线导航对话的对话式人工智能系统,然后由汽车厂商集成该对话式人工智能系统到自己的车机中,来实现离线导航语音对话的功能。
发明人在实现本申请的过程中发现,上述方案至少存在以下缺陷:
1、单方向输出:仅仅能提供离线时的语音合成播报能力,是设备对人的单方向的语音信息输出,而人无法对设备进行语音信息的输入。当人需要在离线导航过程中进行功能变更时,依然需要用手进行信息的输入,这在行驶过程中是极其不安全的。
2、集成能力差:采用线下交付和集成的方式,集成和调试成本非常高。仅适合大型企业,并不适合中小型企业和个人开发者。
3、识别语义的准确性和定制性不能兼容:由于离线导航中涉及到的POI(Point ofinteresting,兴趣点)都在千万量级,所以离线识别需要大量语料训练才能产出,故离线识别的更新成本和周期特别长,一般不接受定制。
4、对话定制性差:由于是通过线下集成和交付,所以整个离线导航对话的功能是靠开发者编码来实现的,要打通、维护和更新这个完整闭环,极大的占用精力和时间。
发明内容
本发明实施例提供一种离线导航的定制和实现方法及装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种离线导航的定制方法,包括:响应于开发者开发离线导航技能,加载内置的第一语音识别模型和第一语义理解模型;获取开发者增加的新的功能和定制的对话逻辑;响应于开发者发布所述离线导航技能,训练与所述新的功能关联的第二语音识别模型和第二语义理解模型,训练与所述对话逻辑关联的对话模型,并将所述第一语音识别模型、第一语义理解模型、所述第二语音识别模型、所述第二语义理解模型和所述对话模型共同生成离线导航包。
第二方面,本发明实施例提供一种离线导航的实现方法,包括:采集用户的音频数据;对所述音频数据进行内置语音识别和开发者定制化语音识别,获取融合识别文本;对所述融合识别文本进行内置语义理解和开发者定制化语义理解,获取融合语义理解结果;对所述融合语义理解结果进行开发者定制化响应。
第三方面,本发明实施例提供一种离线导航的定制装置,包括:加载模块,配置为响应于开发者开发离线导航技能,加载内置的第一语音识别模型和第一语义理解模型;获取模块,配置为获取开发者增加的新的功能和定制的对话逻辑;生成模块,配置为响应于开发者发布所述离线导航技能,训练与所述新的功能关联的第二语音识别模型和第二语义理解模型,训练与所述对话逻辑关联的对话模型,并将所述第一语音识别模型、第一语义理解模型、所述第二语音识别模型、所述第二语义理解模型和所述对话模型共同生成离线导航包。
第四方面,本发明实施例提供一种离线导航的实现装置,包括:采集模块,配置为采集用户的音频数据;识别模块,配置为对所述音频数据进行内置语音识别和开发者定制化语音识别,获取融合识别文本;融合模块,配置为对所述融合识别文本进行内置语义理解和开发者定制化语义理解,获取融合语义理解结果;响应模块,配置为对所述融合语义理解结果进行开发者定制化响应。
第五方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的离线导航的定制和实现方法的步骤。
第六方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的离线导航的定制和实现方法的步骤。
本申请的方法和装置提供的方案通过根据内置的模型结合开发者定制的模型,生成离线导航包。之后在终端上安装该离线导航包之后,就能实现完整的离线导航语音对话功能,支持个性化定制,用户体验好。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种离线导航的定制方法的流程图;
图2为本发明一实施例提供的一种离线导航的实现方法的流程图;
图3为本发明一实施例提供的另一种离线导航的实现方法的流程图;
图4为本发明一实施例提供的又一种离线导航的实现方法的流程图;
图5为本发明一实施例提供的再一种离线导航的实现方法的流程图;
图6为本发明一实施例提供的一种离线导航的定制和实现方法的一个具体示例的流程图;
图7为本发明一实施例提供的一种离线导航的定制装置的框图;
图8为本发明一实施例提供的另一种离线导航的实现装置的框图;
图9是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本申请的离线导航的定制方法一实施例的流程图。本实施例的离线导航的定制方法可以用于语音技能开发平台,具有相应的操作界面。
如图1所示,在步骤101中,响应于开发者开发离线导航技能,加载内置的第一语音识别模型和第一语义理解模型;
在步骤102中,获取开发者增加的新的功能和定制的对话逻辑;
在步骤103中,响应于开发者发布离线导航技能,训练与新的功能关联的第二语音识别模型和第二语义理解模型,训练与对话逻辑关联的对话模型,并将第一语音识别模型、第一语义理解模型、第二语音识别模型、第二语义理解模型和对话模型共同生成离线导航包。
在本实施例中,对于步骤101,离线导航的定制装置响应于开发者在离线导航技能的定制界面开始开发离线导航功能,首先为开发者加载离线导航功能内置的第一语音识别模型和第一语义理解模型,即在导航领域通用的识别模型和语义理解模型,已经囊括了导航领域大部分的说法和地点。之后,对于步骤102,为开发者提供个性化定制的界面,在该界面上获取开发者增加的新的说法和地点、新增加的功能以及新定制的对话逻辑等。最后,对于步骤103,当开发者在相应的界面提交并发布离线导航技能或相应的产品时,训练与开发者定制的该新的功能关联的第二语音识别模型进而第二语义理解模型,并训练与该新的对话逻辑关联的对话模型,然后将该第一语音识别模型、第一语义理解模型、第二语音识别模型、第二语义理解模型和对话模型共同生成离线导航包。之后其他开发者或者用户只需要下载该离线导航包就能使用相应的离线导航功能。
其中,在一些可选的实施例中,上述新的功能包括新的模式、新的地名和新的口语化表述;对话逻辑包括对话管理、播报和指令。新的说法例如“我想去五彩楼”,五彩楼是当地人对某一个建筑取的别名,新增加的功能如夜间导航模式之类的,新定制的对话逻辑,例如用户改变响应的播报之类的,如“主人连这么fashion的地方都知道”等,本申请在此没有限制。当然,只要是开发者开发包含离线导航技能的产品都可以用到上述方法,在此不再赘述。
在本实施例中,通过在开发者开发离线导航技能时,为开发者先加载内置的第一语音识别模块和第一语义理解模块,之后再获取开发者自己定制的个性化的内容,然后一起训练并生成相应的离线导航包就能供其他开发者或者用户下载使用,定制界面简单易于操作,还能够定制个性化的内容,同时满足开发者的便捷开发和个性化的需求。
请参考图2,其示出了本申请一实施例提供的一种离线导航的实现方法,本实施例的离线导航的实现方法可以适用于车载智能终端或者移动终端,用于为用户提供离线语音导航功能。
如图2所示,在步骤201中,采集用户的音频数据;
在步骤202中,对音频数据进行内置语音识别和开发者定制化语音识别,获取融合识别文本;
在步骤203中,对融合识别文本进行内置语义理解和开发者定制化语义理解,获取融合语义理解结果;
在步骤204中,对融合语义理解结果进行开发者定制化响应。
在本实施例中,对于步骤201,离线导航的实现装置首先采集用户的音频数据。然后,对于步骤202,对该采集的音频数据进行内置语音识别和开发者定制化识别,即采用两个识别模型对该音频数据进行识别,一个识别模型是内置的通用导航识别模型,另一个则是开发者定制的识别模型,获取这两个识别模型的识别结果,然后得到融合后的识别文本。之后,对于步骤203,对该融合识别文本进行内置的语义理解和开发者定制化语义理解,获取融合语义理解结果,即可以分别采用两个语义理解模型对融合识别文本进行语义理解,以得到融合语义理解结果。最后,对于步骤204,对该融合语义理解结果进行响应,该响应是开发者定制后的响应。
本实施例的方法,通过采集用户的音频数据,之后分别进行语音识别、语义理解和响应,实现一整套的离线导航语音对话,其中识别的时候包括通用的识别和开发者定制化识别,语义理解的时候也包括通用的语义理解和开发者定制化语音理解,从而可以在支持离线导航的一整套流程的同时还支持开发者定制,用户和开发者都能有很好的使用体验。
进一步参考图3,其示出了本申请一实施例提供的另一种离线导航实现方法的流程图。该流程图主要是对流程图2中步骤202进一步细化的步骤的流程图。
如图3所示,在步骤301中,将音频数据输入至内置识别模型,获取内置识别模型的第一语音识别结果;
在步骤302中,将音频数据输入至定制化识别模型,获取第二语音识别结果;
在步骤303中,对第一语音识别结果和第二语音识别结果进行融合以得到融合语音识别结果。
在本实施例中,对于步骤301,首先将采集的用户的音频数据输入至内置的识别模型中,并获取该内置识别模型是别的第一语音识别结果。之后,对于步骤302,将相同的音频数据输入至开发者的定制化识别模型中,并获取该定制化识别模型的第二识别结果。之后,对于步骤303,对该第一识别结果和第二识别结果对应的两个识别文本进行融合处理得到最终的融合语音识别结果。
例如,用户说“wo xiang qu wang hong can ting”,通用识别模型可能会识别为“我要去王红餐厅”,定制化识别模型可能会识别为“我要去网红餐厅”,从而导致使用第一识别结果和第二识别结果识别出来的结果不太相同,则将两个结果融合一下得到最终的融合识别结果,例如“网红”是一个比较新的词,则可以按照用户定制化的语音识别模型识别为“网红”。以上仅是对实施例的一个示例的说明,不用于限制本申请的方案。
本实施例的方法,通过对用户的音频数据分别进行内置语音识别和定制化的语音识别,然后对识别结果进行融合,可以使得用户的语音在离线导航的情况下也能够被更好地识别,同时又能满足开发者的定制需求。
进一步参考图4,其示出了本申请一实施例提供的又一种离线导航的实现方法的流程图。本实施例的流程图主要是针对流程图2中的步骤203进一步细化的步骤的流程图。
如图4所示,在步骤401中,将音频数据输入至内置语义模型,获取内置识别模型的第一语义理解结果;
在步骤402中,将音频数据输入至定制化语义模型,获取第二语义理解结果;
在步骤403中,对第一语义理解结果和第二语义理解结果进行融合以得到融合语义理解结果。
在本实施例中,对于步骤401,首先将采集的音频数据输入至内置的语义理解模型中进行语义理解处理以得到第一语义理解结果。对于步骤402,同时将该采集的用户音频输入至开发者的定制化语义理解模型,并获取第二语义理解结果。之后,对于步骤403,再将两个语义理解结果进行融合处理,最终得到一个更为准确的融合语义理解结果。
例如,用户说“我要去五彩楼”,通用语义理解模型有可能不理解“五彩楼”指的是什么,用户定制的语义理解模型把“五彩楼”解释为“北京时代广场”,融合之后采用“五彩楼”为“北京时代广场”的理解,这样就能够更好地理解用户的意图。当然,虽然在上述实施例中最终都是采用的定制化的模型的结果,但是并不是说明本申请的方案通用理解模型总是不能正确的识别和理解,而只是说明用户定制的模型加入了一些新的功能和说法有时候可以更好地辅助理解,本申请在此没有限制。
本实施例的方法,通过同时采用通用语义理解模型和开发者定制的语义理解模型进行理解,最后使用融合后的结果,可以利用开发者定制的语义理解模型和通用语义理解模型结合,更好地理解用户的意图,同时又能满足开发者的定制需求。
在一些可选的实施例中,对第一语音识别结果和第二语音识别结果进行融合以得到融合语音识别结果包括:至少基于可信度、耗时、音频和识别文本的时间映射,选出一个最佳识别结果作为融合语音识别结果。
对第一语义理解结果和第二语义理解结果进行融合以得到融合语义理解结果包括:至少基于可信度、耗时、上下文,选出一个最佳识别结果作为融合语义理解结果。
从而可以根据以上参数更好地从通用模型的结果和开发者定制化模型的结果中更好地选出置信度更高的结果。
在另一些可选的实施例中,采集用户的音频数据包括:对用户的输入音频进行声音活性检测,采集预设时间内的音频数据。从而使得离线的语音导航和在线的语音导航一样都具有声音活性检测功能,更好地对用户的音频数据进行处理。
在另一些可选的实施例中,对融合语义理解结果进行开发者定制化响应包括:将语义理解结果输入至对话模型,并执行开发者定制的对话管理、播报和指令。从而使得离线的语音导航技能和在线的语音导航技能一样也具有对话管理,使得离线语音导航具有和在线语音导航相同的完整的语音处理流程,使得用户体验更好。
进一步参考图5,其示出了本申请再一实施例提供的一种离线导航的实现方法的流程图。其中,该实施例主要是对流程图2中步骤204之后的附加步骤进一步限定的流程。
如图5所示,在步骤501中,判断是否为多轮对话;
然后,在步骤502中,若是,继续对用户的新的音频数据进行识别、理解和响应;
之后,在步骤503中,若否,结束对话。
在本实施例中,对于步骤501,接收用户的音频数据并识别、理解和响应之后,判断是否是多轮对话,如果用户继续与设备交互,则表明是多轮对话,不再交互则不是多轮对话。对于步骤502,如果判断是多轮对话,则继续对用户的音频数据进行采集、识别、理解和响应。对于步骤503,若不是多轮对话,则结束对话。从而形成一个完整的离线导航流程。使得用户在使用离线导航技能或产品时,能获得和在线导航技能或产品一样的交互体验。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
发明人认为现有技术提供的只是基础离线语音能力,以及基础离线语音能力的组合(比如离线ASR+离线TTS的组合),并不具备包含“Wakeup-VAD-ASR-NLU-DM-TTS”在内的全链路定制离线对话的能力。并且目前也还没有一家语音对话平台可以提供全链路定制化离线导航对话的技术。仅有几家公司有对外提供离线导航所需要的基础语音技术。
发明人发现,为了解决现有技术中存在的上述缺陷,现有技术的部分产品可能通过下面的方法来解决:
提供基础服务能力,由开发者自行解决这些缺陷。
而本申请的方案的目标是要做到高可定制性且上手简单,即通过简单配置就能实现各种差异化的定制效果。所以涉及到很多基础离线技术的融合(包含Wakeup(唤醒)、VAD(Voice Activity Detection,声音活性检测)、ASR(Automatic Speech Recognition,自动语音识别)、NLU(Natural Language Understanding,自然语言理解)、DM(DialogManagement,对话管理)、TTS(Text To Speech,文本转语音)等)。
本申请的方案的一个具体实施例如下,需要说明的是以下实施例中虽然提到了一些具体的例子,但并不用于限制本申请的方案。
通过DUI平台前端提供可视化定制技能的能力,DUI平台后端提供基于语料训练出来的离线导航识别模型和基于统计训练出来的离线导航语义模型的能力,DUI设备端SDK提供具备定制模型和训练模型融合的能力,具体实现过程如下:
1、在DUI平台上提供创建离线导航技能的能力,离线导航技能会默认加载基于语料训练出来的离线导航识别模型,和基于统计训练出来的离线导航语义模型,来保证该技能已经具备绝大部分离线导航场景所需要的识别和语义处理能力。比如:“我要去某某地”等说法和语义不需要配置,自动支持。
2、在离线导航技能中提供定制对话(包括ASR、NLU、DM、TTS)的能力,来进行保证任何开发者都可以在可视化的界面上来定制和更新离线导航对话闭环的能力。比如:最近新增了某某地名,在技能中新增该条说法,并将某某地标注为“sys.地名”,发布之后即可支持。比如:导航行业新增了“某某模式”,在技能中添加该条说法和对应的指令,并在设备端响应该指令即可。
3、在设备端通过集成离线导航技能插件包,由SDK进行加载并在实际对话中进行定制模型和基础模型的融合,以保障开发者仅需在对话命中的指令实现对应的功能即可。
请参考图6,其示出了本申请一实施例提供的离线导航的定制和实现方法的一个具体示例的流程图。
如图6所示,其中,该流程图的上半部分示出了离线导航语音技能开发流程:
步骤一:创建本地技能,选择内置领域“导航”。该技能会关联上导航领域,并主动提供导航领域的大部分说法和意图。
步骤二:根据产品设计填入自己的对话逻辑:比如触发条件A,播报一条提示语;触发条件B,执行指令并播报完成。
步骤三(可选):根据导航行业的新功能、新地名、新口语化表述等因素,添加对应的说法和词库。
步骤四:发布技能。此时会将步骤二的配置训练成对话资源,将步骤三的配置训练成基于语法标注的识别模型和语义模型,连同步骤一的基于导航语料统计的识别模型和语义模型,一同生产一份离线导航插件包
该流程图的下半部分示出了离线导航语音技能运行流程:
步骤一:用户唤醒系统,并说话触发离线VAD。该步不再赘述。
步骤二:系统向离线ASR模块发起请求,并送入用户音频。
步骤三:离线ASR模块会将用户音频同时送入两个识别模型中,获得两个识别结果。一个是基于导航语料统计的识别模型,一个是基于语法标记的识别模型。前者可以识别出导航领域的绝大部分说法和地点,后者可以识别出导航领域最新的说法、地点。
步骤四:离线ASR模块根据融合算法,基于可信度、耗时、音频和识别文本的时间映射等维度,生成一个最佳识别结果。
步骤五:系统向离线NLU模块发起请求,并送入最佳识别结果。
步骤六:离线NLU模块会将识别结果同时送入两个语义模型中,获得两个语义结果。一个是基于导航语料统计的语义模型,一个是基于语法标记的语义模型。前者可以识别出导航领域的绝大部分意图,后者可以识别出导航领域最新的意图。
步骤七:离线NLU模块根据融合算法,基于可信度、耗时、上下文等维度,生成一个最佳语义结果。
步骤八:系统向离线DM模块发起请求,并送入最佳语义结果。
步骤九:离线DM模块会结合语义结果、上下文信息、技能对话配置,生成出一份包含NLG和Command的对话结果。
步骤十:开发者的离线导航响应模块接收对话结果,并执行对应的指令。完成一轮离线导航对话交互。
发明人在实现本申请的过程中,还采用过如下备选方案,并总结了该备选方案的优点和缺点。
备选方案:不支持多轮对话
缺点:开发者需要通过编码的方式将多个单轮对话组合成多轮对话,开发成本太高。
以下给出一些示例,以使本领域技术人员更好地理解本申请的方案。本方案结合智能语音对话开发平台,会演化出成千上万种定制化效果。
示例一:常规说法和POI,离线ASR/NLU模块都会基于语料统计训练的模型准确的识别和理解出来
用户:导航去苏州大学
DUI:已为您找到十个地址,请问选择第几个
用户:第一个
DUI:好的,这就为您导航。全程XX公里,前方XX米右转
示例二:通过在DUI平台上为离线导航技能添加新说法,即可实现离线ASR/NLU模块对新说法的识别和理解
用户:抖音最近比较火的地方都在哪
DUI:帮你找到一个离你最近的抖音网红地,请问是否导航去那里
用户:去
DUI:好的,出发。全程XX公里,前方XX米右转
示例三:通过在DUI平台上为离线导航技能的词库添加北京:帝都,即可实现离线ASR/NLU模块对帝都的识别和理解。
用户:帝都离这里多远
DUI:主人,北京离这里有1000公里
示例四:通过在DUI平台上为离线导航技能添加新的导航功能
用户:进入夜间护眼模式
DUI:好的主人,已经为您切换夜间模式
示例五:通过在DUI平台上为离线导航技能修改NLG播报,即可实现离线DM的定制性
用户:3D模式
DUI:skr skr,主人连这种功能都知道。我这就办!
示例六:一台普通手机,在集成本方案后,都可以实现车机上的离线导航对话的功能。
请参考图7,其示出了本发明一实施例提供的离线导航的定制装置的框图。
如图7所示,离线导航的定制装置700,包括加载模块710、获取模块720和生成模块730。
其中,加载模块710,配置为响应于开发者开发离线导航技能,加载内置的第一语音识别模型和第一语义理解模型;获取模块720,配置为获取开发者增加的新的功能和定制的对话逻辑;以及生成模块730,配置为响应于开发者发布所述离线导航技能,训练与所述新的功能关联的第二语音识别模型和第二语义理解模型,训练与所述对话逻辑关联的对话模型,并将所述第一语音识别模型、第一语义理解模型、所述第二语音识别模型、所述第二语义理解模型和所述对话模型共同生成离线导航包。
请参考图8,其示出了本发明一实施例提供的离线导航的实现装置的框图。
如图8所示,离线导航的实现装置800,包括采集模块810、识别模块820、融合模块830和响应模块840。
其中,采集模块810,配置为采集用户的音频数据;识别模块820,配置为对所述音频数据进行内置语音识别和开发者定制化语音识别,获取融合识别文本;融合模块830,配置为对所述融合识别文本进行内置语义理解和开发者定制化语义理解,获取融合语义理解结果;以及响应模块840,配置为对所述融合语义理解结果进行开发者定制化响应。
应当理解,图7和图8中记载的诸模块与参考图1、图2、图3、图4和图5中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图7和图8中的诸模块,在此不再赘述。
值得注意的是,本公开的实施例中的模块并不用于限制本公开的方案,例如加载模块可以描述为响应于开发者开发离线导航技能,加载内置的第一语音识别模型和第一语义理解模型的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如加载模块也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的离线导航的定制和实现方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
响应于开发者开发离线导航技能,加载内置的第一语音识别模型和第一语义理解模型;
获取开发者增加的新的功能和定制的对话逻辑;
响应于开发者发布所述离线导航技能,训练与所述新的功能关联的第二语音识别模型和第二语义理解模型,训练与所述对话逻辑关联的对话模型,并将所述第一语音识别模型、第一语义理解模型、所述第二语音识别模型、所述第二语义理解模型和所述对话模型共同生成离线导航包。
作为另一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
采集用户的音频数据;
对所述音频数据进行内置语音识别和开发者定制化语音识别,获取融合识别文本;
对所述融合识别文本进行内置语义理解和开发者定制化语义理解,获取融合语义理解结果;
对所述融合语义理解结果进行开发者定制化响应。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据离线导航的定制和实现装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至离线导航的定制和实现装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项离线导航的定制和实现方法。
图9是本发明实施例提供的电子设备的结构示意图,如图9所示,该设备包括:一个或多个处理器910以及存储器920,图9中以一个处理器910为例。离线导航的定制和实现方法的设备还可以包括:输入装置930和输出装置940。处理器910、存储器920、输入装置930和输出装置940可以通过总线或者其他方式连接,图9中以通过总线连接为例。存储器920为上述的非易失性计算机可读存储介质。处理器910通过运行存储在存储器920中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例离线导航的定制和实现方法。输入装置930可接收输入的数字或字符信息,以及产生与离线导航的定制和实现装置的用户设置以及功能控制有关的键信号输入。输出装置940可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于离线导航的定制装置中,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
响应于开发者开发离线导航技能,加载内置的第一语音识别模型和第一语义理解模型;
获取开发者增加的新的功能和定制的对话逻辑;
响应于开发者发布所述离线导航技能,训练与所述新的功能关联的第二语音识别模型和第二语义理解模型,训练与所述对话逻辑关联的对话模型,并将所述第一语音识别模型、第一语义理解模型、所述第二语音识别模型、所述第二语义理解模型和所述对话模型共同生成离线导航包。
作为一种实施方式,上述电子设备应用于离线导航的实现装置中,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
采集用户的音频数据;
对所述音频数据进行内置语音识别和开发者定制化语音识别,获取融合识别文本;
对所述融合识别文本进行内置语义理解和开发者定制化语义理解,获取融合语义理解结果;
对所述融合语义理解结果进行开发者定制化响应。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种离线导航的定制方法,包括:
响应于开发者开发离线导航技能,加载内置的第一语音识别模型和第一语义理解模型;
获取开发者增加的新的功能和定制的对话逻辑,其中,所述新的功能包括新的模式、新的地名和新的口语化表述,所述对话逻辑包括对话管理、播报和指令;
响应于开发者发布所述离线导航技能,训练与所述新的功能关联的第二语音识别模型和第二语义理解模型,训练与所述对话逻辑关联的对话模型,并将所述第一语音识别模型、第一语义理解模型、所述第二语音识别模型、所述第二语义理解模型和所述对话模型共同生成离线导航包。
2.一种离线导航的实现方法,包括:
采集用户的音频数据;
利用权利要求1所述的离线导航包对所述音频数据进行内置语音识别和开发者定制化语音识别,获取融合识别文本;
利用权利要求1所述的离线导航包对所述融合识别文本进行内置语义理解和开发者定制化语义理解,获取融合语义理解结果;
利用权利要求1所述的离线导航包对所述融合语义理解结果进行开发者定制化响应。
3.根据权利要求2所述的方法,其中,所述对所述音频数据进行内置语音识别和开发者定制化语音识别,获取融合识别文本包括:
将所述音频数据输入至内置识别模型,获取所述内置识别模型的第一语音识别结果;
将所述音频数据输入至定制化识别模型,获取第二语音识别结果;
对所述第一语音识别结果和所述第二语音识别结果进行融合以得到融合语音识别结果。
4.根据权利要求3所述的方法,其中,所述对所述融合识别文本进行内置语义理解和开发者定制化语义理解,获取融合语义理解结果包括:
将所述音频数据输入至内置语义模型,获取所述内置识别模型的第一语义理解结果;
将所述音频数据输入至定制化语义模型,获取第二语义理解结果;
对所述第一语义理解结果和所述第二语义理解结果进行融合以得到融合语义理解结果。
5.根据权利要求4所述的方法,其中,所述对所述第一语音识别结果和所述第二语音识别结果进行融合以得到融合语音识别结果包括:
至少基于可信度、耗时、音频和识别文本的时间映射,选出一个最佳识别结果作为融合语音识别结果;
所述对所述第一语义理解结果和所述第二语义理解结果进行融合以得到融合语义理解结果包括:
至少基于可信度、耗时、上下文,选出一个最佳识别结果作为融合语义理解结果。
6.根据权利要求2-5中任一项所述的方法,其中,所述采集用户的音频数据包括:
对用户的输入音频进行声音活性检测,采集预设时间内的音频数据。
7.根据权利要求6所述的方法,其中,所述对所述融合语义理解结果进行开发者定制化响应包括:
将所述语义理解结果输入至对话模型,并执行开发者定制的对话管理、播报和指令。
8.根据权利要求6所述的方法,其中,在对所述融合语义理解结果进行开发者定制化响应之后,所述方法还包括:
判断是否为多轮对话;
若是,继续对用户的新的音频数据进行识别、理解和响应;
若否,结束对话。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811590577.7A CN109671421B (zh) | 2018-12-25 | 2018-12-25 | 离线导航的定制和实现方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811590577.7A CN109671421B (zh) | 2018-12-25 | 2018-12-25 | 离线导航的定制和实现方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109671421A CN109671421A (zh) | 2019-04-23 |
CN109671421B true CN109671421B (zh) | 2020-07-10 |
Family
ID=66146888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811590577.7A Active CN109671421B (zh) | 2018-12-25 | 2018-12-25 | 离线导航的定制和实现方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109671421B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111951782A (zh) * | 2019-04-30 | 2020-11-17 | 京东方科技集团股份有限公司 | 语音问答方法及装置、计算机可读存储介质和电子设备 |
CN110349569B (zh) * | 2019-07-02 | 2022-04-15 | 思必驰科技股份有限公司 | 定制化产品语言模型的训练和识别方法及装置 |
CN110473524B (zh) * | 2019-08-30 | 2022-03-15 | 思必驰科技股份有限公司 | 语音识别系统的构建方法和装置 |
CN110600021A (zh) * | 2019-09-20 | 2019-12-20 | 苏州思必驰信息科技有限公司 | 室外智能语音交互方法、装置和系统 |
CN111105795B (zh) * | 2019-12-16 | 2022-12-16 | 青岛海信智慧生活科技股份有限公司 | 一种智能家居训练离线语音固件的方法及装置 |
CN111178055B (zh) * | 2019-12-18 | 2022-07-29 | 华为技术有限公司 | 语料识别方法、装置、终端设备和介质 |
CN111797636B (zh) * | 2020-07-21 | 2023-06-16 | 思必驰科技股份有限公司 | 离线语义解析方法及系统 |
CN112102832B (zh) * | 2020-09-18 | 2021-12-28 | 广州小鹏汽车科技有限公司 | 语音识别方法、装置、服务器和计算机可读存储介质 |
CN112309399B (zh) * | 2020-10-30 | 2023-02-24 | 上海淇玥信息技术有限公司 | 一种基于语音执行任务的方法、装置和电子设备 |
CN112687261B (zh) * | 2020-12-15 | 2022-05-03 | 思必驰科技股份有限公司 | 语音识别训练和应用方法及装置 |
CN112509580B (zh) * | 2020-12-21 | 2023-12-19 | 阿波罗智联(北京)科技有限公司 | 语音处理方法、装置、设备、存储介质及计算机程序产品 |
CN115795017B (zh) * | 2023-01-17 | 2023-05-02 | 深圳联友科技有限公司 | 一种对话系统离线在线融合应用方法及系统 |
CN117198292B (zh) * | 2023-11-08 | 2024-02-02 | 太平金融科技服务(上海)有限公司 | 一种语音融合处理方法、装置、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101911145A (zh) * | 2007-12-28 | 2010-12-08 | 佳明有限公司 | 用于导航相关数据的语音包 |
CN105719649A (zh) * | 2016-01-19 | 2016-06-29 | 百度在线网络技术(北京)有限公司 | 语音识别方法及装置 |
CN106023991A (zh) * | 2016-05-23 | 2016-10-12 | 丽水学院 | 一种面向多任务交互的手持式语音交互装置及交互方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9208777B2 (en) * | 2013-01-25 | 2015-12-08 | Microsoft Technology Licensing, Llc | Feature space transformation for personalization using generalized i-vector clustering |
-
2018
- 2018-12-25 CN CN201811590577.7A patent/CN109671421B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101911145A (zh) * | 2007-12-28 | 2010-12-08 | 佳明有限公司 | 用于导航相关数据的语音包 |
CN105719649A (zh) * | 2016-01-19 | 2016-06-29 | 百度在线网络技术(北京)有限公司 | 语音识别方法及装置 |
CN106023991A (zh) * | 2016-05-23 | 2016-10-12 | 丽水学院 | 一种面向多任务交互的手持式语音交互装置及交互方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109671421A (zh) | 2019-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109671421B (zh) | 离线导航的定制和实现方法及装置 | |
US10832674B2 (en) | Voice data processing method and electronic device supporting the same | |
CN111049996B (zh) | 多场景语音识别方法及装置、和应用其的智能客服系统 | |
CN111081280B (zh) | 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法 | |
CN107430855A (zh) | 在支持语音的电子设备中对语音转文本模型的场境敏感动态更新 | |
CN112970059A (zh) | 用于处理用户话语的电子装置及其控制方法 | |
CN109829044A (zh) | 对话方法、装置及设备 | |
CN110349569B (zh) | 定制化产品语言模型的训练和识别方法及装置 | |
CN112261432B (zh) | 车载环境中的直播互动方法及装置、存储介质、电子设备 | |
CN104144192A (zh) | 语音交互方法、装置及车载通讯终端 | |
CN110517692A (zh) | 热词语音识别方法和装置 | |
CN111145745A (zh) | 对话流程定制方法及装置 | |
CN115470381A (zh) | 信息交互方法、装置、设备及介质 | |
CN109902163B (zh) | 一种智能应答方法、装置、设备及存储介质 | |
EP4220628A1 (en) | Electronic device for supporting service for artificial intelligent agent that talks with user | |
CN112837683B (zh) | 语音服务方法及装置 | |
KR20210036527A (ko) | 사용자 발화를 처리하는 전자 장치 및 그 작동 방법 | |
CN111681658A (zh) | 车载app的语音控制方法和装置 | |
CN110827802A (zh) | 语音识别训练和解码方法及装置 | |
US20210098012A1 (en) | Voice Skill Recommendation Method, Apparatus, Device and Storage Medium | |
CN110473524B (zh) | 语音识别系统的构建方法和装置 | |
CN112069830A (zh) | 一种智能会话方法及装置 | |
CN110600021A (zh) | 室外智能语音交互方法、装置和系统 | |
CN114201596A (zh) | 虚拟数字人使用方法、电子设备和存储介质 | |
CN111312254A (zh) | 语音对话方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu. Patentee after: Sipic Technology Co.,Ltd. Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu. Patentee before: AI SPEECH Ltd. |
|
CP01 | Change in the name or title of a patent holder |