CN110310630B - 一种语音助手的训练和分享方法 - Google Patents

一种语音助手的训练和分享方法 Download PDF

Info

Publication number
CN110310630B
CN110310630B CN201910706657.2A CN201910706657A CN110310630B CN 110310630 B CN110310630 B CN 110310630B CN 201910706657 A CN201910706657 A CN 201910706657A CN 110310630 B CN110310630 B CN 110310630B
Authority
CN
China
Prior art keywords
voice assistant
task model
user
task
slot position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910706657.2A
Other languages
English (en)
Other versions
CN110310630A (zh
Inventor
龚思颖
赵晓朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Moran Cognitive Technology Co Ltd
Original Assignee
Beijing Moran Cognitive Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Moran Cognitive Technology Co Ltd filed Critical Beijing Moran Cognitive Technology Co Ltd
Priority to CN202110094701.6A priority Critical patent/CN112908311A/zh
Publication of CN110310630A publication Critical patent/CN110310630A/zh
Application granted granted Critical
Publication of CN110310630B publication Critical patent/CN110310630B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种语音助手的训练和分享方法,该方法包括:101、用户向语音助手发起命令;102、语音助手识别用户命令,并提取关键知识数据;103、语音助手根据关键知识数据判断语音助手是否包含对应的任务模型,如果是,则调用任务模型执行该任务;104、如果否,语音助手向智能交互平台发起查找操作;105、如果查找到对应的任务模型,则将该任务模型加载到语音助手,并执行该任务;106、如果未查找到对应的任务模型,语音助手发起创建任务模型的过程;107、语音助手保存创建的任务模型,将其上传到智能交互平台。本发明的方法允许用户进行任务模型的训练和分享,提升了语音助手的训练效率。

Description

一种语音助手的训练和分享方法
技术领域
本发明实施例涉及信息处理技术领域,特别涉及一种语音助手的训练和分享方法。
背景技术
语音助手是人工智能中最常用的与用户的交互接口,目前的语音助手,大都由开发人员创建和训练,开发人员需要进行需求调研,功能收集,这个过程比较繁琐,并且往往不能全面反映和响应用户的需求,功能相对局限。并且目前的语音助手大都没有针对性,不能满足单个用户的个性化需求,而且不具有分享功能,无法通过获取他人分享的任务模型来快速的满足自身需求,缩短训练时间。因此,如何提高语音助手的训练效率,提供更贴近用户需求的语音助手,成为亟待解决的问题。
发明内容
针对现有技术中的问题,本发明提供了一种语音助手的训练和分享方法,所述语音助手能够和智能交互平台通信连接,从智能交互平台下载数据,或向智能交互平台上传数据;其特征在于该方法包括以下步骤:
步骤101、用户向语音助手发起命令;
步骤102、语音助手识别用户命令,并提取关键知识数据;
步骤103、语音助手根据关键知识数据判断语音助手是否包含对应的任务模型,如果是,则调用任务模型执行该任务;
步骤104、如果否,语音助手向智能交互平台发起查找操作;
步骤105、如果查找到对应的任务模型,则将该任务模型加载到语音助手,并执行该任务;
步骤106、如果未查找到对应的任务模型,语音助手发起创建任务模型的过程;
步骤107、语音助手保存创建的任务模型,并将其上传到智能交互平台。
所述语音助手训练和分享方法进一步包括:步骤106中,语音助手发起创建任务模型的过程具体包括如下步骤:
步骤106a、调用基本槽位生成问题;
步骤106b、通过多轮对话向用户发问,获取用户的答案,提取关键知识数据,填充基本槽位;
步骤106c、根据填充的一个或多个基本槽位的关键知识数据获取特定槽位;
步骤106d、根据特定槽位生成问题,通过多轮对话向用户发问,获取用户的答案,提取关键知识数据,填充特定槽位;
步骤106e、生成任务模型。
所述步骤106a进一步包括:从用户的命令中提取的关键知识数据生成基本槽位,或者调用语音助手中存储的与创建新的任务模型相关的基本槽位。
所述步骤106c进一步包括:根据用户填充的关键知识数据中与语音助手的交互对象相关的信息获取特定槽位信息。
所述语音助手训练和分享方法进一步包括如下步骤:
步骤106f、建立扩展槽位,根据扩展槽位生成问题;
步骤106g、填充扩展槽位;
步骤106h、更新任务模型并上传到智能交互平台。
优选的,步骤106g中利用人机对话或多轮对话获取关键知识数据填充扩展槽位;或者,根据授权获取保存的用户信息以填充扩展槽位;或者,调用嵌套子模型填充扩展槽位。
可替代的,所述的语音助手训练和分享方法的步骤107可以为:步骤107a、语音助手保存创建的任务模型,通过用户设备直接向其他语音助手分享该任务模型。
优选的,所述任务为网上图书馆的自助借书任务。
进一步的,其它语音助手通过智能交互平台下载该语音助手上传的任务模型,根据自身需求进一步修改该任务模型,向智能交互平台上传修改后的任务模型及描述信息。
本发明实施例还提供一种语音助手的训练和分享系统,所述系统包括:智能交互平台和多个语音助手,智能交互平台位于云端,语音助手加载于本地的用户设备中。智能交互平台包括:任务模型训练模块,用于根据用户指令训练对应的任务模型;
任务模型,用于执行用户的指令,完成任务;
功能组件,用于实现语音助手的功能;
数据存储模块,用于存储语音助手相关的数据信息;
扩展功能模块,用于实现扩展功能;
网络接口,用于实现网络连接;
语音助手包括:
人机交互界面,用于和用户实现语音交互;
任务模型训练模块,用于根据用户指令训练任务模型;
任务模型,用于执行用户的指令,完成任务;
语音助手还包括:语音识别模块、语义理解模块和收发接口。
进一步的,智能交互平台通过用户ID实现对语音助手的管理,一个用户ID对应于一个或多个语音助手;当一个用户ID对应于多个语音助手时,若其中的一个语音助手发生更新,智能交互平台发起对该同一用户ID的其他语音助手的同步更新。
进一步的,语音助手训练任务模型后,将任务模型分享到智能交互平台供其他语音助手下载;或者语音助手训练任务模型后,直接通过用户设备将任务模型分享给其他语音助手。
本发明实施例还提供一种语音助手训练方法,由语音助手或智能交互平台执行,所述方法包括如下步骤:
步骤106a、调用基本槽位生成问题;
步骤106b、通过多轮对话向用户发问,获取用户的答案,提取关键知识数据,填充基本槽位;
步骤106c、根据填充的一个或多个基本槽位的关键知识数据获取特定槽位信息;
步骤106d、根据特定槽位生成问题,通过多轮对话向用户发问,获取用户的答案,提取关键知识数据,填充特定槽位;
步骤106e、生成任务模型。
进一步的,所述方法包括如下步骤:
步骤106f、建立扩展槽位,根据扩展槽位生成问题;
步骤106g、填充扩展槽位;
步骤106h、更新任务模型并上传到智能交互平台。
优选的步骤106g中,利用人机对话或多轮对话获取关键知识数据填充扩展槽位;或者,根据授权获取保存的用户信息以填充扩展槽位;或者,调用嵌套子模型填充扩展槽位。
通过本发明的公开的方法和系统,用户能够根据需求从智能交互平台下载任务模型,提高效率,还能够自行训练任务模型,并通过智能交互平台分享给其他用户的语音助手,满足用户个性化需求的同时极大提升整个系统中语音助手的训练效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例中的语音助手训练和分享系统的结构框图。
图2是本发明一个实施例中的语音助手的结构框图。
图3是本发明一个实施例中的智能交互平台的结构框图。
图4是本发明另一个实施例中的语音助手训练和分享方法的方法流程图。
图5是本发明另一个实施例中的语音助手训练方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。本发明的实施例以及实施例的具体特征是对本发明实施例技术方案的详细说明,而非对本发明说明书技术方案的限定,在不冲突的情况下,本发明的实施例以及实施例的技术特征可以相互结合。
实施例一
图1是本发明实施例一的语音助手训练和分享系统框图,该语音助手训练和分享系统1主要包括多个语音助手2和智能交互平台3。语音助手2位于本地的用户设备中,智能交互平台3位于云端,二者通过公共网络或专有网络建立通信连接,语音助手和智能交互平台还分别通过网络接口与公共网络相连。本发明的公共网络包括但不限于互联网、蜂窝网、PSTN网络、WiFi、WLAN等所有被用户访问和使用的网络。本发明的专有网络包括但不限于公共网络中的专用通道和虚拟通道、专门搭建的网络通道等具有一定加密级别的通信网络。
语音助手2可以加载于用户设备中,本发明的用户设备包括但不限于车机、手机、便携终端、智能穿戴设备、智能电视、智能家居设备、智能穿戴设备、个人助理等。语音助手能够通过所在的用户设备经由公共网络或专用网络与智能交互平台通信,访问智能交互平台,上传和下载数据。语音助手能够实现人机语音交互,识别用户的意图,执行用户的指令。语音助手能够通过所在的用户设备经由公共网络访问外部网络,例如访问外部网站、平台或应用等,以执行用户的指令,完成任务。例如:根据用户的指令访问订餐网站完成订餐业务;根据用户的指令访问导航应用,完成导航任务;根据用户的指令访问搜索网站,完成查询任务等。
智能交互平台3存储有语音助手所需的海量任务模型、功能组件、数据包等。任务模型包括但不限于执行用户任务指令的任务引擎、程序模块、安装包、免安装包等,例如订餐任务模型,导航任务模型等;功能组件是实现语音助手功能的各个组成部分,多个功能组件的集合用于实现语音助手的全部功能,例如:语音识别组件、语义理解组件等;数据包括但不限于与语音助手相关的一切数据信息,例如用户ID,用户的认证信息,历史数据,槽位信息,等等。智能交互平台提供访问接口供用户访问,接收用户训练并上传的任务模型、功能组件,数据等,允许用户下载任务模型、功能组件、数据等,提供信息管理、分享和交互功能,提供账号管理功能,智能交互平台还允许用户在其上直接训练语音助手,或者训练语音助手所需的任务模型、功能组件等。
通常情况下,语音助手之间的交互通过智能交互平台完成,例如语音助手A要给语音助手B分享自己训练的借书任务模型,语音助手A首先将该借书任务模型上传到智能交互平台,语音助手B通过访问智能交互平台下载该借书任务模型。进一步的,语音助手之间还可以建立直接通信,允许语音助手A直接将借书任务模型分享给语音助手B。该直接通信可以通过其所在的用户设备直接建立,所述直接通信包括但不限于蓝牙,WiFi,蜂窝通信等。
进一步的,语音助手对应于用户ID,一个语音助手对应于一个用户ID,或者多个语音助手对应于一个用户ID。智能交互平台通过管理用户ID的方式,实现对多个语音助手的管理。当一个用户ID的一个语音助手更新任务模型时,智能交互平台自动完成对该用户ID对应的其他语音助手的任务模型的同步操作。例如:用户USER123,拥有三个语音助手,分别加载在用户的手机、车机和笔记本电脑中,当手机中的语音助手训练了新的借书任务模型时,能够通过智能交互平台将该借书任务模型自动加载到车机和笔记本电脑中的语音助手中。同样,当车机中的订餐任务模型添加了新的订餐网站时,用户能够通过智能交互平台更新手机和笔记本电脑中语音助手的订餐任务模型。通过快捷的同步更新操作,实现各个语音助手之间的同步,满足用户在不同场合下的使用需求。
图2是本发明实施例一的语音助手的结构图。语音助手2至少包括人机交互界面21、语音识别模块22、语义理解模块23、任务模型训练模块24、收发接口25以及多个任务模型26。人机交互界面21用于语音助手与用户之间的交互,接收用户的语音输入,以及输出语音指令给用户;语音识别模块22用于识别用户的语音输入,生成语音识别结果并输入到语义理解模块23,语义理解模块23用于对语音识别模块的识别结果进行语义理解,生成控制指令,调用任务模型执行指令,或者触发任务模型训练模块24开启任务模型训练过程;任务模型训练模块24完成任务模型的训练、修改或者更新。多个任务模型26是指能够执行不同任务的任务引擎,例如:订餐模型261也即订餐任务引擎完成订餐任务,导航模型262也即导航任务引擎完成导航任务。任务模型26包含多个任务槽位,任务模型26被调用时,语音助手通过调用任务槽位生成问题,通过与用户的人机对话或多轮对话获取关键知识数据填充任务槽位,生成任务指令,并与目的网站交互执行任务。用户可以通过语音助手,或者通过其他数据连接对任务模块进行修改、删除、添加、更新等操作,使其更贴近用户的实际需求。
语音助手可以通过其所在的用户设备与公共网络相连,实现数据的上传和下载,信息交互等功能,例如,订餐任务模型通过公共网络与多加外卖网站相连等。语音助手具有可扩展的接口,能够与需要访问的不同网站的开放接口兼容相连。优选的,语音助手对应于用户ID,用户使用用户ID在智能交互平台注册,使得智能交互平台能够实现对用户语音助手的统一管理。
图3是本发明的实施例一的智能交互平台的结构框图。智能交互平台3位于云端或远程服务器端,其具有大存储空间,能够存储和管理任务模型31,也即任务引擎。智能交互平台提供对任务模型的分类存储和管理,例如按照任务模型的类型、应用场景、适用对象等进行分类存储,按照用户的下载次数、更新时间、任务模型的大小等进行排序显示,还能够提供任务模型的查找、浏览、演示等功能。任务模型既可以是完整的或封闭的任务模型,也可以是不完整的、提供部分功能的任务模型或者可扩展的任务模型。优选的智能交互平台可以配置为云端服务器。
智能交互平台还存储和管理功能组件32,这些功能组件进一步可以分为通用组件和专用组件,通用组件是指能够实现语音助手所需要的、非个性化的功能组件,可以供所有用户或者某一类用户共同使用的组件,例如语义识别组件,语音识别组件等,这些组件可由开发人员开发并完成训练,供用户直接下载安装使用;对于有些用户来说,通用组件虽然能够提供基本的功能,但是无法满足个性化的需求,智能交互平台还可以提供专用组件,专用组件可以由智能交互平台训练,也可以由用户根据基本的通用组件进一步训练为个性化组件,上传分享。智能交互平台还存储有实现语音助手功能所需的数据信息33,例如用户资料,历史数据,槽位信息等。
智能交互平台同样具有任务模型训练模块34,用户通过该任务模型训练模块34直接在智能交互平台中训练任务模型,并进行分享和使用。无需加载到本地,适用于用户的语音助手不在身边的情形。
智能交互平台还具有网络接口35,能够接入和访问公共网络。智能交互平台可以提供在线语音助手服务,用户无需下载语音助手到本地,通过智能交互平台的语音助手也可以通过公共网络访问其他网站、平台或应用,以执行用户的指令,完成任务。例如:根据用户的指令访问订餐网站完成订餐业务;根据用户的指令访问导航应用,完成导航任务;根据用户的指令访问搜索网站,完成查询任务等。
优选的,智能交互平台具有UI界面36,方便用户的浏览和访问。例如智能交互平台配置为网站。
进一步的,智能交互平台还具有开放的扩展功能接口37,能够实现功能扩展,以兼容更多的应用和功能。
优选的,智能交互平台通过用户ID实现对用户设备本地语音助手的远程管理,例如,通知、更新、同步、升级等操作。还可以对用户的账号进行管理。
智能交互平台3能够与语音助手2所在的用户设备通过网络互连,所述网络包括但不限于:WiFi,蜂窝网络,互联网等;智能交互平台3还能够与互联网等公共网络相连,向公共网络发送信息或从其下载信息。普通用户、开发人员可以通过账号登录、访客浏览等方式访问智能交互平台。授权用户可以从智能交互平台下载或上传数据,例如:下载/上传任务模型,下载/上传语音助手通用组件等。
实施例二
图4是本发明实施例二中的语音助手训练和分享方法的方法流程图。本实施例的语音助手训练和分享方法包括如下步骤:
步骤101、用户向语音助手发起命令;
步骤102、语音助手识别用户命令,并提取关键知识数据;
步骤103、语音助手根据关键知识数据判断语音助手是否包含对应的任务模型,如果是,则调用任务模型执行该任务;
步骤104、如果否,语音助手向智能交互平台发起查找操作;
步骤105、如果查找到对应的任务模型,则将该任务模型加载到语音助手,并执行该任务;
步骤106、如果未查找到对应的任务模型,语音助手发起创建任务模型的过程;
步骤107、语音助手保存创建的任务模型,并将其上传到智能交互平台。
为了便于理解该方法的步骤,下面以借书任务这个场景进行具体说明,应该理解下面的示例仅为了便于本领域技术人员对该方法有直观的理解,而不应视为对该方法的限定,该方法可以应用于包含借书在内的各种类型的单机、联机或网络任务,例如:订餐、导航、网络搜索、即时通信等。
步骤101、用户向语音助手发起命令;
当用户需要通过网络图书馆借书时,可以向加载在手机中的语音助手发起命令:hello,小e,从国家图书馆借《银河帝国》第1册。
步骤102、语音助手识别用户命令,并提取关键知识数据;
语音助手接收到命令后,通过语音识别模块和语义理解模块得到关键知识数据“国家图书馆,借,银河帝国,第1册”。
步骤103、语音助手根据关键知识数据判断语音助手是否包含对应的任务模型,如果是,则调用任务模型执行该任务;
该步骤可以是,语音助手在任务模型库中搜索上述关键知识数据,通过模糊匹配发现借书任务模型“书友”,调用该任务模型,利用关键知识数据填充该模型中相应的槽位,例如:目的地址槽位填充国家图书馆,书名槽位填充银河帝国,书册信息槽位填充第1册,并生成借书命令访问国家图书馆网站,利用已有的注册信息完成借书操作。如果填充槽位时,发现空缺槽位时,可以通过多轮对话引导用户完成输入,例如目的地址槽位因为无法匹配而导致空缺时,语音助手生成问题:请问从哪里借书?用户回答国家图书馆,从而将该空缺槽位填充好。
步骤104、如果否,语音助手向智能交互平台发起查找操作;
如果语音助手在任务模型库中搜索上述关键知识数据,未发现借书任务模型,则根据上述关键知识数据生成搜索命令词,自动登录智能交互平台,发起查找操作。在智能交互平台的任务模型中进行查找。
步骤105、如果查找到对应的任务模型,则将该任务模型加载到语音助手,并执行该任务;
如果在智能交互平台的任务模型库中查找到相应的任务模型,则将最匹配的任务模型加载到语音助手。在此步骤中,查找结果可能不唯一,智能交互平台可以通过计算推送最优的任务模型,也可以将匹配度较高的多个任务模型的名称和功能介绍发送到语音助手,并通过人机对话的方式由用户选择希望加载的任务模型。任务模型加载完成后,语音助手调用该任务模型执行借书任务。
步骤106、如果未查找到对应的任务模型,语音助手发起创建任务模型的过程;
如果智能交互平台没有返回查找结果,或者返回的查找结果匹配度低,或者返回的结果不满足用户的需求,语音助手触发任务模型训练模块24,发起任务模型的创建过程。该过程通过调用任务模型训练模块24中与创建任务相关联的基本槽位信息,利用多轮对话的方式填充基本槽位,获取一个或多个基本槽位中的关键信息,根据关键信息获取特定槽位,再次发起多轮对话,引导用户填充特定槽位生成任务模型。任务模型的训练过程具体参见实施例三。
步骤107、语音助手保存创建的任务模型,并将其上传到智能交互平台。
借书任务模型创建完成后,保存在语音助手的任务模型中,用户还可以向智能交互平台上传该借书任务模型,以分享给其他授权用户。优选的,创建该借书任务模型的用户可以得到更高的权限,例如拥有该任务模型的更新、升级、扩展、下载等管理权限。语音助手根据创建完成的借书任务模型执行借书任务。
实施例三
在上述语音助手的训练和分享方法中,当语音助手和智能交互平台都没有满足用户需要的任务模型时,语音助手发起任务模型的创建过程,该创建过程即为训练任务模型的过程,由语音助手的任务模型训练模块完成任务模型的训练。本实施例公开一种语音助手的训练方法,应用于语音助手或智能交互平台,以训练执行特定任务的任务模型。该语音助手的训练方法包括如下步骤:
步骤106a、调用基本槽位生成问题;
步骤106b、通过多轮对话向用户发问,获取用户的答案,提取关键知识数据,填充基本槽位;
步骤106c、根据填充的一个或多个基本槽位的关键知识数据获取特定槽位信息;
步骤106d、根据特定槽位生成问题,通过多轮对话向用户发问,获取用户的答案,提取关键知识数据,填充特定槽位;
步骤106e、生成任务模型。
仍然以借书任务这场景为例,当用户希望通过数字图书馆借阅一本《银河帝国》第1册时,向语音助手发起命令,语音助手在本地和智能交互平台均未发现符合要求的任务模型,则语音助手触发任务模型训练模块发起创建借书任务模型的过程。语音助手首先通过调用任务模型训练模块中的基本槽位信息来启动任务模型的训练过程;任务模型训练模块中存储有逻辑上相关联的基本槽位,基本槽位指的是一个普通的任务模型创建过程所需要的最基本的信息所对应的槽位。例如:任务名称、目的地址、任务对象等。任务模型训练模块保存有训练任务模型的最基本的信息,不仅包括基本槽位信息还包括基本槽位信息之间的逻辑关系或关联关系,优选的基本槽位及其关联关系由开发人员在智能交互平台中创建、维护和更新,当智能交互平台中的基本槽位信息发生更新时,智能交互平台向语音助手通知,或直接推送更新。
任务模型训练模块根据关联关系依次调用上述基本槽位信息,生成人机对话的问题,通过多轮对话的方式向用户发问,根据用户的回答获取关键知识数据,以填充基本槽位。多轮对话可以包括如下的内容:
语音助手:任务名称是什么?
用户:借书
语音助手:任务的目的地址是什么?
用户:国家图书馆网站/APP
其中任务的目的地址为触发获取特定槽位的关键信息,语音助手根据该关键信息自动访问国家图书馆网站或APP,读取借书所需的具有逻辑关联的特定槽位信息,例如,读取的特定槽位信息包括用户名、密码、书名、身份信息。语音助手依次根据上述特定槽位信息生成问题,继续向用户提问,并从获取的答案中提取关键知识数据填充特定槽位。
语音助手:用户名是什么?
用户:USER123
语音助手:密码是什么?
用户:12ab
语音助手:书名是什么?
用户:银河帝国1
语音助手:身份信息是什么?
用户:*************
通过多轮对话,语音助手根据获取的关键知识数据填充相应的特定槽位,生成借书任务模型。借书任务模型可以仅包含基本槽位信息,也可以包含部分或全部填充槽位的关键知识数据。
语音助手进一步询问用户是否将上述读取的槽位信息存储到任务模型训练模块中,如果是,则将上述读取的槽位信息存储到任务模型训练模块中,用于再次训练新的任务模型时使用。
任务模型训练模块中的槽位还可以按照用户意图分为通用槽位和特殊槽位,通用槽位对应于通用意图,通用意图是指在槽位建立或槽位填充时的一些通用指令,例如:确认、取消等即为通用意图,对应的槽位为通用槽位。而针对于一个特定的任务模型存在一些特殊的指令,用于实现用户的特殊意图,对应的槽位为特殊槽位,在借书任务模型中,借书即为特殊意图,其对应的槽位为特殊槽位。
优选的,任务模型训练模块在存储槽位信息时,按照基本槽位、通用槽位、特殊槽位进行分类存储,便于槽位信息的管理和调用。
优选的,在任务模型训练过程中,用户通过语音输入指令后,语音助手首先识别用户的意图属于通用意图还是特殊意图,再建立或调用对应的槽位信息,根据并通过多轮对话引导用户填写槽位,完成任务模型的建立。
任务模型的训练可能不是一次完成的,例如当执行任务所需的流程发生变化时,或者任务模型无法完成任务时,都需要继续任务的训练,本发明的语音助手训练方法还包括以下步骤:步骤106f、建立扩展槽位,根据扩展槽位生成问题;
步骤106g、填充扩展槽位;
步骤106h、更新任务模型并上传到智能交互平台。
优选的,步骤106g中利用人机对话或多轮对话获取关键知识数据填充扩展槽位;或者,根据授权获取保存的用户信息以填充扩展槽位;或者,调用嵌套子模型填充扩展槽位。
仍然以借书场景为例:语音助手在借书过程中,发现图书馆网站的借书流程中增加了手机验证环节,根据该发现语音助手判断需要扩展槽位信息,读取到手机号、是否发送验证码、验证码三个扩展槽位,则向用户发起新的多轮对话,引导用户填写扩展槽位,完善任务模型。语音助手根据手机号、是否发送验证码、验证码三个扩展槽位及其关联关系,构建相应的问题,依次向用户提问。问题一:手机号是什么?根据用户的回答填写手机号信息;问题二:是否发送验证码?根据用户回答选择发送验证码;问题三:验证码是什么?根据用户回答填充验证码槽位,或者自动读取验证码填充验证码槽位。根据扩展槽位生成进一步的指令信息,和图书馆网站或APP交互完成借书过程。借书过程完成后,将三个扩展槽位补充到任务模型中,更新任务模型,并上传到智能交互平台。
槽位扩展过程中可能存在任务模型的嵌套,也即需要调用其他的任务模型来获取填充扩展槽位的关键知识数据。例如:语音助手在借书过程中,发现图书馆网站的借书流程中增加了指纹验证环节,语音助手首先创建“指纹”对应的扩展槽位,生成问题并向用户提问:指纹是什么?用户回答:调用摄像头,或者语音助手感应到用户将手指放置在摄像头位置时,调用摄像头任务模型,获取用户指纹信息,填充用户槽位。槽位填充完成后生成相应的指令,完成借书任务。此时,借书任务模型中嵌套了摄像头任务模型,摄像头任务模型即为借书任务模型的嵌套子模型。能够作为嵌套子模型的任务模型在保存时可以增加通用任务模型标签,并建立逻辑接口以更方便嵌套到其他任务模型中。
实施例四
本实施例公开一种语音助手的使用方法。语音助手的任务模型训练完成后,保存在语音助手中,在用户下达任务指令时调用该任务模型执行命令。例如:借书任务模型创建成功后,语音助手的任务模型库中存在“借书任务模型”。当用户需要借书时,直接对语音助手下达指令:hi,我要借书。语音助手识别到“借书”这个特殊意图,在任务模型库中进行查找得到“书友”任务模型,调用该模型,开启下面的多轮对话过程,引导用户填充该任务模型对应的多个槽位信息,
语音助手:你要借什么书?
用户:《银河帝国第一册》
语音助手:是从国家图书馆借吗?
用户:是的
语音助手:用户名是默认的吗?
用户:是的
语音助手:密码是默认的吗?
用户:是的
槽位信息填充完毕后,生成借书指令,语音助手通过与国家图书馆的网站或APP对接实现借书命令。
在执行任务时,可能发现完成任务需要的信息有变化,这时候需要进行槽位更新或槽位扩展。语音助手在借书过程中,发现图书馆网站的借书流程中增加了手机验证环节,根据该发现语音助手判断需要扩展槽位信息,读取到手机号、是否发送验证码、验证码三个扩展槽位,则向用户发起新的多轮对话,引导用户填写扩展槽位,完善任务模型。语音助手根据手机号、是否发送验证码、验证码三个扩展槽位及其关联关系,构建相应的问题,依次向用户提问。问题一:手机号是什么?根据用户的回答填写手机号信息;问题二:是否发送验证码?根据用户回答选择发送验证码;问题三:验证码是什么?根据用户回答填充验证码槽位,或者自动读取验证码填充验证码槽位。根据扩展槽位生成进一步的指令信息,和图书馆网站或APP交互完成借书过程。借书过程完成后,将三个扩展槽位补充到任务模型中,更新“书友”任务模型,并上传到智能交互平台。
在执行任务时,可能发现完成任务需要的信息有变化,这时候需要进行槽位更新或槽位扩展。槽位扩展过程中可能存在任务模型的嵌套,也即需要调用其他的任务模型来获取填充扩展槽位的关键知识数据。例如:语音助手在借书过程中,发现图书馆网站的借书流程中增加了指纹验证环节,语音助手首先创建“指纹”对应的扩展槽位,生成问题并向用户提问:指纹是什么?用户回答:调用摄像头,或者语音助手感应到用户将手指放置在摄像头位置时,调用摄像头任务模型,获取用户指纹信息,填充用户槽位。槽位填充完成后生成相应的指令,完成借书任务。此时,借书任务模型中嵌套了摄像头任务模型,摄像头任务模型即为借书任务模型的嵌套子模型。能够作为嵌套子模型的任务模型在保存时可以增加通用任务模型标签,并建立逻辑接口以更方便嵌套到其他任务模型中。
本发明实施例中涉及的任务模型至少包含完成任务所需的最少的槽位信息,包括基本槽位、特定槽位,有的情况下还包括扩展槽位。有的任务模型可能还包括填充槽位的关键知识数据,使得语音助手在调用任务模型时,简化槽位填充的过程。对于包含关键知识数据的任务模型,可以根据包含哪些关键知识数据而对应的设置分享级别。例如包含了用户名、密码信息的任务模型仅分享给家庭成员。
本发明实施例还提供了一种用户设备,所述用户设备包括处理器和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机程序在被所述处理器执行时实现如上所述的语音助手训练和分享方法,语音助手训练方法和语音助手使用方法。
本发明实施例还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的语音助手训练和分享方法,语音助手训练方法和语音助手使用方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质可以包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦式可编程只读存储器(EPROM)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码。
以上说明只是为了方便理解本发明而举出的例子,不用于限定本发明的范围。在具体实现时,本领域技术人员可以根据实际情况对装置的部件进行变更、增加、减少,在不影响方法所实现的功能的基础上可以根据实际情况对方法的步骤进行变更、增加、减少或改变顺序。
尽管已经示出和描述了本发明的实施例,本领域技术人员应当理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同替换所限定,在未经创造性劳动所作的改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种语音助手的训练和分享方法,用户通过智能交互平台将任务模型分享给其他用户的语音助手;所述语音助手能够和智能交互平台通信连接,从智能交互平台下载数据,或向智能交互平台上传数据;其特征在于该方法包括以下步骤:
101、用户向语音助手发起命令;
102、语音助手识别用户命令,并提取关键知识数据;
103、语音助手根据关键知识数据判断语音助手是否包含对应的任务模型,如果是,则调用任务模型执行该用户命令所对应的任务;
104、如果否,语音助手向智能交互平台发起查找操作;
105、如果查找到对应的任务模型,则将该任务模型加载到语音助手,以由语音助手执行该任务;
106、如果未查找到对应的任务模型,语音助手发起创建任务模型的过程;
107、语音助手保存创建的任务模型,并将其上传到智能交互平台。
2.根据权利要求1所述的语音助手的训练和分享方法,其特征在于:步骤106中,语音助手发起创建任务模型的过程具体包括如下步骤:
步骤106a、调用基本槽位生成问题;
步骤106b、通过多轮对话向用户发问,获取用户的答案,提取关键知识数据,填充基本槽位;
步骤106c、根据填充的一个或多个基本槽位的关键知识数据获取特定槽位;
步骤106d、根据特定槽位生成问题,通过多轮对话向用户发问,获取用户的答案,提取关键知识数据,填充特定槽位;
步骤106e、生成任务模型。
3.根据权利要求2所述的语音助手训练和分享方法,其特征在于:步骤106a、调用基本槽位生成问题,包括:从用户的命令中提取的关键知识数据生成基本槽位,或者调用语音助手中存储的与创建新的任务模型相关的基本槽位。
4.根据权利要求2所述的语音助手训练和分享方法,其特征在于:步骤106c、根据填充的一个或多个基本槽位的关键知识数据获取特定槽位信息,包括:根据用户填充的关键知识数据中与语音助手的交互对象相关的信息获取特定槽位信息。
5.根据权利要求2所述的语音助手训练和分享方法,其特征在于:还包括如下步骤:
步骤106f、建立扩展槽位,根据扩展槽位生成问题;
步骤106g、填充扩展槽位;
步骤106h、更新任务模型并上传到智能交互平台。
6.根据权利要求5所述的语音助手训练和分享方法,其特征在于:步骤106g、填充扩展槽位,包括:
利用人机对话或多轮对话获取关键知识数据填充扩展槽位;
或者,根据授权获取保存的用户信息以填充扩展槽位;
或者,调用嵌套子模型填充扩展槽位。
7.根据权利要求1所述的语音助手训练和分享方法,其特征在于:步骤107、语音助手保存创建的任务模型,并将其上传到智能交互平台可以替代为:步骤107a、语音助手保存创建的任务模型,通过用户设备直接向其他语音助手分享该任务模型。
8.根据权利要求1所述的语音助手训练和分享方法,其特征在于:其它语音助手通过智能交互平台下载该语音助手上传的任务模型,根据自身需求进一步修改该任务模型,向智能交互平台上传修改后的任务模型及描述信息。
CN201910706657.2A 2019-02-26 2019-08-01 一种语音助手的训练和分享方法 Active CN110310630B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110094701.6A CN112908311A (zh) 2019-02-26 2019-08-01 一种语音助手的训练和分享方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910141268X 2019-02-26
CN201910141268 2019-02-26

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202110094701.6A Division CN112908311A (zh) 2019-02-26 2019-08-01 一种语音助手的训练和分享方法

Publications (2)

Publication Number Publication Date
CN110310630A CN110310630A (zh) 2019-10-08
CN110310630B true CN110310630B (zh) 2021-02-05

Family

ID=68082871

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910706657.2A Active CN110310630B (zh) 2019-02-26 2019-08-01 一种语音助手的训练和分享方法
CN202110094701.6A Pending CN112908311A (zh) 2019-02-26 2019-08-01 一种语音助手的训练和分享方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202110094701.6A Pending CN112908311A (zh) 2019-02-26 2019-08-01 一种语音助手的训练和分享方法

Country Status (1)

Country Link
CN (2) CN110310630B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110310641B (zh) * 2019-02-26 2022-08-26 杭州蓦然认知科技有限公司 一种用于语音助手的方法及装置
CN110941693A (zh) * 2019-10-09 2020-03-31 深圳软通动力信息技术有限公司 基于任务的人机对话方法、系统、电子设备及存储介质
CN110826481A (zh) * 2019-11-01 2020-02-21 北京云迹科技有限公司 数据处理方法、商品识别方法、服务器和存储介质
CN111026538B (zh) * 2019-12-26 2023-04-14 杭州蓦然认知科技有限公司 一种app生态系统建立、使用方法、装置
CN111124649B (zh) * 2019-12-26 2023-04-18 杭州蓦然认知科技有限公司 一种生成app生态系统的方法、装置
CN114267356B (zh) * 2021-12-30 2024-04-02 重庆特斯联智慧科技股份有限公司 一种人机交互物流机器人及其控制方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646646A (zh) * 2013-11-27 2014-03-19 联想(北京)有限公司 一种语音控制方法及电子设备
US20140278413A1 (en) * 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
CN106464957A (zh) * 2014-06-30 2017-02-22 苹果公司 实时数字助理知识更新
CN106598538A (zh) * 2016-11-29 2017-04-26 努比亚技术有限公司 指令集合更新方法及系统
CN106796788A (zh) * 2014-08-28 2017-05-31 苹果公司 基于用户反馈来改善自动语音识别
WO2017127321A1 (en) * 2016-01-23 2017-07-27 Microsoft Technology Licensing, Llc Tool for facilitating the development of new language understanding scenarios
CN107004410A (zh) * 2014-10-01 2017-08-01 西布雷恩公司 语音和连接平台
CN107733722A (zh) * 2017-11-16 2018-02-23 百度在线网络技术(北京)有限公司 用于配置语音服务的方法和装置
CN108475190A (zh) * 2016-02-12 2018-08-31 微软技术许可有限责任公司 为第三方体验创作的自然语言任务完成平台
CN108564946A (zh) * 2018-03-16 2018-09-21 苏州思必驰信息科技有限公司 在语音对话平台创建技能、语音对话产品的方法及系统
CN108962244A (zh) * 2018-06-29 2018-12-07 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN108984157A (zh) * 2018-07-27 2018-12-11 苏州思必驰信息科技有限公司 用于语音对话平台的技能配置和调用方法及系统
CN109120774A (zh) * 2018-06-29 2019-01-01 深圳市九洲电器有限公司 终端应用语音操控方法及系统
CN109256122A (zh) * 2018-09-05 2019-01-22 深圳追科技有限公司 机器学习方法、装置、设备及存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7933914B2 (en) * 2005-12-05 2011-04-26 Microsoft Corporation Automatic task creation and execution using browser helper objects
US7664644B1 (en) * 2006-06-09 2010-02-16 At&T Intellectual Property Ii, L.P. Multitask learning for spoken language understanding
US8086443B2 (en) * 2007-08-24 2011-12-27 Siemens Medical Solutions Usa, Inc. System and method for text tagging and segmentation using a generative/discriminative hybrid hidden markov model
CN103813003B (zh) * 2012-11-15 2016-06-08 三星电子(中国)研发中心 移动终端在通话中的数据共享方法以及移动终端
US9646609B2 (en) * 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
CN104881678A (zh) * 2015-05-11 2015-09-02 中国科学技术大学 一种模型与特征联合学习的多任务学习方法
US10884503B2 (en) * 2015-12-07 2021-01-05 Sri International VPA with integrated object recognition and facial expression recognition
CN107665704B (zh) * 2016-07-29 2020-09-11 科大讯飞股份有限公司 语音指令检测模型构建方法、检测方法及系统、人机交互方法及设备
US20180366108A1 (en) * 2017-05-18 2018-12-20 Aiqudo, Inc. Crowdsourced training for commands matching
US10847135B2 (en) * 2017-05-18 2020-11-24 Aiqudo, Inc. Sharing commands and command groups across digital assistant operations
CN109086282A (zh) * 2017-06-14 2018-12-25 杭州方得智能科技有限公司 一种具备多任务驱动能力的多轮对话的方法和系统
CN108847229A (zh) * 2018-05-23 2018-11-20 上海爱优威软件开发有限公司 一种基于语音助手的信息交互方法及终端
CN109241250A (zh) * 2018-07-25 2019-01-18 南京瓦尔基里网络科技有限公司 一种策略规则对话推进以及意向判别方法及系统
CN109246467A (zh) * 2018-08-15 2019-01-18 上海蔚来汽车有限公司 标记待分享视频的方法、装置、摄像机和智能手机

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278413A1 (en) * 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
CN103646646A (zh) * 2013-11-27 2014-03-19 联想(北京)有限公司 一种语音控制方法及电子设备
CN106464957A (zh) * 2014-06-30 2017-02-22 苹果公司 实时数字助理知识更新
CN106796788A (zh) * 2014-08-28 2017-05-31 苹果公司 基于用户反馈来改善自动语音识别
CN107004410A (zh) * 2014-10-01 2017-08-01 西布雷恩公司 语音和连接平台
WO2017127321A1 (en) * 2016-01-23 2017-07-27 Microsoft Technology Licensing, Llc Tool for facilitating the development of new language understanding scenarios
CN108475190A (zh) * 2016-02-12 2018-08-31 微软技术许可有限责任公司 为第三方体验创作的自然语言任务完成平台
CN106598538A (zh) * 2016-11-29 2017-04-26 努比亚技术有限公司 指令集合更新方法及系统
CN107733722A (zh) * 2017-11-16 2018-02-23 百度在线网络技术(北京)有限公司 用于配置语音服务的方法和装置
CN108564946A (zh) * 2018-03-16 2018-09-21 苏州思必驰信息科技有限公司 在语音对话平台创建技能、语音对话产品的方法及系统
CN108962244A (zh) * 2018-06-29 2018-12-07 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN109120774A (zh) * 2018-06-29 2019-01-01 深圳市九洲电器有限公司 终端应用语音操控方法及系统
CN108984157A (zh) * 2018-07-27 2018-12-11 苏州思必驰信息科技有限公司 用于语音对话平台的技能配置和调用方法及系统
CN109256122A (zh) * 2018-09-05 2019-01-22 深圳追科技有限公司 机器学习方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Investigation and development of the intelligent voice assistant for the Internet of Things using machine learning";E. V. Polyakov 等;《2018 Moscow Workshop on Electronic and Networking Technologies (MWENT)》;20180416;全文 *
"基于神经网络的语音识别算法和Android平台语音助手的实现";张霄驰;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20160315;全文 *

Also Published As

Publication number Publication date
CN110310630A (zh) 2019-10-08
CN112908311A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN110310630B (zh) 一种语音助手的训练和分享方法
US9172747B2 (en) System and methods for virtual assistant networks
WO2020114368A1 (zh) 一种人机交互系统及人机交互系统中多任务处理方法
CN109240670A (zh) 模块化的软件开发方法、系统、设备及介质
CN115713949A (zh) 设备之间封装和同步状态的相互作用
CN106445951B (zh) 一种文件传输方法和装置
CN106164909A (zh) 自然语言输入的任务完成
US20100014826A1 (en) Video editing system, video editing server and communication terminal
CN108984157A (zh) 用于语音对话平台的技能配置和调用方法及系统
CN107293294B (zh) 一种语音识别处理方法及装置
CN112699257A (zh) 作品生成和编辑方法、装置、终端、服务器和系统
US11570253B1 (en) Method of adapting a user interface on a mobile communication device based on different environments
US10078692B2 (en) Method and system for providing a social service based on music information
CN108776592B (zh) 一种页面构建的方法、装置、设备及存储介质
JP6619488B2 (ja) 人工知能機器における連続会話機能
WO2008121533A1 (en) Configuration management of an electronic device
US11340925B2 (en) Action recipes for a crowdsourced digital assistant system
CN111598428B (zh) 流程节点的管理方法、装置、存储介质及服务器
KR101943430B1 (ko) 사용자 장치, 사용자 장치의 구동방법, 서비스제공장치 및 서비스제공장치의 구동방법
CN112243016B (zh) 一种中间件平台、终端设备、5g人工智能云处理系统及处理方法
CN110209392A (zh) 技能共享开发方法及装置
CN111367561B (zh) 软件程序远程开发方法及装置
KR20130023490A (ko) 애플리케이션 동기화 시스템 및 방법
US20170123813A1 (en) Operating system establishing method and apparatus
US20220345517A1 (en) Unified application management for heterogeneous application delivery

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant