CN111524533B - 语音操作方法、装置、电子设备及存储介质 - Google Patents
语音操作方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111524533B CN111524533B CN202010137697.2A CN202010137697A CN111524533B CN 111524533 B CN111524533 B CN 111524533B CN 202010137697 A CN202010137697 A CN 202010137697A CN 111524533 B CN111524533 B CN 111524533B
- Authority
- CN
- China
- Prior art keywords
- slot
- intention
- value
- main body
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000004044 response Effects 0.000 claims description 37
- 239000000284 extract Substances 0.000 claims description 13
- 238000011017 operating method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 11
- 230000003993 interaction Effects 0.000 description 11
- 230000011218 segmentation Effects 0.000 description 11
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010926 purge Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Abstract
本公开提供了一种语音操作方法、装置、电子设备及存储介质,属于互联网技术领域。所述方法包括:接收当前被输入的第一语音信号,从第一语音信号中提取第一关键词;响应于第一语音信号延续历史被输入的第二语音信号的第二意图,且第一关键词包括第二意图的第一辅助槽位的槽位值,清除第二意图的第一主体槽位的第一槽位值;基于第一辅助槽位的槽位值,生成用于获取第一主体槽位的第二槽位值的追问语句;基于追问语句,生成第一语音信号的第一意图;基于第一意图,执行第一语音信号对应的操作。可以避免由于第一主体槽位的第一槽位值与第一语音信号中第一辅助槽位的槽位值矛盾,而导致第一意图的槽位信息出现逻辑错误,从而提高语音操作的正确率。
Description
技术领域
本公开涉及互联网技术领域,特别涉及一种语音操作方法、装置、电子设备及存储介质。
背景技术
自然语言作为人类表达自己思想最方便、最自然的方式、已经逐渐成为智能服务领域最主流的人机交互方式。在自然语言的对话应用中,一句话语义的解析往往与上下文的场景相关。具体到任务型对话系统中,即体现为意图接续功能。其中,意图接续是指当任务型对话系统命中一个意图时,后续的意图请求语言,用户可以省略部分槽位信息,对话系统可以通过上下文来获取用户省略掉的槽位信息。
相关技术中,对话系统在意图接续的场景中的做法一般是,将上一轮对话命中的意图涉及的槽位信息保存在对话上下文中,当本轮对话中用户的输入接续上一轮对话的意图时,将上一轮对话的意图以及涉及的槽位信息完全延续至本轮对话,然后用本轮对话中用户输入的新的槽位信息进行补充,得到本轮对话的意图的完整的槽位信息。
在意图接续时,前轮意图与本轮意图之间或许会存在有关联关系但又不完全等同的槽位,相应的,完全延续的上一轮意图的槽位信息可能与本轮意图补充的新的槽位信息矛盾,所以通过相关技术得到的意图的完整槽位信息可能出现逻辑错误,从而对话系统无法正确执行本轮对话的意图对应的操作。
发明内容
本公开实施例提供了一种语音操作方法、装置、电子设备及存储介质,能够提高语音操作的正确率。所述技术方案如下:
一方面,提供了一种语音操作方法,所述方法包括:
接收当前被输入的第一语音信号,从所述第一语音信号中提取第一关键词;
响应于所述第一语音信号延续历史被输入的第二语音信号的第二意图,且所述第一关键词包括所述第二意图的第一辅助槽位的槽位值,清除所述第二意图的第一主体槽位的第一槽位值;
基于所述第一辅助槽位的槽位值,生成用于获取所述第一主体槽位的第二槽位值的追问语句;
基于所述追问语句,生成所述第一语音信号的第一意图;
基于所述第一意图,执行所述第一语音信号对应的操作。
在一种可能的实现方式中,所述清除所述第二意图的第一主体槽位的第一槽位值,包括:
从所述第二意图的多个主体槽位中选择与所述第一辅助槽位对应的第一主体槽位;
清除所述第一主体槽位的第一槽位值。
在另一种可能的实现方式中,所述基于所述追问语句,生成所述第一语音信号的第一意图,包括:
输出所述追问语句,接收当前被输入的第三语音信号,所述第三语音信号为基于所述追问语句输入的;
基于所述第三语音信号,确定所述第一主体槽位的第二槽位值;
基于所述第一主体槽位的第二槽位值,生成所述第一语音信号的第一意图。
在另一种可能的实现方式中,所述基于所述第三语音信号,确定所述第一主体槽位的第二槽位值,包括:
从所述第三语音信号中提取第二关键词,将所述第二关键词作为所述第一主体槽位的第二槽位值;或者,
从所述第三语音信号中提取与所述第一主体槽位对应的第二辅助槽位的槽位值,根据所述第一辅助槽位的槽位值和所述第二辅助槽位的槽位值,确定所述第一主体槽位的第二槽位值。
在另一种可能的实现方式中,所述基于所述第一主体槽位的第二槽位值,生成所述第一语音信号的第一意图,包括:
响应于所述第一关键词包括第三关键词,所述第三关键词为所述第二意图的多个主体槽位中第二主体槽位的第三槽位值,基于所述第二主体槽位的第三槽位值和所述第一主体槽位的第二槽位值,生成所述第一语音信号的第一意图。
在另一种可能的实现方式中,所述基于所述第二主体槽位的第三槽位值和所述第一主体槽位的第二槽位值,生成所述第一语音信号的第一意图,包括:
获取所述第二意图的多个主体槽位中除所述第一主体槽位和所述第二主体槽位以外的第三主体槽位的第四槽位值;
基于所述第三主体槽位的第四槽位值、所述第二主体槽位的第三槽位值、所述第一主体槽位的第二槽位值,生成所述第一语音信号的第一意图。
在另一种可能的实现方式中,所述基于所述第一辅助槽位的槽位值,生成用于获取所述第一主体槽位的第二槽位值的追问语句,包括:
基于所述第二意图,确定所述第一辅助槽位的模板语句,所述模板语句中包括所述第一辅助槽位对应的字段参数;
将所述模板语句中的所述字段参数修改为所述第一辅助槽位的槽位值,得到所述追问语句。
在另一种可能的实现方式中,所述方法还包括:
响应于所述第一关键词中没有与所述第一语音信号对应的意图关键词,确定所述第一语音信号延续所述第二意图;或者,
响应于所述第一关键词中包括的意图关键词对应所述第二意图,且所述第一关键词中缺少所述第二意图的主体槽位的槽位值,确定所述第一语音信号延续所述第二意图。
另一方面,提供了一种语音操作装置,所述装置包括:
接收模块,被配置为接收当前被输入的第一语音信号,从所述第一语音信号中提取第一关键词;
清除模块,被配置为响应于所述第一语音信号延续历史被输入的第二语音信号的第二意图,且所述第一关键词包括所述第二意图的第一辅助槽位的槽位值,清除所述第二意图的第一主体槽位的第一槽位值;
生成模块,被配置为基于所述第一辅助槽位的槽位值,生成用于获取所述第一主体槽位的第二槽位值的追问语句;基于所述追问语句,生成所述第一语音信号的第一意图;
执行模块,被配置为基于所述第一意图,执行所述第一语音信号对应的操作。
在一种可能的实现方式中,所述清除模块,还被配置为从所述第二意图的多个主体槽位中选择与所述第一辅助槽位对应的第一主体槽位;清除所述第一主体槽位的第一槽位值。
在另一种可能的实现方式中,所述生成模块,还被配置为输出所述追问语句,接收当前被输入的第三语音信号,所述第三语音信号为基于所述追问语句输入的;基于所述第三语音信号,确定所述第一主体槽位的第二槽位值;基于所述第一主体槽位的第二槽位值,生成所述第一语音信号的第一意图。
在另一种可能的实现方式中,所述生成模块,还被配置为从所述第三语音信号中提取第二关键词,将所述第二关键词作为所述第一主体槽位的第二槽位值;或者,从所述第三语音信号中提取与所述第一主体槽位对应的第二辅助槽位的槽位值,根据所述第一辅助槽位的槽位值和所述第二辅助槽位的槽位值,确定所述第一主体槽位的第二槽位值。
在另一种可能的实现方式中,所述生成模块,还被配置为响应于所述第一关键词包括第三关键词,所述第三关键词为所述第二意图的多个主体槽位中第二主体槽位的第三槽位值,基于所述第二主体槽位的第三槽位值和所述第一主体槽位的第二槽位值,生成所述第一语音信号的第一意图。
在另一种可能的实现方式中,所述生成模块,还被配置为获取所述第二意图的多个主体槽位中除所述第一主体槽位和所述第二主体槽位以外的第三主体槽位的第四槽位值;基于所述第三主体槽位的第四槽位值、所述第二主体槽位的第三槽位值、所述第一主体槽位的第二槽位值,生成所述第一语音信号的第一意图。
在另一种可能的实现方式中,所述生成模块,还被配置为基于所述第二意图,确定所述第一辅助槽位的模板语句,所述模板语句中包括所述第一辅助槽位对应的字段参数;将所述模板语句中的所述字段参数修改为所述第一辅助槽位的槽位值,得到所述追问语句。
在另一种可能的实现方式中,所述装置还包括:
确定模块,被配置为响应于所述第一关键词中没有与所述第一语音信号对应的意图关键词,确定所述第一语音信号延续所述第二意图;或者,响应于所述第一关键词中包括的意图关键词对应所述第二意图,且所述第一关键词中缺少所述第二意图的主体槽位的槽位值,确定所述第一语音信号延续所述第二意图。
第三方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现上述任一种可能实现方式中的语音操作方法中所执行的操作。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现上述任一种可能实现方式中的语音操作方法中电子设备执行的操作。
本公开实施例提供的技术方案带来的有益效果是:
在本公开实施例中,通过响应于第一语音信号延续历史被输入的第二语音信号的第二意图,且第一关键词包括第二意图的第一辅助槽位的槽位值,清除第二意图的第一主体槽位的第一槽位值,然后基于第一辅助槽位的槽位值,生成用于获取第一主体槽位的第二槽位值的追问语句;即在第一语音信号命中第二意图的第一辅助槽位的情况下,重新获取第一主体槽位的第二槽位值,可以避免由于第一主体槽位的第一槽位值与第一语音信号中第一辅助槽位的槽位值矛盾,而导致第一意图的槽位信息出现逻辑错误,后续基于追问语句,生成第一语音信号的第一意图,基于第一意图,执行第一语音信号对应的操作,可以提高语音操作的正确率。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种实施环境的示意图;
图2是本公开实施例提供的一种语音操作方法的流程图;
图3是本公开实施例提供的一种语音操作方法的流程图;
图4是本公开实施例提供的一种语音操作方法的流程图;
图5是本公开实施例提供的一种语音操作装置的框图;
图6是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
首先对说明书中涉及到的专业术语做出解释:
交互模型(Interaction Model,简称IM):是描述人机交互中涉及到的各种动作的内容与进行的一种设计模型。交互模型除了包括有关特定功能服务的基本信息外,还包括意图设定、槽位设定以及追问话术的设计等。
意图(Intent):交互模型中用户想要达成的目的。以“提醒”功能为例,其交互模型中需要涉及的意图会包括例如设置提醒、查询提醒和删除提醒等。
槽位(Slot):人机交互中用户回答的语言中包含的有效信息的抽象概括。例如定制提醒会需要时间以及事件等槽位,查询天气时需要地点、时间等槽位。
词典(Dictionary):槽位对应的具体内容。如天气类型槽位对应的词典会包括晴天、雨天、大风等。
语料样本(Sample):对话中可能出现的语句的话术表达。
技能服务(Skill Server):接收预设参数并实现某种特定功能的模块。
延续:本轮对话的意图和上轮对话的意图属于一个意图领域,意图的槽位一致,但槽位的槽位值不一致。例如,上轮对话为“查询苏州明天的天气”,本轮对话为“查询广州后天的天气”,则本轮对话与上轮对话的意图领域都是查询天气,槽位都是city(城市)和date(日期),但上轮对话city的槽位值为“苏州”、date的槽位值为“明天”,本轮对话city的槽位值为“广州”、date的槽位值为“后天”。又如,上轮对话为“设置明早6点的闹铃”,本轮对话为“再设置个8点的”,则本轮对话与上轮对话的意图领域都是设置闹铃,槽位都是time(时间),但上轮对话time的槽位值为“6点”,本轮对话time的槽位值为“8点”。
图1是本公开实施例提供的一种实施环境的示意图。参见图1,该实施环境包括电子设备101和服务器102,电子设备101和服务器102之间通过无线或者有线网络连接。并且,电子设备101上可以安装有服务器102提供服务的目标应用,电子设备101对应的用户可以通过该目标应用实现例如数据传输、消息交互等功能。
电子设备101可以为电脑、手机、平板电脑、智能音箱、智能家居、智能玩具或者其他电子设备。目标应用可以为电子设备101上安装的任一目标应用;并且,目标应用可以为电子设备101操作系统中的目标应用,还可以为第三方提供的目标应用。例如,目标应用可以为购物应用、查询应用、社交应用或者音乐应用等。服务器102可以为该目标应用对应的后台服务器。相应的,服务器102可以为购物服务器、查询服务器、社交应用服务器或者音乐服务器等。
电子设备101可以通过目标应用与用户进行语音交互,也即电子设备101可以通过目标应用接收用户的语音信号,以及根据语音信号执行相应的操作。例如,当目标应用为查询应用,电子设备101通过该查询应用接收用户输入的第二语音信号为“苏州今天天气如何?”时,电子设备101通过该查询应用确定第二语音信号的第二意图为查询天气,进而确定该第二意图的主体槽位,分别是第一主体槽位city(城市)和第二主体槽位date(日期),然后从第二语音信号中提取这两个主体槽位对应的槽位值“苏州”和“今天”,将其填充到对应的槽位中,得到该第二意图的槽位信息city:苏州、date:今天。
在意图接续的场景下,例如,在电子设备101接收到上述第二语音信号的前提下,电子设备101当前接收到用户输入的第一语音信号为“广东呢”,其中,“广东”对应槽位province(省份),且province为上述第二意图的第一辅助槽位。电子设备101从该第一语音信号中提取第一关键词“广东”,电子设备101响应于该第一关键词为上述第二意图的第一辅助槽位的槽位值,清除第一主体槽位的槽位值“苏州”,生成用于获取第一主体槽位的第二槽位值的追问语句,例如“广东省哪个城市呢?”,然后根据接收到的用户输入的第三语音信号确定第一主体槽位的第二槽位值,根据第二槽位值生成第一语音信号的第一意图。接着根据第一意图,执行第一语音信号对应的操作。例如,以电子设备101接收到的第三语音信号为“广州”为例,电子设备101确定第一主体槽位的第二槽位值为“广州”,生成的第一意图的槽位信息为city:广州、date:今天。然后电子设备101执行查询广州天气的操作。
在上述方案中,电子设备101可以将接收的第一语音信号发送给服务器102,由服务器102确定该第一语音信号的第一意图以及基于该第一意图执行该第一语音信号对应的操作。
图2是本公开实施例提供的一种语音操作方法的流程图。参见图2,该实施例包括:
步骤201:接收当前被输入的第一语音信号,从第一语音信号中提取第一关键词。
步骤202:响应于第一语音信号延续历史被输入的第二语音信号的第二意图,且第一关键词包括第二意图的第一辅助槽位的槽位值,清除第二意图的第一主体槽位的第一槽位值。
步骤203:基于第一辅助槽位的槽位值,生成用于获取第一主体槽位的第二槽位值的追问语句。
步骤204:基于追问语句,生成第一语音信号的第一意图。
步骤205:基于第一意图,执行第一语音信号对应的操作。
在一种可能的实现方式中,清除第二意图的第一主体槽位的第一槽位值,包括:
从第二意图的多个主体槽位中选择与第一辅助槽位对应的第一主体槽位;
清除第一主体槽位的第一槽位值。
在另一种可能的实现方式中,基于追问语句,生成第一语音信号的第一意图,包括:
输出追问语句,接收当前被输入的第三语音信号,第三语音信号为基于追问语句输入的;
基于第三语音信号,确定第一主体槽位的第二槽位值;
基于第一主体槽位的第二槽位值,生成第一语音信号的第一意图。
在另一种可能的实现方式中,基于第三语音信号,确定第一主体槽位的第二槽位值,包括:
从第三语音信号中提取第二关键词,将第二关键词作为第一主体槽位的第二槽位值;或者,
从第三语音信号中提取与第一主体槽位对应的第二辅助槽位的槽位值,根据第一辅助槽位的槽位值和第二辅助槽位的槽位值,确定第一主体槽位的第二槽位值。
在另一种可能的实现方式中,基于第一主体槽位的第二槽位值,生成第一语音信号的第一意图,包括:
响应于第一关键词包括第三关键词,第三关键词为第二意图的多个主体槽位中第二主体槽位的第三槽位值,基于第二主体槽位的第三槽位值和第一主体槽位的第二槽位值,生成第一语音信号的第一意图。
在另一种可能的实现方式中,基于第二主体槽位的第三槽位值和第一主体槽位的第二槽位值,生成第一语音信号的第一意图,包括:
获取第二意图的多个主体槽位中除第一主体槽位和第二主体槽位以外的第三主体槽位的第四槽位值;
基于第三主体槽位的第四槽位值、第二主体槽位的第三槽位值、第一主体槽位的第二槽位值,生成第一语音信号的第一意图。
在另一种可能的实现方式中,基于第一辅助槽位的槽位值,生成用于获取第一主体槽位的第二槽位值的追问语句,包括:
基于第二意图,确定第一辅助槽位的模板语句,模板语句中包括第一辅助槽位对应的字段参数;
将模板语句中的字段参数修改为第一辅助槽位的槽位值,得到追问语句。
在另一种可能的实现方式中,方法还包括:
响应于第一关键词中没有与第一语音信号对应的意图关键词,确定第一语音信号延续第二意图;或者,
响应于第一关键词中包括的意图关键词对应第二意图,且第一关键词中缺少第二意图的主体槽位的槽位值,确定第一语音信号延续第二意图。
在本公开实施例中,通过响应于第一语音信号延续历史被输入的第二语音信号的第二意图,且第一关键词包括第二意图的第一辅助槽位的槽位值,清除第二意图的第一主体槽位的第一槽位值,然后基于第一辅助槽位的槽位值,生成用于获取第一主体槽位的第二槽位值的追问语句;即在第一语音信号命中第二意图的第一辅助槽位的情况下,重新获取第一主体槽位的第二槽位值,可以避免由于第一主体槽位的第一槽位值与第一语音信号中第一辅助槽位的槽位值矛盾,而导致第一意图的槽位信息出现逻辑错误,后续基于追问语句,生成第一语音信号的第一意图,基于第一意图,执行第一语音信号对应的操作,可以提高语音操作的正确率。
图3是本公开实施例提供的一种语音操作方法的流程图。参见图3,该实施例包括:
步骤301:电子设备接收当前被输入的第一语音信号,从第一语音信号中提取第一关键词。
当用户想要电子设备执行某种操作时,用户对着电子设备输入一串语音信号,电子设备接收到当前被输入的第一语音信号。在一种可能的实现方式中,电子设备中可以存储分词模型,相应的,电子设备从第一语音信号中提取第一关键词的实现方式可以为:电子设备将第一语音信号转化为文本串,将该文本串输入分词模型,得到至少一个分词,从该至少一个分词中确定第一关键词。
其中,分词模型可以为搜狗分词、结巴分词、SCWS(Simple Chinese WordsSegmentation,简易中文分词系统)、腾讯文智、盘古分词或者其他分词模型。
电子设备从至少一个分词中确定第一关键词的实现方式可以为:电子设备获取关键词的属性条件以及该至少一个分词中每个分词的属性,将属性满足关键词的属性条件的分词作为第一关键词。
例如,第一语音信号为“广东呢”,将该第一语音信号输入分词模型得到的至少一个分词包括“广东”和“呢”。电子设备确定“广东”的属性为名词,“呢”的属性为“助词”,且电子设备获取关键词的属性条件为名词和动词,则电子设备确定第一关键词为“广东”。
在一种可能的实现方式中,电子设备响应于第一语音信号中没有第一关键词,电子设备输出第一提示语音,该第一提示语音用于提示用户重新输入第一语音信号。其中第一提示语音可以根据需要设置,例如可以设置为“不明白,请您重新输入”等,本公开对此不做限制。
需要说明的一点是,电子设备在执行步骤301前,已经根据电子设备中历史被输入的第二语音信号确定出该第二语音信号的第二意图,以及将第二意图的主体槽位的槽位值进行存储。在这种情况下,电子设备通过本公开实施例中的方法来确定电子设备当前被输入的第一语音信号的第一意图,然后根据第一意图执行第一语音信号对应的操作。
步骤302:电子设备响应于第一语音信号延续历史被输入的第二语音信号的第二意图,且第一关键词包括第二意图的第一辅助槽位的槽位值,清除第二意图的第一主体槽位的第一槽位值。
第二意图包括至少一个主体槽位和至少一个辅助槽位。主体槽位为第二意图的关键信息的槽位,辅助槽位为关键信息对应的辅助信息的槽位。其中,辅助槽位与主体槽位不同,但与主体槽位具有关联关系。例如,主体槽位可以为city,则该主体槽位对应的辅助槽位可以为province(省)和country(国家)等。又如,主体槽位可以为time 24Hour(24小时制时间),则该主体槽位对应的辅助槽位可以为time Phase(时间段)和time 12Hour(12小时制时间)等。当然,上述主体槽位的辅助槽位只是示例性说明,其辅助槽位还可以为其他,本公开对此不做限制。
电子设备清除第二意图的第一主体槽位的第一槽位值的步骤可以通过以下两种实现方式实现:对于第一种实现方式,电子设备清除第二意图的所有主体槽位的第一槽位值。
对于第二种实现方式,第一辅助槽位与第一主体槽位具有对应关系。电子设备仅清除辅助槽位对应的第一主体槽位;相应的,电子设备清除第二意图的第一主体槽位的第一槽位值,包括:电子设备从第二意图的多个主体槽位中选择与第一辅助槽位对应的第一主体槽位;电子设备清除第一主体槽位的第一槽位值。
其中,电子设备可以预设辅助槽位与主体槽位的对应关系表,相应的,电子设备从第二意图的多个主体槽位中选择与第一辅助槽位对应的第一主体槽位的实现方式为:电子设备根据第一辅助槽位和辅助槽位与主体槽位的对应关系表,确定第一辅助槽位对应的第一主体槽位。
例如,第一辅助槽位为province,第二意图的主体槽位包括city和date,city的槽位值为“苏州”,date的槽位值为“今天”,province是与city对应的辅助槽位,则电子设备确定city为第一主体槽位,清除city的槽位值为“苏州”。
需要说明的一点是,电子设备从第一语音信号中提取第一关键词之后,需要先确定第一语音信号是否延续历史被输入的第二语音信号的第二意图,响应于第一语音信号延续第二意图,才执行步骤302。
根据第一关键词中是否包括第一语音信号对应的意图关键词,电子设备确定第一语音信号是否延续第二意图的方式分为下述两种情况:
第一种情况是第一关键词没有与第一语音信号对应的意图关键词,这种情况下,电子设备确定第一语音信号是否延续历史被输入的第二语音信号的第二意图的方式为:电子设备响应于第一关键词中没有与第一语音信号对应的意图关键词,确定第一语音信号延续第二意图。
其中,意图关键词可以预设在电子设备中,用于确定语音信号的意图。
例如,在查询天气时,意图关键词可以为“天气”。如果第一语音信号为“明天呢”,则从第一语音信号中提取的第一关键词为“明天”,由于第一关键词中没有包括“天气”,电子设备确定第一语音信号延续第二意图。
在本公开实施例中,确定第一关键词中是否存在意图关键词,如果没有意图关键词,则直接确定第一语音信号延续第二意图,操作比较简单,从而可以提高效率。
在另一种可能的实现方式中,在第一关键词中没有意图关键词的情况下,电子设备也可以不直接确定第一语音信号延续第二意图,电子设备可以结合第一关键词是否命中第二意图的主体槽位确定第一语音信号是否延续第二意图。相应的,电子设备响应于第一关键词中没有与第一语音信号对应的意图关键词,确定第一语音信号延续第二意图的实现步骤包括:
电子设备响应于第一关键词中没有与第一语音信号对应的意图关键词,且第一关键词中包括第二意图的主体槽位的槽位值,确定第一语音信号延续第二意图。电子设备响应于第一关键词中没有与第一语音信号对应的意图关键词,且第一关键词中不包括第二意图的主体槽位的槽位值,确定第一语音信号不延续第二意图。
例如,第一关键词为“明天”,第二意图为查询天气,第二意图的主体槽位包括city和date,由于第一关键词中没有包括意图关键词,且第一关键词“明天”为主体槽位city的槽位值,电子设备确定第一语音信号延续第二意图。
在另一种可能的实现方式中,在第一关键词中没有意图关键词的情况下,电子设备也可以不直接确定第一语音信号延续第二意图,电子设备可以结合第一关键词中是否命中第二意图的辅助槽位确定第一语音信号是否延续第二意图。相应的,电子设备响应于第一关键词中没有与第一语音信号对应的意图关键词,确定第一语音信号延续第二意图的实现步骤包括:电子设备响应于第一关键词中没有与第一语音信号对应的意图关键词,且第一关键词中包括第二意图的辅助槽位的槽位值,确定第一语音信号延续第二意图。电子设备响应于第一关键词中没有与第一语音信号对应的意图关键词,且第一关键词中不包括第二意图的辅助槽位的槽位值,确定第一语音信号不延续第二意图。
例如,第一关键词为“广东”,第二意图为查询天气,第二意图的主体槽位包括city和date,city的辅助槽位为province,由于第一关键词中没有包括意图关键词,且第一关键词“广东”为辅助槽位province的槽位值,电子设备确定第一语音信号延续第二意图。
在本公开实施例中,电子设备不仅根据第一关键词中是否存在意图关键词,还可以结合第一关键词是否命中第二意图的主体槽位或者辅助槽位,确定第一语音信号是否延续第二意图,从而提高了准确性。
第二种情况是第一关键词包括与第一语音信号对应的意图关键词,这种情况下,电子设备确定第一语音信号是否延续历史被输入的第二语音信号的第二意图的方式为:电子设备响应于第一关键词中包括的意图关键词对应第二意图,且第一关键词中缺少第二意图的主体槽位的槽位值,电子设备确定第一语音信号延续第二意图。
例如,第二意图为查询天气,第二意图的主体槽位包括city和date,第一语音信号为“明天的天气呢?”,则第一关键词中包括意图关键词“天气”,还包括主体槽位date的槽位值“明天”,但第一关键词中缺少主体槽位city的槽位值,则电子设备确定第一语音信号延续第二意图。
在另一种可能的实现方式中,电子设备可以预设用于意图接续的第一语料样本,该第一语料样本与意图的第二语料样本相匹配。电子设备也可以根据第一关键词中是否包括第一语料样本中的槽位的槽位值,确定第一语音信号是否延续第二意图。相应的,电子设备确定第一语音信号是否延续第二意图的步骤可以为:
电子设备响应于第一关键词包括第二意图的第一语料样本中的槽位的槽位值,确定第一语音信号延续第二意图。电子设备响应于第一关键词不包括第二意图的第一语料样本中的槽位的槽位值,确定第一语音信号不延续第二意图。从而可以高效准确地确定第一语音信号是否延续第二意图。
需要说明的一点是,电子设备还可以响应于第一语音信号对应的文本串与第二意图的第一语料样本的文本相似度大于预设阈值,确定第一语音信号延续第二意图。电子设备响应于第一语音信号对应的文本串与第二意图的第一语料样本的文本相似度不大于预设阈值,确定第一语音信号不延续第二意图。通过第一语音信号对应的文本串与第一语料样本的文本相似度来确定第一语音信号是否延续第二意图,方法简单且高效。
例如,查询天气意图的第二语料样本为“${city}${date}的天气如何?”,且其中主体槽位city的辅助槽位包括province和country,则第一语料样本可以包括“${city}呢?”、“${date}呢?”、“${province}呢?”和“${country}呢”等,其中,第一语料样本和第二语料样本只是示例性说明,本公开对此不做限制。
需要说明的一点是,电子设备响应于确定第一语音信号不延续第二意图,根据第一关键词确定第一意图。
需要说明的另一点是,电子设备从第一语音信号中提取第一关键词之后,可以先确定第一语音信号是否延续历史被输入的第二语音信号的第二意图;电子设备也可以先确定第一语音信号的第一接收时间和第二语音信号的第二接收时间之间的时间差,响应于该时间差小于预设时长,电子设备才确定第一语音信号是否延续历史被输入的第二语音信号的第二意图;响应于该时间差不小于预设时长,则电子设备直接基于第一关键词,确定第一语音信号的第一意图。
在一般情况下,用户输入的两条语音信号之间如果是意图接续的,则时间差一般较小,如果连续两条语音信号的时间差较大,则第二条语音信号更大可能为新的意图。因此,通过响应于该时间差小于预设时长,电子设备才确定第一语音信号是否延续历史被输入的第二语音信号的第二意图,而当第一语音信号与第二语音信号之间的时间差较大时,电子设备直接基于第一关键词,确定第一语音信号的第一意图,可以提高确定第一语音信号的第一意图的效率和正确率。
步骤303:电子设备基于第一辅助槽位的槽位值,生成用于获取第一主体槽位的第二槽位值的追问语句。
在一种可能的实现方式中,该步骤的实现方式为:电子设备基于第二意图,确定第一辅助槽位的模板语句,模板语句中包括第一辅助槽位对应的字段参数;电子设备将模板语句中的字段参数修改为第一辅助槽位的槽位值,得到追问语句。
其中,第一辅助槽位的模板语句可以预设在电子设备中。例如,第二意图为查询天气,第一辅助槽位为province,第一辅助槽位的模板语句为“${province}的哪个城市呢?”,若第一辅助槽位的槽位值为“广东”,则电子设备将province的字段参数修改为“广东”,得到追问语句“广东省的哪个城市呢?”。其中,上述第一辅助槽位的模板语句只是示例性说明,本公开对此不做限制。
步骤304:电子设备输出追问语句,接收当前被输入的第三语音信号,第三语音信号为基于追问语句输入的。
在一种可能的实现方式中,电子设备输出追问语句的方式为:电子设备将该追问语句转化为第四语音信号,播放该第四语音信号,可以提高语音操作的智能化和便捷性。可选的,电子设备也可以直接显示追问语句的文本,从而降低功耗。
结合上述实例,在追问语句为“广东省的哪个城市呢”的情况下,当前被输入的第三语音信号可能出现两种情况,第一种情况是,第三语音信号包括第一主体槽位的第二槽位值。例如,第三语音信号为“广州”。其中,广州可以为第一主体槽位city的第二槽位值。第二种情况是,第三语音信号未包括第一主体槽位的第二槽位值,且第三语音信号包括与第一主体槽位对应的第二辅助槽位的槽位值。例如,“省会”。其中,省会为第一主体槽位city的第二辅助槽位abstract City(抽象城市)的槽位值。
步骤305:电子设备基于第三语音信号,确定第一主体槽位的第二槽位值。
在一种可能的实现方式中,该步骤的实现方式为:电子设备从第三语音信号中提取第二关键词,将第二关键词作为第一主体槽位的第二槽位值。
该实现方式对应的场景为,用户基于追问语句输入的第三语音信号中包括第一主体槽位的第二槽位值。例如,追问语句为“广东省的哪个城市呢?”若第三语音信号中包括一个城市的名称,例如“广州”,则电子设备提取第二关键词“广州”,将“广州”作为第一主体槽位的第二槽位值。
在本公开实施例中,电子设备通过输出追问语句,接收当前被输入的第三语音信号,基于第三语音信号,确定第一主体槽位的第二槽位值,后续基于第一主体槽位的第二槽位值,生成第一语音信号的第一意图,可以避免由于第一主体槽位的第一槽位值和第一辅助槽位的槽位值存在矛盾,而导致第一意图的槽位信息出现逻辑错误。后续基于第一意图,执行第一语音信号对应的操作,可以提高语音操作的正确率。
在另一种可能的实现方式中,电子设备从第三语音信号中提取与第一主体槽位对应的第二辅助槽位的槽位值,根据第一辅助槽位的槽位值和第二辅助槽位的槽位值,确定第一主体槽位的第二槽位值。
该实现方式对应的场景为,用户基于追问语句输入的第三语音信号中包括了与第一主体槽位对应的第二辅助槽位的槽位值,而未包括第一主体槽位的第二槽位值。例如,追问语句为“广东省的哪个城市呢?”,第三语音信号为“省会”,省会为第一主体槽位city的第二辅助槽位abstract City(抽象城市)的槽位值,则电子设备根据第一辅助槽位的槽位值“广东”和第二辅助槽位的槽位值“省会”,确定第一主体槽位的第二槽位值“广州”。
在一种可能的实现方式中,电子设备根据第一辅助槽位的槽位值和第二辅助槽位的槽位值,确定第一主体槽位的第二槽位值的方式可以为:电子设备将第一辅助槽位的槽位值和第二辅助槽位的槽位值进行字符串组合,将组合的结果输入搜索引擎,根据搜素引擎的输出结果确定第一主体槽位的第二槽位值。
例如,在上述例子中,将“广东”和“省会”进行字符串组合,得到“广东省会”,将“广东省会”输入搜索引擎,得到搜索引擎输出的第二槽位值“广州”。
步骤306:电子设备基于第一主体槽位的第二槽位值,生成第一语音信号的第一意图。
在一种可能的实现方式中,电子设备可以只基于第一主体槽位的第二槽位值,生成第一语音信号的第一意图,电子设备也可以结合第一语音信号中包括的第二意图的第二主体槽位的第三槽位值,生成第一意图;相应的,电子设备结合第一语音信号中包括的第二意图的第二主体槽位的第三槽位值,生成第一意图时,该步骤包括:电子设备响应于第一关键词包括第三关键词,第三关键词为第二意图的多个主体槽位中第二主体槽位的第三槽位值,电子设备基于第二主体槽位的第三槽位值和第一主体槽位的第二槽位值,生成第一语音信号的第一意图。
例如,第二意图为查询天气,第二意图的主体槽位包括city和date,第一语音信号为“广东省明天的天气呢?”,则第一关键词包括“广东省”、“明天”、“天气”,第一关键词中包括第三关键词“明天”,“明天”为主体槽位date的第三槽位值,则电子设备生成的第一语音信号的第一意图为查询天气,该第一意图包括的槽位信息为city:“广州”、date:“明天”。
在本公开实施例中,由于第一语音信号中给出的主体槽位的槽位值往往是实现第一意图的关键信息,电子设备通过响应于第一关键词包括第三关键词,第三关键词为第二意图的多个主体槽位中第二主体槽位的第三槽位值,电子设备基于第二主体槽位的第三槽位值和第一主体槽位的第二槽位值,生成第一语音信号的第一意图,可以保证第一意图的准确性。
在另一种可能的实现方式中,电子设备也可以结合第二意图的多个主体槽位中除第一主体槽位和第二主体槽位以外的第三主体槽位的第四槽位值,生成第一意图;相应的,电子设备结合第二意图的多个主体槽位中除第一主体槽位和第二主体槽位以外的第三主体槽位的第四槽位值,生成第一意图时,该步骤包括:电子设备获取第二意图的多个主体槽位中除第一主体槽位和第二主体槽位以外的第三主体槽位的第四槽位值;电子设备基于第三主体槽位的第四槽位值、第二主体槽位的第三槽位值和第一主体槽位的第二槽位值,生成第一语音信号的第一意图。
其中,电子设备可以将历史被输入的第二语音信号的第二意图存储为上下文,该第二意图包括与第二语音信号对应的多个主体槽位的槽位值。相应的,电子设备获取第二意图的多个主体槽位中除第一主体槽位和第二主体槽位以外的第三主体槽位的第四槽位值的实现方式为:电子设备从上下文中获取除第一主体槽位和第二主体槽位以外的第三主体槽位的第四槽位值。
例如,第二语音信号为“帮小明买张12号从北京到苏州的火车票”,第二意图为购买火车票,第二意图包括departure_city(出发地):北京、arrival_city(目的地):苏州、name(姓名):小明、date:12号这四个主体槽位,第一语音信号为“再买张13号从苏州到广东的”,电子设备基于追问语句“广东省哪个城市呢?”,得到第一主体槽位arrival_city的第二槽位值“广州”,然后结合一个第二主体槽位date的第三槽位值“13号”、另一个第二主体槽位departure_city的第三槽位值“苏州”,以及第三主体槽位name的第四槽位值“小明”生成第一语音信号的第一意图为购买火车票,该第一意图包括的槽位信息为departure_city:苏州、arrival_city:广州、name:小明、date:13号。
在本公开实施例中,由于第二意图的多个主体槽位中除第一主体槽位和第二主体槽位以外的第三主体槽位的第四槽位值也是实现意图的关键信息,电子设备通过响应于第一关键词包括第三关键词,第三关键词为第二意图的多个主体槽位中第二主体槽位的第三槽位值,电子设备基于第二主体槽位的第三槽位值和第一主体槽位的第二槽位值,生成第一语音信号的第一意图,可以保证第一意图的槽位信息的完整,从而提高第一意图的准确性。
需要说明的一点是,在一种可能的实现方式中,电子设备执行完步骤301后,可以执行响应于第一语音信号延续第二意图,且第一关键词包括第四关键词,第四关键词为第二意图的第一主体槽位的第二槽位值,将第二意图中的第一主体槽位的第一槽位值替换为第四关键词,得到第一语音信号的第一意图。
例如,若第四关键词为“广州”,第二意图为查询天气,第二意图的第一主体槽位为city,city的第一槽位值为“苏州”,第二意图的第二主体槽位为date,date的第三槽位值为“今天”,第一关键词“广州”为city的第二槽位值,则电子设备将city的槽位值替换为“广州”,得到第一语音信号的第一意图“查询天气”,且该第一意图包括的槽位信息为city:“广州”、date:“今天”。
在本公开实施例中,通过响应于第一语音信号延续第二意图,且第一关键词包括第四关键词,第四关键词为第二意图的第一主体槽位的第二槽位值,将第二意图中的第一主体槽位的第一槽位值替换为第四关键词,得到第一语音信号的第一意图,从而可以高效的获取第一语音信号的第一意图,从而提高语音操作的效率。
步骤307:电子设备基于第一意图,执行第一语音信号对应的操作。
该步骤的实现方式可以为:电子设备将第一意图的主体槽位的槽位值作为参数输入到电子设备中存储的交互模型的第一Skill Server(技能服务)模块,通过第一SkillServer模块执行第一语音信号对应的操作,其中,第一Skill Server模块是与第一意图对应的Skill Server模块,用于执行与第一意图对应的第一语音信号对应的操作。结合上述实例,第一Skill Server模块的功能为查询天气,该步骤包括:电子设备将“广州”和“今天”输入到该第一Skill Server模块中,通过该第一Skill Server模块执行查询天气的操作。
在本公开实施例中,通过响应于第一语音信号延续历史被输入的第二语音信号的第二意图,且第一关键词包括第二意图的第一辅助槽位的槽位值,清除第二意图的第一主体槽位的第一槽位值,然后基于第一辅助槽位的槽位值,生成用于获取第一主体槽位的第二槽位值的追问语句;即在第一语音信号命中第二意图的第一辅助槽位的情况下,重新获取第一主体槽位的第二槽位值,可以避免由于第一主体槽位的第一槽位值与第一语音信号中第一辅助槽位的槽位值矛盾,而导致第一意图的槽位信息出现逻辑错误,后续基于追问语句,生成第一语音信号的第一意图,基于第一意图,执行第一语音信号对应的操作,可以提高语音操作的正确率。
图4是本公开实施例提供的一种语音操作方法的流程图。参见图4,该实施例包括:
步骤401:电子设备接收当前被输入的第一语音信号,将第一语音信号发送给服务器。
其中,服务器可以为电子设备上安装的目标应用的后台服务器,其中目标应用具有语音交互的功能。
步骤402:服务器接收第一语音信号,从第一语音信号中提取第一关键词。
该步骤的实现方式与步骤301中,电子设备从第一语音信号中提取第一关键词的方式同理,此处不再赘述。
步骤403:服务器响应于第一语音信号延续历史被输入的第二语音信号的第二意图,且第一关键词包括第二意图的第一辅助槽位的槽位值,清除第二意图的第一主体槽位的第一槽位值。
该步骤的实现方式与步骤302中电子设备的实现方式同理,此处不再赘述。
步骤404:服务器基于第一辅助槽位的槽位值,生成用于获取第一主体槽位的第二槽位值的追问语句。
该步骤的实现方式与步骤303中电子设备的实现方式同理,此处不再赘述。
步骤405:服务器将追问语句发送给电子设备。
步骤406:电子设备接收该追问语句,以及输出追问语句,接收当前被输入的第三语音信号,第三语音信号为基于追问语句输入的。
该步骤的实现方式与步骤304同理,此处不再赘述。
步骤407:电子设备将第三语音信号发送给服务器。
步骤408:服务器接收第三语音信号,基于第三语音信号,确定第一主体槽位的第二槽位值。
该步骤的实现方式与步骤305中电子设备的实现方式同理,此处不再赘述。
步骤409:服务器基于第一主体槽位的第二槽位值,生成第一语音信号的第一意图。
该步骤的实现方式与步骤306中电子设备的实现方式同理,此处不再赘述。
步骤410:服务器基于第一意图,执行第一语音信号对应的操作。
该步骤的实现方式与步骤307中电子设备的实现方式同理,此处不再赘述。
在本公开实施例中,通过响应于第一语音信号延续历史被输入的第二语音信号的第二意图,且第一关键词包括第二意图的第一辅助槽位的槽位值,清除第二意图的第一主体槽位的第一槽位值,然后基于第一辅助槽位的槽位值,生成用于获取第一主体槽位的第二槽位值的追问语句;即在第一语音信号命中第二意图的第一辅助槽位的情况下,重新获取第一主体槽位的第二槽位值,可以避免由于第一主体槽位的第一槽位值与第一语音信号中第一辅助槽位的槽位值矛盾,而导致第一意图的槽位信息出现逻辑错误,后续基于追问语句,生成第一语音信号的第一意图,基于第一意图,执行第一语音信号对应的操作,可以提高语音操作的正确率。
图5是本公开实施例提供的一种语音操作装置的框图。参见图5,该装置包括:
接收模块501,被配置为接收当前被输入的第一语音信号,从第一语音信号中提取第一关键词;
清除模块502,被配置为响应于第一语音信号延续历史被输入的第二语音信号的第二意图,且第一关键词包括第二意图的第一辅助槽位的槽位值,清除第二意图的第一主体槽位的第一槽位值;
生成模块503,被配置为基于第一辅助槽位的槽位值,生成用于获取第一主体槽位的第二槽位值的追问语句;基于追问语句,生成第一语音信号的第一意图;
执行模块504,被配置为基于第一意图,执行第一语音信号对应的操作。
在一种可能的实现方式中,清除模块502,还被配置为从第二意图的多个主体槽位中选择与第一辅助槽位对应的第一主体槽位;清除第一主体槽位的第一槽位值。
在另一种可能的实现方式中,生成模块503,还被配置为输出追问语句,接收当前被输入的第三语音信号,第三语音信号为基于追问语句输入的;基于第三语音信号,确定第一主体槽位的第二槽位值;基于第一主体槽位的第二槽位值,生成第一语音信号的第一意图。
在另一种可能的实现方式中,生成模块503,还被配置为从第三语音信号中提取第二关键词,将第二关键词作为第一主体槽位的第二槽位值;或者,从第三语音信号中提取与第一主体槽位对应的第二辅助槽位的槽位值,根据第一辅助槽位的槽位值和第二辅助槽位的槽位值,确定第一主体槽位的第二槽位值。
在另一种可能的实现方式中,生成模块503,还被配置为响应于第一关键词包括第三关键词,第三关键词为第二意图的多个主体槽位中第二主体槽位的第三槽位值,基于第二主体槽位的第三槽位值和第一主体槽位的第二槽位值,生成第一语音信号的第一意图。
在另一种可能的实现方式中,生成模块503,还被配置为获取第二意图的多个主体槽位中除第一主体槽位和第二主体槽位以外的第三主体槽位的第四槽位值;基于第三主体槽位的第四槽位值、第二主体槽位的第三槽位值、第一主体槽位的第二槽位值,生成第一语音信号的第一意图。
在另一种可能的实现方式中,生成模块503,还被配置为基于第二意图,确定第一辅助槽位的模板语句,模板语句中包括第一辅助槽位对应的字段参数;将模板语句中的字段参数修改为第一辅助槽位的槽位值,得到追问语句。
在另一种可能的实现方式中,装置还包括:
确定模块,被配置为响应于第一关键词中没有与第一语音信号对应的意图关键词,确定第一语音信号延续第二意图;或者,响应于第一关键词中包括的意图关键词对应第二意图,且第一关键词中缺少第二意图的主体槽位的槽位值,确定第一语音信号延续第二意图。
在本公开实施例中,通过响应于第一语音信号延续历史被输入的第二语音信号的第二意图,且第一关键词包括第二意图的第一辅助槽位的槽位值,清除第二意图的第一主体槽位的第一槽位值,然后基于第一辅助槽位的槽位值,生成用于获取第一主体槽位的第二槽位值的追问语句;即在第一语音信号命中第二意图的第一辅助槽位的情况下,重新获取第一主体槽位的第二槽位值,可以避免由于第一主体槽位的第一槽位值与第一语音信号中第一辅助槽位的槽位值矛盾,而导致第一意图的槽位信息出现逻辑错误,后续基于追问语句,生成第一语音信号的第一意图,基于第一意图,执行第一语音信号对应的操作,可以提高语音操作的正确率。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的语音操作装置在进行语音操作时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音操作装置与语音操作方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6示出了本公开一个示例性实施例提供的电子设备600的结构框图。该电子设备600可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备600还可能被称为用户设备、便携式电子设备、膝上型电子设备、台式电子设备等其他名称。
通常,电子设备600包括有:处理器601和存储器602。
处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的语音操作方法。
在一些实施例中,电子设备600还可选包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:射频电路604、触摸显示屏605、摄像头组件606、音频电路607、定位组件608和电源609中的至少一种。
外围设备接口603可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路604用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路604包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它电子设备进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路604还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏605用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时,显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时,显示屏605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏605可以为一个,设置电子设备600的前面板;在另一些实施例中,显示屏605可以为至少两个,分别设置在电子设备600的不同表面或呈折叠设计;在再一些实施例中,显示屏605可以是柔性显示屏,设置在电子设备600的弯曲表面上或折叠面上。甚至,显示屏605还可以设置成非矩形的不规则图形,也即异形屏。显示屏605可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件606用于采集图像或视频。可选地,摄像头组件606包括前置摄像头和后置摄像头。通常,前置摄像头设置在电子设备的前面板,后置摄像头设置在电子设备的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器601进行处理,或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在电子设备600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路607还可以包括耳机插孔。
定位组件608用于定位电子设备600的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源609用于为电子设备600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,电子设备600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于:加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。
加速度传感器611可以检测以电子设备600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号,控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器612可以检测电子设备600的机体方向及转动角度,陀螺仪传感器612可以与加速度传感器611协同采集用户对电子设备600的3D动作。处理器601根据陀螺仪传感器612采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器613可以设置在电子设备600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在电子设备600的侧边框时,可以检测用户对电子设备600的握持信号,由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时,由处理器601根据用户对触摸显示屏605的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器614用于采集用户的指纹,由处理器601根据指纹传感器614采集到的指纹识别用户的身份,或者,由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器601授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置电子设备600的正面、背面或侧面。当电子设备600上设置有物理按键或厂商Logo时,指纹传感器614可以与物理按键或厂商Logo集成在一起。
光学传感器615用于采集环境光强度。在一个实施例中,处理器601可以根据光学传感器615采集的环境光强度,控制触摸显示屏605的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏605的显示亮度;当环境光强度较低时,调低触摸显示屏605的显示亮度。在另一个实施例中,处理器601还可以根据光学传感器615采集的环境光强度,动态调整摄像头组件606的拍摄参数。
接近传感器616,也称距离传感器,通常设置在电子设备600的前面板。接近传感器616用于采集用户与电子设备600的正面之间的距离。在一个实施例中,当接近传感器616检测到用户与电子设备600的正面之间的距离逐渐变小时,由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态;当接近传感器616检测到用户与电子设备600的正面之间的距离逐渐变大时,由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图6中示出的结构并不构成对电子设备600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备中的处理器执行以完成下述实施例中语音操作方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本公开的可选实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (11)
1.一种语音操作方法,其特征在于,所述方法包括:
接收当前被输入的第一语音信号,从所述第一语音信号中提取第一关键词;
响应于所述第一语音信号延续历史被输入的第二语音信号的第二意图,且所述第一关键词包括所述第二意图的第一辅助槽位的槽位值,清除所述第二意图的第一主体槽位的第一槽位值,所述第一辅助槽位与所述第一主体槽位不同但具有对应关系,所述主体槽位为第二意图的关键信息的槽位,所述辅助槽位为所述关键信息对应的辅助信息的槽位;
基于所述第一辅助槽位的槽位值,生成用于获取所述第一主体槽位的第二槽位值的追问语句;
基于所述追问语句,生成所述第一语音信号的第一意图;
基于所述第一意图,执行所述第一语音信号对应的操作;
所述基于所述第一辅助槽位的槽位值,生成用于获取所述第一主体槽位的第二槽位值的追问语句,包括:
基于所述第二意图,确定所述第一辅助槽位的模板语句,所述模板语句包括所述第一辅助槽位对应的字段参数;
将所述模板语句中的字段参数修改为所述第一辅助槽位的槽位值,得到所述追问语句。
2.根据权利要求1所述的方法,其特征在于,所述清除所述第二意图的第一主体槽位的第一槽位值,包括:
从所述第二意图的多个主体槽位中选择与所述第一辅助槽位对应的第一主体槽位;
清除所述第一主体槽位的第一槽位值。
3.根据权利要求1所述的方法,其特征在于,所述基于所述追问语句,生成所述第一语音信号的第一意图,包括:
输出所述追问语句,接收当前被输入的第三语音信号,所述第三语音信号为基于所述追问语句输入的;
基于所述第三语音信号,确定所述第一主体槽位的第二槽位值;
基于所述第一主体槽位的第二槽位值,生成所述第一语音信号的第一意图。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第三语音信号,确定所述第一主体槽位的第二槽位值,包括:
从所述第三语音信号中提取第二关键词,将所述第二关键词作为所述第一主体槽位的第二槽位值;或者,
从所述第三语音信号中提取与所述第一主体槽位对应的第二辅助槽位的槽位值,根据所述第一辅助槽位的槽位值和所述第二辅助槽位的槽位值,确定所述第一主体槽位的第二槽位值。
5.根据权利要求3所述的方法,其特征在于,所述基于所述第一主体槽位的第二槽位值,生成所述第一语音信号的第一意图,包括:
响应于所述第一关键词包括第三关键词,所述第三关键词为所述第二意图的多个主体槽位中第二主体槽位的第三槽位值,基于所述第二主体槽位的第三槽位值和所述第一主体槽位的第二槽位值,生成所述第一语音信号的第一意图。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第二主体槽位的第三槽位值和所述第一主体槽位的第二槽位值,生成所述第一语音信号的第一意图,包括:
获取所述第二意图的多个主体槽位中除所述第一主体槽位和所述第二主体槽位以外的第三主体槽位的第四槽位值;
基于所述第三主体槽位的第四槽位值、所述第二主体槽位的第三槽位值、所述第一主体槽位的第二槽位值,生成所述第一语音信号的第一意图。
7.根据权利要求1所述的方法,其特征在于,所述基于所述第一辅助槽位的槽位值,生成用于获取所述第一主体槽位的第二槽位值的追问语句,包括:
基于所述第二意图,确定所述第一辅助槽位的模板语句,所述模板语句中包括所述第一辅助槽位对应的字段参数;
将所述模板语句中的所述字段参数修改为所述第一辅助槽位的槽位值,得到所述追问语句。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于所述第一关键词中没有与所述第一语音信号对应的意图关键词,确定所述第一语音信号延续所述第二意图;或者,
响应于所述第一关键词中包括的意图关键词对应所述第二意图,且所述第一关键词中缺少所述第二意图的主体槽位的槽位值,确定所述第一语音信号延续所述第二意图。
9.一种语音操作装置,其特征在于,所述装置包括:
接收模块,被配置为接收当前被输入的第一语音信号,从所述第一语音信号中提取第一关键词;
清除模块,被配置为响应于所述第一语音信号延续历史被输入的第二语音信号的第二意图,且所述第一关键词包括所述第二意图的第一辅助槽位的槽位值,清除所述第二意图的第一主体槽位的第一槽位值,所述第一辅助槽位与所述第一主体槽位不同但具有对应关系,所述主体槽位为第二意图的关键信息的槽位,所述辅助槽位为所述关键信息对应的辅助信息的槽位;
生成模块,被配置为基于所述第一辅助槽位的槽位值,生成用于获取所述第一主体槽位的第二槽位值的追问语句;基于所述追问语句,生成所述第一语音信号的第一意图;
执行模块,被配置为基于所述第一意图,执行所述第一语音信号对应的操作;
所述生成模块,还被配置为基于所述第二意图,确定所述第一辅助槽位的模板语句,所述模板语句包括所述第一辅助槽位对应的字段参数;将所述模板语句中的字段参数修改为所述第一辅助槽位的槽位值,得到所述追问语句。
10.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求1至权利要求8任一项所述的语音操作方法所执行的操作。
11.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至权利要求8任一项所述的语音操作方法所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010137697.2A CN111524533B (zh) | 2020-03-02 | 2020-03-02 | 语音操作方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010137697.2A CN111524533B (zh) | 2020-03-02 | 2020-03-02 | 语音操作方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111524533A CN111524533A (zh) | 2020-08-11 |
CN111524533B true CN111524533B (zh) | 2023-12-08 |
Family
ID=71901990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010137697.2A Active CN111524533B (zh) | 2020-03-02 | 2020-03-02 | 语音操作方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111524533B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133345A (zh) * | 2017-05-22 | 2017-09-05 | 北京百度网讯科技有限公司 | 基于人工智能的交互方法和装置 |
CN109063035A (zh) * | 2018-07-16 | 2018-12-21 | 哈尔滨工业大学 | 一种面向出行领域的人机多轮对话方法 |
CN109065053A (zh) * | 2018-08-20 | 2018-12-21 | 百度在线网络技术(北京)有限公司 | 用于处理信息的方法和装置 |
CN110377716A (zh) * | 2019-07-23 | 2019-10-25 | 百度在线网络技术(北京)有限公司 | 对话的交互方法、装置及计算机可读存储介质 |
CN110473521A (zh) * | 2019-02-26 | 2019-11-19 | 北京蓦然认知科技有限公司 | 一种任务模型的训练方法、装置、设备 |
-
2020
- 2020-03-02 CN CN202010137697.2A patent/CN111524533B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133345A (zh) * | 2017-05-22 | 2017-09-05 | 北京百度网讯科技有限公司 | 基于人工智能的交互方法和装置 |
CN109063035A (zh) * | 2018-07-16 | 2018-12-21 | 哈尔滨工业大学 | 一种面向出行领域的人机多轮对话方法 |
CN109065053A (zh) * | 2018-08-20 | 2018-12-21 | 百度在线网络技术(北京)有限公司 | 用于处理信息的方法和装置 |
CN110473521A (zh) * | 2019-02-26 | 2019-11-19 | 北京蓦然认知科技有限公司 | 一种任务模型的训练方法、装置、设备 |
CN110377716A (zh) * | 2019-07-23 | 2019-10-25 | 百度在线网络技术(北京)有限公司 | 对话的交互方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111524533A (zh) | 2020-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112068762B (zh) | 应用程序的界面显示方法、装置、设备及介质 | |
CN111524501B (zh) | 语音播放方法、装置、计算机设备及计算机可读存储介质 | |
CN110572716B (zh) | 多媒体数据播放方法、装置及存储介质 | |
WO2022057435A1 (zh) | 基于搜索的问答方法及存储介质 | |
CN112581358B (zh) | 图像处理模型的训练方法、图像处理方法及装置 | |
CN111681655A (zh) | 语音控制方法、装置、电子设备及存储介质 | |
CN109917988B (zh) | 选中内容显示方法、装置、终端及计算机可读存储介质 | |
JP7236551B2 (ja) | キャラクタ推薦方法、キャラクタ推薦装置、コンピュータ装置およびプログラム | |
CN111428079B (zh) | 文本内容处理方法、装置、计算机设备及存储介质 | |
CN114594923A (zh) | 车载终端的控制方法、装置、设备及存储介质 | |
CN111437600A (zh) | 剧情展示方法、装置、设备及存储介质 | |
CN111475611B (zh) | 词典管理方法、装置、计算机设备及存储介质 | |
CN111341317B (zh) | 唤醒音频数据的评价方法、装置、电子设备及介质 | |
CN113190307A (zh) | 控件添加方法、装置、设备及存储介质 | |
CN112764600A (zh) | 资源处理方法、装置、存储介质及计算机设备 | |
CN110852093B (zh) | 诗词生成方法、装置、计算机设备及存储介质 | |
CN108831423B (zh) | 提取音频数据中主旋律音轨的方法、装置、终端及存储介质 | |
WO2019223268A1 (zh) | 存储歌词注音的方法和装置 | |
CN113408989B (zh) | 汽车数据的比对方法、装置及计算机存储介质 | |
CN111524533B (zh) | 语音操作方法、装置、电子设备及存储介质 | |
CN111640432B (zh) | 语音控制方法、装置、电子设备及存储介质 | |
CN111145723B (zh) | 转换音频的方法、装置、设备以及存储介质 | |
CN112487162A (zh) | 确定文本语义信息的方法、装置、设备以及存储介质 | |
CN111681654A (zh) | 语音控制方法、装置、电子设备及存储介质 | |
CN110989963B (zh) | 唤醒词推荐方法及装置、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |