CN114187897A - 一种用户意图的识别方法、装置和电子设备 - Google Patents
一种用户意图的识别方法、装置和电子设备 Download PDFInfo
- Publication number
- CN114187897A CN114187897A CN202111660073.XA CN202111660073A CN114187897A CN 114187897 A CN114187897 A CN 114187897A CN 202111660073 A CN202111660073 A CN 202111660073A CN 114187897 A CN114187897 A CN 114187897A
- Authority
- CN
- China
- Prior art keywords
- intention
- user
- service
- server
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000004044 response Effects 0.000 claims description 12
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 31
- 230000006870 function Effects 0.000 description 30
- 238000004891 communication Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 11
- 230000003993 interaction Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000013500 data storage Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请提供一种用户意图的识别方法、装置和电子设备,涉及人工智能技术领域,解决了现有技术中电视机对用户意图的识别率较低的问题。该方法包括:接收第一设备发送的语音数据;其中,第一设备当前登陆的账号为第一账号;获取第一账号对应的个性化意图列表;其中,个性化意图列表包括用户设定的不同意图业务对应的意图数值;根据语音数据对应的语音文本和意图数值,确定用户意图;其中,用户意图为不同意图业务中的任一个意图业务;调用用户意图中包含语音文本的业务数据;向第一设备发送业务数据。
Description
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种用户意图的识别方法、装置和电子设备。
背景技术
随着语音识别技术的发展,智能语音交互技术逐渐成为终端设备(如手机、平板电脑或智能家电等智能家居产品)的标准配置。在智能语音交互场景下,用户可以通过语音控制智能家电,以终端设备为电视机为例,如用户可以通过语音控制电视机,实现看视频、听音乐或查天气等一系列电视控制操作。但是,在实际的操作过程中,电视机经常会因为用户输入的语音不够明确或者有歧义而不能正确理解用户意图,需要用户多次输入语音才能响应,导致实际的用户意图的识别率较低。
发明内容
本申请提供一种用户意图的识别方法、装置和电子设备,解决了现有技术中电视机对用户意图的识别率较低的问题。
为达到上述目的,本申请采用如下技术方案:
第一方面、本申请提供一种用户意图的识别方法,包括:接收第一设备发送的语音数据;其中,第一设备当前登陆的账号为第一账号;获取第一账号对应的个性化意图列表;其中,个性化意图列表包括用户设定的不同意图业务对应的意图数值;根据语音数据对应的语音文本和意图数值,确定用户意图;其中,用户意图为不同意图业务中的任一个意图业务;调用用户意图中包含语音文本的业务数据;向第一设备发送业务数据。
在一些可实施的示例中,根据语音数据对应的语音文本和意图数值,确定用户意图,包括:根据语音数据对应的语音文本和意图数值,确定每一个意图业务对应的第一置信度;确定第一置信度大于或等于第一置信度阈值的意图业务为用户意图。
在一些可实施的示例中,本申请提供的用户意图的识别方法还包括:确定不存在第一置信度大于或等于第一置信度阈值的意图业务的情况下,根据第一置信度和意图数值,确定每一个意图业务对应的第二置信度;确定第二置信度大于或等于第二置信度阈值的意图业务为用户意图。
在一些可实施的示例中,本申请提供的用户意图的识别方法还包括:确定不存在第二置信度大于或等于第二置信度阈值的意图业务的情况下,确定默认的意图业务为用户意图。
在一些可实施的示例中,根据语音数据对应的语音文本和意图数值,确定每一个意图业务对应的第一置信度,包括:将语音数据对应的语音文本和意图数值输入至预先配置的意图识别模型中,确定每一个意图业务对应的第一置信度。
在一些可实施的示例中,接收第一设备发送的语音数据前,本申请提供的用户意图的识别方法还包括:接收第一设备发送的意图设置请求;响应于意图设置请求,确定未保存第一账号对应的个性化意图列表的情况下,向第一设备发送默认意图列表;接收第一设备发送的个性化意图列表;建立第一账号与个性化意图列表的对应关系,并保存的个性化意图列表。
第二方面、本申请提供一种用户意图的识别方法,应用于第一设备,包括:向服务器发送语音数据;其中,第一设备当前登陆的账号为第一账号,第一账号对应一个个性化意图列表,个性化意图列表包括用户设定的不同意图业务对应的意图数值;接收服务器发送的业务数据;其中,业务数据包括用户意图中包含语音文本的业务数据,用户意图根据语音数据对应的语音文本和意图数值确定的,用户意图为不同意图业务中的任一个意图业务。
在一些可实施的示例中,本申请提供的用户意图的识别方法还包括:向服务器发送意图设置请求;接收服务器发送的默认意图列表;响应于用户对默认意图列表的设置操作,向服务器发送个性化意图列表。
第三方面、本申请提供一种用户意图的识别装置,包括:收发单元,用于接收第一设备发送的语音数据;其中,第一设备当前登陆的账号为第一账号;收发单元,还用于获取第一账号对应的个性化意图列表;其中,个性化意图列表包括用户设定的不同意图业务对应的意图数值;处理单元,用于根据收发单元接收的语音数据对应的语音文本和收发单元获取的意图数值,确定用户意图;其中,用户意图为不同意图业务中的任一个意图业务;处理单元,还用于调用用户意图中包含收发单元接收的语音文本的业务数据;处理单元,还用于控制收发单元向第一设备发送业务数据。
在一些可实施的示例中,处理单元,具体用于根据收发单元接收的语音数据对应的语音文本和收发单元获取的意图数值,确定每一个意图业务对应的第一置信度;处理单元,具体用于确定第一置信度大于或等于第一置信度阈值的意图业务为用户意图。
在一些可实施的示例中,处理单元,还用于确定不存在第一置信度大于或等于第一置信度阈值的意图业务的情况下,根据第一置信度和收发单元获取的意图数值,确定每一个意图业务对应的第二置信度;处理单元,还用于确定第二置信度大于或等于第二置信度阈值的意图业务为用户意图。
在一些可实施的示例中,处理单元,还用于确定不存在第二置信度大于或等于第二置信度阈值的意图业务的情况下,确定默认的意图业务为用户意图。
在一些可实施的示例中,处理单元,具体用于将收发单元接收的语音数据对应的语音文本和收发单元获取的意图数值输入至预先配置的意图识别模型中,确定每一个意图业务对应的第一置信度。
在一些可实施的示例中,收发单元,还用于接收第一设备发送的意图设置请求;处理单元,还用于响应于收发单元接收的意图设置请求,确定未保存第一账号对应的个性化意图列表的情况下,控制收发单元向第一设备发送默认意图列表;收发单元,还用于接收第一设备发送的个性化意图列表;处理单元,还用于建立第一账号与收发单元接收的个性化意图列表的对应关系,并保存的个性化意图列表。
第四方面、本申请提供一种用户意图的识别装置包括:收发单元,用于向服务器发送语音数据;其中,第一设备当前登陆的账号为第一账号,第一账号对应一个个性化意图列表,个性化意图列表包括用户设定的不同意图业务对应的意图数值;收发单元,还用于接收服务器发送的业务数据;其中,业务数据包括用户意图中包含语音文本的业务数据,用户意图根据语音数据对应的语音文本和意图数值确定的,用户意图为不同意图业务中的任一个意图业务。
在一些可实施的示例中,识别装置还包括处理单元;收发单元,还用于向服务器发送意图设置请求;收发单元,还用于接收服务器发送的默认意图列表;处理单元,还用于响应于用户对收发单元接收的默认意图列表的设置操作,控制收发单元向服务器发送个性化意图列表。
第五方面、本申请提供一种语音识别系统,包括如第三方面提供的任一项服务器,以及如第四方面提供的任一项电子设备。
第六方面、本申请一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如第一方面提供的任一项所述的用户意图的识别方法。
第七方面、本申请提供一种服务器,包括:通信接口、处理器、存储器、总线;所述存储器用于存储计算机执行指令,所述处理器与所述存储器通过所述总线连接;当所述服务器运行时,所述处理器执行所述存储器存储的计算机执行指令,以使所述服务器执行如第一方面提供的任一项所述的用户意图的识别方法。
第八方面,本申请提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如第一方面的设计方式所述的用户意图的识别方法。
第九方面、本申请提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如第二方面提供的任一项所述的用户意图的识别方法。
第十方面、本申请提供一种电子设备,包括:通信接口、处理器、存储器、总线;所述存储器用于存储计算机执行指令,所述处理器与所述存储器通过所述总线连接;当所述电子设备运行时,所述处理器执行所述存储器存储的计算机执行指令,以使所述电子设备执行如第二方面提供的任一项所述的用户意图的识别方法。
第十一方面,本申请提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如第二方面的设计方式所述的用户意图的识别方法。
需要说明的是,上述计算机指令可以全部或者部分存储在第一计算机可读存储介质上。其中,第一计算机可读存储介质可以与服务器封装在一起的,也可以与电子设备或者服务器的处理器单独封装,本申请对此不作限定。
本申请中第三方面、第六方面、第七方面以及第八方面的描述,可以参考第一方面的详细描述;并且,第三方面、第六方面、第七方面以及第八方面的描述的有益效果,可以参考第一方面的有益效果分析,此处不再赘述。
本申请中第四方面、第九方面、第十方面以及第十一方面的描述,可以参考第二方面的详细描述;并且,第四方面、第九方面、第十方面以及第十一方面的描述的有益效果,可以参考第二方面的有益效果分析,此处不再赘述。
在本申请中,上述服务器或者电子设备的名字对设备或功能模块本身不构成限定,在实际实现中,这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本申请类似,属于本申请权利要求及其等同技术的范围之内。
本申请的这些方面或其他方面在以下的描述中会更加简明易懂。
本申请提供一种用户意图的识别方法,用户通过对意图列表中的每个意图业务设置意图数值,从而可以得到该用户的个性化意图列表。如此,在用户使用第一设备时,第一设备可以将该用户的语音数据发送至服务器,这样服务器就可以根据该用户在第一设备上登陆的第一账号,确定该用户的个性化意图列表。进而,服务器可以根据该语音数据对应的语音文本和每个意图业务对应的意图数值,确定该用户的用户意图。之后,服务器调取用户意图中包含语音文本的业务数据,并将该业务数据发送至第一设备。由于,用户预先在第一设备上设置了对每个意图业务的意图数值,从而服务器在确定该用户的用户意图时,可以根据用户设置的每个意图业务的意图数值,更加准确地确定出用户的用户意图,提高了用户意图的识别率。
附图说明
图1为本申请实施例提供的用户意图的识别方法的场景示意图之一;
图2为本申请实施例提供的用户意图的识别方法中显示设备的结构示意图之一;
图3为本申请实施例提供的用户意图的识别方法中显示设备的结构示意图之二;
图4为本申请实施例提供的用户意图的识别方法的流程示意图之一;
图5为本申请实施例提供的用户意图的识别方法的场景示意图之二;
图6为本申请实施例提供的用户意图的识别方法的流程示意图之二;
图7为本申请实施例提供的用户意图的识别方法的流程示意图之三;
图8为本申请实施例提供的服务器的结构示意图;
图9为本申请实施例提供的一种芯片系统的示意图之一;
图10为本申请实施例提供的电视机的结构示意图;
图11为本申请实施例提供的一种芯片系统的示意图之二。
具体实施方式
为使本申请的目的、实施方式和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
基于本申请描述的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请所附权利要求保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
目前,随着人工智能技术的快速发展,智能语音交互技术逐渐成为终端设备(如手机、平板电脑或智能家电等智能家居产品)的标准配置。在智能语音交互场景下,人机对话技术中最关键的是用户意图的识别,即识别用户输入的语音数据所表达的意图。但是,在实际的操作过程中,以终端设备为电视机为例,电视机经常会因为用户输入的语音不够明确或者有歧义而不能正确理解用户意图,需要用户多次输入语音才能响应,导致实际的用户意图的识别率较低。
为解决上述问题,本申请实施例提供一种用户意图的识别方法,用户通过对意图列表中的每个意图业务设置意图数值,从而可以得到该用户的个性化意图列表。如此,在用户使用第一设备时,第一设备可以将该用户的语音数据发送至服务器,这样服务器就可以根据该用户在第一设备上登陆的第一账号,确定该用户的个性化意图列表。进而,服务器可以根据该语音数据对应的语音文本和每个意图业务对应的意图数值,确定该用户的用户意图。之后,服务器调取用户意图中包含语音文本的业务数据,并将该业务数据发送至第一设备。由于,用户预先在第一设备上设置了对每个意图业务的意图数值,从而服务器在确定该用户的用户意图时,可以根据用户设置的每个意图业务的意图数值,更加准确地确定出用户的用户意图,提高了用户意图的识别率。
图1为根据本申请一个或多个实施例的显示设备与控制装置之间操作场景的示意图,如图1所示,用户可通过移动终端300和控制装置100操作显示设备200。控制装置100可以是遥控器,遥控器和显示设备的通信包括红外协议通信、蓝牙协议通信,无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键,语音输入、控制面板输入等输入用户指令,来控制显示设备200。在一些实施例中,也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。
在一些实施例中,移动终端300可与显示设备200安装软件应用,通过网络通信协议实现连接通信,实现一对一控制操作的和数据通信的目的。也可以将移动终端300上显示音视频内容传输到显示设备200上,实现同步显示功能显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。显示设备200,可以液晶显示器、OLED显示器、投影显示设备。显示设备200除了提供广播接收电视功能之外,还可以附加提供计算机支持功能的智能网络电视功能。
在一些实施例中,本申请实施例提供第一设备可以为上述显示设备200。其中,显示设备200用于将用户的语音数据发送至服务器400,这样服务器400就可以根据该用户在显示设备200上登陆的第一账号,确定该用户的个性化意图列表。进而,服务器400可以根据该语音数据对应的语音文本和每个意图业务对应的意图数值,确定该用户的用户意图。之后,服务器400调取用户意图中包含语音文本的业务数据,并将该业务数据发送至显示设备200。
图2示出了根据示例性实施例中显示设备200的硬件配置框图。如图2所示显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。控制器包括中央处理器,视频处理器,音频处理器,图形处理器,RAM,ROM,用于输入/输出的第一接口至第n接口。显示器260可为液晶显示器、OLED显示器、触控显示器以及投影显示器中的至少一种,还可以为一种投影装置和投影屏幕。调谐解调器210通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线广播电视信号中解调出音视频信号,如以及EPG数据信号。检测器230用于采集外部环境或与外部交互的信号。控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。
在一些实施例中,控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。用户可在显示器260上显示的图形用户界面(GUI)输入用户命令,则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
在一些实施例中,声音采集器可以是麦克风,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当进行语音交互时,用户可以通过人嘴靠近麦克风发声,将声音信号输入到麦克风。显示设备200可以设置至少一个麦克风。在另一些实施例中,显示设备200可以设置两个麦克风,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,显示设备200还可以设置三个,四个或更多麦克风,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
其中,麦克风可以是内置在显示设备200上,或者麦克风通过有线或者无线的方式与显示设备200相连接。例如,麦克风可以设置于显示设备200的显示器260的下侧边缘处。当然,本申请实施例对麦克风在显示设备200上的位置不作限定。或者,显示设备200可以不包括麦克风,即上述麦克风并未设置于显示设备200中。显示设备200可以通过接口(如USB接口130)外接麦克风(也可以称为话筒)。该外接的话筒可以通过外部固定件(如带夹子的摄像头支架)固定在显示设备200上。例如,外接的话筒可以通过外部固定件,固定在显示设备200的显示器260的边缘处,如上侧边缘处。
在一些实施例中,“用户界面”,是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface,GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素中的至少一种。
在一些示例中,以申请一个或多个实施例的显示设备200为电视机1,并且电视机1的操作系统为Android系统为例,如图3所示,电视机1从逻辑上可以分为应用程序(Applications)层(简称“应用层”)21,内核层22和硬件层23。
其中,如图3所示,硬件层可包括图2所示的控制器250、通信器220、检测器230和显示器260等。应用层21包括一个或多个应用。应用可以为系统应用,也可以为第三方应用。如,应用层21包括语音识别应用,语音识别应用可以提供语音交互界面和服务,用于实现电视机1与服务器400的连接。
内核层22作为硬件层和应用层21之间的软件中间件,用于管理和控制硬件与软件资源。
服务器400包括通信控制模块201、语义中控模块202、意图识别模块203、业务系统模块204和数据存储模块205。通信控制模块201用于与电视机1建立通信连接。如:电视机1中的语音识别应用通过调用通信器220,实现与服务器400的通信控制模块201的通信连接。
在一些示例中,内核层22包括检测器驱动,检测器驱动用于将检测器230采集的语音数据发送至语音识别应用。电视机1中的语音识别应用启动,电视机1与服务器400建立了通信连接的情况下,检测器驱动用于将检测器230采集的用户输入的语音数据发送至语音识别应用。之后,语音识别应用将该语音数据发送至服务器的语义中控模块202。语义中控模块202在接收到电视机1发送的语音数据后,确定该语音数据对应的语音文本。语义中控模块202向数据存储模块205发送查询电视机1当前登陆的第一账号对应的个性化意图列表的请求信息。数据存储模块在接收到语义中控模块202发送的请求信息后,查询查询电视机1当前登陆的第一账号对应的个性化意图列表。之后,数据存储模块205将个性化意图列表发送至语义中控模块202。语义中控模块202将语音数据对应的语音文本和意图数值发送至意图识别模块203。意图识别模块203根据语义中控模块202发送的语音数据对应的语音文本和语义中控模块202发送的意图数值,确定用户意图。意图识别模块203将确定出的用户意图发送至语义中控模块202。语义中控模块202向业务系统模块204发送调用用户意图中包含该语音文本的业务数据的业务请求。业务系统模块204在接收到语义中控模块202发送的业务请求后,调用用户意图中包含该语音文本的业务数据。业务系统模块204将用户意图中包含该语音文本的业务数据发送至电视机1的语音识别应用。语音识别应用在接收到服务器400发送的业务数据后,控制显示器192显示该业务数据。
本申请所涉及的语音数据可以为经用户授权或者经过各方充分授权的数据。
以下实施例中的方法均可以在具有上述硬件结构的电视机1中实现。以下实施例中以上述显示设备200是电视机1为例,对本申请实施例的方法进行说明。
本申请实施例提供一种用户意图的识别方法,如图4所示,该用户意图的识别方法可以包括S11-S15。
S11、服务器400接收电视机1发送的语音数据。其中,电视机1当前登陆的账号为第一账号。
S12、服务器400获取第一账号对应的个性化意图列表。其中,个性化意图列表包括用户设定的不同意图业务对应的意图数值。
在一些示例中,电视机1中预先存储了默认意图列表。其中,意图列表中包括意图业务和意图默认数值。其中,意图默认数值可以是预先设置好的,也可以是根据意图业务的请求数量确定的。如:意图默认数值为电视机1出厂时,运维人员设定的。或者,服务器1在收集预设时长的意图业务的请求数量后,按照从大到小的顺序对请求数量进行排序,从而确定意图业务的排序。最后,根据每个意图业务的请求数量占全部请求数量的比值,确定每个意图业务的意图默认数值。
示例性的,以意图业务包括5种用户意图,分别为打开应用、视频搜索、音乐播放、天气查询和K歌,意图默认数值为星级,并且包括6个星级,分别为0-5为例,个性化意图列表的获取方式如下:
具体的,星级越高表示用户对该意图业务的兴趣程度越高。
示例性的,默认意图列表如表1所示。
表1
意图业务 | 星级 |
视频搜索 | 3 |
打开应用 | 3 |
音乐播放 | 3 |
天气查询 | 3 |
K歌 | 3 |
在另一些示例中,服务器400在无法识别用户的用户意图的情况下,可以显示如图5中(a)所示的界面400。界面400中包括用于提示用户进行意图设置的按钮4001。如:服务器400在确定累计3次无法识别用户的用户意图时,可以显示如图5中(a)所示的界面400。或者,服务器400在每次无法识别用户的用户意图时,可以显示如图5中(a)所示的界面400。在用户初次进入意图设置界面时,电视机1在接收到用户对按钮4001的选择操作后,显示如图5中(b)所示的界面401。界面401中包括意图设置界面标题栏4010以及默认意图列表4011。之后,用户可以对每个意图业务设置需要的星级,从而服务器400可以根据用户设定的个性化意图列表,确定出用户的意图。在用户设置完每个意图业务对应的星级后,电视机1显示如图5中(c)所示的界面402。界面402包括意图设置界面标题栏4010、重新设置后的意图列表(也称为个性化意图列表)4020、确认保存按钮4021和重新按钮4022。电视机1在接收到用户对确认保存按钮4021的选择操作后,将个性化意图列表发送至服务器400。电视机1在接收到用户对重新按钮4022的选择操作后,显示如图5中(b)所示的界面401。
示例性的,个性化意图列表如表2所示。
表2
意图业务 | 星级 |
视频搜索 | 5 |
打开应用 | 3 |
音乐播放 | 2 |
天气查询 | 1 |
K歌 | 0 |
具体的,用户可以删除默认意图列表中的意图业务,也可以设置意图业务的星级,还可以将已设置的置意图业务的星级恢复至意图默认数值。示例性的,用户不在需要K歌时,可以将表1中的K歌删除,更新后的个性化意图列表如表3所示。
表3
意图业务 | 星级 |
视频搜索 | 3 |
打开应用 | 3 |
音乐播放 | 3 |
天气查询 | 3 |
如图5中(c)所示,用户将视频搜索的星级由星级3,设置为星级5。用户将音乐播放的星级由星级3,设置为星级2。用户将天气查询的星级由星级3,设置为星级1。用户将K歌的星级由星级3,设置为星级0。之后,用户想要将已设置的置意图业务的星级恢复至意图默认数值时,可通过对图5中(c)的重新按钮4022进行选择操作,以将每个意图业务的星级恢复至意图默认数值。
上述示例是以对图5中(c)的重新按钮4022进行选择操作,以将每个意图业务的星级恢复至意图默认数值为例进行说明的。在其他一些示例中,用户可以对需要进行恢复的置意图业务的星级恢复至意图默认数值,此处不做限定。
具体的,在一些示例中,意图列表中的意图业务按照星级的大小进行排序,如意图列表中的意图业务按照从大到小的顺序对星级进行排列。
S13、服务器400根据语音数据对应的语音文本和意图数值,确定用户意图。其中,用户意图为不同意图业务中的任一个意图业务。
在一些示例中,服务器400对电视机1发送的语音数据进行文本转换和分词,以确定语音数据对应的语音文本。
S14、服务器400调用用户意图中包含语音文本的业务数据。
示例性的,结合上述S12给出的示例,假设语音数据对应的语音文本为“仙剑奇侠传”,用户意图为视频搜索。此时,服务器400会在视频搜索中搜索“仙剑奇侠传”相关的业务数据。之后,服务器1将搜索到的与“仙剑奇侠传”相关视频数据发送至电视机1。如此,用户可以观看“仙剑奇侠传”相关视频数据。
S15、服务器400向电视机1发送业务数据。
本申请实施例提供一种用户意图的识别方法,用户通过对意图列表中的每个意图业务设置意图数值,从而可以得到该用户的个性化意图列表。如此,在用户使用第一设备时,第一设备可以将该用户的语音数据发送至服务器,这样服务器就可以根据该用户在第一设备上登陆的第一账号,确定该用户的个性化意图列表。进而,服务器可以根据该语音数据对应的语音文本和每个意图业务对应的意图数值,确定该用户的用户意图。之后,服务器调取用户意图中包含语音文本的业务数据,并将该业务数据发送至第一设备。由于,用户预先在第一设备上设置了对每个意图业务的意图数值,从而服务器在确定该用户的用户意图时,可以根据用户设置的每个意图业务的意图数值,更加准确地确定出用户的用户意图,提高了用户意图的识别率。
在一些示例中,结合图4,如图6所示,上述S13具体可以通过下述S130和S131实现。
S130、服务器400根据语音数据对应的语音文本和意图数值,确定每一个意图业务对应的第一置信度。
具体的,第一置信度越高,表示用户对该意图业务的使用频率越高。
具体的,每一个意图业务对应的第一置信度之和等于1。
S131、服务器400确定第一置信度大于或等于第一置信度阈值的意图业务为用户意图。
具体的,第一置信度阈值与第一置信度阈值可以相同,也可以不同。在一些示例中,第一置信度阈值与第一置信度阈值二者相同,并且第一置信度阈值与第一置信度阈值二者均为0.7。
在一些示例中,结合图6,如图7所示,上述S130具体可以通过下述S1300实现。
S1300、服务器400将语音数据对应的语音文本和意图数值输入至预先配置的意图识别模型中,确定每一个意图业务对应的第一置信度。
在一些示例中,意图识别模型的训练过程如下:
S1、服务器400获取训练样本语音和对训练样本语音的标注结果。其中,训练样本语音包括语音文本和用户意图。
S2、服务器400将训练样本语音输入至深度学习模型中。
具体的,深度学习模型可以是文本卷积网络(Text Convolutional NeuralNetworks,TEXTCNN)。
S3、服务器400基于目标损失函数,确定深度学习模型输出的对训练样本语音的预测比对结果与标注结果是否匹配。
在一些示例中,目标损失函数为交叉损失函数,通过最小化损失函数来优化模型,其损失函数为一般为:
loss=-∑iy′log(f(x))。
其中,y′为输入的语音文本的用户意图,x为输入的语音文本,其中f为训练的模型,通过最小化loss函数从而得到意图识别模型f。
为了提高用户意图的识别率,本申请实施例提供的用户意图的设备方法,可以将用户的意图偏好程度∝纳入到损失函数中,将目标函数改变为:
loss=-∑i∝iy′log(f(x))。
这样,意图识别模型f的输入除了语音文本x外,还包含了用户的意图偏好值∝。本申请实施例提供的用户意图的设备方法中,由于意图识别模型f的训练中含有用户的意图偏好分值的指导,从而使得训练出来的意图识别模型f更贴切用户的意图偏好,做到了在不收集用户隐私数据的情况下提高用户意图的识别率。
其中,i表示意图业务包含的业务总数,如表1所示,意图业务包括打开应用、视频搜索、音乐播放、天气查询和K歌,此时i等于5。∝i表示第i个意图业务的星级,如表1所示,假设i等于1,且第1个意图业务为视频搜索,则∝1=3。
S4、服务器400当预测比对结果与标注结果不匹配时,反复循环地迭代更新深度学习模型的网络参数,直至模型收敛,得到意图识别模型。
在一些示例中,结合图6,如图7所示,本申请实施例提供的用户意图的识别方法还包括:S132和S133。
S132、服务器400确定不存在第一置信度大于或等于第一置信度阈值的意图业务的情况下,根据第一置信度和意图数值,确定每一个意图业务对应的第二置信度。
具体的,每一个意图业务对应的第二置信度之和等于1。
在一些示例中,服务器400确定不存在第一置信度大于或等于第一置信度阈值的意图业务的情况下,说明服务器400无法识别出用户意图。此时,为了能够提高服务器400识别出用户意图的识别率,本申请实施例提供的用户意图的识别方法,需根据第一置信度和意图数值,确定每一个意图业务对应的第二置信度。其中,第二置信度的数值越大,表示用户访问该意图业务的概率越高。
其中,pi表示第i个意图业务的第一置信度。
S133、服务器400确定第二置信度大于或等于第二置信度阈值的意图业务为用户意图。
在一些示例中,意图识别模型f未考虑用户的意图偏好值∝时,结合上述S1300给出的示例,每个意图业务对应的第一置信度如表4所示。
表4
意图业务 | 第一置信度 |
视频搜索 | 0.4 |
打开应用 | 0.4 |
音乐播放 | 0.2 |
天气查询 | 0 |
K歌 | 0 |
可以看出,意图识别模型f未考虑用户的意图偏好值∝时,服务器400确定不存在第一置信度大于或等于第一置信度阈值的意图业务。
作为对比,结合上述S1300给出的示例,意图识别模型f考虑用户的意图偏好值∝时,每个意图业务对应的第一置信度如表5所示。
表5
意图业务 | 第一置信度 |
视频搜索 | 0.6 |
打开应用 | 0.3 |
音乐播放 | 0.1 |
天气查询 | 0 |
K歌 | 0 |
可以看出,由于意图识别模型f考虑用户的意图偏好值∝,导致损失函数的输出值变小,从而可以在一定程度上提高第一置信度。如:视频搜索的第一置信度由0.4提升至0.6。虽然意图识别模型f考虑用户的意图偏好值∝,但是服务器400确定不存在第一置信度大于或等于第一置信度阈值的意图业务。
结合上述示例,可以看出仅根据意图识别模型并不能很好地识别出用户意图,为了能够提高服务器400识别出用户意图的识别率,本申请实施例提供的用户意图的识别方法,需根据第一置信度和意图数值,确定每一个意图业务对应的第二置信度。
示例性的,结合表2和表5,每一个意图业务对应的第二置信度如表6所示。
表6
意图业务 | 第二置信度 |
视频搜索 | 0.732 |
打开应用 | 0.220 |
音乐播放 | 0.048 |
天气查询 | 0 |
K歌 | 0 |
可以看出,由于视频搜索的第二置信度0.732大于第二置信度阈值0.7。因此,可以确定用户意图为视频搜索。此时,若语音文本为“仙剑奇侠传”,此时服务器400会在视频搜索中搜索“仙剑奇侠传”相关的业务数据。
在一些示例中,结合图6,如图7所示,本申请实施例提供的用户意图的识别方法还包括:S134。
S134、服务器400确定不存在第二置信度大于或等于第二置信度阈值的意图业务的情况下,确定默认的意图业务为用户意图。
在一些示例中,服务器400确定不存在第二置信度大于或等于第二置信度阈值的意图业务的情况下,说明服务器400无法识别出用户意图,此时服务器400确定默认的意图业务为用户意图。如默认的意图业务可以为音乐播放,语音文本为“仙剑奇侠传”时,此时服务器400会在音乐播放中搜索“仙剑奇侠传”相关的业务数据。
在一些示例中,结合图4,如图7所示,本申请实施例提供的用户意图的识别方法还包括:S16-S19。
S16、服务器400接收电视机1发送的意图设置请求。
在一些示例中,结合上述示例S12给出的示例,用户可以自行设定每个意图业务对应的星级。用户可以在电视机1中选择意图设置按钮。电视机1确定接收到用户对意图设置按钮的选择操作后,向服务器400发送意图设置请求。服务器400在接收到电视机1发送的意图设置请求后,确定未保存第一账号对应的个性化意图列表的情况下,向电视机1发送默认意图列表。电视机1在接收到默认意图列表后,显示如图5中(b)所示的界面401。
S17、服务器400响应于意图设置请求,确定未保存第一账号对应的个性化意图列表的情况下,向电视机1发送默认意图列表。
S18、服务器400接收电视机1发送的个性化意图列表。
S19、服务器400建立第一账号与个性化意图列表的对应关系,并保存的个性化意图列表。
在一些示例中,为了便于管理每个账号的个性化意图列表,服务器400需要建立第一账号与个性化意图列表的对应关系,并将个性化意图列表存储在服务器400的数据库中。之后,服务器400可以根据建立的第一账号与个性化意图列表的对应关系,查询每个第一账号对应的个性化意图列表。
本申请实施例提供一种用户意图的识别方法,如图6所示,该用户意图的识别方法可以包括S20和S21。
S20、电视机1向服务器400发送语音数据。其中,电视机1当前登陆的账号为第一账号,第一账号对应一个个性化意图列表,个性化意图列表包括用户设定的不同意图业务对应的意图数值。
S21、电视机1接收服务器400发送的业务数据。其中,业务数据包括用户意图中包含语音文本的业务数据,用户意图根据语音数据对应的语音文本和意图数值确定的,用户意图为不同意图业务中的任一个意图业务。
在一些示例中,结合图6,如图7所示,本申请实施例提供的用户意图的识别方法还包括:S22-S24。
S22、电视机1向服务器400发送意图设置请求。
S23、电视机1接收服务器400发送的默认意图列表。
S24、电视机1响应于用户对默认意图列表的设置操作,向服务器400发送个性化意图列表。
上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对服务器和电子设备进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
如图8所示,本申请的实施例提供一种服务器400的结构示意图。服务器400包括收发单元101和处理单元102。
收发单元101,用于接收第一设备发送的语音数据;其中,第一设备当前登陆的账号为第一账号;收发单元101,还用于获取第一账号对应的个性化意图列表;其中,个性化意图列表包括用户设定的不同意图业务对应的意图数值;处理单元102,用于根据收发单元101接收的语音数据对应的语音文本和收发单元101获取的意图数值,确定用户意图;其中,用户意图为不同意图业务中的任一个意图业务;处理单元102,还用于调用用户意图中包含收发单元101接收的语音文本的业务数据;处理单元102,还用于控制收发单元101向第一设备发送业务数据。
在一些可实施的示例中,处理单元102,具体用于根据收发单元101接收的语音数据对应的语音文本和收发单元101获取的意图数值,确定每一个意图业务对应的第一置信度;处理单元102,具体用于确定第一置信度大于或等于第一置信度阈值的意图业务为用户意图。
在一些可实施的示例中,处理单元102,还用于确定不存在第一置信度大于或等于第一置信度阈值的意图业务的情况下,根据第一置信度和收发单元101获取的意图数值,确定每一个意图业务对应的第二置信度;处理单元102,还用于确定第二置信度大于或等于第二置信度阈值的意图业务为用户意图。
在一些可实施的示例中,处理单元102,还用于确定不存在第二置信度大于或等于第二置信度阈值的意图业务的情况下,确定默认的意图业务为用户意图。
在一些可实施的示例中,处理单元102,具体用于将收发单元101接收的语音数据对应的语音文本和收发单元101获取的意图数值输入至预先配置的意图识别模型中,确定每一个意图业务对应的第一置信度。
在一些可实施的示例中,收发单元101,还用于接收第一设备发送的意图设置请求;处理单元102,还用于响应于收发单元101接收的意图设置请求,确定未保存第一账号对应的个性化意图列表的情况下,控制收发单元101向第一设备发送默认意图列表;收发单元101,还用于接收第一设备发送的个性化意图列表;处理单元102,还用于建立第一账号与收发单元101接收的个性化意图列表的对应关系,并保存的个性化意图列表。
其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,其作用在此不再赘述。
当然,本申请实施例提供的服务器400包括但不限于上述模块,例如服务器400还可以包括存储单元103。存储单元103可以用于存储该写服务器400的程序代码,还可以用于存储写服务器400在运行过程中生成的数据,如写请求中的数据等。
作为一个示例,结合图3,服务器400中的通信控制模块201、语义中控模块202实现的功能与图8中的收发单元101的功能相同,意图识别模块203、业务系统模块204实现的功能与图8中的处理单元102的功能相同,数据存储模块205实现的功能与图8中的存储单元103的功能相同。
本申请实施例还提供一种服务器,该服务器可以包括:存储器和一个或多个处理器。该存储器和处理器耦合。该存储器用于存储计算机程序代码,该计算机程序代码包括计算机指令。当处理器执行计算机指令时,服务器可执行上述方法实施例中服务器400执行的各个功能或者步骤。
本申请实施例还提供一种芯片系统,该芯片系统可以应用于前述实施例中的服务器400。如图9所示,该芯片系统包括至少一个处理器1501和至少一个接口电路1502。该处理器1501可以是上述服务器400中的处理器。处理器1501和接口电路1502可通过线路互联。该处理器1501可以通过接口电路1502从上述服务器400的存储器接收并执行计算机指令。当计算机指令被处理器1501执行时,可使得服务器400执行上述实施例中服务器400执行的各个步骤。当然,该芯片系统还可以包含其他分立器件,本申请实施例对此不作具体限定。
本申请实施例还提供一种计算机可读存储介质,用于存储上述服务器400运行的计算机指令。
本申请实施例还提供一种计算机程序产品,包括上述服务器400运行的计算机指令。
如图10所示,本申请的实施例提供一种电视机1的结构示意图。电视机1包括收发单元201和处理单元202。
收发单元201,用于向服务器发送语音数据;其中,第一设备当前登陆的账号为第一账号,第一账号对应一个个性化意图列表,个性化意图列表包括用户设定的不同意图业务对应的意图数值;收发单元201,还用于接收服务器发送的业务数据;其中,业务数据包括用户意图中包含语音文本的业务数据,用户意图根据语音数据对应的语音文本和意图数值确定的,用户意图为不同意图业务中的任一个意图业务。
在一些可实施的示例中,识别装置还包括处理单元202;收发单元201,还用于向服务器发送意图设置请求;收发单元201,还用于接收服务器发送的默认意图列表;处理单元202,还用于响应于用户对收发单元201接收的默认意图列表的设置操作,控制收发单元201向服务器发送个性化意图列表。
其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,其作用在此不再赘述。
当然,本申请实施例提供的电视机1包括但不限于上述模块,例如电视机1还可以包括存储单元203。存储单元203可以用于存储该写电视机1的程序代码,还可以用于存储写电视机1在运行过程中生成的数据,如写请求中的数据等。
本申请实施例还提供一种电子设备,该电子设备可以包括:存储器和一个或多个处理器。该存储器和处理器耦合。该存储器用于存储计算机程序代码,该计算机程序代码包括计算机指令。当处理器执行计算机指令时,电子设备可执行上述方法实施例中电子设备(如电视机1)执行的各个功能或者步骤。
本申请实施例还提供一种芯片系统,该芯片系统可以应用于前述实施例中的电视机1。如图11所示,该芯片系统包括至少一个处理器1601和至少一个接口电路1602。该处理器1601可以是上述电视机1中的处理器。处理器1601和接口电路1602可通过线路互联。该处理器1601可以通过接口电路1602从上述电视机1的存储器接收并执行计算机指令。当计算机指令被处理器1601执行时,可使得电视机1执行上述实施例中电视机1执行的各个步骤。当然,该芯片系统还可以包含其他分立器件,本申请实施例对此不作具体限定。
本申请实施例还提供一种计算机可读存储介质,用于存储上述电视机1运行的计算机指令。
本申请实施例还提供一种计算机程序产品,包括上述电视机1运行的计算机指令。
通过以上实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述在一些实施例中讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。
Claims (9)
1.一种用户意图的识别方法,其特征在于,包括:
接收第一设备发送的语音数据;其中,所述第一设备当前登陆的账号为第一账号;
获取所述第一账号对应的个性化意图列表;其中,所述个性化意图列表包括用户设定的不同意图业务对应的意图数值;
根据所述语音数据对应的语音文本和所述意图数值,确定用户意图;其中,所述用户意图为所述不同意图业务中的任一个意图业务;
调用所述用户意图中包含所述语音文本的业务数据;
向所述第一设备发送所述业务数据。
2.根据权利要求1所述的用户意图的识别方法,其特征在于,所述根据所述语音数据对应的语音文本和所述意图数值,确定用户意图,包括:
根据所述语音数据对应的语音文本和所述意图数值,确定每一个意图业务对应的第一置信度;
确定第一置信度大于或等于第一置信度阈值的意图业务为所述用户意图。
3.根据权利要求2所述的用户意图的识别方法,其特征在于,所述识别方法还包括:
确定不存在第一置信度大于或等于第一置信度阈值的意图业务的情况下,根据所述第一置信度和所述意图数值,确定每一个意图业务对应的第二置信度;
确定第二置信度大于或等于第二置信度阈值的意图业务为所述用户意图。
4.根据权利要求3所述的用户意图的识别方法,其特征在于,所述识别方法还包括:
确定不存在第二置信度大于或等于第二置信度阈值的意图业务的情况下,确定默认的意图业务为所述用户意图。
5.根据权利要求2所述的用户意图的识别方法,其特征在于,所述根据所述语音数据对应的语音文本和所述意图数值,确定每一个意图业务对应的第一置信度,包括:
将所述语音数据对应的语音文本和所述意图数值输入至预先配置的意图识别模型中,确定每一个意图业务对应的第一置信度。
6.根据权利要求1所述的用户意图的识别方法,其特征在于,所述接收第一设备发送的语音数据前,所述识别方法还包括:
接收所述第一设备发送的意图设置请求;
响应于所述意图设置请求,确定未保存所述第一账号对应的个性化意图列表的情况下,向所述第一设备发送默认意图列表;
接收所述第一设备发送的个性化意图列表;
建立所述第一账号与所述个性化意图列表的对应关系,并保存所述的个性化意图列表。
7.一种用户意图的识别方法,应用于第一设备,其特征在于,包括:
向服务器发送语音数据;其中,所述第一设备当前登陆的账号为第一账号,所述第一账号对应一个个性化意图列表,所述个性化意图列表包括用户设定的不同意图业务对应的意图数值;
接收所述服务器发送的业务数据;其中,所述业务数据包括所述用户意图中包含所述语音文本的业务数据,所述用户意图根据所述语音数据对应的语音文本和所述意图数值确定的,所述用户意图为所述不同意图业务中的任一个意图业务。
8.根据权利要求7所述的用户意图的识别方法,其特征在于,所述识别方法,还包括:
向所述服务器发送意图设置请求;
接收所述服务器发送的默认意图列表;
响应于用户对所述默认意图列表的设置操作,向所述服务器发送个性化意图列表。
9.一种语音识别系统,其特征在于,包括服务器和电子设备,所述服务器执行如上述权利要求1-6任一项所述的用户意图的识别方法,所述电子设备执行如上述权利要求7或8任一项所述的用户意图的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111660073.XA CN114187897A (zh) | 2021-12-30 | 2021-12-30 | 一种用户意图的识别方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111660073.XA CN114187897A (zh) | 2021-12-30 | 2021-12-30 | 一种用户意图的识别方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114187897A true CN114187897A (zh) | 2022-03-15 |
Family
ID=80606473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111660073.XA Pending CN114187897A (zh) | 2021-12-30 | 2021-12-30 | 一种用户意图的识别方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114187897A (zh) |
-
2021
- 2021-12-30 CN CN202111660073.XA patent/CN114187897A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11086596B2 (en) | Electronic device, server and control method thereof | |
US20210152870A1 (en) | Display apparatus, server apparatus, display system including them, and method for providing content thereof | |
CN103137128B (zh) | 用于设备控制的手势和语音识别 | |
WO2020007012A1 (zh) | 一种搜索页面显示方法、装置、终端及存储介质 | |
CN110737840A (zh) | 语音控制方法及显示设备 | |
US20140195244A1 (en) | Display apparatus and method of controlling display apparatus | |
WO2018133307A1 (zh) | 一种实现语音控制的方法和终端 | |
WO2022012271A1 (zh) | 显示设备和服务器 | |
US9424320B2 (en) | Methods, systems, and media for recommending media content | |
US20240028189A1 (en) | Interaction method and apparatus, electronic device and computer readable medium | |
CN106060641B (zh) | 用于搜索的显示装置及其控制方法 | |
CN114155855A (zh) | 语音识别方法、服务器以及电子设备 | |
CN114566144A (zh) | 一种语音识别方法、装置、服务器和电子设备 | |
CN115240665A (zh) | 显示设备、控制方法和存储介质 | |
CN114187897A (zh) | 一种用户意图的识别方法、装置和电子设备 | |
CN113676761B (zh) | 一种多媒体资源播放方法、装置及主控设备 | |
CN114627864A (zh) | 显示设备与语音交互方法 | |
US20200089780A1 (en) | Query-answering source for a user query | |
CN115278316A (zh) | 一种提示语生成方法、装置和电子设备 | |
US20230119195A1 (en) | Display apparatus | |
CN117278791A (zh) | 显示设备、服务器以及数据处理方法 | |
CN112908319B (zh) | 一种处理信息交互的方法及设备 | |
WO2023246157A1 (zh) | 显示设备以及频道处理方法 | |
US20140032224A1 (en) | Method of controlling electronic apparatus and interactive server | |
CN118093815A (zh) | 电子设备、意图识别方法、意图识别装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |