CN117809633A - 显示设备和意图识别方法 - Google Patents
显示设备和意图识别方法 Download PDFInfo
- Publication number
- CN117809633A CN117809633A CN202311270429.8A CN202311270429A CN117809633A CN 117809633 A CN117809633 A CN 117809633A CN 202311270429 A CN202311270429 A CN 202311270429A CN 117809633 A CN117809633 A CN 117809633A
- Authority
- CN
- China
- Prior art keywords
- target
- intention
- micro
- service
- default
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 97
- 238000012545 processing Methods 0.000 claims abstract description 86
- 230000008569 process Effects 0.000 description 43
- 238000004891 communication Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 20
- 241000239290 Araneae Species 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 9
- 230000003993 interaction Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请实施例提供一种显示设备和意图识别方法。该显示设备包括通信器、显示器和控制器,其中,控制器被配置为对语音指令进行意图识别,得到语音指令对应的意图识别结果;在意图识别结果满足重定向条件的情况下,若确定语音指令满足匹配关系,则根据匹配关系,确定语音指令对应的目标意图;其中,目标意图为非default意图;在多个微服务中确定目标意图对应的第一目标微服务;通过第一目标微服务对目标意图进行业务处理,并控制显示器显示业务处理结果界面。本申请实施例可以提高显示设备意图识别的准确性。
Description
技术领域
本申请实施例涉及显示技术领域,具体涉及一种显示设备和意图识别方法。
背景技术
电视设备通常具备语音控制功能,通过采集和识别用户输入的语音数据,以获取用户的意图,并根据用户的意图执行相应的操作。但是,电视设备在将采集到的语音数据转换成文本数据的过程中可能会发生文本转换错误,这样就会导致电视设备无法识别出用户的真实意图,即电视设备进行意图识别的准确性较低,从而导致电视设备无法执行正确操作。
发明内容
为了解决上述问题,本申请实施例提供了一种显示设备和意图识别方法,用于提高电视设备意图识别的准确性。
为达到上述目的,本申请的实施例采用如下技术方案:
第一方面,提供了一种显示设备,该显示设备包括通信器、显示器,以与通信器和显示器耦接的控制器。其中,通信器被配置为接收用户输入的语音指令。显示器被配置为显示用户界面。控制器被配置为:对语音指令进行意图识别,得到语音指令对应的意图识别结果;在意图识别结果满足重定向条件的情况下,若确定语音指令满足匹配关系,则根据匹配关系,确定语音指令对应的目标意图;其中,目标意图为非default意图;满足重定向条件包括意图识别结果为default意图,或者,意图识别结果为非default意图且显示设备的多个微服务中不存在意图识别结果对应的微服务;在多个微服务中确定目标意图对应的第一目标微服务;通过第一目标微服务对目标意图进行业务处理,并控制显示器显示业务处理结果界面。
在一些实施例中,匹配关系包括多个关键字与多个非default意图的对应关系。控制器具体被配置为:确定语音指令对应的目标关键字;若匹配关系中的多个关键字包括目标关键字,则根据匹配关系,确定目标关键字对应的所述目标意图。
在一些实施例中,控制器还被配置为:若匹配关系中的多个关键字不包括目标关键字,则根据目标关键字和推荐规则,确定语音指令对应的至少一个目标推荐对象;控制显示器显示至少一个目标推荐对象。
在一些实施例中,推荐规则包括推荐库。控制器具体被配置为:根据目标关键字和推荐库,确定目标关键字与推荐库中各推荐对象之间的目标相似度;其中,推荐库包括多个推荐对象;根据各目标相似度,在多个推荐对象中确定至少两个候选推荐对象;根据至少两个候选推荐对象,确定至少一个目标推荐对象。
在一些实施例中,控制器具体被配置为:确定至少两个候选推荐对象中各候选推荐对象对应的候选对象意图;根据历史数据,确定各候选对象意图在多个意图中的目标占比;其中,历史数据包括多个意图中各意图的数量;根据目标关键字与各推荐对象之间的目标相似度,以及各目标占比,确定各候选推荐对象的推荐评分;根据各候选推荐对象的推荐评分,从至少两个候选推荐对象中确定至少一个目标推荐对象。
在一些实施例中,控制器还被配置为:在意图识别结果为非default意图的情况下,在多个微服务中确定非default意图对应的第二目标微服务;若第二目标微服务能够对非default意图进行业务处理,则通过目标微服务对非default意图进行业务处理,并控制显示器显示业务处理结果界面。
在一些实施例中,控制器还被配置为:若第二目标微服务不能对非default意图进行业务处理,则在多个微服务器中确定候选微服务;其中,候选微服务为多个微服务中除过第二目标微服务之外的任一微服务;若候选微服务能够对非default意图进行业务处理,则通过候选微服务对非default意图进行业务处理,并控制显示器显示业务处理结果界面。
在一些实施例中,控制器还被配置为:在意图识别结果为default意图的情况下,若媒体资源实体库中存在与语音指令匹配的候选意图,则通过多个微服务中的媒资搜索微服务对候选意图进行业务处理,并控制显示器显示业务处理结果界面;其中,候选意图为非default意图。
第二方面,提供一种意图识别方法,该方法包括:首先,获取用户输入的语音指令,对语音指令进行意图识别,得到语音指令对应的意图识别结果。其次,在意图识别结果满足重定向条件的情况下,若确定语音指令满足匹配关系,则根据匹配关系,确定语音指令对应的目标意图;其中,目标意图为非default意图;满足重定向条件包括意图识别结果为默认default意图,或者,意图识别结果为非default意图且显示设备的多个微服务中不存在意图识别结果对应的微服务。然后,在多个微服务中确定目标意图对应的第一目标微服务。最后,通过第一目标微服务对目标意图进行业务处理,并控制显示器显示业务处理结果界面。
第三方面,提供了一种显示设备,该显示设备具有实现上述第二方面所述的意图识别方法的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。
第四方面,提供了一种显示设备,包括:处理器和存储器;该存储器用于存储计算机指令,当该显示设备运行时,该处理器执行该存储器存储的该计算机指令,以使该显示设备执行如上述第二方面中任一项所述的意图识别方法。
第五方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在显示设备上运行时,使得显示设备可以执行上述第二方面中任一项所述的意图识别方法。
第六方面,提供了一种包含计算机指令的计算机程序产品,当计算机指令在显示设备上运行时,使得显示设备可以执行上述第二方面中任一项所述的意图识别方法。
第七方面,提供了一种装置(例如,该装置可以是芯片系统),该装置包括处理器,用于支持显示设备实现上述第二方面中所涉及的功能。在一种可能的设计中,该装置还包括存储器,该存储器,用于保存显示设备必要的程序指令和数据。该装置是芯片系统时,可以由芯片构成,也可以包含芯片和其他分立器件。
本申请实施例提供的显示设备和意图识别方法,在无法识别用户输入的语音指令对应的意图(即default意图),或者,语音指令对应的非default意图不存在对应的微服务时,可以进入default意图优化服务,default意图优化服务通过判断语音指令是否满足匹配关系,来对语音指令进行进一步处理。在语音指令满足匹配关系时,可以根据匹配关系,重新确定该语音指令对应的目标意图,其中,该目标意图为非default意图且对应有第一目标微服务,第一目标微服务可以对目标意图进行业务处理。因此,通过本申请实施例可以提高电视意图识别的准确性,减少大量非媒资搜索的语音指令进入媒资搜索兜底服务,提高用户体验。
附图说明
附图仅用于示出实施方式,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例提供的一种显示设备与控制设备、服务器之间操作场景的示意图;
图2为本申请实施例提供的一种控制设备的硬件配置框图;
图3为本申请实施例提供的一种显示设备的硬件配置框图;
图4为本申请实施例提供的一种显示设备的软件系统示意图;
图5为本申请实施例提供的一种意图识别方法的示意图;
图6为本申请实施例提供的另一种意图识别方法的示意图;
图7为本申请实施例提供的又一种意图识别方法的示意图;
图8为本申请实施例提供的再一种意图识别方法的示意图;
图9为本申请实施例提供的一种用户界面的示意图;
图10为本申请实施例提供的再一种意图识别方法的示意图;
图11为本申请实施例提供的再一种意图识别方法的示意图;
图12为本申请实施例提供的一种显示设备的示意图。
具体实施方式
为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
本申请中术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
通常,智能电视具备语音控制的功能,电视设备在采集到用户输入的语音数据后,可以通过会话识别和自然语言理解引擎,对语音数据进行识别,并将语音数据转化为电视设备能够识别的指令,从而对该指令执行相应的操作。
在一些示例中,电视设备的控制装置(如遥控器)具备语音控制的功能。遥控器在获取用户输入的语音数据后,通常会先将语音数据转换为文本数据,从而进行下一步的处理。但是,在将该语音数据转换成文本数据时可能会发生文本转换错误的问题,尤其对于一些小语种来说,语音转文本的错误率高达40%。当语音转文本发生错误后,可能会导致语义解析模型无法识别该文本数据,从而导致电视设备无法执行正确的语音指令。例如,当用户想要将电视设备的音量调大时,会输入语音数据“volume up”,在本文转换过程中,可能会将该语音数据转换为“volume app”的文本数据。这种情况下,电视设备就无法从文本数据“volume app”中获取到用户想要调大音量的意图,从而无法执行调大音量的操作。
为了解决上述问题,相关技术中提出了一种default意图兜底处理方案。default意图兜底处理方案在无法识别出用户的意图(即default意图),或者,识别出用户的意图(即非default意图),但该非default意图由于参数缺失等问题导致无法正常处理时,可以将整个文本数据(也可以称为queryText)作为媒资搜索条件进行搜索,从而向用户显示与该文本数据相对应的媒体资源。这种情况下,当用户的意图不是媒资搜索,而是电视控制(如volume up)时,default意图兜底处理方案也会将进行电视控制的文本数据(如volumeapp)作为媒资进行搜索,从而导致大量非媒资搜索的语句(如电视控制的语句),进入媒资搜索微服务,降低了用户的使用体验感。
在另一种处理方式中,当无法识别出用户意图,也未进入default意图兜底处理时,电视设备可以向用户显示提示语。例如,电视设备可以显示“我听不懂你在说什么”或者“无法获取搜索结果”等提示语。但是这些提示语并不能为用户提供一些有效的信息,也不是用户的真实意图对应的提示语,因此,该处理方式也不能提高用户的体验感。
为了解决上述问题,本申请实施例提出一种显示设备和意图识别方法,通过添加defalut意图优化服务,对无法识别的default意图,或者无法处理的非default意图进行重定向微服务处理,从而减少了大量非媒资搜索的语句进入媒资搜索兜底服务。另外,对于文本转换错误等问题,本申请实施例可以根据语音数据(如语音数据转换后的文本数据)生成推荐语句,该推荐语句可以对用户真实意图进行预测,为提供用户多种选择,减少语音转文本的错误率,提高用户体验感。
下面对本申请实施例提供的显示设备和意图识别方法进行描述。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
下面结合相关附图对本申请实施例提供的显示设备和意图识别方法进行描述。
需要说明的是,本申请实施方式提供的显示设备可以具有多种实施形式,例如,该显示设备可以是电视机、智能电视、激光投影设备、显示器(monitor)、电子白板(electronic bulletin board)、电子桌面(electronic table)等具有显示器的显示设备。本申请实施例在此对显示设备的具体形态不做限制。图1和图2为本申请的显示设备的一种具体实施方式。
图1为本申请一些实施例提供的显示设备与控制设备、服务器之间操作场景的示意图。如图1所示,用户可以通过智能设备300或控制设备100操作显示设备200。
在一些实施例中,控制设备100可以是遥控器,遥控器与显示设备200之间的通信包括红外协议通信、蓝牙协议通信或其他短距离通信方式,通过无线或有线通信方式控制显示设备200。例如,用户可以通过遥控器上的按键、语音输入、控制面板输入等输入用户指令来控制显示设备200。
在一些实施例中,也可以通过智能设备300控制显示设备200。在一些示例中,智能设备300可以为智能手机、平板电脑、计算机、笔记本电脑等。例如,智能设备300可以与显示设备200上安装的应用软件,通过网络通信协议实现连接通信,实现一对一控制操作和数据通信的目的;或者也可以将智能设备300上显示的音视频内容传输到显示设备200上,实现同步显示功能。
在一些实施例中,显示设备200还可以使用除了控制设备100和智能设备300之外的其他方式进行控制,例如,可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制,或者,也可以通过显示设备200设备外部设置的语音控制设备来接收用户的语音指令控制。
如图1所示,显示设备200还可以通过多种通信方式与服务器400进行数据通信,例如,显示设备200可以通过局域网(Local Area Network,LAN)、无线局域网(WirelessLocal Area Networks,WLAN)或其他网络进行通信连接。
图2为本申请一些实施例的一种控制设备100的硬件配置框图。如图2所示,控制设备100包括控制装置110、通信接口130、用户输入/输出接口140、供电电源180和存储器190。控制设备100被配置为控制显示设备200,以及可接收用户输入的操作指令,且将该操作指令转换为显示设备200可识别和响应的指令,控制设备100用于实现用户与显示设备200之间的信息交互。
如图2所示,控制装置110还可以包括处理器112、随机存取存储器RAM 113和ROM114、通信接口130以及通信总线(图2中未示出)。控制装置110用于控制控制设备100的运行和操作,以及控制控制设备100内部各部件之间通信协作以及外部和内部的数据处理功能。
示例性地,通信接口130可以包括WiFi芯片131、蓝牙部件132和近场通信(NearField Communication,NFC)部件133等其他近场通信部件中的至少一种。通信接口130在控制装置110的控制下,可以将用户输入的指令通过WiFi协议、蓝牙协议或NFC协议编码,发送至显示设备200,实现与显示设备200之间控制信号和数据信号的通信。
用户输入/输出接口140包括输入接口和输出接口,其中,输入接口可以包括麦克风141、触摸板142、传感器143、按键144等其他输入接口中的至少一种。
存储器190,用于在控制装置110的控制下存储驱动和控制控制设备100的各种运行程序、数据和应用,还可以存储用户输入的各类控制信号指令。
供电电源180,用于在控制装置110的控制下为控制设备100中各部件提供运行电力支持。
示例性地,以显示设备为电视机为例,图3为本申请一些实施例的一种显示设备200的硬件配置框图。
如图3所示,显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。
在一些实施例中,控制器250包括处理器,视频处理器,音频处理器,图形处理器,RAM,ROM,用于输入/输出的第一接口至第n接口。
显示器260包括用于呈现画面的显示屏组件,以及驱动图像显示的驱动组件,用于接收源自控制器输出的图像信号,进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控用户界面(Use Interface,UI)。
显示器260可为液晶显示器、OLED显示器、以及投影显示器,还可以为一种投影装置和投影屏幕。
通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如,通信器220可以包括Wifi模块,蓝牙模块,有线以太网模块等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。显示设备200可以通过通信器220与外部控制设备100或服务器400建立控制信号和数据信号的发送和接收。
用户接口,可用于接收控制装置100(如红外遥控器等)的控制信号。
检测器230用于采集外部环境或与外部交互的信号。例如,检测器230包括光接收器,用于采集环境光线强度的传感器;或者,检测器230包括图像采集器,如摄像头,可以用于采集外部环境场景、用户的属性或用户交互手势,再或者,检测器230包括声音采集器,如麦克风等,用于接收外部声音。
外部装置接口240可以包括但不限于如下:高清多媒体接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。
调谐解调器210通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线广播电视信号中解调出音视频信号,如以及EPG数据信号。
在一些实施例中,控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。
控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如:响应于接收到用于选择在显示器260上显示UI对象的用户命令,控制器250便可以执行与由用户命令选择的对象有关的操作。
在一些实施例中,控制器250包括中央处理器(Central Processing Unit,CPU)、视频处理器、音频处理器、图形处理器(Graphics Processing Unit,GPU)、随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、用于输入/输出的第一接口至第n接口,通信总线(Bus)等中的至少一种。
用户可在显示器260上显示的图形用户界面(Graphic User Interface,GUI)输入用户命令,则用户输入接口通过图形用户界面接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
“用户界面”是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面,是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在显示设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。
可以理解的是,一般而言,显示设备功能的实现除了需要上述硬件的支持外,还需要软件的配合。
图4为本申请实施例提供的一种显示设备的软件系统示意图,参见图4,在一些实施例中,可以将显示设备200的系统分为四层,从上至下分别为应用程序(Applications)层(简称“应用层”),应用程序框架(Application Framework)层(简称“框架层”)、安卓运行时(Android runtime)和系统库层(简称“系统运行库层”)、以及内核层。
在一些实施例中,应用程序层中运行有至少一个应用程序,这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序或时钟程序等;也可以是第三方开发者所开发的应用程序。在具体实施时,应用程序层中的应用程序包不限于以上举例。
示例性地,应用程序层包括健身应用程序,健身应用程序可以通过健身视频播放和健身计划的编排来实现智能交互,从而帮助用户养成健身习惯。显示设备200可以响应用于用户启动健身应用程序的操作,开启健身应用程序。开启健身应用程序的操作可以为触控操作,也可以为语音操作,还可以为遥控器的控制指令。
框架层为应用程序提供应用编程接口(Application Programming Interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心,这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口,可在执行中访问系统中的资源和取得系统的服务。
示例性的,应用程序框架层包括的系统服务(即Service),系统服务可以用于接收健身应用程序发送的健身视频的播放指令,在接收到健身视频的播放指令后调动显示驱动使健身视频的视频画面通过显示器260显示,调动音频驱动使健身视频的声音数据通过扬声器播放。即Service可以负责控制健身应用程序使用的整个流程。
系统服务获取到健身视频后,将健身视频的视频画面发送给显示器260对应的显示驱动,显示驱动获取到健身视频的视频画面后,调动显示器260,播放健身视频的视频画面。同时将健身视频的声音数据发送给扬声器对应的音频驱动,音频驱动获取到健身视频的声音数据后,调动扬声器,播放健身视频的声音数据。
在一些实施例中,系统运行库层为上层即框架层提供支撑,当框架层被使用时,安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。
在一些实施例中,内核层是硬件和软件之间的层。内核层至少包含以下驱动中的至少一种:音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器,温度传感器,压力传感器等)、MIC驱动以及电源驱动等。
其中,显示器260对应的显示驱动可以调用显示器260的接口,以获取健身视频的视频画面,或者调用显示器260的接口对显示器260进行设置。扬声器对应的音频驱动可以调用扬声器的接口,以获取播放健身视频的声音数据,或者调用扬声器的接口对扬声器进行设置。
显示器260,可以用于对用户的语音进行采样,获取采样数据。声音采集器,还可以用于将采样数据通过声音采集器对应的显示驱动发送给对话服务。声音采集器,还可以用于根据声音采集器对应的显示驱动的指令设置声音采集器的灵敏度。
扬声器,可以用于播放服务生成的回复语音。扬声器,还可以用于通过扬声器对应的音频驱动接收来自对话服务发送的回复语音。
需要说明的是,以下实施例中的方法均可以在具有上述硬件结构或软件结构的显示设备200中实现。以下实施例中以上述显示设备200是电视机为例,对本申请实施例的方法进行说明。
本申请实施例提供一种显示设备200,显示设备200的机构及各部分功能可以参阅上述实施例。在上述实施例示处的显示设备200的基础上,本实施例对显示设备200的一些功能做进一步的完善。
需要说明的是,本申请实施例可以以显示设备200为电视设备为例进行示意性说明。
下面结合附图,对本申请实施例提供的意图识别方法进行详细说明。例如,该意图识别方法可以由显示设备200中的控制器250实现。
图5为本申请实施例提供一种意图识别方法的示意图。如图5所示,该意图识别方法包括如下所示的步骤510至步骤540。
步骤510,获取用户输入的语音指令,对语音指令进行意图识别,得到语音指令对应的意图识别结果。
在一些示例中,当通信器220接收用户输入的语音指令,并将该语音指令发送给控制器250,控制器250根据接收到的语音指令进行意图识别,以获取到意图识别结果。
在一些示例中,语音指令可以为用户输入的任意语音数据。例如,用户可以根据需求输入与媒体资源相关的语音数据,如“观看电影蜘蛛侠”;或者,也可以输入与电视控制相关的语音数据,如“将音量增大至30”;或者,用户也可以输入其他用户所需的语音数据,如“电视网络如何配置”等。
示例性地,在获取的语音数据后,可以通过意图识别模型对该语音数据进行识别,以获得意图识别结果。
在一些示例中,意图识别结果包括语音数据对应的意图为默认default意图,或者,语音数据对应的意图为非default意图。例如,当意图识别模型无法识别语音数据时,表明该语音数据对应的意图为default意图;当意图识别模型能够识别语音数据时,表明该语音数据对应的意图为非default意图。
在一些示例中,意图识别模型可以为dialogFlow模型。例如,采用dialogFlow模型的语音助手,在接收到无法识别或者语义模糊的语音数据时,dialogFlow模型会确定该语音数据对应的用户意图为default意图。如当用户输入的语音数据为“蜘蛛侠”,其实际的意图为观看“蜘蛛侠”电影。但是,若dialogFlow模型的训练样本中未训练过“蜘蛛侠”的语句时,dialogFlow模型可以直接输出default意图。若dialogFlow模型的训练样本中已经训练过“蜘蛛侠”的语句时,则dialogFlow模型可以直接输出查询“蜘蛛侠”电影的非default意图。需要说明的是,意图识别模型也可以为其他网络模型,本申请实施例对此不作限定。
步骤520,在意图识别结果满足重定向条件的情况下,若确定语音指令满足匹配关系,则根据匹配关系,确定语音指令对应的目标意图。
在一些实施例中,满足重定向条件包括意图识别结果为语音指令对应的意图为default意图,或者,意图识别结果为语音指令对应的意图为非default意图,且显示设备200的多个微服务中不存在该非default意图对应的微服务。
示例性地,显示设备200中可以提供多个微服务,不同的微服务可以处理不同的非default意图。在一些示例中,显示设备200提供的多个微服务可以包括媒资搜索(mediasearch)微服务、电视控制(TVControl)微服务、快速通道(direct)微服务以及帮助(help)微服务等。
例如,媒资搜索微服务可以根据语音指令,进行与该语音指令对应的媒体资源(如电影、电视剧等)的搜索;电视控制微服务可以根据语音指令,对与该语音指令对应的电视设备配置参数(如音量、亮度等)的调整;快速通道微服务可以根据语音指令,进行与该语音指令对应的非媒资的搜索;帮助微服务可以根据语音指令提供相应的提示和问题解答等。
在一些示例中,default意图不存在对应的微服务,非default意图可能存在对应的微服务,也可能不存在对应的微服务。只有存在有对应的微服务的非default意图,该微服务才可能对该非default意图执行业务处理。当非default意图不存在对应的微服务时,电视设备也无法正确处理该语音指令。因此,当意图识别结果为default意图,或者,意图识别结果为非default意图,但该非default意图不存在对应的微服务时(即意图识别结果满足重定向条件),控制器250均无法对该语音指令进行正常处理。
因此,在意图识别结果满足重定向条件的情况下,可以通过本申请实施例提供的dafult优化服务对语音指令对应的意图进行重定向微服务处理,以将该语音指令对应的意图改写为能够被微服务处理的非default意图。
示例性地,dafult优化服务可以通过设置匹配关系的方式实现。在确定语音指令满足匹配关系时,可以根据该匹配关系,确定语音指令对应的目标意图。其中,该目标意图为非default意图。
下面结合图6对步骤520的过程进行详细说明。
图6为本申请实施例提供的另一种意图识别方法的示意图,如图6所示,上述步骤520包括如下所示的步骤610至步骤620。
步骤610,确定语音指令对应的目标关键字。
在一些示例中,控制器250在接收到语音指令(也可以称为语音数据)后,首先对该语音数据进行关键字提取操作,得到目标关键字。其中,目标关键字的个数可以为一个,也可以为多个。
示例性地,控制器250(如控制器250中的语音处理模块)在接收到语音数据后,可以对语音数据进行自动语音识别(Automatic Speech Recognition,ASR)处理和自然语言理解(Natural Language Understanding,NLU)处理。
在一些示例中,ASR处理可以将语音数据转换为文本数据。NLU处理可以通过对转换后的文本数据进行分析和处理,提取出该文本数据中关键字。也就是说,通过NLU处理,可以获取到语音指令对应的文本数据中的目标关键字。例如,NLU处理可以按照语义进行关键字的提取。
例如,当用户输入的语音数据为“videos of big long Bridges”时,对该语音数据进行ASR处理和NLU处理后,所提取到的目标关键字可以为“big long Bridges”。再例如,当用户输入的语音数据为“我想要观看蜘蛛侠电影”时,对该语音数据进行ASR处理和NLU处理后,所提取的目标关键字可以为“蜘蛛侠电影”。
步骤620,若匹配关系中的多个关键字包括目标关键字,则根据匹配关系,确定目标关键字对应的目标意图。
示例性地,匹配关系中包括多个关键字与多个非default意图的对应关系。其中,多个关键字中各关键字可以分别对应一个非default意图,多个关键字中部分关键字对应的非default意图可以相同。
在一些示例中,匹配关系可以为对应关系表的形式。例如,根据对应关系表中各关键字对应的非default意图,以及目标关键字,在对应关系表中查询到目标关键字对应的非default意图。目标关键字对应的非default意图为目标意图。
在另一些示例中,匹配关系也可以为至少一个意图白名单。例如,可以对不同的非default意图分别设置意图白名单,该意图白名单中可以包括该非default意图对应的多个关键字;或者,也可以对多个非default意图设置一个意图白名单,该意图白名单中包括多个非default意图中各非default意图分别对应的多个关键字。根据意图白名单以及目标关键字,可以确定目标关键字对应的目标意图。
示例性地,匹配关系中还可以包括意图参数。其中,各非default意图可以对应至少一个意图参数。意图参数用于指示非default意图的具体场景和内容。例如,当非default意图为音量调整时,对应的意图参数可以为“调大音量”、“调小音量”、“音量调大至30”,以及“音量调小至30”等。
在一些示例中,在确定了目标关键字在匹配关系中存在对应的目标意图时,可以通过该目标意图对应的意图参数,对语音指令进行参数校验,以确定语音指令中是否包括对应的意图参数。例如,当目标意图为调整音量时,可以校验该目标意图中是否存在“调大音量”或“调小音量”等意图参数。
例如,当语音指令中不存在意图参数时,可以根据匹配关系中非default意图(如目标意图)对应的意图参数(如目标意图参数),为目标意图设置目标意图参数,以使目标意图能够被对应的微服务正常处理。如语音指令对应的意图为“音量调整”,可以为该意图配置“音量调大至30”的意图参数,这样电视控制微服务就可对“音量调整”进行正确的处理。因此,通过匹配关系所确定的目标意图可以避免因参数缺失导致微服务无法正常处理的情况。
步骤530,在多个微服务中确定目标意图对应的第一目标微服务。
在一些示例中,当确定了语音指令对应的目标意图后,可以在多个微服务中确定目标意图对应的微服务。若多个微服务中存在目标意图对应的微服务,即第一目标微服务时,第一目标微服务可以对语音指令对应的意图进行改写,将该意图改写为目标意图。
在一些示例中,微服务能够对相应的语音指令对应的非default意图进行业务处理,需要保证该语音指令对应的非default意图存在对应的意图参数。
例如,通过步骤520可以为目标意图进行参数校验,因此,目标意图不存在参数缺失的问题,因此,当确定了第一目标微服务时,第一目标微服务可以实现对目标意图的正确处理。
步骤540,通过第一目标微服务对目标意图进行业务处理,并控制显示器显示业务处理结果界面。
在一些示例中,第一目标微服务对目标意图进行业务处理后,可以返回处理结果。例如,目标意图为调大音量,对应的第一目标微服务为电视控制微服务。因此,电视控制微服务会启动,并对电视设备的音量进行调大处理。
例如,第一目标微服务可以将处理结果发送给控制器250(如中控,即与电视终端对接的控制装置),由中控确定是否继续执行目标意图。如果中控确定继续执行目标意图,则执行对电视设备的音量进行调大的操作。
在一些示例中,业务处理结果界面可以为第一目标微服务执行目标意图的过程界面,也可以为第一目标微服务执行目标意图后的结果界面。例如,业务处理结果界面可以包括音量增大过程的显示界面,也可以包括音量增大后的结果界面,本申请实施例对此不作限定。
本申请实施例提供的意图识别方法,在无法识别用户输入的语音指令对应的意图(即default意图),或者,语音指令对应的非default意图不存在对应的微服务时,可以进入default意图优化服务,default意图优化服务通过判断语音指令是否满足匹配关系,来对语音指令进行进一步处理。在语音指令满足匹配关系时,可以根据匹配关系,重新确定该语音指令对应的目标意图,其中,该目标意图为非default意图且对应有第一目标微服务,第一目标微服务可以对目标意图进行业务处理。因此,通过本申请实施例可以提高电视意图识别的准确性,减少大量非媒资搜索的语音指令进入媒资搜索兜底服务,提高用户体验。
在一些示例中,若匹配关系中不包括目标关键字时,则语音指令对应的意图仍为default意图,这种情况下,电视设备可能仍会采用default兜底处理方式或者提示方式对语音指令进行处理,即不能为用户提供更加有效的提示,也无法预测用户的真正意图。
本申请实施例提供的意图识别方法可以在语音指令对应的意图为default意图的情况下,为用户提供推荐语句,以预测用户的真正意图。下面结合图7对申请实施例提供的意图识别方法进行说明。
图7为本申请实施例提供的又一种意图识别方法的示意图,如图7所示,在上述步骤610之后,该方法还包括步骤710至步骤720。
步骤710,若匹配关系中的多个关键字不包括目标关键字,则根据目标关键字和推荐规则,确定语音指令对应的至少一个目标推荐对象。
在一些示例中,匹配关系中的多个关键字不包括目标关键字,表明语音指令对应的意图无法重定向至微服务。这种情况下,控制器250可以根据目标关键字,以及推荐规则,为用户提供至少一个目标推荐对象。其中,该目标推荐对象为根据目标关键字生成的预测用户意图的语句。目标推荐对象能够有效的解决default意图无法处理的问题。
下面结合图8对上述步骤710中的推荐规则的具体实现方式进行说明。
图8为本申请实施例提供的再一种意图识别方法的示意图。如图8所示,上述步骤710包括如下所示的步骤810至步骤860。
步骤810,根据目标关键字和推荐库,确定目标关键字与推荐库中各推荐对象之间的目标相似度。
在一些实施例中,推荐规则包括推荐库。其中,推荐库包括多个推荐对象。推荐对象可以为语句的形式,例如,推荐对象可以为一个词语,或者一个句子。
示例性地,在接收到语音数据后,先将该语音数据转换为文本数据(如queryText),通过对该文本数据进行分词处理后得到目标关键字(如keyword)。
在一些示例中,分词处理是NLP处理中的一项基本任务。通过分词处理可以将文本数据(如句子、段落、文档)拆分成离散的、有语义的单词或词汇(可以称为词元),这些词元可以是单词、短语或符号等。例如,当用户输入的语音数据为“i need voluem up”,若转换出的文本数据为“volume app”,对文本数据进行分词处理后可以得到关键字“volumeapp”。
例如,分词处理可以采用预定义的规则(如标点符号、空格等)来划分词元;或者,分词处理可以基于统计模型和语言模型,通过计算词元出现的频率和概率来进行分词;或者,分词处理也可以使用机器学习算法,训练一个网络模型来自动学习分词规则和模式,本申请实施例对此不作限定。
示例性地,推荐库(也可以称为指令库)中包括多个推荐对象,该多个推荐对象可以根据用户需求进行设置。例如,推荐对象可以为用户使用频率较高的语句,或者,推荐对象也可以为容易出现文本转换错误的语句。需要说明的是,推荐库还可以按照其他规则设置,本申请实施例对此不作限定。
在一些示例中,推荐库中的推荐对象可以为一些计算机能够处理的,或者是具有明确意图(非default意图)的语句。电视设备可以根据推荐对象,执行相应的操作。例如,推荐库中的推荐对象可以包括“volume up”、“volume down”等语句。
在一些示例中,推荐库为一个可以更新的数据库。例如,用户可以根据需求定时或实时对推荐库进行更新。如可以通过新增、删除以及修改等方式对推荐库进行更新。
示例性地,可以在推荐库中输入查询式,其中,查询式可以根据目标关键字所确定。例如,查询式可以为目标关键字。推荐库可以根据查询式,输出查询结果。该查询结果可以包括目标关键字对应的多个推荐对象,以及目标关键字与各推荐对象之间相似度。其中,相似度越高,表明目标关键字与推荐对象之间越相似。
在一些示例中,推荐库可以根据目标关键字的音形编码与各推荐对象的音形编码之间的编辑距离,和/或,目标关键字的向量编码与各推荐对象的向量编码之间的余弦相似度,确定目标关键字与各推荐对象之间的相似度。
步骤820,根据各目标相似度,在多个推荐对象中确定至少两个候选推荐对象。
在一些示例中,在获取到目标关键字与各推荐对象之间的相似度后,按照相似度的大小,对各推荐对象进行排序,并将排序后名词在预设名次之前的推荐对象确定为候选推荐对象。例如,可以将相似度排名为前3名的推荐对象作为候选推荐对象。
在另一些示例中,在获取到目标关键字与各推荐对象之间的相似度后,可以将相似度大于或等于相似度阈值的推荐对象确定为候选推荐对象。例如,可以将相似度大于或等于0.7的各推荐对象作为候选推荐对象。
本申请实施例以按照相似度排名确定候选推荐对象为例进行示意性说明。
例如,可以将相似度排名前3的推荐对象作为候选推荐对象,即候选推荐对象集合T={t1,t2,t3},其中,t1、t2和t3为相似度排名前3的推荐对象,即三个候选推荐对象。各候选推荐对象对应的相似度分别为R(t1)、R(t2)和R(t3)。
例如,候选推荐对象集合T中的每个候选推荐对象t的数据格式可以如下:
示例性地,在获取到至少两个候选推荐对象后,可以根据至少两个候选推荐对象,确定至少一个目标推荐对象。具体如下步骤830至步骤860所示。
步骤830,确定至少两个候选推荐对象中各候选推荐对象对应的候选对象意图。
在一些示例中,在确定了候选推荐对象后,可以进一步确定各候选推荐对象对应的候选对象意图。其中,各候选推荐对象可以分别对应一个非default意图。
示例性地,推荐库中可以包括多个推荐对象分别对应的意图。在获取到候选推荐对象后,可以根据推荐库,确定该候选推荐对象对应的候选对象意图。其中,多个推荐对象中部分推荐对象对应的意图可以相同。
例如,候选推荐对象t1对应的意图为i1,候选推荐对象t2对应的意图为i2,候选推荐对象t3对应的意图为i3,则各候选推荐对象对应的候选对象意图集合I={i1,i2,i3},其中,i1、i2和i3可以均为同一个非default意图,也可以分别为不同的非default意图,或者,其中两个可以为相同的非default意图,本申请实施例对此不作限定。
步骤840,根据历史数据,确定各候选对象意图在多个意图中的目标占比。
其中,历史数据包括多个意图中各意图的数量。
在一些示例中,历史数据可以为用户在推荐库中进行查询的历史记录。用户在推荐库中查询一次,就会产生一个历史记录,该历史记录中包括了用户每次查询的候选推荐对象,以及该推荐对象对应的意图。
示例性地,历史数据中可以包括多个意图的总数量(如N),即多个意图出现的总的次数;以及各意图的数量(即各意图出现的次数),如候选对象意图i1的数量为N(i1),候选对象意图i2的数量为N(i2),候选对象意图i3的数量为N(i3)。
在一些示例中,可以根据多个意图的总数量,以及各候选对象意图的数量,确定各候选对象意图在多个意图中的占比。例如,各候选对象意图在多个意图中的占比P(i)=各意图的数量N(i)/意图总数量N。
例如,候选对象意图i1的目标占比P(i1)=候选对象意图i1的数量N(i1)/意图总数量N;候选对象意图i2的目标占比P(i2)=候选对象意图i1的数量N(i2)/意图总数量N;候选对象意图i3的目标占比P(i3)=候选对象意图i1的数量N(i3)/意图总数量N。
需要说明的是,各候选对象意图在多个意图中的目标占比P(i)的值在0到1之间,即目标占比P(i)大于0且小于1。
步骤850,根据目标关键字与各推荐对象之间的目标相似度,以及各目标占比,确定各候选推荐对象的推荐评分。
在一些示例中,在确定了各候选推荐对象的目标相似度(即步骤810),以及确定了各候选推荐对象对应的候选对象意图的目标占比(即步骤840)后,可以根据各候选推荐对象的目标相似度和目标占比,确定各候选推荐对象的推荐评分。
在一些示例中,各候选推荐对象的推荐评分可以根据各候选推荐对象对应的候选对象意图的目标占比的乘积确定。即各候选推荐对象的推荐评分S=目标相似度R×目标占比P。
例如,候选推荐对象t1的推荐评分S(t1)=候选推荐对象t1的目标相似度R(t1)×候选对象意图i1的目标占比P(i1);候选推荐对象t2的推荐评分S(t2)=候选推荐对象t2的目标相似度R(t2)×候选对象意图i2的目标占比P(i2);候选推荐对象t3的推荐评分S(t3)=候选推荐对象t3的目标相似度R(t3)×候选对象意图i3的目标占比P(i3)。
步骤860,根据各候选推荐对象的推荐评分,从至少两个候选推荐对象中确定至少一个目标推荐对象。
在一些示例中,在获取到各候选推荐对象的推荐评分后,可以按照各候选推荐对象的推荐评分对各候选推荐对象进行排序,并将推荐评分排名在前N名的候选推荐对象确定为目标推荐对象,其中,N为大于或等于1的整数。例如,当N=2时,目标推荐对象可以为推荐评分中排名前两位的候选推荐对象。
步骤720,控制显示器显示至少一个目标推荐对象。
在确定了至少一个目标推荐对象后,控制器250可以控制显示器260显示该至少一个目标推荐对象。
图9为本申请实施例提供的一种用户界面的示意图。如图9所示,显示器显示的用户界面可以包括两个目标推荐对象。例如,当用户输入的语音数据为“voluem up”,文本转换后的文本数据为“volume app”,根据上述实施例所确定的至少一个目标推荐对象包括“voluem up”和“voluem set”。其中,“voluem up”和“voluem set”是根据“volume app”预测的用户的意图。显然,该推荐对象可以较为准确的获取到用户的真正意图,解决了文本转换错误时,无法正确识别用户意图的问题。
在一些示例中,用户可以根据至少一个推荐对象重新进行语音输入,或者,也可以通过遥控器直接选择至少一个推荐对象中的一个进行执行。例如,用户通过遥控器选择目标推荐对象“voluem up”,以使控制器250可以根据目标推荐对象“voluem up”对应的电视控制微服务执行增大音量的操作。
本申请实施例提供的意图识别方法,在出现文本转换错误从而无法识别出用户意图(即default意图)时,可以根据语音指令对应的目标关键字和推荐规则库,生成至少一个目标推荐对象。该至少一个目标推荐对象为预测的用户真是意图的语句。向用户展示目标推荐对象,以供用户选择正确的意图,从而便于电视设备执行正确的语音指令。
在一些实施例中,在意图识别结果为default意图的情况下,若媒体资源实体库中存在与语音指令匹配的候选意图,则通过多个微服务中的媒资搜索微服务对候选意图进行业务处理,并控制显示器显示业务处理结果界面。其中,候选意图为非default意图。
在一些示例中,在意图识别结果为default意图时,可以对该语音数据进行预处理,即对该语音数据进行筛选,以判断媒体资源实体库中是否存在与语音指令匹配的候选意图,从而确定是否可以采用媒资搜索微服务对语音指令对应的候选意图进行业务处理。
在一些示例中,媒体资源实体库可以预先设置并存储。媒体资源实体库中包括媒体资源名称(如电影名称、电视剧名称等)、人名(如导演名、演员名等)以及区域名(如国家名称、地区名称等)等多个实体。
例如,当用户输入语音指令对应的目标关键字(也称为目标实体)“蜘蛛侠”时,意图识别模型可能无法从“蜘蛛侠”中获取到用户的意图,从而将其确定为default意图。当媒体资源实体库中包括有实体“蜘蛛侠”时,则可以确定该语音数据对应的意图为非default意图,即观看媒体资源的意图。这种情况下,可以根据媒资搜索微服务对候选意图(即观看媒体资源)进行业务处理,以搜索出“蜘蛛侠”相关的电影电视剧等。
在一些示例中,对该语音数据的预处理操作还包括机型能力过滤操作和意图改写操作。通过机型能力过滤操作和意图改写操作对电视设备不支持的意图进行筛选。
需要说明的是,预处理操作可以在上述实施例中的步骤520之前执行,若媒体资源实体库中存在与语音指令匹配的候选意图,则可以避免后续的进一步处理过程,提高了意图识别的效率。
本申请实施例提供的意图识别方法,在确定意图识别结果为default意图时,可以通过预处理的方式,初步确定该语音指令对应的意图是否与媒体资源相关(即媒体资源实体库中存在与语音指令匹配的候选意图)。由于电视设备中媒资搜索微服务对应的意图较多,因此,通过预处理将属于媒资搜索微服务对应的非default意图筛选后,可以直接通过媒资搜索微服务进行处理,从而可以简化意图识别流程,提高意图识别的准确性。
图10为本申请实施例提供的再一种意图识别方法的示意图,如图10所示,在步骤510之后,该方法还包括步骤1010至步骤1040。
步骤1010,在意图识别结果为非default意图的情况下,在多个微服务中确定非default意图对应的第二目标微服务。
在一些示例中,当意图识别结果为非default意图时,控制器250不一定能够对该非default意图进行处理,需要进一步确定该非default意图是否存在对象的微服务。若该非default意图在多个微服务中存在对应的微服务,如第二目标微服务,则可以进行进一步的业务处理。若该非default意图在多个微服务中不存在对应的微服务,则表明该意图识别结果满足重定向条件,可以按照上述实施例中的步骤520至步骤540进行处理,此处不再赘述。
步骤1020,若第二目标微服务能够对非default意图进行业务处理,则通过目标微服务对非default意图进行业务处理,并控制显示器显示业务处理结果界面。
在一些示例中,第二目标微服务能够对非default意图进行业务处理可以包括:非default意图不存在意图参数缺失的问题。例如,当语音指令为“将音量调大到30”时,其对应的非default意图为“电视音量控制”,对应的意图参数为“音量调大到30”,则该非default意图不存在意图参数缺失的问题,第二目标微服务可以对非default意图进行业务处理,即电视控制微服务可以执行将音量调大到30的操作。
例如,第二目标微服务在执行业务处理后,控制器250可以控制显示器260显示业务处理结果界面。需要说明的是,步骤1020中的显示业务处理结果界面可以参照上述实施例中的步骤540,为避免重复,此处不再赘述。
步骤1030,若第二目标微服务不能对非default意图进行业务处理,则在多个微服务器中确定候选微服务。
其中,候选微服务为多个微服务中除过第二目标微服务之外的任一微服务。
在一些示例中,第二目标微服务不能对非default意图进行业务处理可以包括:非default意图存在参数缺失的问题。例如,当语音指令为“调音量”时,其对应的非default意图为“电视音量控制”,但缺失意图参数,即音量调整到X;这种情况下,由于无法确定音量的调整参数,因此,第二目标微服务不能对非default意图进行业务处理,即电视控制微服务无法对执行音量调整的操作。
示例性地,可以在多个微服务中重新确定该语音指令对应的非default意图所对应的微服务,如候选微服务。候选微服务为电视设备提供的多个微服务中,除过第二目标微服务之外的一个微服务。例如,候选微服务可以为帮助(help)服务。
在一些示例中,可以根据语音指令和第二目标微服务,确定候选微服务。例如,第二目标微服务为电视控制微服务,当语音指令为“调音量”,但缺少“音量调整到X”的意图参数时,可以将候选微服务确定为帮助微服务。帮助微服务可以根据语音指令缺少的意图参数,向用户提供类似于“请输入所需音量的大小”或者“您是否需要将音量调大至X”等帮助语句,从而解决非default意图由于意图参数缺失而无法争取处理的问题。
需要说明的是,步骤1030也可以称为链式重定向至微服务的过程。在第二目标微服务无法处理时,可以通过其他微服务进行处理。
步骤1040,若候选微服务能够对非default意图进行业务处理,则通过候选微服务对非default意图进行业务处理,并控制显示器显示业务处理结果界面。
在一些示例中,在确定了候选微服务后,则候选微服务可以向控制器250(如中控)发送是否需要执行候选微服务的请求,当控制器250确定执行候选微服务时,可以按照上述步骤510至步骤540执行,为避免重复,此处不再赘述。
需要说明的是,若候选微服务仍无法处理该语音指令时,则可以重新确定下一个微服务,即除过第二目标微服务和候选微服务之外的任一微服务,如媒资搜索微服务。在所有微服务都无法处理该语音指令时,可以通过匹配关系为语音指令对应的非default意图配置意图参数,具体可以参照上述实施例中的步骤620,此处不再赘述。
本申请实施例提供的意图识别方法,通过链式重定向至微服务,对第二目标微服务无法处理的非default意图,通过重新定向新的微服务进行处理,进一步避免大量非媒资搜索的语音指令进入媒资搜索兜底服务,提高用户体验。
图11为本申请实施例提供的再一种意图识别过程的示意图,下面结合图11,对本申请实施例提供的一个具体实施例对意图识别过程进行说明。
步骤1,获取语音指令。
步骤2,语音指令识别。
例如,步骤2可以通过DialogFlow或其他模型进行意图识别,意图识别后获得语音指令对应的意图识别结果。意图识别结果包括是default意图或者非default意图。
需要说明的是,步骤1和步骤2的过程可以参照上述实施例中的步骤510,为避免重复,此处不再赘述。
步骤3,是否为default意图。
若意图识别结果不是default意图(即非default意图),则执行步骤4;若意图识别结果是default意图,则执行步骤6。
步骤4,判断语音指令对应的非default意图是否存在对应的微服务。
在一些示例中,电视设备支持的微服务可以包括media search、TVControl、direct和help。
若存在对应的微服务,则进入对应的微服务进行处理,并执行步骤5;若不存在对应的微服务,并则执行步骤6。
步骤5,确定微服务。
确定语音指令对应的非default意图对应的微服务(即上述实施例中的第二目标微服务),跳转至步骤7。
步骤6,default意图优化服务。
若不存在对应的微服务,则进入default意图优化服务,也可以称为defaultImprovement服务。defaultImprovement服务可以通过设置意图白名单、意图参数等方式对不存在对应微服务的意图(如default意图)进行匹配。步骤6之后跳转至步骤10。
步骤7,判断微服务是否能处理。
若微服务不能处理该非default意图,则执行步骤8;若微服务能够处理该非default意图,则执行步骤11。
步骤8,匹配nextService参数。
若当前微服务无法处理语音指令对应的非default意图,则匹配nextService参数,该nextService参数用于指示下一次需要进入的微服务。跳转至步骤9。
步骤9,判断是否执行nextService参数。
若执行nextService参数,则跳转至步骤5;若不执行nextService参数,则执行步骤13,输出处理结果。
步骤10,判断语音指令是否满足匹配条件。
若语音指令满足匹配条件(如上述实施例中的匹配关系),则根据匹配条件和语音指令,重定向语音指令对应微服务,并执行步骤11;若不满足匹配条件,则进入default意图处理过程,并执行步骤12。
步骤11,微服务处理。
通过微服务(包括非default意图对应的微服务,以及default意图重定向后的微服务)对语音指令进行处理,跳转至步骤13。
步骤12,根据推荐规则,确定推荐语句。
通过步骤12,可以获取到与语音指令对应的推荐语句(如上述实施例中的至少一个目标推荐对象)。需要说明的是,步骤12可以参数上述实施例中的步骤810至步骤860,为避免重复,此处不再赘述。跳转至步骤13。
步骤13,返回结果。
例如,返回的结果可以包括微服务处理结果以及推荐语句。
需要说明的是,步骤1至步骤13在上述实施例中已经进行详细说明,为避免重复,此处不再赘述。
上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对显示设备200进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图12为本申请实施例提供的一种显示设备的示意图。如图12所示,显示设备1200包括通信器1210、显示器1220和控制器1230。其中:
通信器1210被配置为:接收用户输入的语音指令。
显示器1220被配置为:显示用户界面。
控制器1230被配置为:对语音指令进行意图识别,得到语音指令对应的意图识别结果;在意图识别结果满足重定向条件的情况下,若确定语音指令满足匹配关系,则根据匹配关系,确定语音指令对应的目标意图;其中,目标意图为非default意图;满足重定向条件包括意图识别结果为默认default意图,或者,意图识别结果为非default意图且显示设备的多个微服务中不存在意图识别结果对应的微服务;在多个微服务中确定目标意图对应的第一目标微服务;通过第一目标微服务对目标意图进行业务处理,并控制显示器显示业务处理结果界面。
在一些实施例中,匹配关系包括多个关键字与多个非default意图的对应关系。控制器1230具体被配置为:确定语音指令对应的目标关键字;若匹配关系中的多个关键字包括目标关键字,则根据匹配关系,确定目标关键字对应的所述目标意图。
在一些实施例中,控制器1230还被配置为:若匹配关系中的多个关键字不包括目标关键字,则根据目标关键字和推荐规则,确定语音指令对应的至少一个目标推荐对象;控制显示器显示至少一个目标推荐对象。
在一些实施例中,推荐规则包括推荐库。控制器1230具体被配置为:根据目标关键字和推荐库,确定目标关键字与推荐库中各推荐对象之间的目标相似度;其中,推荐库包括多个推荐对象;根据各目标相似度,在多个推荐对象中确定至少两个候选推荐对象;根据至少两个候选推荐对象,确定至少一个目标推荐对象。
在一些实施例中,控制器1230具体被配置为:确定至少两个候选推荐对象中各候选推荐对象对应的候选对象意图;根据历史数据,确定各候选对象意图在多个意图中的目标占比;其中,历史数据包括多个意图中各意图的数量;根据目标关键字与各推荐对象之间的目标相似度,以及各目标占比,确定各候选推荐对象的推荐评分;根据各候选推荐对象的推荐评分,从至少两个候选推荐对象中确定至少一个目标推荐对象。
在一些实施例中,控制器1230还被配置为:在意图识别结果为非default意图的情况下,在多个微服务中确定非default意图对应的第二目标微服务;若第二目标微服务能够对非default意图进行业务处理,则通过目标微服务对非default意图进行业务处理,并控制显示器显示业务处理结果界面。
在一些实施例中,控制器1230还被配置为:若第二目标微服务不能对非default意图进行业务处理,则在多个微服务器中确定候选微服务;其中,候选微服务为多个微服务中除过第二目标微服务之外的任一微服务;若候选微服务能够对非default意图进行业务处理,则通过候选微服务对非default意图进行业务处理,并控制显示器显示业务处理结果界面。
在一些实施例中,控制器1230还被配置为:在意图识别结果为default意图的情况下,若媒体资源实体库中存在与语音指令匹配的候选意图,则通过多个微服务中的媒资搜索微服务对候选意图进行业务处理,并控制显示器显示业务处理结果界面;其中,候选意图为非default意图。
需要说明的是,本申请实施例提供的显示设备1200包括但不限于上述模块。
本申请实施例还提供一种显示设备,包括:处理器和存储器;该存储器用于存储计算机指令,当该显示设备运行时,该处理器执行该存储器存储的该计算机指令,以使该显示设备执行本申请实施例提供的意图识别方法。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当计算机指令在显示设备上运行时,使得显示设备可以执行本申请实施例提供的意图识别方法。
例如,该计算机可读存储介质可以是ROM、RAM、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
本申请实施例还提供一种包含计算机指令的计算机程序产品,当计算机指令在显示设备上运行时,使得显示设备可以执行本申请实施例提供的意图识别方法。
本申请实施例还提供一种装置(例如,该装置可以是芯片系统),该装置包括处理器,用于支持显示设备实现本申请实施例提供的意图识别方法。在一种可能的设计中,该装置还包括存储器,该存储器,用于保存显示设备必要的程序指令和数据。该装置是芯片系统时,可以由芯片构成,也可以包含芯片和其他分立器件。
示例性地,本申请实施例提供的芯片系统可以包括至少一个处理器和至少一个接口电路。处理器和接口电路可通过线路互联。该处理器可以通过接口电路从显示设备的存储器接收并执行计算机指令。当计算机指令被处理器执行时,可使得显示设备执行上述实施例中各个步骤。当然,该芯片系统还可以包含其他分立器件,本申请实施例对此不作具体限定。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种显示设备,其特征在于,包括:
通信器,被配置为:接收用户输入的语音指令;
显示器,被配置为:显示用户界面;
控制器,与所述通信器和所述显示器耦接,且被配置为:
对所述语音指令进行意图识别,得到所述语音指令对应的意图识别结果;
在所述意图识别结果满足重定向条件的情况下,若确定所述语音指令满足匹配关系,则根据所述匹配关系,确定所述语音指令对应的目标意图;其中,所述目标意图为非默认default意图;所述满足重定向条件包括所述意图识别结果为default意图,或者,所述意图识别结果为非default意图且所述显示设备的多个微服务中不存在所述意图识别结果对应的微服务;
在所述多个微服务中确定所述目标意图对应的第一目标微服务;
通过所述第一目标微服务对所述目标意图进行业务处理,并控制所述显示器显示业务处理结果界面。
2.根据权利要求1所述的显示设备,其特征在于,所述匹配关系包括多个关键字与多个非default意图的对应关系;所述控制器具体被配置为:
确定所述语音指令对应的目标关键字;
若所述匹配关系中的所述多个关键字包括所述目标关键字,则根据所述匹配关系,确定所述目标关键字对应的所述目标意图。
3.根据权利要求2所述的显示设备,其特征在于,所述控制器还被配置为:
若所述匹配关系中的所述多个关键字不包括所述目标关键字,则根据所述目标关键字和推荐规则,确定所述语音指令对应的至少一个目标推荐对象;
控制所述显示器显示所述至少一个目标推荐对象。
4.根据权利要求3所述的显示设备,其特征在于,所述推荐规则包括推荐库;所述控制器具体被配置为:
根据所述目标关键字和所述推荐库,确定所述目标关键字与所述推荐库中各推荐对象之间的目标相似度;其中,所述推荐库包括多个推荐对象;
根据各所述目标相似度,在所述多个推荐对象中确定至少两个候选推荐对象;
根据所述至少两个候选推荐对象,确定所述至少一个目标推荐对象。
5.根据权利要求4所述的显示设备,其特征在于,所述控制器具体被配置为:
确定所述至少两个候选推荐对象中各候选推荐对象对应的候选对象意图;
根据历史数据,确定各所述候选对象意图在多个意图中的目标占比;其中,所述历史数据包括所述多个意图中各意图的数量;
根据所述目标关键字与各所述推荐对象之间的目标相似度,以及各所述目标占比,确定各所述候选推荐对象的推荐评分;
根据各所述候选推荐对象的推荐评分,从所述至少两个候选推荐对象中确定所述至少一个目标推荐对象。
6.根据权利要求1所述的显示设备,其特征在于,所述控制器还被配置为:
在所述意图识别结果为所述非default意图的情况下,在所述多个微服务中确定所述非default意图对应的第二目标微服务;
若所述第二目标微服务能够对所述非default意图进行业务处理,则通过所述目标微服务对所述非default意图进行业务处理,并控制所述显示器显示所述业务处理结果界面。
7.根据权利要求6所述的显示设备,其特征在于,所述控制器还被配置为:
若所述第二目标微服务不能对所述非default意图进行业务处理,则在所述多个微服务器中确定候选微服务;其中,所述候选微服务为所述多个微服务中除过所述第二目标微服务之外的任一微服务;
若所述候选微服务能够对所述非default意图进行业务处理,则通过所述候选微服务对所述非default意图进行业务处理,并控制所述显示器显示所述业务处理结果界面。
8.根据权利要求1-7中任一项所述的显示设备,其特征在于,所述控制器还被配置为:
在所述意图识别结果为所述default意图的情况下,若媒体资源实体库中存在与所述语音指令匹配的候选意图,则通过所述多个微服务中的媒资搜索微服务对所述候选意图进行业务处理,并控制所述显示器显示所述业务处理结果界面;其中,所述候选意图为所述非default意图。
9.一种意图识别方法,其特征在于,所述方法包括:
获取用户输入的语音指令,对所述语音指令进行意图识别,得到所述语音指令对应的意图识别结果;
在所述意图识别结果满足重定向条件的情况下,若确定所述语音指令满足匹配关系,则根据所述匹配关系,确定所述语音指令对应的目标意图;其中,所述目标意图为非default意图;所述满足重定向条件包括所述意图识别结果为default意图,或者,所述意图识别结果为所述非default意图且显示设备的多个微服务中不存在所述意图识别结果对应的微服务;
在所述多个微服务中确定所述目标意图对应的第一目标微服务;
通过所述第一目标微服务对所述目标意图进行业务处理,并控制显示器显示业务处理结果界面。
10.根据权利要求9所述的方法,其特征在于,所述匹配关系包括多个关键字与多个非default意图的对应关系;所述若确定所述语音指令满足匹配关系,则根据所述匹配关系,确定所述语音指令对应的目标意图,包括:
确定所述语音指令对应的目标关键字;
若所述匹配关系中的所述多个关键字包括所述目标关键字,则根据所述匹配关系,确定所述目标关键字对应的所述目标意图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311270429.8A CN117809633A (zh) | 2023-09-27 | 2023-09-27 | 显示设备和意图识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311270429.8A CN117809633A (zh) | 2023-09-27 | 2023-09-27 | 显示设备和意图识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117809633A true CN117809633A (zh) | 2024-04-02 |
Family
ID=90434025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311270429.8A Pending CN117809633A (zh) | 2023-09-27 | 2023-09-27 | 显示设备和意图识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117809633A (zh) |
-
2023
- 2023-09-27 CN CN202311270429.8A patent/CN117809633A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110737840B (zh) | 语音控制方法及显示设备 | |
US10250935B2 (en) | Electronic apparatus controlled by a user's voice and control method thereof | |
CN112000820A (zh) | 一种媒资推荐方法及显示设备 | |
CN112182196A (zh) | 应用于多轮对话的服务设备及多轮对话方法 | |
CN114118064A (zh) | 显示设备、文本纠错方法及服务器 | |
WO2022100283A1 (zh) | 显示设备、控件触发方法及滚动文本检测方法 | |
CN113468351A (zh) | 一种智能设备及图像处理方法 | |
US20220375473A1 (en) | Electronic device and control method therefor | |
CN117809649A (zh) | 显示设备和语义分析方法 | |
CN115602167A (zh) | 显示设备和语音识别方法 | |
CN115273848A (zh) | 一种显示设备及显示设备的控制方法 | |
CN115270808A (zh) | 显示设备和语义理解方法 | |
CN117809633A (zh) | 显示设备和意图识别方法 | |
CN114627864A (zh) | 显示设备与语音交互方法 | |
CN113076427B (zh) | 一种媒资资源搜索方法、显示设备及服务器 | |
CN115150673B (zh) | 显示设备及媒资展示方法 | |
CN115314737B (zh) | 一种内容显示方法、显示设备 | |
CN118445485A (zh) | 一种显示设备及语音搜索方法 | |
KR20170054367A (ko) | 전자 장치 및 그 제어 방법 | |
CN117809687A (zh) | 电子设备和合法性检测方法 | |
CN117806587A (zh) | 显示设备和多轮对话预料生成方法 | |
CN118331531A (zh) | 一种显示设备及多类别指令响应方法 | |
CN115146652A (zh) | 显示设备和语义理解方法 | |
CN117809658A (zh) | 一种服务器、终端及语音识别方法 | |
CN118277590A (zh) | 显示设备和显示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |