CN115273848A - 一种显示设备及显示设备的控制方法 - Google Patents

一种显示设备及显示设备的控制方法 Download PDF

Info

Publication number
CN115273848A
CN115273848A CN202210917564.6A CN202210917564A CN115273848A CN 115273848 A CN115273848 A CN 115273848A CN 202210917564 A CN202210917564 A CN 202210917564A CN 115273848 A CN115273848 A CN 115273848A
Authority
CN
China
Prior art keywords
result
model
intention
confidence coefficient
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210917564.6A
Other languages
English (en)
Inventor
胡胜元
曹晚霞
朱飞
王霄川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vidaa Netherlands International Holdings BV
Original Assignee
Vidaa Netherlands International Holdings BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vidaa Netherlands International Holdings BV filed Critical Vidaa Netherlands International Holdings BV
Priority to CN202210917564.6A priority Critical patent/CN115273848A/zh
Publication of CN115273848A publication Critical patent/CN115273848A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请一些实施例中公开了一种显示设备及显示设备的控制方法,该方法使用由意图识别模型、槽位填充模型和默认意图模型组成的语义理解模型,可以更准确的确定用户的意图,提高用户的使用体验。该方法包括:当接收到用户输入的语音指令时,识别语音指令中的内容文本;将内容文本输入到语义理解模型中,输出待使用结果,其中,语义理解模型包括利用具有公共编码模块的意图识别模型、槽位填充模型和默认意图模型;如果第一置信度不大于第一预设置信度,和/或第二置信度不大于第二预设置信度,则根据第三置信度和第三结果,确定封装结果,以根据封装结果执行相应操作。

Description

一种显示设备及显示设备的控制方法
技术领域
本申请涉及显示设备的技术领域,尤其涉及一种显示设备及显示设备的控制方法。
背景技术
随着显示设备的快速发展,显示设备可以为用户提供的功能也越来越丰富。目前,显示设备包括电视、机顶盒,以及带有显示屏幕的产品等。以电视为例,电视使场景越来越多,不只是在家庭中作为观看电视节目的设备,还可以进行游戏、播放电子相册、信息展示等。
目前,很多显示设备都拥有通过语音助手来实现与用户互动的功能。但是经常发现显示设备响应用户的语音指令后,仅给出默认兜底回复。例如,在显示设备上显示“这个问题太难了,小x还在学习”,这样的响应方式不能够满足用户的需求,降低用户的使用感受。
因此,如何能够在用户输出语音指令后,更准确的确定用户的意图,成为本领域技术人员亟待解决的问题。
发明内容
本申请提供一种显示设备及显示设备的控制方法,该方法使用由意图识别模型、槽位填充模型和默认意图模型组成的语义理解模型,可以更准确的确定用户的意图,提高用户的使用体验。
第一方面,提供一种显示设备,包括:
显示器,用于显示用户界面;
用户接口,用于接收输入信号;
分别与显示器和用户接口连接的控制器,被配置为:
当接收到用户输入的语音指令时,识别所述语音指令中的内容文本;
将所述内容文本输入到语义理解模型中,输出待使用结果,其中,所述语义理解模型包括利用具有公共编码模块的意图识别模型、槽位填充模型和默认意图模型;所述待使用结果包括与所述意图识别模型对应的第一置信度和第一结果,与所述槽位填充模型对应的第二置信度和第二结果,以及与所述默认意图模型对应的第三置信度和第三结果;
如果所述第一置信度不大于第一预设置信度,和/或所述第二置信度不大于第二预设置信度,则根据所述第三置信度和第三结果,确定封装结果,以根据所述封装结果执行相应操作。
在一些实施例中,所述控制器,执行所述根据第三置信度和第三结果,确定封装结果,以执行与所述封装结果对应的操作,被进一步配置为:
所述第三结果包括搜索意图或非搜索意图;
当所述第三结果为搜索意图时,检测所述第三置信度是否大于第三预设置信度;
如果所述第三置信度大于第三预设置信度,检测所述第一结果是否为媒资搜索意图;
如果所述第一结果为媒资搜索意图,则确定所述封装结果包括搜索意图和第二结果,以执行将第二结果作为搜索对象的搜索操作。
在一些实施例中,所述控制器,还被配置为:当所述第三结果为非搜素意图,或者所述第三置信度小于或等于第三预设置信度时,则确定所述封装结果为默认意图,以执行显示默认信息的操作。
在一些实施例中,所述控制器,还被配置为:如果所述第一结果不是媒资搜索意图,则确定所述封装结果包括搜索意图和内容文本,以执行将所述内容文本作为搜索对象的搜索操作。
在一些实施例中,所述控制器,还被配置为:
如果所述第一置信度大于第一预设置信度,以及所述第二置信度大于第二预设置信度,则根据所述第一结果和第二结果,确定封装结果,以根据所述封装结果执行相应操作。
在一些实施例中,所述控制器,还被配置为:当所述第三置信度小于或等于第三预设置信度时,保存所述内容文本。
在一些实施例中,所述控制器,还被配置为:利用样本数据训练所述语义理解模型。
在一些实施例中,所述控制器,执行利用样本数据训练所述语义理解模型,被进一步配置为:
所述样本数据包括第一样本数据和第二样本数据;所述意图识别模型还包括意图识别分类器;所述槽位填充模型还包括槽位填充分类器;所述默认意图模型还包括默认意图分类器;
利用所述第一样本数据训练所述意图识别模型和槽位填充模型,确定并锁定公共编码模块、意图识别分类器和槽位填充分类器中的参数;利用所述第二样本数据训练训练包括锁定参数的公共编码模块的默认意图模型,确定默认意图分类器的参数。
第二方面,提供一种显示设备的控制方法,包括:
当接收到用户输入的语音指令时,识别所述语音指令中的内容文本;
将所述内容文本输入到语义理解模型中,输出待使用结果,其中,所述语义理解模型包括利用具有公共编码模块的意图识别模型、槽位填充模型和默认意图模型;所述待使用结果包括与所述意图识别模型对应的第一置信度和第一结果,与所述槽位填充模型对应的第二置信度和第二结果,以及与所述默认意图模型对应的第三置信度和第三结果;
如果所述第一置信度不大于第一预设置信度,和/或所述第二置信度不大于第二预设置信度,则根据所述第三置信度和第三结果,确定封装结果,以根据所述封装结果执行相应操作。
在一些实施例中,所述根据第三置信度和第三结果,确定封装结果,以执行与所述封装结果对应的操作的步骤包括:
所述第三结果包括搜索意图或非搜索意图;
当所述第三结果为搜索意图时,检测所述第三置信度是否大于第三预设置信度;
如果所述第三置信度大于第三预设置信度,检测所述第一结果是否为媒资搜索意图;
如果所述第一结果为媒资搜索意图,则确定所述封装结果包括搜索意图和第二结果,以执行将第二结果作为搜索对象的搜索操作。
在上述实施例中提供的显示设备及显示设备的控制方法,该方法使用由意图识别模型、槽位填充模型和默认意图模型组成的语义理解模型,可以更准确的确定用户的意图,提高用户的使用体验。该方法包括:当接收到用户输入的语音指令时,识别所述语音指令中的内容文本;将所述内容文本输入到语义理解模型中,输出待使用结果,其中,所述语义理解模型包括利用具有公共编码模块的意图识别模型、槽位填充模型和默认意图模型;所述待使用结果包括与所述意图识别模型对应的第一置信度和第一结果,与所述槽位填充模型对应的第二置信度和第二结果,以及与所述默认意图模型对应的第三置信度和第三结果;如果所述第一置信度不大于第一预设置信度,和/或所述第二置信度不大于第二预设置信度,则根据所述第三置信度和第三结果,确定封装结果,以根据所述封装结果执行相应操作。
附图说明
图1示出了根据一些实施例的显示设备与控制装置之间操作场景;
图2示出了根据一些实施例的控制设备100的硬件配置框图;
图3示出了根据一些实施例的显示设备200的硬件配置框图;
图4示出了根据一些实施例的显示设备200中软件配置图;
图5示例性示出了根据一些实施例提供的一种用户界面的示意图;
图6示例性示出了根据一些实施例提供的一种显示设备的控制方法的流程图;
图7示例性示出了根据一些实施例提供的又一种用户界面的示意图;
图8示例性示出了根据一些实施例提供的一种语义理解模型的结构示意图;
图9示例性示出了根据一些实施例提供的又一种用户界面示意图;
图10示例性示出了根据一些实施例提供的又一种显示设备的控制方法的流程图。
具体实施方式
为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
本申请实施方式提供的显示设备可以具有多种实施形式,例如,可以是电视、智能电视、激光投影设备、显示器(monitor)、电子白板(electronic bulletin board)、电子桌面(electronic table)等。图1和图2为本申请的显示设备的一种具体实施方式。
图1为根据实施例中显示设备与控制装置之间操作场景的示意图。如图1所示,用户可通过智能设备300或控制装置100操作显示设备200。
在一些实施例中,控制装置100可以是遥控器,遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信,及其他短距离通信方式,通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令,来控制显示设备200。
在一些实施例中,也可以使用智能设备300(如移动终端、平板电脑、计算机、笔记本电脑等)以控制显示设备200。例如,使用在智能设备上运行的应用程序控制显示设备200。
在一些实施例中,显示设备可以不使用上述的智能设备或控制设备接收指令,而是通过触摸或者手势等接收用户的控制。
在一些实施例中,显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制,例如,可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制,也可以通过显示设备200设备外部设置的语音控制设备来接收用户的语音指令控制。
在一些实施例中,显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群,也可以是多个集群,可以包括一类或多类服务器。
图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示,控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令,且将操作指令转换为显示设备200可识别和响应的指令,起用用户与显示设备200之间交互中介作用。
如图3,显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。
在一些实施例中控制器包括处理器,视频处理器,音频处理器,图形处理器,RAM,ROM,用于输入/输出的第一接口至第n接口。
显示器260包括用于呈现画面的显示屏组件,以及驱动图像显示的驱动组件,用于接收源自控制器输出的图像信号,进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面。
显示器260可为液晶显示器、OLED显示器、以及投影显示器,还可以为一种投影装置和投影屏幕。
通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如:通信器可以包括Wifi模块,蓝牙模块,有线以太网模块等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。显示设备200可以通过通信器220与外部控制设备100或服务器400建立控制信号和数据信号的发送和接收。
用户接口,可用于接收控制装置100(如:红外遥控器等)的控制信号。
检测器230用于采集外部环境或与外部交互的信号。例如,检测器230包括光接收器,用于采集环境光线强度的传感器;或者,检测器230包括图像采集器,如摄像头,可以用于采集外部环境场景、用户的属性或用户交互手势,再或者,检测器230包括声音采集器,如麦克风等,用于接收外部声音。
外部装置接口240可以包括但不限于如下:高清多媒体接口接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。
调谐解调器210通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线广播电视信号中解调出音视频信号,如以及EPG数据信号。
在一些实施例中,控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。
控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如:响应于接收到用于选择在显示器260上显示UI对象的用户命令,控制器250便可以执行与由用户命令选择的对象有关的操作。
在一些实施例中控制器包括中央处理器(Central Processing Unit,CPU),视频处理器,音频处理器,图形处理器(Graphics Processing Unit,GPU),RAM Random AccessMemory,RAM),ROM(Read-Only Memory,ROM),用于输入/输出的第一接口至第n接口,通信总线(Bus)等中的至少一种。
用户可在显示器260上显示的图形用户界面(GUI)输入用户命令,则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
“用户界面”,是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface,GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。
参见图4,在一些实施例中,将系统分为四层,从上至下分别为应用程序(Applications)层(简称“应用层”),应用程序框架(Application Framework)层(简称“框架层”),安卓运行时(Android runtime)和系统库层(简称“系统运行库层”),以及内核层。
在一些实施例中,应用程序层中运行有至少一个应用程序,这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序或时钟程序等;也可以是第三方开发者所开发的应用程序。在具体实施时,应用程序层中的应用程序包不限于以上举例。
框架层为应用程序提供应用编程接口(application programming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心,这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口,可在执行中访问系统中的资源和取得系统的服务。
如图4所示,本申请实施例中应用程序框架层包括管理器(Managers),内容提供者(Content Provider)等,其中管理器包括以下模块中的至少一个:活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互;位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问;文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息;通知管理器(NotificationManager)用于控制通知消息的显示和清除;窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。
在一些实施例中,活动管理器用于管理各个应用程序的生命周期以及通常的导航回退功能,比如控制应用程序的退出、打开、后退等。窗口管理器用于管理所有的窗口程序,比如获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕,控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。
在一些实施例中,系统运行库层为上层即框架层提供支撑,当框架层被使用时,安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。
在一些实施例中,内核层是硬件和软件之间的层。如图4所示,内核层至少包含以下驱动中的至少一种:音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器,温度传感器,压力传感器等)、以及电源驱动等。
在一些实施例中,显示设备拥有通过语音助手来实现与用户互动的功能。但是经常出现显示设备响应用户的语音指令后,仅给出默认兜底回复。例如,在显示设备上显示“这个问题太难了,小x还在学习”,这样的响应方式不能够满足用户的需求,降低用户的使用感受。图5示例性示出了根据一些实施例提供的一种用户界面的示意图。在图5的用户界面上显示有默认兜底回复,即“这个问题太难了,小x还在学习”。
为了解决上述技术问题,本申请实施例提供一种显示设备的控制方法,该方法使用由意图识别模型、槽位填充模型和默认意图模型组成的语义理解模型,可以更准确的确定用户的意图,提高用户的使用体验。
图6示例性示出了根据一些实施例提供的一种显示设备的控制方法的流程图。所述方法包括:
S100、当接收到用户输入的语音指令时,识别所述语音指令中的内容文本。本申请实施例中,将语音指令识别为内容文本,具体的识别过程不做限制,任何可以将语音指令转换为内容文本的方式均可以被接受。
本申请实施例中的所述语音指令,可以根据用户的语音输入。示例性的,用户可以说出唤醒词,和希望显示设备执行的操作,输入语音指令。例如,用户可以说出“小x,查看今天天气”,其中“小x”为唤醒词,“查看今天天气”为用户希望显示设备执行的操作。此时输入语音指令。在另一个示例中,用于可以按压控制装置上的语音输入按键,并说出希望显示设备执行的操作,输入语音指令。
本申请实施例中,显示设备可以接收到用户输入的语音指令的场景有多种,示例性的,图7示例性示出了根据一些实施例提供的又一种用户界面的示意图,在图7中显示设备正在播放视频,在视频的播放时,显示设备可以接收到用户指令。
S200、将所述内容文本输入到语义理解模型中,输出待使用结果。
图8示例性示出了根据一些实施例提供的一种语义理解模型的结构示意图。所述语义理解模型包括利用具有公共编码模块的意图识别模型、槽位填充模型和默认意图模型。
所述待使用结果包括与所述意图识别模型对应的第一置信度和第一结果,与所述槽位填充模型对应的第二置信度和第二结果,以及与所述默认意图模型对应的第三置信度和第三结果。
其中,所述意图识别模型用于意图识别,得到第一结果和与第一结果对应的第一置信度,所述槽位填充模型用于参数提取,得到第二结果和与第二结果对应的第二置信度,所述默认意图模型用于默认意图(default意图)识别,得到第三结果和第三结果对应的第三置信度,其中第三结果包括搜索意图和不搜索意图。
以语音指令“what’s the weather tomorrow in Berlin”(明天柏林天气怎么样)为例,与意图识别模型对应的第一结果可以为“weather.query”(天气,搜索意图),与槽位填充模型对应的第二结果可以为“{datetime:tomorrow,city:Berlin}”(日期:明天,城市:柏林),与默认意图模型对应的第三结果可以为“非搜索意图”。
本申请实施例中,语义理解模型中的意图识别模型、槽位填充模型和默认意图模型共用同一个公共编码模块。由于公共编码模块中的编码器为最耗时的部件,所以本申请实施例中,将意图识别模型、槽位填充模型和默认意图模型共用同一个公共编码模块,这样可以减少运行语义理解模型时所用时间。
为了更清楚的表达本申请实施例的方案,本申请可以按照下面示出的语义理解模型进行显示设备的控制。
本申请实施例中语义理解模型主要采用LaBSE模型(Language-agnostic BERTSentence Embedding)和分类器,构建意图识别模型、槽位填充联合模型和默认意图模型来进行意图识别、参数提取和默认意图识别,所述LaBSE模型即为公共编码模块。
本申请实施例中,LABSE模型采用数百亿个单语语料和数亿对双语语料进行训练,能够对百种语言进行词语级别和句子级别的编码,具有强大的多语言句子和词的表征能力。采用bert模型作为预训练模型,最终训练得到包括编码器和embedding层(嵌入层)的LaBSE模型。
再次参阅图8,对于输入的内容文本,首先进行token化(词表化),在句首添加[CLS]token(全局特征聚合),一般用来表示整个内容文本的句子信息,在句尾添加多个[SEP]token(分隔符),使得语义理解模型的输入长度一样,然后再将每个token对应到tokenID(词表编码),使得显示设备能够识别内容文本。
本申请实施例中的采用LaBSE模型的token词表,其包含几十万种token,绝大部分的文本内容都可以由该词表的组合来表示。经过了token层后,从预训练的词表中读取每个token的对应的特征表示后,再输入到LaBSE模型,经过多层的编码器交互后,该编码器可以为transformer编码器,输出最终的编码结果,得到每个token的特征(features),即LaBSE模型的输出结果。
本申请实施例中,将输出的特征与分类器连接进行后续任务。
具体的,首先,由于[CLS]对应的特征代表整个内容文本的句子的特征,在该特征后加上一个意图分类器,将用于进行意图分类,输出不同的意图,比如媒资搜索或者显示设备控制等,示例性的,所述意图分类器可以为softmax分类模型。
在槽位预测时采用了BIO标签体系,其中B表示标签的开始(begin),I表示标签的中间(inner),O表示不是标签(other),将样本数据标注成该BIO标签体系后,再使得模型的预测结果和该BIO标签一致。因此槽位预测时,对剩下的每个token的特征后再加上一个槽位预测分类器进行BIO标签分类。示例性的,所述槽位预测分类器可以为softmax分类模型。
本申请实施例中,对用户请求编码后,将句子表征向量[CLS]连接默认意图分类器(default分类器),对内容文本进行搜索意图(search)和不搜索意图(unsearch)分类。例如,所述默认意图分类器可以为softmax二分类器层。
上述内容详细描述了语义理解模型的结构。本申请实施例中,在使用语义理解模型之前,需要对语义理解模型进行训练。训练语义理解模型的具体方式如下:
在一些实施例中,利用样本数据训练所述语义理解模型。在一些实施例中,所述样本数据包括第一样本数据(Doriginal)和第二样本数据(Ddefault),其中第一样本数据包含详细的语法信息和明确的意图指令,例如,“search for movie spider man”含有语法结果,明确表明搜索电影意图;第二样本数据为语义理解模型输出默认意图,以及,无法输出用于控制显示设备的执行指令的数据,该数据或者无句法含义,为含有意义的命名实体,或者为意图不明确,与当前业务意图相差较大等数据。示例性的,用户输出语音指令“Jillian andAddie”,此时显示设备上显示“这个问题太难了,小x还在学习”,此时可以将“Jillian andAddie”作为第二样本数据中的一部分,另外,将与“Jillian and Addie”对应的输出数据作为第二样本数据的另一部分,该输出数据为人工标定。本申请实施例中,所述输出数据可以标定为搜索意图或不搜索意图。
本申请实施例中,在语义理解模型训练过程中,需要训练LaBSE模型、意图分类器、槽位预测分类器外和默认意图分类器。由于第一样本数据和第二样本数据都会对LaBSE模型的参数进行更新,这样就需要一个合理的训练方式综合第一样本数据和第二样本数据,使得训练后的模型更贴近真实情况。
对于第一样本数据和第二样本数据的数据集,训练语义理解模型过程可以包括以下三种方式:
第一种方式,混合第一样本数据和第二样本数据一起训练语义理解模型。
将两部分数据集混合在一起训练,则训练中混合第一样本数据和第二样本数据放到语义理解模型中训练,按照误差更新LaBSE模型、意图分类器、槽位预测分类器和默认意图分类器中的模型参数。
第二种方式,第一样本数据和第二样本数据分开交叉训练,以第一样本数据为主,以第二样本数据为辅。训练过程中按照交叉的方式进行,先用第一样本数据训练出LaBSE模型、意图分类器和槽位预测分类器后,再利用第二样本数据进行微调,因为LaBSE模型为公共编码模块,其学习率应该设置比较小,对该部分参数进行微调,主要修改默认意图分类器的参数。然后再重复分别在第一样本数据和在第二样本数据的数据集上训练,直到模型在两个数据集上都有较好的表现效果。
第三种方式,第一样本数据和第二样本数据分开单独训练,严格以第一样本数据训练LaBSE模型,并固定语义理解模型部分的LaBSE模型的参数不改变。在第一样本数据上训练出可以进行正常运行的LaBSE模型、意图识别模型和槽位填充模型。然后再冻结住公共编码LaBSE模型、意图识别模型和槽位填充模型的参数,不进行更新。然后采用第二样本数据的数据训练语义理解模型,仅更新默认意图分类器处的参数,得到默认意图分类器。
在语义理解模型训练过程中,第一种方式中混合第一样本数据和第二样本数据,但是因为第一样本数据和第二样本数据的数据量不同,分类任务难度不同,计算误差时误差的相对大小也不同,导致语义理解模型收敛速度慢,最终测试语义理解模型中的意图识别模型和槽位填充模型效果并不好。
第二种方式中,通过调小学习率,交叉训练五轮后,语义理解模型在两个不同的训练集上的误差均以收敛,但是此时意图识别模型和槽位填充模型的效果表现不佳,在第一样本数据的数据集上的性能略低,并在第二样本数据的数据集上出现了过拟合的现象。分析后的认为,意图识别和槽位填充模型中,意图识别需要进行50个类别的分类,槽位填充中按照BIO标签体系,需要进行102分类任务;而在默认意图分类器中,仅需要进行二分类任务,其任务复杂度远低于意图识别模型和槽位填充模型,导致默认意图分类器出现过拟合现象。
第三种方式中,该方法不影响意图识别模型和槽位填充模型的效果,默认意图分类器也能够适用于二分类的任务难度,最终取得了较为理想的结果。在第一样本数据的数据集上,LaBSE模型参数不变,意图分类器的准确率为95.89%,槽位填充分类器的准确率为91.02%;在第二样本数据的数据集上,默认意图分类器的准确率为94.02%,并且在测试时发现有不错的泛化性能。
因此,本申请实施例中,利用所述第一样本数据训练所述意图识别模型和槽位填充模型,确定并锁定公共编码模块、意图识别分类器和槽位填充分类器中的参数;利用所述第二样本数据训练训练包括锁定参数的公共编码模块的默认意图模型,确定默认意图分类器的参数。这样可以保证语义理解模型可以准确且快速的识别出用户的意图。
本申请实施例中,运行语音理解模型时主要的耗时位置为编码器,所以意图识别模型、槽位填充模型和默认意图模型采用同一个公共编码模块,该公共编码模块包括编码器,这样可以缩短使用语音理解模型的耗时,并可以进一步判断用户的默认意图,提高用户的使用体验。
在一些实施例中,语义理解模型在使用时,意图识别模型、槽位填充模型和默认意图模型分别输出对应的结果和置信度。待使用结果包括与意图识别模型对应的第一置信度和第一结果,与槽位填充模型对应的第二置信度和第二结果,以及与默认意图模型对应的第三置信度和第三结果。
S300、比较所述第一置信度和第一预设置信度,以及比较所述第二置信度和第二预设置信度。本申请实施例中,置信度可以体现出模型输出结果的可信程度,置信度越高说明输出的结果与真实结果的近似程度越高,置信度越低说明输出的结果与真实结果的近似程度越低。
S400、如果所述第一置信度大于第一预设置信度,以及所述第二置信度大于第二预设置信度,则根据所述第一结果和第二结果,确定封装结果,以根据封装结果执行对应的操作。
本申请实施例中,如果第一置信度大于第一预设置信度,以及第二置信度大于第二预设置信度,说明意图识别模型输出的第一结果和真实意图,以及槽位填充模型输出的第二结果和真实参数均相贴近。当二者均贴近真实情况,则可以直接确定所述第一结果和第二结果作为封装结果,根据该封装结果执行对应的操作。示例性的,第二结果为“{datetime:tomorrow,city:Berlin}”,第一结果为“weather.query”,则直接执行查找并显示明天柏林天气。图9示例性示出了根据一些实施例提供的又一种用户界面示意图,在图9中显示有柏林天气的信息。
在一些实施例中,结果封装的过程为将语义理解模型输出的结果封装成统一的格式,方便下游显示设备执行命令。比如将意图转换为显示设备的执行命令,将意图参数转换成统一的格式,比如显示设备的一些固定设置项需要转换成显示设备语言,不同语言的时间格式转化成终端能够解析的数字格式,如英文下的2hours转化成{h:2,m:0,s:0}。
在一些实施例中,第一预设置信度和第二预设置信度可以为相同数值,例如可以为0.9。当然,第一预设置信度和第二预设置信度也可以为不同数值。
S500、如果所述第一置信度不大于第一预设置信度,和/或所述第二置信度不大于第二预设置信度,则根据所述第三置信度和第三结果,确定封装结果,以根据所述封装结果执行相应操作。
本申请实施例中,如果第一结果的可信程度不大于第一预设置信度,第二结果的可信程度不大于第二预设置信度,说明直接利用第一结果和第二结果作为封装结果后,显示设备执行的操作可能不准确,所以为了避免显示设备执行不准确的操作,利用第三置信度和第三结果,确定封装结果,这样可以进一步对显示设备不能提供满足用户需求的操作对应的语音指令进行分析,确定语音指令对应的意图,可以减少显示设备显示默认兜底回复的情况。
本申请实施例中的默认意图模型,在第一结果和第二结果的置信度不高时,对语音指令中的用户意图进行进一步的分析,提高用户的使用感受。
在一些实施例中,图10示例性示出了根据一些实施例提供的又一种显示设备的控制方法的流程图,S500、所述根据第三置信度和第三结果,确定封装结果,以根据所述封装结果执行相应操作的步骤包括:
所述第三结果包括搜索意图或非搜索意图。
S501、判断所述第三结果为搜索意图或非搜索意图。本申请实施例中,由于意图识别模型和槽位填充模型对应的至少一个置信度不能满足预设置信度的要求,为了进一步了解用户的需求,利用默认意图模型输出的第三结果是否为搜索意图。根据研究发现,多数显示设备不能提供满足用户需求的操作对应的语音指令,大部分都是用户希望利用显示设备搜索语音指令中的文本内容,示例性的,用户说出某一演员的名字,大概率是希望显示设备以该演员的名字的搜索对象进行搜索,本申请实施例利用这一特点,利用默认意图模型确定当前的文本内容对应的第三结果是否为搜索意图,如果第三结果为搜索意图,根据第三置信度,继续确定显示设备以何种方式进行搜素。
S502、当所述第三结果为非搜素意图,则确定所述封装结果为默认意图,以显示默认信息的操作。本申请实施例中,所述默认意图指示显示设备显示默认信息。示例性的,所述默认信息可以为“这个问题太难了,小x还在学习”。在本申请实施例中,当第三结果为非搜素意图,则确定文本内容不适合利用显示设备进行搜索,以满足用户需求。
S503、当所述第三结果为搜索意图时,检测所述第三置信度是否大于第三预设置信度。本申请实施例中,如果第三结果为搜索意图,则检测第三置信度,确定第三结果的可信程度。当第三置信度与第三预设置信度的关系不同时,确定显示设备以不同的方式进行搜索。
S504、如果所述第三置信度小于或等于第三预设置信度,则确定所述封装结果为默认意图,以执行显示默认信息的操作。本申请实施例中,如果第三置信度不高,说明第三结果为搜素意图的可信程度不高,则确定封装结果为默认意图,显示设备显示默认信息。
另外,在一些实施例中,当所述第三置信度小于或等于第三预设置信度时,保存所述内容文本,以便后续人工对其进行分析,挖掘新业务需求等。本申请实施例中,语义理解模型可以不断的通过大量样本数据被训练,当第三置信度小于或等于第三预设置信度时,保存语义理解模型对应的内容文本,可以对该内容文本进行分析,得到新的样本数据,用于训练语义理解模型。
S505、如果所述第三置信度大于第三预设置信度,检测所述第一结果是否为媒资搜索意图。本申请实施例中,可能出现第一置信度和第二置信度的错误,导致不能直接利用第一结果和第二结果使得显示设备直接执行相应操作,但是如果第三置信度大于第三预设置信度,说明第三结果为搜素意图的可信程度较高,为了避免第一置信度和第二置信度发生错误的问题,可以进一步检测第一结果是否为媒资搜索意图,如果是媒资搜索意图,则可以利用第二结果进行媒资搜索。
在一些实施例中,可以预先设置媒资搜索意图,示例性的,当预先设置的媒资搜索意图可以为视频搜索(video.search)或者视频播放(video.play)等。当第一结果为预先设置的媒资搜索意图,则确定第一结果为媒资搜索意图。
S506、如果所述第一结果为媒资搜索意图,则确定所述封装结果包括搜索意图和第二结果,以执行将第二结果作为搜索对象的搜索操作。示例性的,第二结果为今天天气,显示设备以今天天气为搜索对象进行搜索。
需要说明的是,本申请实施例中,并不限制搜索的搜索范围,可以为本地数据库,也可以为外接数据库,还可以为其他范围。
S507、如果所述第一结果不是媒资搜索意图,则确定所述封装结果包括搜索意图和内容文本,以执行将所述内容文本作为搜索对象的搜索操作。示例性的,内容文本可以为xxx(人名),显示设备以xxx为搜索对象进行搜索。
本申请实施例中,还提供一种显示设备,包括:显示器,用于显示用户界面;用户接口,用于接收输入信号;分别与显示器和用户接口连接的控制器,被配置为:当接收到用户输入的语音指令时,识别所述语音指令中的内容文本;将所述内容文本输入到语义理解模型中,输出待使用结果,其中,所述语义理解模型包括利用具有公共编码模块的意图识别模型、槽位填充模型和默认意图模型;所述待使用结果包括与所述意图识别模型对应的第一置信度和第一结果,与所述槽位填充模型对应的第二置信度和第二结果,以及与所述默认意图模型对应的第三置信度和第三结果;如果所述第一置信度不大于第一预设置信度,和/或所述第二置信度不大于第二预设置信度,则根据所述第三置信度和第三结果,确定封装结果,以根据所述封装结果执行相应操作。
在一些实施例中,所述控制器,执行所述根据第三置信度和第三结果,确定封装结果,以执行与所述封装结果对应的操作,被进一步配置为:所述第三结果包括搜索意图或非搜索意图;当所述第三结果为搜索意图时,检测所述第三置信度是否大于第三预设置信度;如果所述第三置信度大于第三预设置信度,检测所述第一结果是否为媒资搜索意图;如果所述第一结果为媒资搜索意图,则确定所述封装结果包括搜索意图和第二结果,以执行将第二结果作为搜索对象的搜索操作。
在一些实施例中,所述控制器,还被配置为:当所述第三结果为非搜素意图,或者所述第三置信度小于或等于第三预设置信度时,则确定所述封装结果为默认意图,以执行显示默认信息的操作。
在一些实施例中,所述控制器,还被配置为:如果所述第一结果不是媒资搜索意图,则确定所述封装结果包括搜索意图和内容文本,以执行将所述内容文本作为搜索对象的搜索操作。
在一些实施例中,所述控制器,还被配置为:当所述第三置信度小于或等于第三预设置信度时,保存所述内容文本。
在一些实施例中,所述控制器,还被配置为:
如果所述第一置信度大于第一预设置信度,以及所述第二置信度大于第二预设置信度,则根据所述第一结果和第二结果,确定封装结果,以根据所述封装结果执行相应操作。
在一些实施例中,,所述控制器,还被配置为:利用样本数据训练所述语义理解模型。
在一些实施例中,所述控制器,执行利用样本数据训练所述语义理解模型,被进一步配置为:所述样本数据包括第一样本数据和第二样本数据;所述意图识别模型还包括意图识别分类器;所述槽位填充模型还包括槽位填充分类器;所述默认意图模型还包括默认意图分类器;利用所述第一样本数据训练所述意图识别模型和槽位填充模型,确定并锁定公共编码模块、意图识别分类器和槽位填充分类器中的参数;利用所述第二样本数据训练训练包括锁定参数的公共编码模块的默认意图模型,确定默认意图分类器的参数。
上述实施例中,显示设备及显示设备的控制方法,该方法使用由意图识别模型、槽位填充模型和默认意图模型组成的语义理解模型,可以更准确的确定用户的意图,提高用户的使用体验。该方法包括:当接收到用户输入的语音指令时,识别所述语音指令中的内容文本;将所述内容文本输入到语义理解模型中,输出待使用结果,其中,所述语义理解模型包括利用具有公共编码模块的意图识别模型、槽位填充模型和默认意图模型;所述待使用结果包括与所述意图识别模型对应的第一置信度和第一结果,与所述槽位填充模型对应的第二置信度和第二结果,以及与所述默认意图模型对应的第三置信度和第三结果;如果所述第一置信度不大于第一预设置信度,和/或所述第二置信度不大于第二预设置信度,则根据所述第三置信度和第三结果,确定封装结果,以根据所述封装结果执行相应操作。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理及实际的应用,从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims (10)

1.一种显示设备,其特征在于,包括:
显示器,用于显示用户界面;
用户接口,用于接收输入信号;
分别与显示器和用户接口连接的控制器,被配置为:
当接收到用户输入的语音指令时,识别所述语音指令中的内容文本;
将所述内容文本输入到语义理解模型中,输出待使用结果,其中,所述语义理解模型包括利用具有公共编码模块的意图识别模型、槽位填充模型和默认意图模型;所述待使用结果包括与所述意图识别模型对应的第一置信度和第一结果,与所述槽位填充模型对应的第二置信度和第二结果,以及与所述默认意图模型对应的第三置信度和第三结果;
如果所述第一置信度不大于第一预设置信度,和/或所述第二置信度不大于第二预设置信度,则根据所述第三置信度和第三结果确定封装结果,以根据所述封装结果执行相应操作。
2.根据权利要求1所述的显示设备,其特征在于,所述第三结果包括搜索意图或非搜索意图;所述控制器,执行所述根据第三置信度和第三结果,确定封装结果,以执行与所述封装结果对应的操作,被进一步配置为:
当所述第三结果为搜索意图时,检测所述第三置信度是否大于第三预设置信度;
如果所述第三置信度大于第三预设置信度,检测所述第一结果是否为媒资搜索意图;
如果所述第一结果为媒资搜索意图,则确定所述封装结果包括搜索意图和第二结果,以执行将第二结果作为搜索对象的搜索操作。
3.根据权利要求2所述的显示设备,其特征在于,所述控制器,还被配置为:
当所述第三结果为非搜素意图,或者所述第三置信度小于或等于第三预设置信度时,则确定所述封装结果为默认意图,以执行显示默认信息的操作。
4.根据权利要求2所述的显示设备,其特征在于,所述控制器,还被配置为:
如果所述第一结果不是媒资搜索意图,则确定所述封装结果包括搜索意图和内容文本,以执行将所述内容文本作为搜索对象的搜索操作。
5.根据权利要求2所述的显示设备,其特征在于,所述控制器,还被配置为:
当所述第三置信度小于或等于第三预设置信度时,保存所述内容文本。
6.根据权利要求1所述的显示设备,其特征在于,所述控制器,还被配置为:
如果所述第一置信度大于第一预设置信度,以及所述第二置信度大于第二预设置信度,则根据所述第一结果和第二结果确定封装结果,以根据所述封装结果执行相应操作。
7.根据权利要求1所述的显示设备,其特征在于,所述控制器,还被配置为:
获取样本数据;
利用样本数据训练所述语义理解模型。
8.根据权利要求7所述的显示设备,其特征在于,所述样本数据包括第一样本数据和第二样本数据;所述意图识别模型还包括意图识别分类器;所述槽位填充模型还包括槽位填充分类器;所述默认意图模型还包括默认意图分类器;所述控制器,执行利用样本数据训练所述语义理解模型,被进一步配置为:
利用所述第一样本数据训练所述意图识别模型和槽位填充模型,确定并锁定公共编码模块、意图识别分类器和槽位填充分类器中的参数;
利用所述第二样本数据训练训练包括锁定参数的公共编码模块的默认意图模型,确定默认意图分类器的参数。
9.一种显示设备的控制方法,其特征在于,包括:
当接收到用户输入的语音指令时,识别所述语音指令中的内容文本;
将所述内容文本输入到语义理解模型中,输出待使用结果,其中,所述语义理解模型包括利用具有公共编码模块的意图识别模型、槽位填充模型和默认意图模型;所述待使用结果包括与所述意图识别模型对应的第一置信度和第一结果,与所述槽位填充模型对应的第二置信度和第二结果,以及与所述默认意图模型对应的第三置信度和第三结果;
如果所述第一置信度不大于第一预设置信度,和/或所述第二置信度不大于第二预设置信度,则根据所述第三置信度和第三结果,确定封装结果,以根据所述封装结果执行相应操作。
10.根据权利要求9所述的控制方法,其特征在于,所述根据第三置信度和第三结果,确定封装结果,以执行与所述封装结果对应的操作的步骤包括:
所述第三结果包括搜索意图或非搜索意图;
当所述第三结果为搜索意图时,检测所述第三置信度是否大于第三预设置信度;
如果所述第三置信度大于第三预设置信度,检测所述第一结果是否为媒资搜索意图;
如果所述第一结果为媒资搜索意图,则确定所述封装结果包括搜索意图和第二结果,以执行将第二结果作为搜索对象的搜索操作。
CN202210917564.6A 2022-08-01 2022-08-01 一种显示设备及显示设备的控制方法 Pending CN115273848A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210917564.6A CN115273848A (zh) 2022-08-01 2022-08-01 一种显示设备及显示设备的控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210917564.6A CN115273848A (zh) 2022-08-01 2022-08-01 一种显示设备及显示设备的控制方法

Publications (1)

Publication Number Publication Date
CN115273848A true CN115273848A (zh) 2022-11-01

Family

ID=83747001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210917564.6A Pending CN115273848A (zh) 2022-08-01 2022-08-01 一种显示设备及显示设备的控制方法

Country Status (1)

Country Link
CN (1) CN115273848A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117059095A (zh) * 2023-07-21 2023-11-14 广州市睿翔通信科技有限公司 基于ivr的服务提供方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117059095A (zh) * 2023-07-21 2023-11-14 广州市睿翔通信科技有限公司 基于ivr的服务提供方法、装置、计算机设备及存储介质
CN117059095B (zh) * 2023-07-21 2024-04-30 广州市睿翔通信科技有限公司 基于ivr的服务提供方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN112511882B (zh) 一种显示设备及语音唤起方法
CN112000820A (zh) 一种媒资推荐方法及显示设备
CN111984763B (zh) 一种答问处理方法及智能设备
CN112885354B (zh) 一种显示设备、服务器及基于语音的显示控制方法
CN112182196A (zh) 应用于多轮对话的服务设备及多轮对话方法
CN114187905A (zh) 用户意图识别模型的训练方法、服务器及显示设备
CN112002321A (zh) 显示设备、服务器及语音交互方法
CN112804567B (zh) 一种显示设备、服务器及视频推荐的方法
CN115273848A (zh) 一种显示设备及显示设备的控制方法
CN114186137A (zh) 服务器及媒资混合推荐方法
CN113938755A (zh) 服务器、终端设备以及资源推荐方法
CN113066491A (zh) 显示设备及语音交互方法
CN113490057B (zh) 显示设备和媒资推荐方法
CN115602167A (zh) 显示设备和语音识别方法
CN111950288B (zh) 一种命名实体识别中的实体标注方法及智能设备
CN113038217A (zh) 一种显示设备、服务器及应答语生成方法
CN113076427B (zh) 一种媒资资源搜索方法、显示设备及服务器
CN113035194B (zh) 一种语音控制方法、显示设备及服务器
CN112329475B (zh) 语句处理方法及装置
CN115146652A (zh) 显示设备和语义理解方法
CN117809649A (zh) 显示设备和语义分析方法
CN114155846A (zh) 一种语义槽提取方法及显示设备
CN112885347A (zh) 一种显示设备的语音控制方法、显示设备及服务器
CN117809633A (zh) 显示设备和意图识别方法
CN116151272A (zh) 一种终端设备及语义意图的识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination