CN113035194A - 一种语音控制方法、显示设备及服务器 - Google Patents

一种语音控制方法、显示设备及服务器 Download PDF

Info

Publication number
CN113035194A
CN113035194A CN202110228966.0A CN202110228966A CN113035194A CN 113035194 A CN113035194 A CN 113035194A CN 202110228966 A CN202110228966 A CN 202110228966A CN 113035194 A CN113035194 A CN 113035194A
Authority
CN
China
Prior art keywords
text
voice
interface
interface word
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110228966.0A
Other languages
English (en)
Other versions
CN113035194B (zh
Inventor
于阔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Visual Technology Co Ltd
Original Assignee
Hisense Visual Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Visual Technology Co Ltd filed Critical Hisense Visual Technology Co Ltd
Priority to CN202110228966.0A priority Critical patent/CN113035194B/zh
Publication of CN113035194A publication Critical patent/CN113035194A/zh
Application granted granted Critical
Publication of CN113035194B publication Critical patent/CN113035194B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开了一种语音控制方法、显示设备及服务器,用以通过服务器执行界面词分析,解决显示设备对界面词简单匹配方法的不足;降低显示设备性能消耗,并提高匹配准确度,提升用户体验。所述方法包括:响应于用户输入的语音指令,获取语音指令对应的语音文本;发送所述语音文本至服务器,以使服务器根据语音文本得到标准化界面词文本,并将所述标准化界面词文本发送至控制器;如果标准化界面词文本与当前界面对应的界面词列表中的文本相匹配,获取所述标准化界面词文本在当前界面中对应的操作链接,根据所述操作链接执行所述操作。

Description

一种语音控制方法、显示设备及服务器
技术领域
本申请涉及显示技术领域,尤其涉及一种语音控制方法、显示设备及服务器。
背景技术
智能语音交互技术正在逐渐成为智能家电、智能硬件等智能家居产品的标准配置。智能电视场景下,用户通过语音操控电视,实现看视频、听音乐、查天气、电视控制等一系列操作。语音识别模块将用户输入的语音识别为文本。语义分析模块对该文本进行词法、句法、语义分析,理解用户的意图,并将理解结果下发到终端,展示给用户。例:用户输入″xxx″,理解系统通过语义分析确定用户想查询视频业务,业务处理模块将视频数据下发到终端,最终展示给用户″xxx″的视频数据。
相对而言,家庭中电视的主要用途是音频业务。在目前的基于自然语言界面控制方案中,对浅层界面词的匹配逻辑都在终端完成,这在基本应用时可提高部分响应速度,取得一定的效果。但这种方法有着几方面的不足,会导致以下的几个问题难以解决:一是处理性能受到终端计算资源限制,无法完成较大的列表的匹配。二是无法处理结构较为复杂的语法,即语句中包含冗余词的情形,如界面展示中包含″战狼″,但用户说的是″从第3分钟开始看战狼″,就降低了匹配的准确性,甚至不能匹配。三是无法灵活处理动作同静态界面词的结合,如果支持动作和静态界面词的组合,就会出现组合爆炸的情形,同样陷入问题一所描述的情形,无法处理。具体的,很多动作词,都表示同一意图,如那么当用户输入″打开″、″选″、″我要看″等等,用户其实都是想播放视频,另外一种常见属性为跳转时间,用户说法也可以有相当多种,如″前进半分钟″,″快进30秒″表达的意图相同。如果要把这样的动作界面词跟静态界面词结合用来匹配,就可能造成列表数量爆炸式增长。
发明内容
本申请实施例提供一种语音控制方法、显示设备及服务器,用以通过服务器执行界面词分析,解决显示设备对界面词简单匹配方法的不足;降低显示设备性能消耗,并提高匹配准确度,提升用户体验。
第一方面,提供一种显示设备,包括:
显示器;
控制器,用于执行:
响应于用户输入的语音指令,获取语音指令对应的语音文本;
发送所述语音文本至服务器,以使服务器根据语音文本得到标准化界面词文本,并将所述标准化界面词文本发送至控制器;
如果标准化界面词文本与当前界面对应的界面词列表中的文本相匹配,获取所述标准化界面词文本在当前界面中对应的操作链接,根据所述操作链接执行所述操作。
在一些实施例中,所述控制器,还用于执行:
控制显示器显示所述语音文本且突出显示所述语音文本中标准化界面词文本。
在一些实施例中,在服务器根据语音文本得到标准化界面词提取文本时,服务器还根据语音文本得到语义分析结果,并将语义分析结果发送至控制器;所述控制器,还用于执行:
如果标准化界面词提取文本与当前界面对应的界面词列表中的文本不匹配,根据所述语义分析结果生成控制指令,执行所述控制指令。
第二方面,提供一种服务器,被配置为执行:
接收控制器发送的语音文本;
分析所述语音文本,得到标准化界面词文本和语义分析结果;
将所述标准化界面词文本和所述语义分析结果发送至控制器,以使控制器根据所述标准化界面词文本或所述语义分析结果执行所述语音文本对应的操作。
在一些实施例中,在分析所述语音文本之前,所述服务器,还被配置为执行:
对所述语音文本进行纠错处理。
在一些实施例中,所述服务器,还被配置为采用以下方式执行分析所述语音文本,得到标准化界面词文本:
将所述语音文本拆分成数个分词,并对所述分词进行属性标注;
将属性标注后的分词与预置模板匹配,确定备选动态界面词文本和静态界面词文本;
分析备选动态界面词文本和静态界面词文本,确定标准化动态界面词文本和标准化静态界面词文本。
第三方面,提供一种语音控制方法,包括:
响应于用户输入的语音指令,获取语音指令对应的语音文本;
发送所述语音文本至服务器,以使服务器根据语音文本得到标准化界面词文本,并将所述标准化界面词文本发送至控制器;
如果标准化界面词文本与当前界面对应的界面词列表中的文本相匹配,获取所述标准化界面词文本在当前界面中对应的操作链接,根据所述操作链接执行所述操作。
在一些实施例中,所述方法还包括:
控制显示器显示所述语音文本且突出显示所述语音文本中标准化界面词文本。
在一些实施例中,在服务器根据语音文本得到标准化界面词提取文本时,服务器还根据语音文本得到语义分析结果,并将语义分析结果发送至控制器;所述方法还包括:
如果标准化界面词提取文本与当前界面对应的界面词列表中的文本不匹配,根据所述语义分析结果生成控制指令,执行所述控制指令。
第四方面,提供一种语音控制方法,包括:
接收控制器发送的语音文本;
分析所述语音文本,得到标准化界面词文本和语义分析结果;
将所述标准化界面词文本和所述语义分析结果发送至控制器,以使控制器根据所述标准化界面词文本或所述语义分析结果执行所述语音文本对应的操作。
在上述实施例中,通过结合显示设备与服务器,使用服务器的强大计算能力,对语音文本进行浅层的界面词纠错、分析及标准化表示,将标准化界面词文本发送给显示设备。显示设备仅作静态标题的匹配,结果可以大大提高识别成功率,并因为结合服务器的使用,降低了显示设备计算压力,可减少整体响应时间,提升用户体验。
附图说明
图1示出了根据一些实施例的显示设备的使用场景;
图2示出了根据一些实施例的控制装置100的硬件配置框图;
图3示出了根据一些实施例的显示设备200的硬件配置框图;
图4示出了根据一些实施例的显示设备200中软件配置图;
图5中示例性示出了根据一些实施例的一种语音控制方法的流程图;
图6中示例性示出了根据一些实施例的一种句子依存关系分析图;
图7-图8中示例性示出了根据一些实施例的一种用户界面示意图。
具体实施方式
为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语″第一″、″第二″、″第三″等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
术语″包括″和″具有″以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
术语″模块″是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
图1为根据实施例中显示设备的使用场景的示意图。如图1所示,显示设备200还与服务器400进行数据通信,用户可通过智能设备300或控制装置100操作显示设备200。
在一些实施例中,控制装置100可以是遥控器,遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信,及其他短距离通信方式中的至少一种,通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等至少一种输入用户指令,来控制显示设备200。
在一些实施例中,智能设备300可以包括移动终端、平板电脑、计算机、笔记本电脑,AR/VR设备等中的任意一种。
在一些实施例中,也可以使用智能设备300以控制显示设备200。例如,使用在智能设备上运行的应用程序控制显示设备200。
在一些实施例中,也可以使用智能设备300和显示设备进行数据的通信。
在一些实施例中,显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制,例如,可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制,也可以通过显示设备200设备外部设置的语音控制装置来接收用户的语音指令控制。
在一些实施例中,显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群,也可以是多个集群,可以包括一类或多类服务器。
在一些实施例中,一个步骤执行主体执行的软件步骤可以随需求迁移到与之进行数据通信的另一步骤执行主体上进行执行。示例性的,服务器执行的软件步骤可以随需求迁移到与之数据通信的显示设备上执行,反之亦然。
图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示,控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令,且将操作指令转换为显示设备200可识别和响应的指令,起用用户与显示设备200之间交互中介作用。
在一些实施例中,通信接口130用于和外部通信,包含WIFI芯片,蓝牙模块,NFC或可替代模块中的至少一种。
在一些实施例中,用户输入/输出接口140包含麦克风,触摸板,传感器,按键或可替代模块中的至少一种。
图3示出了根据示例性实施例中显示设备200的硬件配置框图。
在一些实施例中,显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。
在一些实施例中控制器包括中央处理器,视频处理器,音频处理器,图形处理器,RAM,ROM,用于输入/输出的第一接口至第n接口。
在一些实施例中,显示器260包括用于呈现画面的显示屏组件,以及驱动图像显示的驱动组件,用于接收源自控制器输出的图像信号,进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面等。
在一些实施例中,显示器260可为液晶显示器、OLED显示器、以及投影显示器中的至少一种,还可以为一种投影装置和投影屏幕。
在一些实施例中,调谐解调器210通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线广播电视信号中解调出音视频信号,如以及EPG数据信号。
在一些实施例中,通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如:通信器可以包括Wifi模块,蓝牙模块,有线以太网模块等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。显示设备200可以通过通信器220与控制装置100或服务器400建立控制信号和数据信号的发送和接收。
在一些实施例中,检测器230用于采集外部环境或与外部交互的信号。例如,检测器230包括光接收器,用于采集环境光线强度的传感器;或者,检测器230包括图像采集器,如摄像头,可以用于采集外部环境场景、用户的属性或用户交互手势,再或者,检测器230包括声音采集器,如麦克风等,用于接收外部声音。
在一些实施例中,外部装置接口240可以包括但不限于如下:高清多媒体接口接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。
在一些实施例中,控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。
在一些实施例中,控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如:响应于接收到用于选择在显示器260上显示UI对象的用户命令,控制器250便可以执行与由用户命令选择的对象有关的操作。
在一些实施例中,所述对象可以是可选对象中的任何一个,例如超链接、图标或其他可操作的控件。与所选择的对象有关操作有:显示连接到超链接页面、文档、图像等操作,或者执行与所述图标相对应程序的操作。
在一些实施例中控制器包括中央处理器(Central Processing Unit,CPU),视频处理器,音频处理器,图形处理器(Graphics Processing Unit,GPU),RAM Random AccessMemory,RAM),ROM(Read-Only Memory,ROM),用于输入/输出的第一接口至第n接口,通信总线(Bus)等中的至少一种。
CPU处理器。用于执行存储在存储器中操作系统和应用程序指令,以及根据接收外部输入的各种交互指令,来执行各种应用程序、数据和内容,以便最终显示和播放各种音视频内容。CPU处理器,可以包括多个处理器。如,包括一个主处理器以及一个或多个子处理器。
在一些实施例中,图形处理器,用于产生各种图形对象,如:图标、操作菜单、以及用户输入指令显示图形等中的至少一种。图形处理器包括运算器,通过接收用户输入各种交互指令进行运算,根据显示属性显示各种对象;还包括渲染器,对基于运算器得到的各种对象,进行渲染,上述渲染后的对象用于显示在显示器上。
在一些实施例中,视频处理器,用于将接收外部视频信号,根据输入信号的标准编解码协议,进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等视频处理中的至少一种,可得到直接可显示设备200上显示或播放的信号。
在一些实施例中,视频处理器,包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等中的至少一种。其中,解复用模块,用于对输入音视频数据流进行解复用处理。视频解码模块,用于对解复用后的视频信号进行处理,包括解码和缩放处理等。图像合成模块,如图像合成器,其用于将图形生成器根据用户输入或自身生成的GUI信号,与缩放处理后视频图像进行叠加混合处理,以生成可供显示的图像信号。帧率转换模块,用于对转换输入视频帧率。显示格式化模块,用于将接收帧率转换后视频输出信号,改变信号以符合显示格式的信号,如输出RGB数据信号。
在一些实施例中,音频处理器,用于接收外部的音频信号,根据输入信号的标准编解码协议,进行解压缩和解码,以及降噪、数模转换、和放大处理等处理中的至少一种,得到可以在扬声器中播放的声音信号。
在一些实施例中,用户可在显示器260上显示的图形用户界面(GUI)输入用户命令,则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
在一些实施例中,″用户界面″,是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface,GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素中的至少一种。
在一些实施例中,用户接口280,为可用于接收控制输入的接口(如:显示设备本体上的实体按键,或其他等)。
在一些实施例中,显示设备的系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shelI和文件系统一起组成了基本的操作系统结构,它们让用户可以管理文件、运行程序并使用系统。上电后,内核启动,激活内核空间,抽象硬件、初始化硬件参数等,运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后,再加载Shell和用户应用程序。应用程序在启动后被编译成机器码,形成一个进程。
如图4所示,将显示设备的系统分为三层,从上至下分别为应用层、中间件层和硬件层。
应用层主要包含电视上的常用应用,以及应用框架(Application Framework),其中,常用应用主要是基于浏览器Browser开发的应用,例如:HTML5 APPs;以及原生应用(Native APPs);
应用框架(Application Framework)是一个完整的程序模型,具备标准应用软件所需的一切基本功能,例如:文件存取、资料交换...,以及这些功能的使用接口(工具栏、状态列、菜单、对话框)。
原生应用(Native APPs)可以支持在线或离线,消息推送或本地资源访问。
中间件层包括各种电视协议、多媒体协议以及系统组件等中间件。中间件可以使用系统软件所提供的基础服务(功能),衔接网络上应用系统的各个部分或不同的应用,能够达到资源共享、功能共享的目的。
硬件层主要包括HAL接口、硬件以及驱动,其中,HAL接口为所有电视芯片对接的统一接口,具体逻辑由各个芯片来实现。驱动主要包含:音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器,温度传感器,压力传感器等)、以及电源驱动等。
相关技术中,对浅层界面词的匹配逻辑都在显示设备完成,这在基本应用时可提高部分响应速度,取得一定的效果。但这种方法有着几方面的不足,会导致以下的几个问题难以解决:一是处理性能受到终端计算资源限制,无法完成较大的列表的匹配。二是无法处理结构较为复杂的语法,即语句中包含冗余词的情形,降低了匹配的准确性,甚至不能匹配。三是无法灵活处理动作同静态界面词的结合,如果支持动作和静态界面词的组合,就会出现组合爆炸的情形,同样陷入问题一所描述的情形,无法处理。
为解决以上技术问题,本申请实施例提供一种语音控制方法。
结合图5所示,语音控制方法包括:
步骤S501:显示设备通过用户接口接收用户输入的语音指令;
在一些实施例中,当显示设备被触发进入语音控制模式后,可接收用户输入的语音数据。
在一些实施例中,用户可以通过触发相应的控制装置的语音按键,例如可按压控制装置的语音按键后进入语音控制模式;或者通过说出远场唤醒词来触发显示设备进入语音控制模式,例如用户通过发出″小聚小聚″的语音后,显示设备可进入语音控制模式,当显示设备被触发进入语音控制模式后,其语音输入模块实时监测用户输入的语音数据,用户可进一步说出语音指令。
步骤S502:显示设备获取语音指令对应的语音文本;
在一些实施例中,控制器将接收的语音数据发送至语音识别服务,转换为文本信息。对用户语音数据的识别操作可参考相关技术,本申请实施例对此不再一一赘述。
步骤S503:显示设备发送语音文本至服务器;
在一些实施例中,显示设备将语音文本发送至服务器的语义服务,等待接收语义服务的响应,其中响应包括标准化界面词文本和语义分析结果。
步骤S504:服务器对语音文本进行纠错处理;
在一些实施例中,无需对语音文本进行纠错处理,即服务器在接收到语音文本后直接对语音文本分析,得到标准界面词提取文本和语义分析结果。是否对语音文本进行纠错处理可根据具体需要设置。
在一些实施例中,服务器接收的语音文本可能是来自于语音识别结果,也可能是用户直接以文本方式输入,服务器可以有效地纠正这两种方式得到的输入文本。
在一些实施例中,纠错处理的步骤包括:
1.以Bert模型(Bidirectional Encoder Representations from Transformers,一种语言表示模型)为基础模型,在Embedding(嵌入)层之后,加入单层的GRU(GatedRecurrent Unit,门控循环单元)作检错,根据检错的结果对Embedding做soft-mask(软遮罩),得到掩码后的特征。
其中,Bert模型旨在通过联合调节所有层中的左右上下文来预训练深度双向表示。因此,只需要一个额外的输出层,就可以对预训练的Bert表示进行微调,从而为广泛的任务创建最先进的模型,而无需对特定于任务进行大量模型结构的修改。GRU是LSTM网络(Long Short-Term Memory,长短期记忆网络)的一种效果很好的变体,它较LSTM网络的结构更加简单,而且效果也很好。
2.将第1步掩码后的特征继续送入Bert的Transformer(变形)编码层,最后一层的输出的特征与Embedding Table(嵌入表格)做矩阵乘法,得到每个字对应的概率。
在一些实施例中,配置文件中添加了是否支持混淆集。如果confusion_enabled(混淆已启用)设置为True(是),即支持混淆集,将第二步输出的结果(即每个字对应的概率)乘以输入中每个字对应的混淆集向量。混淆集向量以0/1的稀疏向量表示,维度是常用汉字的个数,例如:″它″对应的混淆集包括″太涛台碳他她他塌塔探擦淘胎摊″,则向量中,混淆集的字的索引位置是1,其他位置是0。
3.根据第2步中的结果,输出每个字概率最高的作为输出。
在一些实施例中,配置文件中添加了是否支持后处理,如果支持后处理,判断每个位置概率最高的字是否与原query(查询)中相同,如果相同,则只将这个字加入列表,如果不同,则将第二步结果中每个字的top5预测加入列表,然后做笛卡尔积构成候选集。对候选集做jieba_fast(结巴)分词处理(加载语义标签词库),分词最少的作为输出。
例如,原始查询是″玄风太极″,期望纠正为″旋风太极″。预测结果中,″玄″预测概率最高的字为″旋″,与查询中的字不同,取预测的top5:[旋,选,学,弦,全],将其加入列表;″风太极″三个位置的预测概率最高的字与原始查询一致,只将top1加入列表,最终构成列表[[旋,选,学,弦,全],[风],[太],[极]],做笛卡尔积,构成5个句子,″旋风太极″,″选风太极″,″学风太极″,″弦风太极″,″全风太极″。其中,对五个句子做结巴分词处理,″旋风|太极″分词数量为2个,″选|风|太极″,″学|风|太极″,″弦|风|太极″,″全|风|太极″分词数量为3个。″旋风太极″分词数量最少,故最后输出″旋风太极″。
步骤S505:服务器界面词分析纠错后的语音文本,得到标准化界面词文本;
在一些实施例中,服务器分析纠错后的语音文本,得到标准化界面词文本的步骤包括:
1)将纠错后的语音文本拆分成数个分词,并对所述分词进行属性标注;
例如:纠错后的语音文本为″我想看钟汉良的何以笙箫默″。
分词结果为:我想,看,钟汉良,的,何以笙箫默。
属性标注结果为:我想,funcwordintention|看,actionWatch钟汉良,cast:singer|的,funcwordstructaux|何以笙箫默,videoName:musicName。
例如:纠错后的语音文本为″从3分钟开始看战狼2″。
分词结果为:从3分钟,开始,看,战狼2。
属性标注结果为:从3分钟,time|开始,funcwordintention|看,actionWatch|战狼2,videoName。
2)将属性标注后的分词与预置模板匹配,确定备选动态界面词文本和静态界面词文本;
在一些实施例中,表1为部分的标准化界面词分析模板的示例。
表1
Figure BDA0002958115590000101
Figure BDA0002958115590000111
以″从3分钟开始看战狼2″为例,备选动态界面词文本为″开始看″和″跳转3分钟″,备选静态界面词文本为″战狼2″。
3)分析备选动态界面词文本和静态界面词文本,确定标准化动态界面词文本和标准化静态界面词文本。
以″从3分钟开始看战狼2″为例,标准化动态界面词文本为″播放″和″跳转180s″,标准化静态界面词文本为″战狼2″,以代码形式表示标准化动态界面词文本和标准化静态界面词文本如下:
Figure BDA0002958115590000112
步骤S506:服务器语义分析纠错后的语音文本,得到语义分析结果;
在一些实施例中,语义理解系统的分析方法是在原有系统的基础上的集成模块。
在一些实施例中,服务器分析纠错后的语音文本,得到语义分析结果的步骤包括:
1)对纠错后的语音文本进行分词和属性标注。
例如:纠错后的语音文本为″刘德华的剧情电影赌神″。
分词结果:刘德华,的,剧情,电影,赌神,
标注结果:刘德华cast:singer|的,funcwordstructaux|剧情,mtype:basicWord|电影,电影,rname|赌神musicName:title|
2)基于分词结果和属性标注结果,判断是否从预置的业务分类模板中查找到与纠错后的语音文本匹配的业务分类模板;
3)如果从预置的业务分类模板中查找到与纠错后的语音文本匹配的业务分类模板,执行与纠错后的语音文本匹配的业务分类模板对应的控制业务。
4)如果未从预置的业务分类模板中查找到与纠错后的语音文本匹配的业务分类模板,基于属性标注结果,确定纠错后的语音文本对应的候选业务。
如图6所示,图6中展示了句子″刘德华的剧情电影赌神″的依存关系分析。该语句中包括核心词和分词结果中词语之间的依存关系。
5)基于核心词和分词结果中词语之间的依存关系,按照预设的依存分值确定候选业务对应的分值。
6)基于候选业务对应的分值确定纠错后的语音文本对应的语音控制业务。
在一些实施例中,步骤2)至步骤6)由语义引擎业务定位模块完成。
本申请实施例采用了逐层递进的形式,既利用了模板分类的准确性,又引入了语义依存关系,保留了纠错后的语音文本中的语法结构信息,避免了出现语音控制文本理解错误的情况,提高了语音控制业务的准确性。
在一些实施例中,执行标准语义分析可由语义分析多个引擎综合结果确定对应控制业务。在本申请实施例中采用多个分析引擎同时分析,几个分析引擎各自有自己的优势。最后由选举逻辑,按最终得分,选出最优匹配业务。
需要说明的是,深层语义理解已有较多成熟方案,可选用单一强大模型,如基于n-gram语言模型的深度神经网络LSTM,也结合多种模型综合使用,这里对用户语音文本的深层语义理解方案可参考相关技术,本申请对此不再赘述。
在一些实施例中,服务器根据语音文本或纠错后的语音文本并发执行界面词分析和语义分析。
步骤S507:服务器发送标准化界面词文本和语义分析结果至显示设备。
在一些实施例中,客户端服务器采用HTTP/1.1协议,application/json表示请求和响应信息。在不改变方法本质的前提下,也可采用其它传输协议和传输编码格式。
在一些实施例中,服务器等待语义分析和界面词分析都完成后,将两种结果合并至最后的请求结果当中,以http response的形式发送回客户端。
通常情况下界面词分析速度较快,一般可先得到结果,等语义分析完成后,执行合并。在一些实施例中,本申请可以利用http协议机制,分开发送,这样当界面词匹配成功时,可进一步缩短响应时间。这种方案使用HTTP/2.0的Server Push机制,可获得较低风险的且可靠的实现。
步骤S508:显示设备判断标准化界面词文本与当前界面对应的界面词列表中的文本是否匹配。
显示设备优先将所述标准化界面词文本与当前操作界面对应的界面词列表List(W)进行匹配。判断所述标准化界面词文本与所述界面词列表是否匹配。
在一些实施例中,可以通过下述公式依次实现获取标准化界面词文本对应的操作链接。
W1=argmax P(W|X) (1)
W2=argmax P(X|W)/P(X)=argmax P(X|W)P(W) (2)
其中,在上述公式(1)中,W表示数据库中存储的任一文字序列,该文字序列包括词或字,该数据库可以是用于做语音识别的语料库;X表示服务器分析得到的标准化界面词文本,W1表示从存储文字序列中获得的可与标准化界面词文本匹配的文字序列,P(W|X)表示标准化界面词文本X可以匹配W表示文字的条件概率。
其中,在上述公式(2)中,W2表示标准化界面词文本X与该文字序列W之间的综合概率,称为W的匹配得分,P(X|W)表示该文字序列W可以匹配X的概率,P(W)表示该文字序列为词或字的先验概率,P(X)表示标准化界面词文本信息X的先验概率。
如果标准化界面词文本与当前界面对应的界面词列表中的文本相匹配,执行步骤S509。
在一些实施例中,当上述公式(2)中得分最高的W2所对应的界面词得分超过一定阀值,如0.9时,表示标准化界面词文本与当前界面对应的界面词列表中的文本相匹配。
步骤S509:获取标准化界面词文本在当前界面中对应的操作链接,根据操作链接执行所述操作。
当标准化界面词文本与当前界面对应的界面词列表中的文本相匹配,获取标准化界面词文本在当前操作界面中对应的操作链接,标准化界面词文本的操作链接为存储文字序列中与标准化界面词文本匹配的文字序列W1对应的操作链接。
需要说明的是,显示设备的标准指令库中预存的标准指令语句(界面词列表)可以是事先预置在智能显示设备存储内的,也可以是显示设备定期从服务器下载并存储在其存储器内的,本申请实施例对此不做具体限定。
在一些实施例中,当标准化界面词文本与当前界面对应的界面词列表中的文本匹配成功时,控制器控制显示器显示该语音指令,并且视觉上有差别的显示界面词成功匹配的部分文本,这种视觉差别可以将识别出的语音信息中的最重要部分提示给用户,提升用户体验。
例如:用户说″播放电影战狼2″,显示设备识别出″播放″″战狼2″为匹配的界面词,而″电影″为未匹配部分,则如图7所示,显示器在语音指令显示框71中显示″播放电影战狼2″时,″播放″和″战狼2″可放大、加粗并添加下划线显示。本申请对匹配成功的界面词突出显示的效果不做具体限定。
如果标准化界面词文本与当前界面对应的界面词列表中的文本不匹配,执行步骤S510。
在一些实施例中,当上述公式(2)中得分最高的W2所对应的界面词得分未超过一定阀值,如0.9时,表示标准化界面词文本与当前界面对应的界面词列表中的文本不匹配。
在一些实施例中,如果在执行标准化界面词文本与当前界面对应的界面词列表中的文本匹配的过程中遇到错误,执行步骤S510。
步骤S510:根据所述语义分析结果生成控制指令,执行所述控制指令。
如果标准化界面词文本与所述界面词列表中的所有项均匹配失败,对进一步纠错后的语音文本进行语义分析结果的执行。即根据所述语义分析结果,将所述语音分析结果生成控制指令,执行该控制指令。
在一些实施例中,服务器对纠错后的语音文本进行语义分析,得到语音控制业务,将该语音控制业务返回接口数据,下发至显示设备,最终由显示设备执行该语音控制业务并将结果展示给用户。
在一些实施例中,当标准化界面词文本与当前界面对应的界面词列表中的文本匹配失败时,显示设备将执行语音分析结果生成的控制指令,控制器还控制显示器显示该语音指令,并且视觉上有差别的显示核心词,这种视觉差别可以将识别出的语音信息中的最重要部分提示给用户,提升用户体验。
例如:用户说″刘德华的剧情电影赌神″,显示设备识别出″赌神″为核心词,而″刘德华的剧情电影″为非核心词,则如图8所示,显示器在语音指令显示框81中显示″刘德华的剧情电影赌神″时,″赌神″可放大、加粗并添加下划线显示。本申请对匹配成功的界面词突出显示的效果不做具体限定。
需要说明的是,语义分析结果的执行通常不在限定本显示界面内,而是在更大范围执行,可能涉及应用切换等。例如:在某应用软件的主页内,用户发出″今天天气如何″或″打开另一个应用软件″的语音指令时,该应用软件的主页的界面词列表中并不能与该语音指令对应的语音文本相匹配,则需根据语义分析结果,将该语义分析结果生成控制指令,并执行控制指令。对用户语义理解结果转换为可执行操作可参考相关技术,本申请实施例对此不再一一赘述。
以上实施例中,服务器在进行语义分析的同时,并行进行界面词纠错、分析及标准化表示,将得到的标准化界面词文本和语义分析结果合并或先后发送至显示设备。在一些实施例中,服务器可以先进行界面词纠错、分析及标准化表示,并将得到的标准化界面词文本发送至显示设备,显示设备标准化界面词文本与当前界面对应的界面词列表中的文本进行匹配,如果匹配成功,无需进行语义分析。如果匹配失败,将匹配失败的结果发送至服务器,服务器再进行语义分析,并将语义分析结果发送至显示设备,显示设备根据语义分析结果生成控制指令,并执行该控制指令。
在上述实施例中,通过结合显示设备与服务器,使用服务器的强大计算能力,对语音文本进行浅层的界面词分析及标准化表示,将标准化界面词文本发送给显示设备。显示设备仅作静态标题的匹配,结果可以大大提高识别成功率,并因为结合服务器的使用,降低了显示设备计算压力,可减少整体响应时间,提升用户体验。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims (10)

1.一种显示设备,其特征在于,包括:
显示器;
控制器,用于执行:
响应于用户输入的语音指令,获取语音指令对应的语音文本;
发送所述语音文本至服务器,以使服务器根据语音文本得到标准化界面词文本,并将所述标准化界面词文本发送至控制器;
如果标准化界面词文本与当前界面对应的界面词列表中的文本相匹配,获取所述标准化界面词文本在当前界面中对应的操作链接,根据所述操作链接执行所述操作。
2.根据权利要求1所述的显示设备,其特征在于,所述控制器,还用于执行:
控制显示器显示所述语音文本且突出显示所述语音文本中标准化界面词文本。
3.根据权利要求1所述的显示设备,其特征在于,在服务器根据语音文本得到标准化界面词提取文本时,服务器还根据语音文本得到语义分析结果,并将语义分析结果发送至控制器;所述控制器,还用于执行:
如果标准化界面词提取文本与当前界面对应的界面词列表中的文本不匹配,根据所述语义分析结果生成控制指令,执行所述控制指令。
4.一种服务器,其特征在于,被配置为执行:
接收控制器发送的语音文本;
分析所述语音文本,得到标准化界面词文本和语义分析结果;
将所述标准化界面词文本和所述语义分析结果发送至控制器,以使控制器根据所述标准化界面词文本或所述语义分析结果执行所述语音文本对应的操作。
5.根据权利要求4所述的服务器,其特征在于,在分析所述语音文本之前,所述服务器,还被配置为执行:
对所述语音文本进行纠错处理。
6.根据权利要求4所述的服务器,其特征在于,所述服务器,还被配置为采用以下方式执行分析所述语音文本,得到标准化界面词文本:
将所述语音文本拆分成数个分词,并对所述分词进行属性标注;
将属性标注后的分词与预置模板匹配,确定备选动态界面词文本和静态界面词文本;
分析备选动态界面词文本和静态界面词文本,确定标准化动态界面词文本和标准化静态界面词文本。
7.一种语音控制方法,其特征在于,包括:
响应于用户输入的语音指令,获取语音指令对应的语音文本;
发送所述语音文本至服务器,以使服务器根据语音文本得到标准化界面词文本,并将所述标准化界面词文本发送至控制器;
如果标准化界面词文本与当前界面对应的界面词列表中的文本相匹配,获取所述标准化界面词文本在当前界面中对应的操作链接,根据所述操作链接执行所述操作。
8.根据权利要求7所述的方法,其特征在于,还包括:
控制显示器显示所述语音文本且突出显示所述语音文本中标准化界面词文本。
9.根据权利要求7所述的方法,其特征在于,在服务器根据语音文本得到标准化界面词提取文本时,服务器还根据语音文本得到语义分析结果,并将语义分析结果发送至控制器;所述方法还包括:
如果标准化界面词提取文本与当前界面对应的界面词列表中的文本不匹配,根据所述语义分析结果生成控制指令,执行所述控制指令。
10.一种语音控制方法,其特征在于,包括:
接收控制器发送的语音文本;
分析所述语音文本,得到标准化界面词文本和语义分析结果;
将所述标准化界面词文本和所述语义分析结果发送至控制器,以使控制器根据所述标准化界面词文本或所述语义分析结果执行所述语音文本对应的操作。
CN202110228966.0A 2021-03-02 2021-03-02 一种语音控制方法、显示设备及服务器 Active CN113035194B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110228966.0A CN113035194B (zh) 2021-03-02 2021-03-02 一种语音控制方法、显示设备及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110228966.0A CN113035194B (zh) 2021-03-02 2021-03-02 一种语音控制方法、显示设备及服务器

Publications (2)

Publication Number Publication Date
CN113035194A true CN113035194A (zh) 2021-06-25
CN113035194B CN113035194B (zh) 2022-11-29

Family

ID=76465348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110228966.0A Active CN113035194B (zh) 2021-03-02 2021-03-02 一种语音控制方法、显示设备及服务器

Country Status (1)

Country Link
CN (1) CN113035194B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1351477A1 (en) * 2002-04-03 2003-10-08 BRITISH TELECOMMUNICATIONS public limited company An engine and a method for building a representation of structured information for use with a voice interface
CN105957530A (zh) * 2016-04-28 2016-09-21 海信集团有限公司 一种语音控制方法、装置和终端设备
US20170109435A1 (en) * 2016-07-15 2017-04-20 Hisense Co., Ltd. Apparatus and method for searching for information
CN107527619A (zh) * 2017-08-29 2017-12-29 海信集团有限公司 语音控制业务的定位方法及装置
CN109215645A (zh) * 2018-08-03 2019-01-15 北京奔流网络信息技术有限公司 一种语音信息交互方法以及智能电器
CN110705214A (zh) * 2019-08-27 2020-01-17 天津开心生活科技有限公司 一种自动编码方法及装置
CN111627436A (zh) * 2018-05-14 2020-09-04 北京字节跳动网络技术有限公司 一种语音控制的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1351477A1 (en) * 2002-04-03 2003-10-08 BRITISH TELECOMMUNICATIONS public limited company An engine and a method for building a representation of structured information for use with a voice interface
CN105957530A (zh) * 2016-04-28 2016-09-21 海信集团有限公司 一种语音控制方法、装置和终端设备
US20170109435A1 (en) * 2016-07-15 2017-04-20 Hisense Co., Ltd. Apparatus and method for searching for information
CN107527619A (zh) * 2017-08-29 2017-12-29 海信集团有限公司 语音控制业务的定位方法及装置
CN111627436A (zh) * 2018-05-14 2020-09-04 北京字节跳动网络技术有限公司 一种语音控制的方法及装置
CN109215645A (zh) * 2018-08-03 2019-01-15 北京奔流网络信息技术有限公司 一种语音信息交互方法以及智能电器
CN110705214A (zh) * 2019-08-27 2020-01-17 天津开心生活科技有限公司 一种自动编码方法及装置

Also Published As

Publication number Publication date
CN113035194B (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
CN112511882B (zh) 一种显示设备及语音唤起方法
CN112163086B (zh) 多意图的识别方法、显示设备
CN112839261B (zh) 一种提升语音指令匹配度的方法及显示设备
CN112885354B (zh) 一种显示设备、服务器及基于语音的显示控制方法
CN112182196A (zh) 应用于多轮对话的服务设备及多轮对话方法
CN114118064A (zh) 显示设备、文本纠错方法及服务器
WO2022100283A1 (zh) 显示设备、控件触发方法及滚动文本检测方法
CN113066491A (zh) 显示设备及语音交互方法
CN115602167A (zh) 显示设备和语音识别方法
CN113035194B (zh) 一种语音控制方法、显示设备及服务器
CN112689177B (zh) 一种实现快速交互的方法及显示设备
CN112256232B (zh) 显示设备与自然语言生成后处理方法
CN115273848A (zh) 一种显示设备及显示设备的控制方法
CN113038217A (zh) 一种显示设备、服务器及应答语生成方法
CN113079400A (zh) 显示设备、服务器及语音交互方法
CN112882780A (zh) 设置页面显示方法及显示设备
CN114627864A (zh) 显示设备与语音交互方法
CN113593559A (zh) 一种内容显示方法、显示设备及服务器
CN113573112A (zh) 一种显示设备及遥控器
CN113076427B (zh) 一种媒资资源搜索方法、显示设备及服务器
CN113658598B (zh) 一种显示设备的语音交互方法及显示设备
CN115150673B (zh) 显示设备及媒资展示方法
CN113490041B (zh) 语音功能切换方法及显示设备
CN113849664A (zh) 显示设备、服务器和媒资搜索方法
CN115344722A (zh) 显示设备、服务器及媒资搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant