CN115146652A - 显示设备和语义理解方法 - Google Patents
显示设备和语义理解方法 Download PDFInfo
- Publication number
- CN115146652A CN115146652A CN202210770148.8A CN202210770148A CN115146652A CN 115146652 A CN115146652 A CN 115146652A CN 202210770148 A CN202210770148 A CN 202210770148A CN 115146652 A CN115146652 A CN 115146652A
- Authority
- CN
- China
- Prior art keywords
- text
- voice
- target entity
- vector
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000011218 segmentation Effects 0.000 claims abstract description 33
- 238000011049 filling Methods 0.000 claims abstract description 24
- 238000005538 encapsulation Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 97
- 238000009826 distribution Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 26
- 238000004806 packaging method and process Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 8
- 230000003993 interaction Effects 0.000 description 64
- 238000010586 diagram Methods 0.000 description 26
- 230000006870 function Effects 0.000 description 20
- 238000004891 communication Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 238000012790 confirmation Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 241000239290 Araneae Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000011068 loading method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011982 device technology Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/732—Query formulation
- G06F16/7343—Query language or query format
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请一些实施例提供了一种显示设备和语义理解方法。显示设备可以根据用户的语音指令获取语音文本,并基于语音文本获取文本分词和文本实体。显示设备获取文本实体对应的目标实体标签,以及显示设备的设备状态。显示设备基于语音文本、目标实体标签和设备状态获取用户意图和领域类型,基于文本分词和目标实体标签获取槽位填充信息。显示设备对用户意图、领域类型和槽位填充信息进行参数封装,得到封装信息,该封装信息可以表示语音指令的语义。显示设备可以根据该封装信息确定用户语义,从而执行相应操作,提高了用户的使用体验。
Description
技术领域
本申请涉及显示设备技术领域,尤其涉及一种显示设备和语义理解方法。
背景技术
随着人工智能技术的发展,语音交互功能逐渐进入人们生活中的各种领域。人们可以可利用语音交互功能,实现语音控制显示设备。人们可以利用进行语音交互功能进行看视频、听音乐、查天气、设备控制等一系列操作。
对于显示设备,在实现语音交互功能的过程中,一般由语音识别模块将用户输入的语音指令识别为文本,之后语义分析模块对该文本进行词法句法和语义的分析,从而分析出用户的意图。最后控制端根据用户的意图控制智能电子设备进行相应的操作。
相关技术在对文本进行词法句法和语义的分析时,通常是提取文本中的关键词,根据关键词分析相应的语义。然而,仅仅靠关键词分析语义,只能够简单理解用户意图,做到表面意思的理解,无法准确得到文本对应的语义,也就无法准确响应用户的语音指令,严重影响用户的使用体验。
发明内容
本申请提供了一种显示设备和语义理解方法。以解决相关技术中,无法准确得到文本对应的语义,也就无法准确响应用户的语音指令,严重影响用户的使用体验的问题。
第一方面,本申请一些实施例提供一种显示设备,包括显示器和控制器。其中,控制器被配置为执行以下步骤:
获取语音文本;
基于所述语音文本获取文本分词和文本实体,所述文本分词为对所述语音文本进行分词处理后得到的分词,所述文本实体为对所述语音文本进行实体提取后得到的实体;
获取所述文本实体对应的目标实体标签;
基于所述语音文本和所述目标实体标签获取用户意图和领域类型,基于所述文本分词和所述目标实体标签获取槽位填充信息;
对所述用户意图、所述领域类型和所述槽位填充信息进行参数封装,得到封装信息,所述封装信息用于表征所述语音文本的语义。
第二方面,本申请一些实施例提供一种语义理解方法,应用于显示设备,包括:
获取语音文本;
基于所述语音文本获取文本分词和文本实体,所述文本分词为对所述语音文本进行分词处理后得到的分词,所述文本实体为对所述语音文本进行实体提取后得到的实体;
获取所述文本实体对应的目标实体标签;
基于所述语音文本和所述目标实体标签获取用户意图和领域类型,基于所述文本分词和所述目标实体标签获取槽位填充信息;
对所述用户意图、所述领域类型和所述槽位填充信息进行参数封装,得到封装信息,所述封装信息用于表征所述语音文本的语义。
由以上技术方案可以看出,本申请一些实施例提供了一种显示设备和语义理解方法。显示设备可以根据用户的语音指令获取语音文本,并基于语音文本获取文本分词和文本实体。显示设备获取文本实体对应的目标实体标签。显示设备基于语音文本和目标实体标签获取用户意图和领域类型,基于文本分词和目标实体标签获取槽位填充信息。显示设备对用户意图、领域类型和槽位填充信息进行参数封装,得到封装信息,该封装信息可以表示语音指令的语义。显示设备可以根据该封装信息确定用户语义,从而执行相应操作,提高了用户的使用体验。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据一些实施例的显示设备的使用场景;
图2示出了根据一些实施例的控制装置100的硬件配置框图;
图3示出了根据一些实施例的显示设备200的硬件配置框图;
图4示出了根据一些实施例的显示设备200中软件配置图;
图5示出了一些实施例中显示设备的语音交互网络架构示意图;
图6示出了一些实施例中显示设备系统设置UI界面的示意图;
图7示出了一些实施例中显示器中显示语音交互模式确认信息的示意图;
图8示出了一些实施例中显示设备各部件的交互流程图;
图9示出了一些实施例中槽位填充信息的示意图;
图10示出了一些实施例中显示设备和服务器的交互流程图;
图11示出了一些实施例中用户和显示设备进行语音交互的场景示意图;
图12示出了一些实施例中显示设备显示搜索界面的示意图;
图13示出了一些实施例中媒资详情页的示意图;
图14示出了一些实施例中显示设备显示提示信息的示意图;
图15示出了语义理解方法的一个实施例的流程示意图。
具体实施方式
为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其他组件。
术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
图1为根据实施例中显示设备的使用场景的示意图。如图1中示出,用户可通过终端设备300和控制装置100操作显示设备200。
在一些实施例中,控制装置100可以是遥控器,遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信,及其他短距离通信方式等,通过无线或其他有线方式来控制显示设备200。其中,无线方式可以是直连和非直连,可以是经过路由的,也可以是不经过路由的。用户可以通过遥控器上按键,语音输入、控制面板输入等输入用户指令,来控制显示设备200。如:用户可以通过遥控器上音量加减键、频道控制键、上/下/左/右的移动按键、语音输入按键、菜单键、开关机按键等输入相应控制指令,来实现控制显示设备200的功能。
在一些实施例中,智能设备300可以包括移动终端、平板电脑、计算机、笔记本电脑、AR/VR设备和触控笔等中的任意一种。
在一些实施例中,也可以使用智能设备300以控制显示设备200。例如,使用智能设备300控制显示设备200上运行的应用程序,或者使用在智能设备300上运行的应用程序控制显示设备200。该应用程序通过配置可以在与智能设备关联的屏幕上,在直观的用户界面(UI)中为用户提供各种控制。
在一些实施例中,也可以使用智能设备300和显示设备进行数据的通信。
在一些实施例中,显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制,例如,可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制,也可以通过显示设备200设备外部设置的语音控制装置来接收用户的语音指令控制。
在一些实施例中,显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群,也可以是多个集群,可以包括一类或多类服务器。
在一些实施例中,一个步骤执行主体执行的软件步骤可以随需求迁移到与之进行数据通信的另一步骤执行主体上进行执行。示例性的,服务器执行的软件步骤可以随需求迁移到与之数据通信的显示设备上执行,反之亦然。
图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示,控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令,且将操作指令转换为显示设备200可识别和响应的指令,起用用户与显示设备200之间交互中介作用。
在一些实施例中,通信接口130用于和外部通信,包含WIFI芯片,蓝牙模块,NFC或可替代模块中的至少一种。
在一些实施例中,用户输入/输出接口140包含麦克风,触摸板,传感器,按键或可替代模块中的至少一种。
图3示出了根据示例性实施例中显示设备200的硬件配置框图。
在一些实施例中,显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。
在一些实施例中,控制器包括中央处理器,视频处理器,音频处理器,图形处理器,RAM,ROM,用于输入/输出的第一接口至第n接口。
在一些实施例中,显示器260包括用于呈现画面的显示屏组件,以及驱动图像显示的驱动组件,用于接收源自控制器输出的图像信号,进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面等。
在一些实施例中,显示器260可为液晶显示器、OLED显示器以及投影显示器中的至少一种,还可以为一种投影装置和投影屏幕。
在一些实施例中,调谐解调器210通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线广播电视信号中解调出音视频信号,如以及EPG数据信号。
在一些实施例中,通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如:通信器可以包括Wifi模块,蓝牙模块,有线以太网模块等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。显示设备200可以通过通信器220与控制装置100或服务器400建立控制信号和数据信号的发送和接收。
在一些实施例中,检测器230用于采集外部环境或与外部交互的信号。例如,检测器230包括光接收器,用于采集环境光线强度的传感器;或者,检测器230包括图像采集器,如摄像头,可以用于采集外部环境场景、用户的属性或用户交互手势,再或者,检测器230包括声音采集器,如麦克风等,用于接收外部声音。
在一些实施例中,外部装置接口240可以包括但不限于如下:高清多媒体接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。
在一些实施例中,控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。
在一些实施例中,控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如:响应于接收到用于选择在显示器260上显示UI对象的用户命令,控制器250便可以执行与由用户命令选择的对象有关的操作。
在一些实施例中,所述对象可以是可选对象中的任何一个,例如超链接、图标或其他可操作的控件。与所选择的对象有关操作有:显示连接到超链接页面、文档、图像等操作,或者执行与所述图标相对应程序的操作。
在一些实施例中控制器包括中央处理器(Central Processing Unit,CPU),视频处理器,音频处理器,图形处理器(Graphics Processing Unit,GPU),RAM Random AccessMemory,RAM),ROM(Read-Only Memory,ROM),用于输入/输出的第一接口至第n接口,通信总线(Bus)等中的至少一种。
CPU处理器。用于执行存储在存储器中操作系统和摄像头应用指令,以及根据接收外部输入的各种交互指令,来执行各种摄像头应用、数据和内容,以便最终显示和播放各种音视频内容。CPU处理器,可以包括多个处理器。如,包括一个主处理器以及一个或多个子处理器。
在一些实施例中,图形处理器,用于产生各种图形对象,如:图标、操作菜单以及用户输入指令显示图形等中的至少一种。图形处理器包括运算器,通过接收用户输入各种交互指令进行运算,根据显示属性显示各种对象;还包括渲染器,对基于运算器得到的各种对象,进行渲染,上述渲染后的对象用于显示在显示器上。
在一些实施例中,视频处理器,用于将接收外部视频信号,根据输入信号的标准编解码协议,进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等视频处理中的至少一种,可得到直接可显示设备200上显示或播放的信号。
在一些实施例中,视频处理器,包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等中的至少一种。其中,解复用模块,用于对输入音视频数据流进行解复用处理。视频解码模块,用于对解复用后的视频信号进行处理,包括解码和缩放处理等。图像合成模块,如图像合成器,其用于将图形生成器根据用户输入或自身生成的GUI信号,与缩放处理后视频图像进行叠加混合处理,以生成可供显示的图像信号。帧率转换模块,用于对转换输入视频帧率。显示格式化模块,用于将接收帧率转换后视频输出信号,改变信号以符合显示格式的信号,如输出RGB数据信号。
在一些实施例中,音频处理器,用于接收外部的音频信号,根据输入信号的标准编解码协议,进行解压缩和解码,以及降噪、数模转换和放大处理等处理中的至少一种,得到可以在扬声器中播放的声音信号。
在一些实施例中,用户可在显示器260上显示的图形用户界面(GUI)输入用户命令,则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
在一些实施例中,“用户界面”,是摄像头应用或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface,GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素中的至少一种。
在一些实施例中,用户接口280,为可用于接收控制输入的接口(如:显示设备本体上的实体按键,或其他等)。
在一些实施例中,显示设备的系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和摄像头应用。内核、shell和文件系统一起组成了基本的操作系统结构,它们让用户可以管理文件、运行程序并使用系统。上电后,内核启动,激活内核空间,抽象硬件、初始化硬件参数等,运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后,再加载Shell和用户摄像头应用。摄像头应用在启动后被编译成机器码,形成一个进程。
如图4所示,显示设备的系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构,它们让用户可以管理文件、运行程序并使用系统。上电后,内核启动,激活内核空间,抽象硬件、初始化硬件参数等,运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后,再加载Shell和用户应用程序。应用程序在启动后被编译成机器码,形成一个进程。
如图4所示,将显示设备的系统分为三层,从上至下分别为应用层、中间件层和硬件层。
应用层主要包含电视上的常用应用,以及应用框架(Application Framework),其中,常用应用主要是基于浏览器Browser开发的应用,例如:HTML5APPs;以及原生应用(Native APPs);
应用框架(Application Framework)是一个完整的程序模型,具备标准应用软件所需的一切基本功能,例如:文件存取、资料交换...,以及这些功能的使用接口(工具栏、状态列、菜单、对话框)。
原生应用(Native APPs)可以支持在线或离线,消息推送或本地资源访问。
中间件层包括各种电视协议、多媒体协议以及系统组件等中间件。中间件可以使用系统软件所提供的基础服务(功能),衔接网络上应用系统的各个部分或不同的应用,能够达到资源共享、功能共享的目的。
硬件层主要包括HAL接口、硬件以及驱动,其中,HAL接口为所有电视芯片对接的统一接口,具体逻辑由各个芯片来实现。驱动主要包含:音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器,温度传感器,压力传感器等)以及电源驱动等。
图5示出了一些实施例中显示设备的语音交互网络架构示意图。如图5所示,显示设备200用于接收输入的信息如声音,以及输出对该信息的处理结果。语音识别模块部署有语音识别服务(Automatic Speech Recognition,ASR),用于将音频识别为文本;语义理解模块部署有语义理解服务(Natural Language Understanding,NLU),用于对文本进行语义解析;业务管理模块部署有业务指令管理服务如对话管理(Dialog Management,DM),用于提供业务指令;语言生成模块部署有语言生成服务(Natural Language Understanding,NLG),用于将指示显示设备执行的指令转化为文本语言;语音合成模块部署有语音合成(TextToSpeech,TTS)服务,用于将指令对应的文本语言处理后发送至扬声器进行播报。语音交互网络架构中可存在部署有不同业务服务的多个实体服务设备,也可以一个或多个实体服务设备中集合一项或多项功能服务。
一些实施例中,下面对基于图5所示架构处理输入显示设备200的信息的过程进行举例描述,以输入显示设备200的信息为通过语音输入的查询语句为例:
语音识别:显示设备200可在接收到通过语音输入的查询语句后,显示设备200可对查询语句的音频进行降噪处理和特征提取,这里的去噪处理可包括去除回声和环境噪声等步骤。
语义理解:对识别出的候选文本和相关联的上下文信息进行自然语言理解。将文本解析为结构化的、机器可读的信息、业务领域、意图、词槽等信息以表达语义等,得到可执行意图确定意图置信度得分,语义理解模块基于所确定的意图置信度得分选择一个或者多个候选可执行意图。
业务管理:语义理解模块根据对查询语句的文本的语义解析结果,向相应的业务管理模块下发查询指令以获取业务服务给出的查询结果,以及执行“完成”用户最终请求所需的动作,并将查询结果对应的设备执行指令进行反馈。
语言生成:被配置为将信息或者指令生成语言文本。具体可分为闲聊型、任务型、知识问答型和推荐型。其中,闲聊型对话中的NLG就是根据上下文进行意图识别、情感分析等,然后生成开放性回复;任务型对话中需根据学习到的策略来生成对话回复,一般回复包括澄清需求、引导用户、询问、确认、对话结束语等;知识问答型对话中根据问句类型识别与分类、信息检索或文本匹配而生成用户需要的知识(知识、实体、片段等);推荐型对话系统中根据用户的爱好来进行兴趣匹配以及候选推荐内容排序,然后生成给用户推荐的内容。
语音合成:被配置为呈现给用户的语音输出。语音合成处理模块基于数字助理提供的文本来合成语音输出。例如,所生成的对话响应是文本串的形式。语音合成模块将文本串转换成可听语音输出。
需要说明的是,图5所示架构只是一种示例,并非对本申请保护范围的限定。本申请实施例中,也可采用其他架构来实现类似功能,例如:上述过程全部或部分可以由显示设备200来完成,在此不做赘述。
在一些实施例中,语音识别功能可由显示设备上设置的声音采集器和控制器250配合实现,语义功能可由显示设备的控制器250实现。
用户可以使用控制装置,例如遥控器,对显示设备200进行控制,例如对于智能电视,用户可以使用遥控器控制电视播放媒资或调节音量,从而控制智能电视。
在一些实施例中,显示设备200具有语音交互功能。当显示设备200开启语音交互功能时,用户在使用显示设备200时,可以利用语音输入的方式,向显示设备200发送语音指令,从而令显示设备200实现相应的功能。为此,显示设备200可以设置有语音交互模式。
在一些实施例中,用户可以通过操作遥控器的指定按键,向显示设备200发送语音交互模式指令。在实际应用的过程中预先绑定语音交互模式指令与遥控器按键之间的对应关系。例如,在遥控器上设置一个语音交互模式按键,当用户触控该按键时,遥控器发送语音交互模式指令至控制器250,此时控制器250控制显示设备200进入语音交互模式。当用户再次触控该按键时,控制器250可以控制显示设备200退出语音交互模式。
在一些实施例中,也可以预先绑定语音交互模式指令与多个遥控器按键之间的对应关系,当用户触控与语音交互模式指令绑定的多个按键时,遥控器发出语音交互模式指令。在一可行性实施例中,语音交互模式指令绑定的按键依次为方向键(左、下、左、下),即当用户在预设时间内连续触控按键(左、下、左、下)的情况下,遥控器才发送语音交互模式指令至控制器250。采用上述绑定方法,可以避免语音交互模式指令由于用户的误操作而发出。本申请实施例仅是示例性的提供几种语音交互模式指令与按键之间的绑定关系,在实际应用的过程中可以根据用户的习惯设定语音交互模式指令与按键之间的绑定关系,在此不做限定。
在一些实施例中,用户可以使用显示设备200的声音采集器,例如麦克风,通过语音输入的方式,向显示设备200发送语音交互模式指令,以控制显示设备200进入语音交互模式。显示设备200中可以设置有智能语音系统,智能语音系统可以对用户的语音进行识别,以提取用户输入的指令内容。用户可以通过麦克风输入预设的唤醒词,启动智能语音系统,从而控制器250可以对用户输入的指令做出响应。并在一定时间内输入语音交互模式指令,使得显示设备200进入语音交互模式。例如,用户可以输入“某某同学”,以启动智能语音系统,此时显示设备200进入语音交互模式。
在一些实施例中,用户还可以通过预设的手势向显示设备200发送语音交互模式指令。显示设备200可以通过图像采集器,例如摄像头,检测用户的行为。当用户做出预设的手势时,可以认为用户向显示设备200发送了语音交互模式指令。例如,可以设置为:当检测到用户划出V字时,判定为用户向显示设备200输入了语音交互模式指令。用户还可以通过预设的动作向显示设备200发送语音交互模式指令。例如,可以设置为:当检测到用户同时抬起左脚和右手时,判定为用户向显示设备200输入了语音交互模式指令。
在一些实施例中,当用户使用显示设备200控制显示设备200时,例如使用手机时,也可以向显示设备200发送语音交互模式指令。在实际应用的过程中可以在手机中设置一个控件,可以通过该控件选择是否进入语音交互模式,从而发送语音交互模式指令至控制器250,此时控制器250可以控制显示设备200进入语音交互模式。
在一些实施例中,当用户使用手机控制显示设备200时,可以对手机发出连续点击指令。连续点击指令指的是:在预设的周期内,用户对手机触摸屏的同一区域进行点击的次数超过预设阈值。例如:当用户在1s内对手机触摸屏的某个区域连续点击3次,则视为一次连续点击指令。手机接收到连续点击指令后,可以向显示设备200发送语音交互模式指令,以使控制器250控制显示设备200进入语音交互模式。
在一些实施例中,当用户使用手机控制显示设备200时,也可以设置为:当检测到用户对手机触摸屏的某一区域的触控压力值超过预设的压力阈值时,手机可以向显示设备200发送语音交互模式指令。
还可以在显示设备200的UI界面中设置语音交互模式选项,当用户点击该选项时,可以控制显示设备200进入或退出语音交互模式。图6示出了一些实施例中显示设备200系统设置UI界面的示意图。如图6所示,系统设置中包含画面设置、声音设置、语音交互设置、网络设置和恢复出厂设置。用户可以点击语音交互控件,从而控制显示设备200进入或退出语音交互模式。
在一些实施例中,为防止用户误触发语音交互模式,当控制器250接收到语音交互模式指令时,可以控制显示器显示语音交互模式确认信息,从而使得用户进行二次确认,是否要控制显示设备200进入语音交互模式。图7示出了一些实施例中显示器中显示语音交互模式确认信息的示意图。
在一些实施例中,在显示设备200进入语音交互模式后,用户可以用语音输入的方式,直接向显示设备200发送指令。显示设备200在接收到用户输入的语音指令后,可以响应该语音指令,执行相应的操作,以实现用户需要的功能。
在一些实施例中,控制器250可以控制声音采集器采集用户输入的语音指令。声音采集器采集到语音指令后,控制器250可以对语音指令进行解析,得到语音文本。
控制器250可以将接收到的语音数据发送至语音识别服务,从而转换为文本信息,得到语音文本。语音识别服务为可部署在显示设备200上的web服务,可以包括语音识别模块和语义分析模块。其中,语音识别服务用于将音频识别为文本,语义服务用于对文本进行语义解析。例如,语音识别模块可以将用户输入的语音指令进行解析,从而识别出语音文本。之后语义分析模块对该语音文本进行词法句法和语义的分析,从而理解用户的意图,并执行该语音指令,以实现相应的功能。
在一些实施例中,显示设备200还可以包括第三方语音识别接口。当接收到用户输入的语音指令后,控制器250可以将语音数据发送至第三方语音识别接口,利用第三方语音识别装置等将用户的语音指令转换为语音文本。在获取到语音文本后,控制器250可以对语音文本进行解析,执行该语音指令。
在一些实施例中,控制器250也可以将语音指令发送至服务器。服务器可以根据语音指令生成语音文本,并将语音文本反馈至显示设备。
图8示出了一些实施例中显示设备各部件的交互流程图。
在一些实施例中,在获取到语音文本后,控制器250可以对语音文本进行语义分析。语音文本即为文本化后的用户输入的语音指令,可以是一个句子的形式。本申请实施例中以显示设备200为智能电视进行介绍。例如,用户若是搜寻想要观看的电影时,可向智能电视发送相应的语音指令“搜索电影XXX”。
控制器250可以先对语音文本进行分词处理,得到包括多个词语的分词结果,每个词语即为一个分词,从而得到语音文本中包含的所有分词。本申请实施例中将得到的分词称为文本分词。
在一些实施例中,对于中文形式的语音文本,控制器250可以以字为单位对语音文本进行分词处理,从而得到语音文本对应的文本分词。例如,对于语音文本“我要看电视剧A”,进行分词处理后,可以得到分词结果为“我、要、看、电、视、剧、A”七个文本分词。
在一些实施例中,基于当前多语言语音交互的环境,用户输入的语音指令可能不仅仅是中文,还可以是英文或其他语种的语言,甚至可能是多语言混合形式,例如中英文混合的语音指令。用户根据自己的用语习惯,可以向智能电视发送中文指令“搜索XXX电影第三季”,或英文指令“search for XXX movie”,或法语指令“Rechercher xxx Films”等不同语种的语音指令。
不同语种在语法习惯和行文结构上存在较大差异,例如,中文、日文和泰语在书写时以字为单位,字与字之间没有空格,而英语、法语等以单词为最小单元,单词和单词之间有空格。如果一句话中同时存在多种语言时,例如,“Dow Jones的指数跌了吗”,当前语句中同时有中文和英语,为了准确的获取语音文本对应的文本分词,控制器250可以先对语种进行识别,以便于区分出不同的语言。
控制器250可以使用Unicode编码的正则匹配、各语言单词词表以及python语言检测工具包langdetect对语音文本中的语种进行识别。识别过程如下:首先,控制器250利用Unicode编码的正则匹配以字符为单位对原始数据进行检测。由于不同语言的字母的Unicode编码不同,利用Unicode的编码可以大致判断出某些语言,如中文、日文、泰文和阿拉伯语等。但是对于共用拉丁字母的英文、法语等,是具备相同字母体系的语种,用Unicode编码无法区分。所以当利用Unicode编码的正则匹配检测完之后,若是检测结果中存在由于具备相同字母体系而未识别出语种的原始数据时,控制器250可以再借助各语言单词词表以单词为单位对原始数据进行检测。由于各语言单词词表不完整,各个语言存在共同的单词等,在少数情况下也存在无法完全区分的情况,此时,若存在因具备相同单词的而未识别出语种的原始数据时,控制器250可利用python语言检测工具包langdetect进行检测,结合前面检测的结果给出最终的检测结果。
在检测出语言后,控制器250可以以各个语言的最小单元(例如英文为单词,中文为字)进行分割。例如,对于“Dow Jones的指数跌了吗”,将会被分割为[Dow,Jones,的,指,数,跌,了,吗]。每个最小单元即为一个文本分词,从而得到语音文本对应的所有文本分词。
在一些实施例中,控制器250还可以对语音文本进行实体提取,得到语音文本中包含的所有实体,本申请实施例中称为文本实体。
本申请实施例中设定实体为语音文本中包含的名词词语,例如电影名、人名等,这些实体均为已经存在的名词,控制器250可以提取出语音文本对应的所有实体。
控制器250可以先获取语音文本中包含的所有的词语。需要说明的是,此处的词语和前述步骤中的分词不同。分词指的是每个语种中的最小单元,例如中文中的一个字,而词语可以是一个字也可以是多个字形成的词。例如,对于语音文本“我想买游戏角色皮肤”为例,该语句中包含的词语为“我”、“想”、“买”、“游戏”、“角色”、“皮肤”。
控制器250可以对语音文本进行词性标注和实体识别,具体可以采用例如Stanza_NLP(斯坦福自然语言处理工具包),还可以使用其他的词法分析工具。在得到每个词语的词性之后,控制器250可以筛选出命名实体和名词词性的词语,并作为文本实体。
在一些实施例中,在获取到文本实体后,控制器250可以获取每个文本实体对应的目标实体标签。
控制器250可以先根据预设的多语言知识图谱,查询每个文本实体相关联的实体标签。知识图谱指的是描述真实世界中存在的各种实体或概念及其关系的知识库。
本申请实施例中可以预先生成多语言知识图谱,包括多种语言的不同实体之间的关系,多语言知识图谱可以是YAGO多语言知识图谱。
YAGO既包含实体(如电影、人物、城市、国家等),也包含这些实体之间的关系(谁在哪部电影中演过、哪个城市位于哪个国家等)。YAGO的实体包含各个语言的名称和别名,YAGO存储在标准资源描述框架“RDF”中,其数据由三元组组成,每个三元组都由一个主语、一个谓语(也称为“关系”或“属性”)和一个宾语组成。YAGO将这些实体划分为不同的类,例如人物类,城市类等。这些类与类之间又有包含与被包含关系,例如城市类是居住地类的子类,而居住地类又是地理位置类的子类。YAGO还定义了实体之间的关系,例如,实体人和地点之间可以有出生地关系。多语言知识图谱可以采用现有技术,此处不做详细描述。
在获取实体标签时,控制器250可以基于预设的多语言知识图谱,对每个文本实体进行实体链接查询处理,得到每个文本实体的实体标签结果。
其中,实体链接指的是针对任一目标实体,在预设的多语言知识图谱中,获取与该目标实体关联的多个其他实体,每个其他实体可以作为该目标实体的一个实体标签。其中,该多个其他实体均可以用于解释该目标实体,也可以是和该目标实体之间存在关联性的实体。例如,对于某个人物A来说,A作为目标实体,查询到的实体标签可以是“演员”,用于表示A的职业,实体标签也可以是某个媒资名字,表示A参演过的媒资。
在进行实体链接查询处理时可以通过最小编辑距离,交并比,实体长度、实体热度等基于规则的方法召回链接结果。
因此,对每个文本实体进行实体链接查询处理后,可以得到每个文本实体的实体标签结果。实体标签结果包括每个实体对应的若干个实体标签,以及每个实体标签的分类概率(也可以认为是实体标签的得分),该分类概率可以表示该实体标签和文本实体之间的关联程度,关联程度越高,则得分越高。
控制器250可以在实体标签结果中,选取分类概率最大的预设数量个实体标签,作为每个文本实体的目标实体标签。例如,在每个文本实体的实体标签结果中,可以选取分类概率最大的前5个媒资标签,作为每个文本实体的目标实体标签。如果查询到的实体标签没有达到5个,则可以通过padding的方式填充,可以补0处理,得到5个实体标签。
控制器250可以根据语音文本、文本分词和目标实体标签分析语音文本的语义。
在一些实施例中,控制器250可以基于语音文本和目标实体标签获取用户意图和领域类型。控制器250可以先基于语音文本获取文本向量。
本申请实施例中,可以预先生成多语言文本语义理解模型。
多语言文本语义理解模型可以是基于LaBSE(Language-agnostic BERT SentenceEmbedding,多语言BERT嵌入向量模型)获得。预训练LaBSE包含词向量的对齐以及句子向量的对齐。在词向量的对齐上采用多语言BERT(预训练的语言表征模型)在多种语言的语料上进行训练。其中,为了将不同的语言的编码映射到同一个空间,并实现多个语言的词向量的对齐,采用MMLM(Multilingual Masked Language Model,多语言遮蔽语言模型)和TLM(Translation Language Model),翻译语音建模)混合预训练实现将不同语言编码表示到同一个语义空间。在句子对齐上采用对比学习的方法在多语言平行语料上按照LaBSE进一步训练,使不同语言的句子向量在统一的语义空间对齐。LaBSE在训练时采用双编码器分别对源语言和目标语言进行编码,两个编码器共享参数且用经过MMLM和TLM方法预训练的BERT模型的参数进行初始化。
在一些实施例中,控制器250以预训练好的LaBSE模型为基础建立多语言文本语义理解模型。LaBSE模型对于输入的文本首先进行编码,输入到LaBSE,经过多层的transformer输出编码结果,[CLS]对应的编码代表整个句子的编码,其结果加上一个softmax层将用于进行意图分类,公式如下:
yi=softmax(Wih[CLS]+bi)
式中,h[CLS]代表[CLS]对应的embedding输出结果,Wi对应的是线性层的权重矩阵,bi为线性层的偏置向量,yi为输出向量。
对应词的编码输出加上一个softmax层进行槽位的预测,公式如下:
在一些实施例中,LaBSE模型微调时损失函数包含两部分:意图分类预测和真实分类的交叉熵损失为LI,槽位预测与真实槽位的交叉熵损失为Ls,总的损失为L=LI+Ls,通过训练微调让总的损失达到最小。
在一些实施例中,控制器250可以基于预设的多语言文本语义理解模型,对语音文本进行编码,得到文本向量。该文本向量为整个语音文本句子对应的向量,可以表示语音文本整体的用户意图情况。
在一些实施例中,在得到每个文本实体的目标实体标签后,控制器250可以在所有的目标实体标签中选取预设数量个目标实体标签,本申请实施例中称为第一目标实体标签。可以是选取5个第一目标实体标签。
控制器250可以在所有的目标实体标签中选取分类概率最高的5个目标实体标签作为第一目标实体标签。
在一些实施例中,考虑到语义分析的准确性,想要整体表现出整个语音文本的用户意图,则需要尽可能多的文本实体,通过他们各自的目标实体标签表示。因此,控制器250可以在每个文本实体对应的目标实体标签中,将分类概率最高的目标实体标签筛选出来。例如,语音文本包含6个文本实体,则控制器250可以获取这6个文本实体各自最大分类概率的目标实体标签。得到这些目标实体标签后,可以判断这些目标实体标签的数量和预设数量的大小关系。
如果这些目标实体标签的数量小于预设数量,例如语音文本包含4个文本实体,从而得到4个目标实体标签。此时,还没有达到预设数量5,因此,需要在这4个目标实体标签以外的目标实体标签中继续选取目标实体标签,可以是选取剩下的分类概率最高的目标实体标签,直至得到预设数量个目标实体标签,并作为第一目标实体标签。
如果这些目标实体标签的数量刚好等于预设数量,则直接将这些目标实体标签作为第一目标实体标签。
如果这些目标实体标签的数量大于预设数量,例如语音文本包含6个文本实体,从而得到6个目标实体标签。此时,已经超过预设数量5。控制器250可以在这些目标实体标签进一步进行筛选,可以是选取分类概率最高的5个目标实体标签作为第一目标实体标签。控制器250也可以直接将这6个目标实体标签作为第一目标实体标签。
在一些实施例中,在获取到第一目标实体标签后,控制器250可以获取第一目标实体标签对应的第一目标实体标签向量。
控制器250可以基于预设的多语言文本语义理解模型,分别对每个第一目标实体标签进行编码,得到每个第一目标实体标签对应的第一目标实体标签向量。
或者,控制器250也可以基于预设的实体标签类型对第一目标实体标签进行独热编码(onehot编码),得到第一目标实体标签向量。考虑到用户在使用显示设备200时,发出的控制指令能够涉及的实体标签的数量有限。例如,当用户进行媒资搜索时,可以能涉及到媒资名称、演员、导演、上映时间等实体标签。这些实体标签一般是用户搜索时较为常用的标签,因此可以预先统计出语音指令可能会涉及到的实体标签,作为预设的实体标签类型。对于获取到的每个第一目标实体标签,控制器250可以进行onehot编码,正确的实体标签类型标记为1,不正确的实体标签类型标记为0,从而得到每个第一目标实体标签对应的第一目标实体标签向量。
在一些实施例中,控制器250还可以获取显示设备200当前的设备状态。设备状态可以包括显示器中的界面是否在主页,显示设备200是否在播放音乐、显示设备200是否在播放视频,以及某个APP是否打开等。
控制器250可以统计显示设备200当前的设备状态信息。控制器250进一步可以基于设备状态获取设备状态向量。
控制器250可以基于预设的设备状态类型对设备状态进行onehot编码,得到设备状态向量。控制器250可以预先设定多个显示设备可能存在的设备状态类型,并对显示设备200当前的设备状态进行onehot编码,当前的设备状态标记为1,当前不存在的设备状态标记为0。
在一些实施例中,控制器250可以基于文本向量、第一目标实体标签向量和设备状态向量,分别获取用户意图和领域分类信息。
控制器250可以先将文本向量、第一目标实体标签向量和设备状态向量进行拼接,得到第一拼接向量。
控制器250基于第一拼接向量可以分别获取用户意图概率分布和领域分类概率分布。
具体的,多语言文本语义理解模型中可以包括基于Softmax的输出层。Softmax层可以是Softmax函数,它可以将一个数值向量归一化为一个概率分布向量,且各个概率之和为1。因此可以利用Softmax层进行用户意图和领域的分类。
用户意图可以是预先设定的多个意图种类,可以表征用户的指令动作,例如媒资搜索、音量调节等。领域指的是文本对应的业务领域,每种显示设备200支持的领域可能是不同的。
可以预先统计出用户指令可能涉及到的所有的用户意图和领域。
控制器250可以根据多语言文本语义理解模型对第一拼接向量进行处理,可以利用Softmax层获取到第一拼接向量在所有的用户意图中的用户意图概率分布,以及获取第一拼接向量在所有领域中的领域分类概率分布。
控制器250也可以采取其他的概率分布算法对第一拼接向量进行处理,例如通过逻辑回归算法对第一拼接向量进行处理,得到用户意图和领域分类的概率分布。
控制器250可以将用户意图概率分布中概率最大的用户意图确定为语音文本的用户意图,将领域分类概率分布中概率最大的领域类型确定为语音文本的领域类型。
在一些实施例中,控制器250可以基于文本分词和目标实体标签获取槽位填充信息。
控制器250可以基于文本分词获取文本分词向量,以及基于目标实体标签获取目标实体标签向量。
控制器250可以基于预设的多语言文本语义理解模型,分别对每个文本分词进行编码,得到每个文本分词对应的文本分词向量。
基于目标实体标签获取目标实体标签向量可以参照前述步骤,此处不再赘述。
需要说明的是,每个文本分词为语种中的最小单元,例如中文的每个字。而目标实体标签则是对应于每个文本实体,即对应于每个词语。因此,可以先建立文本分词和目标实体标签的关系。
控制器250可以确定每个文本分词所归属的文本实体,从而确定出每个文本分词对应的目标实体标签。控制器250可以统计每个文本分词对应的目标实体标签的目标实体标签向量。例如对于语音文本“我想买游戏角色皮肤”为例,该语句中“我”、“想”、“买”三个文本分词并不存在对应的实体,也就不存在对应的目标实体标签,可以进行补0处理。“游”、“戏”两个文本分词对应的实体均为“游戏”,因此匹配实体“游戏”的目标实体标签。“角”、“色”两个文本分词对应的实体均为“角色”,因此匹配实体“角色”的目标实体标签。“皮”、“肤”两个文本分词对应的实体均为“皮肤”,因此匹配实体“皮肤”的目标实体标签。
对于每个文本分词来说,控制器250可以将该文本分词的文本分词向量,以及其对应的目标实体标签的目标实体标签向量进行拼接,得到每个文本分词的拼接向量,本申请实施例中称为第二拼接向量。
在一些实施例中,控制器250基于第二拼接向量,可以获取每个文本分词的槽位填充信息。
控制器250可以先获取每个文本分词的槽位参数概率分布。控制器250可以基于多语言文本语义理解模型的Softmax层对每个第二拼接向量进行处理,得到每个第二拼接向量的槽位参数概率分布,即每个文本分词的槽位参数概率分布。
基于用户对各种显示设备200的控制指令,可以预先统计出可能涉及到的所有的槽位参数。例如,对于电视来说,槽位参数可以是演员、媒资名称、音量等。对于空调来说,槽位参数可以是温度、模式等。
在获取到每个文本分词的槽位参数概率分布后,控制器250可以将槽位参数概率分布中概率最大的槽位参数确定为每个文本分词的槽位填充信息。
本申请实施例中,还为每个槽位设置了三个类型:B、I、O。其中,B槽位表示该槽位对应的槽位参数为实体的开头,I槽位表示该槽位对应的槽位参数为实体的后续部分,O槽位表示该槽位对应的槽位参数不是实体,一般为动词等词性。图9示出了一些实施例中槽位填充信息的示意图。如图9所示,语音文本为“Search for Tom Hanks’spider man threeon youtube”。其中,共存在9个文本分词,从前到后依次用h1-h9表示。其中,h1为文本分词“Search”,其对应O槽位,没有实体。h2为文本分词“for”,其对应O槽位,没有实体。h3为文本分词“Tom”,其对应B槽位,对应实体为“Tom Hanks”,h3的槽位参数为actor演员。h4为文本分词“Hanks’”,其对应I槽位,对应实体为“Tom Hanks”,h4的槽位参数为actor演员。h5为文本分词“spider”,其对应B槽位,对应实体为“spider man”,h5的槽位参数为title名称。h6为文本分词“man”,其对应I槽位,对应实体为“spider man”,h6的槽位参数为title名称。h7为文本分词“three”,其对应B槽位,对应实体为“three”,h7的槽位参数为season季。h8为文本分词“on”,其对应O槽位,没有实体。h9为文本分词“youtube”,其对应B槽位,对应实体为“youtube”,h9的槽位参数为search Target搜索平台。
在一些实施例中,在获取到用户意图、领域类型和槽位填充信息后,控制器250可以对这些数据进行参数封装,得到封装信息。该封装信息可以用于表征语音文本的语义。
控制器250可以基于封装信息直接生成控制指令,并控制显示设备执行控制指令,以实现相应功能,满足用户需求。
或者,控制器250也可以将封装信息发送至服务器,服务器可以根据封装信息生成控制指令并发送给显示设备。在接收到服务器发送的控制指令后,控制器250可以控制显示设备执行该控制指令,从而满足用户的需求。
在一些实施例中,对用户输入的语音指令进行语义理解的步骤也可以由服务器执行。图10示出了一些实施例中显示设备和服务器的交互流程图。如图10所示,用户可以向显示设备输入语音指令。显示设备可以进一步将语音指令直接发送至服务器。服务器可以对语音指令进行解析,得到语音文本。服务器可以基于语音文本获取文本分词和文本实体,文本分词为对语音文本进行分词处理后得到的所有分词,文本实体为对语音文本进行实体提取后得到的所有实体。服务器还可以获取文本实体对应的目标实体标签,服务器获取显示设备的设备状态。服务器可以基于语音文本、目标实体标签和设备状态获取用户意图和领域类型,基于文本分词和目标实体标签获取槽位填充信息。服务器可以对用户意图、领域类型和槽位填充信息进行参数封装,得到封装信息,封装信息用于表征语音文本的语义。服务器进一步可以将封装信息发送至显示设备。显示设备可以根据封装信息生成控制指令并执行。
图11示出了一些实施例中用户和显示设备进行语音交互的场景示意图。如图11所示,用户输入语音指令“搜索XXX电影第三季”,显示设备200将语音指令发送至控制器250,控制器250反馈给显示设备200控制指令,该控制指令用于搜索相关媒资。显示设备200可以执行该控制指令,并通过语音提示用户“已为您推荐关于XXX的视频”。
在一些实施例中,对于用户想要搜索的媒资,显示设备200可以展示搜索界面。图12示出了一些实施例中显示设备显示搜索界面的示意图。
当用户选择某个目标媒资后,显示设备200可以显示目标媒资的媒资详情页。图13示出了一些实施例中媒资详情页的示意图,如图13所示,媒资详情页可以包括视频预览窗口,用于展示目标媒资的视频画面;媒资介绍,包括媒资类型和演职员信息等等;播放列表,用于展示媒资集数;播放控件,即图13中的“全屏播放”;相关推荐区域,用于展示其他的媒资。用户可以触控播放控件,从而控制显示设备200以全屏的形式显示目标媒资。
如果显示设备200未搜索到相关媒资,也可以显示预设的提示信息,提示信息用于提示用户未搜索到相关媒资。图14示出了一些实施例中显示设备200显示提示信息的示意图。
本申请实施例还提供了一种语义理解方法,应用于显示设备,如图15所示,该方法包括:
步骤1501、获取语音文本,语音文本为对接收到的语音指令解析得到的。
步骤1502、基于语音文本获取文本分词和文本实体,文本分词为对语音文本进行分词处理后得到的所有分词,文本实体为对语音文本进行实体提取后得到的所有实体。
步骤1503、获取文本实体对应的目标实体标签。
步骤1504、基于语音文本和目标实体标签获取用户意图和领域类型,基于文本分词和目标实体标签获取槽位填充信息。
步骤1505、对用户意图、领域类型和槽位填充信息进行参数封装,得到封装信息,封装信息用于表征语音文本的语义。
在一些实施例中,获取语音文本,包括:
控制声音采集器采集用户输入的语音指令;对语音指令进行解析,得到语音文本。或者,将语音指令发送至服务器,以使服务器根据语音指令生成语音文本并反馈至显示设备。
在一些实施例中,获取文本实体对应的实体标签,包括:
基于预设的多语言知识图谱,对文本实体进行实体链接查询处理,得到文本实体的实体标签结果,实体标签结果包括若干个实体标签以及实体标签的分类概率;在实体标签结果中,选取分类概率最大的预设数量个实体标签,作为文本实体的目标实体标签。
在一些实施例中,基于语音文本和目标实体标签获取用户意图和领域分类信息,包括:
基于语音文本获取文本向量;在目标实体标签中选取预设数量个第一目标实体标签,并获取第一目标实体标签的第一目标实体标签向量;获取显示设备当前的设备状态,并基于设备状态获取设备状态向量;基于文本向量、第一目标实体标签向量和设备状态向量,获取用户意图和领域分类信息。
在一些实施例中,基于语音文本获取文本向量,包括:
基于预设的多语言文本语义理解模型,对语音文本进行编码,得到文本向量。
在一些实施例中,获取第一目标实体标签的第一目标实体标签向量,包括:
基于预设的多语言文本语义理解模型,对第一目标实体标签进行编码,得到第一目标实体标签向量;或,基于预设的实体标签类型对第一目标实体标签进行独热编码,得到第一目标实体标签向量。
在一些实施例中,基于设备状态获取设备状态向量,包括:
基于预设的设备状态类型对设备状态进行独热编码,得到设备状态向量。
在一些实施例中,获取用户意图和领域类型,包括:
将文本向量、第一目标实体标签向量和设备状态向量进行拼接,得到第一拼接向量;基于第一拼接向量获取用户意图概率分布和领域分类概率分布;将用户意图概率分布中概率最大的用户意图确定为语音文本的用户意图,将领域分类概率分布中概率最大的领域类型确定为语音文本的领域类型。
在一些实施例中,基于文本分词和目标实体标签获取槽位填充信息,包括:
基于文本分词获取文本分词向量;基于目标实体标签获取目标实体标签向量;统计文本分词对应的目标实体标签的目标实体标签向量;将文本分词向量和对应的目标实体标签向量进行拼接,得到文本分词的第二拼接向量;基于第二拼接向量,获取文本分词的槽位填充信息。
在一些实施例中,获取文本分词的槽位填充信息,包括:
获取文本分词的槽位参数概率分布;将槽位参数概率分布中概率最大的槽位参数确定为文本分词的槽位填充信息。
在一些实施例中,还包括:
基于封装信息生成控制指令,并执行控制指令;或者,将封装信息发送至服务器,以使服务器根据封装信息生成控制指令并反馈至显示设备。
本说明书中各个实施例之间相同相似的部分互相参照即可,在此不再赘述。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。
Claims (10)
1.一种显示设备,其特征在于,包括:
显示器;
控制器,被配置为:
获取语音文本;
基于所述语音文本获取文本分词和文本实体,所述文本分词为对所述语音文本进行分词处理后得到的分词,所述文本实体为对所述语音文本进行实体提取后得到的实体;
获取所述文本实体对应的目标实体标签;
基于所述语音文本和所述目标实体标签获取用户意图和领域类型,基于所述文本分词和所述目标实体标签获取槽位填充信息;
对所述用户意图、所述领域类型和所述槽位填充信息进行参数封装,得到封装信息,所述封装信息用于表征所述语音文本的语义。
2.根据权利要求1所述的显示设备,其特征在于,还包括:
声音采集器,被配置为采集用户输入的语音指令;
所述控制器执行获取语音文本,还被配置为:
控制所述声音采集器采集用户输入的语音指令;
对所述语音指令进行解析,得到语音文本;
或者,将所述语音指令发送至服务器,以使所述服务器根据所述语音指令生成语音文本并反馈至显示设备。
3.根据权利要求1所述的显示设备,其特征在于,所述控制器执行获取所述文本实体对应的实体标签,还被配置为:
基于预设的多语言知识图谱,对所述文本实体进行实体链接查询处理,得到所述文本实体的实体标签结果,所述实体标签结果包括若干个实体标签以及实体标签的分类概率;
在所述实体标签结果中,选取分类概率最大的预设数量个实体标签,作为所述文本实体的目标实体标签。
4.根据权利要求2所述的显示设备,其特征在于,所述控制器执行基于所述语音文本和所述目标实体标签获取用户意图和领域分类信息,还被配置为:
基于所述语音文本获取文本向量;
在所述目标实体标签中选取预设数量个第一目标实体标签,并获取所述第一目标实体标签的第一目标实体标签向量;
获取显示设备当前的设备状态,并基于所述设备状态获取设备状态向量;
基于所述文本向量、所述第一目标实体标签向量和所述设备状态向量,获取用户意图和领域分类信息。
5.根据权利要求4所述的显示设备,其特征在于,所述控制器执行基于所述语音文本获取文本向量,还被配置为:
基于预设的多语言文本语义理解模型,对所述语音文本进行编码,得到文本向量;
所述控制器执行获取所述第一目标实体标签的第一目标实体标签向量,还被配置为:
基于预设的多语言文本语义理解模型,对所述第一目标实体标签进行编码,得到第一目标实体标签向量;或,基于预设的实体标签类型对所述第一目标实体标签进行独热编码,得到第一目标实体标签向量;
所述控制器执行基于所述设备状态获取设备状态向量,还被配置为:
基于预设的设备状态类型对所述设备状态进行独热编码,得到设备状态向量。
6.根据权利要求4所述的显示设备,其特征在于,所述控制器执行获取用户意图和领域类型,还被配置为:
将所述文本向量、所述第一目标实体标签向量和所述设备状态向量进行拼接,得到第一拼接向量;
基于所述第一拼接向量获取用户意图概率分布和领域分类概率分布;
将所述用户意图概率分布中概率最大的用户意图确定为所述语音文本的用户意图,将所述领域分类概率分布中概率最大的领域类型确定为所述语音文本的领域类型。
7.根据权利要求1所述的显示设备,其特征在于,所述控制器执行基于所述文本分词和所述目标实体标签获取槽位填充信息,还被配置为:
基于所述文本分词获取文本分词向量;基于所述目标实体标签获取目标实体标签向量;统计所述文本分词对应的目标实体标签的目标实体标签向量;
将所述文本分词向量和对应的目标实体标签向量进行拼接,得到所述文本分词的第二拼接向量;
基于所述第二拼接向量,获取所述文本分词的槽位填充信息。
8.根据权利要求7所述的显示设备,其特征在于,所述控制器执行获取所述文本分词的槽位填充信息,还被配置为:
获取所述文本分词的槽位参数概率分布;
将所述槽位参数概率分布中概率最大的槽位参数确定为所述文本分词的槽位填充信息。
9.根据权利要求1所述的显示设备,其特征在于,所述控制器还被配置为:
基于所述封装信息生成控制指令,并执行所述控制指令;
或者,将所述封装信息发送至服务器,以使服务器根据所述封装信息生成控制指令并反馈至显示设备。
10.一种语义理解方法,应用于显示设备,其特征在于,所述方法包括:
获取语音文本;
基于所述语音文本获取文本分词和文本实体,所述文本分词为对所述语音文本进行分词处理后得到的分词,所述文本实体为对所述语音文本进行实体提取后得到的实体;
获取所述文本实体对应的目标实体标签;
基于所述语音文本和所述目标实体标签获取用户意图和领域类型,基于所述文本分词和所述目标实体标签获取槽位填充信息;
对所述用户意图、所述领域类型和所述槽位填充信息进行参数封装,得到封装信息,所述封装信息用于表征所述语音文本的语义。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210770148.8A CN115146652A (zh) | 2022-06-30 | 2022-06-30 | 显示设备和语义理解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210770148.8A CN115146652A (zh) | 2022-06-30 | 2022-06-30 | 显示设备和语义理解方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115146652A true CN115146652A (zh) | 2022-10-04 |
Family
ID=83410376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210770148.8A Pending CN115146652A (zh) | 2022-06-30 | 2022-06-30 | 显示设备和语义理解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115146652A (zh) |
-
2022
- 2022-06-30 CN CN202210770148.8A patent/CN115146652A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112000820A (zh) | 一种媒资推荐方法及显示设备 | |
CN112182196A (zh) | 应用于多轮对话的服务设备及多轮对话方法 | |
CN111984763B (zh) | 一种答问处理方法及智能设备 | |
CN112511882A (zh) | 一种显示设备及语音唤起方法 | |
CN112163086A (zh) | 多意图的识别方法、显示设备 | |
CN111625716A (zh) | 媒资推荐方法、服务器及显示设备 | |
CN114118064A (zh) | 显示设备、文本纠错方法及服务器 | |
CN114706944A (zh) | 服务器及多语言文本语义理解方法 | |
CN113938755A (zh) | 服务器、终端设备以及资源推荐方法 | |
CN115602167A (zh) | 显示设备和语音识别方法 | |
CN115273848A (zh) | 一种显示设备及显示设备的控制方法 | |
CN113490057B (zh) | 显示设备和媒资推荐方法 | |
CN113593559B (zh) | 一种内容显示方法、显示设备及服务器 | |
CN111950288B (zh) | 一种命名实体识别中的实体标注方法及智能设备 | |
CN112053688B (zh) | 一种语音交互方法及交互设备、服务器 | |
CN112256232B (zh) | 显示设备与自然语言生成后处理方法 | |
CN115146652A (zh) | 显示设备和语义理解方法 | |
CN113722542A (zh) | 视频推荐方法及显示设备 | |
CN113035194B (zh) | 一种语音控制方法、显示设备及服务器 | |
CN111858856A (zh) | 多轮检索式聊天方法及显示设备 | |
CN113038217A (zh) | 一种显示设备、服务器及应答语生成方法 | |
CN117809649A (zh) | 显示设备和语义分析方法 | |
CN114627864A (zh) | 显示设备与语音交互方法 | |
CN113076427B (zh) | 一种媒资资源搜索方法、显示设备及服务器 | |
CN115150673B (zh) | 显示设备及媒资展示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |