CN114442989A - 自然语言的解析方法及装置 - Google Patents
自然语言的解析方法及装置 Download PDFInfo
- Publication number
- CN114442989A CN114442989A CN202011206016.XA CN202011206016A CN114442989A CN 114442989 A CN114442989 A CN 114442989A CN 202011206016 A CN202011206016 A CN 202011206016A CN 114442989 A CN114442989 A CN 114442989A
- Authority
- CN
- China
- Prior art keywords
- scene
- weight
- candidate
- voice data
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 181
- 238000000034 method Methods 0.000 claims abstract description 69
- 230000011218 segmentation Effects 0.000 claims description 89
- 238000002372 labelling Methods 0.000 claims description 59
- 238000010606 normalization Methods 0.000 claims description 43
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 11
- 238000004891 communication Methods 0.000 description 41
- 239000010410 layer Substances 0.000 description 38
- 238000010586 diagram Methods 0.000 description 31
- 230000006870 function Effects 0.000 description 22
- 230000003993 interaction Effects 0.000 description 19
- 238000012545 processing Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 14
- 238000006243 chemical reaction Methods 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000003607 modifier Substances 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 235000014510 cooky Nutrition 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001071864 Lethrinus laticaudis Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请提供一种自然语言的解析方法及装置。该方法包括:接收用户输入的当前语音数据,确定当前显示内容所对应的候选场景和候选场景的权重,向服务器发送解析请求,解析请求包括当前显示内容所对应的候选场景、候选场景的权重和当前语音数据对应的文本,接收服务器发送的用户意图信息,执行用户意图信息对应的操作。从而,可提高语义解析的准确度,提高用户体验。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种自然语言的解析方法及装置。
背景技术
自然语言是人类智慧的结晶,自然语言处理(natural language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,是人工智能领域中最为困难的问题之一。通过利用自然语言处理,可以实现人与电子设备之间的自然语言通信。
现有的自然语言的解析方法中,通过接收用户输入的当前语音数据,根据当前语音数据对应的文本或者根据当前语音数据对应的文本和上一次的语音数据对应的文本进行语义解析,获得解析结果,根据解析结果确定用户意图。例如,当前输入的语音数据对应的文本为“我想看张三的电影”,解析结果即为“我想看张三的电影”。
但是,上述方法对于指示模糊意图的文本的解析或对于没有当前语音数据的上一次的语音数据对应的文本时的解析,或者对上一次的语音数据对应的文本解析的场景与当前显示内容所对应的场景不一致时的解析,准确度不高,导致语义解析结果与用户意图出现偏差的问题。例如,用户通过遥控器或触摸屏操作浏览电影→用户语音输入“最新的”→输出非最新的电影意图,又例如,用户语音输入“我想看电影”→用户通过遥控器或触摸屏操作切换到qq音乐→用户语音输入“最新的”→“最新的电影”,这两种场景下,语义解析结果均与用户意图不一致。
发明内容
本申请提供一种自然语言的解析方法及装置,以解决语义解析准确度不高的问题。
第一方面,本申请提供一种显示设备,包括:
显示器,用于显示图像和用户界面;
控制器,用于:
接收用户输入的当前语音数据;
确定当前显示内容所对应的候选场景和所述候选场景的权重;
向服务器发送解析请求,所述解析请求包括所述当前显示内容所对应的候选场景、所述候选场景的权重和所述当前语音数据对应的文本,以使所述服务器根据当前显示内容所对应的候选场景和所述候选场景的权重对所述当前语音数据对应的文本进行语义解析,得到语义解析结果,并根据所述语义解析结果确定用户意图信息;
接收所述服务器发送的所述用户意图信息,执行所述用户意图信息对应的操作。
在一些可能的实现方式中,所述控制器用于:
根据当前播放节目的类型、当前开启的应用和当前显示的混合应用界面中的任一项,确定当前显示内容所对应的候选场景和所述候选场景的权重。
在一些可能的实现方式中,所述控制器用于:
若用户界面显示的是当前播放节目,将所述当前播放节目的类型对应的场景确定为所述当前显示内容所对应的候选场景,将预设权重范围中的权重最大值确定为所述当前播放节目的类型对应的场景的权重;
若用户界面显示的是当前开启的应用,将所述当前开启的应用对应的场景确定为所述当前显示内容所对应的候选场景,将预设权重范围中的权重最大值确定为所述当前开启的应用对应的场景的权重;
若用户界面显示的是混合应用界面,根据所述混合应用界面的界面元素确定所述当前显示内容所对应的候选场景和所述候选场景的权重。
在一些可能的实现方式中,所述控制器用于:
渲染所述混合应用界面的界面元素时,根据界面元素的位置和大小与预设权重配置范围为每一界面元素配置场景标签和权重;
根据每一界面元素配置的权重进行归一化计算,得到每一界面元素的归一化权重;
根据场景标签对所述混合应用界面的所有界面元素的场景标签和归一化权重求和并归一,得到每一场景标签的归一权重;
将所述归一权重大于预设阈值的场景标签确定为当前显示内容所对应的候选场景,将对应场景标签的归一权重确定为所述候选场景的权重。
第二方面,本申请提供一种自然语言的解析方法,包括:
接收用户输入的当前语音数据;
确定当前显示内容所对应的候选场景和所述候选场景的权重;
向服务器发送解析请求,所述解析请求包括所述当前显示内容所对应的候选场景、所述候选场景的权重和所述当前语音数据对应的文本;
接收所述服务器发送的用户意图信息,执行所述用户意图信息对应的操作。
在一些可能的实现方式中,所述确定当前显示内容所对应的候选场景和所述候选场景的权重,包括:
根据当前播放节目的类型、当前开启的应用和当前显示的混合应用界面中的任一项,确定当前显示内容所对应的候选场景和所述候选场景的权重。
在一些可能的实现方式中,所述根据当前播放节目的类型、当前开启的应用和当前显示的混合应用界面中的任一项,确定当前显示内容所对应的候选场景和所述候选场景的权重,包括:
若用户界面显示的是当前播放节目,将所述当前播放节目的类型对应的场景确定为所述当前显示内容所对应的候选场景,将预设权重范围中的权重最大值确定为所述当前播放节目的类型对应的场景的权重;
若用户界面显示的是当前开启的应用,将所述当前开启的应用对应的场景确定为所述当前显示内容所对应的候选场景,将预设权重范围中的权重最大值确定为所述当前开启的应用对应的场景的权重;
若用户界面显示的是混合应用界面,根据所述混合应用界面的界面元素确定所述当前显示内容所对应的候选场景和所述候选场景的权重。
在一些可能的实现方式中,所述根据所述混合应用界面的界面元素确定所述当前显示内容所对应的候选场景和所述候选场景的权重,包括:
渲染所述混合应用界面的界面元素时,根据界面元素的位置和大小与预设权重配置范围为每一界面元素配置场景标签和权重;
根据每一界面元素配置的权重进行归一化计算,得到每一界面元素的归一化权重;
根据场景标签对所述混合应用界面的所有界面元素的场景标签和归一化权重求和并归一,得到每一场景标签的归一权重;
将所述归一权重大于预设阈值的场景标签确定为当前显示内容所对应的候选场景,将对应场景标签的归一权重确定为所述候选场景的权重。
第三方面,本申请提供一种自然语言的解析方法,包括:
接收显示设备发送的解析请求,所述解析请求包括当前显示内容所对应的候选场景、所述候选场景的权重和当前语音数据对应的文本,所述当前语音数据为用户输入至所述显示设备;
根据当前显示内容所对应的候选场景和所述候选场景的权重对所述当前语音数据对应的文本进行语义解析,得到语义解析结果,并根据所述语义解析结果确定用户意图信息;
将所述用户意图信息发送至所述显示设备。
在一些可能的实现方式中,所述根据当前显示内容所对应的候选场景和所述候选场景的权重对所述当前语音数据对应的文本进行语义解析,得到语义解析结果之前,所述方法还包括:
确定不存在所述当前语音数据的上一次的语音数据对应的文本;
若确定存在所述当前语音数据的上一次的语音数据对应的文本,根据所述当前语音数据的上一次的语音数据对应的文本解析的场景与当前显示内容所对应的候选场景、所述候选场景的权重和所述当前语音数据对应的文本进行语义解析,得到语义解析结果。
在一些可能的实现方式中,所述根据所述当前语音数据的上一次的语音数据对应的文本解析的场景与当前显示内容所对应的候选场景、所述候选场景的权重和所述当前语音数据对应的文本进行语义解析,得到语义解析结果,包括:
若所述当前语音数据的上一次的语音数据对应的文本解析的场景与当前显示内容所对应的候选场景的相似度大于或等于相似度阈值,根据所述当前语音数据的上一次的语音数据对应的文本解析的场景对所述当前语音数据对应的文本进行语义解析,得到语义解析结果;
若所述当前语音数据的上一次的语音数据对应的文本解析的场景与当前显示内容所对应的候选场景的相似度小于所述相似度阈值,根据当前显示内容所对应的候选场景和所述候选场景的权重对所述当前语音数据对应的文本进行语义解析,得到语义解析结果。
在一些可能的实现方式中,所述根据当前显示内容所对应的候选场景和所述候选场景的权重对所述当前语音数据对应的文本进行语义解析,得到语义解析结果,包括:
对所述当前语音数据对应的文本进行分词标注,得到分词标注信息,所述分词标注信息包括至少一个词语和每个词语对应的属性标注;
根据所述分词标注信息进行领域意图定位,确定是否定位到第一领域意图;
若定位到第一领域意图,将所述第一领域意图确定为所述语义解析结果;
若未定位到所述第一领域意图,根据当前显示内容所对应的候选场景、所述候选场景的权重和所述分词标注信息进行领域意图定位,将定位到的第二领域意图确定为所述语义解析结果。
在一些可能的实现方式中,所述根据当前显示内容所对应的候选场景、所述候选场景的权重和所述分词标注信息进行领域意图定位,包括:
对于所述当前显示内容所对应的每一候选场景,根据预设的场景和相关词列表的映射关系,确定每一所述候选场景的相关词列表,所述相关词列表包括至少一个相关词和每个相关词对应的属性标注;
将每一所述候选场景的相关词列表分别与所述分词标注信息组合,得到与每一所述候选场景对应的组合分词标注信息,每一所述候选场景对应至少一个组合分词标注信息;
根据与每一所述候选场景对应的组合分词标注信息进行领域意图定位,得到至少一个领域意图和权重;
根据所述至少一个领域意图和权重与所述候选场景的权重确定出所述第二领域意图。
在一些可能的实现方式中,所述根据所述至少一个领域意图和权重与所述候选场景的权重确定出所述第二领域意图,包括:
根据所述至少一个领域意图中每一个领域意图的权重与每一所述候选场景的权重计算每一个领域意图的目标权重;
将所述目标权重最大的领域意图确定为所述第二领域意图。
在一些可能的实现方式中,所述根据所述分词标注信息进行领域意图定位,确定是否定位到第一领域意图,包括:
将所述分词标注信息与预设的规则模板进行匹配,确定是否匹配到所述第一领域意图,所述预设的规则模板包括属性标注、正则表达式和权重;或者,将所述分词标注信息与预设的依存句法关系和权重进行匹配,确定是否匹配到所述第一领域意图,所述预设的依存句法关系根据依存句法树配置。
第四方面,本申请提供一种自然语言的解析装置,包括:
接收模块,用于接收用户输入的当前语音数据;
确定模块,用于确定当前显示内容所对应的候选场景和所述候选场景的权重;
发送模块,用于向服务器发送解析请求,所述解析请求包括所述当前显示内容所对应的候选场景、所述候选场景的权重和所述当前语音数据对应的文本;
所述接收模块还用于:接收所述服务器发送的用户意图信息,在所述用户界面显示与所述用户意图信息对应的内容。
在一些可能的实现方式中,所述确定模块用于:
根据当前播放节目的类型、当前开启的应用和当前显示的混合应用界面中的任一项,确定当前显示内容所对应的候选场景和所述候选场景的权重。
在一些可能的实现方式中,所述确定模块用于:
若用户界面显示的是当前播放节目,将所述当前播放节目的类型对应的场景确定为所述当前显示内容所对应的候选场景,将预设权重范围中的权重最大值确定为所述当前播放节目的类型对应的场景的权重;
若用户界面显示的是当前开启的应用,将所述当前开启的应用对应的场景确定为所述当前显示内容所对应的候选场景,将预设权重范围中的权重最大值确定为所述当前开启的应用对应的场景的权重;
若用户界面显示的是混合应用界面,根据所述混合应用界面的界面元素确定所述当前显示内容所对应的候选场景和所述候选场景的权重。
在一些可能的实现方式中,所述确定模块用于:
渲染所述混合应用界面的界面元素时,根据界面元素的位置和大小与预设权重配置范围为每一界面元素配置场景标签和权重;
根据每一界面元素配置的权重进行归一化计算,得到每一界面元素的归一化权重;
根据场景标签对所述混合应用界面的所有界面元素的场景标签和归一化权重求和并归一,得到每一场景标签的归一权重;
将所述归一权重大于预设阈值的场景标签确定为当前显示内容所对应的候选场景,将对应场景标签的归一权重确定为所述候选场景的权重。
第五方面,本申请提供一种自然语言的解析装置,包括:
接收模块,用于接收显示设备发送的解析请求,所述解析请求包括当前显示内容所对应的候选场景、所述候选场景的权重和当前语音数据对应的文本,所述当前语音数据为用户输入至所述显示设备;
语义解析模块,用于根据当前显示内容所对应的候选场景和所述候选场景的权重对所述当前语音数据对应的文本进行语义解析,得到语义解析结果,并根据所述语义解析结果确定用户意图信息;
发送模块,用于将所述用户意图信息发送至所述显示设备。
在一些可能的实现方式中,所述语义解析模块还用于:
在根据当前显示内容所对应的候选场景和所述候选场景的权重对所述当前语音数据对应的文本进行语义解析,得到语义解析结果之前,确定不存在所述当前语音数据的上一次的语音数据对应的文本;
若确定存在所述当前语音数据的上一次的语音数据对应的文本,根据所述当前语音数据的上一次的语音数据对应的文本解析的场景与当前显示内容所对应的候选场景、所述候选场景的权重和所述当前语音数据对应的文本进行语义解析,得到语义解析结果。
在一些可能的实现方式中,所述语义解析模块包括:
第一解析单元,用于在所述当前语音数据的上一次的语音数据对应的文本解析的场景与当前显示内容所对应的候选场景的相似度大于或等于相似度阈值,根据所述当前语音数据的上一次的语音数据对应的文本解析的场景对所述当前语音数据对应的文本进行语义解析,得到语义解析结果;
第二解析单元,用于在所述当前语音数据的上一次的语音数据对应的文本解析的场景与当前显示内容所对应的候选场景的相似度小于所述相似度阈值,根据当前显示内容所对应的候选场景和所述候选场景的权重对所述当前语音数据对应的文本进行语义解析,得到语义解析结果。
在一些可能的实现方式中,所述第二解析单元用于:
对所述当前语音数据对应的文本进行分词标注,得到分词标注信息,所述分词标注信息包括至少一个词语和每个词语对应的属性标注;
根据所述分词标注信息进行领域意图定位,确定是否定位到第一领域意图;
若定位到第一领域意图,将所述第一领域意图确定为所述语义解析结果;
若未定位到所述第一领域意图,根据当前显示内容所对应的候选场景、所述候选场景的权重和所述分词标注信息进行领域意图定位,将定位到的第二领域意图确定为所述语义解析结果。
在一些可能的实现方式中,所述第二解析单元用于:
对于所述当前显示内容所对应的每一候选场景,根据预设的场景和相关词列表的映射关系,确定每一所述候选场景的相关词列表,所述相关词列表包括至少一个相关词和每个相关词对应的属性标注;
将每一所述候选场景的相关词列表分别与所述分词标注信息组合,得到与每一所述候选场景对应的组合分词标注信息,每一所述候选场景对应至少一个组合分词标注信息;
根据与每一所述候选场景对应的组合分词标注信息进行领域意图定位,得到至少一个领域意图和权重;
根据所述至少一个领域意图和权重与所述候选场景的权重确定出所述第二领域意图。
在一些可能的实现方式中,所述第二解析单元用于:
根据所述至少一个领域意图中每一个领域意图的权重与每一所述候选场景的权重计算每一个领域意图的目标权重;
将所述目标权重最大的领域意图确定为所述第二领域意图。
在一些可能的实现方式中,所述第二解析单元用于:
将所述分词标注信息与预设的规则模板进行匹配,确定是否匹配到所述第一领域意图,所述预设的规则模板包括属性标注、正则表达式和权重;或者,将所述分词标注信息与预设的依存句法关系和权重进行匹配,确定是否匹配到所述第一领域意图,所述预设的依存句法关系根据依存句法树配置。
第六方面,本申请提供一种服务器,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行第三方面及第三方面各可能的设计中任一所述的自然语言的解析方法。
第七方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第三方面及第三方面各可能的设计中或第四方面及第四方面各可能的设计中任一所述的自然语言的解析方法。
本申请提供的自然语言的解析方法及装置,通过显示设备在识别用户输入的语音数据对应的文本的同时,确定出当前显示内容所对应的候选场景和候选场景的权重,然后将用户输入的语音数据对应的文本和确定出的当前显示内容所对应的候选场景及候选场景的权重携带在解析请求中发送给服务器,使得服务器在对文本进行解析时,根据当前显示内容所对应的候选场景和候选场景的权重对当前语音数据对应的文本进行语义解析,得到语义解析结果,并根据语义解析结果确定用户意图信息,最后将用户意图信息发送至显示设备,从而使得服务器在对文本进行解析时,可结合当前显示内容所对应的候选场景对文本进行解析,不再是仅根据文本进行语义解析,或者根据文本和上一次的语音数据对应的文本进行语义解析,从而可提高语义解析的准确度,提高用户体验。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一实施例中显示设备与控制装置之间操作场景的示意图;
图2为本申请提供的一实施例中显示设备200的硬件配置框图;
图3为本申请提供的一实施例中控制设备1001的配置框图;
图4为本申请提供的显示设备的软件系统示意图;
图5为本申请提供的显示设备能够提供的应用程序的示意图;
图6为显示设备在语音交互场景的一种应用示意图;
图7为显示设备应用在语音交互场景的流程示意图;
图8为显示设备在语音交互场景的一种应用示意图;
图9为显示设备应用在语音交互场景的另一流程示意图;
图10为识别模型的供应商下发识别模型的示意图;
图11为服务器400得到识别模型的一种流程示意图;
图12为服务器对识别模型进行更新的一种流程示意图;
图13为本申请实施例提供的自然语言的解析方法实施例的交互流程图;
图14为本申请实施例提供的一种混合应用界面的显示示意图;
图15为本申请实施例提供的一种为混合应用界面的界面元素配置场景标签和权重后的示意图;
图16为本申请实施例提供的自然语言的解析方法实施例的流程图;
图17为本申请实施例提供的自然语言的解析方法实施例的流程图;
图18为本申请实施例提供的自然语言的解析方法实施例的流程图;
图19为本申请实施例提供的一种自然语言的解析装置的结构示意图;
图20为本申请实施例提供的一种自然语言的解析装置的结构示意图;
图21为本申请实施例提供的一种自然语言的解析装置的结构示意图;
图22为本申请提供的显示设备的硬件结构示意图;
图23为本申请提供的服务器的硬件结构示意图。
具体实施方式
为使本申请的目的、实施方式和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
基于本申请描述的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请所附权利要求保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换,例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
本申请中使用的术语“模块”,是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
本申请中使用的术语“遥控器”,是指电子设备(如本申请中公开的显示设备)的一个组件,通常可在较短的距离范围内无线控制电子设备。一般使用红外线和/或射频(RF)信号和/或蓝牙与电子设备连接,也可以包括WiFi、无线USB、蓝牙、动作传感器等功能模块。例如:手持式触摸遥控器,是以触摸屏中用户界面取代一般遥控装置中的大部分物理内置硬键。
本申请中使用的术语“手势”,是指用户通过一种手型的变化或手部运动等动作,用于表达预期想法、动作、目的/或结果的用户行为。
图1为本申请提供的一实施例中显示设备与控制装置之间操作场景的示意图。如图1中示出,用户可通过移动终端1002和控制装置1001操作显示设备200。
在一些实施例中,控制装置1001可以是遥控器,遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信,及其他短距离通信方式等,通过无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键,语音输入、控制面板输入等输入用户指令,来控制显示设备200。如:用户可以通过遥控器上音量加减键、频道控制键、上/下/左/右的移动按键、语音输入按键、菜单键、开关机按键等输入相应控制指令,来实现控制显示设备200的功能。
在一些实施例中,也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。例如,使用在智能设备上运行的应用程序控制显示设备200。该应用程序通过配置可以在与智能设备关联的屏幕上,在直观的用户界面(UI)中为用户提供各种控制。
在一些实施例中,移动终端1002可与显示设备200安装软件应用,通过网络通信协议实现连接通信,实现一对一控制操作的和数据通信的目的。如:可以实现用移动终端1002与显示设备200建立控制指令协议,将遥控控制键盘同步到移动终端1002上,通过控制移动终端1002上用户界面,实现控制显示设备200的功能。也可以将移动终端1002上显示音视频内容传输到显示设备200上,实现同步显示功能。
如图1中还示出,显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。示例的,显示设备200通过发送和接收信息,以及电子节目指南(EPG)互动,接收软件程序更新,或访问远程储存的数字媒体库。服务器400可以是一个集群,也可以是多个集群,可以包括一类或多类服务器。通过服务器400提供视频点播和广告服务等其他网络服务内容。
显示设备200,可以是液晶显示器、OLED显示器、投影显示设备。具体显示设备类型,尺寸大小和分辨率等不作限定,本领技术人员可以理解的是,显示设备200可以根据需要做性能和配置上一些改变。
显示设备200除了提供广播接收电视功能之外,还可以附加提供计算机支持功能的智能网络电视功能,包括但不限于,网络电视、智能电视、互联网协议电视(IPTV)等。
图2为本申请提供的一实施例中显示设备200的硬件配置框图。
在一些实施例中,显示设备200中包括控制器250、调谐解调器210、通信器220、检测器230、输入/输出接口255、显示器275、音频输出接口285、存储器260、供电电源290、用户接口265和外部装置接口240中的至少一种。
在一些实施例中,显示器275,用于接收源自处理器输出的图像信号,进行显示视频内容和图像以及菜单操控界面的组件。
在一些实施例中,显示器275,包括用于呈现画面的显示屏组件,以及驱动图像显示的驱动组件。
在一些实施例中,显示视频内容,可以来自广播电视内容,也可以是说,可通过有线或无线通信协议接收的各种广播信号。或者,可显示来自网络通信协议接收来自网络服务器端发送的各种图像内容。
在一些实施例中,显示器275用于呈现显示设备200中产生且用于控制显示设备200的用户界面。
在一些实施例中,根据显示器275类型不同,还包括用于驱动显示的驱动组件。
在一些实施例中,显示器275为一种投影显示器,还可以包括一种投影装置和投影屏幕。
在一些实施例中,通信器220是用于根据各种通信协议类型与外部设备或外部服务器进行通信的组件。例如:通信器可以包括Wifi芯片,蓝牙通信协议芯片,有线以太网通信协议芯片等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。
在一些实施例中,显示设备200可以通过通信器220与外部控制设备1001或内容提供设备之间建立控制信号和数据信号发送和接收。
在一些实施例中,用户接口265,可用于接收控制装置1001(如:红外遥控器等)红外控制信号。
在一些实施例中,检测器230是显示设备200用于采集外部环境或与外部交互的信号。
在一些实施例中,检测器230包括光接收器,用于采集环境光线强度的传感器,可以通过采集环境光可以自适应性显示参数变化等。
在一些实施例中,检测器230中的图像采集器232,如相机、摄像头等,可以用于采集外部环境场景,以及用于采集用户的属性或与用户交互手势,可以自适应变化显示参数,也可以识别用户手势,以实现与用户之间互动的功能。
在一些实施例中,检测器230还可以包括温度传感器等,如通过感测环境温度。
在一些实施例中,显示设备200可自适应调整图像的显示色温。如当温度偏高的环境时,可调整显示设备200显示图像色温偏冷色调,或当温度偏低的环境时,可以调整显示设备200显示图像偏暖色调。
在一些实施例中,检测器230还可以包括声音采集器231等,如麦克风,可以用于采集语音数据,当用户通过语音方式说出指令时,麦克风能够采集到包括用户说出的指令的语音数据。示例性的,声音采集器231可以采集包括用户控制显示设备200的控制指令的语音信号,或采集环境声音,用于识别环境场景类型,使得显示设备200可以自适应适应环境噪声。
在一些实施例中,如图2所示,输入/输出接口255被配置为,可进行控制器250与外部其他设备或其他控制器250之间的数据传输。如接收外部设备的视频信号数据和音频信号数据、或命令指令数据等。
在一些实施例中,外部装置接口240可以包括,但不限于如下:可以高清多媒体接口HDMI接口、模拟或数据高清分量输入接口、复合视频输入接口、USB输入接口、RGB端口等任一个或多个接口。也可以是上述多个接口形成复合性的输入/输出接口。
在一些实施例中,如图2所示,调谐解调器210被配置为,通过有线或无线接收方式接收广播电视信号,可以进行放大、混频和谐振等调制解调处理,从多多个无线或有线广播电视信号中解调出音视频信号,该音视频信号可以包括用户所选择电视频道频率中所携带的电视音视频信号,以及EPG数据信号。
在一些实施例中,调谐解调器210解调的频点受到控制器250的控制,控制器250可根据用户选择发出控制信号,以使的调制解调器响应用户选择的电视信号频率以及调制解调该频率所携带的电视信号。
在一些实施例中,广播电视信号可根据电视信号广播制式不同区分为地面广播信号、有线广播信号、卫星广播信号或互联网广播信号等。或者根据调制类型不同可以区分为数字调制信号,模拟调制信号等。或者根据信号种类不同区分为数字信号、模拟信号等。
在一些实施例中,控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。这样,机顶盒将接收到的广播电视信号调制解调后的电视音视频信号输出给主体设备,主体设备经过第一输入/输出接口接收音视频信号。
在一些实施例中,控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250可以控制显示设备200的整体操作。例如:响应于接收到用于选择在显示器275上显示UI对象的用户命令,控制器250便可以执行与由用户命令选择的对象有关的操作。
在一些实施例中,所述对象可以是可选对象中的任何一个,例如超链接或图标。与所选择的对象有关操作,例如:显示连接到超链接页面、文档、图像等操作,或者执行与所述图标相对应程序的操作。用于选择UI对象用户命令,可以是通过连接到显示设备200的各种输入装置(例如,鼠标、键盘、触摸板等)输入命令或者与由用户说出语音相对应的语音命令。
如图2所示,控制器250包括随机存取存储器251(Random Access Memory,RAM)、只读存储器252(Read-Only Memory,ROM)、视频处理器270、音频处理器280、其他处理器253(例如:图形处理器(Graphics Processing Unit,GPU)、中央处理器254(CentralProcessing Unit,CPU)、通信接口(Communication Interface),以及通信总线256(Bus)中的至少一种。其中,通信总线连接各个部件。
在一些实施例中,RAM 251用于存储操作系统或其他正在运行中的程序的临时数据。
在一些实施例中,ROM 252用于存储各种系统启动的指令。
在一些实施例中,ROM 252用于存储一个基本输入输出系统,称为基本输入输出系统(Basic Input Output System,BIOS)。用于完成对系统的加电自检、系统中各功能模块的初始化、系统的基本输入/输出的驱动程序及引导操作系统。
在一些实施例中,在收到开机信号时,显示设备200电源开始启动,CPU运行ROM252中系统启动指令,将存储在存储器的操作系统的临时数据拷贝至RAM 251中,以便于启动或运行操作系统。当操作系统启动完成后,CPU再将存储器中各种应用程序的临时数据拷贝至RAM 251中,然后,以便于启动或运行各种应用程序。
在一些实施例中,CPU处理器254,用于执行存储在存储器中操作系统和应用程序指令。以及根据接收外部输入的各种交互指令,来执行各种应用程序、数据和内容,以便最终显示和播放各种音视频内容。
在一些示例性实施例中,CPU处理器254,可以包括多个处理器。多个处理器可包括一个主处理器以及一个或多个子处理器。主处理器,用于在预加电模式中执行显示设备200一些操作,和/或在正常模式下显示画面的操作。一个或多个子处理器,用于在待机模式等状态下一种操作。
在一些实施例中,图形处理器253,用于产生各种图形对象,如:图标、操作菜单、以及用户输入指令显示图形等。包括运算器,通过接收用户输入各种交互指令进行运算,根据显示属性显示各种对象。以及包括渲染器,对基于运算器得到的各种对象,进行渲染,上述渲染后的对象用于显示在显示器上。
在一些实施例中,视频处理器270被配置为将接收外部视频信号,根据输入信号的标准编解码协议,进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等等视频处理,可得到直接可显示设备200上显示或播放的信号。
在一些实施例中,视频处理器270,包括解复用模块、视频解码模块、图像合成模块、帧率转换模块和显示格式化模块等。
其中,解复用模块,用于对输入音视频数据流进行解复用处理,如输入MPEG-2,则解复用模块进行解复用成视频信号和音频信号等。
视频解码模块,则用于对解复用后的视频信号进行处理,包括解码和缩放处理等。
图像合成模块,如图像合成器,其用于将图形生成器根据用户输入或自身生成的GUI信号,与缩放处理后视频图像进行叠加混合处理,以生成可供显示的图像信号。
帧率转换模块,用于对转换输入视频帧率,如将60Hz帧率转换为120Hz帧率或240Hz帧率,通常的格式采用如插帧方式实现。
显示格式化模块,则用于将接收帧率转换后视频输出信号,改变信号以符合显示格式的信号,如输出RGB数据信号。
在一些实施例中,图形处理器253可以和视频处理器可以集成设置,也可以分开设置,集成设置的时候可以执行输出给显示器的图形信号的处理,分离设置的时候可以分别执行不同的功能,例如GPU+FRC(Frame Rate Conversion))架构。
在一些实施例中,音频处理器280,用于接收外部的音频信号,根据输入信号的标准编解码协议,进行解压缩和解码,以及降噪、数模转换、和放大处理等处理,得到可以在扬声器中播放的声音信号。
在一些实施例中,视频处理器270可以包括一颗或多颗芯片组成。音频处理器,也可以包括一颗或多颗芯片组成。
在一些实施例中,视频处理器270和音频处理器280,可以单独的芯片,也可以于控制器一起集成在一颗或多颗芯片中。
在一些实施例中,音频输出,在控制器250的控制下接收音频处理器280输出的声音信号,如:扬声器286,以及除了显示设备200自身携带的扬声器之外,可以输出至外接设备的发生装置的外接音响输出端子,如:外接音响接口或耳机接口等,还可以包括通信接口中的近距离通信模块,例如:用于进行蓝牙扬声器声音输出的蓝牙模块。
供电电源290,在控制器250控制下,将外部电源输入的电力为显示设备200提供电源供电支持。供电电源290可以包括安装显示设备200内部的内置电源电路,也可以是安装在显示设备200外部电源,在显示设备200中提供外接电源的电源接口。
用户接口265,用于接收用户的输入信号,然后,将接收用户输入信号发送给控制器250。用户输入信号可以是通过红外接收器接收的遥控器信号,可以通过网络通信模块接收各种用户控制信号。
在一些实施例中,用户通过控制装置1001或移动终端1002输入用户命令,用户输入接口则根据用户的输入,显示设备200则通过控制器250响应用户的输入。
在一些实施例中,用户可在显示器275上显示的图形用户界面(GUI)输入用户命令,则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
在一些实施例中,“用户界面”,是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface,GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。
存储器260,包括存储用于驱动显示设备200的各种软件模块。如:第一存储器中存储的各种软件模块,包括:基础模块、检测模块、通信模块、显示控制模块、浏览器模块、和各种服务模块等中的至少一种。
基础模块用于显示设备200中各个硬件之间信号通信、并向上层模块发送处理和控制信号的底层软件模块。检测模块用于从各种传感器或用户输入接口中收集各种信息,并进行数模转换以及分析管理的管理模块。
例如,语音识别模块中包括语音解析模块和语音数据数据库模块。显示控制模块用于控制显示器进行显示图像内容的模块,可以用于播放多媒体图像内容和UI界面等信息。通信模块,用于与外部设备之间进行控制和数据通信的模块。浏览器模块,用于执行浏览服务器之间数据通信的模块。服务模块,用于提供各种服务以及各类应用程序在内的模块。同时,存储器260还用存储接收外部数据和用户数据、各种用户界面中各个项目的图像以及焦点对象的视觉效果图等。
图3为本申请提供的一实施例中控制设备1001的配置框图。如图3所示,控制设备1001包括控制器110、通信接口130、用户输入/输出接口、存储器、供电电源。
控制设备1001被配置为控制显示设备200,以及可接收用户的输入操作指令,且将操作指令转换为显示设备200可识别和响应的指令,起用用户与显示设备200之间交互中介作用。如:用户通过操作控制设备1001上频道加减键,显示设备200响应频道加减的操作。
在一些实施例中,控制设备1001可是一种智能设备。如:控制设备1001可根据用户需求安装控制显示设备200的各种应用。
在一些实施例中,如图1所示,移动终端1002或其他智能电子设备,可在安装操控显示设备200的应用之后,可以起到控制设备1001类似功能。如:用户可以通过安装应用,在移动终端1002或其他智能电子设备上可提供的图形用户界面的各种功能键或虚拟按钮,以实现控制设备1001实体按键的功能。
控制器110包括处理器112和RAM 113和ROM 114、通信接口130以及通信总线。控制器用于控制控制设备1001的运行和操作,以及内部各部件之间通信协作以及外部和内部的数据处理功能。
通信接口130在控制器110的控制下,实现与显示设备200之间控制信号和数据信号的通信。如:将接收到的用户输入信号发送给显示设备200上。通信接口130可包括WiFi芯片131、蓝牙模块132、NFC模块133等其他近场通信模块中至少之一种。
用户输入/输出接口140,其中,输入接口包括麦克风141、触摸板142、传感器143、按键144等其他输入接口中至少一者。如:用户可以通过语音、触摸、手势、按压等动作实现用户指令输入功能,输入接口通过将接收的模拟信号转换为数字信号,以及数字信号转换为相应指令信号,发送给显示设备200。
输出接口包括将接收的用户指令发送给显示设备200的接口。在一些实施例中,可以红外接口,也可以是射频接口。如:红外信号接口时,需要将用户输入指令按照红外控制协议转化为红外控制信号,经红外发送模块进行发送给显示设备200。再如:射频信号接口时,需将用户输入指令转化为数字信号,然后按照射频控制信号调制协议进行调制后,由射频发送端子发送给显示设备200。
在一些实施例中,控制设备1001包括通信接口130和输入输出接口140中至少一者。控制设备1001中配置通信接口130,如:WiFi、蓝牙、NFC等模块,可将用户输入指令通过WiFi协议、或蓝牙协议、或NFC协议编码,发送给显示设备200。
存储器190,用于在控制器的控制下存储驱动和控制控制设备1001的各种运行程序、数据和应用。存储器190,可以存储用户输入的各类控制信号指令。
供电电源180,用于在控制器的控制下为控制设备1001各元件提供运行电力支持。可以电池及相关控制电路。
在一些实施例中,系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构,它们让用户可以管理文件、运行程序并使用系统。上电后,内核启动,激活内核空间,抽象硬件、初始化硬件参数等,运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后,再加载Shell和用户应用程序。应用程序在启动后被编译成机器码,形成一个进程。
图4为本申请提供的显示设备的软件系统示意图,参见图4,在一些实施例中,将系统分为四层,从上至下分别为应用程序(Applications)层(简称“应用层”),应用程序框架(Application Framework)层(简称“框架层”),安卓运行时(Android runtime)和系统库层(简称“系统运行库层”),以及内核层。
在一些实施例中,应用程序层中运行有至少一个应用程序,这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序、时钟程序、相机应用等;也可以是第三方开发者所开发的应用程序,比如嗨见程序、K歌程序、魔镜程序等。在具体实施时,应用程序层中的应用程序包不限于以上举例,实际还可以包括其它应用程序包,本申请实施例对此不做限制。
框架层为应用程序层的应用程序提供应用编程接口(application programminginterface,API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心,这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口,可在执行中访问系统中的资源和取得系统的服务
如图4所示,本申请实施例中应用程序框架层包括管理器(Managers),内容提供者(Content Provider)等,其中管理器包括以下模块中的至少一个:活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互;位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问;文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息;通知管理器(NotificationManager)用于控制通知消息的显示和清除;窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。
在一些实施例中,活动管理器用于:管理各个应用程序的生命周期以及通常的导航回退功能,比如控制应用程序的退出(包括将显示窗口中当前显示的用户界面切换到系统桌面)、打开、后退(包括将显示窗口中当前显示的用户界面切换到当前显示的用户界面的上一级用户界面)等。
在一些实施例中,窗口管理器用于管理所有的窗口程序,比如获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕,控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。
在一些实施例中,系统运行库层为上层即框架层提供支撑,当框架层被使用时,安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。
在一些实施例中,内核层是硬件和软件之间的层。如图4所示,内核层至少包含以下驱动中的至少一种:音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器,温度传感器,触摸传感器、压力传感器等)等。
在一些实施例中,内核层还包括用于进行电源管理的电源驱动模块。
在一些实施例中,图4中的软件架构对应的软件程序和/或模块存储在图2或图3所示的第一存储器或第二存储器中。
在一些实施例中,以魔镜应用(拍照应用)为例,当遥控接收装置接收到遥控器输入操作,相应的硬件中断被发给内核层。内核层将输入操作加工成原始输入事件(包括输入操作的值,输入操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件,根据焦点当前的位置识别该输入事件所对应的控件以及以该输入操作是确认操作,该确认操作所对应的控件为魔镜应用图标的控件,魔镜应用调用应用框架层的接口,启动魔镜应用,进而通过调用内核层启动摄像头驱动,实现通过摄像头捕获静态图像或视频。
在一些实施例中,对于具备触控功能的显示设备,以分屏操作为例,显示设备接收用户作用于显示屏上的输入操作(如分屏操作),内核层可以根据输入操作产生相应的输入事件,并向应用程序框架层上报该事件。由应用程序框架层的活动管理器设置与该输入操作对应的窗口模式(如多窗口模式)以及窗口位置和大小等。应用程序框架层的窗口管理根据活动管理器的设置绘制窗口,然后将绘制的窗口数据发送给内核层的显示驱动,由显示驱动在显示屏的不同显示区域显示与之对应的应用界面。
在一些实施例中,图5为本申请提供的显示设备能够提供的应用程序的示意图,如图5中所示,应用程序层包含至少一个应用程序可以在显示器中显示对应的图标控件,如:直播电视应用程序图标控件、视频点播应用程序图标控件、媒体中心应用程序图标控件、应用程序中心图标控件、游戏应用图标控件等。
在一些实施例中,直播电视应用程序,可以通过不同的信号源提供直播电视。例如,直播电视应用程可以使用来自有线电视、无线广播、卫星服务或其他类型的直播电视服务的输入提供电视信号。以及,直播电视应用程序可在显示设备200上显示直播电视信号的视频。
在一些实施例中,视频点播应用程序,可以提供来自不同存储源的视频。不同于直播电视应用程序,视频点播提供来自某些存储源的视频显示。例如,视频点播可以来自云存储的服务器端、来自包含已存视频节目的本地硬盘储存器。
在一些实施例中,媒体中心应用程序,可以提供各种多媒体内容播放的应用程序。例如,媒体中心,可以为不同于直播电视或视频点播,用户可通过媒体中心应用程序访问各种图像或音频所提供服务。
在一些实施例中,应用程序中心,可以提供储存各种应用程序。应用程序可以是一种游戏、应用程序,或某些和计算机系统或其他设备相关但可以在智能电视中运行的其他应用程序。应用程序中心可从不同来源获得这些应用程序,将它们储存在本地储存器中,然后在显示设备200上可运行。
更为具体地,在一些实施例中,本申请前述的任一显示设备200,均可具有语音交互的功能,来提高显示设备200的智能化程度,并提高显示设备200的用户体验。
在一些实施例中,图6为显示设备在语音交互场景的一种应用示意图,其中,用户1可以通过声音说出希望显示设备200执行的指令,则对于显示设备200可以实时采集语音数据,并对语音数据中包括的用户1的指令进行识别,并在识别出用户1的指令后,直接执行该指令,在整个过程中,用户1没有实际对显示设备200或者其他设备进行操作,只是简单地说出了指令。
在一些实施例中,当如图2所示的显示设备200应用在如图6所示的场景中,显示设备200可以通过其声音采集器231实时采集语音数据,随后,声音采集器231将采集得到的语音数据发送给控制器250,最终由控制器250对语音数据中包括的指令进行识别。
在一些实施例中,图7为显示设备应用在语音交互场景的流程示意图,可以由如图6所示场景中的显示设备执行,具体地,在S11中,显示设备200内的声音采集器231实时采集显示设备200所在周围环境中的语音数据,并将所采集到的语音数据发送给控制器250进行识别。
在一些实施例中,在如图7所示的S12中,控制器250在接收到语音数据后,对语音数据中包括的指令进行识别。例如,语音数据中包括用户1所出的“增大亮度”的指令,则控制器250并在识别到语音数据中包括的指令后,可以由该控制器250执行所识别出的指令,控制显示器275增加亮度。可以理解的是,这种情况下控制器250对每个接收到的语音数据进行识别,可能出现识别语音数据中没有指令情况。
而在另一些实施例中,基于指令识别的模型较大、运算效率较低,还可以规定用户1在说出指令前加入关键词,例如“ABCD”,则用户需要说出“ABCD,增大亮度”的指令,使得在如图7所示的S12中,控制器250在接收到语音数据后,首先对每个语音数据中是否有“ABCD”的关键词进行识别,在识别到有关键词之后,再使用指令识别模型对语音数据中的“增大亮度”对应的具体指令进行识别。
在一些实施例中,控制器250在接收到语音数据后,还可以对语音数据进行去噪,包括去除回声和环境噪声,处理为干净的语音数据,并将处理后的语音数据进行识别。
在一些实施例中,图7为显示设备在语音交互场景的另一种应用示意图,其中,显示设备200可以通过互联网与服务器400连接,则当显示设备200采集到语音数据后,可以将语音数据通过互联网发送给服务器400,由服务器400对语音数据中包括的指令进行识别,并将识别后的指令发送回显示设备200,使得显示设备200可以直接执行所接收到的指令。这种场景与如图6所示的场景相比,减少了对显示设备200运算能力的要求,能够在服务器400上设置更大的识别模型,来进一步提高对语音数据中指令识别的准确率。
在一些实施例中,当如图2所示的显示设备200应用在如图6所示的场景中,显示设备200可以通过其声音采集器231实时采集语音数据,随后,声音采集器231将采集得到的语音数据发送给控制器250,控制器250通过通信器220将语音数据发送给服务器400,由服务器400对语音数据中包括的指令进行识别后,显示设备200再通过通信器220接收服务器400发送的指令,并最终由控制器250执行所接收到的指令。
图8为显示设备在语音交互场景的一种应用示意图,在一些实施例中,图9为显示设备应用在语音交互场景的另一流程示意图,可以由如图8所示的场景中的设备执行,其中,在S21中,显示显示设备200内的声音采集器231实时采集显示设备200所在周围环境中的语音数据,并将所采集到的语音数据发送给控制器250,控制器250在S22中将语音数据进一步通过通信器220发送给服务器400,由服务器在S23中识别语音数据中包括的指令,随后,服务器400将识别得到的指令在S24中发送回显示设备200,对应地,显示设备200通过通信器220接收指令后发送给控制器250,最终控制器250可以直接执行所接收到的指令。
在一些实施例中,如图7所示的S23中,服务器400在接收到语音数据后,对语音数据中包括的指令进行识别。例如,语音数据中包括用户1所出的“增大亮度”的指令。而由于指令识别的模型较大,且服务器400对每个接收到的语音数据进行识别,可能出现识别语音数据中没有指令情况,因此为了降低服务器400进行无效的识别、以及减少显示设备200和服务器400之间的通信交互数据量,在具体实现时,还可以规定用户1在说出指令前加入关键词,例如“ABCD”,则用户需要说出“ABCD,增大亮度”的指令,随后,由显示设备200的控制器250在S22中,首先通过模型较小、运算量较低的关键词识别模型,对语音数据中是否存在关键词“ABCD”进行识别,若当前控制器250正在处理的语音数据中没有识别出关键词,则控制器250不会将该语音数据发送给服务器400;若当前控制器250正在处理的语音数据中识别出关键词,则控制器250再将该语音数据全部,或者语音数据中关键词之后的部分发送给服务器400,由服务器400对所接收到的语音数据进行识别。由于此时控制器250所接收到的语音数据中包括关键词,发送给服务器400所识别的语音数据中也更有可能包括用户的指令,因此能够减少服务器400的无效识别计算,也能够减少显示设备200和服务器400之间的无效通信。
在一些实施例中,为了让显示设备200能够具有如图6所示的一种具体场景中,对语音数据中指令的识别功能,或者,让显示设备200能够具有如图6或图8所示的一种具体场景中,对语音数据中关键词的识别功能,作为显示设备200的语音交互功能的供应商,还需要制作可用于识别指令或者识别关键词的机器学习模型,例如textcnn、transform等深度学习模型。并将这些模型存储在显示设备200中,由显示设备200在进行识别时使用。
在一些实施例中,图10为识别模型的供应商下发识别模型的示意图,其中,供应商所设置的服务器400得到识别模型(可以是指令识别模型,也可以是关键词识别模型)后,可以将识别模型发送给各个显示设备200。其中,如图10所示的过程可以是显示设备200在生产时进行,由服务器400将识别模型发送给每个显示设备200;或者,还可以在显示设备200开始使用后,服务器400通过互联网将识别模型发送给显示设备200。
在一些实施例中,服务器400可以具体通过采集语音数据,并基于机器学习模型进行学习的方式,得到识别模型。例如,图11为服务器400得到识别模型的一种流程示意图,其中,在S31中,各显示设备(以显示设备1-显示设备N,共N个为例)采集语音数据1-N,并在S32中将采集到的语音数据1-N发送给服务器400。随后,在S33中,供应商的工作人员可以通过人工标注的方式,将每个语音数据以及语音数据中包括的指令或者关键词进行标注后,将语音数据本身,以及语音数据对应的标注信息作为数据送入机器学习模型中,由服务器进行学习,学习得到的识别模型在后续使用时,当输入一个待识别的语音数据后,识别模型将该语音数据与已经学习的语音数据进行比对,并输出每个标注信息的概率,最终最大概率对应的标注信息可以作为待识别的语音数据的识别结果。在S34中,服务器400可以将计算得到的识别模型发送各显示设备。
在一些实施例中,服务器400也可以不使用如图11所示实施例中由显示设备1-N实际采集的语音数据计算识别模型,而是可以直接由工作人员输入不同的语音数据,以及每个语音数据的标注信息,并在计算得到识别模型后发送给各显示设备。
在一些实施例中,如图11所示的采集语音数据并发送给服务器的显示设备1-N,与服务器计算得到识别模型后,发送给显示设备1-N中可以是两个独立的过程,也就是说,S32中服务器接收到N个显示设备采集的语音数据,S34中服务器可以向另外N个显示设备发送所训练得到的识别模型。这两个过程中N个显示设备可以相同或不同,或者也可以部分相同。
在一些实施例中,由于在得到识别模型时,所使用的样本数量有限,使得显示设备200所设置的识别模型不可能做到完全百分百准确的识别,因此供应商还可以通过服务器400随时收集各显示设备200在实际使用过程中所采集的语音数据,并根据所采集的语音数据对已经识别得到的识别模型进行更新,来进一步提高识别模型的识别准确性。
例如,图12为服务器对识别模型进行更新的一种流程示意图,可以理解的是,在执行如图12所示的实施例之前,每个显示设备中按照如图10所示的方式,设置了识别模型。则在如图12所示S31中,各显示设备(以显示设备1-显示设备N,共N个为例)采集语音数据1-N,并在S32中将采集到的语音数据1-N发送给服务器400。随后,在S33中,供应商的工作人员可以通过人工标注的方式,将每个语音数据以及语音数据中包括的指令或者关键词进行标注后,将语音数据本身,以及语音数据对应的标注信息作为数据送入机器学习模型中,由服务器根据接收到的新的语音数据,对已经计算得到的识别模型进行更新,并在S34中,服务器400可以将更新后的识别模型重新发送各显示设备200,使得每个显示设备200可以使用更新后的识别模型进行更新。其中,对于这N个显示设备中的任一个显示设备而言,由于新的学习模型采用了这个显示设备200所采集的语音数据,因此可以有效地提高后续对这个显示设备200对所采集的语音数据进行识别的准确性。
在一些实施例中,如图12所示的每个显示设备,可以在接收到语音数据后就发送给服务器,或者,在固定的时间段结束后将在这个时间段内采集到的语音数据发送给服务器,又或者,当采集到的一定数量的语音数据后统一发送给服务器,又或者,可以根据显示设备的用户的指示、或者根据服务器的工作人员的指示将已经接收到的语音发送给服务器。
在一些实施例中,如图12所示的N个显示设备可以在同一个约定的时刻同时将语音数据发送给服务器,由服务器根据接收到的N个语音数据对识别模型进行更新;或者,N个显示设备还可以分别将语音数据发送给服务器,服务器在接收到语音数据的数量大于N个之后,即可开始根据接收到的语音数据对识别模型进行更新。
下面在正式介绍本申请实施例之前,先结合附图,结合本申请应用的场景对现有技术中存在的问题进行介绍。
本申请提供的自然语言的解析方法可以应用于如图1所示的场景中。如图1所示,显示设备200通过网络与服务器400进行通信,用户可通过移动终端1002或控制装置1001操作显示设备200。本申请实施例中,用户可以通过移动终端1002或控制装置1001向显示设备200输入语音数据(指令),显示设备100接收到用户输入的语音数据后,对语音数据进行识别,识别为文本后,向服务器400发送包括该文本的解析请求,由服务器400对该文本进行语义解析,得到语义解析结果,并根据语义解析结果确定用户意图信息,最后将用户意图信息发送给显示设备200,由显示设备200执行用户意图信息对应的操作,例如语音数据对应的文本为“我想听张三的歌曲”,服务器400确定的用户意图信息为张三的歌曲的相关信息,如张三的歌曲的链接和相关图片等信息,显示设备根据张三的歌曲的相关信息进行显示或播放。
现有的自然语言的解析方法中,在对语音数据对应的文本进行解析时,仅根据当前语音数据对应的文本进行语义解析,或者根据当前语音数据对应的文本和上一次的语音数据对应的文本进行语义解析。该方法仅能解析出意图明确的文本,对于意图模糊的文本的解析准确度不高;以及,对于没有上一次的语音数据对应的文本,仅能根据当前语音数据对应的文本解析,对于意图模糊的文本的解析准确度也不高;以及,在上一次的语音数据对应的文本解析的场景与当前显示内容所对应的场景不一致时,对根据当前语音数据对应的文本和上一次的语音数据对应的文本进行语义解析的准确度也不高。导致语义解析结果与用户意图出现偏差,用户体验不高。
为解决这一问题,本申请提供一种自然语言的解析方法及装置,本申请中考虑到意图模糊的文本可能是用户在某一场景下输入的语音数据对应的文本,用户输入语音数据时省略了场景可能会导致意图模糊,因此,本申请中通过显示设备在识别用户输入的语音数据对应的文本的同时,确定出当前显示内容所对应的候选场景(也即推测出用户当前可能所在的场景)和候选场景的权重,然后将用户输入的语音数据对应的文本和确定出的当前显示内容所对应的候选场景及候选场景的权重携带在解析请求中发送给服务器,服务器在对文本进行解析时,可结合用户当前可能所在的场景对文本进行解析,不再是仅根据文本进行语义解析,或者根据文本和上一次的语音数据对应的文本进行语义解析,例如:用户当前正在观看浏览电影,用户输入语音数据“最新的”,服务器可解析出用户意图为“最新的电影”,从而可提高语义解析的准确度,提高用户体验。
下面以具体的实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图13为本申请实施例提供的自然语言的解析方法实施例的交互流程图,如图13所示,本实施例的方法可以包括:
S101、显示设备接收用户输入的当前语音数据。
具体地,例如用户可以通过图1中所示的移动终端或控制装置向显示设备输入语音数据(指令)。显示设备接收到用户输入的语音数据后,对语音数据进行识别,识别为文本。
S102、显示设备确定当前显示内容所对应的候选场景和候选场景的权重。
本申请实施例中,场景为显示设备所显示内容划分的业务对应的场景,场景可以根据现有的不同显示设备的业务进行划分后预先设置,还可以根据新增的业务更新,例如本申请实施例中的场景可以包括:电影、电视剧、综艺、显示设备控制(如电视控制)、音乐、应用、百科、教育、游戏、购物、天气、菜谱、英文和体育等。上述场景仅是举例,实际应用时不限于上述这些场景。
具体地,显示设备接收到用户输入的语音数据后,对语音数据进行识别,识别为文本,同时还要确定当前显示内容所对应的候选场景和候选场景的权重。
作为一种可实施的方式,可以是根据当前播放节目的类型、当前开启的应用和当前显示的混合应用界面中的任一项,确定当前显示内容所对应的候选场景和候选场景的权重。
其中,根据当前播放节目的类型和当前开启的应用可以直接确定当前显示内容所对应的场景,当前播放节目的类型例如可以包括音乐、电影、综艺和天气等,相应地,当前显示内容所对应的场景即可以为音乐、电影、综艺和天气。当前开启的应用可以包括音乐应用(APP)、购物应用、天气应用、教育应用、影视应用和控制应用等,相应地,当前显示内容所对应的场景即可以为音乐、购物、天气、教育、影视和控制。
其中,当前显示的混合应用界面是显示设备的混合应用界面,例如,显示设备以电视为例,电视开启后进入的首页即为一种混合应用界面,图14为本申请实施例提供的一种混合应用界面的显示示意图,如图14所示,混合应用界面显示的内容包括电影、综艺、音乐、广告位、推荐和其它。用户选择某一项内容,即可进入对应的应用或播放对应的内容。可以理解的是,若当前显示的是混合应用界面,则用户选择的场景是不确定的,即为候选场景,此时需要确定出候选场景的权重,以便于服务器根据候选场景的权重结合候选场景进行语义解析。
作为一种可实施的方式,S102可以为:
S1021、若用户界面显示的是当前播放节目,将当前播放节目的类型对应的场景确定为当前显示内容所对应的候选场景,将预设权重范围中的权重最大值确定为当前播放节目的类型对应的场景的权重。
S1022、若用户界面显示的是当前开启的应用,将当前开启的应用对应的场景确定为当前显示内容所对应的候选场景,将预设权重范围中的权重最大值确定为当前开启的应用对应的场景的权重。
具体来说,根据当前播放节目的类型和当前开启的应用可以直接确定当前显示内容所对应的场景,因此在确定这两种情形下的侯选场景的权重时,可以将预设权重范围中的权重最大值确定为当前播放节目的类型对应的场景的权重。例如预设权重范围为0~1,权重最大值为1,权重最小值为0。
S1023、若用户界面显示的是混合应用界面,根据混合应用界面的界面元素确定当前显示内容所对应的候选场景和候选场景的权重。
具体地,若用户界面显示的是混合应用界面,即当前显示内容为混合应用界面,此时当前显示内容所对应的场景是不确定的,即为候选场景。以图14所示的混合应用界面为例,混合应用界面显示的内容包括电影、综艺、音乐、最近观看、推荐和其它,相应地,该混合应用界面的界面元素即为电影、综艺、音乐、最近观看、推荐和其它。该情形下,作为一种可实施的方式,根据混合应用界面的界面元素确定当前显示内容所对应的候选场景和候选场景的权重,具体可以为:
首先,渲染混合应用界面的界面元素时,根据界面元素的位置和大小与预设权重配置范围为每一界面元素配置场景标签和权重。
具体地,显示设备在渲染混合应用界面的界面元素时,对于每个界面元素,可以根据位置和大小与预设权重配置范围配置场景标签和权重,图15为本申请实施例提供的一种为混合应用界面的界面元素配置场景标签和权重后的示意图,如图15所示,该混合应用界面一共有18个界面元素,预设权重配置范围例如为1-5分(最低为1分,最高为5分),根据界面元素的位置和大小来配置场景标签对应的权重,其中的场景标签可以是根据位置预先设置的,如位于混合应用界面中央位置、且面积最大的界面元素的场景标签为电影1,其权重为最高分5分,位于混合应用界面右侧的三个界面元素的场景标签和权重分别为电影2:4分、综艺1:4分以及音乐:4分,位于混合应用界面左侧的四个界面元素的场景标签和权重分别为综艺2:2分、综艺3:2分、综艺4:2分、综艺5:2分,位于混合应用界面中央的面积较小的四个界面元素的场景标签和权重分别为电影3:3分、电影4:3分、电影5:3分、电影6:3分,位于混合应用界面上边的五个界面元素中,其中两个界面元素的场景标签和权重分别为其它:1分、推荐:1分,位于混合应用界面最下方的界面元素为广告位,由于用户一般不会点击广告位,广告位没有场景标签和权重。
接着,根据每一界面元素配置的权重进行归一化计算,得到每一界面元素的归一化权重。
具体地,根据每一界面元素配置的权重进行归一化计算,可以是根据如下公式进行归一化计算,得到每一界面元素的归一化权重XC:
其中,X为界面元素配置的权重,Xmax和Xmin分别为预设权重配置范围中的最高分和最低分,预设权重配置范围例如为1-5分,Xmax和Xmin分别为5分和1分。以图15中所示的场景标签和权重为例,根据每一界面元素配置的权重进行归一化计算,通过如上公式计算,得到每一界面元素的归一化权重如下表一所示:
表一 每一界面元素的归一化权重
然后,根据场景标签对混合应用界面的所有界面元素的场景标签和归一化权重求和并归一,得到每一场景标签的归一权重。
具体地,不同的界面元素的场景标签可以相同,具体可以是将场景标签相同的界面元素的归一化权重求和,例如场景标签t对应的所有界面元素为t1、t2、…tn,界面元素t1、t2、…tn的归一化权重分别为g1、g2、…gn,场景标签t的归一化权重求和后为g1+g2+…+gn。例如,对表一所示的界面元素的场景标签和归一化权重求和并归一,归一同样地采用上述公式根据表二的求和后的归一化权重,此时的Xmax和Xmin分别为3.75和0,通过计算,得到每一场景标签的归一权重如下表二所示:
表二 每一场景标签的归一权重
场景标签 | 归一化权重求和 | 归一权重 |
其他 | 0 | 0 |
推荐 | 0 | 0 |
电影 | 3.75 | 1 |
综艺 | 1.75 | 0.47 |
音乐 | 0.75 | 0.2 |
最后,将归一权重大于预设阈值的场景标签确定为当前显示内容所对应的候选场景,将对应场景标签的归一权重确定为候选场景的权重。
例如,预设阈值为0.5,将归一权重大于0.5的场景标签确定为当前显示内容所对应的候选场景,将对应场景标签的归一权重确定为其权重,如表二中,归一权重大于0.5的场景标签为1,则将电影确定为当前显示内容所对应的候选场景,电影的归一权重为1,则候选场景“电影”的权重为1。
S103、显示设备向服务器发送解析请求,解析请求包括当前显示内容所对应的候选场景、候选场景的权重和当前语音数据对应的文本。
具体地,显示设备通过S101和S102获得当前语音数据对应的文本和当前显示内容所对应的候选场景与候选场景的权重后,向服务器发送解析请求。
本实施例中,通过显示设备在识别用户输入的语音数据对应的文本的同时,确定出当前显示内容所对应的候选场景(也即推测出用户当前可能所在的场景)和候选场景的权重,然后将用户输入的语音数据对应的文本和确定出的当前显示内容所对应的候选场景及候选场景的权重携带在解析请求中发送给服务器,使得服务器在对文本进行解析时,可结合用户当前可能所在的场景对文本进行解析,不再是仅根据文本进行语义解析,或者根据文本和上一次的语音数据对应的文本进行语义解析,从而可提高语义解析的准确度,提高用户体验。
S104、服务器接收显示设备发送的解析请求,根据当前显示内容所对应的候选场景和候选场景的权重对当前语音数据对应的文本进行语义解析,得到语义解析结果,并根据语义解析结果确定用户意图信息。
具体地,服务器接收到显示设备发送的解析请求后,在根据当前显示内容所对应的候选场景和候选场景的权重对当前语音数据对应的文本进行语义解析之前,可选的,还需要确定不存在当前语音数据的上一次的语音数据对应的文本。即,确定不存在上文时,才根据当前显示内容所对应的候选场景和候选场景的权重对当前语音数据对应的文本进行语义解析,若确定存在当前语音数据的上一次的语音数据对应的文本,即确定存在上文时,则根据当前语音数据的上一次的语音数据对应的文本解析的场景与当前显示内容所对应的候选场景、候选场景的权重和当前语音数据对应的文本进行语义解析,得到语义解析结果。若确定存在上文(即当前语音数据的上一次的语音数据对应的文本),则结合对上文解析的场景与当前显示内容所对应的候选场景、候选场景的权重和当前语音数据对应的文本进行语义解析,由于上文是用户输入的语音数据,可以提高意图解析的准确性。从而,本实施例可实现对于没有上一次的语音数据对应的文本时,根据当前显示内容所对应的候选场景和候选场景的权重对当前语音数据对应的文本进行语义解析,可以提高意图解析的准确性。
作为一种可实施的方式,根据当前语音数据的上一次的语音数据对应的文本解析的场景与当前显示内容所对应的候选场景、候选场景的权重和当前语音数据对应的文本进行语义解析,得到语义解析结果,可以为:
若当前语音数据的上一次的语音数据对应的文本解析的场景与当前显示内容所对应的候选场景的相似度大于或等于相似度阈值,根据当前语音数据的上一次的语音数据对应的文本解析的场景对当前语音数据对应的文本进行语义解析,得到语义解析结果。
若当前语音数据的上一次的语音数据对应的文本解析的场景与当前显示内容所对应的候选场景的相似度小于相似度阈值,根据当前显示内容所对应的候选场景和候选场景的权重对当前语音数据对应的文本进行语义解析,得到语义解析结果。
具体来说,当前语音数据的上一次的语音数据对应的文本解析的场景即为对上文解析的场景,先比较对上文解析的场景和当前显示内容所对应的候选场景的相似度,若二者的相似度大于或等于相似度阈值,即上一次的语音数据对应的文本解析的场景与当前显示内容所对应的场景一致,则根据当前语音数据的上一次的语音数据对应的文本解析的场景对当前语音数据对应的文本进行语义解析,得到语义解析结果,若二者的相似度小于相似度阈值,即上一次的语音数据对应的文本解析的场景与当前显示内容所对应的场景不一致,则根据当前显示内容所对应的候选场景和候选场景的权重对当前语音数据对应的文本进行语义解析,得到语义解析结果。通过在上一次的语音数据对应的文本解析的场景与当前显示内容所对应的场景不一致时,根据当前显示内容所对应的候选场景和候选场景的权重对当前语音数据对应的文本进行语义解析,从而可以提高语义解析的准确度,降低语义解析结果与用户意图出现偏差的概率。
需要说明的是,当前显示内容所对应的候选场景可以为一个或多个,若未多个,则对于每个候选场景,处理流程相同,均是先比较上述二者的相似度,然后根据相似度和相似度阈值的大小确定语义解析的依据并进行语义解析。
如下表三为本申请实施例中当前显示内容所对应的候选场景、当前语音数据对应的文本和语义解析结果的对应关系示例,本申请实施例提供的自然语言的解析方法,可以结合当前显示内容所对应的候选场景对当前语音数据对应的文本进行语义解析,提高了语义解析的准确度,提高了用户体验。
表三 结合场景的语义解析结果示例
得到语义解析结果后,根据语义解析结果确定用户意图信息,例如,语义解析结果为“最新的电影”,根据该语义解析结果可以确定用户意图,还需要服务器从资源库中获取最新的电影的信息作为用户意图信息,如影片的链接和图片等信息。
S105、服务器将用户意图信息发送至显示设备。
S106、显示设备接收服务器发送的用户意图信息,执行用户意图信息对应的操作。
具体地,显示设备接收到服务器发送的用户意图信息后,执行用户意图信息对应的操作,例如可以是在显示界面显示用户意图信息,例如播放电影或音乐,显示图片等。
本实施例提供的自然语言的解析方法,通过显示设备在识别用户输入的语音数据对应的文本的同时,确定出当前显示内容所对应的候选场景和候选场景的权重,然后将用户输入的语音数据对应的文本和确定出的当前显示内容所对应的候选场景及候选场景的权重携带在解析请求中发送给服务器,使得服务器在对文本进行解析时,根据当前显示内容所对应的候选场景和候选场景的权重对当前语音数据对应的文本进行语义解析,得到语义解析结果,并根据语义解析结果确定用户意图信息,从而使得服务器在对文本进行解析时,可结合当前显示内容所对应的候选场景对文本进行解析,不再是仅根据文本进行语义解析,或者根据文本和上一次的语音数据对应的文本进行语义解析,从而可提高语义解析的准确度,提高用户体验。
图16为本申请实施例提供的自然语言的解析方法实施例的流程图,如图16所示,本实施例的方法在图13所示方法的基础上,可选的,图13中所示实施例中S104中的根据当前显示内容所对应的候选场景和候选场景的权重对当前语音数据对应的文本进行语义解析,得到语义解析结果,可以通过如下步骤实现,本实施例的执行主体可以为服务器。
S1041、对当前语音数据对应的文本进行分词标注,得到分词标注信息,分词标注信息包括至少一个词语和每个词语对应的属性标注。
具体来说,分词标注涉及到分词和词性标注。词是最小的能够独立活动的有意义的语言成分,分词是自然语言处理第一步,区别于英文每个词通过空格或者标点符号分割开,中文中很难对词的边界进行界定。目前主流的分词为基于规则、统计和理解3大类。本申请实施例中采用基于规则的分词,以词库为依据,使用正向最大匹配算法,进行分词。比如:“我想看小猪佩奇的动画片”,分词完成为:我想,看,小猪佩奇,的,动画片。
其中,词性标注是以词的特点作为划分词类的依据,是一种分类方法。本申请实施例中,可以是使用依托于词库基于规则的分词标注方法,例如:文本为“我想看小猪佩奇的动画片”,分词标注后得到的分词标注信息为:{我想-我想[funcwordintention]},{看-看[actionWatch,funcwordexcl]},{小猪佩奇-小猪佩奇[title,eduKeys]},{的-的[funcwordstructaux]},{动画片-动画[rname,musicType,mtype,eduRname]}。其中的“我想”、“看”、“小猪佩奇”、“的”和“动画片”为分词标注信息中的词语,其中的“我想[funcwordintention]”、“看[actionWatch,funcwordexcl]”、“小猪佩奇[title,eduKeys]”、“的[funcwordstructaux]”、“动画[rname,musicType,mtype,eduRname]”为分词标注信息中每个词语对应的属性标注。
S1042、根据分词标注信息进行领域意图定位,确定是否定位到第一领域意图。
具体地,通过分词标注得到分词标注信息后,先根据分词标注信息进行领域意图定位,确定是否定位到第一领域意图,若是则执行S1043,若否,则执行S1044。
本实施例中,可选的,S1042有如下两种可实施的方式:
方式一、将分词标注信息与预设的规则模板进行匹配,确定是否匹配到第一领域意图,其中,预设的规则模板包括标注、正则表达式和权重。
其中,预设的规则模板可以是基于规则的文本逻辑处理,通过大数据分析将用户使用频率高且有一定的规则的文本进行抽象提取,并编写得到预设规则模板。
例如如下4个规则模板为:
(1)、《cast》的电影,1.0--电影领域
(2)、买《districtcn》飞往《districtcn》的机票,1.0--票务领域
(3)、《districtcn》的天气,1.0--天气领域
(4)、百科《.*》,0.9--百科领域
4个规则模板对应的领域意图分别为电影领域、票务领域、天气领域和百科领域,规则模板(1)中,“cast”为标注,《》的电影为正则表达式,1.0为权重。规则模板(2)中,“districtcn”和“districtcn”为标注,买《》飞往《》的机票为正则表达式,1.0为权重。规则模板(3)中,“districtcn”为标注,《》的天气为正则表达式,1.0为权重。规则模板(4)中,“.*”为标注,百科《》为正则表达式,0.9为权重。
具体地,将分词标注信息中的每一词语和词语对应的属性标注与预设的规则模板进行匹配,确定是否匹配到对应的领域意图,若匹配到,则将匹配到的领域意图作为第一领域意图。
方式二、将分词标注信息与预设的依存句法关系和权重进行匹配,确定是否匹配到第一领域意图,预设的依存句法关系根据依存句法树配置。
具体地,句法结构本质上包含词和词对之间的关系。这种关系就是依存关系(dependency relations)。其中,一个依存关系连接两个词,一个是核心词(head),一个是修饰词(dependant)。依存句法分析结果的一种典型表示形式为依存句法树。依存关系可以包括:主谓关系、动宾关系、间宾关系、前置宾语、兼语、定中关系、状中关系、动补关系、并列关系、介宾关系、左附加关系、右附加关系、独立结构和核心关系等。
本实施例中,可以通过经验知识编写各个领域对应的核心词,以及其他词同核心词的依存关系,例如:
先确定各领域核心词,以影视领域和音乐领域为例:
影视领域核心词:rname(视频分类),title(视频名)
音乐领域核心词:musicKey(音乐关键词),musicName(歌曲名)
接着,配置当前句法的依存关系及权重,例如为:
修饰词+核心词+权重(weight):
{center:”rname”,index:[cast,rname],weight:1.0},
{center:”musicName”,index:[singer,musicName],weight:1.0}
动词+核心词:
{center:”rname”,index:[watch,rname],weight:1.0},
{center:”musicName”,index:[listen,musicName],weight:1.0}
具体地,将分词标注信息与预设的依存句法关系和权重进行匹配,例如将“张三的”进行分词标注获得分词标注信息:[{张三-张三[cast,singer,videoRoleNameFeeble]},{的-的[funcwordstructaux]}],将分词标注信息中的词语和属性标注:[{张三-张三[cast,singer,videoRoleNameFeeble]},{的-的[funcwordstructaux]}],与上述预设的依存句法关系和权重进行匹配,无法发现领域核心词。
S1043、若定位到第一领域意图,将第一领域意图确定为语义解析结果。
例如,若定位到第一领域意图为“最新的电影”,则将“最新的电影”确定为语义解析结果。
S1044、若未定位到第一领域意图,根据当前显示内容所对应的候选场景和候选场景的权重对分词标注信息进行领域意图定位,将定位到的第二领域意图确定为语义解析结果。
具体地,根据当前显示内容所对应的候选场景和候选场景的权重对分词标注信息进行领域意图定位,可以为:
首先,对于当前显示内容所对应的每一候选场景,根据预设的场景和相关词列表的映射关系,确定每一候选场景的相关词列表,相关词列表包括至少一个相关词和每个相关词对应的属性标注。
其中,本实施例中,在该实施方式中,需要预设场景和相关词列表的映射关系,相关词列表包括至少一个相关词和每个相关词对应的属性标注,如下表四为一个场景和相关词列表的映射关系示例:
表四 场景和相关词列表的映射关系
场景 | 相关词 | 属性标注 |
movie | 电影 | rname,programType,programRname |
movie | 影视 | rname,musicType,SLLO,SLLOALONE |
music | 歌曲 | musicKey |
music | 音乐 | musicKey,appTag |
edu | 教育 | Mtype,programType,eduKeyWords,vodChann |
接着,将每一候选场景的相关词列表分别与分词标注信息组合,得到与每一候选场景对应的组合分词标注信息,每一候选场景对应至少一个组合分词标注信息。
例如,候选场景为movie和music,候选场景movie和music分别对应两个相关词列表,候选场景movie和music的相关词列表分别为:
电影-电影[rname,programType,programRname]
影视-影视[rname,musicType,SILO,SILOALONE]
歌曲-歌曲[musicKey]
音乐-音乐[musicKey,appTag]
对于每一候选场景,将候选场景的相关词列表与分词标注信息组合,得到候选场景对应的组合分词标注信息,本实施例中还是以分词标注信息为[{张三-张三[cast,singer,videoRoleNameFeeble]},{的-的[funcwordstructaux]}]为例,对于候选场景movie,将相关词列表:电影-电影[rname,programType,programRname]与分词标注信息组合,得到候选场景movie对应的组合分词标注信息:[{张三-张三[cast,singer,videoRoleNameFeeble]},{的-的[funcwordstructaux]},电影-电影[rname,programType,programRname]}]。将相关词列表:影视-影视[rname,musicType,SILO,SILOALONE]与分词标注信息组合,得到候选场景movie对应的组合分词标注信息:[{张三-张三[cast,singer,videoRoleNameFeeble]},{的-的[funcwordstructaux]},影视-影视[rname,musicType,SILO,SILOALONE]}]。
对于候选场景music,将相关词列表:歌曲[musicKey]与分词标注信息组合,得到候选场景music对应的组合分词标注信息:[{张三-张三[cast,singer,videoRoleNameFeeble]},{的-的[funcwordstructaux]},{歌曲-歌曲[musicKey]}]。将相关词列表:音乐-音乐[musicKey,appTag]与分词标注信息组合,得到候选场景music对应的组合分词标注信息:[{张三-张三[cast,singer,videoRoleNameFeeble]},{的-的[funcwordstructaux]},{音乐-音乐[musicKey,appTag]}]。
接着,根据与每一候选场景对应的组合分词标注信息进行领域意图定位,得到至少一个领域意图和权重。
具体地,根据与每一候选场景对应的组合分词标注信息进行领域意图定位,和上述根据分词标注信息进行领域意图定位的具体方式相同,可选的,有两种可实施的方式,详细可参见上述方式一和方式二,此处不再赘述。区别仅在于进行领域意图定位的输入不同,根据组合分词标注信息进行领域意图定位,由于加入了场景对应的相关词列表,因此领域意图的定位更准确,可定位出至少一个领域意图和权重。
最后,根据至少一个领域意图和权重与候选场景的权重确定出第二领域意图。
具体地,得到至少一个领域意图和权重,每一候选场景的权重已知,根据至少一个领域意图和权重与每一候选场景的权重确定出第二领域意图,具体可以是计算每个领域意图的最终定位权重,定位权重可以为领域意图的权重与候选场景的权重之积。计算出定位权重后,可以是将权重最大的领域意图作为第二领域意图,例如第二领域意图为影视,则服务器进一步进行影视搜索,影视搜索结果即为用户意图信息,将该用户意图信息发送给显示设备进行显示。
本实施例提供的自然语言的解析方法,在根据当前显示内容所对应的候选场景和候选场景的权重对当前语音数据对应的文本进行语义解析时,通过先对当前语音数据对应的文本进行分词标注,得到分词标注信息,然后根据分词标注信息进行领域意图定位,确定是否定位到第一领域意图,若定位到第一领域意图,表明当前语音数据对应的文本是意图明确的文本,是可以直接定位出领域意图的,则将第一领域意图确定为语义解析结果;若未定位到第一领域意图,表明当前语音数据对应的文本是意图模糊的文本,不能直接定位出领域意图,则根据当前显示内容所对应的候选场景、候选场景的权重和分词标注信息进行领域意图定位,将定位到的第二领域意图确定为语义解析结果,即就是结合当前显示内容所对应的候选场景对分词标注信息进行领域意图定位,这样可以提高语义解析的准确度。
下面采用一个具体的实施例,对图13和图16所示方法实施例的技术方案进行详细说明。
图17为本申请实施例提供的自然语言的解析方法实施例的流程图,如图17所示,本实施例的方法可以包括:
S201、用户语音输入当前语音数据。
S202、显示设备接收到用户输入的当前语音数据,根据当前播放节目的类型、当前开启的应用和当前显示的混合应用界面中的任一项,确定当前显示内容所对应的候选场景和候选场景的权重。
S203、显示设备向服务器发送解析请求,解析请求包括当前显示内容所对应的候选场景、候选场景的权重和当前语音数据对应的文本。
本实施例中和下文图18所示的实施例中,以当前显示内容所对应的候选场景为movie和music为例,如当前显示内容所对应的候选场景的权重例如为:[{scene:movie,weight:0.98},{scene:music,weight:0.6}],其中权重(weight)分别为0.98和0.6。
S204、服务器接收显示设备发送的解析请求,确定是否存在当前语音数据的上一次的语音数据对应的文本。
若否,则执行S205,若是,则执行S206。
S205、服务器根据当前显示内容所对应的候选场景和候选场景的权重对当前语音数据对应的文本进行语义解析,得到语义解析结果,并根据语义解析结果确定用户意图信息。
S206、服务器根据当前语音数据的上一次的语音数据对应的文本解析的场景与当前显示内容所对应的候选场景、候选场景的权重和当前语音数据对应的文本进行语义解析,得到语义解析结果,并根据语义解析结果确定用户意图信息。
具体地,S206可以包括:
S2061、服务器确定当前语音数据的上一次的语音数据对应的文本解析的场景与当前显示内容所对应的候选场景的相似度是否大于或等于相似度阈值。
若是,执行S2062,若否,执行S2063。
S2062、服务器根据当前语音数据的上一次的语音数据对应的文本解析的场景对当前语音数据对应的文本进行语义解析,得到语义解析结果。
S2063、服务器根据当前显示内容所对应的候选场景和候选场景的权重对当前语音数据对应的文本进行语义解析,得到语义解析结果。
需要说明的是,S2063与S205相同。
本实施例中的S201-S206的具体过程或实施方式详细可参见图13所示实施例中的描述,此处不再赘述。
本实施例提供的自然语言的解析方法,通过显示设备在识别用户输入的语音数据对应的文本的同时,根据当前播放节目的类型、当前开启的应用和当前显示的混合应用界面中的任一项,确定出当前显示内容所对应的候选场景和候选场景的权重,然后将用户输入的语音数据对应的文本和确定出的当前显示内容所对应的候选场景及候选场景的权重携带在解析请求中发送给服务器,使得服务器在对文本进行解析时,根据当前显示内容所对应的候选场景和候选场景的权重对当前语音数据对应的文本进行语义解析,得到语义解析结果,并根据语义解析结果确定用户意图信息,从而使得服务器在对文本进行解析时,可结合当前显示内容所对应的候选场景对文本进行解析,不再是仅根据文本进行语义解析,或者根据文本和上一次的语音数据对应的文本进行语义解析,从而可提高语义解析的准确度,提高用户体验。
下面结合图18详细说明S205或S2063中服务器根据当前显示内容所对应的候选场景和候选场景的权重对当前语音数据对应的文本进行语义解析,得到语义解析结果的一种具体的可实施方式。
图18为本申请实施例提供的自然语言的解析方法实施例的流程图,本实施例的执行主体可以为服务器,如图18所示,本实施例的方法可以包括:
S301、对当前语音数据对应的文本进行分词标注,得到分词标注信息,分词标注信息包括至少一个词语和每个词语对应的属性标注。
具体地,本实施例中,以当前语音数据对应的文本为:“张三的”为例,张三为歌手,对当前语音数据对应的文本“张三的”进行分词标注,得到分词标注信息:[{张三-张三[cast,singer,videoRoleNameFeeble]},{的-的[funcwordstructaux]}]。
S302、根据分词标注信息进行领域意图定位,确定是否定位到第一领域意图。
由于“张三的”,这个意图是模糊的,此时是无法定位到领域意图的。接着执行S303。
具体地,S302有如下两种可实施的方式:
方式一、将分词标注信息与预设的规则模板进行匹配,确定是否匹配到第一领域意图,其中,预设的规则模板包括标注、正则表达式和权重。
例如预设的规则模板为如下4个:
(1)、《cast》的电影,1.0--电影领域
(2)、买《districtcn》飞往《districtcn》的机票,1.0--票务领域
(3)、《districtcn》的天气,1.0--天气领域
(4)、百科《.*》,0.9--百科领域
将分词标注信息[{张三-张三[cast,singer,videoRoleNameFeeble]},{的-的[funcwordstructaux]}]中的每一词语和词语对应的属性标注与预设的上述规则模板进行匹配,无法匹配到任何领域意图,此时例如可以向显示设备发送UNKNOWN。
方式二、将分词标注信息与预设的依存句法关系和权重进行匹配,确定是否匹配到第一领域意图,预设的依存句法关系根据依存句法树配置。
例如,预设的依存句法关系和权重如下:
修饰词+核心词+权重(weight):
{center:”rname”,index:[cast,rname],weight:1.0},
{center:”musicName”,index:[singer,musicName],weight:1.0}
动词+核心词:
{center:”rname”,index:[watch,rname],weight:1.0},
{center:”musicName”,index:[listen,musicName],weight:1.0}
具体地,将分词标注信息与预设的依存句法关系和权重进行匹配,例如将“张三的”进行分词标注获得分词标注信息:[{张三-张三[cast,singer,videoRoleNameFeeble]},{的-的[funcwordstructaux]}],将分词标注信息中的词语和属性标注:[{张三-张三[cast,singer,videoRoleNameFeeble]},{的-的[funcwordstructaux]}],与上述预设的依存句法关系和权重进行匹配,无法发现领域核心词,此时例如可以向显示设备发送UNKNOWN。
S303、对于当前显示内容所对应的每一候选场景,根据预设的场景和相关词列表的映射关系,确定每一候选场景的相关词列表,相关词列表包括至少一个相关词和每个相关词对应的属性标注。
本实施例中,例如,预设的场景和相关词列表的映射关系如表四所示,本实施例中当前显示内容所对应的候选场景有两个,[{scene:movie,weight:0.98},{scene:music,weight:0.6}],候选场景的权重分别为0.98和0.6。
根据表四所示,候选场景movie和music分别对应两个相关词列表,候选场景movie和music的相关词列表分别为:
电影-电影[rname,programType,programRname]
影视-影视[rname,musicType,SILO,SILOALONE]
歌曲-歌曲[musicKey]
音乐-音乐[musicKey,appTag]
S304、将每一候选场景的相关词列表分别与分词标注信息组合,得到与每一候选场景对应的组合分词标注信息,每一候选场景对应至少一个组合分词标注信息。
具体地,对于每一候选场景,将候选场景的相关词列表与分词标注信息组合,得到候选场景对应的组合分词标注信息,本实施例中分词标注信息为[{张三-张三[cast,singer,videoRoleNameFeeble]},{的-的[funcwordstructaux]}]为例,对于候选场景movie和music,得到候选场景对应的组合分词标注信息如下:
(1)[{张三-张三[cast,singer,videoRoleNameFeeble]},{的-的[funcwordstructaux]},电影-电影[rname,programType,programRname]}]。
(2)[{张三-张三[cast,singer,videoRoleNameFeeble]},{的-的[funcwordstructaux]},影视-影视[rname,musicType,SILO,SILOALONE]}]。
(3)[{张三-张三[cast,singer,videoRoleNameFeeble]},{的-的[funcwordstructaux]},{歌曲-歌曲[musicKey]}]。
(4)[{张三-张三[cast,singer,videoRoleNameFeeble]},{的-的[funcwordstructaux]},{音乐-音乐[musicKey,appTag]}]。
S305、根据与每一候选场景对应的组合分词标注信息进行领域意图定位,得到至少一个领域意图和权重。
具体地,根据与每一候选场景对应的组合分词标注信息再次进行领域意图定位,例如,对于方式一:
预设的规则模板为如下4个:
(1)、《cast》的电影,1.0--电影领域
(2)、买《districtcn》飞往《districtcn》的机票,1.0--票务领域
(3)、《districtcn》的天气,1.0--天气领域
(4)、百科《.*》,0.9--百科领域
对于第(1)个组合分词标注信息,遍历规则模板,从第一个规则模板开始“《cast》的电影”,提取规则模板中的属性标注cast,判断第(1)个组合分词标注信息中是否存在cast,第(1)个组合分词标注信息[{张三-张三[cast,singer,videoRoleNameFeeble]},{的-的[funcwordstructaux]},电影-电影[rname,programType,programRname]}]中存在cast,故将当前语音数据对应的文本“张三的”,进行属性替换,替换为“<<cast>>的电影”,当前规则模板匹配成功,故第一条组合分词标注信息为影视领域,得到领域意图=movie,权重=1.0,即领域意图movie的权重为1.0。
对第(2)个组合分词标注信息、第(3)个组合分词标注信息和第(4)个组合分词标注信息处理流程类似,此处不再赘述。
对于方式二:
预设的依存句法关系和权重如下:
(1){center:”musicName”,index:[singer,musicName],weight:1.0}
(2){center:”rname”,index:[cast,rname],weight:1.0}
(3){center:”rname”,index:[watch,rname],weight:1.0}
(4){center:”musicName”,index:[listen,musicName],weight:1.0}
对于第(1)条组合分词标注信息,遍历预设的依存句法关系,第(1)条依存句法关系:{center:”musicName”,index:[singer,musicName],weight:1.0},核心词为musicName,从第(1)条组合分词标注信息[{张三-张三[cast,singer,videoRoleNameFeeble]},{的-的[funcwordstructaux]},电影-电影[rname,programType,programRname]}]中递归查找是否存在属性标注musicName,未发现核心词,故该条关系不符合,继续下条组合分词标注信息匹配;第(2)条依存句法关系:{center:”rname”,index:[cast,rname],weight:1.0},核心词为rname,在第(1)条组合分词标注信息中查找,发现核心词,进一步对句法进行分析,核心词rname前为cast,继续对第(1)条组合分词标注信息的rname词向前进行查找,发现cast标注,故该条句法关系匹配成功,得到领域意图=movie,权重=1.0,即领域意图movie的权重为1.0。
对第(2)个组合分词标注信息、第(3)个组合分词标注信息和第(4)个组合分词标注信息处理流程类似,此处不再赘述。
最终得到4个组合分词标注信息对应的领域意图和权重为:
(1)[{张三-张三[cast,singer,videoRoleNameFeeble]},{的-的[funcwordstructaux]},电影-电影[rname,programType,programRname]]领域意图=movie,权重=1.0
(2)[{张三-张三[cast,singer,videoRoleNameFeeble]},{的-的[funcwordstructaux]},影视-影视[rname,musicType,SILO,SILOALONE]]领域意图=movie,权重=1.0
(3)[{张三-张三[cast,singer,videoRoleNameFeeble]},{的-的[funcwordstructaux]},{音乐-音乐[musicKey,appTag]}]领域意图=music,权重=1.0
(4)[{张三-张三[cast,singer,videoRoleNameFeeble]},{的-的[funcwordstructaux]},{歌曲-歌曲[musicKey]}]领域意图=music,权重=1.0
S306、根据至少一个领域意图和权重与候选场景的权重确定出第二领域意图。
具体地,可以是计算每个领域意图的最终定位权重,定位权重可以为领域意图的权重与候选场景的权重之积。计算结果如下:
(1)领域意图=movie,定位权重=0.98
(2)领域意图=movie,定位权重=0.98
(3)领域意图=music,定位权重=0.6
(4)领域意图=music,定位权重=0.6
计算出定位权重后,可以是将权重最大的领域意图作为第二领域意图,例如影视的定位权重最大,则服务器进一步进行影视搜索,影视搜索结果即为用户意图信息,将该用户意图信息发送给显示设备进行显示。
本实施例提供的自然语言的解析方法,服务器在根据当前显示内容所对应的候选场景和候选场景的权重对当前语音数据对应的文本进行语义解析时,先对当前语音数据对应的文本进行分词标注,得到分词标注信息,然后根据分词标注信息进行领域意图定位,确定是否定位到第一领域意图,若未定位到第一领域意图,表明当前语音数据对应的文本是意图模糊的文本,不能直接定位出领域意图,则根据当前显示内容所对应的候选场景、候选场景的权重和分词标注信息进行领域意图定位。具体是对于当前显示内容所对应的每一候选场景,根据预设的场景和相关词列表的映射关系,确定每一候选场景的相关词列表,接着将每一候选场景的相关词列表分别与分词标注信息组合,得到与每一候选场景对应的组合分词标注信息,然后根据与每一候选场景对应的组合分词标注信息进行领域意图定位,得到至少一个领域意图和权重,最后根据至少一个领域意图和权重与候选场景的权重确定出第二领域意图,将第二领域意图确定为语义解析结果。通过结合当前显示内容所对应的候选场景对分词标注信息进行领域意图定位,这样可以提高语义解析的准确度。
图19为本申请实施例提供的一种自然语言的解析装置的结构示意图,如图19所示,本实施例的装置可以包括:接收模块11、确定模块12和发送模块13,其中,
接收模块11用于接收用户输入的当前语音数据;
确定模块12用于确定当前显示内容所对应的候选场景和候选场景的权重;
发送模块13用于向服务器发送解析请求,解析请求包括当前显示内容所对应的候选场景、候选场景的权重和当前语音数据对应的文本;
接收模块11还用于:接收服务器发送的用户意图信息,在用户界面显示与用户意图信息对应的内容。
可选的,确定模块12用于:根据当前播放节目的类型、当前开启的应用和当前显示的混合应用界面中的任一项,确定当前显示内容所对应的候选场景和所述候选场景的权重。
可选的,确定模块12用于:
若用户界面显示的是当前播放节目,将当前播放节目的类型对应的场景确定为当前显示内容所对应的候选场景,将预设权重范围中的权重最大值确定为当前播放节目的类型对应的场景的权重;
若用户界面显示的是当前开启的应用,将当前开启的应用对应的场景确定为当前显示内容所对应的候选场景,将预设权重范围中的权重最大值确定为当前开启的应用对应的场景的权重;
若用户界面显示的是混合应用界面,根据混合应用界面的界面元素确定当前显示内容所对应的候选场景和候选场景的权重。
可选的,确定模块12用于:
渲染混合应用界面的界面元素时,根据界面元素的位置和大小与预设权重配置范围为每一界面元素配置场景标签和权重;
根据每一界面元素配置的权重进行归一化计算,得到每一界面元素的归一化权重;
根据场景标签对混合应用界面的所有界面元素的场景标签和归一化权重求和并归一,得到每一场景标签的归一权重;
将归一权重大于预设阈值的场景标签确定为当前显示内容所对应的候选场景,将对应场景标签的归一权重确定为候选场景的权重。
本实施例提供的装置可用于执行上述的方法,其实现方式和技术效果类似,本实施例此处不再赘述。
图20为本申请实施例提供的一种自然语言的解析装置的结构示意图,如图20所示,本实施例的装置可以包括:接收模块21、语义解析模块22和发送模块23,其中,
接收模块21用于接收显示设备发送的解析请求,解析请求包括当前显示内容所对应的候选场景、候选场景的权重和当前语音数据对应的文本,当前语音数据为用户输入至显示设备;
语义解析模块22用于根据当前显示内容所对应的候选场景和候选场景的权重对当前语音数据对应的文本进行语义解析,得到语义解析结果,并根据语义解析结果确定用户意图信息;
发送模块23用于将用户意图信息发送至显示设备。
可选的,语义解析模块22还用于:
在根据当前显示内容所对应的候选场景和候选场景的权重对当前语音数据对应的文本进行语义解析,得到语义解析结果之前,确定不存在当前语音数据的上一次的语音数据对应的文本;
若确定存在当前语音数据的上一次的语音数据对应的文本,根据当前语音数据的上一次的语音数据对应的文本解析的场景与当前显示内容所对应的候选场景、候选场景的权重和当前语音数据对应的文本进行语义解析,得到语义解析结果。
本实施例提供的装置可用于执行上述的方法,其实现方式和技术效果类似,本实施例此处不再赘述。
图21为本申请实施例提供的一种自然语言的解析装置的结构示意图,如图21所示,本实施例的装置在图22所示装置的基础上,进一步地,语义解析模块22可以包括:第一解析单元221和第二解析单元222,其中,
第一解析单元221用于在当前语音数据的上一次的语音数据对应的文本解析的场景与当前显示内容所对应的候选场景的相似度大于或等于相似度阈值,根据当前语音数据的上一次的语音数据对应的文本解析的场景对当前语音数据对应的文本进行语义解析,得到语义解析结果;
第二解析单元222用于在当前语音数据的上一次的语音数据对应的文本解析的场景与当前显示内容所对应的候选场景的相似度小于相似度阈值,根据当前显示内容所对应的候选场景和候选场景的权重对当前语音数据对应的文本进行语义解析,得到语义解析结果。
可选的,第二解析单元222用于:
对当前语音数据对应的文本进行分词标注,得到分词标注信息,分词标注信息包括至少一个词语和每个词语对应的属性标注;
根据分词标注信息进行领域意图定位,确定是否定位到第一领域意图;
若定位到第一领域意图,将第一领域意图确定为语义解析结果;
若未定位到第一领域意图,根据当前显示内容所对应的候选场景、候选场景的权重和分词标注信息进行领域意图定位,将定位到的第二领域意图确定为语义解析结果。
可选的,第二解析单元222用于:
对于当前显示内容所对应的每一候选场景,根据预设的场景和相关词列表的映射关系,确定每一候选场景的相关词列表,相关词列表包括至少一个相关词和每个相关词对应的属性标注;
将每一候选场景的相关词列表分别与分词标注信息组合,得到与每一候选场景对应的组合分词标注信息,每一候选场景对应至少一个组合分词标注信息;
根据与每一候选场景对应的组合分词标注信息进行领域意图定位,得到至少一个领域意图和权重;
根据至少一个领域意图和权重与候选场景的权重确定出第二领域意图。
可选的,第二解析单元222用于:
根据至少一个领域意图中每一个领域意图的权重与每一候选场景的权重计算每一个领域意图的目标权重;
将目标权重最大的领域意图确定为第二领域意图。
可选的,第二解析单元222用于:
将分词标注信息与预设的规则模板进行匹配,确定是否匹配到第一领域意图,预设的规则模板包括属性标注、正则表达式和权重;或者,将分词标注信息与预设的依存句法关系和权重进行匹配,确定是否匹配到第一领域意图,预设的依存句法关系根据依存句法树配置。
本申请中可以根据上述方法示例对显示设备和服务器进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请各实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图22为本申请提供的显示设备的硬件结构示意图。如图22所示,该显示设备用于实现上述任一方法实施例中对应于显示设备的操作,本实施例的显示设备可以包括:显示器31和控制器32;
其中,显示器31用于显示图像和用户界面,及在用户界面中用以指示在用户界面中项目被选择的选择器;
控制器32用于:
接收用户输入的当前语音数据,确定当前显示内容所对应的候选场景和候选场景的权重;
向服务器发送解析请求,解析请求包括当前显示内容所对应的候选场景、候选场景的权重和当前语音数据对应的文本,以使服务器根据当前显示内容所对应的候选场景和候选场景的权重对当前语音数据对应的文本进行语义解析,得到语义解析结果,并根据语义解析结果确定用户意图信息;
接收服务器发送的用户意图信息,执行用户意图信息对应的操作。
图23为本申请提供的服务器的硬件结构示意图。如图23所示,该服务器用于实现上述任一方法实施例中对应于服务器的操作,本实施例的服务器可以包括:
存储器40和处理器41,其中,
存储器40用于存储处理器可执行指令;
其中,处理器41被配置为执行上述任一方法实施例中的自然语言的解析方法。
可选的,本实施例的服务器还可以包括接收器42和发送器43。
可选的,接收器42可以用于接收显示设备发送的解析请求,发送器43可以用于发送用户意图信息至显示设备。
本申请还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当其在计算机上运行时,使得计算机执行如上述实施例的自然语言的解析方法。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。
Claims (14)
1.一种显示设备,其特征在于,包括:
显示器,用于显示图像和用户界面;
控制器,用于:
接收用户输入的当前语音数据;
确定当前显示内容所对应的候选场景和所述候选场景的权重;
向服务器发送解析请求,所述解析请求包括所述当前显示内容所对应的候选场景、所述候选场景的权重和所述当前语音数据对应的文本,以使所述服务器根据当前显示内容所对应的候选场景和所述候选场景的权重对所述当前语音数据对应的文本进行语义解析,得到语义解析结果,并根据所述语义解析结果确定用户意图信息;
接收所述服务器发送的所述用户意图信息,执行所述用户意图信息对应的操作。
2.根据权利要求1所述的设备,其特征在于,所述控制器用于:
根据当前播放节目的类型、当前开启的应用和当前显示的混合应用界面中的任一项,确定当前显示内容所对应的候选场景和所述候选场景的权重。
3.根据权利要求1所述的设备,其特征在于,所述控制器用于:
若用户界面显示的是当前播放节目,将所述当前播放节目的类型对应的场景确定为所述当前显示内容所对应的候选场景,将预设权重范围中的权重最大值确定为所述当前播放节目的类型对应的场景的权重;
若用户界面显示的是当前开启的应用,将所述当前开启的应用对应的场景确定为所述当前显示内容所对应的候选场景,将预设权重范围中的权重最大值确定为所述当前开启的应用对应的场景的权重;
若用户界面显示的是混合应用界面,根据所述混合应用界面的界面元素确定所述当前显示内容所对应的候选场景和所述候选场景的权重。
4.根据权利要求3所述的设备,其特征在于,所述控制器用于:
渲染所述混合应用界面的界面元素时,根据界面元素的位置和大小与预设权重配置范围为每一界面元素配置场景标签和权重;
根据每一界面元素配置的权重进行归一化计算,得到每一界面元素的归一化权重;
根据场景标签对所述混合应用界面的所有界面元素的场景标签和归一化权重求和并归一,得到每一场景标签的归一权重;
将所述归一权重大于预设阈值的场景标签确定为当前显示内容所对应的候选场景,将对应场景标签的归一权重确定为所述候选场景的权重。
5.一种自然语言的解析方法,其特征在于,包括:
接收用户输入的当前语音数据;
确定当前显示内容所对应的候选场景和所述候选场景的权重;
向服务器发送解析请求,所述解析请求包括所述当前显示内容所对应的候选场景、所述候选场景的权重和所述当前语音数据对应的文本;
接收所述服务器发送的用户意图信息,执行所述用户意图信息对应的操作。
6.根据权利要求5所述的方法,其特征在于,所述确定当前显示内容所对应的候选场景和所述候选场景的权重,包括:
根据当前播放节目的类型、当前开启的应用和当前显示的混合应用界面中的任一项,确定当前显示内容所对应的候选场景和所述候选场景的权重。
7.根据权利要求6所述的方法,其特征在于,所述根据当前播放节目的类型、当前开启的应用和当前显示的混合应用界面中的任一项,确定当前显示内容所对应的候选场景和所述候选场景的权重,包括:
若用户界面显示的是当前播放节目,将所述当前播放节目的类型对应的场景确定为所述当前显示内容所对应的候选场景,将预设权重范围中的权重最大值确定为所述当前播放节目的类型对应的场景的权重;
若用户界面显示的是当前开启的应用,将所述当前开启的应用对应的场景确定为所述当前显示内容所对应的候选场景,将预设权重范围中的权重最大值确定为所述当前开启的应用对应的场景的权重;
若用户界面显示的是混合应用界面,根据所述混合应用界面的界面元素确定所述当前显示内容所对应的候选场景和所述候选场景的权重。
8.根据权利要求7所述的方法,其特征在于,所述根据所述混合应用界面的界面元素确定所述当前显示内容所对应的候选场景和所述候选场景的权重,包括:
渲染所述混合应用界面的界面元素时,根据界面元素的位置和大小与预设权重配置范围为每一界面元素配置场景标签和权重;
根据每一界面元素配置的权重进行归一化计算,得到每一界面元素的归一化权重;
根据场景标签对所述混合应用界面的所有界面元素的场景标签和归一化权重求和并归一,得到每一场景标签的归一权重;
将所述归一权重大于预设阈值的场景标签确定为当前显示内容所对应的候选场景,将对应场景标签的归一权重确定为所述候选场景的权重。
9.一种自然语言的解析方法,其特征在于,包括:
接收显示设备发送的解析请求,所述解析请求包括当前显示内容所对应的候选场景、所述候选场景的权重和当前语音数据对应的文本,所述当前语音数据为用户输入至所述显示设备;
根据当前显示内容所对应的候选场景和所述候选场景的权重对所述当前语音数据对应的文本进行语义解析,得到语义解析结果,并根据所述语义解析结果确定用户意图信息;
将所述用户意图信息发送至所述显示设备。
10.根据权利要求9所述的方法,其特征在于,所述根据当前显示内容所对应的候选场景和所述候选场景的权重对所述当前语音数据对应的文本进行语义解析,得到语义解析结果之前,所述方法还包括:
确定不存在所述当前语音数据的上一次的语音数据对应的文本;
若确定存在所述当前语音数据的上一次的语音数据对应的文本,根据所述当前语音数据的上一次的语音数据对应的文本解析的场景与当前显示内容所对应的候选场景、所述候选场景的权重和所述当前语音数据对应的文本进行语义解析,得到语义解析结果。
11.根据权利要求10所述的方法,其特征在于,所述根据所述当前语音数据的上一次的语音数据对应的文本解析的场景与当前显示内容所对应的候选场景、所述候选场景的权重和所述当前语音数据对应的文本进行语义解析,得到语义解析结果,包括:
若所述当前语音数据的上一次的语音数据对应的文本解析的场景与当前显示内容所对应的候选场景的相似度大于或等于相似度阈值,根据所述当前语音数据的上一次的语音数据对应的文本解析的场景对所述当前语音数据对应的文本进行语义解析,得到语义解析结果;
若所述当前语音数据的上一次的语音数据对应的文本解析的场景与当前显示内容所对应的候选场景的相似度小于所述相似度阈值,根据当前显示内容所对应的候选场景和所述候选场景的权重对所述当前语音数据对应的文本进行语义解析,得到语义解析结果。
12.根据权利要求9所述的方法,其特征在于,所述根据当前显示内容所对应的候选场景和所述候选场景的权重对所述当前语音数据对应的文本进行语义解析,得到语义解析结果,包括:
对所述当前语音数据对应的文本进行分词标注,得到分词标注信息,所述分词标注信息包括至少一个词语和每个词语对应的属性标注;
根据所述分词标注信息进行领域意图定位,确定是否定位到第一领域意图;
若定位到第一领域意图,将所述第一领域意图确定为所述语义解析结果;
若未定位到所述第一领域意图,根据当前显示内容所对应的候选场景、所述候选场景的权重和所述分词标注信息进行领域意图定位,将定位到的第二领域意图确定为所述语义解析结果。
13.根据权利要求12所述的方法,其特征在于,所述根据当前显示内容所对应的候选场景、所述候选场景的权重和所述分词标注信息进行领域意图定位,包括:
对于所述当前显示内容所对应的每一候选场景,根据预设的场景和相关词列表的映射关系,确定每一所述候选场景的相关词列表,所述相关词列表包括至少一个相关词和每个相关词对应的属性标注;
将每一所述候选场景的相关词列表分别与所述分词标注信息组合,得到与每一所述候选场景对应的组合分词标注信息,每一所述候选场景对应至少一个组合分词标注信息;
根据与每一所述候选场景对应的组合分词标注信息进行领域意图定位,得到至少一个领域意图和权重;
根据所述至少一个领域意图和权重与所述候选场景的权重确定出所述第二领域意图。
14.一种服务器,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求9-13任一项所述的自然语言的解析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011206016.XA CN114442989A (zh) | 2020-11-02 | 2020-11-02 | 自然语言的解析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011206016.XA CN114442989A (zh) | 2020-11-02 | 2020-11-02 | 自然语言的解析方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114442989A true CN114442989A (zh) | 2022-05-06 |
Family
ID=81361001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011206016.XA Pending CN114442989A (zh) | 2020-11-02 | 2020-11-02 | 自然语言的解析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114442989A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108877796A (zh) * | 2018-06-14 | 2018-11-23 | 合肥品冠慧享家智能家居科技有限责任公司 | 语音控制智能设备终端操作的方法和装置 |
US20190087455A1 (en) * | 2017-09-21 | 2019-03-21 | SayMosaic Inc. | System and method for natural language processing |
US20190311070A1 (en) * | 2018-04-06 | 2019-10-10 | Microsoft Technology Licensing, Llc | Method and apparatus for generating visual search queries augmented by speech intent |
CN110413250A (zh) * | 2019-06-14 | 2019-11-05 | 华为技术有限公司 | 一种语音交互方法、装置及系统 |
CN111383631A (zh) * | 2018-12-11 | 2020-07-07 | 阿里巴巴集团控股有限公司 | 一种语音交互方法、装置及系统 |
CN111508482A (zh) * | 2019-01-11 | 2020-08-07 | 阿里巴巴集团控股有限公司 | 语义理解及语音交互方法、装置、设备及存储介质 |
CN111767021A (zh) * | 2020-06-28 | 2020-10-13 | 广州小鹏车联网科技有限公司 | 语音交互方法、车辆、服务器、系统和存储介质 |
WO2020211006A1 (zh) * | 2019-04-17 | 2020-10-22 | 深圳市欢太科技有限公司 | 语音识别方法、装置、存储介质及电子设备 |
-
2020
- 2020-11-02 CN CN202011206016.XA patent/CN114442989A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190087455A1 (en) * | 2017-09-21 | 2019-03-21 | SayMosaic Inc. | System and method for natural language processing |
US20190311070A1 (en) * | 2018-04-06 | 2019-10-10 | Microsoft Technology Licensing, Llc | Method and apparatus for generating visual search queries augmented by speech intent |
CN108877796A (zh) * | 2018-06-14 | 2018-11-23 | 合肥品冠慧享家智能家居科技有限责任公司 | 语音控制智能设备终端操作的方法和装置 |
CN111383631A (zh) * | 2018-12-11 | 2020-07-07 | 阿里巴巴集团控股有限公司 | 一种语音交互方法、装置及系统 |
CN111508482A (zh) * | 2019-01-11 | 2020-08-07 | 阿里巴巴集团控股有限公司 | 语义理解及语音交互方法、装置、设备及存储介质 |
WO2020211006A1 (zh) * | 2019-04-17 | 2020-10-22 | 深圳市欢太科技有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN110413250A (zh) * | 2019-06-14 | 2019-11-05 | 华为技术有限公司 | 一种语音交互方法、装置及系统 |
CN111767021A (zh) * | 2020-06-28 | 2020-10-13 | 广州小鹏车联网科技有限公司 | 语音交互方法、车辆、服务器、系统和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110737840B (zh) | 语音控制方法及显示设备 | |
CN112163086B (zh) | 多意图的识别方法、显示设备 | |
CN112511882B (zh) | 一种显示设备及语音唤起方法 | |
CN112000820A (zh) | 一种媒资推荐方法及显示设备 | |
CN111984763B (zh) | 一种答问处理方法及智能设备 | |
WO2022032916A1 (zh) | 一种显示系统 | |
CN112004157B (zh) | 一种多轮语音交互方法及显示设备 | |
CN114118064A (zh) | 显示设备、文本纠错方法及服务器 | |
CN112002321B (zh) | 显示设备、服务器及语音交互方法 | |
CN112182196A (zh) | 应用于多轮对话的服务设备及多轮对话方法 | |
CN111949782A (zh) | 一种信息推荐方法和服务设备 | |
CN111866568B (zh) | 一种显示设备、服务器及基于语音的视频集锦获取方法 | |
CN112165641A (zh) | 一种显示设备 | |
CN112380420A (zh) | 一种搜索方法及显示设备 | |
CN111914134A (zh) | 一种关联推荐方法、智能设备及服务设备 | |
CN114187905A (zh) | 用户意图识别模型的训练方法、服务器及显示设备 | |
CN112492390A (zh) | 一种显示设备及内容推荐方法 | |
CN112256232B (zh) | 显示设备与自然语言生成后处理方法 | |
CN111950288B (zh) | 一种命名实体识别中的实体标注方法及智能设备 | |
CN114627864A (zh) | 显示设备与语音交互方法 | |
CN114442989A (zh) | 自然语言的解析方法及装置 | |
CN112199560A (zh) | 一种设置项的搜索方法及显示设备 | |
CN111914565A (zh) | 电子设备及用户语句的处理方法 | |
CN112329475B (zh) | 语句处理方法及装置 | |
CN112261290A (zh) | 显示设备、摄像头以及ai数据同步传输方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |