CN117651943A - 显示设备 - Google Patents
显示设备 Download PDFInfo
- Publication number
- CN117651943A CN117651943A CN202280047134.1A CN202280047134A CN117651943A CN 117651943 A CN117651943 A CN 117651943A CN 202280047134 A CN202280047134 A CN 202280047134A CN 117651943 A CN117651943 A CN 117651943A
- Authority
- CN
- China
- Prior art keywords
- user
- syntax tree
- optimal
- syntax
- probability value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 claims description 32
- 238000000034 method Methods 0.000 claims description 32
- 230000003993 interaction Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 6
- 230000002618 waking effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 235000015278 beef Nutrition 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 235000013305 food Nutrition 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 241000218378 Magnolia Species 0.000 description 3
- 206010048669 Terminal state Diseases 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000011664 signaling Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000000366 juvenile effect Effects 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种显示设备,可以执行利用依存句法分析语音文本得到至少两棵句法树。如果句法树的概率值均相等,则将用户意图与当前设备的设备状态信息匹配的句法树确定为最优句法树(S102)。如果句法树的概率值不均相等,并且概率值最大的句法树具有的用户意图与当前设备的设备状态信息匹配,则将概率值最大的句法树确定为最优句法树,以及将最优句法树具有的用户意图确定为最优用户意图(S103)。
Description
相关申请的交叉引用
本申请要求申请日为2021年7月29日,申请号为202110865048.9,和申请日为2021年8月16日,申请号为202110934690.8的中国申请的优先权,其全部内容引用于此。
本申请涉及语音交互技术领域,尤其涉及一种内容推荐方法及装置。
随着智能语音交互技术的发展,语音交互功能逐渐成为智能终端产品的标准配置。用户可利用语音交互功能,实现语音控制智能终端产品,进行看视频、听音乐、查天气、电视控制等一系列操作。
语音控制智能终端产品的过程通常是,语音识别模块将用户输入的语音识别为文本。之后语义分析模块对该文本进行词法句法和语义的分析,从而理解用户的意图。最后控制端根据理解结果控制智能终端产品进行相应的操作。
发明内容
本申请实施例提供一种用户意图分析方法,该方法包括:获取用户输入的语音文本,对所述语音文本进行语义分析处理,生成至少两棵句法树,其中,所述句法树具有概率值和用户意图,概率值为系统输出所述句法树的概率;在所述句法树的概率值均相等时,将用户意图与当前设备的设备状态信息匹配的所述句法树确定为最优句法树,以及将最优句法树具有的用户意图确定为最优用户意图;在所述句法树的概率值不均相等,且概率值最大的所述句法树具有的用户意图与当前设备的设备状态信息匹配时,将概率值最大的所述句法树确定为最优句法树,以及将最优句法树具有的用户意图确定为最优用户意图。
图1为根据一些实施例的语音交互原理的示意图;
图2为根据一些实施例的用户意图分析方法流程示意图;
图3为根据一些实施例的媒资检索系统的框架图;
图4为根据一些实施例中显示设备200中的用户界面示意图;
图5为根据一些实施例的内容推荐方法信令图;
图6为根据一些实施例的又一种内容推荐方法信令图。
为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
为清楚说明本申请的实施例,下面结合图1对本申请实施例提供的一种语音识别网络架构进行描述。
参见图1,图1为本申请实施例提供的一种语音识别网络架构示意图。图1中,智能设备用于接收输入的信息以及输出对该信息的处理结果。语音识别服务设备为部署有语音识别服务的电子设备,语义服务设备为部署有语义服务的电子设备,业务服务设备为部署有业务服务的电子设备。这里的电子设备可包括服务器、计算机等,这里的语音识别服务、语义服务(也可称为语义引擎)和业务服务为可部署在电子设备上的web服务,其中,语音识别服务用于将音频识别为文本,语义服务用于对文本进行语义解析,业务服务用于提供具体的服务如墨迹天气的天气查询服务、QQ音乐的音乐查询服务等。在一个实施例中,图1所示架构中可存在部署有不同业务服务的多个实体服务设备,也可以一个或多个实体服务设备中集合一项或多项功能服务。
一些实施例中,下面对基于图1所示架构处理输入智能设备的信息的过程进行举例描述,以输入智能设备的信息为通过语音输入的查询语句为例,上述过程可包括如下三个过程:
[语音识别]
智能设备可在接收到通过语音输入的查询语句后,将该查询语句的音频上传至语音识别服务设备,以由语音识别服务设备通过语音识别服务将该音频识别为文本后返回至智能设备。在一个实施例中,将查询语句的音频上传至语音识别服务设备前,智能设备可对查询语句的音频进行去噪处理,这里的去噪处理可包括去除回声和环境噪声等步骤。
[语义理解]
智能设备将语音识别服务识别出的查询语句的文本上传至语义服务设备,以由语义服务设备通过语义服务对该文本进行语义解析,得到文本的业务领域、意图等。
[语义响应]
语义服务设备根据对查询语句的文本的语义解析结果,向相应的业务服务设备下发查询指令以获取业务服务给出的查询结果。智能设备可从语义服务设备获取该查询结果并输出。作为一个实施例,语义服务设备还可将对查询语句的语义解析结果发送至智能设备,以由智能设备输出该语义解析结果中的反馈语句。
需要说明的是,图1所示架构只是一种示例,并非对本申请保护范围的限定。本申请实施例中,也可采用其他架构来实现类似功能,例如:三个过程全部或部分可以由智能终端来完成,在此不做赘述。
在一些实施例中,图1所示的智能设备可为显示设备,如智能电视,语音识别服务设备的功能可由显示设备上设置的声音采集器和控制器配合实现,语义服务设备和业务服务设备的功能可由显示设备的控制器实现,或者由显示设备的服务器来实现。
随着智能语音交互技术的发展,语音交互功能逐渐成为智能终端产品的标准配置。用户可利用语音交互功能,实现语音控制智能终端产品,进行看视频、听音乐、查天气、电视控制等一系列操作。
为清楚说明本申请的实施例,下面对一些专业术语进行释义:
[声纹]
声纹是用电声学仪器显示的携带言语信息的声波频谱,是由波长、频率以及强度等百余中特征维度组成的生物特征,具有未定型、可测量性、唯一性等特点。
目前主流的说话人聚类算法是在说话人分割的基础上,基于贝叶斯信息判据,采 用凝聚分层聚类算法,直接对说话人分割后的语音段进行判决,将属于同一个说话人的语音段合并为一类。其基本思想是从每个语片段中提取特征参数,例如梅尔倒谱参数,计算每两个语音段之间特征参数的相似度,并利用BIC判断相似度最高的两个语音段是否合并为同一类。对任意两段语音都进行上述判决,直到所有的语音段不再合并。
[用户画像]
通过收集用户社会属性、消费习惯、偏好特征等各个维度数据,进而对用户或者产品特征属性的刻画,并对这些特征分析统计挖掘潜在价值信息,从而抽象出一个用户的全貌。用户画像是定向广告投放或个性化推荐的前提。
语音控制智能终端产品的过程通常是,语音识别模块将用户输入的语音识别为文本。之后语义分析模块对该文本进行词法句法和语义的分析,从而理解用户的意图。再根据检索意图向智能设备反馈推荐的媒资信息或者媒资数据。
然而,目前的智能终端产品,在理解用户意图时,通常并未考虑设备当前所处的状态及所处的场景,仅基于用户维度或者网络热度对用户意图进行解析。例如,用户输入“天天向上”,可能搜索得到显示天天向上的百科介绍、趣味问答好好学习天天向上、播放天天向上综艺节目等结果。如果忽略智能终端当前所处场景,可能会产生执行结果与用户实际意图存在偏差的情况。例如,智能终端当前所处场景为视频播放应用下,此时用户的意图可能偏向于观看天天向上综艺节目;那么如果未考虑当前设备状态可能执行的结果为显示天天向上的百科介绍,这就产生执行结果与用户实际意图存在偏差的情况。
为了解决上述问题,本申请提供一种用户意图分析方法,该方法能够在意图分析过程中不仅基于用户维度,还嵌入设备维度信息,从而使得意图分析更准确,最终使得终端设备能够准确执行对应操,提升用户使用体验。
如图2的语义理解方法的流程示意图,该方法包括以下步骤:
步骤S101,获取用户输入的语音文本,利用依存句法分析该语音文本,生成至少两棵句法树。
需要说明的事,在利用依存句法分析语音文本时,有可能只生成一棵句法树,那么就执行唯一对应的结果就行。本申请实施例以生成至少两棵句法树为示例进行方案的阐述。
语音文本为对用户输入的语音信号解析得到的。具体的,用户在终端设备接收信号的距离范围内输入语音信号。终端设备可以是通过麦克风采集用户输入的语音信号, 之后获取从语音信号中识别出语音文本。
本申请实施例可由语音识别服务器识别出语音文本。由语义服务器对语音文本进行语义分析处理。具体的,首先对语音文本进行分词处理。可以以词库为依据,使用正向最大匹配法,进行分词。例如“刘德华的电影新少林寺”,分词处理后得到分词“刘德华,的,电影,新少林寺”。
进一步对分词进行词性标注,具体可以采用例如LAC(Lexical Analysis of Chinese)词法分析工具,对媒资标题进行中文分词和词性标注。LAC词法分析工具是一种联合的词法分析模型,能够整体性地完成中文分词和词性标注,还可添加自定义词典,对专有名称进行识别。LAC词法分析任务的输入是一个字符串,输出的则是媒资标题中的词边界和词性。之后利用依存句法,根据词性标注的结果,提取语音文本中用户意图。依存句法分析采用全局搜索,生成多棵句法树,每个句子对应一棵或多棵句法树,每一课句法树都具有概率值和用户意图。在相关技术中通常的做法是系统输出概率最高的句法树。最后将概率最高的句法树具有的用户意图,确定为该语音文本中的用户意图。
需要说明的是,本申请所使用的分词和词性标注工具不限于LAC词法分析工具,还可以使用其他的词法分析工具。
步骤S102,将具有的用户意图与当前设备的设备状态信息匹配的句法树确定为最优句法树,以及将最优句法树具有的用户意图确定为最优用户意图。
本申请实施例中的当前设备的设备状态信息可以包括设备类型、设备模式以及终端状态等信息。设备类型可以是电视、冰箱、音箱等,设备模式可以是电视模式、音箱模式、少儿模式等,终端状态可以是设备当前所处的应用或者界面信息。设备模式和终端状态都是依附于设备类型,因此三个维度存在依赖关系。在确定最优句法树时,将所有的句法树与当前设备的设备状态信息进行匹配,匹配的句法树则为最优句法树。
需要说明的是,不同的设备支持的技能不同,相同的设备在不同的模式下支撑的技能不同,相同的设备相同的模式下在不同的界面下支持的技能又不同。
本申请实施例中,接收到用户输入的语音指令后,将所述语音指令对应的信息以及所述设备当前的设备状态同时发送到服务器,所述服务器进行语音识别和语义解析后,将对应的句法树和设备状态进行综合运算,得出最优句法树,最终根据改最后句法树进行媒资推荐。
针对设备模式层面的设备状态信息的示例:当前设备为显示设备,并且当前设备的设备模式为少儿模式。接收“播放花木兰”的语音信息,解析出两各句法树。句法树 A具有的用户意图为播放真人电影花木兰;句法树B具有的用户意图为播放动画片花木兰。而在显示设备的设备模式为少儿模式时,不允许显示设备播放真人电影。则句法树A的用户意图与当前设备的设备状态信息不匹配,不可将句法树A确定为最优句法树。在显示设备的设备模式为少儿模式时,允许显示设备播放动画片。则句法树B的用户意图与当前设备的设备状态信息匹配,可将句法树B确定为最优句法树。最终将句法树B具有的用户意图播放动画片确定为最优用户意图。
针对设备界面层面的设备状态信息的示例:接收用户输入的“二两牛肉”,分析用户输入的语音文本确定的句法树,句法树A具有的用户意图为管理牛肉食材,句法树B具有的用户意图为购买两斤牛肉。当前设备为智能冰箱,如果当前设备的设备界面为食材管理界面。则句法树A具有的用户意图“管理牛肉食材”与当前设备的设备状态信息匹配。可将句法树A确定为最优句法树,并可将句法树A具有的用户意图“管理牛肉食材”确定为最优用户意图;如果当前设备的设备间界面为购物界面。则句法树B具有的用户意图“购买两斤牛肉”与当前设备的设备状态信息匹配。可将句法树B确定为最优句法树,并可将句法树B具有的用户意图“购买两斤牛肉”确定为最优用户意图。
步骤S103,如果所有的句法树的概率值不均相等,并且概率值最大的句法树具有的用户意图与当前设备的设备状态信息匹配,则将概率值最大的句法树确定为最优句法树,以及将最优句法树具有的用户意图确定为最优用户意图。需要说明的是,这里所有的句法树的概率值不均相等,可以是所有的句法树概率值均不相等,也可以是所有的句法树概率值中至少有两棵句法树的概率值不相等。
例如,对用户输入的语音取文本进行语义分析处理后得到句法树A、句法树B以及句法树C。其中,三棵句法树的概率值均不相等,句法树A的概率值最大。如果此时句法树A具有的用户意图与当前设备的设备状态信息匹配,则将句法树A确定为最优句法树,以及将句法树A具有的用户意图确定为最优用户意图。
在一些实施例中,如图3所示的流程图,本申请实施例的方法还包括按照概率值大小有大到小对所有句法树进行排序。例如上述实施例的句法树A、句法树B以及句法树C,其中句法树A的概率值为0.96,句法树B的概率值小于0.96,句法树C的概率值小于句法树B的概率值。则按照概率值大小由大到小排序为:句法树A、句法树B以及句法树C。
在确定最优句法树时,首先判断句法树A具有的用户意图是否与当前设备的设备状态信息匹配。如果句法树A具有的用户意图与当前设备的设备状态信息匹配,则将句法树A确定为最优句法树。如果句法树A具有的用户意图与当前设备的设备状态信 息不匹配,则进一步判断排序为第二位的句法树B的概率值与句法树A的概率值的偏差值是否小于偏差阈值。
如果句法树B的概率值与句法树A的概率值的偏差值小于偏差阈值,进一步判断句法树B具有用户意图是否与当前设备的设备状态信息匹配。
如果句法树B的用户意图与当前设备的设备状态信息匹配,则将句法树B确定为最优句法树,以及将句法树B的用户意图确定为最优用户意图。如果句法树B的用户意图与当前设备的设备状态信息不匹配,则进一步对句法树C作同样的判断操作。
如果句法树B的概率值与句法树A的概率值的偏差值大于偏差阈值,则仍然将句法树A确定为最优句法树。此时,由于句法树A具有的用户意图与当前设备的设备状态信息不匹配,则可以向用户展示提示语,该提示语用于提示用户当前设备不可执行最优用户意图对应的操作。向用户展示提示语的方式可以是在显示器上显示提示语,或者通过语音播报的方式展示提示语。
在一些实施例中,传统的智能设备媒资检索方式依赖于用户明确的搜索意图。在一些定制场景中,如果无法获得用户明确的搜索意图,智能设备只能给予用户简单的文本回复,甚至无法给予用户回复。因此,传统的智能设备媒资检索方式对于用户来说,使用体验较差。
申请提供一种媒资检索系统,如图3所示的媒资检索系统的框架图,该系统包括显示设备200以及服务器400。显示设备200又包括显示器、通信器、声音采集器以及控制器。显示器用于显示用户界面。通信器用于与服务器400进行数据通信。声音采集器用户采集用户输入的语音信息。服务器400用于向显示设备提供各种媒资信息和媒资数据。
在一些实施例中,用户利用本实施例的媒资检索系统进行媒资检索的过程具体为:
首先用户输入用于唤醒显示设备语音交互功能的指令,并根据所述指令驱动声音采集器启动工作。这种唤醒显示设备语义交互功能的工具可以为一个内置或安装的应用程序,如语音助手。
在一些可选的实施例方式中,唤醒语音助手的方式可以是通过用户远场输入的第一语音信息唤醒,例如,第一语音信息为预设的唤醒词,当用户输入“小度,小度”,或者“海信小聚”等预设的唤醒词,从而唤醒显示设备的语音交互功能。在一些可选的实施例中,唤醒词可以由用户自行设定,如“我爱我家”、“电视电视”等。
在另一些可选的实施方式中,用户也可以直接触控遥控器上的语音键,显示设备根据该按键指令启动语音助手服务。
唤醒显示设备的语音交互功能之后,用户与显示设备进行语音交互,声音采集器采集用户输入的其他语音信息。如果进一步未从声音采集器获取到可用于搜索媒资内容的搜索关键词,即无法获取到明确的用户意图,则直接向服务器发送备选媒资请求。服务器接收根据备选媒资请求查找的备选媒资信息,并向显示设备反馈备选媒资信息。显示设备接收到备选媒资信息之后,在显示器上显示该备选媒资信息。
具体的可以根据声音采集器采集语音信息的情况确定显示设备接收语音指令的情况。
第一场景下,未接收到用户进一步输入的第二语音信息,或者不可从第二语音信息中识别出搜索关键词。其中,从语音信息中识别用户意图的过程为相关技术,本申请不作详细阐述。
第二场景下,接收到用户进一步输入的第二语音信息,从第二语音信息中识别出搜索关键词,但是识别的搜索关键词不可用于搜索媒资内容。例如,识别出的搜索关键词不是预设关键词,即该搜索关键词不是指示显示设备业务范围的关键词。
经过上述实施例的媒资检索过程,即使不可获取到明确的用户意图,或者识别的用户意图不在显示设备业务范围内,服务器也可根据显示设备处于的不同场景,反馈相应的媒资信息。并在显示器上显示相应的媒资信息,避免无回复的情况发生。
示例性的,第一场景可以是用户唤醒语音助手后,一段时间内无内容输入的场景。例如,用户输入唤醒词“你好,小度”之后,再无内容输入,则无法从唤醒词中识别出用于搜索媒资内容的搜索关键词。此时,可以确定显示设备的当前场景为第一场景,显示设备向服务器发送媒资请求,该媒资请求携带有第一场景信息。服务器根据第一场景信息查找对应的第一媒资信息,并反馈第一媒资信息。
第二场景可以是用户唤醒语音助手后,进一步输入语音信息,并且可以从输入的语音信息中识别出搜索关键词。但是该搜索关键词并不在显示设备业务范围内。例如,用户唤醒语音助手之后,再输入语音信息“播放XX游戏视频”。虽然可从该语音信息中识别出“XX游戏视频”的搜索关键词,但是“XX游戏视频”不是预设关键词,即XX游戏视频超出了显示设备业务范围。
一些实施例中,在未从声音采集器获取到可用于搜索媒资内容的搜索关键词时,从服务器接收根据备选媒资请求查找的备选媒资信息的具体过程可以是:
判断是否可从第一语音信息中确定声纹信息,如果可从第一语音信息中确定声音信息,则将声纹信息发送至服务器。服务器根据声纹信息确定用户画像,再根据用户画像查找备选媒资信息。声纹信息可以包括声纹ID和声纹属性。如果既可从第一语音 信息中确定声纹ID又可确定声纹属性,由于每个用户拥有唯一的声纹ID,则根据声纹ID确定用户画像。
如果仅可从第一语音信息中确定声纹ID,则将声纹ID发送至服务器。服务器根据声纹ID确定与声纹ID唯一对应的用户画像。服务器再根据确定的用户画像查找备选媒资信息。
需要说明的是,显示设备可以是家庭电视,则此时显示设备根据语音访问历史,保存有家庭成员的声纹ID。例如,服务器存储有爷爷、奶奶、爸爸、妈妈的声纹ID。当爷爷使用显示设备,输入语音信息时,显示设备首先将显示设备的设备ID发送至服务器。服务器根据设备ID查找该设备对应的声纹ID。
由于事先存储有爷爷的声纹ID,根据声纹特征,可以确定输入的语音信息中能够识别出爷爷的声纹ID。进一步根据爷爷的声纹ID确定对应的用户画像。再根据用户画像查找备选媒资信息。这样,通过用户画像确定出的媒资信息与当前用户具有关联性。如果客人使用显示设备,输入语音信息,显示设备首先将显示设备的ID发送至服务器。由于事先没有存储客人的声纹ID。则服务器不能根据语音信息确定声纹ID。
在一些实施例中,如果不可从语音信息中确定声纹ID,但是可从语音信息中确定声纹属性,则将声纹属性发送至服务器。服务器根据声纹属性确定对应的用户画像,以及根据用户画像查找备选媒资信息。这里的声纹属性可以是一类用户的用户特征。用户特征可以包括用户的性别、年龄等生理特征。
例如,如果从语音信息中确定的声纹属性为中年男性,则确定的用户画像则为中年男性相对应。根据用户画像查找的媒资信息,可能是与财经、汽车等相关的媒资信息。如果从语音信息中确定的声纹属性为儿童,则确定的用户画像则与儿童相对应。根据用户画像查找的媒资信息,可能是与动画片相关的媒资信息。
在一些实施例中,还可以在声纹特征下统计显示设备的识别历史记录。即统计显示设备所识别的所有声纹属性,如果某声纹属性识别历史记录占比超过预设阈值,则将该声纹属性发送至服务器。声纹属性识别历史记录占比超过预设阈值,表示使用该显示设备的该类用户次数最多。
例如,声纹属性为儿童的识别历史记录占比超过80%,则表示儿童用户使用该显示设备的次数最多。将声纹属性儿童发送至服务器,以使服务器反馈与儿童用户画像对应的媒资信息。
在一些实施例中,如果既不可从第一语音信息中确定声纹ID,也不可从第一语音信息中确定声纹属性。则根据用户前次输入的语音信息确定声纹ID或者声纹属性。需 要说明的是,用户前次输入语音信息的时刻,到当前唤醒语音助手的时刻之间的时长未超过预设时间。例如,当前唤醒语音助手的时刻距离前次输入语音信息的时间不超30秒。
这样,大致可以确定本次唤醒语音助手的用户与前一次唤醒语音助手的用户是同一个人,当根据前次输入的语音信息确定的声纹ID推荐媒资时,结合了用户的习惯、喜好、年龄等因素,因此,给用户推荐的内容更能激发用户进行进一步的交互。
在一些实施例中,用户画像存储结构包括至少两个倾向领域,每个倾向领域又包括至少两项查询维度。倾向领域设置有倾向领域权重,查询维度设置有查询维度权重。不同的用户画像存储结果包括不同的倾向领域和查询维度。例如,用户画像中包括倾向领域“电影”、“音乐”、“菜谱”、“综艺”等。其中,倾向领域“电影”又包括查询维度“战争片”、“动作片”等,倾向领域“音乐”又包括查询维度“流行”、“通俗”等,倾向领域“菜谱”又包括查询维度“粤菜”、“川菜”等,倾向领域“综艺”又包括查询维度“真人秀”、“相亲”等。
上述示例中的倾向领域均具有倾向领域权重,倾向领域权重可以再根据用户画像,例如根据用户观看次数的多少进行设置。查询维度也均具有查询维度权重,同样也可以根据用户画像进行设置。首先根据倾向领域权重,可以利用加权随机算法计算排名前几,例如获取排名前三的倾向领域权重分别为“电影”、“音乐”、“菜谱”。
本申请实施例中的媒资库中设置有至少两张媒资卡片,媒资卡片与倾向领域对应。例如,媒资库中设置有“电影”、“音乐”、“菜谱”等媒资卡片。在媒资库中,媒资卡片也设置有权重。根据倾向领域权重计算得到排名前三的倾向领域后,再根据媒资卡片的权重,选出最终的卡片。同样也可以利用加权随机算法。例如,选出的最终卡片为“音乐”,即最终确定的倾向领域为“音乐”。
确定最终的倾向领域“音乐”后,基于查询维度权重,再利用加权随机算法确定最终的查询维度。例如,确定最终的查询维度为“流行”。最后,通过垂询视频查询服务中的音乐查询服务,基于媒资卡片“音乐”和查询维度“流行”,进行媒资查询。最后可以随机向用户反馈媒资卡片“音乐”和查询维度“流行”的媒资信息。例如,反馈许巍演唱的相关流行歌曲的媒资信息。
在一些实施例中,服务器中针对显示设备的不同场景,存储有不同的媒资库,即卡片池。第一场景为未输入第二语音信息或者不可从第二语音信息中识别出搜索关键词的场景,例如可以是用户唤醒语音助手后,一段时间内再无内容输入的场景。针对该场景,服务器存储有如表1所示的卡片池。
表1针对第一场景的卡片池
卡片名称 | 卡片类型 | |
1 | 教育 | edu |
2 | 广播 | fm |
3 | 游戏 | game |
4 | 应用 | app |
5 | 音乐 | client_music |
6 | 帮助信息 | client_helpinfo |
7 | 电视剧 | tvplay |
8 | 电影 | film |
针对第一场景,服务器存储的卡片池中更多的是猜测的用户可能喜欢的卡片。
第二场景为可从用户输入的语音信息识别出搜索关键词,但是搜索关键词不可用于搜索媒资内容,即用户意图超出显示设备业务范围内。针对该场景,服务器存储有如表2所示的卡片池。
表2针对第二场景的卡片池
卡片名称 | 卡片类型 | |
1 | 应用 | app |
2 | 新闻 | client_news |
3 | 音乐 | client_music |
4 | 帮助信息 | client_helpinfo |
8 | 电视剧 | tvplay |
针对第二场景,服务器存储的卡片池中更多的是用于引导用户使用语音助手的卡片。
图4所示的实施例为用户唤醒语音助手后,一段时间内再无内容输入的场景。经过上述步骤,显示设备可以从服务器获取三种媒资卡片。这三种卡片均用于引导用户进行语音输入。图4中第一张卡片用户引导用户输入语音信息“来点好听的音乐”、“今天的热点新闻”、“今天的天气”等。
除了上述实施例中的第一场景和第二场景,本申请还可以针对其他场景设置特定的卡片池,其他场景可以是系统端自定义场景。
例如,当接收到语音信息“早上好”,则可以确定显示设备当前场景为早上问候场景。之后,从语音信息中识别声纹ID或者声纹属性,根据声纹ID或者声纹属性从服 务器获取针对早上问候场景的媒资卡片。
当接收到语音信息“我回家了”,则可以确定显示设备当前场景为回家场景。根据声纹ID或者声纹属性从服务器获取针对回家场景的媒资卡片。
当显示设备的用户界面长时间处于APP操作界面而未接收到用户的操作指令时,检测到该场景后,可从服务器获取用于引导操作APP界面的媒资卡片。
当显示设备调用系统服务出现故障时,检测到该场景后,可从服务器获取用于引导如何消除故障的媒资卡片。
当接收到的语音信息为抱怨信息,例如输入语音信息“我今天好累”,检测到该场景后,可从服务器获取与舒缓音乐、搞笑电影相关的媒资卡片。
在一些实施例中,从服务器获取媒资卡片并展示的同时,还可以根据具体场景提供不同的提示语。例如,根据时间在用户界面上显示问候语“早上好”、“晚上好”等。或者在回家场景中,在用户界面上显示问候语“欢迎回家”。
本申请实施例提供一种内容推荐方法,如图5所示的内容推荐方法的信令图,所述方法包括以下步骤:
步骤501、接收用户输入的用于唤醒语音交互功能的指令,根据所述指令驱动声音采集器启动,其中,所述指令以第一语音信息方式或者按键方式输入。
步骤502、启动声音采集器之后,如果未获取到可用于搜索媒资内容的搜索关键词,则发送所述第一语音信息相关的声纹信息到所述服务器。
步骤503,显示设备接收到服务器反馈的备选媒资信息后,在显示器上显示该备选媒资信息,其中,所述备选媒资数据是服务器根据所述第一语音信息相关的声纹信息确定。
基于上述方法实施例,本申请实施例提供又一种内容推荐方法,如图6所示,所述方法包括以下步骤:
步骤601、接收用于启动语音收听功能的指令,驱动声音采集器启动,其中所述用于启动语音收听功能的指令可以是通过。
步骤602、启动声音采集器之后,但是未从声音采集器获取到可用于搜索媒资内容的搜索关键词时,从第一语音信息中提取声纹信息。
步骤603、则向服务器发送备选媒资请求,备选媒资请求携带有声纹信息。
服务器根据声纹信息确定对应的用户画像。根据用户画像在服务器的媒资库中查找对应的备选媒资信息。服务器将备选媒资信息反馈至显示设备。显示设备接收到反馈的备选媒资信息后,在显示器上显示备选媒资信息。
一般来说,用以实现本发明方法的计算机指令的可以采用一个或众多计算机可读的存储介质的任意组合来承载。非临时性计算机可读存储介质可以包括任何计算机可读介质,除了临时性地传播中的信号本身。
计算机可读存储介质例如可以是,但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或众多导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可以以一种或多种程序设计语言或其组合来编写用以执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言,特别是可以使用适于神经网络计算的Python语言和基于TensorFlow、PyTorch等平台框架。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或,连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
尽管上面已经示出和描述了本发明的实施例,应当理解的是,上述实施例是示例性的,不能解释为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (8)
- 一种用户意图分析方法,包括:获取用户输入的语音文本,对所述语音文本进行语义分析处理,生成至少两棵句法树,其中,所述句法树具有概率值和用户意图,概率值为系统输出所述句法树的概率;在所述句法树的概率值均相等时,将用户意图与当前设备的设备状态信息匹配的所述句法树确定为最优句法树,以及将最优句法树具有的用户意图确定为最优用户意图;在所述句法树的概率值不均相等,且概率值最大的所述句法树具有的用户意图与当前设备的设备状态信息匹配时,将概率值最大的所述句法树确定为最优句法树,以及将最优句法树具有的用户意图确定为最优用户意图。
- 根据权利要求1所述的用户意图分析方法,所述方法还包括:在所述句法树的所述概率值均相等,且用户意图与当前设备的设备状态信息匹配的所述句法树存在多棵时,将用户意图对应的媒资资源搜索热度最高的所述句法树确定为最优句法树,以及将最优句法树具有的用户意图确定为最优用户意图。
- 根据权利要求1所述的用户意图分析方法,所述方法还包括:在所述句法树的所述概率值均相等,且用户意图与当前设备的设备状态信息匹配的所述句法树存在多棵时,将与当前设备的设备状态信息匹配的所述句法树具有的用户意图对应的媒资资源均向用户展示。
- 根据权利要求1所述的用户意图分析方法,所述方法还包括:按照概率值大小由大到小对所述句法树进行排序,在所述句法树的概率值不均相等,概率值最大的所述句法树具有的用户意图与当前设备的设备状态信息不匹配,且概率值排序位于第二位的所述句法树的概率值与概率值最大的所述句法树的概率值偏差小于偏差阈值时,将概率值排序位于第二位的所述句法树确定为最优句法树,以及将最优句法树具有的用户意图确定为最优用户最优句法树意图。
- 根据权利要求4所述的用户意图分析方法,所述方法还包括:在概率值排序位于第二位的所述句法树具有的用户意图与当前设备的设备状态信息匹配时,将概率值排序位于第二位的所述句法树确定为最优句法树,以及将最优句法树具有的用户意图确定为最优用户意图;在概率值排序位于第二位的所述句法树具有的用户意图与当前设备的设备状态信息不匹配时,不将概率值排序位于第二位的所述句法树确定为最优句法树。
- 根据权利要求1所述的用户意图分析方法,所述方法还包括:按照概率值大小由大到小对所述句法树进行排序,在所述句法树的所述概率值不均相等,概率值最大的所述句法树对应的用户意图与当前设备的设备状态信息不匹配,且概率值排序位于第二位的所述句法树的概率值与概率值最大的所述句法树的概率值偏差大于所述偏差阈值时,将概率值最大的所述句法树确定为最优句法树,以及将最优句法树具有的用户意图确定为最优用户意图。
- 根据权利要求6所述的用户意图分析方法,所述方法还包括:向用户展示提示语,所述提示语用于提示用户当前设备不可执行最优用户意图对应的操作。
- 一种内容推荐方法,其特征在于,所述方法应用于显示设备,包括:接收用户输入的用于唤醒语音交互功能的指令,根据所述指令驱动声音采集器启动,其中,所述指令以第一语音信息方式或者按键方式输入;在未从所述声音采集器获取到可用于搜索媒资内容的搜索关键词时,向所述服务器发送备选媒资请求;从所述服务器接收根据所述备选媒资请求查找的备选媒资信息,以及在所述显示器上显示所述备选媒资信息。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110865048.9A CN113593559B (zh) | 2021-07-29 | 2021-07-29 | 一种内容显示方法、显示设备及服务器 |
CN2021108650489 | 2021-07-29 | ||
CN2021109346908 | 2021-08-16 | ||
CN202110934690.8A CN114281952A (zh) | 2021-08-16 | 2021-08-16 | 一种用户意图分析方法及装置 |
PCT/CN2022/102456 WO2023005580A1 (zh) | 2021-07-29 | 2022-06-29 | 显示设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117651943A true CN117651943A (zh) | 2024-03-05 |
Family
ID=85087508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280047134.1A Pending CN117651943A (zh) | 2021-07-29 | 2022-06-29 | 显示设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117651943A (zh) |
WO (1) | WO2023005580A1 (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5462819B2 (ja) * | 2011-03-01 | 2014-04-02 | 日本電信電話株式会社 | 基本木獲得装置、構文解析装置、方法、及びプログラム |
US10839161B2 (en) * | 2017-06-15 | 2020-11-17 | Oracle International Corporation | Tree kernel learning for text classification into classes of intent |
CN107316643B (zh) * | 2017-07-04 | 2021-08-17 | 科大讯飞股份有限公司 | 语音交互方法及装置 |
CN112396444B (zh) * | 2019-08-15 | 2024-08-13 | 阿里巴巴集团控股有限公司 | 一种智能机器人应答方法及装置 |
CN112732951A (zh) * | 2020-12-30 | 2021-04-30 | 青岛海信智慧生活科技股份有限公司 | 一种人机交互的方法及装置 |
CN113593559B (zh) * | 2021-07-29 | 2024-05-17 | 海信视像科技股份有限公司 | 一种内容显示方法、显示设备及服务器 |
CN114281952A (zh) * | 2021-08-16 | 2022-04-05 | 海信视像科技股份有限公司 | 一种用户意图分析方法及装置 |
-
2022
- 2022-06-29 WO PCT/CN2022/102456 patent/WO2023005580A1/zh active Application Filing
- 2022-06-29 CN CN202280047134.1A patent/CN117651943A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2023005580A1 (zh) | 2023-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11809483B2 (en) | Intelligent automated assistant for media search and playback | |
US11315546B2 (en) | Computerized system and method for formatted transcription of multimedia content | |
US11070879B2 (en) | Media content recommendation through chatbots | |
CN107507612B (zh) | 一种声纹识别方法及装置 | |
CN110430476B (zh) | 直播间搜索方法、系统、计算机设备和存储介质 | |
US20160163318A1 (en) | Metadata extraction of non-transcribed video and audio streams | |
US9190052B2 (en) | Systems and methods for providing information discovery and retrieval | |
US11494434B2 (en) | Systems and methods for managing voice queries using pronunciation information | |
CN105956053B (zh) | 一种基于网络信息的搜索方法及装置 | |
WO2018045646A1 (zh) | 基于人工智能的人机交互方法和装置 | |
US11127399B2 (en) | Method and apparatus for pushing information | |
US20150019206A1 (en) | Metadata extraction of non-transcribed video and audio streams | |
JP7525575B2 (ja) | ビジュアルコンテンツからのインタラクティブなオーディオトラックの生成 | |
CN109313649B (zh) | 用于聊天机器人的基于语音的知识共享的方法和装置 | |
CN107145509B (zh) | 一种信息搜索方法及其设备 | |
US20210034662A1 (en) | Systems and methods for managing voice queries using pronunciation information | |
US20220058213A1 (en) | Systems and methods for identifying dynamic types in voice queries | |
CN116738250A (zh) | 提示文本扩展方法、装置、电子设备和存储介质 | |
US11386163B2 (en) | Data search method and data search system thereof for generating and comparing strings | |
US20210035587A1 (en) | Systems and methods for managing voice queries using pronunciation information | |
US11640426B1 (en) | Background audio identification for query disambiguation | |
CN117651943A (zh) | 显示设备 | |
WO2020240996A1 (ja) | 情報処理装置、情報処理方法、および、プログラム | |
US20230267934A1 (en) | Display apparatus and operating method thereof | |
WO2021021529A1 (en) | Systems and methods for managing voice queries using pronunciation information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |