CN110634477A - 一种基于场景感知的上下文判断方法、装置及系统 - Google Patents
一种基于场景感知的上下文判断方法、装置及系统 Download PDFInfo
- Publication number
- CN110634477A CN110634477A CN201810646326.XA CN201810646326A CN110634477A CN 110634477 A CN110634477 A CN 110634477A CN 201810646326 A CN201810646326 A CN 201810646326A CN 110634477 A CN110634477 A CN 110634477A
- Authority
- CN
- China
- Prior art keywords
- voice instruction
- voice
- scene
- context
- instruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000008447 perception Effects 0.000 title claims abstract description 12
- 230000002452 interceptive effect Effects 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 abstract description 22
- 230000008859 change Effects 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Databases & Information Systems (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明实施例中提供了一种基于场景感知的上下文判断方法、装置及系统,本申请在确定第二语音指令与第一语音指令存在上下文关系以后,再检测两个指令是否处于相同的应用场景,如果应用场景没有发生变化,则表明两个语音指令的上下文关系有效,云服务器将沿用上下文关系解析第二语音指令,如果应用场景发生变化,则表明前后两个语音指令的上下文关系无效,云服务器在解析第二语音指令时,将不再结合与第一语音指令的上下文关系,独立解析第二语音指令。本申请将语音指令的上下文关系以及应用场景的变化共同作为语音指令解析方式的选择依据,能够更好地突破上下文交互的局限性,在应用场景发生变化的场景下,有利于提高语音指令解析的准确性。
Description
技术领域
本公开涉及智能电视技术领域,尤其涉及一种基于场景感知的上下文判断方法、装置及系统。
背景技术
随着人工智能的迅猛发展,电视业务与智能语音、语义理解的结合也越来越深入,用户可通过语音指令,实现更加简便快捷的业务搜索。
在多轮交互的应用场景中,连续输入的语音指令通常具有一定的关联性,通过在先指令以及上下文关系,即可推断出在后指令的语义。现有的上下文语义理解主要基于语义规则,即通过用户上一次输入的指令对下一次可能出现的指令进行预测,若两次接收到的指令满足预设的语法规则,则可通过上下文关系对下一次接收到的指令进行解析;若不满足预设的语法规则,则表明两次接收到的指令不存在相关性,此时,需要独立解析下一次指令的含义。比如,用户输入语音指令:“青岛天气怎么样”以后,又输入“明天的呢”,前后两次指令具有相关性,容易通过上下文解析出用户第二次指令的实际含义是“青岛明天的天气怎么样”。
用户与电视终端的交互过程具有随机性,语音指令在大部分场景下的搜索功能可实现一语直达,但在有些场景下会出现电视终端的执行结果与用户的指令意图不一致的现象。
发明内容
本发明实施例中提供了一种基于场景感知的上下文判断方法、装置及系统,以解决现有技术中仅依据用户语音输入的上下文信息,容易降低上下文感知及上下文预测准确率的问题。
第一方面,本发明提供了一种基于场景感知的语音识别方法,其特征在于,包括:
解析设备端发送的第一语音指令,并将解析得到的第一语义信息返回设备端,以便设备端根据所述第一语义信息执行所述第一语音指令;
检测设备端发送的第二语音指令与所述第一语音指令是否具有上下文关系,所述第二语音指令的接收时间晚于所述第一语音指令的接收时间;
当所述第二语音指令与所述第一语音指令具有上下文关系时,检测所述第一语音指令和所述第二语音指令是否处于相同的应用场景;
如果所述第一语音指令和所述第二语音指令处于相同的应用场景,通过上下文关系解析第二语音指令,并将解析得到的第二语义信息返回设备端;
如果所述第一语音指令和所述第二语音指令处于不同的应用场景时,单独解析第二语音指令,并将解析得到的第三语义信息返回设备端,以便设备端根据所述第二语义信息或者所述第三语义信息执行所述第二语音指令。
第二方面,本发明提供了一种基于场景感知的上下文判断装置,包括:
第一解析模块,用于解析设备端发送的第一语音指令,并将解析得到的第一语义信息返回设备端,以便设备端根据所述第一语义信息执行所述第一语音指令;
第一检测模块,用于检测设备端发送的第二语音指令与所述第一语音指令是否具有上下文关系,所述第二语音指令的接收时间晚于所述第一语音指令的接收时间;
第二检测模块,用于当所述第二语音指令与所述第一语音指令具有上下文关系,则检测所述第一语音指令和所述第二语音指令是否处于相同的应用场景;
第二解析模块,用于当所述第一语音指令和所述第二语音指令处于相同的应用场景时,通过上下文关系解析第二语音指令,并将解析得到的第二语义信息返回设备端;
第三解析模块,用于当所述第一语音指令和所述第二语音指令处于不同的应用场景时,单独解析第二语音指令,并将解析得到的第三语义信息返回设备端,以便设备端根据所述第二语义信息或者所述第三语义信息执行所述第二语音指令。
第三方面,本发明提供了一种基于场景感知的上下文判断系统,包括电视终端和云服务器,其中,
云服务器包括上述的基于场景感知的上下文判断装置,用于根据电视终端发送的所述语音指令和所述场景信息,解析出所述语音指令的语义信息,以便电视终端根据所述语义信息执行所述语音指令。
本申请的有益效果如下:
本发明实施例中提供了一种基于场景感知的上下文判断方法、装置及系统,本申请在确定第二语音指令与第一语音指令存在上下文关系以后,再检测上述两个指令是否处于相同的应用场景,如果前后两个应用场景没有发生变化,则表明前后两个语音指令的上下文关系有效,将沿用上下文关系解析第二语音指令,如果前后两个应用场景发生变化,则表明前后两个语音指令的上下文关系无效,在解析第二语音指令时,将不再结合与第一语音指令的上下文关系,而独立解析第二语音指令。本申请将语音指令的上下文关系以及应用场景的变化共同作为语音指令解析方式的选择依据,能够更好地突破上下文交互的局限性,在应用场景发生变化的场景下,有利于提高语音指令解析的准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于场景感知的上下文判断方法的方法流程图;
图2为本申请实施例提供的一种步骤S210的方法流程图;
图3为本申请实施例提供的一种步骤S310的方法流程图;
图4为本申请实施例提供的一种步骤S110的方法流程图;
图5为本申请实施例提供的一种步骤S214的方法流程图;
图6为本申请实施例提供的另一种基于场景感知的上下文判断方法的方法流程图;
图7 1 为一种现有上下文判断方法的交互结果图;
图7 2 为本申请实施例提供的一种基于场景感知的上下文判断方法交互结果图;
图8为本申请实施例提供的一种基于场景感知的上下文判断装置的结构示意图;
图9为本申请实施例提供的一种基于场景感知的上下文判断装置的结构示意图;
图10为本申请实施例提供的一种基于场景感知的上下文判断系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
用户与电视终端的交互过程具有随机性,语音指令在大部分场景下的搜索功能可实现一语直达,但在有些场景下语音操作略显繁琐,比如,用户直接按下返回键即可关闭或退出某个界面,对比需要用户按下语音键,再输入语音“退出”或“返回”语音指令来说,通过物理按键的交互方式更加快捷和方便,因此,用户在语音交互过程中,也会根据个人意图切换操作方式。基于上述场景,对上下文的感知和预测若只考虑用户语音输入的上下文信息而忽略其他交互操作,则会降低上下文感知及上下文预测的准确率,导致电视终端的执行结果与用户的指令意图不一致的现象。
针对现有技术中仅依据用户语音输入的上下文信息,容易降低上下文感知及上下文预测准确率的问题,本申请提供了一种基于场景感知的上下文判断方法、装置及系统,其核心思想为:确定在后接收到的第二语音指令与在先接收到的第一语音指令存在上下文关系后,再检测上述两个指令是否处于相同的应用场景,如果前后两个应用场景没有发生变化,则表明前后两个语音指令的上下文关系有效,云服务器将沿用上下文关系解析第二语音指令,如果前后两个应用场景发生变化,则表明前后两个语音指令的上下文关系无效,云服务器在解析第二语音指令时,将不再结合与第一语音指令的上下文关系,而独立解析第二语音指令。本申请将语音指令的上下文关系以及应用场景的变化共同作为语音指令解析方式的选择依据,能够更好地突破上下文交互的局限性,在应用场景发生变化的场景下,有利于提高语音指令解析的准确性。下面结合具体实施例和附图对本申请提供的方案做详细阐述。
请参考图1,所示为本申请实施例提供的一种基于场景感知的上下文判断方法的方法流程图。该方法应用于云服务器端,云服务器端是相对于设备端而言的,云服务器具有存储和运算功能,能够存储设备端上报的语音指令信息和应用场景信息,以及场景数据库信息等,并且能够根据接收到的语音指令信息和应用场景信息进行指令语义的解析,语音指令信息和应用场景信息通常为电视设备生成的文本信息。具体的,由图1可见,该方法包括如下步骤:
步骤S110:解析设备端发送的第一语音指令,并将解析得到的第一语义信息返回设备端,以便设备端根据所述第一语义信息执行所述第一语音指令。
在人机交互的实际场景中,用户与电视终端通常存在多轮交互的应用场景,在多轮交互中,用户会发出多条语音指令,并且各个语音指令之间存在一定的关联性,即语音指令之间具有上下文关系,通过在先发出的语音指令能够推测出在后发出的语音指令的语义。本实施例中,第一语音指令为多轮交互的第一个语音指令。
步骤S210:检测设备端发送的第二语音指令与所述第一语音指令是否具有上下文关系,如果所述第二语音指令与所述第一语音指令具有上下文关系,则执行步骤S310,所述第二语音指令的接收时间晚于所述第一语音指令的接收时间。
请参考图2,所示为本申请实施例提供的一种步骤S210的方法流程图。由图2可见,步骤S210包括如下步骤:
步骤S211:接收设备端发送的第一应用场景信息和第二应用场景信息。
所述第一应用场景信息包括接收到第一语音指令时设备端运行的应用程序名称、显示界面名称以及交互客户端的界面名称,所述第二应用场景信息包括接收到第二语音指令时设备端运行的应用程序名称、显示界面名称以及交互客户端的界面名称。本实施例中,设备端发送第一语音指令的同时发送第一应用场景信息,发送第二语音指令的同时发送第二应用场景信息,云服务器将接受到的第一应用场景信息和第二应用场景信息存储在存储器中,以便后续进行场景切换、上下文关系的判断。当然,本申请其他实施例中,设备端也可以将第一应用场景信息与第二应用场景信息同时发送至云服务器。
步骤S212:检测预设的场景数据库中是否同时包含所述第一应用场景信息和所述第二应用场景信息。
本实施例中,一些应用场景下不能支持通过上下文关系解析语音指令语义信息的应用,因此,本实施例通过云服务器内预先存储的场景数据库来对通过上下文关系解析的可能性做一个初步判断。场景数据库包含能够进行上下文解析的多种应用场景,每种场景下均包含对应的场景信息,场景信息又包含设备端运行的应用程序名称(即程序包的包名)、显示界面名称以及交互客户端的界面名称,场景数据库具体的设置形式请参考表1。
表1:场景数据库的存储形式表
包名(packagename) | 显示界面名称(classname) | 界面名称(scenename) |
com.tencent.qqmusic | com.tencent.qqmusic.playview | 歌曲播放场景 |
com.tencent.qqmusic | com.tencent.qqmusic.listview | 歌曲列表场景 |
com.xiaomi.videochat | com.hisense.videochat.contactview | 视频通话联系人场景 |
com.xiaomi.videochat | com.hisense.videochat.talkview | 视频通话场景 |
…… | …… | …… |
当所述场景数据库中没有同时包含所述第一应用场景信息和所述第二应用场景信息时,执行步骤S213,即表明第一语音指令和第二语音指令中的一种或两种所执行的应用程序无法通过上下文解析语义,二者不具备上下文关系,需要跳出多轮交互单独解析第二语音指令;场景数据库中同时包含所述第一应用场景信息和所述第二应用场景信息时,执行步骤S214,即表明第一语音指令和第二语音指令所执行的应用程序能够过上下文解析语义,二者具备上下文关系,通过预先构建的知识库,即可解析出第二语音指令的语义信息。
步骤S213:确认所述第二语音指令与所述第一语音指令不具有上下文关系。
步骤S214:根据预先构建的知识库确认所述第二语音指令与所述第一语音指令的上下文关系。所述知识库包括多个业务模块,所述业务模块中包括多个业务维度信息的语义槽。
步骤S310:检测所述第一语音指令和所述第二语音指令是否处于相同的应用场景。
如果所述第一语音指令和所述第二语音指令处于相同的应用场景,则表明前后两个语音指令的上下文关系有效,云服务器将沿用上下文关系解析第二语音指令,执行步骤S410;
如果所述第一语音指令和所述第二语音指令处于不同的应用场景,则表明前后两个语音指令的上下文关系无效,云服务器在解析第二语音指令时,将不再结合与第一语音指令的上下文关系,而独立解析第二语音指令,执行步骤S510。本实施例中,引起应用场景变化因素可以是语音指令、也可以是用户通过遥控器发送的操作指令。
本实施例中,第一语音指令和所述第二语音指令是否处于相同的应用场景的判断标准,与应用程序的属性有关,如果相应时刻运行的软件为第三方软件(如QQ、微信、微博等),那么可通过应用程序名称(即包名)来判断应用场景是否发生变化,当应用程序名称未发生变化时,如第一语音指令和所述第二语音指令对应的应用程序名称均为com.tencent.qqmusic,则无论显示界面名称或界面名称是否发生变化,均视为第一语音指令和第二语音指令处于相同的应用场景。如果相应时刻运行的软件为内置软件(如搜索附近美食、医院等搜索服务),则可以通过显示界面名称的变化来判断应用场景的变化情况。检测运行软件是否为第三方软件可以通过设备端上报的应用场景信息实现,如果应用场景信息中应用程序名称为空,则表明该软件为本机内置软件。
具体的,请参考图3,所示为本申请实施例提供的一种步骤S310的方法流程图。由图3可见,步骤S310包括如下步骤:
步骤S311:检测设备端接收到第二语音指令时设备端运行的应用程序是否为第三方软件;如果设备端接收到第二语音指令时设备端运行的应用程序是第三方软件,则执行步骤S312,如果设备端接收到第二语音指令时设备端运行的应用程序不是第三方软件,则执行步骤S315。
步骤S312:检测所述第一应用场景信息中的应用程序名称和所述第二应用场景信息中的应用程序名称是否相同;若相同,则执行步骤S313,若不相同,则执行步骤S314。
步骤S313:确认所述第一语音指令和所述第二语音指令处于相同的应用场景;
步骤S314:确认所述第一语音指令和所述第二语音指令处于不同的应用场景;
步骤S315:检测所述第一应用场景信息中的显示界面名称和所述第二应用场景信息中的显示界面名称是否相同;若相同,则执行步骤S313,若不相同,则执行步骤S314。
步骤S410:通过上下文关系解析第二语音指令,并将解析得到的第二语义信息返回设备端。
步骤S510:单独解析第二语音指令,并将解析得到的第三语义信息返回设备端,以便设备端根据所述第二语义信息或者所述第三语义信息执行所述第二语音指令。
另外,请参考图4,所示为本申请实施例提供的一种步骤S110的方法流程图。由图4可见,本申请其他实施例中,步骤S110还可以包括如下步骤:
步骤S111:提取第一语音指令中的第一关键词;
步骤S112:根据所述第一关键词,查找所述第一语音指令对应的第一业务模块;
步骤S113:根据所述第一业务模块对应的语义槽,划分所述第一关键词的业务维度;
步骤S114:根据所述第一关键词的业务维度,解析出所述第一语音指令的第一语义信息。
另外,请参考图5,所示为本申请实施例提供的一种步骤S214的方法流程图。由图5可见,本申请其他实施例中,步骤S214还可以包括如下步骤:
步骤S2141:提取第二语音指令中的第二关键词;
步骤S2142:当所述第二关键词是否与所述第一关键词具有相同的业务维度时,确认所述第二语音指令与所述第一语音指令是否具有上下文关系。
知识库中设有影视、音乐、电视控制、应用、购物、票务、美食、股票等多个业务模块,针对每个业务的领域特点,抽象出业务维度信息,针对不同的业务维度信息将数据存储于知识库中,这里提到的知识库的存储方式采用:数据库、知识图谱等。再比如:影视业务,可以支持查询的维度包括:影视名称、类型、年代、地区、语言、奖项、演员、导演等业务维度信息。
下面以天气业务为例,简述知识库的构建方法。天气业务的查询维度信息包括时间、地点、天气现象、空气质量、天气指数。其中,时间维度可以为相对时间(如今天、明天、下周四等);也可以为绝对时间(如指3月8号、春节等);地点维度可以包括具体的地点信息,如:青岛、日照、衡水等;天气现象维度可以包括晴天、阴天、下雨、温度等;空气质量维度可以包括空气质量、PM2.5等;天气指数维度可以包括穿衣指数、运动指数、洗车指数等。
本实施例中,采用语义槽作为业务查询的维度信息的知识表示,自然语言理解的过程就是将用户输入解析为预定义的语义槽的过程。以天气业务为例,其语义槽内的维度信息可以包括业务分类、业务目标属性、时间、地点、天气关键词、天气现象词、空气质量和空气指数等自然语言理解以及利用上下文关系解析的过程实质上就是将用户输入解析为预定义的语义槽的过程。下面以一个实例为基础说明上下文解析的过程。比如,用户上文输入:“青岛的天气”,下文用户输入:“北京的呢”,具体的分析过程如下:
首先针对上文“青岛的天气”的语义理解,将填充槽中地点的信息填充为青岛;
当用户输入下文输入:“北京的呢”,单独分析此单轮输入,无法获知用户意图。结合上文的分析,定位到天气业务,并且“北京”是天气业务的查询维度,并且与“青岛”是同维度的信息,此时做语义槽的替换,即将填充槽中地点的信息填充为北京。
此时的定位业务是天气业务,并且完成了槽值的填充。假设用户输入“明天的呢”,同样的分析过程,区别在于此时是date槽值的补充,完成了上下文的具体分析。
与上述基于云服务器端的上下文判断方法相对应,本申请实施例还提供了一种应用于设备端的上下文判断方法。本实施例中,设备端为具有语音识别功能以及遥控功能的电视终端,该电视终端能够接收用户发送的语音指令和遥控指令,并采集终端设备在不同时刻的应用场景信息,在执行语音指令之前,可以将接收到的语音指令以及该语音指令对应的应用场景信息一并发送至云服务器,云服务器执行上述实施例中上下文判断方法,能够将接收到的语音指令解析为语义指令,再返回电视终端,电视终端根据此语义指令执行相关操作。
请参考图6,所示为本申请实施例提供的另一种基于场景感知的上下文判断方法的方法流程图。由图6可见,该方法包括如下步骤:
步骤S120:获取用户发送的第一语音指令,并将所述第一语音指令以及所述第一语音指令对应的应用场景信息发送至云服务器端。
步骤S220:根据云服务器端返回的第一语义信息执行所述第一语音指令。
步骤S320:获取用户发送的第二语音指令,并将所述第二语音指令以及所述第二语音指令对应的应用场景信息发送至云服务器端。
步骤S420:根据云服务器端返回的第二语义信息或者第三语义信息执行所述第二语音指令。其中,当所述第一语音指令和所述第二语音指令处于相同的应用场景时,云服务器端返回第二语义信息,当所述第一语音指令和所述第二语音指令处于不同的应用场景时,云服务器端返回第三语义信息。本申请提供的技术方案将语音指令的上下文关系以及应用场景的变化共同作为语音指令解析方式的选择依据,能够更好地突破上下文交互的局限性,在应用场景发生变化的场景下,有利于提高语音指令解析的准确性。
请参考图71和图72,所示分别为一种现有上下文判断方法的交互结果图以及本申请实施例提供的一种基于场景感知的上下文判断方法交互结果图。对比图71和图72可见,图71和图72的人机交互过程一致,但是电视终端在经过多轮人机交互后,最后一轮反馈的指令执行结果存在较大差异。
参考图71可见,该图所示的交互过程如下:1、用户输入第一语音指令:“刘德华的歌曲”;2、电视终端打开音乐播放界面并播放刘德华的歌曲;3、用户通过遥控等手动操作方式关闭刘德华音乐界面,并输入第二语音指令:“张学友”时,电视终端对第二语音指令的执行结果为:播放张学友的歌曲;4、用户通过遥控等手动操作方式由刘德华的歌曲界面切换至其他歌手界面,并输入第三语音指令:“这首歌是谁唱的”时,电视终端对第三语音指令的执行结果为:刘德华;5、播放歌曲期间,用户输入第四语音指令:“背首唐诗”,并随后退出唐诗界面。当用户输入第五语音指令:“换一首”时,电视终端对第五语音指令的执行结果为:换一首唐诗。
参考图72可见,该图所示的交互过程如下:1、用户输入第一语音指令:“刘德华的歌曲”;2、电视终端打开音乐播放界面并播放刘德华的歌曲;3、用户通过遥控等手动操作方式关闭刘德华音乐界面,并输入第二语音指令:“张学友”时,电视终端对第二语音指令的执行结果为:对张学友信息进行统一搜索;4、用户通过遥控等手动操作方式由刘德华的歌曲界面切换至其他歌手界面,并输入第三语音指令:“这首歌是谁唱的”时,电视终端对第三语音指令的执行结果为:听歌识曲后返回歌手的名字;5、播放歌曲期间,用户输入第四语音指令:“背首唐诗”,并随后退出唐诗界面。当用户输入第五语音指令:“换一首”时,电视终端对第五语音指令的执行结果为:换一首歌曲。
通过图71和图72所示的两个交互过程和交互结果可见,当用户在多轮语音指令之间,穿插遥控操作等交互方式时,电视终端的应用场景实际上已经发生了变化,而现有的上下文判断方式依然停留在多轮交互场景,使得电视终端的执行结果与用户的实际意图出现较大偏差。通过本申请提供的基于场景感知的上下文判断方法识别的语音信息,当电视终端的应用场景发生变化时,能够适时跳出多轮上下文交互场景,单独解析“张学友”、“这首歌是谁唱的”以及“换一首”等第二语音指令,并将解析得到的语义信息返回设备端,从而正确执行用户指令。
另外,基于上述方法实施例,本申请还提供了一种基于场景感知的上下文判断装置,应用于云服务器端。请参考图8,所示为本申请实施例提供的一种基于场景感知的上下文判断装置的结构示意图。由图8可见,该装置包括:
第一解析模块100,用于解析设备端发送的第一语音指令,并将解析得到的第一语义信息返回设备端,所述第一语音指令与其之前的语音指令不存在上下文关系。
第一检测模块200,用于检测设备端发送的第二语音指令与所述第一语音指令是否具有上下文关系,所述第二语音指令的接收时间晚于所述第一语音指令的接收时间。
第二检测模块300,用于当所述第二语音指令与所述第一语音指令具有上下文关系时,检测所述第一语音指令和所述第二语音指令是否处于相同的应用场景。
第二解析模块400,用于当所述第一语音指令和所述第二语音指令处于相同的应用场景时,通过上下文关系解析第二语音指令,并将解析得到的第二语义信息返回设备端。
第三解析模块500,用于当所述第一语音指令和所述第二语音指令处于不同的应用场景时,单独解析第二语音指令,并将解析得到的第三语义信息返回设备端。
另外,基于上述方法实施例,本申请还提供了一种基于场景感知的上下文判断装置,应用于设备端。请参考图9,所示为本申请实施例提供的一种基于场景感知的上下文判断装置的结构示意图。由图9可见,该装置包括:
第一获取模块10,用于获取用户发送的第一语音指令,并将所述第一语音指令以及所述第一语音指令对应的应用场景信息发送至云服务器端;
第一执行模块20,用于根据云服务器端返回的第一语义信息执行所述第一语音指令;
第二获取模块30,用于获取用户发送的第二语音指令,并将所述第二语音指令以及所述第二语音指令对应的应用场景信息发送至云服务器端;
第二执行模块40,用于根据云服务器端返回的第二语义信息或者第三语义信息执行所述第二语音指令,其中,当所述第一语音指令和所述第二语音指令处于相同的应用场景时,云服务器端返回第二语义信息,当所述第一语音指令和所述第二语音指令处于不同的应用场景时,云服务器端返回第三语义信息。
此外,本申请实施例还提供了一种基于场景感知的上下文判断系统,请参考图10,所示为本申请实施例提供的一种基于场景感知的上下文判断系统的结构示意图。由图10可见,该系统包括电视终端1和云服务器2,其中,电视终端包括上述实施例中应用于设备端的上下文判断装置11,该装置对语义的解析结果可以以智能交互客户端的形式展示。电视终端用于获取用户发送的语音指令以及所述语音指令对应的场景信息。
云服务器包括上述实施例中应用于云服务器端的上下文判断装置21,云服务器用于根据电视终端发送的所述语音指令和所述场景信息,解析出所述语音指令的语义信息,以便电视终端根据所述语义信息执行所述语音指令。此外,该系统还包括指令输入设备3,所述指令输入设备用于输入场景切换指令,本实施例中,该指令输入设备为遥控器。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种基于场景感知的语音识别方法,其特征在于,包括:
解析设备端发送的第一语音指令,并将解析得到的第一语义信息返回设备端,以便设备端根据所述第一语义信息执行所述第一语音指令;
检测设备端发送的第二语音指令与所述第一语音指令是否具有上下文关系,所述第二语音指令的接收时间晚于所述第一语音指令的接收时间;
当所述第二语音指令与所述第一语音指令具有上下文关系时,检测所述第一语音指令和所述第二语音指令是否处于相同的应用场景;
如果所述第一语音指令和所述第二语音指令处于相同的应用场景,通过上下文关系解析第二语音指令,并将解析得到的第二语义信息返回设备端;
如果所述第一语音指令和所述第二语音指令处于不同的应用场景时,单独解析第二语音指令,并将解析得到的第三语义信息返回设备端,以便设备端根据所述第二语义信息或者所述第三语义信息执行所述第二语音指令。
2.根据权利要求1所述的方法,其特征在于,所述检测设备端发送的第二语音指令与所述第一语音指令是否具有上下文关系包括:
接收设备端发送的第一应用场景信息和第二应用场景信息所述应用场景信息包括接收到语音指令时设备端运行的应用程序名称、显示界面名称以及交互客户端的界面名称;
当所述场景数据库中没有同时包含所述第一应用场景信息和所述第二应用场景信息时,确认所述第二语音指令与所述第一语音指令不具有上下文关系;
当所述场景数据库中同时包含所述第一应用场景信息和所述第二应用场景信息时,根据预先构建的知识库确认所述第二语音指令与所述第一语音指令的上下文关系,所述知识库包括多个业务模块,所述业务模块中包括多个业务维度信息的语义槽。
3.根据权利要求2所述的方法,其特征在于,检测所述第一语音指令和所述第二语音指令是否处于相同的应用场景,包括:
当设备端接收到所述第二语音指令时设备端运行的应用程序是第三方软件时,检测所述第一应用场景信息中的应用程序名称和所述第二应用场景信息中的应用程序名称是否相同;
若相同,确认所述第一语音指令和所述第二语音指令处于相同的应用场景;
若不相同,确认所述第一语音指令和所述第二语音指令处于不同的应用场景;
当设备端接收到第二语音指令时设备端运行的应用程序不是第三方软件时,检测所述第一应用场景信息中的显示界面名称和所述第二应用场景信息中的显示界面名称是否相同;
若相同,确认所述第一语音指令和所述第二语音指令处于相同的应用场景;
若不相同,确认所述第一语音指令和所述第二语音指令处于不同的应用场景。
4.根据权利要求2所述的方法,其特征在于,所述解析设备端发送的第一语音指令包括:
提取第一语音指令中的第一关键词;
根据所述第一关键词,查找所述第一语音指令对应的第一业务模块;
根据所述第一业务模块对应的语义槽,划分所述第一关键词的业务维度;
根据所述第一关键词的业务维度,解析出所述第一语音指令的第一语义信息。
5.根据权利要求4所述的方法,其特征在于,所述检测设备端发送的第二语音指令与所述第一语音指令是否具有上下文关系包括:
提取第二语音指令中的第二关键词;
当所述第二关键词与所述第一关键词具有相同的业务维度时,确认所述第二语音指令与所述第一语音指令是否具有上下文关系。
6.一种基于场景感知的上下文判断装置,其特征在于,包括:
第一解析模块,用于解析设备端发送的第一语音指令,并将解析得到的第一语义信息返回设备端,以便设备端根据所述第一语义信息执行所述第一语音指令;
第一检测模块,用于检测设备端发送的第二语音指令与所述第一语音指令是否具有上下文关系,所述第二语音指令的接收时间晚于所述第一语音指令的接收时间;
第二检测模块,用于当所述第二语音指令与所述第一语音指令具有上下文关系,则检测所述第一语音指令和所述第二语音指令是否处于相同的应用场景;
第二解析模块,用于当所述第一语音指令和所述第二语音指令处于相同的应用场景时,通过上下文关系解析第二语音指令,并将解析得到的第二语义信息返回设备端;
第三解析模块,用于当所述第一语音指令和所述第二语音指令处于不同的应用场景时,单独解析第二语音指令,并将解析得到的第三语义信息返回设备端,以便设备端根据所述第二语义信息或者所述第三语义信息执行所述第二语音指令。
7.一种基于场景感知的上下文判断系统,其特征在于,包括电视终端和云服务器,其中,
云服务器包括权利要求6所述的基于场景感知的上下文判断装置,用于根据电视终端发送的所述语音指令和所述场景信息,解析出所述语音指令的语义信息,以便电视终端根据所述语义信息执行所述语音指令。
8.根据权利要求7所述的基于场景感知的上下文判断系统,其特征在于,还包括指令输入设备,所述指令输入设备用于输入场景切换指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810646326.XA CN110634477B (zh) | 2018-06-21 | 2018-06-21 | 一种基于场景感知的上下文判断方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810646326.XA CN110634477B (zh) | 2018-06-21 | 2018-06-21 | 一种基于场景感知的上下文判断方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110634477A true CN110634477A (zh) | 2019-12-31 |
CN110634477B CN110634477B (zh) | 2022-01-25 |
Family
ID=68966455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810646326.XA Active CN110634477B (zh) | 2018-06-21 | 2018-06-21 | 一种基于场景感知的上下文判断方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110634477B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111367407A (zh) * | 2020-02-24 | 2020-07-03 | Oppo(重庆)智能科技有限公司 | 智能眼镜交互方法、智能眼镜交互装置及智能眼镜 |
CN113806503A (zh) * | 2021-08-25 | 2021-12-17 | 北京库睿科技有限公司 | 一种对话融合方法和装置及设备 |
CN115064167A (zh) * | 2022-08-17 | 2022-09-16 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和存储介质 |
CN117059074A (zh) * | 2023-10-08 | 2023-11-14 | 四川蜀天信息技术有限公司 | 一种基于意图识别的语音交互方法、装置及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140025380A1 (en) * | 2012-07-18 | 2014-01-23 | International Business Machines Corporation | System, method and program product for providing automatic speech recognition (asr) in a shared resource environment |
CN104811777A (zh) * | 2014-01-23 | 2015-07-29 | 阿里巴巴集团控股有限公司 | 智能电视的语音处理方法、处理系统及智能电视 |
CN106792047A (zh) * | 2016-12-20 | 2017-05-31 | Tcl集团股份有限公司 | 一种智能电视的语音控制方法及系统 |
US20180004729A1 (en) * | 2016-06-29 | 2018-01-04 | Shenzhen Gowild Robotics Co., Ltd. | State machine based context-sensitive system for managing multi-round dialog |
CN108022590A (zh) * | 2016-11-03 | 2018-05-11 | 谷歌有限责任公司 | 语音接口设备处的聚焦会话 |
-
2018
- 2018-06-21 CN CN201810646326.XA patent/CN110634477B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140025380A1 (en) * | 2012-07-18 | 2014-01-23 | International Business Machines Corporation | System, method and program product for providing automatic speech recognition (asr) in a shared resource environment |
CN104811777A (zh) * | 2014-01-23 | 2015-07-29 | 阿里巴巴集团控股有限公司 | 智能电视的语音处理方法、处理系统及智能电视 |
US20180004729A1 (en) * | 2016-06-29 | 2018-01-04 | Shenzhen Gowild Robotics Co., Ltd. | State machine based context-sensitive system for managing multi-round dialog |
CN108022590A (zh) * | 2016-11-03 | 2018-05-11 | 谷歌有限责任公司 | 语音接口设备处的聚焦会话 |
CN106792047A (zh) * | 2016-12-20 | 2017-05-31 | Tcl集团股份有限公司 | 一种智能电视的语音控制方法及系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111367407A (zh) * | 2020-02-24 | 2020-07-03 | Oppo(重庆)智能科技有限公司 | 智能眼镜交互方法、智能眼镜交互装置及智能眼镜 |
CN111367407B (zh) * | 2020-02-24 | 2023-10-10 | Oppo(重庆)智能科技有限公司 | 智能眼镜交互方法、智能眼镜交互装置及智能眼镜 |
CN113806503A (zh) * | 2021-08-25 | 2021-12-17 | 北京库睿科技有限公司 | 一种对话融合方法和装置及设备 |
CN115064167A (zh) * | 2022-08-17 | 2022-09-16 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和存储介质 |
CN115064167B (zh) * | 2022-08-17 | 2022-12-13 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和存储介质 |
CN117059074A (zh) * | 2023-10-08 | 2023-11-14 | 四川蜀天信息技术有限公司 | 一种基于意图识别的语音交互方法、装置及存储介质 |
CN117059074B (zh) * | 2023-10-08 | 2024-01-19 | 四川蜀天信息技术有限公司 | 一种基于意图识别的语音交互方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110634477B (zh) | 2022-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110634477B (zh) | 一种基于场景感知的上下文判断方法、装置及系统 | |
JP7335062B2 (ja) | 音声サービス提供方法および装置 | |
US10922355B2 (en) | Method and apparatus for recommending news | |
CN110209843B (zh) | 多媒体资源播放方法、装置、设备及存储介质 | |
CN106250474B (zh) | 一种语音控制的处理方法及系统 | |
WO2016150083A1 (zh) | 一种信息输入方法和装置 | |
CN110557659B (zh) | 视频推荐方法、装置、服务器及存储介质 | |
CN110175245A (zh) | 多媒体推荐方法、装置、设备及存储介质 | |
KR20200003106A (ko) | 정보 검색 방법, 장치 및 시스템 | |
CN105657535A (zh) | 一种音频识别方法和装置 | |
CN112817583B (zh) | 一种代码编辑方法、装置、服务端、用户设备及存储介质 | |
CN108960934A (zh) | 语音对话过程中的信息推荐方法及系统 | |
CN113569037A (zh) | 一种消息处理方法、装置以及可读存储介质 | |
CN109783656B (zh) | 音视频数据的推荐方法、系统及服务器和存储介质 | |
CN109670020B (zh) | 一种语音交互方法、系统及装置 | |
CN110708607A (zh) | 直播互动方法、装置、电子设备以及存储介质 | |
CN108958503A (zh) | 输入方法和装置 | |
CN110866200A (zh) | 一种业务界面的渲染方法和装置 | |
CN111428512A (zh) | 一种语义识别方法、装置及设备 | |
US11756544B2 (en) | Selectively providing enhanced clarification prompts in automated assistant interactions | |
JP7436077B2 (ja) | スキルの音声ウェイクアップ方法および装置 | |
CN111105294A (zh) | 一种vr导览方法、系统、客户端、服务器及其存储介质 | |
CN111191133B (zh) | 业务搜索处理方法、装置及设备 | |
CN111954017B (zh) | 直播间搜索方法、装置、服务器及存储介质 | |
CN111970525B (zh) | 直播间搜索方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |