CN109979462A

CN109979462A - 一种结合上下文语境获取意图的方法和系统

Info

Publication number: CN109979462A
Application number: CN201910217168.0A
Authority: CN
Inventors: 魏誉荧
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2019-07-05

Abstract

本发明涉及语义识别技术领域，尤指一种结合上下文语境获取意图的方法。通过持续采集用户语音，并记录采集时间点，采集用户浏览内容的截图，并记录采集时间点；获取用户语音的语境指向时间点，根据语境指向时间点获取所述用户语音的语境指向截图；对所述语境指向截图进行图像识别，获取所述用户语音的语境内容；结合所述语境内容，解析所述文字文本，获取所述用户语音所表达的准确意图。本发明在特定场景的人机交互中，通过收集第三方的图像信息获取用户的上下文语境内容，基于语境内容完成用户真实意图的理解。

Description

一种结合上下文语境获取意图的方法和系统

技术领域

本发明涉及语义识别技术领域，尤指一种结合上下文语境获取意图的方法和系统。

背景技术

传统的人机交互中，人们使用键盘鼠标等设备输入指令，以使计算机理解人们的操作意图。随着计算机语义识别技术的发展，人机交互的方式越来越简便，通过对人类自然语言的语义识别来进行人机交互成为本领域的常用手段。

通常使用的语义识别方法中，只针对用户的即时语料进行分析，当遇到一词多义或者古今异义词的时候，这种基于即时语料分析当前输入的词语，然后给出全部释义的方法，很难准确判断出用户所表达的准确意图，这使得用户和计算机的交互变得困难，从而降低用户体验。

为了提高对用户自然语言的理解准确率，提高人机交互的效率，现有的技术【CN107239139A-一种基于正视的人机交互方法与系统】针对该问题提出了一种解决方案，通过图像采集设备采集的用户与设备处于相对正视状态下的正视图像数据，采集用户当前图像数据，将当前采集的图像数据与正视图像数据比较，当一致时，通过计算机的视觉识别技术和语音识别技术识别用户行为和意图，根据预设用户的行为与意图与操作对应关系，控制设备执行与用户当前的行为与意图对应的操作。整个过程中，基于图像采集设备采集的图像数据进行正视判定，并以用户与设备的正视状态判定作为人机交互前提条件，整个人机交互过程自然，另外采用包括人脸识别、语音识别、手势识别、唇语识别、瞳孔识别以及虹膜识别的多种计算机的视觉识别技术和语音识别技术识别用户下一步动作，能够实现多样式人机交互。该方案通过对用户正视图像数据的收集和分析，辅助进行用户操作意图的识别，通过增加语义识别之外的用户意图识别条件，提供了一种提高对用户自然语言理解准确率的解决方案。但是该方案中，只基于用户当前的正视图像数据来判断用户的当前状态，相对于原始的语音识别方法，只是针对用户的状态，增加了识别的种类，但仍然只集中于用户这个单一的识别对象来进行分析。

另一个现有技术【CN106354835A-基于上下文语义理解的人工对话辅助系统】提供了另一种提高准确率的解决方案。包括信息获取模块、语义理解模块、集成功能模块和人工确认模块，其中，信息获取模块被配置为获取用户当前输入、对话轮次和历史输入信息；语义理解模块被配置为结合上下文进行语义理解，获取用户当前意图，进过人工确认模块确认为用户真实意图；集成功能模块被配置为调用系统集成功能并搜索匹配给出解决用户问题的回答信息，经过人工确认模块确认后推送给客户。本发明所述系统着重在后端实现为客服人员服务，大幅减少客服人员的重复劳动和劳动强度，增加客服的处理能力，让客服人员更专注在一些细致体贴的客户体验上，从而提高系统响应效率和客户体验。该方案中，通过结合用户当前输入、对话轮次和历史输入信息，综合理解用户当前输入内容的真实意图，通过引入上下文语境，对用户当前输入的内容进行补充理解，从另一个角度增加了判断用户真实意图的条件。但是，该方案还是基于对用户这个对象的信息收集，只是扩充用户在不同时间维度的输入内容为附加的意图理解条件。

用户在进行人机交互时，有时除了用户和计算机两方之外，可能存在第三方关联对象，这时如果采集用户的状态信息也无法准确理解用户意图时，能否以及如何从第三方关联对象着手，进一步增加用户语义理解的条件，成为了新的问题。

发明内容

本发明提供一种结合上下文语境获取意图的方法和系统，通过摄像头持续采集用户浏览内容的截图，当用户与设备进行语音交互时，通过采集时间点匹配，获取用户发出当前语音时，所对应的视觉浏览图像的截图，结合该截图，分析用户发出语音时所处的语境内容，结合该语境，解析用户语音的文字文本，获取用户语音所表达的准确意图。本发明提供的技术方案如下：

提供一种结合上下文语境获取意图的方法，包括：

终端开启摄像头和麦克风，通过麦克风持续采集用户语音，并记录所述用户语音的采集时间点，通过摄像头持续采集用户浏览内容的截图，并记录所述截图的采集时间点；

对所述用户语音进行语义识别，获取所述语音的文字文本；

检测所述文字文本中是否存在时间指向词，根据检测结果确定所述用户语音的语境指向时间点，根据所述语境指向时间点获取所述用户语音的语境指向截图；

对所述语境指向截图进行图像识别，获取所述用户语音的语境内容；

结合所述语境内容，解析所述文字文本，获取所述用户语音所表达的准确意图。

具体地，本申请中所使用的终端为具备收集语音和图像信息能力的终端，语音信息是指正在与终端进行交互的用户所发出的语音，图像信息是指正在与终端进行交互的用户所浏览的图像。本发明通过收集用户发出语音时，所指向的视觉图像画面的截图，得到用户所处的语境，再根据语境来进一步判断用户语音中一些模糊意图的语音所表达的准确含义。在特定场景的人机交互中，通过收集第三方的图像信息，来辅助终端进行用户语音理解，增强了语音理解的准确性。

进一步地，本发明中一种结合上下文语境获取意图的方法中，检测所述文字文本中是否存在时间指向词，根据检测结果确定所述用户语音的语境指向时间点，根据所述语境指向时间点获取所述用户语音的语境指向截图包括:

当所述检测结果为无法检测到所述时间指向词时，将所述用户语音的采集时间点作为所述语境指向时间点；

在所述用户浏览内容的截图中，调取与所述语境指向时间点的时间间隔小于预设阈值的所有截图作为所述语境指向截图。

具体地，在获取用户语音的语境指向截图时，本发明通过各种时间点作为关联条件，当用户的语音中并不存在具体的时间指向词时，默认用户是基于当前时间点发出的语音，那么，同时默认用户语音的采集时间点所对应的截图为语境指向截图。当用户语音的采集时间点正好处于摄像头采集图像的间歇期，那么就获取与用户语音的采集时间点最近的截图为语境指向截图。也就是说，如果用户语音中没有时间指向词，那么用户发出语音的那一时刻所采集的截图就作为语境指向截图，如果那一时刻恰好没有截图，那就将与该时刻时间上最接近的截图作为语境指向截图。通过这种方式，本发明解决了用户发出的语音中没有包含时间指向词时，如何成功获取语境指向截图的问题。

进一步地，本发明中一种结合上下文语境获取意图的方法中，所述检测所述文字文本中是否存在时间指向词，根据检测结果确定所述用户语音的语境指向时间点，根据所述语境指向时间点获取所述用户语音的语境指向截图还包括:

当所述检测结果为可以检测到所述时间指向词时，将所述时间指向词中包含的时间点作为所述语境指向时间点；

根据所述语境指向时间点获取对应的截图，作为所述语境指向截图。

具体地，本发明中对语境指向截图的获取的第一判断过程为，对用户语音所转化的文字文本中的时间指向词的进行判断，在上述方法解决了文字文本中无时间指向词时如何获取语境截图的问题之外，当文字文本中包含时间指向词时，本发明通过时间指向词中的时间点信息来获取语境指向截图，解决了用户发出的语音中包含时间指向词时，如何成功获取语境指向截图的问题。

进一步地，本发明中一种结合上下文语境获取意图的方法，所述根据所述语境指向时间点获取对应的截图，作为所述语境指向截图包括：

当所述语境指向时间点为历史时间时，在所述用户浏览内容的截图中，调取与所述语境指向时间点的时间间隔小于预设阈值的所有截图，作为所述语境指向截图。

具体地，根据用户语音中的时间指向词来获取用户语境指向截图时，如果指向的时间为历史时间，也就是说，在用户发出语音前，该语境指向截图已经被摄像头获取并存储在存储器中，那么根据这个指向的历史时间点，直接从存储器中调取这个截图即可。通过这种方法，本发明解决了用户语音的语境为某个历史时间时，如何获取其语境指向截图的问题。

进一步地，本发明中一种结合上下文语境获取意图的方法，所述根据所述语境指向时间点获取对应的截图，作为所述语境指向截图还包括：

当所述语境指向时间点为未来时间时，保持所述摄像头的开启状态，并持续采集新的用户浏览内容的截图，直到在所述新的用户浏览内容的截图中，成功获取所有与所述语境指向时间点的时间间隔小于预设阈值的截图，作为所述语境指向截图。

具体地，根据用户语音中的时间指向词来获取用户语境指向截图时，如果指向的时间为未来时间，也就是说，在用户发出语音前，该语境指向截图还未被摄像头获取并存储在存储器中，那么，在这个未来时间到来时，将与该时间点的时间间隔小于预设阈值的截图都采集下来，这些截图形成的图集作为语境指向截图。也就是说，如果用户在语音命令中明确指定，当前语音中的信息可以在未来的某个时间获得，那么就可以预先做好准备，而不是延续之前的默认截图节奏，将围绕该未来时间点的用户所有图像都进行截图，收集尽量多的图，进一步增加利用截图获取用户语音真实意图的准确性。

本发明还提供一种结合上下文语境获取意图的系统，包括：

采集模块，终端开启摄像头和麦克风，通过麦克风持续采集用户语音，并记录所述用户语音的采集时间点，通过摄像头持续采集用户浏览内容的截图，并记录所述截图的采集时间点；

语音识别模块，对所述用户语音进行语义识别，获取所述语音的文字文本；

截图获取模块，检测所述文字文本中是否存在时间指向词，根据检测结果确定所述用户语音的语境指向时间点，根据所述语境指向时间点获取所述用户语音的语境指向截图；

图像识别模块，对所述语境指向截图进行图像识别，获取所述用户语音的语境内容；

文本解析模块，结合所述语境内容，解析所述文字文本，获取所述用户语音所表达的准确意图。

进一步地，本发明一种结合上下文语境获取意图的系统，所述截图获取模块还用于：

通过本发明提供的一种结合上下文语境获取意图的方法和系统，能够带来以下至少一种有益效果：

1、在特定场景的人机交互中，通过收集第三方的图像信息获取上下文语境，来辅助终端进行用户语音理解，增强了语音理解的准确性。

2、如果用户语音中没有时间指向词，那么用户发出语音的那一时刻所采集的截图就作为语境指向截图，如果那一时刻恰好没有截图，那就将与该时刻时间上最接近的截图作为语境指向截图。通过这种方式，本发明解决了用户发出的语音中没有包含时间指向词时，如何成功获取语境指向截图的问题。

3、当用户语音所转化的文字文本中包含时间指向词时，本发明通过时间指向词中的时间点信息来获取语境指向截图，解决了用户发出的语音中包含时间指向词时，如何成功获取语境指向截图的问题。

4、如果用户语音中指向的时间为历史时间，在用户发出语音前，该语境指向截图已经被摄像头获取并存储在存储器中，那么根据这个指向的历史时间点，直接从存储器中调取这个截图即可。通过这种方法，本发明解决了用户语音的语境为某个历史时间时，如何获取其语境指向截图的问题。

5、如果用户语音中指向的时间为未来时间，如果用户在语音命令中明确指定，当前语音中的信息可以在未来的某个时间获得，那么就可以预先做好准备，而不是延续之前的默认截图节奏，将围绕该未来时间点的用户所有图像都进行截图，收集尽量多的图，进一步增加利用截图获取用户语音真实意图的准确性。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对一种结合上下文语境获取意图的方法和系统的上述特征、技术特征、优点及其实现方式予以进一步的说明。

图1是本发明一种结合上下文语境获取意图的方法的一个实施例的流程图；

图2是本发明一种结合上下文语境获取意图的方法的另一个实施例的流程图；

图3是本发明一种结合上下文语境获取意图的方法的又一个实施例的流程图；

图4是本发明一种结合上下文语境获取意图的方法的另一个实施例的流程图；

图5是本发明一种结合上下文语境获取意图的方法的又一个实施例的流程图；

图6是本发明一种结合上下文语境获取意图的方法的另一个实施例的流程图；

图7是本发明一种结合上下文语境获取意图的系统的一个实施例的结构示意图；

附图标号说明：

10 采集模块

20 语音识别模块

30 截图获取模块

40 图像识别模块

50 文本解析模块

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

在人机交互中，为了获取对用户语音所处的语境来辅助理解用户的准确意图，本发明提供一种结合上下文语境获取意图的方法和系统。

本发明第一实施例，图1是本发明中一种结合上下文语境获取意图的方法的一些实施例的流程图。

S100终端开启摄像头和麦克风，通过麦克风持续采集用户语音，并记录所述用户语音的采集时间点，通过摄像头持续采集用户浏览内容的截图，并记录所述截图的采集时间点；

S200对所述用户语音进行语义识别，获取所述语音的文字文本；

S300检测所述文字文本中是否存在时间指向词，根据检测结果确定所述用户语音的语境指向时间点，根据所述语境指向时间点获取所述用户语音的语境指向截图；

S400对所述语境指向截图进行图像识别，获取所述用户语音的语境内容；

S500结合所述语境内容，解析所述文字文本，获取所述用户语音所表达的准确意图。

具体地，在S100中，终端通过开启自身配置的摄像头和麦克风，持续地对用户语音和用户浏览的内容进行截图，并记录各自对应的采集时间点。人机通过语音进行交互时，一般都是基于用户语音的语义理解来分析的语音意图，本申请中，除了采集用户的语音之外，还采集用户在浏览内容，也就是说，在用户浏览页面的这种场景下，增加对用户浏览内容的识别，以收集更多的用户信息。进一步地，本发明中只对需要收集的内容进行了限定，即用户的语音和其采集时间点，用户的浏览内容和其采集时间点，对这些收集的内容的方式并不进行限定，如果用户不使用终端自身配置的摄像头和麦克风，而是通过其他终端设备来获取这些内容，也不会影响本发明的实施，这就是说，本发明S100中虽然提供了收集用户语音、浏览内容截图、时间点的一种方式，但也可以使用其他方式来获取这些内容，比如通过与终端分离的监控摄像头和麦克风来将某一地点的语音和图像信息收集并存储到服务器，再从服务器中调取这些内容。所以，需要声明的是S100中只对采集的内容进行限定，而无论采取何种采集方式获取这些内容，都属于本发明的保护范围。

在S200中，通过对S100中采集的语音进行语义识别，获取对应的文字文本，这是本领域中理解用户语音的常用方法，一般来说，传统的语音识别方法中，完成S200步骤之后，就对其中的文字文本进行解析来获取用户所表达的意图，但在本发明中，步骤S200中得到的文字文本不仅仅用于此。

在S300中，基于S200已经获取的文字文本，检测其中是否存在时间指向词，进一步优选地，当指向的时间为时间段或者一个模糊时间时，还可以通过用户语音的文本中其他的特征词来辅助定位语境指向截图，例如用户的语音为“参考昨天上午11点那道数学题的解题思路”，那么除了时间指向词之外，“数学题”也是一个特征词，这样可以语境指向截图的集合太大时，缩小用于分析用户语境的截图数量，进一步增加识别的效率。

在S400中，当S300中成功获取用户的语境指向截图后，对这些截图进行图像识别，例如通过用户的语音为“参考昨天上午11点那道数学题的解题思路”，获得了用户在昨天上午11点所浏览的数学题的图像，那么就可以通过图像识别，得到这道数学题，在题库中找到解题思路，从而获取用户在发出该语音时的语境，其中所指向的数学题的解题思路的具体内容。

在S500中，当成功获取用户语音的语境内容后，结合语境内容解析用户的语音文字文本，则可以获得用户表达的准确意图，例如，通过S400中图像识别后得到昨天上午11点所浏览的数学题为“一百只兔、鸡共三百只脚，问兔、鸡分别有多少”，那么就可以得到用户当前处于二元一次方程的解题语境中，进而可以理解用户语音“参考昨天上午11点那道数学题的解题思路”对应的准确意图为“参考二元一次方程的解法”。

本申请中所使用的终端为具备收集语音和图像信息能力的终端，语音信息是指正在与终端进行交互的用户所发出的语音，图像信息是指正在与终端进行交互的用户所浏览的图像。本发明通过收集用户发出语音时，所指向的视觉图像画面的截图，得到用户所处的语境，再根据语境来进一步判断用户语音中一些模糊意图的语音所表达的准确含义。在特定场景的人机交互中，通过收集第三方的图像信息，来辅助终端进行用户语音理解，增强了语音理解的准确性。

本发明第二实施例，图2是本发明中一种结合上下文语境获取意图的方法的另一些实施例的流程图，基于第一实施例，本发明中一些实施例提供一种结合上下文语境获取意图的方法，包括：

S310当所述检测结果为无法检测到所述时间指向词时，将所述用户语音的采集时间点作为所述语境指向时间点；

S320在所述用户浏览内容的截图中，调取与所述语境指向时间点的时间间隔小于预设阈值的所有截图作为所述语境指向截图。

具体地，如果S300中检测的结果为无法检测到所述时间指向词，那么进入S310，将用户语音的采集时间点作为语境指向时间点。在汉语的使用场景中，如果用户需要标明某一句话的时间背景，一般都会使用时间指向词，当用户的语音中不包含这类时间指向词时，那么我们就默认他是基于当前时间背景下发出的语音，也就是说，用户如果语音中没有明确指向当前时间点之外的任何时间，那就默认其语境指向时间点为当前时刻(语音的收集时间点)。例如，用户的语音如果为“参考二元一次方程的解题思路”，其中无时间指示词，那么就默认用户基于当前时刻发出了这个语音。

在S310中确定用户的语境指向时间点为语音收集时间点之后，通过320，将与该时间点间隔小于预设阈值的所有截图从存储器中调取出来，作为语境指向截图进行分析。例如用户的语音如果为“参考二元一次方程的解题思路”，那么就在语境指向截图中寻找用户基于那个问题发出的该语音，如果通过图像识别发现用户正在浏览的题目为“一百只兔、鸡共三百只脚，问兔、鸡分别有多少”，那么就可以理解用户语音中所需要进行解答的题目，进而提供使用二元一次方程进行的解答过程。

在获取用户语音的语境指向截图时，本发明通过各种时间点作为关联条件，当用户的语音中并不存在具体的时间指向词时，默认用户是基于当前时间点发出的语音，那么，同时默认用户语音的采集时间点所对应的截图为语境指向截图。当用户语音的采集时间点正好处于摄像头采集图像的间歇期，那么就获取与用户语音的采集时间点最近的截图为语境指向截图。也就是说，如果用户语音中没有时间指向词，那么用户发出语音的那一时刻所采集的截图就作为语境指向截图，如果那一时刻恰好没有截图，那就将与该时刻时间上最接近的截图作为语境指向截图。通过这种方式，本发明解决了用户发出的语音中没有包含时间指向词时，如何成功获取语境指向截图的问题。

本发明第三实施例，图3是本发明中一种结合上下文语境获取意图的方法的又一些实施例的流程图，其方法基于第一实施例进行进一步改进。本发明中一种结合上下文语境获取意图的方法中，所述检测所述文字文本中是否存在时间指向词，根据检测结果确定所述用户语音的语境指向时间点，根据所述语境指向时间点获取所述用户语音的语境指向截图还包括:

S340当所述检测结果为可以检测到所述时间指向词时，将所述时间指向词中包含的时间点作为所述语境指向时间点；

S350根据所述语境指向时间点获取对应的截图，作为所述语境指向截图。

具体地，如果S300中检测结果为可以检测到时间指向词，那么进入步骤S340，将检测出来的时间指向词中包含的时间点作为语境指向时间点。例如，用户的语音为“参考昨天上午11点那道数学题的解题思路”，那么在这个文本中，就可以检测出“昨天上午11点”为时间指向词，本领域技术人员容易想到的时间指向词包括具体的时刻、也包括模糊时段，例如，“一小时前”、“读上篇文章时”，也就是说，本发明中的时间指向词并不限定哪一种时间表达方式，凡是可以从中获取时间指向信息的，都在本申请保护范围之内。

在S340中，将时间指向词中包含的时间点作为语境指向时间点之后，进入步骤S350，根据得到的语境指向时间点就可以确定语境指向截图。

本发明第四实施例，图4是本发明中一种结合上下文语境获取意图的方法的另一些实施例的流程图，其方法基于第三实施例进行进一步改进。本发明中一种结合上下文语境获取意图的方法，所述根据所述语境指向时间点获取对应的截图，作为所述语境指向截图包括：

S351当所述语境指向时间点为历史时间时，在所述用户浏览内容的截图中，调取与所述语境指向时间点的时间间隔小于预设阈值的所有截图，作为所述语境指向截图。

具体地，如果在S340中，得到的语境指向时间点是历史时间，那么进入S351，在存储器中直接调取用户语音的语境指向截图，截图可能为一张，也可能为多张，当语境指向时间点正好有截图时，只调取一张；或，当语境指向时间点无对应截图时，调取与该语境指向时间点时间上最接近的一张；或，当需要多张截图进行精确分析时，调取与该语境指向时间点的时间间隔小于预设阈值的所有截图。

根据用户语音中的时间指向词来获取用户语境指向截图时，如果指向的时间为历史时间，也就是说，在用户发出语音前，该语境指向截图已经被摄像头获取并存储在存储器中，那么根据这个指向的历史时间点，直接从存储器中调取这个截图即可。通过这种方法，本发明解决了用户语音的语境为某个历史时间时，如何获取其语境指向截图的问题。

本发明第五实施例，图5是本发明中一种结合上下文语境获取意图的方法的又一些实施例的流程图，其方法基于第三实施例进行进一步改进。本发明中一种结合上下文语境获取意图的方法，所述根据所述语境指向时间点获取对应的截图，作为所述语境指向截图还包括：

S352当所述语境指向时间点为未来时间时，保持所述摄像头的开启状态，并持续采集新的用户浏览内容的截图，直到在所述新的用户浏览内容的截图中，成功获取所有与所述语境指向时间点的时间间隔小于预设阈值的截图，作为所述语境指向截图。

具体地，如果在S340中，得到的语境指向时间点是未来时间，那么进入S352，存储器中此时还未存储用户语音的语境指向截图，那么就需要保持摄像头(摄像装置)的开启状态，持续采集用户浏览的内容，直到这个语境指向时间点的未来时间到来，再围绕该时间点进行目的明确的截图，并将这些截图作为语境指向截图。例如，用户语音为“阅读两个小时后休息，加个书签”，那么作为未来时间“两个小时后”到来时，终端就会在获取用户的当前浏览页面，并在该页面上添加书签。

根据用户语音中的时间指向词来获取用户语境指向截图时，如果指向的时间为未来时间，也就是说，在用户发出语音前，该语境指向截图还未被摄像头获取并存储在存储器中，那么，在这个未来时间到来时，将与该时间点的时间间隔小于预设阈值的截图都采集下来，这些截图形成的图集作为语境指向截图。也就是说，如果用户在语音命令中明确指定，当前语音中的信息可以在未来的某个时间获得，那么就可以预先做好准备，而不是延续之前的默认截图节奏，将围绕该未来时间点的用户所有图像都进行截图，收集尽量多的图，进一步增加利用截图获取用户语音真实意图的准确性。

本发明第六实施例，图6是本发明中一种结合上下文语境获取意图的方法的另一些实施例的流程图。

S340检测所述文字文本中是否存在时间指向词，当所述检测结果为可以检测到所述时间指向词时，将所述时间指向词中包含的时间点作为所述语境指向时间点；

S351当所述语境指向时间点为历史时间时，在所述用户浏览内容的截图中，调取与所述语境指向时间点的时间间隔小于预设阈值的所有截图，作为所述语境指向截图；

S352当所述语境指向时间点为未来时间时，保持所述摄像头的开启状态，并持续采集新的用户浏览内容的截图，直到在所述新的用户浏览内容的截图中，成功获取所有与所述语境指向时间点的时间间隔小于预设阈值的截图，作为所述语境指向截图；

具体地，在S100中，终端通过开启自身配置的摄像头和麦克风，持续地对用户语音和用户浏览的内容进行截图，并记录各自对应的采集时间点。人机通过语音进行交互时，一般都是基于用户语音的语义理解来分析的语音意图，本申请中，除了采集用户的语音之外，还采集用户在浏览内容，也就是说，在用户浏览页面的这种场景下，增加对用户浏览内容的识别，以收集更多的用户信息。进一步地，本发明中只对需要收集的内容进行了限定，即用户的语音和其采集时间点，用户的浏览内容和其采集时间点，对这些收集的内容的方式并不进行限定，如果用户不使用终端自身配置的摄像头和麦克风，而是通过其他终端设备来获取这些内容，也不会影响本发明的实施，这就是说，本发明S100中虽然提供了收集用户语音、浏览内容截图、时间点的一种方式，但也可以使用其他方式来获取这些内容，比如通过分离的监控摄像头和麦克风来将某一地点的语音和图像信息收集并存储到服务器，再从服务器中调取这些内容，也是一种方式。所以，需要声明的是S100中只对采集的内容进行限定，而无论采取何种采集方式获取这些内容，都属于本发明的保护范围。

如果S300中检测结果为可以检测到时间指向词，那么进入步骤S340，将检测出来的时间指向词中包含的时间点作为语境指向时间点。例如，用户的语音为“参考昨天上午11点那道数学题的解题思路”，那么在这个文本中，就可以检测出“昨天上午11点”为时间指向词，本领域技术人员容易想到的时间指向词包括具体的时刻、也包括模糊时段，例如，“一小时前”、“读上篇文章时”，也就是说，本发明中的时间指向词并不限定哪一种时间表达方式，凡是可以从中获取时间指向信息的，都在本申请保护范围之内。

如果在S340中，得到的语境指向时间点是历史时间，那么进入S351，在存储器中直接调取用户语音的语境指向截图，截图可能为一张，也可能为多张，当语境指向时间点正好有截图时，只调取一张；或，当语境指向时间点无对应截图时，调取与该语境指向时间点时间上最接近的一张；或，当需要多张截图进行精确分析时，调取与该语境指向时间点的时间间隔小于预设阈值的所有截图。

如果在S340中，得到的语境指向时间点是未来时间，那么进入S352，存储器中此时还未存储用户语音的语境指向截图，那么就需要保持摄像头(摄像装置)的开启状态，持续采集用户浏览的内容，直到这个语境指向时间点的未来时间到来，再围绕该时间点进行目的明确的截图，并将这些截图作为语境指向截图。例如，用户语音为“阅读两个小时后休息，加个书签”，那么作为未来时间“两个小时后”到来时，终端就会在获取用户的当前浏览页面，并在该页面上添加书签。

在S400中，当成功获取用户的语境指向截图后，对这些截图进行图像识别，例如通过用户的语音为“参考昨天上午11点那道数学题的解题思路”，获得了用户在昨天上午11点所浏览的数学题的图像，那么就可以通过图像识别，得到这道数学题，在题库中找到解题思路，从而获取用户在发出该语音时的语境，其中所指向的数学题的解题思路的具体内容。

本发明中对语境指向截图的获取的第一判断过程为，对用户语音所转化的文字文本中的时间指向词的进行判断，在上述方法解决了文字文本中无时间指向词时如何获取语境截图的问题之外，当文字文本中包含时间指向词时，本发明通过时间指向词中的时间点信息来获取语境指向截图，解决了用户发出的语音中包含时间指向词时，如何成功获取语境指向截图的问题。

本发明第七实施例，图7是本发明中一种结合上下文语境获取意图的系统的一些实施例的结构示意图，包括：

采集模块10，终端开启摄像头和麦克风，通过麦克风持续采集用户语音，并记录所述用户语音的采集时间点，通过摄像头持续采集用户浏览内容的截图，并记录所述截图的采集时间点；

语音识别模块20，对采集模块10获得的用户语音进行语义识别，获取所述语音的文字文本；

截图获取模块30，检测语音识别模块20获得的文字文本中是否存在时间指向词，根据检测结果确定用户语音的语境指向时间点，根据语境指向时间点获取所述用户语音的语境指向截图；

图像识别模块40，对截图获取模块30获得的语境指向截图进行图像识别，获取所述用户语音的语境内容；

文本解析模块50，结合图像识别模块40得到的语境内容，解析语音识别模块20获得的文字文本，获取所述用户语音所表达的准确意图。

截图获取模块30还用于：当所述检测结果为无法检测到所述时间指向词时，将所述用户语音的采集时间点作为所述语境指向时间点；在所述用户浏览内容的截图中，调取与所述语境指向时间点的时间间隔小于预设阈值的所有截图作为所述语境指向截图。

或者当所述检测结果为可以检测到所述时间指向词时，将所述时间指向词中包含的时间点作为所述语境指向时间点；根据所述语境指向时间点获取对应的截图，作为所述语境指向截图。当所述语境指向时间点为历史时间时，在所述用户浏览内容的截图中，调取与所述语境指向时间点的时间间隔小于预设阈值的所有截图，作为所述语境指向截图；当所述语境指向时间点为未来时间时，保持所述摄像头的开启状态，并持续采集新的用户浏览内容的截图，直到在所述新的用户浏览内容的截图中，成功获取所有与所述语境指向时间点的时间间隔小于预设阈值的截图，作为所述语境指向截图。

具体地，本发明中的一些系统实施例为使用上述方法实施例建立的系统，其技术方案和达成的技术效果与上述方法实施例相同，在此不一一赘述。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种结合上下文语境获取意图的方法，其特征在于，包括：

对所述用户语音进行语义识别，获取所述语音的文字文本；

2.根据权利要求1所述的一种结合上下文语境获取意图的方法，其特征在于，所述检测所述文字文本中是否存在时间指向词，根据检测结果确定所述用户语音的语境指向时间点，根据所述语境指向时间点获取所述用户语音的语境指向截图包括:

3.根据权利要求1所述的一种结合上下文语境获取意图的方法，其特征在于，所述检测所述文字文本中是否存在时间指向词，根据检测结果确定所述用户语音的语境指向时间点，根据所述语境指向时间点获取所述用户语音的语境指向截图还包括:

4.根据权利要求3所述的一种结合上下文语境获取意图的方法，其特征在于，所述根据所述语境指向时间点获取对应的截图，作为所述语境指向截图包括：

5.根据权利要求3所述的一种结合上下文语境获取意图的方法，其特征在于，所述根据所述语境指向时间点获取对应的截图，作为所述语境指向截图还包括：

6.一种结合上下文语境获取意图的系统，其特征在于，包括：

7.根据权利要求6所述的一种结合上下文语境获取意图的系统，其特征在于，所述截图获取模块还用于：

8.根据权利要求6所述的一种结合上下文语境获取意图的系统，其特征在于，所述截图获取模块还用于：

9.根据权利要求8所述的一种结合上下文语境获取意图的系统，其特征在于，所述截图获取模块还用于：

10.根据权利要求8所述的一种结合上下文语境获取意图的系统，其特征在于，所述截图获取模块还用于：