CN108205526A

CN108205526A - 一种确定综合语义信息的方法与装置

Info

Publication number: CN108205526A
Application number: CN201611188215.6A
Authority: CN
Inventors: 吴冬雪; 程涛远; 杨琳琳; 高建忠; 陈鑫; 雷成军
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-12-20
Filing date: 2016-12-20
Publication date: 2018-06-26

Abstract

本发明的目的是提供一种确定综合语义信息的方法与装置。其中，本发明获得用户所提供的输入信息以及该用户所在场景的场景图像信息，并根据所获得的场景图像信息，确定该用户所在场景的场景标识信息，进而结合所确定的场景标识信息，对输入信息进行语义分析处理，以确定该输入信息所对应的综合语义信息。本发明通过确定用户所在场景的场景标识信息，并结合该场景标识信息对用户所提供的输入信息进行语义分析处理，从而可以确定该输入信息在当前用户所在场景下所对应的综合语义信息。因此，本发明可以提高语义分析的准确性，更好地理解用户所输入的信息，从而可以更准确地与用户对话，提高用户的使用体验。

Description

一种确定综合语义信息的方法与装置

技术领域

本发明涉及信息技术领域，尤其涉及一种确定综合语义信息的技术。

背景技术

当前，人与计算机(例如：智能机器人)交互时，可以由计算机通过其内置的或外置的麦克风阵列收集人的语音，再进行语音识别和语义分析，以确定该语音所对应的语义。然后，计算机可以根据该语义，从海量互联网内容中提取与该语义相对应的答复信息，并按人的思维逻辑对该答复信息进行推理分析和筛选，最终得到答案并进行回应。

然而，由于语言的复杂性以及语义分析准确率的瓶颈，人与计算机的交互仍然没有人与人交流那么自然。

发明内容

本发明的目的是提供一种确定综合语义信息的方法与装置。

根据本发明的一个方面，提供了一种确定综合语义信息的方法，其中，该方法包括：

-获得用户所提供的输入信息以及所述用户所在场景的场景图像信息；

-根据所述场景图像信息，确定所述用户所在场景的场景标识信息；

-结合所述场景标识信息，对所述输入信息进行语义分析处理，以确定所述输入信息所对应的综合语义信息。

根据本发明的另一个方面，还提供了一种确定综合语义信息的装置，其中，该装置包括：

-用于获得用户所提供的输入信息的装置；

-用于获得所述用户所在场景的场景图像信息的装置；

-用于根据所述场景图像信息，确定所述用户所在场景的场景标识信息的装置；

-用于结合所述场景标识信息，对所述输入信息进行语义分析处理，以确定所述输入信息所对应的综合语义信息的装置。

根据本发明的另一方面，还提供了一种计算设备，包括一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如上所述的方法。

与现有技术相比，本发明获得用户所提供的输入信息以及该用户所在场景的场景图像信息，并根据所获得的场景图像信息，确定该用户所在场景的场景标识信息，进而结合所确定的场景标识信息，对输入信息进行语义分析处理，以确定该输入信息所对应的综合语义信息。在此，由于语言的复杂性，同一个输入信息在不同的场景下可能表达不同的语义。现有技术并未考虑这一点。而本发明通过确定用户所在场景的场景标识信息，并结合该场景标识信息对用户所提供的输入信息进行语义分析处理，从而可以确定该输入信息在当前用户所在场景下所对应的综合语义信息。因此，本发明可以提高语义分析的准确性，更好地理解用户所输入的信息，从而可以更准确地与用户对话，提高用户的使用体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明一个实施例的一种确定综合语义信息的方法流程图；

图2示出根据本发明一个实施例的一种确定综合语义信息的装置示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

在上下文中所称“计算机设备”，也称为“电脑”，是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备，其可以包括处理器与存储器，由处理器执行在存储器中预存的程序指令来执行预定处理过程，或是由ASIC、FPGA、DSP等硬件执行预定处理过程，或是由上述二者组合来实现。计算机设备包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。

所述计算机设备例如包括用户设备与网络设备。其中，所述用户设备包括但不限于智能手机、PDA、PC、笔记本电脑等；所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中，所述计算机设备可单独运行来实现本发明，也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中，所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

需要说明的是，所述用户设备、网络设备和网络等仅为举例，其他现有的或今后可能出现的计算机设备或网络如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

本文后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时，用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。

这里所公开的具体结构和功能细节仅仅是代表性的，并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现，并且不应当被解释成仅仅受限于这里所阐述的实施例。

应当理解的是，虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一单元可以被称为第二单元，并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指，否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是，这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在，而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。

还应当提到的是，在一些替换实现方式中，所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说，取决于所涉及的功能/动作，相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。

下面结合附图对本发明作进一步详细描述。

本发明可由用户设备或者网络设备实现。例如，用户设备获得用户所提供的输入信息以及该用户所在场景的场景图像信息；接着，用户设备根据所获得的场景图像信息，确定该用户所在场景的场景标识信息；随后，用户设备结合所确定的场景标识信息，对所获得的输入信息进行语义分析处理，以确定该输入信息所对应的综合语义信息。

优选地，本发明的方案可以由一种安装并运行于用户设备中的APP来实现。进一步地，本发明的方案可以由一个集成在APP中的功能模块来实现。

在下文中，本文多以网络设备实现确定综合语义信息来进行举例说明。

图1示出根据本发明一个实施例的一种确定综合语义信息的方法流程图。

如图1所示，在步骤S1中，用户设备将用户所提供的输入信息以及该用户所在场景的场景图像信息提供给网络设备，相应地，网络设备获得用户所提供的输入信息以及该用户所在场景的场景图像信息；在步骤S2中，网络设备根据所获得的场景图像信息，确定该用户所在场景的场景标识信息；在步骤S3中，网络设备结合所确定的场景标识信息，对所获得的输入信息进行语义分析处理，以确定该输入信息所对应的综合语义信息。

具体地，在步骤S1中，用户设备将用户所提供的输入信息以及该用户所在场景的场景图像信息提供给网络设备，相应地，网络设备获得用户所提供的输入信息以及该用户所在场景的场景图像信息。

在此，用户所提供的输入信息包括但不限于用户所输入的各种信息，例如文字输入信息、语音输入信息等。用户设备例如可以通过文本框收集用户所输入的文字输入信息。用户设备还如可以通过麦克风采集用户所输入的语音输入信息。用户所提供的输入信息可以为关键字、关键词、语句等。

用户所在场景例如用户当前位于普通住宅、大街、超市、商场、电影院等。用户设备可以通过摄像头采集用户所在场景的场景图像信息。

用户设备可以通过各种网络通信协议，例如http、https协议，将用户所提供的输入信息以及该用户所在场景的场景图像信息发送给网络设备，相应地，网络设备接收用户所提供的输入信息以及该用户所在场景的场景图像信息。

在步骤S2中，网络设备根据所获得的场景图像信息，确定该用户所在场景的场景标识信息。

在此，用户所在场景的场景标识信息可以为文字标识信息，例如普通住宅、大街、超市、商场、电影院。可选地，用户所在场景的场景标识信息可以为编号标识信息，例如001(其代表普通住宅)、002(其代表大街)等等。

网络设备可以通过多种方式确定用户所在场景的场景标识信息。

例如，网络设备可以通过图像分析，提取场景图像信息中的图像特征信息。随后，网络设备可以根据所确定的图像特征信息，查询图像特征信息与场景标识信息的对应关系，以确定与该图像特征信息相对应的场景标识信息。例如，图像特征信息为电影屏幕，则相应的场景标识信息为电影院。又如，图像特征信息为水果货架，则相应的场景标识信息为超市。

又如，网络设备可以预先用大量的样本来训练不同场景的场景分类器(如校园、银行、机场等)。随后，网络设备用这些所训练的场景分类器，来判断出场景图象信息所对应的场景标识信息。

本领域技术人员应能理解，上述确定用户所在场景的场景标识信息的方式仅为举例。其他现有的或今后可能出现的确定用户所在场景的场景标识信息的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

在步骤S3中，网络设备结合所确定的场景标识信息，对所获得的输入信息进行语义分析处理，以确定该输入信息所对应的综合语义信息。

在此，由于语言的复杂性，同一个输入信息在不同的场景下可能表达不同的语义。现有技术并未考虑这一点。而本发明通过确定用户所在场景的场景标识信息，并结合该场景标识信息对用户所提供的输入信息进行语义分析处理，从而可以确定该输入信息在当前用户所在场景下所对应的综合语义信息。因此，本发明可以提高语义分析的准确性，更好地理解用户所输入的信息，从而可以更准确地与用户对话，提高用户的使用体验。

例如，同一个输入信息“苹果”，用户输入该信息时，想表达的语义可能为一种水果，也可能为苹果手机。因此，现有技术仅根据这一输入信息，无法确定用户想表达的到底是哪种含义。

根据本发明方案，对于同一个输入信息“苹果”，如果网络设备所确定的场景标识信息为“超市”，则网络设备对该输入信息进行语义分析处理，可以确定该输入信息相对该场景标识信息所对应的综合语义信息为“苹果、属性为水果”。而如果网络设备所确定的场景标识信息为“商场”、“IT卖场”，则网络设备对该输入信息进行语义分析处理，可以确定该输入信息相对该场景标识信息所对应的综合语义信息为“苹果、属性为IT产品”。

优选地，网络设备还可以获得该用户的情绪指示信息。随后，在步骤S3中，网络设备还可以结合所确定的场景标识信息以及该用户的情绪指示信息，对所获得的输入信息进行语义分析处理，以确定该输入信息所对应的综合语义信息。

其中，用户的情绪指示信息包括但不限于各种用于指示用户的情绪的信息。用户的情绪指示信息例如高兴、兴奋、郁闷、低落等。

例如，对于同一个输入信息“苹果还不错呀”，如果网络设备所确定的场景标识信息为“超市”，而用户的情绪指示信息为“低落”，则网络设备对该输入信息进行语义分析处理，可以确定该输入信息相对该场景标识信息以及情绪指示信息所对应的综合语义信息为“用户在挑选苹果(水果)、他可能想找人随便聊聊”。如果网络设备所确定的场景标识信息为“商场”、“IT卖场”，而用户的情绪指示信息为“兴奋”，则网络设备对该输入信息进行语义分析处理，可以确定该输入信息相对该场景标识信息以及情绪指示信息所对应的综合语义信息为“用户在购买苹果手机、他对这个手机非常满意、他可能希望了解这个手机的新特性”。

其中，用户的情绪指示信息包括但不限于以下任一项：

1)用户的表情特征信息。

用户的表情特征信息包括但不限于各种用于描述用户的表情特征的信息。用户的表情特征信息例如微笑、大哭、愤怒等。

在此，用户的表情特征信息可以基于以下步骤确定：网络设备获得用户的用户图像信息。随后，网络设备对该用户图像信息进行图像识别处理，以确定该用户的表情特征信息。

其中，用户设备可以通过摄像头采集用户的用户图像信息。接着，用户设备可以将用户的用户图像信息发送给网络设备，相应地，网络设备接收该用户的用户图像信息。随后，网络设备例如可以分析用户图像信息中的图像特征，以确定用户的表情特征信息。例如，用户的嘴角上扬，则确定用户的表情特征信息为微笑。用户的脸上有许多泪水，则确定用户的表情特征信息为大哭。可替代地，网络设备还可以预先用大量的样本来训练不同表情的表情分类器。随后，网络设备用这些所训练的表情分类器，来判断出用户图像信息所对应的表情特征信息。

2)用户的语气特征信息。

用户的语气特征信息包括但不限于各种用于描述用户的语气特征的信息。用户的语气特征信息例如生气、焦急、无奈等。

在此，用户的语气特征信息可以基于以下步骤确定：当网络设备所获得的输入信息为语音输入信息时，网络设备还可以对语音输入信息进行语气识别处理，以确定用户的语气特征信息。

其中，用户设备可以通过麦克风采集用户的语音输入信息。在步骤S1中，用户设备可以将用户的语音输入信息发送给网络设备，相应地，网络设备接收该用户的语音输入信息。随后，网络设备例如可以分析语音输入信息中的声音特征，以确定用户的语气特征信息。例如，用户的声调欢快、明亮，则确定用户的语气特征信息为兴奋。用户的声调低沉，则确定用户的语气特征信息为失落等。可替代地，网络设备还可以预先用大量的样本来训练不同语气的语气分类器。随后，网络设备用这些所训练的语气分类器，来判断出语音输入信息所对应的语气特征信息。

根据本发明的优选方案，网络设备通过结合场景标识信息、以及用户的情绪指示信息来对用户所提供的输入信息进行语义分析处理，从而可以确定该输入信息在当前用户所在场景下以及该情绪指示信息下所对应的综合语义信息。因此，本发明可以进一步提高语义分析的准确性，更好地理解用户所输入的信息，从而可以更准确地与用户对话，提高用户的使用体验。

根据本发明的一个优选实施例，网络设备还可以根据所确定的综合语义信息，以及输入相关信息，生成格式化搜索请求信息。接着，网络设备可以根据所生成的格式化搜索请求信息，在索引库中进行搜索，以获得一个或多个搜索结果。随后，网络设备可以将所获得的一个或多个搜索结果提供给用户。

其中，所述输入相关信息包括但不限于以下至少任一项：

1)当前时间信息。在此，当前时间信息意指网络设备获得用户所提供的输入信息时的时间信息。

2)用户的当前位置信息。在此，网络设备可以获得用户设备所上传的其位置信息。其中，用户设备可以通过GPS定位等方式确定其位置信息。

3)用户的历史记录信息。在此，网络设备可以根据用户的标识信息，如用户ID等，查询用户数据库，以获得该用户的历史纪录信息。

例如，用户的输入信息为“苹果还不错呀”，而用户所在场景的场景标识信息为“IT卖场”，网络设备所确定的该输入信息相对该场景标识信息的综合语义信息为“用户在购买苹果手机”。随后，网络设备例如可以根据所确定的综合语义信息(“用户在购买苹果手机”)，以及当前时间信息、用户的当前位置信息，生成格式化搜索请求信息，如——“@用户需求：购物；@关注产品：苹果手机；@当前时间：XX年XX月XX日；@当前地点：中关村”。接着，网络设备可以根据所生成的格式化搜索请求信息，在索引库中进行搜索，以获得一个或多个搜索结果，例如回复用户的话术,其内容可以为当前中关村附近各卖场苹果手机的价格等等。随后，网络设备可以将所获得的一个或多个搜索结果发送给用户的用户设备，相应地，用户设备接收这些搜索结果并呈现给用户。

在此，网络设备在向用户提供搜索结果的过程中，不是简单地根据用户所提供的输入信息来进行搜索，而是根据结合用户所在场景的场景标识信息所确定的综合语义信息来进行搜索，从而可以向用户提供更准确的搜索结果，提升了用户的使用体验。

图2示出根据本发明一个实施例的装置示意图，其具体示出一种确定综合语义信息的装置，也即确定装置20。如图2所示，确定装置20被装置于网络设备中，并具体包括装置21、装置22和装置23。

具体地，用户设备将用户所提供的输入信息以及该用户所在场景的场景图像信息提供给网络设备，相应地，网络设备的装置21获得用户所提供的输入信息以及该用户所在场景的场景图像信息(为便于区分，以下将装置21称为用户信息获得装置21)；接着，网络设备的装置22根据所获得的场景图像信息，确定该用户所在场景的场景标识信息(为便于区分，以下将装置22称为场景标识确定装置22)；随后，网络设备的装置23结合所确定的场景标识信息，对所获得的输入信息进行语义分析处理，以确定该输入信息所对应的综合语义信息(为便于区分，以下将装置23称为综合语义确定装置23)。

具体地，用户设备将用户所提供的输入信息以及该用户所在场景的场景图像信息提供给网络设备，相应地，网络设备的用户信息获得装置21获得用户所提供的输入信息以及该用户所在场景的场景图像信息。

用户设备可以通过各种网络通信协议，例如http、https协议，将用户所提供的输入信息以及该用户所在场景的场景图像信息发送给网络设备，相应地，网络设备的用户信息获得装置21接收用户所提供的输入信息以及该用户所在场景的场景图像信息。

接着，网络设备的场景标识确定装置22根据所获得的场景图像信息，确定该用户所在场景的场景标识信息。

场景标识确定装置22可以通过多种方式确定用户所在场景的场景标识信息。

例如，场景标识确定装置22可以通过图像分析，提取场景图像信息中的图像特征信息。随后，场景标识确定装置22可以根据所确定的图像特征信息，查询图像特征信息与场景标识信息的对应关系，以确定与该图像特征信息相对应的场景标识信息。例如，图像特征信息为电影屏幕，则相应的场景标识信息为电影院。又如，图像特征信息为水果货架，则相应的场景标识信息为超市。

又如，场景标识确定装置22可以预先用大量的样本来训练不同场景的场景分类器(如校园、银行、机场等)。随后，场景标识确定装置22用这些所训练的场景分类器，来判断出场景图象信息所对应的场景标识信息。

随后，网络设备的综合语义确定装置23结合所确定的场景标识信息，对所获得的输入信息进行语义分析处理，以确定该输入信息所对应的综合语义信息。

根据本发明方案，对于同一个输入信息“苹果”，如果网络设备的场景标识确定装置22所确定的场景标识信息为“超市”，则网络设备的综合语义确定装置23对该输入信息进行语义分析处理，可以确定该输入信息相对该场景标识信息所对应的综合语义信息为“苹果、属性为水果”。而如果网络设备的场景标识确定装置22所确定的场景标识信息为“商场”、“IT卖场”，则网络设备的综合语义确定装置23对该输入信息进行语义分析处理，可以确定该输入信息相对该场景标识信息所对应的综合语义信息为“苹果、属性为IT产品”。

优选地，网络设备还可以包括一情绪信息获得装置(图2中未示出)。情绪信息获得装置可以获得该用户的情绪指示信息。随后，网络设备的综合语义确定装置23还可以结合所确定的场景标识信息以及该用户的情绪指示信息，对所获得的输入信息进行语义分析处理，以确定该输入信息所对应的综合语义信息。

例如，对于同一个输入信息“苹果还不错呀”，如果网络设备的场景标识确定装置22所确定的场景标识信息为“超市”，而用户的情绪指示信息为“低落”，则网络设备的综合语义确定装置23对该输入信息进行语义分析处理，可以确定该输入信息相对该场景标识信息以及情绪指示信息所对应的综合语义信息为“用户在挑选苹果(水果)、他可能想找人随便聊聊”。如果网络设备的场景标识确定装置22所确定的场景标识信息为“商场”、“IT卖场”，而用户的情绪指示信息为“兴奋”，则网络设备的综合语义确定装置23对该输入信息进行语义分析处理，可以确定该输入信息相对该场景标识信息以及情绪指示信息所对应的综合语义信息为“用户在购买苹果手机、他对这个手机非常满意、他可能希望了解这个手机的新特性”。

其中，用户的情绪指示信息包括但不限于以下任一项：

1)用户的表情特征信息。

在此，用户的表情特征信息可以基于以下操作确定：网络设备或网络设备中的特定装置获得用户的用户图像信息。随后，情绪信息获得装置对该用户图像信息进行图像识别处理，以确定该用户的表情特征信息。

其中，用户设备可以通过摄像头采集用户的用户图像信息。接着，用户设备可以将用户的用户图像信息发送给网络设备，相应地，网络设备或网络设备中的特定装置接收该用户的用户图像信息。随后，网络设备的情绪信息获得装置例如可以分析用户图像信息中的图像特征，以确定用户的表情特征信息。例如，用户的嘴角上扬，则确定用户的表情特征信息为微笑。用户的脸上有许多泪水，则确定用户的表情特征信息为大哭。可替代地，网络设备的情绪信息获得装置还可以预先用大量的样本来训练不同表情的表情分类器。随后，网络设备的情绪信息获得装置用这些所训练的表情分类器，来判断出用户图像信息所对应的表情特征信息。

2)用户的语气特征信息。

在此，用户的语气特征信息可以基于以下操作确定：当网络设备的用户信息获得装置21所获得的输入信息为语音输入信息时，网络设备的情绪信息获得装置还可以对语音输入信息进行语气识别处理，以确定用户的语气特征信息。

其中，用户设备可以通过麦克风采集用户的语音输入信息。用户设备可以将用户的语音输入信息发送给网络设备，相应地，网络设备或网络设备中的特定装置接收该用户的语音输入信息。随后，网络设备的情绪信息获得装置例如可以分析语音输入信息中的声音特征，以确定用户的语气特征信息。例如，用户的声调欢快、明亮，则确定用户的语气特征信息为兴奋。用户的声调低沉，则确定用户的语气特征信息为失落等。可替代地，网络设备的情绪信息获得装置还可以预先用大量的样本来训练不同语气的语气分类器。随后，网络设备的情绪信息获得装置用这些所训练的语气分类器，来判断出语音输入信息所对应的语气特征信息。

根据本发明的优选方案，网络设备的综合语义确定装置23通过结合场景标识信息、以及用户的情绪指示信息来对用户所提供的输入信息进行语义分析处理，从而可以确定该输入信息在当前用户所在场景下以及该情绪指示信息下所对应的综合语义信息。因此，本发明可以进一步提高语义分析的准确性，更好地理解用户所输入的信息，从而可以更准确地与用户对话，提高用户的使用体验。

根据本发明的一个优选实施例，网络设备还可以包括搜索信息生成装置、搜索结果获得装置和搜索结果提供装置(图2中均未示出)。其中，搜索信息生成装置可以根据所确定的综合语义信息，以及输入相关信息，生成格式化搜索请求信息。接着，搜索结果获得装置可以根据所生成的格式化搜索请求信息，在索引库中进行搜索，以获得一个或多个搜索结果。随后，搜索结果提供装置可以将所获得的一个或多个搜索结果提供给用户。

其中，所述输入相关信息包括但不限于以下至少任一项：

2)用户的当前位置信息。在此，网络设备或网络设备中的特定装置可以获得用户设备所上传的其位置信息。其中，用户设备可以通过GPS定位等方式确定其位置信息。

3)用户的历史记录信息。在此，网络设备或网络设备中的特定装置可以根据用户的标识信息，如用户ID等，查询用户数据库，以获得该用户的历史纪录信息。

例如，用户的输入信息为“苹果还不错呀”，而用户所在场景的场景标识信息为“IT卖场”，网络设备的综合语义确定装置23所确定的该输入信息相对该场景标识信息的综合语义信息为“用户在购买苹果手机”。随后，网络设备的搜索信息生成装置例如可以根据所确定的综合语义信息(“用户在购买苹果手机”)，以及当前时间信息、用户的当前位置信息，生成格式化搜索请求信息，如——“@用户需求：购物；@关注产品：苹果手机；@当前时间：XX年XX月XX日；@当前地点：中关村”。接着，网络设备的搜索结果获得装置可以根据所生成的格式化搜索请求信息，在索引库中进行搜索，以获得一个或多个搜索结果，例如回复用户的话术,其内容可以为当前中关村附近各卖场苹果手机的价格等等。随后，网络设备的搜索结果提供装置可以将所获得的一个或多个搜索结果发送给用户的用户设备，相应地，用户设备接收这些搜索结果并呈现给用户。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，本发明的各个装置可采用专用集成电路(ASIC)或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

虽然前面特别示出并且描述了示例性实施例，但是本领域技术人员将会理解的是，在不背离权利要求书的精神和范围的情况下，在其形式和细节方面可以有所变化。这里所寻求的保护在所附权利要求书中做了阐述。在下列编号条款中规定了各个实施例的这些和其他方面：

1.一种确定综合语义信息的方法，其中，该方法包括：

2.根据条款1所述的方法，其中，该方法还包括：

-获得所述用户的情绪指示信息；

所述结合所述场景标识信息，对所述输入信息进行语义分析处理，以确定所述输入信息所对应的综合语义信息的步骤还包括：

-结合所述场景标识信息以及所述用户的情绪指示信息，对所述输入信息进行语义分析处理，以确定所述输入信息所对应的综合语义信息。

3.根据条款2所述的方法，其中，所述用户的情绪指示信息包括但不限于以下至少任一项：

-所述用户的表情特征信息；

-所述用户的语气特征信息。

4.根据条款3所述的方法，其中，所述用户的表情特征信息基于以下步骤确定：

-获得所述用户的用户图像信息；

-对所述用户图像信息进行图像识别处理，以确定所述用户的表情特征信息。

5.根据条款3或4所述的方法，其中，所述输入信息为语音输入信息，所述用户的语气特征信息基于以下步骤确定：

-对所述语音输入信息进行语气识别处理，以确定所述用户的语气特征信息。

6.根据条款1至5中任一项所述的方法，其中，该方法还包括：

-根据所述综合语义信息，以及输入相关信息，生成格式化搜索请求信息；

-根据所述格式化搜索请求信息，在索引库中进行搜索，以获得一个或多个搜索结果；

-将所述一个或多个搜索结果提供给所述用户。

7.根据条款6所述的方法，其中，所述输入相关信息包括但不限于以下至少任一项：

-当前时间信息；

-所述用户的当前位置信息；

-所述用户的历史记录信息。

8.一种确定综合语义信息的装置，其中，该装置包括：

-用于获得用户所提供的输入信息的装置；

-用于获得所述用户所在场景的场景图像信息的装置；

9.根据条款8所述的装置，其中，该装置还包括：

-用于获得所述用户的情绪指示信息的装置；

所述结合所述场景标识信息，对所述输入信息进行语义分析处理，以确定所述输入信息所对应的综合语义信息的装置还用于：

10.根据条款9所述的装置，其中，所述用户的情绪指示信息包括但不限于以下至少任一项：

-所述用户的表情特征信息；

-所述用户的语气特征信息。

11.根据条款10所述的装置，其中，所述用户的表情特征信息基于以下操作确定：

-获得所述用户的用户图像信息；

12.根据条款10或11所述的装置，其中，所述输入信息为语音输入信息，所述用户的语气特征信息基于以下操作确定：

13.根据条款8至12中任一项所述的装置，其中，该装置还包括：

-用于根据所述综合语义信息，以及输入相关信息，生成格式化搜索请求信息的装置；

-用于根据所述格式化搜索请求信息，在索引库中进行搜索，以获得一个或多个搜索结果的装置；

-用于将所述一个或多个搜索结果提供给所述用户的装置。

14.根据条款13所述的装置，其中，所述输入相关信息包括但不限于以下至少任一项：

-当前时间信息；

-所述用户的当前位置信息；

-所述用户的历史记录信息。

15、一种计算设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如条款1到7中任一所述的方法。

Claims

1.一种确定综合语义信息的方法，其中，该方法包括：

2.根据权利要求1所述的方法，其中，该方法还包括：

-获得所述用户的情绪指示信息；

3.根据权利要求2所述的方法，其中，所述用户的情绪指示信息包括但不限于以下至少任一项：

-所述用户的表情特征信息；

-所述用户的语气特征信息。

4.根据权利要求3所述的方法，其中，所述用户的表情特征信息基于以下步骤确定：

-获得所述用户的用户图像信息；

5.根据权利要求3或4所述的方法，其中，所述输入信息为语音输入信息，所述用户的语气特征信息基于以下步骤确定：

6.根据权利要求1至5中任一项所述的方法，其中，该方法还包括：

-将所述一个或多个搜索结果提供给所述用户。

7.根据权利要求6所述的方法，其中，所述输入相关信息包括但不限于以下至少任一项：

-当前时间信息；

-所述用户的当前位置信息；

-所述用户的历史记录信息。

8.一种确定综合语义信息的装置，其中，该装置包括：

-用于获得用户所提供的输入信息的装置；

-用于获得所述用户所在场景的场景图像信息的装置；

9.根据权利要求8所述的装置，其中，该装置还包括：

-用于获得所述用户的情绪指示信息的装置；

10.根据权利要求9所述的装置，其中，所述用户的情绪指示信息包括但不限于以下至少任一项：

-所述用户的表情特征信息；

-所述用户的语气特征信息。

11.根据权利要求10所述的装置，其中，所述用户的表情特征信息基于以下操作确定：

-获得所述用户的用户图像信息；

12.根据权利要求10或11所述的装置，其中，所述输入信息为语音输入信息，所述用户的语气特征信息基于以下操作确定：

13.根据权利要求8至12中任一项所述的装置，其中，该装置还包括：

-用于将所述一个或多个搜索结果提供给所述用户的装置。

14.根据权利要求13所述的装置，其中，所述输入相关信息包括但不限于以下至少任一项：

-当前时间信息；

-所述用户的当前位置信息；

-所述用户的历史记录信息。

15.一种计算设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1到7中任一所述的方法。