CN111046197A - 搜索方法和设备 - Google Patents

搜索方法和设备 Download PDF

Info

Publication number
CN111046197A
CN111046197A CN201911256396.5A CN201911256396A CN111046197A CN 111046197 A CN111046197 A CN 111046197A CN 201911256396 A CN201911256396 A CN 201911256396A CN 111046197 A CN111046197 A CN 111046197A
Authority
CN
China
Prior art keywords
query
search
image
input
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911256396.5A
Other languages
English (en)
Inventor
朱佳贤
姜旼廷
姜友植
孔元根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020140167818A external-priority patent/KR20150135042A/ko
Priority claimed from US14/588,275 external-priority patent/US9990433B2/en
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN111046197A publication Critical patent/CN111046197A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying

Abstract

提供了一种方法,包括:从用户接收指示搜索请求的查询成分;通过图像捕捉设备捕捉包括多个对象的图像;在显示器上呈现图像;在所呈现的图像上接收用户输入以选择所呈现的图像的部分区域,其中,所述部分区域对应于所述多个对象中的至少一个;基于所呈现图像的所选择的部分区域和所接收到的查询成分向搜索服务器发送查询;从搜索服务器接收基于发送的查询的搜索结果;以及在显示器上呈现接收到的搜索结果,该搜索结果提供与所述多个对象中的至少一个相关联的信息。

Description

搜索方法和设备
本申请是申请日为2015年05月25日、申请号为“201510272556.0”、发明名称为“搜索方法和设备”的发明专利申请的分案申请。
对相关申请的交叉引用
本申请要求2014年5月23日向韩国知识产权局递交的韩国专利申请10-2014-0062568号、2014年11月27日向韩国知识产权局递交的韩国专利申请10-2014-0167818号和2015年2月24日向韩国知识产权局递交的韩国专利申请10-2015-0025918号的优先权,并且是2014年12月31日向美国专利商标局递交的美国非临时专利申请14/588,275号的部分继续案,这里通过引用将这些专利申请的公开内容全部并入。
技术领域
与示范性实施例一致的装置和方法涉及在计算环境下搜索并获取信息,更具体而言涉及基于用户的各种要求执行搜索。
背景技术
已开发了搜索并获取信息的各种方法。一般来说,执行基于文本的搜索来在计算环境下搜索信息。基于文本的搜索使用包括诸如单词或短语之类的一个或多个文本成分的搜索查询。文本成分与彼此匹配,或者与索引或数据相比较,以识别包括与文本成分相似的文本内容、元数据、文件名或文本表述的诸如网页之类的文档。
随着技术的进步,要搜索的信息进一步多样化了,并且这种信息的量增大了。因此,除了文本成分以外,不同模态的成分可用于执行搜索。
发明内容
一个或多个示范性实施例的一些方面提供了一种方法和设备,其接收单模态的查询或者多模态查询,并且利用接收到的查询来执行搜索。
另外的方面一部分将在接下来的描述中记载,一部分将从描述中清楚显现,或者可通过实践示范性实施例来获知。
根据示范性实施例的一方面,提供了一种装置,包括:至少一个输入设备,被配置为接收第一查询类型的第一查询输入和第二查询类型的第二查询输入;以及控制器,被配置为输出包括与第一查询输入相对应的第一显示项目和与第二查询输入相对应的第二显示项目的查询输入窗口,响应于接收到第一查询输入而自动将装置从接收第一查询类型的第一查询输入的第一状态切换到接收第二查询类型的第二查询输入的第二状态,并且根据基于第一查询输入和第二查询输入的查询来获得搜索结果。
第二查询类型可以是音频查询类型;并且响应于接收到第一查询输入,控制器可还被配置为自动激活被配置为接收第二查询输入的麦克风。
第二查询类型可以是图像查询类型;并且响应于接收到第一查询输入,控制器可还被配置为自动激活被配置为接收第二查询输入的相机。
响应于接收到模式切换输入,控制器可还被配置为将搜索模式从多模态输入模式切换到单输入模式,其中在多模态输入模式中经由查询输入窗口接收第一查询输入和第二查询输入并将其组合来生成查询,在单输入模式中接收一个查询类型的输入来生成查询。
至少一个输入设备可包括被配置为接收第一查询输入的第一输入设备和与第一输入设备不同并被配置为接收第二查询输入的第二输入设备。
根据另一示范性实施例的一方面,提供了一种装置,包括:显示器,被配置为显示查询输入窗口;至少一个输入设备,被配置为接收第一查询类型的第一查询输入和第二查询类型的第二查询输入;以及控制器,被配置为根据基于第一查询输入和第二查询输入的查询获得搜索结果,其中,显示器还被配置为在查询输入窗口上同时显示与第一查询类型相对应的第一区域和与第二查询类型相对应的第二区域。
控制器可还被配置为确定第一查询输入的第一查询类型和第二查询输入的第二查询类型;并且显示器可还被配置为根据所确定的第一查询类型来显示第一区域并且根据所确定的第二查询类型来显示第二区域。
显示器可还被配置为显示其中同时显示了与第一查询输入相对应的第一显示项目和与第二查询输入相对应的第二显示项目的查询输入窗口,使得第一查询类型和第二查询类型是可相互区分的。
根据另一示范性实施例的一方面,提供了一种装置,包括:显示器;麦克风,被配置为获取语音信息;相机,被配置为获取图像数据;存储器,被配置为存储文本数据、图像数据和音频数据;以及控制器,被配置为显示用于选择查询类型的显示项目,显示与通过显示项目选择的查询类型相对应的查询输入窗口,基于通过查询输入窗口接收的查询输入获得搜索结果,并且控制显示器显示搜索结果,其中,查询输入包括通过相机获得的图像数据、存储在存储器中的文本数据、存储在存储器中的图像数据和存储在存储器中的音频数据中的至少一者。
查询类型可以是来自包括文本查询、图像查询和音频查询在内的多个查询类型之中的;并且当所选择的查询类型是音频查询时,控制器可还被配置为控制显示器在查询输入窗口上显示用于接收通过麦克风获得的语音信息作为查询输入的显示项目和用于接收存储在存储器中的音频数据作为查询输入的显示项目中的至少一者。
查询类型可以是来自包括文本查询、图像查询和音频查询在内的多个查询类型之中的;并且当所选择的查询类型是图像查询时,控制器还可被配置为控制显示器显示用于接收通过相机获得的图像数据的显示项目和用于接收存储在存储器中的图像数据的显示项目中的至少一者作为查询输入窗口上的查询输入。
该装置还可包括:手写输入单元,被配置为接收手写图像,其中,查询类型可以是来自包括文本查询、图像查询、音频查询和手写查询在内的多个查询类型之中的,并且其中,当所选择的查询类型是手写查询时,控制器可还被配置为控制显示器在查询输入窗口上显示用于接收手写图像的显示项目。
当通过显示项目选择多个查询类型时,控制器可还被配置为控制显示器在查询输入窗口上显示用于接收多个查询输入的显示项目。
根据另一示范性实施例的一方面,提供了一种方法,包括:接收第一查询类型的第一查询输入和第二查询类型的第二查询输入;由一装置输出包括与第一查询输入相对应的第一区域和与第二查询输入相对应的第二区域的查询输入窗口;响应于接收到第一查询输入自动地将该装置从接收第一查询类型的第一查询输入的第一状态切换到接收第二查询类型的第二查询输入的第二状态;以及根据基于第一查询输入和第二查询输入的查询获得搜索结果。
该方法可还包括:响应于接收到第二查询输入,同时在第二区域上显示与第二查询输入相对应的第二显示项目和在第一区域上显示与第一查询输入相对应的第一显示项目。
第二查询类型可以是音频查询类型;并且自动切换可包括响应于接收到第一查询输入,自动激活用于接收第二查询输入的麦克风。
第二查询类型可以是图像查询类型;并且自动切换可包括响应于接收到第一查询输入,自动激活用于接收第二查询输入的相机。
根据另一示范性实施例的一方面,提供了一种由一装置获得搜索结果的方法,该方法包括:显示用于选择查询类型的显示项目;基于所显示的显示项目接收用户输入;基于接收到的用户输入选择至少一个查询类型;显示与所选择的至少一个查询类型相对应的查询输入窗口;以及基于通过显示的查询输入窗口接收的查询输入获得搜索结果。
查询类型可以是来自包括文本查询、图像查询和音频查询在内的多个查询类型之中的;并且该方法还可包括:当所选择的查询类型是音频查询时,在查询输入窗口上显示用于接收通过该装置中包括的或连接到该装置的麦克风获得的语音数据和在该装置中包括的或连接到该装置的存储器中存储的音频数据作为查询输入的显示项目。
根据另一示范性实施例的一方面,提供了一种方法,包括:显示查询输入窗口;通过显示的查询输入窗口接收文本数据和手写图像;以及基于接收到的文本数据和接收到的手写图像的组合结果来获得搜索结果。
根据另一示范性实施例的一方面,提供了一种方法,包括:从用户接收指示搜索请求的查询成分;通过图像捕捉设备捕捉包括多个对象的图像;在显示器上呈现图像;在所呈现的图像上接收用户输入以选择所呈现的图像的部分区域,其中,所述部分区域对应于所述多个对象中的至少一个;基于所呈现图像的所选择的部分区域和所接收到的查询成分向搜索服务器发送查询;从搜索服务器接收基于发送的查询的搜索结果;以及在显示器上呈现接收到的搜索结果,该搜索结果提供与所述多个对象中的至少一个相关联的信息。
附图说明
通过以下结合附图对示范性实施例的描述,这些和/或其他方面将变得清楚并且更容易领会,附图中:
图1是图示出根据示范性实施例执行搜索的过程的流程图;
图2是图示出根据示范性实施例用户界面的配置的概念图;
图3是图示出根据示范性实施例用于构造查询输入设备的结构的概念图;
图4是图示出用于执行示范性实施例的网络环境的概念图;
图5至图7是图示出根据示范性实施例接收用于单搜索的查询的方法的示范图;
图8至图18是图示出根据示范性实施例接收用于多模态搜索的查询的方法的示范图;
图19和图20是图示出根据另一示范性实施例接收用于多模态搜索的查询的方法的示范图;
图21和图22是图示出根据示范性实施例生成查询输入窗口的方法的示范图;
图23是图示出根据另一示范性实施例接收用于多模态搜索的查询的方法的示范图;
图24是图示出根据另一示范性实施例多模态查询类型列表的示范图;
图25A至图25E是图示出根据另一示范性实施例接收用于多模态搜索的查询的方法的示范图;
图26是图示出根据示范性实施例显示查询输入窗口的过程的流程图;
图27和图28是图示出根据示范性实施例显示查询输入窗口的方法的示范图;
图29是图示出根据示范性实施例接收查询的过程的流程图;
图30至图32是图示出根据示范性实施例接收查询的方法的示范图;
图33是图示出根据示范性实施例接收查询的过程的流程图;
图34是图示出根据示范性实施例接收查询类型是文本的查询成分的方法的示范图;
图35至图38是图示出根据示范性实施例接收查询类型是图像的查询成分的方法的示范图;
图39是图示出根据示范性实施例接收查询类型是草图信息的查询成分的方法的示范图;
图40是图示出根据示范性实施例接收查询类型是音频信息的查询成分的方法的示范图;
图41是图示出根据示范性实施例接收包括具有多个查询类型的多个查询成分的查询并且显示搜索结果的方法的示范图;
图42是图示出根据示范性实施例执行搜索的过程的流程图;
图43是图示出根据示范性实施例通过执行多模态搜索获得的结果的示范图;
图44是图示出根据另一示范性实施例显示搜索结果的过程的流程图;
图45是图示出根据另一示范性实施例搜索结果的优先级的示范图;
图46是图示出根据另一示范性实施例通过执行多模态搜索获得的结果的示范图;
图47是图示出根据示范性实施例利用多个设备接收查询的方法的示范图以及根据示范性实施例的智能眼镜从电视(TV)的整个屏幕获取用户观看的区域的图像的方法的示范图:
图48是图示出根据另一示范性实施例经由多个设备接收查询成分的方法的示范图;
图49是图示出根据示范性实施例执行搜索的过程的流程图;
图50是图示出根据示范性实施例执行搜索的过程的流程图;
图51是图示出根据示范性实施例查询输入设备的结构的框图;
图52至图57是图示出根据另一示范性实施例执行多模态搜索的方法的示范图;
图58是图示出根据另一示范性实施例显示查询类型列表的方法的示范图;
图59是图示出根据另一示范性实施例显示查询类型列表的方法的示范图;
图60是图示出根据示范性实施例生成多模态查询类型列表的方法的示范图;
图61至图65是图示出根据另一示范性实施例执行多模态搜索的方法的示范图;
图66是图示出根据示范性实施例用于基于具有多个查询类型的查询执行多模态搜索的框架的框图;
图67图示了用于实现一个或多个示范性实施例的系统的图;并且
图68至图72是图示出根据一个或多个示范性实施例提取具有图像查询类型的查询成分的图像特征的过程的示范图。
具体实施方式
现在将详细述及示范性实施例,示范性实施例的示例在附图中图示,附图中相似的标号始终指代相似的元素。在此,示范性实施例可具有不同的形式,而不应当被解释为限于本文记载的描述。因此,下面仅仅是参考附图描述示范性实施例以说明本描述的各方面。按照本文使用的,术语“和/或”包括关联的列出项目中的一个或多个的任意和所有组合。诸如“…中的至少一个”之类的表述当在元素的列表之前时修饰整个元素列表,而不修饰列表中的个体元素。表述“至少一个”修饰所有元素的列表,而不修饰列表中包括的每个元素。
在下面的本公开中,当称一个部件(或元件、设备等等)“连接”到另一部件(或元件、设备等等)时,应当理解前者可“直接连接”到后者,或者经由居间的部件(或元件、设备等等)“电连接”到后者。另外,当描述一个部件(或元件、设备等等)包括(或包含或具有)一些元件时,应当理解其可只包括(或包含或具有)这些元件,或者其除了这些元件以外也可包括(或包含或具有)其他元件——如果没有具体限制的话。
在本说明书中,查询表示用于执行搜索的命令。查询可包括要作为搜索结果获得的信息。查询可包括至少一个查询成分(即,查询输入)。查询成分表示构成查询的信息的单元。另外,输入到设备(例如,查询输入设备)的查询成分可被称为查询输入。例如,查询成分可包括在由用户输入到查询输入设备的文本中包括的关键字、图像数据、草图信息、视频数据和音频数据中的至少一者。音频数据可包括语音信息。查询类型可表示查询成分的模态(modality)。这里,模态被定义为除了人类的感觉方面以外还包括关于在算法上用于搜索的搜索数据库的信息源。例如,查询类型可指示查询成分对应于文本、图像数据、草图信息、视频数据和音频数据中的哪种类型。包括多个查询类型的查询表示在查询中包括的多个查询成分对应于多个查询类型。例如,当查询包括查询类型是文本的第一查询成分和查询类型是图像的第二查询成分时,该查询包括多个查询类型。也就是说,查询类型可以是文本查询、图像查询、音频类型和手写查询中的至少一者。
音频数据可包括声音、语音、音频和音乐中的至少一者。在本说明书中,搜索模式可表示关于执行搜索的方法的操作模式。搜索模式可包括单输入模式(single inputmode)(即,单输入模式)和多模态输入模式(multimodal input mode)(即,多模态输入模式)。单输入模式可表示基于包括具有一个查询类型的一个或多个查询成分的查询来执行搜索的操作模式。多模态输入模式可表示基于包括具有多个查询类型的多个查询成分的查询来执行搜索的操作模式。
以下,将详细描述示范性实施例。
图1是图示出根据示范性实施例执行搜索的过程的流程图。
参考图1,在操作S110中,计算设备可显示使得用户能够输入查询的查询输入窗口。查询输入窗口表示如下的用户界面:计算设备通过该用户界面接收用户输入的查询。查询输入窗口可包括用于输入查询成分的查询输入工具。例如,查询输入窗口可包括文本框、统一资源定位符(uniform resource locator,URL)输入窗口、文件上传按钮、草图输入窗口、应用执行按钮等等中的至少一者。文本框表示其中显示利用输入设备(例如,键盘、小键盘、虚拟小键盘等等)输入的文本的框。URL输入窗口表示通过其来输入指示要作为查询而输入的信息的位置的URL的用户界面。文件上传按钮表示用于执行计算设备在文件被用户选择时选择该文件的操作以及上传所选择的文件的操作的按钮。草图输入窗口表示显示用户利用输入设备(例如,平板、触摸面板、跟踪板、鼠标、触控笔等等)输入的信息的用户界面。应用执行按钮表示使得与所选择的按钮相对应的应用能够被执行的按钮。例如,当与摄影相对应的应用执行按钮被选择时,用于摄影的应用可被执行。作为另一示例,当与声音的记录相对应的应用执行按钮被选择时,用于记录声音的应用可被执行。作为另一示例,查询输入设备可从通过操作相机获取的图像中提取诸如快速响应(Quick Response,QR)码之类的信息,并且利用QR码来接收查询成分。
根据示范性实施例,当搜索模式对应于多模态搜索(即,多模态输入模式)时,查询输入设备可显示用于接收具有多个查询类型的多个查询成分(即,查询输入)的查询输入窗口。或者,当搜索模式对应于单搜索(即,单输入模式)时,查询输入设备可显示单查询输入窗口。单查询输入窗口表示接收只包括一个查询类型的查询的查询输入窗口。
随后,在操作S120中,查询输入设备可通过所显示的查询输入窗口来接收查询。这里,查询输入设备可接收包括多个查询类型的查询,即,接收包括多个查询类型的多个查询成分的查询。也就是说,可接收包括多个查询类型的多个查询成分的查询。
随后,查询输入设备可基于接收到的查询来选择至少一个搜索结果。这里,可利用搜索引擎来选择至少一个搜索结果。搜索引擎表示基于查询来搜索信息的硬件、软件或其组合。搜索引擎可被包括在查询输入设备中,或者可被包括在单独的设备中(例如,web服务器、媒体服务器、网络服务器等等)。当搜索引擎被包括在单独的设备中时,查询输入设备可将接收到的查询发送到该单独的设备。查询输入设备可响应于发送的查询而从该单独的设备获取所选择的搜索结果。
在操作S130中,查询输入设备可显示所选择的搜索结果。这里,查询输入设备可对搜索结果进行优先级区分。查询输入设备可基于搜索结果的优先级来显示搜索结果。
根据示范性实施例,查询输入设备可将在搜索结果中包括的文本转换成语音(或者与服务器或另一设备通信来进行该转换),并输出转换的语音。或者,查询输入设备可将在搜索结果中包括的语音转换成文本,并输出转换的文本。因此,查询输入设备使得盲人或有听觉障碍的人能够查看搜索结果。
图2是图示出根据示范性实施例的用户界面的配置的概念图。查询输入设备可显示图2中所示的查询输入窗口210和结果显示区域220,虽然要理解一个或多个其他示范性实施例不限于此。查询输入设备可分开显示查询输入窗口210和结果显示区域220。
查询输入窗口210可接收与第一查询类型相对应的第一查询成分211(即,第一查询输入)和与第二查询类型相对应的第二查询成分212(即,第二查询输入)。查询输入窗口210可基于第一查询类型和第二查询类型被不同地显示。另外,查询输入窗口210可接收单个查询或者包括不同类型的两个或更多个查询的查询。
结果显示区域220可包括响应结果221和222(即,搜索结果)的列表。第一响应结果211可包括关于响应于搜索的所识别信息的概要信息。例如,第一响应结果211可包括图像文档的缩略图、文档中包括的文本中的一些、搜索到的文档的链接、图标,等等。
图3是图示出根据示范性实施例用于构造查询输入设备300的结构的概念图。图3图示了用于实现示范性实施例的示范性环境。查询输入设备300可实现为计算设备。例如,查询输入设备300可实现为诸如以下的类型:个人计算机(personal computer,PC)、智能电话、连接的电视(TV)、笔记本(膝上型)计算机、个人数字助理(personal digitalassistant,PDA)、平板PC、便携式多媒体播放器、上网本、工作站,等等。
可与由诸如计算机、个人便携式终端或手持设备之类的设备执行的机器可用指令或诸如程序模块之类的包括计算机可执行指令的计算机代码相联系来描述示范性实施例。一般地,包括例程、程序、对象、组件和数据结构的程序模块表示执行特定工作或抽象数据类型的代码。示范性实施例可实现在包括手持设备、消费类电子设备、通用计算机和专用计算设备在内的各种系统中。另外,示范性实施例可在分布式计算环境下实现。
查询输入设备300可包括存储器320、至少一个处理器330、至少一个输出设备340、至少一个输入/输出(I/O)端口350、至少一个I/O组件360、电源370和连接这些元件的总线310。总线310可包括诸如地址总线、数据总线或者其组合之类的一种或多种类型的总线。为了简洁,图3的功能块被图示为线条。然而,查询输入设备300可实质上配置有各种组件。例如,诸如显示设备之类的输出设备340可被视为I/O组件360。另外,处理器330可包括存储器320。
查询输入设备300可包括各种计算机可读介质。计算机可读介质可以是查询输入设备300可访问的任意可用介质,并且可包括易失性介质、非易失性介质、可移动介质和不可移动介质。计算机存储介质可包括按任意方法或技术实现来存储计算机可读指令、数据结构、程序模块或诸如数据之类的信息的易失性介质、非易失性介质、可移动介质或不可移动介质。计算机存储介质可包括RAM、ROM、EEPROM、闪存、存储器技术、CD-ROM、DVD、全息存储器、盒式磁带、磁带、磁盘或其他磁存储设备,可用于对期望的信息编码,或者可包括查询输入设备300可访问的任意介质,但不限于此。在示范性实施例中,计算机存储介质可从各种类型的计算机存储介质中选择。在另一实施例中,计算机存储介质可从非暂态计算机存储介质中选择。
存储器320可包括易失性和/或非易失性存储器类型的计算机存储介质。存储器320可以是可移动存储器、不可移动存储器或者其组合。例如,存储器320可包括半导体存储器、硬盘驱动器、光盘驱动器,等等。查询输入设备300可包括从诸如存储器320或I/O组件360之类的各种实体读出数据的一个或多个处理器330。输出设备340向用户或另一设备提供数据指令。例如,输出设备340可包括显示设备、扬声器、打印组件、振动电机、通信设备等等中的至少一者。
I/O端口350允许查询输入设备300逻辑地连接到包括I/O组件360在内的其他设备。例如,I/O组件360可包括麦克风、操纵杆、游戏板、卫星天线、扫描仪、打印机、无线设备、键盘、跟踪板、触摸屏、可旋转拨盘、相机和手写输入单元中的至少一者。手写输入单元可以是触摸屏并且可用于输入手写图像。触摸屏可包括通过有源触控笔(以下称为笔)感测触摸的电极磁反应(electrode magnetic reaction,EMR)板,虽然一个或多个其他示范性实施例不限于此。
该笔可包括线圈,并且该线圈可在EMR板的特定点处生成磁场。EMR板可检测所生成的磁场的位置来检测笔触摸EMR板的位置。EMR板可检测笔生成磁场的位置来检测触摸屏上的笔触摸位置。控制器可检测笔触摸位置并从而接收手写图像。
图4是图示出用于执行示范性实施例的网络环境的概念图。该网络环境只是可应用到示范性实施例的环境的一个示例,并且就板配置而言可包括任意数目的组件。
该网络环境可包括网络410、查询输入设备400和搜索引擎服务器420。网络410可包括任意计算机网络,例如互联网、内联网、非公共和公共局域网、非公共和公共广域网、无线数据或电话网络,等等。查询输入设备400是提供查询的设备。根据示范性实施例,查询输入设备400可输出搜索结果以及查询输入。
搜索引擎服务器420可包括任意计算设备,例如查询输入设备400。搜索引擎服务器420可提供至少一些提供搜索服务的操作。
图5至图7是图示出根据示范性实施例接收用于单搜索的查询的方法的示范图。
当搜索模式是单搜索模式(即,单输入模式)时,根据示范性实施例的查询输入设备可显示单查询输入窗口510,通过该窗口来输入包括一个查询类型的查询输入。查询输入设备可显示用于选择搜索模式的至少一个搜索模式选择对象。参考图5,查询输入设备可显示单输入模式选择图标501(即,单输入模式选择图标)和多模态输入模式选择图标502(即,多模态输入模式选择图标)。当从用户1接收到用于选择单输入模式选择图标501的用户输入时,查询输入设备可显示单查询输入窗口510。这里,用户输入可依据查询输入设备或I/O设备的类型而变化。例如,当查询输入设备是输出图形用户界面(graphical userinterface,GUI)的PC时,利用鼠标光标点击或选择单输入模式选择图标501的事件可以是选择单输入模式选择图标501的用户输入。作为另一示例,当查询输入设备是包括触摸屏的手持设备时,人身体的一部分或电子笔在于触摸屏上显示单输入模式选择图标501的位置上的触摸可以是选择单输入模式选择图标501的用户输入。
另外,查询输入设备可显示单查询类型列表520。单查询类型列表520可以是用于选择查询类型的显示项目。该显示项目可以是在屏幕上显示的UI元素。单查询类型列表520可包括多个对象。在单查询类型列表520中包括的每个对象可分别对应于一个查询类型。也就是说,单查询类型列表520可包括文本类型、图像类型、手写类型、视频类型和音频类型中的至少一者的查询。在图5中,单查询类型列表520被图示为一组按钮型对象,但在一个或多个其他示范性实施例中每个对象可被替换为各种形式,例如图标、小组件等等。
查询输入设备可基于对单查询类型列表520的选择来确定单查询输入窗口510要接收的查询成分的查询类型。参考图6,用户1可利用将在单查询类型列表520中包括的对象之一拖放到显示单查询输入窗口510的区域来确定单查询输入窗口510中包括的查询类型。拖放表示这样一种输入方案:在GUI中利用鼠标点击或触摸输入来选择一个对象,移动位置,然后该鼠标点击或触摸输入结束。例如,当如图7所示对于与草图信息相对应的对象521的拖放事件被单查询输入窗口510接收到时,用于将草图信息输入到单查询输入窗口510的草图输入窗口可被显示。随后,当从在单查询类型列表520中包括的对象之中选择与另一查询类型相对应的对象时,草图输入窗口可被改变成用于输入与该另一查询类型相对应的查询成分的输入窗口。这里,拖放可被各种替换为各种输入方案。例如,根据另一示范性实施例,用户1可利用诸如上文参考对单输入模式选择图标501的选择所描述的那些之类的输入来确定查询类型。根据示范性实施例,单查询输入窗口510的面积或位置可依据在单查询输入窗口510中要显示的查询类型(即,与查询类型的查询输入相对应的显示项目)而被改变或者变化。或者,在查询输入窗口810中显示的查询成分(即,显示项目)的大小可依据查询成分输入区域的面积而被改变或变化。例如,当输入到文本输入窗口的字符的数目增加时,例如增加到多于预定数目时,在文本输入窗口中显示的每个字符的字体大小可被减小。例如,根据一个或多个示范性实施例,用户1可经由在单输入模式选择图标501上的选择来选择查询类型。根据一个或多个示范性实施例,单查询输入窗口510的区域或位置可基于要在查询输入窗口上显示的查询的查询类型(即,与查询类型的查询输入相对应的显示项目)而被改变。另一方面,要在单查询输入窗口510上显示的查询的查询成分(即,显示项目)的大小可基于查询成分输入区域而被改变。例如,在输入字符时,如果输入了预定数目以上的字符,则文本输入窗口可放大,或者文本输入窗口中的字符可被改变到较小的大小。
控制器可进行操作来显示与通过显示项目520选择的查询类型相对应的查询输入窗口510,基于通过查询输入窗口520输入的查询来获取搜索结果,并且显示该搜索结果。例如,当查询类型是文本时,控制器可进行操作来显示使得能够输入文本的显示项目。
当所选择的查询类型是音频时,控制器可进行操作来在查询输入窗口510上显示用于输入通过麦克风获取的语音信息和存储在存储器中的音频数据中的至少一者作为查询的显示项目。例如,用于选择使得麦克风能够操作的图标和存储在存储器中的音频数据的图标可被显示在查询输入窗口510上。麦克风可接收语音输入来输出电信号并且可从该电信号获取语音信息。音频数据可作为文件被存储在存储器中。
当所选择的查询类型是图像时,控制器可进行操作来在查询输入窗口510上显示用于输入从通过相机获取的图像数据和存储在存储器中的图像数据中选择的至少一者作为查询的显示项目。例如,用于选择使得相机能够操作的图标和存储在存储器中的图像数据的图标可被显示在查询输入窗口510上。相机可获取图像数据。图像数据可作为文件被存储在存储器中。
另外,查询输入设备可包括搜索按钮530,用于输入允许基于输入到单查询输入窗口510的查询来执行搜索的命令。根据一个或多个其他示范性实施例,搜索按钮530可不被显示或者可被改变到另外的形式。
图8至图18是图示出根据示范性实施例接收用于多模态搜索的查询的方法的示范图。
当搜索模式是多模态搜索模式(即,多模态输入模式)时,根据示范性实施例的查询输入设备可显示查询输入窗口810,通过该窗口来输入包括一个查询类型的查询。当通过显示项目820选择多个查询类型时,控制器可进行操作来在查询输入窗口810上显示用于接收多个查询的显示项目811和812。例如,参考图8,查询输入窗口810可包括第一查询成分输入区域811(即,第一区域)和第二查询成分输入区域812(即,第二区域)。
查询输入设备可显示用于选择搜索模式的至少一个搜索模式选择对象。参考图8,查询输入设备可显示单输入模式选择图标801(即,单输入模式选择图标)和多模态输入模式选择图标802(即,多模态输入模式选择图标)。当从用户1接收到用于选择多模态输入模式选择图标801的用户输入时,查询输入设备可显示查询输入窗口810。可接收具有多个查询类型的多个查询成分(即,查询输入)的查询输入窗口可被称为多模态查询输入窗口。这里,用户输入可依据查询输入设备或I/O设备的类型而变化。例如,当查询输入设备是输出GUI的PC时,利用鼠标光标点击或选择多模态输入模式选择图标801的事件可以是选择多模态输入模式选择图标801的用户输入。作为另一示例,当查询输入设备是包括触摸屏的手持设备时,人身体的一部分或电子笔(例如,触控笔)在触摸屏上显示多模态输入模式选择图标801的位置上的触摸可以是选择多模态输入模式选择图标801的用户输入。
另外,查询输入设备可显示单查询类型列表820。单查询类型列表820可包括多个对象。在单查询类型列表820中包括的每个对象可分别对应于一个查询类型。在图8中,单查询类型列表820被图示为简单按钮类型,但在一个或多个其他示范性实施例中每个对象可被替换为各种形式,例如图标、小组件等等。
查询输入设备可基于单查询类型列表820来确定在多模态查询输入窗口810中包括的查询类型。参考图9,用户1可利用将在单查询类型列表820中包括的对象之一拖放到显示多模态查询输入窗口810的区域来确定在查询输入窗口810中包括的查询类型。拖放表示这样一种输入方案:在GUI中利用鼠标点击或触摸输入选择一个对象,移动位置,然后该鼠标点击或触摸输入结束。例如,当如图9所示对于与文本相对应的对象821的拖放事件被输入到查询输入窗口810的第一查询成分输入区域811时,用于将文本输入到第一查询成分输入区域811的文本输入窗口可被显示,如图10所示。文本输入窗口可包括显示输入的文本的文本框。另外,参考图10,当对于与图像相对应的对象822的拖放事件被输入到第二查询成分输入区域812时,用于将查询类型是图像的查询成分输入到第二查询成分输入区域812的用户界面可被显示,如图11所示。在此情况下,拖放可被各种替换为各种输入方案。例如,根据一个或多个示范性实施例,用户1可经由对多模态输入模式选择图标801的选择来确定查询类型。另外,第一查询成分输入区域811或第二查询成分输入区域812的面积或位置可随着要在第一查询成分输入区域811或第二查询成分输入区域812中显示的查询类型(即,与查询类型的查询输入相对应的显示项目)而被改变或者变化。或者,在查询输入窗口810中显示的查询成分的大小可随着查询成分输入区域的面积而被改变或变化。例如,当输入到文本输入窗口的字符的数目增加时,例如增加到多于预定数目时,在文本输入窗口中显示的每个字符的字体大小可被减小。
另外,在图8至图11中,查询输入窗口810被示为接收包括至少两个查询类型的查询(即,至少两个查询类型的查询输入)。要理解,在通过查询输入窗口810接收的查询中包括的查询类型的数目可大于、等于或小于示范性实施例中的两个。用户1可从在单查询类型列表820中包括的对象之中选择至少一个。例如,可利用鼠标或鼠标光标点击在单查询类型列表820中包括的对象之一。或者,可对触摸屏上显示的对象之一进行触摸。然而,要理解一个或多个其他示范性实施例不限于此。
参考图12,可通过从用户1接收的输入来选择与音频相对应的对象823。当从在单查询类型列表820中包括的对象之中选择至少一个对象时,查询输入设备可向查询输入窗口810添加第三查询成分输入区域813(即,第三区域)。查询输入设备可在不改变查询输入窗口810的总体面积的情况下向查询输入窗口810添加第三查询成分输入区域813。例如,参考图13,查询输入设备可在第二查询成分输入区域812的一部分中显示第三查询成分输入区域813。然而,要理解一个或多个其他示范性实施例不限于此。例如,根据另一示范性实施例,查询输入设备可在与显示第三查询成分输入区域813之前的情况相比放大了查询输入窗口810的额外区域上显示第三查询成分输入区域813。当如图12所示与音频相对应的对象823被选择时,用于向第三查询成分输入区域813输入查询类型是音频的查询成分的用户界面可被显示,如图13所示。
另外,在查询输入窗口810中包括的每个查询成分输入区域的面积可被改变或者可变化。例如,当在第一查询成分输入区域811的全部中难以显示输入到第一查询成分输入区域811的文本时,第一查询成分输入区域811的面积可增大。作为另一示例,如图14所示,可基于用户输入来移动查询成分输入区域之间的边界840。这里,该用户输入可以是拖曳边界840的输入,虽然要理解一个或多个其他示范性实施例不限于此。
另外,在查询成分输入区域中显示的用户界面可被改变成用于输入与另一查询类型相对应的查询成分的用户界面。参考图15,可以接收在单查询类型列表820中包括的对象之中的与草图信息相对应的对象824,并且可接收由用户1生成的事件作为选择第二查询成分输入区域812的用户输入。这里,该用户输入可以是从单查询类型列表820中显示的对象824开始并且在第二查询成分输入区域812中结束的拖放事件,但不限于此。在此情况下,如图16所示,用于输入草图信息的草图输入窗口814可被显示在图15的第二查询成分输入区域812中。
另外,可根据用户输入改变查询输入窗口810的大小。可根据用户输入放大或缩小查询输入窗口810。如图17所示,当接收到用户输入时,可在放大或缩小的区域850中显示查询输入窗口810。这里,该用户输入可以是拖曳查询输入窗口810的边缘的输入,虽然要理解一个或多个其他示范性实施例不限于此。
另外,可根据用户输入来移动显示查询输入窗口810的位置。如图18所示,当接收到用户输入时,可在移动后的区域860中显示查询输入窗口810。这里,该用户输入可以是拖曳查询输入窗口810的部分位置的输入,虽然要理解一个或多个其他示范性实施例不限于此。
图19和图20是图示出根据另一示范性实施例接收用于多模态搜索的查询的方法的示范图。图19是图示出通过基于单搜索模式执行搜索而获得的屏幕的示范图。查询输入窗口可包括用于输入与第一查询类型相对应的查询成分的第一查询成分输入区域1910。通过第一查询成分输入区域1910接收查询成分,然后,当搜索按钮1930被选择时,可基于包括接收到的查询成分的查询来执行搜索。这里,可利用在查询输入设备中包括的搜索引擎来执行搜索。或者,查询输入设备可将查询发送到搜索引擎服务器并且接收对该查询的响应,从而搜索可被执行。
搜索结果可作为搜索的结果被显示在结果显示区域1920中。参考图19,第一搜索结果1921和第二搜索结果1922可被显示在结果显示区域1920中。
随后,当基于用户输入从显示的搜索结果之中选择至少一个搜索结果时,可显示查询类型列表1940。参考图19,当选择第二搜索结果1922时,可在第二搜索结果1922附近显示查询类型列表1940。在图19中,查询类型列表1940被图示为一组配置有按钮的对象,但在一个或多个其他示范性实施例中每个对象可被替换为各种形式,例如图标、小组件等等。在此情况下,可基于第二搜索结果1922来执行多模态搜索,并且可将查询成分输入到第二查询成分输入区域1920中。然而,本示范性实施例不限于此。例如,根据一个或多个其他示范性实施例,可基于输入到第一查询成分输入区域1910的原始查询成分和输入到第二查询成分输入区域1920的查询成分来执行多模态搜索。
当从图19的查询类型列表1940中选择查询类型时,查询输入设备可将搜索模式从单搜索模式切换到多模态搜索模式。参考图20,可进一步显示用于输入与第二查询类型相对应的查询成分的第二查询成分输入区域1915。随后,当选择搜索按钮1930时,可基于输入到第一查询成分输入区域1910的查询成分和输入到第二查询成分输入区域1920的查询成分来执行多模态搜索。在此情况下,可基于第二搜索结果1922和输入到第二查询成分输入区域1920的查询成分来执行多模态搜索,虽然要理解一个或多个其他示范性实施例不限于此。例如,根据另一示范性实施例,可基于输入到第一查询成分输入区域1910的原始查询成分和输入到第二查询成分输入区域1920的查询成分来执行多模态搜索。搜索结果1923和1924可作为多模态搜索的结果被显示在结果显示区域中。
图21和图22是图示出根据示范性实施例生成查询输入窗口的方法的示范图。根据示范性实施例,基于搜索模式选择对象2100来选择搜索模式,然后,如图21所示,可基于从用户1接收的用户输入选择或生成任意区域2110。这里,该用户输入可以是任意位置的拖曳,虽然要理解一个或多个其他示范性实施例不限于此。当选择任意区域2110时,如图22所示,可根据选择的搜索模式在任意区域2110中显示查询输入窗口。例如,当所选择的搜索模式是单搜索模式时,查询输入窗口可以是单查询输入窗口,而当选择的搜索模式是多模态搜索模式时,查询输入窗口可以是多模态查询输入窗口。另外,可显示查询类型列表2220和搜索按钮2230。
图23是图示出根据另一示范性实施例接收用于多模态搜索的查询的方法的示范图。在图23的示范性实施例中,查询输入设备可包括同时接收对多个点的输入的输入设备(例如,输入单元)。例如,查询输入设备可包括触摸屏。在显示单查询类型列表2320时,在单查询类型列表2320中包括的多个对象可被选择。参考图23,第一对象2321(其中查询类型是文本)和第二对象2322(其中查询类型是图像)可被选择。例如,用户的两根手指可分别触摸在触摸屏上显示的对象2321和2322。多个对象被选择,并且当每个对象的选择位置被移动到一点时,用于接收具有与这多个对象相对应的多个查询类型的查询成分的查询输入窗口2310可被显示。例如,参考图23,可接收到如下输入:其中,触摸在触摸屏上显示的对象2321和2322的两根手指在触摸着触摸屏的状态中移动到一个点2340,然后与触摸屏脱离。也就是说,可接收将多个对象同时拖放到一个点2340的输入。可显示包括用于输入文本的文本输入窗口2311和用于上传图像的图像上传窗口2312的查询输入窗口2310。这里,一个点2340可不精确或确切地对应于同一点。例如,当两个点处于彼此的任意距离内时(例如,预定距离内),可以认为多个对象位于一个点上。
图24是图示出根据另一示范性实施例多模态查询类型列表2410的示范图。根据本示范性实施例,当搜索模式是单搜索模式时,查询输入设备可显示单查询类型列表,而当搜索模式是多模态搜索模式时,查询输入设备可显示多模态查询类型列表。在多模态查询类型列表中包括的对象可表示多个查询类型的组合。参考图24,当利用搜索模式选择对象2400将搜索模式设定到多模态搜索模式时,可显示表示其中组合了两个或更多个查询类型的组合类型的列表的多模态查询类型列表2410。
图25A至图25E是图示出根据另一示范性实施例接收用于多模态搜索的查询的方法的示范图。
根据本示范性实施例,可利用搜索结果的一部分来接收用于多模态搜索的查询。参考图25A,查询输入设备2500可显示图像2520作为通过基于输入到查询输入窗口2510的查询执行搜索而获得的搜索结果。
参考图25B,图像2520的部分区域2501可被选择。部分区域2501可基于用户输入被手动选择,或者可基于对搜索结果的分析——例如图像识别——被自动选择。例如,当用户1通过拖曳鼠标光标或使用触摸输入描绘环状曲线时,查询输入设备2500可将该环状曲线的内部确定为从图像2520中选择的部分区域2501。
当从搜索结果中选择部分区域2501时,可显示查询类型列表。根据本示范性实施例,参考图25C,可在所选择的部分区域2501附近以浮动图标的形式或者浮动小组件的形式来显示查询类型列表。浮动图标或浮动小组件可被显示在内容上,并且是位置可移动的对象。
对于所显示的查询类型列表2520,可从用户1接收用于选择查询类型的用户输入。当选择查询类型时,可显示与所显示的查询类型相对应的查询输入窗口。例如,包括在图25C所示的图像2520中显示的包袋的部分区域2501可被选择。随后,当从多个所显示的浮动图标2521之中选择与多个查询类型之中与语音搜索相对应的图标2511时,可显示用于输入查询成分(其中查询类型是语音)的查询输入窗口2510。语音类型的查询成分可被称为音频查询。
根据示范性实施例,用于输入查询成分(其中查询类型是语音)的查询输入窗口2510可包括语音(即,音频)记录图标。当用户1选择语音记录图标时,查询输入设备2500可操作麦克风,并且执行用于获取语音信息的应用。参考图25D,当用于获取语音信息的应用正被执行时,用户1可向查询输入设备2500中输入语音。
当通过查询输入窗口2510输入查询成分时,查询输入设备2500可接收所选择的搜索结果的一部分(例如,对应于从图像2520选择的部分区域2501)和通过查询输入窗口2510输入的信息作为查询成分。参考图25E,包括图像输入区域2511-1(在该区域中显示其中显示有包袋的图像)和语音输入区域2512-1(在该区域中显示输入语音信息的波形、预定波形和从语音信息转换来的文本中的至少一者)的查询输入窗口2510-1可被显示作为与查询相对应的显示项目。这里,输入语音信息的波形可以是与语音信息的预定部分(例如,语音信息的开头)、语音信息的预定长度、语音信息的预定音频特征或特性等等中的至少一者相对应的波形。如图25D所示,当语音信息“价格”被输入时,查询输入设备2500可基于包括含有包袋的图像和语音“价格”的查询来执行多模态搜索。如图25E所示,查询输入设备2500可在搜索结果显示区域2520-1中显示关于该图像中包括的包袋的价格的信息来作为通过执行多模态搜索而获得的搜索结果。
图26是图示出根据示范性实施例显示查询输入窗口的过程的流程图。图27和图28是图示出根据示范性实施例显示查询输入窗口的方法的示范图。根据示范性实施例,可在输入查询之前未选择查询类型的状态中输入查询成分。
在操作S2610中,查询输入设备可通过查询输入窗口接收查询成分。可按各种方式来实现接收查询成分的方法。参考图27,查询输入设备可显示指示所设定的搜索模式的指示符2701、查询输入窗口2710和搜索按钮2720。图27的查询输入窗口2710包括用于输入查询类型是文本的查询成分的用户界面2711。这里,查询输入设备可从用户1接收一输入以便接收查询成分,其中通过该输入,(包括在文件搜索窗口2740中的)文件图标2730被拖放到查询输入窗口。然而,要理解,一个或多个其他示范性实施例不限于拖放输入方法。例如,根据另一示范性实施例可通过点击操作(例如,双击)来选择文件。另外,文件搜索窗口2740不限于图27所示的形式。例如,根据另一示范性实施例,图27的文件搜索窗口2740可通过分割查询输入设备的屏幕来显示,或者可通过将查询输入设备的屏幕改变到文件搜索屏幕来显示。
在操作S2620中,查询输入设备可检测接收到的查询成分的查询类型。可按各种方式实现检测查询类型的方法。例如,当接收到的查询成分是文件时,查询输入设备可根据该文件的扩展名来检测查询成分的查询类型。在此情况下,当文件的扩展名是jpg、gif或bmp时,查询输入设备可确定查询成分的查询类型为图像,而当文件的扩展名是avi、mp4或wmv时,查询输入设备可确定查询成分的查询类型为视频。或者,当应用被用于接收查询成分时,查询输入设备可根据该应用的种类来检测查询成分的查询类型。例如,当接收利用相机应用获取的信息作为查询成分时,查询输入设备可确定查询成分的查询类型为图像,而当利用语音记录应用来接收查询成分时,查询输入设备可确定接收到的查询成分的查询类型为语音信息。
在操作S2630中,查询输入设备可改变查询输入窗口以包括一用户界面,通过该用户界面来接收与检测到的查询类型相对应的查询成分(并且通过该用户界面来显示与先前接收到的查询成分相对应的显示项目)。另外,可显示与接收到的查询成分相对应的显示项目。参考图28,当像图27中那样接收图像文件时,查询输入设备可将配置有作为用来输入文本的用户界面2711的文本输入框的查询输入窗口2710改变成配置有用于输入图像2712的图像上传工具的另一查询输入窗口2710。
图29是图示出根据示范性实施例接收查询的过程的流程图。图30至图32是图示出根据示范性实施例接收查询的方法的示范图。根据示范性实施例,可在不首先选择查询类型的情况下输入查询成分。
在操作S2910中,查询输入设备可通过查询输入窗口接收查询成分。可按各种方式实现接收查询成分的方法。参考图30,查询输入设备可显示指示所设定的搜索模式的指示符2702、查询输入窗口2710和搜索按钮2720。在图30中,查询输入窗口2710被示为包括用于输入查询类型是文本的查询成分的用户界面2711。这里,查询输入设备可从用户1接收一输入以便接收查询成分,其中通过该输入,(包括在文件搜索窗口2740中的)文件图标2730被拖放到查询输入窗口。然而,要理解,一个或多个其他示范性实施例不限于拖放输入方法。例如,根据另一示范性实施例可通过点击操作(例如,双击)来选择文件。另外,文件搜索窗口2740不限于图30所示的形式。例如,根据另一示范性实施例,图30的文件搜索窗口2740可通过分割查询输入设备的屏幕来显示,或者可通过将查询输入设备的屏幕改变到文件搜索屏幕来显示。
在操作S2920中,查询输入设备可检测接收到的查询成分的查询类型。可按各种方式实现检测查询类型的方法。例如,当接收到的查询成分是文件时,查询输入设备可根据该文件的扩展名来检测查询成分的查询类型。或者,当应用被用于接收查询成分时,查询输入设备可根据该应用的种类来检测查询成分的查询类型。
在操作S2930中,查询输入设备可根据检测到的查询类型来添加要用于执行多模态搜索的查询类型。因此,查询输入设备可将一区域添加到查询输入窗口中,该区域接收与添加的查询类型相对应的查询成分(并且显示与先前接收的查询成分相对应的显示项目)。参考图31,由于添加了查询类型,所以显示查询输入窗口2710的区域可被放大。另外,用于输入图像的用户界面2712可被显示在放大了查询输入窗口的区域中。关于接收到的查询成分的信息2750,例如预览、图标或文件名,可被显示在添加的区域中。
根据一个或多个示范性实施例,查询输入窗口2710可被放大以包括与添加的查询类型相对应的用户界面2712。然而,本示范性实施例不限于此。另外,根据一个或多个示范性实施例,查询输入设备所显示的查询输入窗口2710的形式可不被改变。另外,查询输入窗口2710的内部区域可不被分割。在此情况下,分别与通过查询输入窗口2710输入的不同查询类型相对应的多个查询成分可被一起显示在查询输入窗口2710中。
根据另一示范性实施例,查询输入设备可显示查询输入窗口。这里,当搜索模式是多模态输入模式时,查询输入窗口可包括显示接收到的查询成分(即,显示与先前接收的查询成分相对应的显示项目)的区域和用于接收查询成分的区域。根据示范性实施例,当用于接收查询成分的区域被选择时,查询输入设备可执行接收查询成分的操作。例如,为了接收查询类型是语音信息的查询成分,查询输入设备可在麦克风被操作的状态中待机。语音信息可以是在语音数据中包括的信息。在操作S2910中,查询输入设备可通过用于接收查询成分的查询输入窗口的一区域来顺序或者同时接收与多个查询类型相对应的多个查询成分。例如,当用户在描绘自行车的同时用红色写出搜索时,查询输入设备可接收指示用户描绘的自行车的草图信息和包括关键字“红”的语音信息作为查询成分。
在操作S2920中,查询输入设备可检测接收到的查询成分的查询类型。例如,当接收到的查询成分是文件时,查询输入设备可根据该文件的扩展名来检测查询成分的查询类型。或者,当应用被用于接收查询成分时,查询输入设备可根据该应用的种类来检测查询成分的查询类型。作为另一示例,当利用相机拍摄图片时,查询输入设备可检测到查询成分的查询类型是图像。或者,当利用光学字符识别(optical character recognition,OCR)识别在图片中包括的字符时,文本可被检测为查询类型。当检测到接收到的查询成分的查询类型,查询输入设备可基于检测到的查询类型在显示接收到的查询成分的区域中显示接收到的查询成分(或者与接收到的查询成分相对应的显示项目)。例如,当从第一查询成分检测到的查询类型是视频时,查询输入设备可在显示第一查询成分的区域中显示该视频的预览,并且当从第二查询成分检测到的查询类型是文本时,查询输入设备可在显示第二查询成分的区域中显示关键字。或者,当从查询成分检测到的查询类型是语音信息时,查询输入设备可在显示该查询成分的区域中显示在语音信息中包括的或者与预定波形相对应的语音波形以及从语音信息转换来的文本中的至少一者。查询输入设备可反复执行操作S2910和S2920来接收多个查询成分,并且可显示接收到的查询成分以使得用户能够查看这些查询成分。
当在操作S2920中检测到查询类型时,在操作S2930中查询输入设备可添加要用于查询的查询类型。当查询输入设备接收到与搜索命令相对应的输入时,查询输入设备可生成包括添加的查询类型的查询。查询输入设备可基于包括接收到的查询成分和检测到的查询类型的查询来执行搜索。查询输入设备可显示一个或多个搜索结果作为搜索的结果。
当查询类型被改变时,接收查询成分的方法可被改变。另外,对于一个查询类型可提供接收查询成分的各种方法。因此,提供给用户用于输入查询成分的用户界面可依据查询类型而被改变或者变化。图33是图示出根据示范性实施例接收查询的过程的流程图。
参考图33,在操作S3310中,查询输入设备可在查询输入窗口中显示查询输入工具。这里,查询输入工具表示提供给用户用于输入查询成分的用户界面。在操作S3310中,查询输入设备可根据在通过查询输入窗口输入的查询中包括的查询类型来显示查询输入工具。根据查询类型显示的查询输入工具的示例将在下文参考图34至图40来详细描述。
在操作S3320中,查询输入设备可从在查询输入窗口中显示的多个查询输入工具之中选择至少一者。具体而言,在操作S3320中,查询输入设备可接收用户输入,并且根据接收到的用户输入选择查询输入工具。用户输入的类型或形式可变化。例如,可根据人类身体的一部分、触控笔等等触摸在触摸屏上显示的查询输入工具的操作或者点击所显示的查询输入工具的鼠标光标来选择查询输入工具。
在操作S3330中,查询输入设备可基于所选择的查询输入工具来确定是否要执行用于接收查询成分的应用。例如,当所选择的查询输入工具是文本框时,查询输入设备可确定可直接通过文本框接收查询成分,而无需执行单独的应用。也就是说,当不执行单独的应用时,查询输入设备在操作S3340中可通过查询输入窗口接收查询成分。
当要执行用于接收查询成分的单独应用时,查询输入设备在操作S3335中可执行与查询输入工具相对应的应用。与查询输入工具相对应的应用可以是预定的,或者可由用户从应用列表中选择。因此,查询输入设备在操作S3345中可利用执行的应用来接收查询成分。
图34至图40是图示出基于在查询中包括的查询类型利用查询输入窗口中显示的查询输入工具来接收查询成分的方法的示范图。图34至图40只是用于描述一个或多个示范性实施例的示例,并且要理解一个或多个其他示范性实施例不限于此。
图34是图示出根据示范性实施例接收查询类型是文本的查询成分的方法的示范图。
当在查询中包括文本模式时,查询输入窗口可包括文本框3410,其如图34所示。当文本框3410被选择时,指示要输入文本的位置的光标3411可被显示在文本框3410中。可经由键盘、小键盘、接收手写文本的书写板等等来输入文本。另外,查询输入设备可通过文本框3410从键盘或剪贴板接收拷贝的文本。从输入的文本中提取的关键字可用作搜索中的查询成分。
根据另一示范性实施例,查询输入设备可利用OCR操作从图像(例如,通过操作相机获取的图像)获取文本。另外,虽然用于接收文本输入的查询输入工具在上文中被提供为包括光标3411的文本框3410,但要理解一个或多个其他示范性实施例不限于此。例如,根据另一示范性实施例,用于接收文本输入的查询输入工具可包括书写板来接收手写文本,该手写文本被包括在查询中,并且例如随后被搜索引擎经由OCR操作转换,或者被查询输入设备经由OCR操作转换成文本。
图35至图38是图示出根据示范性实施例接收查询类型是图像的查询成分的方法的示范图。在图35至图38中,查询输入设备3500被描述为包括相机的手持设备,虽然要理解一个或多个其他示范性实施例不限于此。
当通过查询输入窗口接收的查询包括图像时,查询输入设备3500可显示包括用于接收图像的一个或多个工具的查询输入窗口3510。用于接收图像的一个或多个工具中的每个可包括图像上传图标3511、摄影图标3512和图像地址输入框3513中的至少一者。
当用户1选择图像上传图标3511时,查询输入设备3500可进行操作来选择图像文件。例如,参考图37,查询输入设备3500可执行显示图像文件的预览列表的图库应用。当用户1利用图库应用从所显示的预览列表中选择至少一个图像3520时,查询输入设备3500可接收所选择的图像3520作为查询成分。
参考图37,当利用图库应用选择图像3520时,查询输入设备3500可结束、关闭或隐藏图库应用,并且在查询输入窗口3510中显示所选择的图像3520。或者,根据另一示范性实施例,查询输入设备3500可分割其显示区域。在此情况下,查询输入设备3500可在多个分割的区域之一中显示图库应用的执行屏幕,从而使得用户1能够选择图像。
当用户1选择摄影图标3512时,查询输入设备3500可执行操作相机以拍摄图片的应用3530,如图38所示。当利用相机生成图像时,查询输入设备3500可接收所生成的图像作为查询成分,并且如图37所示,该图像可被显示在查询输入窗口3510中。
根据另一示范性实施例,用户1可利用图像地址输入窗口3513输入图像所位于的地址。图像地址可以是像URL地址那样的指示图像的位置的地址,虽然要理解一个或多个其他示范性实施例不限于此。
在图37中,图示了被接收作为查询成分的图像被显示在查询输入窗口3510中,虽然要理解显示被接收作为查询成分的图像的位置在一个或多个其他示范性实施例中可变化。
另外,接收查询(其中查询成分的查询类型是视频)的方法可与如上所述的接收图像作为查询成分的方法类似地实现。
当接收图像或视频作为查询成分时,可利用图像识别或OCR操作从该图像或视频中获取关键字。可利用所获取的关键字来执行搜索。或者,查询输入设备可将图像本身与索引相比较以搜索相似的图像。
图39是图示出根据示范性实施例接收查询类型是草图信息的查询成分的方法的示范图。
当查询中包括的查询类型是草图信息时,查询输入窗口3910可包括用于输入草图信息的草图输入工具3911。根据示范性实施例的草图输入工具3911可包括用于选择笔模式、画笔模式、钢笔模式、线条的颜色或粗细等等中的至少一者的一个或多个图标。用户1可利用草图输入工具3911来设定草图输入模式,并且利用触摸输入、鼠标输入、跟踪板输入、姿态输入等等将草图信息输入到接收查询类型是草图信息的查询成分的区域。
当接收到草图信息时,接收到的草图信息可被显示在查询输入窗口3910中。接收到的草图信息可被转换成关键字,并且从草图信息获取的关键字可用于搜索。或者,可利用草图信息本身的形式来执行搜索。
图40是图示出根据示范性实施例接收查询类型是音频信息的查询成分的方法的示范图。
当查询中包括的查询类型是音频信息时,查询输入设备可显示包括用于接收音频信息的工具的查询输入窗口4010。用于接收音频信息的工具可包括例如声音文件上传按钮4011和音频记录图标4012中的至少一者。
当声音文件上传按钮4011被选择时,查询输入设备可显示用于选择声音文件的文件选择窗口4021。用户可利用文件选择窗口4021来选择要被输入作为查询成分的语音文件(即,音频文件)。
或者,当音频记录图标4012被选择时,查询输入设备可操作麦克风(其图像被包括在查询输入窗口4010中),并且执行记录音频(即,语音信息)的应用4022。查询输入设备可利用所执行的应用4022接收所获取的语音信息作为查询成分。
当语音信息被输入时,查询输入设备可显示输入到查询输入窗口4010的语音信息的波形、语音频谱或文件名。
被接收作为查询成分的语音信息可通过将语音的波形本身与索引相比较而被用于音乐搜索,或者通过利用语音识别的转换获得的关键字可被用于搜索。
图41是图示出根据示范性实施例接收包括具有多个查询类型的多个查询成分的查询并且显示搜索结果的方法的示范图。
当查询中包括的查询类型是文本和图像时,在查询输入设备4100中显示的查询输入窗口可包括用于输入文本的第一区域4111和用于输入图像的第二区域4112。如图41的(a)所示,当文本“花”和包括狗的形状的图像被接收作为查询成分时,文本“花”可被显示为区域4111中的第一显示项目,并且接收到的图像可被显示为区域4112中的第二显示项目。
这里,用户可手动选择第一区域4111以将第一区域4111置于接收文本的输入的就绪状态中,并且可手动选择第二区域4112以将第二区域4112置于接收图像的输入的就绪状态中。然而,要理解一个或多个其他示范性实施例不限于此。例如,根据另一示范性实施例,在用户在第一区域中输入第一查询成分(例如,文本)之后或者响应于此,第二区域4112可自动进入接收第二查询成分(例如,图像)的输入的就绪状态。在此,查询输入设备4100的控制器可确定自动从第一区域4111可接收第一查询成分的第一就绪状态(即,第一状态)切换到第二区域4112可接收第二查询成分的第二就绪状态(即,第二状态)。例如,如果第二查询成分对应于音频或语音信息查询类型,则控制器可执行控制来自动将查询输入设备4100切换到第二就绪状态,在该第二就绪状态中麦克风被自动激活或操作来接收第二查询成分。另外,如果第二查询成分对应于图像查询类型,则控制器可执行控制来自动将查询输入设备4100切换到第二就绪状态,在该第二就绪状态中相机被自动激活或操作来接收第二查询成分或者在该第二就绪状态中选择图像的界面被显示来接收第二查询成分。
当如上所述自动切换就绪状态时,控制器可控制输出自动切换和/或第二就绪状态的指示符。例如,该指示符可包括以下各项中的至少一者:音频指示符或输出(例如,预定通知声音)、视觉指示符或输出(例如,预定图标、预定符号、预定图像等等)、辅助设备输出(例如,查询输入设备4100上的闪烁的LED或预定颜色的LED)、振动输出,等等。在此情况下,在各种示范性实施例中视觉指示符可被显示在查询输入窗口中或者查询输入窗口外。
另外,控制器可基于确定第一查询成分的输入的完成而确定自动从第一就绪状态切换到第二就绪状态。例如,如果第一查询成分是图像,则控制器可响应于由查询输入设备4100的相机捕捉的图像或者响应于对图像的用户选择来确定自动从第一就绪状态切换到第二就绪状态。另外,如果第一查询成分是文本或草图,则控制器可响应于从对第一区域4111的最后一次用户输入起流逝预定时间段(例如,在对第一区域4111输入最后一个文本字符之后两秒)而确定自动从第一就绪状态切换到第二就绪状态。
当切换到第二就绪状态时,控制器也可控制改变查询输入窗口的显示、第二区域4112的显示或图形用户界面的显示。在此,显示的改变可基于与第二查询成分或第二区域4112相对应的查询类型。根据另一示范性实施例,控制器可响应于切换到第二就绪状态而控制显示第二区域4112或用户界面来接收第二查询成分的输入。
当如图41的(b)所示用户1在接收到的文本和接收到的图像被显示的状态中选择搜索按钮4120时,查询输入设备4100可显示通过执行多模态搜索获得的搜索结果。在图41中,包括花和狗两者的图像被显示为搜索结果。
图42是图示出根据示范性实施例执行搜索的过程的流程图。
根据示范性实施例的查询输入设备可在操作S4210中接收查询,并且在操作S4220中确定在接收到的查询中包括的查询成分的优先级。在操作S4220中,查询输入设备可基于查询成分的查询类型来确定查询成分的优先级。例如,当在查询中包括文本、图像和语音信息时,可按文本、语音信息和图像的顺序来确定查询成分的优先级。
可按各种方式来确定查询成分的优先级。例如,用户可设定多个查询类型的优先级。根据示范性实施例,当设定了查询类型的优先级时,可基于接收到的查询成分的查询类型来确定优先级。根据另一示范性实施例,可基于通过查询输入窗口接收到查询成分的顺序来确定查询成分的优先级。然而,这只是用于描述示范性实施例的示例,并且要理解一个或多个其他示范性实施例不限于此。
在操作S4230中,可基于所确定的优先级来执行搜索。例如,可基于查询中包括的文本执行第一搜索,然后,利用作为具有比文本低的优先级的查询成分的语音信息,可对基于文本执行的第一搜索的结果执行第二搜索。
查询成分的优先级可由查询输入设备确定。或者,当利用包括搜索引擎的搜索引擎服务器执行搜索时,查询成分的优先级可由搜索引擎服务器确定。
图43是图示出根据示范性实施例通过执行多模态搜索获得的结果的示范图。
根据示范性实施例,查询输入设备可显示查询输入窗口4201。查询输入窗口4201可包括显示接收到的查询成分(即,与接收到的查询成分相对应的显示项目)的至少一个查询成分输入区域。根据示范性实施例,查询输入设备可基于接收到的查询成分的查询类型的优先级来显示接收到的查询成分。参考图43,当图像查询类型的优先级高于文本查询类型的优先级时,图像输入区域4202可被显示在文本输入区域4203上方。
利用查询输入窗口4201输入查询成分,然后,当用户选择搜索按钮4204时,利用该查询成分执行的搜索的结果可被显示在搜索结果显示区域4205中。这里,在多个查询成分之中,具有最高优先级的查询成分可被确定为主查询成分,并且具有最低优先级的查询成分可被确定为副查询成分。在基于主查询成分的搜索结果之中,由副查询成分选择的信息可被显示在搜索结果区域中。例如,参考图43,在关于在图像中包括的智能电话的多条信息之中,包括智能电话的产品信息的广告信息、博客和图像可被显示在搜索结果区域4205中。
图44是图示出根据另一示范性实施例显示搜索结果的过程的流程图。
在操作S4310中,可基于通过查询输入窗口接收的查询来获取(即,确定或获得)多个搜索结果。这里,在操作S4320中可对获取的多个搜索结果进行优先级区分。例如,可基于匹配查询的程度来确定获取的多个搜索结果的优先级。作为另一示例,可基于生成包括相应搜索结果的信息的时间来确定获取的多个搜索结果的优先级。
在操作S4330中,被区分了优先级的搜索结果可基于其优先级被显示在查询输入窗口中。这里,可在另一设备而不是查询输入设备中显示搜索结果。例如,可在连接到查询输入设备的家庭网络中包括的另一设备中显示搜索结果。
图45是图示出根据另一示范性实施例搜索结果的优先级的示范图。根据本示范性实施例,可基于搜索结果的类型来对搜索结果进行优先级区分。搜索结果的优先级可由用户设定,或者可基于用户的反馈或使用历史来确定。例如,当用户对于广告没有兴趣时,用户可直接将广告搜索结果类型设定到低优先级,或者当广告信息被选择的次数相对较小(或者低于预定值)时,查询输入设备可将广告搜索结果类型设定到相对较低的优先级。例如,参考图45,可按图像、博客、新闻、web文档和广告的顺序来确定基于结果类型的优先级。这里,描述了由查询输入设备确来定搜索结果的优先级。然而,要理解一个或多个其他示范性实施例不限于此。例如,根据另一示范性实施例,当利用外部搜索引擎服务器执行搜索时,搜索结果的优先级可由外部搜索引擎服务器确定。
图46是图示出根据另一示范性实施例通过执行多模态搜索获得的结果的示范图。在图46的示范性实施例中,输入了与图43的示范性实施例相同的查询。可显示包括图像输入区域4202和文本输入区域4203的查询输入窗口4201和搜索按钮4204。
另外,图46的示范性实施例表示如图45所示那样设定搜索结果的优先级的情况。即使当输入相同的查询时,也可依据搜索结果的优先级不同地显示搜索结果。也就是说,可基于搜索结果的优先级在结果显示区域4205-1中按图像、博客和新闻的顺序显示搜索结果。
图47是图示出根据示范性实施例利用多个设备接收查询的方法的示范图。根据本示范性实施例,可利用多个设备输入查询中包括的查询成分。在图47中,查询输入设备4400是连接的TV,虽然要理解在一个或多个其他示范性实施例中查询输入设备4400不限于图47所示的形式,而是可实现为PC、智能电话、智能设备、膝上型计算机、便携式多媒体播放器、平板设备、上网本、工作站,等等。
当在查询中包括的查询类型是草图信息、语音信息和图像时,查询输入设备4400可显示用于输入草图信息、语音信息和图像的查询输入窗口4410。
查询输入设备4400可向能够与查询输入窗口4401通信的智能手表4401请求语音信息4411。智能手表4401可表示配备有除了一般时钟的那些操作以外的各种操作的嵌入式系统手表。例如,智能手表4401可执行计算操作、翻译操作、记录操作、通信操作,等等。接收到来自查询输入设备4400的对语音信息4411的请求的智能手表4401可操作在智能手表4401中包括的麦克风以生成语音信息4411,并将所生成的语音信息4411发送到查询输入设备4400。查询输入设备4400可接收从智能手表4401发送来的语音信息4411作为查询成分。智能手表4401可利用有线通信或诸如蓝牙、Wi-Fi直通、近场通信(near fieldcommunication,NFC)、红外数据协会(infrared data association,IrDA)、射频(radiofrequency,RF)通信、无线局域网(local area network,LAN)等等之类的无线通信来与查询输入设备4400通信。
另外,查询输入设备4400可向能够与查询输入设备4400通信的智能眼镜4402请求图像4412。智能眼镜4402表示配备有头戴式显示器(head-mounted display,HMD)的可穿戴设备。智能眼镜4402可执行计算操作、翻译操作、记录操作、通信操作,等等。接收到来自查询输入设备4400的对图像4412的请求的智能眼镜4402可生成由在智能眼镜4402中包括的相机捕捉的图像4412。智能眼镜4402可将生成的图像4412发送到查询输入设备4400。查询输入设备4400可接收从智能眼镜4402发送来的图像4412作为查询成分。智能眼镜4402可利用有线通信或诸如蓝牙、Wi-Fi直通、NFC、IrDA、RF通信、无线LAN等等之类的无线通信来与查询输入设备4400通信。
智能眼镜4402可包括用于跟踪用户的眼睛的相机。当用户观看TV的整个屏幕的某个部分时,智能眼镜4402可利用用于跟踪用户的眼睛的相机来确定用户当前观看的区域并将该区域的图像传送到查询输入设备4400。
图47还图示出根据示范性实施例的智能镜片(例如,智能眼镜)从TV的整个屏幕获取用户观看的区域的图像的方法的示范图。参考图47,智能眼镜4402可获取用户观看的位置处的图像。图47示出了当用户观看TV屏幕上显示的自行车时的示范性实施例。
瞳孔跟踪相机可跟踪用户的瞳孔方向以确定用户的眼睛所看向的方向。在镜片(例如,眼镜)中包括的处理器可从瞳孔跟踪相机接收指示用户的观看方向的信息并基于接收到的信息来调整前置相机的方向。因此,前置相机可与用户的观看方向同步。也就是说,前置相机的方向和用户的眼睛所看向的方向是相同的。当前置相机的方向被调整时,前置相机可将调整后方向的图像输出到处理器。
前置相机可获取位于由瞳孔跟踪相机跟踪的观看方向上的图像。换言之,前置相机可在与用户的观看方向相同的方向上捕捉图像。在图47中,图示了前置相机指向TV屏幕中的自行车的情况。
智能眼镜4402可获取TV屏幕上的自行车图像并将自行车图像发送到查询输入设备4400。查询输入设备4400可接收从智能眼镜4402发送来的自行车图像并接收包括自行车图像的查询,从而执行搜索。
另外,查询输入设备4400可利用输出到查询输入设备4400的查询输入工具直接接收草图信息。接收到语音信息、图像和草图信息的查询输入设备4400可基于包括该语音信息、图像和草图信息的查询来执行搜索。
图47的智能手表4401和智能眼镜4402在一个或多个其他示范性实施例中可被替换为能够与查询输入设备4400通信的其他设备。
图48是图示出根据另一示范性实施例利用多个设备接收查询成分的方法的示范图。
根据本示范性实施例,查询输入设备4800可利用通过网络连接到查询输入设备4800的设备接收要添加或包括在查询中的查询成分。参考图48,查询输入设备4800可搜索通过网关4810连接到查询输入设备4800的多个设备4801至4803,以便选择要从其提供查询成分的一个或多个设备。这里,查询输入设备4800可基于查询成分的查询类型来选择要从其提供查询成分的设备。例如,当要接收的查询成分的查询类型是语音信息时,查询输入设备4800可从设备4801至4803之中选择包括语音输入操作的设备。
根据示范性实施例,查询输入设备4800可广播对于查询成分的请求。查询输入设备4800可从响应于该请求的设备4801至4803接收设备4801至4803相应设备简档。这里,每个设备简档可以包括关于对应设备提供的一个或多个操作的信息。查询输入设备4800可基于接收到的设备简档来选择提供查询成分的设备。
或者,当网关4810管理连接到网关4810的设备的设备简档时,网关4810可响应于请求选择提供查询成分的设备。当网关4810选择提供查询成分的设备时,网关4810可将对查询成分的请求发送到所选择的设备。
根据另一示范性实施例,查询输入设备4800可广播包括关于查询类型的信息的请求。接收到了包括关于查询类型的信息的请求的设备4801至4803可确定是否可能提供具有该请求中包括的查询类型的查询成分。设备4801至4803之中的提供具有在请求中包括的查询类型的查询成分的设备可向网关4810或者向查询输入设备4800发送对该请求的响应。
当查询输入设备4800或网关4810选择了两个或更多个设备时,查询输入设备4800可显示所选择的设备的列表。用户可从所显示的设备列表中选择要从其输入查询成分的设备。
图49是图示出根据示范性实施例执行搜索的过程的流程图。
参考图49,当在操作S4510中接收到查询时,根据本示范性实施例的查询输入设备在操作S4520中可确定接收到查询时的搜索模式是否是多模态输入模式。这里,操作S4510表示查询输入设备根据搜索执行命令接收到输入到查询输入窗口的查询。当在操作S4520中确定搜索模式是单模式搜索时,查询输入设备在操作S4530中可基于查询中包括的查询类型执行搜索。
当在操作S4520中确定搜索模式为多模态输入模式时,查询输入设备在操作S4525中可基于多个查询成分生成组合查询。这里,组合查询表示具有多个查询类型的查询成分被组合。根据一个或多个示范性实施例,可按各种方式组合查询成分。例如,可以简单组合查询成分。详细而言,例如,当文本“包袋”和语音“价格”被输入作为查询成分时,查询可由关键字“包袋价格”构成。作为另一示例,当用户利用触摸笔在查询输入窗口上描绘两个轮子并且说出自行车来输入语音信号(即,音频信号)时,查询可由关键字“具有两个轮子的自行车”构成或者包括关键字“具有两个轮子的自行车”。作为另一示例,当用户利用触摸笔在查询输入窗口上描绘苹果并且说出红来输入语音信号(即,音频信号)时,查询可由关键字“红苹果”构成或者包括关键字“红苹果”。作为另一示例,当用户利用相机拍摄包袋并且在查询输入窗口上输入拍摄的包袋的图像时,查询可由关键字“3000韩元包袋”或“3000美元包袋”构成或者包括关键字“3000韩元包袋”或“3000美元包袋”。作为另一示例,组合查询可包括添加到查询成分的关键字或主特征(例如,图像中包括的特征)。另外,作为另一示例,组合查询可包括从查询成分生成的扩展关键字。另外,作为另一示例,组合查询的特征可在于查询成分被基于查询类型的优先级来进行优先级区分。在操作S4525中,查询输入设备可提取在查询中包括的多个查询类型之间的关系,并且基于提取的关系来生成组合查询。在操作S4535中,查询输入设备可基于在操作S4525中生成的组合查询来执行搜索。
这里,操作S4525、S4535和S4530可由外部服务器而不是查询输入设备执行。
图50是图示出根据示范性实施例执行搜索的过程的流程图。
在操作S4610中,根据本示范性实施例的查询输入设备400可通过所显示的查询输入窗口来接收查询。
在操作S4620中,查询输入设备400可将接收到的查询发送到搜索引擎服务器420。这里,当搜索模式是多模态搜索时,发送到搜索引擎服务器420的查询可以是其中组合了具有多个查询类型的查询成分的组合查询。根据一个或多个示范性实施例,可按各种方式组合查询成分。例如,可以简单组合查询成分。详细而言,例如,当文本“包袋”和语音“价格”被输入作为查询成分时,查询可由关键字“包袋价格”构成。作为另一示例,组合查询可包括添加到查询成分的关键字或主特征(例如,图像中包括的特征)。另外,作为另一示例,组合查询可包括从查询成分生成的扩展关键字。另外,作为另一示例,组合查询的特征可在于查询成分被基于查询类型的优先级来进行优先级区分。根据示范性实施例,发送到搜索引擎服务器420的查询可包括指示搜索模式的信息。
在操作S4630中,搜索引擎服务器420可根据搜索模式来执行单搜索或多模态搜索,以便处理接收到的查询。在操作S4640中,搜索引擎服务器420可将在操作S4630中选择的搜索结果发送到查询输入设备400。
图51是图示出根据示范性实施例的查询输入设备4700的结构的框图。
根据示范性实施例的查询输入设备4700可包括显示器4710、控制器4720和输入设备4730(例如,输入单元)。
显示器4710可显示查询输入窗口。显示器4710除了查询输入以外还可显示各种信息。查询输入设备4700依据实现类型可包括两个或更多个显示器4710。显示器4710可包括诸如液晶显示器(liquid crystal display,LCD)、发光二极管(light-emitting diode,LED)显示器、阴极射线管(cathode ray tube,CRT)显示器、等离子显示面板(plasmadisplay panel,PDP)、有机LED(organic LED,OLED)显示器、有源矩阵OLED(active-matrixOLED,AMOLED)显示器、薄膜晶体管(thin-film-transistor,TFT)显示器等等之类的显示设备。另外,显示器4710依据实现类型可包括具有分层结构的触摸传感器和触摸屏。当显示器4710例如触摸屏那样执行显示操作和输入操作时,显示器4710可执行输入设备4730的操作和/或输入设备4730可被实现为显示器4710。另外,输入设备4730可被实现为包括显示器4710。
根据示范性实施例,当搜索模式是多模态搜索模式时,显示器4710可显示查询输入窗口。查询输入窗口表示通过其来接收包括多个查询类型的查询的界面。或者,当搜索模式是单搜索模式时,查询输入设备4700可显示单查询输入窗口。单查询输入窗口表示通过其来接收只包括一个查询类型的查询的查询输入窗口。
输入设备4730可基于用户输入通过由显示器4710显示的查询输入窗口来接收包括与多个查询类型相对应的多个查询成分的查询。输入设备4730可利用键盘、小键盘、虚拟小键盘、跟踪板、书写板等等来接收诸如文本或草图信息之类的查询成分。或者,查询输入设备4700可接收诸如图像、语音信息或视频之类的查询成分以根据用户输入来获得或生成查询。
控制器4720可控制查询输入设备4700的元件。控制器4720可包括中央处理单元(central processing unit,CPU)、存储控制程序的只读存储器(read-only memory,ROM)以及存储从查询输入设备4700的外部输入的信号或数据或者在查询输入设备4700执行的工作中被用作存储器区域的随机访问存储器(random access memory,RAM)。CPU可包括一个或多个处理器,例如单核、双核、三核或者四核。CPU、ROM和RAM可通过内部总线与彼此连接。
控制器4720可为接收到的查询获取至少一个搜索结果。当控制器4720包括搜索引擎时,控制器4720可直接为该查询选择至少一个搜索结果。当控制器4720不包括搜索引擎时,控制器4720可将查询发送到包括搜索引擎的搜索引擎服务器,并且从搜索引擎服务器获取至少一个搜索结果。控制器4720可控制显示器4710显示所获取的至少一个搜索结果。显示器4710可根据控制器4720的控制来显示所获取的至少一个搜索结果。
另外,控制器4720可选择可被选择或用于查询的多个查询类型。显示器4710显示的查询输入窗口可根据所选择的查询类型接收查询输入。另外,与上述示范性实施例中一样,显示器4710显示的查询输入窗口可依据所选择的查询类型而被不同地显示。
另外,根据示范性实施例,显示器4710可显示用于选择搜索模式的搜索模式选择对象。输入设备4730可接收对于搜索模式选择对象的用户输入。这里,当用户输入是将搜索模式切换到多模态输入模式的输入时,控制器4720可将搜索模式切换到多模态输入模式。当搜索模式被切换到多模态输入模式时,显示器4710可将查询输入窗口改变成包括多个输入模式的查询输入窗口。根据示范性实施例,查询输入窗口可包括分别对应于多个查询类型的区域。
另外,显示器4710可显示查询类型列表。根据示范性实施例,当搜索模式是单模式时,显示器4710可显示单查询类型列表,而当搜索模式是多模态输入模式时,显示器4710可显示多模态查询类型列表。控制器4720可从显示器4710显示的查询类型列表中确定在查询中包括的至少一个查询类型。这里,为了确定至少一个查询类型,输入设备4730可接收将目标从查询类型列表拖放到显示或将要显示查询输入窗口的区域的输入。
另外,根据示范性实施例,控制器4720可检测接收到的查询成分的查询类型。显示器4710显示的查询输入窗口可包括显示接收到的查询成分(即,与接收到的查询成分相对应的显示项目)的区域和接收查询成分的区域。显示器4710可基于检测到的查询类型在与接收到的查询成分相对应的区域中显示接收到的查询成分。
另外,显示器4710显示的查询输入窗口可包括用于输入与每个查询类型相对应的查询成分的至少一个查询输入工具。
另外,控制器4720可将搜索结果中包括的文本转换成语音,或者将语音(即,音频)转换成文本。
根据示范性实施例,在用户向查询输入窗口输入第一查询输入之后或者响应于此,控制器4720可确定自动从可接收第一查询成分的第一就绪状态(即,第一状态)切换到可接收第二查询成分的第二就绪状态(即,第二状态)。例如,如果第二查询成分对应于音频或语音信息查询类型,则控制器4720可控制自动将查询输入设备4700切换到第二就绪状态,在该第二就绪状态中麦克风被自动激活或操作来接收第二查询成分。另外,如果第二查询成分对应于图像查询类型,则控制器4720可控制自动将查询输入设备4700切换到第二就绪状态,在该第二就绪状态中相机被自动激活或操作来接收第二查询成分或者在该第二就绪状态中选择图像的界面被显示来接收第二查询成分。
当如上所述自动切换就绪状态时,控制器4720可控制输出自动切换和/或第二就绪状态的指示符。例如,该指示符可包括以下各项中的至少一者:音频指示符或输出(例如,预定通知声音)、视觉指示符或输出(例如,预定图标、预定符号、预定图像等等)、辅助设备输出(例如,查询输入设备4700上的闪烁的LED或预定颜色的LED)、振动输出,等等。
另外,控制器4720可基于确定第一查询成分的输入的完成而确定自动从第一就绪状态切换到第二就绪状态。例如,如果第一查询成分是图像,则控制器4720可响应于由查询输入设备4700的相机捕捉的图像或者响应于对图像的用户选择来确定自动从第一就绪状态切换到第二就绪状态。另外,如果第一查询成分是文本或草图,则控制器4720可响应于从对查询输入窗口的与第一查询成分或第一查询类型相对应的区域的最后一次用户输入起流逝预定时间段而确定自动从第一就绪状态切换到第二就绪状态。
当切换到第二就绪状态时,控制器4720也可控制改变查询输入窗口的显示、查询输入窗口的一个或多个区域的显示或者图形用户界面的显示。在此,显示的改变可基于与第二查询成分相对应的查询类型。根据另一示范性实施例,控制器4720可响应于切换到第二就绪状态而控制显示一用户界面来接收第二查询成分的输入。
要理解,查询输入窗口可以变化,而不限于以上描述的那些。
图52至图57是图示出根据另一示范性实施例执行多模态搜索的方法的示范图。
参考图52,查询输入设备5200可接收、生成或获得查询“自行车”,并且显示包括基于该查询搜索出的百科信息、网页信息和图像的搜索结果5221。这里,用户1可滚动显示器显示的屏幕,以查看显示器当前未显示的搜索结果。
参考图53,屏幕被滚动,从而,显示器先前未显示的多个搜索结果5222可被显示器显示。在此情况下,由于屏幕被滚动,所以查询输入窗口5210可不被显示在屏幕上。
用户1可选择在搜索结果5222中包括的图像5231。例如,参考图54,用户1可从搜索结果5222之中选择自行车图像5231。这里,用户1可利用触摸屏或鼠标来选择图像5231,虽然要理解一个或多个其他示范性实施例不限于此。当图像5231被选择时,查询输入设备5200可在所选择的图像5231附近显示查询类型列表。参考图54,查询输入设备5200可在所选择的图像5231附近显示浮动图标5230。浮动图标5230可对应于至少一个查询类型。
参考图55,用户1可选择显示的浮动图标5230。参考图56,浮动图标5230被选择,从而,查询输入设备5200可显示用于输入与浮动图标5230相对应的查询类型的查询输入区域5231。查询输入设备5200可通过查询输入区域5231接收查询成分。
参考图57,查询输入设备5200可基于所选择的搜索结果和包括通过查询输入区域5231接收的查询成分的查询5210-1来执行搜索。如图57所示,基于自行车图像和文本“制造商”,查询输入设备5200可在结果显示区域5223中显示在图像中包括的自行车制造商主页和关于由该自行车制造商制造的其他产品的信息。也就是说,查询输入设备5200接收从搜索结果显示区域中选择的搜索结果并且利用查询输入区域5231接收每个查询成分,从而,在图56的示范性实施例中,可以描述成查询成分是利用搜索结果显示区域和查询输入区域5231作为查询输入窗口来接收的。
图58是图示出根据另一示范性实施例显示查询类型列表的方法的示范图。
根据本示范性实施例,查询输入设备可显示单模式选择对象5801、多模态输入模式选择对象5802、查询输入窗口5810、搜索按钮5830和单查询类型列表5820-1。如图58所示,单查询类型列表5820-1可包括分别对应于多个查询类型的多个图标(每个图标对应于一个查询类型)。
查询输入设备可利用在单查询类型列表5820-1中包括的图标来确定通过其来接收查询输入窗口5810的查询类型。例如,当文本图标5821-1被选择时,查询输入设备可显示用于向查询输入窗口5810中输入文本的用户界面。或者,当图像图标5821-2被选择时,查询输入设备可显示用于向查询输入窗口5810中输入图像的用户界面。另外,当文档图标5821-3被选择时,查询输入设备可显示用于向查询输入窗口5810中输入文档的用户界面。另外,当草图图标5821-4被选择时,查询输入设备可显示用于向查询输入窗口5810中输入草图信息的用户界面。另外,当相机图标5821-5被选择时,查询输入设备可执行相机应用,并且在查询输入窗口5810中显示利用相机应用获取的图像。另外,当音乐图标5821-6被选择时,查询输入设备可基于利用麦克风获取的语音信息来执行音乐搜索。或者,当记录图标5821-7被选择时,查询输入设备可操作麦克风,并且利用麦克风来获取语音信息。
图59是图示出根据另一示范性实施例显示查询类型列表的方法的示范图。
当多模态输入模式选择对象5802被选择时,查询输入设备可将搜索模式设定到多模态输入模式。根据本示范性实施例,当搜索模式是多模态输入模式时,查询输入设备可显示多模态查询类型列表5820-2。在此情况下,多模态查询类型列表5820-2可包括其中组合了多个图标的组合图标。组合图标可利用该组合图标中包括的图标来指示多模态查询类型。另外,根据示范性实施例,查询输入设备可基于图标的显示来指示查询类型的优先级。例如,图59所示的图像和文本的组合图标5822-1指示图像的优先级高于文本的优先级。另外,文本和语音的组合图标5822-2指示文本的优先级高于语音的优先级。另外,相机、语音和文本的组合图标5822-3指示查询类型的优先级是按相机、语音和文本的顺序。
图60是图示出根据示范性实施例生成多模态查询类型列表的方法的示范图。
根据示范性实施例,查询输入设备可利用分别与多个查询类型相对应的多个图标6010(每个图标对应于一个查询类型)来生成与多个查询类型相对应的多个组合图标6020。例如,当用户从图标6010之中选择文本图标6011和图像图标6012时,查询输入设备可生成其中文本图标6011与图像图标6012相组合的组合图标6021。在此情况下,用户也可设定查询类型的优先级(例如,根据选择图标的顺序或者通过修改组合图标6021)并且组合图标6021可反映所设定的优先级。或者,优先级可以是预设或预定的。
根据示范性实施例,当搜索模式是多模态搜索模式时,查询输入设备可显示包括用户设定的组合图标6020的多模态查询类型列表。
图61至图65是图示出根据另一示范性实施例执行多模态搜索的方法的示范图。
根据本示范性实施例,查询输入设备6100可显示指示搜索模式为多模态输入模式的指示符6102。另外,查询输入设备6100可显示查询输入窗口6110和搜索按钮6130。
此外,根据本示范性实施例,查询输入设备6100可在查询输入窗口6110被选择时显示用于输入查询成分的查询输入工具的集合6120。或者,根据另一示范性实施例,查询输入设备6100可在查询输入设备6100中包括的菜单按钮被选择时显示用于输入查询成分的查询输入工具的集合6120。这些查询输入工具可被包括在查询输入窗口6110中。
如图61所示,当用户1从查询输入工具的集合6120中选择文件打开图标6121时,查询输入设备6100可显示用于选择文件的用户界面。图62是图示出用于选择文件的用户界面的示范图。
如图62所示,当用户1选择文件6122时,查询输入设备6100可接收所选择的文件6122作为查询成分。另外,查询输入设备6100可检测与所选择的文件6122相对应的查询类型。例如,如图62所示,当所选择的文件6122的扩展名是jpg时,查询输入设备6100可确定与所选择的文件6122相对应的查询类型为图像。
查询输入设备6100可根据检测到的查询类型来显示接收到的查询成分(即,与接收到的查询成分相对应的显示项目)。例如,参考图63,查询输入设备6100可在显示查询成分的区域6103中显示接收到的图像6111。在图63中,图示了显示查询成分的区域6103被与包括接收查询成分的区域的查询输入窗口6110相组合,虽然要理解显示查询成分的区域6103的形式在一个或多个其他示范性实施例中可变化。例如,区域6103可被包括在查询输入窗口6110中,或者可被布置在单独的空间中。当通过查询输入窗口6110顺序或同时接收到多个查询成分时,接收到的多个查询成分可被累积或一起显示在区域6103中,或者被显示在分开的区域中。
另外,查询输入设备6100可通过在查询输入窗口6110中包括的接收查询成分的区域接收额外的查询成分。例如,参考图64,用户1可向查询输入窗口6110输入文本“奥巴马”。
当用户1选择搜索按钮6130时,查询输入设备6100可基于累积的(一个或多个)查询成分和检测到的(一个或多个)查询类型来执行搜索。例如,参考图64和图65,查询输入设备6100可基于演讲场景的图像6102和文本6113“奥巴马”来显示奥巴马发表演讲的视频6140作为搜索结果。
图66是图示出根据示范性实施例用于基于具有多个查询类型的查询执行多模态搜索的框架的框图。详细而言,图66是图示出用于查询适配性多模态搜索的框架的框图。
查询界面6600可接收组合了多个查询成分的组合查询6610。多个查询成分可包括关键字6611、图像6612、视频6613、语音6614、草图信息6615、情境信息6616等等中的至少一者。这里,情境信息6616表示使查询更清楚的信息,比如用户的当前状态或个人历史和偏好信息。例如,情境信息6616可包括查询类型的优先级。
另外,查询界面6600可包括用于接收组合查询6610的单元或设备。例如,查询界面6600可包括用于接收关键字6611的键盘、用于获取图像6612或视频6613的相机、用于获取语音6614的麦克风、用于获取草图信息6615的触摸屏、用于获取情境信息6616的传感器等等中的至少一者。
(一个或多个)搜索方法6620表示用于将查询与数据库相匹配以便依据文档的适当性来选择文档的(一个或多个)算法。例如,在视频搜索系统中,在分割搜索方法正处理查询文本关键字并将查询文本关键字与语音识别信息相匹配的同时,视频的缩略图像可由单搜索方法来与视觉内容相匹配。组合查询6610可被多个搜索方法6620所处理,从而获取搜索结果。
匹配查询的数据库可包括(一个或多个)文档集合6630。数据库包括要搜索的多条信息。在数据库中包括的文档可具有不同模态。每个文档表示数据库中包括的信息的一个单位。例如,每个文档可包括Web上的一个页面、视频语料库中的一个屏幕或者照片集合的一个图像。
查询适配模块6640可调整处理查询的(一个或多个)搜索方法6620的处理顺序。例如,当想要在新闻视频中搜索名人的照片时,可向文本搜索方法赋予权重,而当想要搜索体育场景时,可向基于示例的图像搜索方法赋予权重。
搜索方法合并模块6650可合并由多个搜索方法6620获得的搜索结果。合并的搜索结果可通过搜索结果输出模块6660被输出。
搜索方法6620、数据库、查询适配模块6640、搜索方法合并模块6650和搜索结果输出模块6660中的至少一者可被应用到外部设备。外部设备可以是云计算机或服务器。
外部设备(例如,云计算机)可存储搜索方法6620和数据库,并且可包括查询适配模块6640、搜索方法合并模块6650和搜索结果输出模块6660。外部设备可利用从查询输入设备接收到的查询执行搜索并将搜索结果输出到查询输入设备。
图67是示意性图示出根据一个或多个示范性实施例的系统和/或处理器的结构图。参考图67,当搜索模式是多模态搜索模式时,查询输入设备可基于接收到的查询成分的查询类型来执行搜索。例如,当查询输入设备接收到文本查询类型的第一查询成分6705和图像查询类型的第二查询成分6707时,查询输入设备可基于与第一查询成分6705(即,文本)相对应的关键字和第二查询成分6706的图像量子(即,图像)执行搜索。为了处理第二查询成分6707,查询输入设备可利用第二查询成分理解组件6712来识别第二查询成分6707的特征。第二查询成分理解组件6712可被称为第二查询成分处理组件。或者,当第二查询成分6707的查询类型是图像时,第二查询成分理解组件6712可被称为图像处理组件。由第二查询成分理解组件6712从第二查询成分6707中提取的特征可被第二查询成分特征组件6722分配描述符关键字。例如,当第二查询成分6707的查询类型是图像查询类型时,第二查询成分理解组件6712可识别第二查询成分6707(即,图像)的特征。在此情况下,第二查询成分6707的特征可包括图像文本特征和图像视觉特征中的至少一者。另外,第二查询成分特征组件6722可向所识别的第二查询成分6707的图像文本特征和图像视觉特征中的至少一者分配描述关键字。将参考图68至图72详细描述第二查询成分6707的查询类型是图像查询类型的示例。
元数据分析组件6714可分析与第二查询成分6707相关联的元数据。当第二查询成分6707包括文件时,元数据可被操作系统(operating system,OS)内置到文件中,比如标题或者文件中存储的注释,或者可包括与文件一起存储的信息。元数据可包括URL路径中的文本,其被输入以用于识别要用于搜索的查询成分,或者可包括相关文本,例如位于网页或基于文本的文档中的文本或者对于内置在其中的信息(例如图像之类的)位于相应信息附近的文本。第二查询成分特征组件6722可基于元数据分析组件6714的输出识别关键字特征。
第二查询成分特征组件6722可识别第一查询成分6705和任意额外特征,然后所得到的查询可以可选地被组件6732改变或扩展。查询改变或扩展可由元数据分析组件6714和第二查询成分特征组件6722基于从元数据中提取的特征来执行。或者,查询改变或扩展可基于利用UI交互组件6762接收的反馈来执行。另外,除了用户接收到的额外查询输入以外,反馈还可包括基于对当前或先前查询的响应结果的查询建议442。另外,可选地扩展或改变的查询可用于生成(6752)响应结果。在图67中,结果生成操作(6752)可利用数据库6675中的一个或多个查询响应文档来进行识别,该数据库6775包括多条数据(例如,文档)的特征和量子。数据库6775可包括逆索引或另一种任意类型的存储格式来用于基于查询识别响应结果。
根据一个或多个示范性实施例,结果生成操作6762可生成一个或多个类型结果。取决于情况,最有希望的结果可与一高优先级结果响应或者少数几个高优先级结果响应一起被识别。有希望的结果可被提供作为响应6744。作为替换,可以使用进行了优先级区分的响应结果的列表。该列表可通过对多个组合结果6746进行优先级区分来提供。与用户的交互(包括显示结果的操作和接收查询成分的操作)可由UI交互组件6762执行。
图68至图72是图示出根据一个或多个示范性实施例提取具有图像查询类型的查询成分的图像特征的过程的示范图。
在图68中,图示了利用用于识别多个兴趣点(points of interest,POI)6802的算子算法来处理图像(即,具有图像查询类型的查询成分)6800的方法。该算子算法可包括用于识别图像6800中的POI 6802的任意可用算法。在一个或多个示范性实施例中,该算子算法可不同于高斯算法或拉普拉斯算法。在一个或多个示范性实施例中,该算子算法可二维地分析图像6800。可选地,当图像6800是彩色图像时,图像6800可被改变到灰度级。
除了如图68所示的图像6800的任意点以外,POI 6802还可包括如图69所示的图像6800中的区段6902、区域、像素组和特征。以下,POI 6802和多个区段6902可被称为POI6802,但POI 6802可包括所有的POI 6802和区段6902。在一个或多个示范性实施例中,POI6802可包括位于图像6800的稳定区域中的图像6800的特殊的或可识别的特征。例如,POI6802可位于图像6800的具有尖锐特征的区域中,这些尖锐特征表示6802a和6902a中图示的特征之间的高对比度。另一方面,POI可不位于由6804指代的特定颜色或灰度级的区段中(即,没有特殊的特征或对比度的区域)。
算子算法可例如在图像6800中识别任意数目的POI 6802,例如数千个POI。POI6802可以是图像6800中的点6802和区段6902的组合,并且POI的数目可依据图像6800的大小而被改变或变化。第二查询成分处理组件6712可以为每个POI 6802计算度量并且根据计算出的度量来对POI 6802进行优先级区分。度量可包括图像6800在POI 6802中的信号强度或信号噪声比(signal-to-noise ratio,SNR)。第二查询成分处理组件6712可基于优先级来选择POI 6802的子集以用于额外的处理。根据一个或多个示范性实施例,具有最高SNR的数百个POI 6802可被选择。选择的POI 6802的数目可被改变或变化。根据一个或多个示范性实施例,可不选择子集,并且所有的POI可以都是额外处理的目标。
如图70所示,可识别与所选择的POI 6802相对应的图块7002的集合7000。每个图块7002可对应于所选择的单个POI 6802。图块7002可包括图像6800的包括POI 6802的区域。可对于每个所选择的POI 6802基于来自算子算法的输出而确定要从图像6800获取的图块7002的大小。图块7002可具有不同大小。另外,在各个图块7002中包括的图像6800的区域可彼此重叠。图块7002的形状可以是任意形状,包括方形形状、矩形形状、三角形状、圆形形状、椭圆形状,等等。每个图块7002的形状可以是方形形状,或者在图块与图块之间可变化。
如图70所示,图块7002可被正规化。根据一个或多个示范性实施例,图块7002可被正规化到具有相同大小。图块7002可通过增大或减小其大小和分辨率中的至少一者来被正规化。然而,本示范性实施例不限于此。例如,可通过一个或多个其他操作来正规化图块7002,例如应用对比度增大操作、应用斑点去除操作、应用锐化操作以及应用灰度级。
根据一个或多个示范性实施例,对于每个正规化的图块可确定描述符。描述符可以是可被添加作为用于图像搜索的特征的图块的描述。可通过计算每个图块7002中的像素的统计量来确定描述符。根据一个或多个示范性实施例,可基于每个图块7002中的像素的灰度级斜率的统计量来确定描述符。对于每个图块7002可将描述符从视觉上表达为直方图,就像图71所示的多个描述符7102那样(图70所示的图块7002可对应于在图71中类似排列的描述符7102)。然而,本示范性实施例不限于此。例如,描述符可被描述为表示图块中的像素的像素灰度级统计量的多维向量。T2S2 36维向量可以是表示像素灰度级统计量的向量的示例。
如图72所示,量化表7200可用于将描述符7202与每个描述符7102相关。量化表7200可包括用于将描述符7102映射到描述符关键字7202的任意表格、索引、图表或其他数据结构。量化表7200具有本领域普通技术人员公知的各种形式。根据一个或多个示范性实施例,可通过处理数个图像以识别各个图像的描述符7102来生成量化表7200。随后,所识别的描述符7102可被统计分析以识别相似描述符7102或具有统计上相似的值的描述符7102的聚类或群组。例如,T2S2向量中的变量的值是相似的。每个聚类的代表性描述符7204可被选择并且除了在量化表7200中的位置以外可被分配相应的描述符关键字7202。多个描述符关键字7202可包括用于识别与之相对应的代表性描述符7204的任意期望指示符。例如,描述符关键字7202可包括如图72所示的整数值、字母字符、数值、符号、文本或者其组合。根据一个或多个示范性实施例,描述符关键字7202可包括用于识别与基于非文本的搜索模式相关的描述符关键字的字符的序列。例如,所有描述符关键字是关键字的前四个字符并且可包括一系列三个整数及其后的下划线字符。另外,这种初始序列可用于识别与图像相关的描述符关键字。
可在量化表7200中识别与每个描述符7102最近似匹配的代表性描述符。例如,图71所示的描述符7102a可最近似对应于图72所示的量化表7200的代表性描述符7202a。例如,图71所示的描述符7102a可最近似对应于图72所示的量化表7200的代表性描述符7204a。因此,各个描述符7102的描述符关键字7202可与图像6800相关。例如,描述符7102a可对应于描述符识别符7202a“1”。与图像6800相关联的描述符关键字7202可不同,并且描述符关键字7202中的一个或多个可多次与图像6800相关。例如,图像6800可包括描述符关键字“1、2、3、4”或“1、2、2、3”。根据一个或多个示范性实施例,为了考虑诸如图像中的变化之类的特征,可通过识别与描述符7102最近似匹配的两个或更多个代表性描述符7204并且对于这两个或更多个代表性描述符7204中的每一个识别描述符关键字7202来将描述符7102映射到两个或更多个描述符识别符7202。基于此,具有一组所识别的POI 6802的图像6800的内容可由一组描述符关键字7202来表达。
根据一个或多个示范性实施例,另外的基于图像的搜索方法可被集成到搜索方案中。例如,脸部识别方法可基于另一方法提供图像搜索。如上所述,除了如上所述识别描述符关键字以外或者取代如上所述识别描述符关键字,可以利用脸部识别方法来确定图像中的人的身份。图像中的人的身份可用于补充搜索查询。或者,当各种人的元数据被包括在库中时,可利用存储的元数据来补充查询。
以上描述可提供对于将图像查询类型的搜索方案适配性地修改为诸如文本之类的另一搜索方案的描述。类似的适配性修改可对不同查询类型的搜索方法(例如,音频查询类型)执行。根据一个或多个示范性实施例,可使用具有任意类型的基于音频的搜索方法。使用具有音频查询类型的查询成分的搜索可使用用于识别具有相似特性的音频文件的一个或多个类型的特征。如上所述,音频特征可与描述符关键字相关。描述符关键字可具有指示与音频搜索相关联的关键字的格式,就像使关键字的最后四个字符对应于连字号之后的四个数字的情况那样。
在上述示范性实施例中,描述了查询输入窗口显示与查询成分(即,查询输入)相对应的显示项目。这里,要理解,显示项目可以是查询成分本身或者查询成分的表示(例如,波形、缩略图像、预览图像等等)。另外,根据一个或多个示范性实施例,与第一查询类型相对应的第一显示项目和与第二查询类型相对应的第二显示项目可被显示成使得第一查询类型和第二查询类型是可相互区分的。
一个或多个示范性实施例可以按包括由计算机执行的计算机可执行指令——例如程序模块——的存储介质的形式实现。计算机可读介质可以是可被计算机访问的任何可用介质并且包括诸如RAM之类的易失性介质,诸如ROM之类的非易失性介质以及可移除和不可移除介质。此外,计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括实现为任何方法或技术的易失性介质、非易失性介质以及可移除和不可移除的介质,用于存储信息,例如计算机可读指令、数据结构、程序模块或其他数据。通信的介质可以是计算机可读指令,以及调制的数据信号中的其他数据,例如数据结构,或者程序模块,或者其他传输机制,并且包括任何信息输送介质。计算机存储介质的示例包括ROM、RAM、闪存、CD、DVD、磁盘或磁带。还要理解,上述装置和设备的上述组件和元件中的一个或多个可包括硬件、电路、一个或多个处理器,等等。
应当理解,本文描述的示范性实施例应当仅在描述意义上来加以考虑,而不是为了限制的。对每个示范性实施例内的特征或方面的描述通常应当被认为可用于其他实施例中的其他类似特征或方面。
虽然已参考附图描述了一个或多个示范性实施例,但本领域普通技术人员将会理解,在不脱离由所附权利要求限定的本发明构思的精神和范围的情况下,可对其进行各种形式和细节上的各种改变。

Claims (13)

1.一种方法,包括:
从用户接收指示搜索请求的查询成分;
通过图像捕捉设备捕捉包括多个对象的图像;
在显示器上呈现图像;
在所呈现的图像上接收用户输入以选择所呈现的图像的部分区域,其中,所述部分区域对应于所述多个对象中的至少一个;
基于所呈现图像的所选择的部分区域和所接收到的查询成分向搜索服务器发送查询;
从搜索服务器接收基于发送的查询的搜索结果;以及
在显示器上呈现接收到的搜索结果,该搜索结果提供与所述多个对象中的至少一个相关联的信息。
2.根据权利要求1所述的方法,其中,所述呈现的搜索结果包括多个图像。
3.根据权利要求1所述的方法,其中,所述呈现的搜索结果包括与所选择的部分区域中包括的产品相对应的搜索结果产品的图像。
4.根据权利要求3所述的方法,其中,所述呈现的搜索结果还包括所述搜索结果产品的价格。
5.根据权利要求1所述的方法,其中,在显示器上呈现所接收的搜索结果还包括:
在结果显示区域中显示接收到的搜索结果,其中,所述接收到的搜索结果包括图像文档的缩略图,文档中包括的文本中的一些,搜索到的文档的链接、或图标中的至少一个。
6.根据权利要求1所述的方法,其中,所述发送的查询包括与所选择的部分区域相对应的图像文件。
7.一种电子设备,包括:
显示器;
存储指令的存储器;以及
至少一个硬件处理器,被配置为执行所述指令以至少进行如下操作:
从用户接收指示搜索请求的查询成分;
通过图像捕捉设备捕捉包括多个对象的图像;
在显示器上显示图像;
在所呈现的图像上接收用户输入,以选择所呈现的图像的部分区域,其中该部分区域对应于所述多个对象中的至少一个;
基于所呈现图像的所选择的部分区域和所接收的查询成分向搜索服务器发送查询;
基于发送的查询,从搜索服务器接收搜索结果;以及
在显示器上呈现接收到的搜索结果,该搜索结果提供与所述多个对象中的至少一个相关联的信息。
8.根据权利要求7所述的电子设备,其中,所述呈现的搜索结果包括多个图像。
9.根据权利要求7所述的电子设备,其中,所述呈现的搜索结果包括与包括在所选择的部分区域中的产品相对应的搜索结果产品的图像。
10.根据权利要求7所述的电子设备,其中,所述呈现的搜索结果还包括所述搜索结果产品的价格。
11.根据权利要求7所述的电子设备,其中,所述至少一个硬件处理器被配置为进一步执行指令以至少进行如下操作:
在结果显示区域中显示接收到的搜索结果,其中所述接收到的搜索结果包括图像文档的缩略图、文档中包括的文本中的一些、搜索到的文档的链接、或图标中的至少一个。
12.根据权利要求7所述的电子设备,其中,所述至少一个硬件处理器被配置为进一步执行指令以至少进行如下操作:
在显示器上呈现多个存储的图像;以及
接收在所呈现的多个存储图像中的一个图像的用户选择,
其中所述呈现的图像对应于通过用户选择而被选择的一个图像。
13.一种非暂时性计算机可读记录介质,其上记录有由具有显示器的电子设备的至少一个硬件处理器可执行的指令,以使所述电子设备执行包括以下的操作:
从用户接收指示搜索请求的查询成分;
通过图像捕捉设备捕捉包括多个对象的图像;
在显示器上呈现图像;
在所呈现的图像上接收用户输入以选择所呈现的图像的部分区域,其中,所述部分区域对应于所述多个对象中的至少一个;
基于所呈现图像的所选择的部分区域向搜索服务器发送查询;
从搜索服务器接收基于发送的查询和接收的查询成分的搜索结果;以及
在显示器上呈现接收到的搜索结果,该搜索结果提供与所述多个对象中的至少一个相关联的信息。
CN201911256396.5A 2014-05-23 2015-05-25 搜索方法和设备 Pending CN111046197A (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
KR10-2014-0062568 2014-05-23
KR20140062568 2014-05-23
KR10-2014-0167818 2014-11-27
KR1020140167818A KR20150135042A (ko) 2014-05-23 2014-11-27 검색을 수행하는 방법 및 장치
US14/588,275 US9990433B2 (en) 2014-05-23 2014-12-31 Method for searching and device thereof
US14/588,275 2014-12-31
KR10-2015-0025918 2015-02-24
KR1020150025918A KR102408256B1 (ko) 2014-05-23 2015-02-24 검색을 수행하는 방법 및 장치
CN201510272556.0A CN105095341A (zh) 2014-05-23 2015-05-25 搜索方法和设备

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201510272556.0A Division CN105095341A (zh) 2014-05-23 2015-05-25 搜索方法和设备

Publications (1)

Publication Number Publication Date
CN111046197A true CN111046197A (zh) 2020-04-21

Family

ID=54575778

Family Applications (4)

Application Number Title Priority Date Filing Date
CN202110149087.9A Pending CN112818141A (zh) 2014-05-23 2015-05-25 搜索方法和设备
CN201911256396.5A Pending CN111046197A (zh) 2014-05-23 2015-05-25 搜索方法和设备
CN201911256395.0A Pending CN110825928A (zh) 2014-05-23 2015-05-25 搜索方法和设备
CN201510272556.0A Pending CN105095341A (zh) 2014-05-23 2015-05-25 搜索方法和设备

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202110149087.9A Pending CN112818141A (zh) 2014-05-23 2015-05-25 搜索方法和设备

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN201911256395.0A Pending CN110825928A (zh) 2014-05-23 2015-05-25 搜索方法和设备
CN201510272556.0A Pending CN105095341A (zh) 2014-05-23 2015-05-25 搜索方法和设备

Country Status (1)

Country Link
CN (4) CN112818141A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949814A (zh) * 2020-06-24 2020-11-17 百度在线网络技术(北京)有限公司 搜索方法、装置、电子设备和存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11314826B2 (en) 2014-05-23 2022-04-26 Samsung Electronics Co., Ltd. Method for searching and device thereof
CN107832396A (zh) * 2017-10-30 2018-03-23 江西博瑞彤芸科技有限公司 信息检索方法
CN107888468B (zh) * 2017-11-22 2021-01-01 北京小米移动软件有限公司 信息获取系统、方法及装置
CN109407921B (zh) * 2018-09-27 2021-05-14 维沃移动通信有限公司 一种应用程序的处理方法及终端设备
CN110109941A (zh) * 2019-03-13 2019-08-09 中国平安人寿保险股份有限公司 数据查询方法、装置、计算机装置及存储介质
KR20210051319A (ko) * 2019-10-30 2021-05-10 엘지전자 주식회사 인공 지능 장치

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6785670B1 (en) * 2000-03-16 2004-08-31 International Business Machines Corporation Automatically initiating an internet-based search from within a displayed document
US20080082426A1 (en) * 2005-05-09 2008-04-03 Gokturk Salih B System and method for enabling image recognition and searching of remote content on display
US20090030800A1 (en) * 2006-02-01 2009-01-29 Dan Grois Method and System for Searching a Data Network by Using a Virtual Assistant and for Advertising by using the same
US20090083237A1 (en) * 2007-09-20 2009-03-26 Nokia Corporation Method, Apparatus and Computer Program Product for Providing a Visual Search Interface
CN101794195A (zh) * 2010-03-16 2010-08-04 北京商纳科技有限公司 一种考试分数录入方法及系统
CN102402593A (zh) * 2010-11-05 2012-04-04 微软公司 对于搜索查询输入的多模态方式
US20120109858A1 (en) * 2010-10-28 2012-05-03 Google Inc. Search with Joint Image-Audio Queries
US8527489B1 (en) * 2012-03-07 2013-09-03 Google Inc. Suggesting a search engine to search for resources
US20140075393A1 (en) * 2012-09-11 2014-03-13 Microsoft Corporation Gesture-Based Search Queries

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7899818B2 (en) * 2006-03-29 2011-03-01 A9.Com, Inc. Method and system for providing focused search results by excluding categories
JP5042787B2 (ja) * 2007-11-20 2012-10-03 富士フイルム株式会社 商品検索システム、商品検索方法及び商品検索プログラム
CN100578508C (zh) * 2008-01-14 2010-01-06 上海博康智能信息技术有限公司 交互式图像搜索系统和方法
US8463053B1 (en) * 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
CN103489008B (zh) * 2012-06-14 2017-07-28 中兴通讯股份有限公司 图像产品信息提取方法和装置
CN103106240A (zh) * 2012-12-12 2013-05-15 江苏乐买到网络科技有限公司 一种网络购物中搜索商品的方法
CN103425757A (zh) * 2013-07-31 2013-12-04 复旦大学 融合多模态信息的跨媒体人物新闻检索方法与系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6785670B1 (en) * 2000-03-16 2004-08-31 International Business Machines Corporation Automatically initiating an internet-based search from within a displayed document
US20080082426A1 (en) * 2005-05-09 2008-04-03 Gokturk Salih B System and method for enabling image recognition and searching of remote content on display
US20090030800A1 (en) * 2006-02-01 2009-01-29 Dan Grois Method and System for Searching a Data Network by Using a Virtual Assistant and for Advertising by using the same
US20090083237A1 (en) * 2007-09-20 2009-03-26 Nokia Corporation Method, Apparatus and Computer Program Product for Providing a Visual Search Interface
CN101794195A (zh) * 2010-03-16 2010-08-04 北京商纳科技有限公司 一种考试分数录入方法及系统
US20120109858A1 (en) * 2010-10-28 2012-05-03 Google Inc. Search with Joint Image-Audio Queries
CN102402593A (zh) * 2010-11-05 2012-04-04 微软公司 对于搜索查询输入的多模态方式
US20120117051A1 (en) * 2010-11-05 2012-05-10 Microsoft Corporation Multi-modal approach to search query input
US8527489B1 (en) * 2012-03-07 2013-09-03 Google Inc. Suggesting a search engine to search for resources
US20140075393A1 (en) * 2012-09-11 2014-03-13 Microsoft Corporation Gesture-Based Search Queries

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949814A (zh) * 2020-06-24 2020-11-17 百度在线网络技术(北京)有限公司 搜索方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN105095341A (zh) 2015-11-25
CN112818141A (zh) 2021-05-18
CN110825928A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
US11157577B2 (en) Method for searching and device thereof
US20150339348A1 (en) Search method and device
JP6328761B2 (ja) 画像ベース検索
CN112818141A (zh) 搜索方法和设备
CN105320428B (zh) 用于提供图像的方法和设备
US9811245B2 (en) Systems and methods for displaying an image capturing mode and a content viewing mode
US11734370B2 (en) Method for searching and device thereof
CN105451846B (zh) 用于对内容进行分类的方法和装置
US20090247219A1 (en) Method of generating a function output from a photographed image and related mobile computing device
US9652534B1 (en) Video-based search engine
TWI748266B (zh) 搜索方法、電子裝置及非暫時性電腦可讀記錄媒體
US10650814B2 (en) Interactive question-answering apparatus and method thereof
EP3175375A1 (en) Image based search to identify objects in documents
CN112487242A (zh) 用于识别视频的方法、装置、电子设备及可读存储介质
TWI695275B (zh) 搜索方法、電子裝置及電腦可讀記錄媒體
CN113869063A (zh) 数据推荐方法、装置、电子设备及存储介质
US20150138077A1 (en) Display system and display controll device
KR102122918B1 (ko) 대화형 질의응답 장치 및 그 방법
KR20150097250A (ko) 태그 정보를 이용한 스케치 검색 시스템, 사용자 장치, 서비스 제공 장치, 그 서비스 방법 및 컴퓨터 프로그램이 기록된 기록매체
US10437902B1 (en) Extracting product references from unstructured text
CN115314737A (zh) 一种内容显示方法、显示设备及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination