CN110134850B - 一种搜索方法及装置 - Google Patents
一种搜索方法及装置 Download PDFInfo
- Publication number
- CN110134850B CN110134850B CN201810135624.2A CN201810135624A CN110134850B CN 110134850 B CN110134850 B CN 110134850B CN 201810135624 A CN201810135624 A CN 201810135624A CN 110134850 B CN110134850 B CN 110134850B
- Authority
- CN
- China
- Prior art keywords
- target
- text
- webpage
- search
- target picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000004458 analytical method Methods 0.000 claims abstract description 31
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000003860 storage Methods 0.000 claims description 17
- 241000722921 Tulipa gesneriana Species 0.000 description 48
- 238000012545 processing Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 244000046052 Phaseolus vulgaris Species 0.000 description 2
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 2
- 240000005924 Stenocarpus sinuatus Species 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 238000009395 breeding Methods 0.000 description 2
- 230000001488 breeding effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000009628 steelmaking Methods 0.000 description 2
- 241000220317 Rosa Species 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 1
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000005822 corn Nutrition 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种搜索方法及装置,该方法包括:在搜索与一个图片相关的搜索结果时,获取该图片作为目标图片,在网页中查找该目标图片的相似图片,即在网页中查找与该目标图片相似度大于预设相似度阈值的图片,将包括该目标图片的相似图片的网页作为与该目标图片相关的目标网页,获取用户输入的与该目标图片对应的文本内容,对该文本内容进行语义分析来确定用户的搜索意图,根据获得的搜索意图,从与目标图片相关的目标网页中查找符合搜索意图的搜索结果。本发明的方案,能够获取与目标图片和文本内容均相关的搜索结果,该搜索结果既能满足用户的需求,又与目标图片相关,提高用户的搜索体验。
Description
技术领域
本发明涉及互联网技术领域,特别是涉及一种搜索方法及装置。
背景技术
现阶段常用的搜索方法,是在搜索框中输入文本内容,查找与该文本内容相关的搜索结果,并将与该文本内容相关度高的搜索结果输出。在实际应用场景中,不仅存在需要查找与文本内容相关的搜索结果的场景,还存在需要查找与图片相关的搜索结果的场景。
查找与图片相关的搜索结果时,输入描述该图片中目标对象的文本内容,查找与该文本内容相关的搜索结果。但是,该文本内容很难全面并且精确的体现该图片中的内容,所得到的搜索结果与该图片相关度低。
发明内容
本发明解决的技术问题在于提供一种搜索方法及装置,从而能够获得与目标图片以及文本内容都相关的搜索结果,该搜索结果不仅与文本内容相关,符合用户的搜索意图;同时,该搜索结果还与目标图片的内容相关,能精确的体现目标图片中的内容。
为此,本发明解决技术问题的技术方案是:
第一方面,为了解决上述问题,本发明实施例提供了一种搜索方法,所述方法包括:
获取目标图片,查找与所述目标图片相关的目标网页;所述目标网页包括所述目标图片的相似图片,所述目标图片的相似图片是与所述目标图片相似度大于预设相似度阈值的图片;
获取所述目标图片对应的文本内容,对所述文本内容进行语义分析确定搜索意图;所述文本内容是对基于所述目标图片的搜索意图的文本描述;
从所述目标网页中查找符合所述搜索意图的搜索结果。
可选的,所述从所述目标网页中查找符合所述搜索意图的搜索结果包括:
从所述目标网页中,获得与所述目标图片和所述文本内容都相关的网页文本;
从所述网页文本中查找符合所述搜索意图的搜索结果。
可选的,所述从所述目标网页中,获得与所述目标图片和所述文本内容都相关的网页文本包括:
从所述目标网页中,获得与所述目标图片位置相关的待选网页文本;所述位置相关,指的是在所述目标网页中,所述待选网页文本的位置,与所述目标图片的相似图片的位置,在预设位置范围内;
从所述待选网页文本中,获得与所述文本内容语义相关的网页文本。
可选的,所述从所述网页文本中查找符合所述搜索意图的搜索结果包括:
获取所述网页文本中命中预设的实体词词典的实体词集合;
从所述实体词集合中查找符合所述搜索意图的目标实体词作为所述搜索结果。
可选的,所述从所述实体词集合中查找符合所述搜索意图的目标实体词作为所述搜索结果包括:
根据所述实体词集合中各个实体词与所述文本内容中的关键词的语义相似度,获取符合所述搜索意图的目标实体词作为搜索结果。
可选的,所述从所述实体词集合中查找符合所述搜索意图的目标实体词作为所述搜索结果包括:
根据第一参考条件和第二参考条件,从所述实体词集合中查找符合所述搜索意图的目标实体词作为所述搜索结果;
其中,所述第一参考条件包括所述实体词集合中各个实体词与所述文本内容中的关键词的语义相似度;
所述第二参考条件包括第一子参考条件、第二子参考条件、以及第三子参考条件中的任意一种或多种;所述第一子参考条件包括所述实体词集合中各个实体词的相邻文本与所述文本内容的相似度;所述第二子参考条件包括所述实体词集合中各个实体词对应的预设的百科词条与所述文本内容的相似度;所述第三子参考条件包括所述实体词集合中各个实体词在所述网页文本中出现的词频。
可选的,所述文本内容中的关键词通过以下方式获取:
对所述文本内容进行分词;
采用依存句法分析算法确定分词后所获得的各个词语之间的依存关系;
根据各个词语之间的依存关系,确定能够表征搜索意图的关键词,作为所述文本内容中的关键词。
第二方面,为了解决上述问题,本发明实施例提供了一种搜索装置,所述装置包括:
目标网页查找单元,用于获取目标图片,查找与所述目标图片相关的目标网页;所述目标网页包括所述目标图片的相似图片,所述目标图片的相似图片是与所述目标图片相似度大于预设相似度阈值的图片;
搜索意图分析单元,用于获取所述目标图片对应的文本内容,对所述文本内容进行语义分析确定搜索意图;所述文本内容是对基于所述目标图片的搜索意图的文本描述;
搜索结果查找单元,用于从所述目标网页中查找符合所述搜索意图的搜索结果。
可选的,所述搜索结果查找单元包括:
网页文本获取子单元,用于从所述目标网页中,获得与所述目标图片和所述文本内容都相关的网页文本;
搜索结果查找子单元,用于从所述网页文本中查找符合所述搜索意图的搜索结果。
可选的,所述网页文本获取子单元包括:
待选网页文本获取子单元,用于从所述目标网页中,获得与所述目标图片位置相关的待选网页文本;所述位置相关,指的是在所述目标网页中,所述待选网页文本的位置,与所述目标图片的相似图片的位置,在预设位置范围内;
相关网页文本获取子单元,用于从所述待选网页文本中,获得与所述文本内容语义相关的网页文本。
可选的,所述搜索结果查找子单元包括:
实体词集合获取子单元,用于获取所述网页文本中命中预设的实体词词典的实体词集合;
实体词搜索结果获取子单元,用于从所述实体词集合中查找符合所述搜索意图的目标实体词作为所述搜索结果。
可选的,所述实体词搜索结果获取子单元还用于:
根据所述实体词集合中各个实体词与所述文本内容中的关键词的语义相似度,获取符合所述搜索意图的目标实体词作为搜索结果。
可选的,所述实体词搜索结果获取子单元还用于:
根据第一参考条件和第二参考条件,从所述实体词集合中查找符合所述搜索意图的目标实体词作为所述搜索结果;
其中,所述第一参考条件包括所述实体词集合中各个实体词与所述文本内容中的关键词的语义相似度;
所述第二参考条件包括第一子参考条件、第二子参考条件、以及第三子参考条件中的任意一种或多种;所述第一子参考条件包括所述实体词集合中各个实体词的相邻文本与所述文本内容的相似度;所述第二子参考条件包括所述实体词集合中各个实体词对应的预设的百科词条与所述文本内容的相似度;所述第三子参考条件包括所述实体词集合中各个实体词在所述网页文本中出现的词频。
可选的,所述装置还包括:
分词单元,用于对所述文本内容进行分词;
依存关系获取单元,用于采用依存句法分析算法确定分词后所获得的各个词语之间的依存关系;
关键词获取单元,用于根据各个词语之间的依存关系,确定能够表征搜索意图的关键词,作为所述文本内容中的关键词。
第三方面,本发明实施例提供了一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取目标图片,查找与所述目标图片相关的目标网页;所述目标网页包括所述目标图片的相似图片,所述目标图片的相似图片是与所述目标图片相似度大于预设相似度阈值的图片;
获取所述目标图片对应的文本内容,对所述文本内容进行语义分析确定搜索意图;所述文本内容是对基于所述目标图片的搜索意图的文本描述;
从所述目标网页中查找符合所述搜索意图的搜索结果。
第四方面,本发明实施例提供了一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行一种搜索方法,所述方法包括:
获取目标图片,查找与所述目标图片相关的目标网页;所述目标网页包括所述目标图片的相似图片,所述目标图片的相似图片是与所述目标图片相似度大于预设相似度阈值的图片;
获取所述目标图片对应的文本内容,对所述文本内容进行语义分析确定搜索意图;所述文本内容是对基于所述目标图片的搜索意图的文本描述;
从所述目标网页中查找符合所述搜索意图的搜索结果。
通过上述技术方案可知,本发明有如下有益效果:
在搜索与一个图片相关的搜索结果时,获取该图片作为目标图片,在网页中查找该目标图片的相似图片,即在网页中查找与该目标图片相似度大于预设相似度阈值的图片,将包括该目标图片的相似图片的网页作为与该目标图片相关的目标网页,获取用户输入的与该目标图片对应的文本内容,该文本内容是用户输入的、基于该目标图片的、能够反映用户搜索意图的文本描述,对该文本内容进行语义分析来确定用户的搜索意图,根据获得的搜索意图,从与目标图片相关的目标网页中查找符合搜索意图的搜索结果。
由于目标网页是通过目标图片查找的,是包括该目标图片的相似图片的网页,因此,该目标网页与目标图片相关;文本内容是基于用户搜索意图的文本描述,因此,能够根据文本内容获得用户的搜索意图。在目标网页查找符合搜索意图的搜索结果,该搜索结果从目标网页中获得,由于该目标网页与目标图片相关,即表示该搜索结果也与目标图片相关;而该搜索结果又符合搜索意图,即表示该搜索结果与文本内容相关,即表示该搜索结果还符合用户需求。因此,本发明的方案,能够获取与目标图片和文本内容均相关的搜索结果,该搜索结果既能满足用户的需求,又与目标图片相关,提高用户的搜索体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种搜索方法的流程示意图;
图2为本发明实施例中一种搜索方法的流程示意图;
图3为本发明实施例中一种搜索方法的流程示意图;
图4为本发明实施例中一种搜索装置的结构示意图;
图5为本发明实施例提供的搜索装置硬件结构示意图;
图6是本发明实施例中服务器的结构示意图。
具体实施方式
为了给出基于目标图片和文本内容进行搜索的实现方案,本发明实施例提供了一种搜索方法及装置,以下结合说明书附图对本发明的实施例进行说明。
现阶段采用的搜索方式中,用户可以采用文本内容的方式提问,例如可以搜索“郁金香是哪个国家的国花?”,从而获得与文本内容相关的搜索结果。若需要查找与图片内容相关的搜索结果时,只能通过文本内容对图片进行描述,再采用上述基于文本内容的搜索方式获得搜索结果。但是,文本内容通常很难全面并且准确的体现图片中的内容,例如用户不确定图片中的花朵是郁金香还是虞美人时,无法用文本内容准确的体现图片中花的种类,因此得到的搜索结果与该图片的相关度可能较低,从而使用户体验较差。
在现阶段采用的搜索方式中,用户也可以仅采用图片的形式进行搜索,输入一张图片,利用图像分析技术,获得图片内容,搜索到与该图片内容相关的搜索结果。但有时图片内容并不能全面体现用户的搜索意图,因此,得到的搜索结果仅与图片相关,不一定与用户的搜索意图相符,用户体验差。例如对于用户输入一个炼钢的图片,用户想要搜索的是与该图片相关的书籍,而得到的搜索结果可能是关于炼钢技术的内容。
示例性方法
图1为本发明实施例提供的一种搜索方法的流程示意图。
步骤S101,获取目标图片,查找与目标图片相关的目标网页,目标网页包括目标图片的相似图片,该相似图片是与目标图片相似度大于预设阈值的图片。
在基于一个图片进行搜索的场景下,先获得该图片作为目标图片。
一种情况下,可以通过实时采集的方式获取该目标图片。例如,通过拍照等方式获取目标图片。相应的,可以在提供搜索功能的显示界面上,设置一个拍照按键,用户触发该拍照按键时,打开照相功能进行拍照,将拍照得到的图片作为目标图片。
另一种情况下,可以从终端设备的存储空间中获取已存储的图片作为目标图片。相应的,可以在提供搜索功能的界面上,设置选择按键,用户触发该选择按键时,跳转到终端设备的存储空间,如本地图片库,本地相册,或者本地文件夹等,将用户从该存储空间中选择的图片作为目标图片。
获取目标图片后,可根据获得的目标图片,查找与目标图片相关的目标网页,所查找到的目标网页,包括该目标图片的相似图片。其中,目标图片的相似图片,是与该目标图片相似度大于预设相似度阈值的图片。一种情况下,该相似图片与该目标图片的相似度是100%,即表示相似图片与该目标图片一模一样;另一种情况下,该相似图片与目标图片并不完全一致,但是,该相似图片与目标图片的相似度大于预设相似度阈值,即表示该相似图片与该目标图片虽然不是完全一样,但是极为相似。
可以理解的是,网页中存在的图片,一般情况下,不会与该目标图片一模一样。这是由于大多数情况下,网页中的图片,与目标图片的格式、亮度、饱和度、拍摄角度、分辨率或尺寸等参数并不完全相同。但是,网页中图片的内容与目标图片的内容可以相同,此时,则该网页中的图片与目标图片的相似度较高,当网页中的图片与目标图片的相似度大于预设相似度阈值时,可将该图片所在的网页作为目标网页。例如目标图片为北门的正面图片,网页中的图片为另一个角度拍摄的北门,该网页中的图片与目标图片的相关性较高,该网页与目标图片的相关度也较高,可作为目标网页。
确定网页中的图片与目标图片的相似度可以存在很多种实现方式,例如,可以采用卷积神经网络算法确定,也可以使用其它确定图片相似度的方式,在此不做详细说明。
预设相似度阈值是网页中的图片与目标图片的相关度的最低标准,是网页中图片可作为目标图片的相似图片的最低相似度的值,低于该预设阈值的网页中的图片与目标图片的相似度较低,不能作为该目标图片的相似图片,该网页也不能作为目标网页。其中,预设相似度阈值可以根据实际情况具体设置,这里不进行限定。
例如用户输入的目标图片是郁金香的图片,预设相似度阈值为70%,通过相似度的计算,第一网页中的一个图片也是郁金香的图片,与该目标图片相似度较高,比如为95%,则第一网页中的图片与目标图片的相似度高于预设阈值,第一网页中的图片可以作为目标图片的相似图片,则第一网页可作为与目标图片相关的目标网页;第二网页中玫瑰花的图片和目标图片相似度较低,例如为30%,而第二网页中的图片与目标图片的相似度低于预设相似度阈值,不能作为目标图片的相似图片,相应的第二网页不能作为与目标图片的相关的目标网页。
可以理解的是,由于互联网中存在大量的网页,一般情况下,所获取的与目标图片相关的目标网页有多个。具体实现时,还可以根据目标网页中的图片与目标图片的相似度,对所获取的目标网页进行排序,例如可以按相似度由高至低的顺序对目标网页进行排序。
步骤S102,获取目标图片对应的文本内容,对该文本内容进行语义分析确定搜索意图,文本内容是对基于目标图片的搜索意图的文本描述。
用户在需要查找与目标图片相关的搜索结果的场景中,仅仅输入目标图片并不足以体现用户的搜索意图,只能体现用户想要的搜索结果与该目标图片相关,但是,不能体现该搜索结果与目标图片的哪些内容相关。例如:用户想知道某种花朵是哪个国家的国花,仅仅输入一张包含该花朵的图片,输出的可能是该花朵的种植或产地等信息,而不是用户需要知道的该花朵是哪个国家的国花。
因此,本发明实施例中,用户还可以输入目标图片对应的文本内容,该文本内容用来描述基于该目标图片的搜索意图。目标图片和文本内容一一对应,例如对应于郁金香的目标图片,其对应的文本内容为:“这朵花是哪个国家的国花?”,该文本内容的输入使用户的搜索意图更加明确。
在本发明实施例中,目标图片对应的文本内容和该目标图片可以同时获取,例如在上述搜索系统提供的搜索界面中,触发用于获取目标图片的按键,同时,在搜索界面上所显示的键入框中,输入该目标图片的文本内容,此时,目标图片和该目标图片对应的文本内容可以同时获取。
在本发明其他实施例中,目标图片对应的文本内容和目标图片还可以不同时获取,例如先触发获取目标图片的按键,先获得目标图片,再获取输入框中输入的该目标图片对应的文本内容;再例如,先获取输入框中输入的该目标图片对应的文本内容,再触发获取目标图片的按键,获得该目标图片。具体实现时,不对上述步骤进行具体顺序的限定。
搜索系统在接收到文本内容后,对用户输入的文本内容进行语义分析,获取用户的搜索意图。由于文本内容是用户输入的,基于目标图片的搜索意图的文字描述,因此,文本内容中存在直接或间接表示用户搜索意图的内容,通过对文本内容进行语义分析,获取能够表示用户搜索意图的内容,从而较准确的获取用户的搜索意图。
在一种实例中,用户对其搜索意图进行较为简练的文本描述时,搜索意图可以采用文本内容的整体表示,也可以采用文本内容中的核心短语表示,该核心短语是文本内容中能够体现用户想要的搜索结果的部分内容。
在另一种实例中,用户对其搜索意图的描述较为详尽时,搜索意图可以采用文本内容中的关键词表示。在文本内容中提取关键词的可以通过如下实现方法:先对文本内容进行分词,再采用依存句法分析算法确定分词后所获各个词语之间的依存关系,再根据词语之间的依存关系,确定能够表征搜索意图的关键词。例如对于“这朵花是哪个国家的国花?”的文本内容,首先通过分词得到“这”、“朵”、“花”、“是”、“哪个”、“国家”、“的”、“国花”,采用依存句法分析算法对各个词语的依存关系进行分析,例如“这”指代“花”,“朵”是量词,“哪个”是疑问代词,指代“国家”,“的”是助词,“国家”是“国花”的定语,得到文本内容的关键词为“国家”,用于体现用户的搜索意图,即用户想要的搜索结果是国家。
文本内容中的关键词还可以通过其他方式进行获取,在此不做限定。
在又一种实例中,搜索意图还可以采用文本内容中的关键词的同义词来体现,可以通过先在文本内容中提取关键词,再获得该关键词的同义词,例如“歌手”和“歌唱家”可以作为同义词。
步骤S103,从目标网页中查找符合搜索意图的搜索结果。
由上述可知,目标网页中可能包括目标图片的相似图片,因此目标网页是与目标图片相关性较高的网页。目标网页的数量可能很大,例如对于郁金香的图片,其目标网页中可能是关于郁金香的养殖或产地的网页,也可能是郁金香的花语的网页,还可能是郁金香是属于哪个国家的国花的介绍。其中有一些网页可能存在符合用户搜索意图的内容,而另一些网页中可能不存在符合用户搜索意图的内容。
搜索意图是通过对用户输入的文本内容进行语义分析获取的,而文本内容是用户用来描述基于目标图片的搜索意图的,因此通过对文本内容进行语义分析得到的搜索意图也与用户想要的搜索结果相关。
因此本发明实施例中,从目标网页中查找符合搜索意图的搜索结果,可以是从多个目标网页中,查找最符合用户搜索意图的网页。查找的结果可以是多个目标网页中符合用户搜索意图的网页,例如,目标图片是郁金香的图片,目标图片的文本内容是“这朵花是哪个国家的国花”,则上述步骤S101中获取的包括郁金香图片的目标网页中,介绍郁金香是属于哪个国家的国花的网页是最符合用户搜索意图的目标网页,可以将该网页作为搜索结果。再例如,目标图片是郁金香的图片,目标图片的文本内容是“这朵花的花语是什么”,则上述步骤S101中获取的包括郁金香图片的目标网页中,介绍郁金香的花语的网页是最符合用户搜索意图的目标网页。
在另一个实例中,从目标网页中查找符合搜索意图的搜索结果,也可以是查找目标网页中符合用户搜索意图的网页文本。具体实现时,可以获取目标网页中,与文本内容语义匹配度较高的网页文本作为搜索结果。或者,还可以获取目标网页中,与文本内容中体现搜索意图的内容语义匹配度较高的网页文本作为搜索结果。
例如上述例子中,获取包括郁金香的目标图片,且对应于该目标图片的文本内容为“这朵花是哪个国家的国花?”。通过目标图片能够匹配到多个目标网页,在这些目标网页中,可能存在描述郁金香的养殖和产地的网页文本,或者描述郁金香的花语的网页文本,还存在描述郁金香是荷兰的国花的网页文本。将目标网页中的网页文本与该目标图片的文本内容进行语义匹配,若第一目标网页中存在描述“这朵花是荷兰的国花”的网页文本时,该第一目标网页中的网页文本与文本内容的语义匹配度较高,可以将第一目标网页中的网页文本作为搜索结果;若第二目标网页中存在描述“郁金香的花语是爱、慈善、名誉、美丽、祝福、永恒、爱的表白和永恒的祝福”的网页文本时,该第二目标网页中的网页文本与文本内容的语义匹配度较低,第二目标网页中的网页文本不能作为搜索结果。
在又一个实例中,从目标网页中查找符合搜索意图的搜索结果,还可以是查找目标网页中符合用户搜索意图的实体词。该实体词是预设的实体词词典中的词,该实体词与目标图片对应的文本内容语义相关性较高,因此,该实体词符合用户的搜索意图。
例如上述例子中,获取包括郁金香的目标图片,且对应于该目标图片的文本内容为“这朵花是哪个国家的国花?”。通过目标图片能够匹配到多个目标网页,在这些目标网页中,可能存在描述郁金香的养殖和产地的实体词——土耳其,或者描述郁金香的花语的实体词——善良,还存在描述郁金香是哪个国家的国花的实体词——荷兰。将目标网页中命中预设的实体词词典的实体词与该目标图片的文本内容进行语义匹配,可以将荷兰作为搜索结果;而土耳其和善良不能作为搜索结果。
这里需要说明的是,第一目标网页是一类网页,可以是一个网页,也可以是多个网页;同理,第二目标网页也是一类网页,可以是一个网页,也可以是多个网页。作为搜索结果的实体词,也可以只有一个实体词,还可以有多个实体词。这里不进行具体限定。在问答场景中,该实体词一般只有一个。
其中,在存在多个搜索结果时,可以根据搜索结果与目标图片的文本内容的语义匹配度,按照语义匹配度由高到低的顺序将搜索结果显示给用户。当然,也可以只给用户显示一个匹配度最高的搜索结果,这里不进行具体限定。
上述实施例中,通过获取用户输入的目标图片,在网页中查找目标图片的相似图片,其中,与目标图片相似度大于预设相似度阈值的图片可作为目标图片的相似图片,将包括目标图片的相似图片的网页作为与目标图片相关的目标网页;同时,获取用户输入的与目标图片对应的文本内容,该文本内容是用户输入的、基于目标图片的、能够反映用户搜索意图的文本描述,对该文本内容进行语义分析来确定用户的搜索意图;根据获得的搜索意图,从与目标图片相关的目标网页中查找符合搜索意图的搜索结果。
由于目标网页是通过目标图片查找的,是包括该目标图片的相似图片的网页,因此,该目标网页与目标图片相关;文本内容是基于用户搜索意图的文本描述,因此,能够根据文本内容获得用户的搜索意图。在目标网页中查找符合搜索意图的搜索结果,该搜索结果从目标网页中获得,由于该目标网页与目标图片相关,即表示该搜索结果也与目标图片相关;而该搜索结果又符合搜索意图,即表示该搜索结果与文本内容相关,即表示该搜索结果还符合用户需求。因此,本发明的方案,能够获取与目标图片和文本内容均相关的搜索结果,该搜索结果既能满足用户的需求,又与目标图片相关,提高用户的搜索体验。
在上述获取的搜索结果中,输出的通常是与目标图片和文本内容相关的网页作为搜索结果,在本发明实施例中,还可以对搜索结果进行进一步优化,将与目标图片和文本内容都相关的网页文本作为搜索结果,使搜索结果更加具有针对性且更加简要。下面对步骤103的一种具体实现方式进行详细描述。
步骤S103A,从目标网页中,获得与目标图片和文本内容都相关的网页文本。
步骤S103B,从网页文本中查找符合搜索意图的搜索结果。
若目标网页中存在目标图片的相似图片,则该目标网页是与目标图片相关的网页,由于目标网页中可能存在很多图片,此时,只有部分网页文本用于描述该目标图片的相似图片,上述描述该目标图片的相似图片的网页文本才会与该目标图片相关。因此,在获取得到的目标网页中获得与目标图片相关的网页文本时,具体为,从目标网页中,获得与目标图片位置相关的待选网页文本。位置相关,指的是在该目标网页中,待选网页文本的位置,与目标图片的相似图片的位置,在预设位置范围内。从待选网页文本中,获得与文本内容语义相关的网页文本。
第一,先分别获取每个目标网页中与目标图片相关的待选网页文本。从目标网页中确定目标图片的相似图片,再获取该目标网页中该目标图片的相似图片周围的网页文本,即与该目标图片的相似图片在预设位置范围内的网页文本。该目标图片的相似图片周围的网页文本,是对该目标图片的相似图片的文本描述,与该目标图片的相关性较高,与目标图片的文本内容的语义相关性较高的可能性较大。当然,若目标网页中仅存在目标图片的相似图片,也可以将该目标网页中所有的网页文本都作为待选网页文本。将按照上述方式获得的目标图片的相似图片周围的网页文本作为待选网页文本,即从一个目标网页中,至少能获得一个待选网页文本。
其中,预设位置范围可以根据实际情况进行确定,例如可以获取目标图片的相似图片上面一段网页文本,下面一段网页文本,位于两侧的网页文本,作为该目标图片的相似图片的待选网页文本。
例如目标图片为郁金香的图片,在目标网页中,包括郁金香的图片为目标图片的相似图片,在该相似图片的周围,存在对郁金香的相关介绍的文本,例如花语、种植、国花信息等,这些文本是与目标图片相关的网页文本;而在远离该相似图片的文本中,可能是对其它花朵的花语、种植、国花信息等内容的介绍,与郁金香的相关度较小,可只选取相似图片周围的文本,作为待选网页文本。
第二,获取了每个目标网页的待选网页文本后,需要分析从各个目标网页中所获得的待选网页文本与目标图片的文本内容的语义匹配程度,找到与文本内容相关的网页文本。
例如目标图片是郁金香图片,该目标图片对应的文本内容是“这朵花是哪个国家的国花?”,待选网页文本中存在描述“郁金香产地”的网页文本,还存在描述“郁金香种植技术”的网页文本,也存在描述“郁金香是荷兰国花”的网页文本。其中,描述“郁金香是荷兰国花”的网页文本,是与文本内容语义相关程度较高的网页文本。
需要说明的是,具体实现时,可以通过先获取目标网页中与目标图片相关的文本集合作为待选文本集合,再从上述待选文本集合中确定与文本内容相关的网页文本;也可以先获取目标网页中与文本内容相关的文本集合,再从上述与文本内容相关的文本集合中确定与目标图片相关的网页文本。实现方法类似,这里不再赘述。
可以理解的是,由于目标网页不止一个,所获得的网页文本也可能存在多个。当所获得的网页文本存在多个时,可以根据网页文本与目标图片的文本内容的相似程度由高到低进行显示。
由于获取到的与目标图片和文本内容均相关的网页文本也可能是多个,而用户需要的搜索结果可能只有其中一个,通过在这些网页文本中查找符合搜索意图的搜索结果提供给用户。具体为,通过将多个该网页文本中的内容与文本内容中能够表示搜索意图的核心短语、关键词或关键词的同义词进行语义匹配,选取匹配度最高的网页文本作为搜索结果。又或者,直接选取与文本内容语义匹配程度最高的网页文本作为搜索结果。
当然,在本发明实施例中,输出的搜索结果还可以是多个,可按照网页文本与文本内容的语义匹配度从高至低的顺序,向用户提供多个网页文本作为搜索结果,也可以仅向用户提供与文本内容语义匹配度高于预设语义阈值的网页文本作为搜索结果。
本发明实施例中,通过在目标网页中获取与目标图片和文本内容均相关的网页文本,再在获得的网页文本中进行搜索结果的获取,简化了搜索结果的信息量,将可能的网页文本作为搜索结果,便于用户查看,提高用户体验。
作为本发明另一种可能的实施方式,搜索结果还可以进一步具体化,向用户提供的搜索结果还可以是网页文本中的一个实体词,具体的,步骤S103B可进一步包括以下步骤。
步骤S103B1,获取网页文本中命中预设的实体词词典的实体词集合。
实体词是具有实际意义的词,通常是名词或代词,多个实体词可以构成实体词词典,可以是作为名称的名词,例如“荷兰”、“长城”等,也可以是新近较为流行的代词,例如“高富帅”、“白富美”等。在搜索系统中,可以预置已经创建的预设的实体词词典,该实体词词典是通过对网络中大量的词汇进行分析得到的。并且,有新的实体词出现时,可以对该预设的实体词词典进行实时更新。
获得与目标图片和文本内容都相关的网页文本后,对上述网页文本进行分词,分析分词后所得的词是否命中预设的实体词词典,获取网页文本中命中预设的实体词词典的词获得实体词集合。
具体的,若一个词与预设的实体词词典中的一个实体词完全相同,则表示该词命中预设的实体词词典,例如:网页文本进行分词后得到一个词是“荷兰”,预设的实体词词典中也存在“荷兰”这个实体词,则表示网页文本中的“荷兰”命中该预设的实体词词典。
又或者,若一个词与预设的实体词词典中的一个实体词的语义相同,则该词也命中预设的实体词词典。例如,网页文本进行分词后得到一个词是“蓉城”,预设的实体词词典中存在“成都”,而“蓉城”即为“成都”,两个词的含义相同,则网页文本中的“蓉城”也命中该预设的实体词词典。
可以理解的是,一个网页文本中可能存在一个词命中预设的实体词词典,也可能存在多个词命中预设的实体词词典。而与目标图片和文本内容都相关的网页文本也可能存在多个,则表示一般情况下,实体词集合中包括多个实体词。
步骤S103B2,从实体词集合中查找符合搜索意图的目标实体词作为搜索结果。
在本发明实施例中,通过目标图片查找与目标图片相关的目标网页,在目标网页中获取与目标图片和文本内容均相关的网页文本,在网页文本中获取命中预设的实体词词典的实体词集合,因此,该实体词集合中的实体词,是与目标图片和文本内容均相关的实体词。在实体词集合中,查找符合搜索意图的目标实体词作为搜索结果,可具体为,将实体词集合中的实体词,与文本内容中能够体现用户搜索意图的核心短语、关键词或关键词的同义词进行语义匹配,将语义匹配度最高的实体词作为搜索结果。
举例来说,用户输入的目标图片是包括郁金香花的图片,与该目标图片相关的文本内容为“这朵花是哪个国家的国花?”,在包括目标图片的相似图片的目标网页中,获取与目标图片和文本内容相关的网页文本,在网页文本中查找命中预设的实体词词典的实体词形成实体词集合,例如实体词集合中存在“荷兰”、“郁金香”,与文本内容中的“哪个国家”的匹配度最高的是“荷兰”,因此可将“荷兰”这个实体词作为符合搜索意图的目标实体词,作为搜索结果提供给用户。
在本发明实施例中,输出的结果还可以是多个,在获得实体词集合中的实体词与文本内容中能够体现用户搜索意图的内容的匹配度后,可按照匹配度从高至低的顺序向用户提供多个实体词作为搜索结果,也可以仅向用户提供匹配度高于阈值的实体词作为搜索结果。
本发明实施例中,通过从网页文本中获取命中预设的实体词词典的实体词集合,在实体词集合中查找符合搜索意图的目标实体词,将该目标实体词作为搜索结果,将网页文本中的主要内容以实体词的方式进行体现,在多个实体词中查找符合搜索意图的目标实体词,将可能是网页文本的搜索结果进一步简化为实体词形式的搜索结果,用户在获取到实体词形式的搜索结果后,不需要进行分析就可以得到想要的答案,提高用户体验。
在本发明实施例中,具体实现时,搜索意图可以采用文本内容中的关键词表示,文本内容中的关键词是能够体现用户想要的搜索结果的部分,从一个文本内容中可以得到一个关键词,也可以得到多个关键词,用于简单清楚的表示用户的搜索意图,文本内容中的关键词的获取方式可以参考步骤S102中关键词的获取方式,在此不再赘述。
步骤S103B2中,在实体词集合中查找符合搜索意图的目标实体词,可以有以下两种可能的实施方式。
作为一种可能的实施方式,本发明实施例中,从实体词集合中查找符合搜索意图的目标实体词作为搜索结果,可以根据第一参考条件进行查找,其中第一参考条件是实体词集合中各个实体词与文本内容中的关键词的语义匹配度,也就是说,可以通过计算实体词集合中各个实体词与文本内容中的关键词的语义匹配度,将语义匹配度较高的实体词作为目标实体词,将该目标实体词作为搜索结果提供给用户。
语义匹配度是用来衡量自然语言的词语之间的关系的,可以采用卷积神经网络确定实体词集合中的各个实体词与关键词的语义匹配度。卷积神经网络是依据大量的训练样本得到的计算模型,该卷积神经网络,用于表征多个词与语义匹配度的对应关系,其中,语义匹配度指的是多个词之间的语义匹配度。则以实体词和关键词作为卷积神经网络输入,实体词和关键词之间的语义匹配度作为输出。
例如实体词集合中存在“荷兰”、“郁金香”,与文本内容中的关键词“国家”的语义相似度较高的是“荷兰”,因此可将“荷兰”这个实体词作为符合搜索意图的目标实体词,作为搜索结果提供给用户。
作为另一种可能的实施方式,本发明实施例中,从实体词集合中查找符合搜索意图的目标实体词作为搜索结果,还可以根据第一参考条件和第二参考条件进行查找,将第一参考条件和第二参考条件共同作为查找符合搜索意图的目标实体词的查找依据,可以使搜索结果更加准确。
具体的,第一参考条件是实体词集合中各个实体词与文本内容中的关键词的语义相似度,第二参考条件可以包括第一子参考条件,第二子参考条件,以及第三子参考条件中的任意一种或多种;第一子参考条件可以是实体词集合中各个实体词的相邻文本与文本内容的相似度;第二子参考条件可以是实体词集合中各个实体词对应的预设的百科词条与文本内容的相似度;第三子参考条件可以是实体词集合中各个实体词在网页文本中出现的词频。
第一参考条件中的语义相似度是用来衡量自然语言的词语之间的关系的,对于语义相似度的计算,例如可以通过卷积神经网络算法进行,具体的可参考上文,在此不再赘述。
第二参考条件是作为第一参考条件的补充和优化,与第一参考条件共同作为目标实体词的查找依据,使搜索结果更加准确,能够更好的适应不同需求的用户搜索。
具体的,第一子参考条件可以是实体词集合中各个实体词的相邻文本与文本内容的相似度。也就是说,在查找目标实体词的过程中,除了考虑各个实体词与文本内容的语义相似度,还考虑各个实体词在网页文本中的相邻文本与文本内容的相似度。实体词的相邻文本,从侧面反应了实体词的真正含义,而相邻文本与文本内容的相似度越高的实体词,与文本内容的语义匹配度越高,越符合搜索意图,即越适合作为目标实体词。在原来的基础上充分考虑实体词的相邻文本与文本内容的相关性,使搜索结果更符合用户的搜索意图。例如对于“荷兰”这个实体词的上下文为“荷兰的国花是郁金香”,实体词的相邻文本与文本内容的相似度较高,其相似度可作为第一子参考条件。
第二子参考条件可以是实体词集合中各个实体词对应的预设的百科词条与文本内容的相似度。其中,一个实体词对应的预设的百科词条是指用户在搜索该实体词时形成的词条,实体词对应的预设的百科词条与该实体词的含义相同或相近,因此,该实体词对应的预设的百科词条,与文本内容的相似度较高,表示该实体词与文本内容的语义匹配度也就越高。
例如实体词为“荷兰”时,对应的预设的百科词条可以有“荷兰郁金香”等百科词条,此时该预设的百科词条“荷兰郁金香”与用户的文本内容“这朵花是哪个国家的国花?”的相似度较高,将该预设的百科词条与文本内容的相似度作为第二子参考条件,获取搜索结果。
第三子参考条件可以是实体词集合中各个实体词在网页文本中出现的词频。获取各个实体词在网页文本中出现的词频的原因在于,一般情况下,如某实体词在网页文本中出现的词频较高,说明在该网页文本中,该实体词是较重要的实体词,能够体现该网页文本的主题内容或关键内容。例如在某网页中,出现“荷兰”和“中国”的词频不同,其中“荷兰”的次数为12次,“中国”的次数为2次,可将词频的大小,作为第三子参考条件,获取搜索结果。
在本发明实施例中,第一参考条件和第二参考条件共同作为查找符合搜索意图的目标实体词作为搜索结果的查找依据,具体的,可以为第一参考条件和第二参考条件设置相应的权重。例如第一参考条件的权重为0.6,第二参考条件的权重为0.4。
进一步的,第二参考条件中的第一子参考条件、第二子参考条件和第三子参考条件可以同时作为查找依据,也可以只选择其中的一项或者两项作为查找依据,在不同的情况下,其分配的权重不同。例如在只有第一参考条件和第一子参考条件时,第一参考条件的权重可以为0.7,第一子参考条件的权重可以为0.3;在第一参考条件、第一子参考条件和第二子参考条件共同作为查找依据时,第一参考条件的权重可以为0.6,第一子参考条件的权重可以为0.2,第二子参考条件的权重可以为0.2;在第一参考条件、第一子参考条件、第二子参考条件和第三子参考条件共同作为查找依据时,第一参考条件的权重可以为0.6,第一子参考条件的权重可以为0.2,第二子参考条件的权重可以为0.15,第三子参考条件的权重可以为0.05。上述权重的设置均为示例性的,在本发明提供的实施例中,还可以是其他权重的设置,不影响本发明实施例的实现。
举例来说,用户输入的目标图片是包括郁金香花的图片,与该目标图片相关的文本内容为“这朵花是哪个国家的国花?”,通过分析得到文本内容的关键词为“国家”。在包括目标图片的相似图片的目标网页中,获取与目标图片和文本内容相关的网页文本,在网页文本中查找命中预设的实体词词典的实体词形成实体词集合,例如实体词集合中存在“荷兰”、“郁金香”的实体词。
根据第一参考条件,实体词“荷兰”与关键词“国家”的语义相似度为95%,实体词“郁金香”与关键词“国家”的语义相似度为20%。根据第二参考条件中的第一子参考条件,例如对于其中一个实体词“荷兰”的上下文为“荷兰的国花是郁金香”,实体词的相邻文本中“国花”与文本内容的相似度为80%,“郁金香”的上下文为“关于郁金香的来历”,其相邻文本与文本内容相似度为20%。根据第二参考条件中的第二子参考条件,实体词内容为“荷兰”时,对应的预设的百科词条可以有“荷兰郁金香”,“荷兰猪”,“荷兰豆”。其中“荷兰郁金香”的百科词条与用户的文本内容的相似度为90%,其中“荷兰豆”的百科词条与用户的文本内容的相似度为5%。根据第二参考条件中的第三子参考条件,在某网页中,出现“荷兰”和“郁金香”的词频不同,其中“荷兰”的次数为15次,“郁金香”的次数为3次,分别作为两个实体词的第三子参考条件。
根据以上参考条件,假设第一参考条件的权重为0.6,第一子参考条件的权重为0.2,第二子参考条件的权重为0.15,第三子参考条件的权重为0.05。对于实体词“荷兰”,其最终结果为95%*0.6+80%*0.2+40%*0.15+15*0.05=1.54,实体词“郁金香”的最终结果为20%*0.6+20%*0.2+90%*0.15+3*0.05=0.445。因此,根据两个实体词的最终结果,将“荷兰”作为目标实体词,将该目标实体词作为搜索结果提供给用户。
在本发明实施例中,输出的结果还可以是多个,在获得目标网页中的多个实体词的最终结果后,可按照最终结果从高至低的顺序向用户提供多个目标实体词作为搜索结果,也可以仅向用户提供匹配度高于阈值的目标实体词作为搜索结果。
在上述实施方式中,可以只将第一参考条件作为查找符合搜索意图的目标实体词的查找条件,也可以综合考虑第一参考条件和第二参考条件,在实现过程中,既考虑了实体词集合中的实体词与文本内容的关键词的语义相似度,还可以综合考虑实体词的相邻文本与文本内容的相似度、实体词对应的预设的百科词条与文本内容的相似度、实体词在网页文本中出现的词频等,能够全方位的准确的进行目标实体词的查找,使得到的目标实体词能够更加准确的体现用户的搜索意图,提高用户体验。
示例性装置
图4为本发明实施例提供的搜索装置结构示意图,该装置包括:
目标网页查找单元401,用于获取目标图片,查找与所述目标图片相关的目标网页;所述目标网页包括所述目标图片的相似图片,所述目标图片的相似图片是与所述目标图片相似度大于预设相似度阈值的图片;
搜索意图分析单元402,用于获取所述目标图片对应的文本内容,对所述文本内容进行语义分析确定搜索意图;所述文本内容是对基于所述目标图片的搜索意图的文本描述;
搜索结果查找单元403,用于从所述目标网页中查找符合所述搜索意图的搜索结果。
可选的,所述搜索结果查找单元403包括:
网页文本获取子单元,用于从所述目标网页中,获得与所述目标图片和所述文本内容都相关的网页文本;
搜索结果查找子单元,用于从所述网页文本中查找符合所述搜索意图的搜索结果。
可选的,所述网页文本获取子单元包括:
待选网页文本获取子单元,用于从所述目标网页中,获得与所述目标图片位置相关的待选网页文本;所述位置相关,指的是在所述目标网页中,所述待选网页文本的位置,与所述目标图片的相似图片的位置,在预设位置范围内;
相关网页文本获取子单元,用于从所述待选网页文本中,获得与所述文本内容语义相关的网页文本。
可选的,所述搜索结果查找子单元包括:
实体词集合获取子单元,用于获取所述网页文本中命中预设的实体词词典的实体词集合;
实体词搜索结果获取子单元,用于从所述实体词集合中查找符合所述搜索意图的目标实体词作为所述搜索结果。
可选的,所述实体词搜索结果获取子单元还用于:
根据所述实体词集合中各个实体词与所述文本内容中的关键词的语义相似度,获取符合所述搜索意图的目标实体词作为搜索结果。
可选的,所述实体词搜索结果获取子单元还用于:
根据第一参考条件和第二参考条件,从所述实体词集合中查找符合所述搜索意图的目标实体词作为所述搜索结果;
其中,所述第一参考条件包括所述实体词集合中各个实体词与所述文本内容中的关键词的语义相似度;
所述第二参考条件包括第一子参考条件、第二子参考条件、以及第三子参考条件中的任意一种或多种;所述第一子参考条件包括所述实体词集合中各个实体词的相邻文本与所述文本内容的相似度;所述第二子参考条件包括所述实体词集合中各个实体词对应的预设的百科词条与所述文本内容的相似度;所述第三子参考条件包括所述实体词集合中各个实体词在所述网页文本中出现的词频。
可选的,所述装置还包括:
分词单元,用于对所述文本内容进行分词;
依存关系获取单元,用于采用依存句法分析算法确定分词后所获得的各个词语之间的依存关系;
关键词获取单元,用于根据各个词语之间的依存关系,确定能够表征搜索意图的关键词,作为所述文本内容中的关键词。
图4所示的装置是与图1所示的方法所对应的装置,具体实现方式与图1所示的方法类似,参考图1所示的方法中的描述,这里不再赘述。
通过本发明实施例提供的搜索装置,由于目标网页是通过目标图片查找的,是包括该目标图片的相似图片的网页,因此,该目标网页与目标图片相关;文本内容是基于用户搜索意图的文本描述,因此,能够根据文本内容获得用户的搜索意图。在目标网页中查找符合搜索意图的搜索结果,该搜索结果从目标网页中获得,由于该目标网页与目标图片相关,即表示该搜索结果也与目标图片相关;而该搜索结果又符合搜索意图,即表示该搜索结果与文本内容相关,即表示该搜索结果还符合用户需求。因此,本发明的方案,能够获取与目标图片和文本内容均相关的搜索结果,该搜索结果既能满足用户的需求,又与目标图片相关,提高用户的搜索体验。
参照图5,装置500可以包括以下一个或多个组件:处理组件502,存储器504,电源组件506,多媒体组件508,音频组件510,输入/输出(I/O)的接口512,传感器组件514,以及通信组件516。
处理组件502通常控制装置500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理部件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在设备500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件506为装置500的各种组件提供电力。电源组件506可以包括电源管理系统,一个或多个电源,及其他与为装置500生成、管理和分配电力相关联的组件。
多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还确认与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当装置500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
I/O接口512为处理组件502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为装置500提供各个方面的状态评估。例如传感器组件514可以确认到设备500的打开/关闭状态,组件的相对定位,例如所述组件为装置500的显示器和小键盘,传感器组件514还可以确认装置500或装置500一个组件的位置改变,用户与装置500接触的存在或不存在,装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时确认附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
具体地,本发明实施例提供了一种电子设备,该设备可以具体为装置500,包括有存储器504,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器504中,且经配置以由一个或者一个以上处理器520执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取目标图片,查找与所述目标图片相关的目标网页;所述目标网页包括所述目标图片的相似图片,所述目标图片的相似图片是与所述目标图片相似度大于预设相似度阈值的图片;
获取所述目标图片对应的文本内容,对所述文本内容进行语义分析确定搜索意图;所述文本内容是对基于所述目标图片的搜索意图的文本描述;
从所述目标网页中查找符合所述搜索意图的搜索结果。
可选的,所述从所述目标网页中查找符合所述搜索意图的搜索结果包括:
从所述目标网页中,获得与所述目标图片和所述文本内容都相关的网页文本;
从所述网页文本中查找符合所述搜索意图的搜索结果。
可选的,所述从所述目标网页中,获得与所述目标图片和所述文本内容都相关的网页文本包括:
从所述目标网页中,获得与所述目标图片位置相关的待选网页文本;所述位置相关,指的是在所述目标网页中,所述待选网页文本的位置,与所述目标图片的相似图片的位置,在预设位置范围内;
从所述待选网页文本中,获得与所述文本内容语义相关的网页文本。
可选的,所述从所述网页文本中查找符合所述搜索意图的搜索结果包括:
获取所述网页文本中命中预设的实体词词典的实体词集合;
从所述实体词集合中查找符合所述搜索意图的目标实体词作为所述搜索结果。
可选的,所述从所述实体词集合中查找符合所述搜索意图的目标实体词作为所述搜索结果包括:
根据所述实体词集合中各个实体词与所述文本内容中的关键词的语义相似度,获取符合所述搜索意图的目标实体词作为搜索结果。
可选的,所述从所述实体词集合中查找符合所述搜索意图的目标实体词作为所述搜索结果包括:
根据第一参考条件和第二参考条件,从所述实体词集合中查找符合所述搜索意图的目标实体词作为所述搜索结果;
其中,所述第一参考条件包括所述实体词集合中各个实体词与所述文本内容中的关键词的语义相似度;
所述第二参考条件包括第一子参考条件、第二子参考条件、以及第三子参考条件中的任意一种或多种;所述第一子参考条件包括所述实体词集合中各个实体词的相邻文本与所述文本内容的相似度;所述第二子参考条件包括所述实体词集合中各个实体词对应的预设的百科词条与所述文本内容的相似度;所述第三子参考条件包括所述实体词集合中各个实体词在所述网页文本中出现的词频。
可选的,所述文本内容中的关键词通过以下方式获取:
对所述文本内容进行分词;
采用依存句法分析算法确定分词后所获得的各个词语之间的依存关系;
根据各个词语之间的依存关系,确定能够表征搜索意图的关键词,作为所述文本内容中的关键词。
本发明实施例还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由装置500的处理器520执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行一种搜索方法,所述方法包括:
获取目标图片,查找与所述目标图片相关的目标网页;所述目标网页包括所述目标图片的相似图片,所述目标图片的相似图片是与所述目标图片相似度大于预设相似度阈值的图片;
获取所述目标图片对应的文本内容,对所述文本内容进行语义分析确定搜索意图;所述文本内容是对基于所述目标图片的搜索意图的文本描述;
从所述目标网页中查找符合所述搜索意图的搜索结果。
可选的,所述从所述目标网页中查找符合所述搜索意图的搜索结果包括:
从所述目标网页中,获得与所述目标图片和所述文本内容都相关的网页文本;
从所述网页文本中查找符合所述搜索意图的搜索结果。
可选的,所述从所述目标网页中,获得与所述目标图片和所述文本内容都相关的网页文本包括:
从所述目标网页中,获得与所述目标图片位置相关的待选网页文本;所述位置相关,指的是在所述目标网页中,所述待选网页文本的位置,与所述目标图片的相似图片的位置,在预设位置范围内;
从所述待选网页文本中,获得与所述文本内容语义相关的网页文本。
可选的,所述从所述网页文本中查找符合所述搜索意图的搜索结果包括:
获取所述网页文本中命中预设的实体词词典的实体词集合;
从所述实体词集合中查找符合所述搜索意图的目标实体词作为所述搜索结果。
可选的,所述从所述实体词集合中查找符合所述搜索意图的目标实体词作为所述搜索结果包括:
根据所述实体词集合中各个实体词与所述文本内容中的关键词的语义相似度,获取符合所述搜索意图的目标实体词作为搜索结果。
可选的,所述从所述实体词集合中查找符合所述搜索意图的目标实体词作为所述搜索结果包括:
根据第一参考条件和第二参考条件,从所述实体词集合中查找符合所述搜索意图的目标实体词作为所述搜索结果;
其中,所述第一参考条件包括所述实体词集合中各个实体词与所述文本内容中的关键词的语义相似度;
所述第二参考条件包括第一子参考条件、第二子参考条件、以及第三子参考条件中的任意一种或多种;所述第一子参考条件包括所述实体词集合中各个实体词的相邻文本与所述文本内容的相似度;所述第二子参考条件包括所述实体词集合中各个实体词对应的预设的百科词条与所述文本内容的相似度;所述第三子参考条件包括所述实体词集合中各个实体词在所述网页文本中出现的词频。
可选的,所述文本内容中的关键词通过以下方式获取:
对所述文本内容进行分词;
采用依存句法分析算法确定分词后所获得的各个词语之间的依存关系;
根据各个词语之间的依存关系,确定能够表征搜索意图的关键词,作为所述文本内容中的关键词。
图6是本发明实施例中服务器的结构示意图。该服务器600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)622(例如,一个或一个以上处理器)和存储器632,一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器622可以设置为与存储介质630通信,在服务器600上执行存储介质630中的一系列指令操作。
服务器600还可以包括一个或一个以上电源626,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口658,一个或一个以上键盘656,和/或,一个或一个以上操作系统641,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (12)
1.一种搜索方法,其特征在于,所述方法包括:
获取目标图片,查找与所述目标图片相关的目标网页;所述目标网页包括所述目标图片的相似图片,所述目标图片的相似图片是与所述目标图片相似度大于预设相似度阈值的图片;
获取用户输入的所述目标图片对应的文本内容,对所述文本内容进行语义分析确定搜索意图;所述文本内容是对基于所述目标图片的搜索意图的文本描述;
从所述目标网页中,获得与所述目标图片和所述文本内容都相关的网页文本;
获取所述网页文本中命中预设的实体词词典的实体词集合;
从所述实体词集合中查找符合所述搜索意图的目标实体词作为搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述从所述目标网页中,获得与所述目标图片和所述文本内容都相关的网页文本包括:
从所述目标网页中,获得与所述目标图片位置相关的待选网页文本;所述位置相关,指的是在所述目标网页中,所述待选网页文本的位置,与所述目标图片的相似图片的位置,在预设位置范围内;
从所述待选网页文本中,获得与所述文本内容语义相关的网页文本。
3.根据权利要求1所述的方法,其特征在于,所述从所述实体词集合中查找符合所述搜索意图的目标实体词作为搜索结果包括:
根据所述实体词集合中各个实体词与所述文本内容中的关键词的语义相似度,获取符合所述搜索意图的目标实体词作为搜索结果。
4.根据权利要求1所述的方法,其特征在于,所述从所述实体词集合中查找符合所述搜索意图的目标实体词作为搜索结果包括:
根据第一参考条件和第二参考条件,从所述实体词集合中查找符合所述搜索意图的目标实体词作为所述搜索结果;
其中,所述第一参考条件包括所述实体词集合中各个实体词与所述文本内容中的关键词的语义相似度;
所述第二参考条件包括第一子参考条件、第二子参考条件、以及第三子参考条件中的任意一种或多种;所述第一子参考条件包括所述实体词集合中各个实体词的相邻文本与所述文本内容的相似度;所述第二子参考条件包括所述实体词集合中各个实体词对应的预设的百科词条与所述文本内容的相似度;所述第三子参考条件包括所述实体词集合中各个实体词在所述网页文本中出现的词频。
5.根据权利要求3-4任意一项所述的方法,其特征在于,所述文本内容中的关键词通过以下方式获取:
对所述文本内容进行分词;
采用依存句法分析算法确定分词后所获得的各个词语之间的依存关系;
根据各个词语之间的依存关系,确定能够表征搜索意图的关键词,作为所述文本内容中的关键词。
6.一种搜索装置,其特征在于,所述装置包括:
目标网页查找单元,用于获取目标图片,查找与所述目标图片相关的目标网页;所述目标网页包括所述目标图片的相似图片,所述目标图片的相似图片是与所述目标图片相似度大于预设相似度阈值的图片;
搜索意图分析单元,用于获取用户输入的所述目标图片对应的文本内容,对所述文本内容进行语义分析确定搜索意图;所述文本内容是对基于所述目标图片的搜索意图的文本描述;
搜索结果查找单元,用于从所述目标网页中查找符合所述搜索意图的搜索结果;
其中,所述搜索结果查找单元包括:
网页文本获取子单元,用于从所述目标网页中,获得与所述目标图片和所述文本内容都相关的网页文本;
搜索结果查找子单元,用于从所述网页文本中查找符合所述搜索意图的搜索结果;
所述搜索结果查找子单元包括:
实体词集合获取子单元,用于获取所述网页文本中命中预设的实体词词典的实体词集合;
实体词搜索结果获取子单元,用于从所述实体词集合中查找符合所述搜索意图的目标实体词作为所述搜索结果。
7.根据权利要求6所述的装置,其特征在于,所述网页文本获取子单元包括:
待选网页文本获取子单元,用于从所述目标网页中,获得与所述目标图片位置相关的待选网页文本;所述位置相关,指的是在所述目标网页中,所述待选网页文本的位置,与所述目标图片的相似图片的位置,在预设位置范围内;
相关网页文本获取子单元,用于从所述待选网页文本中,获得与所述文本内容语义相关的网页文本。
8.根据权利要求6所述的装置,其特征在于,所述实体词搜索结果获取子单元还用于:
根据所述实体词集合中各个实体词与所述文本内容中的关键词的语义相似度,获取符合所述搜索意图的目标实体词作为搜索结果。
9.根据权利要求6所述的装置,其特征在于,所述实体词搜索结果获取子单元还用于:
根据第一参考条件和第二参考条件,从所述实体词集合中查找符合所述搜索意图的目标实体词作为所述搜索结果;
其中,所述第一参考条件包括所述实体词集合中各个实体词与所述文本内容中的关键词的语义相似度;
所述第二参考条件包括第一子参考条件、第二子参考条件、以及第三子参考条件中的任意一种或多种;所述第一子参考条件包括所述实体词集合中各个实体词的相邻文本与所述文本内容的相似度;所述第二子参考条件包括所述实体词集合中各个实体词对应的预设的百科词条与所述文本内容的相似度;所述第三子参考条件包括所述实体词集合中各个实体词在所述网页文本中出现的词频。
10.根据权利要求8或9所述的装置,其特征在于,所述装置还包括:
分词单元,用于对对所述文本内容进行分词;
依存关系获取单元,用于采用依存句法分析算法确定分词后所获得的各个词语之间的依存关系;
关键词获取单元,用于根据各个词语之间的依存关系,确定能够表征搜索意图的关键词,作为所述文本内容中的关键词。
11.一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取目标图片,查找与所述目标图片相关的目标网页;所述目标网页包括所述目标图片的相似图片,所述目标图片的相似图片是与所述目标图片相似度大于预设相似度阈值的图片;
获取用户输入的所述目标图片对应的文本内容,对所述文本内容进行语义分析确定搜索意图;所述文本内容是对基于所述目标图片的搜索意图的文本描述;
从所述目标网页中,获得与所述目标图片和所述文本内容都相关的网页文本;
获取所述网页文本中命中预设的实体词词典的实体词集合;
从所述实体词集合中查找符合所述搜索意图的目标实体词作为搜索结果。
12.一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行一种搜索方法,所述方法包括:
获取目标图片,查找与所述目标图片相关的目标网页;所述目标网页包括所述目标图片的相似图片,所述目标图片的相似图片是与所述目标图片相似度大于预设相似度阈值的图片;
获取用户输入的所述目标图片对应的文本内容,对所述文本内容进行语义分析确定搜索意图;所述文本内容是对基于所述目标图片的搜索意图的文本描述;
从所述目标网页中,获得与所述目标图片和所述文本内容都相关的网页文本;
获取所述网页文本中命中预设的实体词词典的实体词集合;
从所述实体词集合中查找符合所述搜索意图的目标实体词作为搜索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810135624.2A CN110134850B (zh) | 2018-02-09 | 2018-02-09 | 一种搜索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810135624.2A CN110134850B (zh) | 2018-02-09 | 2018-02-09 | 一种搜索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110134850A CN110134850A (zh) | 2019-08-16 |
CN110134850B true CN110134850B (zh) | 2024-05-14 |
Family
ID=67567939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810135624.2A Active CN110134850B (zh) | 2018-02-09 | 2018-02-09 | 一种搜索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110134850B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609458A (zh) * | 2012-01-12 | 2012-07-25 | 北京搜狗信息服务有限公司 | 一种图片推荐方法和装置 |
CN104899322A (zh) * | 2015-06-18 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 搜索引擎及其实现方法 |
WO2017181663A1 (zh) * | 2016-04-21 | 2017-10-26 | 北京搜狗科技发展有限公司 | 一种为搜索信息匹配图片的方法及装置 |
-
2018
- 2018-02-09 CN CN201810135624.2A patent/CN110134850B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609458A (zh) * | 2012-01-12 | 2012-07-25 | 北京搜狗信息服务有限公司 | 一种图片推荐方法和装置 |
CN104899322A (zh) * | 2015-06-18 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 搜索引擎及其实现方法 |
WO2017181663A1 (zh) * | 2016-04-21 | 2017-10-26 | 北京搜狗科技发展有限公司 | 一种为搜索信息匹配图片的方法及装置 |
Non-Patent Citations (1)
Title |
---|
方爽 ; 殷俊杰 ; 徐武平 ; .基于相似图片聚类的Web文本特征算法.计算机工程.2014,(第12期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN110134850A (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107608532B (zh) | 一种联想输入方法、装置及电子设备 | |
CN108121736B (zh) | 一种主题词确定模型的建立方法、装置及电子设备 | |
US10394886B2 (en) | Electronic device, computer-implemented method and computer program | |
CN110019675B (zh) | 一种关键词提取的方法及装置 | |
CN108304412B (zh) | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 | |
CN111832316B (zh) | 语义识别的方法、装置、电子设备和存储介质 | |
CN109145213A (zh) | 基于历史信息的查询推荐方法及装置 | |
WO2019109663A1 (zh) | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 | |
CN109815396B (zh) | 搜索词权重确定方法及装置 | |
CN111708943A (zh) | 一种搜索结果展示方法、装置和用于搜索结果展示的装置 | |
CN108345608A (zh) | 一种搜索方法、装置及设备 | |
CN112631437A (zh) | 信息推荐方法、装置及电子设备 | |
CN112784142A (zh) | 一种信息推荐方法及装置 | |
CN113033163B (zh) | 一种数据处理方法、装置和电子设备 | |
CN111752436A (zh) | 一种推荐方法、装置和用于推荐的装置 | |
CN111414766B (zh) | 一种翻译方法及装置 | |
CN111241844B (zh) | 一种信息推荐方法及装置 | |
CN109977390B (zh) | 一种生成文本的方法及装置 | |
CN112133295B (zh) | 语音识别方法、装置及存储介质 | |
CN106339160A (zh) | 浏览交互处理方法及装置 | |
JP7208968B2 (ja) | 情報処理方法、装置および記憶媒体 | |
CN110399468B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN110851692B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN110858100B (zh) | 联想候选词生成方法及装置 | |
CN109976548B (zh) | 一种输入方法及输入装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TG01 | Patent term adjustment |