CN103793434A - 一种基于内容的图片搜索方法和装置 - Google Patents

一种基于内容的图片搜索方法和装置 Download PDF

Info

Publication number
CN103793434A
CN103793434A CN201210432356.3A CN201210432356A CN103793434A CN 103793434 A CN103793434 A CN 103793434A CN 201210432356 A CN201210432356 A CN 201210432356A CN 103793434 A CN103793434 A CN 103793434A
Authority
CN
China
Prior art keywords
key words
candidate key
word
descriptor
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210432356.3A
Other languages
English (en)
Inventor
方高林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210432356.3A priority Critical patent/CN103793434A/zh
Publication of CN103793434A publication Critical patent/CN103793434A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于内容的图片搜索方法和装置,其中方法包括:获取用户要搜索的图片;基于图片内容从图片库中对所述要搜索的图片进行检索,得到相关图片;从相关图片的上下文中提取候选主题词;将候选主题词的统计特征融合词性特征、结构特征、领域特征和词关系特征中的至少一种对候选主题词进行置信度的确定,利用置信度从候选主题词中选择主题词;依据选择的主题词与相关图片的相似状况,对相关图片进行排序后包含在搜索结果中返回给用户。本发明能够准确地提供用户需求的图片检索结果,节约系统资源,提高用户体验。

Description

一种基于内容的图片搜索方法和装置
【技术领域】
本发明涉及计算机应用技术领域,特别涉及一种基于内容的图片搜索方法和装置。
【背景技术】
在人们获取的各类信息中,听觉信息占20%,视觉信息占60%,其他信息占20%,由此可见图片信息在人们的信息生活中占据着重要的地位。如何更快更好地获取用户所需要的图片信息是亟待解决的一个重要课题。随着Internet的快速发展,越来越多的人期望从这些信息中获得自己需要的图片信息,然而面对数目巨大的图片信息,准确获得用户需要的信息并非易事,于是基于内容的图片搜索技术应运而生。
然而现有的基于内容的图片搜索技术并不能准确地理解用户需求,返回给用户的搜索结果使得用户往往不能快速地从中获取想要的信息,一方面浪费了系统资源,另一方面也浪费了用户的精力却得不到想要的结果,体验较差。
【发明内容】
有鉴于此,本发明提供了一种基于内容的图片搜索方法和装置,以便于准确地提供用户需求的图片检索结果,节约系统资源,提高用户体验。
具体技术方案如下:
一种基于内容的图片搜索方法,该方法包括:
S1、获取用户要搜索的图片;
S2、基于图片内容从图片库中对所述要搜索的图片进行检索,得到相关图片;
S3、从相关图片的上下文中提取候选主题词;
S4、将候选主题词的统计特征融合词性特征、结构特征、领域特征和词关系特征中的至少一种对候选主题词进行置信度的确定,利用置信度从候选主题词中选择主题词;
S5、依据选择的主题词与相关图片的相似状况,对相关图片进行排序后包含在搜索结果中返回给用户。
根据本发明一优选实施例,所述步骤S2具体包括:
S21、从所述要搜索的图片中提取局部特征;
S22、将提取的局部特征量化到视觉词汇上;
S23、利用量化得到的视觉词汇在图片库中进行检索得到相关图片。
根据本发明一优选实施例,所述步骤S3具体包括:
将所述相关图片的上下文进行分词处理和停用词过滤后,提取出预设词性的词语作为候选主题词;和/或,
从所述相关图片的上下文中提取满足预设搭配词模式的两个以上词语的搭配作为候选主题词,所述预设搭配词模式包括词性搭配要求、窗口长度和词语间隔。
根据本发明一优选实施例,所述步骤S3中进一步包括对提取出的候选主题词进行过滤,具体包括以下过滤处理中的至少一种:
过滤掉词频小于预设统计词频阈值的候选主题词;或者,
如果某候选主题词没有在二元词构成的query中以词头或词尾出现过,则过滤掉该候选主题词;或者,
如果某候选主题词是两个以上词语的搭配,且该候选主题词中的各词语在所述相关图片的上下文中没有出现过相邻,则过滤掉该候选主题词。
根据本发明一优选实施例,所述步骤S4中包括确定候选主题词的统计特征权重值,具体为:将每个相似图片的上下文分别作为一个文档,采用候选主题词的词频TF和文档频率DF综合确定候选主题词的统计特征权重值。
根据本发明一优选实施例,所述步骤S4中包括以下处理中的至少一种:
确定候选主题词的词性特征权重值,具体为:依据候选主题词的词性为候选主题词赋予对应的词性特征权重值;
确定候选主题词的结构特征权重值,具体为:依据候选主题词在文本中位置的重要程度为候选主题词赋予对应的结构特征权重值;
确定候选主题词的领域特征权重值,具体为:判断候选主题词中与该候选主题词所来源的文本是否属于同一个领域,如果是,将该候选主题词赋予较高的领域特征权重值,否则将该候选主题词赋予较低的领域特征权重值;
确定候选主题词的词关系特征权重值,具体为:选取统计特征权重值排在前N个的候选主题词构成集合T,依据候选主题词与T之间的距离确定候选主题词的词关系特征权重值,所述N为预设的正整数。
根据本发明一优选实施例,在确定候选主题词所属的领域时,查询词领域模型确定候选主题词属于各领域的概率,取其中的最大概率对应的领域作为该候选主题词所属的领域;
其中所述词领域模型是利用已有的分类语料统计各词语属于各领域的概率得到的。
根据本发明一优选实施例,候选主题词w与T之间的距离由该候选主题词w与T中各候选主题词之间的相似度之和得到,其中两个候选主题词之间的相似度通过查找预先建立的词关系模型确定。
根据本发明一优选实施例,在所述步骤S4中确定候选主题词的置信度时,将候选主题词的各特征权重值采用加权求和、权重乘积中至少一种方式进行融合得到候选主题词的置信度。
根据本发明一优选实施例,所述选择的主题词与相关图片的相似状况由相关图片的上下文中包含选择的主题词的数目来体现,包含的数目越多越相似。
根据本发明一优选实施例,该方法还包括:在所述步骤S5之前还包括:判断是否所述选择的主题词的分布特征权重值小于预设的分布特征权重值阈值,且所述选择的主题词的置信度小于预设的置信度阈值,如果是,则不返回搜索结果;否则继续执行所述步骤S5。
根据本发明一优选实施例,所述步骤S5中还包括:在搜索结果中进一步推送与所述选择的主题词相关的百科信息。
根据本发明一优选实施例,在搜索结果中推送与所述选择的主题词相关的百科信息具体包括:
将所述选择的主题词与百科数据库进行匹配,如果匹配到对应的词条,则将该词条的百科信息包含在搜索结果中推送给用户;或者,
查找词领域模型确定所述选择的主题词所属的领域,结合确定的领域将所述选择的主题词在百科数据库进行匹配,将匹配得到的词条的百科信息包含在搜索结果中推送给用户;或者,
确定置信度排在所述选择的主题词之后的其他L个候选主题词,所述L为预设的正整数,结合确定的L个候选主题词将所述选择的主题词在百科数据库进行匹配,将匹配得到的词条的百科信息包含在搜索结果中推送给用户;或者,
将所述选择的主题词中的专有名词在百科数据库中进行匹配,将匹配得到的词条的百科信息包含在搜索结果中推送给用户。
一种基于内容的图片搜索装置,该装置包括:
图片获取单元,用于获取用户要搜索的图片;
图片检索单元,用于基于图片内容从图片库中对所述要搜索的图片进行检索,得到相关图片;
候选词提取单元,用于从相关图片的上下文中提取候选主题词;
主题词选择单元,用于将候选主题词的统计特征融合词性特征、结构特征、领域特征和词关系特征中的至少一种对候选主题词进行置信度的确定,利用置信度从候选主题词中选择主题词;
图片排序单元,用于依据选择的主题词与相关图片的相似状况,对相关图片进行排序;
结果输出单元,用于将排序后的相关图片包含在搜索结果中返回给用户。
根据本发明一优选实施例,所述图片检索单元具体配置为:从所述要搜索的图片中提取局部特征,将提取的局部特征量化到视觉词汇上,利用量化得到的视觉词汇在图片库中进行检索得到相关图片。
根据本发明一优选实施例,所述候选词提取单元具体配置为:
将所述相关图片的上下文进行分词处理和停用词过滤后,提取出预设词性的词语作为候选主题词;和/或,
从所述相关图片的上下文中提取满足预设搭配词模式的两个以上词语的搭配作为候选主题词,所述预设搭配词模式包括词性搭配要求、窗口长度和词语间隔。
根据本发明一优选实施例,所述候选词提取单元还用于对提取出的候选主题词进行过滤,具体包括以下过滤处理中的至少一种:
过滤掉词频小于预设统计词频阈值的候选主题词;或者,
如果某候选主题词没有在二元词构成的query中以词头或词尾出现过,则过滤掉该候选主题词;或者,
如果某候选主题词是两个以上词语的搭配,且该候选主题词中的各词语在所述相关图片的上下文中没有出现过相邻,则过滤掉该候选主题词。
根据本发明一优选实施例,所述主题词选择单元包括:统计特征确定子单元,用于将每个相似图片的上下文分别作为一个文档,采用候选主题词的词频TF和文档频率DF综合确定候选主题词的统计特征权重值。
根据本发明一优选实施例,所述主题词选择单元包括:词性特征确定子单元、结构特征确定子单元、领域特征确定子单元和词关系特征确定子单元中的至少一种;
所述词性特征确定子单元,用于依据候选主题词的词性为候选主题词赋予对应的词性特征权重值;
所述结构特征确定子单元,用于依据候选主题词在文本中位置的重要程度为候选主题词赋予对应的结构特征权重值;
所述领域特征确定子单元,用于判断候选主题词中与该候选主题词所来源的文本是否属于同一个领域,如果是,将该候选主题词赋予较高的领域特征权重值,否则将该候选主题词赋予较低的领域特征权重值;
所述词关系特征确定子单元,用于选取统计特征权重值排在前N个的候选主题词构成集合T,依据候选主题词与T之间的距离确定候选主题词的词关系特征权重值,所述N为预设的正整数。
根据本发明一优选实施例,所述领域特征确定子单元在确定候选主题词所属的领域时,查询词领域模型确定候选主题词属于各领域的概率,取其中的最大概率对应的领域作为该候选主题词所属的领域;
其中所述词领域模型是利用已有的分类语料统计各词语属于各领域的概率得到的。
根据本发明一优选实施例,所述词关系特征确定子单元确定的候选主题词w与T之间的距离由该候选主题词w与T中各候选主题词之间的相似度之和得到,其中两个候选主题词之间的相似度通过查找预先建立的词关系模型确定。
根据本发明一优选实施例,所述主题词选择单元还包括:置信度确定子单元,用于将候选主题词的各特征权重值采用加权求和、权重乘积中至少一种方式进行融合得到候选主题词的置信度。
根据本发明一优选实施例,所述选择的主题词与相关图片的相似状况由相关图片的上下文中包含选择的主题词的数目来体现,包含的数目越多越相似。
根据本发明一优选实施例,该装置还包括:判断单元,用于判断是否所述选择的主题词的分布特征权重值小于预设的分布特征权重值阈值,且所述选择的主题词的置信度小于预设的置信度阈值,如果是,则禁止所述结果输出单元返回搜索结果;否则允许所述结果输出单元返回搜索结果。
根据本发明一优选实施例,该装置还包括:百科推送单元,用于在所述搜索结果中进一步推送与所述选择的主题词相关的百科信息。
根据本发明一优选实施例,所述百科推送单元具体配置为:
将所述选择的主题词与百科数据库进行匹配,如果匹配到对应的词条,则将该词条的百科信息包含在搜索结果中推送给用户;或者,
查找词领域模型确定所述选择的主题词所属的领域,结合确定的领域将所述选择的主题词在百科数据库进行匹配,将匹配得到的词条的百科信息包含在搜索结果中推送给用户;或者,
确定置信度排在所述选择的主题词之后的其他L个候选主题词,所述L为预设的正整数,结合确定的L个候选主题词将所述选择的主题词在百科数据库进行匹配,将匹配得到的词条的百科信息包含在搜索结果中推送给用户;或者,
将所述选择的主题词中的专有名词在百科数据库中进行匹配,将匹配得到的词条的百科信息包含在搜索结果中推送给用户。
由以上技术方案可以看出,本发明通过从相关图片的上下文中提取主题词,在提取主题词的过程中采用融合主题词的多种特征确定置信度的方式,使得最终提取出的主题词能够很好地在语义上反映用户的图片检索需求,因此依据该主题词与相关图片的相似状况对相关图片进行排序后返回的搜索结果更好地体现出了用户的搜索需求,准确地提供用户需求的图片检索结果,节约系统资源,提高用户体验。
【附图说明】
图1为本发明实施例一提供的基于内容的图片搜索方法流程图;
图2为本发明实施例一提供的搜索结果的一个实例图;
图3为本发明实施例二提供的基于内容的图片搜索装置结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例一、
图1为本发明实施例一提供的基于内容的图片搜索方法流程图,如图1所示,该方法具体包括以下步骤:
步骤101:获取用户要搜索的图片。
当用户需要进行图片搜索时,会向搜索引擎上传要搜索的图片或者将一副图片拖拽至搜索引擎指定的位置等,搜索引擎首先获取用户通过这些方式进行搜索的图片。
步骤102:基于图片内容从图片库中对要搜索的图片进行检索,得到相关图片。
本步骤中首先从要搜索的图片中提取局部特征,该局部特征在提取时可以采用高斯差分(DoG,Difference of Gaussian)滤波算子和尺度不变特征变换(SIFT,Scale-invariant feature transform)技术。局部特征用来描述图片中的局部共性特征,理想的局部特征应具有平移、缩放、旋转不变性,同时对光照变化、仿射及投影影响也具有良好的鲁棒性。这里可以采用基于尺度空间的、对图像缩放、旋转甚至仿射变换保持不变性的图像局部特征描述算子SIFT,将一副图片变换为一个局部特征的集合。
然后将提取的局部特征量化到视觉词汇上,利用该视觉词汇在图片库中进行检索,得到相关图片。由于图片库是依据视觉词汇对图片建立倒排索引后得到的大规模图片库,因此将从要搜索的图片中提取的局部特征在图片库中进行检索时,在图片库中命中的视觉词汇对应的图片就是得到的相关图片。
本步骤是现有技术,在此不做更具体的描述。
步骤103:从相关图片的上下文中提取候选主题词。
本步骤中将相关图片的上下文进行文本组合后作为主题词提取的输入,也就是说,将所有相关图片的上下文文本组合在一起,从中统一提取要搜索图片的主题词。在此提取的主题词除了通常所采用的单词之外,还有能够更准确更多元表达图片语义的复合词,即由两个以上词语搭配构成。例如,单个词“小白”并不能充分表达图片的主题,而“小白插画”则能够更充分表达图片的主题。
这题提取的候选主题词包括两部分:提取单词作为候选主题词和提取两个以上的词语的搭配作为候选主题词。
其中提取单词作为候选主题词时,是将相关图片的上下文进行分词处理后,进行停用词过滤,提取出预设词性的词语作为候选主题词,通常是提取出专有名词作为候选主题词。
提取两个以上的词语的搭配作为候选主题词时,是从该相关图片的上下文中提取满足预设搭配词模式的两个以上词语的搭配作为候选主题词。
在本步骤中之所以考虑两个以上词语的搭配是用于解决类似问题,比如:“小白插画”,它在上下文中有多种的表达方式,“小白插画”、“小白的插画”、“小白做的插画”等等,如果单纯依靠相连上的统计,“小白插画”仅出现一次,很难作为一个显著的特征被提取出来,所以本发明采用基于搭配的方式选取可能的候选再进行噪声过滤,从而大大提高主题的精度。
上述预设搭配词模式包括:词性搭配要求、窗口长度和词语间隔,也就是说,要提取出在预设窗口长度内满足词性搭配要求且词语间隔也满足预设词语间隔的词语搭配。其中词性搭配要求可以包括但不限于:形容词+名词、名词+名词、名词+动词、动词+名词等,词语间隔通常可以设置为5个字以内。
经过上述方式获得的候选主题词可能会存在大量的噪声,在此可以进一步对候选主题词进行过滤。采用的过滤可以包括但不限于:基于词频的过滤、基于头词和尾词的过滤、基于相邻状况的过滤中的至少一种。
其中基于词频的过滤指的是过滤掉词频小于预设统计词频阈值的候选主题词,也就是说,仅保留词频较高的一部分候选主题词。
基于词头和词尾的过滤是:如果候选主题词既没有在二元词构成的query中以词头出现过,也没有在二元词构成的query中以词尾中出现过,则过滤掉该候选主题词。这里可以预先在搜索日志中统计二元词构成的query,针对各候选主题词分别判断是否在这些二元词构成的query中作为词头或词尾出现过,如果有,则保留;否则过滤掉。
基于相邻状况的过滤指的是判断词语的搭配中词语是否至少出现过一次相邻,如果否,则过滤掉该搭配。
步骤104:将统计特征融合词性特征、结构特征、领域特征、词关系特征中的至少一种对候选主题词进行置信度的确定;最后利用置信度从候选主题词中选择出主题词。
在进行置信度计算时,分别计算候选主题词的统计特征权重值,再计算词性特征权重值、结构特征权重值、领域特征权重值、词关系特征权重值中的至少一种,再将各权重值进行融合,得到候选主题词的置信度。
在计算候选主题词w的统计特征权重值fStatWgt(w)时,将每个相似图片的上下文看做一个文档,对于来源不同的图片,将每个来源的上下文分别看做一个文档。对于候选主题词,只有出现在多个文档中且分布很广才认为有效,这里采用文档频率(DF)来体现分布状况,TF来体现频率状况,可以采用fStatWgt(w)=DF(w)+logTF(w)。其中通过DF特征能够有效区分一些作弊网页,例如一个图片中的标题(title)和正文(content)中反复出现“qq空间qq空间qq空间qq空间qq空间qq空间qq空间”,如果从单纯的TF特征,则该“qq空间”的频率很大,但对于在别的来源图片中,如果基本不包含该主题词,则其DF仍很低。
在计算候选主题词w的词性特征权重值fBaseWgt(w)时,可以将不同的词性赋予不同的权重。更进一步地,可以将词语进行分级,例如分成停用词、泛化词、普通地名、标签、专业名词等,不同级别的词具有不同的权值。
在计算候选主题词w的结构特征权重值fLocWgt(w)时,考虑的是候选主题词在文本中的位置,例如将在出现在title中的候选主题词、出现首段或尾段中的候选主题词或者包含句首词的候选主题词赋予较高的权重。例如content内时可以按照首段、尾段最高,中间位置最低的方式进行渐变,可以采用函数其中f(w)为候选主题词w在文章中的第几个段落,段落从0开始编号。另外在计算结构特征权重时,可以进一步融合候选关键词的长度特征,采用中心为8个字节的正太分布函数进行模拟,依据候选关键词的长度对结构特征权重值进行影响。
在计算候选主题词w的领域特征权重值fClassWgt(w)时,判断候选主题词中的词语与其所来源的文本是否属于同一个领域,如果是,则将该候选主题词的fClassWgt(w)设为较高值,否则将该候选主题词的fClassWgt(w)设为较低值。文本所属的领域可以直接依据其所在网站的分类或频道分类得到,这里的领域分类可以是诸如体育、军事、娱乐、科技等等。在确定候选主题词w的分类时是依据预先建立的词领域模型得到的,词领域模型的建立是一个线下训练过程,利用现有分类语料,例如各类型的网站或频道中文本作为训练语料,统计每个词属于各领域的概率得到词领域模型。通过查询词领域模型确定候选主题词w属于各领域的概率,取其中最大概率对应的领域作为候选主题词w所属的领域。
在计算候选主题词w的词关系特征权重值fRelationWgt(w)时,选取统计特征权重值fStatWgt(w)排在前N个的候选主题词构成集合T,N为预设的正整数,计算候选主题词w与集合T的距离Dis(w,T),依据Dis(w,T)确定fRelationWgt(w)。其中Dis(w,T)由w与集合T之间的相似度体现,例如
Figure BDA00002349656900111
其中Sim(w,x)为词语w与x之间的相似度,可以通过查询预先建立的词关系模型确定。Dis(w,T)值越大,fRelationWgt(w)值越大。
词关系模型的建立是线下训练过程,在大规模文本中统计符合共现关系模板且在一定窗口范围内的词语,其中贡献关系模板包括但不限于:形容词+名词、名词+名词、名词+动词、动词+名词等。上述窗口范围可以在5个词以内。对统计到的词语w1和w2计算它们之间的相似度Sim(w1,w2):
Sim ( w 1 , w 2 ) = Σ w ′ ∈ C PMI ( w ′ , w 1 ) PMI ( w ′ , w 2 ) Σ w ′ ∈ C PMI ( w ′ , w 1 ) 2 Σ w ′ ∈ C PMI ( w ′ , w 2 ) 2
其中,C表示所有统计得到的词语集合,PMI(x1,y1)表示x1和y1之间的互信息分值,
Figure BDA00002349656900113
其中P(x1,y1)为x1和y1的共现概率,P(x1)为x1出现的概率,P(y1)为y1出现的概率,x1为w′,y1为w1或w2
词关系特征权重值的计算能够对明显与其他候选主题词不相似的候选主题词进行打压。例如按照统计特征权重值排在前5名的候选主题词是:“赛尔号”、“蛙”、“莫言”、“诺贝尔文学奖”、“红高粱家族”,其中“赛尔号”与其他候选主题词由于距离较大而具有很低的词关系特征权重值,从而降低其置信度。
在将各权重值进行融合,得到候选主题词的置信度时,可以采用加权求和、权重乘积等方式中的至少一种进行融合,优选地,可以采用如下公式来确定候选主题词w的置信度fWgt(w):
fWgt(w)=fStatWgt(w)×(α1×fBaseWgt(w)+α2×fLocWgt(w)+α3×fClassWgt(w)+α4×fRelationWgt(w)),其中α1、α2、α3和α4分别为权重系数,可以采用经验值,也可以采用机器学习的方式预先训练得到。
利用确定出的置信度,选择置信度排在前M个的候选主题词作为最终的主题词,其中M为正整数,优选地,M取1。
步骤105:依据选择的主题词与相关图片的相似状况,对相关图片进行排序后包含在搜索结果中返回给用户。
在将相关图片包含在搜索结果中返回给用户时,需要对相关图片进行排序(Rank),这里Rank的依据是主题词与相关图片的上下文的相似状况,越相似的排在越前面的位置。主题词与相关图片的上下文的相似状况可以通过相关图片的上下文包含主题词的数目来体现,包含的数目越多,越相似。
对于选择置信度最大的候选主题词作为要搜索的图片的主题词时,如果考虑文本噪声的影响,有些类别不能给出准确的预测。例如如果该主题词的分布特征权重值小于预设的分布特征权重值阈值,并且该主题词的置信度也小于预设的置信度阈值,则不输出任何搜索结果,从而避免搜索结果质量很差,给用户带来很差的用户体验。
除此之外,在搜索结果中还可以进一步的推送与主题词相关的百科信息,即还可以执行步骤106。在此可以将主题词与百科数据库进行匹配,如果匹配到对应的词条,则将该词条的百科信息包含在搜索结果中推送给用户。
举个例子,假设用户上传了一张照片,上传的照片如图2中右上角的图片所示,经过上述主题词的提取过程后,提取出主题词为“张俪”,将相关图片经过排序后包含在搜索结果中,除此之外将“张俪”在百科数据库中进行匹配后,发现存在词条“张俪”,将该词条对应的百科信息也包含在搜索结果中返回给用户。如图2所示,该百科信息可以展示在搜索结果的前端。这样用户可以更直接快速地获得更丰富的信息。
另外,由于某些主题词可能存在歧义,例如“文章”可能是一个普通词,也可能是一个演员的名字,因此在推送与主题词相关的百科信息时,可以首先通过查找词领域模型确定主题词所属的领域,结合主题词所属的领域将主题词在百科数据库中进行匹配,确定匹配的词条对应的百科信息。当用户上传电影演员文章的图片时,由于搜索出的相关图片的上下文很大程度上是关于电影、娱乐、电视剧、演员等,在利用词领域模型识别主题词“文章”的领域时,就能够确定出其领域可能是演员或娱乐等,结合该领域信息就能够匹配到用户所需要的百科信息,而不是将“文章”作为一个普通词。
还有一种状况,就是词领域模型区分粒度有限,比如同是人名“张山”,在体育这一领域下可能是射击运动员,也可能是摔跤运动员,这样通过词领域模型可能无法区分,因此在本发明中另一优选实施方式,可以将该主题词与置信度排在该主题词之后的其他L个候选主题词相结合来确定百科信息,其中L为预设的正整数,例如取1或2。举个例子,假设主题词为“张山”,置信度排在张山之后的2个候选主题词为“飞碟”和“射击”,那么结合“飞碟”和“射击”将“张山”在百科数据库中进行匹配就能够得到飞碟射击运动员“张山”的百科词条。
对于主题词是两个以上词语搭配的情况,则可以将主题词中的专有名词在百科数据库中进行匹配,确定匹配的词条对应的百科信息。
由于百科数据库中存储的词条为专有名词,因此在百科数据库中进行匹配之前,首先判断主题词中是否有专有名词,如果是,再进行匹配,否则无需推送百科信息,即不需要在百科数据库中进行匹配。
另外,对于主题词是两个以上词语搭配的情况,且主题词中包含专有名词,则可以结合该专有名词在主题词中的搭配词在百科数据库中进行匹配,确定匹配的词条对应的百科信息。
以上是对本发明所提供的方法进行的描述,下面通过实施例二对本发明所提供的装置进行详细描述。
实施例二、
图3为本发明实施例二提供的基于内容的图片搜索装置结构图,如图3所示,该装置包括:图片获取单元300、图片检索单元310、候选词提取单元320、主题词选择单元330、图片排序单元340和结果输出单元350。
图片获取单元300,用于获取用户要搜索的图片。当用户需要进行图片搜索时,会向搜索引擎上传要搜索的图片或者将一副图片拖拽至搜索引擎指定的位置等,图片获取单元300首先获取用户通过这些方式进行搜索的图片。
图片检索单元310,用于基于图片内容从图片库中对要搜索的图片进行检索,得到相关图片。具体执行:从要搜索的图片中提取局部特征,将提取的局部特征量化到视觉词汇上,利用量化得到的视觉词汇在图片库中进行检索得到相关图片。在提取局部特征时可以采用DoG滤波算子和SIFT技术。
候选词提取单元320,用于从相关图片的上下文中提取候选主题词。在此提取的主题词除了通常所采用的单词之外,还有能够更准确更多元表达图片语义的复合词,即由两个以上词语搭配构成。
提取单词的方式为:将相关图片的上下文进行分词处理和停用词过滤后,提取出预设词性的词语作为候选主题词,通常是提取出专有名词作为候选主题词。
提取两个以上词语搭配作为候选主题词的方式为:从相关图片的上下文中提取满足预设搭配词模式的两个以上词语的搭配作为候选主题词,预设搭配词模式包括词性搭配要求、窗口长度和词语间隔,也就是说,要提取出在预设窗口长度内满足词性搭配要求且词语间隔也满足预设词语间隔的词语搭配。其中词性搭配要求可以包括但不限于:形容词+名词、名词+名词、名词+动词、动词+名词等,词语间隔通常可以设置为5个字以内。
此时提取出的候选主题词可能会存在大量的噪声,鉴于此,候选词提取单元320还用于对提取出的候选主题词进行过滤,具体包括以下过滤处理中的至少一种:
过滤掉词频小于预设统计词频阈值的候选主题词;或者,
如果某候选主题词没有在二元词构成的query中以词头或词尾出现过,则过滤掉该候选主题词;或者,
如果某候选主题词是两个以上词语的搭配,且该候选主题词中的各词语在相关图片的上下文中没有出现过相邻,则过滤掉该候选主题词。
主题词选择单元330,用于将候选主题词的统计特征融合词性特征、结构特征、长度特征、领域特征和词关系特征中的至少一种对候选主题词进行置信度的确定,利用置信度从候选主题词中选择主题词。
在进行置信度计算时,分别计算候选主题词的统计特征权重值,再计算词性特征权重值、结构特征权重值、领域特征权重值、词关系特征权重值中的至少一种,再将各权重值进行融合,得到候选主题词的置信度。因此,主题词选择单元330包括:统计特征确定子单元331,用于将每个相似图片的上下文分别作为一个文档,采用候选主题词的TF和DF综合确定候选主题词的统计特征权重值。
更进一步地,主题词选择单元330还可以包括:词性特征确定子单元332、结构特征确定子单元333、领域特征确定子单元334和词关系特征确定子单元335中的至少一种.
其中词性特征确定子单元332,用于依据候选主题词的词性为候选主题词赋予对应的词性特征权重值,可以将不同的词性赋予不同的权重。更进一步地,可以将词语进行分级,例如分成停用词、泛化词、普通地名、标签、专业名词等,不同级别的词具有不同的权值。
结构特征确定子单元333,用于依据候选主题词在文本中位置的重要程度为候选主题词赋予对应的结构特征权重值。例如将在出现在title中的候选主题词、出现首段或尾段中的候选主题词或者包含句首词的候选主题词赋予较高的权重。例如content内时可以按照首段、尾段最高,中间位置最低的方式进行渐变,可以采用函数
Figure BDA00002349656900161
其中f(w)为候选主题词w在文章中的第几个段落,段落从0开始编号。另外在计算结构特征权重时,可以进一步融合候选关键词的长度特征,采用中心为8个字节的正太分布函数进行模拟,依据候选关键词的长度对结构特征权重值进行影响。
领域特征确定子单元334,用于判断候选主题词中与该候选主题词所来源的文本是否属于同一个领域,如果是,将该候选主题词赋予较高的领域特征权重值,否则将该候选主题词赋予较低的领域特征权重值。文本所属的领域可以直接依据其所在网站的分类或频道分类得到,这里的领域分类可以是诸如体育、军事、娱乐、科技等等。在确定候选主题词w的分类时是依据预先建立的词领域模型得到的,词领域模型的建立是一个线下训练过程,利用现有分类语料,例如各类型的网站或频道中文本作为训练语料,统计每个词属于各领域的概率得到词领域模型。通过查询词领域模型确定候选主题词w属于各领域的概率,取其中最大概率对应的领域作为候选主题词w所属的领域。
词关系特征确定子单元335,用于选取统计特征权重值排在前N个的候选主题词构成集合T,依据候选主题词与T之间的距离确定候选主题词的词关系特征权重值,N为预设的正整数。候选主题词w与T之间的距离由该候选主题词w与T中各候选主题词之间的相似度之和得到,其中两个候选主题词之间的相似度通过查找预先建立的词关系模型确定,词关系模型的建立过程参见实施例一中的描述。
除此之外,主题词选择单元330还可以包括:置信度确定子单元336,用于将候选主题词的各特征权重值采用加权求和、权重乘积中至少一种方式进行融合得到候选主题词的置信度。优选地,可以采用如下公式来确定候选主题词w的置信度fWgt(w):
fWgt(w)=fStatWgt(w)×(α1×fBaseWgt(w)+α2×fLocWgt(w)+α3×fClassWgt(w)+α4×fRelationWgt(w)),其中α1、α2、α3和α4分别为权重系数,可以采用经验值,也可以采用机器学习的方式预先训练得到。fStatWgt(w)为候选主题词w的统计特征权重值,fBaseWgt(w)为候选主题词w的词性特征权重值,fLocWgt(w)为候选主题词w的结构特征权重值,fClassWgt(w)为候选主题词w的领域特征权重值,fRelationWgt(w)为候选主题词w的词关系特征权重值。
图片排序单元340,用于依据选择的主题词与相关图片的相似状况,对相关图片进行排序。其中主题词与相关图片的相似状况由相关图片的上下文中包含主题词的数目来体现,包含的数目越多越相似。
结果输出单元350,用于将排序后的相关图片包含在搜索结果中返回给用户。
另外,为了避免搜索结果质量很差,给用户带来很差的用户体验,该装置还包括:判断单元360,用于判断是否选择的主题词的分布特征权重值小于预设的分布特征权重值阈值,且选择的主题词的置信度小于预设的置信度阈值,如果是,则禁止结果输出单元350返回搜索结果;否则允许结果输出单元350返回搜索结果。
更进一步地,该装置还可以包括:百科推送单元370,用于在搜索结果中进一步推送与选择的主题词相关的百科信息。具体可以采用以下方式中的至少一种:
将选择的主题词与百科数据库进行匹配,如果匹配到对应的词条,则将该词条的百科信息包含在搜索结果中推送给用户;
查找词领域模型确定选择的主题词所属的领域,结合确定的领域将选择的主题词在百科数据库进行匹配,将匹配得到的词条的百科信息包含在搜索结果中推送给用户;
确定置信度排在选择的主题词之后的其他L个候选主题词,L为预设的正整数,结合确定的L个候选主题词将选择的主题词在百科数据库进行匹配,将匹配得到的词条的百科信息包含在搜索结果中推送给用户;
将选择的主题词中的专有名词在百科数据库中进行匹配,将匹配得到的词条的百科信息包含在搜索结果中推送给用户。
由以上描述可以看出,本发明提供的方法和装置具备以下优点:
1)本发明通过从相关图片的上下文中提取主题词,在提取主题词的过程中采用融合主题词的多种特征确定置信度的方式,使得最终提取出的主题词能够很好地在语义上反映用户的图片检索需求,因此依据该主题词与相关图片的相似状况对相关图片进行排序后返回的搜索结果更好地体现出了用户的搜索需求,准确地提供用户需求的图片检索结果,节约系统资源,提高用户体验。
2)在搜索结果中可以进一步推送与主题词相关的百科信息,更方便用户准确地获取相关信息。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (26)

1.一种基于内容的图片搜索方法,其特征在于,该方法包括:
S1、获取用户要搜索的图片;
S2、基于图片内容从图片库中对所述要搜索的图片进行检索,得到相关图片;
S3、从相关图片的上下文中提取候选主题词;
S4、将候选主题词的统计特征融合词性特征、结构特征、领域特征和词关系特征中的至少一种对候选主题词进行置信度的确定,利用置信度从候选主题词中选择主题词;
S5、依据选择的主题词与相关图片的相似状况,对相关图片进行排序后包含在搜索结果中返回给用户。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2具体包括:
S21、从所述要搜索的图片中提取局部特征;
S22、将提取的局部特征量化到视觉词汇上;
S23、利用量化得到的视觉词汇在图片库中进行检索得到相关图片。
3.根据权利要求1所述的方法,其特征在于,所述步骤S3具体包括:
将所述相关图片的上下文进行分词处理和停用词过滤后,提取出预设词性的词语作为候选主题词;和/或,
从所述相关图片的上下文中提取满足预设搭配词模式的两个以上词语的搭配作为候选主题词,所述预设搭配词模式包括词性搭配要求、窗口长度和词语间隔。
4.根据权利要求1或3所述的方法,其特征在于,所述步骤S3中进一步包括对提取出的候选主题词进行过滤,具体包括以下过滤处理中的至少一种:
过滤掉词频小于预设统计词频阈值的候选主题词;或者,
如果某候选主题词没有在二元词构成的query中以词头或词尾出现过,则过滤掉该候选主题词;或者,
如果某候选主题词是两个以上词语的搭配,且该候选主题词中的各词语在所述相关图片的上下文中没有出现过相邻,则过滤掉该候选主题词。
5.根据权利要求1所述的方法,其特征在于,所述步骤S4中包括确定候选主题词的统计特征权重值,具体为:将每个相似图片的上下文分别作为一个文档,采用候选主题词的词频TF和文档频率DF综合确定候选主题词的统计特征权重值。
6.根据权利要求1所述的方法,其特征在于,所述步骤S4中包括以下处理中的至少一种:
确定候选主题词的词性特征权重值,具体为:依据候选主题词的词性为候选主题词赋予对应的词性特征权重值;
确定候选主题词的结构特征权重值,具体为:依据候选主题词在文本中位置的重要程度为候选主题词赋予对应的结构特征权重值;
确定候选主题词的领域特征权重值,具体为:判断候选主题词中与该候选主题词所来源的文本是否属于同一个领域,如果是,将该候选主题词赋予较高的领域特征权重值,否则将该候选主题词赋予较低的领域特征权重值;
确定候选主题词的词关系特征权重值,具体为:选取统计特征权重值排在前N个的候选主题词构成集合T,依据候选主题词与T之间的距离确定候选主题词的词关系特征权重值,所述N为预设的正整数。
7.根据权利要求6所述的方法,其特征在于,在确定候选主题词所属的领域时,查询词领域模型确定候选主题词属于各领域的概率,取其中的最大概率对应的领域作为该候选主题词所属的领域;
其中所述词领域模型是利用已有的分类语料统计各词语属于各领域的概率得到的。
8.根据权利要求6所述的方法,其特征在于,候选主题词w与T之间的距离由该候选主题词w与T中各候选主题词之间的相似度之和得到,其中两个候选主题词之间的相似度通过查找预先建立的词关系模型确定。
9.根据权利要求5或6所述的方法,其特征在于,在所述步骤S4中确定候选主题词的置信度时,将候选主题词的各特征权重值采用加权求和、权重乘积中至少一种方式进行融合得到候选主题词的置信度。
10.根据权利要求1所述的方法,其特征在于,所述选择的主题词与相关图片的相似状况由相关图片的上下文中包含选择的主题词的数目来体现,包含的数目越多越相似。
11.根据权利要求6所述的方法,其特征在于,该方法还包括:在所述步骤S5之前还包括:判断是否所述选择的主题词的分布特征权重值小于预设的分布特征权重值阈值,且所述选择的主题词的置信度小于预设的置信度阈值,如果是,则不返回搜索结果;否则继续执行所述步骤S5。
12.根据权利要求1所述的方法,其特征在于,所述步骤S5中还包括:在搜索结果中进一步推送与所述选择的主题词相关的百科信息。
13.根据权利要求12所述的方法,其特征在于,在搜索结果中推送与所述选择的主题词相关的百科信息具体包括:
将所述选择的主题词与百科数据库进行匹配,如果匹配到对应的词条,则将该词条的百科信息包含在搜索结果中推送给用户;或者,
查找词领域模型确定所述选择的主题词所属的领域,结合确定的领域将所述选择的主题词在百科数据库进行匹配,将匹配得到的词条的百科信息包含在搜索结果中推送给用户;或者,
确定置信度排在所述选择的主题词之后的其他L个候选主题词,所述L为预设的正整数,结合确定的L个候选主题词将所述选择的主题词在百科数据库进行匹配,将匹配得到的词条的百科信息包含在搜索结果中推送给用户;或者,
将所述选择的主题词中的专有名词在百科数据库中进行匹配,将匹配得到的词条的百科信息包含在搜索结果中推送给用户。
14.一种基于内容的图片搜索装置,其特征在于,该装置包括:
图片获取单元,用于获取用户要搜索的图片;
图片检索单元,用于基于图片内容从图片库中对所述要搜索的图片进行检索,得到相关图片;
候选词提取单元,用于从相关图片的上下文中提取候选主题词;
主题词选择单元,用于将候选主题词的统计特征融合词性特征、结构特征、领域特征和词关系特征中的至少一种对候选主题词进行置信度的确定,利用置信度从候选主题词中选择主题词;
图片排序单元,用于依据选择的主题词与相关图片的相似状况,对相关图片进行排序;
结果输出单元,用于将排序后的相关图片包含在搜索结果中返回给用户。
15.根据权利要求14所述的装置,其特征在于,所述图片检索单元具体配置为:从所述要搜索的图片中提取局部特征,将提取的局部特征量化到视觉词汇上,利用量化得到的视觉词汇在图片库中进行检索得到相关图片。
16.根据权利要求14所述的装置,其特征在于,所述候选词提取单元具体配置为:
将所述相关图片的上下文进行分词处理和停用词过滤后,提取出预设词性的词语作为候选主题词;和/或,
从所述相关图片的上下文中提取满足预设搭配词模式的两个以上词语的搭配作为候选主题词,所述预设搭配词模式包括词性搭配要求、窗口长度和词语间隔。
17.根据权利要求14或16所述的装置,其特征在于,所述候选词提取单元还用于对提取出的候选主题词进行过滤,具体包括以下过滤处理中的至少一种:
过滤掉词频小于预设统计词频阈值的候选主题词;或者,
如果某候选主题词没有在二元词构成的query中以词头或词尾出现过,则过滤掉该候选主题词;或者,
如果某候选主题词是两个以上词语的搭配,且该候选主题词中的各词语在所述相关图片的上下文中没有出现过相邻,则过滤掉该候选主题词。
18.根据权利要求14所述的装置,其特征在于,所述主题词选择单元包括:统计特征确定子单元,用于将每个相似图片的上下文分别作为一个文档,采用候选主题词的词频TF和文档频率DF综合确定候选主题词的统计特征权重值。
19.根据权利要求14所述的装置,其特征在于,所述主题词选择单元包括:词性特征确定子单元、结构特征确定子单元、领域特征确定子单元和词关系特征确定子单元中的至少一种;
所述词性特征确定子单元,用于依据候选主题词的词性为候选主题词赋予对应的词性特征权重值;
所述结构特征确定子单元,用于依据候选主题词在文本中位置的重要程度为候选主题词赋予对应的结构特征权重值;
所述领域特征确定子单元,用于判断候选主题词中与该候选主题词所来源的文本是否属于同一个领域,如果是,将该候选主题词赋予较高的领域特征权重值,否则将该候选主题词赋予较低的领域特征权重值;
所述词关系特征确定子单元,用于选取统计特征权重值排在前N个的候选主题词构成集合T,依据候选主题词与T之间的距离确定候选主题词的词关系特征权重值,所述N为预设的正整数。
20.根据权利要求19所述的装置,其特征在于,所述领域特征确定子单元在确定候选主题词所属的领域时,查询词领域模型确定候选主题词属于各领域的概率,取其中的最大概率对应的领域作为该候选主题词所属的领域;
其中所述词领域模型是利用已有的分类语料统计各词语属于各领域的概率得到的。
21.根据权利要求19所述的装置,其特征在于,所述词关系特征确定子单元确定的候选主题词w与T之间的距离由该候选主题词w与T中各候选主题词之间的相似度之和得到,其中两个候选主题词之间的相似度通过查找预先建立的词关系模型确定。
22.根据权利要求18或19所述的装置,其特征在于,所述主题词选择单元还包括:置信度确定子单元,用于将候选主题词的各特征权重值采用加权求和、权重乘积中至少一种方式进行融合得到候选主题词的置信度。
23.根据权利要求14所述的装置,其特征在于,所述选择的主题词与相关图片的相似状况由相关图片的上下文中包含选择的主题词的数目来体现,包含的数目越多越相似。
24.根据权利要求19所述的装置,其特征在于,该装置还包括:判断单元,用于判断是否所述选择的主题词的分布特征权重值小于预设的分布特征权重值阈值,且所述选择的主题词的置信度小于预设的置信度阈值,如果是,则禁止所述结果输出单元返回搜索结果;否则允许所述结果输出单元返回搜索结果。
25.根据权利要求14所述的装置,其特征在于,该装置还包括:百科推送单元,用于在所述搜索结果中进一步推送与所述选择的主题词相关的百科信息。
26.根据权利要求25所述的装置,其特征在于,所述百科推送单元具体配置为:
将所述选择的主题词与百科数据库进行匹配,如果匹配到对应的词条,则将该词条的百科信息包含在搜索结果中推送给用户;或者,
查找词领域模型确定所述选择的主题词所属的领域,结合确定的领域将所述选择的主题词在百科数据库进行匹配,将匹配得到的词条的百科信息包含在搜索结果中推送给用户;或者,
确定置信度排在所述选择的主题词之后的其他L个候选主题词,所述L为预设的正整数,结合确定的L个候选主题词将所述选择的主题词在百科数据库进行匹配,将匹配得到的词条的百科信息包含在搜索结果中推送给用户;或者,
将所述选择的主题词中的专有名词在百科数据库中进行匹配,将匹配得到的词条的百科信息包含在搜索结果中推送给用户。
CN201210432356.3A 2012-11-02 2012-11-02 一种基于内容的图片搜索方法和装置 Pending CN103793434A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210432356.3A CN103793434A (zh) 2012-11-02 2012-11-02 一种基于内容的图片搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210432356.3A CN103793434A (zh) 2012-11-02 2012-11-02 一种基于内容的图片搜索方法和装置

Publications (1)

Publication Number Publication Date
CN103793434A true CN103793434A (zh) 2014-05-14

Family

ID=50669113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210432356.3A Pending CN103793434A (zh) 2012-11-02 2012-11-02 一种基于内容的图片搜索方法和装置

Country Status (1)

Country Link
CN (1) CN103793434A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881451A (zh) * 2015-05-18 2015-09-02 百度在线网络技术(北京)有限公司 图片搜索方法及装置
CN105260396A (zh) * 2015-09-16 2016-01-20 百度在线网络技术(北京)有限公司 字词检索方法和装置
CN105678349A (zh) * 2016-01-04 2016-06-15 杭州电子科技大学 一种视觉词汇的上下文描述子生成方法
CN106201184A (zh) * 2016-06-29 2016-12-07 腾讯科技(深圳)有限公司 一种sns消息的编辑方法、装置和终端
CN106484913A (zh) * 2016-10-26 2017-03-08 腾讯科技(深圳)有限公司 一种目标图片确定的方法以及服务器
CN106547742A (zh) * 2016-11-30 2017-03-29 百度在线网络技术(北京)有限公司 基于人工智能的语义解析结果处理方法和装置
CN107076567A (zh) * 2015-05-21 2017-08-18 百度(美国)有限责任公司 多语言图像问答
CN107301036A (zh) * 2016-04-14 2017-10-27 珠海金山办公软件有限公司 一种快速筛选幻灯片的方法及装置
CN107346336A (zh) * 2017-06-29 2017-11-14 北京百度网讯科技有限公司 基于人工智能的信息处理方法和装置
CN107943317A (zh) * 2017-11-01 2018-04-20 北京小米移动软件有限公司 输入方法及装置
CN108416028A (zh) * 2018-03-09 2018-08-17 北京百度网讯科技有限公司 一种搜索内容资源的方法、装置及服务器
CN109886310A (zh) * 2019-01-25 2019-06-14 北京三快在线科技有限公司 图片排序方法、装置、电子设备及可读存储介质
CN110019659A (zh) * 2017-07-31 2019-07-16 北京国双科技有限公司 裁判文书的检索方法及装置
CN110020153A (zh) * 2017-11-30 2019-07-16 北京搜狗科技发展有限公司 一种搜索方法及装置
CN110222775A (zh) * 2019-06-10 2019-09-10 北京字节跳动网络技术有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN111522863A (zh) * 2020-04-15 2020-08-11 北京百度网讯科技有限公司 一种主题概念挖掘方法、装置、设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777064A (zh) * 2009-01-12 2010-07-14 鸿富锦精密工业(深圳)有限公司 图片搜索系统及方法
CN102012934A (zh) * 2010-11-30 2011-04-13 百度在线网络技术(北京)有限公司 图片搜索方法及搜索系统
CN102110122A (zh) * 2009-12-24 2011-06-29 阿里巴巴集团控股有限公司 一种建立样本图片索引表和图片过滤、搜索方法及装置
CN102270234A (zh) * 2011-08-01 2011-12-07 北京航空航天大学 一种图像搜索方法及其搜索引擎

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777064A (zh) * 2009-01-12 2010-07-14 鸿富锦精密工业(深圳)有限公司 图片搜索系统及方法
CN102110122A (zh) * 2009-12-24 2011-06-29 阿里巴巴集团控股有限公司 一种建立样本图片索引表和图片过滤、搜索方法及装置
CN102012934A (zh) * 2010-11-30 2011-04-13 百度在线网络技术(北京)有限公司 图片搜索方法及搜索系统
CN102270234A (zh) * 2011-08-01 2011-12-07 北京航空航天大学 一种图像搜索方法及其搜索引擎

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881451A (zh) * 2015-05-18 2015-09-02 百度在线网络技术(北京)有限公司 图片搜索方法及装置
US10909329B2 (en) 2015-05-21 2021-02-02 Baidu Usa Llc Multilingual image question answering
CN107076567B (zh) * 2015-05-21 2020-07-03 百度(美国)有限责任公司 用于图像问答的方法和装置
CN107076567A (zh) * 2015-05-21 2017-08-18 百度(美国)有限责任公司 多语言图像问答
CN105260396A (zh) * 2015-09-16 2016-01-20 百度在线网络技术(北京)有限公司 字词检索方法和装置
CN105260396B (zh) * 2015-09-16 2019-09-03 百度在线网络技术(北京)有限公司 字词检索方法和装置
CN105678349B (zh) * 2016-01-04 2018-12-07 杭州电子科技大学 一种视觉词汇的上下文描述子生成方法
CN105678349A (zh) * 2016-01-04 2016-06-15 杭州电子科技大学 一种视觉词汇的上下文描述子生成方法
CN107301036A (zh) * 2016-04-14 2017-10-27 珠海金山办公软件有限公司 一种快速筛选幻灯片的方法及装置
CN106201184A (zh) * 2016-06-29 2016-12-07 腾讯科技(深圳)有限公司 一种sns消息的编辑方法、装置和终端
CN106484913A (zh) * 2016-10-26 2017-03-08 腾讯科技(深圳)有限公司 一种目标图片确定的方法以及服务器
CN106547742B (zh) * 2016-11-30 2019-05-03 百度在线网络技术(北京)有限公司 基于人工智能的语义解析结果处理方法和装置
CN106547742A (zh) * 2016-11-30 2017-03-29 百度在线网络技术(北京)有限公司 基于人工智能的语义解析结果处理方法和装置
CN107346336A (zh) * 2017-06-29 2017-11-14 北京百度网讯科技有限公司 基于人工智能的信息处理方法和装置
CN107346336B (zh) * 2017-06-29 2021-06-08 北京百度网讯科技有限公司 基于人工智能的信息处理方法和装置
US11620321B2 (en) 2017-06-29 2023-04-04 Beijing Baidu Netcom Science And Technology Co., Ltd. Artificial intelligence based method and apparatus for processing information
CN110019659A (zh) * 2017-07-31 2019-07-16 北京国双科技有限公司 裁判文书的检索方法及装置
CN110019659B (zh) * 2017-07-31 2021-07-30 北京国双科技有限公司 裁判文书的检索方法及装置
CN107943317A (zh) * 2017-11-01 2018-04-20 北京小米移动软件有限公司 输入方法及装置
CN110020153A (zh) * 2017-11-30 2019-07-16 北京搜狗科技发展有限公司 一种搜索方法及装置
CN108416028B (zh) * 2018-03-09 2021-09-21 北京百度网讯科技有限公司 一种搜索内容资源的方法、装置及服务器
CN108416028A (zh) * 2018-03-09 2018-08-17 北京百度网讯科技有限公司 一种搜索内容资源的方法、装置及服务器
CN109886310A (zh) * 2019-01-25 2019-06-14 北京三快在线科技有限公司 图片排序方法、装置、电子设备及可读存储介质
CN109886310B (zh) * 2019-01-25 2020-06-09 北京三快在线科技有限公司 图片排序方法、装置、电子设备及可读存储介质
CN110222775B (zh) * 2019-06-10 2021-05-25 北京字节跳动网络技术有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN110222775A (zh) * 2019-06-10 2019-09-10 北京字节跳动网络技术有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN111522863A (zh) * 2020-04-15 2020-08-11 北京百度网讯科技有限公司 一种主题概念挖掘方法、装置、设备以及存储介质
US11651164B2 (en) 2020-04-15 2023-05-16 Beijing Baidu Netcom Science Technology Co., Ltd. Method, device, equipment, and storage medium for mining topic concept

Similar Documents

Publication Publication Date Title
CN103793434A (zh) 一种基于内容的图片搜索方法和装置
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
Ceri et al. Web information retrieval
Carpineto et al. A survey of automatic query expansion in information retrieval
CN102253982B (zh) 一种基于查询语义和点击流数据的查询建议方法
Sarawagi et al. Open-domain quantity queries on web tables: annotation, response, and consensus models
CN107122413A (zh) 一种基于图模型的关键词提取方法及装置
CN101634983A (zh) 一种文本分类方法和装置
CN102637192A (zh) 一种自然语言问答的方法
Sabuna et al. Summarizing Indonesian text automatically by using sentence scoring and decision tree
CN106484797A (zh) 基于稀疏学习的突发事件摘要抽取方法
CN111368038A (zh) 一种关键词的提取方法、装置、计算机设备和存储介质
CN110569405A (zh) 一种基于bert的政务公文本体概念抽取方法
CN112559684A (zh) 一种关键词提取及信息检索方法
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN116501875B (zh) 一种基于自然语言和知识图谱的文档处理方法和系统
CN103186556A (zh) 得到和搜索结构化语义知识的方法及对应装置
CN103064984A (zh) 垃圾网页的识别方法及系统
CN104317783B (zh) 一种语义关系密切度的计算方法
CN103714118A (zh) 图书交叉阅读方法
Wang et al. Data-driven approach for bridging the cognitive gap in image retrieval
Zhang et al. The use of dependency relation graph to enhance the term weighting in question retrieval
CN116362243A (zh) 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140514

RJ01 Rejection of invention patent application after publication