CN104268175B - 一种数据搜索的装置及其方法 - Google Patents

一种数据搜索的装置及其方法 Download PDF

Info

Publication number
CN104268175B
CN104268175B CN201410469923.1A CN201410469923A CN104268175B CN 104268175 B CN104268175 B CN 104268175B CN 201410469923 A CN201410469923 A CN 201410469923A CN 104268175 B CN104268175 B CN 104268175B
Authority
CN
China
Prior art keywords
word
search key
participle
fraction
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410469923.1A
Other languages
English (en)
Other versions
CN104268175A (zh
Inventor
关涛
于立柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LeTV Information Technology Beijing Co Ltd
Original Assignee
LeTV Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LeTV Information Technology Beijing Co Ltd filed Critical LeTV Information Technology Beijing Co Ltd
Priority to CN201410469923.1A priority Critical patent/CN104268175B/zh
Publication of CN104268175A publication Critical patent/CN104268175A/zh
Application granted granted Critical
Publication of CN104268175B publication Critical patent/CN104268175B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种数据搜索的装置及其方法,所述装置包括:分词处理模块,用于对接收的搜索关键词进行分词处理,获得所述搜索关键词的分词词语;分数获取模块,用于获取至少一个所述搜索关键词的分词词语的领域分数,并根据所述至少一个分词词语的领域分数计算出所述搜索关键词的领域分数;匹配计算模块,用于分别计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的所有文档的领域分数的匹配度;搜索排序模块,用于依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序。本发明能够根据搜索关键词,提供更加符合搜索需求的搜索结果。

Description

一种数据搜索的装置及其方法
技术领域
本发明涉及互联网技术领域,尤其涉及一种数据搜索的装置及其方法。
背景技术
随着互联网技术的发展,网络信息数据量也越来越大,比如视频网站中大量的视频信息,网站论坛中大量用户的发布信息,以及用户的历史海量日志。为了实现某一操作目的,需要在大数据量的网络信息中获得满足需求的数据。
现有的数据搜索技术多采用基于搜索关键词(query)进行搜索,由搜索引擎服务器根据输入的搜索关键词,将与所述搜索关键词匹配的页面包含搜索结果进行反馈。并且,在搜索结果中进行排序,将和搜索关键词相关度最高的页面排在最前面。
但是,现有的数据搜索技术通常对搜索关键词的文本进行分词,仅仅计算各页面在文本上与搜索关键词的相关度,并不考虑该搜索关键词的需求,导致搜索出来的页面并非该搜索关键词真正想要的页面。比如,输入搜索关键词“最新恐怖片”,现有的数据搜索技术会基于词频和位置等文本内容进行搜索。因此,搜索出来的页面为包含“最新恐怖片”这一文本内容的页面,而输入该搜索关键词真正想要的页面为最新的恐怖片视频观看页面。
因此,如何根据搜索关键词提供更加符合搜索需求的搜索结果成为数据搜索技术中亟待解决的技术问题。
发明内容
有鉴于此,本发明提供一种数据搜索的装置及其方法,其能够根据搜索关键词,提供更加符合搜索需求的搜索结果。
本发明提供一种数据搜索的装置,包括:
分词处理模块,用于对接收的搜索关键词进行分词处理,获得所述搜索关键词的全部分词词语。
分数获取模块,用于获取至少一个所述搜索关键词的分词词语的领域分数,并根据所述至少一个分词词语的领域分数计算出所述搜索关键词的领域分数。
匹配计算模块,用于分别计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的所有文档的领域分数的匹配度。
搜索排序模块,用于依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序。
进一步,本发明还包括:
词库识别模块,用于根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别,如所述分词词语命中所述词库中存储的词语,则将所述分词词语设定为特征分词词语,否则,将所述分词词语设定为非特征分词词语,在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索。
进一步,本发明所述词库识别模块还如果特征分词词语为预定义的特征分词词语,则将所述分词词语从所述搜索关键词的全部分词词语中删除,令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
进一步,本发明还包括:
描述处理模块,用于分别对所有文档的文字描述计算领域分数,并将计算出的领域分数设定为相应文档的领域分数。
进一步,本发明所述搜索排序模块还用于判断所述搜索关键词的分词词语是否包括排序分词词语,如果包括,则按照所述排序分词词语对所述根据搜索关键词搜索出的文档进行排序。
对应于上述装置,本发明还提供一种数据搜索的方法,包括:
对接收的搜索关键词进行分词处理,获得所述搜索关键词的全部分词词语;
获取所述搜索关键词的至少一个分词词语的领域分数,并根据所述至少一个分词词语的领域分数计算出所述搜索关键词的领域分数;
分别计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的所有文档的领域分数的匹配度;
依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序。
进一步,本发明所述方法还包括:
根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别,如所述分词词语命中所述词库中存储的词语,则将所述分词词语设定为特征分词词语,否则,将所述分词词语设定为非特征分词词语,在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索。
进一步,本发明所述根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别,如所述分词词语命中所述词库中存储的词语,则将所述分词词语设定为特征分词词语,否则,将所述分词词语设定为非特征分词词语,在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索还包括:
如果特征分词词语为预定义的特征分词词语,则将所述分词词语从所述搜索关键词的分词词语中删除,令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
进一步,本发明还包括:
分别对所有文档的文字描述计算领域分数,并将计算出的领域分数设定为文档的领域分数。
进一步,本发明所述依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序还包括:
判断所述搜索关键词的分词词语是否包括排序分词词语,如果包括,则按照所述排序分词词语对所述根据搜索关键词搜索出的文档进行排序。
由以上技术方案可见,本发明对接收的搜索关键词进行分词处理,获得所述搜索关键词的分词词语的领域分数,从而得到所述搜索关键词的领域分数;本发明所进行的数据搜索,根据搜索关键词的领域分数与搜索出文档的领域分数的匹配度对搜索结果进行排序,令显示的搜索结果更加符合搜索的真实需求,提升了搜索的效果。并且,本发明计算简单,操作方便,提高了搜索效率。
附图说明
图1是本发明数据搜索的装置的结构框图;
图2是本发明数据搜索装置一具体实施例的结构框图;
图3是本发明数据搜索方法的一个实施例的流程图;
图4是本发明数据搜索方法的另一个实施例的流程图;
图5是本发明数据搜索方法中步骤S5的流程图。
具体实施方式
由于现有的数据搜索技术会基于搜索关键词的分词词语的词频和位置等文本内容进行搜索,但这种搜索往往忽略了搜索的需求信息,得到错误的搜索结果。通常考虑到搜索需求的数据搜索方法需要先统计搜索日志中的搜索关键词及其分词词语的需求概率,建立一需求概率模型。而在根据搜索关键词进行搜索时,根据该概率模型确定搜索关键词及其分词词语的搜索需求。而后还需要计算各种需求与搜索页面的相关度得到搜索关键词的需求与搜索得到的页面的相关度,并根据该相关度显示搜索得到的页面。但是,这种搜索方法需要先根据日志建立概率模型,而且根据概率模型确定的搜索需求计算复杂,影响搜索的效率。
本发明对接收的搜索关键词进行分词处理,获得所述搜索关键词的分词词语的领域分数,从而得到所述搜索关键词的领域分数。本发明所进行的数据搜索,根据搜索关键词的领域分数与搜索出文档的领域分数的匹配度对搜索结果进行排序,令显示的搜索结果更加符合搜索的真实需求,提升了搜索的效果。并且,本发明计算简单,操作方便,提高了搜索效率。
下面结合本发明附图进一步说明本发明具体实现。
参见图1,本发明提供一种数据搜索的装置可以用来搜索网站论坛中大量用户的发布信息,服务器中的视频文件以及用户的历史海量日志等大数据量信息。本发明装置中的各数据库可以存储在数据库服务器中,各功能模块可以存储在控制服务器中。当然,本发明各功能模块以及数据库可以分别存储在相同的或者不同的服务器中,由本领域技术人员根据需求进行选择设置。
参见图1,本发明装置包括:
分词处理模块11,用于对接收的搜索关键词进行分词处理,获得所述搜索关键词的全部分词词语。
分数获取模块12,用于获取所述搜索关键词的至少一个分词词语的领域分数,并根据所述至少一个分词词语的领域分数计算出所述搜索关键词的领域分数。
匹配计算模块13,用于分别计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的所有文档的领域分数的匹配度。
搜索排序模块14,用于依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序。
本发明所进行的数据搜索,根据搜索关键词的领域分数与搜索出文档的领域分数的匹配度对搜索结果进行排序,令显示的搜索结果更加符合搜索的真实需求,提升了搜索的准确率。并且,本发明计算简单,操作方便,提高了搜索效率。
在本发明具体实现中,数据库服务器或者其他服务器中还包括预先设立的词库。所述预先设立的词库包括明星词库、版本词库、类型词库、地点词库、排序词库等中至少一个。
具体地,明星词库多指明星的姓名或者艺名,比如刘德华、张曼玉等;版本词库多指语言类型,比如国语版、日语版等;类型词库多指视频的类型,比如恐怖片、色情片等;地点词库多指影片的拍摄国家,比如北京、日本,韩国;而排序词库多指排序依据,比如最新、最好看、最恐怖等。
上述词库可以采用手工设立,或者通过机器语言总结现有日志中的信息进行设立。为了便于搜索,在大数据量的信息存储中通常对存储的文档设置分类标签,所述分类标签标明所述文档的分类信息,如涉及明星、语言类型、视频类型、拍摄地点、搜索历史等。文档的分类标签可以记录在文档的文字描述中,亦可以作为单独的分类标签存在。
在本发明一具体的实施例中,参看图2,本发明装置还包括词库识别模块15,用于根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别,如所述分词词语命中所述词库中存储的词语,则将所述分词词语设定为特征分词词语,否则,将所述分词词语设定为非特征分词词语,在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索。
此外,所述词库识别模块15还用于如果特征分词词语为预定义的特征分词词语,则将所述特征分词词语从所述搜索关键词的全部分词词语中删除,令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
所述预定义的特征分词词语由本领域技术人员根据搜索系统的需要进行设定。通常将表示版本信息(如:香港版、大陆版)、类型信息(如:动漫、武侠)、地点信息(如:美国、中国)等信息的词语设定为预定义的特征分词词语。如果搜索关键词的全部分词词语中存在预定义的特征分词词语,则将该分词词语从搜索关键词的全部分词词语中去除。在分数获取模块12中即不再对所述删除的分词词语进行领域分数获取。
因此,本发明词库识别模块15在所述搜索关键词的分词词语中去除了预定义的特征分词词语,避免了由于这些分词词语造成的对搜索需求信息的误导。比如,搜索关键词分词词语里面包含“美国”这一预定义的特征分词词语,搜索需求是为了搜索出美国电影,如果不去除“美国”这个分词词语,则会将包含“美国”这个文本含义的电影搜索出来,比如电影“美国往事”。
下面以一些具体实现来说明本发明词库识别模块15的操作。
具体地,预先设立了明星词库,如果搜索关键词中的分词词语包含的明星姓名命中明星词库中保存的明星姓名,将该明星姓名设定为特征分词词语。在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索,即在该明星涉及的文档中根据非特征分词词语进行搜索。
比如,搜索关键词为“刘德华电影”,进行分词处理后的分词词语包含“刘德华”、“电影”,分词词语“刘德华”命中明星词库中存储的“刘德华”,将分词词语“刘德华”设定为特征分词词语,将“电影”设定为非特征分词词语。在“刘德华”匹配的视频文件中根据“电影”进行搜索。
具体地,预先设立了版本词库,如果搜索关键词中的分词词语包含的版本信息命中版本词库中保存的版本信息,将该版本信息设定为特征分词词语。在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索,即在该版本信息涉及的文档中根据非特征分词词语进行搜索。并且,特征分词词语版本信息为预定义的特征分词词语,则将所述版本信息从所述搜索关键词的全部分词词语中删除,令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
比如,搜索关键词为“粤语版电影”,进行分词处理后的分词词语包含“电影”、“粤语版”,分词词语“粤语版”命中版本词库的版本信息,设定“粤语版”作为特征分词词语,“电影”为非特征分词词语。在粤语版的视频文件中根据“电影”进行搜索。并且“粤语版”为预定义的特征分词词语,则将所述“粤语版”从所述搜索关键词的全部分词词语中删除,令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
具体地,预先设立了类型词库,如果搜索关键词中的分词词语包含影片类型,则命中类型词库中保存的影片类型,将该分词词语包含影片类型设定为特征分词词语。在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索,即在该影片类型涉及的文档中根据非特征分词词语进行搜索。并且,特征分词词语影片类型为预定义的特征分词词语,则将所述影片类型从所述搜索关键词的全部分词词语中删除,令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
比如,搜索关键词为“喜剧火车”,进行分词处理后的分词词语包含“喜剧”、“火车”,分词词语“喜剧”命中类型词库中保存的影片类型,将分词词语“喜剧”设定为特征分词词语,“火车”设定为非特征分词词语。在喜剧的视频文件中根据“火车”进行搜索。并且“喜剧”为预定义的特征分词词语,则将“喜剧”从所述搜索关键词的全部分词词语中删除,令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
具体地,预先设立了地点词库,如果搜索关键词中的分词词语包含地点类型,则命中地点词库中保存的地点类型,将该分词词语包含地点类型设定为特征分词词语。在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索,即在该地点类型涉及的文档中根据非特征分词词语进行搜索。并且,特征分词词语地点类型为预定义的特征分词词语,则将所述地点类型从所述搜索关键词的全部分词词语中删除,令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
比如,搜索关键词为“美国朋友”,进行分词处理后的分词词语包含“美国”、“朋友”,分词词语“美国”命中地点词库中保存的地点类型,将分词词语“美国”设定为特征分词词语,“朋友”设定为非特征分词词语。在美国的视频文件中根据非特征分词词语“朋友”进行搜索。并且“美国”为预定义的特征分词词语,则将“美国”从所述搜索关键词的全部分词词语中删除,令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
当然,本发明亦可同时预先设置明星词库、版本词库、类型词库、地点词库、排序词库等中的多个词库。
比如,预设了明星词库和类型词库时,搜索关键词为“刘德华喜剧电影贺岁”,进行分词处理后的分词词语包含“刘德华”、“喜剧”、“电影”、“贺岁”,分词词语“刘德华”命中明星词库中的“刘德华”,分词词语“喜剧”命中类型词库中的“喜剧”。将“刘德华”和“喜剧”设定为特征分词词语,将“电影”、“贺岁”设定为非特征分词词语。在刘德华的喜剧电影的视频文件中根据“电影”、“贺岁”进行搜索。特征分词词语“喜剧”为自定义的特征分词词语,则将搜索关键词中的分词词语中的“喜剧”删除,令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
本发明预先设置其他词库的操作和上述相同,故在此不再赘述。
具体地,本发明分词处理模块11对搜索关键词进行分词处理可以采用现有的分词处理方法,比如,基于字符串的分词方法,基于理解的分词方法,基于统计的分词方法或者基于语义的分词方法,由于其为现有技术,故不再赘述。
在本发明的优选实施例中,对搜索关键词进行分词处理还过滤掉预设的停用词表所包含的词语及/或非独立表意的词语(如,的)等。
在本发明的具体实现中,本发明装置运行之初,还可以包括:描述处理模块16。
描述处理模块16,用于分别对所有文档的文字描述(包括名称)计算领域分数,并将计算出的领域分数设定为相应文档的领域分数。
其中,领域是指每个文档所涉及的内容的类别,比如新闻、综艺、电影、体育等。
所述对所有文档的文字描述计算领域分数采用空间向量相似度的方法,具体的公式为:
其中,d表示文档的文字描述,D表示领域的描述,G(d,D)表示文档的文字描述d在领域D的领域分数。
空间向量相似度是把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。
本发明将文档的文字描述处理成为空间的向量,并将各个领域的描述亦处理成为空间的向量。由上述公式可以看出,公式(1)计算文档的文字描述对应的向量和某一领域的描述对应的向量的相似度来获得该文字描述在该领域的分数。具体地,通常是比较这两个向量的夹角的偏差度来实现。
由于空间向量相似度为一现有算法,故在此不再赘述。当然,本发明对所有文档的文字描述计算领域分数亦可以采用其他现有的算法,仅需比较文档的文字描述和领域的文字描述之间的相似度即可,比如采用基于语义理解的比较方法等。
例如,综艺节目《非诚勿扰》的某一期视频的文字描述可以是“生活类相亲”,计算该文字描述与综艺领域、电影领域、新闻领域、体育领域等各个领域的领域分数,即利用公式(1)计算该文字描述处理成的向量和各个领域的文字描述处理成的相量的相似度。从而,得到《非诚勿扰》的文字描述在各个领域的领域分数,比如,在综艺领域为0.8分,在电影领域为0.6分,在新闻领域为0.3分,在体育领域为0分。
在本发明的具体实现中,本发明装置还包括表项设立模块17,用于将所述分数获取模块12获取的所述搜索关键词的分词词语的领域分数进行保存,并根据所述计算得到的分词词语及对应的领域分数生成领域分数表。
具体地,本发明装置对获得的搜索关键词进行分词处理,得到搜索关键词的所有分词词语后,先对保存的所述领域分数表进行查询,确定所述搜索关键词的分词词语是否在所述领域分数表中。如果在,则直接通过查表获得该分词词语的领域分数,如果不在,则计算获得该分词词语的领域分数,并令所述表项设立模块17将该分词词语以及对应的领域分数保存到领域分数表中。
本发明将分词词语及其对应的领域分数组合生成领域分数表。该领域分数表如表一所示。
表一
分词词语 综艺 电影 新闻 体育 ……
世界杯 0.4 0 0.6 0.9 ……
天下无贼 0.2 0.9 0 0 ……
…… …… …… …… …… ……
其中,所述分数获取模块12中获得每个分词词语的领域分数的计算公式如下:
其中G(w,D)表示分词词语w在领域D的领域分数,S(w,D)表示分词词语w在领域D的词频,N表示的是领域的总个数。
本发明分词词语在某一领域的词频是根据TF-IDF(term frequency–inversedocument frequency)词频--反转文件频率获得的。TF-IDF是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。由于在数据搜索中对每个搜索关键词进行分词处理后,都需要获得每个分词词语的词频,然后利用分词词语的词频进行搜索。本发明利用现有的搜索技术中获得的分词词语的词频计算每个分词词语的领域分数。
其中,所述分数获取模块12中根据所述搜索关键词的分词词语的领域分数计算出所述搜索关键词的领域分数的公式如下:
其中G(q,D)表示的是搜索关键词q在领域D的分数,G(Wi,D)表示所述搜索关键词中的第i个分词词语的领域分数,所述搜索关键词共有n个分词词语,所述n个分词词语为所述词库识别模块15从搜索关键词的全部分词词语中删除自定义的特征分词词语后剩余的分词词语。
由于本发明描述处理模块16分别对所有文档的文字描述计算领域分数,并将计算出的领域分数设定为文档的领域分数。因此,根据搜索关键词搜索出的文档是具有领域分数的。本发明匹配计算模块13将获得的搜索关键词的领域分数和搜索得到文档的领域分数计算匹配度。
进一步,本发明匹配计算模块13计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的文档的领域分数的匹配度的计算公式为:
其中,其中G(q,D)表示的是搜索关键词q在领域D的领域分数,G(d,D)表示的是根据搜索关键词搜索出的文档在领域D的领域分数。
本发明根据搜索关键词进行搜索,对搜索文档进行排序后显示成为搜索结果。
在本发明一优选的实施例中所述搜索排序模块14判断所述搜索关键词的分词词语是否包括排序分词词语,如果包括,则按照所述排序分词词语对所述根据搜索关键词搜索出的文档进行排序。
具体地,搜索关键词中含有排序分词,比如最新,最好看等,排序规则进行变更,如果是最新,排序规则改成以时间顺序排序,如果是最好看,排序规则改成以好看程度排序,如果是最恐怖,排序规则改成以恐怖程度进行排序等。
如果所述搜索关键词的分词词语不包括排序分词词语,则依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序。所排序分词可以预先设定或者将包含“最”、“更”等表示顺序特征的字的词识别为排序分词。
因此,本发明计算搜索关键词的领域分数,即考量了搜索关键词所包含的搜索需求信息,而后根据搜索关键词的领域分数和搜索文档的领域分数的相似度对所搜索的文档进行排序。从而令显示的搜索结果是根据所述搜索关键词的需求信息进行排序的,给出更满意的搜索结果,提升了搜索的效果。
下面一个数据搜索的具体例子来进一步说明本发明实现。
例如,需要对某个服务器中保存的所有视频文档进行搜索。本发明对所有视频文档的文字描述进行处理。首先,计算所有视频文档的文字描述的领域分数,将该领域分数保存为所述视频文档的领域分数。
用户输入的检索关键词为“中国非诚勿扰关于相亲的第59期”,对该检索关键词进行分词处理,过滤掉预设的停用词表所包含的词语及/或非独立表意的词语,得到分词词语:“中国”、“非诚勿扰”、“相亲”、“第59期”。
如预先设置了地点词库,则对该分词词语进行词库识别,“中国”命中地点词库的“中国”,将“中国”设定为特征分词词语,将“非诚勿扰”、“相亲”、“第59期”设定为非特征分词词语。在中国视频文档中根据“非诚勿扰”、“相亲”、“第59期”进行搜索。由于“中国”为自定义的特征分词词语,则将“中国”从搜索关键词中的分词词语中删除。
本发明分别将分词词语“非诚勿扰”、“相亲”、“第59期”进行领域分数表查询,如果领域分数表中存储了该分词词语,则获得它们的领域分数。如果领域分数表中没有存储该分词词语,则计算得到该分词词语的领域分数,并将该分词词语及对应的领域分数存储到领域分数表中。“非诚勿扰”在综艺领域的分数为0.8,电影领域的分数为0.6,新闻领域的分数为0.2,体育领域的分数为0。“相亲”在综艺领域的分数为0.9,电影领域的分数为0.4,新闻领域的分数为0.3,体育领域的分数为0。“第59期”在综艺领域的分数为0.8,电影领域的分数为0.2,新闻领域的分数为0.1,体育领域的分数为0。因此,计算得到搜索关键词“中国非诚勿扰关于相亲的第59期”的领域分数为在综艺领域的分数为2.5,电影领域的分数为1.2,新闻领域的分数为0.6,体育领域的分数为0。
计算搜索关键词“中国非诚勿扰关于相亲的第59期”的领域分数和搜索得到的视频文档的领域分数的匹配度。
依据匹配度对利用词库识别根据搜索关键词搜索得到的视频文档进行排序,从而作为搜索的结果。
由此可知,采用本发明装置进行数据搜索,根据搜索关键词考虑到了搜索的需求信息,而不是简单的根据搜索关键词的文本进行搜索。本发明不会将内容含有中国、非常勿扰和相亲、第59期的视频文件搜索出来,而是根据检索关键词的领域分数,获得该搜索的需求信息是希望搜索得到某期综艺节目,因此可以按照该搜索需求对搜索的视频文档进行了排序。本发明令搜索出的结果更加符合搜索需求,提高对搜索结果的满意度,也提升了搜索的效率。
对应于上述装置,本发明还提供一种数据搜索的方法,参看图3,本发明方法包括:
S1、对接收的搜索关键词进行分词处理,获得所述搜索关键词的全部分词词语;
S2、获取所述搜索关键词的至少一个分词词语的领域分数,并根据所述至少一个分词词语的领域分数计算出所述搜索关键词的领域分数;
S3、分别计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的所有文档的领域分数的匹配度;
S4、依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序。
本发明仅需对所述搜索关键词的分词词语根据预先设立的领域分数表进行查询即可获得其领域分数,从而得到所述搜索关键词的领域分数。因此,本发明仅需要进行查表操作及简单计算即可获得所述搜索关键词的领域分数。
在本发明具体实现中,数据库服务器或者其他服务器中还包括预先设立的词库。所述预先设立的词库包括明星词库、版本词库、类型词库、地点词库、排序词库等中至少一个。
具体地,明星词库多指明星的姓名或者艺名,比如刘德华、张曼玉等;版本词库多指语言类型,比如国语版、日语版等;类型词库多指视频的类型,比如恐怖片、色情片等;地点词库多指影片的拍摄国家,比如北京、日本,韩国;而排序词库多指排序依据,比如最新、最好看、最恐怖等。
上述词库可以采用手工设立,或者通过机器语言总结现有日志中的信息进行设立。为了便于搜索,在大数据量的信息存储中通常对存储的文档设置分类标签,所述分类标签标明所述文档的分类信息,如涉及明星、语言类型、视频类型、拍摄地点、搜索历史等。文档的分类标签可以记录在文档的文字描述中,亦可以作为单独的分类标签存在。
在本发明一具体的实施例中,参看图4,本发明方法还包括:S5、根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别,如所述分词词语命中所述词库中存储的词语,则将所述分词词语设定为特征分词词语,否则,将所述分词词语设定为非特征分词词语,在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索。
此外,所述步骤S5还包括:如果特征分词词语为预定义的特征分词词语,则将所述特征分词词语从所述搜索关键词的全部分词词语中删除,不再对所述删除的分词词语进行领域分数获取。
所述预定义的特征分词词语由本领域技术人员根据搜索系统的需要进行设定。通常将版本信息、类型信息、地点信息等词语设定为预定义的特征分词词语。如果搜索关键词的全部分词词语中存在预定义的特征分词词语,则将该分词词语从搜索关键词的全部分词词语中去除。步骤S2中不再对所述删除的分词词语进行领域分数获取。
因此,本发明在所述搜索关键词的分词词语中去除了预定义的特征分词词语,避免了由于这些分词词语造成的对搜索需求信息的误导。比如,搜索关键词分词词语里面包含“美国”这一预定义的特征分词词语,搜索需求是为了搜索出美国电影,如果不去除“美国”这个分词词语,则会将包含“美国”这个文本含义的电影搜索出来,比如电影“美国往事”。
下面以一些具体实现来说明本发明的操作。
具体地,预先设立了明星词库,如果搜索关键词中的分词词语包含的明星姓名命中明星词库中保存的明星姓名,将该明星姓名设定为特征分词词语。在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索,即在该明星涉及的文档中根据非特征分词词语进行搜索。
比如,搜索关键词为“刘德华电影”,进行分词处理后的分词词语包含“刘德华”“电影”,分词词语“刘德华”命中明星词库中存储的“刘德华”,将分词词语“刘德华”设定为特征分词词语,将“电影”设定为非特征分词词语。在“刘德华”匹配的视频文件中根据“电影”进行搜索。
具体地,预先设立了版本词库,如果搜索关键词中的分词词语包含的版本信息命中版本词库中保存的版本信息,将该版本信息设定为特征分词词语。在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索,即在该版本信息涉及的文档中根据非特征分词词语进行搜索。并且,特征分词词语版本信息为预定义的特征分词词语,则将所述版本信息从所述搜索关键词的全部分词词语中删除,令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
比如,搜索关键词为“粤语版电影”,进行分词处理后的分词词语包含:“电影”、“粤语版”,分词词语“粤语版”命中版本词库的版本信息,设定“粤语版”作为特征分词词语,“电影”为非特征分词词语。在粤语版的视频文件中根据“电影”进行搜索。并且“粤语版”为预定义的特征分词词语,则将所述“粤语版”从所述搜索关键词的全部分词词语中删除,令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
具体地,预先设立了类型词库,如果搜索关键词中的分词词语包含影片类型,则命中类型词库中保存的影片类型,将该分词词语包含影片类型设定为特征分词词语。在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索,即在该影片类型涉及的文档中根据非特征分词词语进行搜索。并且,特征分词词语影片类型为预定义的特征分词词语,则将所述影片类型从所述搜索关键词的全部分词词语中删除,令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
比如,搜索关键词为“喜剧火车”,进行分词处理后的分词词语包含“喜剧”、“火车”,分词词语“喜剧”命中类型词库中保存的影片类型,将分词词语“喜剧”设定为特征分词词语,“火车”设定为非特征分词词语。在喜剧的视频文件中根据“火车”进行搜索。并且“喜剧”为预定义的特征分词词语,则将“喜剧”从所述搜索关键词的全部分词词语中删除,令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
具体地,预先设立了地点词库,如果搜索关键词中的分词词语包含地点类型,则命中地点词库中保存的地点类型,将该分词词语包含地点类型设定为特征分词词语。在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索,即在该地点类型涉及的文档中根据非特征分词词语进行搜索。并且,特征分词词语地点类型为预定义的特征分词词语,则将所述地点类型从所述搜索关键词的全部分词词语中删除,令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
比如,搜索关键词为“美国朋友”,进行分词处理后的分词词语包含“美国”、“朋友”,分词词语“美国”命中地点词库中保存的地点类型,将分词词语“美国”设定为特征分词词语,“朋友”设定为非特征分词词语。在美国的视频文件中根据非特征分词词语“朋友”进行搜索。并且“美国”为预定义的特征分词词语,则将“美国”从所述搜索关键词的全部分词词语中删除,令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
当然,本发明亦可同时预先设置明星词库、版本词库、类型词库、地点词库、排序词库等中的多个词库。
比如,预设了明星词库和类型词库时,搜索关键词为“刘德华喜剧电影贺岁”,进行分词处理后的分词词语包含“刘德华”、“喜剧”、“电影”、“贺岁”,分词词语“刘德华”命中明星词库中的“刘德华”,分词词语“喜剧”命中类型词库中的“喜剧”。将“刘德华”和“喜剧”设定为特征分词词语,将“电影”、“贺岁”设定为非特征分词词语。在刘德华的喜剧电影的视频文件中根据“电影”、“贺岁”进行搜索。特征分词词语“喜剧”为自定义的特征分词词语,则将搜索关键词中的分词词语中的“喜剧”删除,令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
本发明预先设置其他词库的操作和上述相同,故在此不再赘述。
具体地,本发明步骤S1对搜索关键词进行分词处理可以采用现有的分词处理方法,比如,基于字符串的分词方法,基于理解的分词方法,基于统计的分词方法或者基于语义的分词方法,由于其为现有技术,故不再赘述。
在本发明的优选实施例中,对搜索关键词进行分词处理还过滤掉预设的停用词表所包含的词语及/或非独立表意的词语(如,的)等。
在本发明的具体实现中,本发明步骤S1-S4运行前,还可以包括:
P1、分别对所有文档的文字描述(包括名称)计算领域分数,并将计算出的领域分数设定为相应文档的领域分数。
其中,领域是指每个文档所涉及的内容的类别,比如新闻、综艺、电影、体育等。
所述对所有文档的文字描述计算领域分数采用空间向量相似度的方法,具体的公式为:
其中,d表示文档的文字描述,D表示领域的描述,G(d,D)表示文档的文字描述d在领域D的领域分数。
空间向量相似度是把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。
本发明将文档的文字描述处理成为空间的向量,并将各个领域的描述亦处理成为空间的向量。由上述公式可以看出,公式(1)计算文档的文字描述对应的向量和某一领域的描述对应的向量的相似度来获得该文字描述在该领域的分数。具体地,通常是比较这两个向量的夹角的偏差度来实现。
由于空间向量相似度为一现有算法,故在此不再赘述。当然,本发明对所有文档的文字描述计算领域分数亦可以采用其他现有的算法,仅需比较文档的文字描述和领域的文字描述之间的相似度即可,比如采用基于语义理解的比较方法等。
例如,综艺节目《非诚勿扰》的某一期视频的文字描述可以是“生活类相亲”,计算该文字描述与综艺领域、电影领域、新闻领域、体育领域等各个领域的领域分数,即利用公式(1)计算该文字描述处理成的向量和各个领域的文字描述处理成的相量的相似度。从而,得到《非诚勿扰》的文字描述在各个领域的领域分数,比如,在综艺领域为0.8分,在电影领域为0.6分,在新闻领域为0.3分,在体育领域为0分。
在本发明的具体实现中,本发明方法还包括:P2、将所述获取的所述搜索关键词的分词词语的领域分数进行保存,并根据所述计算得到的分词词语及对应的领域分数生成领域分数表。
具体地,本发明对获得的搜索关键词进行分词处理,得到搜索关键词的所有分词词语后,先对保存的所述领域分数表进行查询,确定所述搜索关键词的分词词语是否在所述领域分数表中。如果在,则直接通过查表获得该分词词语的领域分数,如果不在,则计算获得该分词词语的领域分数,并将该分词词语以及对应的领域分数保存到领域分数表中。
本发明将分词词语及其对应的领域分数组合生成领域分数表。该领域分数表如表一所示。
表一
分词词语 综艺 电影 新闻 体育 ……
世界杯 0.4 0 0.6 0.9 ……
天下无贼 0.2 0.9 0 0 ……
…… …… …… …… …… ……
其中,获得每个分词词语的领域分数的计算公式如下:
其中G(w,D)表示分词词语w在领域D的领域分数,S(w,D)表示分词词语w在领域D的词频,N表示的是领域的总个数。
本发明分词词语在某一领域的词频是根据TF-IDF(term frequency–inversedocument frequency)词频--反转文件频率获得的。TF-IDF是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。由于在数据搜索中对每个搜索关键词进行分词处理后,都需要获得每个分词词语的词频,然后利用分词词语的词频进行搜索。本发明利用现有的搜索技术中获得的分词词语的词频计算每个分词词语的领域分数。
其中,根据所述搜索关键词的分词词语的领域分数计算出所述搜索关键词的领域分数的公式如下:
其中G(q,D)表示的是搜索关键词q在领域D的分数,G(Wi,D)表示所述搜索关键词中的第i个分词词语的领域分数,所述搜索关键词共有n个分词词语,所述n个分词词语为所述词库识别模块15从搜索关键词的全部分词词语中删除自定义的特征分词词语后剩余的分词词语。
由于本发明分别对所有文档的文字描述计算领域分数,并将计算出的领域分数设定为文档的领域分数。因此,根据搜索关键词搜索出的文档是具有领域分数的。
本发明步骤S3将获得的搜索关键词的领域分数和搜索得到文档的领域分数计算匹配度。
进一步,本发明步骤S3计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的文档的领域分数的匹配度的计算公式为:
其中,其中G(q,D)表示的是搜索关键词q在领域D的领域分数,G(d,D)表示的是根据搜索关键词搜索出的文档在领域D的领域分数。
本发明根据搜索关键词进行搜索,对搜索文档进行排序后显示成为搜索结果。
在本发明一优选的实施例中所述步骤S4还包括:判断所述搜索关键词的分词词语是否包括排序分词词语,如果包括,则按照所述排序分词词语对所述根据搜索关键词搜索出的文档进行排序。
具体地,搜索关键词中含有排序分词,比如最新,最好看等,排序规则进行变更,如果是最新,排序规则改成以时间顺序排序,如果是最好看,排序规则改成以好看程度排序,如果是最恐怖,排序规则改成以恐怖程度进行排序等。
如果所述搜索关键词的分词词语不包括排序分词词语,则依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序。
因此,本发明计算搜索关键词的领域分数,即考量了搜索关键词所包含的搜索需求信息,而后根据搜索关键词的领域分数和搜索文档的领域分数的相似度对所搜索的文档进行排序。从而令显示的搜索结果是根据所述搜索关键词的需求信息进行排序的,给出更满意的搜索结果,提升了搜索的效果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (6)

1.一种数据搜索的装置,其特征在于,包括:
分词处理模块,用于对接收的搜索关键词进行分词处理,获得所述搜索关键词的全部分词词语;
分数获取模块,用于获取至少一个所述搜索关键词的分词词语的领域分数,并根据所述至少一个分词词语的领域分数计算出所述搜索关键词的领域分数;
匹配计算模块,用于分别计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的所有文档的领域分数的匹配度;
搜索排序模块,用于依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序;
所述装置还包括:
词库识别模块,用于根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别,如所述分词词语命中所述词库中存储的词语,则将所述分词词语设定为特征分词词语,否则,将所述分词词语设定为非特征分词词语,在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索;所述词库识别模块还用于如果特征分词词语为预定义的特征分词词语,则将所述特征分词词语从所述搜索关键词的全部分词词语中删除,令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
2.根据权利要求1所述的装置,其特征在于,还包括:
描述处理模块,用于分别对所有文档的文字描述计算领域分数,并将计算出的领域分数设定为相应文档的领域分数。
3.根据权利要求1所述的装置,其特征在于,所述搜索排序模块还用于判断所述搜索关键词的分词词语是否包括排序分词词语,如果包括,则按照所述排序分词词语对所述根据搜索关键词搜索出的文档进行排序。
4.一种数据搜索的方法,其特征在于,包括:
对接收的搜索关键词进行分词处理,获得所述搜索关键词的全部分词词语;
获取所述搜索关键词的至少一个分词词语的领域分数,并根据所述至少一个分词词语的领域分数计算出所述搜索关键词的领域分数;
分别计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的所有文档的领域分数的匹配度;
依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序;
所述方法还包括:
根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别,如所述分词词语命中所述词库中存储的词语,则将所述分词词语设定为特征分词词语,否则,将所述分词词语设定为非特征分词词语,在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索;所述根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别,如所述分词词语命中所述词库中存储的词语,则将所述分词词语设定为特征分词词语,否则,将所述分词词语设定为非特征分词词语,在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索还包括:如果特征分词词语为预定义的特征分词词语,则将所述分词词语从所述搜索关键词的分词词语中删除,令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
5.根据权利要求4所述的方法,其特征在于,还包括:
分别对所有文档的文字描述计算领域分数,并将计算出的领域分数设定为相应文档的领域分数。
6.根据权利要求4所述的方法,其特征在于,所述依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序还包括:
判断所述搜索关键词的分词词语是否包括排序分词词语,如果包括,则按照所述排序分词词语对所述根据搜索关键词搜索出的文档进行排序。
CN201410469923.1A 2014-09-15 2014-09-15 一种数据搜索的装置及其方法 Expired - Fee Related CN104268175B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410469923.1A CN104268175B (zh) 2014-09-15 2014-09-15 一种数据搜索的装置及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410469923.1A CN104268175B (zh) 2014-09-15 2014-09-15 一种数据搜索的装置及其方法

Publications (2)

Publication Number Publication Date
CN104268175A CN104268175A (zh) 2015-01-07
CN104268175B true CN104268175B (zh) 2017-12-08

Family

ID=52159697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410469923.1A Expired - Fee Related CN104268175B (zh) 2014-09-15 2014-09-15 一种数据搜索的装置及其方法

Country Status (1)

Country Link
CN (1) CN104268175B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778232B (zh) * 2015-03-31 2017-04-19 北京奇虎科技有限公司 一种基于长查询的搜索结果的优化方法和装置
CN105468782B (zh) * 2015-12-21 2019-05-17 北京奇虎科技有限公司 一种查询-资源匹配度判断的方法及装置
CN107229659B (zh) * 2016-03-25 2021-06-22 华为技术有限公司 一种信息搜索方法及装置
CN105893592B (zh) * 2016-04-12 2019-06-21 Oppo广东移动通信有限公司 一种搜索方法和装置
CN106446235B (zh) * 2016-10-10 2021-04-06 Tcl科技集团股份有限公司 视频的搜索方法和装置
CN110019295B (zh) * 2017-09-25 2021-07-27 北京国双科技有限公司 数据库检索方法、装置、系统以及存储介质
CN108052503B (zh) * 2017-12-26 2021-04-27 北京奇艺世纪科技有限公司 一种置信度的计算方法及装置
CN110413738A (zh) * 2019-07-31 2019-11-05 腾讯科技(深圳)有限公司 一种信息处理方法、装置、服务器及存储介质
CN111325023B (zh) * 2020-01-21 2023-09-26 南方电网能源发展研究院有限责任公司 一种风险项目信息数据搜索方法
CN111291171B (zh) * 2020-01-21 2023-05-16 南方电网能源发展研究院有限责任公司 一种危大工程风险数据搜索方法
CN112417256B (zh) * 2020-10-20 2024-05-24 中国环境科学研究院 一种基于互联网的自然保护地认知评价系统及方法
CN112650914A (zh) * 2020-12-30 2021-04-13 深圳市世强元件网络有限公司 一种长尾关键词识别方法、关键词搜索方法及计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101458690A (zh) * 2007-12-14 2009-06-17 北京龙拓互动广告有限公司 一种发布广告的方法和广告服务器
CN102043831A (zh) * 2010-11-19 2011-05-04 四川圣望科技有限公司 代理搜索引擎方法
CN102722503A (zh) * 2011-03-31 2012-10-10 北京百度网讯科技有限公司 一种对检索结果进行排序的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070038608A1 (en) * 2005-08-10 2007-02-15 Anjun Chen Computer search system for improved web page ranking and presentation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101458690A (zh) * 2007-12-14 2009-06-17 北京龙拓互动广告有限公司 一种发布广告的方法和广告服务器
CN102043831A (zh) * 2010-11-19 2011-05-04 四川圣望科技有限公司 代理搜索引擎方法
CN102722503A (zh) * 2011-03-31 2012-10-10 北京百度网讯科技有限公司 一种对检索结果进行排序的方法及装置

Also Published As

Publication number Publication date
CN104268175A (zh) 2015-01-07

Similar Documents

Publication Publication Date Title
CN104268175B (zh) 一种数据搜索的装置及其方法
US9430568B2 (en) Method and system for querying information
US10423648B2 (en) Method, system, and computer readable medium for interest tag recommendation
EP2585979B1 (en) Method and system for fast and robust identification of specific products in images
US8983971B2 (en) Method, apparatus, and system for mobile search
US8725717B2 (en) System and method for identifying topics for short text communications
CN106682169B (zh) 一种应用标签挖掘方法、装置和应用搜索方法、服务器
EP4040310A1 (en) Image and text data hierarchical classifiers
CN108241667A (zh) 用于推送信息的方法和装置
CN104199833B (zh) 一种网络搜索词的聚类方法和聚类装置
US20170228599A1 (en) Content-Based Video Representation
WO2016000555A1 (zh) 基于社交网络的内容、新闻推荐方法和系统
US10229190B2 (en) Latent semantic indexing in application classification
CN106708940B (zh) 用于处理图片的方法和装置
CN106970991B (zh) 相似应用的识别方法、装置和应用搜索推荐方法、服务器
KR101355945B1 (ko) 온라인 문맥기반 광고 장치 및 방법
JP2018523251A (ja) カタログ内の製品を検索するためのシステムおよび方法
US20170322984A1 (en) Multi-dimensional search
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
CN112989824A (zh) 信息推送方法及装置、电子设备及存储介质
US20150206031A1 (en) Method and system of identifying an entity from a digital image of a physical text
CN106933878B (zh) 一种信息处理方法及装置
CN111209480A (zh) 一种推送文本的确定方法、装置、计算机设备和介质
CN107153697A (zh) 一种商品交易网站中的商品搜索方法和装置
CN104866547B (zh) 一种针对组合字类关键词的过滤方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171208

Termination date: 20180915