CN104268175B

CN104268175B - 一种数据搜索的装置及其方法

Info

Publication number: CN104268175B
Application number: CN201410469923.1A
Authority: CN
Inventors: 关涛; 于立柱
Original assignee: LeTV Information Technology Beijing Co Ltd
Current assignee: LeTV Information Technology Beijing Co Ltd
Priority date: 2014-09-15
Filing date: 2014-09-15
Publication date: 2017-12-08
Anticipated expiration: 2034-09-15
Also published as: CN104268175A

Abstract

本发明提供一种数据搜索的装置及其方法，所述装置包括：分词处理模块，用于对接收的搜索关键词进行分词处理，获得所述搜索关键词的分词词语；分数获取模块，用于获取至少一个所述搜索关键词的分词词语的领域分数，并根据所述至少一个分词词语的领域分数计算出所述搜索关键词的领域分数；匹配计算模块，用于分别计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的所有文档的领域分数的匹配度；搜索排序模块，用于依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序。本发明能够根据搜索关键词，提供更加符合搜索需求的搜索结果。

Description

一种数据搜索的装置及其方法

技术领域

本发明涉及互联网技术领域，尤其涉及一种数据搜索的装置及其方法。

背景技术

随着互联网技术的发展，网络信息数据量也越来越大，比如视频网站中大量的视频信息，网站论坛中大量用户的发布信息，以及用户的历史海量日志。为了实现某一操作目的，需要在大数据量的网络信息中获得满足需求的数据。

现有的数据搜索技术多采用基于搜索关键词(query)进行搜索，由搜索引擎服务器根据输入的搜索关键词，将与所述搜索关键词匹配的页面包含搜索结果进行反馈。并且，在搜索结果中进行排序，将和搜索关键词相关度最高的页面排在最前面。

但是，现有的数据搜索技术通常对搜索关键词的文本进行分词，仅仅计算各页面在文本上与搜索关键词的相关度，并不考虑该搜索关键词的需求，导致搜索出来的页面并非该搜索关键词真正想要的页面。比如，输入搜索关键词“最新恐怖片”，现有的数据搜索技术会基于词频和位置等文本内容进行搜索。因此，搜索出来的页面为包含“最新恐怖片”这一文本内容的页面，而输入该搜索关键词真正想要的页面为最新的恐怖片视频观看页面。

因此，如何根据搜索关键词提供更加符合搜索需求的搜索结果成为数据搜索技术中亟待解决的技术问题。

发明内容

有鉴于此，本发明提供一种数据搜索的装置及其方法，其能够根据搜索关键词，提供更加符合搜索需求的搜索结果。

本发明提供一种数据搜索的装置，包括：

分词处理模块，用于对接收的搜索关键词进行分词处理，获得所述搜索关键词的全部分词词语。

分数获取模块，用于获取至少一个所述搜索关键词的分词词语的领域分数，并根据所述至少一个分词词语的领域分数计算出所述搜索关键词的领域分数。

匹配计算模块，用于分别计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的所有文档的领域分数的匹配度。

搜索排序模块，用于依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序。

进一步，本发明还包括：

词库识别模块，用于根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别，如所述分词词语命中所述词库中存储的词语，则将所述分词词语设定为特征分词词语，否则，将所述分词词语设定为非特征分词词语，在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索。

进一步，本发明所述词库识别模块还如果特征分词词语为预定义的特征分词词语，则将所述分词词语从所述搜索关键词的全部分词词语中删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。

进一步，本发明还包括：

描述处理模块，用于分别对所有文档的文字描述计算领域分数，并将计算出的领域分数设定为相应文档的领域分数。

进一步，本发明所述搜索排序模块还用于判断所述搜索关键词的分词词语是否包括排序分词词语，如果包括，则按照所述排序分词词语对所述根据搜索关键词搜索出的文档进行排序。

对应于上述装置，本发明还提供一种数据搜索的方法，包括：

对接收的搜索关键词进行分词处理，获得所述搜索关键词的全部分词词语；

获取所述搜索关键词的至少一个分词词语的领域分数，并根据所述至少一个分词词语的领域分数计算出所述搜索关键词的领域分数；

分别计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的所有文档的领域分数的匹配度；

依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序。

进一步，本发明所述方法还包括：

根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别，如所述分词词语命中所述词库中存储的词语，则将所述分词词语设定为特征分词词语，否则，将所述分词词语设定为非特征分词词语，在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索。

进一步，本发明所述根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别，如所述分词词语命中所述词库中存储的词语，则将所述分词词语设定为特征分词词语，否则，将所述分词词语设定为非特征分词词语，在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索还包括：

如果特征分词词语为预定义的特征分词词语，则将所述分词词语从所述搜索关键词的分词词语中删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。

进一步，本发明还包括：

分别对所有文档的文字描述计算领域分数，并将计算出的领域分数设定为文档的领域分数。

进一步，本发明所述依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序还包括：

判断所述搜索关键词的分词词语是否包括排序分词词语，如果包括，则按照所述排序分词词语对所述根据搜索关键词搜索出的文档进行排序。

由以上技术方案可见，本发明对接收的搜索关键词进行分词处理，获得所述搜索关键词的分词词语的领域分数，从而得到所述搜索关键词的领域分数；本发明所进行的数据搜索，根据搜索关键词的领域分数与搜索出文档的领域分数的匹配度对搜索结果进行排序，令显示的搜索结果更加符合搜索的真实需求，提升了搜索的效果。并且，本发明计算简单，操作方便，提高了搜索效率。

附图说明

图1是本发明数据搜索的装置的结构框图；

图2是本发明数据搜索装置一具体实施例的结构框图；

图3是本发明数据搜索方法的一个实施例的流程图；

图4是本发明数据搜索方法的另一个实施例的流程图；

图5是本发明数据搜索方法中步骤S5的流程图。

具体实施方式

由于现有的数据搜索技术会基于搜索关键词的分词词语的词频和位置等文本内容进行搜索，但这种搜索往往忽略了搜索的需求信息，得到错误的搜索结果。通常考虑到搜索需求的数据搜索方法需要先统计搜索日志中的搜索关键词及其分词词语的需求概率，建立一需求概率模型。而在根据搜索关键词进行搜索时，根据该概率模型确定搜索关键词及其分词词语的搜索需求。而后还需要计算各种需求与搜索页面的相关度得到搜索关键词的需求与搜索得到的页面的相关度，并根据该相关度显示搜索得到的页面。但是，这种搜索方法需要先根据日志建立概率模型，而且根据概率模型确定的搜索需求计算复杂，影响搜索的效率。

本发明对接收的搜索关键词进行分词处理，获得所述搜索关键词的分词词语的领域分数，从而得到所述搜索关键词的领域分数。本发明所进行的数据搜索，根据搜索关键词的领域分数与搜索出文档的领域分数的匹配度对搜索结果进行排序，令显示的搜索结果更加符合搜索的真实需求，提升了搜索的效果。并且，本发明计算简单，操作方便，提高了搜索效率。

下面结合本发明附图进一步说明本发明具体实现。

参见图1，本发明提供一种数据搜索的装置可以用来搜索网站论坛中大量用户的发布信息，服务器中的视频文件以及用户的历史海量日志等大数据量信息。本发明装置中的各数据库可以存储在数据库服务器中，各功能模块可以存储在控制服务器中。当然，本发明各功能模块以及数据库可以分别存储在相同的或者不同的服务器中，由本领域技术人员根据需求进行选择设置。

参见图1，本发明装置包括：

分词处理模块11，用于对接收的搜索关键词进行分词处理，获得所述搜索关键词的全部分词词语。

分数获取模块12，用于获取所述搜索关键词的至少一个分词词语的领域分数，并根据所述至少一个分词词语的领域分数计算出所述搜索关键词的领域分数。

匹配计算模块13，用于分别计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的所有文档的领域分数的匹配度。

搜索排序模块14，用于依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序。

本发明所进行的数据搜索，根据搜索关键词的领域分数与搜索出文档的领域分数的匹配度对搜索结果进行排序，令显示的搜索结果更加符合搜索的真实需求，提升了搜索的准确率。并且，本发明计算简单，操作方便，提高了搜索效率。

在本发明具体实现中，数据库服务器或者其他服务器中还包括预先设立的词库。所述预先设立的词库包括明星词库、版本词库、类型词库、地点词库、排序词库等中至少一个。

具体地，明星词库多指明星的姓名或者艺名，比如刘德华、张曼玉等；版本词库多指语言类型，比如国语版、日语版等；类型词库多指视频的类型，比如恐怖片、色情片等；地点词库多指影片的拍摄国家，比如北京、日本，韩国；而排序词库多指排序依据，比如最新、最好看、最恐怖等。

上述词库可以采用手工设立，或者通过机器语言总结现有日志中的信息进行设立。为了便于搜索，在大数据量的信息存储中通常对存储的文档设置分类标签，所述分类标签标明所述文档的分类信息，如涉及明星、语言类型、视频类型、拍摄地点、搜索历史等。文档的分类标签可以记录在文档的文字描述中，亦可以作为单独的分类标签存在。

在本发明一具体的实施例中，参看图2，本发明装置还包括词库识别模块15，用于根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别，如所述分词词语命中所述词库中存储的词语，则将所述分词词语设定为特征分词词语，否则，将所述分词词语设定为非特征分词词语，在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索。

此外，所述词库识别模块15还用于如果特征分词词语为预定义的特征分词词语，则将所述特征分词词语从所述搜索关键词的全部分词词语中删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。

所述预定义的特征分词词语由本领域技术人员根据搜索系统的需要进行设定。通常将表示版本信息(如：香港版、大陆版)、类型信息(如：动漫、武侠)、地点信息(如：美国、中国)等信息的词语设定为预定义的特征分词词语。如果搜索关键词的全部分词词语中存在预定义的特征分词词语，则将该分词词语从搜索关键词的全部分词词语中去除。在分数获取模块12中即不再对所述删除的分词词语进行领域分数获取。

因此，本发明词库识别模块15在所述搜索关键词的分词词语中去除了预定义的特征分词词语，避免了由于这些分词词语造成的对搜索需求信息的误导。比如，搜索关键词分词词语里面包含“美国”这一预定义的特征分词词语，搜索需求是为了搜索出美国电影，如果不去除“美国”这个分词词语，则会将包含“美国”这个文本含义的电影搜索出来，比如电影“美国往事”。

下面以一些具体实现来说明本发明词库识别模块15的操作。

具体地，预先设立了明星词库，如果搜索关键词中的分词词语包含的明星姓名命中明星词库中保存的明星姓名，将该明星姓名设定为特征分词词语。在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索，即在该明星涉及的文档中根据非特征分词词语进行搜索。

比如，搜索关键词为“刘德华电影”，进行分词处理后的分词词语包含“刘德华”、“电影”，分词词语“刘德华”命中明星词库中存储的“刘德华”，将分词词语“刘德华”设定为特征分词词语，将“电影”设定为非特征分词词语。在“刘德华”匹配的视频文件中根据“电影”进行搜索。

具体地，预先设立了版本词库，如果搜索关键词中的分词词语包含的版本信息命中版本词库中保存的版本信息，将该版本信息设定为特征分词词语。在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索，即在该版本信息涉及的文档中根据非特征分词词语进行搜索。并且，特征分词词语版本信息为预定义的特征分词词语，则将所述版本信息从所述搜索关键词的全部分词词语中删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。

比如，搜索关键词为“粤语版电影”，进行分词处理后的分词词语包含“电影”、“粤语版”，分词词语“粤语版”命中版本词库的版本信息，设定“粤语版”作为特征分词词语，“电影”为非特征分词词语。在粤语版的视频文件中根据“电影”进行搜索。并且“粤语版”为预定义的特征分词词语，则将所述“粤语版”从所述搜索关键词的全部分词词语中删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。

具体地，预先设立了类型词库，如果搜索关键词中的分词词语包含影片类型，则命中类型词库中保存的影片类型，将该分词词语包含影片类型设定为特征分词词语。在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索，即在该影片类型涉及的文档中根据非特征分词词语进行搜索。并且，特征分词词语影片类型为预定义的特征分词词语，则将所述影片类型从所述搜索关键词的全部分词词语中删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。

比如，搜索关键词为“喜剧火车”，进行分词处理后的分词词语包含“喜剧”、“火车”，分词词语“喜剧”命中类型词库中保存的影片类型，将分词词语“喜剧”设定为特征分词词语，“火车”设定为非特征分词词语。在喜剧的视频文件中根据“火车”进行搜索。并且“喜剧”为预定义的特征分词词语，则将“喜剧”从所述搜索关键词的全部分词词语中删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。

具体地，预先设立了地点词库，如果搜索关键词中的分词词语包含地点类型，则命中地点词库中保存的地点类型，将该分词词语包含地点类型设定为特征分词词语。在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索，即在该地点类型涉及的文档中根据非特征分词词语进行搜索。并且，特征分词词语地点类型为预定义的特征分词词语，则将所述地点类型从所述搜索关键词的全部分词词语中删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。

比如，搜索关键词为“美国朋友”，进行分词处理后的分词词语包含“美国”、“朋友”，分词词语“美国”命中地点词库中保存的地点类型，将分词词语“美国”设定为特征分词词语，“朋友”设定为非特征分词词语。在美国的视频文件中根据非特征分词词语“朋友”进行搜索。并且“美国”为预定义的特征分词词语，则将“美国”从所述搜索关键词的全部分词词语中删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。

当然，本发明亦可同时预先设置明星词库、版本词库、类型词库、地点词库、排序词库等中的多个词库。

比如，预设了明星词库和类型词库时，搜索关键词为“刘德华喜剧电影贺岁”，进行分词处理后的分词词语包含“刘德华”、“喜剧”、“电影”、“贺岁”，分词词语“刘德华”命中明星词库中的“刘德华”，分词词语“喜剧”命中类型词库中的“喜剧”。将“刘德华”和“喜剧”设定为特征分词词语，将“电影”、“贺岁”设定为非特征分词词语。在刘德华的喜剧电影的视频文件中根据“电影”、“贺岁”进行搜索。特征分词词语“喜剧”为自定义的特征分词词语，则将搜索关键词中的分词词语中的“喜剧”删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。

本发明预先设置其他词库的操作和上述相同，故在此不再赘述。

具体地，本发明分词处理模块11对搜索关键词进行分词处理可以采用现有的分词处理方法，比如，基于字符串的分词方法，基于理解的分词方法，基于统计的分词方法或者基于语义的分词方法，由于其为现有技术，故不再赘述。

在本发明的优选实施例中，对搜索关键词进行分词处理还过滤掉预设的停用词表所包含的词语及/或非独立表意的词语(如，的)等。

在本发明的具体实现中，本发明装置运行之初，还可以包括：描述处理模块16。

描述处理模块16，用于分别对所有文档的文字描述(包括名称)计算领域分数，并将计算出的领域分数设定为相应文档的领域分数。

其中，领域是指每个文档所涉及的内容的类别，比如新闻、综艺、电影、体育等。

所述对所有文档的文字描述计算领域分数采用空间向量相似度的方法，具体的公式为：

其中，d表示文档的文字描述，D表示领域的描述，G(d,D)表示文档的文字描述d在领域D的领域分数。

空间向量相似度是把对文本内容的处理简化为向量空间中的向量运算，并且它以空间上的相似度表达语义的相似度，直观易懂。当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。

本发明将文档的文字描述处理成为空间的向量，并将各个领域的描述亦处理成为空间的向量。由上述公式可以看出，公式(1)计算文档的文字描述对应的向量和某一领域的描述对应的向量的相似度来获得该文字描述在该领域的分数。具体地，通常是比较这两个向量的夹角的偏差度来实现。

由于空间向量相似度为一现有算法，故在此不再赘述。当然，本发明对所有文档的文字描述计算领域分数亦可以采用其他现有的算法，仅需比较文档的文字描述和领域的文字描述之间的相似度即可，比如采用基于语义理解的比较方法等。

例如，综艺节目《非诚勿扰》的某一期视频的文字描述可以是“生活类相亲”，计算该文字描述与综艺领域、电影领域、新闻领域、体育领域等各个领域的领域分数，即利用公式(1)计算该文字描述处理成的向量和各个领域的文字描述处理成的相量的相似度。从而，得到《非诚勿扰》的文字描述在各个领域的领域分数，比如，在综艺领域为0.8分，在电影领域为0.6分，在新闻领域为0.3分，在体育领域为0分。

在本发明的具体实现中，本发明装置还包括表项设立模块17，用于将所述分数获取模块12获取的所述搜索关键词的分词词语的领域分数进行保存，并根据所述计算得到的分词词语及对应的领域分数生成领域分数表。

具体地，本发明装置对获得的搜索关键词进行分词处理，得到搜索关键词的所有分词词语后，先对保存的所述领域分数表进行查询，确定所述搜索关键词的分词词语是否在所述领域分数表中。如果在，则直接通过查表获得该分词词语的领域分数，如果不在，则计算获得该分词词语的领域分数，并令所述表项设立模块17将该分词词语以及对应的领域分数保存到领域分数表中。

本发明将分词词语及其对应的领域分数组合生成领域分数表。该领域分数表如表一所示。

表一

分词词语	综艺	电影	新闻	体育	……
						世界杯	0.4	0	0.6	0.9	……
天下无贼	0.2	0.9	0	0	……
						……	……	……	……	……	……

其中，所述分数获取模块12中获得每个分词词语的领域分数的计算公式如下：

其中G(w,D)表示分词词语w在领域D的领域分数，S(w,D)表示分词词语w在领域D的词频，N表示的是领域的总个数。

本发明分词词语在某一领域的词频是根据TF-IDF(term frequency–inversedocument frequency)词频--反转文件频率获得的。TF-IDF是一种用于情报检索与文本挖掘的常用加权技术，用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。由于在数据搜索中对每个搜索关键词进行分词处理后，都需要获得每个分词词语的词频，然后利用分词词语的词频进行搜索。本发明利用现有的搜索技术中获得的分词词语的词频计算每个分词词语的领域分数。

其中，所述分数获取模块12中根据所述搜索关键词的分词词语的领域分数计算出所述搜索关键词的领域分数的公式如下：

其中G(q,D)表示的是搜索关键词q在领域D的分数，G(W_i,D)表示所述搜索关键词中的第i个分词词语的领域分数，所述搜索关键词共有n个分词词语，所述n个分词词语为所述词库识别模块15从搜索关键词的全部分词词语中删除自定义的特征分词词语后剩余的分词词语。

由于本发明描述处理模块16分别对所有文档的文字描述计算领域分数，并将计算出的领域分数设定为文档的领域分数。因此，根据搜索关键词搜索出的文档是具有领域分数的。本发明匹配计算模块13将获得的搜索关键词的领域分数和搜索得到文档的领域分数计算匹配度。

进一步，本发明匹配计算模块13计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的文档的领域分数的匹配度的计算公式为：

其中，其中G(q,D)表示的是搜索关键词q在领域D的领域分数，G(d,D)表示的是根据搜索关键词搜索出的文档在领域D的领域分数。

本发明根据搜索关键词进行搜索，对搜索文档进行排序后显示成为搜索结果。

在本发明一优选的实施例中所述搜索排序模块14判断所述搜索关键词的分词词语是否包括排序分词词语，如果包括，则按照所述排序分词词语对所述根据搜索关键词搜索出的文档进行排序。

具体地，搜索关键词中含有排序分词，比如最新，最好看等，排序规则进行变更，如果是最新，排序规则改成以时间顺序排序，如果是最好看，排序规则改成以好看程度排序，如果是最恐怖，排序规则改成以恐怖程度进行排序等。

如果所述搜索关键词的分词词语不包括排序分词词语，则依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序。所排序分词可以预先设定或者将包含“最”、“更”等表示顺序特征的字的词识别为排序分词。

因此，本发明计算搜索关键词的领域分数，即考量了搜索关键词所包含的搜索需求信息，而后根据搜索关键词的领域分数和搜索文档的领域分数的相似度对所搜索的文档进行排序。从而令显示的搜索结果是根据所述搜索关键词的需求信息进行排序的，给出更满意的搜索结果，提升了搜索的效果。

下面一个数据搜索的具体例子来进一步说明本发明实现。

例如，需要对某个服务器中保存的所有视频文档进行搜索。本发明对所有视频文档的文字描述进行处理。首先，计算所有视频文档的文字描述的领域分数，将该领域分数保存为所述视频文档的领域分数。

用户输入的检索关键词为“中国非诚勿扰关于相亲的第59期”，对该检索关键词进行分词处理，过滤掉预设的停用词表所包含的词语及/或非独立表意的词语，得到分词词语：“中国”、“非诚勿扰”、“相亲”、“第59期”。

如预先设置了地点词库，则对该分词词语进行词库识别，“中国”命中地点词库的“中国”，将“中国”设定为特征分词词语，将“非诚勿扰”、“相亲”、“第59期”设定为非特征分词词语。在中国视频文档中根据“非诚勿扰”、“相亲”、“第59期”进行搜索。由于“中国”为自定义的特征分词词语，则将“中国”从搜索关键词中的分词词语中删除。

本发明分别将分词词语“非诚勿扰”、“相亲”、“第59期”进行领域分数表查询，如果领域分数表中存储了该分词词语，则获得它们的领域分数。如果领域分数表中没有存储该分词词语，则计算得到该分词词语的领域分数，并将该分词词语及对应的领域分数存储到领域分数表中。“非诚勿扰”在综艺领域的分数为0.8，电影领域的分数为0.6，新闻领域的分数为0.2，体育领域的分数为0。“相亲”在综艺领域的分数为0.9，电影领域的分数为0.4，新闻领域的分数为0.3，体育领域的分数为0。“第59期”在综艺领域的分数为0.8，电影领域的分数为0.2，新闻领域的分数为0.1，体育领域的分数为0。因此，计算得到搜索关键词“中国非诚勿扰关于相亲的第59期”的领域分数为在综艺领域的分数为2.5，电影领域的分数为1.2，新闻领域的分数为0.6，体育领域的分数为0。

计算搜索关键词“中国非诚勿扰关于相亲的第59期”的领域分数和搜索得到的视频文档的领域分数的匹配度。

依据匹配度对利用词库识别根据搜索关键词搜索得到的视频文档进行排序，从而作为搜索的结果。

由此可知，采用本发明装置进行数据搜索，根据搜索关键词考虑到了搜索的需求信息，而不是简单的根据搜索关键词的文本进行搜索。本发明不会将内容含有中国、非常勿扰和相亲、第59期的视频文件搜索出来，而是根据检索关键词的领域分数，获得该搜索的需求信息是希望搜索得到某期综艺节目，因此可以按照该搜索需求对搜索的视频文档进行了排序。本发明令搜索出的结果更加符合搜索需求，提高对搜索结果的满意度，也提升了搜索的效率。

对应于上述装置，本发明还提供一种数据搜索的方法，参看图3，本发明方法包括：

S1、对接收的搜索关键词进行分词处理，获得所述搜索关键词的全部分词词语；

S2、获取所述搜索关键词的至少一个分词词语的领域分数，并根据所述至少一个分词词语的领域分数计算出所述搜索关键词的领域分数；

S3、分别计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的所有文档的领域分数的匹配度；

S4、依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序。

本发明仅需对所述搜索关键词的分词词语根据预先设立的领域分数表进行查询即可获得其领域分数，从而得到所述搜索关键词的领域分数。因此，本发明仅需要进行查表操作及简单计算即可获得所述搜索关键词的领域分数。

在本发明一具体的实施例中，参看图4，本发明方法还包括：S5、根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别，如所述分词词语命中所述词库中存储的词语，则将所述分词词语设定为特征分词词语，否则，将所述分词词语设定为非特征分词词语，在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索。

此外，所述步骤S5还包括：如果特征分词词语为预定义的特征分词词语，则将所述特征分词词语从所述搜索关键词的全部分词词语中删除，不再对所述删除的分词词语进行领域分数获取。

所述预定义的特征分词词语由本领域技术人员根据搜索系统的需要进行设定。通常将版本信息、类型信息、地点信息等词语设定为预定义的特征分词词语。如果搜索关键词的全部分词词语中存在预定义的特征分词词语，则将该分词词语从搜索关键词的全部分词词语中去除。步骤S2中不再对所述删除的分词词语进行领域分数获取。

因此，本发明在所述搜索关键词的分词词语中去除了预定义的特征分词词语，避免了由于这些分词词语造成的对搜索需求信息的误导。比如，搜索关键词分词词语里面包含“美国”这一预定义的特征分词词语，搜索需求是为了搜索出美国电影，如果不去除“美国”这个分词词语，则会将包含“美国”这个文本含义的电影搜索出来，比如电影“美国往事”。

下面以一些具体实现来说明本发明的操作。

比如，搜索关键词为“刘德华电影”，进行分词处理后的分词词语包含“刘德华”“电影”，分词词语“刘德华”命中明星词库中存储的“刘德华”，将分词词语“刘德华”设定为特征分词词语，将“电影”设定为非特征分词词语。在“刘德华”匹配的视频文件中根据“电影”进行搜索。

比如，搜索关键词为“粤语版电影”，进行分词处理后的分词词语包含：“电影”、“粤语版”，分词词语“粤语版”命中版本词库的版本信息，设定“粤语版”作为特征分词词语，“电影”为非特征分词词语。在粤语版的视频文件中根据“电影”进行搜索。并且“粤语版”为预定义的特征分词词语，则将所述“粤语版”从所述搜索关键词的全部分词词语中删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。

具体地，本发明步骤S1对搜索关键词进行分词处理可以采用现有的分词处理方法，比如，基于字符串的分词方法，基于理解的分词方法，基于统计的分词方法或者基于语义的分词方法，由于其为现有技术，故不再赘述。

在本发明的具体实现中，本发明步骤S1-S4运行前，还可以包括：

P1、分别对所有文档的文字描述(包括名称)计算领域分数，并将计算出的领域分数设定为相应文档的领域分数。

在本发明的具体实现中，本发明方法还包括：P2、将所述获取的所述搜索关键词的分词词语的领域分数进行保存，并根据所述计算得到的分词词语及对应的领域分数生成领域分数表。

具体地，本发明对获得的搜索关键词进行分词处理，得到搜索关键词的所有分词词语后，先对保存的所述领域分数表进行查询，确定所述搜索关键词的分词词语是否在所述领域分数表中。如果在，则直接通过查表获得该分词词语的领域分数，如果不在，则计算获得该分词词语的领域分数，并将该分词词语以及对应的领域分数保存到领域分数表中。

表一

其中，获得每个分词词语的领域分数的计算公式如下：

其中，根据所述搜索关键词的分词词语的领域分数计算出所述搜索关键词的领域分数的公式如下：

由于本发明分别对所有文档的文字描述计算领域分数，并将计算出的领域分数设定为文档的领域分数。因此，根据搜索关键词搜索出的文档是具有领域分数的。

本发明步骤S3将获得的搜索关键词的领域分数和搜索得到文档的领域分数计算匹配度。

进一步，本发明步骤S3计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的文档的领域分数的匹配度的计算公式为：

在本发明一优选的实施例中所述步骤S4还包括：判断所述搜索关键词的分词词语是否包括排序分词词语，如果包括，则按照所述排序分词词语对所述根据搜索关键词搜索出的文档进行排序。

如果所述搜索关键词的分词词语不包括排序分词词语，则依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种数据搜索的装置，其特征在于，包括：

分词处理模块，用于对接收的搜索关键词进行分词处理，获得所述搜索关键词的全部分词词语；

分数获取模块，用于获取至少一个所述搜索关键词的分词词语的领域分数，并根据所述至少一个分词词语的领域分数计算出所述搜索关键词的领域分数；

匹配计算模块，用于分别计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的所有文档的领域分数的匹配度；

搜索排序模块，用于依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序；

所述装置还包括：

词库识别模块，用于根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别，如所述分词词语命中所述词库中存储的词语，则将所述分词词语设定为特征分词词语，否则，将所述分词词语设定为非特征分词词语，在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索；所述词库识别模块还用于如果特征分词词语为预定义的特征分词词语，则将所述特征分词词语从所述搜索关键词的全部分词词语中删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。

2.根据权利要求1所述的装置，其特征在于，还包括：

3.根据权利要求1所述的装置，其特征在于，所述搜索排序模块还用于判断所述搜索关键词的分词词语是否包括排序分词词语，如果包括，则按照所述排序分词词语对所述根据搜索关键词搜索出的文档进行排序。

4.一种数据搜索的方法，其特征在于，包括：

依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序；

所述方法还包括：

根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别，如所述分词词语命中所述词库中存储的词语，则将所述分词词语设定为特征分词词语，否则，将所述分词词语设定为非特征分词词语，在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索；所述根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别，如所述分词词语命中所述词库中存储的词语，则将所述分词词语设定为特征分词词语，否则，将所述分词词语设定为非特征分词词语，在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索还包括：如果特征分词词语为预定义的特征分词词语，则将所述分词词语从所述搜索关键词的分词词语中删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。

5.根据权利要求4所述的方法，其特征在于，还包括：

分别对所有文档的文字描述计算领域分数，并将计算出的领域分数设定为相应文档的领域分数。

6.根据权利要求4所述的方法，其特征在于，所述依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序还包括：