一种目标主题的检索方法和系统
技术领域
本发明涉及信息加工领域,具体地说是一种目标主题的检索方法和系统。
背景技术
随着网络技术与信息技术的发展,产生了海量的资源和信息,对单一信息的获取和阅读已经逐渐不能满足用户的需求,由于专题对某一类信息进行和很好的表示,成为用户关注的热点。
一般而言,专题是由若干有共同性的内容组成的集合体。这种共同性,是指各篇文章存在主题、题材、体裁、表现手法几个方面中,至少有一个方面有共同之处。这种共同性,表明这些文章关注的内容属于同一类。因此以专题的形式集中展现某一时间的某一事件的起因、进展、趋势和影响程度,将给读者在浏览这一信息时得到全方位的认知,从而取得读者给予信任和认可,在读者的认知中建立起权威,诸如此类的新闻事件很多,如:汶川地震、日本地震等。
由于用户对于某一个专题聚合多个信息的要求日益强烈,因此如何准确的收集这些专题的内容则成为重要的问题之一。在这种情况下,通过一个专题的名称从海量的资源和信息中寻找与该专题最相关的内容成为了一个必须要做的工作。
为了满足从海量资源中获取某一个专题信息,并把这些信息聚合起来进行阅读的要求,目前,行业中也提出了一些专题聚合的方案,一种方案是根据专题名称,人工进行查找。但是由于从海量数据中搜索内容非常复杂,该方案效率低下。此外,这种方法还需要借助外部第三方的工具等,耗时耗力。另一种方式是根据专题名称在海量资源中进行全文检索,然后将检索结果聚集在一起形成专题,但是,由于专题名称中包含众多的信息,尤其是对于名称比较长专题,通过匹配的方式获得的检索结果,往往很多内容都不是用户最终想要的结果,不仅准确性较差而且容易漏掉一些相关的内容,造成数据质量不高,检索结果不够精准。
发明内容
为此,本发明所要解决的技术问题在于现有技术中的专题聚类方法复杂、准确定差、不全面的问题,从而提出一种实现简单、方便、准确性高的目标主题的检索方法。
为解决上述技术问题,本发明的提供一种目标主题的检索系统和方法。
本发明提供一种目标主题的检索方法,包括:
确定目标主题的相关词;
根据所述相关词进行检索得到第一检索结果;
对目标主题进行分词,得到分词结果;
根据分词结果进行检索,确定第二检索结果;
根据第一检索结果和第二检索结果确定目标主题的检索结果。
此外,本发明还提供一种目标主题的检索系统,包括
相关词确定单元:确定目标主题的相关词;
第一检索单元:根据所述相关词进行检索得到第一检索结果;
分词单元:对目标主题进行分词,得到分词结果;
第二检索单元:根据分词结果进行检索,确定第二检索结果;
综合单元:根据第一检索结果和第二检索结果确定目标主题的检索结果。
本发明的上述技术方案相比现有技术具有以下优点,
(1)本发明提供一种目标主题的检索方法,首先,计算目标主题的相关词,根据相关词进行检索得到第一检索结果,同时对目标主题进行分词,使用分词结果中的词进行检索得到第二检索结果,然后将这两次的检索结果进行融合,得到目标主题的检索结果。通过该方法,使用目标主题的相关词和分词结果一起来进行检索,扩大了目标主题的内容,更加全面、准确的获得了目标主题相关的检索内容,能够自动进行检索,省时省力,并且精准度高,并可以通过后续处理来适应用户个性化需求,满足了专题聚类聚合的需求,解决了现有技术中专题检索聚类方法复杂、准确性差、不全面的问题。
(2)本发明提供的目标主题的检索方法,根据相关词检索结果和分词检索结果确定目标主题的检索结果时,可以通过取并集或者交集的方式来实现,对于要求全面的用户,可以取并集,扩大检索结果涵盖的范围,提高目标主题聚类的全面性。对于需要精准的用户,可以取交集,提高命中结果的准确性,从而提高目标主题聚类的准确性。因此,可以因地制宜的设置合适的方法,多方面满足用户的需要。
(3)本发明提供的目标主题的检索方法,根据分词结果进行检索,确定第二检索结果的过程中,将分词后的每个词进行检索后得到的检索结果,取交集,由于分词后的每个词只能反映出目标主题的部分特征,通过取交集的方式,得到反映出目标主题中所有特征的检索结果,过滤掉了无关的信息,使得检索结果更准确。
(4)本发明还提供一种目标主题的检索系统,包括相关词确定单元、第一检索单元、分词单元、第二检索单元以及综合单元,使用目标主题的相关词和分词结果一起来进行检索,扩大了目标主题的内容,更加全面、准确的获得了目标主题相关的检索内容,能够自动进行检索,省时省力,并且精准度高。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是本发明一个实施例的流程图;
图2是本发明另一个实施例的流程图;
图3是本发明一个实施例的系统结果框图。
具体实施方式
下面提供本发明构思下的目标主题的检索方法的具体实施方式,该方法可以用户目标主题的聚类以及分类等场合。可以通过具有执行如下过程的指令代码的计算机、手机或者其他智能设备来实现。
实施例1:
本实施例中提供一种目标主题的检索方法,包括如下步骤:
S1:确定目标主题的相关词。根据目标主题词进行扩展,得到目标主题词的相关词。此处的方法可以使用现有技术中的扩展检索关键词的方式来确定目标主题的相关词。本实施例中,提供一种计算目标主题的相关词的方式,如下:
首先,根据目标主题在数据库中进行检索,获取所有命中语句。
然后,获取所述命中语句前后的相关语句,可以获取前一句和后一句,
在其他的实现方式中,也可以获取前2句或者后2句。
接着,将所述命中语句和所述相关语句进行分词。
最后,统计所有分词后的词频,根据词频的大小获得定目标主题的相关词。
S2:根据所述相关词进行检索得到第一检索结果。
具体为,以每个所述相关词为关键词在所需文本中进行检索;然后将所有检索结果合并作为第一检索结果。一般来说,为了保证结果的全面性,会去重后保留所有检索结果,但是在某些只要求检索精度的场合,也可以只选择出现频率达到一定程度的检索结果。
S3:对目标主题进行分词,得到分词结果。
在对目标主题进行分词时,可以采用现有技术中已有的分词器如AJ分词器,KI分词器等。
S4:根据分词结果进行检索,确定第二检索结果。
以分词结果中的每个词作为检索词分别进行检索,得到检索结果,然后将所有的检索结果取交集,得到的结果作为第二检索结果。由于分词后的每个词只能反映出目标主题的部分特征,通过取交集的方式,得到反映出目标主题中所有特征的检索结果,过滤掉了无关的信息,使得检索结果更准确。但是,在其他的一些更注重检索的全面性的实施方案中,也可以保留分词结果中的每个词作为检索词得到所有检索结果,取所有分词后词语检索结果的并集。在一些实施方式中,还可以通过检索过程中得到的每个检索结果的权重,设置一定的权重范围,来选取所有检索结果中的部分检索结果。
S5:根据第一检索结果和第二检索结果确定目标主题的检索结果。
本实施例中,将第一检索结果和第二检索结果取交集得到的内容作为目标主题的检索结果。在其他的实施方式中,还可以将第一检索结果和第二检索结果取并集得到的内容作为目标主题的检索结果。
对于要求全面的用户,可以取并集,扩大检索结果涵盖的范围,提高目标主题聚类的全面性。对于需要精准的用户,可以取交集,提高命中结果的准确性,从而提高目标主题聚类的准确性。因此,可以因地制宜的设置合适的方法,多方面满足用户的需要。
本发明实施例中提供的目标主题的检索方法,首先,计算目标主题的相关词,根据相关词进行检索得到第一检索结果,同时对目标主题进行分词,使用分词结果中的词进行检索得到第二检索结果,然后将这两次的检索结果进行融合,得到目标主题的检索结果。通过该方法,使用目标主题的相关词和分词结果一起来进行检索,扩大了目标主题的内容,更加全面、准确的获得了目标主题相关的检索内容,能够自动进行检索,省时省力,并且精准度高,并可以通过后续处理来适应用户个性化需求,满足了专题聚类聚合的需求,解决了现有技术中专题检索聚类方法复杂、准确性差、不全面的问题
实施例2:
本实施例中提供一种主题词的检索方法,根据该主题词获取其相关的内容,可以用于聚类、分类等场景,具体过程如下,如图2所示:
1、建立语料库,包含一些语料全文文本内容。
2、使用主题词在语料库中进行全文检索。
3、将检索结果所在的句子和前后各一句句子共三个句子提取出来,形成筛选语句。
4、将所有的筛选语句使用分词器进行分词,并根据词频从大到小排序,取出前N个词,作为相关词。
5、用这些词从待检索文本中分别进行检索,获取到检索结果R1集合。
6、将主题词用分词器分词,获得几个词。
7、将这几个词在待检索文本中分别进行检索。
8、将分词的各检索结果取一个交集,获取到检索结果R2集合。
9、将R1和R2合并起来,形成该主题的检索结果,获得其相关的内容的集合。
实施例3:
本实施例只要解决专题内容聚合的问题,即通过一个专题词,扩展出一些相关词,使用这些相关词进行检索,得到结果R1;同时将专题词进行分词,之后再检索数据,并对检索数据取交集,得到结果集R2,然后将两部分结果R1和R2合并,从而生成一个专题,解决专题聚合的问题。具体的过程如下:
1、通过用户指定的专题词,从语料库中进行全文检索。
2、将命中的语句,采用划窗的方式取所命中的一句话及前后各一句话,共三句话。
3、将这三句话进行分词。
4、所有的命中语句都按照2、3的顺序处理,并将所有分词后的词频进行统计,统计后按词频大小排序,排序后按一定的比例取前若干个词,得到该专题词的相关词。
5、使用这些相关词在待检索文本内容C中进行全文检索,获取到相关检索结果R1。
6、对专题词使用分词器进行分词,获取到分词,然后使用这些分词分别在待检索文本内容C中进行检索。
7、根据分词不同对检索结果取交集,获取到检索结果R2。
8、将R1和R2合并,形成最终的专题内容检索结果,得到专题聚类的内容。
本实施例中的方案,可以在只有一个专题名称的情况,通过扩展这个专题词的范围和一些检索手段,自动组织资源,形成一个专题。用户在使用本方案进行专题内容聚合时,能够通过专题词和专题相关词一起检索出相应的结果,扩大专题内容的范围,并通过合并和取交集的方法,找出与本专题最相关的检索内容,满足形成专题内容的需求。
实施例4:
本实施例中提供一个具体的应用实例,用于实现用户通过本发明中的目标主题的检索方法,使用一个专题词生成一个专题的方法。
现有一个专题词“惩罚利率”,想要从内容中获取有关惩罚利率的内容,并组成一个专题。
1、选择若干本金融专业图书,将这些图书内容按照章节目录抽取出文本,并创建全文检索库。
2、将“惩罚利率”在金融全文检索库中进行全文检索,获取一个结果列表。
3、从这个结果列表分别取当前命中句子和前后各一个句子。
4、把所有的筛选结果句子都取出来,统一使用分词器分词。
5、分词后统计词频,按照词频高低排序,取词频最高的N个词作为相关词,这些词包括“基准利率、资产负债表、透支、借款人”等。
6、用这些词从待检索的索引库中进行检索。
7、获取到检索结果R1。
8、将专题词“惩罚利率”,用分词器拆分成“惩罚”、“利率”两个词。
9、用8中拆分后的两个词,分别从待检索的索引中进行全文检索,分别得到惩罚检索结果A1和利率检索结果A2。
10、对A1和A2取交集,得到检索结果R2。
11、对R1和R2合并,获取到最终的检索结果,该检索结果就是专题词“惩罚利率”的专题内容。
实施例5:
本实施例中提供一种目标主题的检索系统,包括
相关词确定单元:确定目标主题的相关词;
第一检索单元:根据所述相关词进行检索得到第一检索结果;
分词单元:对目标主题进行分词,得到分词结果;
第二检索单元:根据分词结果进行检索,确定第二检索结果;
综合单元:根据第一检索结果和第二检索结果确定目标主题的检索结果。
本实施例中,所述综合单元包括第一综合子单元,将第一检索结果和第二检索结果取交集得到的内容作为目标主题的检索结果。
在其他可以替换的实施方式中,所述综合单元包括第二综合子单元,将第一检索结果和第二检索结果取并集得到的内容作为目标主题的检索结果。
本实施例中,所述第二检索单元包括:
检索子单元:以分词结果中的每个词作为检索词分别进行检索,得到检索结果;
取交集单元:将所有的检索结果取交集,得到的结果作为第二检索结果。
优选地,本实施例中,所述第一检索单元包括:
第一检索子单元:以每个所述相关词为关键词进行检索;
第一检索结果合并子单元:将所有检索结果合并作为第一检索结果。
进一步地,其中,所述相关词确定单元包括:
相关词确定检索子单元:根据目标主题在数据库中进行检索,获取部分或所有命中语句;
相关语句获取子单元:获取所述命中语句前后的相关语句;
分词子单元:将所述命中语句和所述相关语句进行分词;
确定子单元:统计所有分词后的词频,根据词频的大小确定目标主题的相关词。
本实施例中的目标主题的检索系统,包括相关词确定单元、第一检索单元、分词单元、第二检索单元以及综合单元,使用目标主题的相关词和分词结果一起来进行检索,扩大了目标主题的内容,更加全面、准确的获得了目标主题相关的检索内容,能够自动进行检索,省时省力,并且精准度高。
本实施例中,用户在使用本方案进行专题内容聚合时,能够通过专题词和专题相关词一起检索出相应的结果,扩大专题内容的范围,并通过合并和取交集的方法,找出与本专题最相关的检索内容,满足形成专题内容的需求。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。