CN103106199B - 文本检索方法和装置 - Google Patents
文本检索方法和装置 Download PDFInfo
- Publication number
- CN103106199B CN103106199B CN201110352687.1A CN201110352687A CN103106199B CN 103106199 B CN103106199 B CN 103106199B CN 201110352687 A CN201110352687 A CN 201110352687A CN 103106199 B CN103106199 B CN 103106199B
- Authority
- CN
- China
- Prior art keywords
- entry
- word
- label
- keyword
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明提供了文本检索方法和装置。该方法包括:A,从文本中抽取关键词库包含的关键词;B,利用抽取的关键词确定所述文本所属的标签类别;D,根据确定的标签类别为所述文本建立标签体系;E,在所述标签体系中利用标签检索所述文本。
Description
技术领域
本发明涉及数据业务领域,特别涉及文本检索方法和装置。
背景技术
目前,互联网上文本信息越来越多,但是,如何在众多文本信息中精确、快速检索出需求的文本信息,目前尚没有一种方法能够实现。
因此,提供一种能够在海量文本信息中精确、快速检索出需求的文本信息是当前亟待解决的技术问题。
发明内容
本发明提供了文本检索方法和装置,以实现文本信息的精确、快速检索。
本发明提供的技术方案包括:
一种文本检索方法,包括:
A,从文本中抽取关键词库包含的关键词;
B,利用抽取的关键词确定所述文本所属的标签类别;
C,根据确定的标签类别为所述文本建立标签体系;
D,在所述标签体系中利用标签检索所述文本。
一种文本检索装置,该装置包括:
抽取模块,用于从文本中抽取关键词库包含的关键词;
确定模块,用于利用抽取的关键词确定所述文本所属的标签类别;
建立模块,用于根据确定的标签类别为所述文本建立标签体系;
检索模块,用于在所述标签体系中利用标签检索所述文本。
由以上技术方案可以看出,本发明中,从文本中抽取关键词库包含的关键词,利用抽取的关键词确定所述文本所属的标签类别,根据确定的标签类别为所述文本建立标签体系,在所述标签体系中利用标签检索所述文本,而非直接利用文本进行检索,这样能够实现文本信息的精确、快速检索。
附图说明
图1为本发明实施例提供的基本流程图;
图2为本发明实施例提供的步骤101实现流程图;
图3为本发明实施例提供的关键词属性示意图;
图4为本发明实施例提供的词条列表结构示意图;
图5为本发明实施例提供的对公共词进行消词的流程图;
图6为本发明实施例提供的步骤103实现流程图;
图7a为本发明实施例提供的步骤105实现流程图;
图7b为标签树结构示意图;
图8为本发明实施例提供的单类型标签实例示意图;
图9为本发明实施例提供的多类型标签实例1示意图;
图10为本发明实施例提供的多类型标签实例2示意图;
图11为本发明实施例提供的标签体系示意图;
图12为本发明提供的装置结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明提供的流程如图1所示:
参见图1,图1为本发明实施例提供的流程图。如图1所示,该流程可包括以下步骤:
步骤101,从文本中抽取关键词库包含的关键词。
关键词库是预先针对应用领域创建的,不同的应用领域比如音乐领域和生活领域创建不同的关键词库。本步骤101中的关键词库是依据文本中的内容所属的应用领域确定的。
步骤102,利用抽取的关键词确定所述文本所属的标签类别。
步骤103,根据确定的标签类别为所述文本建立标签体系。
步骤104,在所述标签体系中利用标签检索所述文本。
至此,完成图1所示的流程。
需要说明的是,在关键词抽取过程中,通常会出现抽取的关键词可分为多个词的情况,比如,假设抽取的关键词W可分为其他词,比如W1、W2...WN,之后在利用该抽取的关键词W进行标签类别确定时,W1、W2...WN会影响该确定结果,即对确定结果造成一定的干扰,为了避免这种干扰,需要对抽取的关键词去噪,即在步骤101和步骤102之间,包括:对步骤101抽取的关键词去噪,基于此,上述的步骤102可包括:利用去噪后的关键词确定所述文本所属的标签类别。
在图1所示的流程中,步骤101具体实现时可包括图2所示的流程:
参见图2,图2为本发明实施例提供的步骤101实现流程图。如图2所示,该流程可包括以下步骤:
步骤201,确定关键词库中关键词的最大长度和最小长度。
在具体应用中,关键词库中关键词的最大长度通常为5,而最小长度通常为2。
步骤202,将最大长度、最小长度、以及最大长度与最小长度之间的设定数量X1个数值分别作为拆分单位对所述文本进行拆分,得到多个词条。
以关键词库中关键词的最大长度为5,最小长度为2、最大长度与最小长度之间的X1个数值为3、4为例,则本步骤202依据最大长度5、最小长度2、以及2至5之间的正整数值3、4分别作为拆分单位对所述文本进行拆分,得到多个词条。
至于如何对文本拆分,以最大长度为5为例,其他情况原理类似,其通过以下步骤实现:将文本的第一个字作为当前字,从当前字开始起以最大长度5拆分文本,在拆分完之后,再将文本的第二个字作为当前字,从该当前字开始起以最大长度5拆分文本,依次类推,直至文本中倒数第5个字作为当前字完成文本拆分为止。
步骤203,针对每一词条,计算该词条在得到的所有词条中的词频。
本步骤203可与步骤202无固定时间先后顺序,两者可同时进行。
本步骤203中,词条的词频为该词条在所有词条中出现的最多次数。
步骤204,针对每一词条,在所述关键词库中查找该词条,如果查找到,确定该词条为所述关键词库包含的关键词,将该词条、以及该词条被计算的词频记录至词条列表中。
通过步骤204能够实现拆分出的词条与关键词库中的关键词精确匹配。
需要说明的是,在图2所示的流程中,还可进一步包括以下步骤205和步骤206。
步骤205,针对词条列表中的每一词条,从所述关键词库中获取该词条作为关键词对应的关键词属性,将获取的关键词属性记录至所述词条列表。
本发明中,关键词属性可如图3所示。其中,图3中的tokendataspliter为分隔符,关键词类型为关键词所属的类型,其与标签类别对应。关键词被设定的词频为预先被设定的,其不同于上述词条被计算的词频。
通过步骤201至步骤205,能够实现关键词及关键词属性的抽取。
为便于实现关键词去噪,图2所示的流程还进一步包括:
步骤206,针对词条列表中的每一词条,判断所述词条列表中是否存在该词条的子词条,如果存在,则将该存在的子词条作为该词条的公共词。
执行完步骤205和步骤206,词条列表可包括图4所示的结构。
基于图4所示的词条列表结构,上述的对抽取的关键词去噪具体实现时可为:确定是采用单类型减频消词法还是采用多类型分类减频消词法对所述词条列表中的词条去噪,如果是前者,则针对所述词条列表中每一词条,采用公共词减频消词法对该词条的公共词进行消词,如果是后者,则依据所述词条列表中词条的公共词所属的类型对词条列表中的词条去噪。其中,依据词条列表中词条的公共词所属的类型对词条列表中的词条去噪包括:针对所述词条列表中每一词条,如果该词条的公共词所属的类型均相同,则采用公共词减频消词法对该词条的公共词进行消词,否则,采用公共词减频消词法对该词条的、且所属类型相同的公共词进行消词。
具体地,所述采用公共词减频消词法对词条的公共词进行消词具体可包括图5所示的流程:
参见图5,图5为本发明实施例提供的对公共词进行消词的流程图。如图5所示,该流程可包括以下步骤:
步骤501,针对一词条,在所述词条列表中遍历该词条的公共词,将遍历到的公共词作为当前公共词。
步骤502,查找该词条是否包含当前公共词,如果是,则将所述当前公共词被计算的词频减去设定值,将得到的差值替换为当前公共词被计算的词频即用该差值作为当前公共词被计算的词频。
步骤502中的查找具体为:判断该词条是否可以拆分为当前公共词。
其中,步骤502的设定值可为1。
步骤503,判断当前公共词被计算的词频是否小于等于预设值,如果是,则将所述当前公共词从所述关键词列表中删除。
本步骤503中,预设值可为0。
步骤504,判断该词条的公共词是否被遍历完,如果是,则结束当前流程,否则,继续在所述词条列表中遍历该词条未被遍历的公共词,将遍历到的公共词作为当前公共词,返回步骤502。
通过图5所示的流程,能够为词条列表中剩下的词条消除干扰。
基于图5所示的流程,并以设定值为1,预设值为0为例,下面对单类型减频消词法和多类型分类减频消词法分别举例描述:
单类型减频消词法:
单类型减频消词法目的是将一个文本归类到一个标签类别里面,具体在下文进行描述。下面举两个具体实例:
例1,假如有两个文本:第一个为“周杰伦”,第二个为“周杰和周杰伦”,如果歌手关键词库包含“周杰”和“周杰伦”,则在抽取关键词的时候,这两个文本的抽取结果都为“周杰”、“周杰伦”。然而,第一个文本很明显应该是“周杰伦”,但是其抽取结果为“周杰”、“周杰伦”,则会导致该只包含周杰伦的新闻文本很有可能同时分类到周杰下面,为避免这种问题,就需要通过图5所示的公共词减频消词法消除公共词,即,由于第一个句子中周杰和周杰伦的词频均为1,而周杰为公共词,则可以将其消除,即第一个句子的抽取结果仅为“周杰伦”;至于第二个句子,由于周杰词频为2,则经过消词后词频为1,因此抽取结果仍然为“周杰”、“周杰伦”。
例2,假如存在以下两个文本:第一个为“诺基亚充电器”,第二个为“诺基亚和“诺基亚充电器”,这两个文本一般都会抽取以下三个词条:“诺基亚”、“诺基亚充电器”及“充电器”,由于“诺基亚充电器”和“充电器”为商品配件类,而诺基亚属于商品类别,如果将此类文本只归为一类,很显然一般情况下第一个文本抽取结果应该是“诺基亚充电器”,如果不消词的话在分类的时候有可能会把“诺基亚充电器”分为商品类别,为避免这种问题,就需要通过图5所示的公共词减频消词法消除公共词,即,消除第一个文本抽取的“诺基亚”,由于第二个文本里面诺基亚词频为2,所以抽取结果仍然包括“诺基亚”。
多类型分类减频消词法:
多类型分类减频消词是指将一个文本归类到多个标签类别里面,该情况下根据词条的公共词所属的类型而定,其中,词条的公共词所属类型分为同一类型和不同类型两种。其中,针对同一类型,由于词条的公共词所属类型相同,即实质上相当于单类型,可采用上述单类型减频消词法,至于不同类型,其为词条的公共词所属类型不同,如果一个词条的公共词个数等于1,其实质上相当于单类型,可采用上述单类型减频消词法,而当该词条的公共词个数大于1,则对该词条属于同一类型的公共词进行消词,具体实例如下:
假如存在以下两个文本:第一个为“诺基亚充电器”,第二个为“诺基亚和“诺基亚充电器”,这两个文本一般都会抽取以下三个词条:“诺基亚”、“诺基亚充电器”及“充电器”,由于“诺基亚充电器”和“充电器”为商品配件类,而诺基亚属于商品类别,如果将此类文本归类到两个标签类别中,比如诺基亚充电器为商品类型下的商品配件类型,基于此,则针对商品类型下的公共词按照图5所示流程、以及针对商品配件类型下的公共词按照图5所示流程进行消词,消词后上述两个句子抽取结果应该是“诺基亚”和“诺基亚充电器”。
至此,完成词条去噪的描述。
针对步骤103,其实质是标签归类。参见图6,图6为本发明实施例提供的步骤103实现流程图。如图6所示,该流程可包括以下步骤:
步骤601,针对所述词条列表涉及的每一类型比如类型a,利用所述词条列表中归属该类型a的各个词条的长度、该各个词条被计算的词频、该各个词条作为关键词被设定的词频、以及该各个词条所属类型a的权重计算该类型对应的标签类别得分。
其中,所述词条列表涉及的每一类型具体为该词条列表中每一词条所属的类型。
优选地,步骤601可通过以下公式实现:
其中,dic_weight是指词条所属类型a的权重,word_weight是指该词条的权重,word_length是指词条的长度,word_fre是指词条被计算的词频,dic_word_fre是指词条作为关键词被设定的词频,AdujustmentF是指设定的调整因子。
步骤602,依据计算出的标签类别得分确定所述文本所属的标签类别。
其中,步骤602具体实现时可包括以下两个步骤之一:
步骤1,将取值最大的标签类别得分对应的类型作为所述文本的标签类别;
步骤2,对得到的标签类别得分按照取值大小进行排序,得到标签类别得分序列;从所述标签类别得分序列中选择出前X个标签类别得分,将该选择出的X个标签类别得分分别对应的类型作为所述文本的标签类别。
其中,步骤1主要是针对单类型减频消词法执行的,比如,将新闻分类到某个类别下面,只需在一个类型下进行分类即可,分类后该新闻就有一个对应的标签类别。至于步骤2,其是针对多类型分类减频消词法执行的,比如一篇技术文本要分为技术类型和对应的农作物品种类型下的二维类型,分类后,该技术文本对应两个标签类别。
至此,完成图6所示的流程。通过图6所示的流程能够确定出文本所属的标签类别。
另外,步骤104具体可包括:将确定的标签类别放入已建立的标签树中和/或新建立一个标签树,将确定的标签类别放入该新建立的标签树中,比如,如果当前存在该确定的标签类别对应的标签树,比如,确定的标签类别为技术类型下的类别,而当前存在一个有关该技术类型的标签树,基于此,就将确定的标签类别作为该存在的标签树中的某一个节点放入该标签树中,否则,可新建立一个标签树,将确定的标签类别作为该新建立的标签树中的某一个节点放入该标签树中;之后,将该确定的标签类别与所述文本关联,以完成为所述文本建立标签体系;或者,将该确定的标签类别、以及所述标签树中该确定的标签类别相关的其他所有标签类别均与所述文本关联,以完成为所述文本建立标签体系。
其中,该确定的标签类别相关的其他所有标签类别具体可为:如果标签树按照根节点在下,子节点在上的方式建立,则该确定的标签类别相关的其他所有标签类别为标签树中该确定的标签类别向上的其他所有标签类别,如果标签树按照根节点在上,子节点在下的方式建立,则该确定的标签类别相关的其他所有标签类别为标签树中该确定的标签类别向下的其他所有标签类别。
至于步骤105,其可包括图7a所示的流程:
参见图7a,图7a为本发明实施例提供的步骤105实现流程图。如图7a所示,该流程可包括:
步骤701a,将所述标签树进行扁平化处理,得到多个标签类别序列。
由于标签树具有层次结构,每一条从根结点到叶子结点的路径形成一个标签类别序列,如图7b所示,图7b中的标签树经过扁平化处理后可以形成三个标签类别序列,分别为:{T0,T01,T010}、{T0,T02,T020}、{T0,T03,T030},以第一个标签类别序列为例,T010应该属于T01及T0,而T01应属于T0。标签类别序列中每个节点是应该有权重区别的,由于标签树按照根节点在下,子节点在上的方式建立时,标签类别序列是向上兼容,或者标签树按照根节点在上,子节点在下的方式建立时,标签类别序列是向下兼容,以标签树按照根节点在上,子节点在下的方式建立为例,则叶子结点的权重最高而根节点的权重最低,以第一个标签类别序列为例,则T101权重最大、T01权重次之、T0权重最小,之所以设置权重,目的是为了在一个文本中出现多个类别的关键词时,将该文本判断为权重高的类别几率更大。
步骤702a,从得到的标签类别序列中检索出所述文本关联的标签类别,获取该检索出的标签类别关联的文本。
通过图7a所示的流程实现了利用标签检索文本,这能够在海量的文本信息中快速、准确检索出需求的文本信息。比如将海量的音乐新闻资讯通过上述流程建立标签体系后,就可以很高效的获取所需新闻信息,同时可以将音乐方面的文本建立多维标签,比如一篇娱乐新闻可以建立某一个歌手及歌曲标签,很方便得到该歌手对应歌曲下的所有最新娱乐资讯信息。
至此,完成图7a所示的流程。
为了使本发明提供的方法更加清楚,下面以标签树按照根节点在上,子节点在下的方式建立为例,进行举例描述:
单类型标签:
根据标签归类结果为每个文本建立标签体系。由于标签是向上兼容的,根据分类树可以形成一个标签树,比如手机-》诺基亚-》诺基亚N97,如果一条新闻类型为诺基亚N97,那么该条新闻应该具有手机、诺基亚、诺基亚N97三个标签。以商品资讯标签树为例,假如商品资讯标签树可分为市场动态、新闻资讯及相关技术几种类型,如此,计算当前输入商品资讯文本的标签类别得分,根据得分得到该商品资讯文本的标签类别,比如确定为市场动态,如此,即可将该商品资讯文本放到市场动态下面,具体如图8所示。
多类型标签:其实质为文本选取多个标签树,形成多维标签体系,下面举三个例子进行描述:
例子1,如图9所示,输入一篇新闻文本,为输入的新闻文本确定标签类别,即确定为商品类别标签树及商品新闻类别标签树下的标签,依据确定的标签类别建立二维标签体系。
例子2:如图10所示,为输入的技术文本确定标签类别,假如确定出属于以下两个标签树的标签类别:商品标签树和技术标签树,则将该确定的标签类别合并建立二维标签体系。比如,若该输入的技术文本在商品标签树下是诺基亚,在技术标签体系下是维修,则合并后建立的二维标签体系为诺基亚、维修,当需要诺基亚维修方面的技术指导时,就可以直接在该二维标签体系中利用标签得到该技术文本。
为便于理解,图11示出了上述例子1、例子2建立的二维标签体系。在图10中,该二维标签体系包括市场动态、新闻资讯、相关技术等几类文本,每类文本要选择不同的标签树,比如相关技术文本需要选取类型、地域、时间、技术、品种等标签树。
至此,完成本发明提供的方法描述。下面对本发明提供的装置进行描述:
参见图12,图12为本发明提供的装置结构图。如图12所示,该装置包括:
抽取模块,用于从文本中抽取关键词库包含的关键词;
确定模块,用于利用抽取的关键词确定所述文本所属的标签类别;
建立模块,用于根据确定的标签类别为所述文本建立标签体系,以实现在所述标签体系中利用标签检索所述文本;
检索模块,用于在所述标签体系中利用标签检索所述文本。
其中,如图12所示,所述确定模块包括:
去噪子模块,用于对所述抽取模块抽取的关键词去噪;
确定子模块,用于利用去噪后的关键词确定所述文本所属的标签类别。
所述抽取模块具体可包括:
长度确定单元,用于确定所述关键词库中关键词的最大长度和最小长度;
拆分单元,用于将最大长度、最小长度、以及最大长度与最小长度之间的设定数量X1个数值分别作为拆分单位对所述文本进行拆分,得到多个词条;
词频计算单元,用于针对每一词条,计算该词条在所有词条中的词频;
查找单元,用于针对每一词条,在所述关键词库中查找该词条,如果查找到,确定该词条作为所述关键词库包含的关键词,将该词条、以及该词条被计算的词频记录至词条列表中。
获取单元,用于针对所述词条列表中的每一词条,从所述关键词库中获取该词条作为关键词对应的关键词属性,将获取的关键词属性记录至所述词条列表;关键词属性至少包括:关键词所属的类型;
公共词判断单元,用于针对所述词条列表中的每一词条,判断所述词条列表中是否存在该词条的子词条,如果存在,则将该存在的子词条作为该词条的公共词。
基于所述获取单元和公共词判断单元执行的操作,所述去噪子模块具体可包括:
消词确定单元,用于确定是采用单类型减频消词法还是采用多类型分类减频消词法对所述词条列表中的词条去噪;
第一消词单元,用于在采用单类型减频消词法时,针对所述词条列表中每一词条,采用公共词减频消词法对该词条的公共词进行消词;
第二消词单元,用于在采用多类型分类减频消词法时,针对所述词条列表中每一词条,如果该词条的公共词所属的类型均相同,则触发所述第一消词单元采用公共词减频消词法对该词条的公共词进行消词,否则,触发所述第一消词单元采用公共词减频消词法对该词条的、且所属类型相同的公共词进行消词。
其中,所述第一消词单元包括:
遍历子单元,用于针对一词条,在所述词条列表中遍历该词条的公共词,将遍历到的公共词作为当前公共词;
查找子单元,用于查找该词条是否包含当前公共词,如果是,则将所述当前公共词被计算的词频减去设定值,将得到的差值替换为当前公共词被计算的词频;
第一判断子单元,用于判断当前公共词被计算的词频是否小于等于预设值,如果是,则将所述当前公共词从所述关键词列表中删除;
第二判断子单元,用于判断该词条的公共词是否被遍历完,如果是,则结束当前流程,否则,继续在所述词条列表中遍历该词条未被遍历的公共词,将遍历到的公共词作为当前公共词,触发所述查找子单元执行查找该词条是否包含当前公共词的操作。
优选地,所述关键词属性还包括:关键词所属类型的权重以及关键词被设定的词频;基于此,所述确定子模块具体可包括:
标签得分计算单元,用于针对所述词条列表涉及的每一类型,利用所述词条列表中归属该类型的各个词条的长度、该各个词条被计算的词频、该各个词条作为关键词被设定的词频、以及该各个词条所属该类型的权重计算该类型对应的标签类别得分;
标签类别确定单元,用于依据计算出的标签类别得分确定所述文本所属的标签类别。
优选地,如图12所示,所述建立模块可包括:
存放单元,用于将确定的标签类别放入已建立的标签树中和/或新建立一个标签树,将确定的标签类别放入该新建立的标签树中;
关联单元,用于将该确定的标签类别与所述文本关联,以完成为所述文本建立标签体系;或者,将该确定的标签类别、以及所述标签树中该确定的标签类别相关的其他所有标签类别均与所述文本关联,以完成为所述文本建立标签体系。
优选地,如图12所示,所述检索模块包括:
处理单元,用于将对应的标签树进行扁平化处理,得到多个标签类别序列;
检索单元,用于从得到的标签类别序列中检索出所述文本关联的标签类别,获取该检索出的标签类别关联的文本。
至此,完成本发明提供的装置结构图。
由以上技术方案可以看出,本发明中,从文本中抽取关键词库包含的关键词,以及利用抽取的关键词确定所述文本所属的标签类别,根据确定的标签类别为所述文本建立标签体系,在所述标签体系中利用标签检索所述文本,而非直接利用文本进行检索,这样能够实现文本信息的精确、快速检索。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (14)
1.一种文本检索方法,其特征在于,该方法包括:
A,从文本中抽取关键词库包含的关键词,并进一步针对词条列表中每一被抽取的词条,从所述关键词库中获取该词条作为关键词对应的关键词属性,将获取的关键词属性记录至所述词条列表;关键词属性至少包括:关键词所属的类型;以及判断所述词条列表中是否存在该词条的子词条,如果存在,则将该存在的子词条作为该词条公共词;
B,利用抽取的关键词确定所述文本所属的标签类别,具体包括:B1,对抽取的关键词去噪;B2,利用去噪后的关键词确定所述文本所属的标签类别;其中,步骤B1包括:确定是采用单类型减频消词法还是采用多类型分类减频消词法对所述词条列表中的词条去噪,如果是前者,则针对所述词条列表中每一词条,采用公共词减频消词法对该词条的公共词进行消词,如果是后者,则依据所述词条列表中词条的公共词所属的类型对词条列表中的词条去噪;
C,根据确定的标签类别为所述文本建立标签体系;
D,在所述标签体系中利用标签检索所述文本。
2.根据权利要求1所述的方法,其特征在于,步骤A中的从文本中抽取关键词库包含的关键词包括:
A1,确定所述关键词库中关键词的最大长度和最小长度;
A2,将最大长度、最小长度、以及最大长度与最小长度之间的设定数量X1个数值分别作为拆分单位对所述文本进行拆分,得到多个词条;
A3,针对每一词条,计算该词条在所有词条中的词频;
A4,针对每一词条,在所述关键词库中查找该词条,如果查找到,确定该词条作为所述关键词库包含的关键词,将该词条、以及该词条被计算的词频记录至设定的词条列表中。
3.根据权利要求1所述的方法,其特征在于,所述依据词条列表中词条的公共词所属的类型对词条列表中的词条去噪包括:
针对所述词条列表中每一词条,如果该词条的公共词所属的类型均相同,则采用公共词减频消词法对该词条的公共词进行消词,否则,采用公共词减频消词法对该词条的、且所属类型相同的公共词进行消词。
4.根据权利要求3所述的方法,其特征在于,所述采用公共词减频消词法对词条的公共词进行消词包括:
B11,针对一词条,在所述词条列表中遍历该词条的公共词,将遍历到的公共词作为当前公共词;
B12,查找该词条是否包含当前公共词,如果是,则将所述当前公共词被计算的词频减去设定值,将得到的差值替换为当前公共词被计算的词频;
B13,判断当前公共词被计算的词频是否小于等于预设值,如果是,则将所述当前公共词从所述关键词列表中删除;
B14,判断该词条的公共词是否被遍历完,如果是,则结束当前流程,否则,继续在所述词条列表中遍历该词条未被遍历的公共词,将遍历到的公共词作为当前公共词,返回步骤B12。
5.根据权利要求1所述的方法,其特征在于,所述关键词属性还包括:关键词所属类型的权重以及关键词被设定的词频;步骤B2包括:
B21,针对所述词条列表涉及的每一类型,利用所述词条列表中归属该类型的各个词条的长度、该各个词条被计算的词频、该各个词条作为关键词被设定的词频、以及该各个词条所属该类型的权重计算该类型对应的标签类别得分;
B22,依据计算出的标签类别得分确定所述文本所属的标签类别。
6.根据权利要求5所述的方法,其特征在于,步骤B22包括:
将取值最大的标签类别得分对应的类型作为所述文本的标签类别;或者,
对得到的标签类别得分按照取值大小进行排序,得到标签类别得分序列;
从所述标签类别得分序列中选择出前X2个标签类别得分,将该选择出的X2个标签类别得分分别对应的类型作为所述文本的标签类别。
7.根据权利要求1所述的方法,其特征在于,步骤C包括:
将确定的标签类别放入已建立的标签树中和/或新建立一个标签树,将确定的标签类别放入该新建立的标签树中;
将该确定的标签类别与所述文本关联,以完成为所述文本建立标签体系;或者,将该确定的标签类别、以及所述标签树中该确定的标签类别相关的其他所有标签类别均与所述文本关联,以完成为所述文本建立标签体系。
8.根据权利要求7所述的方法,其特征在于,所述步骤D包括:
将对应的标签树进行扁平化处理,得到多个标签类别序列;
从得到的标签类别序列中检索出所述文本关联的标签类别,获取该检索出的标签类别关联的文本。
9.一种文本检索装置,其特征在于,该装置包括:
抽取模块,用于从文本中抽取关键词库包含的关键词;所述抽取模块进一步通过获取单元、公共词判断单元实现以下操作:针对词条列表中每一被抽取的词条,从所述关键词库中获取该词条作为关键词对应的关键词属性,将获取的关键词属性记录至所述词条列表;关键词属性至少包括:关键词所属的类型;以及判断所述词条列表中是否存在该词条的子词条,如果存在,则将该存在的子词条作为该词条公共词的操作,获取单元,用于针对所述词条列表中的每一词条,从所述关键词库中获取该词条作为关键词对应的关键词属性,将获取的关键词属性记录至所述词条列表;关键词属性至少包括:关键词所属的类型;公共词判断单元,用于针对所述词条列表中的每一词条,判断所述词条列表中是否存在该词条的子词条,如果存在,则将该存在的子词条作为该词条的公共词;
确定模块,用于利用抽取的关键词确定所述文本所属的标签类别,所述确定模块包括:去噪子模块,用于对所述抽取模块抽取的关键词去噪;确定子模块,用于利用去噪后的关键词确定所述文本所属的标签类别;所述去噪子模块包括:消词确定单元,用于确定是采用单类型减频消词法还是采用多类型分类减频消词法对所述词条列表中的词条去噪;第一消词单元,用于在采用单类型减频消词法时,针对所述词条列表中每一词条,采用公共词减频消词法对该词条的公共词进行消词;第二消词单元,用于在采用多类型分类减频消词法时,针对所述词条列表中每一词条,如果该词条的公共词所属的类型均相同,则触发所述第一消词单元采用公共词减频消词法对该词条的公共词进行消词,否则,触发所述第一消词单元采用公共词减频消词法对该词条的、且所属类型相同的公共词进行消词;
建立模块,用于根据确定的标签类别为所述文本建立标签体系;
检索模块,用于在所述标签体系中利用标签检索所述文本。
10.根据权利要求9所述的装置,其特征在于,所述抽取模块包括:
长度确定单元,用于确定所述关键词库中关键词的最大长度和最小长度;
拆分单元,用于将最大长度、最小长度、以及最大长度与最小长度之间的设定数量X1个数值分别作为拆分单位对所述文本进行拆分,得到多个词条;
词频计算单元,用于针对每一词条,计算该词条在所有词条中的词频;
查找单元,用于针对每一词条,在所述关键词库中查找该词条,如果查找到,确定该词条作为所述关键词库包含的关键词,将该词条、以及该词条被计算的词频记录至词条列表中。
11.根据权利要求9所述的装置,其特征在于,所述第一消词单元包括:
遍历子单元,用于针对一词条,在所述词条列表中遍历该词条的公共词,将遍历到的公共词作为当前公共词;
查找子单元,用于查找该词条是否包含当前公共词,如果是,则将所述当前公共词被计算的词频减去设定值,将得到的差值替换为当前公共词被计算的词频;
第一判断子单元,用于判断当前公共词被计算的词频是否小于等于预设值,如果是,则将所述当前公共词从所述关键词列表中删除;
第二判断子单元,用于判断该词条的公共词是否被遍历完,如果是,则结束当前流程,否则,继续在所述词条列表中遍历该词条未被遍历的公共词,将遍历到的公共词作为当前公共词,触发所述查找子单元执行查找该词条是否包含当前公共词的操作。
12.根据权利要求9所述的装置,其特征在于,所述关键词属性还包括:关键词所属类型的权重以及关键词被设定的词频;所述确定子模块包括:
标签得分计算单元,用于针对所述词条列表涉及的每一类型,利用所述词条列表中归属该类型的各个词条的长度、该各个词条被计算的词频、该各个词条作为关键词被设定的词频、以及该各个词条所属该类型的权重计算该类型对应的标签类别得分;
标签类别确定单元,用于依据计算出的标签类别得分确定所述文本所属的标签类别。
13.根据权利要求9所述的装置,其特征在于,所述建立模块包括:
存放单元,用于将确定的标签类别放入已建立的标签树中和/或新建立一个标签树,将确定的标签类别放入该新建立的标签树中;
关联单元,用于将该确定的标签类别与所述文本关联,以完成为所述文本建立标签体系;或者,将该确定的标签类别、以及所述标签树中该确定的标签类别相关的其他所有标签类别均与所述文本关联,以完成为所述文本建立标签体系。
14.根据权利要求9所述的装置,其特征在于,所述检索模块包括:
处理单元,用于将对应的标签树进行扁平化处理,得到多个标签类别序列;
检索单元,用于从得到的标签类别序列中检索出所述文本关联的标签类别,获取该检索出的标签类别关联的文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110352687.1A CN103106199B (zh) | 2011-11-09 | 2011-11-09 | 文本检索方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110352687.1A CN103106199B (zh) | 2011-11-09 | 2011-11-09 | 文本检索方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103106199A CN103106199A (zh) | 2013-05-15 |
CN103106199B true CN103106199B (zh) | 2016-03-02 |
Family
ID=48314064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110352687.1A Active CN103106199B (zh) | 2011-11-09 | 2011-11-09 | 文本检索方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103106199B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823868B (zh) * | 2014-02-26 | 2017-05-03 | 中国科学院计算技术研究所 | 一种面向在线百科的事件识别方法和事件关系抽取方法 |
CN105279208B (zh) * | 2014-07-25 | 2019-01-22 | 北京龙源创新信息技术有限公司 | 一种数据标示方法和管理系统 |
CN105630827B (zh) * | 2014-11-05 | 2019-04-02 | 阿里巴巴集团控股有限公司 | 一种信息处理方法、系统及辅助系统 |
CN104933296A (zh) * | 2015-05-28 | 2015-09-23 | 汤海京 | 一种基于多维数据融合的大数据处理方法和设备 |
CN106970922A (zh) * | 2016-01-14 | 2017-07-21 | 北大方正集团有限公司 | 基于多字段关键词的索引建立方法、检索方法及索引系统 |
CN106250420A (zh) * | 2016-07-21 | 2016-12-21 | 深圳市辣妈帮科技有限公司 | 标签关联方法和装置 |
CN108121752A (zh) * | 2016-11-30 | 2018-06-05 | 北京国双科技有限公司 | 一种关键词物料的处理方法及装置 |
CN106919711B (zh) * | 2017-03-13 | 2020-10-02 | 北京百度网讯科技有限公司 | 基于人工智能的标注信息的方法和装置 |
CN107145510A (zh) * | 2017-03-31 | 2017-09-08 | 西安科技大学 | 一种数学公式搜索方法及装置 |
CN107291930A (zh) * | 2017-06-29 | 2017-10-24 | 环球智达科技(北京)有限公司 | 权重数的计算方法 |
CN107748803B (zh) * | 2017-11-20 | 2021-02-09 | 中国运载火箭技术研究院 | 一种空间态势特征事件数据库设计方法 |
CN109284353B (zh) * | 2018-09-10 | 2023-10-03 | 平安科技(深圳)有限公司 | 医案检索方法、装置、计算机设备和存储介质 |
CN109933731A (zh) * | 2019-03-18 | 2019-06-25 | 苏州亿歌网络科技有限公司 | 一种好友推荐方法、装置、设备及存储介质 |
CN111611461B (zh) * | 2019-05-14 | 2021-06-04 | 北京精准沟通传媒科技股份有限公司 | 一种数据处理方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079031A (zh) * | 2006-06-15 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种网页主题提取系统和方法 |
CN101593200A (zh) * | 2009-06-19 | 2009-12-02 | 淮海工学院 | 基于关键词频度分析的中文网页分类方法 |
CN102081642A (zh) * | 2010-10-28 | 2011-06-01 | 华南理工大学 | 搜索引擎检索结果聚类的中文标签提取方法 |
-
2011
- 2011-11-09 CN CN201110352687.1A patent/CN103106199B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079031A (zh) * | 2006-06-15 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种网页主题提取系统和方法 |
CN101593200A (zh) * | 2009-06-19 | 2009-12-02 | 淮海工学院 | 基于关键词频度分析的中文网页分类方法 |
CN102081642A (zh) * | 2010-10-28 | 2011-06-01 | 华南理工大学 | 搜索引擎检索结果聚类的中文标签提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103106199A (zh) | 2013-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103106199B (zh) | 文本检索方法和装置 | |
CN103631948B (zh) | 命名实体的识别方法 | |
CN101295319B (zh) | 一种扩展查询的方法、装置及搜索引擎系统 | |
US9870392B2 (en) | Retrieval method and system | |
CN104166651A (zh) | 基于对同类数据对象整合的数据搜索的方法和装置 | |
CN102419778B (zh) | 一种挖掘查询语句子话题并聚类的信息搜索方法 | |
US8756231B2 (en) | Search using proximity for clustering information | |
US8271495B1 (en) | System and method for automating categorization and aggregation of content from network sites | |
CN108287843A (zh) | 一种兴趣点信息检索的方法和装置、及导航设备 | |
CN101593200A (zh) | 基于关键词频度分析的中文网页分类方法 | |
WO2021057250A1 (zh) | 一种商品搜索的查询策略的生成方法及装置 | |
CN104866511A (zh) | 一种添加多媒体文件的方法及设备 | |
CN102332137A (zh) | 商品匹配方法及系统 | |
CN103377249A (zh) | 关键词投放方法及系统 | |
CN103412888A (zh) | 一种兴趣点识别方法和装置 | |
CN102890683B (zh) | 信息提供方法及装置 | |
EP2529323A2 (en) | Improved searching using semantic keys | |
CN103064880A (zh) | 一种基于搜索信息向用户提供网站选择的方法、装置和系统 | |
CN104216979A (zh) | 中文工艺专利自动分类系统及利用该系统进行专利分类的方法 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
CN104077385A (zh) | 一种文件的分类及检索方法 | |
CN105550169A (zh) | 一种基于字符长度识别兴趣点名称的方法和装置 | |
CN110688572A (zh) | 冷启动状态下搜索意图的识别方法 | |
CN104408144A (zh) | 网络搜索关键词的检测方法及装置 | |
CN101561818B (zh) | 分词处理方法及全文检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20160411 Address after: West high tech Zone Fucheng Road in Chengdu city of Sichuan province 610000 399 No. 6 Building 1 unit 12 floor No. 3 Patentee after: MIGU MUSIC CO., LTD. Address before: 610041 No. 10 Peng Da Road, hi tech Zone, Sichuan, Chengdu Patentee before: China Mobile Communication Group Sichuan Co., Ltd. |