CN103530345A - 短文本特征扩展及拟合特征库构建方法、装置 - Google Patents
短文本特征扩展及拟合特征库构建方法、装置 Download PDFInfo
- Publication number
- CN103530345A CN103530345A CN201310464789.1A CN201310464789A CN103530345A CN 103530345 A CN103530345 A CN 103530345A CN 201310464789 A CN201310464789 A CN 201310464789A CN 103530345 A CN103530345 A CN 103530345A
- Authority
- CN
- China
- Prior art keywords
- short text
- text information
- matching
- characteristic
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
Abstract
本发明公开了一种短文本特征扩展及拟合特征库构建方法、装置,其中,所述短文本特征扩展方法包括:a、获取待扩展短文本;b、删除待扩展短文本中无表意能力的项目,得到拟合短文本;c、在拟合特征库中查询拟合短文本,若查到,将拟合短文本的特征项作为扩展特征项返回,否则转到d;d、省略拟合短文本中重要性权值最低的项目,得到省略短文本;e、判断省略短文本中所有项目的重要性权值之和是否小于阈值,若是,返回无结果,否则转到f;f、在拟合特征库中查询省略短文本,若查询到,将省略短文本的特征项作为扩展特征项返回,否则将省略短文本作为拟合短文本,返回d。本发明降低了短文本特征扩展过程中的转义风险,提高了特征扩展准确率。
Description
技术领域
本发明涉及计算机文本处理技术,具体涉及一种短文本特征扩展及拟合文本特征库构建方法、装置。
背景技术
随着电子邮件、网络论坛和微型博客等应用的广泛使用,在互联网范围内产生了大量的文本信息数据,并且这些信息通常只是片断性的描述说明或观点评论,只有很短的文字内容,因此被称之为短文本。面对互联网迅猛发展所产生的海量文本数据,如何准确有效地获取所需要的资料和信息,已经成为互联网行业普遍关注和研究的课题。
由于短文本长度短、所描述的概念信号弱,在短文本检索中不一定能够得到检索结果,或者得到的检索结果不是所需要的。为了提高检索性能,可以对短文本信息进行文本特征扩展,再根据这些扩展特征来检索短文本,就会大幅提高短文本信息的查到率和查准率。现有的对短文本进行文本特征扩展的一个重要方式就是对短文本信息进行改写,将表达不准确或有问题的短文本检索请求改写成表达清楚、需求明确的检索请求,从而提高信息检索的准确率和召回率。
但是,这种对检索请求进行改写的技术主要是针对长文本研发设计的,而短文本的字数少、数量庞大,并且多数依存于网络,所以在使用这种方法改写短文本检索请求的过程中,会使得改写后的短文本覆盖面变窄、转义风险增高,从而导致短文本扩展结果不准确,无法满足后续使用需求。
发明内容
本发明实施例的目的在于提出一种短文本特征扩展及拟合特征库构建方法、装置,以解决短文本特征扩展过程中转义风险高,扩展结果不准确的问题。
第一方面,本发明实施例提供了一种短文本特征扩展方法,所述方法包括:
a、获取待扩展的短文本信息;
b、删除所述待扩展的短文本信息中无表意能力的项目,得到拟合的短文本信息;
c、在拟合特征库中查询所述拟合的短文本信息,若查询到,将与所述拟合的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则执行步骤d;
d、省略所述拟合的短文本信息中重要性权值最低的项目,得到省略的短文本信息;
e、判断所述省略的短文本信息中所有项目的重要性权值之和是否小于用户指定的阈值,若是,返回无结果,否则执行步骤f;
f、在拟合特征库中查询所述省略的短文本信息,若查询到,将与所述省略的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则将所述省略的短文本信息作为拟合的短文本信息,返回步骤d;
其中,所述拟合特征库中存储有删减的短文本信息,以及与所述删减的短文本信息相匹配的特征项,其中所述删减的短文本信息根据完全匹配特征库中的原始短文本信息删减获取,所述删减的短文本信息的所有项目的重要性权值之和不小于预设权值,所述与所述删减的短文本信息相匹配的特征项根据所述删减的短文本信息所对应的不同的原始短文本信息的所有特征项获得。
第二方面,本发明实施例提供了一种拟合特征库构建方法,所述方法包括:
将完全匹配特征库中的原始短文本信息进行删减,得到删减的短文本信息,其中,所述删减的短文本信息的所有项目的项目权值之和不小于预设权值;
将所述删减的短文本信息所对应的不同的原始短文本信息的所有特征项进行融合,得到与所述删减的短文本信息相匹配的特征项。
第三方面,本发明实施例提供了一种短文本特征扩展装置,所述装置包括:
短文本获取单元,用于获取待扩展的短文本信息;
短文本拟合单元,用于删除所述待扩展的短文本信息中无表意能力的项目,得到拟合的短文本信息;
拟合短文本查询单元,用于在拟合特征库中查询所述拟合的短文本信息,若查询到,将与所述拟合的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则调用短文本省略单元;
短文本省略单元,用于省略所述拟合的短文本信息中重要性权值最低的项目,得到省略的短文本信息;
权值判断单元,用于判断所述省略的短文本信息中所有项目的重要性权值之和是否小于用户指定的阈值,若是,返回无结果,否则调用省略短文本查询单元;
省略短文本查询单元,用于在拟合特征库中查询所述省略的短文本信息,若查询到,将与所述省略的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则将所述省略的短文本信息作为拟合的短文本信息,调用短文本省略单元;
其中,所述拟合特征库中存储有删减的短文本信息,以及与所述删减的短文本信息相匹配的特征项,其中所述删减的短文本信息根据完全匹配特征库中的原始短文本信息删减获取,所述删减的短文本信息的所有项目的重要性权值之和不小于预设权值,所述与所述删减的短文本信息相匹配的特征项根据所述删减的短文本信息所对应的不同的原始短文本信息的所有特征项获得。
第四方面,本发明实施例还提供了一种拟合特征库构建装置,所述装置包括:
短文本删减单元,用于将完全匹配特征库中的原始短文本信息进行删减,得到删减的短文本信息,其中,所述删减的短文本信息的所有项目的重要性权值之和不小于预设权值;
短文本融合单元,用于将相同的所述删减的短文本信息的相同特征项进行融合,得到与所述删减的短文本信息相匹配的特征项。
本发明实施例首先将所述待扩展的短文本信息中没有表意能力的项目删除,然后在拟合特征库中进行查询,如果没有查询到就通过逐步省略重要性最低的项目来增加其在在拟合特征库中被查询到的概率,并且所述拟合特征库是根据完全匹配特征库中的数据拟合而来,解决了短文本特征扩展过程中,转义风险高、扩展结果覆盖面窄的问题,提高了短文本信息在特征库中的匹配成功率,从而得到准确并完整的短文本特征扩展结果。
附图说明
图1是本发明第一实施例的短文本特征扩展方法流程图。
图2是本发明第二实施例的短文本特征扩展方法流程图。
图3是本发明第三实施例的拟合特征库构建方法流程图。
图4是本发明第四实施例的短文本特征扩展装置的结构示意图。
图5是本发明第五实施例的短文本特征扩展装置的结构示意图。
图6是本发明第六实施例的拟合特征库构建装置的结构示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
图1是本发明第一实施例的短文本特征扩展方法流程图。如图1所示,所述方法包括:
步骤101、获取待扩展的短文本信息。
具体地,所述获取待扩展的短文本信息可以是实时获取的用户直接输入的短文本信息,也可以是实时获取的计算机设备当前需要处理的短文本信息,还可以是获取预存储在计算机设备或其他设备中的需要进行扩展处理的短文本信息。
步骤102、删除所述待扩展的短文本信息中无表意能力的项目,得到拟合的短文本信息。
具体地,将所述待扩展的短文本中没有表意能力或表意能力很低的词进行删除,得到拟合的短文本信息。表意能力主要是通过词性来进行判断的,通常包括数字、叹词、拟声词、介词、量词、标点符号、语气词、代词等,这些词一般不能传达具体的信息,基本不会对查询结果产生影响,所以将上述没有表意能力的词删除后,就得到拟合的短文本信息。
优选地,在删除数字时,应避开长度为6的数字。这是因为现在股票代码的长度就是6,而用户在查询股票行情或相关信息时极有可能直接输入某只股票的代码,为了避免误删股票代号而给用户带来不便,所以在这一步骤中会保留长度为6的数字。
步骤103、在拟合特征库中查询所述拟合的短文本信息,若查询到,执行步骤104,否则执行步骤105。
在拟合特征库中查询是否有和所述拟合的短文本信息完全一致的短文本存在,如果有就执行步骤104,否则执行步骤105。在拟合特征库中存储有删减的短文本信息,以及与所述删减的短文本信息相匹配的特征项,这些特征项就作为短文本信息的特征扩展结果。
步骤104、将与所述拟合的短文本信息相匹配的特征项作为扩展特征项,执行步骤111。
所谓与所述拟合的短文本信息相匹配的特征项,就是在拟合特征库中查询所述拟合的短文本信息得到的查询结果,这个查询结果是一系列相关的、有着不同特征权值的特征项,然后将这些特征项作为扩展特征项,执行步骤111。
步骤105、省略所述拟合的短文本信息中重要性权值最低的项目,得到省略的短文本信息。
具体地,如果在拟合特征库中查询不到和所述拟合的短文本信息完全一致的短文本存在,那么就要省略所述拟合的短文本信息中重要性权值最低的项目,得到省略的短文本信息。
所述拟合的短文本信息中项目的重要性权值代表了每个项目在整个短文本信息里的重要性。在机器学习领域,组成文本的词项可以称为项目,经过加权后,每个项目有了一个数值,称为项目的权重或重要性权值,不同项目对于文档的重要程度和区分度是不同的,一个项目的作用越重要,其相应的权重就越大。项目重要性权值的计算方法大都基于两个原则:第一、某个项目在某文档中出现的频率越高,其作用越重要;第二、某个项目在整个数据集的文档中出现的频率越高,其区分度越差。也就是说,项目重要性权值既要能体现目标的特征,又要能将目标与其他文档对象区分开来。在本实施例中,省略了所述拟合的短文本信息中重要性权值最低的项目,也是为了尽量减小因为省略给短文本信息带来的负面影响。比如,一个待扩展的短文本A是“小时代在线观看”,其中“小时代”的重要性权值是0.7,“在线观看”的重要性权值是0.3,那么删除重要性权值最低的项目后得到短文本A1是“小时代”,此时短文本A1仍然保留了短文本A的主要意思,但是如果删除了重要性权值最高的项目后得到短文本A2是“在线观看”,此时短文本A2与短文本A相比,就产生了明显的转义,那么通过短文本A2得到的扩展特征项就会与短文本A的原始表意产生较大的分歧,所以在对短文本进行省略时,总是从重要性权值最低的项目开始。
步骤106、判断所述省略的短文本信息中所有项目的重要性权值之和是否小于用户指定的阈值,若是,执行步骤107,否则执行步骤108。
在进行短文本特征扩展的过程中,用户可以事先设定一个关于重要性权值的阈值,并且这个阈值的范围在0~1之间。当用户希望短文本特征扩展的结果优先考虑准确性的时候,就可以考虑将这个阈值设置的比较高,比如0.9或0.8等,这样省略掉的项目对整个短文本的影响就非常小,从而得到的扩展结果就和最初输入的短文本信息有比较好的一致性,但同时,由于用户对扩展条件限制的比较苛刻,就增加了查询不到扩展结果的风险。反之,如果用户希望尽量得到比较完整的短文本特征扩展结果,那么可以将这个阈值设置的比较低,比如0.5或0.4等,这样得到的扩展特征会多而广,相应的,这些特征和原始短文本信息的一致性就没那么好,增加了扩展后的短文本的转义风险。
从上面描述可以看出,短文本特征扩展的准确性和完整性是一对互相矛盾的特性,在实际扩展过程中用户可以根据实际需要对所述重要性权值的阈值进行设置,使准确性和完整性达到相对平衡状态。
步骤107、返回无结果。
如果所述省略的短文本信息中所有项目的重要性权值之和已经小于用户指定的阈值,那就说明在用户指定的条件下,所述拟合特征库中不存在和所述省略的短文本信息相匹配的特征项,所以返回无结果,即表示没有查询到相关特征项。
步骤108、在拟合特征库中查询所述省略的短文本信息,若查询到,执行步骤109,否则执行步骤110。
如果所述省略的短文本信息中所有项目的重要性权值之和大于或等于用户指定的阈值,那就说明在用户指定的条件下,可以继续在拟合特征库中查询所述省略的短文本信息,若查询到,执行步骤109,否则执行步骤110。
步骤109、将与所述省略的短文本信息相匹配的特征项作为扩展特征项,执行步骤111。
所谓与所述省略的短文本信息相匹配的特征项,就是在拟合特征库中查询所述省略的短文本信息得到的查询结果,这个查询结果是一系列相关的、有着不同特征权值的特征项,然后将这些特征项作为扩展特征项,执行步骤111。
步骤110、将所述省略的短文本信息作为拟合的短文本信息,返回步骤105。
如果在拟合特征库中查询不到和所述省略的短文本信息完全一致的短文本存在,那么就将所述省略的短文本信息作为拟合的短文本信息,重新返回步骤105。
步骤111、返回所述扩展特征项。
如果在拟合特征库中查询到了和所述拟合的短文本信息或所述省略的短文本信息完全一致的短文本存在,就将得到的查询结果,即所述步骤104或所述步骤109中的扩展特征项作为特征扩展的结果并返回给最初提出扩展请求的用户或计算机。
其中,所述拟合特征库中存储有删减的短文本信息,以及与所述删减的短文本信息相匹配的特征项,其中所述删减的短文本信息根据完全匹配特征库中的原始短文本信息删减获取,所述删减的短文本信息的所有项目的重要性权值之和不小于预设权值,所述与所述删减的短文本信息相匹配的特征项根据所述删减的短文本信息所对应的不同的原始短文本信息的所有特征项获得。
下面通过举例具体说明本实施例的短文本特征扩展方法。例如,所述待扩展的短文本信息是“在哪里能找到小时代的在线观看地址?”并且用户事先指定了所有项目的重要性阈值是0.5。首先根据词性将没有表意能力的项目“在哪里”、“能”、“的”和“?”进行删除,得到拟合的短文本信息是“找到小时代在线观看地址”,并在拟合特征库中查询这个短文本,如果找到就将相匹配的特征项进行返回,否则省略重要性最低的项目“找到”得到省略的短文本信息“小时代在线观看地址”,此时判断所述省略的短文本信息的所有项目的重要性权值之和为0.9,大于指定阈值,那么继续在拟合特征库中查询,如果找到就将相匹配的特征项进行返回,否则继续删除重要性最低的项目“地址”得到“小时代在线观看”,判断其所有项目的重要性之和为0.7,仍然大于指定阈值,所以再次重复上面的查询过程,如果在拟合特征库中找到就返回相匹配的特征项,否则继续上面的删除过程,由此不断重复上述的查询和删减过程,直到找到相匹配的特征项或省略的短文本信息阈值过低为止。例如只剩下了“小时代”这个项目,其重要性权值为0.4,小于用户指定的阈值0.5,此时就返回无结果,即表示没有查询到相匹配的特征项。
在本实施例的一个优选实施方式中,在所述步骤101之后,所述步骤102之前,还包括:在缓存中查询所述待扩展的短文本信息,若查询到,将与所述待扩展的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则执行步骤102,其中,所述缓存内保存有之前的查询结果。
优选地,所述返回所述扩展特征项,还包括将所述扩展特征项保存在缓存中,这样在下一次需要扩展时,可以优先查询保存在缓存中的特征项,从而提高特征扩展的效率。
本发明第一实施例首先将所述待扩展的短文本信息中没有表意能力的项目删除,然后在拟合特征库中进行查询,如果没有查询到就通过逐步省略重要性最低的项目来增加其在在拟合特征库中被查询到的概率,并且所述拟合特征库是根据完全匹配特征库中的数据拟合而来,解决了短文本特征扩展过程中,转义风险过、扩展结果覆盖面窄的问题,从而得到准确并完整的短文本特征扩展结果。
图2是是本发明第二实施例的短文本特征扩展方法流程图。如图2所示,所述方法包括:
步骤201、获取待扩展的短文本信息。
具体地,所述获取待扩展的短文本信息可以是实时获取的用户直接输入的短文本信息,也可以是实时获取的计算机设备当前需要处理的短文本信息,还可以是获取预存储在计算机设备或其他设备中的需要进行扩展处理的短文本信息。
步骤202、在完全匹配特征库中查询所述待扩展的短文本信息,若查询到,执行步骤203,否则执行步骤204。
在完全匹配特征库中查询是否有和所述待扩展的短文本信息完全一致的原始短文本存在,如果有就执行步骤203,否则执行步骤204。
所述完全匹配特征库,包括原始短文本信息以及与其相匹配的特征项,并且这些特征项是根据搜索引擎抓取网页得到的检索结果构建的。具体地说,就是直接在搜索引擎中搜索所述原始短文本信息,然后将搜索得到的每个检索结果进行切词并计算每个词的权重,这样得到的每个词就是所述完全匹配特征库中的特征项,每个词的权重就是特征权值。所述完全匹配特征库的最大特点,就是在其中保存的与原始短文本信息相匹配的特征项是完全没有转义的,所以在所述完全匹配特征库中查询得到的扩展结果和所述原始短文本信息是完全匹配的,其特征扩展的准确率很高。
步骤203、将与所述待扩展的短文本信息相匹配的特征项作为扩展特征项,执行步骤213。
所谓与所述待扩展的短文本信息相匹配的特征项,就是在完全匹配特征库中查询所述待扩展的短文本信息得到的查询结果,这个查询结果是一系列相关的、有着不同特征权值的特征项,然后将这些特征项作为扩展特征项,执行步骤213。
步骤204、删除所述待扩展的短文本信息中无表意能力的项目,得到拟合的短文本信息。
具体地,将所述待扩展的短文本中没有表意能力或表意能力很低的词进行删除,得到拟合的短文本信息。表意能力主要是通过词性来进行判断的,通常包括数字、叹词、拟声词、介词、量词、标点符号、语气词、代词等。
步骤205、在拟合特征库中查询所述拟合的短文本信息,若查询到,执行步骤206,否则执行步骤207。
在拟合特征库中查询是否有和所述拟合的短文本信息完全一致的短文本存在,如果有就执行步骤206,否则执行步骤207。
步骤206、将与所述拟合的短文本信息相匹配的特征项作为扩展特征项,执行步骤213。
所谓与所述拟合的短文本信息相匹配的特征项,就是在拟合特征库中查询所述拟合的短文本信息得到的查询结果,这个查询结果是一系列相关的、有着不同特征权值的特征项,然后将这些特征项作为扩展特征项,执行步骤213。
步骤207、省略所述拟合的短文本信息中重要性权值最低的项目,得到省略的短文本信息。
具体地,如果在拟合特征库中查询不到和所述拟合的短文本信息完全一致的短文本存在,那么就要省略所述拟合的短文本信息中重要性权值最低的项目,得到省略的短文本信息。
步骤208、判断所述省略的短文本信息中所有项目的重要性权值之和是否小于用户指定的阈值,若是,执行步骤209,否则执行步骤210。
在进行短文本特征扩展的过程中,用户可以事先设定一个关于重要性权值的阈值,并且这个阈值的范围在0~1之间。
步骤209、返回无结果。
如果所述省略的短文本信息中所有项目的重要性权值之和已经小于用户指定的阈值,那就说明在用户指定的条件下,所述拟合特征库中不存在和所述省略的短文本信息相匹配的特征项,所以返回无结果,即表示没有查询到相匹配的特征项。
步骤210、在拟合特征库中查询所述省略的短文本信息,若查询到,执行步骤211,否则执行步骤212。
如果所述省略的短文本信息中所有项目的重要性权值之和大于或等于用户指定的阈值,那就说明在用户指定的条件下,可以继续在拟合特征库中查询所述省略的短文本信息,若查询到,执行步骤211,否则执行步骤212。
步骤211、将与所述省略的短文本信息相匹配的特征项作为扩展特征项,执行步骤213。
所谓与所述省略的短文本信息相匹配的特征项,就是在拟合特征库中查询所述省略的短文本信息得到的查询结果,这个查询结果是一系列相关的、有着不同特征权值的特征项,然后将这些特征项作为扩展特征项,执行步骤211。
步骤212、将所述省略的短文本信息作为拟合的短文本信息,返回步骤207。
如果在拟合特征库中查询不到和所述省略的短文本信息完全一致的短文本存在,那么就将所述省略的短文本信息作为拟合的短文本信息,重新返回步骤207。
步骤213、返回所述扩展特征项。
如果在完全匹配特征库中查询到了和所述待扩展的短文本信息完全一致的原始短文本存在,就将得到的查询结果,即所述步骤203中的扩展特征项作为特征扩展的结果并返回给最初提出扩展请求的用户或计算机。
同样,如果在拟合特征库中查询到了和所述拟合的短文本信息或所述省略的短文本信息完全一致的短文本存在,就将得到的查询结果,即所述步骤206或所述步骤211中的扩展特征项作为特征扩展的结果并返回给最初提出扩展请求的用户或计算机。
其中,所述拟合特征库中存储有删减的短文本信息,以及与所述删减的短文本信息相匹配的特征项,其中所述删减的短文本信息根据完全匹配特征库中的原始短文本信息删减获取,所述删减的短文本信息的所有项目的重要性权值之和不小于预设权值,所述与所述删减的短文本信息相匹配的特征项根据所述删减的短文本信息所对应的不同的原始短文本信息的所有特征项获得。
在本发明实施例的一个优选实施方式中,在所述步骤201之后,所述步骤202之前,还包括:在缓存中查询所述待扩展的短文本信息,若查询到,将与所述待扩展的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则执行步骤202,其中,所述缓存内保存有之前的查询结果。
优选地,所述返回所述扩展特征项,还包括将所述扩展特征项保存在缓存中,这样在下一次需要扩展时,可以优先查询保存在缓存中的特征项,从而提高特征扩展的效率。
优选地,所述在完全匹配特征库中查询所述待扩展的短文本信息、所述在拟合特征库中查询所述拟合的短文本信息和所述在拟合特征库中查询所述省略的短文本信息都可以是通过特征库K-V查询服务实现的。所述K-V查询服务就是基于Key-Value分布式存储系统的查询服务,其把数据分成多个有序的数据表,分别存储在多台服务器上,在查询的时候就可以多台服务器同时进行,就达到高并发、高性能、节省服务器数量的目的。
本发明第二实施例通过优先在缓存和完全匹配特征库中查询所述待扩展的短文本信息,如果没有查询到再去拟合特征库中进行查询,并且所述查询都是都过高吞吐量的K-V查询服务实现的,这样在进一步降低转义风险的同时提高了特征扩展的效率,使得所述短文本特征扩展方法可以在多种应用中辅助进行短文本信息处理操作,满足高并发、高精度的短文本特征扩展需求。
图3是本发明第三实施例的拟合特征库构建方法的流程图。如图3所示,所述方法包括:
步骤301、将完全匹配特征库中的原始短文本信息进行删减,得到删减的短文本信息,其中,所述删减的短文本信息的所有项目的项目权值之和不小于预设权值。
具体地,根据系统中预设的权值,对完全匹配特征库中的原始短文本信息进行删减,将那些重要性权值比较小的项目进行删除,保证所述删减的短文本信息的所有项目的项目权值之和不小于预设权值。
在所述完全匹配特征库中存储有原始短文本信息,以及与其完全匹配的、没有任何转义的特征项,并且每个特征项都有一个相应的特征权值,用来表示所述特征项与原始短文本信息的匹配程度。
步骤302、将所述删减的短文本信息所对应的不同的原始短文本信息的所有特征项进行融合,得到与所述删减的短文本信息相匹配的特征项。
具体地,在所述完全匹配特征库中保存有某些不完全一致的原始短文本信息,这些原始短文本信息经过步骤301的删减,得到的所述删减的短文本信息是完全相同的,但是它们在完全匹配特征库中对应的特征项并不完全相同,接着将这些完全相同的所述删减的短文本信息所对应的不同的原始短文本信息的所有特征项进行融合,就得到了与所述删减的短文本信息相匹配的特征项。所述删减的短文本信息可以被认为是拟合特征库中存储的短文本信息,与其对应的,经过融合的特征项就是与拟合特征库中存储的短文本信息相匹配的拟合特征项。
优选地,所述融合包括保留所述不同的原始短文本信息的所有特征项,作为与所述删减的短文本信息相匹配的特征项,其中,所述与所述删减的短文本信息相匹配的特征项的特征权值根据所述不同的原始短文本信息的个数和所述所有特征项的特征权值得到。
优选地,所述预设权值可以设置为0.7,此时所述完全匹配特征库中的短文本信息被删减去的项目的重要性小于30%,转义风险不是很高,同时,删去了一部分项目,对于不完全一致的短文本信息来说,比较有可能得到相同的所述删减的短文本信息并进行特征融合,增加了特征项的完整性,使得特征扩展结果的准确性和完整性达到一个较好的平衡。
优选地,在所述拟合特征库中保留与所述删减的短文本信息相匹配的特征权值最大的100个特征项,作为所述拟合特征库对所述删减的短文本信息进行特征扩展的结果。
优选地,所述完全匹配特征库的数据可以根据特定的搜索结果进行定期更新,相应的,所述拟合特征库的数据也进行定期更新。
下面通过举例具体说明本实施例的拟合特征库构建方法。例如,在完全匹配特征库中存储有两个不完全一致的原始短文本信息A1“小时代在线观看”和A2“小时代电影”,其中,在原始短文本信息A1中包括两个项目:项目A11“小时代”和项目A12“在线观看”,其重要性权值分别为0.7和0.3;在原始短文本信息A2中也包括两个项目:项目A21“小时代”和项目A22“电影”,其重要性权值分别为0.8和0.2。那么根据预设权值0.7对所述原始短文本信息A1和A2进行删减,分别删去所述项目A12和A22,就都得到了删减的短文本信息A“小时代”,那么下面就要对所述原始短文本信息A1和A2的所有特征项进行融合。
表1是原始短文本信息A1“小时代在线观看”和原始短文本信息A2“小时代电影”在完全匹配特征库中的特征项及相应的特征权值。从表1中可以看出,特征项“高清”、“小时代”、“郭敬明”和“观看”都出现过两次,并且原始短文本信息的个数为2,所以融合时可以将他们各自的特征权值相加后除以2,就得到了这些特征项在拟合特征库中的特征权值。从表1中还可以看出,特征项“电影版”和“电影网”都只出现过一次,并且原始短文本信息的个数为2,所以融合时可以直接将他们各自的特征权值除以2,就得到了这些特征项在拟合特征库中的特征权值。表2是删减的短文本信息A“小时代”在拟合特征库中的特征项及相应的特征权值。
表1
表2
本领域的技术人员可以理解,上述举例仅为更好说明本发明的技术方案,而非对本发明的限制,在完全匹配特征库中可能存储有很多个不完全一致的原始短文本信息,并且分别对应几十、甚至上百个特征项,计算拟合特征库中特征项的特征权值的方法,可以是将原始短文本信息的相同特征项的特征权值相加后取平均值,也可以将相同特征项的特征权值取平方和,或者其他任何根据原始短文本信息的个数和原始短文本信息的所有特征项的特征权值得到拟合特征库中特征项的特征权值的方法,均在本发明的保护范围内。
本发明第三实施例通过对完全匹配特征库中的短文本信息进行删减,增加了短文本信息的匹配成功率,同时对相应的特征项进行融合,降低了特征扩展的转义风险,使得利用拟合特征库进行短文本特征扩展的结果准确性高、覆盖面广。
图4是本发明第四实施例的短文本特征扩展装置的结构示意图。如图4所示,所述装置包括:
短文本获取单元41,用于获取待扩展的短文本信息。
短文本拟合单元42,用于删除所述待扩展的短文本信息中无表意能力的项目,得到拟合的短文本信息。
拟合短文本查询单元43,用于在拟合特征库中查询所述拟合的短文本信息,若查询到,将与所述拟合的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则调用短文本省略单元44。
短文本省略单元44,用于省略所述拟合的短文本信息中重要性权值最低的项目,得到省略的短文本信息。
权值判断单元45,用于判断所述省略的短文本信息中所有项目的重要性权值之和是否小于用户指定的阈值,若是,返回无结果,否则调用省略短文本查询单元46。
省略短文本查询单元46,用于在拟合特征库中查询所述省略的短文本信息,若查询到,将与所述省略的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则将所述省略的短文本信息作为拟合的短文本信息,调用短文本省略单元44。
其中,所述拟合特征库中存储有删减的短文本信息,以及与所述删减的短文本信息相匹配的特征项,其中所述删减的短文本信息根据完全匹配特征库中的原始短文本信息删减获取,所述删减的短文本信息的所有项目的重要性权值之和不小于预设权值,所述与所述删减的短文本信息相匹配的特征项根据所述删减的短文本信息所对应的不同的原始短文本信息的所有特征项获得。
在本实施例的一个优选实施方式中,所述短文本特征扩展装置还包括第一缓存查询单元,用于在缓存中查询所述待扩展的短文本信息,若查询到,将与所述待扩展的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则调用短文本拟合单元42,其中,所述缓存内保存有之前的查询结果。
优选地,所述返回所述扩展特征项,还包括将所述扩展特征项保存在缓存中。
本发明第四实施例首先将所述待扩展的短文本信息中没有表意能力的项目删除,然后在拟合特征库中进行查询,如果没有查询到就通过逐步省略重要性最低的项目来增加其在在拟合特征库中被查询到的概率,并且所述拟合特征库是根据完全匹配特征库中的数据拟合而来,解决了短文本特征扩展过程中,转义风险过、扩展结果覆盖面窄的问题,从而得到准确并完整的短文本特征扩展结果。
图5是本发明第五实施例的短文本特征扩展装置的结构示意图。如图5所示,所述装置包括:
短文本获取单元51,用于获取待扩展的短文本信息。
全匹配特征库查询单元52,用于在完全匹配特征库中查询所述待扩展的短文本信息,若查询到,将与所述待扩展的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则调用短文本拟合单元53。
短文本拟合单元53,用于删除所述待扩展的短文本信息中无表意能力的项目,得到拟合的短文本信息。
拟合短文本查询单元54,用于在拟合特征库中查询所述拟合的短文本信息,若查询到,将与所述拟合的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则调用短文本省略单元55。
短文本省略单元55,用于省略所述拟合的短文本信息中重要性权值最低的项目,得到省略的短文本信息。
权值判断单元56,用于判断所述省略的短文本信息中所有项目的重要性权值之和是否小于用户指定的阈值,若是,返回无结果,否则调用省略短文本查询单元57。
省略短文本查询单元57,用于在拟合特征库中查询所述省略的短文本信息,若查询到,将与所述省略的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则将所述省略的短文本信息作为拟合的短文本信息,调用短文本省略单元55。
其中,所述拟合特征库中存储有删减的短文本信息,以及与所述删减的短文本信息相匹配的特征项,其中所述删减的短文本信息根据完全匹配特征库中的原始短文本信息删减获取,所述删减的短文本信息的所有项目的重要性权值之和不小于预设权值,所述与所述删减的短文本信息相匹配的特征项根据所述删减的短文本信息所对应的不同的原始短文本信息的所有特征项获得。
在本发明实施例的一个优选实施方式中,所述短文本特征扩展装置还包括第二缓存查询单元,用于在缓存中查询所述待扩展的短文本信息,若查询到,将与所述待扩展的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则调用完全匹配特征库查询单元52,其中,所述缓存内保存有之前的查询结果。
优选地,所述返回所述扩展特征项,还包括将所述扩展特征项保存在缓存中。
在本发明实施例的另一个优选实施方式中,所述在完全匹配特征库中查询所述待扩展的短文本信息、所述在拟合特征库中查询所述拟合的短文本信息和所述在拟合特征库中查询所述省略的短文本信息都可以是通过特征库K-V查询服务实现的。
本发明第五实施例通过优先在缓存和完全匹配特征库中查询所述待扩展的短文本信息,如果没有查询到再去拟合特征库中进行查询,并且所述查询都是都过高吞吐量的K-V查询服务实现的,这样在进一步降低转义风险的同时提高了特征扩展的效率,使得所述短文本特征扩展方法可以在多种应用中辅助进行短文本信息处理操作,满足高并发、高精度的短文本特征扩展需求。
图6是本发明第六实施例的拟合特征库构建装置的结构示意图。如图6所示,所述装置包括:
短文本删减单元61,用于将完全匹配特征库中的原始短文本信息进行删减,得到删减的短文本信息,其中,所述删减的短文本信息的所有项目的重要性权值之和不小于预设权值。
短文本融合单元62,用于将所述删减的短文本信息所对应的不同的原始短文本信息的所有特征项进行融合,得到与所述删减的短文本信息相匹配的特征项。
本发明第六实施例通过对完全匹配特征库中的短文本信息进行删减,增加了短文本信息的匹配成功率,同时对相应的特征项进行融合,降低了特征扩展的转义风险,使得利用拟合特征库进行短文本特征扩展的结果准确性高、覆盖面广。
显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (14)
1.一种短文本特征扩展方法,其特征在于,包括:
a、获取待扩展的短文本信息;
b、删除所述待扩展的短文本信息中无表意能力的项目,得到拟合的短文本信息;
c、在拟合特征库中查询所述拟合的短文本信息,若查询到,将与所述拟合的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则执行步骤d;
d、省略所述拟合的短文本信息中重要性权值最低的项目,得到省略的短文本信息;
e、判断所述省略的短文本信息中所有项目的重要性权值之和是否小于用户指定的阈值,若是,返回无结果,否则执行步骤f;
f、在拟合特征库中查询所述省略的短文本信息,若查询到,将与所述省略的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则将所述省略的短文本信息作为拟合的短文本信息,返回步骤d;
其中,所述拟合特征库中存储有删减的短文本信息,以及与所述删减的短文本信息相匹配的特征项,其中所述删减的短文本信息根据完全匹配特征库中的原始短文本信息删减获取,所述删减的短文本信息的所有项目的重要性权值之和不小于预设权值,所述与所述删减的短文本信息相匹配的特征项根据所述删减的短文本信息所对应的不同的原始短文本信息的所有特征项获得。
2.如权利要求1所述的短文本特征扩展方法,其特征在于,在所述步骤a之后,所述步骤b之前,还包括:在完全匹配特征库中查询所述待扩展的短文本信息,若查询到,将与所述待扩展的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则执行步骤b。
3.如权利要求1所述的短文本特征扩展方法,其特征在于,在所述步骤a之后,所述步骤b之前,还包括:在缓存中查询所述待扩展的短文本信息,若查询到,将与所述待扩展的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则执行步骤b,其中,所述缓存内保存有之前的查询结果。
4.如权利要求1所述的短文本特征扩展方法,其特征在于,在所述步骤a之后,所述步骤b之前,还包括:
在缓存中查询所述待扩展的短文本信息,若查询到,将与所述待扩展的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则在完全匹配特征库中查询所述待扩展的短文本信息,若查询到,将与所述待扩展的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则执行步骤b,其中,所述缓存内保存有之前的查询结果。
5.如权利要求3或4所述的短文本特征扩展方法,其特征在于,所述返回扩展特征项包括:将所述扩展特征项保存在缓存中。
6.一种拟合特征库构建方法,其特征在于,包括:
将完全匹配特征库中的原始短文本信息进行删减,得到删减的短文本信息,其中,所述删减的短文本信息的所有项目的项目权值之和不小于预设权值;
将所述删减的短文本信息所对应的不同的原始短文本信息的所有特征项进行融合,得到与所述删减的短文本信息相匹配的特征项。
7.如权利要求6所述的拟合特征库构建方法,其特征在于,所述融合包括:
保留所述不同的原始短文本信息的所有特征项,作为与所述删减的短文本信息相匹配的特征项,其中,所述与所述删减的短文本信息相匹配的特征项的特征权值根据所述不同的原始短文本信息的个数和所述所有特征项的特征权值得到。
8.一种短文本特征扩展装置,其特征在于,包括:
短文本获取单元,用于获取待扩展的短文本信息;
短文本拟合单元,用于删除所述待扩展的短文本信息中无表意能力的项目,得到拟合的短文本信息;
拟合短文本查询单元,用于在拟合特征库中查询所述拟合的短文本信息,若查询到,将与所述拟合的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则调用短文本省略单元;
短文本省略单元,用于省略所述拟合的短文本信息中重要性权值最低的项目,得到省略的短文本信息;
权值判断单元,用于判断所述省略的短文本信息中所有项目的重要性权值之和是否小于用户指定的阈值,若是,返回无结果,否则调用省略短文本查询单元;
省略短文本查询单元,用于在拟合特征库中查询所述省略的短文本信息,若查询到,将与所述省略的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则将所述省略的短文本信息作为拟合的短文本信息,调用短文本省略单元;
其中,所述拟合特征库中存储有删减的短文本信息,以及与所述删减的短文本信息相匹配的特征项,其中所述删减的短文本信息根据完全匹配特征库中的原始短文本信息删减获取,所述删减的短文本信息的所有项目的重要性权值之和不小于预设权值,所述与所述删减的短文本信息相匹配的特征项根据所述删减的短文本信息所对应的不同的原始短文本信息的所有特征项获得。
9.如权利要求8所述的短文本特征扩展装置,其特征在于,还包括完全匹配特征库查询单元,用于在完全匹配特征库中查询所述待扩展的短文本信息,若查询到,将与所述待扩展的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则调用短文本拟合单元。
10.如权利要求8所述的短文本特征扩展装置,其特征在于,还包括第一缓存查询单元,用于在缓存中查询所述待扩展的短文本信息,若查询到,将与所述待扩展的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则调用短文本拟合单元,其中,所述缓存内保存有之前的查询结果。
11.如权利要求8所述的短文本特征扩展装置,其特征在于,还包括:
第二缓存查询单元,用于在缓存中查询所述待扩展的短文本信息,若查询到,将与所述待扩展的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则调用完全匹配特征库查询单元,其中,所述缓存内保存有之前的查询结果;
全匹配特征库查询单元,用于在完全匹配特征库中查询所述待扩展的短文本信息,若查询到,将与所述待扩展的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则调用短文本拟合单元。
12.如权利要求10或11所述的短文本特征扩展装置,其特征在于,所述返回扩展特征项包括:将所述扩展特征项保存在缓存中。
13.一种拟合特征库构建装置,其特征在于,包括:
短文本删减单元,用于将完全匹配特征库中的原始短文本信息进行删减,得到删减的短文本信息,其中,所述删减的短文本信息的所有项目的重要性权值之和不小于预设权值;
短文本融合单元,用于将所述删减的短文本信息所对应的不同的原始短文本信息的所有特征项进行融合,得到与所述删减的短文本信息相匹配的特征项。
14.如权利要求13所述的拟合特征库构建装置,其特征在于,所述融合包括:保留所述不同的原始短文本信息的所有特征项,作为与所述删减的短文本信息相匹配的特征项,其中,所述与所述删减的短文本信息相匹配的特征项的特征权值根据所述不同的原始短文本信息的个数和所述所有特征项的特征权值得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310464789.1A CN103530345A (zh) | 2013-10-08 | 2013-10-08 | 短文本特征扩展及拟合特征库构建方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310464789.1A CN103530345A (zh) | 2013-10-08 | 2013-10-08 | 短文本特征扩展及拟合特征库构建方法、装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103530345A true CN103530345A (zh) | 2014-01-22 |
Family
ID=49932354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310464789.1A Pending CN103530345A (zh) | 2013-10-08 | 2013-10-08 | 短文本特征扩展及拟合特征库构建方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103530345A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103745000B (zh) * | 2014-01-24 | 2017-02-01 | 福州大学 | 一种中文微博客的热点话题检测方法 |
CN107784112A (zh) * | 2017-11-06 | 2018-03-09 | 广州赛宝认证中心服务有限公司 | 短文本数据增强方法、系统及检测认证服务平台 |
CN112182313A (zh) * | 2020-09-30 | 2021-01-05 | 国网青海省电力公司 | 一种继电保护定值名称匹配方法、系统 |
CN112465076A (zh) * | 2021-01-28 | 2021-03-09 | 知行汽车科技(苏州)有限公司 | 多特征融合的方法、装置、系统及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567290A (zh) * | 2010-12-30 | 2012-07-11 | 百度在线网络技术(北京)有限公司 | 用于对待处理的短文本信息进行扩展的方法、装置和设备 |
CN102650986A (zh) * | 2011-02-27 | 2012-08-29 | 孙星明 | 一种用于文本复制检测的同义词扩展方法及装置 |
CN103279478A (zh) * | 2013-04-19 | 2013-09-04 | 国家电网公司 | 一种基于分布式互信息文档特征提取方法 |
-
2013
- 2013-10-08 CN CN201310464789.1A patent/CN103530345A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567290A (zh) * | 2010-12-30 | 2012-07-11 | 百度在线网络技术(北京)有限公司 | 用于对待处理的短文本信息进行扩展的方法、装置和设备 |
CN102650986A (zh) * | 2011-02-27 | 2012-08-29 | 孙星明 | 一种用于文本复制检测的同义词扩展方法及装置 |
CN103279478A (zh) * | 2013-04-19 | 2013-09-04 | 国家电网公司 | 一种基于分布式互信息文档特征提取方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103745000B (zh) * | 2014-01-24 | 2017-02-01 | 福州大学 | 一种中文微博客的热点话题检测方法 |
CN107784112A (zh) * | 2017-11-06 | 2018-03-09 | 广州赛宝认证中心服务有限公司 | 短文本数据增强方法、系统及检测认证服务平台 |
CN107784112B (zh) * | 2017-11-06 | 2020-03-03 | 广州赛宝认证中心服务有限公司 | 短文本数据增强方法、系统及检测认证服务平台 |
CN112182313A (zh) * | 2020-09-30 | 2021-01-05 | 国网青海省电力公司 | 一种继电保护定值名称匹配方法、系统 |
CN112465076A (zh) * | 2021-01-28 | 2021-03-09 | 知行汽车科技(苏州)有限公司 | 多特征融合的方法、装置、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105893453B (zh) | 用于处理数据库查询的计算机实现的方法和计算机系统 | |
CN107704202B (zh) | 一种数据快速读写的方法和装置 | |
US20130339001A1 (en) | Spelling candidate generation | |
JP2018081702A (ja) | 文抽出方法及びシステム | |
CN108170650B (zh) | 文本比较方法以及文本比较装置 | |
CN111247518A (zh) | 数据库分片 | |
US9418155B2 (en) | Disambiguation of entities | |
CN103530345A (zh) | 短文本特征扩展及拟合特征库构建方法、装置 | |
JP2020123320A (ja) | インデックスを管理するための方法、装置、設備及び記憶媒体 | |
CN113204621A (zh) | 文档入库、文档检索方法,装置,设备以及存储介质 | |
CN106156050B (zh) | 一种数据处理方法及装置 | |
CN114090735A (zh) | 一种文本匹配方法、装置、设备及存储介质 | |
CN107622090B (zh) | 对象的获取方法、装置及系统 | |
CN111666417B (zh) | 生成同义词的方法、装置、电子设备以及可读存储介质 | |
CN110674383B (zh) | 舆情查询方法、装置及设备 | |
CN112836513A (zh) | 一种命名实体的链接方法、装置、设备及可读存储介质 | |
CN106202127B (zh) | 一种垂直搜索引擎对检索请求的处理方法及装置 | |
CN109918661B (zh) | 同义词获取方法及装置 | |
CN116521816A (zh) | 一种数据处理方法、检索方法、装置、设备以及存储介质 | |
CN110019783B (zh) | 属性词聚类方法及装置 | |
US10275399B2 (en) | Faster main memory scans in unsorted dictionary-encoded vectors | |
US20160147902A1 (en) | Data provision device, data provision method, and data provision program | |
CN111639099A (zh) | 全文索引方法及系统 | |
CN110851709B (zh) | 资讯推送方法、装置、计算机设备和存储介质 | |
KR101592670B1 (ko) | 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140122 |