CN106294350A - 一种文本聚合方法及装置 - Google Patents

一种文本聚合方法及装置 Download PDF

Info

Publication number
CN106294350A
CN106294350A CN201510242860.0A CN201510242860A CN106294350A CN 106294350 A CN106294350 A CN 106294350A CN 201510242860 A CN201510242860 A CN 201510242860A CN 106294350 A CN106294350 A CN 106294350A
Authority
CN
China
Prior art keywords
text
polymerized
similarity
hash
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510242860.0A
Other languages
English (en)
Other versions
CN106294350B (zh
Inventor
冯文镛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510242860.0A priority Critical patent/CN106294350B/zh
Priority to PCT/CN2016/081090 priority patent/WO2016180268A1/zh
Publication of CN106294350A publication Critical patent/CN106294350A/zh
Application granted granted Critical
Publication of CN106294350B publication Critical patent/CN106294350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本聚合方法及装置,在本申请所述技术方案中,在得到与待聚合文本相对应的文本特征集合之后,可采用局部敏感哈希算法结合相似度校验的判定方法,对所述待聚合文本进行相似性分析以实现待聚合文本的聚合,从而可解决基于向量空间模型或概率模型进行短文本相似性分析时所导致的文本聚合结果准确性较低、实时性较低的问题,达到准确且又快速地对短文本进行聚合的效果。

Description

一种文本聚合方法及装置
技术领域
本申请涉及互联网技术领域,尤其涉及一种文本聚合方法及装置。
背景技术
在传统的通信应用(如短信、邮件等)以及新型的互联网社交应用(如微信、微博、论坛等)等场景中,时刻都会产生大量的短文本数据,如,长度不大于设定的长度阈值(如150~200个字等,其中,英文单词或者连续数字按一个汉字计算)的中文文本数据。这些文本数据中存在大量有价值的信息,通过对其进行聚合可以发现信息中潜在的热点或者规律。
具体地,文本聚合是一种在给定的相似性度量之下对文本集合进行分组,使彼此相近的文本分到同一个组内的技术。文本聚合具体可包括文本特征提取以及文本相似性分析等步骤。
具体地,由于目前,在对文本进行相似性分析以实现文本的聚合时,主要基于向量空间模型或概率模型进行。而在向量空间模型中,是采用文本中的字或者词作为特征表示文本,用特征向量之间的相似度来度量文本的相关性。因而,对于长度过短的文本,会存在特征向量过于稀疏,导致计算结果无法满足相似性分析的要求,进而导致最终所得到的文本聚合结果并不准确的问题。另外,在概率模型中,若使用过短的文本,则大部分特征都会是概率平滑的结果,不能反映真实数据的信息,因而,也会存在聚合结果并不准确、无法满足用户需求的问题。再有,由于上述两类传统的文本相似度算法计算量巨大,因而,还会存在难以满足通常可以达到千万级甚至亿级的短文本数据的实时分析的问题,使得文本聚合的效果并不佳。
也就是说,目前,在对短文本数据进行文本聚合时,存在文本相似性分析的方式较差所导致的文本聚合的准确性较低、实时性较低的问题,因此,亟需提供一种新的文本聚合方法以解决上述问题。
发明内容
本申请实施例提供了一种文本聚合方法及装置,用以解决目前的文本聚合方式存在文本相似性分析的方式较差所导致的文本聚合的准确性较低、实时性较低的问题。
本申请实施例提供了一种文本聚合方法,包括:
对长度不大于设定的长度阈值的待聚合文本进行特征提取,得到与所述待聚合文本相对应的第一文本特征集合;
基于设定的局部敏感哈希算法计算所述第一文本特征集合的哈希值,并根据计算得到的哈希值,判断已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中,是否存在与计算得到的哈希值之间的距离不大于设定距离的匹配值;
若是,则从与计算得到的哈希值之间的距离不大于设定距离的匹配值中,选取与计算得到的哈希值之间的距离最小的匹配值,并计算所述第一文本特征集合与所述最小的匹配值所对应的第二文本特征集合之间的相似度;
若确定所述第一文本特征集合与所述第二文本特征集合之间的相似度不小于设定的相似度阈值,则将所述待聚合文本聚合至所述第二文本特征集合所对应的文本类中。
相应地,本申请实施例还提供了一种文本聚合装置,包括:
特征提取单元,用于对长度不大于设定的长度阈值的待聚合文本进行特征提取,得到与所述待聚合文本相对应的第一文本特征集合;
文本聚合单元,用于基于设定的局部敏感哈希算法计算所述第一文本特征集合的哈希值,并根据计算得到的哈希值,判断已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中,是否存在与计算得到的哈希值之间的距离不大于设定距离的匹配值;若是,则从与计算得到的哈希值之间的距离不大于设定距离的匹配值中,选取与计算得到的哈希值之间的距离最小的匹配值,并计算所述第一文本特征集合与所述最小的匹配值所对应的第二文本特征集合之间的相似度;以及,若确定所述第一文本特征集合与所述第二文本特征集合之间的相似度不小于设定的相似度阈值,则将所述待聚合文本聚合至所述第二文本特征集合所对应的文本类中。
本申请有益效果如下:
本申请实施例提供了一种文本聚合方法及装置,在本申请实施例所述技术方案中,可在得到与待聚合文本相对应的文本特征集合之后,采用局部敏感哈希算法结合相似度校验的判定方法,对所述待聚合文本进行相似性分析以实现待聚合文本的聚合,从而可解决基于向量空间模型或概率模型进行短文本相似性分析时所导致的文本聚合结果准确性较低、实时性较低的问题,达到准确且又快速地对短文本进行聚合的效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1所示为本申请实施例一中所述文本聚合方法的流程示意图;
图2所示为本申请实施例二中所述文本聚合装置的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
实施例一:
本申请实施例一提供了一种文本聚合方法,如图1所示,其为本申请实施例一中所述文本聚合方法的流程示意图,所述文本聚合方法可包括以下步骤:
步骤101:对长度不大于设定的长度阈值的待聚合文本进行特征提取,得到与所述待聚合文本相对应的第一文本特征集合。
可选地,所述待聚合文本具体可为长度不大于设定的长度阈值(如150~200个字等,其中,英文单词或者连续数字按一个汉字计算)的中文文本数据,本申请实施例对此不作赘述。
进一步地,由于互联网上的大量短文本数据存在用词不规范、存在各种变形等特点,因而使得,在使用传统的分词方法对其进行特征提取(如利用普通的分词器进行分词,并将相应的分词结果作为文本的特征描述)时,可能存在无法获得较好的特征提取结果,进而导致最终所得到的文本聚合结果并不准确的问题。
因而,为了提高文本特征的提取效果,在本申请所述实施例中,可采用以下方式对长度不大于设定的长度阈值的待聚合文本进行特征提取,得到与所述待聚合文本相对应的文本特征集合:
基于机械分词结合N元模型(N-gram)的特征提取方式对长度不大于设定的长度阈值的待聚合文本进行特征提取,得到与所述待聚合文本相对应的第一文本特征集合,所述N为大于1的自然数。
需要说明的是,相对于采用传统的分词方法对短文本数据进行特征提取来说,采用机械分词结合N元模型的特征提取方式可达到较好的文本特征提取效果。这是因为,机械分词是忽略语意对文本进行机械地分割,而N元模型则是给孤立的特征之间建立了一定的依赖性,从而能够提供更大的特征集合,丰富了特征集合的信息,这对本身信息就较少的短文本来说起到了很好的补充作用,因而,可在不规范的短文本特征提取中取得良好的效果,进而提高文本聚合的准确性。
可选地,基于机械分词结合N元模型的特征提取方式对长度不大于设定的长度阈值的待聚合文本进行特征提取,得到与所述待聚合文本相对应的文本特征集合,可包括:
以中文汉字以及连续的字符串(如连续的拉丁文字符串、连续的数字串、或连续的拉丁文数字字符串等)为最小切分单元,对所述待聚合文本进行分词,得到多个分词;例如,以待聚合文本为“我的生日是1989-01-22”为例,可将所述待聚合文本分词为“我/的/生/日/是/1989-01-22”;
基于N元模型,将得到的多个分词中的任意N个连续的分词组合为一文本特征,得到与所述待聚合文本相对应的文本特征集合。例如,以所述N的取值为2(即所述N元模型为Bi-gram),且待聚合文本为“我的生日是1989-01-22”为例,最终所得到的与所述待聚合文本相对应的文本特征集合可表示为{我的,的生,生日,日是,是1989-01-22}。
进一步地,为了提高文本质量,进而提高文本聚合的准确性,在对长度不大于设定的长度阈值的待聚合文本进行特征提取之前,所述方法还可包括以下步骤:
对所述待聚合文本进行预处理,以便后续可依据预处理后的待聚合文本进行相应的文本特征提取;其中,所述预处理至少可包括以下操作中的任意一种或多种,本申请实施例对此不作任何限定:
去除待聚合文本中的特殊标签(如html标签等)、去除待聚合文本中的非文字特殊符号(如&、*等)、对待聚合文本进行繁简字体转换(如将待聚合文本中的繁体字转换为简体字等)、以及将待聚合文本中的连续性的拉丁文和/或数字归一化为设定的字符串(如,将“Abc1234”或“1989-01-22”归一化成“xxxxxxx”等)等。
步骤102:基于设定的局部敏感哈希算法计算所述第一文本特征集合的哈希值,并根据计算得到的哈希值,判断已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中,是否存在与计算得到的哈希值之间的距离不大于设定距离的匹配值。
具体地,所述设定的局部敏感哈希算法不限于为Simhash算法或Minhash算法等。其中,Simhash算法是一种用来对网页去重的常用方法,其通过对网页的内容生成一个数字签名,然后通过计算数字签名之间的差异来判定网页内容的相似程度。另外,与Simhash算法一样,Minhash算法也是局部敏感哈希算法的一种,可以用来快速估算两个集合的相似度,最初用于在搜索引擎中检测重复网页,当然也可以应用于大规模聚类问题等,本申请实施例对此均不作赘述。
优选地,由于Simhash算法的速度较快,因此,在本申请所述实施例中,可优先选用所述Simhash算法来计算第一文本特征集合的哈希值。相应地,以所述设定的局部敏感哈希算法为Simhash算法为例,步骤102可具体执行为:基于Simhash算法计算所述第一文本特征集合的Simhash值,并根据计算得到的Simhash值,判断已构建的Simhash索引中,是否存在与计算得到的Simhash值之间的距离(具体可为海明距离,即Hamming距离)不大于设定距离的匹配值。
其中,所述设定距离可根据实际情况灵活设定,如以海明距离为例,可设置为3~5等,本申请实施例对此不作赘述。另外,需要说明的是,在信息论中,两个等长字符串之间的海明距离是指两个字符串对应位置的不同字符的个数,即,将一个字符串变换成另外一个字符串所需要替换的字符个数,本申请实施例对此也不作赘述。
步骤103:若确定已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中,存在与计算得到的哈希值之间的距离不大于设定距离的匹配值,则从与计算得到的哈希值之间的距离不大于设定距离的匹配值中,选取与计算得到的哈希值之间的距离最小的匹配值,并计算所述第一文本特征集合与所述最小的匹配值所对应的第二文本特征集合之间的相似度。
可选地,所述第一文本特征集合与所述第二文本特征集合之间的相似度至少可通过以下任意一种或多种相似度度量参数来表示:Jaccard相似度、欧式距离以及海明距离等。也就是说,在计算所述第一文本特征集合与所述最小的匹配值所对应的第二文本特征集合之间的相似度时,可计算所述第一文本特征集合与所述第二文本特征集合之间的Jaccard相似度、欧式距离以及海明距离等,本申请实施例对此不作赘述。
步骤104:若确定所述第一文本特征集合与所述第二文本特征集合之间的相似度不小于设定的相似度阈值,则将所述待聚合文本聚合至所述第二文本特征集合所对应的文本类中。
其中,所述设定的相似度阈值可根据实际情况灵活设定,如,当对文本聚合的准确性要求较高时,可将所述相似度阈值设置为一个相对较高的数值,当对文本聚合的准确性要求较低时,可将所述相似度阈值设置为一个相对较低的数值等,本申请实施例对此不作赘述。
需要说明的是,在本申请所述实施例中,之所以对所述第一文本特征集合与所述第二文本特征集合之间的相似度进行校验,主要是为了消除将局部敏感哈希算法应用于短文本数据的聚合时,局部敏感哈希算法的碰撞概率所导致的误判现象,以提高文本聚合的准确性。
例如,以采用Simhash算法计算第一文本特征集合的哈希值、进而选取相应的匹配值为例,在采用Simhash算法计算第一文本特征集合的哈希值、进而选取相应的匹配值之后,可进一步对所述第一文本特征集合与选取的匹配值所对应的第二文本特征集合之间的相似度(如Jaccard相似度等)进行校验,以消除Simhash碰撞导致的误判问题。
需要说明的是,Jaccard相似度是最常见的衡量两个集合相似性的一种方法,其也很适合用于衡量短文本的相似性,但由于计算量过大,所以无法直接用于大数据量的文本聚合。但是,通过Jaccard相似度校验,却可以完全解决Simhash算法的碰撞问题,消除了Simhash碰撞导致的误判问题。因而,采用Simhash算法结合Jaccard相似度校验的判定方法对待聚合文本进行相似性分析时,可达到准确且又快速地对短文本进行聚合的效果。
进一步地,在本申请所述实施例中,所述方法还可包括以下步骤:
若确定已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中,不存在与计算得到的哈希值之间的距离不大于设定距离的匹配值;或者,确定已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中,存在与计算得到的哈希值之间的距离不大于设定距离的匹配值、且确定所述第一文本特征集合与所述第二文本特征集合之间的相似度小于设定的相似度阈值;则将计算得到的哈希值更新至(即添加至)已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中,并基于所述待聚合文本创建一个新的文本类,以及将所述待聚合文本归至创建的所述新的文本类中。
也就是说,若确定待聚合文本不归属于任何一个已创建的文本类时,可将所述待聚合文本对应的哈希值添加至相应的哈希索引中,并将所述待聚合文本归至一个新创建的文本类中,本申请实施例对此不作赘述。
进一步地,需要说明的是,本申请实施例所述方案无语言、软件或者硬件的限制。但是,为了提高文本聚合的效率,可优先选用性能高的编程语言(如C++或者Java等)和性能高的硬件等来实现,本申请实施例对此不作赘述。
本申请实施例一提供了一种文本聚合方法,在本申请实施例一所述技术方案中,可对长度不大于设定的长度阈值的待聚合文本进行特征提取,并在得到与所述待聚合文本相对应的文本特征集合之后,可采用局部敏感哈希算法结合相似度校验的判定方法,对所述待聚合文本进行相似性分析以实现待聚合文本的聚合,从而可在解决基于向量空间模型或概率模型进行短文本相似性分析时所导致的文本聚合结果准确性较低、实时性较低的问题,达到准确且又快速地对短文本进行聚合的效果,如可实现大数据流量(如大于1万条/秒等)下的短文本的实时聚合,以支持对数据流的实时分析。
实施例二:
基于同一发明构思,本申请实施例二提供了一种文本聚合装置,该文本聚合装置的具体实施可参见上述方法实施例一中的相关描述,重复之处不再赘述,如图2所示,该文本聚合装置主要可包括:
特征提取单元21,可用于对长度不大于设定的长度阈值的待聚合文本进行特征提取,得到与所述待聚合文本相对应的第一文本特征集合;
文本聚合单元22,可用于基于设定的局部敏感哈希算法计算所述第一文本特征集合的哈希值,并根据计算得到的哈希值,判断已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中,是否存在与计算得到的哈希值之间的距离不大于设定距离的匹配值;若是,则从与计算得到的哈希值之间的距离不大于设定距离的匹配值中,选取与计算得到的哈希值之间的距离最小的匹配值,并计算所述第一文本特征集合与所述最小的匹配值所对应的第二文本特征集合之间的相似度;以及,若确定所述第一文本特征集合与所述第二文本特征集合之间的相似度不小于设定的相似度阈值,则将所述待聚合文本聚合至所述第二文本特征集合所对应的文本类中。
其中,所述设定的局部敏感哈希算法不限于为Simhash算法或Minhash算法等。且,所述第一文本特征集合与所述第二文本特征集合之间的相似度至少可通过以下任意一种或多种相似度度量参数来表示:Jaccard相似度、欧式距离以及海明距离等。
进一步地,所述文本聚合单元22,还可用于若确定已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中,不存在与计算得到的哈希值之间的距离不大于设定距离的匹配值;或者,确定已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中,存在与计算得到的哈希值之间的距离不大于设定距离的匹配值、且确定所述第一文本特征集合与所述第二文本特征集合之间的相似度小于设定的相似度阈值;则将计算得到的哈希值更新至已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中,并基于所述待聚合文本创建一个新的文本类,以及将所述待聚合文本归至创建的所述新的文本类中。
进一步地,为了提高文本特征的提取效果,在本申请所述实施例中,所述特征提取单元21具体可用于基于机械分词结合N元模型的特征提取方式对长度不大于设定的长度阈值的待聚合文本进行特征提取,得到与所述待聚合文本相对应的第一文本特征集合,所述N为大于1的自然数。
可选地,所述特征提取单元21具体可用于以中文汉字以及连续的字符串为最小切分单元,对所述待聚合文本进行分词,得到多个分词;并基于N元模型,将得到的多个分词中的任意N个连续的分词组合为一文本特征,得到与所述待聚合文本相对应的文本特征集合。
进一步地,所述装置还可包括预处理单元23:
所述预处理单元23,可用于在对长度不大于设定的长度阈值的待聚合文本进行特征提取之前,对所述待聚合文本进行预处理;其中,所述预处理至少可包括:去除待聚合文本中的特殊标签、去除待聚合文本中的非文字特殊符号、对待聚合文本进行繁简字体转换、以及将待聚合文本中的连续性的拉丁文和/或数字归一化为设定的字符串等中的一种或多种。
本领域技术人员应明白,本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (14)

1.一种文本聚合方法,其特征在于,包括:
对长度不大于设定的长度阈值的待聚合文本进行特征提取,得到与所述待聚合文本相对应的第一文本特征集合;
基于设定的局部敏感哈希算法计算所述第一文本特征集合的哈希值,并根据计算得到的哈希值,判断已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中,是否存在与计算得到的哈希值之间的距离不大于设定距离的匹配值;
若是,则从与计算得到的哈希值之间的距离不大于设定距离的匹配值中,选取与计算得到的哈希值之间的距离最小的匹配值,并计算所述第一文本特征集合与所述最小的匹配值所对应的第二文本特征集合之间的相似度;
若确定所述第一文本特征集合与所述第二文本特征集合之间的相似度不小于设定的相似度阈值,则将所述待聚合文本聚合至所述第二文本特征集合所对应的文本类中。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
若确定已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中,不存在与计算得到的哈希值之间的距离不大于设定距离的匹配值;或者,确定已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中,存在与计算得到的哈希值之间的距离不大于设定距离的匹配值、且确定所述第一文本特征集合与所述第二文本特征集合之间的相似度小于设定的相似度阈值,则
将计算得到的哈希值更新至已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中,并基于所述待聚合文本创建一个新的文本类,以及将所述待聚合文本归至创建的所述新的文本类中。
3.如权利要求1或2所述的方法,其特征在于,所述对长度不大于设定的长度阈值的待聚合文本进行特征提取,得到与所述待聚合文本相对应的文本特征集合,包括:
基于机械分词结合N元模型的特征提取方式对长度不大于设定的长度阈值的待聚合文本进行特征提取,得到与所述待聚合文本相对应的第一文本特征集合,所述N为大于1的自然数。
4.如权利要求3所述的方法,其特征在于,所述基于机械分词结合N元模型的特征提取方式对长度不大于设定的长度阈值的待聚合文本进行特征提取,得到与所述待聚合文本相对应的第一文本特征集合,包括:
以中文汉字以及连续的字符串为最小切分单元,对所述待聚合文本进行分词,得到多个分词;
基于N元模型,将得到的多个分词中的任意N个连续的分词组合为一文本特征,得到与所述待聚合文本相对应的文本特征集合。
5.如权利要求1或2所述的方法,其特征在于,所述设定的局部敏感哈希算法不限于为Simhash算法或Minhash算法。
6.如权利要求1或2所述的方法,其特征在于,所述第一文本特征集合与所述第二文本特征集合之间的相似度至少通过Jaccard相似度、欧式距离以及海明距离中的任意一种或多种相似度度量参数来表示。
7.如权利要求1或2所述的方法,其特征在于,在对长度不大于设定的长度阈值的待聚合文本进行特征提取之前,所述方法还包括:
对所述待聚合文本进行预处理;其中,所述预处理至少包括:去除待聚合文本中的特殊标签、去除待聚合文本中的非文字特殊符号、对待聚合文本进行繁简字体转换、以及将待聚合文本中的连续性的拉丁文和/或数字归一化为设定的字符串中的一种或多种。
8.一种文本聚合装置,其特征在于,包括:
特征提取单元,用于对长度不大于设定的长度阈值的待聚合文本进行特征提取,得到与所述待聚合文本相对应的第一文本特征集合;
文本聚合单元,用于基于设定的局部敏感哈希算法计算所述第一文本特征集合的哈希值,并根据计算得到的哈希值,判断已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中,是否存在与计算得到的哈希值之间的距离不大于设定距离的匹配值;若是,则从与计算得到的哈希值之间的距离不大于设定距离的匹配值中,选取与计算得到的哈希值之间的距离最小的匹配值,并计算所述第一文本特征集合与所述最小的匹配值所对应的第二文本特征集合之间的相似度;以及,若确定所述第一文本特征集合与所述第二文本特征集合之间的相似度不小于设定的相似度阈值,则将所述待聚合文本聚合至所述第二文本特征集合所对应的文本类中。
9.如权利要求8所述的装置,其特征在于,
所述文本聚合单元,还用于若确定已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中,不存在与计算得到的哈希值之间的距离不大于设定距离的匹配值;或者,确定已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中,存在与计算得到的哈希值之间的距离不大于设定距离的匹配值、且确定所述第一文本特征集合与所述第二文本特征集合之间的相似度小于设定的相似度阈值,则
将计算得到的哈希值更新至已构建的与所述设定的局部敏感哈希算法相对应的哈希索引中,并基于所述待聚合文本创建一个新的文本类,以及将所述待聚合文本归至创建的所述新的文本类中。
10.如权利要求8或9所述的装置,其特征在于,
所述特征提取单元,具体用于基于机械分词结合N元模型的特征提取方式对长度不大于设定的长度阈值的待聚合文本进行特征提取,得到与所述待聚合文本相对应的第一文本特征集合,所述N为大于1的自然数。
11.如权利要求10所述的装置,其特征在于,
所述特征提取单元,具体用于以中文汉字以及连续的字符串为最小切分单元,对所述待聚合文本进行分词,得到多个分词;并基于N元模型,将得到的多个分词中的任意N个连续的分词组合为一文本特征,得到与所述待聚合文本相对应的文本特征集合。
12.如权利要求8或9所述的装置,其特征在于,所述设定的局部敏感哈希算法不限于为Simhash算法或Minhash算法。
13.如权利要求8或9所述的装置,其特征在于,所述第一文本特征集合与所述第二文本特征集合之间的相似度至少通过Jaccard相似度、欧式距离以及海明距离中的任意一种或多种相似度度量参数来表示。
14.如权利要求8或9所述的装置,其特征在于,所述装置还包括预处理单元:
所述预处理单元,用于在对长度不大于设定的长度阈值的待聚合文本进行特征提取之前,对所述待聚合文本进行预处理;
其中,所述预处理至少包括:去除待聚合文本中的特殊标签、去除待聚合文本中的非文字特殊符号、对待聚合文本进行繁简字体转换、以及将待聚合文本中的连续性的拉丁文和/或数字归一化为设定的字符串中的一种或多种。
CN201510242860.0A 2015-05-13 2015-05-13 一种文本聚合方法及装置 Active CN106294350B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510242860.0A CN106294350B (zh) 2015-05-13 2015-05-13 一种文本聚合方法及装置
PCT/CN2016/081090 WO2016180268A1 (zh) 2015-05-13 2016-05-05 一种文本聚合方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510242860.0A CN106294350B (zh) 2015-05-13 2015-05-13 一种文本聚合方法及装置

Publications (2)

Publication Number Publication Date
CN106294350A true CN106294350A (zh) 2017-01-04
CN106294350B CN106294350B (zh) 2019-10-11

Family

ID=57248581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510242860.0A Active CN106294350B (zh) 2015-05-13 2015-05-13 一种文本聚合方法及装置

Country Status (2)

Country Link
CN (1) CN106294350B (zh)
WO (1) WO2016180268A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951865A (zh) * 2017-03-21 2017-07-14 东莞理工学院 一种基于海明距离的隐私保护生物识别方法
CN108399163A (zh) * 2018-03-21 2018-08-14 北京理工大学 结合词聚合与词组合语义特征的文本相似性度量方法
CN108572961A (zh) * 2017-03-08 2018-09-25 北京嘀嘀无限科技发展有限公司 一种文本的向量化方法以及装置
CN109241505A (zh) * 2018-10-09 2019-01-18 北京奔影网络科技有限公司 文本去重方法及装置
CN109445844A (zh) * 2018-11-05 2019-03-08 浙江网新恒天软件有限公司 基于哈希值的代码克隆检测方法、电子设备、存储介质
CN110019531A (zh) * 2017-12-29 2019-07-16 北京京东尚科信息技术有限公司 一种获取相似对象集合的方法和装置
CN110134768A (zh) * 2019-05-13 2019-08-16 腾讯科技(深圳)有限公司 文本的处理方法、装置、设备及存储介质
CN110516157A (zh) * 2019-08-30 2019-11-29 盈盛智创科技(广州)有限公司 一种文献检索方法、设备和存储介质
CN110532389A (zh) * 2019-08-22 2019-12-03 四川睿象科技有限公司 一种文本聚类方法、装置和计算设备
CN111241275A (zh) * 2020-01-02 2020-06-05 厦门快商通科技股份有限公司 一种短文本相似度评估方法和装置以及设备
CN111694952A (zh) * 2020-04-16 2020-09-22 国家计算机网络与信息安全管理中心 一种基于微博的大数据分析模型系统及其实现方法
CN111861201A (zh) * 2020-07-17 2020-10-30 南京汇宁桀信息科技有限公司 一种基于大数据分类算法的政务智能派单的方法
CN116450918A (zh) * 2023-06-09 2023-07-18 辰风策划(深圳)有限公司 线上信息咨询方法、装置及电子设备

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657202B (zh) * 2017-10-10 2022-10-28 北京国双科技有限公司 文本处理的方法及装置
CN110147531B (zh) * 2018-06-11 2024-04-23 广州腾讯科技有限公司 一种相似文本内容的识别方法、装置及存储介质
CN108959440A (zh) * 2018-06-13 2018-12-07 福建新大陆软件工程有限公司 一种短信聚类方法及装置
CN109190117B (zh) * 2018-08-10 2023-06-23 中国船舶重工集团公司第七一九研究所 一种基于词向量的短文本语义相似度计算方法
CN109299260B (zh) * 2018-09-29 2021-01-19 上海晶赞融宣科技有限公司 数据分类方法、装置以及计算机可读存储介质
CN110321433B (zh) * 2019-06-26 2023-04-07 创新先进技术有限公司 确定文本类别的方法及装置
CN110991358B (zh) * 2019-12-06 2024-03-19 腾讯科技(深圳)有限公司 一种基于区块链的文本比对方法及装置
CN111444325B (zh) * 2020-03-30 2023-06-20 湖南工业大学 一种位置编码单次随机置换哈希度量文档相似度的方法
CN111506708A (zh) * 2020-04-22 2020-08-07 上海极链网络科技有限公司 一种文本审核方法、装置、设备和介质
CN111738437B (zh) * 2020-07-17 2020-11-20 支付宝(杭州)信息技术有限公司 一种训练方法、文本生成方法、装置及电子设备
CN113420141B (zh) * 2021-06-24 2022-10-04 中国人民解放军陆军工程大学 基于哈希聚类和上下文信息的敏感数据搜索方法
CN113704465A (zh) * 2021-07-21 2021-11-26 大箴(杭州)科技有限公司 文本聚类方法及装置、电子设备、存储介质
CN113688629A (zh) * 2021-08-04 2021-11-23 德邦证券股份有限公司 文本去重的方法、装置以及存储介质
CN116341566B (zh) * 2023-05-29 2023-10-20 中债金科信息技术有限公司 文本去重方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477563A (zh) * 2009-01-21 2009-07-08 北京百问百答网络技术有限公司 一种短文本聚类的方法、系统及其数据处理装置
US8060747B1 (en) * 2005-09-12 2011-11-15 Microsoft Corporation Digital signatures for embedded code
CN102929906A (zh) * 2012-08-10 2013-02-13 北京邮电大学 基于内容特征和主题特征的文本分组聚类方法
CN103441924A (zh) * 2013-09-03 2013-12-11 盈世信息科技(北京)有限公司 一种基于短文本的垃圾邮件过滤方法及装置
CN103646080A (zh) * 2013-12-12 2014-03-19 北京京东尚科信息技术有限公司 基于倒序索引的微博去重方法和系统
CN103970722A (zh) * 2014-05-07 2014-08-06 江苏金智教育信息技术有限公司 一种文本内容去重的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5442586B2 (ja) * 2010-11-30 2014-03-12 日本電信電話株式会社 情報検索装置、情報検索方法及びそのプログラム
CN103064887B (zh) * 2012-12-10 2016-01-20 华为技术有限公司 一种推荐信息的方法和设备
CN103914463B (zh) * 2012-12-31 2017-09-26 北京新媒传信科技有限公司 一种图片信息的相似性检索方法和装置
CN103744964A (zh) * 2014-01-06 2014-04-23 同济大学 一种基于局部敏感Hash函数的网页分类方法
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8060747B1 (en) * 2005-09-12 2011-11-15 Microsoft Corporation Digital signatures for embedded code
CN101477563A (zh) * 2009-01-21 2009-07-08 北京百问百答网络技术有限公司 一种短文本聚类的方法、系统及其数据处理装置
CN102929906A (zh) * 2012-08-10 2013-02-13 北京邮电大学 基于内容特征和主题特征的文本分组聚类方法
CN103441924A (zh) * 2013-09-03 2013-12-11 盈世信息科技(北京)有限公司 一种基于短文本的垃圾邮件过滤方法及装置
CN103646080A (zh) * 2013-12-12 2014-03-19 北京京东尚科信息技术有限公司 基于倒序索引的微博去重方法和系统
CN103970722A (zh) * 2014-05-07 2014-08-06 江苏金智教育信息技术有限公司 一种文本内容去重的方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108572961A (zh) * 2017-03-08 2018-09-25 北京嘀嘀无限科技发展有限公司 一种文本的向量化方法以及装置
CN106951865A (zh) * 2017-03-21 2017-07-14 东莞理工学院 一种基于海明距离的隐私保护生物识别方法
CN106951865B (zh) * 2017-03-21 2020-04-07 东莞理工学院 一种基于海明距离的隐私保护生物识别方法
CN110019531A (zh) * 2017-12-29 2019-07-16 北京京东尚科信息技术有限公司 一种获取相似对象集合的方法和装置
CN110019531B (zh) * 2017-12-29 2021-11-02 北京京东尚科信息技术有限公司 一种获取相似对象集合的方法和装置
CN108399163B (zh) * 2018-03-21 2021-01-12 北京理工大学 结合词聚合与词组合语义特征的文本相似性度量方法
CN108399163A (zh) * 2018-03-21 2018-08-14 北京理工大学 结合词聚合与词组合语义特征的文本相似性度量方法
CN109241505A (zh) * 2018-10-09 2019-01-18 北京奔影网络科技有限公司 文本去重方法及装置
CN109445844A (zh) * 2018-11-05 2019-03-08 浙江网新恒天软件有限公司 基于哈希值的代码克隆检测方法、电子设备、存储介质
CN110134768A (zh) * 2019-05-13 2019-08-16 腾讯科技(深圳)有限公司 文本的处理方法、装置、设备及存储介质
CN110532389A (zh) * 2019-08-22 2019-12-03 四川睿象科技有限公司 一种文本聚类方法、装置和计算设备
CN110532389B (zh) * 2019-08-22 2023-07-14 北京睿象科技有限公司 一种文本聚类方法、装置和计算设备
CN110516157A (zh) * 2019-08-30 2019-11-29 盈盛智创科技(广州)有限公司 一种文献检索方法、设备和存储介质
CN110516157B (zh) * 2019-08-30 2022-04-01 盈盛智创科技(广州)有限公司 一种文献检索方法、设备和存储介质
CN111241275A (zh) * 2020-01-02 2020-06-05 厦门快商通科技股份有限公司 一种短文本相似度评估方法和装置以及设备
CN111694952A (zh) * 2020-04-16 2020-09-22 国家计算机网络与信息安全管理中心 一种基于微博的大数据分析模型系统及其实现方法
CN111861201A (zh) * 2020-07-17 2020-10-30 南京汇宁桀信息科技有限公司 一种基于大数据分类算法的政务智能派单的方法
CN116450918A (zh) * 2023-06-09 2023-07-18 辰风策划(深圳)有限公司 线上信息咨询方法、装置及电子设备
CN116450918B (zh) * 2023-06-09 2023-08-25 辰风策划(深圳)有限公司 线上信息咨询方法、装置及电子设备

Also Published As

Publication number Publication date
WO2016180268A1 (zh) 2016-11-17
CN106294350B (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
CN106294350A (zh) 一种文本聚合方法及装置
CN112507068B (zh) 文档查询方法、装置、电子设备和存储介质
CN109582704B (zh) 招聘信息和求职简历匹配的方法
CN104881458B (zh) 一种网页主题的标注方法和装置
KR20180011254A (ko) 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기
CN107357777B (zh) 提取标签信息的方法和装置
CN108664574A (zh) 信息的输入方法、终端设备及介质
CN103617157A (zh) 基于语义的文本相似度计算方法
JP2012118977A (ja) 文書類似性計算の機械学習に基づく最適化およびカスタマイズのための方法およびシステム
CN106557777B (zh) 一种基于SimHash改进的Kmeans文档聚类方法
CN106909669B (zh) 一种推广信息的检测方法及装置
CN110472043B (zh) 一种针对评论文本的聚类方法及装置
CN104778283B (zh) 一种基于微博的用户职业分类方法及系统
CN106126502A (zh) 一种基于支持向量机的情感分类系统及方法
CN110134949A (zh) 一种基于教师监督的文本标注方法和设备
CN108052500A (zh) 一种基于语义分析的文本关键信息提取方法及装置
CN112115232A (zh) 一种数据纠错方法、装置及服务器
CN107688630A (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN111325033B (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN111368066A (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN108388556B (zh) 同类实体的挖掘方法及系统
CN113408660A (zh) 图书聚类方法、装置、设备和存储介质
WO2019064137A1 (en) EXPRESSION OF EXPRESSION FOR TREATMENT OF NATURAL LANGUAGE
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN108776705B (zh) 一种文本全文精确查询的方法、装置、设备及可读介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant