CN106202311B - 一种文件聚类方法及装置 - Google Patents

一种文件聚类方法及装置 Download PDF

Info

Publication number
CN106202311B
CN106202311B CN201610512365.1A CN201610512365A CN106202311B CN 106202311 B CN106202311 B CN 106202311B CN 201610512365 A CN201610512365 A CN 201610512365A CN 106202311 B CN106202311 B CN 106202311B
Authority
CN
China
Prior art keywords
node
phrase
file
segmentation
count
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610512365.1A
Other languages
English (en)
Other versions
CN106202311A (zh
Inventor
王亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201610512365.1A priority Critical patent/CN106202311B/zh
Publication of CN106202311A publication Critical patent/CN106202311A/zh
Application granted granted Critical
Publication of CN106202311B publication Critical patent/CN106202311B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种文件聚类方法及装置,包括:获得至少一个文件的文件标题,去除至少一个文件标题中的每个文件标题的噪声词,将去除噪声词后的每个文件标题进行分割,得到针对每个文件标题对应的分割短语序列,其中,所述分割短语序列中包含至少一个分割短语,根据所述分割短语构建短语计数树;根据所述短语计数树对获得的文件标题进行聚类,以对所述文件标题对应的文件进行聚类。应用本发明实施例可以自动构建短语计数树并对获得的文件标题进行自动聚类,避免了需要人工设计匹配模板的问题,提高了文件聚类过程中的召回率。

Description

一种文件聚类方法及装置
技术领域
本发明涉及资源管理技术领域,特别涉及一种文件聚类方法及装置。
背景技术
随着互联网的快速发展,各大网站上存储的文件日益增多,对文件的有效聚类成为对网站上存储的文件进行高效利用的重要条件。目前传统的视频聚类方法通常有:
基于模板匹配的方法:如匹配“xx季xx集”,“xx之xx”模式的视频,产生相应的聚类、文件列表,而且方法使用的模板不能够涵盖所有的类似的文件,因此该方法存在需要人工设计匹配模板,并且基于模板匹配的方法导致召回率不高的技术问题。其中,召回率用于在信息检索、分类体系中,用于评价检索和分类性能的指标。召回率是指系统检索到的相关文件数量与系统所有相关的文件总数的比值。
由上述技术方案可见,现有技术存在需要人工设计匹配模板和召回率不高的技术问题。
发明内容
本发明实施例的目的在于提供一种文件聚类方法及装置,以解决现有技术中需要人工设计匹配模板和召回率不高的技术问题。
为达到上述目的,本发明实施例公开了一种文件聚类方法,所述方法包括如下步骤:
获得至少一个文件的文件标题;
去除至少一个文件标题中的每个文件标题的噪声词;
将去除噪声词后的每个文件标题进行分割,得到针对每个文件标题对应的分割短语序列,其中,所述分割短语序列中包含至少一个分割短语;
根据所述分割短语构建短语计数树;
根据所述短语计数树对获得的文件标题进行聚类,以对所述文件标题对应的文件进行聚类。
较佳的,所述根据所述分割短语构建短语计数树,包括:
将所述每个文件标题对应的分割短语序列中均存在的分割短语,确定为所述短语计数树的根节点;
按照每个文件标题对应的分割短语序列包含的分割短语的顺序,依次针对每个分割短语,判断所述短语计数树中是否存在与该分割短语对应的节点;
如果存在,增加与该分割短语对应的节点的计数值;
如果不存在,在所述短语计数树中增加与该分割短语对应的节点,并为新增加的节点的计数值赋予初始值,其中,增加的与该分割短语对应的节点的父节点对应的分割短语为该分割短语的前一分割短语。
较佳的,所述根据所述短语计数树对获得的文件标题进行聚类,包括:
按照叶子节点至根节点的顺序,依次判断所述短语计数树的每一节点的计数值是否不小于预设阈值;
如果是,将该节点确定为待保留节点,并将该节点的上一级节点至所述根节点构成的路径中包含的每一节点的计数值均减少该节点的计数值;
将每个待保留点节点的下一层的叶子节点对应的文件标题确定为一类;
将剩余未被分类的文件标题确定为一类。
较佳的,所述增加与该分割短语对应的节点的计数值,包括:
以与所述初始值大小相同的值,增加与该分割短语对应的节点的计数值;
所述预设阈值为:
所述初始值的整倍数,且倍数大于1。
较佳的,所述方法还包括:
生成每一类文件标题的列表,其中,每一类文件标题的列表名称是由根节点至该类文件标题的列表对应的待保留节点的路径中包含的节点对应的分割短语构成的。
为实现上述目的,本发明实施例还公开了一种文件聚类装置,所述方法装置包括:文件标题获取模块、噪声词去除模块、文件标题分割模块、短语计数树构建模块和聚类模块,其中,
所述文件标题获取模块,用于获得至少一个文件的文件标题;
所述噪声词去除模块,用于去除至少一个文件标题中的每个文件标题的噪声词;
所述文件标题分割模块,用于将去除噪声词后的每个文件标题进行分割,得到针对每个文件标题对应的分割短语序列,其中,所述分割短语序列中包含至少一个分割短语;
所述短语计数树构建模块,用于根据所述分割短语构建短语计数树;
所述聚类模块,用于根据所述短语计数树对获得的文件标题进行聚类,以对所述文件标题对应的文件进行聚类。
较佳的,所述短语计数树构建模块包括:根节点确定子模块、节点判断子模块、计数值更新子模块和节点增加子模块,其中,
所述根节点确定子模块,用于将所述每个文件标题对应的分割短语序列中均存在的分割短语,确定为所述短语计数树的根节点;
所述节点判断子模块,用于按照每个文件标题对应的分割短语序列包含的分割短语的顺序,依次针对每个分割短语,判断所述短语计数树中是否存在与该分割短语对应的节点;
所述计数值更新子模块,用于在节点判断子模块判断结果为是时,增加与该分割短语对应的节点的计数值;
所述节点增加子模块,用于在节点判断子模块判断结果为否时,在所述短语计数树中增加与该分割短语对应的节点,并为新增加的节点的计数值赋予初始值,其中,增加的与该分割短语对应的节点的父节点对应的分割短语为该分割短语的前一分割短语;
较佳的,所述聚类模块包括:计数值判断子模块、待保留节点标记子模块和类生成子模块,其中:
所述计数值判断子模块,用于按照叶子节点至根节点的顺序,依次判断所述短语计数树的每一节点的计数值是否不小于预设阈值;
所述待保留节点标记子模块,用于在所述计数值判断子模块的判断结果为是时,将该节点确定为待保留节点,并将该节点的上一级节点至所述根节点构成的路径中包含的每一节点的计数值均减少该节点的计数值;
所述类生成子模块,用于将每个待保留点节点的下一层的叶子节点对应的文件标题确定为一类,并将剩余未被分类的文件标题确定为一类。
较佳的,所述计数值更新子模块,具体用于:
在节点判断子模块判断结果为是时,以与所述初始值大小相同的值,增加与该分割短语对应的节点的计数值;
所述预设阈值为:
所述初始值的整倍数,且倍数大于1。
较佳的,所述装置还包括:列表生成模块,用于生成每一类文件标题的列表,其中,每一类文件标题的列表名称是由根节点至该类文件标题的列表对应的待保留节点的路径中包含的节点对应的分割短语构成的。
由上述技术方案可见,本发明实施例公开的一种文件聚类方法及装置,其中,获得至少一个文件的文件标题,去除至少一个文件标题中的每个文件标题的噪声词,将去除噪声词后的每个文件标题进行分割,得到针对每个文件标题对应的分割短语序列,其中,所述分割短语序列中包含至少一个分割短语,根据所述分割短语构建短语计数树,根据所述短语计数树对获得的文件标题进行聚类,以对所述文件标题对应的文件进行聚类。
应用本发明实施例可以自动构建短语计数树并对获得的文件标题进行自动聚类,避免了需要人工设计匹配模板的问题,另外,将未被确定到聚类的其他文件确定到另一聚类中,使相关的文件标题都可以被确定到聚类中,提高了文件聚类的召回率。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文件聚类方法的流程示意图;
图2为本发明实施例提供的构建短语计数树的流程示意图;
图3为本发明实施例提供的对文件标题进行聚类的流程示意图;
图4为根据本发明实施例提供的构建的短语计数树的结果示意图;
图5为根据本发明实施例提供的对文件标题进行聚类后的短语计数树的示意图;
图6为本发明实施例提供的另一种文件聚类方法的流程示意图;
图7为本发明实施例提供的一种文件聚类装置的结构示意图;
图8为本发明实施例提供的另一种文件聚类装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决先有技术问题,本发明实施例提供了一种文件聚类方法及装置,下面首先对本发明实施例提供的一种文件聚类方法进行介绍。
需要说明的是,召回率用于在信息检索、分类体系中,用于评价检索和分类性能的指标。召回率是指系统检索到的相关文件数量与系统所有相关的文件总数的比值。
图1为本发明实施例提供的一种文件聚类方法的流程示意图,包括:
S101:获得至少一个文件的文件标题。
具体的,视频平台会预先设定有文件的分类,该分类包括多级分类结构。例如,可以是,广场舞为第一级(顶级)结构,健身舞为第二级结构,减肥操为第三级结构。用户在上传文件时,会确定上传文件的分类。以名称为“犯错”的文件为例,若用户选择该文件属于“健身舞”分类,则把该文件确定到“广场舞健身舞”分类。若用户在上传时,选择该文件属于“减肥操”分类,则系统默认该文件属于“广场舞健身舞减肥操”分类。在获得文件标题时,将该文件所属的分类名称加入到文件标题中。
具体的,在实际应用中,假设在站内搜索广场舞,获得的文件的标题为:
广场舞健身舞减肥操犯错
广场舞健身舞减肥操《山里红》背面慢动作
广场舞健身舞减肥操快乐歌谣
广场舞健身舞背水姑娘
广场舞民族舞纳西情歌
广场舞民族舞红头绳广场舞教学背面
广场舞民族舞《牧歌》附背面演示720P版
广场舞《青春飞舞》
广场舞《思密达》
广场舞醉月亮
广场舞爱是辣舞
S102:去除至少一个文件标题中的每个文件标题的噪声词。
在实际应用中,噪声词为对文件标题意义贡献极小的词。
具体的,下面以获得的文件的标题为“广场舞健身舞减肥操《山里红》背面慢动作”为例进行说明。
“广场舞健身舞减肥操《山里红》背面慢动作”中的背面慢动作作为噪声词去除,去除噪声词后的结果为广场舞健身舞减肥操《山里红》。
同理,按照本发明实施例提供的方法,去除噪声词后的文件标题为:
广场舞健身舞减肥操犯错
广场舞健身舞减肥操《山里红》
广场舞健身舞减肥操快乐歌谣
广场舞健身舞背水姑娘
广场舞民族舞纳西情歌
广场舞民族舞红头绳.
广场舞民族舞《牧歌》
广场舞《青春飞舞》
广场舞《思密达》
广场舞醉月亮
广场舞爱是辣舞
S103:将去除噪声词后的每个文件标题进行分割,得到针对每个文件标题对应的分割短语序列,其中,所述分割短语序列中包含至少一个分割短语;
具体的,可以根据所述文件标题中的分隔符对所述文件标题进行切割,其中所述分隔符包括但不限于空格、标点符号、“之”等。
下面以广场舞健身舞减肥操《山里红》为例进行说明。
广场舞健身舞减肥操《山里红》中的《》和空格为分隔符,根据分割符分割后得到的分割短语序列为:广场舞健身舞减肥操山里红。
同理,按照本发明实施例提供的方法,得到的分割短语序列为:
广场舞健身舞减肥操犯错
广场舞健身舞减肥操山里红
广场舞健身舞减肥操快乐歌谣
广场舞健身舞背水姑娘
广场舞民族舞纳西情歌
广场舞民族舞红头绳
广场舞民族舞牧歌
广场舞思密达
广场舞青春飞舞
广场舞醉月亮
广场舞爱是辣舞
S104:根据所述分割短语构建短语计数树。
具体的,构建短语计数树的过程参见图2,在实际应用中,根据所述分割短语构建短语计数树,包括:
S201:将所述每个文件标题对应的分割短语序列中均存在的分割短语,确定为所述短语计数树的根节点。
具体的,在实际应用中,通常情况下,会对分割短语按照层级关系进行排序;如果按照层级关系自上而下进行排序,则位于分割短语序列中第一位置的分割短语为短语计数树的根节点;如果按照层级关系自下而上进行排序,则位于分割短语序列中最后位置的分割短语为短语计数树的根节点。如果不对分割短语进行排序,则可以根据预先设置的多级分类结构,将第一级(顶级)结构对应的分割短语确定为短语计数树的根节点。
具体的,确定短语计数树的根节点为现有技术,本发明实施例在此不对其进行赘述。
S202:按照每个文件标题对应的分割短语序列包含的分割短语的顺序,依次针对每个分割短语,判断所述短语计数树中是否存在与该分割短语对应的节点,如果存在,执行S203,如果不存在,执行S204。
S203:增加与该分割短语对应的节点的计数值。
具体的,在实际应用中,增加与该分割短语对应的节点的计数值,可以以与所述初始值大小相同的值,增加与该分割短语对应的节点的计数值;
S204:在所述短语计数树中增加与该分割短语对应的节点,并为新增加的节点的计数值赋予初始值,其中,增加的与该分割短语对应的节点的父节点对应的分割短语为该分割短语的前一分割短语。
下面以上述的短语序列为例进行说明。
分割短语广场舞作为所有短语序列均存在的分割短语,作为整个短语计数树的根节点。
先判断分割短语序列“广场舞健身舞减肥操犯错”:
参见图2,先判断分割短语广场舞是否存在于短语计数树中:广场舞存在于短语计数树中,则将广场舞节点的计数值加1,此时广场舞节点的计数值为1。
再判断分割短语健身舞是否存在于短语计数树中,分割短语健身舞不存在,则以分割短语健身舞的前一分割短语为父节点增加健身舞为子节点,并给健身舞节点赋予初始值1。
再判断分割短语减肥操是否存在于短语计数树中,分割短语减肥操不存在,则以分割短语减肥操的前一分割短语为父节点增加减肥操为子节点,并给减肥操节点赋予初始值1。同理,再依次判断分割减肥操和犯错。
此时,分割短语序列“广场舞健身舞减肥操犯错”中的分割短语已经存在于短语计数树中。
然后再判断分割短语序列广场舞健身舞减肥操山里红:
判断分割短语广场舞是否存在于短语计数树中,分割短语广场舞存在,则将广场舞节点的计数值加1,此时广场舞节点的计数值为2。
再判断分割短语健身舞是否存在于短语计数树中,分割短语健身舞存在,则将健身舞节点的计数值加1,此时健身舞节点的计数值为2。
再判断分割短语减肥操是否存在于短语计数树中,分割短语减肥操存在,则将减肥操节点的计数值加1,此时健身舞节点的计数值为2。
再判断分割短语山里红是否存在于短语计数树中,分割短语山里红不存在,则以山里红的前一分割短语减肥操为父节点增加山里红为子节点,并给山里红节点赋予初始值1。
此时,分割短语序列“广场舞健身舞减肥操山里红”中的分割短语已经存在于短语计数树中。
同理,依次判断其他分割短语序列,并根据其构建短语计数树,构建完成的短语计数树参见图4。
S105:根据所述短语计数树对获得的文件标题进行聚类,以对所述文件标题对应的文件进行聚类。
具体的,根据所述短语计数树对获得的文件标题进行聚类的过程参见图3。
S301:按照叶子节点至根节点的顺序,依次判断所述短语计数树的每一节点的计数值是否不小于预设阈值,如果是,执行S302。
所述预设阈值为所述初始值的整倍数,且倍数大于1。
S302:将该节点确定为待保留节点,并将该节点的上一级节点至所述根节点构成的路径中包含的每一节点的计数值均减少该节点的计数值;
S304 :将每个待保留点节点的下一层的叶子节点对应的文件标题确定为一类;
S305 :将剩余未被分类的文件标题确定为一类。
具体的,在确定类后,还可以生成每一类文件标题的列表,其中,每一类文件标题的列表名称是由根节点至该类文件标题的列表对应的待保留节点的路径中包含的节点对应的分割短语构成的。
下面根据步骤S104中构建的短语计数树,进行详细说明,其中,假设预设阈值为2。
需要说明的是,本发明实施例不对叶子节点的判断顺序作出限定,任何可能的判断顺序均可出现在本申请中。
首先,判断背水姑娘节点的计数值小于设定阈值2,则背水姑娘节点不能被标记为待保留节点,因为以健身舞为根节点的其他节点还没有完成判断,因此健身舞节点还不能被标记为待保留节点。
再判断山里红、犯错和快乐歌谣节点的计数值小于设定阈值2,这三个节点不能被被标记为待保留节点。
继续判断,减肥操节点的计数值大于2,则把减肥操节点标记为待保留节点,并将减肥操节点的上一级节点健身舞节点至广场舞节点构成的路径中包含的每一节点的计数值均减少该节点的计数值,此时健身舞节点的计数值为4-3=1,广场舞节点的计数值为11-3=8。
继续判断,健身舞节点的计数值小于2,则健身舞节点不能被标记为待保留节点。因为广场舞节点为根节点的其他节点还没有完成判断,因此广场舞节点还不能被标记为待保留节点。
同理,思密达节点、醉月亮节点、爱是辣舞节点、青春飞舞节点的计数值均小于2,则不能被标记为待保留节点;民族舞节点的计数值大于2,则民族舞标记为待保留节点;因此广场舞节点的计数值为8-3=5。
参见图5,图5所示短语计数树中的广场舞节点、减肥操节点、民族舞节点为待保留节点。
将减肥操节点、民族舞节点的下一层叶子节点对应的文件标题分别确定为一类;将背水姑娘节点、思密达节点、醉月亮节点、爱是辣舞节点、青春飞舞节点对应的文件标题确定为一类。
所述对文件标题的聚类,实质上是将所述文件标题对应的文件确定为一类。
分类结果如下所示:
1、广场舞健身舞减肥操犯错
广场舞健身舞减肥操《山里红》背面慢动作
广场舞健身舞减肥操快乐歌谣
2、广场舞民族舞纳西情歌
广场舞民族舞红头绳广场舞教学背面.
广场舞民族舞《牧歌》附背面演示720P版
3、广场舞《青春飞舞》
广场舞《思密达》
广场舞醉月亮
广场舞爱是辣舞
广场舞健身舞背水姑娘
应用本发明实施例提供的方法,文件的召回率为100%。
需要说明的是,上述说明中使用的例子仅为本发明的一具体实例,并不够成对本发明的限定。
假设现有技术设定的匹配模板为“广场舞健身舞”,则得到的聚类如下:
广场舞健身舞减肥操犯错
广场舞健身舞减肥操《山里红》背面慢动作
广场舞健身舞减肥操快乐歌谣
广场舞健身舞背水姑娘
此种情况下文件的召回率为:36%。比本发明实施例所提供的文件聚类方法对应的文件召回率低。
假设现有技术设定的匹配模板为“广场舞民族舞”,则得到的聚类如下:
广场舞民族舞纳西情歌
广场舞民族舞红头绳广场舞教学背面
广场舞民族舞《牧歌》附背面演示720P版
此种情况下文件的召回率为:27.3%。比本发明实施例所提供的文件聚类方法对应的文件召回率低。
当且仅当现有技术将匹配模板设置为“广场舞”的情况下,现有技术和本发明实施例所提供的文件聚类方法对应的文件召回率相等。
但是,在实际应用中,通常情况下,不会将广场舞设置为匹配模板。其他情况,现有技术的文件召回率均比本发明实施例所提供的文件聚类方法对应的文件召回率低。因此,提高了文件召回率。
应用本发明实施例,自动构建短语计数树并对获得的文件标题进行自动聚类,避免了需要人工设计匹配模板的问题。并且提高了文件聚类的召回率。
图6为本发明实施例提供的另一种文件聚类方法的流程示意图,本发明图6 所示实施例在图1所示实施例的基础上,增加S106:生成每一类文件标题的列表,其中,每一类文件标题的列表名称是由根节点至该类文件标题的列表对应的待保留节点的路径中包含的节点对应的分割短语构成的。
具体的,针对减肥操节点确定的类生成的列表为:
广场舞健身舞减肥操犯错
广场舞健身舞减肥操《山里红》背面慢动作
广场舞健身舞减肥操快乐歌谣
在实际应用中,可以将构成列表名称的分割短语进行区分,可以在两个分割短语间增加字符“#”以进行区分,则该列表的名称可以为“广场舞#健身舞# 减肥操”。
具体的,在实际应用中,增加的字符不限定为“#”,任何可以对分割短语进行区分的字符均可应用于本申请中,比如字符“%”、“¥”等等。
同理,针对民族舞节点确定的类生成的列表为:
广场舞民族舞纳西情歌
广场舞民族舞红头绳广场舞教学背面.
广场舞民族舞《牧歌》附背面演示720P版
该列表的名称可以为“广场舞#民族舞”。
针对广场舞节点确定的类生成的列表为:
广场舞《青春飞舞》
广场舞《思密达》
广场舞醉月亮
广场舞爱是辣舞
广场舞健身舞背水姑娘
该列表的名称可以为“广场舞”。
应用本发明图6所示实施例,可以生成每一类文件标题的列表,使用户直观的获知每一个类中包含的文件。
与上述的方法实施例相对应,本发明实施例还公开了一种文件聚类装置。
图7为本发明实施例提供的一种文件聚类装置的结构示意图,可以包括:文件标题获取模块101、噪声词去除模块102、文件标题分割模块103、短语计数树构建模块104和聚类模块105,其中,
文件标题获取模块101,用于获得至少一个文件的文件标题。
噪声词去除模块102,用于去除至少一个文件标题中的每个文件标题的噪声词。
文件标题分割模块103,用于将去除噪声词后的每个文件标题进行分割,得到针对每个文件标题对应的分割短语序列,其中,所述分割短语序列中包含至少一个分割短语;
短语计数树构建模块104,用于根据所述分割短语构建短语计数树。
具体的,所述短语计数树构建模块104可以包括:根节点确定子模块、节点增加子模块、节点判断子模块和计数值更新子模块(图中未示出),其中:
根节点确定子模块,用于将所述每个文件标题对应的分割短语序列中均存在的分割短语,确定为所述短语计数树的根节点。
节点增加子模块,用于在节点判断子模块判断结果为否时,在所述短语计数树中增加与该分割短语对应的节点,并为新增加的节点的计数值赋予初始值,其中,增加的与该分割短语对应的节点的父节点对应的分割短语为该分割短语的前一分割短语。
节点判断子模块,用于按照每个文件标题对应的分割短语序列包含的分割短语的顺序,依次针对每个分割短语,判断所述短语计数树中是否存在与该分割短语对应的节点。
计数值更新子模块,用于在所述节点判断子模块的判断结果为是的情况下,增加与该分割短语对应的节点的计数值。
在实际应用中,所述计数值更新子模块,具体可以用于:
在所述节点判断子模块的判断结果为是的情况下,以与所述初始值大小相同的值,增加与该分割短语对应的节点的计数值。
聚类模块105,用于根据所述短语计数树对获得的文件标题进行聚类,以对所述文件标题对应的文件进行聚类。
具体的,所述聚类模块105可以包括,计数值判断子模块、待保留节点标记子模块、类生成子模块(图中未示出),其中:
计数值判断子模块,用于按照叶子节点至根节点的顺序,依次判断所述短语计数树的每一节点的计数值是否不小于预设阈值。
所述预设阈值为所述初始值的整倍数,且倍数大于1。
待保留节点标记子模块,用于在所述计数值判断子模块的判断结果为是时,将该节点确定为待保留节点,并将该节点的上一级节点至所述根节点构成的路径中包含的每一节点的计数值均减少该节点的计数值。
类生成子模块,用于将每个待保留点节点的下一层的叶子节点对应的文件标题确定为一类,并将剩余未被分类的文件标题确定为一类。
应用本发明图7所示实施例,自动构建短语计数树并对获得的文件标题进行自动聚类,避免了需要人工设计匹配模板的问题。并且提高了文件聚类的召回率。
图8为本发明实施例提供的另一种文件聚类装置的结构示意图,本发明图8 所示实施例在图7所示实施例的基础上,增加列表生成模块106,用于生成每一类文件标题的列表,其中,每一类文件标题的列表名称是由根节点至该类文件标题的列表对应的待保留节点的路径中包含的节点对应的分割短语构成的。
应用本发明图8所示实施例,可以生成每一类文件标题的列表,使用户直观的获知每一个类中包含的文件。
应用本发明实施例可以自动构建短语计数树并对获得的文件标题进行自动聚类,避免了需要人工设计匹配模板的问题,另外,在本发明实施例中,将未被确定到所述聚类的其他文件确定到另一聚类中,使相关的文件标题都可以被确定到聚类中,提高了文件聚类的平均召回率。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种文件聚类方法,其特征在于,所述方法包括:
获得至少一个文件的文件标题;
去除至少一个文件标题中的每个文件标题的噪声词;
将去除噪声词后的每个文件标题进行分割,得到针对每个文件标题对应的分割短语序列,其中,所述分割短语序列中包含至少一个分割短语;
根据所述分割短语构建短语计数树;
根据所述短语计数树对获得的文件标题进行聚类,以对所述文件标题对应的文件进行聚类;
所述根据所述分割短语构建短语计数树,包括:
将所述每个文件标题对应的分割短语序列中均存在的分割短语,确定为所述短语计数树的根节点;
按照每个文件标题对应的分割短语序列包含的分割短语的顺序,依次针对每个分割短语,判断所述短语计数树中是否存在与该分割短语对应的节点;
如果存在,增加与该分割短语对应的节点的计数值;
如果不存在,在所述短语计数树中增加与该分割短语对应的节点,并为新增加的节点的计数值赋予初始值,其中,增加的与该分割短语对应的节点的父节点对应的分割短语为该分割短语的前一分割短语。
2.根据权利要求1所述的方法,其特征在于,所述根据所述短语计数树对获得的文件标题进行聚类,包括:
按照叶子节点至根节点的顺序,依次判断所述短语计数树的每一节点的计数值是否不小于预设阈值;
如果是,将该节点确定为待保留节点,并将该节点的上一级节点至所述根节点构成的路径中包含的每一节点的计数值均减少该节点的计数值;
将每个待保留点节点的下一层的叶子节点对应的文件标题确定为一类;
将剩余未被分类的文件标题确定为一类。
3.根据权利要求2所述的方法,其特征在于,所述增加与该分割短语对应的节点的计数值,包括:
以与所述初始值大小相同的值,增加与该分割短语对应的节点的计数值;
所述预设阈值为:
所述初始值的整倍数,且倍数大于1。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
生成每一类文件标题的列表,其中,每一类文件标题的列表名称是由根节点至该类文件标题的列表对应的待保留节点的路径中包含的节点对应的分割短语构成的。
5.一种文件聚类装置,其特征在于,所述装置包括:文件标题获取模块、噪声词去除模块、文件标题分割模块、短语计数树构建模块和聚类模块,其中,
所述文件标题获取模块,用于获得至少一个文件的文件标题;
所述噪声词去除模块,用于去除至少一个文件标题中的每个文件标题的噪声词;
所述文件标题分割模块,用于将去除噪声词后的每个文件标题进行分割,得到针对每个文件标题对应的分割短语序列,其中,所述分割短语序列中包含至少一个分割短语;
所述短语计数树构建模块,用于根据所述分割短语构建短语计数树;
所述聚类模块,用于根据所述短语计数树对获得的文件标题进行聚类,以对所述文件标题对应的文件进行聚类;
所述短语计数树构建模块包括:根节点确定子模块、节点判断子模块、计数值更新子模块和节点增加子模块,其中,
所述根节点确定子模块,用于将所述每个文件标题对应的分割短语序列中均存在的分割短语,确定为所述短语计数树的根节点;
所述节点判断子模块,用于按照每个文件标题对应的分割短语序列包含的分割短语的顺序,依次针对每个分割短语,判断所述短语计数树中是否存在与该分割短语对应的节点;
所述计数值更新子模块,用于在节点判断子模块判断结果为是时,增加与该分割短语对应的节点的计数值;
所述节点增加子模块,用于在节点判断子模块判断结果为否时,在所述短语计数树中增加与该分割短语对应的节点,并为新增加的节点的计数值赋予初始值,其中,增加的与该分割短语对应的节点的父节点对应的分割短语为该分割短语的前一分割短语。
6.根据权利要求5所述的装置,其特征在于,所述聚类模块包括:计数值判断子模块、待保留节点标记子模块和类生成子模块,其中,
所述计数值判断子模块,用于按照叶子节点至根节点的顺序,依次判断所述短语计数树的每一节点的计数值是否不小于预设阈值;
所述待保留节点标记子模块,用于在所述计数值判断子模块的判断结果为是时,将该节点确定为待保留节点,并将该节点的上一级节点至所述根节点构成的路径中包含的每一节点的计数值均减少该节点的计数值;
所述类生成子模块,用于将每个待保留点节点的下一层的叶子节点对应的文件标题确定为一类,并将剩余未被分类的文件标题确定为一类。
7.根据权利要求6所述的装置,其特征在于,所述计数值更新子模块,具体用于:
在节点判断子模块判断结果为是时,以与所述初始值大小相同的值,增加与该分割短语对应的节点的计数值;
所述预设阈值为:所述初始值的整倍数,且倍数大于1。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:列表生成模块,用于生成每一类文件标题的列表,其中,每一类文件标题的列表名称是由根节点至该类文件标题的列表对应的待保留节点的路径中包含的节点对应的分割短语构成的。
CN201610512365.1A 2016-06-30 2016-06-30 一种文件聚类方法及装置 Active CN106202311B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610512365.1A CN106202311B (zh) 2016-06-30 2016-06-30 一种文件聚类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610512365.1A CN106202311B (zh) 2016-06-30 2016-06-30 一种文件聚类方法及装置

Publications (2)

Publication Number Publication Date
CN106202311A CN106202311A (zh) 2016-12-07
CN106202311B true CN106202311B (zh) 2020-03-10

Family

ID=57463068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610512365.1A Active CN106202311B (zh) 2016-06-30 2016-06-30 一种文件聚类方法及装置

Country Status (1)

Country Link
CN (1) CN106202311B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705273B (zh) * 2019-09-02 2023-06-13 腾讯科技(深圳)有限公司 基于神经网络的信息处理方法及装置、介质和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687932A (zh) * 2005-05-30 2005-10-26 北大方正集团有限公司 一种用于基于内容的海量图片快速检索的索引构建方法
CN1916889A (zh) * 2005-08-19 2007-02-21 株式会社日立制作所 语料库制作装置及其方法
US7453992B2 (en) * 2005-04-14 2008-11-18 International Business Machines Corporation System and method for management of call data using a vector based model and relational data structure
CN102253937A (zh) * 2010-05-18 2011-11-23 阿里巴巴集团控股有限公司 获取网页中的感兴趣信息的方法及相关装置
CN102253993A (zh) * 2011-07-08 2011-11-23 北京航空航天大学 一种基于词汇树的音频片段检索算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7453992B2 (en) * 2005-04-14 2008-11-18 International Business Machines Corporation System and method for management of call data using a vector based model and relational data structure
CN1687932A (zh) * 2005-05-30 2005-10-26 北大方正集团有限公司 一种用于基于内容的海量图片快速检索的索引构建方法
CN1916889A (zh) * 2005-08-19 2007-02-21 株式会社日立制作所 语料库制作装置及其方法
CN102253937A (zh) * 2010-05-18 2011-11-23 阿里巴巴集团控股有限公司 获取网页中的感兴趣信息的方法及相关装置
CN102253993A (zh) * 2011-07-08 2011-11-23 北京航空航天大学 一种基于词汇树的音频片段检索算法

Also Published As

Publication number Publication date
CN106202311A (zh) 2016-12-07

Similar Documents

Publication Publication Date Title
CN105183848A (zh) 基于人工智能的人机聊天方法和装置
CN103955453B (zh) 一种从文档集中自动发现新词的方法及装置
CN108304445B (zh) 一种文本摘要生成方法和装置
WO2017166512A1 (zh) 视频分类模型的训练方法和视频分类方法
CN109684513B (zh) 一种低质量视频识别方法及装置
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN102609465B (zh) 基于潜在社群的信息推荐方法
WO2013170587A1 (zh) 一种多媒体问答系统及方法
CN106897290B (zh) 一种建立关键词模型的方法及装置
KR101224312B1 (ko) 소셜 네트워킹 서비스 사용자를 위한 친구 추천 방법, 이를 위한 기록 매체 및 이를 이용하는 소셜 네트워킹 서비스 및 서버
CN101937436B (zh) 一种文本分类方法及装置
US8090720B2 (en) Method for merging document clusters
CN108108344B (zh) 一种联合识别和连接命名实体的方法及装置
CN104036023A (zh) 一种融合上下文的树形视频语义索引建立方法
CN109545185A (zh) 交互系统评价方法、评价系统、服务器及计算机可读介质
CN103970733A (zh) 一种基于图结构的中文新词识别方法
CN103631769A (zh) 一种判断文件内容与标题间一致性的方法及装置
CN103123636A (zh) 建立词条分类模型的方法、词条自动分类的方法和装置
CN109359201A (zh) 多媒体教学资源的编码、存储方法及其设备
CN112149386A (zh) 一种事件抽取方法、存储介质及服务器
CN105224520A (zh) 一种中文专利文献术语自动识别方法
CN107526805A (zh) 一种基于权重的ML‑kNN多标签中文文本分类方法
CN110968721A (zh) 一种海量图像侵权检索方法、系统及其计算机可读存储介质
CN106202311B (zh) 一种文件聚类方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant