CN109492110A - 文档分类方法及装置 - Google Patents

文档分类方法及装置 Download PDF

Info

Publication number
CN109492110A
CN109492110A CN201811434069.XA CN201811434069A CN109492110A CN 109492110 A CN109492110 A CN 109492110A CN 201811434069 A CN201811434069 A CN 201811434069A CN 109492110 A CN109492110 A CN 109492110A
Authority
CN
China
Prior art keywords
participle
document
similarity
target
participles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811434069.XA
Other languages
English (en)
Inventor
殷博
潘飚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Zhongfu Information Technology Co Ltd
Original Assignee
Nanjing Zhongfu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Zhongfu Information Technology Co Ltd filed Critical Nanjing Zhongfu Information Technology Co Ltd
Priority to CN201811434069.XA priority Critical patent/CN109492110A/zh
Publication of CN109492110A publication Critical patent/CN109492110A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文档管理技术领域,提供一种文档分类方法及装置,其中,所述方法包括:获取待分类文档,并提取待分类文档中的文本内容;对文本内容进行分词处理,得到包含多个分词的分词结果;滤除分词结果中的所有停用词,得到多个第一分词;按照预设规则,从多个第一分词中筛选出多个目标第一分词;依据多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度,并将目标相似度对应的文档类别作为待分类文档的文档类别,其中,每个文档分词集均包括多个文档分词。与现有技术相比,本发明提供的文档分类方法及装置提高了文档分类的效率。

Description

文档分类方法及装置
技术领域
本发明涉及文档管理技术领域,具体而言,涉及一种文档分类方法及装置。
背景技术
近年来,随着计算机的高性能化、存储介质的大容量化及计算机网络的普及等,使得使用计算机系统来大量地收集、存储并利用电子化的文档的信息成为了可能。
文档分类是指按照根据文档或内容的属性,对每一个文档确定一个类别,以便文档的管理,方便用户浏览、查找特定类别的文档。
现有技术中,一般是人工进行文档类别的分类,通过人工阅读一篇文档后,对该文档的类别进行划分,文档分类效率低。
发明内容
本发明的目的在于提供一种文档分类方法及装置,以改善上述现有技术中文档分类效率低的问题。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种文档分类方法,所述方法包括:获取待分类文档,并提取所述待分类文档中的文本内容;对所述文本内容进行分词处理,得到包含多个分词的分词结果;滤除所述分词结果中的所有停用词,得到多个第一分词;按照预设规则,从所述多个第一分词中筛选出多个目标第一分词;依据所述多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度,并将所述目标相似度对应的文档类别作为所述待分类文档的文档类别,其中,每个所述文档分词集均包括多个文档分词。
第二方面,本发明实施例提供了一种文档分类装置,所述装置包括:文档获取模块,用于获取待分类文档,并提取所述待分类文档中的文本内容;分词处理模块,用于对所述文本内容进行分词处理,得到包含多个分词的分词结果;停用词滤除模块,用于滤除所述分词结果中的所有停用词,得到多个第一分词;分词筛选模块,用于按照预设规则,从所述多个第一分词中筛选出多个目标第一分词;类别确定模块,用于依据所述多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度,并将所述目标相似度对应的文档类别作为所述待分类文档的文档类别,其中,每个所述文档分词集均包括多个文档分词。
相对现有技术,本发明实施例具有以下有益效果:
本发明实施例提供的一种文档分类方法及装置,通过对待分类文档中的文本类容进行分词、停用词处理,得到多个第一分词,并从多个第一分词中确定出多个目标第一分词,计算多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,并从中确定出目标相似度,将目标相似度对应的文档类别作为待分类文档的文档类别,实现了待分类文档的自动分类,提高了文档分类效率。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术用户员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的电子设备的方框示意图。
图2示出了本发明实施例提供的文档分类方法的流程图。
图3为图2示出的步骤S4的子步骤流程图。
图4为图3示出的子步骤S41的子步骤流程图。
图5为图3示出的子步骤S42的子步骤流程图。
图6示出了本发明实施例提供的文档类别及文档分词的示意图。
图7为图2示出的步骤S5的第一子步骤流程图。
图8为图7示出的子步骤S51的子步骤流程图。
图9为图2示出的步骤S5的第二子步骤流程图。
图10示出了本发明实施例提供的文档分类装置的方框示意图。
图标:100-电子设备;101-处理器;102-存储器;103-总线;104-通信接口;105-显示屏;200-文档分类装置;201-文档获取模块;202-分词处理模块;203-停用词滤除模块;204-分词筛选模块;205-类别确定模块。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术用户员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
本发明实施例提供的文档分类方法应用于电子设备100,电子设备100可以是,但不限于智能手机、平板电脑、个人计算机、车载电脑、个人数字助理(personal digitalassistant,PDA)等等。请参阅图1,图1示出了本发明实施例提供的电子设备100的方框示意图,电子设备100包括处理器101、存储器102、总线103、通信接口104及显示屏105。处理器101、存储器102、通信接口104及显示屏105通过总线103连接,处理器101用于执行存储器102中存储的可执行模块,例如计算机程序。
处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,文档分类方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器101,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
存储器102可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器102可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read OnlyMemory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
总线103可以是ISA(Industry Standard Architecture)总线、PCI(PeripheralComponent Interconnect)总线或EISA(Extended Industry Standard Architecture)总线等。图1中仅用一个双向箭头表示,但并不表示仅有一根总线103或一种类型的总线103。
电子设备100通过至少一个通信接口104(可以是有线或者无线)实现该电子设备100与外部设备之间的通信连接。存储器102用于存储程序,例如文档分类装置200。文档分类装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器102中或固化在电子设备100的操作系统(operating system,OS)中的软件功能模块。所述处理器101在接收到执行指令后,执行所述程序以实现文档分类方法。
显示屏105用于对图像进行显示,显示的内容可以是处理器101的一些处理结果。显示屏105可以是触摸显示屏、无交互功能的显示屏等。显示屏105可以将电子文档、文档分类结果进行显示。
应当理解的是,图1所示的结构仅为电子设备100的结构应用示意图,电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
第一实施例
请参阅图2,图2示出了本发明实施例提供的文档分类方法的流程图。文档分类方法包括以下步骤:
步骤S1,获取待分类文档,并提取待分类文档中的文本内容。
在本发明实施例中,待分类文档可以是需要进行文档分类的文档,文本内容可以是待分类文档中的所有字符,包括文字、符号、字母、数字等。获取待分类文档,并提取待分类文档中的文本内容的步骤,可以理解为,若待分类文档为纸质文档,可以通过打印机进行扫描,得到待分类文档中的文本内容,还可以通过摄像头对纸质文档进行拍摄,得到文档图像,再对文档图像进行字符识别,提取出文档图像中的所有字符,即为待分类文档的文本内容;若待分类文档为电子文档时,直接获取该电子文档,提取电子文档中的文本内容即可,电子文档可以是存储在电子设备100内部存储器102中的,也可以是通过通信接口104接收的,由其它电子设备100传输过来的。
步骤S2,对文本内容进行分词处理,得到包含多个分词的分词结果。
在本发明实施例中,分词结果可以是包含对文本内容进行分词处理得到的所有的分词。对文本内容可以通过基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法进行分词处理,得到分词结果。例如,文本内容为“卫星的重量直接关系到卫星的载荷数量和性能”时,那么,对文本内容进行分词处理,得到的分词结果可以是“卫星”、“的”、“重量”、“直接”、“关系”、“到”、“载荷”、“数量”、“和”、“性能”,其中,“卫星”和“的”两个分词在文本内容中均出现了两次。
步骤S3,滤除分词结果中的所有停用词,得到多个第一分词。
在本发明实施例中,停用词可以是,但不限于英文字符、数字、数学字符、标点符号和使用频率较高的字等。例如,“和”、“的”、“在”等。第一分词可以是分词结果中不包含停用词的分词。滤除分词结果中的所有停用词,得到多个第一分词的步骤,可以理解为,将分词结果中所有的分词中的停用词滤除,得到多个第一分词。例如,当分词结果为“卫星”、“的”、“重量”、“直接”、“关系”、“到”、“载荷”、“数量”、“和”、“性能”时,其中的停用词有“的”、“到”、“和”,滤除分词结果中的停用词,得到的多个第一分词为“卫星”、“重量”、“直接”、“关系”、“载荷”、“数量”、“性能”。
步骤S4,按照预设规则,从多个第一分词中筛选出多个目标第一分词。
在本发明实施例中,目标第一分词可以是在文本内容中出现的频次较高的第一分词。按照预设规则,从多个第一分词中筛选出多个目标第一分词的步骤,可以理解为,首先,统计每个第一分词在文本内容中出现的频次,然后,再依据频次的大小每个第一分词进行排序,最后,将其中高频次对应的第一分词作为目标第一分词。例如,文本内容为“卫星的重量直接关系到卫星的载荷数量和性能”,多个第一分词为“卫星”、“重量”、“直接”、“关系”、“载荷”、“数量”、“性能”,统计每个第一分词在文本内容中出现的频次,“卫星”出现的频次为2,“重量”、“直接”、“关系”、“载荷”、“数量”、“性能”出现的频次均为1,按照频次的大小对每个第一分词进行排序,得到“卫星”、“重量”、“直接”、“关系”、“载荷”、“数量”、“性能”,将高频次对应的第一分词“卫星”作为目标第一分词。需要说明的是,目标第一分词的数量可以由用户自定义得到,可以是30,也可以是50,在此不作限定。
请参照图3,步骤S4还可以包括以下子步骤:
子步骤S41,对每个第一分词均进行权重计算,得到每个第一分词的分词权重。
在本发明实施例中,分词权重可以是每个第一分词出现的频次与所有的第一分词出现的总频次比值。对每个第一分词均进行权重计算,得到每个第一分词的分词权重的步骤,可以理解为,首先,统计待分类文档中每个第一分词出现的频次,得到多个第一分词频次,然后,对多个第一分词频次进行求和,得到分词总频次;最后,依据每个第一分词频次及分词总频次,计算出每个第一分词频次对应的第一分词的分词权重。
请参照图4,子步骤S41可以包括以下子步骤:
子步骤S411,统计待分类文档中每个第一分词出现的频次,得到多个第一分词频次。
在本发明实施例中,第一分词频次可以是第一分词在待分类文档中的文本内容中出现的频次。例如,待分类文档的文本内容为“卫星的重量直接关系到卫星的载荷数量和性能”,多个第一分词为“卫星”、“重量”、“直接”、“关系”、“载荷”、“数量”、“性能”,统计待分类文档中每个第一分词出现的频次,“卫星”出现的频次为2,“重量”、“直接”、“关系”、“载荷”、“数量”、“性能”出现的频次均为1。
子步骤S412,对多个第一分词频次进行求和,得到分词总频次。
在本发明实施例中,分词总频次为所有的第一分词频次的总和。对多个第一分词频次进行求和,得到分词总频次,例如,“卫星”出现的频次为2,“重量”、“直接”、“关系”、“载荷”、“数量”、“性能”出现的频次均为1,那么,对所有的第一分词频次进行求和,分词总频次为2+1+1+1+1+1+1=8。
子步骤S413,依据每个第一分词频次及分词总频次,计算出每个第一分词频次对应的第一分词的分词权重。
在本发明实施例中,第一分词对应一个第一分词频次,也同时对应一个分词权重。依据每个第一分词频次及分词总频次,计算出每个第一分词频次对应的第一分词的分词权重的步骤,可以理解为,将每一个第一分词频次均与分词总频次进行除法运算,得到每个第一分词对应的分词权重。例如,第一分词“卫星”对应的第一分词频次为2,分词总频次为8,那么第一分词“卫星”对应的分词权重为2/8=0.25。
子步骤S42,从所有的分词权重中筛选出预设数目的目标分词权重,并获得每个目标分词权重对应的目标第一分词,得到多个目标第一分词。
在本发明实施例中,目标分词权重可以是在所有的分词权重中高权重值的分词权重。目标第一分词为目标分词权重对应的第一分词。预设数目可以由用户自定义得到,可以是30,也可以是50,在此不作限定。从所有的分词权重中筛选出预设数目的目标分词权重,并获得每个目标分词权重对应的目标第一分词,得到多个目标第一分词的步骤,可以理解为,从所有的分词权重中筛选出高权重值的分词权重作为目标分词权重,目标分词权重的数目是预设的,获取每个目标分词权重对应的第一分词,即可得到多个目标第一分词。
请参照图5,从所有的分词权重中筛选出预设数目的目标分词权重还可以包括以下子步骤:
子步骤S421,按照每个分词权重的权重值,对每个分词权重进行排序。
在本发明实施例中,按照每个分词权重的权重值,对分词权重进行排序,可以是从大到小进行排序,也可以是从小到大进行排序。例如,当第一分词“卫星”对应的分词权重是0.25,第一分词“重量”对应的分词权重是0.1,第一分词“数量”对应的分词权重是0.15,第一分词“载荷”对应的分词权重是0.2,第一分词“性能”对应的分词权重是0.17,第一分词“性能”对应的分词权重是0.13时,按照每个分词权重的权重值,对分词权重进行从大到小的排序,0.25>0.2>0.17>0.15>0.13>0.1。
子步骤S422,将预设数目个高权重值的分词权重均作为目标分词权重。
在本发明实施例中,将预设数目个高权重值的分词权重均作为目标分词权重的步骤,可以理解为,从顺序排列的分词权重中取出连续地预设数目个高权重值的分词权重,均作为目标分词权重。例如,当预设数目为2,顺序排列的分词权重为:第一分词“卫星”的分词权重0.25>第一分词“载荷”的分词权重0.2>第一分词“性能”的分词权重0.17>第一分词“数量”的分词权重0.15>第一分词“性能”的分词权重0.13>第一分词“重量”的分词权重0.1时,目标分词权重为第一分词“卫星”的分词权重0.25和第一分词“载荷”的分词权重0.2。
步骤S5,依据多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度,并将目标相似度对应的文档类别作为待分类文档的文档类别,其中,每个文档分词集均包括多个文档分词。
在本发明实施例中,文档分词集可以是包括多个文档分词的集合,每个文档分词集内的多个文档分词可以表征一类文档。例如,请参阅图6,“控制”、“设备”、“制造”、“工业”等文档分词构成的文档分词集可以表征工业制造类文档,“宇宙”“飞机”、“航行”、“天空”等文档分词构成的文档分词集可以表征航天航空类文档,“医生”“护理”、“救治”、“药品”等文档分词构成的文档分词集可以表征医学类文档。依据多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度,并将目标相似度对应的文档类别作为待分类文档的文档类别的步骤,可以理解为,将所有的目标第一分词与预先存储的每个文档类别对应的文档分词集内的多个文档分词进行比较,确定出所有的目标第一分词与每个文档类别对应的文档分词集内的多个文档分词一致的目标文档分词,依据多个目标文档分词和每个文档类别对应的目标文档分词,计算多个目标第一分词与每个文档类别对应的文档分词集内的多个文档分词的相似度,从多个相似度中确定出目标相似度,并将目标相似度对应的文档类别作为待分类文档的文档类别。例如,当所有的目标第一分词与工业制造类文档中的多个文档分词的相似度为25%,所有的目标第一分词与航空航天类文档中的多个文档分词的相似度为40%,所有的目标第一分词与医学类文档中的多个文档分词的相似度为5%时,确定出目标相似度为40%,即可将40%对应的航空航天类作为带分类文档的文档类别。
请参照图7,依据多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度可以包括以下子步骤:
子步骤S51,依据多个目标第一分词和每个文档分词集中多个文档分词,计算多个目标第一分词与每个文档分词集的相似度。
在本发明实施例中,依据多个目标第一分词和每个文档分词集中多个文档分词,计算多个目标第一分词与每个文档分词集的相似度的步骤,可以理解为,首先,统计多个目标第一分词的数量,得到第一分词数量;其次,将每个目标第一分词与每个文档分词集中的多个文档分词进行对比,并将每个文档分词集中与每个目标第一分词一致的文档分词均作为目标文档分词;然后,统计每个文档集中目标文档分词的数量,得到每个文档分词集的文档分词数量;最后,依据每个文档分词集的文档分词数量和第一分词数量,计算多个目标第一分词与每个文档分词集的相似度。
请参照图8,子步骤S51可以包括以下子步骤:
子步骤S511,统计多个目标第一分词的数量,得到第一分词数量。
在本发明实施例中,第一分词数量可以是所有的目标第一分词的数量,例如,当所有的目标第一分词分别为“卫星”、“载荷”、“重量”时,统计多个目标第一分词的数量,得到第一分词数量3。
子步骤S512,将每个目标第一分词与每个文档分词集中的多个文档分词进行对比,并将每个文档分词集中与每个目标第一分词一致的文档分词均作为目标文档分词。
在本发明实施例中,目标文档分词可以是所有的第一目标分词与文档分词集中均包含的分词。将每个目标第一分词与每个文档分词集中的多个文档分词进行对比,并将每个文档分词集中与每个目标第一分词一致的文档分词均作为目标文档分词,例如,当所有的目标第一分词分别为“卫星”、“载荷”、“重量”、“宇宙”和“航行”,航空航天类的文档分词集中包括“宇宙”“飞机”、“航行”、“天空”等文档分词时,将所有的目标第一文档分词与文档分词集中的多个文档分词进行对比,确认出目标文档分词为“宇宙”和“航行”,按照上述的方法,将所有的目标第一分词与多个文档分词集进行对比,以确定出所有的目标文档分词。
子步骤S513,统计每个文档集中目标文档分词的数量,得到每个文档分词集的文档分词数量。
在本发明实施例中,文档分词数量可以是每个文档分词集中的目标文档分词的数量。例如,工业制造类对应的目标文档分词为“控制”,航空航天类对应的目标文档分词为“宇宙”、“航行”,那么工业制造类的文档分词集的文档分词数量为1,航空航天类的文档分词集的文档分词数量为2。
子步骤S514,依据每个文档分词集的文档分词数量和第一分词数量,计算多个目标第一分词与每个文档分词集的相似度。
在本发明实施例中,一个文档类别对应一个文档分词集,也同时对应一个相似度。依据每个文档分词集的文档分词数量和第一分词数量,计算多个目标第一分词与每个文档分词集的相似度的步骤,可以理解为,将每个文档分词集的文档分词数量均与第一分词数量进行除法运算,得到多个目标第一分词与每个文档分词集的相似度。例如,航空航天类对应的文档分词集的文档分词数量为1,第一分词数量为2,那么,航空航天类对应的文档分词集与所有的第一目标分词的相似度为1/2=0.5。
子步骤S52,从多个相似度中确定出最大相似度。
在本发明实施例中,将多个相似度进行对比,确定出最大的一个相似速,即为最大相似度。
子步骤S53,将最大相似度与预设相似度进行对比,并在最大相似度大于预设相似度时,将最大相似度作为目标相似度。
在本发明实施例中,预设相似度可以是用户自定义用于确定文档类别的最小相似度。例如,30%。将最大相似度与预设相似度进行对比,并在最大相似度大于预设相似度时,将最大相似度作为目标相似度,例如,最大相似度为50%,将最大相似度50%与预设相似度30%进行比较,50%>30%,最大相似度>预设相似度,那么该最大相似度即为目标相似度。
请参照图9,依据多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度还可以包括以下子步骤:
子步骤S54,依据多个目标第一分词和每个文档分词集中多个文档分词,计算多个目标第一分词与每个文档分词集的相似度。
在本发明实施例中,依据多个目标第一分词和每个文档分词集中多个文档分词,计算多个目标第一分词与每个文档分词集的相似度的步骤,可以理解为,首先,统计多个目标第一分词的数量,得到第一分词数量;其次,将每个目标第一分词与每个文档分词集中的多个文档分词进行对比,并将每个文档分词集中与每个目标第一分词一致的文档分词均作为目标文档分词;然后,统计每个文档集中目标文档分词的数量,得到每个文档分词集的文档分词数量;最后,依据每个文档分词集的文档分词数量和第一分词数量,计算多个目标第一分词与每个文档分词集的相似度。子步骤S54与子步骤S51一致,在此不在赘述。
子步骤S55,将每个相似度均与预设相似度进行对比,得到至少一个中间相似度,其中,每个中间相似度均大于预设相似度。
在本发明实施例中,中间相似度可以是多个相似度中大于预设相似度的相似度,预设相似度可以是用户自定义用于确定文档类别的最小相似度。将每个相似度均与预设相似度进行对比,得到至少一个中间相似度的步骤,可以理解为,将每个相似度均与预设相似度进行对比,将大于预设相似度的相似度均作为中间相似度。例如,将相似度35%、相似度10%和相似度50%均与预设相似度30%进行比较,35%>30%,10%<30%,50%>30%,那么中间相似度为相似度35%和相似度50%。
子步骤S56,将至少一个中间相似度中的最大中间相似度作为目标相似度。
在本发明实施例中,将至少一个中间相似度中的最大中间相似度作为目标相似度的步骤,可以理解为,当中间相似度的数量只有一个时,将该中间相似度作为目标相似度;当中间相似度的数量为多个时,将多个中间相似度进行比较,确定出最大的中间相似度,并作为目标相似度。
与现有技术相比,本发明实施例具有以下优势:
首先,通过滤除分词结果中所有的停用词,避免了停用词对文档分类结果的影响,使得文档分类结果更加精准。
其次,将目标相似度对应的文档类别作为待分类文档的文档类别,实现了待分类文档的自动分类,提高了文档分类效率,同时也节省了劳动力。
第二实施例
请参阅图10,图10示出了本发明实施例提供的文档分类装置200的方框示意图。文档分类装置200包括文档获取模块201、分词处理模块202、停用词滤除模块203、分词筛选模块204及类别确定模块205。
文档获取模块201,用于获取待分类文档,并提取待分类文档中的文本内容。
可以理解为,文档获取模块201可以执行上述步骤S1。
分词处理模块202,用于对文本内容进行分词处理,得到包含多个分词的分词结果。
可以理解为,分词处理模块202可以执行上述步骤S2。
停用词滤除模块203,用于滤除分词结果中的所有停用词,得到多个第一分词。
可以理解为,停用词滤除模块203可以执行上述步骤S3。
分词筛选模块204,用于按照预设规则,从多个第一分词中筛选出多个目标第一分词。
可以理解为,分词筛选模块204可以执行上述步骤S4。
在本发明实施例中,分词筛选模块204具体用于:对每个第一分词均进行权重计算,得到每个第一分词的分词权重;从所有的分词权重中筛选出预设数目的目标分词权重,并获得每个目标分词权重对应的目标第一分词,得到多个目标第一分词。
分词筛选模块204执行对每个第一分词均进行权重计算,得到每个第一分词的分词权重步骤的方式,具体包括:首先,统计待分类文档中每个第一分词出现的频次,得到多个第一分词频次;其次,对多个第一分词频次进行求和,得到分词总频次;依据每个第一分词频次及分词总频次,计算出每个第一分词频次对应的第一分词的分词权重。
分词筛选模块204执行从所有的分词权重中筛选出预设数目的目标分词权重步骤的方式,具体包括:按照每个分词权重的权重值,对每个分词权重进行排序;将预设数目个高权重值的分词权重均作为目标分词权重。
类别确定模块205,用于依据多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度,并将目标相似度对应的文档类别作为待分类文档的文档类别,其中,每个文档分词集均包括多个文档分词。
类别确定模块205执行依据多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度步骤的方式,可以具体包括:首先,依据多个目标第一分词和每个文档分词集中多个文档分词,计算多个目标第一分词与每个文档分词集的相似度;其次,从多个相似度中确定出最大相似度;最后,将最大相似度与预设相似度进行对比,并在最大相似度大于预设相似度时,将最大相似度作为目标相似度。
类别确定模块205执行依据多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度步骤的方式,还可以具体包括:首先,依据多个目标第一分词和每个文档分词集中多个文档分词,计算多个目标第一分词与每个文档分词集的相似度;其次,将每个相似度均与预设相似度进行对比,得到至少一个中间相似度,其中,每个中间相似度均大于预设相似度;最后,将至少一个中间相似度中的最大中间相似度作为目标相似度。
类别确定模块205执行依据多个目标第一分词和每个文档分词集中多个文档分词,计算多个目标第一分词与每个文档分词集的相似度步骤的方式,可以具体包括:首先,统计多个目标第一分词的数量,得到第一分词数量;其次,将每个目标第一分词与每个文档分词集中的多个文档分词进行对比,并将每个文档分词集中与每个目标第一分词一致的文档分词均作为目标文档分词;然后,统计每个文档集中目标文档分词的数量,得到每个文档分词集的文档分词数量;最后,依据每个文档分词集的文档分词数量和第一分词数量,计算多个目标第一分词与每个文档分词集的相似度。
综上所述,本发明实施例提供一种文档分类方法及装置,所述方法包括:获取待分类文档,并提取待分类文档中的文本内容;对文本内容进行分词处理,得到包含多个分词的分词结果;滤除分词结果中的所有停用词,得到多个第一分词;按照预设规则,从多个第一分词中筛选出多个目标第一分词;依据多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度,并将目标相似度对应的文档类别作为待分类文档的文档类别。与现有技术相比,本发明实施例提供的文档分类方法,首先,通过滤除分词结果中所有的停用词,避免了停用词对文档分类结果的影响,使得文档分类结果更加精准。其次,将目标相似度对应的文档类别作为待分类文档的文档类别,实现了待分类文档的自动分类,提高了文档分类效率,同时也节省了劳动力。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

Claims (10)

1.一种文档分类方法,其特征在于,所述方法包括:
获取待分类文档,并提取所述待分类文档中的文本内容;
对所述文本内容进行分词处理,得到包含多个分词的分词结果;
滤除所述分词结果中的所有停用词,得到多个第一分词;
按照预设规则,从所述多个第一分词中筛选出多个目标第一分词;
依据所述多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度,并将所述目标相似度对应的文档类别作为所述待分类文档的文档类别,其中,每个所述文档分词集均包括多个文档分词。
2.如权利要求1所述的方法,其特征在于,所述按照预设规则,从所述多个第一分词中筛选出多个目标第一分词的步骤,包括:
对每个第一分词均进行权重计算,得到每个第一分词的分词权重;
从所有的分词权重中筛选出预设数目的目标分词权重,并获得每个目标分词权重对应的目标第一分词,得到多个目标第一分词。
3.如权利要求2所述的方法,其特征在于,所述对每个第一分词均进行权重计算,得到每个第一分词的分词权重的步骤,包括:
统计所述待分类文档中每个第一分词出现的频次,得到多个第一分词频次;
对所述多个第一分词频次进行求和,得到分词总频次;
依据每个第一分词频次及所述分词总频次,计算出每个第一分词频次对应的第一分词的分词权重。
4.如权利要求2所述的方法,其特征在于,所述从所有的分词权重中筛选出预设数目的目标分词权重的步骤,包括:
按照每个分词权重的权重值,对每个分词权重进行排序;
将预设数目个高权重值的分词权重均作为目标分词权重。
5.如权利要求1所述的方法,其特征在于,所述依据所述多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度的步骤,包括:
依据所述多个目标第一分词和每个文档分词集中多个文档分词,计算所述多个目标第一分词与每个所述文档分词集的相似度;
从多个相似度中确定出最大相似度;
将所述最大相似度与预设相似度进行对比,并在所述最大相似度大于所述预设相似度时,将所述最大相似度作为目标相似度。
6.如权利要求1所述的方法,其特征在于,所述依据所述多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度的步骤,包括:
依据所述多个目标第一分词和每个文档分词集中多个文档分词,计算所述多个目标第一分词与每个所述文档分词集的相似度;
将每个相似度均与预设相似度进行对比,得到至少一个中间相似度,其中,每个所述中间相似度均大于预设相似度;
将所述至少一个中间相似度中的最大中间相似度作为目标相似度。
7.如权利要求5或6所述的方法,其特征在于,所述依据所述多个目标第一分词和每个文档分词集中多个文档分词,计算所述多个目标第一分词与每个所述文档分词集的相似度的步骤,包括:
统计多个目标第一分词的数量,得到第一分词数量;
将每个目标第一分词与每个文档分词集中的多个文档分词进行对比,并将每个文档分词集中与每个目标第一分词一致的文档分词均作为目标文档分词;
统计每个文档集中目标文档分词的数量,得到每个文档分词集的文档分词数量;
依据每个文档分词集的文档分词数量和所述第一分词数量,计算所述多个目标第一分词与每个所述文档分词集的相似度。
8.一种文档分类装置,其特征在于,所述装置包括:
文档获取模块,用于获取待分类文档,并提取所述待分类文档中的文本内容;
分词处理模块,用于对所述文本内容进行分词处理,得到包含多个分词的分词结果;
停用词滤除模块,用于滤除所述分词结果中的所有停用词,得到多个第一分词;
分词筛选模块,用于按照预设规则,从所述多个第一分词中筛选出多个目标第一分词;
类别确定模块,用于依据所述多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度,并将所述目标相似度对应的文档类别作为所述待分类文档的文档类别,其中,每个所述文档分词集均包括多个文档分词。
9.如权利要求8所述的装置,其特征在于,所述分词筛选模块具体用于:
对每个第一分词均进行权重计算,得到每个第一分词的分词权重;
从所有的分词权重中筛选出预设数目的目标分词权重,并获得每个目标分词权重对应的目标第一分词,得到多个目标第一分词。
10.如权利要求8所述的装置,其特征在于,所述类别确定模块具体用于:
依据所述多个目标第一分词和每个文档分词集中多个文档分词,计算所述多个目标第一分词与每个所述文档分词集的相似度;
将每个相似度均与预设相似度进行对比,得到至少一个中间相似度,其中,每个所述中间相似度均大于预设相似度;
将所述至少一个中间相似度中的最大中间相似度作为目标相似度。
CN201811434069.XA 2018-11-28 2018-11-28 文档分类方法及装置 Pending CN109492110A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811434069.XA CN109492110A (zh) 2018-11-28 2018-11-28 文档分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811434069.XA CN109492110A (zh) 2018-11-28 2018-11-28 文档分类方法及装置

Publications (1)

Publication Number Publication Date
CN109492110A true CN109492110A (zh) 2019-03-19

Family

ID=65698028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811434069.XA Pending CN109492110A (zh) 2018-11-28 2018-11-28 文档分类方法及装置

Country Status (1)

Country Link
CN (1) CN109492110A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110328A (zh) * 2019-04-26 2019-08-09 北京零秒科技有限公司 文本处理方法及装置
CN110263171A (zh) * 2019-06-25 2019-09-20 腾讯科技(深圳)有限公司 文档分类方法、装置及终端
CN110321433A (zh) * 2019-06-26 2019-10-11 阿里巴巴集团控股有限公司 确定文本类别的方法及装置
CN110990577A (zh) * 2019-12-25 2020-04-10 北京亚信数据有限公司 一种文本分类方法和装置
CN111178070A (zh) * 2019-12-25 2020-05-19 平安医疗健康管理股份有限公司 基于分词的单词序列获取方法、装置和计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831246A (zh) * 2012-09-17 2012-12-19 中央民族大学 藏文网页分类方法和装置
WO2016200359A1 (en) * 2015-06-06 2016-12-15 Hewlett-Packard Development Company, L.P Term scores
CN107045524A (zh) * 2016-12-30 2017-08-15 中央民族大学 一种网络文本舆情分类的方法及系统
CN107729520A (zh) * 2017-10-27 2018-02-23 北京锐安科技有限公司 文件分类方法、装置、计算机设备及计算机可读介质
CN107783959A (zh) * 2017-09-02 2018-03-09 南京中孚信息技术有限公司 一种基于贝叶斯预测的处警、接警信息评分方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831246A (zh) * 2012-09-17 2012-12-19 中央民族大学 藏文网页分类方法和装置
WO2016200359A1 (en) * 2015-06-06 2016-12-15 Hewlett-Packard Development Company, L.P Term scores
CN107045524A (zh) * 2016-12-30 2017-08-15 中央民族大学 一种网络文本舆情分类的方法及系统
CN107783959A (zh) * 2017-09-02 2018-03-09 南京中孚信息技术有限公司 一种基于贝叶斯预测的处警、接警信息评分方法
CN107729520A (zh) * 2017-10-27 2018-02-23 北京锐安科技有限公司 文件分类方法、装置、计算机设备及计算机可读介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
沈固朝等: "《网络信息检索 工具·方法·实践》", 31 August 2004, 高等教育出版社 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110328A (zh) * 2019-04-26 2019-08-09 北京零秒科技有限公司 文本处理方法及装置
CN110110328B (zh) * 2019-04-26 2023-09-01 北京零秒科技有限公司 文本处理方法及装置
CN110263171A (zh) * 2019-06-25 2019-09-20 腾讯科技(深圳)有限公司 文档分类方法、装置及终端
CN110263171B (zh) * 2019-06-25 2023-07-18 腾讯科技(深圳)有限公司 文档分类方法、装置及终端
CN110321433A (zh) * 2019-06-26 2019-10-11 阿里巴巴集团控股有限公司 确定文本类别的方法及装置
CN110321433B (zh) * 2019-06-26 2023-04-07 创新先进技术有限公司 确定文本类别的方法及装置
CN110990577A (zh) * 2019-12-25 2020-04-10 北京亚信数据有限公司 一种文本分类方法和装置
CN111178070A (zh) * 2019-12-25 2020-05-19 平安医疗健康管理股份有限公司 基于分词的单词序列获取方法、装置和计算机设备
CN111178070B (zh) * 2019-12-25 2022-11-25 深圳平安医疗健康科技服务有限公司 基于分词的单词序列获取方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN109492110A (zh) 文档分类方法及装置
CN103995889B (zh) 图片分类方法及装置
CN108256568B (zh) 一种植物种类识别方法以及装置
CN109815314B (zh) 一种意图识别方法、识别设备及计算机可读存储介质
Puri et al. Recognition and volume estimation of food intake using a mobile device
CN104572735B (zh) 一种图片标注词推荐方法及装置
CN109800320B (zh) 一种图像处理方法、设备及计算机可读存储介质
CN106599155A (zh) 一种网页分类方法及系统
CN111046879B (zh) 证件图像分类方法、装置、计算机设备及可读存储介质
CN105956083A (zh) 应用软件分类系统、应用软件分类方法及服务器
CN107562742A (zh) 一种图像数据处理方法及装置
Yasmin et al. Content based image retrieval by shape, color and relevance feedback
CN105139041A (zh) 基于图像的语种识别方法及装置
CN106446931A (zh) 基于支持向量数据描述的特征提取及分类方法及其系统
CN109698016A (zh) 疾病自动编码方法及装置
CN109426785A (zh) 一种人体目标身份识别方法及装置
CN106708940A (zh) 用于处理图片的方法和装置
CN115062186B (zh) 一种视频内容检索方法、装置、设备以及存储介质
CN108959265A (zh) 跨领域文本情感分类方法、装置、计算机设备及存储介质
CN105117740A (zh) 字体识别方法及装置
CN109165657A (zh) 一种基于改进sift的图像特征检测方法及装置
CN108986125A (zh) 物体边缘提取方法、装置及电子设备
CN104966109B (zh) 医疗化验单图像分类方法及装置
CN106445907A (zh) 一种领域词典的生成方法及装置
CN103886077A (zh) 短文本的聚类方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190319